以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、特許出願文書を作成する上で使用できるテンプレート情報を作成する情報処理装置について説明する。
図1は、本実施の形態における情報処理装置1のブロック図である。
情報処理装置1は、特許情報記憶部101、構成要素情報抽出パターン記憶部102、構成要素情報抽出部103、実現手段情報抽出パターン記憶部104、用語情報抽出パターン記憶部105、テンプレート情報抽出部106、テンプレート情報加工部107、蓄積方法判断部108、判断結果出力部109、蓄積方法情報受付部110、テンプレート情報蓄積部111、を備える。
特許情報記憶部101は、1以上の特許情報を記憶する。なお、本実施の形態では、特許情報記憶部101が2以上の特許情報を記憶している場合について説明する。
ここで、特許情報とは、特許発明の内容を示す情報である明細書情報を含んでおり、1以上の請求項を含む特許請求の範囲を示す請求項情報や願書などの書誌的な情報、図面、要約書などの情報を含んでいてもよい。また、特許情報は、特許出願を行った文書でもよいし、特許出願が可能な文書でもよいし、特許出願が行える状態ではない作成途中の文書などでもよい。
明細書情報は、例えば、いわゆる「明細書」の情報でもよく、公開特許公報などにおける[発明の詳細な説明]の欄の情報であってもよい。
また、明細書情報は、符号を示す文字列である符号情報と、発明を構成する構成要素を示す文字列である構成要素情報と、を対応付ける符号の説明を示す符号説明情報を含んでいてもよい。構成要素情報は、例えば、「情報入力部」、「情報送信手段」、「バネ」、「ボルト」などである。符号情報は、半角や全角、大文字、小文字を問わない英数字の混合文字列であって、例えば、「11」、「1221」、「11」、「1221」、「11A」、「11b」、「11A」、「11b」などである。
請求項情報は、例えば、いわゆる「特許請求の範囲」に含まれる全部、または一部の請求項を示す情報であってもよい。また、請求項情報は、任意の構成要素や情報などに対して、処理や説明などの付加を行う旨が記載された請求項である内的付加請求項を示す情報である内的付加請求項情報を含んでいてもよい。
内的付加請求項とは、例えば、「前記特許情報解析結果記憶部が記憶している特許情報の解析結果をも出力する請求項1記載の情報処理装置。」といった内容を含む請求項である。また、任意の請求項が内的付加請求項であるかどうかの判断は、例えば、判断対象とする請求項に含まれる構成要素が、その判断対象とする請求項が従属している請求項に含まれていれば、その判断対象とする請求項は内的付加請求項であるとするという方法であってもよいし、内的付加請求項にそれが判別できるための情報があらかじめ付与されており、それにより判断するという方法であってもよい。
特許情報記憶部101は、揮発性の一時メモリ(いわゆるメインメモリなど)でも、ハードディスクやCD−ROMなどの不揮発性のメモリでもよい。また、特許情報記憶部101に特許情報が記憶される過程は問わない。例えば、記録媒体を介して特許情報が特許情報記憶部101で記憶されるようになってもよく、通信回線などを介して送信された特許情報が特許情報記憶部101で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された特許情報が特許情報記憶部101で記憶されるようになってもよい。
構成要素情報抽出パターン記憶部102は、構成要素開始語句情報と構成要素終了語句情報を記憶する。
ここで、構成要素開始語句情報とは、構成要素情報の開始であることを示す文字列である。この構成要素開始語句情報は、後述する構成要素情報抽出部103が構成要素情報を抽出する際に手掛かり句として使用する情報である。構成要素開始語句情報は、例えば、「する」、「ある」、「いる」、「える」などである。
また、構成要素終了語句情報とは、構成要素情報の終了であることを示す文字列である。この構成要素終了語句情報は、後述する構成要素情報抽出部103が構成要素情報を抽出する際に手掛かり句として使用する情報である。構成要素終了語句情報は、例えば、「を備え」、「をもさらに備え」、「と、<改行>」などである。ここで、「<改行>」は、文字列中の改行を意味する。
構成要素情報抽出パターン記憶部102は、揮発性の一時メモリ(いわゆるメインメモリなど)でもハードディスクやCD−ROMなどの不揮発性のメモリでもよい。また、構成要素情報抽出パターン記憶部102に構成要素開始語句情報と構成要素終了語句情報が記憶される過程は問わない。例えば、記録媒体を介して構成要素開始語句情報と構成要素終了語句情報が構成要素情報抽出パターン記憶部102で記憶されるようになってもよい。また、通信回線などを介して送信された構成要素開始語句情報と構成要素終了語句情報が構成要素情報抽出パターン記憶部102で記憶されるようになってもよい。さらに、入力デバイスを介して入力された構成要素開始語句情報と構成要素終了語句情報が構成要素情報抽出パターン記憶部102で記憶されるようになってもよい。
構成要素情報抽出部103は、特許情報に含まれる請求項情報から構成要素情報を抽出する。この場合、構成要素情報抽出部103は、例えば、構成要素情報抽出パターン記憶部102が記憶している構成要素開始語句情報と構成要素終了語句情報との間に挟まれた文字列である構成要素情報を、請求項情報から1以上抽出してもよい。
また、構成要素情報抽出部103は、特許情報が含む符号説明情報から構成要素情報を抽出してもよい。この場合、構成要素情報抽出部103は、例えば、特許情報に含まれる符号説明情報を抽出し、その符号説明情報に含まれる符号情報を除去し、残った構成要素情報を抽出するようにしてもよい。
構成要素情報抽出部103は、通常、MPUやメモリ等から実現され得る。構成要素情報抽出部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
実現手段情報抽出パターン記憶部104は、実現手段文節語句情報と実現手段文末語句情報を記憶する。
ここで、実現手段文節語句情報とは、助詞の後ろに読点を付与した文字列である。この実現手段文節語句情報は、後述するテンプレート情報抽出部106が実現手段情報を抽出する際に手掛り句として使用する情報である。実現手段文節語句情報は、例えば、「は、」、「が、」、「とは、」などである。
また、実現手段文末語句情報とは、単文における文の最後を示す文字列や、複文における節の最後を示す文字列である。この実現手段文末語句情報は、後述するテンプレート情報抽出部106が実現手段情報を抽出する際に手掛かり句として使用する情報である。実現手段文末語句情報は、例えば、「ある。」、「よい。」、「ある」、「よい」、「あって、」、「よく、」などである。
実現手段情報抽出パターン記憶部104は、揮発性の一時メモリ(いわゆるメインメモリなど)でも、ハードディスクやCD−ROMなどの不揮発性のメモリでもよい。また、実現手段情報抽出パターン記憶部104に実現手段文節語句情報と実現手段文末語句情報が記憶される過程は問わない。例えば、記録媒体を介して実現手段文節語句情報と実現手段文末語句情報が実現手段情報抽出パターン記憶部104で記憶されるようになってもよい。また、通信回線などを介して送信された実現手段文節語句情報と実現手段文末語句情報が実現手段情報抽出パターン記憶部104で記憶されるようになってもよい。さらに、入力デバイスを介して入力された実現手段文節語句情報と実現手段文末語句情報が実現手段情報抽出パターン記憶部104で記憶されるようになってもよい。
用語情報抽出パターン記憶部105は、用語文節語句情報と用語文末語句情報を記憶する。
ここで、用語文節語句情報とは、助詞の後ろに読点を付与した文字列である。この用語文節語句情報は、後述するテンプレート情報抽出部106が用語情報を抽出する際に手掛かり句として使用する情報である。用語文節語句情報は、例えば、「は、」、「が、」、「とは、」などである。
また、用語文末語句情報とは、単文における文の最後を示す文字列や、複文における節の最後を示す文字列である。この用語文末語句情報は、後述するテンプレート情報抽出部106が用語情報を抽出する際に手掛かり句として使用する情報である。用語文末語句情報は、例えば、「ある。」、「よい。」、「ある」、「よい」、「あって、」、「よく、」などである。
用語情報抽出パターン記憶部105は、揮発性の一時メモリ(いわゆるメインメモリなど)でも、ハードディスクやCD−ROMなどの不揮発性のメモリでもよい。また、用語情報抽出パターン記憶部105に用語文節語句情報と用語文末語句情報が記憶される過程は問わない。例えば、記録媒体を介して用語文節語句情報と用語文末語句情報が用語情報抽出パターン記憶部105で記憶されるようになってもよい。また、通信回線などを介して送信された用語文節語句情報と用語文末語句情報が用語情報抽出パターン記憶部105で記憶されるようになってもよい。さらに、入力デバイスを介して入力された用語文節語句情報と用語文末語句情報が用語情報抽出パターン記憶部105で記憶されるようになってもよい。
テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報から、1以上の文を含む情報であるテンプレート情報を抽出する。
ここで、テンプレート情報とは、特許出願文書を作成する上で再利用可能な情報である。テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報を読み出し、特許情報に含まれる見出情報が付与された情報ごとに、特許情報に含まれる1以上の文を含む情報が再利用可能であるか否かを判断し、
テンプレート情報を抽出する。
また、テンプレート情報は、決まり文句情報、スタイルファイル情報、実現手段情報、用語情報のいずれかのうち少なくとも1つが含まれる情報である。
決まり文句情報とスタイルファイル情報は、N個以上の異なる特許情報において共通する情報である。共通するとは、2つ以上の情報が完全一致していることや、2つ以上の情報の類似度がある一定以上であることを意味する。
この共通情報は、一般的にテキスト情報であるが、テキスト情報以外の情報を含んでいてもよい。また、Nは、2以上の任意の整数であって、例えば、あらかじめ決められた数であってもよく、算出された値であってもよい。前者の場合であれば、例えば、「2」や「10」などである。後者の場合であれば、例えば、特許情報記憶部101が記憶している特許情報の数の1/2の値にNが決められる、などでもよい。本実施の形態では、Nが2に設定されている場合について説明する。
決まり文句情報とは、N個以上の異なる特許情報において、同一の見出情報が付された情報内において共通する1以上の文を含む情報である。この見出情報は、例えば、墨付き括弧などのタグに挟まれた情報や、そのタグに挟まれた情報に隣接する情報などを含んでいてもよい。前者であれば、例えば、請求項情報における[書類名]、[請求項1]、[請求項2]などや、明細書情報における[技術分野]、[背景技術]、[発明が解決しようとする課題]などである。後者であれば、請求項情報における[書類名]に隣接する文字列「特許請求の範囲」や、明細書情報における[書類名]に隣接する文字列「明細書」などである。決まり文句情報は、例えば、明細書情報における[発明を実施するための形態]の欄や、ブロック図の説明、フローチャートの説明などにおける冒頭部分で使用される文などであってもよい。
スタイルファイル情報とは、見出情報を2以上含む情報である。スタイルファイル情報は、例えば、[技術分野]、[背景技術]、[発明が解決しようとする課題]などの見出情報の集合であってもよい。
また、スタイルファイル情報は、例えば、見出情報と決まり文句情報の両方を含むものであってもよい。例えば、見出情報によって示される見出しごとに、その見出しの欄に含まれる決まり文句情報を含む情報などである。
実現手段情報とは、実現手段名称情報と実現手段説明情報を対応付ける情報である。
実現手段名称情報は、構成要素情報が含む名称を示す文字列である。実現手段名称情報は、例えば、構成要素情報が「情報入力部」であれば「入力」、構成要素情報が「情報出力部」であれば「出力」など、「する」を付与することによりサ行変格活用動詞となる語句などであってもよい。また、実現手段名称情報は、構成要素情報が含む文字列「部」や文字列「手段」を削除した文字列に対して形態素解析を行い、名詞として出力される最後の語句であってもよい。さらに、実現手段名称情報は、例えば、構成要素情報が「バネ」や「ボルト」など、文字列「部」や文字列「手段」を含まない場合であれば、構成要素情報を実現手段名称情報としてもよい。
実現手段説明情報は、構成要素が実現され得る方法についての情報であり、例えば、「揮発性の媒体でもよく、不揮発性の媒体でもよい。」や「実現され得る手段は、ハードウェア、ソフトウェアを問わない。」などである。また、実現手段説明情報は、後述する加工により、任意の文字列が付与された情報であってもよい。例えば、実現手段名称情報を抽出した対象となる構成要素情報を主語として扱うための文字列「<構成要素>は、」が付与された「<構成要素>は、揮発性の媒体でもよく、不揮発性の媒体でもよい。」などである。
実現手段情報は、これらの実現手段名称情報と実現手段説明情報を対応付ける情報であり、例えば、「記憶|揮発性の媒体でもよく、不揮発性の媒体でもよい。」などである。ここで、実現手段名称情報と実現手段説明情報を対応付けるとは、任意の実現手段名称情報に対して、1つ以上の実現手段説明情報を特定できることを意味する。
また、この実現手段情報は、内的付加請求項情報が含む実現手段名称情報と実現手段説明情報を対応付ける情報を含んでいてもよい。例えば、内的付加請求項情報に、実現手段名称情報を含む主語情報を示す文字列「情報入力部は、」と、実現手段説明情報を示す文字列「情報の入力を受け付けてもよく、」とが、文字列「情報入力部は、<改行>情報の入力を受け付けてもよく、<改行>」のような形式で含まれている場合などである。ここで、「<改行>」は、文字列中の改行を意味する。
また、N個以上の実現手段情報において、実現手段名称情報が同じであり、実現手段説明情報が異なる2つ以上の実現手段情報を、異なる情報であるとして扱ってもよいし、同一の情報であるとして扱ってもよい。
用語情報とは、用語名称情報と用語説明情報を対応付ける情報である。
用語名称情報は、専門用語や技術用語などである用語を示す文字列であり、例えば、「ビットマップデータ」や「MPEG」などである。
用語説明情報は、用語の具体例や詳細についての情報であり、例えば、「ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」や「画像データの圧縮方式、圧縮形式のことである。」などである。また、用語説明情報は、後述する加工により、任意の文字列が付与された情報であってもよい。例えば、文字列「JPEGとは、」が付与された「JPEGとは、画像データの圧縮方式、圧縮形式のことである。」などである。
用語情報は、これらの用語名称情報と用語説明情報を対応付ける情報であり、例えば、「ビットマップデータ|ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」などである。ここで、用語名称情報と用語説明情報を対応付けるとは、任意の用語名称情報に対して、1つ以上の用語説明情報を特定できることを意味する。
また、この用語情報は、内的付加請求項情報が含む用語名称情報と用語説明情報を対応付ける情報を含んでいてもよい。例えば、内的付加請求項情報に、用語文節語句情報を示す文字列「とは、」と、用語説明情報を示す文字列「画像の圧縮形式の1つである。」とが、文字列「JPEGとは、画像の圧縮形式の1つである。」のような形式で含まれている場合などである。
また、N個以上の用語情報において、用語名称情報が同じであり、用語説明情報が異なる2つ以上の用語情報を、異なる情報であるとして扱ってもよいし、同一の情報であるとして扱ってもよい。
テンプレート情報抽出部106は、前述の共通情報の抽出を、例えば、N個以上の特許情報のそれぞれをある任意の単位ごとに区切り、区切られた単位ごとに比較を行うことで行ってもよい。任意の単位とは、例えば、文、段落、行、見出情報、2以上の見出情報に挟まれた範囲、などである。例えば、見出情報を1つの単位として共通情報を抽出する場合であれば、N個以上の特許情報のそれぞれから見出情報を抽出し、それぞれの特許情報から抽出した見出情報を、異なる特許情報間で比較を行い、同じ見出情報があれば、それをスタイルファイル情報として抽出する、などである。
テンプレート情報抽出部106は、例えば、以下のようにして特許情報記憶部101が記憶している特許情報から、前述の実現手段情報を抽出してもよい。
(1)特許情報に含まれる符号説明情報から、構成要素情報を読み込む。
(2)実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報を読み込む。
(3)実現手段情報抽出パターン記憶部104が記憶している実現手段文末語句情報を読み込む。
(4)(1)で取得した構成要素情報の後ろに(2)で読み込んだ実現手段文節語句情報を付与し、主語情報を生成する。
(5)(4)で生成した主語情報が文の最初であり、(4)で読み込んだ実現手段文末語句情報が文の最後である実現手段説明候補情報を、特許情報から1以上抽出する。
(6)主語情報が含む、名称を示す文字列である実現手段名称情報を抽出する。
(7)実現手段説明候補情報が含む実現手段文節語句情報が示す文字列より後ろの文字列である実現手段説明情報を抽出する。
また、テンプレート情報抽出部106は、例えば、以下のようにして特許情報記憶部101が記憶している特許情報から、前述の実現手段情報を抽出してもよい。
(1)構成要素情報抽出部103が抽出した構成要素情報を取得する。
(2)実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報を読み込む。
(3)実現手段情報抽出パターン記憶部104が記憶している実現手段文末語句情報を読み込む。
(4)(1)で取得した構成要素情報の後ろに(2)で読み込んだ実現手段文節語句情報を付与し、主語情報を生成する。
(5)(4)で生成した主語情報が文の最初であり、(4)で読み込んだ実現手段文末語句情報が文の最後である実現手段説明候補情報を、特許情報から1以上抽出する。
(6)主語情報が含む、名称を示す文字列である実現手段名称情報を抽出する。
(7)実現手段説明候補情報が含む実現手段文節語句情報が示す文字列より後ろの文字列である実現手段説明情報を抽出する。
主語情報は、例えば、「情報入力部は、」、「情報出力部は、」、「情報受信部とは、」などである。また、主語情報は、例えば、「情報入力部11は、」、「情報出力部221は、」、「情報受信部321とは、」など、構成要素情報と実現手段文節語句情報の間に符号情報が含まれていてもよい。なお、主語情報に含まれる構成要素情報と符号情報は、特許情報に含まれる符号説明情報において対応付けられているものであってもよいし、そうでなくてもよい。
実現手段説明候補情報は、例えば、「情報入力部は、入力デバイスなどで実現され得る。」、「情報出力部は、例えば、ディスプレイなどである。」などである。また、実現手段説明候補情報は、「情報入力部11は、入力デバイスなどで実現され得る。」、「情報出力部221は、例えば、ディスプレイなどである。」など、構成要素情報と実現手段文節語句情報の間に符号情報が含まれていてもよい。なお、実現手段説明候補情報に含まれる符号情報は、特許情報に含まれる符号説明情報において対応付けられているものである必要がある。
また、テンプレート情報抽出部106は、例えば、以下のようにして特許情報記憶部101が記憶している特許情報から、前述の用語情報を抽出してもよい。
(1)用語情報抽出パターン記憶部105が記憶している用語文節語句情報を読み込む。
(2)用語情報抽出パターン記憶部105が記憶している用語文末語句情報を読み込む。
(3)(1)で読み込んだ用語文節語句情報を文の途中に含み、(2)で読み込んだ用語文末語句情報が文の最後である用語説明候補情報を、特許情報から1以上抽出する。
(4)用語説明候補情報が含む用語文節語句情報が示す文字列より前の文字列である用語名称情報を抽出する。
(5)用語説明候補情報が含む用語文節語句情報が示す文字列より後ろの文字列である用語説明情報を抽出する。
用語説明候補情報は、例えば、「ビットマップデータとは、画像形式の一種である。」、「MPEGとは、動画像の圧縮形式のことである。」などである。
テンプレート情報抽出部106は、通常、MPUやメモリなどから実現され得る。テンプレート情報抽出部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROMなどの記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
テンプレート情報加工部107は、テンプレート情報抽出部106が抽出するテンプレート情報を、後述するテンプレート情報蓄積部111の蓄積形式に基づき加工する。
ここで、蓄積形式とは、例えば、蓄積領域に記憶されている情報は文字列であり、その文字列の先頭には文字列「<構成要素>は、」が付与されている、といった記憶されている情報の形式であったり、蓄積領域に記憶されている情報に重複はない、といった記憶されている情報の状態であったりする。
また、ここで、加工とは、情報の削除や情報に対する他の情報の付加などを意味する。
前者は、例えば、N個のテンプレート情報において重複する情報が含まれており、例えば、2番目と4番目の情報が重複する情報、5番目と10番目の情報が重複する情報であった場合に、2番目か4番目の情報を削除する、5番目か10番目の情報を削除するといった処理のことである。また、前者は、テンプレート情報が不要な符号情報を含んでいる場合に、その符号情報を削除するといった処理を含んでもよい。
後者は、例えば、N個のテンプレート情報のそれぞれの前に別の情報を付加したりするといった処理のことである。例えば、テンプレート情報が「情報入力部」であるときに、文字列「前記」をテンプレート情報の前に付与し、テンプレート情報を「前記情報入力部」とするなどである。また、N個のテンプレート情報のぞれぞれの後ろに別の情報を付加したりするといった処理を含んでもよい。例えば、テンプレート情報が「実現してもよい」であるときに、文字列「。」をテンプレート情報の後ろに付与し、テンプレート情報を「実現してもよい。」とするなどである。
テンプレート情報加工部107は、通常、MPUやメモリなどから実現され得る。テンプレート情報加工部107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROMなどの記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
蓄積方法判断部108は、後述するテンプレート情報蓄積部111が蓄積しようとするテンプレート情報の一部の情報が蓄積領域に記憶されていれば既存の情報に「上書きして蓄積する」と判断し、テンプレート情報と同じ情報が蓄積領域に記憶されていなければ「別情報として蓄積する」と判断し、テンプレート情報を包含する情報が蓄積領域に記憶されていれば「蓄積しない」と判断する。
ここで、蓄積領域とは、後述するテンプレート情報蓄積部111がテンプレート情報を蓄積するための記録媒体の領域である。記録媒体は、揮発性の一時メモリ(いわゆるメインメモリなど)でも、ハードディスクやCD−ROMなどの不揮発性のメモリでもよい。
蓄積方法判断部108が「上書きして蓄積する」と判断するのは、例えば、テンプレート情報が「今日は晴れで、明日は曇りです。」であるときに、蓄積領域に「明日は曇りです。」という情報が記憶されている場合や、テンプレート情報が「今日は晴れで、明日は雨だ。」であるときに、蓄積領域に「明日は雨です。」という情報が記憶されている場合などである。
この判断は、後者の場合であれば、例えば、テンプレート情報に対して形態素解析を行い、「今日」+「は」+「晴れ」+「で」+「、」+「明日」+「は」+「雨」+「だ」+「。」に分割し、蓄積領域に記憶されている情報に対しても同じく形態素解析を行い、「明日」+「は」+「雨」+「です」+「。」に分割し、この分割された2つの情報を比較し、分割されたそれぞれの情報の一致度や前後関係を算出することで行ってもよい。
蓄積方法判断部108が「別情報として蓄積する」と判断するのは、例えば、テンプレート情報が「今日は晴れです。」であるときに、蓄積領域に「明日は曇りです。」という情報が記憶されている場合や、テンプレート情報が「今日は晴れです。」であるときに、蓄積領域に「明日は雨だ。」という情報が記憶されている場合などである。
この判断は、後者の場合であれば、例えば、テンプレート情報に対して形態素解析を行い、「今日」+「は」+「晴れ」+「です」+「。」に分割し、蓄積領域に記憶されている情報に対しても同じく形態素解析を行い、「明日」+「は」+「雨」+「だ」+「。」に分割し、この分割された2つの情報を比較し、分割されたそれぞれの情報の一致度や前後関係を算出することで行ってもよい。
蓄積方法判断部108が「蓄積しない」と判断するのは、例えば、テンプレート情報が「今日は晴れです。」であるときに、蓄積領域に「今日は晴れです。」という情報が記憶されている場合や、テンプレート情報が「今日は晴れです。」であるときに、蓄積領域に「今日は晴れですが、明日は曇りです。」という情報が記憶されている場合などである。
この判断は、後者の場合であれば、例えば、テンプレート情報に対して形態素解析を行い、「今日」+「は」+「晴れ」+「です」+「。」に分割し、蓄積領域に記憶されている情報に対しても同じく形態素解析を行い、「今日」+「は」+「晴れ」+「です」+「が」+「、」+「明日」+「は」+「曇り」+「です」+「。」に分割し、この分割された2つの情報を比較し、分割されたそれぞれの情報の一致度や前後関係を算出することで行ってもよい。
蓄積方法判断部108は、通常、MPUやメモリなどから実現され得る。蓄積方法判断部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROMなどの記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
判断結果出力部109は、蓄積方法判断部108が判断した結果を示す情報と、蓄積方法判断部108が判断し得る「上書きして蓄積する」、「別情報として蓄積する」、「別情報として蓄積する」の3つの蓄積方法(以下、3つの蓄積方法)を示す情報を出力する。
また、判断結果出力部109は、外部からの指示を受け付けるための情報を出力してもよい。例えば、判断結果出力部109は、蓄積方法判断部108が判断した結果が「上書きして蓄積する」または「別情報として蓄積する」であるときに、「上書きして蓄積する」を示す情報を受け付けるための情報と、「別情報として蓄積する」を示す情報と、を受け付けるための情報を出力してもよい。また、判断結果出力部109は、蓄積方法判断部108が判断した結果を示す情報と、その結果に対する許可、または拒否を受け付けるための情報を出力してもよい。
出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。なお、送信や蓄積、処理結果の引渡しについては、出力対象が最終的にユーザに提示されるものとする。また、判断結果出力部109は、ディスプレイやスピーカーなどの出力デバイスを含むと考えても含まないと考えてもよい。判断結果出力部109は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。
蓄積方法情報受付部110は、後述するテンプレート情報蓄積部111が行う3つの蓄積方法のいずれかを示す情報を受け付ける。
蓄積方法情報受付部110は、例えば、蓄積方法を示す情報と、その結果に対する許可、または拒否を示す情報を受け付けてもよい。例えば、蓄積方法情報受付部110は、「上書きして蓄積する」を示す情報と許可を示す情報を受け付けた場合には、「上書き蓄積する」を示す情報を受け付けたと解釈してもよい。また、蓄積方法情報受付部110は、「蓄積しない」を示す情報と拒否を示す情報を受け付けた場合には、「別情報として蓄積する」を示す情報を受け付けたと解釈してもよい。なお、このような場合には、「上書きして蓄積する」を示す情報を受け付けたと解釈することもできるが、このような場合には、再度、判断結果出力部109に「上書きして蓄積する」を示す情報と「別情報として蓄積する」を示す情報を出力させてもよい。
受付は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、蓄積方法情報受付部110は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、蓄積方法情報受付部110は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
テンプレート情報蓄積部111は、テンプレート情報抽出部106が抽出したテンプレート情報を蓄積する。また、テンプレート情報加工部107が加工したテンプレート情報を蓄積してもよい。なお、本実施の形態では、後者について説明する。
また、テンプレート情報蓄積部111は、テンプレート情報の種類に応じて、異なる蓄積領域にテンプレート情報を蓄積してもよい。ここで、異なる蓄積領域とは、物理的に異なる記憶媒体であってもよく、物理的に同一の記憶媒体ではあるが、内部的に領域が分割されている記憶媒体であってもよい。また、物理的に同一の記憶媒体ではあるが、概念的に領域が分割されている記憶媒体であてもよい。
また、テンプレート情報蓄積部111は、蓄積方法判断部108が判断した結果を示す情報である蓄積方法情報に応じた処理を行ってもよいし、蓄積方法情報受付部110が受け付けた蓄積方法情報に応じた処理を行ってもよい。なお、本実施の形態では、後者について説明する。
テンプレート情報蓄積部111は、通常、MPUやメモリなどから実現され得る。テンプレート情報蓄積部111の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROMなどの記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
次に、本実施の形態における情報処理装置1の動作について、フローチャートを用いて説明する。
図2は、情報処理装置1の全体動作を示すフローチャートである。
(ステップS1)情報処理装置1は、テンプレート情報を作成するかどうか判断する。作成する場合には、ステップS2に進み、そうでない場合には、テンプレート情報を作成すると判断するまで、ステップS1の処理を繰り返す。情報処理装置1は、例えば、ユーザからのキーボード入力など、外部から作成する旨の指示を受け付けた場合などに、テンプレート情報を作成すると判断する。
(ステップS2)テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報を読み込み、テンプレート情報を抽出する。この処理の詳細については、図3のフローチャートを用いて後述する。
(ステップS3)テンプレート情報加工部107は、テンプレート情報抽出部106が抽出したテンプレート情報を、テンプレート情報を蓄積する蓄積領域の蓄積形式に基づき加工する。この処理の詳細については、図8のフローチャートを用いて後述する。
(ステップS4)テンプレート情報蓄積部111は、テンプレート情報加工部107が加工したテンプレート情報を、蓄積領域に蓄積する。この処理の詳細については、図13のフローチャートを用いて後述する。そして、テンプレート情報を作成する一連の処理は終了となる。
なお、図2のフローチャートでは、抽出対象となるテンプレート情報の種類ごとに、各ステップの処理を行ってもよい。例えば、抽出対象となるテンプレート情報が実現手段情報であれば、ステップS1で実現手段情報を作成するかどうかを判断し、ステップS2で実現手段情報を抽出し、ステップS3で実現手段情報を加工し、ステップS4で実現手段情報を処理する、という処理の流れでもよい。
図3は、図2のフローチャートのステップS2のテンプレート情報抽出処理を示すフローチャートである。
(ステップS201)テンプレート情報抽出部106は、決まり文句情報を抽出する。この処理の詳細については、図4のフローチャートを用いて後述する。
(ステップS202)テンプレート情報抽出部106は、スタイルファイル情報を抽出する。この処理の詳細については、図5のフローチャートを用いて後述する。
(ステップS203)テンプレート情報抽出部106は、実現手段情報を抽出する。この処理の詳細については、図6のフローチャートを用いて後述する。
(ステップS204)テンプレート情報抽出部106は、用語情報を抽出する。この処理の詳細については、図7のフローチャートを用いて後述する。そして、図2のフローチャートのステップS2の処理は終了となる。
図4は、図3のフローチャートのステップS201の決まり文句情報の抽出処理を示すフローチャートである。
(ステップS20101)テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報を読み込む。この結果、テンプレート情報抽出部106は、n個の特許情報が読み込めたものとする。
(ステップS20102)テンプレート情報抽出部106は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS20103)テンプレート情報抽出部106は、I番目の特許情報(以下、特許情報(I))を一文ごとに分割する。この結果、特許情報(I)は、m個の文に分割されたものとする。
(ステップS20104)テンプレート情報抽出部106は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJにカウンタIの値に1加算した値を設定する。
(ステップS20105)テンプレート情報抽出部106は、特許情報(J)を一文ごとに分割する。この結果、特許情報(J)は、x個の文に分割されたものとする。
(ステップS20106)テンプレート情報抽出部106は、カウンタKに既に値が設定されている場合には、カウンタKを1インクリメントし、そうでない場合には、カウンタKに1を設定する。
(ステップS20107)テンプレート情報抽出部106は、カウンタLに既に値が設定されている場合には、カウンタLを1インクリメントし、そうでない場合には、カウンタLに1を設定する。
(ステップS20108)テンプレート情報抽出部106は、特許情報(I)から分割されたK番目の文(以下、文(K))と特許情報(J)から分割された文(L)を比較し、等しいかどうか判断する。文(K)と文(L)が等しい場合には、ステップS20109に進み、そうでない場合には、ステップS20110に進む。
(ステップS20109)テンプレート情報抽出部106は、文(K)を決まり文句情報として蓄積領域に一時的に蓄積する。
(ステップS20110)テンプレート情報抽出部106は、カウンタLの値がxであるかどうか判断し、カウンタLの値がxである場合には、ステップS20111に進み、そうでない場合には、ステップS20106に戻る。
(ステップS20111)テンプレート情報抽出部106は、カウンタKの値がmであるかどうか判断し、カウンタKの値がmである場合には、ステップS20112に進み、そうでない場合には、ステップS20105に戻る。
(ステップS20112)テンプレート情報抽出部106は、カウンタJの値がnであるかどうか判断し、カウンタJの値がnである場合には、ステップS20113に進み、そうでない場合には、ステップS20104に戻る。
(ステップS20113)テンプレート情報抽出部106は、カウンタIの値がn−1であるかどうか判断し、カウンタIの値がn−1である場合には、図3のフローチャートのステップS201の処理は終了となり、そうでない場合には、ステップS20102に戻る。
図5は、図3のフローチャートのステップS202のスタイルファイル情報の抽出処理を示すフローチャートである。
(ステップS20201)テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報を読み込む。この結果、テンプレート情報抽出部106は、n個の特許情報が読み込めたものとする。
(ステップS20202)テンプレート情報抽出部106は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS20203)テンプレート情報抽出部106は、特許情報(I)から見出情報を抽出する。この結果、特許情報(I)から、m個の見出情報が抽出されたものとする。
(ステップS20204)テンプレート情報抽出部106は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJにカウンタIの値に1加算した値を設定する。
(ステップS20205)テンプレート情報抽出部106は、特許情報(J)から見出情報を抽出する。この結果、特許情報(J)から、x個の見出情報が抽出されたものとする。
(ステップS20206)テンプレート情報抽出部106は、カウンタKに既に値が設定されている場合には、カウンタKを1インクリメントし、そうでない場合には、カウンタKに1を設定する。
(ステップS20207)テンプレート情報抽出部106は、カウンタLに既に値が設定されている場合には、カウンタLを1インクリメントし、そうでない場合には、カウンタLに1を設定する。
(ステップS20208)テンプレート情報抽出部106は、特許情報(I)から抽出したK番目の見出情報(以下、見出情報(K))と特許情報(J)から抽出した見出情報(L)を比較し、等しいかどうか判断する。見出情報(K)と見出情報(L)が等しい場合には、ステップS20209に進み、そうでない場合には、ステップS20210に進む。
(ステップS20209)テンプレート情報抽出部106は、見出情報(K)をスタイルファイル情報として蓄積領域に一時的に蓄積する。
(ステップS20210)テンプレート情報抽出部106は、カウンタLの値がxであるかどうか判断し、カウンタLの値がxである場合には、ステップS20211に進み、そうでない場合には、ステップS20207に戻る。
(ステップS20211)テンプレート情報抽出部106は、カウンタKの値がmであるかどうか判断し、カウンタKの値がmである場合には、ステップS20212に進み、そうでない場合には、ステップS20206に戻る。
(ステップS20212)テンプレート情報抽出部106は、カウンタJの値がnであるかどうか判断し、カウンタJの値がnである場合には、ステップS20213に進み、そうでない場合には、ステップS20204に戻る。
(ステップS20213)テンプレート情報抽出部106は、カウンタIの値がn−1であるかどうか判断し、カウンタIの値がn−1である場合には、図3のフローチャートのステップS202の処理は終了となり、そうでない場合には、ステップS20202に戻る。
図6は、図3のフローチャートのステップS203の実現手段情報の抽出処理を示すフローチャートである。
(ステップS20301)テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報が含む符号説明情報から、構成要素情報を読み込む。この結果、テンプレート情報抽出部106は、n個の構成要素情報が読み込めたものとする。
(ステップS20302)テンプレート情報抽出部106は、実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報を読み込む。この結果、テンプレート情報抽出部106は、m個の実現手段文節語句情報を読み込めたものとする。
(ステップS20303)テンプレート情報抽出部106は、実現手段情報抽出パターン記憶部104が記憶している実現手段文末語句情報を読み込む。この結果、テンプレート情報抽出部106は、x個の実現手段文末語句情報を読み込めたものとする。
(ステップS20304)テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報を読み込む。この結果、テンプレート情報抽出部106は、y個の特許情報を読み込めたものとする。
(ステップS20305)テンプレート情報抽出部106は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS20306)テンプレート情報抽出部106は、名称を示す文字列をI番目の構成要素情報(以下、構成要素情報(I))から実現手段名称情報として抽出し、抽出できたかどうか判断する。抽出できた場合には、ステップS20307に進み、そうでない場合には、ステップS20317に進む。
(ステップS20307)テンプレート情報抽出部106は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJに1を設定する。
(ステップS20308)テンプレート情報抽出部106は、主語情報として、構成要素情報(I)の文字列の後ろにJ番目の実現手段文節語句情報(以下、実現手段文節語句情報(J))の文字列を付与した文字列を設定する。
(ステップS20309)テンプレート情報抽出部106は、カウンタKに既に値が設定されている場合には、カウンタKを1インクリメントし、そうでない場合には、カウンタKに1を設定する。
(ステップS20310)テンプレート情報抽出部106は、カウンタLに既に値が設定されている場合には、カウンタLを1インクリメントし、そうでない場合には、カウンタLに1を設定する。
(ステップS20311)テンプレート情報抽出部106は、主語情報が文の最初で、K番目の実現手段文末語句情報(以下、実現手段文末語句情報(K))が文の最後となる一文を、特許情報(L)から実現手段説明候補情報として1以上抽出し、抽出できたかどうか判断する。抽出できた場合には、ステップS20312に進み、そうでない場合には、ステップS20314に進む。
(ステップS20312)テンプレート情報抽出部106は、ステップS20311で抽出した実現手段説明候補情報から、主語情報より後ろの文字列を実現手段説明情報として抽出する。
(ステップS20313)テンプレート情報抽出部106は、ステップS20306で抽出した実現手段名称情報とステップS20312で抽出した実現手段説明情報とを対応付け、実現手段情報として蓄積領域に一時的に蓄積する。
(ステップS20314)テンプレート情報抽出部106は、カウンタLの値がyであるかどうか判断し、カウンタLの値がyである場合には、ステップS20315に進み、そうでない場合には、ステップS20310に戻る。
(ステップS20315)テンプレート情報抽出部106は、カウンタKの値がxであるかどうか判断し、カウンタKの値がxである場合には、ステップS20316に進み、そうでない場合には、ステップS20309に戻る。
(ステップS20316)テンプレート情報抽出部106は、カウンタJの値がmであるかどうか判断し、カウンタJの値がmである場合には、ステップS20317に進み、そうでない場合には、ステップS20307に戻る。
(ステップS20317)テンプレート情報抽出部106は、カウンタIの値がnであるかどうか判断し、カウンタIの値がnである場合には、図3のフローチャートのステップS203の処理は終了となり、そうでない場合には、ステップS20305に戻る。
図7は、図3のフローチャートのステップS204の用語情報の抽出処理を示すフローチャートである。
(ステップS20401)テンプレート情報抽出部106は、用語情報抽出パターン記憶部105が記憶している用語文節語句情報を読み込む。この結果、テンプレート情報抽出部106は、n個の用語文節語句情報が読み込めたものとする。
(ステップS20402)テンプレート情報抽出部106は、用語情報抽出パターン記憶部105が記憶している用語文末語句情報を読み込む。この結果、テンプレート情報抽出部106は、m個の用語文末語句情報が読み込めたものとする。
(ステップS20403)テンプレート情報抽出部106は、特許情報記憶部101が記憶している特許情報を読み込む。この結果、テンプレート情報抽出部106は、x個の特許情報が読み込めたものとする。
(ステップS20404)テンプレート情報抽出部106は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS20405)テンプレート情報抽出部106は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJに1を設定する。
(ステップS20406)テンプレート情報抽出部106は、カウンタKに既に値が設定されている場合には、カウンタKを1インクリメントし、そうでない場合には、カウンタKに1を設定する。
(ステップS20407)テンプレート情報抽出部106は、I番目の用語文節語句情報(以下、用語文節語句情報(I))を文の途中に含み、J番目の用語文末語句情報(以下、用語文末語句情報(J))が文の最後となる一文を特許情報(K)から用語説明候補情報として1以上抽出し、抽出できたかどうか判断する。抽出できた場合には、ステップS20408に進み、そうでない場合には、ステップS20411に進む。
(ステップS20408)テンプレート情報抽出部106は、ステップS20407で抽出した用語説明候補情報から、用語文節語句情報より前の文字列を用語名称情報として抽出する。
(ステップS20409)テンプレート情報抽出部106は、ステップS20407で抽出した用語説明候補情報から、用語文節語句情報より後ろの文字列を用語説明情報として抽出する。
(ステップS20410)テンプレート情報抽出部106は、ステップS20408で抽出した用語名称情報とステップS20409で抽出した用語説明情報とを対応付け、用語情報として蓄積領域に一時的に蓄積する。
(ステップS20411)テンプレート情報抽出部106は、カウンタKの値がxであるかどうか判断し、カウンタKの値がxである場合には、ステップS20412に進み、そうでない場合には、ステップS20406に戻る。
(ステップS20412)テンプレート情報抽出部106は、カウンタJの値がmであるかどうか判断し、カウンタJの値がmである場合には、ステップS20413に進み、そうでない場合には、ステップS20405に戻る。
(ステップS20413)テンプレート情報抽出部106は、カウンタIの値がnであるかどうか判断し、カウンタIの値がnである場合には、図3のフローチャートのステップS204の処理は終了となり、そうでない場合には、ステップS20404に戻る。
図8は、図2のフローチャートのステップS3のテンプレート情報の加工処理を示すフローチャートである。
(ステップS301)テンプレート情報加工部107は、決まり文句情報を加工する。この処理の詳細については、図9のフローチャートを用いて後述する。
(ステップS302)テンプレート情報加工部107は、スタイルファイル情報を加工する。この処理の詳細については、図10のフローチャートを用いて後述する。
(ステップS303)テンプレート情報加工部107は、実現手段情報を加工する。この処理の詳細については、図11のフローチャートを用いて後述する。
(ステップS304)テンプレート情報加工部107は、用語情報を加工する。この処理の詳細については、図12のフローチャートを用いて後述する。そして、図2のフローチャートのステップS3の処理は終了となる。
図9は、図8のフローチャートのステップS301の決まり文句情報の加工処理を示すフローチャートである。
(ステップS30101)テンプレート情報加工部107は、蓄積領域に一時的に記憶されている決まり文句情報を読み込む。この結果、テンプレート情報加工部107は、n個の決まり文句情報が読み込めたものとする。
(ステップS30102)テンプレート情報加工部107は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS30103)テンプレート情報加工部107は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJにカウンタIの値に1加算した値を設定する。
(ステップS30104)テンプレート情報加工部107は、I番目の決まり文句情報(以下、決まり文句情報(I))と決まり文句情報(J)を比較し、等しいかどうか判断する。決まり文句情報(I)と決まり文句情報(J)が等しい場合には、ステップS30105に進み、そうでない場合には、ステップS30106に進む。
(ステップS30105)テンプレート情報加工部107は、決まり文句情報(J)を削除する。
(ステップS30106)テンプレート情報加工部107は、カウンタJの値がnであるかどうか判断し、カウンタJの値がnである場合には、ステップS30107に進み、そうでない場合には、ステップS30103に戻る。
(ステップS30107)テンプレート情報加工部107は、カウンタIの値がn−1であるかどうか判断し、カウンタIの値がn−1である場合には、ステップS30108に進み、そうでない場合には、ステップS30102に戻る。
(ステップS30108)テンプレート情報加工部107は、削除されずに残った決まり文句情報を蓄積領域に一時的に蓄積し、図8のフローチャートのステップS301の処理は終了となる。
図10は、図8のフローチャートのステップS302のスタイルファイル情報の加工処理を示すフローチャートである。
(ステップS30201)テンプレート情報加工部107は、蓄積領域に一時的に記憶されているスタイルファイル情報を読み込む。この結果、テンプレート情報加工部107は、n個のスタイルファイル情報が読み込めたものとする。
(ステップS30202)テンプレート情報加工部107は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS30203)テンプレート情報加工部107は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJにカウンタIの値に1加算した値を設定する。
(ステップS30204)テンプレート情報加工部107は、I番目のスタイルファイル情報(以下、スタイルファイル情報(I))とスタイルファイル情報(J)を比較し、等しいかどうか判断する。スタイルファイル情報(I)とスタイルファイル情報(J)が等しい場合には、ステップS30205に進み、そうでない場合には、ステップS30206に進む。
(ステップS30205)テンプレート情報加工部107は、スタイルファイル情報(J)を削除する。
(ステップS30206)テンプレート情報加工部107は、カウンタJの値がnであるかどうか判断し、カウンタJの値がnである場合には、ステップS30207に進み、そうでない場合には、ステップS30203に戻る。
(ステップS30207)テンプレート情報加工部107は、カウンタIの値がn−1であるかどうか判断し、カウンタIの値がn−1である場合には、ステップS30208に進み、そうでない場合には、ステップS30202に戻る。
(ステップS30208)テンプレート情報加工部107は、削除されずに残ったスタイルファイル情報を蓄積領域に一時的に蓄積し、図8のフローチャートのステップS302の処理は終了となる。
図11は、図8のフローチャートのステップS303の実現手段情報の加工処理を示すフローチャートである。
(ステップS30301)テンプレート情報加工部107は、蓄積領域に一時的に記憶されている実現手段情報を読み込む。この結果、テンプレート情報加工部107は、n個の実現手段情報が読み込めたものとする。
(ステップS30302)テンプレート情報加工部107は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS30303)テンプレート情報加工部107は、I番目の実現手段情報(以下、実現手段情報(I))が含む実現手段説明情報(以下、実現手段説明情報(I))に、文字列「<構成要素>は、」の後ろに実現手段説明情報(I)の文字列を付与した文字列を設定する。
(ステップS30304)テンプレート情報加工部107は、カウンタIの値がnであるかどうか判断し、カウンタIの値がnである場合には、ステップS30305に進み、そうでない場合には、ステップS30302に戻る。
(ステップS30305)テンプレート情報加工部107は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJに1を設定する。
(ステップS30306)テンプレート情報加工部107は、カウンタKに既に値が設定されている場合には、カウンタKを1インクリメントし、そうでない場合には、カウンタKにカウンタJの値に1加算した値を設定する。
(ステップS30307)テンプレート情報加工部107は、実現手段情報(J)が含む実現手段名称情報(以下、実現手段名称情報(J))と実現手段名称情報(K)を比較し、等しいかどうか判断する。実現手段名称情報(J)と実現手段名称情報(K)が等しい場合には、ステップS30308に進み、そうでない場合には、ステップS30311に進む。
(ステップS30308)テンプレート情報加工部107は、実現手段説明情報(J)と実現手段説明情報(K)を比較し、等しいかどうか判断する。実現手段説明情報(J)と実現手段説明情報(K)が等しい場合には、ステップS30310に進み、そうでない場合には、ステップS30309に進む。
(ステップS30309)テンプレート情報加工部107は、実現手段説明情報(J)に、実現手段説明情報(J)の文字列の後ろに実現手段説明情報(K)の文字列を付与した文字列を設定する。
(ステップS30310)テンプレート情報加工部107は、実現手段情報(K)を削除する。
(ステップS30311)テンプレート情報加工部107は、カウンタKの値がnであるかどうか判断し、カウンタKの値がnである場合には、ステップS30312に進み、そうでない場合には、ステップS30306に戻る。
(ステップS30312)テンプレート情報加工部107は、カウンタJの値がn−1であるかどうか判断し、カウンタJの値がn−1である場合には、ステップS30313に進み、そうでない場合には、ステップS30305に戻る。
(ステップS30313)テンプレート情報加工部107は、削除されずに残った実現手段情報を蓄積領域に一時的に蓄積し、図8のフローチャートのステップS303の処理は終了となる。
なお、図7のフローチャートにおいて、ステップS30302からステップS30304までの処理は、ステップS30312の処理の後に行ってもよし、ステップS30313で蓄積する実現手段情報が含む実現手段説明情報で示される文字列の先頭に「<構成要素>は、」が含まれるのであれば、どのタイミングで行ってもよい。
図12は、図8のフローチャートのステップS304の用語情報の加工処理を示すフローチャートである。
(ステップS30401)テンプレート情報加工部107は、蓄積領域に一時的に記憶されている用語情報を読み込む。この結果、テンプレート情報加工部107は、n個の用語情報が読み込めたものとする。
(ステップS30402)テンプレート情報加工部107は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS30403)テンプレート情報加工部107は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJにカウンタIの値に1加算した値を設定する。
(ステップS30404)テンプレート情報加工部107は、I番目の用語情報(以下、用語情報(I))が含む用語名称情報(以下、用語名称情報(I))と用語名称情報(J)を比較し、等しいかどうか判断する。用語名称情報(I)と用語名称情報(J)が等しい場合には、ステップS30405に進み、そうでない場合には、ステップS30408に進む。
(ステップS30405)テンプレート情報加工部107は、用語説明情報(I)と用語説明情報(J)を比較し、等しいかどうか判断する。用語説明情報(I)と用語説明情報(J)が等しい場合には、ステップS30407に進み、そうでない場合には、ステップS30406に進む。
(ステップS30406)テンプレート情報加工部107は、用語説明情報(I)に、用語説明情報(I)の文字列の後ろに用語説明情報(J)の文字列を付与した文字列を設定する。
(ステップS30407)テンプレート情報加工部107は、J番目の用語情報(以下、用語情報(J))を削除する。
(ステップS30408)テンプレート情報加工部107は、カウンタJの値がnであるかどうか判断し、カウンタJの値がnである場合には、ステップS30409に進み、そうでない場合には、ステップS30403に戻る。
(ステップS30409)テンプレート情報加工部107は、カウンタIの値がn−1であるかどうか判断し、カウンタIの値がn−1である場合には、ステップS30410に進み、そうでない場合には、ステップS30402に戻る。
(ステップS30410)テンプレート情報加工部107は、削除されずに残った用語情報を蓄積領域に一時的に蓄積し、図8のフローチャートのステップS304の処理は終了となる。
図13は、図2のフローチャートのステップS4のテンプレート情報の蓄積処理を示すフローチャートである。
(ステップS401)テンプレート情報蓄積部111は、蓄積領域に一時的に記憶されているテンプレート情報を読み込む。この結果、テンプレート情報蓄積部111は、n個のテンプレート情報が読み込めたものとする。
(ステップS402)テンプレート情報蓄積部111は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS403)蓄積方法判断部108は、テンプレート情報蓄積部111が読み込んだI番目のテンプレート情報(以下、テンプレート情報(I))の蓄積方法を、テンプレート情報が記憶される蓄積領域に記憶されているテンプレート情報の種類や内容から判断する。
(ステップS404)判断結果出力部109は、蓄積方法判断部108が判断した蓄積方法を、外部に対して出力する。
(ステップS405)蓄積方法情報受付部110は、判断結果出力部109が外部に対して出力した判断結果に対する応答である蓄積方法情報を受け付け、受け付けたかどうか判断する。蓄積方法情報を受け付けた場合には、ステップS406に進み、そうでない場合には、蓄積方法情報を受け付けたと判断するまで、ステップS405の処理を繰り返す。
(ステップS406)テンプレート情報蓄積部111は、蓄積方法情報受付部110が受け付けた蓄積方法情報に応じて、蓄積方法を判断する。蓄積方法情報が「上書きして蓄積」を示す情報である場合には、ステップS407に進み、蓄積方法情報が「別情報として蓄積」を示す情報である場合には、ステップS408に進み、蓄積方法情報が「蓄積しない」を示す情報である場合には、ステップS409に進む。
(ステップS407)テンプレート情報蓄積部111は、蓄積領域に既に記憶されているテンプレート情報に対して、テンプレート情報(I)を上書き蓄積する。
(ステップS408)テンプレート情報蓄積部111は、蓄積領域に既に記憶されているテンプレート情報に対して、テンプレート情報(I)を別情報として蓄積する。
(ステップS409)テンプレート情報蓄積部111は、カウンタIの値がnであるかどうか判断し、カウンタIの値がnである場合には、図2のフローチャートのステップS4の処理は終了となり、そうでない場合には、ステップS402に戻る。
なお、図13のフローチャートのステップS403では、蓄積方法を判断する対象となるテンプレート情報が決まり文句情報であれば、蓄積領域に記憶されているすべての決まり文句情報との比較を行うことで蓄積方法を判断し、蓄積方法を判断する対象となるテンプレート情報がスタイルファイル情報であれば、蓄積領域に記憶されているすべてのスタイルファイル情報との比較を行うことで蓄積方法を判断する。
また、図13のフローチャートのステップS403では、蓄積方法を判断する対象となるテンプレート情報が実現手段情報であれば、蓄積領域に記憶されているすべての実現手段情報との比較を行うことで蓄積方法を判断し、蓄積方法を判断する対象となるテンプレート情報が用語情報であれば、蓄積領域に記憶されているすべての用語情報との比較を行うことで蓄積方法を判断する。
また、図4のフローチャートのステップS20101、図5のフローチャートのステップS20201、図6のフローチャートのステップS20304、図7のフローチャートのステップS20403で読み込む特許情報は、図3のフローチャートの最初で読み込み、図4のフローチャートのステップS20101、図5のフローチャートのステップS20201、図6のフローチャートのステップS20304、図7のフローチャートのステップS20403では読み込まないようにしてもよい。
また、図4のフローチャートのステップS20101、図5のフローチャートのステップS20201、図6のフローチャートのステップS20304、図7のフローチャートのステップS20403で読み込む特許情報の数は、特許情報記憶部101が記憶しているすべてであってもよく、そうでなくてもよい。また、後者の場合であれば、例えば、特許情報記憶部101が記憶している特許情報の数から算出した数であってもよい。
また、図4のフローチャートのステップS20108、図5のフローチャートのステップS20208、図9のフローチャートのステップS30104、図10のフローチャートのステップS30204、図11のフローチャートのステップS30307とステップS30308、図12のフローチャートのステップS30404とステップS30405における等しいとは、2つ情報が完全一致していることや、2つ情報の類似度がある一定以上であることを意味する。
次に、具体的な情報を用いて、動作の具体例について説明する。
まず、特許情報記憶部101が記憶している図14と図15で示される2つの特許情報から決まり文句情報を抽出する例について説明する。
テンプレート情報抽出部106は、まず、特許情報記憶部101が記憶している図14と図15で示される2つの特許情報のそれぞれを、一文ごとに分割する。このとき、見出しを示す文字列については、一文とみなしてもよいし、みなさなくてもよい。この具体例では、後者について説明する。また、この具体例では、テンプレート情報抽出部106は、図14で示される特許情報を一文ごとに分割し、図16で示される文が取得でき、また、図15で示される特許情報を一文ごとに分割し、図17で示される文が取得できたものとする。
次に、テンプレート情報抽出部106は、図14と図15で示される特許情報のそれぞれを一文ごとに分割して取得できた文を、例えば、それぞれ順に比較を行い、等しければ決まり文句情報として蓄積領域に一時的に蓄積する。図16で示される文の集合を文A、図17で示される文の集合を文Bとし、1番目の文Aを文A(1)と表現し、1番目の文Bを文B(1)と表現した場合、テンプレート情報抽出部106は、文A(1)と文B(1)、文A(1)と文B(2)、文A(1)と文B(3)、・・・、という具合に順に比較を行っていく。例えば、まず、文A(1)である「本発明は、受信した情報を送信する情報処理装置等に関する。」を比較対象とすると、「本発明は、受信した情報を送信する情報処理装置等に関する。」は、文B中に等しいものが存在しないので、テンプレート情報抽出部106は、何も処理を行わない。次に、文A(2)である「以下、発明の実施形態について図面を参照して説明する。」を比較対象とすると、「以下、発明の実施形態について図面を参照して説明する。」は文B中に等しいものが存在するので、テンプレート情報抽出部106は、この「以下、発明の実施形態について図面を参照して説明する。」を決まり文句情報として蓄積領域に一時的に蓄積する。次に、文A(3)である「なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。」を比較対象とすると、「なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。」もまた、文B中に等しいものが存在するので、テンプレート情報抽出部106は、この「なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。」を決まり文句情報として蓄積領域に一時的に蓄積する。テンプレート情報抽出部106は、この処理を順に行い、すべての文Aと文Bの比較を行う。その結果、テンプレート情報抽出部106は、図18で示される情報を決まり文句情報として蓄積領域に一時的に蓄積する。
次に、特許情報記憶部101が記憶している図14と図15で示される2つの特許情報からスタイルファイル情報を抽出する例について説明する。
テンプレート情報抽出部106は、まず、図14と図15で示される2つの特許情報のそれぞれから、見出情報を抽出する。見出情報は、タグに挟まれた情報のみでもよいし、タグに挟まれた情報に隣接する情報を含んでいてもよい。この具体例では、後者について説明する。また、隣接する情報には空白(スペース)が含まれていてもよいが、この具体例では、含まれていない場合について説明する。また、この具体例では、テンプレート情報抽出部106は、図14で示される特許情報から、図19で示される見出情報が抽出でき、また、図15で示される特許情報から、図20で示される見出情報が抽出できたものとする。
次に、テンプレート情報抽出部106は、図14と図15で示される特許情報のそれぞれから抽出できた見出情報を、例えば、それぞれ順に比較を行い、等しければスタイルファイル情報として蓄積領域に一時的に蓄積する。図19で示される見出情報の集合を見出情報A、図20で示される見出情報の集合を見出情報Bとし、1番目の見出情報Aを見出情報A(1)と表現し、1番目の見出情報Bを見出情報B(1)と表現した場合、テンプレート情報抽出部106は、見出情報A(1)と見出情報B(1)、見出情報A(1)と見出情報B(2)、見出情報A(1)と見出情報B(3)、・・・、という具合に順に比較を行っていく。例えば、まず、見出情報A(1)である「[書類名]特許請求の範囲」を比較対象とすると、「[書類名]特許請求の範囲」は、見出情報B中に等しいものが存在するので、テンプレート情報抽出部106は、この「[書類名]特許請求の範囲」をスタイルファイル情報として蓄積領域に一時的に蓄積する。次に、見出情報A(2)である「[書類名]明細書」を比較対象とすると、「[書類名]明細書」もまた、見出情報B中に等しいものが存在するので、テンプレート情報抽出部106は、この「[書類名]明細書」をスタイルファイル情報として一時的に蓄積する。次に、見出情報A(3)である「[発明の名称]情報処理装置」を比較対象とすると、この「[発明の名称]情報処理装置」に含まれるタグに挟まれた情報「[発明の名称]」については見出情報B中に等しいものが存在するが、タグに挟まれた情報に隣接する情報である「情報処理装置」については見出情報B中に等しいものが存在しない。よって、テンプレート情報抽出部106は、「[発明の名称]情報処理装置」に含まれるタグに挟まれた情報「[発明の名称]」をスタイルファイル情報として蓄積領域に一時的に蓄積する。テンプレート情報抽出部106は、この処理を順に行い、すべての見出情報Aと見出情報Bの比較を行う。その結果、テンプレート情報抽出部106は、図21で示される情報をスタイルファイル情報として蓄積領域に一時的に蓄積する。
次に、特許情報記憶部101が記憶している図22で示される特許情報から実現手段情報を抽出する例について説明する。なお、図22で示される特許情報は、図14で示される特許情報の一部である。
テンプレート情報抽出部106は、まず、図22で示される特許情報の一部である図23で示される符号説明情報を、図22で示される特許情報から[符号の説明]のタグを基に抽出し、そして、図23で示される符号説明情報に含まれる構成要素情報を読み込む。次に、テンプレート情報抽出部106は、実現手段情報抽出パターン記憶部104が記憶している図24で示される実現手段文節語句情報と、実現手段情報抽出パターン記憶部104が記憶している図25で示される実現手段文末語句情報を読み込む。
次に、テンプレート情報抽出部106は、読み込んだ構成要素情報の後ろに実現手段文節語句情報を付与し、主語情報を作成する。例えば、構成要素情報が「情報出力部」であり、実現手段文節語句情報が「とは、」であれば、主語情報は「情報出力部とは、」になる。
この具体例では、テンプレート情報抽出部106は、図23で示される符号説明情報に含まれる構成要素情報である「情報格納部」と「情報受信部」に、図24で示される実現手段文節語句情報である「は、」を付与し、図26で示される主語情報、「情報格納部は、」と「情報受信部は、」を作成したものとする。
次に、テンプレート情報抽出部106は、図26の主語情報と図25の実現手段文末語句情報を手掛りに、主語情報が文の最初で、実現手段文末語句情報が文の最後となる一文を、実現手段説明候補情報として特許情報から抽出する。図22の特許情報において、図26で示される主語情報、「情報格納部は、」、「情報受信部は、」のいずれかが文の最初で、図25で示される実現手段文末語句情報、「ある。」、「よい。」、「ある」、「よい」、「あって、」、「よく、」、「れる。」、「れて、」のいずれかが文の最後となる一文は、「情報格納部は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」と「情報受信部は、有線または無線の通信手段、または放送手段等により実現される。」の2つである。よって、テンプレート情報抽出部106は、この「情報格納部は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」と「情報受信部は、有線または無線の通信手段、または放送手段等により実現される。」の2つの文を実現手段説明候補情報として抽出し、図27のように、蓄積領域に一時的に蓄積する。
次に、テンプレート情報抽出部106は、図27の実現手段説明候補情報を、実現手段名称情報と実現手段説明情報とに分割する。実現手段名称情報は、構成要素情報が含む名称を示す文字列であるので、図27の1番目の実現手段説明候補情報では、「格納」となり、2番目の実現手段説明候補情報では、「受信」となる。また、実現手段説明情報は、実現手段説明候補情報が含む実現手段文節語句情報が示す文字列より後ろの文字列であるので、図27の1番目の実現手段説明候補情報では、「ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」となり、2番目の実現手段説明候補情報では、「有線または無線の通信手段、または放送手段等により実現される。」となる。
次に、テンプレート情報抽出部106は、実現手段情報を蓄積領域に一時的に蓄積する。実現手段情報は、実現手段名称情報と実現手段説明情報を対応付ける情報であるので、テンプレート情報抽出部106は、図27の実現手段説明候補情報から抽出したそれぞれの実現手段名称情報と実現手段説明情報を、例えば、「格納|ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」、「受信|有線または無線の通信手段、または放送手段等により実現される。」のように対応付け、実現手段情報として、図28のように蓄積領域に一時的に蓄積する。
次に、特許情報記憶部101が記憶している図29で示される特許情報から用語情報を抽出する例について説明する。
テンプレート情報抽出部106は、まず、用語情報抽出パターン記憶部105が記憶している図30で示される用語文節語句情報と、用語情報抽出パターン記憶部105が記憶している図31で示される用語文末語句情報を読み込む。
次に、テンプレート情報抽出部106は、図30の用語文節語句情報と図31の用語文末語句情報を手掛りに、用語文節語句情報を文の途中に含み、用語文末語句情報が文の最後となる一文を、用語説明候補情報として特許情報から抽出する。図29の特許情報において、図30で示される用語文節語句情報、「は、」、「が、」、「とは、」のいずれかを文の途中に含み、図31で示される用語文末語句情報、「ある。」、「よい。」、「ある」、「よい」、「あって、」、「よく、」、「れる。」、「れて、」のいずれかが文の最後となる一文は、「ビットマップデータとは、ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」と「MPEGとは、ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」の2つである。よって、テンプレート情報抽出部106は、この「ビットマップデータとは、ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」と「MPEGとは、ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」の2つの文を用語説明候補情報として抽出し、図32のように、蓄積領域に一時的に蓄積する。
次に、テンプレート情報抽出部106は、図32の用語説明候補情報を、用語名称情報と用語説明情報とに分割する。用語名称情報は、用語説明候補情報が含む用語文節語句情報が示す文字列より前の文字列であるので、図32の1番目の用語説明候補情報では、「ビットマップデータ」となり、2番目の用語説明候補情報では、「MPEG」となる。また、用語説明情報は、用語説明候補情報が含む用語文節語句情報が示す文字列より後ろの文字列であるので、図32の1番目の用語説明候補情報では、「ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」となり、2番目の用語説明候補情報では、「ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」となる。
次に、テンプレート情報抽出部106は、用語情報を蓄積領域に一時的に蓄積する。用語情報は、用語名称情報と用語説明情報を対応付ける情報であるので、テンプレート情報抽出部106は、図32の用語説明候補情報から抽出したそれぞれの用語名称情報と用語説明情報を、例えば、「ビットマップデータ|ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」、「MPEG|ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」のように対応付け、用語情報として、図33のように蓄積領域に一時的に蓄積する。
次に、テンプレート情報抽出部106が抽出した図18で示される決まり文句情報を加工する例について説明する。
テンプレート情報加工部107は、テンプレート情報抽出部106が抽出した図18で示される決まり文句情報に対して、例えば、それぞれの決まり文句情報の比較を行いながら重複を削除していく。例えば、図18の1番目の決まり文句情報を決まり文句情報(1)と表現した場合、テンプレート情報加工部107は、決まり文句情報(1)と決まり文句情報(2)、決まり文句情報(1)と決まり文句情報(3)、・・・、決まり文句情報(1)と決まり文句情報(5)、決まり文句情報(2)と決まり文句情報(3)、・・・、決まり文句情報(2)と決まり文句情報(5)、・・・、という具合に順に比較を行っていく。例えば、まず、決まり文句情報(1)である「以下、発明の実施形態について図面を参照して説明する。」を比較対象とすると、「以下、発明の実施形態について図面を参照して説明する。」は、図18の決まり文句情報(1)以外の決まり文句情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図18の決まり文句情報(1)以外の決まり文句情報中に「以下、発明の実施形態について図面を参照して説明する。」と等しいものが存在する場合は、テンプレート情報加工部107は、図18の決まり文句情報(1)以外の決まり文句情報中の「以下、発明の実施形態について図面を参照して説明する。」を削除する。次に、決まり文句情報(2)である「なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。」を比較対象とすると、「なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。」は、図18の決まり文句情報(1)と決まり文句情報(2)以外の決まり文句情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図18の決まり文句情報(1)と決まり文句情報(2)以外の決まり文句情報中に「なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。」と等しいものが存在する場合は、テンプレート情報加工部107は、図18の決まり文句情報(1)と決まり文句情報(2)以外の決まり文句情報中の「なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。」を削除する。テンプレート情報加工部107は、この処理を順に行い、すべての決まり文句情報の比較を行った結果、削除されずに残った決まり文句情報を、加工後の決まり文句情報として蓄積領域に一時的に蓄積する。図18で示される決まり文句情報には重複がないので、テンプレート情報加工部107は、図18で示される情報をそのまま加工後の決まり文句情報として蓄積領域に一時的に蓄積する。
次に、テンプレート情報抽出部106が抽出した図21で示されるスタイルファイル情報を加工する例について説明する。
テンプレート情報加工部107は、テンプレート情報抽出部106が抽出した図21で示されるスタイルファイル情報に対して、例えば、それぞれのスタイルファイル情報の比較を行いながら重複を削除していく。例えば、図21の1番目のスタイルファイル情報をスタイルファイル情報(1)と表現した場合、テンプレート情報加工部107は、スタイルファイル情報(1)とスタイルファイル情報(2)、スタイルファイル情報(1)とスタイルファイル情報(3)、・・・、スタイルファイル情報(1)とスタイルファイル情報(10)、スタイルファイル情報(2)とスタイルファイル情報(3)、・・・、スタイルファイル情報(2)とスタイルファイル情報(10)、・・・、という具合に順に比較を行っていく。例えば、まず、スタイルファイル情報(1)である「[書類名]特許請求の範囲」を比較対象とすると、「[書類名]特許請求の範囲」は、図21のスタイルファイル情報(1)以外のスタイルファイル情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図21のスタイルファイル情報(1)以外のスタイルファイル情報中に「[書類名]特許請求の範囲」と等しいものが存在する場合は、テンプレート情報加工部107は、図21のスタイルファイル情報(1)以外のスタイルファイル情報中の「[書類名]特許請求の範囲」を削除する。次に、スタイルファイル情報(2)である「[書類名]明細書」を比較対象とすると、「[書類名]明細書」は、図21のスタイルファイル情報(1)とスタイルファイル情報(2)以外のスタイルファイル情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図21のスタイルファイル情報(1)とスタイルファイル情報(2)以外のスタイルファイル情報中に「[書類名]明細書」と等しいものが存在する場合は、テンプレート情報加工部107は、図21のスタイルファイル情報(1)とスタイルファイル情報(2)以外のスタイルファイル情報中の「[書類名]明細書」を削除する。テンプレート情報加工部107は、この処理を順に行い、すべてのスタイルファイル情報の比較を行った結果、削除されずに残ったスタイルファイル情報を、加工後のスタイルファイル情報として蓄積領域に一時的に蓄積する。図21で示されるスタイルファイル情報には重複がないので、テンプレート情報加工部107は、図21で示される情報をそのまま加工後のスタイルファイル情報として蓄積領域に一時的に蓄積する。
次に、テンプレート情報抽出部106が抽出した図28で示される実現手段情報を加工する例について説明する。
テンプレート情報加工部107は、まず、テンプレート情報抽出部106が抽出した図28で示される実現手段情報のすべての実現手段説明情報の前に、文字列「<構成要素>は、」を付与する。例えば、図28の1番目の実現手段説明情報を実現手段説明情報(1)と表現した場合、テンプレート情報加工部107は、実現手段説明情報(1)に、実現手段説明情報(1)の前に文字列「<構成要素>は、」を付与した情報を設定する、実現手段説明情報(2)に、実現手段説明情報(2)の前に文字列「<構成要素>は、」を付与した情報を設定する、・・・、という具合に処理を行っていく。例えば、まず、実現手段説明情報(1)である「ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」を文字列「<構成要素>は、」の付与対象とすると、付与後の実現手段説明情報(1)は、「<構成要素>は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」となる。次に、実現手段説明情報(2)である「有線または無線の通信手段、または放送手段等により実現される。」を文字列「<構成要素>は、」の付与対象とすると、付与後の実現手段説明情報(2)は、「<構成要素>は、有線または無線の通信手段、または放送手段等により実現される。」となる。テンプレート情報加工部107は、このようにして処理した結果を、図34のように蓄積領域に一時的に蓄積する。
次に、テンプレート情報加工部107は、図34で示される実現手段情報に対して、例えば、実現手段名称情報と実現手段説明情報のそれぞれの比較を行いながら重複を削除していく。例えば、図34の1番目の実現手段情報を実現手段情報(1)と表現し、実現手段情報(1)が含む実現手段名称情報と実現手段説明情報のそれぞれを、実現手段名称情報(1)、実現手段説明情報(1)と表現した場合、テンプレート情報加工部107は、まず、実現手段名称情報(1)と実現手段名称情報(2)、実現手段名称情報(1)と実現手段名称情報(3)、・・・、という具合に比較を行っていき、もし、実現手段名称情報(1)と実現手段名称情報(2)が等しければ、テンプレート情報加工部107は、次に、実現手段説明情報(1)と実現手段説明情報(2)の比較を行う。そして、実現手段説明情報(1)と実現手段説明情報(2)が等しければ、テンプレート情報加工部107は、実現手段情報(2)を削除する、という具合である。例えば、まず、実現手段名称情報(1)である「格納」を比較対象とすると、「格納」は、図34の実現手段名称情報(1)以外の実現手段名称情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図34の実現手段名称情報(1)以外の実現手段名称情報中に「格納」と等しいものが存在し、それが実現手段名称情報(I)である場合は、テンプレート情報加工部107は、次に、実現手段説明情報(1)である「<構成要素>は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」と実現手段説明情報(I)を比較し、「<構成要素>は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」と実現手段説明情報(I)が等しければ、テンプレート情報加工部107は、実現手段情報(I)を削除する。次に、実現手段名称情報(2)である「受信」を比較対象とすると、「受信」は、図34の実現手段名称情報(1)と実現手段名称情報(2)以外の実現手段情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図34の実現手段名称情報(1)と実現手段名称情報(2)以外の実現手段名称情報中に「受信」と等しいものが存在し、それが実現手段名称情報(J)である場合には、テンプレート情報加工部107は、次に、実現手段説明情報(2)である「<構成要素>は、有線または無線の通信手段、または放送手段等により実現される。」と実現手段説明情報(J)を比較し、「<構成要素>は、有線または無線の通信手段、または放送手段等により実現される。」と実現手段説明情報(J)が等しければ、テンプレート情報加工部107は、実現手段情報(J)を削除する。テンプレート情報加工部107は、この処理を順に行い、すべての実現手段情報の比較を行った結果、削除されずに残った実現手段情報を、加工後の実現手段情報として蓄積領域に一時的に蓄積する。図34で示される実現手段情報には重複がないので、テンプレート情報加工部107は、図34で示される情報をそのまま加工後の実現手段情報として蓄積領域に一時的に蓄積する。
なお、上記において、図34で示される実現手段情報には、実現手段名称情報(3)、および実現手段名称情報(3)は存在しないが、説明の便宜上、記載しているものとする。
次に、テンプレート情報抽出部106が抽出した図33で示される用語情報を加工する例について説明する。
テンプレート情報加工部107は、図33で示される用語情報に対して、例えば、用語名称情報と用語説明情報のそれぞれの比較を行いながら重複を削除していく。例えば、図33の1番目の用語情報を用語情報(1)と表現し、用語情報(1)が含む用語名称情報と用語説明情報のそれぞれを、用語名称情報(1)、用語説明情報(1)と表現した場合、テンプレート情報加工部107は、まず、用語名称情報(1)と用語名称情報(2)、用語名称情報(1)と用語名称情報(3)、・・・、という具合に比較を行っていき、もし、用語名称情報(1)と用語名称情報(2)が等しければ、テンプレート情報加工部107は、次に、用語説明情報(1)と用語説明情報(2)の比較を行う。そして、用語説明情報(1)と用語説明情報(2)が等しければ、テンプレート情報加工部107は、用語情報(2)を削除する、という具合である。例えば、まず、用語名称情報(1)である「ビットマップデータ」を比較対象とすると、「ビットマップデータ」は、図33の用語名称情報(1)以外の用語名称情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図33の用語名称情報(1)以外の用語名称情報中に「ビットマップデータ」と等しいものが存在し、それが用語名称情報(I)である場合は、テンプレート情報加工部107は、次に、用語説明情報(1)である「ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」と用語説明情報(I)を比較し、「ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」と用語説明情報(I)が等しければ、テンプレート情報加工部107は、用語情報(I)を削除する。次に、用語名称情報(2)である「MPEG」を比較対象とすると、「MPEG」は、図33の用語名称情報(1)と用語名称情報(2)以外の用語情報中には等しいものが存在しないので、テンプレート情報加工部107は、何も処理を行わない。ここで、図33の用語名称情報(1)と用語名称情報(2)以外の用語名称情報中に「MPEG」と等しいものが存在し、それが用語名称情報(J)である場合には、テンプレート情報加工部107は、次に、用語説明情報(2)である「ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」と用語説明情報(J)を比較し、「ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」と用語説明情報(J)が等しければ、テンプレート情報加工部107は、用語情報(J)を削除する。テンプレート情報加工部107は、この処理を順に行い、すべての用語情報の比較を行った結果、削除されずに残った用語情報を、加工後の用語情報として蓄積領域に一時的に蓄積する。図33で示される用語情報には重複がないので、テンプレート情報加工部107は、図33で示される情報をそのまま加工後の用語情報として蓄積領域に一時的に蓄積する。
なお、上記において、図33で示される用語情報には、用語名称情報(3)、および用語名称情報(3)は存在しないが、説明の便宜上、記載しているものとする。
次に、テンプレート情報加工部107が加工した図18で示される決まり文句情報と図21で示されるスタイルファイル情報、図34で示される実現手段情報、図33で示される用語情報を蓄積する例について説明する。なお、蓄積領域に既に記憶されているテンプレート情報は、決まり文句情報は記憶されていない、スタイルファイル情報は記憶されていない、実現手段情報は図35で示される情報が記憶されている、用語情報は図37で示される情報が記憶されているものとする。
まず、蓄積方法判断部108は、テンプレート情報加工部107が加工した図18、図21、図34、図33で示される加工されたすべてのテンプレート情報に対して、例えば、それぞれのテンプレート情報と、蓄積領域に既に記憶されているテンプレート情報との比較を行いながら、どのように蓄積を行うか判断していく。そして、蓄積方法判断部108は、加工されたテンプレート情報の一部の情報が蓄積領域に既に記憶されていれば既存の情報に「上書きして蓄積する」と判断し、加工されたテンプレート情報と同じ情報が蓄積領域に記憶されていなければ「別情報として蓄積する」と判断し、加工されたテンプレート情報を包含する情報が蓄積領域に記憶されていれば「蓄積しない」と判断する。
例えば、蓄積方法の判断対象となる情報が決まり文句情報であれば、例えば、テンプレート情報加工部107が蓄積領域に一時的に蓄積した図18で示される加工後の決まり文句情報を、加工済決まり文句情報とし、1番目の加工済決まり文句情報を加工済決まり文句情報(1)と表現し、また、蓄積領域に既に記憶されている決まり文句情報を、記憶済決まり文句情報とし、1番目の記憶済決まり文句情報を記憶済決まり文句情報(1)と表現した場合、蓄積方法判断部108は、加工済決まり文句情報(1)と記憶済決まり文句情報(1)、加工済決まり文句情報(1)と記憶済決まり文句情報(2)、加工済決まり文句情報(1)と記憶済決まり文句情報(3)、・・・、という具合に順に比較を行っていく。この具体例では、記憶済決まり文句情報は存在しないので、蓄積方法判断部108は、図18で示される加工後の決まり文句情報を、すべて別情報として蓄積すると判断する。
また、例えば、蓄積方法の判断対象となる情報がスタイルファイル情報であれば、例えば、テンプレート情報加工部107が蓄積領域に一時的に蓄積した図21で示される加工後のスタイルファイル情報を、加工済スタイルファイル情報とし、蓄積領域に既に記憶されているスタイルファイル情報を、記憶済スタイルファイル情報とし、1番目の記憶済スタイルファイル情報を記憶済スタイルファイル情報(1)と表現した場合、蓄積方法判断部108は、加工済スタイルファイル情報と記憶済スタイルファイル情報(1)、加工済スタイルファイル情報と記憶済スタイルファイル情報(2)、加工済スタイルファイル情報と記憶済スタイルファイル情報(3)、・・・、という具合に順に比較を行っていく。この具体例では、記憶済スタイルファイル情報は存在しないので、蓄積方法判断部108は、図21で示されるスタイルファイル情報を別情報として蓄積すると判断する。
また、例えば、蓄積方法の判断対象となる情報が実現手段情報であれば、例えば、テンプレート情報加工部107が蓄積領域に一時的に蓄積した図34で示される加工後の実現手段情報を、加工済実現手段情報とし、図35で示される蓄積領域に既に記憶されている実現手段情報を、記憶済実現手段情報とした場合、蓄積方法判断部108は、例えば、加工済実現手段情報と記憶済実現手段情報のそれぞれが含む実現手段名称情報と実現手段説明情報の比較を行いながら判断を行っていく。例えば、図34の1番目の実現手段情報を加工済実現手段情報(1)と表現し、加工済実現手段情報(1)が含む実現手段名称情報と実現手段説明情報のそれぞれを、加工済実現手段名称情報(1)、加工済実現手段説明情報(1)と表現し、図35の1番目の実現手段情報を記憶済実現手段情報(1)と表現し、記憶済実現手段情報(1)が含む実現手段名称情報と実現手段説明情報のそれぞれを、記憶済実現手段名称情報(1)、記憶済実現手段説明情報(1)と表現した場合、蓄積方法判断部108は、まず、加工済実現手段名称情報(1)と記憶済実現手段名称情報(1)、加工済実現手段名称情報(1)と記憶済実現手段名称情報(2)、加工済実現手段名称情報(1)と記憶済実現手段名称情報(3)、・・・、という具合に比較を行っていき、もし、加工済実現手段名称情報(1)と等しいものが記憶済実現手段名称情報中に存在しなければ、蓄積方法判断部108は、加工済実現手段情報(1)を「別情報として蓄積する」と判断する。また、もし、加工済実現手段名称情報(1)と等しいものが記憶済実現手段名称情報中に存在し、それが記憶済実現手段名称情報(I)である場合は、蓄積方法判断部108は、次に、加工済実現手段説明情報(1)と記憶済実現手段説明情報(I)の比較を行う。そして、記憶済実現手段説明情報(I)が加工済実現手段説明情報(1)の一部の情報であれば、蓄積方法判断部108は、加工済実現手段情報(1)を記憶済実現手段情報(I)に対して「上書きして蓄積する」と判断する。また、加工済実現手段説明情報(1)と記憶済実現手段説明情報(I)が異なっていれば、蓄積方法判断部108は、加工済実現手段情報(1)を記憶済実現手段情報(I)に対して「別情報として蓄積する」と判断する。さらに、記憶済実現手段説明情報(I)が加工済実現手段説明情報(1)を包含する情報であれば、蓄積方法判断部108は、加工済実現手段情報(1)を「蓄積しない」と判断する。
例えば、まず、加工済実現手段名称情報(1)である「格納」を比較対象とすると、「格納」は、図35の記憶済実現手段名称情報(1)である「格納」と等しいので、蓄積方法判断部108は、加工済実現手段説明情報(1)である「<構成要素>は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」と記憶済実現手段説明情報(1)である「<構成要素>は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」を比較する。加工済実現手段説明情報(1)と記憶済実現手段説明情報(1)は等しく、つまり、記憶済実現手段説明情報(1)は加工済実現手段説明情報(1)を包含する情報であるので、蓄積方法判断部108は、加工済実現手段情報(1)を「蓄積しない」と判断する。次に、加工済実現手段名称情報(2)である「受信」を比較対象とすると、「受信」は、図35の記憶済実現手段名称情報(2)である「受信」と等しいので、蓄積方法判断部108は、加工済実現手段説明情報(2)である「<構成要素>は、有線または無線の通信手段、または放送手段等により実現される。」と記憶済実現手段説明情報(2)である「<構成要素>は、有線または無線の通信手段により実現される。」を比較する。記憶済実現手段説明情報(2)は加工済実現手段説明情報(2)の一部であるので、蓄積方法判断部108は、加工済実現手段情報(2)を記憶済実現手段情報(2)に対して「上書きして蓄積する」と判断する。
また、例えば、蓄積方法の判断対象となる情報が用語情報であれば、例えば、テンプレート情報加工部107が蓄積領域に一時的に蓄積した図33で示される加工後の用語情報を、加工済用語情報とし、図37で示される蓄積領域に既に記憶されている用語情報を、記憶済用語情報とした場合、蓄積方法判断部108は、例えば、加工済用語情報と記憶済用語情報のそれぞれが含む用語名称情報と用語説明情報の比較を行いながら判断を行っていく。例えば、図33の1番目の用語情報を加工済用語情報(1)と表現し、加工済用語情報(1)が含む用語名称情報と用語説明情報のそれぞれを、加工済用語名称情報(1)、加工済用語説明情報(1)と表現し、図37の1番目の用語情報を記憶済用語情報(1)と表現し、記憶済用語情報(1)が含む用語名称情報と用語説明情報のそれぞれを、記憶済用語名称情報(1)、記憶済用語説明情報(1)と表現した場合、蓄積方法判断部108は、まず、加工済用語名称情報(1)と記憶済用語名称情報(1)、加工済用語名称情報(1)と記憶済用語名称情報(2)、加工済用語名称情報(1)と記憶済用語名称情報(3)、・・・、という具合に比較を行っていき、もし、加工済用語名称(1)と等しいものが記憶済用語名称情報中に存在しなければ、蓄積方法判断部108は、加工済用語情報(1)を「別情報として蓄積する」と判断する。また、もし、加工済用語名称情報(1)と等しいものが記憶済用語名称情報中に存在し、それが記憶済用語名称情報(I)である場合は、蓄積方法判断部108は、次に、加工済用語説明情報(1)と記憶済用語説明情報(I)の比較を行う。そして、記憶済用語説明情報(I)が加工済用語説明情報(1)の一部の情報であれば、蓄積方法判断部108は、加工済用語情報(1)を記憶済用語情報(I)に対して「上書きして蓄積する」と判断する。また、加工済用語説明情報(1)と記憶済用語説明情報(I)が異なっていれば、蓄積方法判断部108は、加工済用語情報(1)を記憶済用語情報(I)に対して「別情報として蓄積する」と判断する。さらに、記憶済用語説明情報(I)が加工済用語説明情報(1)を包含する情報であれば、蓄積方法判断部108は、加工済用語情報(1)を「蓄積しない」と判断する。
例えば、まず、加工済用語名称情報(1)である「ビットマップデータ」を比較対象とすると、「ビットマップデータ」は、図37の記憶済用語名称情報中には等しいものが存在しないので、蓄積方法判断部108は、加工済用語情報(1)を「別情報として蓄積する」と判断する。次に、加工済用語名称情報(2)である「MPEG」を比較対象とすると、「MPEG」は、図37の記憶済用語名称情報(2)である「MPEG」と等しいので、蓄積方法判断部108は、加工済用語説明情報(2)である「ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」と記憶済用語説明情報(2)である「ビデオデータの圧縮形式である。」を比較する。記憶済用語説明情報(2)は加工済用語説明情報(2)の一部であるので、蓄積方法判断部108は、加工済用語情報(2)を記憶済用語情報(2)に対して「上書きして蓄積する」と判断する。
次に、判断結果出力部109は、蓄積方法判断部108が蓄積方法の判断対象としたテンプレート情報と、それに対する蓄積方法判断部108が判断した蓄積方法を示す情報と、蓄積方法を示す情報に対する許可、または拒否を受け付けるための情報を、外部に対して画面表示する。
例えば、上記において、蓄積方法判断部108は、図18で示される決まり文句情報については、すべて「別情報として蓄積する」と判断したので、判断結果出力部109は、図18で示されるそれぞれの決まり文句情報と、「別情報として蓄積する」を示す情報と、「別情報として蓄積する」に対する許可、または拒否を受け付けるための情報を、外部に対して画面表示する。例えば、図18の決まり文句情報(1)が出力対象であれば、画面表示例は図39のようになる。
また、例えば、上記において、蓄積方法判断部108は、図21で示されるスタイルファイル情報については、「別情報として蓄積する」と判断したので、判断結果出力部109は、図21で示されるスタイルファイル情報と、「別情報として蓄積する」を示す情報と、「別情報として蓄積する」に対する許可、または拒否を受け付けるための情報を、外部に対して画面表示する。
また、例えば、上記において、蓄積方法判断部108は、図34で示される実現手段情報については、実現手段情報(1)については「蓄積しない」、実現手段情報(2)については「上書きして蓄積する」と判断したので、判断結果出力部109は、図34の実現手段情報(1)と、「蓄積しない」を示す情報と、「蓄積しない」に対する許可、または拒否を受け付けるための情報、および図34の実現手段情報(2)と「上書きして蓄積する」を示す情報と、「上書きして蓄積する」に対する許可、または拒否を受け付けるための情報を、外部に対して画面表示する。
また、例えば、上記において、蓄積方法判断部108は、図33で示される用語情報については、用語情報(1)については「別情報として蓄積する」、用語情報(2)については「上書きして蓄積する」と判断したので、判断結果出力部109は、図33の用語情報(1)と、「別情報として蓄積する」を示す情報と、「別情報として蓄積する」に対する許可、または拒否を受け付けるための情報、および図33の用語情報(2)と、「上書きして蓄積する」を示す情報と、「上書きして蓄積する」に対する許可、または拒否を受け付けるための情報を、外部に対して画面表示する。
次に、蓄積方法情報受付部110は、判断結果出力部109が外部に対して出力した蓄積方法を示す情報と、それに対する許可、または拒否を示す情報を外部から受け付け、その内容から、蓄積方法を示す情報を受け付けたものとする。
例えば、蓄積方法情報受付部110は、「上書きして蓄積する」を示す情報に対して許可を示す情報を受け付けた場合は、「上書きして蓄積する」を示す情報を受け付けたものとし、「蓄積しない」を示す情報に対して拒否を示す情報を受け付けた場合は、「別情報として蓄積する」を示す情報を受け付けたものとする、という具合である。
例えば、蓄積方法情報受付部110は、判断結果出力部109が出力したテンプレート情報のすべてに対して、許可を示す情報を受け付けたとすると、この結果、例えば、蓄積方法情報受付部110は、図18で示される決まり文句情報のすべてに対して、「別情報として蓄積する」を示す情報を受け付けたものとする。
また、この結果、例えば、蓄積方法情報受付部110は、図21で示されるスタイルファイル情報に対して、「別情報として蓄積する」を示す情報を受け付けたものとする。
また、この結果、例えば、蓄積方法情報受付部110は、図34で示される実現手段情報に対しては、実現手段情報(1)に対して、「蓄積しない」を示す情報を作成し、実現手段情報(2)に対して、「上書きして蓄積」を示す情報を受け付けたものとする。
また、この結果、例えば、蓄積方法情報受付部110は、図33で示される用語情報に対しては、用語情報(1)に対して、「別情報として蓄積する」を示す情報を作成し、用語情報(2)に対して、「上書きして蓄積」を示す情報を受け付けたものとする。
最後に、テンプレート情報蓄積部111は、蓄積方法情報受付部110が受け付けた蓄積方法を示す情報に応じて、テンプレート情報加工部107が加工したテンプレート情報を蓄積領域に蓄積する。
例えば、図18で示される決まり文句情報に対しては、蓄積方法情報受付部110が、すべてに対して「別情報として蓄積する」を示す情報を受け付けたので、テンプレート情報蓄積部111は、図18で示される情報をそのまま決まり文句情報として蓄積領域に蓄積する。
また、例えば、図21で示されるスタイルファイル情報に対しては、蓄積方法情報受付部110が、「別情報として蓄積する」を示す情報を受け付けたので、テンプレート情報蓄積部111は、図21で示される情報をそのままスタイルファイル情報として蓄積領域に蓄積する。
また、例えば、図34で示される実現手段情報に対しては、実現手段情報(1)に対しては、蓄積方法情報受付部110が、「蓄積しない」を示す情報を受け付け、実現手段情報(1)に対しては、蓄積方法情報受付部110が、「上書きして蓄積する」を示す情報を受け付けたので、テンプレート情報蓄積部111は、図36に示す情報を実現手段情報として蓄積する。
また、例えば、図33で示される用語情報に対しては、用語情報(1)に対しては、蓄積方法情報受付部110が、「別情報として蓄積する」を示す情報を受け付け、用語情報(1)に対しては、蓄積方法情報受付部110が、「上書きして蓄積する」を示す情報を受け付けたので、テンプレート情報蓄積部111は、図38に示す情報を用語情報として蓄積する。
なお、この具体例では、情報処理装置1が、2つの特許情報から共通情報を作成する例を示したが、情報処理装置1は、3つ以上の特許情報から共通情報を作成してもよい。
また、この具体例では、情報処理装置1が、1つの特許情報から実現手段情報を作成する例を示したが、情報処理装置1は、2つ以上の特許情報から実現手段情報を作成してもよい。
また、この具体例では、実現手段情報が含む実現手段説明情報に、文字列「<構成要素>は、」が付与される例を示したが、実現手段説明情報には、文字列「<構成要素>は、」が付与されなくてもよい。
また、この具体例では、実現手段情報が含む実現手段説明情報について、実現手段説明候補情報の一部から実現手段説明情報を作成する例を示したが、実現手段説明情報は、実現手段説明候補情報そのものであってもよい。
また、この具体例では、情報処理装置1が、1つの特許情報から用語情報を作成する例を示したが、情報処理装置1は、2つ以上の特許情報から用語情報を作成してもよい。
また、この具体例では、用語情報が擁護説明情報に、何も付与されない例を示したが、用語説明情報には、例えば、対象となる用語を主語として扱うための文字列「<用語>は、」などが付与されてもよい。
また、この具体例では、用語情報が含む用語説明情報について、用語説明候補情報の一部から用語説明情報を作成する例を示したが、用語説明情報は、用語説明候補情報そのものであってもよい。
また、この具体例では、まず、テンプレート情報抽出部106が、決まり文句情報、スタイルファイル情報、実現手段情報、用語情報の4種類の情報を抽出し、次に、テンプレート情報加工部107が、その4種類の情報に対して加工を行い、次に、蓄積方法判断部108が、その4種類の情報に対して蓄積方法を判断し、次に、判断結果出力部109が、蓄積方法判断部108がその4種類の情報に対して判断した蓄積方法を示す情報を外部に出力し、次に、蓄積方法情報受付部110が、その4種類の情報に対する蓄積方法を示す情報を受け付け、最後に、テンプレート情報蓄積部111が、蓄積方法情報受付部110が受け付けた蓄積方法を示す情報に応じて、その4種類の情報を蓄積する例を示したが、情報処理装置1は、各情報ごとに上記の処理を行ってもよい。つまり、次の(1)から(4)のような処理の流れである。
(1)テンプレート情報抽出部106が、決まり文句情報を抽出し、次に、テンプレート情報加工部107が、その決まり文句情報に対して加工を行い、次に、蓄積方法判断部108が、その決まり文句情報に対して蓄積方法を判断し、次に、判断結果出力部109が、蓄積方法判断部108がその決まり文句情報に対して判断した蓄積方法を示す情報を外部に出力し、次に、蓄積方法情報受付部110が、その決まり文句情報に対する蓄積方法を示す情報を受け付け、最後に、テンプレート情報蓄積部111が、蓄積方法情報受付部110が受け付けた蓄積方法を示す情報に応じて、その決まり文句情報を蓄積する。
(2)テンプレート情報抽出部106が、スタイルファイル情報を抽出し、次に、テンプレート情報加工部107が、そのスタイルファイル情報に対して加工を行い、次に、蓄積方法判断部108が、そのスタイルファイル情報に対して蓄積方法を判断し、次に、判断結果出力部109が、蓄積方法判断部108がそのスタイルファイル情報に対して判断した蓄積方法を示す情報を外部に出力し、次に、蓄積方法情報受付部110が、そのスタイルファイル情報に対する蓄積方法を示す情報を受け付け、最後に、テンプレート情報蓄積部111が、蓄積方法情報受付部110が受け付けた蓄積方法を示す情報に応じて、そのスタイルファイル情報を蓄積する。
(3)テンプレート情報抽出部106が、実現手段情報を抽出し、次に、テンプレート情報加工部107が、その実現手段情報に対して加工を行い、次に、蓄積方法判断部108が、その実現手段情報に対して蓄積方法を判断し、次に、判断結果出力部109が、蓄積方法判断部108がその実現手段情報に対して判断した蓄積方法を示す情報を外部に出力し、次に、蓄積方法情報受付部110が、その実現手段情報に対する蓄積方法を示す情報を受け付け、最後に、テンプレート情報蓄積部111が、蓄積方法情報受付部110が受け付けた蓄積方法を示す情報に応じて、その実現手段情報を蓄積する。
(4)テンプレート情報抽出部106が、用語情報を抽出し、次に、テンプレート情報加工部107が、その用語情報に対して加工を行い、次に、蓄積方法判断部108が、その用語情報に対して蓄積方法を判断し、次に、判断結果出力部109が、蓄積方法判断部108がその用語情報に対して判断した蓄積方法を示す情報を外部に出力し、次に、蓄積方法情報受付部110が、その用語情報に対する蓄積方法を示す情報を受け付け、最後に、テンプレート情報蓄積部111が、蓄積方法情報受付部110が受け付けた蓄積方法を示す情報に応じて、その用語情報を蓄積する。
また、情報処理装置1は、上記(1)から(4)のいずれか1の処理のみを行ってもよいし、上記(1)から(4)のいずれか2以上の処理を行ってもよい。
また、この具体例では、決まり文句情報は文である例を示したが、例えば、決まり文句情報は、特許情報における任意の見出情報と、2つの特許情報において共通する文であって、その見出情報から次の見出情報の間に存在する文とを対応付ける情報であってもよい。例えば、この決まり文句情報は、「<<発明を実施するための最良の形態>>|以下、発明の実施形態について図面を参照して説明する。」などである。また、テンプレート情報抽出部106は、特許情報記憶部101に記憶されている特許情報から、この決まり文句情報を抽出してもよい。
以上、本実施の形態による情報処理装置1によれば、明細書情報や請求項情報、その他の書誌的情報を含む特許情報から、定型文を含む決まり文句情報、見出情報を含むスタイルファイル情報、構成要素情報が含む名称を示す文字列である実現手段名称情報と、構成要素が実現され得る方法についての情報である実現手段説明情報と、を対応付けた実現手段情報、専門用語や技術用語などである用語を示す文字列である用語名称情報と、用語の具体例や詳細についての説明である用語説明情報と、を対応付けた情報である用語情報の4種類のいずれか1つ以上の情報を含んだテンプレート情報を作成することができる。
この決まり文句情報は、2以上の特許情報において共通する定型文であるため、例えば、新たに特許出願のための文書を作成する場合などにおいて、その文書の雛形を作成する際などに使用することができる。また、このスタイルファイル情報は、2以上の特許情報において共通する見出情報であるため、例えば、新たに特許出願のための文書を作成する場合などにおいて、その文書の雛形を作成する際などに使用することができる。また、この実現手段情報は、構成要素情報が含む名称を示す文字列である実現手段名称情報と、構成要素が実現され得る方法についての情報である実現手段説明情報と、を対応付けた情報であるので、例えば、新たに特許出願のための文書を作成する場合などにおいて、構成要素に関する説明の文章を作成する際などに使用することができる。また、この用語情報は、専門用語や技術用語などである用語を示す文字列である用語名称情報と、用語の具体例や詳細についての説明である用語説明情報と、を対応付けた情報であるので、例えば、新たに特許出願のための文書を作成する場合などにおいて、用語に関する説明の文章を作成する際などに使用することができる。また、この用語情報は、別途、用語辞書としても活用できる。
また、本実施の形態による情報処理装置1によれば、ユーザが上記のテンプレート情報の作成を行う労力を軽減することができる。
なお、本実施の形態において、テンプレート情報抽出部106が実現手段情報を抽出する際に読み込む構成要素情報は、任意の文章に対して形態素解析を行い、重要度を評価しながら単名詞と複合名詞をキーワードとして抽出するソフトウェアを用いて、特許情報やその他の文書情報から抽出したキーワードであってもよい。このソフトウェアは、例えば、東京大学中川研究室・横浜国立大学森研究室で開発された用語抽出システムなどが知られている。また、このソフトウェアは、TF−IDF(http://ja.wikipedia.org/wiki/Tf−idf)という文章中の単語を抽出するためのアルゴリズムを用いてキーワード抽出を行うソフトウェアであってもよい。
なお、本実施の形態の具体例においては、テンプレート情報抽出部106が、特許情報記憶部101が記憶している特許情報が含む符号説明情報に含まれる構成要素情報を基に実現手段情報を抽出する場合について説明したが、テンプレート情報抽出部106は、構成要素情報抽出部103が抽出した構成要素情報を基に実現手段情報を抽出してもよい。この場合、構成要素情報抽出部103は、以下のようにして構成要素情報を抽出してもよい。
例えば、特許情報記憶部101が記憶している特許情報に、「属性に関する情報を抽出する属性情報抽出部と、<改行>」という文字列が含まれているとする。また、構成要素開始語句情報が「える」、「する」、構成要素終了語句情報が「と、<改行>」、「を備える」であるとする。
まず、構成要素情報抽出部103は、構成要素開始語句情報が開始文字列で、構成要素終了語句情報が終了文字列である文字列を抽出する。上記の例では、「する属性情報抽出部と、<改行>」が抽出できる。
次に、構成要素情報抽出部103は、上記抽出した文字列から、構成要素開始語句情報と構成要素終了語句情報を除去する。上記の例では、「する属性情報抽出部と、<改行>」が抽出できたので、構成要素開始語句情報である「する」と構成要素終了語句情報である「と、<改行>」を除去する。この結果、「属性情報抽出部」が残る。この文字列が構成要素情報であり、構成要素情報抽出部103は、この文字列を抽出する。
また、本実施の形態においては、情報処理装置1が判断結果出力部109と蓄積方法情報受付部110を備える場合について説明したが、情報処理装置1は、判断結果出力部109と蓄積方法情報受付部110を備えなくてもよい。そのような場合は、テンプレート情報蓄積部111は、蓄積方法判断部108が判断した結果に応じてテンプレート情報を蓄積してもよい。
また、本実施の形態においては、情報処理装置1が蓄積方法判断部108を備える場合について説明したが、情報処理装置1は、上記に加え、蓄積方法判断部108を備えなくてもよい。そのような場合は、テンプレート情報蓄積部111は、テンプレート情報加工部107が加工したテンプレート情報を、すべて別情報として蓄積してもよい。
また、本実施の形態においては、情報処理装置1がテンプレート情報加工部107を備える場合について説明したが、情報処理装置1は、上記に加え、テンプレート情報加工部107を備えなくてもよい。そのような場合は、テンプレート情報蓄積部111は、テンプレート情報抽出部106が加工したテンプレート情報を、すべて別情報として蓄積してもよい。
また、本実施の形態においては、情報処理装置1が用語情報抽出パターン記憶部105を備える場合について説明したが、情報処理装置1は、上記に加え、用語情報抽出パターン記憶部105を備えなくてもよい。そのような場合は、テンプレート情報抽出部106は、用語情報以外のテンプレート情報を抽出してもよい。
また、本実施の形態においては、情報処理装置1が実現手段情報抽出パターン記憶部104を備える場合について説明したが、情報処理装置1は、上記に加え、実現手段情報抽出パターン記憶部104を備えなくてもよい。そのような場合は、テンプレート情報抽出部106は、実現手段情報以外のテンプレート情報を抽出してもよい。
(実施の形態2)
本実施の形態において、外部からのキーワードに関連する特許出願文書を作成する上で再利用可能であるテンプレート情報を作成する情報処理装置について説明する。
図40は、本実施の形態における情報処理装置2の概念図である。
図40では、情報処理装置2と1以上の端末装置4とが、ネットワーク3を介して接続されている。
ネットワーク3は、有線または無線の通信回線であり、例えば、インターネットやイントラネット、LAN(Local Area Network)、公衆電話回線網などである。
端末装置4は、PC(Personal Computer)などである。
情報処理装置2は、ネットワーク3を介して、1以上の端末装置4からキーワードとなる構成要素情報、または用語名称情報を受け付ける。
情報処理装置2は、受け付けた構成要素情報に基づいた実現手段情報を含むテンプレート情報を作成する。また、情報処理装置2は、受け付けた用語名称情報に基づいた用語情報を含むテンプレート情報を作成する。
図41は、本実施の形態における情報処理装置2のブロック図である。
情報処理装置2は、特許情報記憶部101、構成要素情報抽出パターン記憶部102、構成要素情報抽出部103、構成要素情報受付部201、実現手段情報抽出パターン記憶部104、用語名称情報受付部202、用語情報抽出パターン記憶部105、テンプレート情報抽出部203、テンプレート情報加工部107、蓄積方法判断部108、判断結果出力部109、蓄積方法情報受付部110、テンプレート情報蓄積部111、を備える。なお、構成要素情報受付部201、用語名称情報受付部202、テンプレート情報抽出部203以外の構成および動作は、実施の形態1と同様であるので、その説明を省略する。
構成要素情報受付部201は、構成要素情報を受け付ける。
ここで、構成要素情報とは、例えば、「情報入力部」、「情報送信手段」、「バネ」、「ボルト」など、発明の構成要素を示す文字列である。また、構成要素情報は、「情報入力部11」、「情報送信手段123」、「バネ456」、「ボルト11A」など、特許情報に含まれる符号説明情報において構成要素情報と対応付けられている符号情報を含んでもよい。また、この符号情報は、符号説明情報において構成要素情報と対応付けられている符号情報ではない、任意の符号であってもよい。
受付は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、本実施の形態では、構成要素情報受付部201は、構成要素情報を受信する場合について説明する。また、構成要素情報受付部201は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、構成要素情報受付部201は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
用語名称情報受付部202は、用語名称情報を受け付ける。
受付は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、本実施の形態では、用語名称情報受付部202は、用語名称情報を受信する場合について説明する。また、用語名称情報受付部202は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、用語名称情報受付部202は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
テンプレート情報抽出部203は、例えば、以下のようにして特許情報記憶部101が記憶している特許情報から、実施の形態1記載の実現手段情報を抽出してもよい。
(1)構成要素情報受付部201が受け付けた構成要素情報を取得する。
(2)実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報を読み込む。
(3)実現手段情報抽出パターン記憶部104が記憶している実現手段文末語句情報を読み込む。
(4)(1)で取得した構成要素情報の後ろに(2)で読み込んだ実現手段文節語句情報を付与し、主語情報を生成する。
(5)(4)で生成した主語情報が文の最初であり、(4)で読み込んだ実現手段文末語句情報が文の最後である実現手段説明候補情報を、特許情報から1以上抽出する。
(6)主語情報が含む、名称を示す文字列である実現手段名称情報を抽出する。
(7)実現手段説明候補情報が含む実現手段文節語句情報が示す文字列より後ろの文字列である実現手段説明情報を抽出する。
また、テンプレート情報抽出部203は、例えば、以下のようにして特許情報記憶部101が記憶している特許情報から、実施の形態1記載の実現手段情報を抽出してもよい。
(1)構成要素情報抽出部103が抽出した構成要素情報を取得する。
(2)実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報を読み込む。
(3)実現手段情報抽出パターン記憶部104が記憶している実現手段文末語句情報を読み込む。
(4)(1)で取得した構成要素情報の後ろに(2)で読み込んだ実現手段文節語句情報を付与し、主語情報を生成する。
(5)(4)で生成した主語情報が文の最初であり、(4)で読み込んだ実現手段文末語句情報が文の最後である実現手段説明候補情報を、特許情報から1以上抽出する。
(6)主語情報が含む、名称を示す文字列である実現手段名称情報を抽出する。
(7)実現手段説明候補情報が含む実現手段文節語句情報が示す文字列より後ろの文字列である実現手段説明情報を抽出する。
また、テンプレート情報抽出部203は、例えば、以下のようにして特許情報記憶部101が記憶している特許情報から、実施の形態1記載の用語情報を抽出してもよい。
(1)用語名称情報受付部202が受け付けた用語名称情報を取得する。
(2)用語情報抽出パターン記憶部105が記憶している用語文節語句情報を読み込む。
(3)用語情報抽出パターン記憶部105が記憶している用語文末語句情報を読み込む。
(4)(1)で取得した用語名称情報の後ろに(2)で読み込んだ用語文節語句情報を付与し、主語情報を生成する。
(5)(4)で生成した主語情報が文の最初であり、(4)で読み込んだ用語文末語句情報が文の最後である用語説明候補情報を、特許情報から1以上抽出する。
(6)用語説明候補情報が含む用語文節語句情報が示す文字列より前の文字列である用語名称情報を抽出する。
(7)用語説明候補情報が含む用語文節語句情報が示す文字列より後ろの文字列である用語説明情報を抽出する。
なお、テンプレート情報抽出部203における決まり文句情報とスタイルファイル情報の抽出については、実施の形態1におけるテンプレート情報抽出部106と同様であるので、その説明を省略する。
テンプレート情報抽出部203は、通常、MPUやメモリなどから実現され得る。テンプレート情報抽出部203の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROMなどの記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
次に、本実施の形態における情報処理装置2の動作について、フローチャートを用いて説明する。
図2は、情報処理装置2の全体動作を示すフローチャートであり、図2のフローチャートのステップS2の処理は、図3のフローチャートである。また、本実施の形態において、図3のフローチャートのステップS203の処理は、図42のフローチャートであり、図3のフローチャートのステップS204の処理は、図43のフローチャートである。なお、図3のステップS203とステップS204の処理が異なる以外は、実施の形態1での図2などのフローチャートで示される動作と同様であるので、その説明を省略する。
図42は、図3のフローチャートのステップS203の実現手段情報の抽出処理を示すフローチャートである。なお、図42のステップS20351とステップS20352以外の動作は、実施の形態1と同様であるので、その説明を省略する。
(ステップS20351)構成要素情報受付部201は、構成要素情報を受け付け、受け付けたかどうか判断する。受け付けた場合には、ステップS20352に進み、そうでない場合には、構成要素情報を受け付けるまで、ステップS20351の処理を繰り返す。構成要素情報受付部201は、例えば、ユーザからの構成要素情報の受信など、外部からの構成要素情報の入力を受け付けた場合などに、構成要素情報を受け付けたと判断する。
(ステップS20352)テンプレート情報抽出部203は、構成要素情報受付部201が受け付けた構成要素情報を読み込む。この結果、テンプレート情報抽出部203は、n個の構成要素情報が読み込めたものとする。
図43は、図3のフローチャートのステップS204の用語情報の抽出処理を示すフローチャートである。
(ステップS20451)用語名称情報受付部202は、用語名称情報を受け付け、受け付けたかどうか判断する。受け付けた場合には、ステップS20452に進み、そうでない場合には、構成要素情報を受け付けるまで、ステップS20451の処理を繰り返す。用語名称情報受付部202は、例えば、ユーザからの用語名称情報の受信など、外部からの用語名称情報の入力を受け付けた場合などに、用語名称情報を受け付けたと判断する。
(ステップS20452)テンプレート情報抽出部203は、用語名称情報受付部202が受け付けた用語名称情報を読み込む。この結果、テンプレート情報抽出部203は、n個の用語名称情報が読み込めたものとする。
(ステップS20453)テンプレート情報抽出部203は、用語情報抽出パターン記憶部105が記憶している用語文節語句情報を読み込む。この結果、テンプレート情報抽出部203は、m個の用語文節語句情報が読み込めたものとする。
(ステップS20454)テンプレート情報抽出部203は、用語情報抽出パターン記憶部105が記憶している用語文末語句情報を読み込む。この結果、テンプレート情報抽出部203は、x個の用語文末語句情報が読み込めたものとする。
(ステップS20455)テンプレート情報抽出部203は、特許情報記憶部101が記憶している特許情報を読み込む。この結果、テンプレート情報抽出部203は、y個の特許情報が読み込めたものとする。
(ステップS20456)テンプレート情報抽出部203は、カウンタIに既に値が設定されている場合には、カウンタIを1インクリメントし、そうでない場合には、カウンタIに1を設定する。
(ステップS20457)テンプレート情報抽出部203は、カウンタJに既に値が設定されている場合には、カウンタJを1インクリメントし、そうでない場合には、カウンタJに1を設定する。
(ステップS20458)テンプレート情報抽出部203は、主語情報として、I番目の用語名称情報(以下、用語名称情報(I))の文字列の後ろにJ番目の用語文節語句情報(以下、用語文節語句情報(J))の文字列を付与した文字列を設定する。
(ステップS20459)テンプレート情報抽出部203は、カウンタKに既に値が設定されている場合には、カウンタKを1インクリメントし、そうでない場合には、カウンタKに1を設定する。
(ステップS20460)テンプレート情報抽出部203は、カウンタLに既に値が設定されている場合には、カウンタLを1インクリメントし、そうでない場合には、カウンタLに1を設定する。
(ステップS20461)テンプレート情報抽出部203は、主語情報が文の最初で、K番目の用語文末語句情報(以下、用語文末語句情報(K))が文の最後となる一文を、特許情報(L)から用語説明候補情報として1以上抽出し、抽出できたかどうか判断する。抽出できた場合には、ステップS20462に進み、そうでない場合には、ステップS20464に進む。
(ステップS20462)テンプレート情報抽出部203は、ステップS20461で抽出した用語説明候補情報から、主語情報より後ろの文字列を用語説明情報として抽出する。
(ステップS20463)テンプレート情報抽出部203は、主語情報に含まれる用語名称情報(I)とステップS20462で抽出した用語説明情報とを対応付け、用語情報として蓄積領域に一時的に蓄積する。
(ステップS20464)テンプレート情報抽出部203は、カウンタLの値がyであるかどうか判断し、カウンタLの値がyである場合には、ステップS20465に進み、そうでない場合には、ステップS20460に戻る。
(ステップS20465)テンプレート情報抽出部203は、カウンタKの値がxであるかどうか判断し、カウンタKの値がxである場合には、ステップS20466に進み、そうでない場合には、ステップS20459に戻る。
(ステップS20466)テンプレート情報抽出部203は、カウンタJの値がmであるかどうか判断し、カウンタJの値がmである場合には、ステップS20467に進み、そうでない場合には、ステップS20457に戻る。
(ステップS20467)テンプレート情報抽出部203は、カウンタIの値がnであるかどうか判断し、カウンタIの値がnである場合には、図3のフローチャートのステップS204の処理は終了となり、そうでない場合には、ステップS20456に戻る。
次に、具体的な情報を用いて、動作の具体例について説明する。
なお、この具体例では、テンプレート情報抽出部203の実現手段情報と用語情報を抽出する動作が、実施の形態1のテンプレート情報抽出部106と異なる以外は、実施の形態1で説明した具体例と同様であるので、その説明を省略する。
まず、特許情報記憶部101が記憶している図22で示される特許情報から実現手段情報を抽出する例について説明する。
構成要素情報受付部201は、外部から、構成要素情報を受け付ける。構成要素情報受付部201は、例えば、あらかじめ決められたインターフェイスに従いユーザが構成要素情報をキーボードなどから入力したものを受け付けてもよいが、この具体例では、構成要素情報受付部201は、ユーザが使用している端末装置4からの構成要素情報の送信を受け付けるものとする。
次に、テンプレート情報抽出部203は、まず、構成要素情報受付部201が受け付けた構成要素情報を読み込む。次に、テンプレート情報抽出部203は、実現手段情報抽出パターン記憶部104が記憶している図24で示される実現手段文節語句情報と、実現手段情報抽出パターン記憶部104が記憶している図25で示される実現手段文末語句情報を読み込む。
次に、テンプレート情報抽出部203は、読み込んだ構成要素情報の後ろに実現手段文節語句情報を付与し、主語情報を作成する。例えば、構成要素情報が「情報出力部」であり、実現手段文節語句情報が「とは、」であれば、主語情報は「情報出力部とは、」になる。
この具体例では、テンプレート情報抽出部203は、図23で示される符号説明情報に含まれる構成要素情報である「情報格納部」と「情報受信部」に、図24で示される実現手段文節語句情報である「は、」を付与し、図26で示される主語情報、「情報格納部は、」と「情報受信部は、」を作成したものとする。
次に、テンプレート情報抽出部203は、図26の主語情報と図25の実現手段文末語句情報を手掛りに、主語情報が文の最初で、実現手段文末語句情報が文の最後となる一文を、実現手段説明候補情報として特許情報から抽出する。図22の特許情報において、図26で示される主語情報、「情報格納部は、」、「情報受信部は、」のいずれかが文の最初で、図25で示される実現手段文末語句情報、「ある。」、「よい。」、「ある」、「よい」、「あって、」、「よく、」、「れる。」、「れて、」のいずれかが文の最後となる一文は、「情報格納部は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」と「情報受信部は、有線または無線の通信手段、または放送手段等により実現される。」の2つである。よって、テンプレート情報抽出部203は、この「情報格納部は、ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」と「情報受信部は、有線または無線の通信手段、または放送手段等により実現される。」の2つの文を実現手段説明候補情報として抽出し、図27のように、蓄積領域に一時的に蓄積する。
次に、テンプレート情報抽出部203は、図27の実現手段説明候補情報を、実現手段名称情報と実現手段説明情報とに分割する。実現手段名称情報は、構成要素情報が含む名称を示す文字列であるので、図27の1番目の実現手段説明候補情報では、「格納」となり、2番目の実現手段説明候補情報では、「受信」となる。また、実現手段説明情報は、実現手段説明候補情報が含む実現手段文節語句情報が示す文字列より後ろの文字列であるので、図27の1番目の実現手段説明候補情報では、「ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」となり、2番目の実現手段説明候補情報では、「有線または無線の通信手段、または放送手段等により実現される。」となる。
次に、テンプレート情報抽出部203は、実現手段情報を蓄積領域に一時的に蓄積する。実現手段情報は、実現手段名称情報と実現手段説明情報を対応付ける情報であるので、テンプレート情報抽出部203は、図27の実現手段説明候補情報から抽出したそれぞれの実現手段名称情報と実現手段説明情報を、例えば、「格納|ハードディスクや、CD−ROM等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。」、「受信|有線または無線の通信手段、または放送手段等により実現される。」のように対応付け、実現手段情報として、図28のように蓄積領域に一時的に蓄積する。
次に、特許情報記憶部101が記憶している図25で示される特許情報から用語情報を抽出する例について説明する。
用語名称情報受付部202は、外部から、用語名称情報を受け付ける。用語名称情報受付部202は、例えば、あらかじめ決められたインターフェイスに従いユーザが用語名称情報をキーボードなどから入力したものを受け付けてもよいが、この具体例では、用語名称情報受付部202は、ユーザが使用している端末装置4からの用語名称情報の送信を受け付けるものとする。
次に、テンプレート情報抽出部203は、まず、用語名称情報受付部202が受け付けた用語名称情報を読み込む。次に、テンプレート情報抽出部203は、用語情報抽出パターン記憶部105が記憶している図30で示される用語文節語句情報と、用語情報抽出パターン記憶部105が記憶している図31で示される用語文末語句情報を読み込む。
次に、テンプレート情報抽出部203は、読み込んだ用語名称情報の後ろに用語文節語句情報を付与し、主語情報を作成する。例えば、用語名称情報が「テレビ」であり、用語文節語句情報が「とは、」であれば、主語情報は「テレビとは、」になる。
この具体例では、テンプレート情報抽出部203は、読み込んだ用語名称情報に、図30で示される用語文節語句情報である「とは、」を付与し、図44で示される主語情報を作成したものとする。
次に、テンプレート情報抽出部203は、図44の主語情報と図31の用語文末語句情報を手掛りに、主語情報が文の最初で、用語文末語句情報が文の最後となる一文を、用語説明候補情報として特許情報から抽出する。図29の特許情報において、図44で示される主語情報、「ビットマップデータとは、」、「MPEGとは、」のいずれかが文の最初で、図31で示される用語文末語句情報、「ある。」、「よい。」、「ある」、「よい」、「あって、」、「よく、」、「れる。」、「れて、」のいずれかが文の最後となる一文は、「ビットマップデータとは、ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」と「MPEGとは、ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」の2つである。よって、テンプレート情報抽出部203は、この「ビットマップデータとは、ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」と「MPEGとは、ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」の2つの文を用語説明候補情報として抽出し、図32のように、蓄積領域に一時的に蓄積する。
次に、テンプレート情報抽出部203は、図32の用語説明候補情報を、用語名称情報と用語説明情報とに分割する。用語名称情報は、用語名称情報受付部202が受け付けた情報であるので、図32の1番目の用語説明候補情報では、「ビットマップデータ」となり、2番目の用語説明候補情報では、「MPEG」となる。また、用語説明情報は、用語説明候補情報が含む用語文節語句情報が示す文字列より後ろの文字列であるので、図32の1番目の用語説明候補情報では、「ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」となり、2番目の用語説明候補情報では、「ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」となる。
次に、テンプレート情報抽出部203は、用語情報を蓄積領域に一時的に蓄積する。用語情報は、用語名称情報と用語説明情報を対応付ける情報であるので、テンプレート情報抽出部203は、図32の用語説明候補情報から抽出したそれぞれの用語名称情報と用語説明情報を、例えば、「ビットマップデータ|ドットまたはピクセルと呼ばれる点の集合で表現された画像データのことである。」、「MPEG|ビデオデータの圧縮形式であり、またその圧縮形式により圧縮されたビデオデータのことである。」のように対応付け、用語情報として、図33のように蓄積領域に一時的に蓄積する。
なお、この具体例では、情報処理装置2が1つの特許情報から実現手段情報を抽出する例を示したが、情報処理装置2は、1以上の特許情報から実現手段情報を抽出してもよい。
また、この具体例では、情報処理装置2が1つの特許情報から用語情報を抽出する例を示したが、情報処理装置2は、1以上の特許情報から用語情報を抽出してもよい。
以上、本実施の形態による情報処理装置2によれば、明細書情報や請求項情報、その他の書誌的情報を含む特許情報から、定型文を含む決まり文句情報、見出情報を含むスタイルファイル情報、構成要素情報が含む名称を示す文字列である実現手段名称情報と、構成要素が実現され得る方法についての情報である実現手段説明情報と、を対応付けた実現手段情報、専門用語や技術用語などである用語を示す文字列である用語名称情報と、用語の具体例や詳細についての説明である用語説明情報と、を対応付けた情報である用語情報の4種類のいずれか1つ以上の情報を含んだテンプレート情報を作成することができる。
この決まり文句情報は、2以上の特許情報において共通する定型文であるため、例えば、新たに特許出願のための文書を作成する場合などにおいて、その文書の雛形を作成する際などに使用することができる。また、このスタイルファイル情報は、2以上の特許情報において共通する見出情報であるため、例えば、新たに特許出願のための文書を作成する場合などにおいて、その文書の雛形を作成する際などに使用することができる。また、この実現手段情報は、構成要素情報が含む名称を示す文字列である実現手段名称情報と、構成要素が実現され得る方法についての情報である実現手段説明情報と、を対応付けた情報であるので、例えば、新たに特許出願のための文書を作成する場合などにおいて、構成要素に関する説明の文章を作成する際などに使用することができる。また、この用語情報は、専門用語や技術用語などである用語を示す文字列である用語名称情報と、用語の具体例や詳細についての説明である用語説明情報と、を対応付けた情報であるので、例えば、新たに特許出願のための文書を作成する場合などにおいて、用語に関する説明の文章を作成する際などに使用することができる。また、この用語情報は、別途、用語辞書としても活用できる。
また、本実施の形態による情報処理装置2によれば、ユーザが上記のテンプレート情報の作成を行う労力を軽減することができる。
また、本実施の形態による情報処理装置2によれば、任意の特許情報に含まれる不特定多数の構成要素情報に対応した実現手段情報を含むテンプレート情報ではなく、ユーザが指定した構成要素情報に対応した実現手段情報のみを含むテンプレート情報を作成することができる。
また、本実施の形態による情報処理装置2によれば、任意の特許情報に含まれる不特定多数の用語に対応した用語情報を含むテンプレート情報ではなく、ユーザが指定した用語に対応した用語情報のみを含むテンプレート情報を作成することができる。
なお、本実施の形態において、構成要素情報受付部201が受け付ける構成要素情報と用語名称情報受付部202が受け付ける用語名称情報は、端末装置4において、任意の文章に対して形態素解析を行い、重要度を評価しながら単名詞と複合名詞をキーワードとして抽出するソフトウェアを用いて、特許情報やその他の文書情報から抽出したキーワードであってもよい。このソフトウェアは、例えば、東京大学中川研究室・横浜国立大学森研究室で開発された用語抽出システムなどが知られている。また、このソフトウェアは、TF−IDF(http://ja.wikipedia.org/wiki/Tf−idf)という文章中の単語を抽出するためのアルゴリズムを用いてキーワード抽出を行うソフトウェアであってもよい。
また、このようなソフトウェアを用いて端末装置4において文書情報からキーワードを抽出し、それを構成要素情報受付部201、または用語名称情報受付部202が受け付けることにより、例えば、端末装置4においてキーワード抽出の対象となる文書情報が機密性のある文書情報である場合などにおいて、機密性のある文書情報そのものを構成要素情報受付部201、または用語名称情報受付部202が受け付けるわけではないので、その文書情報の機密性を担保することができる。
なお、本実施の形態においては、情報処理装置2が判断結果出力部109と蓄積方法情報受付部110を備える場合について説明したが、情報処理装置2は、判断結果出力部109と蓄積方法情報受付部110を備えなくてもよい。そのような場合は、テンプレート情報蓄積部111は、蓄積方法判断部108が判断した結果に応じてテンプレート情報を蓄積してもよい。
また、本実施の形態においては、情報処理装置2が蓄積方法判断部108を備える場合について説明したが、情報処理装置2は、上記に加え、蓄積方法判断部108を備えなくてもよい。そのような場合は、テンプレート情報蓄積部111は、テンプレート情報加工部107が加工したテンプレート情報を、すべて別情報として蓄積してもよい。
また、本実施の形態においては、情報処理装置2がテンプレート情報加工部107を備える場合について説明したが、情報処理装置2は、上記に加え、テンプレート情報加工部107を備えなくてもよい。そのような場合は、テンプレート情報蓄積部111は、テンプレート情報抽出部106が加工したテンプレート情報を、すべて別情報として蓄積してもよい。
また、本実施の形態においては、情報処理装置2が用語名称情報受付部202を備える場合について説明したが、情報処理装置2は、上記に加え、用語名称情報受付部202を備えなくてもよい。そのような場合は、テンプレート情報抽出部203は、用語情報抽出パターン記憶部105が記憶している用語文節語句情報と用語文末語句情報を手掛りに用語情報を抽出してもよい。
また、本実施の形態においては、情報処理装置2が構成要素情報受付部201を備える場合について説明したが、情報処理装置2は、上記に加え、構成要素情報受付部201を備えていなくてもよい。そのような場合は、テンプレート情報抽出部203は、特許情報記憶部101が記憶している特許情報が含む符号説明情報の構成要素情報と、実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報と実現手段文末語句情報を手掛りに実現手段情報を抽出してもよい。
また、本実施の形態においては、情報処理装置2が構成要素情報抽出部103と構成要素情報受付部201の両方を備える場合について説明したが、情報処理装置2は、上記に加え、どちらか一方を備えていてもよい。情報処理装置2が構成要素情報抽出部103のみを備えている場合、テンプレート情報抽出部203は、構成要素情報抽出部103が抽出した構成要素情報と、実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報と実現手段文末語句情報を手掛りに実現手段情報を抽出してもよい。また、情報処理装置2が構成要素情報受付部201のみを備えている場合、テンプレート情報抽出部203は、構成要素情報受付部201が受け付けた構成要素情報と、実現手段情報抽出パターン記憶部104が記憶している実現手段文節語句情報と実現手段文末語句情報を手掛りに実現手段情報を抽出してもよい。
また、本実施の形態においては、情報処理装置2が用語情報抽出パターン記憶部105を備える場合について説明したが、情報処理装置2は、上記に加え、用語情報抽出パターン記憶部105を備えなくてもよい。そのような場合は、テンプレート情報抽出部203は、用語情報以外のテンプレート情報を抽出してもよい。
また、本実施の形態においては、情報処理装置2が実現手段情報抽出パターン記憶部104を備える場合について説明したが、情報処理装置2は、上記に加え、実現手段情報抽出パターン記憶部104を備えなくてもよい。そのような場合は、テンプレート情報抽出部203は、実現手段情報以外のテンプレート情報を抽出してもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されてもよいことは言うまでもない。
また、上記各実施の形態における情報処理装置は、例えば、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、例えば、ASP(Application Service Provider)としてテンプレート情報の作成が行われてもよい。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
また、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、特許発明の内容を示す情報である明細書情報を含む特許情報を記憶する特許情報記憶部が記憶している特許情報を読み出し、前記特許情報に含まれる1以上の文を含む情報が再利用可能であるか否かを判断し、再利用可能であると判断した1以上の文を含む情報であるテンプレート情報を抽出するテンプレート情報抽出部と、
前記テンプレート情報抽出部が抽出したテンプレート情報を蓄積するテンプレート情報蓄積部として機能させるためのものである。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアでしか行われない処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理は少なくとも含まれない。
また、上記プログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、図45は、本明細書で述べたプログラムを実行して、上述した実施の形態の情報端末装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図45は、このコンピュータシステム9の概観図であり、図46は、コンピュータシステム9のブロック図である。
図45において、コンピュータシステム9は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを含む。
図46において、コンピュータ901は、FDドライブ9011、CD−ROMドライブ9012に加えて、CPU(Central Processing Unit)9013と、CPU9013、CD−ROMドライブ9012及びFDドライブ9011に接続されたバス9014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)9015と、CPU9013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)9016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク9017とを含む。ここでは、図示しないが、コンピュータ901は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム9に、上述した実施の形態の情報端末装置等の機能を実行させるプログラムは、CD−ROM9101、またはFD9102に記憶されて、CD−ROMドライブ9012またはFDドライブ9011に挿入され、さらにハードディスク9017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク9017に記憶されても良い。プログラムは実行の際にRAM9016にロードされる。プログラムは、CD−ROM9101、FD9102またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ901に、上述した実施の形態の情報端末装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム9がどのように動作するかは周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。