JP5644087B2 - 構成要素ハイライト装置、プログラム、及び方法 - Google Patents

構成要素ハイライト装置、プログラム、及び方法 Download PDF

Info

Publication number
JP5644087B2
JP5644087B2 JP2009252341A JP2009252341A JP5644087B2 JP 5644087 B2 JP5644087 B2 JP 5644087B2 JP 2009252341 A JP2009252341 A JP 2009252341A JP 2009252341 A JP2009252341 A JP 2009252341A JP 5644087 B2 JP5644087 B2 JP 5644087B2
Authority
JP
Japan
Prior art keywords
component
text data
effect
character string
reason
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009252341A
Other languages
English (en)
Other versions
JP2011096200A (ja
Inventor
田中 一成
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009252341A priority Critical patent/JP5644087B2/ja
Publication of JP2011096200A publication Critical patent/JP2011096200A/ja
Application granted granted Critical
Publication of JP5644087B2 publication Critical patent/JP5644087B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

特許文書の理解を支援するための技術に係り、とくに、構成要素ハイライト装置に関する。
特許文書は特許の専門家以外でも、発明者が他社特許の侵害を回避するなどの目的で読む必要がある。
しかし、特許文書中の特許請求の範囲に記載される請求項などは一般に、単語又は単語の組合せで記述されることにより、或る特定の意味を持つが抽象的な言葉で書かれることが多く、特許文書に不慣れな発明者が、請求項に書かれている発明のポイントをつかむのは難しい。
また、特許の明細書では、その発明においてポイントとなる構成要素以外にも、周辺の構成要素についても一通り説明が書かれるため、明細書を読む際には、その特許のポイントとなる構成要素についての説明を探しながら読む必要がある。
一方、発明の効果を記載している文書において例えば「〜でき、・・・できる。」というような表現パターンを使って、課題表現と効果表現を抽出することができるという研究結果が報告されている。(たとえば、非特許文献1)
また、発明の効果を記載している文書において例えば「〜ことにより・・・」というような表現パターンを使って、手段の記載と効果の記載の間の関係(因果関係)を抽出することができるという研究結果も報告されている。(たとえば、非特許文献2)
特開2002−63192号公報
坂地泰紀,野中尋史,酒井 浩之,増山 繁,特許文書からのブートストラップ手法を用いた課題・効果表現対の抽出,情報処理学会研究報告,vol.2009−NL−192,no.14,pp.85−92,2009. 石川大介,石塚英弘,宇陀則彦,藤原譲,特許文献における因果関係の抽出と統合:概要とその後の展開,情報知識学会誌、Vol.15,pp.98−106,2005.
しかし、従来は、特許文書においてポイントとなる構成要素を提示することができる技術は知られていなかった。
そこで、本発明の課題では、請求項中のポイントとなる構成要素を特定して提示することで、そのポイントとなる構成要素の説明を重点的に読むことがでるようにすることである。
本発明の一つの態様の構成要素ハイライト装置は、特許文書の理解を支援するための装置であって、請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出する構成要素名抽出部と、各構成要素名と構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、請求項のテキストデータから、各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、効果が記載されている文字列部分と効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、特許文書中の発明の効果を記載しているテキストデータから、効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、各構成要素の説明文のテキストデータと効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、類似度が最も高い説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、ポイントとなる構成要素を出力する出力部とを含む。
特許文書中の発明の効果を記載している文書において、効果が得られる理由と関係が強い作用をする構成要素を特定し、ポイントとなる構成要素として利用者に提示することが可能となる。
実施形態の構成図である。 特許文書の例を示す図(その1:特開2002−278562号公報)である。 実施形態の動作説明図(その1:請求項から構成要素名を抽出する処理)である。 実施形態の動作説明図(その2:請求項から構成要素の説明をしている文を抽出する処理)である。 実施形態の動作説明図(その3:効果が得られる理由を書いている部分を抽出する処理)である。 実施形態の動作説明図(その4:効果が得られる理由と最も類似する構成要素の説明を求めて構成要素を特定する処理)である。 特許文書の例を示す図(その2:特許第2741566号公報)である。 実施形態の動作説明図(その5:請求項から構成要素を抽出する処理)である。 実施形態の動作説明図(その6:請求項から構成要素の説明をしている文を抽出する処理)である。 実施形態の動作説明図(その7:請求項から抽出された説明に十分な情報があるかどうかを判定する処理)である。 実施形態の動作説明図(その8:実施例から構成要素の説明をしている文を抽出する処理)である。 実施形態の動作説明図(その9:効果が得られる理由を書いている部分を抽出する処理)である。 実施形態の動作説明図(その10:効果が得られる理由と最も類似する構成要素の説明を求めて構成要素を特定する処理)である。 実施形態のフローチャートである。 図14のステップS1406(抽出された説明文に十分な情報量があるかを判定する処理)の詳細フローチャートである。 図14のステップS1409(効果が得られる理由を抽出する処理)の詳細フローチャートである。 図14のステップS1410(効果が得られる理由と各構成要素の説明との類似度を計算する処理)の詳細フローチャートである。 特許データベースの例を示す図である。 解析済み文書テーブルの例を示す図である。 構成要素表現パターン辞書の例を示す図である。 実施例中の説明表現パターン辞書の例を示す図である。 構成要素テーブルの例を示す図である。 効果が得られる理由表現パターン辞書の例を示す図である。 形態素重みテーブルの例を示す図である。 類似度テーブルの例を示す図である。 表示部の表示例を示す図である。 修飾語付き各構成要素抽出処理に使われる係り受け解析を示す動作フローチャートである。 係り受け解析処理の説明図である。 パターンマッチング処理の具体的な動作を示す詳細フローチャートである。 実施形態のシステムを実現可能なハードウェアの例を示す図である。
以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。
図1は、構成要素ハイライト装置の実施形態の構成図である。本実施形態のシステムは、特許文書検索部101、特許文書構造解析部102、構成要素名抽出部103、請求項からの構成要素の説明抽出部104、情報量判定部105、実施例からの説明抽出部106、効果が得られる理由抽出部107、類似度計算部108、ポイント構成要素特定部109、表示部110を備える。また、本実施形態のシステムは、特許データベース111、構成要素表現パターン辞書112、構成要素テーブル113、解析済み文書テーブル114、実施例中の説明表現パターン辞書115、効果が得られる理由表現パターン辞書116、及び類似度テーブル117を備える。
上述の構成を有する本実施形態の基本的な動作について、以下に説明する。
請求項においてポイントとなる構成要素を特定する手がかりとして、明細書中の「発明の効果」の項目等の、発明の効果を記載している文書の記載が役に立つ。このような文書には、発明の最も特徴とする効果が記載されていると考えられるため、このような文書の記載から発明の構成要素を抽出することができ請求項中の構成要素と対応付けることができれば、ポイントとなる構成要素を特定することができる。
そこで、本実施形態では、特許文書中の発明の効果を記載している文書において、効果が得られる理由と関係が強い作用をする構成要素を特定して提示することを実現する。
しかし、発明の効果を記載している文書においては、ポイントとなる構成要素は、構成要素名ではなくその作用の記述に置き換えて書かれる場合がある。
例えば、特許公開公報中の図2(b)に示される「発明の効果」の記述欄からは、「〜できるので、・・・できる。」という表現パターンが抽出されることにより、「〜できるので」に対応する前半の下線部分が効果が得られる理由の記載であり、「・・・できる」に対応する後半の下線部分が効果の記載であると認識できる。この結果、前半の下線部分の記載「聴取した時刻と、放送会社、放送チャンネル、あるいは店コードにより、放送されている曲を特定してダウンロードすることができるので、」が、請求項中の構成要素と関係が強いと判断することができる。しかし、上記前半の下線部分の記載には、例えば図2(a)中の「請求項1」で記載されているどの構成要素「携帯電話」「ダウンロードサーバー」「放送表示手段」も、直接的には記載されていない。従って、上記前半の下線部分の記載から「請求項1」中でポイントとなる構成要素を直接的に特定することはできない。
そこで、本実施形態では、以下の第1の手順1から4に基づくコンピュータ処理により、特許文書において、その発明の各構成要素の説明文とその発明の効果が得られる理由の文書との類似度を計算して、最も類似する構成要素をポイントとなる構成要素として特定する。以下、これらの手順について、図2の特許文書の例及び図3から図6の動作説明図を用いて説明する。
第1の手順1:特許文書データベース111(図1)から抽出した特許文書中の請求項のテキストデータから、構成要素表現パターン辞書112(図1及び後述する図20)に記録された表現パターンに基づいて、構成要素名を抽出する。この結果得られる各構成要素名のテキストデータを、構成要素テーブル113(図1及び後述する図22)に登録する。
例えば、図2(a)の「請求項1」について、図3の301から302として示されるように、構成要素名「携帯電話」「ダウンロードサーバー」「放送表示手段」が抽出され、構成要素テーブル113に登録される。このとき、例えば図20に示される構成要素を抽出するための構成要素表現パターン辞書112に記録された表現パターン「〜と、〜と、〜とを有する」を用いて、各構成要素が識別される。
第1の手順2:請求項のテキストデータから、第1の手順1で抽出した各構成要素名に対応する構成要素の説明をしているテキストデータを抽出する。この結果得られる各構成要素の説明文のテキストデータを、各構成要素名に対応させて構成要素テーブル113(図1及び後述する図22)に登録する。
例えば、図2(a)の「請求項1」について、図4の401から402として示されるように、構成要素名「携帯電話」を説明するテキストデータが抽出され、構成要素名「携帯電話」に対応させられて構成要素の説明文として構成要素テーブル113に登録される。他の構成要素名「ダウンロードサーバー」「放送表示手段」についても同様である。
第1の手順3:第1の手順1で抽出した特許文書中の発明の作用や効果を書いているテキストデータから、効果が得られる理由が記述されているテキストデータを抽出する。このとき、効果が得られる理由表現パターン辞書116(図1及び後述する図23)に記録された表現パターンが参照されることにより、効果が得られる理由の部分が抽出される。
例えば、図2(b)の「発明の効果」について、図5の501から502として示されるように、効果が得られる理由が記述されているテキストデータが抽出される。このとき、例えば図23に示される効果が得られる理由表現パターン辞書116に記録された表現パターン「ので」を用い、その表現パターンより前の部分のテキストデータ(図5の502の下線部)が、効果が得られる理由が記述されている部分として抽出される。
第1の手順4:第1の手順2で構成要素テーブル113に登録した各構成要素の説明文のテキストデータのうち、第1の手順3で抽出した効果が得られる理由のテキストデータと最も類似するものを算出する。そして、その算出した説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定する。
最も類似するものの算出は以下の如く行なう。
例えば、図2(a)の「請求項1」と図2(b)の「発明の効果」につき、図6の602−1、602−2、602−3として示されるように、第1の手順2で請求項1から抽出された各構成要素「携帯電話」、「ダウンロードサーバ」、「放送表示手段」の説明文のテキストデータから、形態素解析により名詞のテキストデータが抽出される。これらの名詞のテキストデータは、例えば図22に示されるように、各説明文に対応させて予め形態素解析され構成要素テーブル113に登録されるように構成できる。一方、図6の601として示されるように、第1の手順3で抽出された効果が得られる理由のテキストデータから、形態素解析により名詞のテキストデータが抽出される。そして、請求項中の各構成要素の説明文のテキストデータ602−1、602−2、602−3のそれぞれについて、効果が得られる理由のテキストデータ601と共通に含まれる名詞の数が、類似度としてカウントされる。このとき、特許文書の明細書中で各名詞が現れる出現頻度が少ないものほど有意な(独自性が高い)名詞として、類似度のカウントにおいて高い重み付けがされるように構成することができる。この結果、請求項中の構成要素の説明文と効果の得られる理由のテキストデータに共通に含まれる有意な名詞の数が最も多いテキストデータ602−1が類似度が最も高い構成要素のテキストデータとして抽出される。そして、そのテキストデータ602−1に対応する構成要素名「携帯電話」が、構成要素テーブル113(図1及び後述する図22)から抽出され、ポイントとなる構成要素として特定される。
以上説明した第1の手順1から4の処理により、特許文書中の発明の効果を記載している文書において、効果が得られる理由と関係が強い作用をする構成要素を特定し、ポイントとなる構成要素として利用者に提示することが可能となる。
この場合に、発明の効果を記載している文書中で、構成要素が構成要素名ではなくその作用の記述に置き換えて書かれている場合であっても、請求項中の構成要素の説明文のテキストデータと効果が得られる理由のテキストデータとの類似性が判定される。これにより、ポイントとなる構成要素を的確に特定することが可能となる。
以上の第1の手順1から4の処理において、請求項に書かれている構成要素の説明部分だけでは、第1の手順4での類似度判定を行えるだけの十分な情報が含まれない場合がある。例えば、図7(a)に示される特許文書の「請求項1」中の構成要素「音声変換手段」については、「読み出し手段(6)から読み出されたデジタル音声にデジタルアナログ変換を施しアナログ音声出力する音声変換手段(8)と」としか説明がない。この説明部分には、具体的な内容がほとんど含まれていない。このため、図7(b)に示される「発明の効果」中の効果が得られる理由の部分との間(図7(b)中の前半の下線部)で、有意な名詞の数による類似度の判定が正確に行えない。
そこで、本実施形態では、上述の第1の手順1から4を改良して、以下の第2の手順1から7に基づくコンピュータ処理が実行される。
第2の手順1:特許文書データベース111(図1)から抽出した特許文書中の請求項のテキストデータから、構成要素表現パターン辞書112(図1及び後述する図20)に記録された表現パターンに基づいて、構成要素名を抽出する。この結果得られる各構成要素名のテキストデータを、構成要素テーブル113(図1及び後述する図22)に登録する。この処理は、前述した第1の手順1と同様である。
例えば、図7(a)の「請求項1」について、図8の801から802として示されるように、構成要素名「再生手段」「デジタル音声格納手段」「読み出し手段」「音声変換出力手段」が抽出される。
第2の手順2:請求項のテキストデータから、第2の手順1で抽出した各構成要素名に対応する構成要素の説明をしているテキストデータを抽出する。
例えば、図7(a)の「請求項1」のテキストデータから、図9の901から902として示されるように、構成要素名「再生手段」を説明する文のテキストデータが抽出される。
第2の手順3:第2の手順2で抽出した、請求項中の各構成要素毎に各構成要素の説明をしているテキストデータに十分な情報が含まれているかどうかを判定する。
具体的には、例えば、図7(a)の「請求項1」について、図10の1001として示されるように、構成要素「音声変換手段」の説明に含まれる名詞群「手段」「デジタル」「音声」「アナログ」「変換」「出力」が、形態素解析により抽出される。
次に、構成要素名「音声変換手段」自体が形態素解析されることにより、この構成要素名に含まれる名詞「音声」「変換」「手段」が抽出され、これらの名詞が上述の名詞1001から削除される。この結果、図10の1002として示される名詞群「デジタル」「アナログ」「出力」が得られる。
次に、図7(a)の「請求項1」中の全ての構成要素「再生手段」「デジタル音声格納手段」「読み出し手段」「音声変換出力手段」の説明に共通に含まれる名詞「デジタル」が、図10の1002として得られる名詞群から削除される。この結果、図10の1003として示される名詞群「アナログ」「出力」が得られる。
このようにして図10の1003として得られる上記削除の結果残った名詞群に含まれる名詞の数が、所定の閾値以上であるか否かが判定される。
第2の手順4:各構成要素について名詞群に含まれる名詞の数が所定の閾値以上である構成要素については、情報量が十分に多いと判定して、その構成要素の説明をしている請求項中のテキストデータを、その構成要素名に対応させて構成要素テーブル113(図1及び後述する図22)に登録する。この第2の手順2と第2の手順4とを合わせた処理が、前述の第1の手順2に対応する。
第2の手順5:各構成要素について名詞群に含まれる名詞の数が所定の閾値より少なければ、情報量が少ないと判定する。この場合、第2の手順1で抽出した特許文書中の「実施例」又は「発明を実施するための形態」の文書部分から、以下のテキストデータ部分を抽出する。即ち、実施例中の説明表現パターン辞書115(図1及び後述する図21)に記録されている何れかの表現パターンの文字列の前に上記構成要素名が位置するテキストデータ部分を抽出する。そして、その表現パターン文字列の後に続くテキストデータ部分を、上記構成要素名に対応する説明文として抽出する。表現パターンは、例えば「であり、」等である。この結果得られるテキストデータを、上記構成要素を説明するテキストデータとして、各構成要素名に対応させて構成要素テーブル113(図1及び後述する図22)に登録する。図22の構成要素テーブルにおいて、構成要素の説明は第2の手順4で情報量が十分と判定されたときは、上側に記載した請求項中の説明文のみが登録される。また、第2の手順5でテーブル中に記載されている情報量が十分でないと判定されたときは、下側に記載した請求項以外のセクションの説明文も併せて登録される。
例えば、図9の902として抽出された構成要素名「再生手段」に対応する説明文のテキストデータが、第2の手順3により情報量が少ないと判定された場合、例えば図11に示される処理が実行される。即ち、1101として示される実施例の文書部分から、1102として示されるテキストデータ部分が抽出され、構成要素名「再生手段」に対応する説明として構成要素テーブル113(図1及び後述する図22)に追加登録される。
第2の手順6:第2の手順1で抽出した特許文書中の発明の作用や効果を書いているテキストデータから、効果が得られる理由が記述されているテキストデータを抽出する。このとき、効果が得られる理由表現パターン辞書116(図1及び後述する図23)に記録された表現パターンが参照されることにより、効果が得られる理由の部分が抽出される。この処理は、前述の第1の手順3と同様である。
例えば、図7(b)の「発明の効果」について、図12の1201から1202として示されるように、効果が得られる理由が記述されているテキストデータが抽出される。このとき、例えば図23に示される効果が得られる理由表現パターン辞書116に記録された表現パターン「ことにより、」を用い、その表現パターンより前の部分のテキストデータ(図12の1202)が、効果が得られる理由が記述されている部分として抽出される。
第2の手順7:第2の手順4又は5で構成要素テーブル113に登録した各構成要素の説明文のテキストデータのうち、第2の手順6で抽出した効果が得られる理由のテキストデータと最も類似するものを算出する。そして、その算出した説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定する。この処理は、前述の第1の手順4と同様である。
例えば、図7(a)の「請求項1」と図7(b)の「発明の効果」につき、図13の1302−1、1302−2、1302−3、1302−4として示されるように、第2の手順4又は5で抽出された請求項中の各構成要素の説明文のテキストデータから、形態素解析により名詞のテキストデータが抽出される。一方、図13の1301として示されるように、第2の手順6で抽出された効果が得られる理由のテキストデータから、形態素解析により名詞のテキストデータが抽出される。そして、各構成要素の説明文のテキストデータ1302−1、1302−2、1302−3、1302−4のそれぞれについて、効果の得られる理由のテキストデータ1301と共通に含まれる名詞の数が、類似度としてカウントされる。このとき、特許文書の明細書中で各名詞が現れる出現頻度が少ないものほど有意な(独自性が高い)名詞として、類似度のカウントにおいて高い重み付けがされるように構成することができる。この結果、各構成要素の説明文のテキストデータと効果の得られる理由のテキストデータに共通に含まれる有意な名詞の数が最も多いテキストデータ1302−4が類似度が最も高いテキストデータとして抽出される。そして、そのテキストデータ1302−4に対応する構成要素名「音声変換手段」が、構成要素テーブル113(図1及び後述する図22)から抽出され、ポイントとなる構成要素として特定される。
以上説明した第2の手順により、請求項に書かれている構成要素の説明部分だけでは、第2の手順4での類似度判定を行えるだけの十分な情報が含まれない場合には、実施例等からも構成要素に対応する説明文のテキストデータが抽出される。これにより、高い精度で、かつ、より多くの特許に対してポイントとなる構成要素の抽出が可能となる。
図14は、図1に示される構成を有する構成要素ハイライト装置の実施形態の制御動作を示す動作フローチャートである。このフローチャートによる処理は、例えば、CPU(中央演算装置)とメモリと外部記憶装置を搭載したコンピュータシステムによって実行される。
まず、特許データベース109(図1)が検索されることにより、利用者によって指定された特許文書のファイルが検索される(ステップS1401)。この処理は、図1の特許文書検索部101の機能を実現する。特許データベース109は、記憶装置(例えばハードディスク記憶装置)上に記憶されている。図18は、特許データベース111のデータ構成例を示す図である。特許データベース111に登録される各特許文書のレコードデータは、出願番号、公開番号に続いて、要約インデックス、請求項インデックス、実施例インデックス、発明の名称データ、及び特許文書の本文データの各フィールドから構成される。なお、実施例のインデックスは、発明を実施するための形態や課題を解決するための手段のインデックスであってもよい。インデックスは例えば、バイグラムアルゴリズムに基づいて、特許文書中のそれぞれ対応する部分のテキストデータから、隣り合う2文字を結合して得られる索引文字列の集合である。利用者は、出願番号、公開番号、要約中の言葉、請求項中の言葉、実施例中の言葉、発明の名称に含まれる言葉等のキーワードデータによって、特許文書のファイルを検索することができる。出願番号が検索指定された場合には、特許データベース111中の出願番号フィールドに検索指定された出願番号の文字列データと一致するレコードがあるか否かが検索される。公開番号が検索指定された場合には、特許データベース111中の公開番号フィールドに検索指定された公開番号の文字列データと一致するレコードがあるか否かが検索される。要約、請求項、実施例、又は発明の名称に含まれる言葉が検索指定された場合には、特許データベース111中の要約、請求項、実施例のインデックスフィールド、又は発明の名称フィールド内に検索指定された言葉の文字列データが登録されているか否かが検索される。この結果、検索されたレコードの本文フィールドに登録されているテキストデータが抽出される。
次に、ステップS1401で抽出された特許文書のテキストデータに対して、特許文書構造の解析が行われる(ステップS1402)。この処理は、図1の特許文書構造解析部102の機能を実現する。これは、「請求項」、「実施例」(「発明を実施するための形態」又は「発明を実施するための最良の形態」等)、「発明の効果」などのセクション毎に、特許文書のテキストデータのどの部分が対応するかを解析する処理である。具体的には、特許文書のテキストデータから、墨付き括弧で囲まれた各セクションの見出しが検索されることにより、その見出しから次の見出しまでの部分として、各セクションのテキストデータが抽出される。この解析結果として得られるセクションとテキストデータの組は、ワークメモリ上に、例えば図19に示されるデータ構成を有する解析済み文書テーブルとして保持される。
次に、ステップS1402で解析されたセクションのうち請求項のセクション(図19参照)に対応するテキストデータが、ワークメモリ上の解析済み文書テーブルから取得される。次に、そのテキストデータから、構成要素表現パターン辞書112(図1)に記録された表現パターンに基づいて、構成要素名が抽出される(ステップS1403)。この処理は、図1の構成要素名抽出部103の機能を実現し、前述した第1の手順1又は第2の手順1に対応する。図20は、構成要素表現パターン辞書112のデータ構成例を示す図である。この構成要素表現パターン辞書112には、構成要素名の後(又は前)に記載される文字列パターンが表現パターンとして記録されている。この表現パターン文字列の例えば直前に位置する単語が構成要素名となる。また例えば、その構成要素名の直前から1つ前の表現パターン文字列(又は先頭)までが、その構成要素名に対応する構成要素の説明部分となる。構成要素表現パターン辞書112のパターン文字列としては、例えば、「〜と、〜と、〜とを有する」、「〜と、〜と、〜とを具備する」、「〜と、〜と、〜とを備える」である。構成要素表現パターン辞書112は、ワークメモリ又は記憶装置(ハードディスク装置等)に保持される。ステップ1403では、構成要素表現パターン辞書112の各エントリに記録されたパターン文字列によって、ワークメモリに取得された請求項のセクションに対応するテキストデータに対してパターンマッチング処理または係り受け処理が実行される。そして、例えば「〜と、」で区切られたテキストデータ部分「〜」の末尾に位置する名詞あるいは名詞を連結して生成される複合語または修飾語の係り受けも含めた名詞句が、例えば形態素解析によって、構成要素名として抽出される。この結果得られる各構成要素名のテキストデータは、ワークメモリに保持される構成要素テーブル113(図1)に新エントリを作成して登録される。図22は、構成要素テーブル113のデータ構成例を示す図である。構成要素テーブル113の各エントリは、「構成要素名」フィールド、「構成要素の説明文」フィールド、「構成要素の説明文に含まれる名詞」フィールドから構成される。「構成要素名」フィールドには、構成要素名のテキストデータが登録される。「構成要素の説明文」フィールドには、後述する構成要素毎の説明文のテキストデータが登録される。「構成要素の説明文に含まれる名詞」フィールドには、「構成要素の説明文」フィールドに登録されたテキストデータを形態素解析して得られる名詞のテキストデータ群が登録される。具体例として、前述した図8の801から802として示される請求項から構成要素を抽出する処理が実行される。
次に、ステップS1403でワークメモリ上に取得された請求項のセクション(図19参照)に対応するテキストデータから、ステップS1403で抽出された各構成要素名に対応する構成要素の説明をしているテキストデータが抽出される(ステップS1404)。この処理は、図1の請求項からの構成要素の説明抽出部104の機能を実現し、前述した第1の手順2の前半処理又は第2の手順2に対応する。より具体的には、ステップ1404では、ステップS1403で抽出された「〜と、」で区切られた各テキストデータ部分「〜」から、ステップS1403で抽出された構成要素名のテキストデータを削除した部分として、説明文のテキストデータ部分が抽出される。抽出されたテキストデータは、ワークメモリ上に保持される。
次に、ステップS1404にてワークメモリに得られている現在の構成要素名に対応する説明文のテキストデータが、ワークメモリ上の構成要素テーブル113(図1、図22)の上記構成要素名の登録エントリの「構成要素の説明文」フィールドに登録される(ステップS1405)。この処理は、前述の第1の手順2の後半の処理又は第2の手順4に対応する。
次に、ステップS1404で抽出された、請求項中の各構成要素の説明をしているテキストデータに十分な情報が含まれているかどうかが判定される(ステップS1406)。この処理は、図1の情報量判定部105の機能を実現し、前述した第2の手順3に対応する。図15は、このステップS1406の処理の詳細処理を示す動作フローチャートである。
図15においてまず、ステップS1403で抽出された各構成要素名毎に、それぞれに対応するステップS1404で抽出された説明のテキストデータがそれぞれ形態素解析され、その解析結果のうち名詞の形態素のデータが、構成要素名毎にワークメモリ上に保持される(ステップS1501)。
次に、ステップS1501で得られた各構成要素名毎の名詞群において、全ての構成要素名に対応して共通に含まれる名詞が、ワークメモリ上の変数である名詞列Yに代入される(ステップS1502)。
次に、ステップS1403で抽出された各構成要素名のうちの1つ目の構成要素名のテキストデータが、ワークメモリ上に取得される(ステップS1503)。
次に、ステップS1503又は後述するステップS1513で取得された構成要素名のテキストデータが形態素解析される。そして、その結果得られる名詞の形態素のデータが、ワークメモリ上の変数である名詞列Xに代入される(ステップS1504)。
次に、ステップS1503又は後述するステップS1513で取得された構成要素名のテキストデータに対応してステップS1501でワークメモリ上に得られている説明文に含まれる名詞の形態素データ群が、ワークメモリ上の変数である名詞列Zに代入される(ステップS1505)。
次に、ステップS1505で得られたワークメモリ上の名詞列Zから、ステップS1504で得られたワークメモリ上の名詞列X中の各名詞の形態素データが削除される(ステップS1506)。これは、前述した図10の1001から1002の処理例、すなわち構成要素名に含まれる名詞の削除に対応する。
次に、ステップS1505で得られたワークメモリ上の名詞列Zから、ステップS1502で得られたワークメモリ上の名詞列Y中の各名詞の形態素データが削除される(ステップS1507)。これは、前述した図10の1002から1003の処理例、すなわち全ての構成要素の説明に含まれる名詞の削除に対応する。
続いて、ステップS1507の結果、ワークメモリ上の名詞列Zに含まれる名詞の数がカウントされる(ステップS1508)。
そして、ステップS1508のカウント処理の結果、名詞列Zに含まれる名詞の数が所定の閾値以上であるか否かが判定される(ステップS1509)。
名詞列Zに含まれる名詞の数が所定の閾値以上であれば、その構成要素名に関しては、十分な情報量があると判定され、その判定結果が現在の構成要素名に対応させられてワークメモリ上に保持される(ステップS1510)。
一方、名詞列Zに含まれる名詞の数が所定の閾値より少なければ、その構成要素名に関しては、情報量が十分にはないと判定され、その判定結果が現在の構成要素名に対応させられてワークメモリ上に保持される(ステップS1511)。
以上のステップS1504からS1511の一連の処理によって1つの構成要素名に対応する情報量の判定処理が終わると、全ての構成要素名について処理が完了したか否かが判定される(ステップS1512)。
全ての構成要素名について処理が完了しておらずステップS1512の判定がNOならば、ステップS1403で抽出された各構成要素名のうちの未処理の次の構成要素名のテキストデータが、ワークメモリ上に取得される(ステップS1513)。
そして、その構成要素名に対して再び、ステップS1504からS1511の一連の処理によって次の構成要素名に対応する情報量の判定処理が繰り返し実行される。
全ての構成要素名について処理が完了しステップS1512の判定がYESとなれば、図15のフローチャートの処理、即ち図14のステップS1406の処理を終了する。
次に、ステップS1406によってワークメモリ上に保持されている構成要素名毎の判定結果がそれぞれ確認され(ステップS1407)、構成要素毎に、十分な情報量があると判定されていればステップS1409が実行される。
一方、前述した図15のステップS1511において情報量が十分にはないとの判定結果がワークメモリ上に得られておりステップS1407の判定がNOとなった場合には、以下のステップS1408の処理が実行された後に、ステップS1409が実行される。ステップS1408では、ステップS1402で解析されたセクションのうち実施例(図19参照)又は発明を実施するための形態のセクションに対応するテキストデータが、ワークメモリ上の解析済み文書テーブルから取得される。次に、そのテキストデータから、現在の構成要素名を含み、かつ、実施例中の説明表現パターン辞書115(図1)に記録された表現パターンによって記述されているテキストデータ部分が抽出される。この結果得られるテキストデータが、上記構成要素を説明するテキストデータとして、ワークメモリ上の構成要素テーブル113(図1、図22)の上記構成要素名の登録エントリの「構成要素の説明文」フィールドに登録される。この処理は、図1の実施例からの説明抽出部106の機能を実現し、前述の第2の手順5に対応する。図21は、実施例中の説明表現パターン辞書115のデータ構成例を示す図である。この辞書には、実施例(図19参照)又は発明を実施するための形態中で構成要素名とその構成要素名に対応する説明文とを結びつける表現パターンの文字列、例えば「であり、」が記録されている。この文字列の前が構成要素名に対応し後が説明文に対応するとして、その説明文が検出される。
次に、ステップS1402で解析されたセクションのうち発明の効果(図19参照)又は発明の作用のセクションに対応するテキストデータから、効果が得られる理由が記述されているテキストデータが抽出される(ステップS1409)。この処理は、図1の効果が得られる理由抽出部107の機能を実現し、前述の第1の手順3又は第2の手順6に対応する。図16は、ステップS1409の処理の詳細を示すフローチャートである。このフローチャートによる処理は、例えば、CPU(中央演算装置)とメモリと外部記憶装置を搭載したコンピュータシステムによって実行される。
図16においてまず、効果が得られる理由表現パターン辞書116(図1)から効果が得られる理由表現パターンがワークメモリに読み込まれる(ステップS1601)。図23は、効果が得られる理由表現パターン辞書116のデータ構成例を示す図である。この辞書には、特許文書中の発明の効果を記載した文章部分において、効果が記載される文字列部分とその効果が得られる理由が記載される文字列部分とを分離する表現パターンの文字列が記録されている。効果が得られる理由表現パターン辞書のパターン文字列フィールドには、例えば、「ので」、「ことにより」、「ため」が格納されている。これらの表現パターン文字列に続く部分が、効果が記載されている文字列部分である。また、これらの表現パターン文字列の前の部分が、効果が得られる理由が記載されている文字列部分である。この辞書は、ワークメモリ又はハードディスク装置等に保持されている。ステップ1601では、効果が得られる理由表現パターン辞書116の各エントリに記録されたパターン文字列が、ワークメモリに読み込まれる。
次に、ステップS1402で解析されたセクションのうち発明の効果(図19参照)又は発明の作用のセクションに対応するテキストデータが、ワークメモリ上の解析済み文書テーブルから取得される(ステップS1602)。
次に、取得された発明の効果等のセクションに対応するテキストデータが、句点によって1つ以上の文字列に分割される(ステップS1603)。
次に、ステップS1603で分割された文字列のうち1つ目の文字列が、ワークメモリ上の変数である文字列rに代入される(ステップS1604)。
次に、文字列rに、ステップS1601にてワークメモリ上に読み込まれている何れかの効果が得られる理由表現パターンのパターン文字列(図23参照)のいずれかを含むか否かが判定される(ステップS1605)。
ステップS1605の判定がYESならば、文字列rにおいて、ステップS1605で含まれると判定された効果が得られる理由表現パターンのパターン文字列の前の文字列のテキストデータ部分が、効果が得られる理由のテキストデータとして抽出される(ステップS1606)。このテキストデータは、ワークメモリ上に保持される。その後、図16の動作フローチャート即ち図15のステップS1409の処理を終了する。
ステップS1605の判定がNOならば、ステップS1603にて分割された全ての文字列が処理されたか否かが判定される(ステップS1607)。
全ての文字列が処理されておらずステップS1607の判定がNOならば、ステップS1603で分割された文字列のうち未処理の次の文字列が、ワークメモリ上の文字列rに代入される(ステップS1608)。
その後、ステップS1605からS1607までの一連の処理が繰り返し実行される。
上記繰り返しの処理において、ステップS1603にて分割された全ての文字列が処理されステップS1607の判定がYESとなると、効果が得られる理由のテキストデータは抽出されずに、図16のフローチャート即ち図15のステップS1409の処理を終了する。
以上の処理により、例えば、図7(b)の「発明の効果」について、図12の1201から1202として示されるように、効果が得られる理由が記述されているテキストデータが抽出される。
次に、図14で、ステップS1407の判定がYESの場合にはステップS1405で、一方、ステップS1407の判定がNOの場合にはステップS1408で、それぞれ構成要素テーブル113に登録された各構成要素の説明文のテキストデータと、ステップS1409で抽出された効果が得られる理由のテキストデータとの類似度が算出される(ステップS1410)。この処理は、図1の類似度計算部108の機能を実現し、第1の手順4又は第2の手順7の前半に対応する。なお、ステップS1409で効果が得られる理由のテキストデータが抽出されなかった場合(図16のステップS1607の判定がYESとなった場合)は、ステップS1410〜S1412の構成要素のハイライト処理は実行されずに処理を終了する。図17は、ステップS1410の処理の詳細を示すフローチャートである。このフローチャートによる処理は、例えば、CPU(中央演算装置)とメモリと外部記憶装置を搭載したコンピュータシステムによって実行される。
まず、図22に例示される構成要素テーブル113の「構成要素の説明文」フィールドに登録されている全ての説明文に対して形態素解析が実行され、その結果得られる形態素データのうちの名詞のデータが、構成要素テーブル113(図22)の「構成要素の説明文に含まれる名詞」フィールドに登録される(ステップS1701)。
次に、ステップS1701で算出された各名詞の形態素データについて、図14のステップS1401で読み込まれた特許文書の全文での出現頻度がカウントされる(ステップS1702)。
次に、ステップS1702でカウントされた出現頻度の逆数として、ステップS1701で算出された各名詞の形態素データの重みが算出される(ステップS1703)。この結果得られる重み値は、ワークメモリ上の形態素重みテーブルに保持される。図24は、形態素重みテーブルのデータ構成例を示す図である。このテーブルは例えば、形態素の文字列をキーとして出現頻度及び重み値を出力する2つの連想配列データによって実現することができる。
次に、図14のステップS1409で算出された効果が得られる理由に対応するテキストデータが形態素解析されて名詞の形態素データが取得され、それらがワークメモリ上の変数として保持される名詞列αに代入される(ステップS1704)。
次に、構成要素テーブル113から、1つ目の構成要素のエントリの「構成要素の説明文」フィールドに登録されている説明文のテキストデータがワークメモリに読み込まれる(ステップS1705)。
次に、ステップS1705で読み込まれた構成要素の説明文に含まれる名詞群が、構成要素テーブル113上の該当するエントリの「構成要素の説明文に含まれる名詞」フィールドから、ワークメモリ上の変数である名詞列βに読み込まれる(ステップS1706)。
次に、ワークメモリ上の名詞列αと名詞列βとで、それぞれに共通する名詞が抽出される。そして、形態素重みテーブル(図24)が参照・取得されながら、各抽出された名詞に対応するステップS1703で算出された重み値の総和値が計算される(ステップS1707)。
次に、ステップS1707で算出された総和値が、現在処理している構成要素に対応する類似度としてワークメモリ上の類似度テーブル117に保持される(ステップS1708)。図25は、類似度テーブル117のデータ構成例を示す図である。構成要素名毎に、効果が得られる理由と共通する形態素の文字列と、類似度値が登録される。
その後、構成要素テーブル113上の全ての構成要素のエントリについて処理が完了したか否かが判定される(ステップS1709)。
ステップS1709の判定がNOならば、構成要素テーブル113から次の構成要素のエントリの「構成要素の説明文」フィールドに登録されている説明文のテキストデータがワークメモリに読み込まれる(ステップS1710)。そして、ステップS1706からS1708までの一連の処理により、その構成要素に対応する類似度を算出する処理が繰り返し実行される。
構成要素テーブル113上の全ての構成要素のエントリについて処理が完了しステップS1709の判定がYESとなると、図17のフローチャート、即ち図14のステップS1410の処理を終了する。
その後、図14において、ステップS1410にてワークメモリ上に得られた図25に例示される類似度テーブル117が参照され、各構成要素毎の類似度のうち最も類似度が高い構成要素が、ポイントとなる構成要素として算出される(ステップS1411)。この処理は、図1のポイント構成要素特定部109の機能を実現し、第1の手順4又は第2手順7の後半に対応する。
最後に、ステップS1401上で読み込まれた特許文書中で、ステップS1411で特定されたポイントとなる構成要素に対応する文字列がハイライト表示されて、ディスプレイ(例えば図30の入出力装置3003の出力部)に表示される。この処理は、図1の表示部110の機能を実現する。
以上説明した実施形態において、構成要素としては名詞のみが対象とされて処理されているが、名詞以外にも、動詞、形容詞、形容動詞、連体詞等の所定の品詞であってもよい。
また、構成要素名としては、「抽出手段」のような複合語だけではなく、「抽出する手段」のように句を使うこともできる。句を使う場合には、構文解析を行い、「と、」の直前にある名詞と、その名詞に係っている修飾語をつなげて名詞句が生成され、構成要素名とされる。また、全ての修飾語をつなげなくても、例えば、最も近接する修飾語1つのみをつなげるようにしてもいい。
上述の構文解析の1つとして、係り受け解析の処理を図27のフローチャート及び図28の形態素の辞書のテーブル(a)、品詞の接続確率のテーブル(b)、文節の接続ルールのテーブル(c)、文節の接続確率のテーブル(d)を参照して説明する。なお、この動作フローチャートにおける各処理は、例えばCPUとメモリと外部記憶装置を搭載したコンピュータシステムによって実行される。
ステップS2701:まず、構成要素とその説明文に対して、形態素解析が実行される。名詞、助詞、動詞などの品詞と文字列を要素とする形態素の辞書(a)と、品詞の接続確率を定義したテーブル(b)を用いて、最も確率が高い形態素列を選択する。形態素の辞書(a)と、品詞の接続確率を定義したテーブル(b)は、例えばワークメモリ又は記憶装置上に記憶されている。
ステップS2702:次に、文節分割の処理を行なう。すなわち文節の接続ルール(c)によって形態素を接続して文節を生成する。
ステップS2703:次に、係り受け解析を行う。即ち、
(1)文節の接続確率(d)と制約ルールによって、最も確率が高い係り受け先を選択する。
(2)接続確率(d)は文節のタイプや近接関係などにより定義する。
(3)近接関係の処理を行なう。例えば、2つの形態素は隣接している、あるいは、2つの形態素は1文節間隔である等である。
これに対し、以下のような制約条件を満たし、かつ、確率が最大になる係り元を求める。
・最後以外の文節は後方に必ず一つの係り先文節を持つ
・係り受け関係は交差しない
最終的には、2つの形態素間の係り受け組が生成される。
上述の係り受け解析処理では、係り受け組は、辞書とのパターンマッチングと、マッチしたパターンに付けられている確率の計算によって生成される。
以上の係り受け解析処理によって、例えば、「と、」の直前にある名詞と、その名詞に係っている修飾語をつなげて名詞句が生成され、構成要素名とされる。
図29は、図14のステップS1403、S1404、図15のステップS1502、S1506、S1507、図16のステップS1603、ステップS1605、S1606、図17のステップS1702、S1707等の各処理におけるパターンマッチング処理及び文字列位置検出処理の具体的な動作を示す動作フローチャートである。この動作フローチャートにおける各処理は、例えばCPUとメモリと外部記憶装置を搭載したコンピュータシステムによって実行される。
図29では、まず、検索を行いたいパターン文字列のデータがワークメモリ又は記憶装置からワークメモリ上の所定領域に読み込まれる(ステップS2901)。例えば、図14のステップS1403では、このパターン文字列は、記憶装置上の構成要素表現パターン辞書112(図1)に記録されている表現パターンの文字列である。
次に、パターンマッチング処理の対象となる文字列であるマッチング対象文字列のデータがワークメモリ又は記憶装置からワークメモリ上の所定領域に読み込まれる(ステップS2902)。例えば、図14のステップS1403では、マッチング対象文字列は、ワークメモリ上の図14に例示される解析済み文書テーブルから取得される請求項のセクションに対応するテキストデータである。
次に、ワークメモリ上の変数領域に保持されるパターンポインタp1に、ステップS2901でワークメモリ上の所定領域に読み込まれたパターン文字列の先頭文字のアドレスがセットされる(ステップ603)。
次に、ワークメモリ上の変数領域に保持されるマッチング基点ポインタp2とマッチングポインタp3に、ステップS2902でワークメモリ上の所定領域に読み込まれたマッチング対象文字列の先頭文字のアドレスがセットされる(ステップS2904、S2905)。
次に、マッチングポインタp3のアドレスが1ずつインクリメントされながら(ステップS2907)、パターンポインタp1で示されるパターン文字列中の先頭文字と一致する文字が、マッチング対象文字列中から検索される(ステップS2906→S2907→S2908→S2906の繰返し処理)。
なお、マッチングポインタp3がインクリメントされた結果、p3の値がワークメモリ上の所定領域に読み込まれているマッチング対象文字列の末尾のアドレスを超えた場合には、マッチング無しが出力され図29の処理を終了する(ステップS2908→S2909)。
パターンポインタp1で示されるパターン文字列中の先頭文字がマッチング対象文字列中で一致しステップS2906の判定がYESになると、以下のステップS2810からS2817の一連の処理が実行される。ここでは、マッチング対象文字列中で上記一致位置から続く文字列がパターン文字列の2文字目以降の全てと一致するか否かが判定される。
まず、ワークメモリ上のマッチング基点ポインタp2にステップS2906で一致が検出されたときのマッチングポインタp3のアドレスがセットされる(ステップS2810)。
次に、ワークメモリ上のパターンポインタp1のアドレス値が+1される(ステップS2811)。
次に、パターンポインタp1のアドレス値が、ワークメモリ上の所定領域に読み込まれているパターン文字列の末尾のアドレスを超えたか否かが判定される(ステップS2812)。
ステップS2812の判定がNOならば、マッチングポインタp3のアドレス値が+1される(ステップS2813)。
次に、マッチングポインタp3のアドレス値が、ワークメモリ上の所定領域に読み込まれているマッチング対象文字列の末尾のアドレスを超えたか否かが判定される(ステップS2815)。
ステップS2814の判定がNOならば、マッチングポインタp3が指すマッチング対象文字列中のアドレス位置の文字が、パターンポインタp1が指すパターン文字列中のアドレス位置の文字と一致するか否かが判定される(ステップS2817)。つまり、ステップS2906がYESとなった後に最初にステップS2817が実行されるときには、マッチング対象文字列中でステップS2906で一致位置が検出された位置から数えて2文字目が、パターン文字列の2文字目と一致するか否かが判定される。
ステップS2817の判定がYESならば、ステップS2811に戻って再びステップS2817までの一連の処理が実行される。ここでは、パターンポインタp1とマッチングポインタp3の各アドレス値が+1される(ステップS2811、S2814)。この結果、更にマッチング対象文字列中でステップS2906により一致位置が検出された位置から数えて3文字目が、パターン文字列の3文字目と一致するか否かが判定される。
以上の処理の繰返しにより、マッチング対象文字列中でステップS2906で一致が検出された位置から続く文字列がパターン文字列の2文字目以降の全てと一致するか否かが判定される。
上記一連の処理で、ステップS2811でインクリメントされたパターンポインタp1の値がワークメモリ上の所定領域に読み込まれているパターン文字列の末尾のアドレスを超えた場合は、マッチング対象文字列上でパターン文字列との一致が検出されたことになる。この場合には、マッチング対象文字列中でステップS2906により一致が検出された位置を示すマッチング基点ポインタp2のアドレス値がマッチング結果として出力され、図29の処理を終了する(ステップS2812→S2813)。
一方、ステップS2814でインクリメントされたマッチングポインタp3の値が、ワークメモリ上の所定領域に読み込まれているマッチング対象文字列の末尾のアドレスを超えた場合には、マッチング無しが出力され図29の処理を終了する(ステップS2815→S2816)。
上記一連の処理で、マッチングポインタp3が指すマッチング対象文字列中のアドレス位置の文字が、パターンポインタp1が指すパターン文字列中のアドレス位置の文字と一致せずステップS2817の判定がNOとなったとなった場合には、再検索が実行される。即ち、パターンポインタp1に、ステップS2901でワークメモリ上の所定領域に読み込まれたパターン文字列の先頭文字のアドレスがセットされる(ステップ618)。また、マッチングポインタp3に、マッチング基点ポインタp2が指すステップS2906で一致が検出された位置の次の位置に対応するアドレス値がセットされる(ステップS2819)。その後、ステップS2906の処理に戻り、マッチングポインタp3のアドレスが上記一致位置の次の位置から1ずつインクリメントされながら(ステップS2907)、以下の処理が実行される。即ち、パターンポインタp1で示されるパターン文字列中の先頭文字と一致する文字が、マッチング対象文字列中から再検索される(ステップS2906→S2907→S2908→S2906の繰返し処理)。
そして、パターンポインタp1で示されるパターン文字列中の先頭文字がマッチング対象文字列中で再度一致しステップS2906の判定がYESになると、以下のステップS2810からS2817の一連の処理が実行される。これにより、マッチング対象文字列中で上記一致位置から続く文字列がパターン文字列の2文字目以降の全てと一致するか否かが再度判定される。
以上の一連の処理の繰返しにより、マッチング対象文字列中でパターン文字列が検索され、マッチングに成功した場合には、その一致の先頭位置がマッチング結果として出力される(ステップS2813)。
図30は、上述の各実施形態のシステムを実現できるコンピュータのハードウェア構成の一例を示す図である。
図30に示されるコンピュータは、CPU3001、メモリ3002、入出力装置3003、外部記憶装置3005、可搬記録媒体3009が挿入される可搬記録媒体駆動装置3006、及び通信インターフェース3007を有し、これらがバス3008によって相互に接続された構成を有する。
CPU3001は、当該コンピュータ全体の制御を行う。メモリ3002は、プログラムの実行、データ更新等の際に、外部記憶装置3005(或いは可搬記録媒体3009)に記憶されているプログラム又はデータを一時的に格納するワーク領域を有する。CUP3001は、プログラムをメモリ3002に読み出して実行することにより、全体の制御を行う。
入出力装置3003は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をCPU3001に通知すし、CPU3001の制御によって送られてくるデータを表示装置や印刷装置に出力する。
外部記憶装置3005は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。
可搬記録媒体駆動装置3006は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体3009を収容するもので、外部記憶装置3005の補助の役割を有する。
通信インターフェース3007は、例えばLAN(ローカルエリアネットワーク)又はWAN(ワイドエリアネットワーク)の通信回線を接続するための装置である。
本実施形態によるシステムは、実施形態の機能を実現する動作フローチャートに対応するプログラムをCPU3001が実行することで実現される。そのプログラムは、例えば外部記憶装置3005や可搬記録媒体3009に記録して配布してもよく、或いは通信インターフェース3007によりネットワークから取得できるようにしてもよい。
以上の実施形態に関して、更に以下の付記を開示する。
(付記1)
特許文書の理解を支援するための装置であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出する構成要素名抽出部と、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
前記ポイントとなる構成要素を出力する出力部と、
を含むことを特徴とする構成要素ハイライト装置。
(付記2)
特許文書の理解を支援するための装置であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出する構成要素名抽出部と、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する情報量判定部と、
前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出する実施例からの説明抽出部と、
効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
前記ポイントとなる構成要素を出力する出力部と、
を含むことを特徴とする構成要素ハイライト装置。
(付記3)
前記情報量判定部は、前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する、
ことを特徴とする付記2に記載の構成要素ハイライト装置。
(付記4)
前記類似度計算部は、
前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
ことを特徴とする付記1又は2に記載の構成要素ハイライト装置。
(付記5)
前記類似度計算部は、
前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
ことを特徴とする付記6に記載の構成要素ハイライト装置。
(付記6)
特許文書の理解を支援するためのコンピュータに、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
機能を実行させるためのプログラム。
(付記7)
特許文書の理解を支援するためのコンピュータに、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定し、
前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出し、
効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
機能を実行させるためのプログラム。
(付記8)
前記情報量の判定において、前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する、
ことを特徴とする付記7に記載のプログラム。
(付記9)
前記類似度の計算において、
前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
ことを特徴とする付記6又は7に記載のプログラム。
(付記10)
前記類似度の計算において、
前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
ことを特徴とする付記9に記載のプログラム。
(付記11)
コンピュータが特許文書の理解を支援するための方法であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
ことを前記コンピュータが実行をすることを特徴とする構成要素ハイライト方法。
(付記12)
コンピュータが特許文書の理解を支援するための方法であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定し、
前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出し、
効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
ことを前記コンピュータが実行をすることを特徴とする構成要素ハイライト方法。
(付記13)
前記情報量の判定において、前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する、
ことを特徴とする付記12に記載の構成要素ハイライト方法。
(付記14)
前記類似度の計算において、
前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
ことを前記コンピュータが実行をすることを特徴とする付記11又は12に記載の構成要素ハイライト方法。
(付記15)
前記類似度の計算において、
前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
ことを前記コンピュータが実行をすることを特徴とする付記14に記載の構成要素ハイライト方法。
101 特許文書検索部
102 特許文書構造解析部
103 構成要素名抽出部
104 請求項からの構成要素の説明抽出部
105 情報量判定部
106 実施例からの説明抽出部
107 効果が得られる理由抽出部
108 類似度計算部1
109 ポイント構成要素特定部
110 表示部
111 特許データベース
112 構成要素表現パターン辞書
113 構成要素テーブル
114 解析済み文書テーブル
115 実施例中の説明表現パターン辞書
116 効果が得られる理由表現パターン辞書
117 類似度テーブル

Claims (6)

  1. 特許文書の理解を支援するための装置であって、
    請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから、名詞と前記名詞に係っている1つ以上の修飾語のうち最も近接する修飾語とをつなげた名詞句を含む、各構成要素名を抽出する構成要素名抽出部と、
    前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
    効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
    前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
    前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
    前記ポイントとなる構成要素を出力する出力部と、
    を含むことを特徴とする構成要素ハイライト装置。
  2. 特許文書の理解を支援するための装置であって、
    請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出する構成要素名抽出部と、
    前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
    前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する情報量判定部と、
    前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出する実施例からの説明抽出部と、
    効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
    前記請求項からの構成要素の説明抽出部又は前記実施例からの説明抽出部により抽出された各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
    前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
    前記ポイントとなる構成要素を出力する出力部と、
    を含むことを特徴とする構成要素ハイライト装置。
  3. 前記類似度計算部は、
    前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
    前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
    前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
    ことを特徴とする請求項1又は2に記載の構成要素ハイライト装置。
  4. 前記類似度計算部は、
    前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
    ことを特徴とする請求項3に記載の構成要素ハイライト装置。
  5. 特許文書の理解を支援するためのコンピュータに、
    請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから、名詞と前記名詞に係っている1つ以上の修飾語のうち最も近接する修飾語とをつなげた名詞句を含む、各構成要素名を抽出し、
    前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
    効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
    前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
    前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
    前記ポイントとなる構成要素を出力する、
    機能を実行させるためのプログラム。
  6. コンピュータが特許文書の理解を支援するための方法であって、
    請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから、名詞と前記名詞に係っている1つ以上の修飾語のうち最も近接する修飾語とをつなげた名詞句を含む、各構成要素名を抽出し、
    前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
    効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
    前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
    前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
    前記ポイントとなる構成要素を出力する、
    ことを前記コンピュータが実行をすることを特徴とする構成要素ハイライト方法。
JP2009252341A 2009-11-02 2009-11-02 構成要素ハイライト装置、プログラム、及び方法 Expired - Fee Related JP5644087B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009252341A JP5644087B2 (ja) 2009-11-02 2009-11-02 構成要素ハイライト装置、プログラム、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009252341A JP5644087B2 (ja) 2009-11-02 2009-11-02 構成要素ハイライト装置、プログラム、及び方法

Publications (2)

Publication Number Publication Date
JP2011096200A JP2011096200A (ja) 2011-05-12
JP5644087B2 true JP5644087B2 (ja) 2014-12-24

Family

ID=44113003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009252341A Expired - Fee Related JP5644087B2 (ja) 2009-11-02 2009-11-02 構成要素ハイライト装置、プログラム、及び方法

Country Status (1)

Country Link
JP (1) JP5644087B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024176060A1 (ja) * 2023-02-24 2024-08-29 株式会社半導体エネルギー研究所 情報処理方法、プログラム、及び情報処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339418A (ja) * 2004-05-31 2005-12-08 Sankyo Kk ホームページ作成システム

Also Published As

Publication number Publication date
JP2011096200A (ja) 2011-05-12

Similar Documents

Publication Publication Date Title
US8126897B2 (en) Unified inverted index for video passage retrieval
JP4953468B2 (ja) オントロジーデータのインポート/エクスポートのための方法および装置
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
JP5095281B2 (ja) 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
JP3266586B2 (ja) データ分析システム
US8856119B2 (en) Holistic disambiguation for entity name spotting
Mendels et al. Improving speech recognition and keyword search for low resource languages using web data
US20130041892A1 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
US6219664B1 (en) Search method and system using syntactic information
WO2020248378A1 (zh) 业务查询方法、装置及存储介质、计算机设备
US20100185438A1 (en) Method of creating a dictionary
US20060253433A1 (en) Method and apparatus for knowledge-based music searching and method and apparatus for managing music file
JP2008198237A (ja) 構造化文書管理システム
JP3565239B2 (ja) 情報検索装置
US20050050042A1 (en) Natural language database querying
JP2004219714A (ja) 人間からの指示に基づいてそれぞれ予め定めた特定のシーンに属する対話のシーンを識別し、シーンに即した自然対話を構成する応答文を作成して、それを音声合成することにより、音声対話を行うコンピュータによる音声対話方法及び音声対話システム
JP5644087B2 (ja) 構成要素ハイライト装置、プログラム、及び方法
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
JP2002269139A (ja) 文書検索方法
CN116521626A (zh) 一种基于内容检索的个人知识管理方法及系统
Sen et al. Audio indexing
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JPH06124305A (ja) 文書検索方法
JP2001067364A (ja) 複合メディア検索方法および複合メディア検索用プログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141020

R150 Certificate of patent or registration of utility model

Ref document number: 5644087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees