JP5644087B2 - 構成要素ハイライト装置、プログラム、及び方法 - Google Patents
構成要素ハイライト装置、プログラム、及び方法 Download PDFInfo
- Publication number
- JP5644087B2 JP5644087B2 JP2009252341A JP2009252341A JP5644087B2 JP 5644087 B2 JP5644087 B2 JP 5644087B2 JP 2009252341 A JP2009252341 A JP 2009252341A JP 2009252341 A JP2009252341 A JP 2009252341A JP 5644087 B2 JP5644087 B2 JP 5644087B2
- Authority
- JP
- Japan
- Prior art keywords
- component
- text data
- effect
- character string
- reason
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 120
- 230000000694 effects Effects 0.000 claims description 167
- 230000014509 gene expression Effects 0.000 claims description 101
- 239000000470 constituent Substances 0.000 claims description 43
- 230000000877 morphologic effect Effects 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 239000003607 modifier Substances 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
しかし、特許文書中の特許請求の範囲に記載される請求項などは一般に、単語又は単語の組合せで記述されることにより、或る特定の意味を持つが抽象的な言葉で書かれることが多く、特許文書に不慣れな発明者が、請求項に書かれている発明のポイントをつかむのは難しい。
また、発明の効果を記載している文書において例えば「〜ことにより・・・」というような表現パターンを使って、手段の記載と効果の記載の間の関係(因果関係)を抽出することができるという研究結果も報告されている。(たとえば、非特許文献2)
そこで、本発明の課題では、請求項中のポイントとなる構成要素を特定して提示することで、そのポイントとなる構成要素の説明を重点的に読むことがでるようにすることである。
図1は、構成要素ハイライト装置の実施形態の構成図である。本実施形態のシステムは、特許文書検索部101、特許文書構造解析部102、構成要素名抽出部103、請求項からの構成要素の説明抽出部104、情報量判定部105、実施例からの説明抽出部106、効果が得られる理由抽出部107、類似度計算部108、ポイント構成要素特定部109、表示部110を備える。また、本実施形態のシステムは、特許データベース111、構成要素表現パターン辞書112、構成要素テーブル113、解析済み文書テーブル114、実施例中の説明表現パターン辞書115、効果が得られる理由表現パターン辞書116、及び類似度テーブル117を備える。
請求項においてポイントとなる構成要素を特定する手がかりとして、明細書中の「発明の効果」の項目等の、発明の効果を記載している文書の記載が役に立つ。このような文書には、発明の最も特徴とする効果が記載されていると考えられるため、このような文書の記載から発明の構成要素を抽出することができ請求項中の構成要素と対応付けることができれば、ポイントとなる構成要素を特定することができる。
しかし、発明の効果を記載している文書においては、ポイントとなる構成要素は、構成要素名ではなくその作用の記述に置き換えて書かれる場合がある。
例えば、図2(a)の「請求項1」と図2(b)の「発明の効果」につき、図6の602−1、602−2、602−3として示されるように、第1の手順2で請求項1から抽出された各構成要素「携帯電話」、「ダウンロードサーバ」、「放送表示手段」の説明文のテキストデータから、形態素解析により名詞のテキストデータが抽出される。これらの名詞のテキストデータは、例えば図22に示されるように、各説明文に対応させて予め形態素解析され構成要素テーブル113に登録されるように構成できる。一方、図6の601として示されるように、第1の手順3で抽出された効果が得られる理由のテキストデータから、形態素解析により名詞のテキストデータが抽出される。そして、請求項中の各構成要素の説明文のテキストデータ602−1、602−2、602−3のそれぞれについて、効果が得られる理由のテキストデータ601と共通に含まれる名詞の数が、類似度としてカウントされる。このとき、特許文書の明細書中で各名詞が現れる出現頻度が少ないものほど有意な(独自性が高い)名詞として、類似度のカウントにおいて高い重み付けがされるように構成することができる。この結果、請求項中の構成要素の説明文と効果の得られる理由のテキストデータに共通に含まれる有意な名詞の数が最も多いテキストデータ602−1が類似度が最も高い構成要素のテキストデータとして抽出される。そして、そのテキストデータ602−1に対応する構成要素名「携帯電話」が、構成要素テーブル113(図1及び後述する図22)から抽出され、ポイントとなる構成要素として特定される。
例えば、図7(a)の「請求項1」のテキストデータから、図9の901から902として示されるように、構成要素名「再生手段」を説明する文のテキストデータが抽出される。
具体的には、例えば、図7(a)の「請求項1」について、図10の1001として示されるように、構成要素「音声変換手段」の説明に含まれる名詞群「手段」「デジタル」「音声」「アナログ」「変換」「出力」が、形態素解析により抽出される。
次に、ステップS1503又は後述するステップS1513で取得された構成要素名のテキストデータが形態素解析される。そして、その結果得られる名詞の形態素のデータが、ワークメモリ上の変数である名詞列Xに代入される(ステップS1504)。
そして、ステップS1508のカウント処理の結果、名詞列Zに含まれる名詞の数が所定の閾値以上であるか否かが判定される(ステップS1509)。
全ての構成要素名について処理が完了しステップS1512の判定がYESとなれば、図15のフローチャートの処理、即ち図14のステップS1406の処理を終了する。
次に、ステップS1603で分割された文字列のうち1つ目の文字列が、ワークメモリ上の変数である文字列rに代入される(ステップS1604)。
全ての文字列が処理されておらずステップS1607の判定がNOならば、ステップS1603で分割された文字列のうち未処理の次の文字列が、ワークメモリ上の文字列rに代入される(ステップS1608)。
上記繰り返しの処理において、ステップS1603にて分割された全ての文字列が処理されステップS1607の判定がYESとなると、効果が得られる理由のテキストデータは抽出されずに、図16のフローチャート即ち図15のステップS1409の処理を終了する。
ステップS1709の判定がNOならば、構成要素テーブル113から次の構成要素のエントリの「構成要素の説明文」フィールドに登録されている説明文のテキストデータがワークメモリに読み込まれる(ステップS1710)。そして、ステップS1706からS1708までの一連の処理により、その構成要素に対応する類似度を算出する処理が繰り返し実行される。
(1)文節の接続確率(d)と制約ルールによって、最も確率が高い係り受け先を選択する。
(2)接続確率(d)は文節のタイプや近接関係などにより定義する。
(3)近接関係の処理を行なう。例えば、2つの形態素は隣接している、あるいは、2つの形態素は1文節間隔である等である。
・最後以外の文節は後方に必ず一つの係り先文節を持つ
・係り受け関係は交差しない
最終的には、2つの形態素間の係り受け組が生成される。
以上の係り受け解析処理によって、例えば、「と、」の直前にある名詞と、その名詞に係っている修飾語をつなげて名詞句が生成され、構成要素名とされる。
次に、パターンポインタp1のアドレス値が、ワークメモリ上の所定領域に読み込まれているパターン文字列の末尾のアドレスを超えたか否かが判定される(ステップS2812)。
次に、マッチングポインタp3のアドレス値が、ワークメモリ上の所定領域に読み込まれているマッチング対象文字列の末尾のアドレスを超えたか否かが判定される(ステップS2815)。
図30に示されるコンピュータは、CPU3001、メモリ3002、入出力装置3003、外部記憶装置3005、可搬記録媒体3009が挿入される可搬記録媒体駆動装置3006、及び通信インターフェース3007を有し、これらがバス3008によって相互に接続された構成を有する。
可搬記録媒体駆動装置3006は、光ディスクやSDRAM、コンパクトフラッシュ(登録商標)等の可搬記録媒体3009を収容するもので、外部記憶装置3005の補助の役割を有する。
本実施形態によるシステムは、実施形態の機能を実現する動作フローチャートに対応するプログラムをCPU3001が実行することで実現される。そのプログラムは、例えば外部記憶装置3005や可搬記録媒体3009に記録して配布してもよく、或いは通信インターフェース3007によりネットワークから取得できるようにしてもよい。
(付記1)
特許文書の理解を支援するための装置であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出する構成要素名抽出部と、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
前記ポイントとなる構成要素を出力する出力部と、
を含むことを特徴とする構成要素ハイライト装置。
(付記2)
特許文書の理解を支援するための装置であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出する構成要素名抽出部と、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する情報量判定部と、
前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出する実施例からの説明抽出部と、
効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
前記ポイントとなる構成要素を出力する出力部と、
を含むことを特徴とする構成要素ハイライト装置。
(付記3)
前記情報量判定部は、前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する、
ことを特徴とする付記2に記載の構成要素ハイライト装置。
(付記4)
前記類似度計算部は、
前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
ことを特徴とする付記1又は2に記載の構成要素ハイライト装置。
(付記5)
前記類似度計算部は、
前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
ことを特徴とする付記6に記載の構成要素ハイライト装置。
(付記6)
特許文書の理解を支援するためのコンピュータに、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
機能を実行させるためのプログラム。
(付記7)
特許文書の理解を支援するためのコンピュータに、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定し、
前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出し、
効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
機能を実行させるためのプログラム。
(付記8)
前記情報量の判定において、前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する、
ことを特徴とする付記7に記載のプログラム。
(付記9)
前記類似度の計算において、
前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
ことを特徴とする付記6又は7に記載のプログラム。
(付記10)
前記類似度の計算において、
前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
ことを特徴とする付記9に記載のプログラム。
(付記11)
コンピュータが特許文書の理解を支援するための方法であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
ことを前記コンピュータが実行をすることを特徴とする構成要素ハイライト方法。
(付記12)
コンピュータが特許文書の理解を支援するための方法であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定し、
前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出し、
効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
ことを前記コンピュータが実行をすることを特徴とする構成要素ハイライト方法。
(付記13)
前記情報量の判定において、前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する、
ことを特徴とする付記12に記載の構成要素ハイライト方法。
(付記14)
前記類似度の計算において、
前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
ことを前記コンピュータが実行をすることを特徴とする付記11又は12に記載の構成要素ハイライト方法。
(付記15)
前記類似度の計算において、
前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
ことを前記コンピュータが実行をすることを特徴とする付記14に記載の構成要素ハイライト方法。
102 特許文書構造解析部
103 構成要素名抽出部
104 請求項からの構成要素の説明抽出部
105 情報量判定部
106 実施例からの説明抽出部
107 効果が得られる理由抽出部
108 類似度計算部1
109 ポイント構成要素特定部
110 表示部
111 特許データベース
112 構成要素表現パターン辞書
113 構成要素テーブル
114 解析済み文書テーブル
115 実施例中の説明表現パターン辞書
116 効果が得られる理由表現パターン辞書
117 類似度テーブル
Claims (6)
- 特許文書の理解を支援するための装置であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから、名詞と前記名詞に係っている1つ以上の修飾語のうち最も近接する修飾語とをつなげた名詞句を含む、各構成要素名を抽出する構成要素名抽出部と、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
前記ポイントとなる構成要素を出力する出力部と、
を含むことを特徴とする構成要素ハイライト装置。 - 特許文書の理解を支援するための装置であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから各構成要素名を抽出する構成要素名抽出部と、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出する請求項からの構成要素の説明抽出部と、
前記各構成要素毎に、前記構成要素の説明をしている説明文のテキストデータを形態素解析して得られる所定の品詞の形態素データから、前記構成要素に対応する前記構成要素名に含まれる形態素データと、他の全ての構成要素の説明文に共通に含まれる形態素データとを削除して得られる残りの前記所定の品詞の形態素データの数が所定の閾値以上であるか否かを判定することにより、前記各構成要素の説明をしている説明文のテキストデータに十分な情報が含まれているか否かを判定する情報量判定部と、
前記特許文書中の発明の詳細な説明中で前記構成要素名と前記構成要素名に対応する説明文とを結びつける文字列パターンを記録した実施例中の説明表現パターン辞書を用いて、前記発明の詳細な説明を記載しているテキストデータから、前記説明文のテキストデータに十分な情報が含まれていないと判定された構成要素名に対応する説明文のテキストデータを抽出する実施例からの説明抽出部と、
効果が記載される文字列部分と前記効果が得られる理由が記載される文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出する効果が得られる理由抽出部と、
前記請求項からの構成要素の説明抽出部又は前記実施例からの説明抽出部により抽出された各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算する類似度計算部と、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定するポイント構成要素特定部と、
前記ポイントとなる構成要素を出力する出力部と、
を含むことを特徴とする構成要素ハイライト装置。 - 前記類似度計算部は、
前記各構成要素名に対応する説明文のテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記効果が得られる理由が記述されているテキストデータから、形態素解析により所定の品詞の形態素データを抽出し、
前記各構成要素名に対応する説明文の形態素データと前記効果が得られる理由が記述されている形態素データとで、共通に抽出された前記所定の品詞の形態素データの数を、前記各構成要素名に対応する説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの前記類似度として計算する、
ことを特徴とする請求項1又は2に記載の構成要素ハイライト装置。 - 前記類似度計算部は、
前記所定の品詞の形態素データの各々について、前記特許文書中での出現頻度が少ないほど大きくなる重みを設定し、前記共通に抽出された前記所定の品詞の形態素データの数を、前記形態素データ毎の重みを付加して算出する、
ことを特徴とする請求項3に記載の構成要素ハイライト装置。 - 特許文書の理解を支援するためのコンピュータに、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから、名詞と前記名詞に係っている1つ以上の修飾語のうち最も近接する修飾語とをつなげた名詞句を含む、各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
機能を実行させるためのプログラム。 - コンピュータが特許文書の理解を支援するための方法であって、
請求項を構成する構成要素に対応する構成要素名の前又は後に記載される文字列パターンを記録した表現パターンの文字列が記録されている構成要素表現パターン辞書を用いて、特許文書データベースから抽出した特許文書中の請求項のテキストデータから、名詞と前記名詞に係っている1つ以上の修飾語のうち最も近接する修飾語とをつなげた名詞句を含む、各構成要素名を抽出し、
前記各構成要素名と前記構成要素表現パターン辞書に記録されている文字列パターンとに基づいて、前記請求項のテキストデータから、前記各構成要素名に対応する構成要素の説明をしている説明文のテキストデータを抽出し、
効果が記載されている文字列部分と前記効果が得られる理由が記載されている文字列部分とを結びつける文字列パターンを記録した効果が得られる理由表現パターン辞書を用いて、前記特許文書中の発明の効果を記載しているテキストデータから、前記効果が得られる理由が記述されているテキストデータを抽出し、
前記各構成要素の説明文のテキストデータと前記効果が得られる理由が記述されているテキストデータとの類似度を計算し、
前記類似度が最も高い前記説明文のテキストデータに対応する構成要素を、ポイントとなる構成要素として特定し、
前記ポイントとなる構成要素を出力する、
ことを前記コンピュータが実行をすることを特徴とする構成要素ハイライト方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009252341A JP5644087B2 (ja) | 2009-11-02 | 2009-11-02 | 構成要素ハイライト装置、プログラム、及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009252341A JP5644087B2 (ja) | 2009-11-02 | 2009-11-02 | 構成要素ハイライト装置、プログラム、及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011096200A JP2011096200A (ja) | 2011-05-12 |
JP5644087B2 true JP5644087B2 (ja) | 2014-12-24 |
Family
ID=44113003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009252341A Expired - Fee Related JP5644087B2 (ja) | 2009-11-02 | 2009-11-02 | 構成要素ハイライト装置、プログラム、及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5644087B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024176060A1 (ja) * | 2023-02-24 | 2024-08-29 | 株式会社半導体エネルギー研究所 | 情報処理方法、プログラム、及び情報処理装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005339418A (ja) * | 2004-05-31 | 2005-12-08 | Sankyo Kk | ホームページ作成システム |
-
2009
- 2009-11-02 JP JP2009252341A patent/JP5644087B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011096200A (ja) | 2011-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
JP4953468B2 (ja) | オントロジーデータのインポート/エクスポートのための方法および装置 | |
KR101255405B1 (ko) | 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체 | |
JP5095281B2 (ja) | 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム | |
JP3266586B2 (ja) | データ分析システム | |
US8856119B2 (en) | Holistic disambiguation for entity name spotting | |
Mendels et al. | Improving speech recognition and keyword search for low resource languages using web data | |
US20130041892A1 (en) | Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text | |
US6219664B1 (en) | Search method and system using syntactic information | |
WO2020248378A1 (zh) | 业务查询方法、装置及存储介质、计算机设备 | |
US20100185438A1 (en) | Method of creating a dictionary | |
US20060253433A1 (en) | Method and apparatus for knowledge-based music searching and method and apparatus for managing music file | |
JP2008198237A (ja) | 構造化文書管理システム | |
JP3565239B2 (ja) | 情報検索装置 | |
US20050050042A1 (en) | Natural language database querying | |
JP2004219714A (ja) | 人間からの指示に基づいてそれぞれ予め定めた特定のシーンに属する対話のシーンを識別し、シーンに即した自然対話を構成する応答文を作成して、それを音声合成することにより、音声対話を行うコンピュータによる音声対話方法及び音声対話システム | |
JP5644087B2 (ja) | 構成要素ハイライト装置、プログラム、及び方法 | |
KR101476225B1 (ko) | 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
JP2002269139A (ja) | 文書検索方法 | |
CN116521626A (zh) | 一种基于内容检索的个人知识管理方法及系统 | |
Sen et al. | Audio indexing | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JPH06124305A (ja) | 文書検索方法 | |
JP2001067364A (ja) | 複合メディア検索方法および複合メディア検索用プログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140408 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140604 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141020 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5644087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |