JP2005258831A - 類似文書検索方法 - Google Patents
類似文書検索方法 Download PDFInfo
- Publication number
- JP2005258831A JP2005258831A JP2004069804A JP2004069804A JP2005258831A JP 2005258831 A JP2005258831 A JP 2005258831A JP 2004069804 A JP2004069804 A JP 2004069804A JP 2004069804 A JP2004069804 A JP 2004069804A JP 2005258831 A JP2005258831 A JP 2005258831A
- Authority
- JP
- Japan
- Prior art keywords
- document
- similar
- similarity
- index word
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 文書中の主たる構成要素を更に分割し、分割された要素毎に文書群中の各文書の類似度を求めるとともに各要素に関する類似度を各文書について一つの評価指標に総合することによって、本来なら順位の高い文書が実際より低位に順位づけられるのを防止することを課題とする。
【解決手段】 定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割し、単位構成要素から各単位構成要素毎の索引語を抽出する。この索引語を用いて、文書群の中の各文書について単位構成要素のそれぞれとの類似度を算出し、各文書について算出された複数の単位構成要素との類似度をその文書についての単一の評価値に変換する。この評価値の順に各文書を表示する。
【選択図】 図1
【解決手段】 定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割し、単位構成要素から各単位構成要素毎の索引語を抽出する。この索引語を用いて、文書群の中の各文書について単位構成要素のそれぞれとの類似度を算出し、各文書について算出された複数の単位構成要素との類似度をその文書についての単一の評価値に変換する。この評価値の順に各文書を表示する。
【選択図】 図1
Description
本発明は、定型構造を有する任意の文書に類似する内容を持つ文書を文書群の中から検索する類似文書検索方法に関する。
特許の無効資料調査では、明細書において権利が請求されている「請求項(クレーム)」などから、審査官やサーチャーが人手でキーワードを抽出し、さらに特許分類などを用いて検索式を構成する。外国語文書を調査する場合には、検索キーワードの翻訳を行う。これらは、対象分野に関する高度な知識が要求される高価な作業である。
既存の特許検索システムでは、通常、キーワード、分類番号、日付などの検索キーをAND やORなどの論理演算子で結合して検索式を構成する。近年は、類似文書検索(「概念検索」とも呼ばれる)も実用化されている。この機能を使うと、文書を質問として入力し、その内容に類似する別の文書を検索することができる。論理式による検索は完全一致(exact match)に基づく方式であり、類似文書検索は最良一致(best match)に基づく方式である。
類似文書検索では、検索したい内容を記述した文書(質問文書)を基にして、この質問文書に内容が類似する文書が文書群の中から探索される。探索の仕方は以下のようである。この探索に当たって、まず形態素解析の手法(日本語の場合)を用いて質問文書が単語(索引語)に分離される。分離された複数の単語をベクトルの要素とみる。また、予め文書群のそれぞれの文書も同様にして単語ベクトルが得られている。
文書群の文書のそれぞれについて、質問文書の単語ベクトルとの内積が計算される。単語ベクトルが正規化されている場合、内積が1に近い文書ほど両者の記述内容が類似するであろうと推定できるので、内積が1に近いものから順に並べ、この順で検索者はこれら文書(文書群の文書)が真に求める文書か否かについて検討する。類似度が高いと推定される文書が早い時期に検討されるため、効率的である。
ところが、1つの文書が大きい(単語数が多い)場合、非常に多くの情報を含む。このため、上記質問文書、文書群文書とも分離された単語には、真に求めたい情報以外に多くの不要情報を含み、これがノイズとなって検索能率を低下させる。また、質問文書が抽象的な場合には、下位概念の単語が現れないため、検索漏れが生じる。
このような問題に対処するため、特許文献1に開示されるような技術が提案されている。この文献の技術によれば、質問文書中のもっとも特徴を示す部分「特許文書の特許請求の範囲(主たる構成要素)」のみを用いて単語ベクトルが生成される。この場合、抽象的単語しか抽出されないため、より具体的な単語を「発明の実施形態」から抽出することにより単語拡張が行われる。文書群文書についても同様な処理が行われる。類似文書検索は、拡張単語を含んでこれらの単語に基づいて行われる。
特許文書の特許請求の範囲(主たる構成要素)は特許権を特定するための基礎となる部分であるため、一般に、そこには真に特徴を示す部分とあえて特定するまでもない前提的事項についても記載される。そのため、前提的事項から抽出された単語及びその拡張単語を含んだまま類似文書検索を行ったとき、これらの単語の影響を受けて、本来なら順位の高い文書が実際よりも低位に順位づけられる場合があり、その結果精度が損なわれ効率が悪くなる。
本発明は、上記問題に鑑みてなされた発明であって、類似文書検索において、文書中の主たる構成要素(例えば特許文書中の特許請求の範囲の請求項)を更に分割し、分割された要素毎に文書群中の各文書の類似度を求めるとともに各要素に関する類似度を各文書について一つの評価指標に総合することによって、本来なら順位の高い文書が実際より低位に順位づけられるのを防止することを課題とする。
上記課題は、以下の手段によって解決される。すなわち、第1番目の発明は、定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、上記単位構成要素から各単位構成要素毎の索引語を抽出する索引語抽出工程、上記索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、上記評価値の順に上記各文書を表示する表示工程を備えることを特徴とする類似文書検索方法である。
第2番目の発明は、定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、上記単位構成要素から各単位構成要素毎の基本索引語を抽出する基本索引語抽出工程、上記単位構成要素の内容を具体的に記述した箇所から具体的な拡張索引語を抽出する拡張索引語抽出工程、上記基本索引語と上記拡張索引語とからなる索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、上記評価値の順に上記各文書を表示する表示工程を備えることを特徴とする類似文書検索方法である。
第3番目の発明は、第1又は第2のいずれかの類似文書検索方法において、上記索引語を他の言語に翻訳したものとすることを特徴とする類似文書検索方法である。
第4番目の発明は、第1から第3までのいずれかの類似文書検索方法において、上記定型構造を有する文書は特許文書であり、上記指定構成要素はユーザーが指定した請求項であり、上記単位構成要素は改行又は読点で区分けされた意味をなす請求項の一部であることを特徴とする類似文書検索方法である。
第5番目の発明は、第1から第4までのいずれかの類似文書検索方法において、上記文書評価値算出工程における変換に際し、各単位構成要素の類似度に対してそれぞれに異なる重みを付けることを特徴とする類似文書検索方法である。
本発明によれば、類似文書検索において、文書中の主たる構成要素(例えば特許文書中の特許請求の範囲の請求項)を更に分割し、分割された要素(構成要素)毎に文書群中の各文書の類似度を求めるとともに各要素に関する類似度を各文書について一つの評価指標に総合される。
これにより、本来なら順位の高い文書が実際より低位に順位づけられることが防止され、検索の効率を上げることができる。また、構成要素毎に重みをつけることができ、この重みによって重要な事項を含む文書の順位を上げることができるので、この点からも検索の効率向上に寄与することができる。
本発明で提案する類似文書検索方法は、まず入力する文書(検索質問)の構造解析を行うことで検索精度を向上させる点にある。入力文書とは、特許の明細書である。また、本発明における「入力文書の構造解析」とは、以下に示す2つの意味を持つ。
特許請求の範囲である請求項の構造解析
1つの請求項は複数の要素で構成される。構成要素とは、機械の部品、化合物を構成する物質、発明の特徴を表す観点などである。請求項の構造を解析して構成要素に分割することで、発明の本質を明らかにすることができる。
1つの請求項は複数の要素で構成される。構成要素とは、機械の部品、化合物を構成する物質、発明の特徴を表す観点などである。請求項の構造を解析して構成要素に分割することで、発明の本質を明らかにすることができる。
明細書の構造解析
1つの明細書は、請求項以外にも種々の項目を含む。請求項では、権利の範囲を広げるために上位概念を用いた抽象表現が使われる。それに対して、「発明の詳細な説明」では請求内容を具体的に記述している。発明の内容を第三者が理解して再現できるように、明確かつ十分に記載することが特許法で義務付けられているからである。
1つの明細書は、請求項以外にも種々の項目を含む。請求項では、権利の範囲を広げるために上位概念を用いた抽象表現が使われる。それに対して、「発明の詳細な説明」では請求内容を具体的に記述している。発明の内容を第三者が理解して再現できるように、明確かつ十分に記載することが特許法で義務付けられているからである。
すなわち、1つの明細書は、同一内容について抽象的な記述と具体的な記述を含んでいる。明細書の構造解析によって対応する箇所を特定すれば、請求されている権利の内容を具体化することができる。その結果、適切な検索を行うことが可能となる。
図1は、本発明の実施例システムの概要である。ここでは日本語を入力言語とし、外国語として英語を対象にしている。しかし、原理的には特定の言語に依存しない汎用的なシステムであり、また、日本語だけを対象とするならばこの図の「翻訳」の工程は不要である。図1に基づく処理の流れについて説明する。
処理の流れ(概要)は以下のようである。
(1)ユーザは、明細書1を入力して無効化の対象となる請求項11を1つ指定する(P01)。
(2)「構成要素解析」(P02)によって対象請求項11の構造解析を行い、意味をなす複数の構成要素2に分割する。
(3)外国語文書を検索するために、構成要素2を「翻訳」(P03)する。機械翻訳の精度は使用する辞書に依存するため、明細書に記載された特許分類12を用いて分野辞書を選択する。
(4)「索引語抽出」(P04)によって、構成要素2とその翻訳から検索キーワード(索引語)を抽出する。
(5)「質問拡張」(P05)では、明細書1の構造解析を行って請求内容を詳述する箇所を特定し、そこから具体的な検索キーワードを追加する。また、既存の擬似フィードバックを併用する。以上の操作によって、構成要素2ごとに検索質問3が作成される。
(6)「文書検索」(P06)によって文書データベース4に蓄積された文書から構成要素ごとに類似する文書の類似度を算出する。
(7)「分析」(P07)において、類似文書候補について構成要素毎の類似度を総合して総合評価値を求め、この順で表示する。ユーザーは表示される文書の適否を判断し、適切な文書(類似文書)を取得する。
(1)ユーザは、明細書1を入力して無効化の対象となる請求項11を1つ指定する(P01)。
(2)「構成要素解析」(P02)によって対象請求項11の構造解析を行い、意味をなす複数の構成要素2に分割する。
(3)外国語文書を検索するために、構成要素2を「翻訳」(P03)する。機械翻訳の精度は使用する辞書に依存するため、明細書に記載された特許分類12を用いて分野辞書を選択する。
(4)「索引語抽出」(P04)によって、構成要素2とその翻訳から検索キーワード(索引語)を抽出する。
(5)「質問拡張」(P05)では、明細書1の構造解析を行って請求内容を詳述する箇所を特定し、そこから具体的な検索キーワードを追加する。また、既存の擬似フィードバックを併用する。以上の操作によって、構成要素2ごとに検索質問3が作成される。
(6)「文書検索」(P06)によって文書データベース4に蓄積された文書から構成要素ごとに類似する文書の類似度を算出する。
(7)「分析」(P07)において、類似文書候補について構成要素毎の類似度を総合して総合評価値を求め、この順で表示する。ユーザーは表示される文書の適否を判断し、適切な文書(類似文書)を取得する。
本発明では、請求項や明細書を構造解析するとともに上記構成要素毎に対象文書の類似度が求められる。つまり、一つの対象文書について、各構成要素に対応する複数の類似度が求められる。構成要素の分割を行わない場合、検索結果が特定の構成要素の影響を大きく受けることがあるが、本発明では請求項を構成要素に分割することで、この影響を少なくすることができる。そして、構成要素ごとの重要性を加味した上で総合評価値が求められ、この順で表示される。ユーザはこの表示したがって文書の適否を検討をすることができる。また、どの構成要素が検索の根拠となっているかをユーザに示すことも可能となる。以下、上記(2)〜(7)について更に具体的に説明する。
構成要素解析
請求項は、日常言語とは記述形式が異なる一種の制限言語で書かれている。そこで、既存の自然言語解析とは異なる解析手法が必要である。本発明の実験では、以下に示す手掛かりを適宜選択して利用した。
イ 構成要素は改行や読点によって明示されることが多い。そこで、改行や読点によって請求項を機械的に分割して構成要素を抽出する。
ロ 請求項の記述形式には、順次列挙形式、構成要素列挙形式、ジェプソン形式などがある。これらの形式を規則化して利用する。これにはShinmoriら(非特許文献4)が提案した特許解析ツールを利用した。
請求項は、日常言語とは記述形式が異なる一種の制限言語で書かれている。そこで、既存の自然言語解析とは異なる解析手法が必要である。本発明の実験では、以下に示す手掛かりを適宜選択して利用した。
イ 構成要素は改行や読点によって明示されることが多い。そこで、改行や読点によって請求項を機械的に分割して構成要素を抽出する。
ロ 請求項の記述形式には、順次列挙形式、構成要素列挙形式、ジェプソン形式などがある。これらの形式を規則化して利用する。これにはShinmoriら(非特許文献4)が提案した特許解析ツールを利用した。
翻訳
翻訳には、特許用の機械翻訳システムPAT−Transer(商品名)を用いた。分野辞書を切り替えることで訳質が変わるため、入力となる明細書に付与された国際特許分類(IPC)に基づいて使用する辞書を選択した。IPCにはセクション、クラス、サブクラスなどの階層があり、サブクラスまでを使用した。IPCサブクラスと分野辞書との対応は人手で作成した。
翻訳には、特許用の機械翻訳システムPAT−Transer(商品名)を用いた。分野辞書を切り替えることで訳質が変わるため、入力となる明細書に付与された国際特許分類(IPC)に基づいて使用する辞書を選択した。IPCにはセクション、クラス、サブクラスなどの階層があり、サブクラスまでを使用した。IPCサブクラスと分野辞書との対応は人手で作成した。
構成要素単位で翻訳を行うと、請求項全体の文脈が損なわれる可能性がある。他方において、先に翻訳すると、外国語の請求項記述形式に対応して構成要素解析を行わなければならない。テストでは、構成要素を解析した後で翻訳を行った。
索引語抽出
日本語の構成要素や翻訳された構成要素から、文書検索用の索引語を抽出する。具体的には、形態素解析によって名詞を中心とした内容語を抽出する。また、日本語と英語に対して、特許検索用の不要語リストを事前に人手で作成しておき、リストに含まれる語を削除した。
日本語の構成要素や翻訳された構成要素から、文書検索用の索引語を抽出する。具体的には、形態素解析によって名詞を中心とした内容語を抽出する。また、日本語と英語に対して、特許検索用の不要語リストを事前に人手で作成しておき、リストに含まれる語を削除した。
質問拡張
質問の拡張は、2通りの方法で行った。まず、請求項の内容を具体的に記述した箇所を特定して、そこから検索キーワードを抽出する。明細書を墨付括弧(段落番号)などを基準にして段落に分割し、段落を個別の文書と見なして索引付けを行う。後述の「文書検索」で使用する検索エンジンをここでも用いた。その結果、「移動体」のような上位概念が「自動車」や「電車」のように具体化される。
質問の拡張は、2通りの方法で行った。まず、請求項の内容を具体的に記述した箇所を特定して、そこから検索キーワードを抽出する。明細書を墨付括弧(段落番号)などを基準にして段落に分割し、段落を個別の文書と見なして索引付けを行う。後述の「文書検索」で使用する検索エンジンをここでも用いた。その結果、「移動体」のような上位概念が「自動車」や「電車」のように具体化される。
文書検索
文書検索のために、既存の手法(非特許文献2)を用いた検索エンジンを使用した。対象文書には、上記構成要素ごとに類似度が算出、付与される。なお、評価実験に使用した特許公報5年分のコレクションは約170万文書を含んでおり、ファイルサイズは約40GBである。このような大規模な文書群に対しても、単体のパソコンを使って、実用的な時間で索引付けや検索が可能である。
文書検索のために、既存の手法(非特許文献2)を用いた検索エンジンを使用した。対象文書には、上記構成要素ごとに類似度が算出、付与される。なお、評価実験に使用した特許公報5年分のコレクションは約170万文書を含んでおり、ファイルサイズは約40GBである。このような大規模な文書群に対しても、単体のパソコンを使って、実用的な時間で索引付けや検索が可能である。
検索質問は索引語の列である。また、IPCや日付情報による絞り込みも可能である。無効資料調査では、対象の発明が出願される前に公知であった証拠を探す。そこで、入力された明細書の出願日よりも前に公開された特許公報を検索する。
分析
構成要素ごとに作成された検索質問を用いて文書検索を行うと、複数の検索結果に重複して含まれる文書が存在する。そこで、検索結果は、図2の表に示すように構成要素と文書を軸とした行列で表現することができる。この図では、8つの構成要素(1〜8)と3つの類似文書候補(A、B、C)が示されている。セル中の数値は文書検索の段階で計算された類似度である。左端のIDは質問文書の構成要素の識別番号である。
構成要素ごとに作成された検索質問を用いて文書検索を行うと、複数の検索結果に重複して含まれる文書が存在する。そこで、検索結果は、図2の表に示すように構成要素と文書を軸とした行列で表現することができる。この図では、8つの構成要素(1〜8)と3つの類似文書候補(A、B、C)が示されている。セル中の数値は文書検索の段階で計算された類似度である。左端のIDは質問文書の構成要素の識別番号である。
この表は次のことを表している。構成要素(ID1):「映像を処理してパソコン画面上に動画像を表示させるパソコン用動画像処理装置において、」に関する類似度は、それぞれ、文書Aについて400、文書Bについて600、及び、文書Cについて200である。構成要素(ID2):「映像入力チャンネルからのNTSC 信号を色相別デジタル輝度信号・・・NTSC 信号変換部と、」に関する類似度は、文書Aについて100、文書Bについて0、及び、文書Cについて100である。構成要素(ID8):「ことを特徴とするパソコン用動画像処理装置。」についてはそれぞれ300、0、500である。
つまり、文書A、B、Cのそれぞれは、構成要素毎に別の類似度を有している。文書Aのように多くの構成要素に対する類似度が高い文書が総合的に文書としての類似度が高いと言うことができる。
一方、文書Bは特定の構成要素に対してのみ類似度は高いが他が低いので、最終的な類似文書としての評価することはふさわしくないであろう。このように、文書としての類似度(構成要素の類似度ではない)は、各構成要素についての類似度を以下のように総合して文書毎の一つの数値(総合評価値)として求められる。
最も簡単には、その文書の全ての類似度を加算あるいは平均して、総合評価値とすることができる。あるいは、構成要素(ID)について重み付け(係数、荷重をかける)して加算することもできる。そして、ユーザの判断に基づいて重み付けをしたときには、ユーザが最も重要と考える構成要素の類似度を総合評価値に大きく反映させることができる。ユーザは、上記総合評価の順位にしたがって文書を表示しながらその内容を検討することができるので、早い段階で質問文書に最も類似した文書に到達することができる。
評価実験
概要
発明者が行った実験では、次のような結果が得られた。現在利用できるテストコレクションの制約上、日本語特許で日本語特許を検索する「単言語検索」と、日本語特許で英語特許を検索する「言語横断検索」を異なる方法で評価した。
概要
発明者が行った実験では、次のような結果が得られた。現在利用できるテストコレクションの制約上、日本語特許で日本語特許を検索する「単言語検索」と、日本語特許で英語特許を検索する「言語横断検索」を異なる方法で評価した。
単言語検索の評価
単言語検索の評価では、NTCIR−4特許検索タスクのテストコレクション(非特許文献5)を用いた。当コレクションは、無効資料調査用の検索システムを評価するためのベンチマークであり、以下のデータが含まれる。
・ 検索課題:予備試験用7件、本試験用34件、追加課題96件
・ 検索対象:日本公開特許公報5年分(1993〜1997年)
・ 適合判定:実験当時、予備試験用の適合判定のみが配布されていた。
単言語検索の評価では、NTCIR−4特許検索タスクのテストコレクション(非特許文献5)を用いた。当コレクションは、無効資料調査用の検索システムを評価するためのベンチマークであり、以下のデータが含まれる。
・ 検索課題:予備試験用7件、本試験用34件、追加課題96件
・ 検索対象:日本公開特許公報5年分(1993〜1997年)
・ 適合判定:実験当時、予備試験用の適合判定のみが配布されていた。
検索課題は日本公開特許公報から抜粋された公報である。そこで、予備試験用の7件を用いれば、単言語検索の評価実験が可能である。
評価尺度として、適合文書の平均順位を使用した。通常、平均精度(MAP)が使用される。MAPは、上位10件未満における順位の入れ替わりによって結果が顕著に異なる。それに対して、特許検索では通常数百件の文書を吟味するため、上位10件未満における順位の変動よりも、適合文書の順位を1000位から100位に改善することに意義がある。しかし、MAPではこのような差異を適切に評価できない。
結果を図3の表「単言語検索の評価結果(適合文書の平均順位)」に示す。構成要素の解析方法として、解析しない、改行または読点で分割する方法、記述形式を利用する方法(非特許文献4)を比較した。質問拡張方法として、拡張しない、明細書を用いた拡張、擬似フィードバック(PRF)、明細書による拡張とPRFの併用を比較した。さらに、IPCによる絞り込みの効果を評価した。
総じて、改行または読点による構成要素解析、拡張方法の併用、IPCによる絞り込みが効果的だった。図3の表内の数字は平均順位である。これらを全て適用した場合に平均順位は203となり、最も良い結果がえられていることがわかる。
言語横断検索の評価
言語横断検索の評価では、NTCIR−3とNTCIR−4の特許検索タスクテストコレクションを併用した。課題にはNTCIR−4本試験用の34件を用いた。検索対象文書として、NTCIR−3の特許和文抄録(JAPIO抄録)と特許英文抄録(PAJ)を併用した。これらは、1995〜1999年に公開された特許公報の抄録で、日英対訳コーパスである。ここで問題となるのは、適合判定がないために検索精度を評価できない点である。
言語横断検索の評価では、NTCIR−3とNTCIR−4の特許検索タスクテストコレクションを併用した。課題にはNTCIR−4本試験用の34件を用いた。検索対象文書として、NTCIR−3の特許和文抄録(JAPIO抄録)と特許英文抄録(PAJ)を併用した。これらは、1995〜1999年に公開された特許公報の抄録で、日英対訳コーパスである。ここで問題となるのは、適合判定がないために検索精度を評価できない点である。
そこで、言語横断検索によって英文抄録を検索した結果が「和文抄録を検索した単言語検索の結果にどの程度近いか」という尺度によって評価した。
Carbonellら(非特許文献1)は、単言語検索の結果一覧に含まれる上位N件を全て適合文書として見なして、言語横断検索の精度を評価している。しかし、Nの決め方が困難である点や、上位N件の文書を順位によらず全て等価に扱うため評価の厳密性に欠ける点が問題である。
そこで、本実験は単言語検索と言語横断検索の結果を「順位相関」によって比較する評価方法使用した。順位相関とは、複数のリストにおいて順位の入れ替えがどの程度発生しているかを表す係数である。順位相関にはいくつかの手法があるが、今回は、ケンドールのτを用いて順位の入れ替わりが平均して何回発生したかを評価した。ケンドールのτは[−1,1]の範囲を取り、順位が完全に一致した場合は1を取る。
結果を図4の表「言語横断検索の評価結果(順位相関係数)」に示す。言語横断検索では、構成要素解析と明細書による質問拡張の評価を行わなかったが、擬似フィードバックとIPCの有効性についてのみ考察した。擬似フィードバックによる質問拡張とIPCによる絞り込みを併用した場合に、順位相関係数が最高になり、単言語検索の結果に最も近付くことがわかる。そのため、言語横断検索でもこれらの手法が効果的である。
1 明細書
11 請求項
12 特許分類
2 構成要素
3 検索質問
4 文書データベース
11 請求項
12 特許分類
2 構成要素
3 検索質問
4 文書データベース
Claims (5)
- 定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、
上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、
上記単位構成要素から各単位構成要素毎の索引語を抽出する索引語抽出工程、
上記索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、
各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、
上記評価値の順に上記各文書を表示する表示工程
を備えることを特徴とする類似文書検索方法。 - 定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、
上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、
上記単位構成要素から各単位構成要素毎の基本索引語を抽出する基本索引語抽出工程、
上記単位構成要素の内容を具体的に記述した箇所から具体的な拡張索引語を抽出する拡張索引語抽出工程、
上記基本索引語と上記拡張索引語とからなる索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、
各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、
上記評価値の順に上記各文書を表示する表示工程
を備えることを特徴とする類似文書検索方法。 - 請求項1又は請求項2のいずれかに記載された類似文書検索方法において、
上記索引語は他の言語に翻訳されたものであること
を特徴とする類似文書検索方法。 - 請求項1から請求項3までのいずれかに記載された類似文書検索方法において、
上記定型構造を有する文書は特許文書であり、上記指定構成要素はユーザーが指定した請求項であり、上記単位構成要素は改行又は読点で区分けされた意味をなす請求項の一部であること
を特徴とする類似文書検索方法。 - 請求項1から請求項4までのいずれかに記載された類似文書検索方法において、
上記文書評価値算出工程における変換に際し、各単位構成要素の類似度に対してそれぞれに異なる重みを付けること
を特徴とする類似文書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004069804A JP2005258831A (ja) | 2004-03-11 | 2004-03-11 | 類似文書検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004069804A JP2005258831A (ja) | 2004-03-11 | 2004-03-11 | 類似文書検索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005258831A true JP2005258831A (ja) | 2005-09-22 |
Family
ID=35084480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004069804A Pending JP2005258831A (ja) | 2004-03-11 | 2004-03-11 | 類似文書検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005258831A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378248B2 (en) | 2012-03-13 | 2016-06-28 | Nec Corporation | Retrieval apparatus, retrieval method, and computer-readable recording medium |
WO2016147624A1 (ja) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | 検索システム、検索方法および検索プログラム |
JP2017201489A (ja) * | 2016-05-06 | 2017-11-09 | 雲拓科技有限公司 | 請求の範囲の構文解析構成方法 |
JP6457058B1 (ja) * | 2017-12-06 | 2019-01-23 | 株式会社ゴールドアイピー | 知的財産システム、知的財産支援方法および知的財産支援プログラム |
JP2019102099A (ja) * | 2018-12-19 | 2019-06-24 | 株式会社AI Samurai | 知的財産システム、知的財産支援方法および知的財産支援プログラム |
JP2020173759A (ja) * | 2019-07-02 | 2020-10-22 | 株式会社AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
JP2020181529A (ja) * | 2019-04-26 | 2020-11-05 | 一般財団法人日本特許情報機構 | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
JP2020205106A (ja) * | 2017-05-31 | 2020-12-24 | 株式会社半導体エネルギー研究所 | システム |
-
2004
- 2004-03-11 JP JP2004069804A patent/JP2005258831A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9378248B2 (en) | 2012-03-13 | 2016-06-28 | Nec Corporation | Retrieval apparatus, retrieval method, and computer-readable recording medium |
WO2016147624A1 (ja) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | 検索システム、検索方法および検索プログラム |
JPWO2016147624A1 (ja) * | 2015-03-13 | 2017-12-21 | 日本電気株式会社 | 検索システム、検索方法および検索プログラム |
US10909154B2 (en) | 2015-03-13 | 2021-02-02 | Nec Corporation | Search system, search method and search program |
JP2017201489A (ja) * | 2016-05-06 | 2017-11-09 | 雲拓科技有限公司 | 請求の範囲の構文解析構成方法 |
JP2020205106A (ja) * | 2017-05-31 | 2020-12-24 | 株式会社半導体エネルギー研究所 | システム |
JP2019101944A (ja) * | 2017-12-06 | 2019-06-24 | 株式会社AI Samurai | 知的財産システム、知的財産支援方法および知的財産支援プログラム |
WO2019111545A1 (ja) * | 2017-12-06 | 2019-06-13 | 株式会社 AI Samurai | 知的財産システム、知的財産支援方法および知的財産支援プログラム |
JP6457058B1 (ja) * | 2017-12-06 | 2019-01-23 | 株式会社ゴールドアイピー | 知的財産システム、知的財産支援方法および知的財産支援プログラム |
JP2019102099A (ja) * | 2018-12-19 | 2019-06-24 | 株式会社AI Samurai | 知的財産システム、知的財産支援方法および知的財産支援プログラム |
JP2020181529A (ja) * | 2019-04-26 | 2020-11-05 | 一般財団法人日本特許情報機構 | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
JP7348746B2 (ja) | 2019-04-26 | 2023-09-21 | 一般財団法人日本特許情報機構 | 調査支援方法、調査支援用コンピュータプログラムおよび調査支援システム |
JP2020173759A (ja) * | 2019-07-02 | 2020-10-22 | 株式会社AI Samurai | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7113943B2 (en) | Method for document comparison and selection | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
US8494839B2 (en) | Apparatus, method, and recording medium for morphological analysis and registering a new compound word | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
US20030004942A1 (en) | Method and apparatus of metadata generation | |
US20070033001A1 (en) | Identifying documents which form translated pairs, within a document collection | |
CA2950676A1 (en) | Methods and systems for mapping data items to sparse distributed representations | |
US20080016065A1 (en) | Document search system, document search processing method, and document search processing program | |
KR20130095171A (ko) | 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램 | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
JP2008077163A (ja) | 検索システム、検索方法及び検索プログラム | |
Kishida et al. | Overview of CLIR task at the fourth NTCIR workshop | |
Jaworski et al. | Usability analysis of the concordia tool applying novel concordance searching | |
JP2005258831A (ja) | 類似文書検索方法 | |
JP5146108B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
Gokhan et al. | GUSUM: graph-based unsupervised summarization using sentence features scoring and sentence-BERT | |
TWI636370B (zh) | Establishing chart indexing method and computer program product by text information | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Besançon et al. | Cross-media feedback strategies: Merging text and image information to improve image retrieval | |
Kim et al. | Genre classification in automated ingest and appraisal metadata | |
Hellín et al. | A Comparative Study on R Packages for Text Mining | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
Yamada et al. | Weighting of noun phrases based on local frequency of nouns | |
Kaur et al. | Automated scientific document retrieval | |
JP2012243130A (ja) | 情報検索装置、方法、及びプログラム |