JP2005258831A

JP2005258831A - 類似文書検索方法

Info

Publication number: JP2005258831A
Application number: JP2004069804A
Authority: JP
Inventors: Shigeto Higuchi; 重人樋口; Mitsuharu Makita; 光晴牧田; Tetsuya Ishikawa; 徹也石川; Atsushi Fujii; 敦藤井; Yuka Yamada; 有香山田
Original assignee: Patolis Corp
Current assignee: Patolis Corp
Priority date: 2004-03-11
Filing date: 2004-03-11
Publication date: 2005-09-22

Abstract

【課題】文書中の主たる構成要素を更に分割し、分割された要素毎に文書群中の各文書の類似度を求めるとともに各要素に関する類似度を各文書について一つの評価指標に総合することによって、本来なら順位の高い文書が実際より低位に順位づけられるのを防止することを課題とする。
【解決手段】定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割し、単位構成要素から各単位構成要素毎の索引語を抽出する。この索引語を用いて、文書群の中の各文書について単位構成要素のそれぞれとの類似度を算出し、各文書について算出された複数の単位構成要素との類似度をその文書についての単一の評価値に変換する。この評価値の順に各文書を表示する。
【選択図】図１

Description

本発明は、定型構造を有する任意の文書に類似する内容を持つ文書を文書群の中から検索する類似文書検索方法に関する。

特許の無効資料調査では、明細書において権利が請求されている「請求項（クレーム）」などから、審査官やサーチャーが人手でキーワードを抽出し、さらに特許分類などを用いて検索式を構成する。外国語文書を調査する場合には、検索キーワードの翻訳を行う。これらは、対象分野に関する高度な知識が要求される高価な作業である。

既存の特許検索システムでは、通常、キーワード、分類番号、日付などの検索キーをAND やORなどの論理演算子で結合して検索式を構成する。近年は、類似文書検索（「概念検索」とも呼ばれる）も実用化されている。この機能を使うと、文書を質問として入力し、その内容に類似する別の文書を検索することができる。論理式による検索は完全一致（exact match）に基づく方式であり、類似文書検索は最良一致（best match）に基づく方式である。

類似文書検索では、検索したい内容を記述した文書（質問文書）を基にして、この質問文書に内容が類似する文書が文書群の中から探索される。探索の仕方は以下のようである。この探索に当たって、まず形態素解析の手法（日本語の場合）を用いて質問文書が単語（索引語）に分離される。分離された複数の単語をベクトルの要素とみる。また、予め文書群のそれぞれの文書も同様にして単語ベクトルが得られている。

文書群の文書のそれぞれについて、質問文書の単語ベクトルとの内積が計算される。単語ベクトルが正規化されている場合、内積が１に近い文書ほど両者の記述内容が類似するであろうと推定できるので、内積が１に近いものから順に並べ、この順で検索者はこれら文書（文書群の文書）が真に求める文書か否かについて検討する。類似度が高いと推定される文書が早い時期に検討されるため、効率的である。

ところが、１つの文書が大きい（単語数が多い）場合、非常に多くの情報を含む。このため、上記質問文書、文書群文書とも分離された単語には、真に求めたい情報以外に多くの不要情報を含み、これがノイズとなって検索能率を低下させる。また、質問文書が抽象的な場合には、下位概念の単語が現れないため、検索漏れが生じる。

このような問題に対処するため、特許文献１に開示されるような技術が提案されている。この文献の技術によれば、質問文書中のもっとも特徴を示す部分「特許文書の特許請求の範囲（主たる構成要素）」のみを用いて単語ベクトルが生成される。この場合、抽象的単語しか抽出されないため、より具体的な単語を「発明の実施形態」から抽出することにより単語拡張が行われる。文書群文書についても同様な処理が行われる。類似文書検索は、拡張単語を含んでこれらの単語に基づいて行われる。

特許文書の特許請求の範囲（主たる構成要素）は特許権を特定するための基礎となる部分であるため、一般に、そこには真に特徴を示す部分とあえて特定するまでもない前提的事項についても記載される。そのため、前提的事項から抽出された単語及びその拡張単語を含んだまま類似文書検索を行ったとき、これらの単語の影響を受けて、本来なら順位の高い文書が実際よりも低位に順位づけられる場合があり、その結果精度が損なわれ効率が悪くなる。

特開２０００−３３９３４２号公報 Jaime G. Carbonell, Yiming Yang, Robert E. Frederking, Ralf D. Brown, Yibing Geng, and Danny Lee. Translingual information retrieval: A comparative evaluation. In Proceedings of the 15th International Joint Conference on Artificial Intelligence, pp. 708-714, 1997. S.E. Robertson and S. Walker. Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval. In Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 232-241, 1994. Gerard Salton and Chris Buckley. Improving retrieval performance by relevance feedback. Journal of the American Society for Information Science, Vol. 41, No. 4, pp. 288-297, 1990. Akihiro Shinmori, Manabu Okumura, Yuzo Marukawa, and Makoto Iwayama. Patent claim processing for readability: Structure analysis and term explanation. In Proceedings of the ACL-03 Workshop on Patent Corpus Processing, pp. 56-65, 2003. 藤井敦、岩山真、神門典子 NTCIR-4 における類似特許検索テストコレクションの構築、情報処理学会研究報告、2004-NL-159, pp.45-52、2004. 丸川雄三、岩山真、奥村学、新森昭宏ローカルアラインメントを用いたテキスト間の柔軟な対応付け、情報処理学会研究報告、2002-FI-68、 pp. 23-28、 2002.

本発明は、上記問題に鑑みてなされた発明であって、類似文書検索において、文書中の主たる構成要素（例えば特許文書中の特許請求の範囲の請求項）を更に分割し、分割された要素毎に文書群中の各文書の類似度を求めるとともに各要素に関する類似度を各文書について一つの評価指標に総合することによって、本来なら順位の高い文書が実際より低位に順位づけられるのを防止することを課題とする。

上記課題は、以下の手段によって解決される。すなわち、第１番目の発明は、定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、上記単位構成要素から各単位構成要素毎の索引語を抽出する索引語抽出工程、上記索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、上記評価値の順に上記各文書を表示する表示工程を備えることを特徴とする類似文書検索方法である。

第２番目の発明は、定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、上記単位構成要素から各単位構成要素毎の基本索引語を抽出する基本索引語抽出工程、上記単位構成要素の内容を具体的に記述した箇所から具体的な拡張索引語を抽出する拡張索引語抽出工程、上記基本索引語と上記拡張索引語とからなる索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、上記評価値の順に上記各文書を表示する表示工程を備えることを特徴とする類似文書検索方法である。

第３番目の発明は、第１又は第２のいずれかの類似文書検索方法において、上記索引語を他の言語に翻訳したものとすることを特徴とする類似文書検索方法である。

第４番目の発明は、第１から第３までのいずれかの類似文書検索方法において、上記定型構造を有する文書は特許文書であり、上記指定構成要素はユーザーが指定した請求項であり、上記単位構成要素は改行又は読点で区分けされた意味をなす請求項の一部であることを特徴とする類似文書検索方法である。

第５番目の発明は、第１から第４までのいずれかの類似文書検索方法において、上記文書評価値算出工程における変換に際し、各単位構成要素の類似度に対してそれぞれに異なる重みを付けることを特徴とする類似文書検索方法である。

本発明によれば、類似文書検索において、文書中の主たる構成要素（例えば特許文書中の特許請求の範囲の請求項）を更に分割し、分割された要素（構成要素）毎に文書群中の各文書の類似度を求めるとともに各要素に関する類似度を各文書について一つの評価指標に総合される。

これにより、本来なら順位の高い文書が実際より低位に順位づけられることが防止され、検索の効率を上げることができる。また、構成要素毎に重みをつけることができ、この重みによって重要な事項を含む文書の順位を上げることができるので、この点からも検索の効率向上に寄与することができる。

本発明で提案する類似文書検索方法は、まず入力する文書（検索質問）の構造解析を行うことで検索精度を向上させる点にある。入力文書とは、特許の明細書である。また、本発明における「入力文書の構造解析」とは、以下に示す２つの意味を持つ。

特許請求の範囲である請求項の構造解析
１つの請求項は複数の要素で構成される。構成要素とは、機械の部品、化合物を構成する物質、発明の特徴を表す観点などである。請求項の構造を解析して構成要素に分割することで、発明の本質を明らかにすることができる。

明細書の構造解析
１つの明細書は、請求項以外にも種々の項目を含む。請求項では、権利の範囲を広げるために上位概念を用いた抽象表現が使われる。それに対して、「発明の詳細な説明」では請求内容を具体的に記述している。発明の内容を第三者が理解して再現できるように、明確かつ十分に記載することが特許法で義務付けられているからである。

すなわち、１つの明細書は、同一内容について抽象的な記述と具体的な記述を含んでいる。明細書の構造解析によって対応する箇所を特定すれば、請求されている権利の内容を具体化することができる。その結果、適切な検索を行うことが可能となる。

図１は、本発明の実施例システムの概要である。ここでは日本語を入力言語とし、外国語として英語を対象にしている。しかし、原理的には特定の言語に依存しない汎用的なシステムであり、また、日本語だけを対象とするならばこの図の「翻訳」の工程は不要である。図１に基づく処理の流れについて説明する。

処理の流れ（概要）は以下のようである。
（１）ユーザは、明細書１を入力して無効化の対象となる請求項１１を１つ指定する（Ｐ０１）。
（２）「構成要素解析」（Ｐ０２）によって対象請求項１１の構造解析を行い、意味をなす複数の構成要素２に分割する。
（３）外国語文書を検索するために、構成要素２を「翻訳」（Ｐ０３）する。機械翻訳の精度は使用する辞書に依存するため、明細書に記載された特許分類１２を用いて分野辞書を選択する。
（４）「索引語抽出」（Ｐ０４）によって、構成要素２とその翻訳から検索キーワード（索引語）を抽出する。
（５）「質問拡張」（Ｐ０５）では、明細書１の構造解析を行って請求内容を詳述する箇所を特定し、そこから具体的な検索キーワードを追加する。また、既存の擬似フィードバックを併用する。以上の操作によって、構成要素２ごとに検索質問３が作成される。
（６）「文書検索」（Ｐ０６）によって文書データベース４に蓄積された文書から構成要素ごとに類似する文書の類似度を算出する。
（７）「分析」（Ｐ０７）において、類似文書候補について構成要素毎の類似度を総合して総合評価値を求め、この順で表示する。ユーザーは表示される文書の適否を判断し、適切な文書（類似文書）を取得する。

本発明では、請求項や明細書を構造解析するとともに上記構成要素毎に対象文書の類似度が求められる。つまり、一つの対象文書について、各構成要素に対応する複数の類似度が求められる。構成要素の分割を行わない場合、検索結果が特定の構成要素の影響を大きく受けることがあるが、本発明では請求項を構成要素に分割することで、この影響を少なくすることができる。そして、構成要素ごとの重要性を加味した上で総合評価値が求められ、この順で表示される。ユーザはこの表示したがって文書の適否を検討をすることができる。また、どの構成要素が検索の根拠となっているかをユーザに示すことも可能となる。以下、上記（２）〜（７）について更に具体的に説明する。

構成要素解析
請求項は、日常言語とは記述形式が異なる一種の制限言語で書かれている。そこで、既存の自然言語解析とは異なる解析手法が必要である。本発明の実験では、以下に示す手掛かりを適宜選択して利用した。
イ構成要素は改行や読点によって明示されることが多い。そこで、改行や読点によって請求項を機械的に分割して構成要素を抽出する。
ロ請求項の記述形式には、順次列挙形式、構成要素列挙形式、ジェプソン形式などがある。これらの形式を規則化して利用する。これにはＳｈｉｎｍｏｒｉら（非特許文献４）が提案した特許解析ツールを利用した。

翻訳
翻訳には、特許用の機械翻訳システムＰＡＴ−Ｔｒａｎｓｅｒ（商品名）を用いた。分野辞書を切り替えることで訳質が変わるため、入力となる明細書に付与された国際特許分類（ＩＰＣ）に基づいて使用する辞書を選択した。ＩＰＣにはセクション、クラス、サブクラスなどの階層があり、サブクラスまでを使用した。ＩＰＣサブクラスと分野辞書との対応は人手で作成した。

構成要素単位で翻訳を行うと、請求項全体の文脈が損なわれる可能性がある。他方において、先に翻訳すると、外国語の請求項記述形式に対応して構成要素解析を行わなければならない。テストでは、構成要素を解析した後で翻訳を行った。

索引語抽出
日本語の構成要素や翻訳された構成要素から、文書検索用の索引語を抽出する。具体的には、形態素解析によって名詞を中心とした内容語を抽出する。また、日本語と英語に対して、特許検索用の不要語リストを事前に人手で作成しておき、リストに含まれる語を削除した。

質問拡張
質問の拡張は、２通りの方法で行った。まず、請求項の内容を具体的に記述した箇所を特定して、そこから検索キーワードを抽出する。明細書を墨付括弧（段落番号）などを基準にして段落に分割し、段落を個別の文書と見なして索引付けを行う。後述の「文書検索」で使用する検索エンジンをここでも用いた。その結果、「移動体」のような上位概念が「自動車」や「電車」のように具体化される。

文書検索
文書検索のために、既存の手法（非特許文献２）を用いた検索エンジンを使用した。対象文書には、上記構成要素ごとに類似度が算出、付与される。なお、評価実験に使用した特許公報５年分のコレクションは約１７０万文書を含んでおり、ファイルサイズは約４０ＧＢである。このような大規模な文書群に対しても、単体のパソコンを使って、実用的な時間で索引付けや検索が可能である。

検索質問は索引語の列である。また、ＩＰＣや日付情報による絞り込みも可能である。無効資料調査では、対象の発明が出願される前に公知であった証拠を探す。そこで、入力された明細書の出願日よりも前に公開された特許公報を検索する。

分析
構成要素ごとに作成された検索質問を用いて文書検索を行うと、複数の検索結果に重複して含まれる文書が存在する。そこで、検索結果は、図２の表に示すように構成要素と文書を軸とした行列で表現することができる。この図では、８つの構成要素（１〜８）と３つの類似文書候補（Ａ、Ｂ、Ｃ）が示されている。セル中の数値は文書検索の段階で計算された類似度である。左端のＩＤは質問文書の構成要素の識別番号である。

この表は次のことを表している。構成要素（ＩＤ１）：「映像を処理してパソコン画面上に動画像を表示させるパソコン用動画像処理装置において、」に関する類似度は、それぞれ、文書Ａについて４００、文書Ｂについて６００、及び、文書Ｃについて２００である。構成要素（ＩＤ２）：「映像入力チャンネルからのＮＴＳＣ信号を色相別デジタル輝度信号・・・ＮＴＳＣ信号変換部と、」に関する類似度は、文書Ａについて１００、文書Ｂについて０、及び、文書Ｃについて１００である。構成要素（ＩＤ８）：「ことを特徴とするパソコン用動画像処理装置。」についてはそれぞれ３００、０、５００である。

つまり、文書Ａ、Ｂ、Ｃのそれぞれは、構成要素毎に別の類似度を有している。文書Ａのように多くの構成要素に対する類似度が高い文書が総合的に文書としての類似度が高いと言うことができる。

一方、文書Ｂは特定の構成要素に対してのみ類似度は高いが他が低いので、最終的な類似文書としての評価することはふさわしくないであろう。このように、文書としての類似度（構成要素の類似度ではない）は、各構成要素についての類似度を以下のように総合して文書毎の一つの数値（総合評価値）として求められる。

最も簡単には、その文書の全ての類似度を加算あるいは平均して、総合評価値とすることができる。あるいは、構成要素（ＩＤ）について重み付け（係数、荷重をかける）して加算することもできる。そして、ユーザの判断に基づいて重み付けをしたときには、ユーザが最も重要と考える構成要素の類似度を総合評価値に大きく反映させることができる。ユーザは、上記総合評価の順位にしたがって文書を表示しながらその内容を検討することができるので、早い段階で質問文書に最も類似した文書に到達することができる。

評価実験
概要
発明者が行った実験では、次のような結果が得られた。現在利用できるテストコレクションの制約上、日本語特許で日本語特許を検索する「単言語検索」と、日本語特許で英語特許を検索する「言語横断検索」を異なる方法で評価した。

単言語検索の評価
単言語検索の評価では、ＮＴＣＩＲ−４特許検索タスクのテストコレクション（非特許文献５）を用いた。当コレクションは、無効資料調査用の検索システムを評価するためのベンチマークであり、以下のデータが含まれる。
・検索課題：予備試験用７件、本試験用３４件、追加課題９６件
・検索対象：日本公開特許公報５年分（１９９３〜１９９７年）
・適合判定：実験当時、予備試験用の適合判定のみが配布されていた。

検索課題は日本公開特許公報から抜粋された公報である。そこで、予備試験用の７件を用いれば、単言語検索の評価実験が可能である。

評価尺度として、適合文書の平均順位を使用した。通常、平均精度（ＭＡＰ）が使用される。ＭＡＰは、上位１０件未満における順位の入れ替わりによって結果が顕著に異なる。それに対して、特許検索では通常数百件の文書を吟味するため、上位１０件未満における順位の変動よりも、適合文書の順位を１０００位から１００位に改善することに意義がある。しかし、ＭＡＰではこのような差異を適切に評価できない。

結果を図３の表「単言語検索の評価結果(適合文書の平均順位)」に示す。構成要素の解析方法として、解析しない、改行または読点で分割する方法、記述形式を利用する方法（非特許文献４）を比較した。質問拡張方法として、拡張しない、明細書を用いた拡張、擬似フィードバック（ＰＲＦ）、明細書による拡張とＰＲＦの併用を比較した。さらに、ＩＰＣによる絞り込みの効果を評価した。

総じて、改行または読点による構成要素解析、拡張方法の併用、ＩＰＣによる絞り込みが効果的だった。図３の表内の数字は平均順位である。これらを全て適用した場合に平均順位は２０３となり、最も良い結果がえられていることがわかる。

言語横断検索の評価
言語横断検索の評価では、ＮＴＣＩＲ−３とＮＴＣＩＲ−４の特許検索タスクテストコレクションを併用した。課題にはＮＴＣＩＲ−４本試験用の３４件を用いた。検索対象文書として、ＮＴＣＩＲ−３の特許和文抄録（ＪＡＰＩＯ抄録）と特許英文抄録（ＰＡＪ）を併用した。これらは、１９９５〜１９９９年に公開された特許公報の抄録で、日英対訳コーパスである。ここで問題となるのは、適合判定がないために検索精度を評価できない点である。

そこで、言語横断検索によって英文抄録を検索した結果が「和文抄録を検索した単言語検索の結果にどの程度近いか」という尺度によって評価した。

Ｃａｒｂｏｎｅｌｌら（非特許文献１）は、単言語検索の結果一覧に含まれる上位Ｎ件を全て適合文書として見なして、言語横断検索の精度を評価している。しかし、Ｎの決め方が困難である点や、上位Ｎ件の文書を順位によらず全て等価に扱うため評価の厳密性に欠ける点が問題である。

そこで、本実験は単言語検索と言語横断検索の結果を「順位相関」によって比較する評価方法使用した。順位相関とは、複数のリストにおいて順位の入れ替えがどの程度発生しているかを表す係数である。順位相関にはいくつかの手法があるが、今回は、ケンドールのτを用いて順位の入れ替わりが平均して何回発生したかを評価した。ケンドールのτは［−１，１］の範囲を取り、順位が完全に一致した場合は１を取る。

結果を図４の表「言語横断検索の評価結果(順位相関係数)」に示す。言語横断検索では、構成要素解析と明細書による質問拡張の評価を行わなかったが、擬似フィードバックとＩＰＣの有効性についてのみ考察した。擬似フィードバックによる質問拡張とＩＰＣによる絞り込みを併用した場合に、順位相関係数が最高になり、単言語検索の結果に最も近付くことがわかる。そのため、言語横断検索でもこれらの手法が効果的である。

本発明の実施例システムにおける概要説明図である。検索結果を構成要素と文書を軸とした行列で表現した表である。表「単言語検索の評価結果(適合文書の平均順位)」である。表「言語横断検索の評価結果(順位相関係数)」である。

符号の説明

１明細書
１１請求項
１２特許分類
２構成要素
３検索質問
４文書データベース

Claims

定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、
上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、
上記単位構成要素から各単位構成要素毎の索引語を抽出する索引語抽出工程、
上記索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、
各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、
上記評価値の順に上記各文書を表示する表示工程
を備えることを特徴とする類似文書検索方法。
定型構造を有する文書の内容に類似する文書を文書群の中から検索するための類似文書検索方法において、
上記定型構造の構成要素の内で、ユーザーが指定した指定構成要素を、意味をなす複数の単位構成要素に分割する分割工程、
上記単位構成要素から各単位構成要素毎の基本索引語を抽出する基本索引語抽出工程、
上記単位構成要素の内容を具体的に記述した箇所から具体的な拡張索引語を抽出する拡張索引語抽出工程、
上記基本索引語と上記拡張索引語とからなる索引語を用いて、上記文書群の中の各文書について上記単位構成要素のそれぞれとの類似度を算出する単位類似度算出工程、
各文書について算出された複数の上記単位構成要素との類似度をその文書についての単一の評価値に変換する文書評価値算出工程、及び、
上記評価値の順に上記各文書を表示する表示工程
を備えることを特徴とする類似文書検索方法。
請求項１又は請求項２のいずれかに記載された類似文書検索方法において、
上記索引語は他の言語に翻訳されたものであること
を特徴とする類似文書検索方法。
請求項１から請求項３までのいずれかに記載された類似文書検索方法において、
上記定型構造を有する文書は特許文書であり、上記指定構成要素はユーザーが指定した請求項であり、上記単位構成要素は改行又は読点で区分けされた意味をなす請求項の一部であること
を特徴とする類似文書検索方法。
請求項１から請求項４までのいずれかに記載された類似文書検索方法において、
上記文書評価値算出工程における変換に際し、各単位構成要素の類似度に対してそれぞれに異なる重みを付けること
を特徴とする類似文書検索方法。