JP5324677B2 - 類似文書検索支援装置及び類似文書検索支援プログラム - Google Patents
類似文書検索支援装置及び類似文書検索支援プログラム Download PDFInfo
- Publication number
- JP5324677B2 JP5324677B2 JP2012038163A JP2012038163A JP5324677B2 JP 5324677 B2 JP5324677 B2 JP 5324677B2 JP 2012038163 A JP2012038163 A JP 2012038163A JP 2012038163 A JP2012038163 A JP 2012038163A JP 5324677 B2 JP5324677 B2 JP 5324677B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- factor
- input
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、大量の文書集合の中から所望の文書を検索する文書検索装置及び文書検索プログラムに関する。特に、本発明は、利用者から指定された文章又は文書を検索条件とし、その記載内容に類似又は関連する文書を検索対象とする文書集合の中から検索し、類似又は関連する度合の高い文書から順に出力する類似文書検索支援装置及び類似文書検索支援プログラムに関する。
インターネットなどの通信ネットワークやPC・携帯電話などのハードウェアの普及と低価格化、CPUの高速化、メモリやディスクの大容量化・低価格化、検索システムや文書エディタなどのソフトウェアの高機能化・高性能化などにより、一般の人々が大量の文書情報に容易にアクセスできるようになっている。その一方で、大量の文書集合の中から、所望の文書を、迅速かつ的確かつ低労力で検索・取得することが困難になってきている。
大量の文書集合の中から所望の文書を検索する方式としては、キーワード検索が一般的である。キーワード検索では、利用者は、所望の文書に関連する一つ以上のキーワードと、キーワード間の論理的関係性を示す論理演算子(AND/OR/NOTなど)から構成されるキーワード論理式を作成する。文書検索装置は利用者からの論理式を受け取り、この論理式が真となる文書だけを検索対象文書集合の中から検索して、利用者に提示する。
しかし、キーワード検索では、検索結果文書を閲覧可能な件数に絞り込むために、どのようなキーワード論理式を作成したらよいかを利用者が思いつかないことがしばしばある。また、利用者の検索意図を反映した検索結果文書を優先的に出力することは、精度的にも困難である。
ところで、昨今、キーワード検索の分野では、利用者により入力された任意の文章又は指定された任意の文書を検索条件とし、その記載内容に類似又は関連する文書を検索対象とする文書集合の中から検索し、類似又は関連の度合の高い文書から順番に出力する技術が普及してきている。この技術は、類似文書検索と呼ばれている。なお、この技術は、概念検索、自然言語検索、自然文検索、あいまい検索、連想検索とも呼ばれる。
類似文書検索は、以下の処理を通じて実現される。まず、検索対象とする文書集合を構成する各々の検索対象文書から、記載内容を特徴づける特徴語を抽出し、その後、各特徴語に対してその重要度に応じた重みを算出・付与することにより、一語以上の重み付き特徴語から構成される特徴語ベクトルを生成し、検索インデクスに予め格納する。また、利用者が入力した文章又は指定した文書(以下、まとめて「入力文書」という)からも、同様の方法により重み付き特徴語を抽出して特徴語ベクトルを生成する。次に、入力文書から生成された特徴ベクトルと、各検索対象文書の特徴ベクトルを照合し、両者の類似度を算出する。類似度の算出には、特徴ベクトル間の内積や、特徴ベクトルがなす角の余弦値がしばしば使われる。その後、類似度を降順にソートして得られる上位の文書を入力文書に類似する文書として出力する。
類似文書検索では、自分の頭に思い浮かんだ任意の文章や、手元にある文書をそのまま検索条件として指定できるので、利用者がキーワード論理式を作成する手間が不要となるという長所がある。また、入力文書の内容に類似する度合の高い文書から順位付けして出力できるため、利用者は所望の文書に逸早く辿り着けるという長所もある。
しかし、類似文書検索では、数多くの重み付き特徴語を要素とする特徴語ベクトルを照合させて、入力文書と検索対象文書の間の類似性を判定する。このため、なぜその文書が類似文書として出力されたのかという検索根拠を利用者が理解するのが困難であるという短所がある。より具体的には、類似文書検索には、以下に示す4つの課題が存在する。
・課題(1)入力文書中のどの特徴語が、どのくらい類似文書検索結果の出力に貢献したのかを理解できない。
・課題(2)類似文書検索が、どの程度うまくいったのかを理解できない。
・課題(3)類似文書検索がうまくいっていない場合、何が原因なのかを理解できない。
・課題(4)類似文書検索がうまくいっていない場合、次に何をどうすればより良い検索結果を得られるのかを理解できない。
・課題(1)入力文書中のどの特徴語が、どのくらい類似文書検索結果の出力に貢献したのかを理解できない。
・課題(2)類似文書検索が、どの程度うまくいったのかを理解できない。
・課題(3)類似文書検索がうまくいっていない場合、何が原因なのかを理解できない。
・課題(4)類似文書検索がうまくいっていない場合、次に何をどうすればより良い検索結果を得られるのかを理解できない。
前述した課題(1)に関連する技術文献として、特許文献1及び特許文献2がある。これら特許文献に記載された発明は、検索結果と、検索で使用した項目を軸として構成される表又はグラフの形態により検索結果を表示する。
特許文献1では、複数の判定基準に基づいて、判定基準毎の文書適合値を算出し、これらをまとめた総合文書適合値を算出する。文書検索結果を出力する際に、検索結果文書と判定基準を2軸とし、検索結果文書毎の総合文書適合値及び判定基準毎の文書適合値を値とした表を出力する。この表を通じ、利用者は、どの判定基準がどの検索結果文書の出力にどのくらい貢献したかを理解することができる。
特許文献2では、入力文書を解析して複数の異なる視点に分け、視点毎に検索命令に変換し、入力文書と検索対象文書の間の類似度を視点別に算出し、これらを総合して検索結果を出力する。検査結果の出力時には、指定された視点を軸に使用し、検索命令と検索結果文書の類似の度合を2次元又は3次元空間に表示する。この表示を通じ、利用者は、どの視点に基づいて、どの検索結果文書が出力されているのかを理解することができる。
前述した特許文献1及び2に記載された発明は、検索結果と、検索で使用した項目(視点、判定基準)を軸として構成される表又はグラフを用いて検索結果を表示することにより、前述した課題(1)を解決する。しかし、これらの発明は、その他の課題(2)、(3)、(4)を解決する仕組みについては何ら言及していない。
例えば前述した課題(2)については、類似文書検索がどの程度うまくいったのか否かを利用者が理解できるように、入力文書と検索対象文書の間の類似性をさまざまな要因から解析し、要因毎に類似文書検索の良し悪しを利用者が評価できる態様で提供する必要がある。
この課題(2)に関連する技術文献には特許文献3がある。特許文献3には、まず、過去の検索結果から、類似文書検索によって検索された類似文書の類似度の値範囲に対応する検索精度を、検索結果文書に付与された分類毎に予め算出し、次に、新規入力文書に対する検索結果文書の各々の類似度及び分類から、この分類における類似度に対応する検索精度を特定し、その後、当該検索結果文書の類似度の値を、この特定された検索精度の値に置き換えて確度とし、確度の高い順に検索結果を並べ替えて表示することにより、検索精度を向上させる手法が記載されている。
しかし、特許文献3に記載の手法は、類似度と検索精度の対応関係に基づいて、類似度を検索精度に置き換え、検索結果文書の表示順序を補正(並べ替え)しているだけである。従って、特許文献3で言及された仕組みによっては、検索がうまくいかなかった要因や、この要因を踏まえて次に何をすればよいのかを、利用者が理解することはできない。
類似文書検索では、「検索条件指定→検索実行→検索結果の傾向や要因を把握→検索条件修正→再検索」という検索作業プロセスのサイクルを効率よく回すこと、すなわち検索作業を効率化することがしばしば求められる。この検索作業の効率化には、検索結果の提示と共に、検索結果の根拠・原因・対処方法などに関する種々の情報についても利用者に提示して、利用者が次の検索に向けて検索条件を効率よくかつ的確に修正できるように支援する仕組みが必要となる。
しかし、特許文献3に記載の手法は、類似度と検索精度の対応関係に基づく検索結果文書の並べ替えにとどまっており、検索結果の傾向や要因を把握して検索条件を修正し、再検索するという検索作業プロセスのサイクルを効率よく回すための仕組みについては何ら開示していない。結果的に、特許文献3に記載の手法によっては、前述した課題(3)、(4)を解決することができない。
また、特許文献3で着目しているのは、類似度の値そのものと、検索結果文書の属する分類だけである。しかし、文書間の類似性を定量的に表す類似度は、一般に、複数のミクロな要因が影響する中で算出される値である。ここでいう要因の具体例には、検索に使用される入力文書の特徴語の質と数、検索対象文書の内容・構造・文章量のばらつき、文書執筆者の異なり数や不特定性、検索対象文書の中で使用されている特徴語の質やばらつきなどが挙げられる。
そのため、類似度そのものの値と検索精度の間の関係性を解析するだけでは、検索がうまくいかなかった要因を特定することはできない。ここでの要因の特定には、よりミクロな要因と検索精度の関係を解析し、検索精度を向上させている要因と、低下させている要因をきちんと識別して利用者に定量的に提示することが必須となる。しかし、特許文献3の手法では、検索がうまくいかなかった要因を特定する技術については、何ら言及されていない。このため、特許文献3に記載の手法では、前述した課題(3)を解決することができない。
本発明は、前述した技術的背景や従来技術に対する考察の下に完成されたものであり、類似文書検索が抱える前記4つの課題のうち、特に課題(3)及び(4)を解決する技術を提供する。すなわち、本発明は、類似文書検索がうまくいっていない場合、何が原因なのかを利用者が理解できるようにする。また、本発明は、類似文書検索がうまくいっていない場合、次に何をどうすれば、より良い検索結果を得られるのかを利用者が理解できるようにする。そして、これらの課題を解決することにより、本発明は、利用者が検索作業プロセスのサイクルを効率よく回すことができるようにする。
本発明は、前述した課題(3)を解決するために、類似文書検索の精度に影響を与える要因を定義し、その上で、検索結果について、各要因からみたときの検索精度、及び/又は、精度平均との乖離度を要因毎に算出して利用者に提示する。例えば本発明に係る類似文書検索支援装置やプログラムは、ハードウェア資源を使用して、以下の処理を実行する。まず、過去の入力文書と正解文書の対の集合に対し、各要因に関する解析を行って要因の値範囲と検索精度を対応付けてテーブルに格納する。次に、新規入力文書に対して同様の要因解析を実行する。その後、前記テーブルとの照合により、新規入力文書の要因値に該当する値範囲に対応する検索精度を特定し、検出精度及び/又は過去の入力文書全体に対する検索精度平均との乖離度を利用者に提示する。
また、本発明は、前述した課題(4)を更に解決するために、利用者がより良い類似文書検索結果を得るための対策情報として、何をすべきであるかを記載した対策内容、前記対策内容をどのようにして行うかを記載した操作方法、前記操作方法を行うために遷移すべき画面情報を、前記要因の各々の視点から要因グループ毎に格納した対策テーブルを用意する。そして、検索結果文書集合を利用者に報知する際、精度影響度テーブルに格納された要因値並びに検索精度及び/又は乖離値を利用者に提示すると共に、前記対策テーブルに記載された対策内容、操作方法、画面情報の少なくとも1つを要因グループに付随させて表示する。
本発明により、類似文書検索結果の根拠を利用者が把握できるようになる。すなわち、類似文書検索がどの程度うまくいったのか、うまくいっていない場合、何が原因なのかを利用者が理解できるようになる。さらに、検索精度及び/又は乖離値を利用者に提示する際に、対策テーブルに記載された対策内容、操作方法、画面情報の少なくとも1つを要因グループに付随させて表示する場合には、類似文書検索がうまくいっていない場合、次に何をどうすればより良い検索結果を得られるのかを利用者が理解できるようになる。この結果、検索作業プロセスのサイクルを効率よく回すことができるようになり、検索作業時間を短縮できるとともに、質の高い検索結果を得ることができるようになる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
以下、図面に基づいて、本発明の実施例を説明する。以下の実施例は、特許文書を検索条件とし、入力された特許文書の発明内容に類似する過去の特許文書を検索する類似特許検索システムを想定する。具体的には、審査対象とする特許出願に対する公知例を過去の特許文書の中から検索する際に、出願文書を丸ごと入力し、その発明内容に類似する特許文書を検索するユースケースを想定する。
しかし、本発明の実施例は、このユースケースに限定されるものではない。また、本実施例では、特許文書を検索対象に用いているが、論文や新聞記事、設計文書やメール、Webページなどの文書を検索対象とすることも可能である。
本実施例では、類似文書の検索結果の根拠として、入力文書中のどの特徴語がどのくらい検索結果の出力に貢献したのか、類似文書検索がどの程度うまくいったのか、類似文書検索がうまくいっていない場合、何が原因なのか、類似文書検索がうまくいっていない場合、次に何をどうすればより良い検索結果を得られるのかなどを理解する機能を提供する。
まず、本システムの入出力イメージを、画面例を用いて説明する。図1に、本システムの入力文書指定画面の構成例を示す。入力文書指定画面100において、利用者は検索したい文書の識別子である特許出願番号を入力エリア101に入力する。特許出願番号の入力後、「検索」ボタン103を押下すると、類似文書検索が実行され、検索結果が別画面に出力される。なお、「クリア」ボタン102が押下されると、入力エリア101の内容が消去される。
入力文書指定画面100には、検索のオプションとして、検索実行前に入力文書から抽出された特徴語及びその重みの内容を確認・修正する前編集を行うか否かを選択入力するためのチェックボックス104と、入力文書から抽出された特徴語を同義語に展開してから検索を実行するか否かを選択入力するためのチェックボックス105が設けられている。チェックボックス104及び/又は105がチェックされている状態で検索ボタン103が押下されると、図2に示すような特徴語や同義語などの検索条件を編集する画面が表示される。当該画面の詳細構成については後述する。
本実施例では、入力文書を指定する際に出願番号のような文書IDを入力することを想定しているが、特許のテキスト部分をコピーして入力エリアに貼り付ける、あるいは、直接テキストを入力エリアにタイプ入力してもよい。あるいは、文書検索結果などの形式で一覧表示される文書の中から任意の文書を選択指定するような形式で入力文書を指定してもよい。
図3に、類似文書の検索結果の表示に使用する概要表示画面300の構成例を示す。概要表示画面300には、類似文書として検索された文書が、入力文書との類似の度合(類似度)の高い文書から順に表示される。その際、検索順位を表す順位308、類似度309、出願番号である文書ID310、文書タイトルに相当する発明の名称311、出願人312の各項目が、検索された文書毎に表示される。勿論、分類や要約文章など、これら以外の書誌情報やテキスト情報を表示してもよい。
本実施例の場合、選択チェックボックス307により選択された文書の抄録データを表示する「抄録」ボタン301と、本文データを表示する「本文」ボタン302が、概要表示画面300の画面上部に設けられる。なお、同じく画面上部に設けられた「戻る」ボタン304が押下されると、表示画面は入力文書指定画面100に戻る。また、「次」ボタン306が押下されると、次の検索結果文書10件を表示し、「前」ボタン305が押下されると、前の検索結果文書10件が表示される。
図4A及び図4Bに、類似文書検索結果の詳細表示画面の構成例を示す。本画面は、概要表示画面300(図3)の画面上部に設けた「詳細」ボタン303の押下により表示される。紙面の都合上、画面上段部分に表示される表400を図4Aに示し、画面下段部分に表示される表470を図4Bに示す。表400は、図3で出力された類似文書検索の結果がうまくいったのか、うまくいっていないとしたらその原因は何かを解析した結果を示したものである。
この表400は、類似文書検索の精度に影響を及ぼす要因410、要因に対する要因値440、要因毎に得られる「検索精度への影響度」450で構成される。要因410は、各要因の属する要因カテゴリ420と、要因名称430から構成される。要因値440は、当該入力文書に対する要因値である値441と、複数の教師入力文書に対する要因値の分野平均442から構成される。「検索精度への影響度」450は、要因の値441が属する「該当要因Group」451、該当要因Group451に対応する検索精度452、当該要因が類似文書検索の精度にどのくらい影響しているかを、教師入力文書全体に対する検索精度の平均値との乖離の度合として示す影響度453から構成される。影響度453の値がプラスの要因は、その絶対値が大きいほど検索精度の向上に貢献しており、影響度453の値がマイナスの要因は、その絶対値が大きいほど検索精度の低下の原因になっているとみなすことができる。利用者はこの影響度の値をチェックすることにより、検索がうまくいったのか、検索精度を低下させている要因は何かを理解することができる。もっとも、検索精度452と影響度453のいずれか一方だけを表示する場合も考えられる。
表470は、入力文書から抽出された重み付き特徴語を縦軸とし、検索結果文書を横軸として表されている。また、表470では、検索結果文書472における各特徴語に対応する値を、各特徴語の重みの値の大小に応じて濃さを変えた塗り潰しにより表している。表470では、その縦軸に、入力文書から抽出された全特徴語である20語が重みの高い順に表示され、その横軸に、検索結果文書472の上位30件が類似度の高い順に表示されている。
入力文書の特徴語471に関するデータは、特徴語の見出し473、特徴語が上位30件の検索結果文書472の中でヒットした件数である「上位ヒット件数」474、入力文書内での特徴語の出現頻度475、文書データベースにおける特徴語の出現文書数から算出される固有度476、出現頻度475及び固有度476から算出される特徴語の重み477から構成される。
類似度479では、検索結果文書472の類似度の値を、その大小に応じて濃さを変えた塗りつぶしにより表している。分類480では、入力文書に付与された分類と検索結果文書472に付与された分類を比較し、より下位レベルまで分類が一致している検索結果文書472ほど濃さを濃く塗りつぶして表している。出願人481では、入力文書の出願人/発明者と検索結果文書472に付与された出願人/発明者を比較し、発明者が同一である検索結果文書472は濃さを濃く塗りつぶして表し、出願人が同一である検索結果文書472はやや薄い濃さで塗りつぶして表している。
なお、入力文書の特徴語471を構成する要素473〜477のいずれかが選択されると、選択された要素をキーとして表の行を降順に並べ替えた内容が再表示される。エリア482は、順位がj番目である検索結果文書における特徴語iの重みWijの値の大小に応じた濃さで塗りつぶしたセルを表示する。色の濃いセルほど当該検索結果文書の中で重要視されている特徴語であり、色のついていないセルは、その特徴語がその検索結果文書に含まれていないことを示している。なお、重みWijの代わりに、順位がj番目である検索結果文書の類似度Sjにおける特徴語iの部分類似度Sijの値の大小に応じた濃さで塗りつぶしたセルを表示してもよい。
本実施例では、文書と文書の間の類似度を、重み付き特徴語から構成されるベクトルのなす角の余弦を100倍した値として算出する。したがって、部分類似度Sijは、入力文書の特徴語iの重みと、検索結果文書jの特徴語iの重みを乗算し、入力文書の特徴語ベクトルの大きさと検索結果文書jの特徴語ベクトルの大きさの積で除算することによって算出することができる。利用者はこの表470を参照することにより、どの特徴語が検索結果の出力にどの程度貢献しているかを視覚的・直感的に把握することが可能となる。
また、表400(図4A)で提示された影響度に対する詳細内容を、この表470(図4B)を参照することにより把握することができる。例えば表400では、要因「総ヒット数」432の値が「166」であると表示されているが、これは表470において、色塗りされたセルの総数に一致している。従って、表470を鳥瞰することにより、166個の色塗りされたセルがどのような分布をなしているかを一目で把握することができる。
また、要因「多ヒット特徴語数」436の値が「5」であると表示されているが、これは表470における上位ヒット件数474が閾値(本実施例では80%にあたる24件)以上の特徴語の数に一致している。従って、表470を鳥瞰する、あるいは上位ヒット件数474をキーとして表470を降順にソートすることによって得られる表の上位に位置する特徴語を鳥瞰することにより、どのような特徴語が多ヒット特徴語に該当しているのかを利用者が把握することができる。
このように、類似文書検索精度にかかる要因及びその影響度を示す表400と、特徴語と検索結果文書の間の照合関係を示す表470を対にして表示することにより、利用者が両者を適宜対応付けることにより、検索結果の傾向をより正確にかつ深く理解することができる。
次に、図4A及び図4Bに示したような、要因毎の検索精度及びその影響度(乖離)を算出する処理を含む類似文書検索支援システムの構成、データ構造、処理方法について、図表を用いて説明する。
図5に、本実施例に係る類似文書検索支援装置500の機能ブロック構成を示す。検索対象となる特許文書データは、入力装置530を介して文書データベース501に格納される。特徴語抽出部502は、文書データベース501に格納された特許文書の各々から特徴語とその重要度を表す重み及び重み算出に用いる出現頻度と固有度を抽出する。本実施例の場合、特徴語抽出部502は、単語辞書503を参照して文章を単語に分割する形態素解析を行い、品詞が名詞又は動詞である語を特徴語として抽出する。検索インデクス生成部504は、類似文書検索を効率よく行えるように、特徴語抽出部502で得られた文書別の特徴語及び重みに関する数値データをまとめ、検索インデクス505に格納する。書誌抽出部506は、文書データベース501に格納された特許文書の各々から公開日や出願日、特許分類や出願人、発明者などの書誌情報を抽出して、書誌テーブル507に文書毎に書誌項目名と書誌項目値に分けて格納する。特徴語抽出部502、検索インデクス作成部504、書誌抽出部506の処理内容は、市販されている多くの類似文書検索システムにおいて既に実現されているため、本実施例ではこれ以上言及しない。なお、特徴語抽出部502、検索インデクス作成部504、書誌抽出部506は、実際に入力文書を指定して類似文書検索を行えるようにするため、事前に実行しておく処理である。
図6に、検索インデクス505の構成例を示す。本実施例の場合、検索インデクス505は、文書データベース501に含まれる文書と特徴語を2軸とし、対応する重みを値とする重みインデクス600、対応する出現頻度を値とする出現頻度インデクス610、特徴語とその固有度で構成される固有度インデクス620から構成される。
本実施例において、文書dにおける特徴語Tの重みwは、以下の方法により算出する。まず、文書dにおける特徴語wの出現頻度TFの対数値logTFを求める。次に、特徴語wの固有度IDFを、文書データベース501に格納される文書数Nを当該特徴語wが含まれる文書数nで除算した値の対数値log(N/n)を求める。最後に(1+logTF)×log(N/n)を算出することにより、重みwを算出する。ただし、TF=0の場合、wの値は0とする。この方法は、TF-IDF法として広く知られているものであるので、これ以上言及しない。
図7に、書誌テーブル507の構成例を示す。書誌テーブル507は、番号700、文書ID701、書誌項目名702、書誌項目値703から構成される。本実施例では、特許の書誌のうち、公開日、出願日、特許分類であるIPC及びテーマ、出願人、発明者にかかるデータを文書毎に格納しているが、これ以外の書誌を格納しておいてもかまわない。
図5の説明に戻る。教師文書テーブル508は、検索したい特許文書(以下「正解文書」という)が既知である入力文書(以下「教師入力文書」という)と教師入力文書に対応する正解文書の対が複数集まって構成されるデータであり、入力装置530を介して利用者又はシステム管理者によって入力されるデータである。
図8に、教師文書テーブル508の構成例を示す。教師文書テーブル508は、教師データID801、教師入力文書ID802、正解文書ID803から構成され、これらを対応付けた形式で複数格納する。本実施例では、特許庁で過去に審査済みの出願特許に対する拒絶理由通知書の中で引用された特許を、教師入力文書に対する「正解文書」と定義する。勿論、利用者又はシステム管理者が独自に任意の観点で正解文書を定義し、教師入力文書と正解文書を関連付けて登録・蓄積したものを用いてもよいし、その他の定義に従って正解文書を規定してもよい。また、1件の教師入力文書に対する正解文書が複数件存在してもよい。また、複数件存在する正解文書の中から、最も入力文書に類似した文書だけを正解としてもよいし、類似文書検索結果において最も上位にランクされている正解文書だけを正解文書として使用してもよい。
図5の説明に戻る。特徴語収集部509は、教師文書テーブル508に格納された教師入力文書、又は、入力装置530を介して利用者から指定された新規入力文書番号518に対する特徴語を、検索インデクス505を参照することにより抽出し、抽出した結果を特徴語テーブル510に格納する。
本実施例では、新規入力文書番号518に対する特徴語及び書誌のデータと、教師文書テーブル508内の教師入力文書に対する特徴語及び書誌のデータは、検索インデクス505及び書誌テーブル507にそれぞれ全て格納されているものとする。従って、これらの入力文書に対する特徴語を抽出する際には、検索インデクス505の中から入力文書に対応する特徴語及びその重み、出現頻度の値を抜き出して特徴語テーブル510に格納することにより容易に収集することができる。
また、固有度については、検索インデクス505から抽出された特徴語に対応する固有度の値を抜き出し、特徴語テーブル510に格納することにより容易に収集することができる。ただし、図1に示した入力文書指定画面100において、利用者が任意の文章を入力可能とした場合には、検索インデクス505に特徴語が格納されていないので、入力された文章を特徴語抽出部502に渡し、特徴語を抽出して重みを付与する処理を実行すればよい。
図9に、特徴語テーブル510の構成例を示す。特徴語テーブル510は、文書ID901、見出し902、出現頻度903、固有度904、重み905から構成される。
図5の説明に戻る。類似文書検索部511は、検索インデクス505を参照して、特徴語収集部509が特徴語テーブル510に格納した重み付き特徴語の集合に類似する文書を検索することにより類似度を算出し、検索結果上位30件を検索結果テーブル512に格納する。
上述したように、本実施例では、文書と文書の間の類似度を、重み付き特徴語から構成されるベクトルのなす角の余弦を100倍した値として算出する。従って、類似度は0から100の間の値をとり、類似度が100に近いほど、類似性が高いことを意味する。特徴語の集合をベクトルとして捉え、両者の類似性をベクトルのなす角、又は内積によって求める方法は、ベクトル空間モデルとして広く知られているので、これ以上は言及しない。
図10に、検索結果テーブル512の構成例を示す。検索結果テーブル512は、入力文書ID1001、検索順位1002、類似度1003、検索結果文書ID1004から構成される。なお、類似文書検索結果を出力する際に、入力文書及び検索結果文書の出願日、公開日を比較し、入力文書の出願日よりも以前に公開された特許のみを検索するようなオプションを付加してもよい。ここで、教師文書テーブル508に格納されている教師入力文書の全てに対して、特徴語収集部509及び類似文書検索部511の処理を適用することにより、特徴語テーブル510及び検索結果テーブル512には、複数の教師入力文書に対する特徴語及び検索結果がそれぞれ格納された状態となる。
図5の説明に戻る。要因データ抽出部513は、教師入力文書の各々に対して前述した処理を適用して得たデータが格納された特徴語テーブル510、検索結果テーブル512及び書誌テーブル507のうちの少なくとも一つ以上を参照して、図4Aに示した要因410に対応する値441を抽出し、要因テーブル514に格納する。また、図4Bの表470を生成するために、要因データ抽出部513は、特徴語と検索結果文書の対応関係を解析し、特徴語及びその重みにかかるデータと共に、特徴語照合テーブル515に格納する。
図4A及び図4Bにも示しているが、本実施例では、類似文書検索精度に影響を及ぼす要因として、以下の8種類を使用する。また、これらの要因は大きく三つの要因カテゴリに大別することができる。
(要因カテゴリ1)特徴語ヒット傾向
入力文書の特徴語と検索結果文書の間のヒット傾向に関する要因である。すなわち、図4Bに示した特徴語と検索結果文書の間のヒット状況を表す表470のデータ(これらのデータ自体は特徴語照合テーブル515に格納されている)から算出できる要因である。具体的には、以下の6種類の要因がある。
入力文書の特徴語と検索結果文書の間のヒット傾向に関する要因である。すなわち、図4Bに示した特徴語と検索結果文書の間のヒット状況を表す表470のデータ(これらのデータ自体は特徴語照合テーブル515に格納されている)から算出できる要因である。具体的には、以下の6種類の要因がある。
(要因1)有効特徴語数
表470の上位ヒット件数474が予め指定された閾値(本実施例では4件)以上の特徴語の数である。この値が小さいと、類似文書検索の手掛かりとなる特徴語の数が少なくなり、検索精度に悪影響を及ぼす可能性がある。
表470の上位ヒット件数474が予め指定された閾値(本実施例では4件)以上の特徴語の数である。この値が小さいと、類似文書検索の手掛かりとなる特徴語の数が少なくなり、検索精度に悪影響を及ぼす可能性がある。
(要因2)総ヒット数
表470において色塗りされているセル数、言い換えれば、上位ヒット件数474の値の総和である。この値が小さいと、特徴語がヒットする検索結果文書が少ない状態となり、検索精度に悪影響を及ぼす可能性がある。逆に、値が大きいと、特徴語がヒットする検索結果文書が多くなり、類似する文書を少数に絞り込めない状態となり、検索精度に悪影響を及ぼす可能性がある。
表470において色塗りされているセル数、言い換えれば、上位ヒット件数474の値の総和である。この値が小さいと、特徴語がヒットする検索結果文書が少ない状態となり、検索精度に悪影響を及ぼす可能性がある。逆に、値が大きいと、特徴語がヒットする検索結果文書が多くなり、類似する文書を少数に絞り込めない状態となり、検索精度に悪影響を及ぼす可能性がある。
(要因3)高ヒット数
表470において色塗りされているセルのうち、予め指定された閾値(本実施例では「20」)以上の値を持つ(色の濃い)セル数である。この値が小さいと、ヒットした特徴語の検索結果文書における重要度が低いため、類似文書を絞りにくい状態となり、検索精度に悪影響を及ぼす可能性がある。
表470において色塗りされているセルのうち、予め指定された閾値(本実施例では「20」)以上の値を持つ(色の濃い)セル数である。この値が小さいと、ヒットした特徴語の検索結果文書における重要度が低いため、類似文書を絞りにくい状態となり、検索精度に悪影響を及ぼす可能性がある。
(要因4)高ヒット率
上記高ヒット数を上記総ヒット数で除算した値である。この値が小さいと、検索結果文書において重要でない入力文書の特徴語が多い状態となり、検索精度に悪影響を及ぼす可能性がある。
上記高ヒット数を上記総ヒット数で除算した値である。この値が小さいと、検索結果文書において重要でない入力文書の特徴語が多い状態となり、検索精度に悪影響を及ぼす可能性がある。
(要因5)値平均
表470において色塗りされているセルの値の平均である。この値が小さいと、検索結果文書において重要でない入力文書の特徴語が多い状態となり、検索精度に悪影響を及ぼす可能性がある。
表470において色塗りされているセルの値の平均である。この値が小さいと、検索結果文書において重要でない入力文書の特徴語が多い状態となり、検索精度に悪影響を及ぼす可能性がある。
(要因6)多ヒット特徴語数
検索結果文書のうち、予め指定された閾値(本実施例では80%に相当する24個)よりも多くの検索結果文書に含まれる入力文書の特徴語数である。多ヒット特徴語に該当する特徴語は、その技術分野(分類)でよく使われる語又は、一般の文書でもよく使われる語であることが多い。多ヒット特徴語数が大きいと、関連する文書を大まかには絞り込めるが、文書内容のポイント(特許で言えば、発明の特徴(新規性・進歩性)を表す部分)で絞り込めていない状態となり、検索精度に悪影響を及ぼす可能性がある。
検索結果文書のうち、予め指定された閾値(本実施例では80%に相当する24個)よりも多くの検索結果文書に含まれる入力文書の特徴語数である。多ヒット特徴語に該当する特徴語は、その技術分野(分類)でよく使われる語又は、一般の文書でもよく使われる語であることが多い。多ヒット特徴語数が大きいと、関連する文書を大まかには絞り込めるが、文書内容のポイント(特許で言えば、発明の特徴(新規性・進歩性)を表す部分)で絞り込めていない状態となり、検索精度に悪影響を及ぼす可能性がある。
(要因カテゴリ2)書誌ヒット傾向
入力文書の書誌情報と検索結果文書の書誌情報の間の共通性に関する要因である。書誌情報は書誌テーブル507から容易に抽出することができるので、これらを照合することにより共通性を解析することができる。具体的には、以下の要因がある。
入力文書の書誌情報と検索結果文書の書誌情報の間の共通性に関する要因である。書誌情報は書誌テーブル507から容易に抽出することができるので、これらを照合することにより共通性を解析することができる。具体的には、以下の要因がある。
(要因7)分類ヒット件数
入力文書に付与されている分類と、検索結果文書に付与されている分類が共通する検索結果文書件数である。特許文書の場合、複数の分類体系(IPC/FI、テーマ/Fターム)があり、それぞれ多段構成になっている(セクション、サブクラス、メイングループなど)。本実施例では、IPCのメイングループのレベルで分類の共通する検索結果文書件数を算出するが、他のレベルで算出してもよい。
入力文書に付与されている分類と、検索結果文書に付与されている分類が共通する検索結果文書件数である。特許文書の場合、複数の分類体系(IPC/FI、テーマ/Fターム)があり、それぞれ多段構成になっている(セクション、サブクラス、メイングループなど)。本実施例では、IPCのメイングループのレベルで分類の共通する検索結果文書件数を算出するが、他のレベルで算出してもよい。
書誌ヒット傾向に関する他の要因としては、分類ヒット件数のほかに、発明者/出願人が同一である検索結果文書件数を表す「出願人ヒット件数」、出願日が閾値以上かけ離れている検索結果文書件数又はかけ離れている値の平均値を表す「出願日乖離度」などが挙げられる。これらの要因を使用してもよい。
(要因カテゴリ3)類似度
入力文書に対する検索結果文書の類似度の値に関する要因である。具体的には、以下の要因がある。
入力文書に対する検索結果文書の類似度の値に関する要因である。具体的には、以下の要因がある。
(要因8)類似度減衰率
上位類似検索結果文書の持つ類似度が、順位が下がるに伴ってどのように減衰しているかを数値化したものである。具体的には、予め指定された順位R1(本実施例では1位)の検索結果文書の類似度に対する、予め指定された順位R2(本実施例では30位)の検索結果文書の類似度の割合を、この検索結果の類似度減衰率としている。類似度減衰率が低いと、類似度の拮抗した類似文書が数多く出力状態となり、検索精度に悪影響を及ぼす可能性がある。
上位類似検索結果文書の持つ類似度が、順位が下がるに伴ってどのように減衰しているかを数値化したものである。具体的には、予め指定された順位R1(本実施例では1位)の検索結果文書の類似度に対する、予め指定された順位R2(本実施例では30位)の検索結果文書の類似度の割合を、この検索結果の類似度減衰率としている。類似度減衰率が低いと、類似度の拮抗した類似文書が数多く出力状態となり、検索精度に悪影響を及ぼす可能性がある。
図11に、要因テーブル514の構成例を示す。要因テーブル514は、入力文書ID1101、入力文書に対する正解文書ID1102、入力文書に付与された分類1103(本実施例では特許文書に付与されるテーマ分類を格納)、類似文書検索結果における正解文書ID1102の検索順位1104からなり、有効特徴語数1105から類似度減衰率1112までは上述した要因に対応し、入力文書ID1101毎に算出した値(要因値)を格納する。なお、分類1103は、後述するように、各要因の類似文書検索精度への影響度を技術分野別に算出したい場合に、分類1103に基づいて教師入力文書をフィルタリングする際に用いられる。
図12に、特徴語照合テーブル515の構成例を示す。特徴語照合テーブル515は、入力文書特徴語に関するデータを格納している部分1201と、検索結果文書における特徴語の重みの値を格納している部分1210に分けられる。前者は、特徴語の見出し1202、30件の検索結果文書における特徴語のヒット件数1203、入力文書における特徴語の出現頻度1204、特徴語の文書データベース501における固有度1205、特徴語の重み1206から構成される。なお、この特徴語照合テーブル515は、図4Bに示した表470を表示する際にも参照される。
図13に、要因データ抽出部513で実行される処理方法の一例を示す。要因データ抽出部513は、前述した要因のうち、要因カテゴリ「特徴語ヒット傾向」に属する要因に対する値の抽出を効率よく行うために、検索結果文書における入力文書の特徴語のヒット内容に関するデータを格納した特徴語照合テーブル515を生成する特徴語照合テーブル生成処理1302と、特徴語照合テーブル515などを参照して各入力文書における各要因値を算出する処理1303〜1310からなる。
要因データ抽出部513では、以下の処理が実行される。ステップ1301において、要因データ抽出部513は、未処理の入力文書があるか否かを判定し、未処理の入力文書が「無い」場合は、処理を終了する。一方、未処理の入力文書が「有る」場合、要因データ抽出部513は、特徴語照合テーブル生成処理1302を実行する。
特徴語照合テーブル生成処理1302は、以下に示す処理1351〜1356で構成される。ステップ1351において、要因データ抽出部513は、特徴語テーブル510から入力文書の特徴語の見出し、出現頻度、固有度、重みを取り出し、特徴語照合テーブル515の対応するエリアにそれぞれ格納する。次のステップ1352において、要因データ抽出部513は、検索結果テーブル512から、当該入力文書に対応する上位検索結果文書を予め指定されたM件(本実施例では30件)抽出する。続くステップ1353において、要因データ抽出部513は、抽出されたM件の検索結果文書の各々に対応する特徴語と重みを、検索インデクス505の重みインデクス600から抽出する。
次のステップ1354において、要因データ抽出部513は、当該入力文書にかかる未処理の特徴語が有るか否かを判定する。未処理の特徴語が「無い」場合、要因データ抽出部513はステップ1303に進む。これに対し、未処理の特徴語が「有る」場合、要因データ抽出部513は、まずステップ1355において、M件の検索結果文書のうち、当該特徴語が含まれる検索結果文書における当該特徴語の重みを取り出し、特徴語照合テーブル515における当該検索結果文書と当該特徴語に該当するエリアにそれぞれ格納する。
次のステップ1356において、要因データ抽出部513は、M件の検索結果文書のうち当該特徴語が含まれる検索結果文書件数をカウントし、特徴語照合テーブル515(図12)の「ヒット件数1203」のエリアに格納し、ステップ1354に戻る。
有効特徴語数算出処理1303は、要因「有効語特徴語数」の値を算出する処理であり、ステップ1373で構成される。ステップ1373において、要因データ抽出部513は、特徴語照合テーブル515(図12)の「ヒット件数1203」が予め指定された閾値(本実施例では4)以上の特徴語数をカウントし、要因テーブル514の有効特徴語数のエリアに格納する。
総ヒット数算出処理1304は、要因「総ヒット数」の値を算出する処理であり、ステップ1374で構成される。ステップ1374において、要因データ抽出部513は、特徴語照合テーブル515(図12)の「ヒット件数1203」の総和を求め、要因テーブル514の総ヒット数のエリアに格納する。
高ヒット数算出処理1305は、要因「高ヒット数」の値を算出する処理であり、ステップ1375で構成される。ステップ1375において、要因データ抽出部513は、前述したステップ1355で取り出され、特徴語照合テーブル515に格納されている特徴語の重みが、予め指定された閾値(本実施例では20)以上の特徴語の延べ数を求め、要因テーブル514の高ヒット数のエリアに格納する。
高ヒット率算出処理1306は、要因「高ヒット率」の値を算出する処理であり、ステップ1376で構成される。ステップ1376において、要因データ抽出部513は、前述したステップ1375で取り出した高ヒット数を、前述のステップ1374で取り出した総ヒット数で除算した値を求め、要因テーブル514の高ヒット率のエリアに格納する。
値平均算出処理1307は、要因「値平均」の値を算出する処理であり、ステップ1377で構成される。ステップ1377において、要因データ抽出部513は、前述のステップ1355で取り出され、特徴語照合テーブル515に格納されている特徴語の重みが0よりも大きい特徴語について重みの平均を求め、要因テーブル514の値平均のエリアに格納する。
多ヒット特徴語数算出処理1308は、要因「多ヒット特徴語数」の値を算出する処理であり、ステップ1378で構成される。ステップ1378において、要因データ抽出部513は、特徴語照合テーブル515(図12)の「ヒット件数1203」が予め指定された閾値(本実施例では24)以上の特徴語数をカウントし、要因テーブル514の多ヒット特徴語数のエリアに格納する。
分類ヒット件数算出処理1309は、要因「分類ヒット件数」の値を算出する処理であり、ステップ1379で構成される。ステップ1379において、要因データ抽出部513は、当該入力文書及びM件の検索結果文書の各々に対応するIPCメイングループを書誌テーブル507から抽出し、当該入力文書と共通するIPCメイングループを一つ以上持つ検索結果文書数を求め、要因テーブル514の分類ヒット件数のエリアに格納する。
類似度減衰率算出処理1310は、要因「類似度減衰率」の値を算出する処理であり、ステップ1380で構成される。ステップ1380において、要因データ抽出部513は、検索結果テーブル512の予め指定された検索順位R1(本実施例では1位)の検索結果文書の類似度に対する、予め指定された順位R2(本実施例では30位)の検索結果文書の類似度の割合値を求め、要因テーブル514の類似度減衰率のエリアに格納する。その後、要因データ抽出部513は、ステップ1301に戻る。
図5の説明に戻る。検索精度解析部516は、要因テーブル514に格納されている、教師文書テーブル508内の教師入力文書集合にかかる要因データから、各要因に対する検索精度を算出し、教師入力文書全体の検索精度の平均値との差(乖離値)を算出する。算出された乖離値は、各要因が検索精度に及ぼす影響度を示す指標として、後に利用者に提示される。ここで算出した結果は、検索精度テーブル517に格納される。本実施例では、検索精度を「正解文書の検索順位が、予め指定された閾値R(本実施例では100位)以内である入力文書件数の割合」と定義している。もちろんの他の定義でもかまわない。
図14に、検索精度テーブル517の構成例を示す。検索精度テーブル517は、要因を識別する要因ID1401、要因をグループ分けする要因カテゴリ1402、要因名称1403、各要因を構成する要因Groupを識別する要因GroupID1404、要因Group名称1405、要因Groupの取り得る値の下限値1406、要因Groupの取り得る値の上限値1407、要因Groupに属する教師入力文書の検索精度1408、教師入力文書全体における検索精度に対する検索精度1408の差である「精度平均との乖離1409」から構成される。
検索精度テーブル517のうち、要因ID1401、要因カテゴリ1402、要因名称1403は予め固定されているデータである。要因をいくつのグループに分けるかについては、本実施例では各々3つに分けているが、利用者から指定された数のグループに分けることも可能である。
図15に、検索精度解析部516で実行される処理方法の一例を示す。また、図16に、本処理方法の具体例を示す。
検索精度解析部516は、図15に示すように、まずステップ1501において未処理の要因があるか否かを判定し、「無い」場合は処理を終了する。一方、未処理の要因が「有る」場合、検索精度解析部516は、ステップ1502で、要因テーブル514の中から解析対象とする入力文書ID1101、検索順位1104、当該処理対象要因に対する要因値(1105から1112までのいずれかの値)を取り出して、2次元配列に一時的に格納する。ここまでの処理結果の例を図16の左端の表1600に示す。
本実施例の場合、検索精度解析部516は、教師文書テーブル508に格納されている教師入力文書の全てを用いて検索精度テーブル517を生成している。しかし、要因テーブル514の分類1103に基づいて教師入力文書をフィルタリングし、ある特定の分類が付与された教師入力文書にかかるデータのみを用いて検索精度テーブル517を生成することも可能である。類似文書検索精度は、技術分野によっても大きく左右されると考えられる。従って、特定の条件を満たす教師入力文書だけを取り出して解析することは有効であると考えられる。なお、フィルタリングの基準には、分類1103だけでなく、出願日や出願人などを基準としてもよい。
次に、ステップ1503において、検索精度解析部516は、取り出した全ての要因値に対応する正解文書の検索順位が、予め指定された閾値R(本実施例では100位)以内である入力文書件数の割合を、「精度平均」として算出する。
次に、ステップ1504において、検索精度解析部516は、前記ステップ1502において格納された入力文書ID、検索順位、要因値の2次元配列を、要因値をキーとして昇順にソートする。ここまでの処理結果の例を図16の中央の表1610に示す。
次に、ステップ1505において、検索精度解析部516は、要因値の大小に基づいて、2次元配列を予め指定された要因Groupの数N(本実施例では3)に分割(グルーピング)する。ここまでの処理結果の例を図16の右端の表1610のうち1612〜1614までに示す。図16の例では、要因Group「低」及び「高」は5件の入力文書から構成され、「中」は10件の入力文書から構成されている。どの要因Groupにどのくらいの数/割合の入力文書が入るかについてであるが、全ての要因Groupで一律にしてもよいし、要因Group毎に可変としてもよい。また、利用者に指定させることも可能である。
次のステップ1506において、検索精度解析部516は、未処理の要因Groupがあるか否かを判定する。未処理の要因Groupが「無い」場合、検索精度解析部516は、ステップ1501に戻って次の要因の処理に移る。一方、未処理の要因Groupが「有る」場合、検索精度解析部516は、まず、ステップ1507で、当該要因Groupに対する、要因値の上限値と下限値を求める。このステップの処理結果の例を図16の右端の表1610のうち1614に示す。
要因値には、離散値を取るものと、連続値を取るものがある。例えば有効特徴語数は、整数からなる離散値であるが、類似度減衰率は実数をとる連続値である。
要因Groupの上限値と下限値を決める場合、隣接する要因Groupの境界において、どちらの要因Groupにも属さない値が存在してはならない。従って、隣接する要因Groupの境界にどちらの要因Groupにも属さない値が存在する場合、当該値をどちらの要因Groupに入れるかを決めないといけない。例えば図16の場合、要因Group「低」の上限値は「12」であるが、要因Group「中」の下限値は「14」である。このため、要因値が「13」の場合、どちらに入れるべきかが決まらない。そこで、本実施例では、要因Groupを「低」、「中」、「高」3つに分けているが、上述した属さない値はすべて「中」に含めるというヒューリスティックな処理を適用し、上記問題を解決している。この処理により、図16の右端の表1610の1614に示すように、要因Group「中」の下限値が「14」ではなく「13」になっている。勿論、「低」の上限値と「中」の下限値の平均を算出して、均等に割り振るなどの他の方法でもよい。
次のステップ1508において、検索精度解析部516は、当該要因Group内の要因値に対応する検索順位に対して、ステップ1503と同様の方法で検索精度を算出する。次のステップ1509において、検索精度解析部516は、上記ステップ1508で算出した当該要因Groupの検索精度から、上記ステップ1503で算出した精度平均を減算することにより、両者の値の乖離値(差)を算出する。ここまでの処理結果の例を図16の右端の表1610に示す。図16の右端の表1610には、要因Group「低」に、5件の教師入力文書が含まれており、このうち2件の検索順位が100位以内にある。このため、要因Group「低」における検索精度は40%(2/5)となる。教師入力文書は全体で20件あるので、その精度平均(全体の検索精度)1616は60%(12/20)となる。従って、要因Group「低」における検索精度の精度平均との乖離値1617は、-20%(=40%-60%)となる。同様に、要因Group「中」及び「高」の各乖離値1617は、それぞれ0%及び+20%となる。
次のステップ1510において、検索精度解析部516は、算出された要因Groupにかかる上限値、下限値、検索精度、乖離値を、検索精度テーブル517の該当する要因Groupのエリアにそれぞれ格納する。そして、ステップ1506に戻る。
図5の説明に戻る。精度影響度算出部519は、利用者から指定された新規入力文書番号518に対し、教師入力文書と同様、以下の処理を経て得られる要因テーブル514と検索精度テーブル517を照合する。ここで、要因テーブル514は、(1) 特徴語収集部509による特徴語及びその重みの収集、(2) 類似文書検索部511による類似文書検索結果の取得、(3) 要因データ抽出部513による要因値の算出を経ることにより得られる。精度影響度算出部519は、前述した照合により、新規入力文書の要因値に該当する要因Groupを要因毎に特定すると、検索精度への影響度(精度平均との乖離値)を更に特定し、精度影響度テーブル520に格納する。
図17に、精度影響度テーブル520の構成例を示す。精度影響度テーブル520は、要因ID1701、要因カテゴリ1702、要因名称1703、要因値1704、該当する要因Group1705、該当する要因Groupに対応する検索精度1706、検索精度1706と精度平均の乖離1707から構成される。
図18に、精度影響度算出部519で実行される処理方法の一例を示す。精度影響度算出部519は、ステップ1801において、未処理の要因があるか否かを判定する。未処理の要因が「無い」場合、精度影響度算出部519は処理を終了する。未処理の要因が「有る」場合、精度影響度算出部519は、ステップ1802において、新規入力文書に対する当該要因に対応する要因IDと要因値を要因テーブル514から抽出する。次に、精度影響度算出部519は、ステップ1803において、抽出された要因値を、検索精度テーブル517において該当する要因の上限値と下限値と照合し、当該要因値の属する要因Groupを特定する。次に、精度影響度算出部519は、ステップ1804において、特定した要因Groupに対応する要因ID1401、要因カテゴリ1402、要因名称1403、要因Group名称1405、検索精度1408、精度平均との乖離1409を取り出し、要因値と共に、推定結果テーブル520の要因ID1701、要因カテゴリ1702、要因名称1703、要因値1704、該当要因Group1705、検索精度1706、精度平均との乖離1707にそれぞれ格納する。
図5の説明に戻る。検索結果出力部521は、特徴語照合テーブル515及び精度影響度テーブル520に基づいて図4A及び図4Bに示す出力画面を生成し、出力装置540を介して利用者に提示する。図4Aの表400は、精度影響度テーブル520から容易に生成することができる。図4Bの表470は、特徴語照合テーブル515から容易に生成することができる。
対策テーブル522は、後述するように、類似文書検索精度を低下させる要因(精度平均との乖離値がマイナスの要因)について、その要因の視点から類似文書検索精度を向上させるために、次に何をしたらよいのかに対する対策情報を要因に対応付けて利用者に提示するための対策情報を格納したものである。
以上の通り、本実施例に係る類似文書検索支援装置は、図5に示す機能ブロック構成を用いることにより、類似文書検索結果の根拠として、検索精度に影響を及ぼす要因とその影響の度合(精度平均との乖離)を利用者に提示することができる。
図19に、本実施例に係る類似文書検索支援装置のハードウェア構成例を示す。本装置は大きく分けて、計算処理を実行する処理装置1950、利用者が操作内容又はデータを入力するための入力装置1930、計算処理結果を利用者に出力するための出力装置1940、処理装置1950における処理に関するプログラム及びデータを格納する記憶装置1960から構成される。
入力装置1930は、キーボード1951及びマウス1952から構成される。出力装置1940は、出力モニタ1953から構成される。入出力データを別の計算機とやりとりする場合には、入出力データはネットワーク1954を介して送受信する。
記憶装置1960は、処理装置1950における処理データを一時的に格納するワーキングエリア1961と、データを格納する文書データベース格納エリア1962、単語辞書格納エリア1963、検索インデクス格納エリア1964、書誌テーブル格納エリア1965、教師文書テーブル格納エリア1966、検索結果テーブル格納エリア1967、特徴語テーブル格納エリア1968、要因テーブル格納エリア1969、特徴語照合テーブル格納エリア1970、検索精度テーブル格納エリア1971、精度影響度テーブル格納エリア1972、対策テーブル格納エリア1973と、プログラムを格納する特徴語抽出部格納エリア1974、検索インデクス生成部格納エリア1975、書誌抽出部格納エリア1976、特徴語収集部格納エリア1977、類似文書検索部格納エリア1978、要因データ抽出部格納エリア1979、検索精度解析部格納エリア1980、精度影響度算出部格納エリア1981、検索結果出力部格納エリア1982から構成される。
処理装置1950は、記憶装置1960から必要なプログラム及びデータをロードし、実行した結果を記憶装置1960に格納することを繰り返し、所定の処理を実行する。
次に、前述した実施例の変形例を説明する。
次に、前述した実施例の変形例を説明する。
(変形例1)
前述した実施例においては、検索精度解析部516が、教師入力文書から各要因に対する検索精度を算出する際、要因を幾つかの要因Groupにグルーピングして要因Group毎の検索精度を算出し、さらに、影響度算出部519が、新規入力文書から得られた要因値と要因Groupを照合し、該当する要因Groupの検索精度を特定した。
前述した実施例においては、検索精度解析部516が、教師入力文書から各要因に対する検索精度を算出する際、要因を幾つかの要因Groupにグルーピングして要因Group毎の検索精度を算出し、さらに、影響度算出部519が、新規入力文書から得られた要因値と要因Groupを照合し、該当する要因Groupの検索精度を特定した。
これに対し、本変形例では、要因Groupを特定して対応する検索精度を特定するのではなく、新規入力文書から得られた要因値又はその近傍値を持つ教師入力文書を特定し、当該教師入力文書から検索精度を算出する。
例えば図16において、新規入力文書から得られた要因値が「18」であった場合、前述の実施例では、要因Group「中」に属するとみなされ、検索精度は60%、乖離値は0%となる。一方、本変形例では、要因値「18」又はその近傍値を持つ教師入力文書を特定する。要因値「18」を中心として、その前後の値を取る教師入力文書を全体の30%にあたる6件抽出すると、要因値が「17」から「19」までの値を持つ教師入力文書が6件(図16の中央の表1610の#12から#17まで)得られる。この6件に対する検索精度は67%(4/6)、乖離値は+7%(67%-60%)となる。
本変形例は、影響度算出部519において、要因テーブル514に格納された要因データから、上述したような新規入力文書の要因値又はその近傍値を持つ教師入力文書を一定件数抽出する処理と、抽出した教師入力文書の検索順位から検索精度を算出する処理とを行うことにより実現することができる。
(変形例2)
上述した実施例においては、8種類の要因について、検索精度への影響度を乖離値として算出しているが、この影響度は要因毎に独立であるという前提で解析している。
上述した実施例においては、8種類の要因について、検索精度への影響度を乖離値として算出しているが、この影響度は要因毎に独立であるという前提で解析している。
これに対し、本変形例では、2種類以上の要因を組み合わせ、各要因の要因Groupを組み合わせた「統合要因Group」を形成する。すなわち、本変形例では、教師入力文書に対して統合要因Group毎に検索精度を算出し、新規入力文書から得られる要因値の組み合わせに基づいて、該当する統合要因Groupを特定する。その後、対応する検索精度及び精度平均との乖離値を特定して、利用者に提示する。どの要因とどの要因を組み合わせるかは、予め固定しておいてもよいし、利用者に選択させてもよい。
例えば要因「総ヒット数」と要因「類似度減衰率」を組み合わせる。この場合において、それぞれが3種類の要因Groupから構成されている場合、9(=3×3)種類の統合要因Groupが生成される。検索精度解析部516は、図15に示す処理方法のステップ1504において、要因をソートする際に、当該要因のうちの一つ目の要因値でソートして3つのGroupに分割し、更に分割された各々のグループを二つ目の要因値でソートしてそれぞれ3つのGroupに分割する、という処理を繰り返すことにより、統合要因Groupを生成することができる。その後の処理は同様の処理で実現できる。
(拡張例1)
次に、前述した実施例の拡張例について述べる。前述の実施例では、図4A及び図4Bに示したような表示態様により、検索精度への影響度を要因毎に利用者に提示する。利用者は提示された内容から、どの要因が検索精度を向上/低下させているかを理解することができる。
次に、前述した実施例の拡張例について述べる。前述の実施例では、図4A及び図4Bに示したような表示態様により、検索精度への影響度を要因毎に利用者に提示する。利用者は提示された内容から、どの要因が検索精度を向上/低下させているかを理解することができる。
しかし、もっとよい検索結果を得るためには、具体的にどうしたらよいのか、またそれはどう操作したらできるのか、という対策方法を全ての利用者が理解できるとは限らない。対策方法が分からないと、その時点で検索作業が中断してしまうため、検索作業をスピーディかつ円滑に行うことができなくなる。
そこで、本拡張例においては、類似文書検索精度を低下させる要因(精度平均との乖離値がマイナスの要因)について、その要因の視点から類似文書検索精度を向上させるために、次に何をしたらよいのかに対する対策情報を、要因に対応付けて利用者に提示する。具体的には、図5に示す機能ブロック構成と同様に、対策情報を格納した対策テーブル522を備え、利用者からの要求に応じて、次に何をすればよいのかにかかる「対策内容」と、それを具体的にどう行うかにかかる「操作方法」を利用者に提示する。
図20A及び図20Bに、本拡張例における類似文書検索結果の詳細表示画面の構成例を示す。なお、図20A及び図20Bには、図4A及び図4Bとの対応部分に同一符号を付して表している。図20Aは画面上段部分に表示される表400を表し、図20Bは画面下段部分に表示される表470を表している。図20Aに示す表400と図4Aに示す表400との違いは、各要因に対する対策方法2001を表示する項目が図20Aに示す表400に追加されている点である。
例えば影響度453の値をマイナスの値とし、しかも、その絶対値を大きくしている要因(分類ヒット件数437や有効特徴語数431など)は、検索精度を低下させている要因である。この要因の視点から検索精度を改善するには、どうしたらよいのかを知りたい場合、利用者は、この要因に該当する対策方法2001の「対策」リンク2002を押下する。すると、図21に一例を示すように、対策内容2103及び操作方法2104が要因2101及び要因Group2102に対応付けて表示される。さらに、操作方法2104において、「前編集画面」リンク2105を押下すると、図2に示すような、この対策内容を行うための画面である前編集画面を表示する。利用者はこれらのナビゲーションにしたがって、検索条件を適切に修正でき、かつ、操作に困ることもなくなる。
図22は、対策テーブル522の構成の一例を示したものである。対策テーブル522は、要因ID2201、要因名称2202、要因GroupID2203、要因Group名称2204、次に何をすべきかを記載した対策内容2205、対策内容をどのように操作して実現するかを記載した操作方法2206、操作のために遷移すべき遷移先画面2207から構成される。図20Aに示す表400で選択される対策に対応する要因と、対策テーブル522に記載されたデータは、要因名称及び要因Groupをキーとして対応付けできるので、要因に合致したデータを対策テーブル522から取り出して図21に示したような形で表示するのは容易に実現できる。
なお、遷移先画面2207についてであるが、図21では文中のアンカーとして遷移先画面にジャンプできるようにしているが、「画面遷移」というボタンを別途設けて表示し、利用者がこのボタンを押下すると、対策テーブル522に定義された遷移先画面にジャンプするようにしてもよい。
図2は、類似文書検索精度を向上させるために、検索条件(特徴語の追加・削除・重み修正・同義語展開、書誌による絞り込みなど)を編集する検索条件編集画面200の構成例を示している。
検索条件編集画面200は、特徴語の削除及び重みの修正を行う特徴語編集サブ画面201と、特徴語の追加を行う特徴語追加サブ画面202と、同義語の展開を行う同義語展開サブ画面203、分類や出願人、出願日などの書誌に基づいて検索結果を絞り込む又は拡張する書誌条件編集サブ画面204から構成される。
特徴語編集サブ画面201では、検索に使用された特徴語に関するデータが表示される。ここで、選択チェックボックス211を選択状態(×がついた状態)にすると、その特徴語が検索に使用され、選択状態を解除する(×がついていない状態)にすると、その特徴語が検索に使用されなくなる。また、本サブ画面において重み212の値を任意の値に変更できる。
特徴語追加サブ画面202では、入力文書に含まれる特徴語で検索に使用されなかった特徴語を表示している。また、検索結果文書に含まれる特徴語を表示することもできる。ここでも選択チェックボックス221の選択によって、検索に使用する特徴語を追加することができる。また追加する特徴語の重み222を任意の値に変更できる。
同義語展開サブ画面203では、検索に使用された特徴語に対する同義語データを表示する。同義語データについては、単語辞書503に格納しておいてもよいし、同義語辞書として別のデータとして格納してもよい。特徴語のリスト231から任意の特徴語(ここでは「通報」)を選択すると、右の表232に同義語の候補をその確信度とともに表示する。同義語として適切な語のチェックボックスを選択状態にすることにより、選択された語を特徴語として追加する。
書誌条件編集サブ画面204では、書誌による絞り込みを行う。書誌項目のリスト241から任意の書誌項目(ここでは「分類(IPC)」を選択すると、右の表242に上位検索結果文書における当該書誌項目の値の分布を件数で表示する。選択チェックボックスで書誌値を選択することにより、検索結果を絞り込む。
利用者はこの検索条件編集画面200において、図21で示した画面の中で提案(suggest)された内容に沿って検索条件を修正し、類似文書検索を再実行する。例えば図21では、特徴語の追加が提案(suggest)されており、操作方法2206として「特徴語追加画面で特徴語を追加する」と表示されている。従って、特徴語追加サブ画面202において、適切な特徴語を見つけて追加し、検索ボタン250を押下して検索を再実行する。なお、図2においては、複数のサブ画面が一つの画面にまとめられて表示されているが、必要なサブ画面だけを利用者に提示してもよい。
前述した実施例、変形例及び拡張例によって、利用者は検索結果の根拠として、入力文書中のどの特徴語がどのくらい類似文書検索結果の出力に貢献したのか、類似文書検索がどの程度うまくいったのか、類似文書検索がうまくいっていない場合、何が原因なのか、類似文書検索がうまくいっていない場合、次に何をどのようにすればより良い検索結果を得られるのかを理解でき、次の行動にスムーズに移ることができるので、検索作業プロセスのサイクルを効率よく回すことができ、質の高い検索結果を得ることができるようになる。
501:文書データベース、502:特徴語抽出部、503:単語辞書、504:検索インデクス生成部、505:検索インデクス、506:書誌抽出部、507:書誌テーブル、508:教師文書テーブル、509:特徴語収集部、510:特徴語テーブル、511:類似文書検索部、512:検索結果テーブル、513:要因データ抽出部、514:要因テーブル、515:特徴語照合テーブル、516:検索精度解析部、517:検索精度テーブル、518:新規入力文書番号、519:精度影響度算出部、520:精度影響度テーブル、521:検索結果出力部、522:対策テーブル、530:入力装置、540:出力装置。
Claims (14)
- コンピュータに、
文書データベースに格納された検索対象文書を解析して特徴語及びその重要度を示す重みを抽出し、検索インデクスに格納する特徴語抽出処理ステップと、
入力装置に対する操作入力を通じて指定のあった入力文書から対応する重み付き特徴語を抽出して、前記検索インデクスに格納された重み付き特徴語と照合し、前記入力文書と前記検索対象文書との間の類似度を算出し、類似度の高い検索対象文書から順に検索結果文書集合として決定する類似文書検索処理ステップと、
前記検索結果文書集合を利用者に報知する検索結果出力処理ステップと
を実行させる類似文書検索プログラムにおいて、
正解文書が既知である教師入力文書、及び、前記教師入力文書に対応する前記正解文書の対を複数有する教師文書テーブルを構成する教師入力文書の各々に対する重み付き特徴語を、前記特徴語抽出処理ステップによって教師入力文書内のテキストから抽出して、又は前記検索インデクスから収集して、特徴語テーブルに格納する特徴語収集処理ステップと、
前記教師入力文書の各々について前記類似文書検索処理ステップにより決定される検索結果文書集合に基づいて、各教師入力文書に対応する前記正解文書の検索順位を特定すると共に、前記各教師入力文書に対する前記特徴語テーブル、前記検索結果文書集合、書誌情報及び前記検索インデクスのうちの一つ以上を参照することにより、類似文書検索精度に影響を及ぼす要因として予め定義された要因の各々に対する前記各教師入力文書の要因値を抽出し、要因テーブルに格納する要因データ抽出処理ステップと、
前記要因テーブルに格納された、前記教師文書テーブル内の教師入力文書集合に対する前記要因値に対して、一つの要因にかかる要因値の分布又は複数の要因にかかる要因値の分布の組合せに基づいて、前記教師入力文書集合を要因グループに分割し、一つの要因グループに属する前記教師入力文書に対する前記正解文書の検索順位から当該要因グループに対する検索精度を算出し、前記教師入力文書全体に対して算出される検索精度平均値に対する、前記算出された検索精度の差を乖離値として算出し、前記要因グループと、当該要因グループに該当する前記要因値の取りうる範囲と、前記検索精度と、前記乖離値を検索精度テーブルに格納する検索精度解析処理ステップと、
前記正解文書が未知である新規入力文書に対して得られる前記要因値を、前記検索精度テーブルに格納された各要因グループの値範囲と照合することにより、前記値範囲を満たす要因グループに対応する前記検索精度及び乖離値を抽出し、当該新規入力文書の前記要因値と共に影響度テーブルに格納する影響度算出処理ステップとを有し、
前記検索結果出力処理ステップにおいて、前記影響度テーブルに格納された新規入力文書に対する前記要因値並びに前記検索精度及び/又は前記乖離値を利用者に提示する
類似文書検索支援プログラム。 - コンピュータに、
文書データベースに格納された検索対象文書を解析して特徴語及びその重要度を示す重みを抽出し、検索インデクスに格納する特徴語抽出処理ステップと、
入力装置に対する操作入力を通じて指定のあった入力文書から対応する重み付き特徴語を抽出して、前記検索インデクスに格納された重み付き特徴語と照合し、前記入力文書と前記検索対象文書との間の類似度を算出し、類似度の高い検索対象文書から順に検索結果文書集合として決定する類似文書検索処理ステップと、
前記検索結果文書集合を利用者に報知する検索結果出力処理ステップと、
を実行させる類似文書検索プログラムにおいて、
正解文書が既知である教師入力文書、及び、前記教師入力文書に対応する前記正解文書の対を複数有する教師文書テーブルを構成する教師入力文書の各々に対する重み付き特徴語を、前記特徴語抽出処理ステップによって教師入力文書内のテキストから抽出して、又は、前記検索インデクスから収集して、特徴語テーブルに格納する特徴語収集処理ステップと、
前記教師入力文書の各々について前記類似文書検索処理ステップにより決定される検索結果文書集合に基づいて、各教師入力文書に対応する前記正解文書の検索順位を特定すると共に、前記各教師入力文書に対する前記特徴語テーブル、前記検索結果文書集合、書誌情報及び前記検索インデクスのうちの一つ以上を参照することにより、類似文書検索精度に影響を及ぼす要因として予め定義された要因の各々に対する前記各教師入力文書の要因値を抽出し、要因テーブルに格納する要因データ抽出処理ステップと、
前記正解文書が未知である新規入力文書に対して得られる前記要因値に対して、一つの要因にかかる新規入力文書に対する要因値、又は、その近傍値を満たす前記教師入力文書、又は、複数の要因にかかる新規入力文書に対する要因値、又は、その近傍値をすべて満たす前記教師入力文書から構成される文書群を特定し、前記文書群に属する前記教師入力文書に対する前記正解文書の検索順位から当該文書群に対する検索精度を算出し、前記教師入力文書全体に対して算出される検索精度平均値に対する、前記算出された検索精度の差を乖離値として算出し、前記要因値、前記検索精度及び前記乖離値を影響度テーブルに格納する影響度算出処理ステップとを有し、
前記検索結果出力処理ステップにおいて、前記影響度テーブルに格納された新規入力文書に対する前記要因値並びに前記検索精度及び/又は前記乖離値を利用者に提示する
類似文書検索支援プログラム。 - 請求項1又は2に記載の類似文書検索支援プログラムにおいて、
前記類似文書検索精度に影響を及ぼす要因は、以下に示す(1)〜(12)のうちの少なくとも一つ以上を含む
ことを特徴とする類似文書検索支援プログラム。
(1)予め指定された件数からなる上位検索結果文書の各々に対する入力文書中の各々の特徴語の総ヒット数又はその割合
(2)前記(1)の総ヒット数のうち、入力文書中の特徴語の検索結果文書における重みが予め指定された閾値以上である数又はその割合
(3)前記(1)の総ヒット数のうち、入力文書中の特徴語にかかる部分類似度又はそれが検索結果文書の類似度に占める割合
(4)前記(2)の数又はその割合を、前記(1)の数又はその割合で除算した値
(5)前記(3)の数又はその割合を、前記(1)の数又はその割合で除算した値
(6)前記上位検索結果文書において、入力文書の一つの特徴語のヒット件数が予め指定された閾値以上である特徴語の個数又はその割合
(7)前記上位検索結果文書において、入力文書の一つの特徴語のヒット件数が予め指定された閾値以下である特徴語の個数又はその割合
(8)前記上位検索結果文書の類似度が検索順位の低下に伴って減衰する割合
(9)前記上位検索結果文書において、入力文書に付与された分類が付与された件数又はその割合
(10)検索対象となるすべての文書において、入力文書に付与された分類が付与された件数又はその割合
(11)前記上位検索結果文書において、著者が入力文書と共通である件数又はその割合
(12)前記上位検索結果文書において、入力文書との間の発行日の乖離が予め指定された閾値以内である件数又はその割合 - 請求項1又は2に記載の類似文書検索支援プログラムにおいて、
前記検索精度は、前記教師入力文書に対する前記正解文書が、前記類似文書検索処理ステップによって予め指定された順位以内に認定されている前記教師入力文書の件数の割合である
ことを特徴とする類似文書検索支援プログラム。 - 請求項1に記載の類似文書検索支援プログラムにおいて、
前記検索精度解析処理ステップにおいて使用する前記教師入力文書に対する要因テーブル中の要因値は、予め指定された条件を満たす前記教師入力文書に対する要因値のみで構成されている
ことを特徴とする類似文書検索支援プログラム。 - 請求項1又は2に記載の類似文書検索支援プログラムにおいて、
前記検索結果出力処理ステップにおいて、前記影響度テーブルに格納された新規入力文書に対する要因値並びに検索精度及び/又は乖離値を利用者に提示する際に、前記新規入力文書の特徴語と前記新規入力文書に対する上位検索結果文書とを2軸とし、前記上位検索結果文書iにおける新規入力文書の特徴語jの重み値Wij、又は、前記上位検索結果文書iにおける新規入力文書の特徴語jの持つ部分類似度Sijを値とする対応表を付随させて表示する
ことを特徴とする類似文書検索支援プログラム。 - 請求項1又は2に記載の類似文書検索支援プログラムにおいて、
利用者がより良い類似文書検索結果を得るための対策情報として、利用者が何をすべきであるかを記載した対策内容、前記対策内容をどのようにして行うかを記載した操作方法、前記操作方法を行うために遷移すべき画面情報を、前記要因の各々の視点から前記要因グループ毎に格納した対策テーブルを設け、
前記検索結果出力処理ステップにおいて前記影響度テーブルに格納された要因値並びに検索精度及び/又は乖離値を利用者に提示する際に、前記対策テーブルに記載された前記対策内容、前記操作方法、前記画面情報の少なくとも1つを、要因グループに付随させて表示する
ことを特徴とする類似文書検索支援プログラム。 - 利用者からの操作入力やデータ入力を受け付ける入力装置と、
検索対象文書を格納した文書データベースと、
前記文書データベースに格納された検索対象文書を解析して特徴語及びその重要度を示す重みを抽出する特徴語抽出部と、
前記抽出された重み付き特徴語を格納する検索インデクスと、
前記入力装置に対する操作入力を通じて指定のあった入力文書から対応する重み付き特徴語を抽出して、前記検索インデクスに格納された重み付き特徴語と照合し、前記入力文書と前記検索対象文書との間の類似度を算出し、類似度の高い検索対象文書から順に検索結果文書集合として決定する類似文書検索部と、
前記検索結果文書集合を利用者に報知する出力装置と
を有する類似文書検索装置において、
正解文書が既知である教師入力文書、及び、前記教師入力文書に対応する前記正解文書の対を複数有する教師文書テーブルと、
教師入力文書の各々に対する重み付き特徴語を、前記特徴語抽出部によって教師入力文書内のテキストから抽出して、又は前記検索インデクスから収集して、特徴語テーブルに格納する特徴語収集部と、
前記教師入力文書の各々について前記類似文書検索部により決定される検索結果文書集合に基づいて、各教師入力文書に対応する前記正解文書の検索順位を特定すると共に、前記各教師入力文書に対する前記特徴語テーブル、前記検索結果文書集合、書誌情報及び前記検索インデクスのうちの一つ以上を参照することにより、類似文書検索精度に影響を及ぼす要因として予め定義された要因の各々に対する前記各教師入力文書の要因値を抽出し、要因テーブルに格納する要因データ抽出部と、
前記要因テーブルに格納された、前記教師文書テーブル内の教師入力文書集合に対する前記要因値に対して、一つの要因にかかる要因値の分布又は複数の要因にかかる要因値の分布の組合せに基づいて、前記教師入力文書集合を要因グループに分割し、一つの要因グループに属する前記教師入力文書に対する前記正解文書の検索順位から当該要因グループに対する検索精度を算出し、前記教師入力文書全体に対して算出される検索精度平均値に対する、前記算出された検索精度の差を乖離値として算出し、前記要因グループと、当該要因グループに該当する前記要因値の取りうる範囲と、前記検索精度と、前記乖離値を検索精度テーブルに格納する検索精度解析部と、
前記正解文書が未知である新規入力文書に対して得られる前記要因値を、前記検索精度テーブルに格納された各要因グループの値範囲と照合することにより、前記値範囲を満たす要因グループに対応する前記検索精度及び乖離値を抽出し、当該新規入力文書の前記要因値と共に影響度テーブルに格納する影響度算出部とを有し、
前記出力装置を通じ、前記影響度テーブルに格納された新規入力文書に対する前記要因値並びに前記検索精度及び/又は前記乖離値を利用者に提示する
類似文書検索支援装置。 - 利用者からの操作入力やデータ入力を受け付ける入力装置と、
検索対象文書を格納した文書データベースと、
前記文書データベースに格納された検索対象文書を解析して特徴語及びその重要度を示す重みを抽出する特徴語抽出部と、
前記抽出された重み付き特徴語を格納する検索インデクスと、
前記入力装置に対する操作入力を通じて指定のあった入力文書から対応する重み付き特徴語を抽出して、前記検索インデクスに格納された検索対象文書の重み付き特徴語と照合し、前記入力文書と前記検索対象文書との間の類似度を算出し、類似度の高い検索対象文書から順に検索結果文書集合として認定する類似文書検索部と、
前記検索結果文書集合を利用者に報知する出力装置と
を有する類似文書検索装置において、
正解文書が既知である教師入力文書、及び、前記教師入力文書に対応する前記正解文書の対を複数有する教師文書テーブルと、
前記教師文書テーブルを構成する教師入力文書の各々に対する重み付き特徴語を、前記特徴語抽出処理ステップによって教師入力文書内のテキストから抽出して、又は、前記検索インデクスから収集して、特徴語テーブルに格納する特徴語収集部と、
前記教師入力文書の各々について前記類似文書検索部により決定される検索結果文書集合に基づいて、各教師入力文書に対応する前記正解文書の検索順位を特定すると共に、前記各教師入力文書に対する前記特徴語テーブル、前記検索結果文書集合、書誌情報及び前記検索インデクスのうちの一つ以上を参照することにより、類似文書検索精度に影響を及ぼす要因として予め定義された要因の各々に対する前記各教師入力文書の要因値を抽出し、要因テーブルに格納する要因データ抽出部と、
前記正解文書が未知である新規入力文書に対して得られる前記要因値に対して、一つの要因にかかる新規入力文書に対する要因値、又は、その近傍値を満たす前記教師入力文書、又は、複数の要因にかかる新規入力文書に対する要因値、又は、その近傍値をすべて満たす前記教師入力文書から構成される文書群を特定し、前記文書群に属する前記教師入力文書に対する前記正解文書の検索順位から当該文書群に対する検索精度を算出し、前記教師入力文書全体に対して算出される検索精度平均値に対する、前記算出された検索精度の差を乖離値として算出し、前記要因値、前記検索精度及び前記乖離値を影響度テーブルに格納する影響度算出部とを有し、
前記出力装置を通じ、前記影響度テーブルに格納された新規入力文書に対する前記要因値並びに前記検索精度及び/又は前記乖離値を利用者に提示する
類似文書検索支援装置。 - 請求項8又は9に記載の類似文書検索支援装置において、
前記類似文書検索精度に影響を及ぼす要因は、以下に示す(1)〜(12)のうちの少なくとも一つ以上を含む
ことを特徴とする類似文書検索支援装置。
(1)予め指定された件数からなる上位検索結果文書の各々に対する入力文書中の各々の特徴語の総ヒット数又はその割合
(2)前記(1)の総ヒット数のうち、入力文書中の特徴語の検索結果文書における重みが予め指定された閾値以上である数又はその割合
(3)前記(1)の総ヒット数のうち、入力文書中の特徴語にかかる部分類似度又はそれが検索結果文書の類似度に占める割合
(4)前記(2)の数又はその割合を、前記(1)の数又はその割合で除算した値
(5)前記(3)の数又はその割合を、前記(1)の数又はその割合で除算した値
(6)前記上位検索結果文書において、入力文書の一つの特徴語のヒット件数が予め指定された閾値以上である特徴語の個数又はその割合
(7)前記上位検索結果文書において、入力文書の一つの特徴語のヒット件数が予め指定された閾値以下である特徴語の個数又はその割合
(8)前記上位検索結果文書の類似度が検索順位の低下に伴って減衰する割合
(9)前記上位検索結果文書において、入力文書に付与された分類が付与された件数又はその割合
(10)検索対象となるすべての文書において、入力文書に付与された分類が付与された件数又はその割合
(11)前記上位検索結果文書において、著者が入力文書と共通である件数又はその割合
(12)前記上位検索結果文書において、入力文書との間の発行日の乖離が予め指定された閾値以内である件数又はその割合 - 請求項8又は9に記載の類似文書検索支援装置において、
前記検索精度は、前記教師入力文書に対する前記正解文書が、前記類似文書検索部によって予め指定された順位以内に認定されている前記教師入力文書の件数の割合である
ことを特徴とする類似文書検索支援装置。 - 請求項8に記載の類似文書検索支援装置において、
前記検索精度解析部において使用する前記教師入力文書に対する要因テーブル中の要因値は、予め指定された条件を満たす前記教師入力文書に対する要因値のみで構成されている
ことを特徴とする類似文書検索支援装置。 - 請求項8又は9に記載の類似文書検索支援装置において、
前記出力装置を通じ、前記影響度テーブルに格納された新規入力文書に対する要因値並びに検索精度及び/又は乖離値を利用者に提示する際に、前記新規入力文書の特徴語と前記新規入力文書に対する上位検索結果文書とを2軸とし、前記上位検索結果文書iにおける新規入力文書の特徴語jの重み値Wij、又は、前記上位検索結果文書iにおける当該新規入力文書の特徴語jの持つ部分類似度Sijを値とする対応表を付随させて表示する
ことを特徴とする類似文書検索支援装置。 - 請求項8又は9に記載の類似文書検索支援装置において、
利用者がより良い類似文書検索結果を得るための対策情報として、利用者が何をすべきであるかを記載した対策内容、前記対策内容をどのようにして行うかを記載した操作方法、前記操作方法を行うために遷移すべき画面情報を、前記要因の各々の視点から前記要因グループ毎に格納した対策テーブルを設け、
前記検索結果出力部において前記影響度テーブルに格納された要因値並びに検索精度及び/又は乖離値を利用者に提示する際に、前記対策テーブルに記載された前記対策内容、前記操作方法、前記画面情報の少なくとも1つを、要因グループに付随させて表示する
ことを特徴とする類似文書検索支援装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012038163A JP5324677B2 (ja) | 2012-02-24 | 2012-02-24 | 類似文書検索支援装置及び類似文書検索支援プログラム |
CN201210539130.3A CN103294741B (zh) | 2012-02-24 | 2012-12-13 | 类似文件检索辅助装置以及类似文件检索辅助方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012038163A JP5324677B2 (ja) | 2012-02-24 | 2012-02-24 | 類似文書検索支援装置及び類似文書検索支援プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013174988A JP2013174988A (ja) | 2013-09-05 |
JP5324677B2 true JP5324677B2 (ja) | 2013-10-23 |
Family
ID=49095624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012038163A Expired - Fee Related JP5324677B2 (ja) | 2012-02-24 | 2012-02-24 | 類似文書検索支援装置及び類似文書検索支援プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5324677B2 (ja) |
CN (1) | CN103294741B (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028631A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的相对秘密性判断方法 |
CN107609021A (zh) * | 2017-08-07 | 2018-01-19 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
WO2019028628A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 技术秘密的秘密性判断系统 |
JP6639749B1 (ja) * | 2018-06-28 | 2020-02-05 | 三菱電機株式会社 | 検索装置、検索方法および機械学習装置 |
KR102004145B1 (ko) * | 2018-11-29 | 2019-07-29 | 한국과학기술정보연구원 | 콘텐츠 추천 방법 및 장치 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3356519B2 (ja) * | 1993-03-12 | 2002-12-16 | 株式会社東芝 | 文書情報検索装置 |
JP2000311173A (ja) * | 1999-04-27 | 2000-11-07 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JP2002230032A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 文書検索結果表示装置、およびその表示方法、並びに記憶媒体 |
US7548863B2 (en) * | 2002-08-06 | 2009-06-16 | Apple Inc. | Adaptive context sensitive analysis |
CN1220159C (zh) * | 2003-07-03 | 2005-09-21 | 复旦大学 | 一种高维矢量数据快速相似检索方法 |
US7305389B2 (en) * | 2004-04-15 | 2007-12-04 | Microsoft Corporation | Content propagation for enhanced document retrieval |
US20080162455A1 (en) * | 2006-12-27 | 2008-07-03 | Rakshit Daga | Determination of document similarity |
JP5154832B2 (ja) * | 2007-04-27 | 2013-02-27 | 株式会社日立製作所 | 文書検索システム及び文書検索方法 |
JP4479745B2 (ja) * | 2007-05-09 | 2010-06-09 | 株式会社日立製作所 | 文書の類似度補正方法、プログラムおよびコンピュータ |
JP2009151373A (ja) * | 2007-12-18 | 2009-07-09 | Nec Corp | 引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラム |
-
2012
- 2012-02-24 JP JP2012038163A patent/JP5324677B2/ja not_active Expired - Fee Related
- 2012-12-13 CN CN201210539130.3A patent/CN103294741B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN103294741B (zh) | 2016-12-21 |
CN103294741A (zh) | 2013-09-11 |
JP2013174988A (ja) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997678B2 (en) | Systems and methods for image searching of patent-related documents | |
US8171029B2 (en) | Automatic generation of ontologies using word affinities | |
US20100313258A1 (en) | Identifying synonyms of entities using a document collection | |
EP2045735A2 (en) | Refining a search space inresponse to user Input | |
EP2045739A2 (en) | Modeling topics using statistical distributions | |
EP2045734A2 (en) | Automatically generating a hierarchy of terms | |
EP2045733A2 (en) | Determining a document specificity | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
JP5594145B2 (ja) | 検索装置、検索方法、及びプログラム | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
EP2577521A2 (en) | Detection of junk in search result ranking | |
CN107844493B (zh) | 一种文件关联方法及系统 | |
EP2045732A2 (en) | Determining the depths of words and documents | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
US11232137B2 (en) | Methods for evaluating term support in patent-related documents | |
KR20220119745A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 | |
CN103034656A (zh) | 章节内容分层方法和装置、文章内容分层方法和装置 | |
Alsarkhi et al. | An analysis of the effect of stop words on the performance of the matrix comparator for entity resolution | |
JP6025487B2 (ja) | フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム | |
Ruambo et al. | Towards enhancing information retrieval systems: A brief survey of strategies and challenges | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
JP5439235B2 (ja) | 文書分類方法、文書分類装置、およびプログラム | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
KR102081867B1 (ko) | 역 색인 구성 방법, 역 색인을 이용한 유사 데이터 검색 방법 및 장치 | |
RU2409849C2 (ru) | Способ поиска информации в политематических массивах неструктурированных текстов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130718 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5324677 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |