以下、本発明の実施の形態を図面を参照して詳細に説明する。まず、本実施の形態の概要について説明し、その後、本実施の形態の具体的な内容を説明する。
図1は、本実施の形態の概要を示す図である。図1に示されるコンピュータ1は、複数の文字列データの表示順序を決定し、決定した表示順序に従ってそれら文字列データを表示装置2に表示するものである。コンピュータ1は、データ記憶手段1a、先頭選択手段1b、類似度判定手段1c、順序決定手段1dおよび表示手段1eを有している。
データ記憶手段1aには、複数の文字列データが記憶されている。例えば、“制動装置”、“駆動装置”、“動力伝達装置”のようなデータが記憶されている。また、データ記憶手段1aには、個々の文字列データと対応して、文字列データの重要度を示す数値が記憶されている。例えば、“制動装置”と対応して、“1490”という数値が記憶されている。
先頭選択手段1bは、所定の基準に従って、データ記憶手段1aに記憶された文字列データの中から、先頭に表示する文字列データを選択する。例えば、ユーザが特定の文字列データを明示的に指定した場合、先頭選択手段1bは、指定された文字列データを先頭に表示するものとして選択する。また、ユーザによる明示の指定がない場合、先頭選択手段1bは、重要度が最も高い文字列データを先頭に表示するものとして選択する。
類似度判定手段1cは、データ記憶手段1aに記憶された2つの文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する。類似度は、例えば、0以上1以下の数値で表現される。この場合、一致する文字が1つもない場合は類似度が0、2つの文字列が完全に一致する場合は類似度が1となる。類似度の計算方法は、文字列の一致度が正確に反映される限り、どのような計算方法を採用しても構わない。
順序決定手段1dは、先頭選択手段1bが選択した文字列データから開始して、データ記憶手段1aに記憶された未選択の文字列データの中から、1つ前に選択した文字列データとの間で類似度が最も高い文字列データを順次選択する。すなわち、順序決定手段1dは、先頭の文字列データと最も類似度が高いものを2番目として選択する。次に、2番目の文字列データと最も類似度が高いものを3番目として選択する。以降、順序決定手段1dは、データ記憶手段1aに記憶された全ての文字列データについて、同様の処理を行う。そして、順序決定手段1dは、選択した順序を文字列データの表示順序に決定する。
なお、3番目以降の文字列データを選択するとき、1つ前の文字列データとの類似度だけでなく、2つ前の文字列データとの類似度も参照するようにしてもよい。例えば、順序決定手段1dは、1つ前との類似度と2つ前との類似度の和が最も高いものを、次に選択するようにしてもよい。この方法は、表示すべき文字列データの数が多い場合に、互いに類似する複数の文字列データが一箇所に集まって表示されるにようにしたい場合に有効である。
表示手段1eは、順序決定手段1dが決定した表示順序に従って、文字列データを表示装置2に表示する。例えば、表示手段1eは、表示画面の上から下に向かって一列に表示する。なお、重要度が所定の閾値より低い文字列データは、その1つ前の文字列データに従属する項目として表示するようにしてもよい。これにより、ユーザは重要度が高い文字列データを優先的に見ることができ、理解容易性がより向上する。この方法は、表示すべき文字列データの数が多い場合に、特に有効である。
このようなコンピュータ1によれば、先頭選択手段1bにより、所定の基準に従って先頭に表示する文字列データが選択される。次に、類似度判定手段1cにより、2つの文字列データの組み合わせ毎に類似度が判定される。また、順序決定手段1dにより、先頭に表示するものとして選択された文字列データから開始して、1つ前に選択された文字列データとの間で類似度が最も高い文字列データが順次選択され、選択された順序が表示順序に決定される。最後に、表示手段1eにより、決定された表示順序に従って文字列データが表示装置2に表示される。
これにより、関連性の高い文字列データが隣接して表示されるようになり、複数の文字列データの全体的傾向を容易に把握できるようになる。
以下、本実施の形態を、図面を参照して詳細に説明する。本実施の形態は、1つの文書分析装置100で構成される。ユーザは、文書分析装置100を操作して蓄積された文書の分析を行い、分析結果を表示画面で見ることができる。これにより、文書間の統計的な傾向を容易に知ることができる。以下、分析対象の文書が特許公報である場合を例に挙げて説明する。
図2は、文書分析装置のハードウェア構成を示す図である。文書分析装置100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス106を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104および入力インタフェース105が接続されている。
RAM102には、CPU101に実行させるオペレーティングシステム(OS:Operating System)プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSプログラムやアプリケーションプログラム、処理対象のデータが格納される。
グラフィック処理装置104には、モニタ10が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ10の画面に表示させる。入力インタフェース105には、キーボード21とマウス22とが接続されている。入力インタフェース105は、キーボード21やマウス22から送られてくる信号を、バス106を介してCPU101に送信する。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。
次に、文書分析装置100のモジュール構成について説明する。
図3は、文書分析装置の機能を示すブロック図である。文書分析装置100は、文書記憶部110、抽出ルール記憶部120、特徴情報記憶部130、分類情報記憶部140、文解析部150、特徴情報抽出部160、文書分類部170および表示制御部180を有している。文解析部150および表示制御部180は、キーボード21およびマウス22を通じてユーザからの入力を受け付けることができる。また、表示制御部180は、モニタ10の画面に処理結果を表示することができる。
文書記憶部110には、特許文献がファイルとして記憶されている。例えば、“特開2006−XXXX1”という名前のファイルが記憶されている。個々の特許文献は、所定のフォーマットに従って記述されている。すなわち、“特許請求の範囲”、“発明の名称”、“発明の属する分野”などの項目に分けられて、文章が記述されている。
抽出ルール記憶部120には、観点毎に、特許文献から特徴情報を抽出するための抽出ルールが記憶されている。観点とは、発明対象や発明の目的など、特許文献の分析を行う際の視点である。また、特徴情報とは、特定の観点における、特許文献の記載内容を端的に表現する単語である。例えば、発明対象の観点では、“自動車用ドア”が特徴情報となりうる。また、発明の目的の観点では、“軽量化”が特徴情報となりうる。抽出ルールとは、文章中で、このような単語が記載されている可能性が高い位置を示した情報である。
特徴情報記憶部130には、特許文献毎に、特徴情報抽出部160が抽出した特徴情報が記憶される。特徴情報は、1つの特許文献に対して1つ以上存在する。また、個々の特徴情報と対応付けて、特徴情報が特許文献の記載内容をどの程度端的に表現しているかを示す確信度も記憶される。確信度については、後で詳細に説明する。
分類情報記憶部140には、文書分類部170が出力した分類情報が記憶される。分類情報とは、複数の特許文献から抽出された特徴情報を集計した情報である。すなわち、分類情報には、ある特徴情報が抽出された特許文献が何件存在するか、という情報が含まれる。また、ある特徴情報に対する確信度の合計値も含まれる。例えば、発明対象の観点で、“制御装置”が1490件存在し、確信度の合計が2510である、という情報が含まれる。
文解析部150は、ユーザからの入力で分析開始が指示されると、文書記憶部110から特許文献を1件ずつ取得し、特許文献に記載されている文の解析を行う。そして、文解析部150は、解析結果を特徴情報抽出部160へ順次出力する。文解析部150は、形態素解析部151および係り受け解析部152から構成される。
形態素解析部151は、文書記憶部110から取得した特許文献に記載されている全ての文について、形態素解析を行う。形態素解析とは、言語で意味をもつ最小単位である形態素に文を分割し、形態素毎に品詞および活用形を判別する処理である。例えば、“出力トルクの変化を防止する”という文は、“出力(名詞)”、“トルク(名詞)”、“の(助詞)”、“変化(名詞)”、“を(助詞)”、“防止(名詞)”、“する(動詞・基本形)”という7つの形態素に分割される。
係り受け解析部152は、形態素解析部151の解析結果を用いて、係り受け解析を行う。係り受け解析とは、1つ以上の形態素で構成される文節の単位を判別し、その文節が他のどの文節に係るかを解析する処理である。例えば、“出力トルクの変化を防止する”という文は、“出力トルクの”、“変化を”、“防止する”という3つの文節で構成されると判別される。また、“出力トルクの”が“変化を”に係り、“変化を”が“防止する”に係っていると解析される。そして、係り受け解析部152は、解析結果を特徴情報抽出部160へ出力する。
特徴情報抽出部160は、文解析部150から係り受け解析の結果を取得すると、抽出ルール記憶部120に記憶された全ての観点についての抽出ルールを適用し、文から特徴情報を抽出する。例えば、“「関する」の前”という抽出ルールがある場合、特徴情報抽出部160は、文から“関する”を検索し、その係り元の文節から特徴情報を抽出する。また、特徴情報抽出部160は、抽出した特徴情報の確信度を判定する。
そして、特徴情報抽出部160は、抽出した特徴情報および確信度を、特許文献の名前と対応付けて特徴情報記憶部130に記憶する。また、特徴情報抽出部160は、文書記憶部110に記憶された全ての特許文献について処理が完了したと判断すると、文書分類部170にその旨を通知する。
文書分類部170は、特徴情報抽出部160から通知を受けると、特徴情報記憶部130から全ての特許文献についての特徴情報および確信度を取得し、観点毎に特徴情報の集計を行う。すなわち、文書分類部170は、特徴情報毎に、その特徴情報が抽出された特許文献の件数と、その特徴情報に対する確信度の合計値とを計算する。そして、文書分類部170は、集計結果を分類情報として分類情報記憶部140に記憶する。
表示制御部180は、分類情報記憶部140から分類情報を取得し、特許文献の分析結果をモニタ10に表示する。また、表示制御部180は、ユーザからの入力に応じて、モニタ10の表示画面を切り換える。表示制御部180は、表示方法選択部181、類似度判定部182、順序決定部183および表示部184から構成される。
表示方法選択部181は、分類情報の表示方法を選択する。具体的には、表示する観点および分類情報の順序付け方法を選択する。分類情報の順序付け方法としては、“類似する分類情報を隣接させる”、“件数の多い順にソートする”、“確信度の高い順にソートする”の中から選択する。また、“類似する分類情報を隣接させる”の場合には、更に、先頭に表示する分類情報を選択する。表示方法選択部181は、ユーザからの明示的な指定がある場合には、指定された表示方法を選択する。ユーザから明示的な指定がない場合には、予め設定された既定の表示方法を選択する。
類似度判定部182は、分類情報記憶部140に記憶された任意の2つの分類情報について、類似度を判定する。具体的には、類似度判定部182は、2つの特徴情報を文字列として比較し、文字列の一致度に基づいて類似度を計算する。類似度の計算方法については、後で詳細に説明する。
順序決定部183は、表示方法選択部181が選択した表示方法に従って、分類情報記憶部140に記憶された分類情報の表示順序を決定する。表示方法選択部181が選択した表示方法が“類似する分類情報を隣接させる”の場合には、類似度判定部182が判定した類似度を用いて表示順序を決定する。
表示部184は、分類情報記憶部140に記憶された分類情報を、表示方法選択部181が選択した表示方法および順序決定部183が決定した表示順序に従って、モニタ10に表示する。
ここで、抽出ルール記憶部120には、観点毎に抽出ルールテーブルが格納されている。
図4は、抽出ルールテーブルのデータ構造例を示す図である。抽出ルールテーブル120aは、発明対象の観点についての抽出ルールテーブルである。抽出ルールテーブル120bは、発明の目的の観点についての抽出ルールテーブルである。抽出ルールテーブル120a,120bには、抽出ルールがテーブル化されて格納されている。抽出ルールテーブル120a,120bには、対象範囲の欄、節の重みの欄、対象文字列の欄および語の重みの欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連付けられている。
対象範囲の欄には、特許文献で用いられる項目の項目名が設定される。例えば、“発明の属する技術分野”、“特許請求の範囲”、“発明の名称”、“発明が解決しようとする課題”、“要約”などの項目名が設定される。
節の重みの欄には、対象範囲の欄に設定された項目の重要度を示す数値が設定される。例えば、抽出ルールテーブル120aで、“発明の属する技術分野”の節の重みが2、“特許請求の範囲”の節の重みが1に設定されているとする。この場合、発明対象の観点では“発明の属する技術分野”が“特許請求の範囲”よりも重要度が高いことを意味する。なお、同じ項目であっても、観点によって節の重みが異なる場合もある。
対象文字列の欄には、特徴情報を抽出する文節の特定方法が設定される。例えば、対象範囲が“発明の属する技術分野”で、対象文字列が“「関する」の前”の場合、“発明の属する技術分野”の項目の中の“関する”の係り元の文節から特徴情報を抽出することを意味する。また、対象範囲が“特許請求の範囲”で、対象文字列が“「特徴とする」の後”の場合、“特許請求の範囲”の項目の中の“特徴とする”の係り先の文節から特徴情報を抽出することを意味する。
語の重みの欄には、対象文字列の欄に設定された特定方法で示される位置の重要度を示す数値が設定される。例えば、抽出ルールテーブル120aで、“「関する」の前”の語の重みが2、“「係わる」の前”の語の重みが1の場合、発明対象の観点では“「関する」の前”が“「係わる」の前”よりも重要度が高いことを意味する。なお、同じ対象文字列であっても、観点や対象範囲によって語の重みが異なる場合もある。
抽出ルールテーブル120a,120bに格納される抽出ルールは、文書分析装置100の管理者によって予め登録される。抽出ルールは、過去の経験の蓄積によって導き出される経験則である。
特徴情報記憶部130には、特徴情報テーブル130aが格納されている。
図5は、特徴情報テーブルのデータ構造例を示す図である。特徴情報テーブル130aには、特徴情報に関する情報がテーブル化されて格納されている。特徴情報テーブル130aには、文書の欄、観点の欄、特徴情報の欄および確信度の欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連付けられている。
文書の欄には、特徴情報を抽出した特許文献の名前が設定される。例えば、“特開2006−XXXX1”という文献名が設定される。
観点の欄には、特徴情報の抽出に用いられた抽出ルールの観点の名前が設定される。例えば、抽出ルールテーブル120aに格納された抽出ルールを用いて抽出された特徴情報の場合、“発明対象”という観点名が設定される。抽出ルールテーブル120bに格納された抽出ルールを用いて抽出された特徴情報の場合、“発明の目的”という観点名が設定される。
特徴情報の欄には、抽出ルールに基づいて特徴情報抽出部160によって抽出された特徴情報が設定される。特徴情報は、特許文献に記載されていた単語、もしくは、特許文献に記載されていた複数の単語を結合した複合語である。例えば、“自動車用ドア”という文字列が設定される。
確信度の欄には、特徴情報に対する確信度を示す数値が設定される。確信度は、特徴情報の抽出に用いられた抽出ルールの節の重みと語の重みとを積算した値である。例えば、節の重みが2、語の重みが3の抽出ルールを用いて抽出された特徴情報の場合、確信度は6となる。
特徴情報テーブル130aに格納される情報は、特徴情報抽出部160によって順次登録される。
分類情報記憶部140には、観点毎に分類情報テーブルが格納されている。
図6は、分類情報テーブルのデータ構造例を示す図である。分類情報テーブル140aは、発明対象の観点についての分類情報テーブルである。分類情報テーブル140bは、発明の目的の観点についての分類情報テーブルである。分類情報テーブル140a,140bには、分類情報がテーブル化されて格納されている。分類情報テーブル140a,140bには、特徴情報の欄、件数の欄および確信度の欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連付けられている。
特徴情報の欄には、特徴情報である文字列が設定される。例えば、“制御装置”という文字列が設定される。件数の欄には、特徴情報の欄に設定された特徴情報が抽出された特許文献の件数を示す数値が設定される。例えば、“制御装置”に対して1490件という値が設定される。確信度の欄には、特徴情報の欄に設定された特徴情報に対する確信度の合計値が設定される。例えば、“制御装置”に対して2510という値が設定される。
分類情報テーブル140a,140bに格納される情報は、文書分類部170によって登録および更新がなされる。
次に、以上のような構成およびデータ構造のシステムにおいて実行される処理の詳細を説明する。最初に、特許文献を分析する処理の全体的な流れについて説明する。
図7は、文書分析処理の手順を示すフローチャートである。以下、図7に示す処理をステップ番号に沿って説明する。
[ステップS11]形態素解析部151は、ユーザからの入力で分析開始が指示されると、文書記憶部110に記憶された特許文献のうち、未処理の特許文献を1つ取得する。
[ステップS12]形態素解析部151は、ステップS11で取得した特許文献に含まれる全ての文について、形態素解析を行う。そして、形態素解析部151は、形態素解析の結果を係り受け解析部152に送る。
[ステップS13]係り受け解析部152は、形態素解析部151から受け取った形態素解析の結果を用いて、係り受け解析を行う。そして、係り受け解析部152は、ステップS11で取得した特許文献についての係り受け解析の結果を、特徴情報抽出部160に送る。
[ステップS14]特徴情報抽出部160は、抽出ルール記憶部120に格納された抽出ルールテーブル120a,120bの中の抽出ルールを、係り受け解析部152から受け取った係り受け解析の結果に適用して、抽出可能な全ての特徴情報を抽出する。また、特徴情報抽出部160は、抽出した特徴情報の確信度を計算する。そして、特徴情報抽出部160は、特許文献の名前、観点、特徴情報および確信度を関連付けて、特徴情報記憶部130に格納された特徴情報テーブル130aに登録する。
[ステップS15]特徴情報抽出部160は、文書記憶部110に記憶された全ての特許文献について処理が行われたか否か判断する。例えば、特徴情報抽出部160は、形態素解析部151に、全ての特許文献を文書記憶部110から取得したか否か報告させることで判断できる。または、特徴情報抽出部160は、係り受け解析部152から最後に係り受け解析の結果を受け取ってから所定時間以上経過したか否かに基づいて判断することもできる。全ての特許文献について処理が行われた場合には、処理がステップS16に進められる。未処理の特許文献がある場合には、処理がステップS11に進められる。
[ステップS16]特徴情報抽出部160は、特徴情報を抽出する処理が完了した旨を文書分類部170に通知する。文書分類部170は、特徴情報記憶部130に格納された特徴情報テーブル130aから特徴情報に関する情報を取得し、特徴情報に対する件数および確信度を観点毎に集計する。そして、文書分類部170は、集計結果である分類情報を、分類情報記憶部140に格納された分類情報テーブル140a,140bに登録する。なお、文書分類部170は、分類情報テーブル140a,140bに過去の分類情報が登録されていた場合、最新の分類情報を上書きする。
[ステップS17]表示方法選択部181は、分類情報テーブル140a,140bに登録された分類情報が更新されると、類似度判定部182および順序決定部183と連携して、分類情報の表示方法および表示順序を決定する。そして、表示部184は、決定された表示方法および表示順序に従って、分類情報テーブル140a,140bに登録された分類情報をモニタ10に表示する。
[ステップS18]表示方法選択部181は、ステップS17で表示を行ってから所定時間以内に、ユーザからの入力で表示方法の変更が指示されたか否か判断する。表示方法の変更が指示された場合には、処理がステップS17に進められる。表示方法の変更が指示されなかった場合には、文書分析処理が終了する。
このようにして、分析開始の指示があると、文解析部150が、文書記憶部110から特許文献を順次取得し、形態素解析および係り受け解析を行う。次に、特徴情報抽出部160が、抽出ルール記憶部120に記憶された抽出ルールに従って、特徴情報を抽出する。全ての特許文献から特徴情報が抽出されると、文書分類部170が、特徴情報の集計を行い分類情報を作成する。そして、表示制御部180が、複数の分類情報を順序付けて表示する。
次に、上記ステップS14で実行される処理の詳細について説明する。
図8は、特徴情報抽出処理の手順を示すフローチャートである。以下、図8に示す処理をステップ番号に沿って説明する。
[ステップS21]特徴情報抽出部160は、係り受け解析の結果を、係り受け解析部152から取得する。
[ステップS22]特徴情報抽出部160は、未選択の観点を1つ選択し、抽出ルール記憶部120から対応する抽出ルールテーブルを取得する。例えば、特徴情報抽出部160は、発明対象の観点を選択した場合、抽出ルールテーブル120aを取得する。発明の目的の観点を選択した場合、抽出ルールテーブル120bを取得する。
[ステップS23]特徴情報抽出部160は、ステップS21で取得した解析結果から未選択の係り受け関係を1つ選択し、係り先および係り元の文節を特定する。
[ステップS24]特徴情報抽出部160は、ステップS22で取得した抽出ルールテーブルから、未選択の抽出ルールを1つ選択する。
[ステップS25]特徴情報抽出部160は、ステップS23で選択した係り受け関係に対して、ステップS24で選択した抽出ルールを適用する。ここで、係り受け関係が抽出ルールに合致した場合、特徴情報抽出部160は、係り元もしくは係り先の文節から特徴情報となる文字列(単語)を抽出すると共に、確信度を計算する。そして、特徴情報抽出部160は、特徴情報に関する情報を、特徴情報テーブル130aに登録する。
[ステップS26]特徴情報抽出部160は、ステップS24で全ての抽出ルールを選択したか否か判断する。全ての抽出ルールを選択した場合には、処理がステップS27に進められる。未選択の抽出ルールがある場合には、処理がステップS25に進められる。
[ステップS27]特徴情報抽出部160は、ステップS23で全ての係り受け関係を選択したか否か判断する。全ての係り受け関係を選択した場合には、処理がステップS28に進められる。未選択の係り受け関係がある場合には、処理がステップS23に進められる。
[ステップS28]特徴情報抽出部160は、ステップS22で全ての観点を選択したか否か判断する。全ての観点を選択した場合には、処理が終了する。未選択の観点がある場合には、処理がステップS22に進められる。
なお、上記ステップS25において、特徴情報抽出部160は、抽出した単語を含む複合語を作成して特徴情報とするようにしてもよい。すなわち、起点となる単語を抽出した後、所定の規則に従って更に係り元の文節を辿って他の単語を抽出し、複合語を作成することもできる。
例えば、“出力トルクの変化を防止する”という文において、抽出ルールを適用して“防止”を抽出したとき、更に係り元の文節から“変化”を抽出し、“変化防止”という複合語を作成できる。また、更に係り元の文節を辿って“出力トルク”を抽出し、“出力トルク変化防止”という複合語を作成することもできる。このような処理は、複合語を作成する規則、すなわち、複合語を作成しやすい単語に関する情報を特徴情報抽出部160が予め保持しておくことで実現できる。
このようにして、特徴情報抽出部160は、係り受け解析部152が出力した係り受け解析の結果を用いて、特徴情報を抽出する。
次に、上記ステップS17で実行される処理の詳細について説明する。
図9は、表示制御処理の手順を示すフローチャートである。以下、図9に示す処理をステップ番号に沿って説明する。
[ステップS31]表示方法選択部181は、分類情報を表示する際の表示方法を選択する。具体的には、表示する観点を選択する。また、“類似するものを隣接”、“件数の多い順”、“確信度の高い順”の中から順序付け方法を選択する。表示方法選択部181は、ユーザからの明示的な指定がある場合には、その表示方法に決定する。明示的な指定がない場合には、管理者が設定した既定の表示方法に決定する。
[ステップS32]表示方法選択部181は、ステップS31で選択した順序付け方法が、“類似するものを隣接”であるか否か判断する。“類似するものを隣接”の場合には、処理がステップS33に進められる。“件数の多い順”または“確信度の高い順”の場合には、処理がステップS38に進められる。
[ステップS33]表示方法選択部181は、分類情報テーブル140a,140bに登録された分類情報から、先頭に表示する分類情報を選択する。ユーザからの明示的な指定がある場合には、その分類情報を選択する。明示的な指定がない場合には、管理者が設定した既定の基準に従って選択する。例えば、件数もしくは確信度が最も大きいものを選択する。
[ステップS34]表示方法選択部181は、表示方法を順序決定部183に通知する。順序決定部183は、類似度判定部182に特徴ベクトルの作成を指示する。類似度判定部182は、分類情報テーブル140a,140bから特徴情報を取得し、分類情報毎に特徴ベクトルを作成する。特徴ベクトルとは、特徴情報の文字を分割することで得られる文字集合である。特徴ベクトルについては、後で詳細に説明する。
[ステップS35]順序決定部183は、類似度判定部182に類似度の判定を指示する。類似度判定部182は、表示順序が未決定の全ての分類情報について、1つ前の順位の分類情報および2つ前の順位の分類情報との類似度をそれぞれ判定する。ただし、2番目の順位が未決定の場合には、1つ前の順位の分類情報との類似度のみ判定する。そして、類似度判定部182は、表示順序が未決定の全ての分類情報について、2つの類似度の合計した類似度を順序決定部183に送る。なお、類似度は、2つの特徴ベクトルの比較によって判定される。類似度の判定方法については、後で詳細に説明する。
[ステップS36]順序決定部183は、ステップS35で判定された類似度が最も高い分類情報を、次の表示順序に決定する。なお、類似度が同じものが複数ある場合には、その中で確信度が最も高い分類情報を、次の表示順序に決定する。
[ステップS37]順序決定部183は、ステップS36で、分類情報テーブル140a、140bに登録された全ての分類情報の表示順序が決定されたか否か判断する。全ての分類情報の表示順序が決定された場合には、処理がステップS39に進められる。表示順序が未決定の分類情報がある場合には、処理がステップS35に進められる。
[ステップS38]表示方法選択部181は、表示方法を順序決定部183に通知する。順序決定部183は、分類情報テーブル140a,140bから、ステップS31で選択された観点についての分類情報を取得する。そして、ステップS31で選択された順序付け方法に従って、分類情報をソートする。すなわち、順序決定部183は、件数もしくは確信度の大きい順に分類情報をソートする。
[ステップS39]順序決定部183は、表示方法および表示順序を表示部184に通知する。表示部184は、表示方法選択部181が選択した表示方法および順序決定部183が決定した表示順序に従って、分類情報をモニタ10に表示する。
このようにして、表示方法選択部181は分類情報の表示方法、すなわち、表示する観点および順序付け方法を選択する。類似度判定部182は、個々の分類情報の特徴ベクトルを作成し、特徴ベクトルの比較によって分類情報間の類似度を判定する。順序決定部183は、必要に応じて類似度判定部182が判定した類似度を用いて、分類情報の表示順序を決定する。表示部184は、順序決定部183が決定した表示順序に従って、分類情報をモニタ10に表示する。
ここで、ステップS34で作成される特徴ベクトルおよびステップS35で判定される類似度について詳細に説明する。
図10は、特徴ベクトルの作成例を示す図である。図10は、“制御装置”という特徴情報をもつ分類情報について特徴ベクトルを作成する場合を示している。特徴ベクトルは、特徴情報のユニグラムとバイグラムの集合で構成される。図10では、特徴ベクトルを行列として表現している。
ユニグラムとは、文字列を1文字単位で分割したものである。例えば、“制御装置”は、“制”、“御”、“装”、“置”の4つのユニグラムに分割される。バイグラムとは、文字列を2文字単位で分割したものである。例えば、“制御装置”は、“制御”、“御装”、“装置”の3つのバイグラムに分割される。従って、“制御装置”から作成される特徴ベクトルは、“制”、“御”、“装”、“置”、“制御”、“御装”、“装置”の7つの要素で構成される。
図11は、特徴ベクトルの比較例を示す図である。図10に示した通り、“制御装置”から作成される特徴ベクトルは、“制”、“御”、“装”、“置”、“制御”、“御装”、“装置”の7つの要素で構成される。同様に、“制動装置”から作成される特徴ベクトルは、“制”、“動”、“装”、“置”、“制動”、“動装”、“装置”の7つの要素で構成される。図11では、特徴ベクトルを行列として表現しており、存在する要素の位置に1、存在しない要素の位置に0を設定している。
類似度判定部182は、まず2つの特徴ベクトルを比較し、共通する要素の個数を求める。特徴ベクトルが図11に示すような行列で表現されている場合は、2つの行列の内積を計算すればよい。図11に示す“制御装置“と“制動装置”の比較では、共通する要素の個数は4となる。
ここで、共通する要素の個数を類似度とする判定方法も考えられる。しかし、この方法では、特徴情報の文字数が多いほど類似度が高く判定されてしまう。そこで、共通する要素の個数を特徴ベクトルの長さで割った値を類似度とする。例えば、共通する要素の個数である4を、個々の特徴ベクトルの長さである7で割った値を類似度とする。
次に、以上のような処理が実行されることで表示される処理結果の画面について説明する。
図12は、単一観点による分類情報の表示画面例を示す第1の図である。分析結果表示画面11は、表示部184によってモニタ10に表示される画面である。分析結果表示画面11は、ユーザによって観点が“発明対象”に、順序付け方法が“件数の多い順”に指定された場合の表示画面の例である。
分析結果表示画面11には、11個の分類情報の特徴情報および件数が、上から下に向かって件数順に表示されている。図12に示した例では、1490件の“制御装置”が先頭に表示され、以下、351件の“駆動装置”、183件の”発電機”、93件の“動力伝達装置”の順に表示されている。
図13は、単一観点による分類表示の画面例を示す第2の図である。分析結果表示画面12は、表示部184によってモニタ10に表示される画面である。分析結果表示画面12は、ユーザによって観点が“発明対象”に、順序付け方法が“類似するものを隣接”に、先頭の分類情報が“件数の最も多いもの”に指定された場合の表示画面の例である。
分析結果表示画面12には、11個の分類情報の特徴情報および件数が、上から下に向かって順番に表示されている。図13に示した例では、先頭に、最も件数が多い“制御装置”が表示されている。そして、“制御装置”と類似度が高い“制動装置”、“制動装置”と類似度が高い“駆動装置”、“駆動装置”と類似度が高い“動力伝達装置”の順に表示されている。
ここで、“動力変換機構”および“動力源”は、“動力伝達装置”に従属する項目として表示されている。これは、件数の少ない分類情報を直前の項目に従属する項目とすることで、ユーザの理解容易性を向上させるためである。ユーザは、マウス22などを用いて分析結果表示画面12を操作することで、“動力変換機構”および“動力源”の表示を隠すことができる。このような処理は、表示部184が行う。なお、図13に示した例では、件数が10件未満の分類情報を、直前の項目に従属する項目としている。
図14は、単一観点による分類表示の画面例を示す第3の図である。分析結果表示画面13は、分析結果表示画面12において、ユーザによって先頭の分類情報を“始動装置”に変更する指示が入力された後に、表示部184によってモニタ10に表示される画面である。観点、順序付け方法および表示される分類情報は、分析結果表示画面12のものと同じである。
先頭には、ユーザによって指定された“始動装置”が表示されている。そして、“始動装置”と類似度が高い“駆動装置”、“駆動装置”と類似度が高い“制動装置”、“制動装置”と類似度が高い“電動装置”の順に表示されている。件数が10件未満である“動力変換機構”および“動力源”は、直前の“電源システム”に従属する項目として表示されている。
このように、先頭に表示する分類情報が変更されると、それに伴って全体の表示順序が大きく変わる。ユーザは、より理解容易な表示順序になるように、先頭の分類情報を適宜変更することができる。
図15は、複数観点による分類表示の画面例を示す図である。分析結果表示画面14は、表示部184によってモニタ10に表示される画面である。分析結果表示画面14は、ユーザによって観点が“発明対象”および“発明の目的”に、順序付け方法が“類似するものを隣接”に、先頭の分類情報が“件数の最も多いもの”に指定された場合の表示画面の例である。
ユーザによって2つの観点が指定されると、個々の観点についての分類情報が2次元格子の各辺に表示される。図15に示した例では、横方向に発明の目的の観点の分類情報が表示され、縦方向に発明対象の観点の分類情報が表示されている。各観点の分類情報は、分析結果表示画面12と同様の方法で表示される。
更に、2つの分類情報についての線が交わる格子点には、件数の多寡を視覚的に表現した円が表示される。円の半径が大きいほど、件数が多いことを示している。例えば、“制御装置”の線と“エネルギー効率”の線とが交わる格子点には、“制御装置”と“エネルギー効率”の両方の特徴情報が抽出された特許文献の件数に相当する円が表示される。表示部184は、分類情報テーブル140a,140bに加え、特徴情報テーブル130aを更に参照することで、各格子点に表示する円の大きさを決定する。
このような文書分析装置100を用いることで、特許文献の特徴を端的に表現した特徴情報を、観点毎に自動的に抽出することができる。そして、抽出された特徴情報を集計して、その特徴情報が抽出された特許文献の件数や確信度を計算し表示させることができる。これにより、ユーザは特許の出願や登録の全体的傾向を容易に把握できるようになる。
特に、複数の特徴情報を順序付けて表示する際に、類似する特徴情報が隣接するように表示させることができ、特徴情報間の関係を把握することが容易となる。また、件数や確信度などに応じて一部の特徴情報を一時的に表示させないようにすることもでき、全体的傾向や特徴情報間の関係をより容易に把握できるようになる。また、複数の観点の特徴情報を表形式で表示させることができ、全体的傾向を一目で把握することができる。
なお、本実施の形態では、分析する文書が特許文献である場合を例に挙げて説明したが、他の種類の文書についても同様の分析処理が可能である。この場合、文書の種類に応じた抽出ルールを用意しておけばよい。また、本実施の形態では、文書分析装置100が全ての分析処理を行うこととしたが、分析処理の一部をサーバコンピュータが行うようにしてもよい。また、特許文献をファイルサーバに格納しておき、文書分析装置100がファイルサーバからネットワーク経由で特許文献を取得するようにしてもよい。
また、本実施の形態では、特徴ベクトルはユニグラムとバイグラムとで構成されることとしたが、類似度の判定が行えればどのような構成でもかまわない。例えば、ユニグラムのみで構成される特徴ベクトル、バイグラムのみで構成される特徴ベクトルなども考えられる。また、特徴ベクトルの行列表現では、対応する要素がある場合の値を一律に1としたが、特徴情報内に存在する要素の個数を値として用いてもよい。
また、本実施の形態では、1つの分類情報を1つの項目として表示するようにしたが、複数の分類情報をまとめて1つの項目として表示するようにしてもよい。例えば、類似度が所定の閾値以上の分類情報同士をまとめて、1つの項目として表示するようにしてもよい。これにより、特徴情報間の関係をより明確にすることができる。また、ユーザが指定した複数の分類情報をまとめて、1つの項目として表示するようにしてもよい。
以上、本発明のデータ表示制御プログラム、データ表示制御方法およびデータ表示制御装置を図示の実施の形態に基づいて説明したが、本発明はこれに限定されるものではなく、各部の構成は、同様の機能を有する任意の構成のものに置換することができる。また、本発明に、他の任意の構成物や工程が付加されていてもよい。また、本発明は、前述した実施の形態のうちの、任意の2以上の構成(特徴)を組み合わせたものであってもよい。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、文書分析装置100が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどが挙げられる。磁気記録装置としては、例えば、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどが挙げられる。光ディスクとしては、例えば、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などが挙げられる。光磁気記録媒体としては、例えば、MO(Magneto-Optical disk)などが挙げられる。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
データ表示制御プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
(付記1) 複数の文字列データの表示順序を制御するデータ表示制御プログラムにおいて、
コンピュータを、
複数の前記文字列データを記憶するデータ記憶手段、
所定の基準に従って、前記データ記憶手段に記憶された前記文字列データの中から、先頭に表示する前記文字列データを選択する先頭選択手段、
前記データ記憶手段に記憶された2つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する類似度判定手段、
前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、1つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とする順序決定手段、
前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する表示手段、
として機能させることを特徴とするデータ表示制御プログラム。
(付記2) 前記順序決定手段は、3番目以降については、1つ前に選択した前記文字列データとの間の前記類似度と、2つ前に選択した前記文字列データとの間の前記類似度との合計が最も高い前記文字列データを次に選択することを特徴とする付記1記載のデータ表示制御プログラム。
(付記3) 前記データ記憶手段は、前記文字列データと対応付けて、前記文字列データの重要度を示す値を更に記憶しており、
前記表示手段は、前記重要度が所定の閾値より低い前記文字列データを、1つ前の順位の前記文字列データに従属する項目として表示する、
ことを特徴とする付記1記載のデータ表示制御プログラム。
(付記4) 前記先頭選択手段は、ユーザの操作入力によって前記文字列データが指定されると、指定された前記文字列データを、先頭に表示する前記文字列データとして選択することを特徴とする付記1記載のデータ表示制御プログラム。
(付記5) 前記データ記憶手段は、前記文字列データと対応付けて、前記文字列データの重要度を示す値を更に記憶しており、
前記先頭選択手段は、前記重要度が最も高い前記文字列データを、先頭に表示する前記文字列データとして選択する、
ことを特徴とする付記1記載のデータ表示制御プログラム。
(付記6) 前記類似度判定手段は、前記文字列データから抽出可能な全てのユニグラムとバイグラムとを要素とするデータ集合をそれぞれ作成し、2つの前記データ集合を比較して一致する要素の割合を前記類似度と判定することを特徴とする付記1記載のデータ表示制御プログラム。
(付記7) 複数の文字列データの表示順序を制御するコンピュータによるデータ表示制御方法において、
先頭選択手段が、所定の基準に従って、データ記憶手段に記憶された複数の前記文字列データの中から、先頭に表示する前記文字列データを選択し、
類似度判定手段が、前記データ記憶手段に記憶された2つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定すると共に、順序決定手段が、前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、1つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とし、
表示手段が、前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する、
ことを特徴とするデータ表示制御方法。
(付記8) 複数の文字列データの表示順序を制御するデータ表示制御装置において、
複数の前記文字列データを記憶するデータ記憶手段と、
所定の基準に従って、前記データ記憶手段に記憶された前記文字列データの中から、先頭に表示する前記文字列データを選択する先頭選択手段と、
前記データ記憶手段に記憶された2つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する類似度判定手段と、
前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、1つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とする順序決定手段と、
前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する表示手段と、
を有することを特徴とするデータ表示制御装置。