JP4750674B2

JP4750674B2 - データ表示制御プログラム、データ表示制御方法およびデータ表示制御装置

Info

Publication number: JP4750674B2
Application number: JP2006302556A
Authority: JP
Inventors: 一成田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-11-08
Filing date: 2006-11-08
Publication date: 2011-08-17
Anticipated expiration: 2026-11-08
Also published as: JP2008117354A

Description

本発明はデータ表示制御プログラム、データ表示制御方法およびデータ表示制御装置に関し、特に複数の文字列データの表示順序を制御するデータ表示制御プログラム、データ表示制御方法およびデータ表示制御装置に関する。

現在、ハードウェア技術の発達に伴い、電子データを記憶する記憶装置の大容量化、低価格化が進んでいる。これに伴い、多種多様な情報が電子データ化されて記憶装置に蓄積されるようになっている。一方、蓄積された電子データが大規模になると、その中から人間が手作業で必要な情報を探すことが困難になる。そこで、情報検索技術、自動要約技術、データマイニング技術などのソフトウェア技術が発達してきた。これにより、コンピュータを用いて、大規模データから有用な情報を自動的に抽出することができる。

これらのソフトウェア技術の多くでは、自然言語で記述された文字列データを処理する自然言語処理の技術が応用されている（例えば、特許文献１参照）。この場合、処理結果として出力されるデータも、文字列データで構成されることが多い。ここで、処理結果として複数の文字列データが出力された場合、人間が理解容易な形式で整理されて表示されることが望まれる。従って、情報を自動抽出する技術だけでなく、処理結果の表示を制御する技術も重要となる。

これに対し、例えば、情報検索の分野では、入力された質問文と個々の文字列データとの合致度を計算し、合致度が高い順に文字列データを順序付けて表示することが行われている。また、文字列の意味に関する情報を集めた辞書データを予め用意しておき、文字列の意味を考慮して文字列データを順序付けて表示する技術も知られている（例えば、特許文献２参照）。このように、複数の文字列データが出力された場合に、それらを順序付けて表示することで、ユーザの理解容易性が向上する。
特開２００１−９２８３０号公報特開平６−２１４７５３号公報

しかし、従来の文字列データの表示制御技術には、以下のような問題がある。
質問文との合致度が高い順に表示する方法は、特定の文字列データを探索する場合には有効であるが、他の文字列データとの関連性も併せて把握したい場合には不適切である。これは、文字列データ間の関係が考慮されておらず、関連する文字列データであっても分散されて表示されてしまうためである。

また、特許文献２記載の技術は、予め辞書データを用意しておく必要があり、辞書データを整備するために多大な労力を必要とする。また、あらゆる文字列データについて順序付けを行えるように辞書データを整備することは、現実的でない。

本発明はこのような点に鑑みてなされたものであり、複数の文字列データを順序付けて表示する場合に、辞書データを予め用意することなく、関連する文字列データが隣接するように制御して理解容易性を向上させるデータ表示制御プログラム、データ表示制御方法およびデータ表示制御装置を提供することを目的とする。

本発明では上記課題を解決するために、図１に示すようなデータ表示制御プログラムが提供される。本発明に係るデータ表示制御プログラムは、複数の文字列データの表示順序を制御するものである。このデータ表示制御プログラムを実行するコンピュータ１は、データ記憶手段１ａ、先頭選択手段１ｂ、類似度判定手段１ｃ、順序決定手段１ｄおよび表示手段１ｅを有する。データ記憶手段１ａは、複数の文字列データを記憶する。先頭選択手段１ｂは、所定の基準に従って、データ記憶手段１ａに記憶された文字列データの中から、先頭に表示する文字列データを選択する。類似度判定手段１ｃは、データ記憶手段１ａに記憶された２つの文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する。順序決定手段１ｄは、先頭選択手段１ｂが選択した文字列データから開始して、データ記憶手段１ａに記憶された未選択の文字列データの中から、１つ前に選択した文字列データとの間で類似度判定手段１ｃが判定した類似度が最も高い文字列データを順次選択し、選択した順序を表示順序とする。表示手段１ｅは、順序決定手段１ｄが決定した表示順序に従って、文字列データを表示する。

このようなデータ表示制御プログラムを実行するコンピュータ１によれば、先頭選択手段１ｂにより、所定の基準に従って先頭に表示する文字列データが選択される。次に、類似度判定手段１ｃにより、２つの文字列データの組み合わせ毎に類似度が判定される。また、順序決定手段１ｄにより、先頭に表示するものとして選択された文字列データから開始して、１つ前に選択された文字列データとの間で類似度が最も高い文字列データが順次選択され、選択された順序が表示順序に決定される。最後に、表示手段１ｅにより、決定された表示順序に従って文字列データが表示される。

また、上記課題を解決するために、複数の文字列データの表示順序を制御するデータ表示制御方法において、先頭選択手段が、所定の基準に従って、データ記憶手段に記憶された複数の文字列データの中から、先頭に表示する文字列データを選択し、類似度判定手段が、データ記憶手段に記憶された２つの文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定すると共に、順序決定手段が、先頭選択手段が選択した文字列データから開始して、データ記憶手段に記憶された未選択の文字列データの中から、１つ前に選択した文字列データとの間で類似度判定手段が判定した類似度が最も高い文字列データを順次選択し、選択した順序を表示順序とし、表示手段が、順序決定手段が決定した表示順序に従って、文字列データを表示する、ことを特徴とするデータ表示制御方法が提供される。

このようなデータ表示制御方法によれば、最初に、所定の基準に従って先頭に表示する文字列データが選択される。次に、２つの文字列データの組み合わせ毎に類似度が判定される。また、先頭に表示するものとして選択された文字列データから開始して、１つ前に選択された文字列データとの間で類似度が最も高い文字列データが順次選択され、選択された順序が表示順序に決定される。最後に、決定された表示順序に従って文字列データが表示される。

また、上記課題を解決するために、複数の文字列データの表示順序を制御するデータ表示制御装置において、複数の文字列データを記憶するデータ記憶手段と、所定の基準に従って、データ記憶手段に記憶された文字列データの中から、先頭に表示する文字列データを選択する先頭選択手段と、データ記憶手段に記憶された２つの文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する類似度判定手段と、先頭選択手段が選択した文字列データから開始して、データ記憶手段に記憶された未選択の文字列データの中から、１つ前に選択した文字列データとの間で類似度判定手段が判定した類似度が最も高い文字列データを順次選択し、選択した順序を表示順序とする順序決定手段と、順序決定手段が決定した表示順序に従って、文字列データを表示する表示手段とを有することを特徴とするデータ表示制御装置が提供される。

このようなデータ表示制御装置によれば、先頭選択手段１ｂにより、所定の基準に従って先頭に表示する文字列データが選択される。次に、類似度判定手段１ｃにより、２つの文字列データの組み合わせ毎に類似度が判定される。また、順序決定手段１ｄにより、先頭に表示するものとして選択された文字列データから開始して、１つ前に選択された文字列データとの間で類似度が最も高い文字列データが順次選択され、選択された順序が表示順序に決定される。最後に、表示手段１ｅにより、決定された表示順序に従って文字列データが表示される。

本発明では、２つの文字列データの組み合わせ毎に文字列の一致度に基づく類似度を判定し、１つ前に選択した文字列データとの間で類似度が最も高い文字列データを順次選択して表示順序とすることとした。これにより、関連性の高い文字列データが隣接して表示されるようになり、複数の文字列データの全体的傾向を容易に把握できるようになる。

以下、本発明の実施の形態を図面を参照して詳細に説明する。まず、本実施の形態の概要について説明し、その後、本実施の形態の具体的な内容を説明する。
図１は、本実施の形態の概要を示す図である。図１に示されるコンピュータ１は、複数の文字列データの表示順序を決定し、決定した表示順序に従ってそれら文字列データを表示装置２に表示するものである。コンピュータ１は、データ記憶手段１ａ、先頭選択手段１ｂ、類似度判定手段１ｃ、順序決定手段１ｄおよび表示手段１ｅを有している。

データ記憶手段１ａには、複数の文字列データが記憶されている。例えば、“制動装置”、“駆動装置”、“動力伝達装置”のようなデータが記憶されている。また、データ記憶手段１ａには、個々の文字列データと対応して、文字列データの重要度を示す数値が記憶されている。例えば、“制動装置”と対応して、“１４９０”という数値が記憶されている。

先頭選択手段１ｂは、所定の基準に従って、データ記憶手段１ａに記憶された文字列データの中から、先頭に表示する文字列データを選択する。例えば、ユーザが特定の文字列データを明示的に指定した場合、先頭選択手段１ｂは、指定された文字列データを先頭に表示するものとして選択する。また、ユーザによる明示の指定がない場合、先頭選択手段１ｂは、重要度が最も高い文字列データを先頭に表示するものとして選択する。

類似度判定手段１ｃは、データ記憶手段１ａに記憶された２つの文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する。類似度は、例えば、０以上１以下の数値で表現される。この場合、一致する文字が１つもない場合は類似度が０、２つの文字列が完全に一致する場合は類似度が１となる。類似度の計算方法は、文字列の一致度が正確に反映される限り、どのような計算方法を採用しても構わない。

順序決定手段１ｄは、先頭選択手段１ｂが選択した文字列データから開始して、データ記憶手段１ａに記憶された未選択の文字列データの中から、１つ前に選択した文字列データとの間で類似度が最も高い文字列データを順次選択する。すなわち、順序決定手段１ｄは、先頭の文字列データと最も類似度が高いものを２番目として選択する。次に、２番目の文字列データと最も類似度が高いものを３番目として選択する。以降、順序決定手段１ｄは、データ記憶手段１ａに記憶された全ての文字列データについて、同様の処理を行う。そして、順序決定手段１ｄは、選択した順序を文字列データの表示順序に決定する。

なお、３番目以降の文字列データを選択するとき、１つ前の文字列データとの類似度だけでなく、２つ前の文字列データとの類似度も参照するようにしてもよい。例えば、順序決定手段１ｄは、１つ前との類似度と２つ前との類似度の和が最も高いものを、次に選択するようにしてもよい。この方法は、表示すべき文字列データの数が多い場合に、互いに類似する複数の文字列データが一箇所に集まって表示されるにようにしたい場合に有効である。

表示手段１ｅは、順序決定手段１ｄが決定した表示順序に従って、文字列データを表示装置２に表示する。例えば、表示手段１ｅは、表示画面の上から下に向かって一列に表示する。なお、重要度が所定の閾値より低い文字列データは、その１つ前の文字列データに従属する項目として表示するようにしてもよい。これにより、ユーザは重要度が高い文字列データを優先的に見ることができ、理解容易性がより向上する。この方法は、表示すべき文字列データの数が多い場合に、特に有効である。

このようなコンピュータ１によれば、先頭選択手段１ｂにより、所定の基準に従って先頭に表示する文字列データが選択される。次に、類似度判定手段１ｃにより、２つの文字列データの組み合わせ毎に類似度が判定される。また、順序決定手段１ｄにより、先頭に表示するものとして選択された文字列データから開始して、１つ前に選択された文字列データとの間で類似度が最も高い文字列データが順次選択され、選択された順序が表示順序に決定される。最後に、表示手段１ｅにより、決定された表示順序に従って文字列データが表示装置２に表示される。

これにより、関連性の高い文字列データが隣接して表示されるようになり、複数の文字列データの全体的傾向を容易に把握できるようになる。
以下、本実施の形態を、図面を参照して詳細に説明する。本実施の形態は、１つの文書分析装置１００で構成される。ユーザは、文書分析装置１００を操作して蓄積された文書の分析を行い、分析結果を表示画面で見ることができる。これにより、文書間の統計的な傾向を容易に知ることができる。以下、分析対象の文書が特許公報である場合を例に挙げて説明する。

図２は、文書分析装置のハードウェア構成を示す図である。文書分析装置１００は、ＣＰＵ（Central Processing Unit）１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０６を介してＲＡＭ（Random Access Memory）１０２、ハードディスクドライブ（ＨＤＤ：Hard Disk Drive）１０３、グラフィック処理装置１０４および入力インタフェース１０５が接続されている。

ＲＡＭ１０２には、ＣＰＵ１０１に実行させるオペレーティングシステム（ＯＳ：Operating System）プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０３には、ＯＳプログラムやアプリケーションプログラム、処理対象のデータが格納される。

グラフィック処理装置１０４には、モニタ１０が接続されている。グラフィック処理装置１０４は、ＣＰＵ１０１からの命令に従って、画像をモニタ１０の画面に表示させる。入力インタフェース１０５には、キーボード２１とマウス２２とが接続されている。入力インタフェース１０５は、キーボード２１やマウス２２から送られてくる信号を、バス１０６を介してＣＰＵ１０１に送信する。

以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。
次に、文書分析装置１００のモジュール構成について説明する。

図３は、文書分析装置の機能を示すブロック図である。文書分析装置１００は、文書記憶部１１０、抽出ルール記憶部１２０、特徴情報記憶部１３０、分類情報記憶部１４０、文解析部１５０、特徴情報抽出部１６０、文書分類部１７０および表示制御部１８０を有している。文解析部１５０および表示制御部１８０は、キーボード２１およびマウス２２を通じてユーザからの入力を受け付けることができる。また、表示制御部１８０は、モニタ１０の画面に処理結果を表示することができる。

文書記憶部１１０には、特許文献がファイルとして記憶されている。例えば、“特開２００６−ＸＸＸＸ１”という名前のファイルが記憶されている。個々の特許文献は、所定のフォーマットに従って記述されている。すなわち、“特許請求の範囲”、“発明の名称”、“発明の属する分野”などの項目に分けられて、文章が記述されている。

抽出ルール記憶部１２０には、観点毎に、特許文献から特徴情報を抽出するための抽出ルールが記憶されている。観点とは、発明対象や発明の目的など、特許文献の分析を行う際の視点である。また、特徴情報とは、特定の観点における、特許文献の記載内容を端的に表現する単語である。例えば、発明対象の観点では、“自動車用ドア”が特徴情報となりうる。また、発明の目的の観点では、“軽量化”が特徴情報となりうる。抽出ルールとは、文章中で、このような単語が記載されている可能性が高い位置を示した情報である。

特徴情報記憶部１３０には、特許文献毎に、特徴情報抽出部１６０が抽出した特徴情報が記憶される。特徴情報は、１つの特許文献に対して１つ以上存在する。また、個々の特徴情報と対応付けて、特徴情報が特許文献の記載内容をどの程度端的に表現しているかを示す確信度も記憶される。確信度については、後で詳細に説明する。

分類情報記憶部１４０には、文書分類部１７０が出力した分類情報が記憶される。分類情報とは、複数の特許文献から抽出された特徴情報を集計した情報である。すなわち、分類情報には、ある特徴情報が抽出された特許文献が何件存在するか、という情報が含まれる。また、ある特徴情報に対する確信度の合計値も含まれる。例えば、発明対象の観点で、“制御装置”が１４９０件存在し、確信度の合計が２５１０である、という情報が含まれる。

文解析部１５０は、ユーザからの入力で分析開始が指示されると、文書記憶部１１０から特許文献を１件ずつ取得し、特許文献に記載されている文の解析を行う。そして、文解析部１５０は、解析結果を特徴情報抽出部１６０へ順次出力する。文解析部１５０は、形態素解析部１５１および係り受け解析部１５２から構成される。

形態素解析部１５１は、文書記憶部１１０から取得した特許文献に記載されている全ての文について、形態素解析を行う。形態素解析とは、言語で意味をもつ最小単位である形態素に文を分割し、形態素毎に品詞および活用形を判別する処理である。例えば、“出力トルクの変化を防止する”という文は、“出力（名詞）”、“トルク（名詞）”、“の（助詞）”、“変化（名詞）”、“を（助詞）”、“防止（名詞）”、“する（動詞・基本形）”という７つの形態素に分割される。

係り受け解析部１５２は、形態素解析部１５１の解析結果を用いて、係り受け解析を行う。係り受け解析とは、１つ以上の形態素で構成される文節の単位を判別し、その文節が他のどの文節に係るかを解析する処理である。例えば、“出力トルクの変化を防止する”という文は、“出力トルクの”、“変化を”、“防止する”という３つの文節で構成されると判別される。また、“出力トルクの”が“変化を”に係り、“変化を”が“防止する”に係っていると解析される。そして、係り受け解析部１５２は、解析結果を特徴情報抽出部１６０へ出力する。

特徴情報抽出部１６０は、文解析部１５０から係り受け解析の結果を取得すると、抽出ルール記憶部１２０に記憶された全ての観点についての抽出ルールを適用し、文から特徴情報を抽出する。例えば、“「関する」の前”という抽出ルールがある場合、特徴情報抽出部１６０は、文から“関する”を検索し、その係り元の文節から特徴情報を抽出する。また、特徴情報抽出部１６０は、抽出した特徴情報の確信度を判定する。

そして、特徴情報抽出部１６０は、抽出した特徴情報および確信度を、特許文献の名前と対応付けて特徴情報記憶部１３０に記憶する。また、特徴情報抽出部１６０は、文書記憶部１１０に記憶された全ての特許文献について処理が完了したと判断すると、文書分類部１７０にその旨を通知する。

文書分類部１７０は、特徴情報抽出部１６０から通知を受けると、特徴情報記憶部１３０から全ての特許文献についての特徴情報および確信度を取得し、観点毎に特徴情報の集計を行う。すなわち、文書分類部１７０は、特徴情報毎に、その特徴情報が抽出された特許文献の件数と、その特徴情報に対する確信度の合計値とを計算する。そして、文書分類部１７０は、集計結果を分類情報として分類情報記憶部１４０に記憶する。

表示制御部１８０は、分類情報記憶部１４０から分類情報を取得し、特許文献の分析結果をモニタ１０に表示する。また、表示制御部１８０は、ユーザからの入力に応じて、モニタ１０の表示画面を切り換える。表示制御部１８０は、表示方法選択部１８１、類似度判定部１８２、順序決定部１８３および表示部１８４から構成される。

表示方法選択部１８１は、分類情報の表示方法を選択する。具体的には、表示する観点および分類情報の順序付け方法を選択する。分類情報の順序付け方法としては、“類似する分類情報を隣接させる”、“件数の多い順にソートする”、“確信度の高い順にソートする”の中から選択する。また、“類似する分類情報を隣接させる”の場合には、更に、先頭に表示する分類情報を選択する。表示方法選択部１８１は、ユーザからの明示的な指定がある場合には、指定された表示方法を選択する。ユーザから明示的な指定がない場合には、予め設定された既定の表示方法を選択する。

類似度判定部１８２は、分類情報記憶部１４０に記憶された任意の２つの分類情報について、類似度を判定する。具体的には、類似度判定部１８２は、２つの特徴情報を文字列として比較し、文字列の一致度に基づいて類似度を計算する。類似度の計算方法については、後で詳細に説明する。

順序決定部１８３は、表示方法選択部１８１が選択した表示方法に従って、分類情報記憶部１４０に記憶された分類情報の表示順序を決定する。表示方法選択部１８１が選択した表示方法が“類似する分類情報を隣接させる”の場合には、類似度判定部１８２が判定した類似度を用いて表示順序を決定する。

表示部１８４は、分類情報記憶部１４０に記憶された分類情報を、表示方法選択部１８１が選択した表示方法および順序決定部１８３が決定した表示順序に従って、モニタ１０に表示する。

ここで、抽出ルール記憶部１２０には、観点毎に抽出ルールテーブルが格納されている。
図４は、抽出ルールテーブルのデータ構造例を示す図である。抽出ルールテーブル１２０ａは、発明対象の観点についての抽出ルールテーブルである。抽出ルールテーブル１２０ｂは、発明の目的の観点についての抽出ルールテーブルである。抽出ルールテーブル１２０ａ，１２０ｂには、抽出ルールがテーブル化されて格納されている。抽出ルールテーブル１２０ａ，１２０ｂには、対象範囲の欄、節の重みの欄、対象文字列の欄および語の重みの欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連付けられている。

対象範囲の欄には、特許文献で用いられる項目の項目名が設定される。例えば、“発明の属する技術分野”、“特許請求の範囲”、“発明の名称”、“発明が解決しようとする課題”、“要約”などの項目名が設定される。

節の重みの欄には、対象範囲の欄に設定された項目の重要度を示す数値が設定される。例えば、抽出ルールテーブル１２０ａで、“発明の属する技術分野”の節の重みが２、“特許請求の範囲”の節の重みが１に設定されているとする。この場合、発明対象の観点では“発明の属する技術分野”が“特許請求の範囲”よりも重要度が高いことを意味する。なお、同じ項目であっても、観点によって節の重みが異なる場合もある。

対象文字列の欄には、特徴情報を抽出する文節の特定方法が設定される。例えば、対象範囲が“発明の属する技術分野”で、対象文字列が“「関する」の前”の場合、“発明の属する技術分野”の項目の中の“関する”の係り元の文節から特徴情報を抽出することを意味する。また、対象範囲が“特許請求の範囲”で、対象文字列が“「特徴とする」の後”の場合、“特許請求の範囲”の項目の中の“特徴とする”の係り先の文節から特徴情報を抽出することを意味する。

語の重みの欄には、対象文字列の欄に設定された特定方法で示される位置の重要度を示す数値が設定される。例えば、抽出ルールテーブル１２０ａで、“「関する」の前”の語の重みが２、“「係わる」の前”の語の重みが１の場合、発明対象の観点では“「関する」の前”が“「係わる」の前”よりも重要度が高いことを意味する。なお、同じ対象文字列であっても、観点や対象範囲によって語の重みが異なる場合もある。

抽出ルールテーブル１２０ａ，１２０ｂに格納される抽出ルールは、文書分析装置１００の管理者によって予め登録される。抽出ルールは、過去の経験の蓄積によって導き出される経験則である。

特徴情報記憶部１３０には、特徴情報テーブル１３０ａが格納されている。
図５は、特徴情報テーブルのデータ構造例を示す図である。特徴情報テーブル１３０ａには、特徴情報に関する情報がテーブル化されて格納されている。特徴情報テーブル１３０ａには、文書の欄、観点の欄、特徴情報の欄および確信度の欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連付けられている。

文書の欄には、特徴情報を抽出した特許文献の名前が設定される。例えば、“特開２００６−ＸＸＸＸ１”という文献名が設定される。
観点の欄には、特徴情報の抽出に用いられた抽出ルールの観点の名前が設定される。例えば、抽出ルールテーブル１２０ａに格納された抽出ルールを用いて抽出された特徴情報の場合、“発明対象”という観点名が設定される。抽出ルールテーブル１２０ｂに格納された抽出ルールを用いて抽出された特徴情報の場合、“発明の目的”という観点名が設定される。

特徴情報の欄には、抽出ルールに基づいて特徴情報抽出部１６０によって抽出された特徴情報が設定される。特徴情報は、特許文献に記載されていた単語、もしくは、特許文献に記載されていた複数の単語を結合した複合語である。例えば、“自動車用ドア”という文字列が設定される。

確信度の欄には、特徴情報に対する確信度を示す数値が設定される。確信度は、特徴情報の抽出に用いられた抽出ルールの節の重みと語の重みとを積算した値である。例えば、節の重みが２、語の重みが３の抽出ルールを用いて抽出された特徴情報の場合、確信度は６となる。

特徴情報テーブル１３０ａに格納される情報は、特徴情報抽出部１６０によって順次登録される。
分類情報記憶部１４０には、観点毎に分類情報テーブルが格納されている。

図６は、分類情報テーブルのデータ構造例を示す図である。分類情報テーブル１４０ａは、発明対象の観点についての分類情報テーブルである。分類情報テーブル１４０ｂは、発明の目的の観点についての分類情報テーブルである。分類情報テーブル１４０ａ，１４０ｂには、分類情報がテーブル化されて格納されている。分類情報テーブル１４０ａ，１４０ｂには、特徴情報の欄、件数の欄および確信度の欄が設けられている。各欄の横方向に並べられた情報同士が互いに関連付けられている。

特徴情報の欄には、特徴情報である文字列が設定される。例えば、“制御装置”という文字列が設定される。件数の欄には、特徴情報の欄に設定された特徴情報が抽出された特許文献の件数を示す数値が設定される。例えば、“制御装置”に対して１４９０件という値が設定される。確信度の欄には、特徴情報の欄に設定された特徴情報に対する確信度の合計値が設定される。例えば、“制御装置”に対して２５１０という値が設定される。

分類情報テーブル１４０ａ，１４０ｂに格納される情報は、文書分類部１７０によって登録および更新がなされる。
次に、以上のような構成およびデータ構造のシステムにおいて実行される処理の詳細を説明する。最初に、特許文献を分析する処理の全体的な流れについて説明する。

図７は、文書分析処理の手順を示すフローチャートである。以下、図７に示す処理をステップ番号に沿って説明する。
［ステップＳ１１］形態素解析部１５１は、ユーザからの入力で分析開始が指示されると、文書記憶部１１０に記憶された特許文献のうち、未処理の特許文献を１つ取得する。

［ステップＳ１２］形態素解析部１５１は、ステップＳ１１で取得した特許文献に含まれる全ての文について、形態素解析を行う。そして、形態素解析部１５１は、形態素解析の結果を係り受け解析部１５２に送る。

［ステップＳ１３］係り受け解析部１５２は、形態素解析部１５１から受け取った形態素解析の結果を用いて、係り受け解析を行う。そして、係り受け解析部１５２は、ステップＳ１１で取得した特許文献についての係り受け解析の結果を、特徴情報抽出部１６０に送る。

［ステップＳ１４］特徴情報抽出部１６０は、抽出ルール記憶部１２０に格納された抽出ルールテーブル１２０ａ，１２０ｂの中の抽出ルールを、係り受け解析部１５２から受け取った係り受け解析の結果に適用して、抽出可能な全ての特徴情報を抽出する。また、特徴情報抽出部１６０は、抽出した特徴情報の確信度を計算する。そして、特徴情報抽出部１６０は、特許文献の名前、観点、特徴情報および確信度を関連付けて、特徴情報記憶部１３０に格納された特徴情報テーブル１３０ａに登録する。

［ステップＳ１５］特徴情報抽出部１６０は、文書記憶部１１０に記憶された全ての特許文献について処理が行われたか否か判断する。例えば、特徴情報抽出部１６０は、形態素解析部１５１に、全ての特許文献を文書記憶部１１０から取得したか否か報告させることで判断できる。または、特徴情報抽出部１６０は、係り受け解析部１５２から最後に係り受け解析の結果を受け取ってから所定時間以上経過したか否かに基づいて判断することもできる。全ての特許文献について処理が行われた場合には、処理がステップＳ１６に進められる。未処理の特許文献がある場合には、処理がステップＳ１１に進められる。

［ステップＳ１６］特徴情報抽出部１６０は、特徴情報を抽出する処理が完了した旨を文書分類部１７０に通知する。文書分類部１７０は、特徴情報記憶部１３０に格納された特徴情報テーブル１３０ａから特徴情報に関する情報を取得し、特徴情報に対する件数および確信度を観点毎に集計する。そして、文書分類部１７０は、集計結果である分類情報を、分類情報記憶部１４０に格納された分類情報テーブル１４０ａ，１４０ｂに登録する。なお、文書分類部１７０は、分類情報テーブル１４０ａ，１４０ｂに過去の分類情報が登録されていた場合、最新の分類情報を上書きする。

［ステップＳ１７］表示方法選択部１８１は、分類情報テーブル１４０ａ，１４０ｂに登録された分類情報が更新されると、類似度判定部１８２および順序決定部１８３と連携して、分類情報の表示方法および表示順序を決定する。そして、表示部１８４は、決定された表示方法および表示順序に従って、分類情報テーブル１４０ａ，１４０ｂに登録された分類情報をモニタ１０に表示する。

［ステップＳ１８］表示方法選択部１８１は、ステップＳ１７で表示を行ってから所定時間以内に、ユーザからの入力で表示方法の変更が指示されたか否か判断する。表示方法の変更が指示された場合には、処理がステップＳ１７に進められる。表示方法の変更が指示されなかった場合には、文書分析処理が終了する。

このようにして、分析開始の指示があると、文解析部１５０が、文書記憶部１１０から特許文献を順次取得し、形態素解析および係り受け解析を行う。次に、特徴情報抽出部１６０が、抽出ルール記憶部１２０に記憶された抽出ルールに従って、特徴情報を抽出する。全ての特許文献から特徴情報が抽出されると、文書分類部１７０が、特徴情報の集計を行い分類情報を作成する。そして、表示制御部１８０が、複数の分類情報を順序付けて表示する。

次に、上記ステップＳ１４で実行される処理の詳細について説明する。
図８は、特徴情報抽出処理の手順を示すフローチャートである。以下、図８に示す処理をステップ番号に沿って説明する。

［ステップＳ２１］特徴情報抽出部１６０は、係り受け解析の結果を、係り受け解析部１５２から取得する。
［ステップＳ２２］特徴情報抽出部１６０は、未選択の観点を１つ選択し、抽出ルール記憶部１２０から対応する抽出ルールテーブルを取得する。例えば、特徴情報抽出部１６０は、発明対象の観点を選択した場合、抽出ルールテーブル１２０ａを取得する。発明の目的の観点を選択した場合、抽出ルールテーブル１２０ｂを取得する。

［ステップＳ２３］特徴情報抽出部１６０は、ステップＳ２１で取得した解析結果から未選択の係り受け関係を１つ選択し、係り先および係り元の文節を特定する。
［ステップＳ２４］特徴情報抽出部１６０は、ステップＳ２２で取得した抽出ルールテーブルから、未選択の抽出ルールを１つ選択する。

［ステップＳ２５］特徴情報抽出部１６０は、ステップＳ２３で選択した係り受け関係に対して、ステップＳ２４で選択した抽出ルールを適用する。ここで、係り受け関係が抽出ルールに合致した場合、特徴情報抽出部１６０は、係り元もしくは係り先の文節から特徴情報となる文字列（単語）を抽出すると共に、確信度を計算する。そして、特徴情報抽出部１６０は、特徴情報に関する情報を、特徴情報テーブル１３０ａに登録する。

［ステップＳ２６］特徴情報抽出部１６０は、ステップＳ２４で全ての抽出ルールを選択したか否か判断する。全ての抽出ルールを選択した場合には、処理がステップＳ２７に進められる。未選択の抽出ルールがある場合には、処理がステップＳ２５に進められる。

［ステップＳ２７］特徴情報抽出部１６０は、ステップＳ２３で全ての係り受け関係を選択したか否か判断する。全ての係り受け関係を選択した場合には、処理がステップＳ２８に進められる。未選択の係り受け関係がある場合には、処理がステップＳ２３に進められる。

［ステップＳ２８］特徴情報抽出部１６０は、ステップＳ２２で全ての観点を選択したか否か判断する。全ての観点を選択した場合には、処理が終了する。未選択の観点がある場合には、処理がステップＳ２２に進められる。

なお、上記ステップＳ２５において、特徴情報抽出部１６０は、抽出した単語を含む複合語を作成して特徴情報とするようにしてもよい。すなわち、起点となる単語を抽出した後、所定の規則に従って更に係り元の文節を辿って他の単語を抽出し、複合語を作成することもできる。

例えば、“出力トルクの変化を防止する”という文において、抽出ルールを適用して“防止”を抽出したとき、更に係り元の文節から“変化”を抽出し、“変化防止”という複合語を作成できる。また、更に係り元の文節を辿って“出力トルク”を抽出し、“出力トルク変化防止”という複合語を作成することもできる。このような処理は、複合語を作成する規則、すなわち、複合語を作成しやすい単語に関する情報を特徴情報抽出部１６０が予め保持しておくことで実現できる。

このようにして、特徴情報抽出部１６０は、係り受け解析部１５２が出力した係り受け解析の結果を用いて、特徴情報を抽出する。
次に、上記ステップＳ１７で実行される処理の詳細について説明する。

図９は、表示制御処理の手順を示すフローチャートである。以下、図９に示す処理をステップ番号に沿って説明する。
［ステップＳ３１］表示方法選択部１８１は、分類情報を表示する際の表示方法を選択する。具体的には、表示する観点を選択する。また、“類似するものを隣接”、“件数の多い順”、“確信度の高い順”の中から順序付け方法を選択する。表示方法選択部１８１は、ユーザからの明示的な指定がある場合には、その表示方法に決定する。明示的な指定がない場合には、管理者が設定した既定の表示方法に決定する。

［ステップＳ３２］表示方法選択部１８１は、ステップＳ３１で選択した順序付け方法が、“類似するものを隣接”であるか否か判断する。“類似するものを隣接”の場合には、処理がステップＳ３３に進められる。“件数の多い順”または“確信度の高い順”の場合には、処理がステップＳ３８に進められる。

［ステップＳ３３］表示方法選択部１８１は、分類情報テーブル１４０ａ，１４０ｂに登録された分類情報から、先頭に表示する分類情報を選択する。ユーザからの明示的な指定がある場合には、その分類情報を選択する。明示的な指定がない場合には、管理者が設定した既定の基準に従って選択する。例えば、件数もしくは確信度が最も大きいものを選択する。

［ステップＳ３４］表示方法選択部１８１は、表示方法を順序決定部１８３に通知する。順序決定部１８３は、類似度判定部１８２に特徴ベクトルの作成を指示する。類似度判定部１８２は、分類情報テーブル１４０ａ，１４０ｂから特徴情報を取得し、分類情報毎に特徴ベクトルを作成する。特徴ベクトルとは、特徴情報の文字を分割することで得られる文字集合である。特徴ベクトルについては、後で詳細に説明する。

［ステップＳ３５］順序決定部１８３は、類似度判定部１８２に類似度の判定を指示する。類似度判定部１８２は、表示順序が未決定の全ての分類情報について、１つ前の順位の分類情報および２つ前の順位の分類情報との類似度をそれぞれ判定する。ただし、２番目の順位が未決定の場合には、１つ前の順位の分類情報との類似度のみ判定する。そして、類似度判定部１８２は、表示順序が未決定の全ての分類情報について、２つの類似度の合計した類似度を順序決定部１８３に送る。なお、類似度は、２つの特徴ベクトルの比較によって判定される。類似度の判定方法については、後で詳細に説明する。

［ステップＳ３６］順序決定部１８３は、ステップＳ３５で判定された類似度が最も高い分類情報を、次の表示順序に決定する。なお、類似度が同じものが複数ある場合には、その中で確信度が最も高い分類情報を、次の表示順序に決定する。

［ステップＳ３７］順序決定部１８３は、ステップＳ３６で、分類情報テーブル１４０ａ、１４０ｂに登録された全ての分類情報の表示順序が決定されたか否か判断する。全ての分類情報の表示順序が決定された場合には、処理がステップＳ３９に進められる。表示順序が未決定の分類情報がある場合には、処理がステップＳ３５に進められる。

［ステップＳ３８］表示方法選択部１８１は、表示方法を順序決定部１８３に通知する。順序決定部１８３は、分類情報テーブル１４０ａ，１４０ｂから、ステップＳ３１で選択された観点についての分類情報を取得する。そして、ステップＳ３１で選択された順序付け方法に従って、分類情報をソートする。すなわち、順序決定部１８３は、件数もしくは確信度の大きい順に分類情報をソートする。

［ステップＳ３９］順序決定部１８３は、表示方法および表示順序を表示部１８４に通知する。表示部１８４は、表示方法選択部１８１が選択した表示方法および順序決定部１８３が決定した表示順序に従って、分類情報をモニタ１０に表示する。

このようにして、表示方法選択部１８１は分類情報の表示方法、すなわち、表示する観点および順序付け方法を選択する。類似度判定部１８２は、個々の分類情報の特徴ベクトルを作成し、特徴ベクトルの比較によって分類情報間の類似度を判定する。順序決定部１８３は、必要に応じて類似度判定部１８２が判定した類似度を用いて、分類情報の表示順序を決定する。表示部１８４は、順序決定部１８３が決定した表示順序に従って、分類情報をモニタ１０に表示する。

ここで、ステップＳ３４で作成される特徴ベクトルおよびステップＳ３５で判定される類似度について詳細に説明する。
図１０は、特徴ベクトルの作成例を示す図である。図１０は、“制御装置”という特徴情報をもつ分類情報について特徴ベクトルを作成する場合を示している。特徴ベクトルは、特徴情報のユニグラムとバイグラムの集合で構成される。図１０では、特徴ベクトルを行列として表現している。

ユニグラムとは、文字列を１文字単位で分割したものである。例えば、“制御装置”は、“制”、“御”、“装”、“置”の４つのユニグラムに分割される。バイグラムとは、文字列を２文字単位で分割したものである。例えば、“制御装置”は、“制御”、“御装”、“装置”の３つのバイグラムに分割される。従って、“制御装置”から作成される特徴ベクトルは、“制”、“御”、“装”、“置”、“制御”、“御装”、“装置”の７つの要素で構成される。

図１１は、特徴ベクトルの比較例を示す図である。図１０に示した通り、“制御装置”から作成される特徴ベクトルは、“制”、“御”、“装”、“置”、“制御”、“御装”、“装置”の７つの要素で構成される。同様に、“制動装置”から作成される特徴ベクトルは、“制”、“動”、“装”、“置”、“制動”、“動装”、“装置”の７つの要素で構成される。図１１では、特徴ベクトルを行列として表現しており、存在する要素の位置に１、存在しない要素の位置に０を設定している。

類似度判定部１８２は、まず２つの特徴ベクトルを比較し、共通する要素の個数を求める。特徴ベクトルが図１１に示すような行列で表現されている場合は、２つの行列の内積を計算すればよい。図１１に示す“制御装置“と“制動装置”の比較では、共通する要素の個数は４となる。

ここで、共通する要素の個数を類似度とする判定方法も考えられる。しかし、この方法では、特徴情報の文字数が多いほど類似度が高く判定されてしまう。そこで、共通する要素の個数を特徴ベクトルの長さで割った値を類似度とする。例えば、共通する要素の個数である４を、個々の特徴ベクトルの長さである７で割った値を類似度とする。

次に、以上のような処理が実行されることで表示される処理結果の画面について説明する。
図１２は、単一観点による分類情報の表示画面例を示す第１の図である。分析結果表示画面１１は、表示部１８４によってモニタ１０に表示される画面である。分析結果表示画面１１は、ユーザによって観点が“発明対象”に、順序付け方法が“件数の多い順”に指定された場合の表示画面の例である。

分析結果表示画面１１には、１１個の分類情報の特徴情報および件数が、上から下に向かって件数順に表示されている。図１２に示した例では、１４９０件の“制御装置”が先頭に表示され、以下、３５１件の“駆動装置”、１８３件の”発電機”、９３件の“動力伝達装置”の順に表示されている。

図１３は、単一観点による分類表示の画面例を示す第２の図である。分析結果表示画面１２は、表示部１８４によってモニタ１０に表示される画面である。分析結果表示画面１２は、ユーザによって観点が“発明対象”に、順序付け方法が“類似するものを隣接”に、先頭の分類情報が“件数の最も多いもの”に指定された場合の表示画面の例である。

分析結果表示画面１２には、１１個の分類情報の特徴情報および件数が、上から下に向かって順番に表示されている。図１３に示した例では、先頭に、最も件数が多い“制御装置”が表示されている。そして、“制御装置”と類似度が高い“制動装置”、“制動装置”と類似度が高い“駆動装置”、“駆動装置”と類似度が高い“動力伝達装置”の順に表示されている。

ここで、“動力変換機構”および“動力源”は、“動力伝達装置”に従属する項目として表示されている。これは、件数の少ない分類情報を直前の項目に従属する項目とすることで、ユーザの理解容易性を向上させるためである。ユーザは、マウス２２などを用いて分析結果表示画面１２を操作することで、“動力変換機構”および“動力源”の表示を隠すことができる。このような処理は、表示部１８４が行う。なお、図１３に示した例では、件数が１０件未満の分類情報を、直前の項目に従属する項目としている。

図１４は、単一観点による分類表示の画面例を示す第３の図である。分析結果表示画面１３は、分析結果表示画面１２において、ユーザによって先頭の分類情報を“始動装置”に変更する指示が入力された後に、表示部１８４によってモニタ１０に表示される画面である。観点、順序付け方法および表示される分類情報は、分析結果表示画面１２のものと同じである。

先頭には、ユーザによって指定された“始動装置”が表示されている。そして、“始動装置”と類似度が高い“駆動装置”、“駆動装置”と類似度が高い“制動装置”、“制動装置”と類似度が高い“電動装置”の順に表示されている。件数が１０件未満である“動力変換機構”および“動力源”は、直前の“電源システム”に従属する項目として表示されている。

このように、先頭に表示する分類情報が変更されると、それに伴って全体の表示順序が大きく変わる。ユーザは、より理解容易な表示順序になるように、先頭の分類情報を適宜変更することができる。

図１５は、複数観点による分類表示の画面例を示す図である。分析結果表示画面１４は、表示部１８４によってモニタ１０に表示される画面である。分析結果表示画面１４は、ユーザによって観点が“発明対象”および“発明の目的”に、順序付け方法が“類似するものを隣接”に、先頭の分類情報が“件数の最も多いもの”に指定された場合の表示画面の例である。

ユーザによって２つの観点が指定されると、個々の観点についての分類情報が２次元格子の各辺に表示される。図１５に示した例では、横方向に発明の目的の観点の分類情報が表示され、縦方向に発明対象の観点の分類情報が表示されている。各観点の分類情報は、分析結果表示画面１２と同様の方法で表示される。

更に、２つの分類情報についての線が交わる格子点には、件数の多寡を視覚的に表現した円が表示される。円の半径が大きいほど、件数が多いことを示している。例えば、“制御装置”の線と“エネルギー効率”の線とが交わる格子点には、“制御装置”と“エネルギー効率”の両方の特徴情報が抽出された特許文献の件数に相当する円が表示される。表示部１８４は、分類情報テーブル１４０ａ，１４０ｂに加え、特徴情報テーブル１３０ａを更に参照することで、各格子点に表示する円の大きさを決定する。

このような文書分析装置１００を用いることで、特許文献の特徴を端的に表現した特徴情報を、観点毎に自動的に抽出することができる。そして、抽出された特徴情報を集計して、その特徴情報が抽出された特許文献の件数や確信度を計算し表示させることができる。これにより、ユーザは特許の出願や登録の全体的傾向を容易に把握できるようになる。

特に、複数の特徴情報を順序付けて表示する際に、類似する特徴情報が隣接するように表示させることができ、特徴情報間の関係を把握することが容易となる。また、件数や確信度などに応じて一部の特徴情報を一時的に表示させないようにすることもでき、全体的傾向や特徴情報間の関係をより容易に把握できるようになる。また、複数の観点の特徴情報を表形式で表示させることができ、全体的傾向を一目で把握することができる。

なお、本実施の形態では、分析する文書が特許文献である場合を例に挙げて説明したが、他の種類の文書についても同様の分析処理が可能である。この場合、文書の種類に応じた抽出ルールを用意しておけばよい。また、本実施の形態では、文書分析装置１００が全ての分析処理を行うこととしたが、分析処理の一部をサーバコンピュータが行うようにしてもよい。また、特許文献をファイルサーバに格納しておき、文書分析装置１００がファイルサーバからネットワーク経由で特許文献を取得するようにしてもよい。

また、本実施の形態では、特徴ベクトルはユニグラムとバイグラムとで構成されることとしたが、類似度の判定が行えればどのような構成でもかまわない。例えば、ユニグラムのみで構成される特徴ベクトル、バイグラムのみで構成される特徴ベクトルなども考えられる。また、特徴ベクトルの行列表現では、対応する要素がある場合の値を一律に１としたが、特徴情報内に存在する要素の個数を値として用いてもよい。

また、本実施の形態では、１つの分類情報を１つの項目として表示するようにしたが、複数の分類情報をまとめて１つの項目として表示するようにしてもよい。例えば、類似度が所定の閾値以上の分類情報同士をまとめて、１つの項目として表示するようにしてもよい。これにより、特徴情報間の関係をより明確にすることができる。また、ユーザが指定した複数の分類情報をまとめて、１つの項目として表示するようにしてもよい。

以上、本発明のデータ表示制御プログラム、データ表示制御方法およびデータ表示制御装置を図示の実施の形態に基づいて説明したが、本発明はこれに限定されるものではなく、各部の構成は、同様の機能を有する任意の構成のものに置換することができる。また、本発明に、他の任意の構成物や工程が付加されていてもよい。また、本発明は、前述した実施の形態のうちの、任意の２以上の構成（特徴）を組み合わせたものであってもよい。

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、文書分析装置１００が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどが挙げられる。磁気記録装置としては、例えば、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどが挙げられる。光ディスクとしては、例えば、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などが挙げられる。光磁気記録媒体としては、例えば、ＭＯ（Magneto-Optical disk）などが挙げられる。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

データ表示制御プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。

以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
（付記１）複数の文字列データの表示順序を制御するデータ表示制御プログラムにおいて、
コンピュータを、
複数の前記文字列データを記憶するデータ記憶手段、
所定の基準に従って、前記データ記憶手段に記憶された前記文字列データの中から、先頭に表示する前記文字列データを選択する先頭選択手段、
前記データ記憶手段に記憶された２つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する類似度判定手段、
前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、１つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とする順序決定手段、
前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する表示手段、
として機能させることを特徴とするデータ表示制御プログラム。

（付記２）前記順序決定手段は、３番目以降については、１つ前に選択した前記文字列データとの間の前記類似度と、２つ前に選択した前記文字列データとの間の前記類似度との合計が最も高い前記文字列データを次に選択することを特徴とする付記１記載のデータ表示制御プログラム。

（付記３）前記データ記憶手段は、前記文字列データと対応付けて、前記文字列データの重要度を示す値を更に記憶しており、
前記表示手段は、前記重要度が所定の閾値より低い前記文字列データを、１つ前の順位の前記文字列データに従属する項目として表示する、
ことを特徴とする付記１記載のデータ表示制御プログラム。

（付記４）前記先頭選択手段は、ユーザの操作入力によって前記文字列データが指定されると、指定された前記文字列データを、先頭に表示する前記文字列データとして選択することを特徴とする付記１記載のデータ表示制御プログラム。

（付記５）前記データ記憶手段は、前記文字列データと対応付けて、前記文字列データの重要度を示す値を更に記憶しており、
前記先頭選択手段は、前記重要度が最も高い前記文字列データを、先頭に表示する前記文字列データとして選択する、
ことを特徴とする付記１記載のデータ表示制御プログラム。

（付記６）前記類似度判定手段は、前記文字列データから抽出可能な全てのユニグラムとバイグラムとを要素とするデータ集合をそれぞれ作成し、２つの前記データ集合を比較して一致する要素の割合を前記類似度と判定することを特徴とする付記１記載のデータ表示制御プログラム。

（付記７）複数の文字列データの表示順序を制御するコンピュータによるデータ表示制御方法において、
先頭選択手段が、所定の基準に従って、データ記憶手段に記憶された複数の前記文字列データの中から、先頭に表示する前記文字列データを選択し、
類似度判定手段が、前記データ記憶手段に記憶された２つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定すると共に、順序決定手段が、前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、１つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とし、
表示手段が、前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する、
ことを特徴とするデータ表示制御方法。

（付記８）複数の文字列データの表示順序を制御するデータ表示制御装置において、
複数の前記文字列データを記憶するデータ記憶手段と、
所定の基準に従って、前記データ記憶手段に記憶された前記文字列データの中から、先頭に表示する前記文字列データを選択する先頭選択手段と、
前記データ記憶手段に記憶された２つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する類似度判定手段と、
前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、１つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とする順序決定手段と、
前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する表示手段と、
を有することを特徴とするデータ表示制御装置。

本実施の形態の概要を示す図である。文書分析装置のハードウェア構成を示す図である。文書分析装置の機能を示すブロック図である。抽出ルールテーブルのデータ構造例を示す図である。特徴情報テーブルのデータ構造例を示す図である。分類情報テーブルのデータ構造例を示す図である。文書分析処理の手順を示すフローチャートである。特徴情報抽出処理の手順を示すフローチャートである。表示制御処理の手順を示すフローチャートである。特徴ベクトルの作成例を示す図である。特徴ベクトルの比較例を示す図である。単一観点による分類情報の表示画面例を示す第１の図である。単一観点による分類情報の表示画面例を示す第２の図である。単一観点による分類情報の表示画面例を示す第３の図である。複数観点による分類情報の表示画面例を示す図である。

符号の説明

１コンピュータ
１ａデータ記憶手段
１ｂ先頭選択手段
１ｃ類似度判定手段
１ｄ順序決定手段
１ｅ表示手段
２表示装置

Claims

複数の文字列データの表示順序を制御するデータ表示制御プログラムにおいて、
コンピュータを、
複数の前記文字列データを記憶するデータ記憶手段、
所定の基準に従って、前記データ記憶手段に記憶された前記文字列データの中から、先頭に表示する前記文字列データを選択する先頭選択手段、
前記データ記憶手段に記憶された２つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する類似度判定手段、
前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、１つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とする順序決定手段、
前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する表示手段、
として機能させることを特徴とするデータ表示制御プログラム。
前記順序決定手段は、３番目以降については、１つ前に選択した前記文字列データとの間の前記類似度と、２つ前に選択した前記文字列データとの間の前記類似度との合計が最も高い前記文字列データを次に選択することを特徴とする請求項１記載のデータ表示制御プログラム。
前記データ記憶手段は、前記文字列データと対応付けて、前記文字列データの重要度を示す値を更に記憶しており、
前記表示手段は、前記重要度が所定の閾値より低い前記文字列データを、１つ前の順位の前記文字列データに従属する項目として表示する、
ことを特徴とする請求項１記載のデータ表示制御プログラム。
複数の文字列データの表示順序を制御するコンピュータによるデータ表示制御方法において、
先頭選択手段が、所定の基準に従って、データ記憶手段に記憶された複数の前記文字列データの中から、先頭に表示する前記文字列データを選択し、
類似度判定手段が、前記データ記憶手段に記憶された２つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定すると共に、順序決定手段が、前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、１つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とし、
表示手段が、前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する、
ことを特徴とするデータ表示制御方法。
複数の文字列データの表示順序を制御するデータ表示制御装置において、
複数の前記文字列データを記憶するデータ記憶手段と、
所定の基準に従って、前記データ記憶手段に記憶された前記文字列データの中から、先頭に表示する前記文字列データを選択する先頭選択手段と、
前記データ記憶手段に記憶された２つの前記文字列データの組み合わせ毎に、文字列の一致度に基づく類似度を判定する類似度判定手段と、
前記先頭選択手段が選択した前記文字列データから開始して、前記データ記憶手段に記憶された未選択の前記文字列データの中から、１つ前に選択した前記文字列データとの間で前記類似度判定手段が判定した前記類似度が最も高い前記文字列データを順次選択し、選択した順序を表示順序とする順序決定手段と、
前記順序決定手段が決定した表示順序に従って、前記文字列データを表示する表示手段と、
を有することを特徴とするデータ表示制御装置。