JP2009128950A

JP2009128950A - 文書解析支援装置およびプログラム

Info

Publication number: JP2009128950A
Application number: JP2007299855A
Authority: JP
Inventors: Shoichi Tateno; 昌一舘野; Masato Obe; 正人小部
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2007-11-19
Filing date: 2007-11-19
Publication date: 2009-06-11
Anticipated expiration: 2027-11-19
Also published as: JP5109615B2

Abstract

【課題】分析対象の文単位集合の部分集合の語の分布のバラツキに着目して、部分集合においてどのような話題が多く語られているかを把握する。
【解決手段】語出現データ記憶部１５０は、メッセージ番号、語ＩＤ、メッセージに付与された複数の属性の値等を含む語出現データを保持する。頻度計算部１６は、対象語の各々が出現するメッセージが、対象メッセージ集合内にいくつあるかを計算する。比率計算部１７は、メッセージ集合全体およびメッセージ部分集合の各々の頻度分布から語の比率の分布を計算する。比率差分計算部１８は、メッセージ集合全体およびメッセージ部分集合の各々の比率の分布の間の差分を計算する。グラフ表示部１９は、比率分布および比率差分分布からグラフを生成し、適宜、比率差分をソートキーとしてソートを行って表示する。
【選択図】図１

Description

この発明は、文書に含まれる語をグラフ表示する技術に関する。

自由形式で回答するアンケート、苦情文書（メール）等の多量の文書を解析してそれら多量の文書に内在する真実を抽出することが行なわれている。例えば自由回答欄のメッセージを分析して要望、感謝、満足、要求、不満等を抽出して製品開発等にフィードバックすることが望まれる。このような抽出作業は、熟練した作業者が多くの時間をかけて行なわれるのが通常であり、費用または即時性のうえで問題があった。

計算機による言語処理を利用してこのような作業を支援することが望まれる。

なお、この発明と関連するものとしては特許文献１がある。特許文献１は、ベース文書集合の単語頻度ベクトルと新規文書の単語頻度ベクトルとの間の内積を計算して類似度を判定することを開示している。しかしながら、これは文書の類似度を判別するものであり、一般的な場面で文書集合の傾向等を解析するのを支援するものではない。

なお、上述の背景技術やその問題点は、この発明の背景の一部を説明するものにすぎず、この発明は上述の背景技術や問題点に限定されるものではないことを理解されたい。
特開平９−２８２３３１号公報

この発明は、以上の事情を考慮してなされたものであり、対象文書集合に含まれる語を分析して対象文書集合全体を分析するのを支援する技術を提供することを目的としている。

この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なう。

すなわち、この発明の一側面によれば、上述の目的を達成するために、文書解析支援装置に：文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と；上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の１組の比率と、上記比率計算手段が当該全体集合の複数の部分集合のそれぞれに対して計算した部分集合用の複数組の比率との間の複数組の比率差分を計算する差分計算手段と；上記複数組の比率差分の中の１組の差分の大きさに応じて、または上記複数組の比率差分の中の２組の比率差分の間の差分の大きさに応じて、少なくとも上記全体集合用の１組の比率をソートして表示する表示手段とを設けるようにしている。

文書解析支援装置は、典型的には、スタンドアローンのコンピュータシステム、ネットワークに接続されたコンピュータシステム群（クライアント・サーバシステム）等により構成できるが、これに限定されない。

文単位は、１または複数の文からなる一塊の文章であり、以下ではメッセージと呼ぶことがある。文単位は分節等の文の一部であってもよい。文構成要素は典型的には語であるが、これに限定されない。語は例えば名詞であって良い。文構成要素は係り受け関係であってよい。

比率は、所定の文構成要素が出現する文単位の個数を、集合ごとに調整して同一の尺度で対比可能にするものであれば、どのようなものでもよい。すなわち、文単位集合に含まれる文単位の総数は、文単位集合をそのサイズに応じて調整するための文単位集合の基準の総数である。典型的には、所定の文構成要素が出現する文単位の個数を集合中の文単位の総数（要素数）で割ったものであるが、これに限定されない。文構成要素が出現する文単位の個数をすべての文構成要素に渡って総和を取り、この総和で所定の文構成要素が出現する文単位の個数を割っても良い（正規化）。また、計算した値をＮ倍したものでもよいし、ベースとなる値をＮだけ足したり減らしてもよい。

この構成においては、分析対象の文単位集合の部分集合の文構成要素（典型的には語）の分布のバラツキに着目して、全体集合と部分集合とを対比させ、または部分集合同士を対比させてどのような話題がどのような場面で多く語られているかを把握することが可能となる。

また、この構成において、上記表示手段は、上記全体集合用の１組の比率に加えて、上記複数組の比率差分の中の少なくとも１組を表示してもよい。

また、この発明の他の側面によれば、文書解析支援装置を：文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と；上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の１組の比率と、上記比率計算手段が当該全体集合の１の部分集合に対して計算した部分集合用の１組の比率との間の１組の比率差分を計算する差分計算手段と；上記１組の比率差分の大きさに応じて、少なくとも上記全体集合用の１組の比率をソートして表示する表示手段とを設けている。

この構成においては、分析対象の文単位集合の全体集合の文構成要素（典型的には語）の分布のバラツキと部分集合の文構成要素の分布のバラツキとを対比させ、部分集合に対応する場面でどのような話題が多く、または少なく語られているかを把握することが可能となる。

また、この構成において、上記表示手段は、上記全体集合用の１組の比率に加えて、上記１組の比率差分を表示してもよい。

また、上記部分集合は文単位の属性に基づいて決定されてよい。属性は、文単位に関係付けられた（作成者の）年齢、年齢範囲、性別、組織別、住居範囲、職業、時期（例えばアンケートの回答時期、時間経過、季節）等であるが、これに限定されない。また、上記部分集合は文単位に含まれる語によって決定されてもよい。例えば、語により検索して絞り込んだ部分集合を採用できるが、検索の要否に制限されない。

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。

この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。

この発明によれば、対象文書集合に含まれる語を分析して対象文書集合全体を分析するのを支援することができる。

以下、この発明の実施例について説明する。

図１は、この発明の実施例１の文書解析支援示システム１１０を全体として示している。この例では、コンピュータ２００上のソフトウェアとして実現している。ソフトウェアは周知の手法により記録媒体２０１を用いたり、通信回線を用いてコンピュータ２００にインストールできる。図ではスタンドアローンの構成となっているが、ネットワークにより接続されたサーバ装置およびクライアント装置で構成しても良い。実施例１の文書解析支援システム１１０の各機能ブロックは、典型的には、ソフトウェアおよびコンピュータ２００のハードウェア資源が協働して実現する。

文書解析支援システム１１０は、例えば、アンケートの回答を解析を目的として、回答内に含まれる自由形式のメッセージ（１または複数の文からなる文単位）の傾向をメッセージに含まれる語を含むグラフを表示して提示する。固定形式の回答（選択枝、または固定語）を併せて用いてもよい。

この実施例では、典型的には、図８に示すように、語群中の語（名詞部）の各々についてそれを含み全体メッセージ集合中のメッセージの頻度の分布を表示するとともに全体集合における頻度と部分集合（例えば女性のメッセージの集合）中の頻度との差分の分布、あるいは、部分集合同士の頻度の差分を表示する。これにより、部分集合に特徴的な語を顕在化させることが可能になる。差分をキーとして語のソートを行なえば、特徴的な語を即座に把握可能になる（図１０参照）。以下、具体的に説明する。

図１において、文書解析支援システム１１０は、語出現データ記憶部１５、頻度計算部１６、比率計算部１７、比率差分計算部１８、グラフ表示部１９等を含んで構成される。

語出現データ記憶部１５０は、例えば、図４に示すようなデータ構造の語出現データを保持する。この例では、語出現データはメッセージ番号、語ＩＤ、メッセージ（アンケートの回答）に付与された複数の属性の値を含むが、これに限定されない。属性は、性別、年齢（年齢範囲）、居住地範囲等である。１のメッセージにＮ個の異なり語が含まれる場合には、Ｎ個の語出現データが準備される。準備対象の語を名詞等の品詞で限定してもよい。
語出現データの具体的な例は、これに限定されないが、例えば図５に示すようなものであり、メッセージ番号、述部を受け部とする係り受け関係、メッセージ（文）、メッセージの属性値（「ｆａｃｔ」欄）を含んでなる。例えば、最上行のデータは、メッセージ番号が１０４１９で、述部（受け部）が「合う」で名詞部（係り部）が「肌」である。係り部を助詞の「は」、「が」、「を」、「に」、「で」等で区分して表示できるので、係り受け関係を参照するだけで全体としての意味内容の把握が容易になる。

分析対象のデータは、例えば、図６に示すようなデータであり、典型的には自由形式回答および固定形式回答を含むアンケートの回答から準備されたものである。この例では、データはメッセージ番号、属性としての性別、年齢範囲（固定回答）、コメント（メッセージ、自由回答）を含む。なお、メッセージから語を抽出する処理の例は以下の実施例２で詳述するが、周知の形態素解析等を採用できる。

頻度計算部１６は、対象語の各々が出現するメッセージが、対象メッセージ集合内にいくつあるかを計算するものであり、典型的には、語ＩＤごとに語出現データの個数を計算するけれども、語ごとのメッセージ数のヒストグラムを生成するものであれば、どのような手法を採用してもよい。頻度計算部１６は、メッセージ集合全体に対する頻度分布データおよびメッセージ部分集合の各々に対する頻度分布データを生成する。頻度分布データの例を図７に示す。

比率計算部１７は、メッセージ集合全体およびメッセージ部分集合の各々の頻度分布から語の比率の分布を計算する。比率は、典型的には、語ごとのメッセージの頻度をメッセージの総数で割ったものであるけれども、メッセージ集合全体、部分集合の各々の語の頻度を同等の尺度で比較可能にするものであれば、どのようなものでもよい。頻度合計で各頻度を割ってもよい（正規化）。この実施例では、メッセージ集合の全体の比率の分布が図８の左欄の「全体」の棒グラフで示される。

比率差分計算部１８は、メッセージ集合全体およびメッセージ部分集合の各々の比率の分布の間の差分を計算するものである。この例ではメッセージ集合全体の比率の分布とメッセージ部分集合の各々の比率の分布との間の差分を図８に中央から右欄にかけて（「全体」の棒グラフの右側）表示している。図８の例では、全体に対する「女性との差分」、全体に対する「１９歳以下との差分」、全体に対する２０〜２９歳との差分」等が表示されている。なお、この例では、部分集合の比率の分布同士の差分は、後述するようにソートキーに用いられるだけで、表示されないが、表示するようにしてもよい。

グラフ表示部１９は、比率分布および比率差分分布からグラフを生成するものである。グラフの表示例は図８にしめすとおりである。棒グラフでなく、折れ線グラフ等を表示してもよいし、色等の表示属性で表示してもよいし、数値自体を表示してもよい。

図３はこの実施例において比率、比率差分を計算し、当初のグラフを表示するまでの動作例を示しており、その処理は以下のとおりである。

［ステップＳ１０］：メッセージの全体集合を頻度計算の対象にセットする。
［ステップＳ１１］：語の頻度を計算する。
［ステップＳ１２］：比率を計算して所定の記憶手段に記憶する。記憶手段は語出現データ記憶部１５がかねても良い。
［ステップＳ１３］：処理対象の部分集合が残っているかどうか判別する。残っていればステップ１４へ進む。残っていなければステップＳ１５へ進む。
［ステップＳ１４］：残っているメッセージの部分集合のうちの１つを対象にセットし、ステップＳ１１へ戻り、処理を繰り返す。
［ステップＳ１５］：比率差分を計算して所定の記憶手段に記憶する。記憶手段は語出現データ記憶部１５がかねても良い。
［ステップＳ１６］：全体集合の比率をソートキーとして語をソートする。
［ステップＳ１７］：全体集合の比率、部分集合との比率差分をグラフ表示する。

図８は、メッセージの全体の集合の語ごとの比率（「全体」）、「全体」の比率と部分集合の比率との比率差分を棒グラフで表示した例を示す。この図では、「全体」における比率をソートキーとしてソートしているので、メッセージ全体においてどのような語（話題）が多く語られているかが把握できる。図８の例では大きい順にソートしたが、小さい順にソートすれば、どのような語（話題）が語られていないかを把握できる。

図４はこの実施例においてソート条件を変更したときの動作例を示しており、その処理は以下のとおりである。ソート条件は例えば図９に示すユーザインタフェース例を用いて設定できる。基準列（下側のメニュー）は差分される側（「Ａ−Ｂ」の「Ａ」）を示し、対象列（上側のメニュー）は差分する側（「Ｂ」）を示す。指定された条件で比率の差分を取り、この比率差分をソートキーとしてソート（大きい順または小さい順）する。この例では、「全体」に対する部分集合の比率差分はグラフ表示されるけれども、異なる部分集合同士を基準列、対象列の双方に指定した場合には、比率差分はソートキーとして用いられるだけで表示されない。もちろん、この場合にも比率差分を表示しても良い。

［ステップＳ２０］：図９に示されるユーザインタフェース例を用いてソートキーを設定する。なお、図９の例では、「全体」に対する「女性との差分」をソートキーとして設定している。
［ステップＳ２１］：ソートキーとして指定された比率データ／比率差分データを用いてソートを行なう。
［ステップＳ２２］：全体集合の比率、部分集合との比率差分をグラフ表示する。

図９のように設定した場合には（「女性との差分」でソート）、図１０に示すようなグラフ表示が得られる。この図からは、その上位にランクされた語を参照して、「女性」の部分集合では、「全体」より多く話題になっているのが何かを把握できる。この例では、「メール」、「学生」、「人」等が多く話題になっていることがわかる。また、「学生」は全体では話題になりにくいが、「女性」の部分集合では話題になりやすいことが分かる。「人」はこの逆の傾向を示すことが分かる。

同様にして「全体」の集合に対する各部分集合の特徴を把握することができきる。

また、この実施例では部分集合同士を対比させることも可能である。図１１は、「１９歳以下」の部分集合と「女性」の部分集合とを対比させるソート設定の例を示す。この例では、「女性との差分」（全体集合に対する女性の部分集合の差分）を基準列に設定し、「１９最以下との差分」（全体集合に対する１９歳以下の部分集合の差分）を対象列に設定して、「１９歳以下」の部分集合と「女性」の部分集合とを対比させるソートする。

図１２はこのときの表示例を示す。この例からは、上位に位置する語、「私」、「学生」、「お金」等が１９歳以下の部分集合でより多く語られることがわかる。小さい順にソートすると、「１９歳以下」の部分集合に較べて「女性」の部分集合で多く語られている語（話題）を把握できる。

また、この実施例では検索語を指定してそれを含む部分集合を生成して対比的に表示してもよい。検索を実行した検索語（例えば「マナー」）は図１３に示すように対象列または基準列のオプションとして追加され、対象列または基準列として指定可能である。

図１３は「マナーとの差分」（全体集合に対するマナーを含む部分集合の比率差分）を対象列とし「全体」を基準列としてソート設定を行うユーザインタフェース例を示す。

図１４は図１３のユーザインタフェース例で設定したソート条件における表示例を示す。この例では「マナー」に加え「人」、「電車」が上位に位置し、「マナー」を含むメッセージでは、「人」や「電車」についての話題が一般的なメッセージより多きことが分かる。

このようにこの実施例によれば、メッセージの集合を部分集合に層別して層別した部分集合でどのような話題が多く語られているかを把握できる。

つぎにこの発明を具体的に適用した実施例２の文書解析支援システム１００について説明する。

図１５は、この発明の具体的な実施例２の文書解析支援システム１００を全体として示している。この例では、文書解析支援システム１００をコンピュータ２００上のソフトウェアとして実現している。ソフトウェアは周知の手法により記録媒体２０１を用いたり、通信回線を用いてコンピュータ２００にインストールできる。図ではスタンドアローンの構成となっているが、ネットワークにより接続されたサーバ装置およびクライアント装置で構成しても良い。実施例２の文書解析支援システム１１０の各機能ブロックは、典型的には、ソフトウェアおよびコンピュータ２００のハードウェア資源が協働して実現する。なお、図１５において図１と対応する箇所には対応する符号を付した。

図１５において、文書解析支援システム１００は、文書入力部１０、形態素解析部１１、構文解析部１２、構文解析結果データ記憶部１３、係り受け関係抽出部１４、係り受け関係集合記憶部１５０、頻度計算部１６、比率計算部１７、比率差分計算部１８、グラフ表示部１９等を含んで構成されている。この例では、一群の文からなる文書データから係り受け関係の集合を抽出して係り受け関係集合記憶部１５０に記憶するようにしているけれども、外部から係り受け関係集合を取得して係り受け関係集合記憶部１５０に記憶するようにしても良い。

この実施例では、文書データから抽出した係り受け関係のデータ（以下に述べるように基礎意味チャンクといい、用言節等の受け部分を共通にする範囲で一まとめにされたものである）を、係り受け関係に着目して係り語、受け語、その他の語で検索し、典型的には、係り語や受け語を対比させて表示して、文の把握を支援することも可能である。

文書入力部１０は、一群のアンケート（自由形式のアンケートの回答。メッセージ）や一群の電子メール等の文書データ（コーパスともいう）を入力するものであり、文書データは後続の形態素解析等を行なうために適宜に前処理されてもよい。文書入力部１０は、文書データを入力できるものであればどのようなものでもよく、例えば、ファイルシステム、外部記憶装置、通信回線、Ｉ／Ｏ装置等から構成される。文書入力部１０は、アンケートや電子メール等のメッセージを受信するシステムであってもよいし、文字認識装置、音声認識装置等であってもよい。文書データの例は例えば図１７に示すようなものであり、この例では、化粧品のアンケート結果から取得した文が文の番号を割り当てられて管理されている。

形態素解析部１１は、周知の任意の形態素解析手法で形態素解析辞書を参照して文を形態素に分解するものである。形態素解析は例えば図１８に示すように行なわれる。

構文解析部１２は、周知の任意の構文解析手法で、構文規則に基づいて、形態素解析結果を構文解析する。すなわち、図１６に示すように、一群の文のデータ（コーパス）が文書入力部１０により入力される（Ｓ１１０）。形態素解析部１１は、１つの文のデータを処理対象として取り出し、形態素解析を行い、構文解析部１２は形態素解析結果に基づいて構文解析を行なう（Ｓ１１１〜Ｓ１１３）。構文解析結果は構文解析結果データ記憶部１３に登録され、すべての文について以上の処理を繰り返す（Ｓ１１４、Ｓ１１５）。構文解析結果は例えば図１９に示すようなものであり、理解を容易にするためにこれを木構造で表すと図２０に示すようになる。

係り受け関係抽出部１４は、係り受け関係抽出規則を構文解析結果のデータに適用して係り受け関係集合を抽出して、係り受け関係集合記憶部１５に記録するものである。係り受け関係抽出規則は例えば図２２に示すようなものであり、図中、「＊」は任意個のサブ木（分の構文解析木の部分をなす要素）である。この例では連用の係り受け関係を抽出するものであるが、連体の係り受け関係についても同様である。係り受け関係抽出規則を用いて例えば図２０に矢印で示すように係り受け関係を抽出できる。この例では連用の係り受け関係を示している。

係り受け関係抽出部１４は、図２１に示すように、抽出規則を入力し（Ｓ１２０）、該当する係り受け関係を構文解析結果のデータから抽出して（Ｓ１２１）、係り受け関係集合記憶部１５に記憶する（Ｓ１２２）。

抽出された係り受け関係のデータは、用言節等の受け部分を共通にする範囲で一まとめにされた態様で表現される（図２３参照）。係り部は０個または複数個である。以下では、このようなデータを基礎意味チャンクとも呼ぶ。基礎意味チャンクは、例えばプログラミング言語Ｐｒｏｌｏｇのファクト形式のデータ構造で表され、図２４はこのようなデータ構造の例を示す。このデータ構造では、基礎意味チャンクとチャンク述部の２種類のデータからなる。図２４の例では、「１」は文番号を示し、「紹介，する，た」は用言節の形態素列を終止形で並べたものであり、「２３，３１」はその出現位置を示すバイトオフセットであり、「太郎，は」、「５，１１」、「花子，を」、「１７，２３」、「次郎，に」、「１１，１７」はそれぞれ受け部分の形態素列およびそれぞれの出現位置を示すバイトオフセットである。「３」は係り受けの個数を示す。「紹介＿例文」はコーパスの名称である。

係り受け関係集合記憶部１５は係り受け関係集合（基礎意味チャンク集合）を記憶するものである。係り受け関係集合記憶部１５は実施例１の語出現データ記憶部１５０に対応し、係り受け関係集合は例えば図５に示すようなものと同じである。

頻度計算部１６、比率計算部１７、比率差分計算部１８、グラフ表示部１９は、実施例１の頻度計算部１６、比率計算部１７、比率差分計算部１８、グラフ表示部１９に対応するものである。

すなわち、頻度計算部１６は、係り受け関係の各々が出現するメッセージが対象メッセージ集合内にいくつあるかを計算するものであり、典型的には、係り受け関係ごとに当該語を含むメッセージの個数を計算する。

比率計算部１７は、メッセージ集合全体およびメッセージ部分集合の各々の頻度分布から語の比率の分布を計算する。比率差分計算部１８は、メッセージ集合全体およびメッセージ部分集合の各々の比率の分布の間の差分を計算するものである。グラフ表示部１９は、比率分布および比率差分分布からグラフを生成するものである。グラフの表示例は図８にしめすとおりである。棒グラフでなく、折れ線グラフ等を表示してもよいし、色等の表示属性で表示してもよいし、数値自体を表示してもよい。

図２５はこの実施例で「女性との差分」を対象列に設定し、「全体」を基準列に設定して係り受け関係の比率および比率差分をグラフ標示したものである。この例では、「女性との差分」をソートキーとして大きい順にソートしている。上位には、「携帯−持つ」、「学生−持つ」、「メール−する」、「子供−持つ」、「人−いる」等の係り受け関係（この例では述部を受け部とする連用の係り受け関係を示すが、これに限定されず、連体の係り受け関係でも良い）があり、全体として「全体」と「女性」のメッセージの間には同様な傾向が見られる。ただし、「学生−持つ」、「メール−する」は、「女性」の間では多く話題になるが、「全体」では話題になるのが若干少ないことが分かる。

なお、この発明は特許請求の範囲の記載に基づいて決定されるものであり、実施例の具体的な構成、課題、および効果には限定されない。この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、グラフ表示された語を指定して、その語を含む係り受け関係やメッセージ自体を表示したりしてもよく、またグラフ表示される係り受け関係を指定して、その係り受け関係を含むメッセージを指定したり、グラフ表示される係り受け関係の係り部または受け部を指定して該当する係り受け関係やメッセージを表示しても良い。

この発明の実施例１の構成を説明するブロック図である。上述実施例１の動作例の一部を説明するフローチャートである。上述実施例１の動作例の他の一部を説明するフローチャートである。上述実施例１の語出現データを説明する図であるである。上述実施例１の係り受け関係の語出現データを説明する図である。上述実施例１の分析対象データの例を説明する図である。上述実施例１で準備する頻度分布データの例を説明する図である。上述実施例１の比率差分グラフの表示例を説明する図である。上述実施例１のソート設定のユーザインタフェース例を説明する図である。上述実施例１のソート後の比率差分グラフの表示例を説明する図である。上述実施例１の他のソート設定例を説明する図である。上述実施例１の図１１に対応する比率差分グラフの表示例を説明する図である。上述実施例１の他のソート設定例を説明する図である。上述実施例１の図１３に対応する比率差分グラフの表示例を説明する図である。この発明の実施例２の構成を全体として示すブロック図である。上述実施例２の構文解析結果取得動作例を説明するフローチャートである。上述実施例２の文書データの例を説明する図である。上述実施例２の形態素解析の例を説明する図である。上述実施例２の構文解析結果の例を説明する図である。上述実施例２の構文解析結果の木構造表現を説明する図である。上述実施例２の係り受け関係抽出の動作例を説明するフローチャートである。上述実施例２の係り受け関係抽出規則の例を説明する図である。上述実施例２の係り受け関係の抽出結果の例を説明する図である。上述実施例２の係り受け関係のデータ構造の例を説明する図である。上述実施例２の比率差分グラフの表示例を説明する図である。

符号の説明

１１０文書解析支援システム
１５語出現データ記憶部
１６頻度計算部
１７比率計算部
１８比率差分計算部
１９グラフ表示部

Claims

文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と、
上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の１組の比率と、上記比率計算手段が当該全体集合の複数の部分集合のそれぞれに対して計算した部分集合用の複数組の比率との間の複数組の比率差分を計算する差分計算手段と、
上記複数組の比率差分の中の１組の差分の大きさに応じて、または上記複数組の比率差分の中の２組の比率差分の間の差分の大きさに応じて、少なくとも上記全体集合用の１組の比率をソートして表示する表示手段とを有することを特徴とする文書解析支援装置。
上記表示手段は、上記全体集合用の１組の比率に加えて、上記複数組の比率差分の中の少なくとも１組を表示する請求項１記載の文書解析支援装置。
文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と、
上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の１組の比率と、上記比率計算手段が当該全体集合の１の部分集合に対して計算した部分集合用の１組の比率との間の１組の比率差分を計算する差分計算手段と、
上記１組の比率差分の大きさに応じて、少なくとも上記全体集合用の１組の比率をソートして表示する表示手段とを有することを特徴とする文書解析支援装置。
上記表示手段は、上記全体集合用の１組の比率に加えて、上記１組の比率差分を表示する請求項３記載の文書解析支援装置。
上記部分集合は文単位の属性に基づいて決定される請求項１〜４のいずれかに記載の文書解析支援装置。
上記部分集合は文単位に含まれる語によって決定される請求項１〜５のいずれかに記載の文書解析支援装置。
上記文構成要素は語である請求項１〜６のいずれかに記載の文書解析支援装置。
上記文構成要素は名詞である請求項７に記載の文書解析支援装置。
上記文構成要素は係り受け関係である請求項１〜８のいずれかに記載の文書解析支援装置。
上記表示手段は棒グラフを用いて表示を行う請求項１〜９のいずれかに記載の文書解析支援装置。
文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段、
上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の１組の比率と、上記比率計算手段が当該全体集合の複数の部分集合のそれぞれに対して計算した部分集合用の複数組の比率との間の複数組の比率差分を計算する差分計算手段、
上記複数組の比率差分の中の１組の差分の大きさに応じて、または上記複数組の比率差分の中の２組の比率差分の間の差分の大きさに応じて、少なくとも上記全体集合用の１組の比率をソートして表示する表示手段として、
コンピュータを機能させることを特徴とする文書解析用プログラム。