JP2009128950A - 文書解析支援装置およびプログラム - Google Patents

文書解析支援装置およびプログラム Download PDF

Info

Publication number
JP2009128950A
JP2009128950A JP2007299855A JP2007299855A JP2009128950A JP 2009128950 A JP2009128950 A JP 2009128950A JP 2007299855 A JP2007299855 A JP 2007299855A JP 2007299855 A JP2007299855 A JP 2007299855A JP 2009128950 A JP2009128950 A JP 2009128950A
Authority
JP
Japan
Prior art keywords
ratio
sentence
differences
message
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007299855A
Other languages
English (en)
Other versions
JP5109615B2 (ja
Inventor
Shoichi Tateno
昌一 舘野
Masato Obe
正人 小部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007299855A priority Critical patent/JP5109615B2/ja
Publication of JP2009128950A publication Critical patent/JP2009128950A/ja
Application granted granted Critical
Publication of JP5109615B2 publication Critical patent/JP5109615B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】分析対象の文単位集合の部分集合の語の分布のバラツキに着目して、部分集合においてどのような話題が多く語られているかを把握する。
【解決手段】語出現データ記憶部150は、メッセージ番号、語ID、メッセージに付与された複数の属性の値等を含む語出現データを保持する。頻度計算部16は、対象語の各々が出現するメッセージが、対象メッセージ集合内にいくつあるかを計算する。比率計算部17は、メッセージ集合全体およびメッセージ部分集合の各々の頻度分布から語の比率の分布を計算する。比率差分計算部18は、メッセージ集合全体およびメッセージ部分集合の各々の比率の分布の間の差分を計算する。グラフ表示部19は、比率分布および比率差分分布からグラフを生成し、適宜、比率差分をソートキーとしてソートを行って表示する。
【選択図】図1

Description

この発明は、文書に含まれる語をグラフ表示する技術に関する。
自由形式で回答するアンケート、苦情文書(メール)等の多量の文書を解析してそれら多量の文書に内在する真実を抽出することが行なわれている。例えば自由回答欄のメッセージを分析して要望、感謝、満足、要求、不満等を抽出して製品開発等にフィードバックすることが望まれる。このような抽出作業は、熟練した作業者が多くの時間をかけて行なわれるのが通常であり、費用または即時性のうえで問題があった。
計算機による言語処理を利用してこのような作業を支援することが望まれる。
なお、この発明と関連するものとしては特許文献1がある。特許文献1は、ベース文書集合の単語頻度ベクトルと新規文書の単語頻度ベクトルとの間の内積を計算して類似度を判定することを開示している。しかしながら、これは文書の類似度を判別するものであり、一般的な場面で文書集合の傾向等を解析するのを支援するものではない。
なお、上述の背景技術やその問題点は、この発明の背景の一部を説明するものにすぎず、この発明は上述の背景技術や問題点に限定されるものではないことを理解されたい。
特開平9−282331号公報
この発明は、以上の事情を考慮してなされたものであり、対象文書集合に含まれる語を分析して対象文書集合全体を分析するのを支援する技術を提供することを目的としている。
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なう。
すなわち、この発明の一側面によれば、上述の目的を達成するために、文書解析支援装置に:文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と;上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の1組の比率と、上記比率計算手段が当該全体集合の複数の部分集合のそれぞれに対して計算した部分集合用の複数組の比率との間の複数組の比率差分を計算する差分計算手段と;上記複数組の比率差分の中の1組の差分の大きさに応じて、または上記複数組の比率差分の中の2組の比率差分の間の差分の大きさに応じて、少なくとも上記全体集合用の1組の比率をソートして表示する表示手段とを設けるようにしている。
文書解析支援装置は、典型的には、スタンドアローンのコンピュータシステム、ネットワークに接続されたコンピュータシステム群(クライアント・サーバシステム)等により構成できるが、これに限定されない。
文単位は、1または複数の文からなる一塊の文章であり、以下ではメッセージと呼ぶことがある。文単位は分節等の文の一部であってもよい。文構成要素は典型的には語であるが、これに限定されない。語は例えば名詞であって良い。文構成要素は係り受け関係であってよい。
比率は、所定の文構成要素が出現する文単位の個数を、集合ごとに調整して同一の尺度で対比可能にするものであれば、どのようなものでもよい。すなわち、文単位集合に含まれる文単位の総数は、文単位集合をそのサイズに応じて調整するための文単位集合の基準の総数である。典型的には、所定の文構成要素が出現する文単位の個数を集合中の文単位の総数(要素数)で割ったものであるが、これに限定されない。文構成要素が出現する文単位の個数をすべての文構成要素に渡って総和を取り、この総和で所定の文構成要素が出現する文単位の個数を割っても良い(正規化)。また、計算した値をN倍したものでもよいし、ベースとなる値をNだけ足したり減らしてもよい。
この構成においては、分析対象の文単位集合の部分集合の文構成要素(典型的には語)の分布のバラツキに着目して、全体集合と部分集合とを対比させ、または部分集合同士を対比させてどのような話題がどのような場面で多く語られているかを把握することが可能となる。
また、この構成において、上記表示手段は、上記全体集合用の1組の比率に加えて、上記複数組の比率差分の中の少なくとも1組を表示してもよい。
また、この発明の他の側面によれば、文書解析支援装置を:文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と;上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の1組の比率と、上記比率計算手段が当該全体集合の1の部分集合に対して計算した部分集合用の1組の比率との間の1組の比率差分を計算する差分計算手段と;上記1組の比率差分の大きさに応じて、少なくとも上記全体集合用の1組の比率をソートして表示する表示手段とを設けている。
この構成においては、分析対象の文単位集合の全体集合の文構成要素(典型的には語)の分布のバラツキと部分集合の文構成要素の分布のバラツキとを対比させ、部分集合に対応する場面でどのような話題が多く、または少なく語られているかを把握することが可能となる。
また、この構成において、上記表示手段は、上記全体集合用の1組の比率に加えて、上記1組の比率差分を表示してもよい。
また、上記部分集合は文単位の属性に基づいて決定されてよい。属性は、文単位に関係付けられた(作成者の)年齢、年齢範囲、性別、組織別、住居範囲、職業、時期(例えばアンケートの回答時期、時間経過、季節)等であるが、これに限定されない。また、上記部分集合は文単位に含まれる語によって決定されてもよい。例えば、語により検索して絞り込んだ部分集合を採用できるが、検索の要否に制限されない。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
この発明によれば、対象文書集合に含まれる語を分析して対象文書集合全体を分析するのを支援することができる。
以下、この発明の実施例について説明する。
図1は、この発明の実施例1の文書解析支援示システム110を全体として示している。この例では、コンピュータ200上のソフトウェアとして実現している。ソフトウェアは周知の手法により記録媒体201を用いたり、通信回線を用いてコンピュータ200にインストールできる。図ではスタンドアローンの構成となっているが、ネットワークにより接続されたサーバ装置およびクライアント装置で構成しても良い。実施例1の文書解析支援システム110の各機能ブロックは、典型的には、ソフトウェアおよびコンピュータ200のハードウェア資源が協働して実現する。
文書解析支援システム110は、例えば、アンケートの回答を解析を目的として、回答内に含まれる自由形式のメッセージ(1または複数の文からなる文単位)の傾向をメッセージに含まれる語を含むグラフを表示して提示する。固定形式の回答(選択枝、または固定語)を併せて用いてもよい。
この実施例では、典型的には、図8に示すように、語群中の語(名詞部)の各々についてそれを含み全体メッセージ集合中のメッセージの頻度の分布を表示するとともに全体集合における頻度と部分集合(例えば女性のメッセージの集合)中の頻度との差分の分布、あるいは、部分集合同士の頻度の差分を表示する。これにより、部分集合に特徴的な語を顕在化させることが可能になる。差分をキーとして語のソートを行なえば、特徴的な語を即座に把握可能になる(図10参照)。以下、具体的に説明する。
図1において、文書解析支援システム110は、語出現データ記憶部15、頻度計算部16、比率計算部17、比率差分計算部18、グラフ表示部19等を含んで構成される。
語出現データ記憶部150は、例えば、図4に示すようなデータ構造の語出現データを保持する。この例では、語出現データはメッセージ番号、語ID、メッセージ(アンケートの回答)に付与された複数の属性の値を含むが、これに限定されない。属性は、性別、年齢(年齢範囲)、居住地範囲等である。1のメッセージにN個の異なり語が含まれる場合には、N個の語出現データが準備される。準備対象の語を名詞等の品詞で限定してもよい。
語出現データの具体的な例は、これに限定されないが、例えば図5に示すようなものであり、メッセージ番号、述部を受け部とする係り受け関係、メッセージ(文)、メッセージの属性値(「fact」欄)を含んでなる。例えば、最上行のデータは、メッセージ番号が10419で、述部(受け部)が「合う」で名詞部(係り部)が「肌」である。係り部を助詞の「は」、「が」、「を」、「に」、「で」等で区分して表示できるので、係り受け関係を参照するだけで全体としての意味内容の把握が容易になる。
分析対象のデータは、例えば、図6に示すようなデータであり、典型的には自由形式回答および固定形式回答を含むアンケートの回答から準備されたものである。この例では、データはメッセージ番号、属性としての性別、年齢範囲(固定回答)、コメント(メッセージ、自由回答)を含む。なお、メッセージから語を抽出する処理の例は以下の実施例2で詳述するが、周知の形態素解析等を採用できる。
頻度計算部16は、対象語の各々が出現するメッセージが、対象メッセージ集合内にいくつあるかを計算するものであり、典型的には、語IDごとに語出現データの個数を計算するけれども、語ごとのメッセージ数のヒストグラムを生成するものであれば、どのような手法を採用してもよい。頻度計算部16は、メッセージ集合全体に対する頻度分布データおよびメッセージ部分集合の各々に対する頻度分布データを生成する。頻度分布データの例を図7に示す。
比率計算部17は、メッセージ集合全体およびメッセージ部分集合の各々の頻度分布から語の比率の分布を計算する。比率は、典型的には、語ごとのメッセージの頻度をメッセージの総数で割ったものであるけれども、メッセージ集合全体、部分集合の各々の語の頻度を同等の尺度で比較可能にするものであれば、どのようなものでもよい。頻度合計で各頻度を割ってもよい(正規化)。この実施例では、メッセージ集合の全体の比率の分布が図8の左欄の「全体」の棒グラフで示される。
比率差分計算部18は、メッセージ集合全体およびメッセージ部分集合の各々の比率の分布の間の差分を計算するものである。この例ではメッセージ集合全体の比率の分布とメッセージ部分集合の各々の比率の分布との間の差分を図8に中央から右欄にかけて(「全体」の棒グラフの右側)表示している。図8の例では、全体に対する「女性との差分」、全体に対する「19歳以下との差分」、全体に対する20〜29歳との差分」等が表示されている。なお、この例では、部分集合の比率の分布同士の差分は、後述するようにソートキーに用いられるだけで、表示されないが、表示するようにしてもよい。
グラフ表示部19は、比率分布および比率差分分布からグラフを生成するものである。グラフの表示例は図8にしめすとおりである。棒グラフでなく、折れ線グラフ等を表示してもよいし、色等の表示属性で表示してもよいし、数値自体を表示してもよい。
図3はこの実施例において比率、比率差分を計算し、当初のグラフを表示するまでの動作例を示しており、その処理は以下のとおりである。
[ステップS10]:メッセージの全体集合を頻度計算の対象にセットする。
[ステップS11]:語の頻度を計算する。
[ステップS12]:比率を計算して所定の記憶手段に記憶する。記憶手段は語出現データ記憶部15がかねても良い。
[ステップS13]:処理対象の部分集合が残っているかどうか判別する。残っていればステップ14へ進む。残っていなければステップS15へ進む。
[ステップS14]:残っているメッセージの部分集合のうちの1つを対象にセットし、ステップS11へ戻り、処理を繰り返す。
[ステップS15]:比率差分を計算して所定の記憶手段に記憶する。記憶手段は語出現データ記憶部15がかねても良い。
[ステップS16]:全体集合の比率をソートキーとして語をソートする。
[ステップS17]:全体集合の比率、部分集合との比率差分をグラフ表示する。
図8は、メッセージの全体の集合の語ごとの比率(「全体」)、「全体」の比率と部分集合の比率との比率差分を棒グラフで表示した例を示す。この図では、「全体」における比率をソートキーとしてソートしているので、メッセージ全体においてどのような語(話題)が多く語られているかが把握できる。図8の例では大きい順にソートしたが、小さい順にソートすれば、どのような語(話題)が語られていないかを把握できる。
図4はこの実施例においてソート条件を変更したときの動作例を示しており、その処理は以下のとおりである。ソート条件は例えば図9に示すユーザインタフェース例を用いて設定できる。基準列(下側のメニュー)は差分される側(「A−B」の「A」)を示し、対象列(上側のメニュー)は差分する側(「B」)を示す。指定された条件で比率の差分を取り、この比率差分をソートキーとしてソート(大きい順または小さい順)する。この例では、「全体」に対する部分集合の比率差分はグラフ表示されるけれども、異なる部分集合同士を基準列、対象列の双方に指定した場合には、比率差分はソートキーとして用いられるだけで表示されない。もちろん、この場合にも比率差分を表示しても良い。
[ステップS20]:図9に示されるユーザインタフェース例を用いてソートキーを設定する。なお、図9の例では、「全体」に対する「女性との差分」をソートキーとして設定している。
[ステップS21]:ソートキーとして指定された比率データ/比率差分データを用いてソートを行なう。
[ステップS22]:全体集合の比率、部分集合との比率差分をグラフ表示する。
図9のように設定した場合には(「女性との差分」でソート)、図10に示すようなグラフ表示が得られる。この図からは、その上位にランクされた語を参照して、「女性」の部分集合では、「全体」より多く話題になっているのが何かを把握できる。この例では、「メール」、「学生」、「人」等が多く話題になっていることがわかる。また、「学生」は全体では話題になりにくいが、「女性」の部分集合では話題になりやすいことが分かる。「人」はこの逆の傾向を示すことが分かる。
同様にして「全体」の集合に対する各部分集合の特徴を把握することができきる。
また、この実施例では部分集合同士を対比させることも可能である。図11は、「19歳以下」の部分集合と「女性」の部分集合とを対比させるソート設定の例を示す。この例では、「女性との差分」(全体集合に対する女性の部分集合の差分)を基準列に設定し、「19最以下との差分」(全体集合に対する19歳以下の部分集合の差分)を対象列に設定して、「19歳以下」の部分集合と「女性」の部分集合とを対比させるソートする。
図12はこのときの表示例を示す。この例からは、上位に位置する語、「私」、「学生」、「お金」等が19歳以下の部分集合でより多く語られることがわかる。小さい順にソートすると、「19歳以下」の部分集合に較べて「女性」の部分集合で多く語られている語(話題)を把握できる。
また、この実施例では検索語を指定してそれを含む部分集合を生成して対比的に表示してもよい。検索を実行した検索語(例えば「マナー」)は図13に示すように対象列または基準列のオプションとして追加され、対象列または基準列として指定可能である。
図13は「マナーとの差分」(全体集合に対するマナーを含む部分集合の比率差分)を対象列とし「全体」を基準列としてソート設定を行うユーザインタフェース例を示す。
図14は図13のユーザインタフェース例で設定したソート条件における表示例を示す。この例では「マナー」に加え「人」、「電車」が上位に位置し、「マナー」を含むメッセージでは、「人」や「電車」についての話題が一般的なメッセージより多きことが分かる。
このようにこの実施例によれば、メッセージの集合を部分集合に層別して層別した部分集合でどのような話題が多く語られているかを把握できる。
つぎにこの発明を具体的に適用した実施例2の文書解析支援システム100について説明する。
図15は、この発明の具体的な実施例2の文書解析支援システム100を全体として示している。この例では、文書解析支援システム100をコンピュータ200上のソフトウェアとして実現している。ソフトウェアは周知の手法により記録媒体201を用いたり、通信回線を用いてコンピュータ200にインストールできる。図ではスタンドアローンの構成となっているが、ネットワークにより接続されたサーバ装置およびクライアント装置で構成しても良い。実施例2の文書解析支援システム110の各機能ブロックは、典型的には、ソフトウェアおよびコンピュータ200のハードウェア資源が協働して実現する。なお、図15において図1と対応する箇所には対応する符号を付した。
図15において、文書解析支援システム100は、文書入力部10、形態素解析部11、構文解析部12、構文解析結果データ記憶部13、係り受け関係抽出部14、係り受け関係集合記憶部150、頻度計算部16、比率計算部17、比率差分計算部18、グラフ表示部19等を含んで構成されている。この例では、一群の文からなる文書データから係り受け関係の集合を抽出して係り受け関係集合記憶部150に記憶するようにしているけれども、外部から係り受け関係集合を取得して係り受け関係集合記憶部150に記憶するようにしても良い。
この実施例では、文書データから抽出した係り受け関係のデータ(以下に述べるように基礎意味チャンクといい、用言節等の受け部分を共通にする範囲で一まとめにされたものである)を、係り受け関係に着目して係り語、受け語、その他の語で検索し、典型的には、係り語や受け語を対比させて表示して、文の把握を支援することも可能である。
文書入力部10は、一群のアンケート(自由形式のアンケートの回答。メッセージ)や一群の電子メール等の文書データ(コーパスともいう)を入力するものであり、文書データは後続の形態素解析等を行なうために適宜に前処理されてもよい。文書入力部10は、文書データを入力できるものであればどのようなものでもよく、例えば、ファイルシステム、外部記憶装置、通信回線、I/O装置等から構成される。文書入力部10は、アンケートや電子メール等のメッセージを受信するシステムであってもよいし、文字認識装置、音声認識装置等であってもよい。文書データの例は例えば図17に示すようなものであり、この例では、化粧品のアンケート結果から取得した文が文の番号を割り当てられて管理されている。
形態素解析部11は、周知の任意の形態素解析手法で形態素解析辞書を参照して文を形態素に分解するものである。形態素解析は例えば図18に示すように行なわれる。
構文解析部12は、周知の任意の構文解析手法で、構文規則に基づいて、形態素解析結果を構文解析する。すなわち、図16に示すように、一群の文のデータ(コーパス)が文書入力部10により入力される(S110)。形態素解析部11は、1つの文のデータを処理対象として取り出し、形態素解析を行い、構文解析部12は形態素解析結果に基づいて構文解析を行なう(S111〜S113)。構文解析結果は構文解析結果データ記憶部13に登録され、すべての文について以上の処理を繰り返す(S114、S115)。構文解析結果は例えば図19に示すようなものであり、理解を容易にするためにこれを木構造で表すと図20に示すようになる。
係り受け関係抽出部14は、係り受け関係抽出規則を構文解析結果のデータに適用して係り受け関係集合を抽出して、係り受け関係集合記憶部15に記録するものである。係り受け関係抽出規則は例えば図22に示すようなものであり、図中、「*」は任意個のサブ木(分の構文解析木の部分をなす要素)である。この例では連用の係り受け関係を抽出するものであるが、連体の係り受け関係についても同様である。係り受け関係抽出規則を用いて例えば図20に矢印で示すように係り受け関係を抽出できる。この例では連用の係り受け関係を示している。
係り受け関係抽出部14は、図21に示すように、抽出規則を入力し(S120)、該当する係り受け関係を構文解析結果のデータから抽出して(S121)、係り受け関係集合記憶部15に記憶する(S122)。
抽出された係り受け関係のデータは、用言節等の受け部分を共通にする範囲で一まとめにされた態様で表現される(図23参照)。係り部は0個または複数個である。以下では、このようなデータを基礎意味チャンクとも呼ぶ。基礎意味チャンクは、例えばプログラミング言語Prologのファクト形式のデータ構造で表され、図24はこのようなデータ構造の例を示す。このデータ構造では、基礎意味チャンクとチャンク述部の2種類のデータからなる。図24の例では、「1」は文番号を示し、「紹介,する,た」は用言節の形態素列を終止形で並べたものであり、「23,31」はその出現位置を示すバイトオフセットであり、「太郎,は」、「5,11」、「花子,を」、「17,23」、「次郎,に」、「11,17」はそれぞれ受け部分の形態素列およびそれぞれの出現位置を示すバイトオフセットである。「3」は係り受けの個数を示す。「紹介_例文」はコーパスの名称である。
係り受け関係集合記憶部15は係り受け関係集合(基礎意味チャンク集合)を記憶するものである。係り受け関係集合記憶部15は実施例1の語出現データ記憶部150に対応し、係り受け関係集合は例えば図5に示すようなものと同じである。
頻度計算部16、比率計算部17、比率差分計算部18、グラフ表示部19は、実施例1の頻度計算部16、比率計算部17、比率差分計算部18、グラフ表示部19に対応するものである。
すなわち、頻度計算部16は、係り受け関係の各々が出現するメッセージが対象メッセージ集合内にいくつあるかを計算するものであり、典型的には、係り受け関係ごとに当該語を含むメッセージの個数を計算する。
比率計算部17は、メッセージ集合全体およびメッセージ部分集合の各々の頻度分布から語の比率の分布を計算する。比率差分計算部18は、メッセージ集合全体およびメッセージ部分集合の各々の比率の分布の間の差分を計算するものである。グラフ表示部19は、比率分布および比率差分分布からグラフを生成するものである。グラフの表示例は図8にしめすとおりである。棒グラフでなく、折れ線グラフ等を表示してもよいし、色等の表示属性で表示してもよいし、数値自体を表示してもよい。
図25はこの実施例で「女性との差分」を対象列に設定し、「全体」を基準列に設定して係り受け関係の比率および比率差分をグラフ標示したものである。この例では、「女性との差分」をソートキーとして大きい順にソートしている。上位には、「携帯−持つ」、「学生−持つ」、「メール−する」、「子供−持つ」、「人−いる」等の係り受け関係(この例では述部を受け部とする連用の係り受け関係を示すが、これに限定されず、連体の係り受け関係でも良い)があり、全体として「全体」と「女性」のメッセージの間には同様な傾向が見られる。ただし、「学生−持つ」、「メール−する」は、「女性」の間では多く話題になるが、「全体」では話題になるのが若干少ないことが分かる。
なお、この発明は特許請求の範囲の記載に基づいて決定されるものであり、実施例の具体的な構成、課題、および効果には限定されない。この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、グラフ表示された語を指定して、その語を含む係り受け関係やメッセージ自体を表示したりしてもよく、またグラフ表示される係り受け関係を指定して、その係り受け関係を含むメッセージを指定したり、グラフ表示される係り受け関係の係り部または受け部を指定して該当する係り受け関係やメッセージを表示しても良い。
この発明の実施例1の構成を説明するブロック図である。 上述実施例1の動作例の一部を説明するフローチャートである。 上述実施例1の動作例の他の一部を説明するフローチャートである。 上述実施例1の語出現データを説明する図であるである。 上述実施例1の係り受け関係の語出現データを説明する図である。 上述実施例1の分析対象データの例を説明する図である。 上述実施例1で準備する頻度分布データの例を説明する図である。 上述実施例1の比率差分グラフの表示例を説明する図である。 上述実施例1のソート設定のユーザインタフェース例を説明する図である。 上述実施例1のソート後の比率差分グラフの表示例を説明する図である。 上述実施例1の他のソート設定例を説明する図である。 上述実施例1の図11に対応する比率差分グラフの表示例を説明する図である。 上述実施例1の他のソート設定例を説明する図である。 上述実施例1の図13に対応する比率差分グラフの表示例を説明する図である。 この発明の実施例2の構成を全体として示すブロック図である。 上述実施例2の構文解析結果取得動作例を説明するフローチャートである。 上述実施例2の文書データの例を説明する図である。 上述実施例2の形態素解析の例を説明する図である。 上述実施例2の構文解析結果の例を説明する図である。 上述実施例2の構文解析結果の木構造表現を説明する図である。 上述実施例2の係り受け関係抽出の動作例を説明するフローチャートである。 上述実施例2の係り受け関係抽出規則の例を説明する図である。 上述実施例2の係り受け関係の抽出結果の例を説明する図である。 上述実施例2の係り受け関係のデータ構造の例を説明する図である。 上述実施例2の比率差分グラフの表示例を説明する図である。
符号の説明
110 文書解析支援システム
15 語出現データ記憶部
16 頻度計算部
17 比率計算部
18 比率差分計算部
19 グラフ表示部

Claims (11)

  1. 文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と、
    上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の1組の比率と、上記比率計算手段が当該全体集合の複数の部分集合のそれぞれに対して計算した部分集合用の複数組の比率との間の複数組の比率差分を計算する差分計算手段と、
    上記複数組の比率差分の中の1組の差分の大きさに応じて、または上記複数組の比率差分の中の2組の比率差分の間の差分の大きさに応じて、少なくとも上記全体集合用の1組の比率をソートして表示する表示手段とを有することを特徴とする文書解析支援装置。
  2. 上記表示手段は、上記全体集合用の1組の比率に加えて、上記複数組の比率差分の中の少なくとも1組を表示する請求項1記載の文書解析支援装置。
  3. 文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段と、
    上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の1組の比率と、上記比率計算手段が当該全体集合の1の部分集合に対して計算した部分集合用の1組の比率との間の1組の比率差分を計算する差分計算手段と、
    上記1組の比率差分の大きさに応じて、少なくとも上記全体集合用の1組の比率をソートして表示する表示手段とを有することを特徴とする文書解析支援装置。
  4. 上記表示手段は、上記全体集合用の1組の比率に加えて、上記1組の比率差分を表示する請求項3記載の文書解析支援装置。
  5. 上記部分集合は文単位の属性に基づいて決定される請求項1〜4のいずれかに記載の文書解析支援装置。
  6. 上記部分集合は文単位に含まれる語によって決定される請求項1〜5のいずれかに記載の文書解析支援装置。
  7. 上記文構成要素は語である請求項1〜6のいずれかに記載の文書解析支援装置。
  8. 上記文構成要素は名詞である請求項7に記載の文書解析支援装置。
  9. 上記文構成要素は係り受け関係である請求項1〜8のいずれかに記載の文書解析支援装置。
  10. 上記表示手段は棒グラフを用いて表示を行う請求項1〜9のいずれかに記載の文書解析支援装置。
  11. 文構成要素の各々に対して、複数の文単位を含んでなる文単位集合に含まれる文単位の総数に対する当該文単位集合に含まれ当該文構成要素を含む文単位の数の比率を計算する比率計算手段、
    上記比率計算手段が分析対象のすべての文単位を含む全体集合に対して計算した全体集合用の1組の比率と、上記比率計算手段が当該全体集合の複数の部分集合のそれぞれに対して計算した部分集合用の複数組の比率との間の複数組の比率差分を計算する差分計算手段、
    上記複数組の比率差分の中の1組の差分の大きさに応じて、または上記複数組の比率差分の中の2組の比率差分の間の差分の大きさに応じて、少なくとも上記全体集合用の1組の比率をソートして表示する表示手段として、
    コンピュータを機能させることを特徴とする文書解析用プログラム。
JP2007299855A 2007-11-19 2007-11-19 文書解析支援装置およびプログラム Expired - Fee Related JP5109615B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007299855A JP5109615B2 (ja) 2007-11-19 2007-11-19 文書解析支援装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007299855A JP5109615B2 (ja) 2007-11-19 2007-11-19 文書解析支援装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009128950A true JP2009128950A (ja) 2009-06-11
JP5109615B2 JP5109615B2 (ja) 2012-12-26

Family

ID=40819854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007299855A Expired - Fee Related JP5109615B2 (ja) 2007-11-19 2007-11-19 文書解析支援装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5109615B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170615A (ja) * 2010-02-18 2011-09-01 Fuji Xerox Co Ltd グラフ生成装置及びグラフ生成プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000357171A (ja) * 1999-06-16 2000-12-26 Oki Electric Ind Co Ltd データベース分析システム
JP2001167203A (ja) * 1999-09-30 2001-06-22 Fuji Electric Co Ltd マーケティング分析支援システム、及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000357171A (ja) * 1999-06-16 2000-12-26 Oki Electric Ind Co Ltd データベース分析システム
JP2001167203A (ja) * 1999-09-30 2001-06-22 Fuji Electric Co Ltd マーケティング分析支援システム、及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170615A (ja) * 2010-02-18 2011-09-01 Fuji Xerox Co Ltd グラフ生成装置及びグラフ生成プログラム

Also Published As

Publication number Publication date
JP5109615B2 (ja) 2012-12-26

Similar Documents

Publication Publication Date Title
US11481388B2 (en) Methods and apparatus for using machine learning to securely and efficiently retrieve and present search results
US11675977B2 (en) Intelligent system that dynamically improves its knowledge and code-base for natural language understanding
US10878035B2 (en) Interactive method and apparatus based on deep question and answer
CN112417846B (zh) 文本自动化生成方法、装置、电子设备及存储介质
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
JP2001075966A (ja) データ分析システム
WO2017198031A1 (zh) 解析语义的方法和装置
Mustafa et al. Kurdish stemmer pre-processing steps for improving information retrieval
US11487837B2 (en) Method for summarizing multimodal content from webpages
JP5309537B2 (ja) グラフ表示装置およびプログラム
CN113782123A (zh) 一种基于网络数据的在线医疗患者满意度测量方法
CN117828042A (zh) 用于金融服务的问答处理方法、装置、设备及介质
EP3901875A1 (en) Topic modelling of short medical inquiries
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
Sutino et al. Feature extraction from app reviews in google play store by considering infrequent feature and app description
JP5109615B2 (ja) 文書解析支援装置およびプログラム
US7921126B2 (en) Patent summarization systems and methods
Tayal et al. DARNN: Discourse Analysis for Natural languages using RNN and LSTM.
CN112148838B (zh) 一种业务源对象提取方法与装置
CN112182228B (zh) 一种短文本热点主题挖掘与概括方法及装置
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems
DE102012221927A1 (de) Verfahren zum Verwalten von E-Mail
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
JP2002183175A (ja) テキストマイニング方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120924

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5109615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees