JP5245062B2 - 文章情報グループ帰属性判別支援装置 - Google Patents
文章情報グループ帰属性判別支援装置 Download PDFInfo
- Publication number
- JP5245062B2 JP5245062B2 JP2008114877A JP2008114877A JP5245062B2 JP 5245062 B2 JP5245062 B2 JP 5245062B2 JP 2008114877 A JP2008114877 A JP 2008114877A JP 2008114877 A JP2008114877 A JP 2008114877A JP 5245062 B2 JP5245062 B2 JP 5245062B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- sentence
- speech
- group
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 claims description 322
- 238000004458 analytical method Methods 0.000 claims description 72
- 238000012545 processing Methods 0.000 claims description 40
- 230000000877 morphologic effect Effects 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 5
- 238000000034 method Methods 0.000 description 122
- 238000010606 normalization Methods 0.000 description 8
- 238000007792 addition Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013398 bayesian method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このような背景の下で、文章情報のコンテンツ種別を判別する技術が提案されている(特許文献1参照)。特許文献1に記載されている技術は、文章情報中に出現する単語および単語の出現頻度に基づいて、文章情報のコンテンツ種別(例えば、紹介文章や感想文章)を判別するものである。
本発明は、このような点に鑑みて創案されたものであり、コンテンツ種別が異なる文章情報グループや文体種別が異なる文章情報グループ等に対する文章情報の帰属性の判別を容易に精度良く支援することができる技術を提供することを目的とする。
記憶手段には、文章情報と形態素解析辞書が記憶される。形態素解析辞書には、文章情報を形態素に分割し、品詞情報を判別するための辞書情報が記憶されている。
形態素解析手段は、記憶手段に記憶されている形態素辞書を用いて、文章情報を形態素(文章情報を構成しているn個の単語)に分割し、形態素に対応する品詞情報を文章情報中における出現順に判別する。形態素解析手段では、公知の種々の形態素解析手法を用いることができる。なお、文章情報が複数の文情報により構成されている場合には、文情報毎に形態素解析を行うのが好ましい。文章情報を文情報に区分する手法としては、公知の種々の手法を用いることができる。
また、記憶手段には、文章情報(学習文章情報)中に出現した、連続するN個の品詞情報の配列(品詞Nグラム)に対応する文章情報グループ毎の品詞情報出現確率情報(品詞Nグラム確率情報)が記憶される。文章情報グループとしては、異なる種別それぞれに含まれる適宜の文章情報グループが設定される。例えば、1つの種別である文章情報のコンテンツ種別に含まれる「コラム系文章情報グループ」と「日記系文章情報グループ」、他の種別である文章情報の文体種別に含まれる「論説調文章情報グループ」と「口語調文章情報グループ」が設定される。連続する品詞情報の数Nとしては、[2≦N≦n](n:文章情報に含まれる品詞情報の総数)の範囲の任意の整数を選択することができるが、評価情報作成手段による評価情報作成処理の容易性や評価情報の精度等を考慮すると、2以上の整数、好適には2または3の整数が設定される。
「連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループ毎の品詞情報出現確率情報(品詞Nグラム確率情報)」は、典型的には、帰属する文章情報グループが既知の複数の学習文章情報を用いて作成された、同じ文章情報グループに帰属する学習文章情報中における連続する品詞Nグラムの品詞Nグラム出現確率が用いられる。同じ文章情報グループに帰属する文章情報中における品詞Nグラムの品詞Nグラム出現確率は、当該文章情報グループの特徴を表している。品詞Nグラムに対する文章情報グループ毎の品詞Nグラム出現確率は、例えば、文章情報グループに共通の品詞Nグラム確率情報データベースとして構成することもできるし、文章情報グループ毎の品詞Nグラム確率情報データベースとして構成することもできる。
評価情報作成手段は、形態素解析手段によって判別した、文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する方法としては、例えば、文頭から文末方向に連続するn個の品詞情報の配列を抽出する処理を、文章情報に含まれている品詞情報の出現順に実行する方法が用いられる。そして、出現順に抽出した品詞Nグラムと、記憶手段に、品詞Nグラムに対して文章情報グループ毎に記憶されている品詞Nグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。文章情報に対する文章情報グループ毎の評価情報としては、典型的には、文章情報から出現順に抽出した品詞Nグラムそれぞれに対する文章情報グループ毎の品詞Nグラム確率情報を記憶手段から読み出し、文章情報グループ毎に順次乗算することによって作成することができる。なお、対数で表された品詞Nグラム確率情報が品詞Nグラム確率情報データベースに記憶されている場合には、記憶手段から読み出した品詞Nグラム確率情報を加算することによって作成される。評価情報作成手段としては、複数の文章情報グループに共通の評価情報作成手段を用いることもできるが、文章情報グループ毎の評価情報作成手段を用いることもできる。文章情報グループ毎の評価情報作成手段を用いると、変更、追加、削除等を文章情報グループ毎に容易に行うことができる。
管理手段は、入力手段から、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、形態素解析手段および評価情報作成手段を用いて作成した記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報と、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、記憶手段に記憶されている文章情報の中から、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択する。そして、選択した文章情報を示す文章情報識別情報を、選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、2次元平面上に配置されるように出力する。
記憶手段に記憶されている文章情報に対する文章情報グループ毎の評価情報は、予め作成して記憶手段に記憶しておいてもよいし、出力要求情報が入力された時に作成してもよい。
2次元平面を用いて文章情報グループ毎の設定評価情報を入力する場合には、例えば、直交する一方の座標軸に沿って一つの種別に含まれる文章情報グループに対応する座標軸を引き、直交する他方の座標軸に沿って異なる種別に含まれる文章情報グループに対応する座標軸を引くのが好ましい。さらに、文章情報に対する文章情報グループ毎の評価情報は、一つの種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択し(他の評価情報は「0」とみなす)、異なる種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択する(他の評価情報は「0」とみなす)のが好ましい。これにより、文章情報を示す文章情報識別情報(例えば、2次元平面上の点)を2次元平面上に配置することが可能となる。
本発明では、文章情報が帰属する文章情報グループの判別を支援する評価情報を容易に精度良く作成することができ、また、利用者は、文章情報グループ毎の評価設定情報を容易に設定することができるとともに、文章情報グループ毎に設定された評価設定情報に該当する文章情報および文章情報に対する文章情報グループ毎の評価情報を容易に判別することができる。
記憶手段、形態素解析手段、評価情報作成手段としては、前述した記憶手段、形態素解析手段、評価情報作成手段と同様の構成のものを用いることができる。
管理手段は、入力手段から、検索情報と原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、形態素解析手段および評価情報作成手段を用いて作成した、記憶手段に記憶されており、入力された出力要求情報に含まれている検索情報を含む各文章情報に対する文章情報グループ毎の評価情報と、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、入力された出力要求情報に含まれている検索情報を含む文章情報の中から、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択する。そして、選択した文章情報を示す文章情報識別情報を、選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、2次元平面上に配置されるように出力する。
検索情報としては、典型的には、キーワードが用いられる。
本発明は、一つの発明と同様の効果を有している。また、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
本発明のプログラムを用いることにより、前述した各発明と同様の効果を得ることができる。
本発明の記憶媒体を用いることにより、前述した各発明と同様の効果を得ることができる。
ブログ等に掲載される文章情報には、コンテンツ種別や文体種別が異なる様々の文章情報が含まれている。例えば、コンテンツ種別が異なる文章情報としては、コラム系の文章情報、日記系の文章情報、ニュース系の文章情報等が含まれる。また、文体種別が異なる文章情報としては、かたい表現の論説調の文章情報、やわらかい表現の口語調の文章情報等が含まれる。このため、コンテンツ種別の文章情報グループや文体種別の文章情報グループに対する文章情報の帰属性の判別を支援する技術の開発が要望されている。
ここで、文章情報に含まれている特定の単語(キーワード)を用いて、コンテンツ種別や文体種別等の文章情報グループに対する文章情報の帰属性を判別するための特徴情報を抽出するには、膨大な量のパラメータが必要であるため、現実的でない。また、キーワード(例えば、単語)を特徴情報として文章情報グループに対する文章情報の帰属性を判別する方法では、キーワードに対する依存性(例えば、文章情報の内容や話題)に対する依存性が高いため、汎用性に欠ける。
そこで、本発明者は、文章情報に含まれている連続するN個の品詞情報の配列(文章情報を構成している品詞情報の総数(延べ数)をnとした場合、1≦N≦n)を用いて、コンテンツ種別や文体種別等の文章情報グループに対する文章情報の帰属性を判別するための特徴情報を抽出する手法について検討した。
本発明では、連続するN個の品詞情報の配列(以下では、「品詞Nグラム」という)とベイズ法(事後確率最大化)を用いて、文章情報グループに対する文章情報の帰属性を判別した。なお、ベイズ法は公知であるため、本明細書では、ベイズ法に関する詳細な説明は省略する。
したがって、以下の[式2]により、事後確率[P(S|X)]を最大にする《S》を求めればよい。
ここで、事前確率[P(S)]が文章情報グループに関係なく一様(等確率)である場合には、[式2]は以下の[式3]で近似される。
さらに、文章情報中において、連続するn個の品詞情報の配列X(x[1],・・・,x[n])が互いに独立であると仮定すると、[式3]は以下の[式4]で表される。
この[式4]により、品詞1グラム(1個の品詞情報)を用いて、文章情報グループに対する文章情報の帰属性を判別するための評価情報(評価値)を作成する評価情報作成手段を構成する。
また、文章情報中において、品詞2グラム(連続する2個の品詞情報の配列)(x[i],x[i+1])が互いに独立であると仮定すると、[式3]は以下の[式5]で表される。
すなわち、品詞2グラム(連続する2個の品詞情報の配列)を用いる場合には、[式5]を用いて、文章情報グループに対する文章情報の帰属性を判別するための評価情報(評価値)を作成する評価情報作成手段を構成する。
このように、本発明では、文章情報に含まれている連続するn個の品詞情報の配列に対し、品詞Nグラムの出現確率を用いて文章情報に対する文章情報グループ毎の評価情報を作成する。そして、作成した評価情報のうち最も大きい評価情報を有する文章情報グループを当該文章情報が帰属する文章情報グループとして判別する。
なお、本明細書では、「文章情報グループ帰属性判別支援装置」という記載は、複数の文章情報グループに対する文章情報の帰属性(文章情報がいずれの文章情報グループに帰属するか)を利用者が判別できるように支援する装置を意味するものとして用いている。文章情報グループに対する文章情報の帰属性を利用者が判別できるように支援する手法としては、文章情報が帰属する文章情報グループを出力する手法と、文章情報が帰属する文章情報グループを判別するための評価情報を出力する手法を用いることができる。すなわち、本発明の「文章情報グループ帰属性判別支援装置」は、文章情報に対する文章情報グループ毎の評価情報(複数の文章情報グループそれぞれに対する文章情報の帰属性を示す情報)に基づいて判別した文章情報グループを出力することによって利用者による文章情報グループに対する文章情報の帰属性の判別を支援するように構成され、あるいは、文章情報に対する文章情報グループ毎の評価情報を出力することによって利用者による文章情報グループに対する文章情報の帰属性の判別を支援するように構成される。
本実施の形態は、処理手段10、記憶手段20、入力手段30、表示手段40等により構成されている。
記憶手段20としては、ROMやRAM等の種々の記憶手段を用いることができる。記憶手段20は、文章情報データベース21、形態素解析辞書22、品詞Nグラム確率情報データベース23等を有している。記憶手段20は、文章情報データベース21、形態素解析辞書22と品詞Nグラム確率情報データベース23を有する1つの記憶手段によって構成することもできるし、別々の記憶手段により構成することもできる。また、記憶手段20は、処理手段10(処理手段10の各手段11〜14)がアクセス可能な適宜の位置に配置することができる。
文章情報データベース21には、入力手段30から入力された文章情報が記憶される。本実施の形態では、「文章情報」は、テキストデータ形式で入力手段30から入力される文章情報に限定されず、例えば、音声データ形式で入力手段30に入力され、テキスト形式に変換された文章情報も包含される。なお、評価情報作成手段13で作成された文章情報に対する文章情報グループ毎の評価情報や、グループ判別手段14で判別された文章情報が帰属する文章情報グループを文章情報に対応させて文章情報データベース21に記憶することもできる。
形態素解析辞書22には、形態素解析手段12が、文章情報を、文章情報を構成している形態素に分割し、各形態素に対応する品詞情報を文章情報中における出現順に判別するための辞書情報が記憶されている。形態素解析辞書22の1例が図2に示されている。図2に示されている形態素解析辞書22には、品詞(品詞情報)と、各品詞に対応する単語が記憶されている。例えば、品詞[名詞・固有名詞・人名・姓]に対応して単語[田中]、[鈴木]等が記憶され、品詞[名詞・代名詞・一般]に対応して単語[それ]、[ここ]等が記憶され、品詞[接頭詞・名詞接続]に対応して単語[お]、[ご]、[高]等が記憶されている。
品詞Nグラム確率情報としては、典型的には、連続するN個の品詞情報の配列(品詞Nグラム)が出現する確率(品詞情報出現確率)が用いられる。[N=1]の場合(品詞1グラム)の品詞Nグラム確率情報データベース23の1例が図3に示されている。また、[N=2]の場合(品詞2グラム)の品詞Nグラム確率情報データベース23の1例が図4に示されている。なお、図3および図4では、品詞情報配列(品詞Nグラム)を、品詞情報をコード化した品詞情報コードを用いて表現している(例えば、図7に示されているように、品詞情報[名詞・一般]を品詞情報コード[2/0/0]を用いる。)。図3および図4に示す品詞Nグラム確率情報データベース23は、品詞Nグラムに対する品詞Nグラム確率情報が文章情報グループ毎に記憶されている1つのデータベースとして構成されている。
なお、本実施の形態では、文章情報に対する文章情報グループ毎の評価情報は、文章情報に含まれている連続するN個の品詞情報に対する文章情報グループ毎の品詞Nグラム確率を乗算することによって作成する。このため、図3および図4では、コンピュータでの演算を容易にするために、品詞Nグラム確率が対数で表わされている。例えば、図3に示されている品詞1グラム[N=1]の品詞Nグラム確率情報データベース23では、品詞1グラムの品詞情報配列[11/0/0](品詞情報コード[11/0/0]で示される1個の品詞情報の配列)に対しては、コラム系文章情報グループS1の品詞1グラム確率が[−2.4531]であり、日記系文章情報グループS2の品詞1グラム確率が[−2.7137]であることが表わされている。また、図4に示されている、品詞2グラム[N=2]の品詞Nグラム確率情報データベース23では、品詞情報配列[11/0/0−11/0/0](品詞情報コード[11/0/0]で示される品詞情報と品詞情報コード[11/0/0]で示される品詞情報の2個の品詞情報の配列)に対しては、コラム系分類情報グループS1の品詞2グラム確率が[−2.5200]であり、日記系分類情報グループS2の品詞2グラム確率が[−2.5298]であることが表されている。この場合、文章情報に対する文章情報グループ毎の評価情報は、文章情報に含まれている連続するN個の品詞情報の品詞Nグラム確率を順次加算することによって作成される。
例えば、図3に示されている品詞1グラム[N=1]の品詞Nグラム確率情報データベース23では、品詞情報[x[i]]が出現する(1個の品詞情報[x[i]]が出現する)品詞1グラム確率[P(x[i])]は、学習文章情報中における品詞情報[x[i]]の出現回数[Nx[i]]と、学習文章情報を構成する形態素の全数(延べ数)[Nall]を用いて、以下の[式6]によって算出される。
また、図4に示されている品詞2グラム[N=2]の品詞Nグラム確率情報データベース23では、品詞情報[x[j]]に後続して品詞情報[x[i]]が出現する(連続する2個の品詞情報の配列[x[j]][x[i]]が出現する)品詞2グラム確率[P(x[i]|x[j])]は、学習文章情報中における、品詞情報[x[j]]に後続して品詞情報[x[i]]が出現する回数[N(x[i]|x[j])]と、学習文章情報における、品詞情報[x[j]]に後続して任意の品詞情報が出現する回数[N(*|x[j])]を用いて、以下の[式7]によって算出される。
記憶手段20が本発明の「記憶手段」に対応する。また、コラム系文章情報グループS1、日記系文章情報グループS2、論説調文章情報グループS11、口語調文章情報グループS12等が本発明の「複数の文章情報グループ」に対応する。また、コラム系文章情報グループS1と日記系文章情報グループS2によって一つの同じ種別のグループ(コンテンツ種別文章情報グループ)が構成され、論説調文章情報グループS11と口語調文章情報グループS12によって他の一つの同じ種別のグループ(文体種別文章情報グループ)が構成されている。また、品詞Nグラムが本発明の「連続するN個の品詞情報の配列」に対応し、品詞Nグラムが出現する文章情報グループ毎の品詞Nグラム確率が本発明の「連続するN個の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報」に対応する。
入力手段30が本発明の「入力手段」に対応する。
表示手段40としては、液晶表示装置等の種々の表示手段を用いることができる。なお、遠方の端末装置と通信可能に構成される場合には、遠方の端末装置の入力手段や出力手段が、本発明の入力手段や出力手段に対応する。
表示手段40が本発明の「出力手段」に対応する。なお、出力手段は、表示手段に限定されない。
管理手段11が本発明の「管理手段」に対応し、形態素解析出手段12が本発明の「形態素解析手段」に対応し、評価情報作成手段13が本発明の「評価情報作成手段」に対応し、グループ判別手段14が本発明の「グループ判別手段」に対応する。
形態素解析手段12は、記憶手段20の形態解析辞書22に記憶されている辞書情報を用いて、入力手段30から入力された文章情報または入力手段30から入力されて記憶手段20の文章情報データベース21に記憶されている文章情報を、文章情報を構成している形態素に分割し、文章情報に含まれている(文章情報を構成している)品詞情報を文章情報中における出現順に判別する。形態素解析辞書を用いて文章情報に含まれている品詞情報を出現順に判別する形態素解析手法としては、公知の種々の手法(例えば、最長一致法や文節数最小法)を用いることができる。
判別対象である文章情報は、1つまたは複数の文情報により構成される。形態素解析手段12によって、文章情報に含まれている(文章情報を構成している)品詞情報を判別する時には、文章情報を文情報に分割し、文情報毎に品詞情報を判別する。「文情報」は、文章情報に含まれている形態素を、句点等を基準に分割した形態素の集まりで表される。このため、文章情報を文情報に分割する方法としては、例えば、文章情報中の先頭の形態素から1番目の句点までの形態素の集まり、1番目の句点の次の形態素から2番目の句点までの形態素の集まり等を抽出する方法を用いることができる。
なお、本実施の形態では、形態素解析手段12は、前述した文章情報を文情報に分割する処理によって、文情報の前の位置(文情報の1番目の形態素の前の位置)に文情報の開始を示す品詞情報(形態素)(例えば〈s〉)、文情報の後の位置(句点の後の位置)に文情報の終了を示す品詞情報(形態素)(例えば、(〈/s〉)が含まれているものとして判別する。文章情報中に句点がない場合には、改行等を手掛かりに文情報に分割する。なお、文章情報は少なくとも1つの文情報を含んでいるものとして扱う。
本実施の形態では、先ず、文章情報を構成している(文章情報に含まれている)品詞情報を出現順に抽出する。なお、本明細書では、文章情報を構成している品詞情報の総数(延べ数)をnで表す。すなわち、文章情報を構成している品詞情報を出現順に抽出することによって、連続するn個の品詞情報の配列X(x[1],・・・,x[n])を抽出する。文章情報を構成している品詞情報の総数(延べ数)nは、文章情報に応じて変化する。
次に、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、連続するN個の品詞情報の配列(品詞Nグラム)を出現順に判別する。例えば、[N=1](品詞1グラム)を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、1個の品詞情報の配列[x[i]](i=1,・・・,n)を出現順に判別する。また、[N=2](品詞2グラム)を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、連続する2個の品詞情報の配列(x[i],x[i+1])(i=1,・・・,n−1)を出現順に判別する。また、[N=3](品詞3グラム)を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、連続する3個の品詞情報の配列(x[i],x[i+1],x[i+2])(i=1,・・・,n−2)を出現順に判別する。なお、連続する品詞の数N(品詞Nグラム)は、(1≦N≦n)の範囲の任意の整数を選択することができるが、後述する文章情報グループ毎の評価情報の算出処理の容易性および精度の観点からは、2以上の整数、好適には2または3が選択される。
そして、判別した文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)の出現順と、記憶手段20の品詞Nグラム確率情報データベース23に記憶されている、連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループ毎の品詞Nグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。文章情報グループ毎の評価情報を作成する方法としては、例えば、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループ毎の出現確率(品詞Nグラム確率)を、連続するN個の品詞情報の配列の出現順に品詞Nグラム確率情報データベース23から読み出し、読み出した品詞Nグラム確率を文章情報グループ毎に順次乗算する方法を用いることができる。本実施の形態では、品詞Nグラム確率情報データベース23には、品詞Nグラムに対する品詞Nグラム確率情報として対数で表わされた値が記憶されている。このため、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)に対する品詞Nグラム確率を文章情報グループ毎に順次加算することによって、文章情報に対する文章情報グループ毎の評価情報を作成する方法を用いている。
コラム系文章情報グループ評価情報作成手段T1、日記系文章情報グループ評価情報作成手段T2、論説調文章情報グループ評価情報作成手段T11、口語調文章情報グループ評価情報作成手段T12等が本発明の「評価情報作成手段を構成する文章情報グループ別評価情報作成手段」に対応する。また、コラム系文章情報グループ評価情報作成手段T1と日記系文章情報グループ評価情報作成手段T2によって一つの同じ種別のグループの「第1グループ評価情報作成手段」(例えば、「コンテンツ種別文章情報グループ評価情報作成手段」)が構成され、論説調文章情報グループ評価情報作成手段T11と口語調文章情報グループ評価情報作成手段T12によって他の一つの同じ種別のグループの「第2グループ評価情報作成手段」(例えば、「文体種別文章情報グループ評価情報作成手段」)が構成されている。
例えば、品詞2グラム[N=2]が選択されており、文章情報中における出現順がi番目である品詞2グラム(x[i],x[i+1])に対する文章情報グループSの品詞2グラム確率情報が品詞2グラム確率情報データベース23に記憶されていない場合には、品詞1グラム(x[i])と品詞1グラム(x[i+1])に対する文章情報グループSの2つの品詞1グラム確率情報を用いて補間処理を行う。そして、補間処理を行って得た値を、品詞2グラム(x[i],x[i+1])に対する文章情報グループSの品詞2グラム確率情報として決定する(用いる)。Nが3以上に選択されている場合にも同様に、品詞(N−1)グラムに対する文章情報グループSの品詞(N−1)グラム確率情報を用いて補間処理を行う。なお、品詞(N−1)に対する文章情報グループSの品詞(N−1)グラム確率情報が品詞(N−1)グラム確率情報データベース23に記憶されていない場合には、品詞(N−2)に対する文章情報グループSの品詞(N−2)グラム確率情報を用いて補間処理を行う。
なお、品詞1グラム[N=1]が選択されており、文章情報中における出現順がi番目である品詞1グラム(x[i])に対する文章情報グループの品詞1グラム確率情報が品詞1グラム確率情報データベース23に記憶されていない場合には、前述した、Nが2以上の場合の補間処理を行うことができないため、例外的に「未知品詞」の1グラム確率情報として扱う。すなわち、文章情報グループSに対して、学習文章情報から予め算出しておいた所定の値(例えば、文章情報グループSの全ての品詞1グラム確率の最小値を全品詞種類数で除算した値)である「未知品詞1グラム確率」を当該品詞1グラム(x[i])に対する文章情報グループSの品詞1グラム確率情報として決定する(用いる)。
このように、前記補完処理を行う場合には、記憶手段20の品詞Nグラム確率情報データベース23には、品詞Nグラムに対する文章情報グループ毎の品詞Nグラム確率情報だけでなく、低次の品詞Mグラム(M=1,・・・,N−1)それぞれに対する文章情報グループ毎の品詞Mグラム確率情報も記憶される。
なお、評価情報を作成する際の正規化方法は、前述した方法に限定されるものではなく、種々の正規化方法を用いることができる。
以下に、各処理を実行する動作を説明する。
ステップA1では、文章情報を形態素解析し、文章情報に含まれている(文章情報を構成している)品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。ステップA1では、文章情報に含まれている連続するn個の品詞情報の配列X(x[1],・・・,x[n])を抽出する。ステップA1の処理は、例えば、入力手段30から文章情報と評価情報作成要求情報が入力された時または入力手段30から記憶手段20の文章情報データベース21に記憶されている文章情報を指示するとともに評価情報作成要求情報が入力された時に、形態素解析手段12によって実行される。文章情報データベース21に記憶されている文章情報を指定する方法は、文章情報データベース21に記憶されている文章情報のいずれかを指定する方法を用いてもよいし、全ての文章情報を指定する方法を用いることもできる。
まず、文章情報から句点を基準に文情報を判別した後に、各文情報を形態素に分割する。図7に示されている文章情報は、2つの文情報(A)と(B)として判別されている。そして、第1の文情報(A)は、形態素[本書][で][は][、][検索][エンジン][および][ネット]・・・・・。に分割される。同様に、第2の文情報(B)も形態素に分割される。
次に、文章情報に含まれている品詞情報を文章情報中における出現順に抽出する。図7では、文情報(A)の開始を示す品詞情報〈s〉(品詞情報コード[〈s〉])、[本書](品詞情報[名詞・一般]−品詞情報コード[2/0/0])、[で](品詞情報[助詞・格助詞・一般]−品詞情報コード[59/0/0])、[は](品詞情報[助詞・係助詞]−品詞情報コード[63/0/0])、[、](品詞情報[記号・読点]−品詞情報コード[76/0/0])、・・・・・、[。](品詞情報[記号・句点]−品詞情報コード[75/0/0])、文情報(A)の終了を示す品詞情報〈/s〉(品詞情報コード[〈/s〉])、文情報(B)の開始を示す品詞情報〈s〉(品詞情報コード[〈s〉])、・・・・・が出現順に判別される。図7では、文情報(A)と文情報(B)を有する文章情報を構成している品詞情報の総数(延べ数)がNallであることが示されている。
ステップA2の処理を、図8および図9を参照して具体的に説明する。なお、図8および図9では、図7に示した文章情報について説明する。
図8は、[N=1]が選択され、連続する1個の品詞情報の配列(品詞1グラム)に基づいて評価情報を算出する場合の動作を説明するものである。この場合、文章情報に含まれている、連続する1個の品詞情報の配列(品詞1グラム)(x[i])(1≦i≦n)の出現順は、ステップA1で判別したn個の品詞情報の出現順と同じである。このため、図8に示されているように、文章情報に含まれている連続する1個の品詞情報は、品詞情報コード[〈s〉]、品詞情報コード[2/0/0]、品詞情報コード[59/0/0]、品詞情報コード[63/0/0]、品詞情報コード[76/0/0]、・・・・・、品詞情報コード[75/0/0]、品詞情報コード[〈/s〉]、品詞情報コード[〈s〉]、・・・・・の出現順に抽出される。
図9は、[N=2]が選択され、連続する2個の品詞情報の配列(品詞2グラム)に基づいて評価情報を算出する場合の動作を説明するものである。この場合、文章情報に含まれている、連続する2個の品詞情報の配列(品詞2グラム)(x[i],x[i+1])(1≦i≦n−1)の出現順は、図9に示されているように、(品詞情報コード[〈s〉],品詞情報コード[2/0/0])、(品詞情報コード[2/0/0],品詞情報コード[59/0/0])、(品詞情報コード[59/0/0],品詞情報コード[63/0/0])、(品詞情報コード[63/0/0],品詞情報コード[76/0/0])、・・・・・、(品詞情報コード[75/0/0],品詞情報コード[〈/s〉])、(品詞情報コード[〈/s〉],品詞情報コード[〈s〉])、・・・・・の出現順に抽出される。
文章情報に対する文章情報グループ毎の評価情報を作成する処理を、図8および図9を参照して具体的に説明する。
なお、判別対象の文章情報に含まれている品詞Nグラムに対する文章情報グループSの品詞Nグラム確率情報が品詞Nグラム確率情報データベース23に記憶されていない場合には、当該品詞Nグラムに対する当該文章情報グループSの品詞Nグラム確率情報を用いないで文章情報に対する評価情報を作成するように構成することもできる。
品詞1グラムが選択されている図8に示す例では、前述した方法で作成した(算出した)文章情報に対するコラム系文章情報グループS1の評価情報(評価値)T1s1、日記系文章情報グループS2の評価情報(評価値)T1s2を、文章情報に含まれている形態素(あるいは品詞情報)の総数Nallで除算する。そして、除算値[T1s1/Nall]、[T1s2/Nall]を、それぞれ文章情報に対するコラム系文章情報グループS1の正規化評価情報(正規化評価値)、文章情報に対する日記系文章情報グループS2の正規化評価情報(正規化評価値)とする。
同様に、品詞2グラムが選択されている図9に示す例では、前述した方法で作成した(算出した)文章情報に対するコラム系文章情報グループS1の評価情報(評価値)T2s1、日記系文章情報グループS2の評価情報(評価値)T2s2を、文章情報に含まれている形態素(あるいは品詞情報)の総数Nallで除算する。そして、除算値[T2s1/Nall]、[T2s2/Nall]を、それぞれ文章情報に対するコラム系文章情報グループS1の正規化評価情報(正規化評価値)、文章情報に対する日記系文章情報グループS2の正規化評価情報(正規化評価値)とする。
作成した、文章情報に対する文章情報グループ毎の評価情報(あるいは正規化評価情報)は、後の処理で利用するために記憶手段20の文章情報データベース21に文章情報に対応させて記憶させてもよいし、続けて他の処理で用いてもよい。
ステップA2およびA3での処理は、評価情報作成手段13によって全文章情報グループに対して実行され、あるいは、文章情報グループ別評価情報作成手段T1、T2、T11、T12によって文章情報グループ毎に実行される。
ステップB1では、図5に示したステップA1と同様に、文章情報を形態素に分割し、文章情報に含まれている品詞情報を文章情報中における出現順に抽出する(n個の品詞情報)。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
ステップB2では、図5に示したステップA2と同様に、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。
ステップB3では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップB3では、前述したように、正規化評価情報を作成するのが好ましい。
ステップB4では、文章情報が帰属する文章情報グループを判別する。例えば、ステップB3で作成された文章情報に対する文章情報グループ毎の評価情報(好適には、正規化評価情報)のうち最も大きい(最も確率が高い)評価情報が作成された文章情報グループに帰属することを判別する。なお、文章情報に対する評価情報に基づいて文章情報が帰属する文章情報グループを判別する際、設定値以下の評価情報は無視するように構成することもできる。
ステップB4で判別した、文章情報が帰属する文章情報グループは、後の処理で利用するために記憶手段20の文章情報データベース21に文章情報に対応させて記憶させてもよいし、続けて他の処理で用いてもよい。
ステップB4での処理は、グループ判別手段14によって実行される。
ステップC1では、検索キーワードを入力する。検索キーワードは、文章情報を選択するために用いられる。検索キーワードは、本発明の「検索情報」に対応する。なお、検索キーワードは文章情報を検索するために用いられる。勿論、検索キーワードの使用を省略することもできる。
ステップC2では、文章情報グループ毎の設定評価情報を入力する。文章情報グループ毎の設定評価情報は、文章情報を検索する条件として用いられる。文章情報グループ毎の設定評価情報は、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で設定することができる。2次元平面としては、例えば、図13に示すように、x軸方向(直交する座標軸の一方の座標軸の方向)に沿って一つの種別(例えば、文章情報のコンテンツ種別)の文章情報グループに対応する座標軸が引かれ、y軸方向(直交する座標軸の他方の座標軸の方向)に沿って他の種別(例えば、文章情報の文体種別)の文章情報グループに対応する座標軸が引かれた2次元平面を用いることができる。図13に示す2次元平面では、x軸の一方向(例えば、通常のxプラス方向)に、文章情報の文体種別に含まれる1つの文章情報グループである[論説調文章情報グループS11](C軸)、x軸の他方向(例えば、通常のxマイナス方向)に、文章情報の文体種別に含まれる他の文章情報グループである[口語調文章情報グループS12](D軸)が引かれている。また、y軸の一方向(例えば、通常のyプラス方向)に、文章情報のコンテンツ種別に含まれる1つの文章情報グループである[コラム系文章情報グループS1](A軸)、y軸の他方向(例えば、通常のyマイナス方向)に、文章情報のコンテンツ種別に含まれる他の文章情報グループである[日記系文章情報グループS2](B軸)が引かれている。そして、この2次元平面で指示された指示点の座標値によって、座標軸に対応する文章情報グループの設定評価情報が設定される。例えば、指示点P(Cp,Ap)が指示されると、指示点Pの座標軸C軸に沿った値Cpが座標軸C軸に対応する[論説調文章情報グループS11]の設定評価情報として設定され、指示点Pの座標軸A軸に沿った値Apが座標軸A軸に対応する[コラム系文章情報グループS1]の設定評価情報として設定される。この時、コンテンツ種別に関する日記系文章情報グループS2の設定評価情報、文体種別に関する口語調文章情報グループS12の設定評価情報は「0」に設定される。また、指示点Q(Cq,Bq)が指示されると、指示点Qの座標軸C軸に沿った値Cqが座標軸C軸に対応する[論説調文章情報グループS11]の設定評価情報として設定され、指示点Qの座標軸B軸に沿った値Bqが座標軸B軸に対応する[日記系文章情報グループS2]の設定評価情報として設定される。この時、コンテンツ種別に関するコラム系文章情報グループS1の設定評価情報、文体種別に関する口語調文章情報グループS12の設定評価情報は「0」に設定される。また、指示点R(Dr,Br)が指示されると、指示点Rの座標軸D軸に沿った値Drが座標軸D軸に対応する[口語調文章情報グループS12]の設定評価情報として設定され、指示点Rの座標軸B軸に沿った値Brが座標軸B軸に対応する[日記系文章情報グループS2]の設定評価情報として設定される。この時、コンテンツ種別に関するコラム系文章情報グループS1の設定評価情報、文体種別に関する論説調文章情報グループS11の設定評価情報は「0」に設定される。
なお、ステップC3の処理は、ステップC1(検索キーワード入力)以前に予め行っておいてもよい。
ステップC4では、文章情報にステップC1で入力された検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップC5に進み、文章情報に検索キーワードが含まれていない場合にはステップC7に進む。ステップC4の処理は、管理手段11等によって実行される。
ステップC5では、図5に示したステップA2と同様に、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。
ステップC6では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップC6では、前述したように、正規化評価情報を作成するのが好ましい。
ステップC7では、記憶手段20の文章情報データベース21に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース21に記憶されている文章情報の読み出しを終了していない場合にはステップC3に戻り、文章情報の読み出しを終了した場合にはステップC8に進む。
xa=|論説調文章情報グループに対する評価情報と口語調文章情報グループに対する評価情報のうちの最大値|
ya=|コラム系文章情報グループに対する評価情報と日記系文章情報グループに対する評価情報のうちの最大値|
文章情報を示す点a(文章情報識別情報)は、論説調文章情報グループに対する評価情報が大きい場合にはC軸方向(xプラス方向)に配置され、口語調文章情報グループに対する評価情報が大きい場合にはD軸方向(xマイナス方向)に配置される。また、コラム系文章情報グループに対する評価情報が大きい場合にはA軸方向(yプラス方向)に配置され、日記系文章情報グループに対する評価情報が大きい場合にはB軸方向(yマイナス方向)に配置される。
ここで、文章情報を選択するための1つの方法は、文章情報グループ毎の設定評価情報に近い文章情報グループ毎の評価情報を有する文章情報を選択する方法である。例えば、図13に示されている2次元平面において、各文章情報を示す点s1(Cs1,As1)〜s9(Cs9,As9)のうち、指示点P(Cp,Ap)との間の距離が最も短い1つの点s3、あるいは2番目、3番目・・・に距離が短い(所定の設定個数の)複数の点s5、s7を同時に選択する。
他の方法は、文章情報グループ毎の設定評価情報から一定範囲内に文章情報グループ毎の評価情報を有する文章情報を選択する方法である。例えば、図13に示されている2次元平面において、各文章情報を示す点s11(Cs11,Bs11)〜s19(Cs19,Bs19)のうち、指示点Q(Cq,Bq)から距離rの範囲内に文章情報グループ毎の評価情報が存在する点s13、s14、s17を選択する。
他の方法は、2次元平面上に区分されている区分領域のうち、文章情報グループ毎の設定評価情報が含まれる区分領域内に文章情報毎の評価情報を有する文章情報を選択する方法である。例えば、図13に示されている区分領域a21〜a29に分割されている2次元平面において、各文章情報を示す点s21(Bs21,Ds21)〜s29(Bs19,Bs19)のうち、指示点R(Br,Dr)が含まれる区分領域a25に文章情報グループ毎の評価情報が存在する点s23、s25、s26を選択する。
そして、ステップC9では、ステップC8で選択した文章情報を出力する。
ステップC7〜C9の処理は、管理手段11によって実行される。
ステップD1では、図10に示したステップC1と同様に、検索キーワードを入力する。
ステップD2では、設定文章情報グループを入力する。設定文章情報グループは、文章情報を検索する条件として用いられる。
ステップD3では、記憶手段20の文章情報データベース21に記憶されている文章情報を読み取り、図5に示したステップA1と同様に、文章情報を形態素に分割し、文章情報に含まれているn個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップD3の処理は、ステップD1(検索キーワード入力)以前に予め行っておいてもよい。
ステップD4では、図10に示したステップC4と同様に、文章情報に検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップD5に進み、文章情報に検索キーワードが含まれていない場合にはステップD10に進む。
ステップD5では、図5に示したステップA2と同様に、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。
ステップD6では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップD6では、前述したように、正規化評価情報を作成するのが好ましい。
ステップD7では、図6に示したステップB4と同様に、文章情報が帰属する文章情報グループを判別する。
ステップD8では、ステップD7で判別した文章情報グループが、ステップD2で入力された設定文章情報グループと一致するか否かを判断する。文章情報グループが設定文章情報グループと一致するとステップD9に進み、一致しない場合にはステップD10に進む。
ステップD9では、文章情報を選択する。
ステップD10では、記憶手段20の文章情報データベース21に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース21に記憶されている文章情報の読み出しを終了していない場合にはステップD3に戻り、文章情報の読み出しを終了した場合にはステップD11に進む。
そして、ステップD11では、ステップD9で選択した文章情報を出力する。
ステップE1では、図10に示したステップC1と同様に、検索キーワードを入力する。
ステップE2では、記憶手段20の文章情報データベース21に記憶されている文章情報を読み取り、図5に示したステップA1と同様に、文章情報を形態素に分割し、文章情報に含まれているn個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップE2の処理は、ステップE1(検索キーワード入力)以前に予め行っておいてもよい。
ステップE3では、図10に示したステップC4と同様に、文章情報に検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップE4に進み、文章情報に検索キーワードが含まれていない場合にはステップE6に進む。
ステップE4では、図5に示したステップA2と同様に、文章情報に含まれている連続するn個の品詞情報を出現順に抽出する。
ステップE5では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップE5では、前述したように、正規化された評価情報を作成するのが好ましい。
ステップE6では、記憶手段20の文章情報データベース21に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース21に記憶されている文章情報の読み出しを終了していない場合にはステップE2に戻り、文章情報の読み出しを終了した場合にはステップE7に進む。
ステップE7では、ステップE5で作成された各文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する。文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する方法としては、利用者が、文章情報に対する文章情報グループ毎の評価情報を判別可能に出力するのが好ましい。なお、本明細書では、「文章情報に対する文章情報毎の評価情報を利用者が判別可能に出力手段から出力する」という記載は、「文章情報に対する、各種別それぞれに含まれる少なくとも一つの文章情報グループの評価情報を利用者が判別可能に出力する」態様を含むものとして用いられている。例えば、図14に示すように、各文章情報を示す点(文章情報識別情報)を2次元平面上に表示する出力方法を用いることができる。2次元平面としては、例えば、図13に示した2次元平面と同様に、x軸方向(直交する座標軸の一方の座標軸の方向)に沿って一つの種別(例えば、文章情報のコンテンツ種別)の文章情報グループに対応する座標軸が引かれ、y軸方向(直交する座標軸の他方の座標軸の方向)に沿って他の種別(例えば、文章情報の文体種別)の文章情報グループに対応する座標軸が引かれた2次元平面を用いることができる。図14に示す2次元平面では、x軸の一方向に、文章情報の文体種別に含まれる1つの文章情報グループである[論説調文章情報グループS11](C軸)、x軸の他方向(例えば、通常のxマイナス方向)に、文章情報の文体種別に含まれる他の文章情報グループである[口語調文章情報グループS12](D軸)が引かれ、y軸の一方向に、文章情報のコンテンツ種別に含まれる1つの文章情報グループである[コラム系文章情報グループS1](A軸)、y軸の他方向に、文章情報のコンテンツ種別に含まれる1つの文章情報グループである[日記系文章情報グループS2](B軸)が引かれている。そして、この2次元平面上に、各文章情報を示す点(文章情報識別情報)s31〜s48を配置する。この場合、各文章情報を示す点s31〜s48は、図13と同様に、同一種別の文章情報グループのうち最も大きい文章情報グループを選択したものである。例えば、x軸に沿って座標軸が引かれる一つの種別(文体種別)に含まれる[論説調文章情報グループS11](C軸)と[口語調文章情報グループS12](D軸)に対する評価情報のうちの最大値と、y軸に沿って座標軸が引かれる他の種別(コンテンツ種別)に含まれる[コラム系文章情報グループS1](A軸)と[日記系文章情報グループS2](B軸)に対する評価情報のうちの最大値が選択される。
勿論、各文章情報に対する文章情報グループ毎の評価情報を出力する方法を用いることもできる。例えば、各文章情報に対する文章情報グループ毎の評価情報を表形式等で出力する方法を用いることができる。あるいは、原点から各文章情報グループに対応する座標軸を引いた多次元座標空間および多次元座標空間上に配置した各文章情報識別情報を2次元平面上に射影することによって、文章情報に対する文章情報グループ毎の評価情報を表示する方法を用いることもできる。
文章情報に対する文章情報グループ毎の評価情報(あるいは、正規化評価情報)の作成方法、文章情報に対する文章情報グループ毎の評価情報に基づいて文章情報が帰属する文章情報グループを判別する方法は、実施の形態で説明した方法に限定されない。
各処理の内容は、フローチャートに記載した処理内容に限定されない。
検索キーワードを用いて文章情報を検索する方法は省略することもできる。
実施の形態で説明した各構成は、単独で用いることもできるし、適宜選択した複数を組み合わせて用いることもできる。
品詞Nグラム確率情報としては、品詞Nグラム確率を用いることもできるし、品詞Nグラム確率に対応する他の情報を用いることもできる。
評価情報としては、評価値を用いることもできるし、評価値に対応する他の情報を用いることもできる。
態様1では、文章情報が帰属する文章情報グループの判別を支援する評価情報を容易に精度良く作成することができる。
態様2では、文章情報に対する文章情報グループ毎の評価情報が設定された条件に適合する文章情報、すなわち、各文章情報グループに対して所望の帰属性を有する文章情報を容易に選択することができる。
また、「態様2に記載の文章情報グループ帰属性判別支援装置であって、前記入力手段は、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された点の各座標値を、文章情報グループ毎の設定評価情報として入力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様3)として構成することができる。
態様3では、文章情報グループ毎の設定評価情報を容易に入力することができる。
また、「態様2または3に記載の文章情報グループ帰属性判別支援装置であって、前記管理手段は、前記入力手段から検索情報と文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択することを特徴とする文章情報グループ帰属性判別支援装置。」(態様4)として構成することができる。
態様4では、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
各文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する方法としては、適宜の方法を用いることができる。好適には、各文章情報に対する文章情報グループ毎の評価情報を判別可能に出力手段から出力する方法が用いられる。文章情報グループ毎の評価情報を判別可能に出力手段から出力する方法には、同じ種別に含まれる複数の文章情報グループのうちの少なくとも1つに対する評価情報を判別可能に出力手段から出力する方法が含まれる。「評価情報を判別可能に出力手段から出力する」という記載は、利用者が評価情報を判別することができるように出力手段から出力する構成を意味し、例えば、評価情報を数字で出力する態様、評価情報が座標軸として引かれているグラフ上の点として出力する態様等が用いられる。
態様5では、利用者は、各文章情報に対する文章情報グループ毎の評価情報を容易に判別することができる。
また、「態様5に記載の文章情報グループ帰属性判別支援装置であって、前記管理手段は、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上に各文章情報を示す文章情報識別情報が配置されるように出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様6)として構成することができる。
態様6では、利用者は、各文章情報に対する文章情報グループ毎の評価情報をより容易に判別することができる。
また、「態様5または6に記載の文章情報グループ判別支援装置であって、前記管理手段は、前記入力手段から検索情報と出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報に対する文章情報グループ毎の評価情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様7)として構成することができる。
態様7では、キーワード等の検索情報を用いることにより、所望の文章情報に対する文章情報グループ毎の評価情報を判別することができる。
文章情報に対する文章情報グループ毎の評価情報に基づいて、文章情報が帰属する文章情報グループを判別する方法としては、適宜の方法を用いることができる。例えば、文章情報に対する文章情報グループ毎の評価情報のうち最も大きい評価情報が作成された文章情報グループを、当該文章情報が帰属する文章情報グループであることを判別する方法を用いることができる。
態様8では、設定した文章情報グループに帰属する文章情報を容易に精度良く選択することができる。
また、「態様8に記載の文章情報グループ判別支援装置であって、前記管理手段は、前記入力手段から検索情報と設定文章情報グループを含む出力要求情報出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報が帰属する文章情報グループが、前記入力された出力要求情報に含まれている設定文章情報グループと一致する文章情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様9)として構成することができる。
態様9では、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
また、「態様1〜9のいずれかに記載の文章情報グループ帰属性判別支援装置であって、前記記憶手段には、連続する(N−1)個以下のそれぞれの個数の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、前記評価情報作成手段は、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続する(N−1)個以下のそれぞれの個数の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記抽出した連続するN個の品詞情報の配列それぞれに対する文章情報グループ毎の品詞情報出現確率情報を決定し、前記抽出した連続するN個の品詞情報の配列それぞれに対する文章情報グループ毎の、前記決定した品詞情報出現確率情報に基づいて前記文章情報に対する文章情報グループ毎の評価情報を作成することを特徴とする文章情報グループ帰属性判別支援装置。」(態様10)として構成することができる。
本態様では、記憶手段には、連続するN個の品詞情報(品詞Nグラム)に対する文章情報グループ毎の品詞情報出現確率情報(品詞Nグラム確率情報)および、連続するM個(M=1,・・・,N−1)それぞれの個数の品詞情報の配列(品詞Mグラム)に対する文章情報グループ毎の品詞情報出現確率情報(品詞Mグラム確率情報)が記憶されている。そして、評価情報作成手段は、文章情報に含まれている品詞Nグラムに対する品詞Nグラム確率情報が記憶手段に記憶されている場合には、記憶手段に記憶されている品詞Nグラム確率情報を当該品詞Nグラムに対する品詞Nグラム確率情報として決定する(用いる)。一方、文章情報に含まれている品詞Nグラムに対する品詞Nグラム確率情報が記憶手段に記憶されていない場合には、品詞Mグラム(M=1・・・,N−1)それぞれに対する品詞Mグラム確率情報を用いて補間処理を行う。
補間処理手法としては、公知の種々の手法を用いることができる、例えば、[N=2](品詞2グラム)が選択されており、文章情報中における出現順がi版目の品詞2グラム(x[i],x[i+1])に対する品詞2グラム確率情報が記憶手段に記憶されていない場合には、品詞2グラム(x[i],x[i+1])を構成している品詞1グラムx[i]と品詞1グラムx[i+1]それぞれに対する品詞1グラム確率情報を用いて補間処理を行う。そして、補間処理によって得た値を、当該品詞2グラム(x[i],x[i+1])に対する品詞2グラム確率情報として決定する(用いる)。
態様10では、判別対象である文章情報に含まれている品詞Nグラムに対する品詞Nグラム確率情報が記憶手段に記憶されていない場合でも、補間処理によって当該品詞Nグラムに対する品詞Nグラム確率情報を決定することができるため、全ての品詞Nグラムを網羅した大量の学習文章情報を用いて品詞Nグラム確率情報を作成する必要がない。
また、「態様10に記載の文章情報グループ帰属性判別支援装置であって、前記評価情報作成手段は、前記抽出した連続するN個の品詞情報の配列それぞれに対する文章情報グループ毎の、前記決定した品詞情報出現確率情報を文章情報グループ毎に乗算することによって、前記文章情報に対する文章情報グループ毎の評価情報を作成することを特徴とする文章情報グループ帰属性判別支援装置。」(態様11)として構成することができる。
なお、品詞Nグラム確率情報が対数で表されている場合には、品詞Nグラム確率情報の乗算は、対数で表された品詞Nグラム確率情報の加算によって実行される。
態様11では、文章情報に対する文章情報グループ毎の評価情報を容易に、精度良く作成することができる。
態様12では、文章情報に対する文章情報グループ毎の評価情報の信頼性を高めることができる。
また、「コンピュータに態様1〜12のいずれかに記載の管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段の処理を実行させるためのプログラム。」(態様13)として構成することができる。
また、「コンピュータに態様1〜12のいずれかに記載の管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段の処理を実行させるためのプログラムが記録された記憶媒体。」(態様14)として構成することができる。
11 管理手段
12 形態素解析手段
13 評価情報作成手段
T1、T2、T11、T12 文章情報グループ別評価情報作成手段
14 グループ判別手段
20 記憶手段
21 文章情報データベース
22 形態素解析辞書
23 品詞Nグラム確率情報データベース
S1、S2、S11、S12 文章情報グループ別品詞Nグラム確率情報データベース
30 入力手段
40 表示手段(出力手段)
Claims (7)
- 予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、
前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは2以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
前記管理手段は、
前記入力手段から、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、
前記形態素解析手段および前記評価情報作成手段を用いて作成した前記記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報と、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、前記記憶手段に記憶されている文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択し、
前記選択した文章情報を示す文章情報識別情報を、前記選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、前記2次元平面上に配置されるように出力することを特徴とする文章情報グループ帰属性判別支援装置。 - 予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、
前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは2以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
前記管理手段は、
前記入力手段から、検索情報と原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、
前記形態素解析手段および前記評価情報作成手段を用いて作成した、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む各文章情報に対する文章情報グループ毎の評価情報と、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、前記入力された出力要求情報に含まれている検索情報を含む文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択し、
前記選択した文章情報を示す文章情報識別情報を、前記選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、前記2次元平面上に配置されるように出力することを特徴とする文章情報グループ帰属性判別支援装置。 - 請求項1または2に記載の文章情報グループ帰属性判別支援装置であって、
前記管理手段は、前記2次元平面において、文章情報を示す点と前記指示点との間の距離が最も短い1または複数の文章情報を、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択することを特徴とする文章情報グループ帰属性判別支援装置。 - 請求項1または2に記載の文章情報グループ帰属性判別支援装置であって、
前記管理手段は、前記2次元平面において、文章情報を示す点と前記指示点との間の距離が設定範囲内である文章情報を、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択することを特徴とする文章情報グループ帰属性判別支援装置。 - 請求項1または2に記載の文章情報グループ帰属性判別支援装置であって、
前記管理手段は、前記2次元平面を区分領域に分割し、文章情報を示す点が、前記指示点が含まれる区分領域に存在する文章情報を、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択することを特徴とする文章情報グループ帰属性判別支援装置。 - コンピュータに請求項1〜5のいずれかに記載の管理手段、形態素解析手段および評価情報作成手段の処理を実行させるためのプログラム。
- コンピュータに請求項1〜5のいずれかに記載の管理手段、形態素解析手段および評価情報作成手段の処理を実行させるためのプログラムが記録された記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008114877A JP5245062B2 (ja) | 2008-04-25 | 2008-04-25 | 文章情報グループ帰属性判別支援装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008114877A JP5245062B2 (ja) | 2008-04-25 | 2008-04-25 | 文章情報グループ帰属性判別支援装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009265952A JP2009265952A (ja) | 2009-11-12 |
JP5245062B2 true JP5245062B2 (ja) | 2013-07-24 |
Family
ID=41391726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008114877A Active JP5245062B2 (ja) | 2008-04-25 | 2008-04-25 | 文章情報グループ帰属性判別支援装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5245062B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7189125B2 (ja) * | 2016-08-09 | 2022-12-13 | リップコード インコーポレイテッド | 電子記録のタグ付けのためのシステム及び方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03157762A (ja) * | 1989-11-16 | 1991-07-05 | Ricoh Co Ltd | 言語処理装置 |
JP2005275757A (ja) * | 2004-03-24 | 2005-10-06 | Denso It Laboratory Inc | 文章分類装置及び文章分類方法 |
CN100533431C (zh) * | 2005-09-21 | 2009-08-26 | 富士通株式会社 | 一种基于语素标注的自然语言成分识别、校正装置及方法 |
-
2008
- 2008-04-25 JP JP2008114877A patent/JP5245062B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009265952A (ja) | 2009-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5425820B2 (ja) | ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法 | |
CN109634436B (zh) | 输入法的联想方法、装置、设备及可读存储介质 | |
US11853689B1 (en) | Computer-implemented presentation of synonyms based on syntactic dependency | |
JP3266586B2 (ja) | データ分析システム | |
JP6693582B2 (ja) | 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
US20110302179A1 (en) | Using Context to Extract Entities from a Document Collection | |
US7284006B2 (en) | Method and apparatus for browsing document content | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
US20240104302A1 (en) | Minutes processing method and apparatus, device, and storage medium | |
CN107315735B (zh) | 用于笔记整理的方法及设备 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2010092357A (ja) | 施設関連情報検索方法および施設関連情報検索システム | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN111161730B (zh) | 语音指令匹配方法、装置、设备及存储介质 | |
JP5245062B2 (ja) | 文章情報グループ帰属性判別支援装置 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
CN107256260A (zh) | 一种智能语义识别方法、搜索方法、装置及系统 | |
CN115510306A (zh) | 用于电力客服中的数据检索方法 | |
JP2010092108A (ja) | 類似文章抽出プログラム、方法、装置 | |
JPH10177575A (ja) | 語句抽出装置および方法、情報記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110414 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130227 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20130301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130301 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5245062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |