JP5245062B2 - 文章情報グループ帰属性判別支援装置 - Google Patents

文章情報グループ帰属性判別支援装置 Download PDF

Info

Publication number
JP5245062B2
JP5245062B2 JP2008114877A JP2008114877A JP5245062B2 JP 5245062 B2 JP5245062 B2 JP 5245062B2 JP 2008114877 A JP2008114877 A JP 2008114877A JP 2008114877 A JP2008114877 A JP 2008114877A JP 5245062 B2 JP5245062 B2 JP 5245062B2
Authority
JP
Japan
Prior art keywords
information
sentence
speech
group
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008114877A
Other languages
English (en)
Other versions
JP2009265952A (ja
Inventor
修 瀬川
和幸 坂内
誠 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chubu Electric Power Co Inc
Original Assignee
Chubu Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chubu Electric Power Co Inc filed Critical Chubu Electric Power Co Inc
Priority to JP2008114877A priority Critical patent/JP5245062B2/ja
Publication of JP2009265952A publication Critical patent/JP2009265952A/ja
Application granted granted Critical
Publication of JP5245062B2 publication Critical patent/JP5245062B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援技術に関する。
近年、インターネットに存在するWebページ、掲示板、ブログ(Blog)等には、論説(コラム)や日記、ニュース(時事解説)に関する意見など様々な種類の文章情報が掲載されている。インターネットの利用者がこれらの文章情報を閲覧することができるようにするために、キーワードの一致やWebのリンク構造解析による重要度評価を用いた検索エンジンが提供されている。しかしながら、この従来の検索エンジンでは、文章情報のコンテンツ種別(例えば、コラムや日記)や文体種別(例えば、論説調や口語調)を考慮して文章情報を検索することができない。例えば、ある話題について「かたいコラム系」あるいは「やわらかい日記系」の文章情報を検索することができない。
このような背景の下で、文章情報のコンテンツ種別を判別する技術が提案されている(特許文献1参照)。特許文献1に記載されている技術は、文章情報中に出現する単語および単語の出現頻度に基づいて、文章情報のコンテンツ種別(例えば、紹介文章や感想文章)を判別するものである。
特開2005−275757号公報
特許文献1に記載されている技術では、文章情報のコンテンツ種別を判別するために、文章情報の特徴情報として単語および単語の出現頻度を用いている。このため、文章情報のコンテンツ種別を精度良く判別するためには、大量の学習データを必要とする。また、単語そのものをコンテンツ種別の特徴情報として用いるため、文章情報に含まれている単語(文章情報の内容や話題)に対する依存性が高く、汎用性に欠ける。
本発明は、このような点に鑑みて創案されたものであり、コンテンツ種別が異なる文章情報グループや文体種別が異なる文章情報グループ等に対する文章情報の帰属性の判別を容易に精度良く支援することができる技術を提供することを目的とする。
前記目的を達成するための一つの発明は、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段を備えている。
記憶手段には、文章情報と形態素解析辞書が記憶される。形態素解析辞書には、文章情報を形態素に分割し、品詞情報を判別するための辞書情報が記憶されている。
形態素解析手段は、記憶手段に記憶されている形態素辞書を用いて、文章情報を形態素(文章情報を構成しているn個の単語)に分割し、形態素に対応する品詞情報を文章情報中における出現順に判別する。形態素解析手段では、公知の種々の形態素解析手法を用いることができる。なお、文章情報が複数の文情報により構成されている場合には、文情報毎に形態素解析を行うのが好ましい。文章情報を文情報に区分する手法としては、公知の種々の手法を用いることができる。
また、記憶手段には、文章情報(学習文章情報)中に出現した、連続するN個の品詞情報の配列(品詞Nグラム)に対応する文章情報グループ毎の品詞情報出現確率情報(品詞Nグラム確率情報)が記憶される。文章情報グループとしては、異なる種別それぞれに含まれる適宜の文章情報グループが設定される。例えば、1つの種別である文章情報のコンテンツ種別に含まれる「コラム系文章情報グループ」と「日記系文章情報グループ」、他の種別である文章情報の文体種別に含まれる「論説調文章情報グループ」と「口語調文章情報グループ」が設定される。連続する品詞情報の数Nとしては、[2≦N≦n](n:文章情報に含まれる品詞情報の総数)の範囲の任意の整数を選択することができるが、評価情報作成手段による評価情報作成処理の容易性や評価情報の精度等を考慮すると、2以上の整数、好適には2または3の整数が設定される。
「連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループ毎の品詞情報出現確率情報(品詞Nグラム確率情報)」は、典型的には、帰属する文章情報グループが既知の複数の学習文章情報を用いて作成された、同じ文章情報グループに帰属する学習文章情報中における連続する品詞Nグラムの品詞Nグラム出現確率が用いられる。同じ文章情報グループに帰属する文章情報中における品詞Nグラムの品詞Nグラム出現確率は、当該文章情報グループの特徴を表している。品詞Nグラムに対する文章情報グループ毎の品詞Nグラム出現確率は、例えば、文章情報グループに共通の品詞Nグラム確率情報データベースとして構成することもできるし、文章情報グループ毎の品詞Nグラム確率情報データベースとして構成することもできる。
評価情報作成手段は、形態素解析手段によって判別した、文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する方法としては、例えば、文頭から文末方向に連続するn個の品詞情報の配列を抽出する処理を、文章情報に含まれている品詞情報の出現順に実行する方法が用いられる。そして、出現順に抽出した品詞Nグラムと、記憶手段に、品詞Nグラムに対して文章情報グループ毎に記憶されている品詞Nグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。文章情報に対する文章情報グループ毎の評価情報としては、典型的には、文章情報から出現順に抽出した品詞Nグラムそれぞれに対する文章情報グループ毎の品詞Nグラム確率情報を記憶手段から読み出し、文章情報グループ毎に順次乗算することによって作成することができる。なお、対数で表された品詞Nグラム確率情報が品詞Nグラム確率情報データベースに記憶されている場合には、記憶手段から読み出した品詞Nグラム確率情報を加算することによって作成される。評価情報作成手段としては、複数の文章情報グループに共通の評価情報作成手段を用いることもできるが、文章情報グループ毎の評価情報作成手段を用いることもできる。文章情報グループ毎の評価情報作成手段を用いると、変更、追加、削除等を文章情報グループ毎に容易に行うことができる。
管理手段は、入力手段から、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、形態素解析手段および評価情報作成手段を用いて作成した記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報と、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、記憶手段に記憶されている文章情報の中から、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択する。そして、選択した文章情報を示す文章情報識別情報を、選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、2次元平面上に配置されるように出力する。
記憶手段に記憶されている文章情報に対する文章情報グループ毎の評価情報は、予め作成して記憶手段に記憶しておいてもよいし、出力要求情報が入力された時に作成してもよい。
2次元平面を用いて文章情報グループ毎の設定評価情報を入力する場合には、例えば、直交する一方の座標軸に沿って一つの種別に含まれる文章情報グループに対応する座標軸を引き、直交する他方の座標軸に沿って異なる種別に含まれる文章情報グループに対応する座標軸を引くのが好ましい。さらに、文章情報に対する文章情報グループ毎の評価情報は、一つの種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択し(他の評価情報は「0」とみなす)、異なる種別に含まれる複数の文章情報グループに対応する評価情報のうち最も大きい評価情報を選択する(他の評価情報は「0」とみなす)のが好ましい。これにより、文章情報を示す文章情報識別情報(例えば、2次元平面上の点)を2次元平面上に配置することが可能となる。
本発明では、文章情報が帰属する文章情報グループの判別を支援する評価情報を容易に精度良く作成することができ、また、利用者は、文章情報グループ毎の評価設定情報を容易に設定することができるとともに、文章情報グループ毎に設定された評価設定情報に該当する文章情報および文章情報に対する文章情報グループ毎の評価情報を容易に判別することができる。
他の発明は、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備えている。
記憶手段、形態素解析手段、評価情報作成手段としては、前述した記憶手段、形態素解析手段、評価情報作成手段と同様の構成のものを用いることができる。
管理手段は、入力手段から、検索情報と原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、形態素解析手段および評価情報作成手段を用いて作成した、記憶手段に記憶されており、入力された出力要求情報に含まれている検索情報を含む各文章情報に対する文章情報グループ毎の評価情報と、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、入力された出力要求情報に含まれている検索情報を含む文章情報の中から、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択する。そして、選択した文章情報を示す文章情報識別情報を、選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、2次元平面上に配置されるように出力する。
検索情報としては、典型的には、キーワードが用いられる。
本発明は、一つの発明と同様の効果を有している。また、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
一つの発明または他の発明の他の形態では、管理手段は、2次元平面において、文章情報を示す点と指示点との間の距離が最も短い1または複数の文章情報を、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択する。あるいは、管理手段は、2次元平面において、文章情報を示す点と指示点との間の距離が設定範囲内である文章情報を、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択する。あるいは、管理手段は、2次元平面を区分領域に分割し、文章情報を示す点が、指示点が含まれる区分領域に存在する文章情報を、入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択する。
さらに他の発明は、コンピュータに前述した管理手段、形態素解析手段および評価情報作成手段の処理を実行させるためのプログラムである。
本発明のプログラムを用いることにより、前述した各発明と同様の効果を得ることができる。
さらに他の発明は、コンピュータに前述した管理手段、形態素解析手段および評価情報作成手段の処理を実行させるためのプログラムが記録された記憶媒体である。
本発明の記憶媒体を用いることにより、前述した各発明と同様の効果を得ることができる。
本発明を用いることにより、コンテンツの種別が異なる文章情報グループや文体種別が異なる文章情報グループ等に対し、入力された文章情報の前記複数の文章情報グループへの帰属性の判別を容易に精度良く支援することができる。
先ず、本発明の概念を説明する。
ブログ等に掲載される文章情報には、コンテンツ種別や文体種別が異なる様々の文章情報が含まれている。例えば、コンテンツ種別が異なる文章情報としては、コラム系の文章情報、日記系の文章情報、ニュース系の文章情報等が含まれる。また、文体種別が異なる文章情報としては、かたい表現の論説調の文章情報、やわらかい表現の口語調の文章情報等が含まれる。このため、コンテンツ種別の文章情報グループや文体種別の文章情報グループに対する文章情報の帰属性の判別を支援する技術の開発が要望されている。
ここで、文章情報に含まれている特定の単語(キーワード)を用いて、コンテンツ種別や文体種別等の文章情報グループに対する文章情報の帰属性を判別するための特徴情報を抽出するには、膨大な量のパラメータが必要であるため、現実的でない。また、キーワード(例えば、単語)を特徴情報として文章情報グループに対する文章情報の帰属性を判別する方法では、キーワードに対する依存性(例えば、文章情報の内容や話題)に対する依存性が高いため、汎用性に欠ける。
そこで、本発明者は、文章情報に含まれている連続するN個の品詞情報の配列(文章情報を構成している品詞情報の総数(延べ数)をnとした場合、1≦N≦n)を用いて、コンテンツ種別や文体種別等の文章情報グループに対する文章情報の帰属性を判別するための特徴情報を抽出する手法について検討した。
本発明では、連続するN個の品詞情報の配列(以下では、「品詞Nグラム」という)とベイズ法(事後確率最大化)を用いて、文章情報グループに対する文章情報の帰属性を判別した。なお、ベイズ法は公知であるため、本明細書では、ベイズ法に関する詳細な説明は省略する。
ベイズの定理より、文章情報が連続するn個の品詞情報の配列X(x[1],・・・,x[n])により構成されている場合に、この文章情報がm個の文章情報グループSのいずれかに帰属する確率(事後確率)[P(S|X)]は、連続するn個の品詞情報の配列X(x[1],・・・,x[n])が出現する確率[P(X)]、m個の文章情報グループSのいずれかに帰属する文章情報が出現する事前確率[P(S)]、m個の文章情報グループSのいずれかに帰属する文章が出現した条件下で連続するn個の品詞情報の配列X(x[1],・・・,x[n])が出現する事後確率[P(X|S)]を用いて以下の[式1]で表される。
Figure 0005245062
[式1]

したがって、以下の[式2]により、事後確率[P(S|X)]を最大にする《S》を求めればよい。
Figure 0005245062
[式2]
ここで、事前確率[P(S)]が文章情報グループに関係なく一様(等確率)である場合には、[式2]は以下の[式3]で近似される。
Figure 0005245062
[式3]
さらに、文章情報中において、連続するn個の品詞情報の配列X(x[1],・・・,x[n])が互いに独立であると仮定すると、[式3]は以下の[式4]で表される。
Figure 0005245062
[式4]
この[式4]により、品詞1グラム(1個の品詞情報)を用いて、文章情報グループに対する文章情報の帰属性を判別するための評価情報(評価値)を作成する評価情報作成手段を構成する。
また、文章情報中において、品詞2グラム(連続する2個の品詞情報の配列)(x[i],x[i+1])が互いに独立であると仮定すると、[式3]は以下の[式5]で表される。
Figure 0005245062
[式5]
すなわち、品詞2グラム(連続する2個の品詞情報の配列)を用いる場合には、[式5]を用いて、文章情報グループに対する文章情報の帰属性を判別するための評価情報(評価値)を作成する評価情報作成手段を構成する。
このように、本発明では、文章情報に含まれている連続するn個の品詞情報の配列に対し、品詞Nグラムの出現確率を用いて文章情報に対する文章情報グループ毎の評価情報を作成する。そして、作成した評価情報のうち最も大きい評価情報を有する文章情報グループを当該文章情報が帰属する文章情報グループとして判別する。
次に、本発明の実施の形態を、図面を参照して説明する。
なお、本明細書では、「文章情報グループ帰属性判別支援装置」という記載は、複数の文章情報グループに対する文章情報の帰属性(文章情報がいずれの文章情報グループに帰属するか)を利用者が判別できるように支援する装置を意味するものとして用いている。文章情報グループに対する文章情報の帰属性を利用者が判別できるように支援する手法としては、文章情報が帰属する文章情報グループを出力する手法と、文章情報が帰属する文章情報グループを判別するための評価情報を出力する手法を用いることができる。すなわち、本発明の「文章情報グループ帰属性判別支援装置」は、文章情報に対する文章情報グループ毎の評価情報(複数の文章情報グループそれぞれに対する文章情報の帰属性を示す情報)に基づいて判別した文章情報グループを出力することによって利用者による文章情報グループに対する文章情報の帰属性の判別を支援するように構成され、あるいは、文章情報に対する文章情報グループ毎の評価情報を出力することによって利用者による文章情報グループに対する文章情報の帰属性の判別を支援するように構成される。
図1に、本発明の文章情報グループ帰属性判別支援装置の一実施の形態の概略ブロック図を示す。
本実施の形態は、処理手段10、記憶手段20、入力手段30、表示手段40等により構成されている。
記憶手段20としては、ROMやRAM等の種々の記憶手段を用いることができる。記憶手段20は、文章情報データベース21、形態素解析辞書22、品詞Nグラム確率情報データベース23等を有している。記憶手段20は、文章情報データベース21、形態素解析辞書22と品詞Nグラム確率情報データベース23を有する1つの記憶手段によって構成することもできるし、別々の記憶手段により構成することもできる。また、記憶手段20は、処理手段10(処理手段10の各手段11〜14)がアクセス可能な適宜の位置に配置することができる。
文章情報データベース21には、入力手段30から入力された文章情報が記憶される。本実施の形態では、「文章情報」は、テキストデータ形式で入力手段30から入力される文章情報に限定されず、例えば、音声データ形式で入力手段30に入力され、テキスト形式に変換された文章情報も包含される。なお、評価情報作成手段13で作成された文章情報に対する文章情報グループ毎の評価情報や、グループ判別手段14で判別された文章情報が帰属する文章情報グループを文章情報に対応させて文章情報データベース21に記憶することもできる。
形態素解析辞書22には、形態素解析手段12が、文章情報を、文章情報を構成している形態素に分割し、各形態素に対応する品詞情報を文章情報中における出現順に判別するための辞書情報が記憶されている。形態素解析辞書22の1例が図2に示されている。図2に示されている形態素解析辞書22には、品詞(品詞情報)と、各品詞に対応する単語が記憶されている。例えば、品詞[名詞・固有名詞・人名・姓]に対応して単語[田中]、[鈴木]等が記憶され、品詞[名詞・代名詞・一般]に対応して単語[それ]、[ここ]等が記憶され、品詞[接頭詞・名詞接続]に対応して単語[お]、[ご]、[高]等が記憶されている。
品詞Nグラム確率情報データベース23には、複数の文章情報グループに対する文章情報の帰属性を判別するための評価情報を作成する際に用いられる、連続するN個(Nは1以上の正の整数)の品詞情報の配列(品詞Nグラム)が出現する確率情報(品詞情報出現確率情報)(以下、「品詞Nグラム確率情報」という)が記憶される。品詞Nグラム確率情報データベース23は、好適には、分類情報グループ別品詞Nグラム確率情報データベースにより構成される。本実施の形態では、同じ種別のグループである「コンテンツ種別文章情報グループ」は、コラム系文章情報グループと日記系文章情報グループを含み、他の同じ種別のグループである「文体種別文章情報グループ」は、論説調文章情報グループと口語調文章情報グループを含んでいる。このため、品詞Nグラム確率情報データベース23は、例えば、コラム系文章情報グループ品詞Nグラム確率情報データベースS1、日記系文章情報グループ品詞Nグラム確率情報データベースS2、論説調文章情報グループ品詞Nグラム確率情報データベースS11、口語調文章情報グループ品詞Nグラム確率情報データベースS12により構成される。勿論、品詞Nグラム確率情報データベースは、品詞Nグラムに対する分類情報グループ毎の品詞Nグラム確率情報が記憶されている1つのデータベースとして構成することもできる。
品詞Nグラム確率情報としては、典型的には、連続するN個の品詞情報の配列(品詞Nグラム)が出現する確率(品詞情報出現確率)が用いられる。[N=1]の場合(品詞1グラム)の品詞Nグラム確率情報データベース23の1例が図3に示されている。また、[N=2]の場合(品詞2グラム)の品詞Nグラム確率情報データベース23の1例が図4に示されている。なお、図3および図4では、品詞情報配列(品詞Nグラム)を、品詞情報をコード化した品詞情報コードを用いて表現している(例えば、図7に示されているように、品詞情報[名詞・一般]を品詞情報コード[2/0/0]を用いる。)。図3および図4に示す品詞Nグラム確率情報データベース23は、品詞Nグラムに対する品詞Nグラム確率情報が文章情報グループ毎に記憶されている1つのデータベースとして構成されている。
なお、本実施の形態では、文章情報に対する文章情報グループ毎の評価情報は、文章情報に含まれている連続するN個の品詞情報に対する文章情報グループ毎の品詞Nグラム確率を乗算することによって作成する。このため、図3および図4では、コンピュータでの演算を容易にするために、品詞Nグラム確率が対数で表わされている。例えば、図3に示されている品詞1グラム[N=1]の品詞Nグラム確率情報データベース23では、品詞1グラムの品詞情報配列[11/0/0](品詞情報コード[11/0/0]で示される1個の品詞情報の配列)に対しては、コラム系文章情報グループS1の品詞1グラム確率が[−2.4531]であり、日記系文章情報グループS2の品詞1グラム確率が[−2.7137]であることが表わされている。また、図4に示されている、品詞2グラム[N=2]の品詞Nグラム確率情報データベース23では、品詞情報配列[11/0/0−11/0/0](品詞情報コード[11/0/0]で示される品詞情報と品詞情報コード[11/0/0]で示される品詞情報の2個の品詞情報の配列)に対しては、コラム系分類情報グループS1の品詞2グラム確率が[−2.5200]であり、日記系分類情報グループS2の品詞2グラム確率が[−2.5298]であることが表されている。この場合、文章情報に対する文章情報グループ毎の評価情報は、文章情報に含まれている連続するN個の品詞情報の品詞Nグラム確率を順次加算することによって作成される。
記憶手段20の品詞Nグラム確率情報データベース23に記憶される、品詞Nグラムに対する文章情報グループ毎の品詞Nグラム確率情報は、帰属する文章情報グループが既知の複数の文章情報(学習文章情報)に基づいて作成される。
例えば、図3に示されている品詞1グラム[N=1]の品詞Nグラム確率情報データベース23では、品詞情報[x[i]]が出現する(1個の品詞情報[x[i]]が出現する)品詞1グラム確率[P(x[i])]は、学習文章情報中における品詞情報[x[i]]の出現回数[Nx[i]]と、学習文章情報を構成する形態素の全数(延べ数)[Nall]を用いて、以下の[式6]によって算出される。
Figure 0005245062
[式6]
また、図4に示されている品詞2グラム[N=2]の品詞Nグラム確率情報データベース23では、品詞情報[x[j]]に後続して品詞情報[x[i]]が出現する(連続する2個の品詞情報の配列[x[j]][x[i]]が出現する)品詞2グラム確率[P(x[i]|x[j])]は、学習文章情報中における、品詞情報[x[j]]に後続して品詞情報[x[i]]が出現する回数[N(x[i]|x[j])]と、学習文章情報における、品詞情報[x[j]]に後続して任意の品詞情報が出現する回数[N(*|x[j])]を用いて、以下の[式7]によって算出される。
Figure 0005245062
[式7]
記憶手段20が本発明の「記憶手段」に対応する。また、コラム系文章情報グループS1、日記系文章情報グループS2、論説調文章情報グループS11、口語調文章情報グループS12等が本発明の「複数の文章情報グループ」に対応する。また、コラム系文章情報グループS1と日記系文章情報グループS2によって一つの同じ種別のグループ(コンテンツ種別文章情報グループ)が構成され、論説調文章情報グループS11と口語調文章情報グループS12によって他の一つの同じ種別のグループ(文体種別文章情報グループ)が構成されている。また、品詞Nグラムが本発明の「連続するN個の品詞情報の配列」に対応し、品詞Nグラムが出現する文章情報グループ毎の品詞Nグラム確率が本発明の「連続するN個の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報」に対応する。
入力手段30としては、入力情報や各種の指示情報等を入力可能な、キーボード、表示手段40の表示部に設けられているタッチパネル、マウス、記憶媒体に記憶されている情報を読み取る各種装置等の種々の入力手段を用いることができる。また、入力手段30としては、音声データ形式の入力情報をテキストデータ形式の入力情報に変換する音声データ/テキストデータ変換機能を有する入力手段を用いることもできる。
入力手段30が本発明の「入力手段」に対応する。
表示手段40としては、液晶表示装置等の種々の表示手段を用いることができる。なお、遠方の端末装置と通信可能に構成される場合には、遠方の端末装置の入力手段や出力手段が、本発明の入力手段や出力手段に対応する。
表示手段40が本発明の「出力手段」に対応する。なお、出力手段は、表示手段に限定されない。
処理手段10は、管理手段11、形態素解析手段12、評価情報作成手段13、グループ判別手段14を有している。処理手段10は、各手段11〜14の処理を実行する1つのCPUによって構成することもできるし、複数の処理手段の処理を実行する個別のCPUによって構成することもできる。
管理手段11が本発明の「管理手段」に対応し、形態素解析出手段12が本発明の「形態素解析手段」に対応し、評価情報作成手段13が本発明の「評価情報作成手段」に対応し、グループ判別手段14が本発明の「グループ判別手段」に対応する。
管理手段11は、装置全体の処理を管理する。例えば、入力手段30からの文章情報や指示情報等の入力処理、選択した文章情報、作成した評価情報やグループ判別結果等の表示手段40への出力処理、各手段11〜14による処理の実行等を管理する。なお、管理手段11の処理を形態素解析手段12、評価情報作成手段13、グループ判別手段14により実行するように構成することもできる。管理手段11の処理内容については後述する。
形態素解析手段12は、記憶手段20の形態解析辞書22に記憶されている辞書情報を用いて、入力手段30から入力された文章情報または入力手段30から入力されて記憶手段20の文章情報データベース21に記憶されている文章情報を、文章情報を構成している形態素に分割し、文章情報に含まれている(文章情報を構成している)品詞情報を文章情報中における出現順に判別する。形態素解析辞書を用いて文章情報に含まれている品詞情報を出現順に判別する形態素解析手法としては、公知の種々の手法(例えば、最長一致法や文節数最小法)を用いることができる。
判別対象である文章情報は、1つまたは複数の文情報により構成される。形態素解析手段12によって、文章情報に含まれている(文章情報を構成している)品詞情報を判別する時には、文章情報を文情報に分割し、文情報毎に品詞情報を判別する。「文情報」は、文章情報に含まれている形態素を、句点等を基準に分割した形態素の集まりで表される。このため、文章情報を文情報に分割する方法としては、例えば、文章情報中の先頭の形態素から1番目の句点までの形態素の集まり、1番目の句点の次の形態素から2番目の句点までの形態素の集まり等を抽出する方法を用いることができる。
なお、本実施の形態では、形態素解析手段12は、前述した文章情報を文情報に分割する処理によって、文情報の前の位置(文情報の1番目の形態素の前の位置)に文情報の開始を示す品詞情報(形態素)(例えば〈s〉)、文情報の後の位置(句点の後の位置)に文情報の終了を示す品詞情報(形態素)(例えば、(〈/s〉)が含まれているものとして判別する。文章情報中に句点がない場合には、改行等を手掛かりに文情報に分割する。なお、文章情報は少なくとも1つの文情報を含んでいるものとして扱う。
評価情報作成手段13は、形態素解析手段別手段12で判別された、文章情報に含まれている品詞情報の出現順に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。
本実施の形態では、先ず、文章情報を構成している(文章情報に含まれている)品詞情報を出現順に抽出する。なお、本明細書では、文章情報を構成している品詞情報の総数(延べ数)をnで表す。すなわち、文章情報を構成している品詞情報を出現順に抽出することによって、連続するn個の品詞情報の配列X(x[1],・・・,x[n])を抽出する。文章情報を構成している品詞情報の総数(延べ数)nは、文章情報に応じて変化する。
次に、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、連続するN個の品詞情報の配列(品詞Nグラム)を出現順に判別する。例えば、[N=1](品詞1グラム)を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、1個の品詞情報の配列[x[i]](i=1,・・・,n)を出現順に判別する。また、[N=2](品詞2グラム)を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、連続する2個の品詞情報の配列(x[i],x[i+1])(i=1,・・・,n−1)を出現順に判別する。また、[N=3](品詞3グラム)を選択した場合には、抽出した文章情報を構成している品詞情報の出現順、すなわち、n個の品詞情報の配列X(x[1],・・・,x[n])から、連続する3個の品詞情報の配列(x[i],x[i+1],x[i+2])(i=1,・・・,n−2)を出現順に判別する。なお、連続する品詞の数N(品詞Nグラム)は、(1≦N≦n)の範囲の任意の整数を選択することができるが、後述する文章情報グループ毎の評価情報の算出処理の容易性および精度の観点からは、2以上の整数、好適には2または3が選択される。
そして、判別した文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)の出現順と、記憶手段20の品詞Nグラム確率情報データベース23に記憶されている、連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループ毎の品詞Nグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成する。文章情報グループ毎の評価情報を作成する方法としては、例えば、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループ毎の出現確率(品詞Nグラム確率)を、連続するN個の品詞情報の配列の出現順に品詞Nグラム確率情報データベース23から読み出し、読み出した品詞Nグラム確率を文章情報グループ毎に順次乗算する方法を用いることができる。本実施の形態では、品詞Nグラム確率情報データベース23には、品詞Nグラムに対する品詞Nグラム確率情報として対数で表わされた値が記憶されている。このため、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)に対する品詞Nグラム確率を文章情報グループ毎に順次加算することによって、文章情報に対する文章情報グループ毎の評価情報を作成する方法を用いている。
好適には、評価情報作成手段13は、文章情報グループ別評価情報作成手段によって構成される。例えば、コラム系文章情報グループ評価情報作成手段T1、日記系文章情報グループ評価情報作成手段T2、論説調文章情報グループ評価情報作成手段T11、口語調文章情報グループ評価情報作成手段T12によって構成される。この場合、各文章情報グループ別評価情報作成手段は、それぞれ、文章情報を構成しているn個の品詞情報の出現順から、連続するN個の品詞情報の配列(品詞Nグラム)を出現順に判別し、判別した品詞Nグラムの出現順に基づいて、文章情報に対する、対応する文章情報グループの評価情報を作成する。評価情報作成手段13を、文章情報グループ別評価情報作成手段によって構成した場合には、文章情報グループの追加、削除や変更を、当該文章情報グループに対応する文章情報グループ別評価情報作成手段の追加、削除や変更によって容易に対処することができる。
コラム系文章情報グループ評価情報作成手段T1、日記系文章情報グループ評価情報作成手段T2、論説調文章情報グループ評価情報作成手段T11、口語調文章情報グループ評価情報作成手段T12等が本発明の「評価情報作成手段を構成する文章情報グループ別評価情報作成手段」に対応する。また、コラム系文章情報グループ評価情報作成手段T1と日記系文章情報グループ評価情報作成手段T2によって一つの同じ種別のグループの「第1グループ評価情報作成手段」(例えば、「コンテンツ種別文章情報グループ評価情報作成手段」)が構成され、論説調文章情報グループ評価情報作成手段T11と口語調文章情報グループ評価情報作成手段T12によって他の一つの同じ種別のグループの「第2グループ評価情報作成手段」(例えば、「文体種別文章情報グループ評価情報作成手段」)が構成されている。
なお、品詞Nグラム確率情報データベース23に記憶される品詞Nグラム確率情報は、学習文章情報を用いて作成しているため、判別対象である文章情報に含まれている、品詞Nグラム対する文章情報グループの品詞Nグラム確率情報が品詞Nグラム確率情報データベース23に記憶されていないことがある。判別対象である文章情報に含まれている品詞Nグラムに対する文章情報グループの品詞Nグラム確率情報が品詞Nグラム確率情報データベース23に記憶されていない場合(判別対象である文章情報に、文章情報グループの学習文章情報中に出現しなかった品詞Nグラムが含まれている場合)には、品詞Nグラム確率情報データベース23に記憶されている、品詞Nグラムより低次の品詞Mグラム(M1,・・・,N−1)に対する文章情報グループの品詞Mグラム確率情報を用いてバックオフ・スムージング(平滑化)手法により補間処理を行い、補間処理によって得た値を、当該品詞Nグラムに対する当該文章情報グループの品詞Nグラム確率情報として決定する(用いる)。バックオフ・スムージング手法としては、グッド・チューリング(Good Turing)法等の公知の方法を用いることができる。
例えば、品詞2グラム[N=2]が選択されており、文章情報中における出現順がi番目である品詞2グラム(x[i],x[i+1])に対する文章情報グループSの品詞2グラム確率情報が品詞2グラム確率情報データベース23に記憶されていない場合には、品詞1グラム(x[i])と品詞1グラム(x[i+1])に対する文章情報グループSの2つの品詞1グラム確率情報を用いて補間処理を行う。そして、補間処理を行って得た値を、品詞2グラム(x[i],x[i+1])に対する文章情報グループSの品詞2グラム確率情報として決定する(用いる)。Nが3以上に選択されている場合にも同様に、品詞(N−1)グラムに対する文章情報グループSの品詞(N−1)グラム確率情報を用いて補間処理を行う。なお、品詞(N−1)に対する文章情報グループSの品詞(N−1)グラム確率情報が品詞(N−1)グラム確率情報データベース23に記憶されていない場合には、品詞(N−2)に対する文章情報グループSの品詞(N−2)グラム確率情報を用いて補間処理を行う。
なお、品詞1グラム[N=1]が選択されており、文章情報中における出現順がi番目である品詞1グラム(x[i])に対する文章情報グループの品詞1グラム確率情報が品詞1グラム確率情報データベース23に記憶されていない場合には、前述した、Nが2以上の場合の補間処理を行うことができないため、例外的に「未知品詞」の1グラム確率情報として扱う。すなわち、文章情報グループSに対して、学習文章情報から予め算出しておいた所定の値(例えば、文章情報グループSの全ての品詞1グラム確率の最小値を全品詞種類数で除算した値)である「未知品詞1グラム確率」を当該品詞1グラム(x[i])に対する文章情報グループSの品詞1グラム確率情報として決定する(用いる)。
このように、前記補完処理を行う場合には、記憶手段20の品詞Nグラム確率情報データベース23には、品詞Nグラムに対する文章情報グループ毎の品詞Nグラム確率情報だけでなく、低次の品詞Mグラム(M=1,・・・,N−1)それぞれに対する文章情報グループ毎の品詞Mグラム確率情報も記憶される。
また、入力手段30から入力される文章情報の形態素(あるいは品詞情報)の総数(延べ数)は異なるため、評価情報を作成する際には、作成された評価情報を正規化するのが好ましい。評価情報あるいは品詞Nグラム確率情報を正規化する方法としては、例えば、評価情報を、判別対象である文章情報に含まれている形態素の全数(延べ数)あるいは品詞情報の全数(延べ数)で除算する方法を用いることができる。このように、評価情報作成手段13によって作成された文章情報に対する文章情報グループ毎の評価情報を文章情報毎に正規化することにより、文章情報に対する文章情報グループ毎の評価情報の信頼性を高めることができる。
なお、評価情報を作成する際の正規化方法は、前述した方法に限定されるものではなく、種々の正規化方法を用いることができる。
グループ判別手段14は、評価情報作成手段13によって作成された文章情報に対する文章情報グループ毎の評価情報に基づいて、文章情報が帰属する文章情報グループを判別する。例えば、評価情報作成手段13によって、連続するN個の品詞情報の配列(品詞Nグラム)に対する品詞Nグラム確率を用いて作成された、文章情報に対する文章情報グループ毎の評価情報(評価値)を比較し、最も値が大きい(最も確率が高い)評価情報(評価値)が作成された文章情報グループに帰属することを判別する。グループ判別手段14による判別方法としては、これ以外の種々の方法を用いることができる。
つぎに、本実施の形態の動作を説明する。ここで、本実施の形態は、文章情報が帰属する文章情報グループを判別するグループ判別処理を実行する文章情報グループ帰属性判別支援装置に限定されず、文章情報に対する文章情報グループ毎の評価情報を作成する評価情報作成処理を実行する文章情報グループ帰属性判別支援装置、設定条件に該当する文章情報を選択して出力する文章情報出力処理を実行する文章情報グループ帰属性判別支援装置、設定グループに帰属する文章情報を選択して出力する処理を実行する文章情報帰属性判別支援装置、評価情報を作成して出力する評価情報出力処理を実行する文章情報グループ帰属性判別支援装置として構成することができる。
以下に、各処理を実行する動作を説明する。
先ず、文章情報に対する文章情報グループ毎の評価情報を作成する評価情報作成処理について、図5に示すフローチャートを参照して説明する。
ステップA1では、文章情報を形態素解析し、文章情報に含まれている(文章情報を構成している)品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。ステップA1では、文章情報に含まれている連続するn個の品詞情報の配列X(x[1],・・・,x[n])を抽出する。ステップA1の処理は、例えば、入力手段30から文章情報と評価情報作成要求情報が入力された時または入力手段30から記憶手段20の文章情報データベース21に記憶されている文章情報を指示するとともに評価情報作成要求情報が入力された時に、形態素解析手段12によって実行される。文章情報データベース21に記憶されている文章情報を指定する方法は、文章情報データベース21に記憶されている文章情報のいずれかを指定する方法を用いてもよいし、全ての文章情報を指定する方法を用いることもできる。
文章情報を形態素解析する処理を、図7に示されている文章情報「本書では、検索エンジンおよびネット通信で成功をおさめた・・・・・論じている。本書でも・・・・・・」を用いて具体的に説明する。
まず、文章情報から句点を基準に文情報を判別した後に、各文情報を形態素に分割する。図7に示されている文章情報は、2つの文情報(A)と(B)として判別されている。そして、第1の文情報(A)は、形態素[本書][で][は][、][検索][エンジン][および][ネット]・・・・・。に分割される。同様に、第2の文情報(B)も形態素に分割される。
次に、文章情報に含まれている品詞情報を文章情報中における出現順に抽出する。図7では、文情報(A)の開始を示す品詞情報〈s〉(品詞情報コード[〈s〉])、[本書](品詞情報[名詞・一般]−品詞情報コード[2/0/0])、[で](品詞情報[助詞・格助詞・一般]−品詞情報コード[59/0/0])、[は](品詞情報[助詞・係助詞]−品詞情報コード[63/0/0])、[、](品詞情報[記号・読点]−品詞情報コード[76/0/0])、・・・・・、[。](品詞情報[記号・句点]−品詞情報コード[75/0/0])、文情報(A)の終了を示す品詞情報〈/s〉(品詞情報コード[〈/s〉])、文情報(B)の開始を示す品詞情報〈s〉(品詞情報コード[〈s〉])、・・・・・が出現順に判別される。図7では、文情報(A)と文情報(B)を有する文章情報を構成している品詞情報の総数(延べ数)がNallであることが示されている。
図5に戻り、ステップA2では、文章情報に含まれている、連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。例えば、ステップA1で判別した、文章情報に含まれているn個の品詞情報の出現順から、連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。
ステップA2の処理を、図8および図9を参照して具体的に説明する。なお、図8および図9では、図7に示した文章情報について説明する。
図8は、[N=1]が選択され、連続する1個の品詞情報の配列(品詞1グラム)に基づいて評価情報を算出する場合の動作を説明するものである。この場合、文章情報に含まれている、連続する1個の品詞情報の配列(品詞1グラム)(x[i])(1≦i≦n)の出現順は、ステップA1で判別したn個の品詞情報の出現順と同じである。このため、図8に示されているように、文章情報に含まれている連続する1個の品詞情報は、品詞情報コード[〈s〉]、品詞情報コード[2/0/0]、品詞情報コード[59/0/0]、品詞情報コード[63/0/0]、品詞情報コード[76/0/0]、・・・・・、品詞情報コード[75/0/0]、品詞情報コード[〈/s〉]、品詞情報コード[〈s〉]、・・・・・の出現順に抽出される。
図9は、[N=2]が選択され、連続する2個の品詞情報の配列(品詞2グラム)に基づいて評価情報を算出する場合の動作を説明するものである。この場合、文章情報に含まれている、連続する2個の品詞情報の配列(品詞2グラム)(x[i],x[i+1])(1≦i≦n−1)の出現順は、図9に示されているように、(品詞情報コード[〈s〉],品詞情報コード[2/0/0])、(品詞情報コード[2/0/0],品詞情報コード[59/0/0])、(品詞情報コード[59/0/0],品詞情報コード[63/0/0])、(品詞情報コード[63/0/0],品詞情報コード[76/0/0])、・・・・・、(品詞情報コード[75/0/0],品詞情報コード[〈/s〉])、(品詞情報コード[〈/s〉],品詞情報コード[〈s〉])、・・・・・の出現順に抽出される。
ステップA3では、文章情報に対する文章情報グループ毎の評価情報を作成する。本実施の形態では、ステップA2で抽出された、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)それぞれに対する文章情報グループ毎の品詞Nグラム確率情報を記憶手段20の品詞Nグラム確率情報データベース23から読み出し(あるいは、文章情報グループ品詞Nグラム確率情報データベースS1、S2、S11、S12それぞれから読み出し)、文章情報グループ毎に乗算する。そして、乗算結果(乗算値)を文章情報に対する文章情報グループ毎の評価情報とする。本実施の形態では、品詞Nグラム確率情報データベース23(あるは、文章情報グループ別品詞Nグラム確率情報データベースS1、S2、S11、S12)には、品詞Nグラムに対する文章情報グループ毎の品詞Nグラム確率として、対数で表された品詞Nグラム確率が記憶されている。このため、文章情報に含まれている品詞Nグラムそれぞれに対する品詞Nグラム確率情報を文章情報グループ毎に加算し、加算結果(加算値)を文章情報に対する文章情報グループ毎の評価情報とする。
文章情報に対する文章情報グループ毎の評価情報を作成する処理を、図8および図9を参照して具体的に説明する。
品詞1グラムが選択されている図8に示されている例では、文章情報に含まれている品詞1グラムである、品詞情報コード[〈s〉]、品詞情報コード[2/0/0]、品詞情報コード[59/0/0]、品詞情報コード[63/0/0]、品詞情報コード[76/0/0]、・・・・・、品詞情報コード[75/0/0]、品詞情報コード[〈/s〉]、品詞情報コード[〈s〉]、・・・・それぞれに対応するコラム系文章情報グループS1の品詞1グラム確率、−1.5307、−0.9024、−1.0126、−1.3732、−1.5468、・・・−1.6726、−1.5309、−1.5307、・・・を品詞1グラム確率情報データベース23から読み出す。そして、読み出した、各品詞1グラムに対応するコラム系文章情報グループS1の品詞1グラム確率を加算し、加算値T1s1(=−1.5307−0.9024−1.0126−1.3732−1.5468−・・・−1.6726−1.5309−1.5307−・・・)を、文章情報に対するコラム系文章情報グループS1の評価情報(評価値)とする。同様に、文章情報に含まれている品詞1グラムそれぞれに対応する日記系文章情報グループS2の品詞1グラム確率、−1.2570、−1.0370、−1.1360、−1.6133、−1.4176、・・・−1.5659、−1.2625、−1.2570、・・・を品詞1グラム確率情報データベース23から読み出す。そして、読み出した各品詞1グラムに対応する日記系文章情報グループの品詞1グラム確率を加算し、加算値T1s2(=−1.2570−1.0370−1.1360−1.6133−1.4176−・・・−1.5659−1.2625−1.2570−・・・)を文章情報に対する日記系文章情報グループS2の評価情報(評価値)とする。
また、品詞2グラムが選択されている図9に示されている例では、文章情報に含まれている品詞2グラムである、(品詞情報コード[〈s〉],品詞情報コード[2/0/0])、(品詞情報コード[2/0/0],品詞情報コード[59/0/0])、(品詞情報コード[59/0/0],品詞情報コード[63/0/0])、・・・、(品詞情報コード[75/0/0],品詞情報コード[〈/s〉])、・・・それぞれに対応するコラム系文章情報グループS1の品詞2グラム確率、−1.2360、−0.5945、−0.8069、・・・、−0.0007,・・・を品詞情報2グラム確率情報データベース23から読み出す。そして、読み出した、各品詞2グラムに対応するコラム系文章情報グループS1の品詞2グラム確率を加算し、加算値T2s1(=−1.2360−0.5945−0.8069−・・・−0.0007−・・・)を文章情報に対するコラム系文章情報グループS1の評価情報(評価値)とする。同様に、文章情報に含まれている品詞2グラムそれぞれに対応する日記系文章情報グループS2の品詞2グラム確率、−1.0654、−0.8490、−0.9660、・・・、−0.0584、・・・を品詞2グラム確率情報データベース23から読み出す。そして、読み出した、各品詞2グラムに対応する日記系文章情報グループS2の品詞2グラム確率を加算し、加算値T2s2(=−1.0654−0.8490−0.9660−・・・−0.0584−・・・)を文章情報に対する日記系文章情報グループS2の評価情報(評価値)とする。
ここで、判別対象の文章情報に含まれている品詞Nグラムに対する文章情報グループの品詞Nグラム確率情報が品詞Nグラム確率情報データベース23に記憶されていない場合がある。すなわち、ステップA3において、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループSの品詞Nグラム確率情報を品詞Nグラム確率情報データベース23から読み出すことができない場合がある。このような場合には、前述した補間処理方法を用いて補間処理を行う。そして、補間処理を行って得た値を、当該品詞Nグラムに対する当該文章情報グループSの品詞Nグラム確率情報として決定する(用いる)。
なお、判別対象の文章情報に含まれている品詞Nグラムに対する文章情報グループSの品詞Nグラム確率情報が品詞Nグラム確率情報データベース23に記憶されていない場合には、当該品詞Nグラムに対する当該文章情報グループSの品詞Nグラム確率情報を用いないで文章情報に対する評価情報を作成するように構成することもできる。
また、前述したように、入力手段30から入力される文章情報の形態素(あるいは品詞情報)の総数(延べ数)は異なるため、評価情報を作成する際には、作成された評価情報を正規化するのが好ましい。例えば、対数で表されている、品詞Nグラムそれぞれに対応する品詞Nグラム確率情報を文章情報グループ毎に加算し、加算結果(加算値)を、文章情報に含まれている形態素の総数(延べ数)あるいは品詞情報の総数(延べ数)で除算した情報(値)を、文章情報に対する文章情報グループ毎の正規化評価情報(正規化評価値)として用いる。
品詞1グラムが選択されている図8に示す例では、前述した方法で作成した(算出した)文章情報に対するコラム系文章情報グループS1の評価情報(評価値)T1s1、日記系文章情報グループS2の評価情報(評価値)T1s2を、文章情報に含まれている形態素(あるいは品詞情報)の総数Nallで除算する。そして、除算値[T1s1/Nall]、[T1s2/Nall]を、それぞれ文章情報に対するコラム系文章情報グループS1の正規化評価情報(正規化評価値)、文章情報に対する日記系文章情報グループS2の正規化評価情報(正規化評価値)とする。
同様に、品詞2グラムが選択されている図9に示す例では、前述した方法で作成した(算出した)文章情報に対するコラム系文章情報グループS1の評価情報(評価値)T2s1、日記系文章情報グループS2の評価情報(評価値)T2s2を、文章情報に含まれている形態素(あるいは品詞情報)の総数Nallで除算する。そして、除算値[T2s1/Nall]、[T2s2/Nall]を、それぞれ文章情報に対するコラム系文章情報グループS1の正規化評価情報(正規化評価値)、文章情報に対する日記系文章情報グループS2の正規化評価情報(正規化評価値)とする。
作成した、文章情報に対する文章情報グループ毎の評価情報(あるいは正規化評価情報)は、後の処理で利用するために記憶手段20の文章情報データベース21に文章情報に対応させて記憶させてもよいし、続けて他の処理で用いてもよい。
ステップA2およびA3での処理は、評価情報作成手段13によって全文章情報グループに対して実行され、あるいは、文章情報グループ別評価情報作成手段T1、T2、T11、T12によって文章情報グループ毎に実行される。
つぎに、文章情報が帰属する文章情報グループを判別するグループ判別処理について、図6に示すフローチャートを参照して説明する。
ステップB1では、図5に示したステップA1と同様に、文章情報を形態素に分割し、文章情報に含まれている品詞情報を文章情報中における出現順に抽出する(n個の品詞情報)。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
ステップB2では、図5に示したステップA2と同様に、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。
ステップB3では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップB3では、前述したように、正規化評価情報を作成するのが好ましい。
ステップB4では、文章情報が帰属する文章情報グループを判別する。例えば、ステップB3で作成された文章情報に対する文章情報グループ毎の評価情報(好適には、正規化評価情報)のうち最も大きい(最も確率が高い)評価情報が作成された文章情報グループに帰属することを判別する。なお、文章情報に対する評価情報に基づいて文章情報が帰属する文章情報グループを判別する際、設定値以下の評価情報は無視するように構成することもできる。
ステップB4で判別した、文章情報が帰属する文章情報グループは、後の処理で利用するために記憶手段20の文章情報データベース21に文章情報に対応させて記憶させてもよいし、続けて他の処理で用いてもよい。
ステップB4での処理は、グループ判別手段14によって実行される。
つぎに、設定条件に該当する文章情報を選択して出力する文章情報出力処理について、図10に示すフローチャートを参照して説明する。図10に示すフローチャートの処理は、例えば、本実施の形態の処理の開始時に表示手段40に表示されるメニュー画面で「文章情報選択出力処理」メニューが選択されることによって開始される。
ステップC1では、検索キーワードを入力する。検索キーワードは、文章情報を選択するために用いられる。検索キーワードは、本発明の「検索情報」に対応する。なお、検索キーワードは文章情報を検索するために用いられる。勿論、検索キーワードの使用を省略することもできる。
ステップC2では、文章情報グループ毎の設定評価情報を入力する。文章情報グループ毎の設定評価情報は、文章情報を検索する条件として用いられる。文章情報グループ毎の設定評価情報は、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で設定することができる。2次元平面としては、例えば、図13に示すように、x軸方向(直交する座標軸の一方の座標軸の方向)に沿って一つの種別(例えば、文章情報のコンテンツ種別)の文章情報グループに対応する座標軸が引かれ、y軸方向(直交する座標軸の他方の座標軸の方向)に沿って他の種別(例えば、文章情報の文体種別)の文章情報グループに対応する座標軸が引かれた2次元平面を用いることができる。図13に示す2次元平面では、x軸の一方向(例えば、通常のxプラス方向)に、文章情報の文体種別に含まれる1つの文章情報グループである[論説調文章情報グループS11](C軸)、x軸の他方向(例えば、通常のxマイナス方向)に、文章情報の文体種別に含まれる他の文章情報グループである[口語調文章情報グループS12](D軸)が引かれている。また、y軸の一方向(例えば、通常のyプラス方向)に、文章情報のコンテンツ種別に含まれる1つの文章情報グループである[コラム系文章情報グループS1](A軸)、y軸の他方向(例えば、通常のyマイナス方向)に、文章情報のコンテンツ種別に含まれる他の文章情報グループである[日記系文章情報グループS2](B軸)が引かれている。そして、この2次元平面で指示された指示点の座標値によって、座標軸に対応する文章情報グループの設定評価情報が設定される。例えば、指示点P(Cp,Ap)が指示されると、指示点Pの座標軸C軸に沿った値Cpが座標軸C軸に対応する[論説調文章情報グループS11]の設定評価情報として設定され、指示点Pの座標軸A軸に沿った値Apが座標軸A軸に対応する[コラム系文章情報グループS1]の設定評価情報として設定される。この時、コンテンツ種別に関する日記系文章情報グループS2の設定評価情報、文体種別に関する口語調文章情報グループS12の設定評価情報は「0」に設定される。また、指示点Q(Cq,Bq)が指示されると、指示点Qの座標軸C軸に沿った値Cqが座標軸C軸に対応する[論説調文章情報グループS11]の設定評価情報として設定され、指示点Qの座標軸B軸に沿った値Bqが座標軸B軸に対応する[日記系文章情報グループS2]の設定評価情報として設定される。この時、コンテンツ種別に関するコラム系文章情報グループS1の設定評価情報、文体種別に関する口語調文章情報グループS12の設定評価情報は「0」に設定される。また、指示点R(Dr,Br)が指示されると、指示点Rの座標軸D軸に沿った値Drが座標軸D軸に対応する[口語調文章情報グループS12]の設定評価情報として設定され、指示点Rの座標軸B軸に沿った値Brが座標軸B軸に対応する[日記系文章情報グループS2]の設定評価情報として設定される。この時、コンテンツ種別に関するコラム系文章情報グループS1の設定評価情報、文体種別に関する論説調文章情報グループS11の設定評価情報は「0」に設定される。
図10に戻り、ステップC3では、記憶手段20の文章情報データベース21に記憶されている文章情報を読み取り、図5に示したステップA1と同様に、文章情報を形態素に分割し、文章情報に含まれているn個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップC3の処理は、ステップC1(検索キーワード入力)以前に予め行っておいてもよい。
ステップC4では、文章情報にステップC1で入力された検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップC5に進み、文章情報に検索キーワードが含まれていない場合にはステップC7に進む。ステップC4の処理は、管理手段11等によって実行される。
ステップC5では、図5に示したステップA2と同様に、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。
ステップC6では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップC6では、前述したように、正規化評価情報を作成するのが好ましい。
ステップC7では、記憶手段20の文章情報データベース21に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース21に記憶されている文章情報の読み出しを終了していない場合にはステップC3に戻り、文章情報の読み出しを終了した場合にはステップC8に進む。
ステップC8では、ステップC6で作成された文章情報に対する文章情報グループ毎の評価情報(あるいは正規化評価情報)が、ステップC3で設定された文章情報グループ毎の設定評価情報に該当する文章情報を選択(検索)する。文章情報グループ毎の設定評価情報に該当する文章情報を選択(検索)する方法としては、種々の方法を用いることができる。文章情報グループ毎の設定評価情報に該当する文章情報を選択(検索)する方法の例を、図13を参照して説明する。なお、図13に示す2次元平面に表示(プロット)されている各文章情報を示す点(文章情報識別情報)s1〜s9、s11〜s19、s21〜s29は、同一種別(例えば、コンテンツ種別や文体種別)の文章情報グループのうち最も大きい文章情報グループを選択したものである。例えば、x軸に沿って座標軸が引かれる一つの種別の文章情報グループである、文体種別に関する[論説調文章情報グループS11](C軸)と[口語調文章情報グループS12](D軸)に対する評価情報のうちの最大値と、y軸に沿って座標軸が引かれる他の種別の文章情報グループである、コンテンツ種別に関する[コラム系文章情報グループS1](A軸)と[日記系文章情報グループS2](B軸)に対する評価情報のうちの最大値が選択される。すなわち、文章情報を示す点a(文章情報識別情報)のx軸方向の座標値xaとy軸方向の座標値yaは、以下のように表わされる。
xa=|論説調文章情報グループに対する評価情報と口語調文章情報グループに対する評価情報のうちの最大値|
ya=|コラム系文章情報グループに対する評価情報と日記系文章情報グループに対する評価情報のうちの最大値|
文章情報を示す点a(文章情報識別情報)は、論説調文章情報グループに対する評価情報が大きい場合にはC軸方向(xプラス方向)に配置され、口語調文章情報グループに対する評価情報が大きい場合にはD軸方向(xマイナス方向)に配置される。また、コラム系文章情報グループに対する評価情報が大きい場合にはA軸方向(yプラス方向)に配置され、日記系文章情報グループに対する評価情報が大きい場合にはB軸方向(yマイナス方向)に配置される。
ここで、文章情報を選択するための1つの方法は、文章情報グループ毎の設定評価情報に近い文章情報グループ毎の評価情報を有する文章情報を選択する方法である。例えば、図13に示されている2次元平面において、各文章情報を示す点s1(Cs1,As1)〜s9(Cs9,As9)のうち、指示点P(Cp,Ap)との間の距離が最も短い1つの点s3、あるいは2番目、3番目・・・に距離が短い(所定の設定個数の)複数の点s5、s7を同時に選択する。
他の方法は、文章情報グループ毎の設定評価情報から一定範囲内に文章情報グループ毎の評価情報を有する文章情報を選択する方法である。例えば、図13に示されている2次元平面において、各文章情報を示す点s11(Cs11,Bs11)〜s19(Cs19,Bs19)のうち、指示点Q(Cq,Bq)から距離rの範囲内に文章情報グループ毎の評価情報が存在する点s13、s14、s17を選択する。
他の方法は、2次元平面上に区分されている区分領域のうち、文章情報グループ毎の設定評価情報が含まれる区分領域内に文章情報毎の評価情報を有する文章情報を選択する方法である。例えば、図13に示されている区分領域a21〜a29に分割されている2次元平面において、各文章情報を示す点s21(Bs21,Ds21)〜s29(Bs19,Bs19)のうち、指示点R(Br,Dr)が含まれる区分領域a25に文章情報グループ毎の評価情報が存在する点s23、s25、s26を選択する。
そして、ステップC9では、ステップC8で選択した文章情報を出力する。
ステップC7〜C9の処理は、管理手段11によって実行される。
なお、文章情報グループ毎の設定評価情報の入力方法は、前述した2次元平面上で指示する方法に限定されない。例えば、文章グループ毎の設定評価情報をそれぞれ個別に入力する方法を用いることもできる。この場合には、例えば、文章情報グループ毎の評価情報と設定評価情報との間の距離が最も短い1つの文章情報、あるいは2番目、3番目・・・に距離が短い(所定の設定個数の)の複数の文章情報を同時に選択する。
つぎに、設定条件に該当する文章情報を選択して出力する文章情報出力処理について、図11に示すフローチャートを参照して説明する。
ステップD1では、図10に示したステップC1と同様に、検索キーワードを入力する。
ステップD2では、設定文章情報グループを入力する。設定文章情報グループは、文章情報を検索する条件として用いられる。
ステップD3では、記憶手段20の文章情報データベース21に記憶されている文章情報を読み取り、図5に示したステップA1と同様に、文章情報を形態素に分割し、文章情報に含まれているn個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップD3の処理は、ステップD1(検索キーワード入力)以前に予め行っておいてもよい。
ステップD4では、図10に示したステップC4と同様に、文章情報に検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップD5に進み、文章情報に検索キーワードが含まれていない場合にはステップD10に進む。
ステップD5では、図5に示したステップA2と同様に、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)を出現順に抽出する。
ステップD6では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップD6では、前述したように、正規化評価情報を作成するのが好ましい。
ステップD7では、図6に示したステップB4と同様に、文章情報が帰属する文章情報グループを判別する。
ステップD8では、ステップD7で判別した文章情報グループが、ステップD2で入力された設定文章情報グループと一致するか否かを判断する。文章情報グループが設定文章情報グループと一致するとステップD9に進み、一致しない場合にはステップD10に進む。
ステップD9では、文章情報を選択する。
ステップD10では、記憶手段20の文章情報データベース21に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース21に記憶されている文章情報の読み出しを終了していない場合にはステップD3に戻り、文章情報の読み出しを終了した場合にはステップD11に進む。
そして、ステップD11では、ステップD9で選択した文章情報を出力する。
つぎに、評価情報を作成して出力する評価情報出力処理について、図12に示すフローチャートを参照して説明する。
ステップE1では、図10に示したステップC1と同様に、検索キーワードを入力する。
ステップE2では、記憶手段20の文章情報データベース21に記憶されている文章情報を読み取り、図5に示したステップA1と同様に、文章情報を形態素に分割し、文章情報に含まれているn個の品詞情報を文章情報中における出現順に抽出する。具体的には、先ず、前述した方法を用いて文章情報から文情報を判別する。そして、各文情報を形態素解析して文情報を形態素に分割した後、各文情報に含まれている品詞情報を文情報中における出現順に抽出する処理を、文情報の出現順に行う。
なお、ステップE2の処理は、ステップE1(検索キーワード入力)以前に予め行っておいてもよい。
ステップE3では、図10に示したステップC4と同様に、文章情報に検索キーワードが含まれているか否かを判断する。文章情報に検索キーワードが含まれている場合にはステップE4に進み、文章情報に検索キーワードが含まれていない場合にはステップE6に進む。
ステップE4では、図5に示したステップA2と同様に、文章情報に含まれている連続するn個の品詞情報を出現順に抽出する。
ステップE5では、図5に示したステップA3と同様に、文章情報に対する文章情報グループ毎の評価情報を作成する。ステップE5では、前述したように、正規化された評価情報を作成するのが好ましい。
ステップE6では、記憶手段20の文章情報データベース21に記憶されている文章情報を全て読み出したか否かを判断する。文章情報データベース21に記憶されている文章情報の読み出しを終了していない場合にはステップE2に戻り、文章情報の読み出しを終了した場合にはステップE7に進む。
ステップE7では、ステップE5で作成された各文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する。文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する方法としては、利用者が、文章情報に対する文章情報グループ毎の評価情報を判別可能に出力するのが好ましい。なお、本明細書では、「文章情報に対する文章情報毎の評価情報を利用者が判別可能に出力手段から出力する」という記載は、「文章情報に対する、各種別それぞれに含まれる少なくとも一つの文章情報グループの評価情報を利用者が判別可能に出力する」態様を含むものとして用いられている。例えば、図14に示すように、各文章情報を示す点(文章情報識別情報)を2次元平面上に表示する出力方法を用いることができる。2次元平面としては、例えば、図13に示した2次元平面と同様に、x軸方向(直交する座標軸の一方の座標軸の方向)に沿って一つの種別(例えば、文章情報のコンテンツ種別)の文章情報グループに対応する座標軸が引かれ、y軸方向(直交する座標軸の他方の座標軸の方向)に沿って他の種別(例えば、文章情報の文体種別)の文章情報グループに対応する座標軸が引かれた2次元平面を用いることができる。図14に示す2次元平面では、x軸の一方向に、文章情報の文体種別に含まれる1つの文章情報グループである[論説調文章情報グループS11](C軸)、x軸の他方向(例えば、通常のxマイナス方向)に、文章情報の文体種別に含まれる他の文章情報グループである[口語調文章情報グループS12](D軸)が引かれ、y軸の一方向に、文章情報のコンテンツ種別に含まれる1つの文章情報グループである[コラム系文章情報グループS1](A軸)、y軸の他方向に、文章情報のコンテンツ種別に含まれる1つの文章情報グループである[日記系文章情報グループS2](B軸)が引かれている。そして、この2次元平面上に、各文章情報を示す点(文章情報識別情報)s31〜s48を配置する。この場合、各文章情報を示す点s31〜s48は、図13と同様に、同一種別の文章情報グループのうち最も大きい文章情報グループを選択したものである。例えば、x軸に沿って座標軸が引かれる一つの種別(文体種別)に含まれる[論説調文章情報グループS11](C軸)と[口語調文章情報グループS12](D軸)に対する評価情報のうちの最大値と、y軸に沿って座標軸が引かれる他の種別(コンテンツ種別)に含まれる[コラム系文章情報グループS1](A軸)と[日記系文章情報グループS2](B軸)に対する評価情報のうちの最大値が選択される。
勿論、各文章情報に対する文章情報グループ毎の評価情報を出力する方法を用いることもできる。例えば、各文章情報に対する文章情報グループ毎の評価情報を表形式等で出力する方法を用いることができる。あるいは、原点から各文章情報グループに対応する座標軸を引いた多次元座標空間および多次元座標空間上に配置した各文章情報識別情報を2次元平面上に射影することによって、文章情報に対する文章情報グループ毎の評価情報を表示する方法を用いることもできる。
以上のように、本発明は、文章情報に含まれている連続するN個の品詞情報の配列(品詞Nグラム)と、学習文章情報に基づいて作成された連続するN個の品詞情報の配列(品詞Nグラム)に対する文章情報グループ毎の品詞Nグラム確率情報に基づいて、文章情報に対する文章情報グループ毎の評価情報を作成している。これにより、文章情報が帰属する文章情報グループの判別を支援する評価情報を容易に、精度良く作成することができる。また、連続するN個の品詞情報の配列(品詞Nグラム)に対する品詞Nグラム確率情報を用いることによって、文章情報に含まれている単語(文章情報の内容や話題)に対する依存性が低くなり、品詞Nグラム確率情報データベースに記憶する品詞Nグラム確率情報を作成するための学習文章情報の数も少なくてすむ。
本発明は、実施の形態で説明した構成に限定されず、種々の変更、追加、削除が可能である。
文章情報に対する文章情報グループ毎の評価情報(あるいは、正規化評価情報)の作成方法、文章情報に対する文章情報グループ毎の評価情報に基づいて文章情報が帰属する文章情報グループを判別する方法は、実施の形態で説明した方法に限定されない。
各処理の内容は、フローチャートに記載した処理内容に限定されない。
検索キーワードを用いて文章情報を検索する方法は省略することもできる。
実施の形態で説明した各構成は、単独で用いることもできるし、適宜選択した複数を組み合わせて用いることもできる。
品詞Nグラム確率情報としては、品詞Nグラム確率を用いることもできるし、品詞Nグラム確率に対応する他の情報を用いることもできる。
評価情報としては、評価値を用いることもできるし、評価値に対応する他の情報を用いることもできる。
本発明は、「予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段を備え、前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは2以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、前記管理手段は、前記入力手段により入力される文章情報あるいは前記記憶手段に記憶されている文章情報に対する評価情報作成要求情報が入力されると、前記入力手段から入力された文章情報あるいは前記記憶手段に記憶されている文章情報に対する文章情報グループ毎の評価情報を、前記形態素解析手段および前記評価情報作成手段を用いて作成し、前記記憶手段に記憶することを特徴とする文章情報グループ帰属性判別支援装置。」(態様1)として構成することができる。
態様1では、文章情報が帰属する文章情報グループの判別を支援する評価情報を容易に精度良く作成することができる。
また、「予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは2以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、前記管理手段は、前記入力手段から文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、前記形態素解析手段および前記評価情報作成手段を用いて作成した前記記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報と、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、前記記憶手段に記憶されている文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択し、前記選択した文章情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様2)として構成することができる。
態様2では、文章情報に対する文章情報グループ毎の評価情報が設定された条件に適合する文章情報、すなわち、各文章情報グループに対して所望の帰属性を有する文章情報を容易に選択することができる。
また、「態様2に記載の文章情報グループ帰属性判別支援装置であって、前記入力手段は、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された点の各座標値を、文章情報グループ毎の設定評価情報として入力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様3)として構成することができる。
態様3では、文章情報グループ毎の設定評価情報を容易に入力することができる。
また、「態様2または3に記載の文章情報グループ帰属性判別支援装置であって、前記管理手段は、前記入力手段から検索情報と文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択することを特徴とする文章情報グループ帰属性判別支援装置。」(態様4)として構成することができる。
態様4では、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
また、「予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは2以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、前記管理手段は、前記入力手段から出力要求情報が入力されると、前記形態素解析手段および前記評価情報作成手段を用いて作成した前記記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報を出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様5)として構成することができる。
各文章情報に対する文章情報グループ毎の評価情報を出力手段から出力する方法としては、適宜の方法を用いることができる。好適には、各文章情報に対する文章情報グループ毎の評価情報を判別可能に出力手段から出力する方法が用いられる。文章情報グループ毎の評価情報を判別可能に出力手段から出力する方法には、同じ種別に含まれる複数の文章情報グループのうちの少なくとも1つに対する評価情報を判別可能に出力手段から出力する方法が含まれる。「評価情報を判別可能に出力手段から出力する」という記載は、利用者が評価情報を判別することができるように出力手段から出力する構成を意味し、例えば、評価情報を数字で出力する態様、評価情報が座標軸として引かれているグラフ上の点として出力する態様等が用いられる。
態様5では、利用者は、各文章情報に対する文章情報グループ毎の評価情報を容易に判別することができる。
また、「態様5に記載の文章情報グループ帰属性判別支援装置であって、前記管理手段は、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上に各文章情報を示す文章情報識別情報が配置されるように出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様6)として構成することができる。
態様6では、利用者は、各文章情報に対する文章情報グループ毎の評価情報をより容易に判別することができる。
また、「態様5または6に記載の文章情報グループ判別支援装置であって、前記管理手段は、前記入力手段から検索情報と出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報に対する文章情報グループ毎の評価情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様7)として構成することができる。
態様7では、キーワード等の検索情報を用いることにより、所望の文章情報に対する文章情報グループ毎の評価情報を判別することができる。
また、「予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、グループ判別手段と、出力手段を備え、前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは2以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、前記グループ判別手段は、前記評価情報作成手段によって作成された前記文章情報に対する文章情報グループ毎の評価情報に基づいて、前記文章情報が帰属する文章情報グループを判別し、前記管理手段は、前記入力手段から設定文章情報グループを含む出力要求情報が入力されると、前記形態素解析手段、前記評価情報作成手段および前記グループ判別手段を用いて判別した前記記憶手段に記憶されている各文章情報が帰属する文章情報グループが、前記入力された出力要求情報に含まれている設定文章情報グループと一致する文章情報を選択し、前記選択した文章情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様8)として構成することができる。
文章情報に対する文章情報グループ毎の評価情報に基づいて、文章情報が帰属する文章情報グループを判別する方法としては、適宜の方法を用いることができる。例えば、文章情報に対する文章情報グループ毎の評価情報のうち最も大きい評価情報が作成された文章情報グループを、当該文章情報が帰属する文章情報グループであることを判別する方法を用いることができる。
態様8では、設定した文章情報グループに帰属する文章情報を容易に精度良く選択することができる。
また、「態様8に記載の文章情報グループ判別支援装置であって、前記管理手段は、前記入力手段から検索情報と設定文章情報グループを含む出力要求情報出力要求情報が入力されると、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む文章情報が帰属する文章情報グループが、前記入力された出力要求情報に含まれている設定文章情報グループと一致する文章情報を前記出力手段から出力することを特徴とする文章情報グループ帰属性判別支援装置。」(態様9)として構成することができる。
態様9では、キーワード等の検索情報を用いることにより、所望の文章情報をより容易に選択することができる。
また、「態様1〜9のいずれかに記載の文章情報グループ帰属性判別支援装置であって、前記記憶手段には、連続する(N−1)個以下のそれぞれの個数の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、前記評価情報作成手段は、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続する(N−1)個以下のそれぞれの個数の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記抽出した連続するN個の品詞情報の配列それぞれに対する文章情報グループ毎の品詞情報出現確率情報を決定し、前記抽出した連続するN個の品詞情報の配列それぞれに対する文章情報グループ毎の、前記決定した品詞情報出現確率情報に基づいて前記文章情報に対する文章情報グループ毎の評価情報を作成することを特徴とする文章情報グループ帰属性判別支援装置。」(態様10)として構成することができる。
本態様では、記憶手段には、連続するN個の品詞情報(品詞Nグラム)に対する文章情報グループ毎の品詞情報出現確率情報(品詞Nグラム確率情報)および、連続するM個(M=1,・・・,N−1)それぞれの個数の品詞情報の配列(品詞Mグラム)に対する文章情報グループ毎の品詞情報出現確率情報(品詞Mグラム確率情報)が記憶されている。そして、評価情報作成手段は、文章情報に含まれている品詞Nグラムに対する品詞Nグラム確率情報が記憶手段に記憶されている場合には、記憶手段に記憶されている品詞Nグラム確率情報を当該品詞Nグラムに対する品詞Nグラム確率情報として決定する(用いる)。一方、文章情報に含まれている品詞Nグラムに対する品詞Nグラム確率情報が記憶手段に記憶されていない場合には、品詞Mグラム(M=1・・・,N−1)それぞれに対する品詞Mグラム確率情報を用いて補間処理を行う。
補間処理手法としては、公知の種々の手法を用いることができる、例えば、[N=2](品詞2グラム)が選択されており、文章情報中における出現順がi版目の品詞2グラム(x[i],x[i+1])に対する品詞2グラム確率情報が記憶手段に記憶されていない場合には、品詞2グラム(x[i],x[i+1])を構成している品詞1グラムx[i]と品詞1グラムx[i+1]それぞれに対する品詞1グラム確率情報を用いて補間処理を行う。そして、補間処理によって得た値を、当該品詞2グラム(x[i],x[i+1])に対する品詞2グラム確率情報として決定する(用いる)。
態様10では、判別対象である文章情報に含まれている品詞Nグラムに対する品詞Nグラム確率情報が記憶手段に記憶されていない場合でも、補間処理によって当該品詞Nグラムに対する品詞Nグラム確率情報を決定することができるため、全ての品詞Nグラムを網羅した大量の学習文章情報を用いて品詞Nグラム確率情報を作成する必要がない。
また、「態様10に記載の文章情報グループ帰属性判別支援装置であって、前記評価情報作成手段は、前記抽出した連続するN個の品詞情報の配列それぞれに対する文章情報グループ毎の、前記決定した品詞情報出現確率情報を文章情報グループ毎に乗算することによって、前記文章情報に対する文章情報グループ毎の評価情報を作成することを特徴とする文章情報グループ帰属性判別支援装置。」(態様11)として構成することができる。
なお、品詞Nグラム確率情報が対数で表されている場合には、品詞Nグラム確率情報の乗算は、対数で表された品詞Nグラム確率情報の加算によって実行される。
態様11では、文章情報に対する文章情報グループ毎の評価情報を容易に、精度良く作成することができる。
また、「態様10または11に記載の文章情報グループ帰属性判別支援装置であって、前記評価情報作成手段は、前記作成した前記文章情報に対する文章情報グループ毎の評価情報を、前記文章情報に含まれている形態素の全数(延べ数)で除算した評価情報を前記文章情報に対する文章情報グループ毎の評価情報(正規化評価情報)として用いることを特徴とする文章情報グループ帰属性判別支援装置。」(態様12)として構成することができる。
態様12では、文章情報に対する文章情報グループ毎の評価情報の信頼性を高めることができる。
また、「コンピュータに態様1〜12のいずれかに記載の管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段の処理を実行させるためのプログラム。」(態様13)として構成することができる。
また、「コンピュータに態様1〜12のいずれかに記載の管理手段、形態素解析手段、評価情報作成手段あるいはグループ判別手段の処理を実行させるためのプログラムが記録された記憶媒体。」(態様14)として構成することができる。
本発明の一実施の形態の概略構成を示す図である。 形態素解析辞書の1例を示す図である。 連続するN個[N=1]の品詞情報の配列に対する品詞Nグラム確率情報データベースの1例を示す図である。 連続するN個[N=2]の品詞情報の配列に対する品詞Nグラム確率情報データベースの1例を示す図である。 評価情報作成処理を説明するフローチャートである。 グループ判別処理を説明するフローチャートである。 文章情報に含まれている品詞情報を出現順に判別する処理を具体的に説明する図である。 連続するN個[N=1]の品詞情報を出現順に抽出する処理と、文章情報に対する評価情報を作成する処理を具体的に説明する図である。 連続するN個[N=2]の品詞情報を出現順に抽出する処理と、文章情報に対する評価情報を作成する処理を具体的に説明する図である。 文章情報出力処理を説明するフローチャートである。 グループ文章情報出力処理を説明する図である。 評価情報出力処理を説明するフローチャートである。 設定評価情報入力画面の1例を示す図である。 評価情報出力画面の1例を示す図である。
10 処理手段
11 管理手段
12 形態素解析手段
13 評価情報作成手段
T1、T2、T11、T12 文章情報グループ別評価情報作成手段
14 グループ判別手段
20 記憶手段
21 文章情報データベース
22 形態素解析辞書
23 品詞Nグラム確率情報データベース
S1、S2、S11、S12 文章情報グループ別品詞Nグラム確率情報データベース
30 入力手段
40 表示手段(出力手段)

Claims (7)

  1. 予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
    入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、
    前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
    前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
    前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
    前記管理手段は、
    前記入力手段から、原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、
    前記形態素解析手段および前記評価情報作成手段を用いて作成した前記記憶手段に記憶されている各文章情報に対する文章情報グループ毎の評価情報と、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、前記記憶手段に記憶されている文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択し、
    前記選択した文章情報を示す文章情報識別情報を、前記選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、前記2次元平面上に配置されるように出力することを特徴とする文章情報グループ帰属性判別支援装置。
  2. 予め設定されている複数の文章情報グループに対する文章情報の帰属性の判別を支援する文章情報グループ帰属性判別支援装置であって、
    入力手段と、記憶手段と、管理手段と、形態素解析手段と、評価情報作成手段と、出力手段を備え、
    前記記憶手段には、複数の文章情報と、品詞情報を含む形態素解析辞書と、連続するN個(Nは2以上の正の整数)の品詞情報の配列に対する文章情報グループ毎の品詞情報出現確率情報が記憶されており、
    前記形態素解析手段は、前記記憶手段に記憶されている形態素解析辞書を用いて、文章情報を形態素に分割するとともに、前記文章情報に含まれている品詞情報を出現順に判別し、
    前記評価情報作成手段は、前記形態素解析手段により判別された前記文章情報に含まれている品詞情報の出現順から、連続するN個の品詞情報の配列を出現順に抽出し、前記抽出した連続するN個の品詞情報の配列と、前記記憶手段に文章情報グループ毎に記憶されている連続するN個の品詞情報の配列に対する品詞情報出現確率情報に基づいて、前記文章情報に対する文章情報グループ毎の評価情報を作成し、
    前記管理手段は、
    前記入力手段から、検索情報と原点から各文章情報グループに対応する座標軸が引かれた2次元平面上で指示された指示点の各座標値で示される文章情報グループ毎の設定評価情報を含む出力要求情報が入力されると、
    前記形態素解析手段および前記評価情報作成手段を用いて作成した、前記記憶手段に記憶されており、前記入力された出力要求情報に含まれている検索情報を含む各文章情報に対する文章情報グループ毎の評価情報と、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に基づいて、前記入力された出力要求情報に含まれている検索情報を含む文章情報の中から、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報を選択し、
    前記選択した文章情報を示す文章情報識別情報を、前記選択した文章情報に対する文章情報グループ毎の評価情報を判別可能に、前記2次元平面上に配置されるように出力することを特徴とする文章情報グループ帰属性判別支援装置。
  3. 請求項1または2に記載の文章情報グループ帰属性判別支援装置であって、
    前記管理手段は、前記2次元平面において、文章情報を示す点と前記指示点との間の距離が最も短い1または複数の文章情報を、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択することを特徴とする文章情報グループ帰属性判別支援装置。
  4. 請求項1または2に記載の文章情報グループ帰属性判別支援装置であって、
    前記管理手段は、前記2次元平面において、文章情報を示す点と前記指示点との間の距離が設定範囲内である文章情報を、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択することを特徴とする文章情報グループ帰属性判別支援装置。
  5. 請求項1または2に記載の文章情報グループ帰属性判別支援装置であって、
    前記管理手段は、前記2次元平面を区分領域に分割し、文章情報を示す点が、前記指示点が含まれる区分領域に存在する文章情報を、前記入力された出力要求情報に含まれている文章情報グループ毎の設定評価情報に該当する文章情報として選択することを特徴とする文章情報グループ帰属性判別支援装置。
  6. コンピュータに請求項1〜のいずれかに記載の管理手段、形態素解析手段および評価情報作成手段の処理を実行させるためのプログラム。
  7. コンピュータに請求項1〜のいずれかに記載の管理手段、形態素解析手段および評価情報作成手段の処理を実行させるためのプログラムが記録された記憶媒体。
JP2008114877A 2008-04-25 2008-04-25 文章情報グループ帰属性判別支援装置 Active JP5245062B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008114877A JP5245062B2 (ja) 2008-04-25 2008-04-25 文章情報グループ帰属性判別支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008114877A JP5245062B2 (ja) 2008-04-25 2008-04-25 文章情報グループ帰属性判別支援装置

Publications (2)

Publication Number Publication Date
JP2009265952A JP2009265952A (ja) 2009-11-12
JP5245062B2 true JP5245062B2 (ja) 2013-07-24

Family

ID=41391726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008114877A Active JP5245062B2 (ja) 2008-04-25 2008-04-25 文章情報グループ帰属性判別支援装置

Country Status (1)

Country Link
JP (1) JP5245062B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7189125B2 (ja) * 2016-08-09 2022-12-13 リップコード インコーポレイテッド 電子記録のタグ付けのためのシステム及び方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03157762A (ja) * 1989-11-16 1991-07-05 Ricoh Co Ltd 言語処理装置
JP2005275757A (ja) * 2004-03-24 2005-10-06 Denso It Laboratory Inc 文章分類装置及び文章分類方法
CN100533431C (zh) * 2005-09-21 2009-08-26 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法

Also Published As

Publication number Publication date
JP2009265952A (ja) 2009-11-12

Similar Documents

Publication Publication Date Title
JP5425820B2 (ja) ターゲットページとは異なる文字セットおよび/または言語で書かれたクエリを使用する検索のためのシステムおよび方法
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
US11853689B1 (en) Computer-implemented presentation of synonyms based on syntactic dependency
JP3266586B2 (ja) データ分析システム
JP6693582B2 (ja) 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
US20110302179A1 (en) Using Context to Extract Entities from a Document Collection
US7284006B2 (en) Method and apparatus for browsing document content
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
US20240104302A1 (en) Minutes processing method and apparatus, device, and storage medium
CN107315735B (zh) 用于笔记整理的方法及设备
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
JP5245062B2 (ja) 文章情報グループ帰属性判別支援装置
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN109727591B (zh) 一种语音搜索的方法及装置
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
CN107256260A (zh) 一种智能语义识别方法、搜索方法、装置及系统
CN115510306A (zh) 用于电力客服中的数据检索方法
JP2010092108A (ja) 類似文章抽出プログラム、方法、装置
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130227

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130301

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5245062

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250