JP2007058415A

JP2007058415A - テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Info

Publication number: JP2007058415A
Application number: JP2005241145A
Authority: JP
Inventors: Satoshi Nakazawa; 聡中澤; Kenji Sato; 研治佐藤; Takahiro Ikeda; 崇博池田; Yosuke Sakao; 要祐坂尾
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-08-23
Filing date: 2005-08-23
Publication date: 2007-03-08

Abstract

【課題】入力したテキストに誤りが含まれている場合であっても、精度良くテキストマイニングを行なう。
【解決手段】曖昧性のある箇所が１つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出部４０と、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正部５０とを備えた。
【選択図】図１

Description

本発明は、テキストマイニング装置、方法および、その処理用プログラムに係り、特に入力テキストの一部に誤りが含まれているときに、誤りと推定される箇所の関連語を用いて、精度良く頻出する単語や表現パターンなどの特徴情報を抽出可能なテキストマイニング方式に関するものである。

アンケートや業務報告などの大量のテキストから、テキストの傾向など、有用な情報を分析するために、テキスト中に頻出する、あるいは統計的基準で意味のある単語や表現パターン、さらには、構文木等の構造情報を抽出するテキストマイニング技術が存在する（以後、テキストマイニング技術で抽出される単語や表現パターン、構文木等の情報を、本明細書ではまとめて特徴情報と称する）。

特許文献１は、そのようなテキストマイニング技術の１例である。特許文献１で開示されているテキストマイニング装置は、入力されたテキストデータから分野依存辞書を作成し、言語解析装置によって共起関係と係り受けを考慮した構文木を作成し、パターン抽出装置が、この構文木を用いることによって適切に頻出パターンを抽出・出力する。
特開２００１−８４２５０号公報

従来のテキストマイニング技術の課題として、入力されるテキストデータに誤りが含まれていた場合、その誤りによって、間違った特徴情報を出力してしまうという問題点がある。あるいは、単語や表現パターンなど抽出された特徴情報そのものは間違っていなくとも、それらの出現頻度や情報量など、統計的に個々の特徴情報の特徴の度合いを示す統計量が間違って計算される。

本発明はこのような問題点を解消するためになされたものであり、入力されたテキストデータ中の、誤りが含まれていると推定される誤り候補箇所に対して、各誤り候補箇所の関連語を含んでいる特徴情報をマイニングすることで、その結果から誤り候補箇所の修正を行い、精度よく特徴情報と、その特徴の度合いとを出力する、テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラムを提供することを目的とする。

本発明のテキストマイニング装置は、入力されたテキストデータの言語解析結果から、誤りが含まれている可能性が高い誤り候補箇所を判定するための誤り候補箇所判定部（図１の３０）と、各誤り候補箇所に対しては、可能な修正候補に展開して、テキストデータから特徴情報を抽出する候補展開特徴情報抽出部（図１の４０）と、同義語や類義語、シソーラス、クラス辞書など単語間の関係を記録した関連語データベース（図１の９０）を参照しながら、抽出された特徴情報の結果から、誤り候補箇所を可能な修正候補で展開した特徴情報のうち、採用する特徴情報を選択する特徴情報修正部（図１の５０）とからなる。このような構成を備え、各誤り候補箇所の修正候補に対する関連語を含む特徴情報が、最も大きな特徴の度合いとなるような修正候補を選択することで、本発明の目的を達成することができる。

本発明の効果は、入力されたテキストデータに誤りが含まれていても、誤りを修正しないままの場合に比べて正確な特徴情報を抽出することができるというものである。また、この誤り修正は、入力されたテキストデータから特徴情報を抽出する処理を通じて行われるため、誤り修正後に、再度特徴情報を抽出する処理を行わなくて良い利点もある。もし、誤り修正に用いた特徴情報以外の特徴をさらに抽出する場合には、修正後のテキストを入力とすれば良く、再度、誤り修正を行う必要はない。

この効果が得られる理由は、個々の誤り候補箇所を、それぞれ可能な修正候補に展開して抽出した特徴情報のうち、誤りの修正候補の関連語を含む特徴情報の特徴の度合いが最大になるような修正候補を選択することで、精度良く誤りを修正し、入力されたテキストデータの性質に応じた特徴情報を抽出することができるからである。

以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。

図１を参照すると、本発明の実施の形態によるデータマイニング装置は、マイニング対象のテキストデータを入力するテキストデータ入力装置（図１の１０）と、入力されたテキストデータの言語解析を行う言語解析部（図１の２０）と、言語解析に用いる辞書を記録する言語解析用辞書（図１の７０）と、入力されたテキストデータの言語解析結果から、誤りが含まれている可能性が高い誤り候補箇所を判定するための誤り候補箇所判定部（図１の３０）と、誤り候補箇所を判定する際に参照する、誤りやすい単語とその修正候補とを記録する誤り候補判定用辞書（図１の８０）と、各誤り候補箇所に対しては、可能な修正候補に展開して、テキストデータから特徴情報を抽出する候補展開特徴情報抽出部（図１の４０）と、同義語や類義語、シソーラス、クラス辞書など単語間の関係を記録した関連語データベース（図１の９０）と、抽出された特徴情報の結果から、採用する特徴情報を選択する特徴情報修正部（図１の５０）と、特徴情報修正部（図１の５０）の結果を受けて、必要に応じて特徴情報の特徴の度合いを再計算する特徴度再計算部（図１の１００）と、誤り候補箇所の修正の結果、最終的に得られた特徴情報を出力する特徴情報出力装置（図１の６０）からなる。

テキストデータ入力装置１０は、本発明の実施の形態を使用する際に、処理対象とするテキストデータを入力する装置である。テキストデータは、ファイルとしてハードディスク等の記録装置から読み込まれるものであっても、ネットワークなどの通信手段を用いて他の機器から入力されるのであっても良い。具体的にどのような形態の入力機器を用いるかは、本発明の実施の形態を使用する目的・状況によって異なってくる。また、音声認識技術や文字認識技術を用いて作成されたテキストデータの場合は、テキスト自体の他にテキストの各部分の認識結果がどの程度信頼できるのかを示す認識信頼度の指標をテキストと組にして受け取っても良い。さらに、認識結果の１位候補だけでなく、複数の認識候補を組にしたデータを受け取っても良い。

言語解析部２０は、テキストデータ入力装置１０に入力されたテキストデータに対して、候補展開特徴情報抽出部４０で特徴情報の抽出が可能なよう、言語解析処理を行う。ここで言語解析処理とは、形態素解析、構文解析、文節まとめ上げ処理、係り受け解析、などの処理を指す。こうした言語処理技術によって、入力されたテキストデータを、特徴情報を計数するための構造を持つ処理単位に分割・まとめ上げる。具体的にどのような言語処理技術を用いるかは、本発明の実施の形態を使用する際にどのような形式の特徴情報を抽出するかによって異なってくる。例えば、特徴情報として入力テキストに頻出する単語を出力する場合には、テキストデータに形態素解析処理を施し、テキストデータを単語毎に分割する必要がある。特徴情報として、単なる単語だけでなく、頻出する単語の係り受け関係を抽出するためには、形態素解析処理の後に、係り受け解析や構文解析などの単語間の構造関係を求める処理を行う必要がある。

これは、一般の言語解析技術やテキストマイニング技術に関する処理であり、本発明の対象とするところではないので、これ以上の詳細な説明は行わない。

言語解析用辞書７０は、言語解析部２０で行う言語解析処理に必要な辞書データを保管・記録するものである。

誤り候補判定用辞書８０は、誤りやすい文字列（誤り候補）と、その修正候補を組にして記録・保管しておく辞書である。ここで修正候補とは、誤りやすい文字列が本来どんな文字列であり得るかの候補である。こうした誤り候補判定用辞書８０は、想定される入力テキストに含まれる誤りの傾向に基づいて予め作成しておく。入力テキストとして音声認識処理により作成されたテキストが与えられる場合には、同音異義語や類似の発音の単語など、音声認識時に誤って認識されることの多い単語と正解の組を準備しておく。同様に入力テキストとして、文字認識処理により作成されたテキストが与えられる場合には、類似の文字形状を持つ単語の組を誤り候補と修正候補とする手法などが考えられる。

誤り候補判定用辞書８０に登録しておく誤り候補と修正候補の組は、人手で作成するのでもよいし、正解テキストと誤りテキストの組から機械的に作成するのでも良い。また、例えば音声認識結果を入力テキストとして想定している場合には、認識用の辞書に登録されている単語のうち、発音が一定の編集距離以内に含まれる単語を組として、誤り候補判定用辞書８０に登録する手法をとってもよい。辞書に登録する文字列は必ずしも単語単位である必要はない。単語よりも短い文字列であってもよいし、逆に１単語よりも長い文字列の区間であってもよい。さらに誤り候補とその修正候補は、直接文字列を使用して登録しても良いし、正規表現やワイルドカードのようなパターン表現を用いて登録してもよい。

図２に、音声認識結果を入力テキストとして想定している場合の、誤り候補判定用辞書８０の例を示す。この例では、辞書項目は単語単位で登録され、活用する単語は終止形を用いて表記している。また、誤り候補そのものが、修正候補に含まれているが、これは誤り候補箇所が、実は誤りではなく正しかった場合のためである。

誤り候補箇所判定部３０は、言語解析部２０による入力テキストの言語解析結果を調べて、誤り候補判定用辞書８０の誤り候補に登録されている項目と一致する箇所を、誤り候補箇所として全てマークする。さらにマークした個々の誤り候補箇所に対して、他の誤り候補箇所と区別がつくよう一意の誤り候補箇所ＩＤを振っておく（以下の明細書文中や図中では、誤り候補箇所ＩＤを省略してＥＩＤと記す）。入力されたテキストに、テキスト自体と組にして、認識信頼度のようなテキストの部分毎の信頼度を示す指標が付与されていた場合には、予め定められた閾値より信頼度の低いテキスト区間だけを、誤り候補箇所を調べる対象としても良い。また、入力テキストが音声認識処理や文字認識処理の認識結果として与えられ、１位候補だけでなく、下位の認識候補も入力されている場合には、誤り候補判定用辞書８０に登録されている辞書項目の代わりに、１位候補を誤り候補、１位候補と下位候補を修正候補として用いても良い。

例えば、図３に入力テキストの例を示す。この例は、携帯電話に関する口頭アンケートの結果を音声認識したテキストを想定している。入力されたものは、テキストのみで、言語解析部２０によって形態素解析され、単語区切りがなされたものとする。図３の中では、この単語区切りを「／」で示している。また図３では煩雑になるため記していないが、活用する単語は全て形態素解析の段階で終止形まで求められているものとする。

図４は、図２のような誤り候補判定用辞書８０の項目があるとき、図３のテキストに対して、誤り候補箇所にマーク付けを行った例を示している。この例では、入力テキストの言語解析結果を単語毎に調べ、各単語に一致する誤り候補の辞書項目が、誤り候補判定用辞書８０に存在した場合には、その単語を誤り候補箇所としてマークとＥＩＤをつけ、さらに各誤り候補箇所の修正候補が分かるように記録している。なお活用語は終止形に直して、誤り候補の辞書項目と一致を見ている。

図４では、文１と文３の「厚く」、文４の「追え」の３カ所が誤り候補箇所としてマーク付けられている。

候補展開特徴情報抽出部４０は、マークした入力テキストの誤り候補箇所をそれぞれの修正候補で展開した上で、単語や表現パターン、構文木等の出現頻度を計数し、それらの中から、出現頻度や情報量などの統計的指標が高かったものを、特徴度の高い特徴情報として抽出する。具体的にどのようなものを、何の統計的指標を用いて、特徴情報として抽出するかは、本発明の実施の形態を使用する際の用途や目的に応じて定める。

例えば、図４の文１では、「厚く／て／持て／」の「厚く」の部分が３通りの修正候補に展開され、それぞれ別のテキストとして計数される。ただし、各修正候補は同時に全てが成立するわけではないため、展開した箇所から計数した結果は、後で修正候補の１つを選択したときに、他の候補の計数分を消去することができるよう、ＥＩＤを記録しておく。誤り候補箇所以外のテキストからは、通常のテキストマイニングにおける処理と同様に特徴情報を抽出・計数する。例として図４の５つの文から、１文内に共起する２つの自立語の組（以下、自立語共起組と記す）を計数し、その中で高頻度の自立語共起組を特徴情報とすることを考える。なおこの例では、自立語共起組を計数する際に、活用語を終止形に直し、単語の出現順は区別しないものとする。文１からは、下のような１２個の自立語共起組が計数・抽出される。

誤り候補箇所から抽出された、修正候補を含む自立語共起組は、全て修正候補の数だけ（この場合は３回）重複して、抽出・計数されている。ただし、修正候補を含む自立語共起組には、どの誤り候補箇所から抽出したのか判断できるようＥＩＤを合わせて記録するため、後の特徴情報修正部５０の処理で、ＥＩＤ１の修正候補のどれか１つが選択されたとき、重複して抽出・計数された自立語共起組を削除できるようになっている。また図８の文のように、１文中に複数の誤り候補箇所が存在し、それら複数の誤り候補箇所から共起する２単語を組として取り出す場合などでは、修正候補の組み合わせ数だけ重複して抽出・計数される自立語共起組が存在する。図８の文の例では、下のような自立語共起組が抽出される。ここで［ＥＩＤ：６０，６１］のように書かれているのは、ＥＩＤ６０と６１の両方から抽出した自立語共起であることを示している。例えば、後の特徴情報修正部５０の処理で、ＥＩＤ６０で「熱い」が選択されたとする。すると、ＥＩＤ６０を含んでいる自立語共起組のうち、修正候補が選択された「熱い」でないものは全て削除される。このとき［厚い，燃える］（［ＥＩＤ：６０，６１］）などの、ＥＩＤ６０から抽出した自立語で、選択された修正候補「熱い」以外の語を含む自立語共起組は、ＥＩＤ６１の修正候補に依らず全て削除される。

同様に図４の文２〜文５から、２単語の自立語共起組を抽出・計数し、文１に対する結果と合わせると次のようになる（なお、この例では「なる」「みたい」「ちょっと」「とにかく」等の単語は付属語扱いして、計数していない）。紙面の都合上、２つの表により結果全体を表している。

この図４の文１〜５から、自立語共起組を抽出・計数した例では、たまたまどの自立語共起組も１回しか出現していないが、ある自立語共起組が、入力されたテキスト中に複数回出現する場合には、その回数だけ計数する。さらに、その回数のうち、修正候補を含むものは何回で、それらは個々にどのようなＥＩＤの箇所から抽出されたのかを記録する。この例では、抽出する特徴情報として、前述したように１文内に共起する自立語の組を対象としているが、単語や表現パターン、構文木等を計数する場合でも、計数した回数のうち、修正候補を含むものの数と、それらが個々にどのようなＥＩＤの箇所から抽出されたものなのかを記録するのは、同様である。

こうして得られた計数の結果から、出現頻度や情報量などの統計的指標が高かったものを、特徴度の高い特徴情報として抽出する。具体的にどのような基準で特徴情報として抽出するかは、本発明の実施の形態を使用する際の用途や目的に応じて定める。この図４の文１〜５から計数した自立語共起組の例では、どの自立語共起組も１回しか出現していないため、全てを特徴情報として、特徴情報修正部５０に渡すものとする。

関連語データベース９０は、互いに関連性の高い単語や表現をまとめてグループにし、関連語辞書として登録したものである。各関連語のグループは、一意に定まるグループ名（あるいはＩＤ）を付与しておく。関連語辞書としては、言語解析時や特徴情報の抽出時に、同一視する単語や表現を記録する、同義語辞書や類義語辞書を用いても良い。また、必ずしも同一視できる単語や表現ではなくとも、同一の分野・話題を記述するときに用いられる単語や表現をまとめた、シソーラスや共起辞書をこの関連語辞書として使用してもよい。他には、入力テキストを各テキストデータ内の単語や表現の有無でクラス分類するために用いられるクラス辞書を関連語辞書とすることも考えられる。図５は、関連語データベース９０に記録される関連語辞書として、クラス辞書が用いられた場合の例を示している。入力テキストの各データに、この表の右側にある単語や表現が含まれていた場合、そのデータを表の左に記述されているクラスに分類する。ただ、関連語データベース９０としては、入力テキストのクラス分類の結果は関係なく、単に各クラスを構成する単語や表現を関連語辞書として利用する。クラス「発火」や「サイズ大」が、関連語辞書のグループであり、「熱い」「発火」「焦がす」「熱」「燃える」という関連語が、「発火」グループに属する単語や表現で、「厚い」「大きい」「邪魔」「でかい」という関連語が、「サイズ大」グループに属する単語や表現である。グループを識別するためのグループ識別情報としては、このように「発火」や「サイズ大」という意味を有する言葉を用いているが、この他、数字や記号等を用いてもよい。特徴情報修正部５０ではまず、候補展開特徴情報抽出部４０で抽出された特徴情報の一部あるいは全部に、関連語データベース９０の関連語辞書に登録されている単語や表現が使用されていた場合、その部分をそれが属する関連語のグループ名で置き換える。

例えば、前述の図４のような入力テキストから自立語共起組を計数した例では、「厚い」は図５の「サイズ大」グループに、「熱い」は「発火」グループに属しているため、各単語をグループ名で置き換えて、［携帯，「サイズ大」グループ］（修正候補１の場合）、［携帯，「発火」グループ］（修正候補２の場合）のようになる。同様に、文４からは［携帯，「発火」グループ］（修正候補３の場合）、文５からは、［ＮＰ９０１，「サイズ大」グループ］のように特徴情報を置き換える。

ついで、関連語のグループ名で置き換えられた特徴情報と置き換え前の特徴情報をそれぞれ、特徴情報の内容（前述の自立語共起組の例では、［携帯，話す］のような共起する２単語を示す部分）毎にまとめる。まとめられた特徴情報の中には、修正候補を含まない確定した特徴情報もあれば、修正候補を含み、まだ本当にその特徴情報の特徴の度合いを示す統計量が正しいか判定できないものも含まれる。前述の自立語共起組の例を図５にあるグループ名で置き換えて、まとめると次のようになる（グループ名に置き換えられなかったものは、ここでは省略する）。

次に、まとめられた特徴情報のうち、修正候補を含んでいるものの中で、特徴の度合いを示す統計量が最大のものに着目して、その特徴情報に含まれている各修正候補を現在の候補に確定する。この結果、同じ誤り候補箇所の別の修正候補は選択されなくなるので、選択されなくなった修正候補を含む特徴情報の特徴の度合いを修正する。

例えば、前述の図４の文１〜５から自立語共起組を計数し、グループ名に置き換えた例の手順を文と合わせて示すと図６のようになる（図６では、計数された特徴情報の全部は記していない）。この例では、修正候補を含む特徴情報のうち、［携帯，「発火」グループ］が３回で、最も際だった特徴といえる。そこで、この特徴情報が成立するよう、そこに含まれている誤り候補箇所の修正候補を、［携帯，「発火」グループ］において使用されているものに選択する。その結果、文１のＥＩＤ１の「厚く」は修正候補２に定められ、文４のＥＩＤ３の「追え」は修正候補３に定められ、ＥＩＤ１，ＥＩＤ３の対立する修正候補は削除される。この修正を受けて、特徴情報の特徴の度合いを修正すると、下のようになる（グループ名に置き換えられなかったものは、ここでは省略する）。

さらに残った修正候補を含んでいる特徴情報のうち、特徴の度合いが最大のものに着目して、同様の処理を繰り返す。この処理は、修正候補を含む特徴情報がなくなるまで、あるいは、最大の特徴の度合いが予め定められた閾値以下になるまで続けるものとする。なお、特徴の度合いが最大となる特徴情報が２種類以上存在し、それらが同時に成立しない場合には、修正候補を含んでいる数が少ない方を選択する。それも同数の場合には、予め定められた基準に従って、どちらか一方を選択するか、あるいは、誤り候補箇所の修正が不可能として、特徴情報修正部５０の処理を中断する。

前述の例では、次に着目するのは、［ＮＰ９０１，「サイズ大」グループ］の２回である。これが成立するよう、文３のＥＩＤ２の「厚く」を修正候補１に確定し、ＥＩＤ２で「厚い」以外の修正候補から計数した分を、回数から減らす。その結果、特徴情報の特徴の度合いは、下のようになる（グループ名に置き換えられなかったものは、ここでは省略する）。

これで、未確定の修正候補を含む特徴情報が存在しなくなったため、この例での特徴情報修正部５０による処理は終了する。

こうした特徴情報修正部５０の処理は、個々でみた場合、どう修正すべきか判断のつかない誤り候補箇所に対して、関連語のグループでまとめた後に特徴情報の特徴の度合いが最大になるよう、修正候補を選択していくという仕組みである。よって、必ずしも全ての誤り候補箇所が、どの修正候補にすべきか決定できるわけではない。修正候補が関連語のグループに属さなかった箇所や、関連語のグループを含む特徴情報をまとめた際に、相反する特徴情報の特徴の度合いに差がなかった場合などは、それに関する誤り候補箇所を修正できない。一方、入力テキスト中に顕著に見られる特徴情報に関する誤り候補箇所は修正可能である。

なお、上記の特徴情報修正部５０の処理では、特徴情報の中で特徴の度合いが最大となるものに１つずつ着目し、着目した特徴情報の特徴の度合いが成立するような修正候補を順に定めていく手法を説明したが、一度に複数の箇所の修正候補を定めてしまう手法もあり得る。一度に修正候補を定める手法では、相互に相反しない修正候補の組み合わせ全てに対して、各組み合わせでの特徴情報とそれらの特徴の度合いを計算し、各組み合わせにおける特徴情報の特徴度合いの総和が最大になるような修正候補を選択する。

特徴度再計算部１００は、特徴情報修正部５０で選択された誤り候補箇所の修正候補に従って、テキストマイニングの結果として出力する特徴情報の特徴度合いを、必要に応じて再計算する機構である。特徴情報修正部５０で誤り候補箇所の適切な修正候補を選択する過程において、出力する特徴情報の特徴度合いが既に計数されている場合は、何もしない。実際に、どのような特徴情報を出力し、その度合いを表すのにどのような統計情報を用いるのかは、本発明を実施する際の用途や目的に応じて異なる。

特徴情報出力装置６０は、特徴情報修正部５０で修正した特徴情報と、必要に応じて特徴度再計算部１００で計算されたその特徴の度合いを出力する装置である。出力はディスプレイに行ってもよいし、ファイルとして出力してもよい。実際にどのような形式で特徴情報を出力するかは、本発明の実施の形態を使用する際の用途や目的などに応じて異なってくる。予め出力用のパラメータを設定して、統計的に定義される特徴情報の特徴の度合いが大きい方から、一定数だけ出力してもよいし、ある閾値を越えた特徴情報のみ出力するのでもよい。入力テキストの全データに関する特徴情報を一度に出力するのではなく、別途指定するクラスに属する入力テキストの一部に対してのみ、特徴情報を出力することも可能である。

以上が、本発明の実施の形態の構成である。

なお、本実施の形態では、テキストデータ入力装置１０、言語解析部２０、誤り候補箇所判定部３０、候補展開特徴情報抽出部４０、特徴情報修正部５０、特徴情報出力装置６０、言語解析用辞書７０、誤り候補判定辞書８０、関連語データベース９０、特徴度再計算部１００は、各部の機能を制御するプログラムとして、ＣＤ−ＲＯＭやフロッピー（登録商標）ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機（コンピュータ）等に読み込まれて実行されるものとしても良い。

次に、本発明の実施の形態のテキストマイニング装置における動作について、図７のフローチャートに沿って説明する。

本発明の実施の形態におけるテキストマイニング装置の動作では、まずユーザがマイニング対象とするテキストデータをテキストデータ入力装置１０で入力する（ステップＡ１）。

テキストデータが入力されると、それに対してステップＡ５で特徴情報の抽出処理が可能なよう、言語解析処理を行う（ステップＡ２）。

ついで、言語解析処理結果に対して、誤り候補判定用辞書８０を参照して、誤りの含まれている可能性の高い箇所を判定し、誤り候補箇所としてマークを付け、他の誤り候補箇所と区別がつくよう一意の誤り候補箇所ＩＤを振っておく。さらに、各誤り候補箇所に対して、その修正候補をリストアップしておく（ステップＡ３）。

各誤り候補箇所とその修正候補が得られると、各誤り候補箇所のテキストデータを修正候補の種類毎に展開し、あたかも誤り候補箇所の部分だけは、修正候補の数だけ異なるテキストがあるようにする（ステップＡ４）。ただし、展開結果は、そこがどの誤り候補箇所の展開結果であるか分かるよう記録しておく。

展開後は、誤り候補箇所を含むテキストからは、特徴情報の抽出・計数を行うと同時に、どの誤り候補箇所から抽出した特徴情報なのか分かるようにする。誤り候補箇所を含まないテキストからは、通常のテキストマイニングと同様に特徴情報の抽出処理を行う（ステップＡ５）。

次に、関連語データベース９０に記録されている関連語辞書を参照して、ステップＡ５で得られた特徴情報の中で関連語辞書に登録されている単語や表現を含むものに関しては、その部分を各関連語のグループ名（あるいはＩＤ）に置換する（ステップＡ６）。

得られた特徴情報の特徴の度合いが最大になるよう、修正候補を選択し（ステップＡ７）、さらにその結果、必要ならば修正候補を含む特徴情報とその特徴の度合いの値を再計算する（ステップＡ８）。

最後に、得られた特徴情報を出力する（ステップＡ９）。

以上のような動作を行うことで、本発明の実施の形態のテキストマイニング装置における動作全体の終了となる。

本発明によれば、コンタクトセンターやコールセンターなどの業務における音声から、音声認識技術を使用して作成したテキストデータから、精度良く特徴情報を抽出することができるテキストマイニング装置や、そのようなテキストマイニング装置をコンピュータに実現するためのプログラムといった用途に適用できる。

また紙面上に記録されたテキストデータから、文字認識技術を用いて作成したテキストデータから、精度良く特徴情報を抽出することができるテキストマイニング装置や、そのようなテキストマイニング装置をコンピュータに実現するためのプログラムといった用途にも適用可能である。

本発明の実施の形態によるデータマイニング装置の構成を示すブロック図である。図１に示す誤り候補判定用辞書に登録してある辞書項目の例である。本発明の実施形態によるデータマイニング装置が入力するテキストの例である。図１に示す誤り候補判定部により誤り候補箇所にマーク付けされたテキストの例である。図１に示す関連語データベースに記録されるクラス辞書の例である。図１に示す特徴情報修正部により一部がグループ名で置き換えられた特徴情報の例である。本発明の実施の形態によるデータマイニング装置の動作を示すフローチャートである。複数の誤り候補箇所が存在する文の例である。

符号の説明

１０テキストデータ入力装置
２０言語解析部
３０誤り候補箇所判定部
４０候補展開特徴情報抽出部
５０特徴情報修正部
６０特徴情報出力装置
７０言語解析用辞書
８０誤り候補判定用辞書
９０関連語データベース
１００特徴度再計算部

Claims

曖昧性のある箇所が１つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出部と、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正部とを備えたことを特徴とするテキストマイニング装置。
曖昧性のある箇所が１つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出部と、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択し、選択した結果からあらためて特徴情報とその度合いを計算する特徴情報修正部とを備えたことを特徴とするテキストマイニング装置。
曖昧性のある箇所が１つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正ステップとを備えたことを特徴とするテキストマイニング方法。
曖昧性のある箇所が１つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択し、選択した結果からあらためて特徴情報とその度合いを計算する特徴情報修正ステップとを備えたことを特徴とするテキストマイニング方法。
曖昧性のある箇所が１つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正ステップとを備えた特徴とするテキストマイニング方法をコンピュータに実行させるためのプログラム。
曖昧性のある箇所が１つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択し、選択した結果からあらためて特徴情報とその度合いを計算する特徴情報修正ステップとを備えたテキストマイニング方法をコンピュータに実行させるためのプログラム。
入力テキストに含まれる１以上の誤り候補箇所を検出し、各誤り候補箇所に対し２以上の修正候補を対応付ける誤り候補検出手段と、
前記入力テキストを該入力テキストに含まれる前記１以上の誤り候補箇所に対応付けられた前記２以上の修正候補により展開する展開手段と、
展開された前記入力テキストから１以上の特徴情報を抽出する特徴情報抽出手段と、
抽出された各特徴情報に含まれる関連語を該関連語を含むグループの識別情報に置き換えるグループ置換手段と、
前記置換え後に各特徴情報毎に特徴度を計算する特徴度計算手段と、
前記置換え後の特徴度が高い特徴情報に含まれるグループ識別情報を検出するグループ識別情報検出手段と、
検出されたグループ識別情報の元となる関連語のうちの、関連語であり且つ前記修正候補であるものを検出する確定修正候補検出手段と、
検出された前記修正候補により該修正候補に対応付けられた誤り候補箇所を修正する修正手段と、
を備えることを特徴とするテキストマイニング装置。
請求項７に記載のテキストマイニング装置において、
前記修正後に、修正された誤り候補箇所に対応付けられた前記２以上の修正候補のうち修正に利用された修正候補以外の修正候補を削除し、削除された修正候補を含んでいた特徴情報に対して前記置換えをすることにより得られた特徴情報の特徴度を前記特徴度計算手段により再計算させ、再計算後の特徴情報とその特徴度及び再計算に係わらなかった特徴情報とその特徴度に基づいて前記グループ識別情報検出手段、前記確定修正候補検出手段及び前記修正手段を動作させる繰返手段を更に備えることを特徴とするテキストマイニング装置。
請求項７又は８に記載のテキストマイニング装置において、
前記修正が終了した後の前記入力テキストから特徴情報を改めて抽出する手段を更に備えることを特徴とするテキストマイニング装置。
入力テキストに含まれる１以上の誤り候補箇所を検出し、各誤り候補箇所に対し２以上の修正候補を対応付ける誤り候補検出ステップと、
前記入力テキストを該入力テキストに含まれる前記１以上の誤り候補箇所に対応付けられた前記２以上の修正候補により展開する展開ステップと、
展開された前記入力テキストから１以上の特徴情報を抽出する特徴情報抽出ステップと、
抽出された各特徴情報に含まれる関連語を該関連語を含むグループの識別情報に置き換えるグループ置換ステップと、
前記置換え後に各特徴情報毎に特徴度を計算する特徴度計算ステップと、
前記置換え後の特徴度が高い特徴情報に含まれるグループ識別情報を検出するグループ識別情報検出ステップと、
検出されたグループ識別情報の元となる関連語のうちの、関連語であり且つ前記修正候補であるものを検出する確定修正候補検出ステップと、
検出された前記修正候補により該修正候補に対応付けられた誤り候補箇所を修正する修正ステップと、
を備えることを特徴とするテキストマイニング方法。
請求項１０に記載のテキストマイニング方法において、
前記修正後に、修正された誤り候補箇所に対応付けられた前記２以上の修正候補のうち修正に利用された修正候補以外の修正候補を削除し、削除された修正候補を含んでいた特徴情報に対して前記置換えをすることにより得られた特徴情報の特徴度を前記特徴度計算ステップにより再計算させ、再計算後の特徴情報とその特徴度及び再計算に係わらなかった特徴情報とその特徴度に基づいて前記グループ識別情報検出ステップ、前記確定修正候補検出ステップ及び前記修正ステップを行なう繰返しステップを更に備えることを特徴とするテキストマイニング方法。
請求項１０又は１１に記載のテキストマイニング方法において、
前記修正が終了した後の前記入力テキストから特徴情報を改めて抽出するステップを更に備えることを特徴とするテキストマイニング方法。
入力テキストに含まれる１以上の誤り候補箇所を検出し、各誤り候補箇所に対し２以上の修正候補を対応付ける誤り候補検出ステップと、
前記入力テキストを該入力テキストに含まれる前記１以上の誤り候補箇所に対応付けられた前記２以上の修正候補により展開する展開ステップと、
展開された前記入力テキストから１以上の特徴情報を抽出する特徴情報抽出ステップと、
抽出された各特徴情報に含まれる関連語を該関連語を含むグループの識別情報に置き換えるグループ置換ステップと、
前記置換え後に各特徴情報毎に特徴度を計算する特徴度計算ステップと、
前記置換え後の特徴度が高い特徴情報に含まれるグループ識別情報を検出するグループ識別情報検出ステップと、
検出されたグループ識別情報の元となる関連語のうちの、関連語であり且つ前記修正候補であるものを検出する確定修正候補検出ステップと、
検出された前記修正候補により該修正候補に対応付けられた誤り候補箇所を修正する修正ステップと、
を備えることを特徴とするテキストマイニング方法をコンピュータに実行させるためのプログラム。
請求項１３に記載のプログラムにおいて、
前記テキストマイニング方法は、
前記修正後に、修正された誤り候補箇所に対応付けられた前記２以上の修正候補のうち修正に利用された修正候補以外の修正候補を削除し、削除された修正候補を含んでいた特徴情報に対して前記置換えをすることにより得られた特徴情報の特徴度を前記特徴度計算ステップにより再計算させ、再計算後の特徴情報とその特徴度及び再計算に係わらなかった特徴情報とその特徴度に基づいて前記グループ識別情報検出ステップ、前記確定修正候補検出ステップ及び前記修正ステップを行なう繰返しステップを更に備えることを特徴とするプログラム。
請求項１３又は１４に記載のプログラムにおいて、
前記テキストマイニング方法は、前記修正が終了した後の前記入力テキストから特徴情報を改めて抽出するステップを更に備えることを特徴とするプログラム。