JP2007058415A - テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム - Google Patents

テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム Download PDF

Info

Publication number
JP2007058415A
JP2007058415A JP2005241145A JP2005241145A JP2007058415A JP 2007058415 A JP2007058415 A JP 2007058415A JP 2005241145 A JP2005241145 A JP 2005241145A JP 2005241145 A JP2005241145 A JP 2005241145A JP 2007058415 A JP2007058415 A JP 2007058415A
Authority
JP
Japan
Prior art keywords
correction
feature information
text
candidate
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005241145A
Other languages
English (en)
Inventor
Satoshi Nakazawa
聡 中澤
Kenji Sato
研治 佐藤
Takahiro Ikeda
崇博 池田
Yosuke Sakao
要祐 坂尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005241145A priority Critical patent/JP2007058415A/ja
Publication of JP2007058415A publication Critical patent/JP2007058415A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 入力したテキストに誤りが含まれている場合であっても、精度良くテキストマイニングを行なう。
【解決手段】 曖昧性のある箇所が1つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出部40と、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正部50とを備えた。
【選択図】 図1

Description

本発明は、テキストマイニング装置、方法および、その処理用プログラムに係り、特に入力テキストの一部に誤りが含まれているときに、誤りと推定される箇所の関連語を用いて、精度良く頻出する単語や表現パターンなどの特徴情報を抽出可能なテキストマイニング方式に関するものである。
アンケートや業務報告などの大量のテキストから、テキストの傾向など、有用な情報を分析するために、テキスト中に頻出する、あるいは統計的基準で意味のある単語や表現パターン、さらには、構文木等の構造情報を抽出するテキストマイニング技術が存在する(以後、テキストマイニング技術で抽出される単語や表現パターン、構文木等の情報を、本明細書ではまとめて特徴情報と称する)。
特許文献1は、そのようなテキストマイニング技術の1例である。特許文献1で開示されているテキストマイニング装置は、入力されたテキストデータから分野依存辞書を作成し、言語解析装置によって共起関係と係り受けを考慮した構文木を作成し、パターン抽出装置が、この構文木を用いることによって適切に頻出パターンを抽出・出力する。
特開2001−84250号公報
従来のテキストマイニング技術の課題として、入力されるテキストデータに誤りが含まれていた場合、その誤りによって、間違った特徴情報を出力してしまうという問題点がある。あるいは、単語や表現パターンなど抽出された特徴情報そのものは間違っていなくとも、それらの出現頻度や情報量など、統計的に個々の特徴情報の特徴の度合いを示す統計量が間違って計算される。
本発明はこのような問題点を解消するためになされたものであり、入力されたテキストデータ中の、誤りが含まれていると推定される誤り候補箇所に対して、各誤り候補箇所の関連語を含んでいる特徴情報をマイニングすることで、その結果から誤り候補箇所の修正を行い、精度よく特徴情報と、その特徴の度合いとを出力する、テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラムを提供することを目的とする。
本発明のテキストマイニング装置は、入力されたテキストデータの言語解析結果から、誤りが含まれている可能性が高い誤り候補箇所を判定するための誤り候補箇所判定部(図1の30)と、各誤り候補箇所に対しては、可能な修正候補に展開して、テキストデータから特徴情報を抽出する候補展開特徴情報抽出部(図1の40)と、同義語や類義語、シソーラス、クラス辞書など単語間の関係を記録した関連語データベース(図1の90)を参照しながら、抽出された特徴情報の結果から、誤り候補箇所を可能な修正候補で展開した特徴情報のうち、採用する特徴情報を選択する特徴情報修正部(図1の50)とからなる。このような構成を備え、各誤り候補箇所の修正候補に対する関連語を含む特徴情報が、最も大きな特徴の度合いとなるような修正候補を選択することで、本発明の目的を達成することができる。
本発明の効果は、入力されたテキストデータに誤りが含まれていても、誤りを修正しないままの場合に比べて正確な特徴情報を抽出することができるというものである。また、この誤り修正は、入力されたテキストデータから特徴情報を抽出する処理を通じて行われるため、誤り修正後に、再度特徴情報を抽出する処理を行わなくて良い利点もある。もし、誤り修正に用いた特徴情報以外の特徴をさらに抽出する場合には、修正後のテキストを入力とすれば良く、再度、誤り修正を行う必要はない。
この効果が得られる理由は、個々の誤り候補箇所を、それぞれ可能な修正候補に展開して抽出した特徴情報のうち、誤りの修正候補の関連語を含む特徴情報の特徴の度合いが最大になるような修正候補を選択することで、精度良く誤りを修正し、入力されたテキストデータの性質に応じた特徴情報を抽出することができるからである。
以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。
図1を参照すると、本発明の実施の形態によるデータマイニング装置は、マイニング対象のテキストデータを入力するテキストデータ入力装置(図1の10)と、入力されたテキストデータの言語解析を行う言語解析部(図1の20)と、言語解析に用いる辞書を記録する言語解析用辞書(図1の70)と、入力されたテキストデータの言語解析結果から、誤りが含まれている可能性が高い誤り候補箇所を判定するための誤り候補箇所判定部(図1の30)と、誤り候補箇所を判定する際に参照する、誤りやすい単語とその修正候補とを記録する誤り候補判定用辞書(図1の80)と、各誤り候補箇所に対しては、可能な修正候補に展開して、テキストデータから特徴情報を抽出する候補展開特徴情報抽出部(図1の40)と、同義語や類義語、シソーラス、クラス辞書など単語間の関係を記録した関連語データベース(図1の90)と、抽出された特徴情報の結果から、採用する特徴情報を選択する特徴情報修正部(図1の50)と、特徴情報修正部(図1の50)の結果を受けて、必要に応じて特徴情報の特徴の度合いを再計算する特徴度再計算部(図1の100)と、誤り候補箇所の修正の結果、最終的に得られた特徴情報を出力する特徴情報出力装置(図1の60)からなる。
テキストデータ入力装置10は、本発明の実施の形態を使用する際に、処理対象とするテキストデータを入力する装置である。テキストデータは、ファイルとしてハードディスク等の記録装置から読み込まれるものであっても、ネットワークなどの通信手段を用いて他の機器から入力されるのであっても良い。具体的にどのような形態の入力機器を用いるかは、本発明の実施の形態を使用する目的・状況によって異なってくる。また、音声認識技術や文字認識技術を用いて作成されたテキストデータの場合は、テキスト自体の他にテキストの各部分の認識結果がどの程度信頼できるのかを示す認識信頼度の指標をテキストと組にして受け取っても良い。さらに、認識結果の1位候補だけでなく、複数の認識候補を組にしたデータを受け取っても良い。
言語解析部20は、テキストデータ入力装置10に入力されたテキストデータに対して、候補展開特徴情報抽出部40で特徴情報の抽出が可能なよう、言語解析処理を行う。ここで言語解析処理とは、形態素解析、構文解析、文節まとめ上げ処理、係り受け解析、などの処理を指す。こうした言語処理技術によって、入力されたテキストデータを、特徴情報を計数するための構造を持つ処理単位に分割・まとめ上げる。具体的にどのような言語処理技術を用いるかは、本発明の実施の形態を使用する際にどのような形式の特徴情報を抽出するかによって異なってくる。例えば、特徴情報として入力テキストに頻出する単語を出力する場合には、テキストデータに形態素解析処理を施し、テキストデータを単語毎に分割する必要がある。特徴情報として、単なる単語だけでなく、頻出する単語の係り受け関係を抽出するためには、形態素解析処理の後に、係り受け解析や構文解析などの単語間の構造関係を求める処理を行う必要がある。
これは、一般の言語解析技術やテキストマイニング技術に関する処理であり、本発明の対象とするところではないので、これ以上の詳細な説明は行わない。
言語解析用辞書70は、言語解析部20で行う言語解析処理に必要な辞書データを保管・記録するものである。
誤り候補判定用辞書80は、誤りやすい文字列(誤り候補)と、その修正候補を組にして記録・保管しておく辞書である。ここで修正候補とは、誤りやすい文字列が本来どんな文字列であり得るかの候補である。こうした誤り候補判定用辞書80は、想定される入力テキストに含まれる誤りの傾向に基づいて予め作成しておく。入力テキストとして音声認識処理により作成されたテキストが与えられる場合には、同音異義語や類似の発音の単語など、音声認識時に誤って認識されることの多い単語と正解の組を準備しておく。同様に入力テキストとして、文字認識処理により作成されたテキストが与えられる場合には、類似の文字形状を持つ単語の組を誤り候補と修正候補とする手法などが考えられる。
誤り候補判定用辞書80に登録しておく誤り候補と修正候補の組は、人手で作成するのでもよいし、正解テキストと誤りテキストの組から機械的に作成するのでも良い。また、例えば音声認識結果を入力テキストとして想定している場合には、認識用の辞書に登録されている単語のうち、発音が一定の編集距離以内に含まれる単語を組として、誤り候補判定用辞書80に登録する手法をとってもよい。辞書に登録する文字列は必ずしも単語単位である必要はない。単語よりも短い文字列であってもよいし、逆に1単語よりも長い文字列の区間であってもよい。さらに誤り候補とその修正候補は、直接文字列を使用して登録しても良いし、正規表現やワイルドカードのようなパターン表現を用いて登録してもよい。
図2に、音声認識結果を入力テキストとして想定している場合の、誤り候補判定用辞書80の例を示す。この例では、辞書項目は単語単位で登録され、活用する単語は終止形を用いて表記している。また、誤り候補そのものが、修正候補に含まれているが、これは誤り候補箇所が、実は誤りではなく正しかった場合のためである。
誤り候補箇所判定部30は、言語解析部20による入力テキストの言語解析結果を調べて、誤り候補判定用辞書80の誤り候補に登録されている項目と一致する箇所を、誤り候補箇所として全てマークする。さらにマークした個々の誤り候補箇所に対して、他の誤り候補箇所と区別がつくよう一意の誤り候補箇所IDを振っておく(以下の明細書文中や図中では、誤り候補箇所IDを省略してEIDと記す)。入力されたテキストに、テキスト自体と組にして、認識信頼度のようなテキストの部分毎の信頼度を示す指標が付与されていた場合には、予め定められた閾値より信頼度の低いテキスト区間だけを、誤り候補箇所を調べる対象としても良い。また、入力テキストが音声認識処理や文字認識処理の認識結果として与えられ、1位候補だけでなく、下位の認識候補も入力されている場合には、誤り候補判定用辞書80に登録されている辞書項目の代わりに、1位候補を誤り候補、1位候補と下位候補を修正候補として用いても良い。
例えば、図3に入力テキストの例を示す。この例は、携帯電話に関する口頭アンケートの結果を音声認識したテキストを想定している。入力されたものは、テキストのみで、言語解析部20によって形態素解析され、単語区切りがなされたものとする。図3の中では、この単語区切りを「/」で示している。また図3では煩雑になるため記していないが、活用する単語は全て形態素解析の段階で終止形まで求められているものとする。
図4は、図2のような誤り候補判定用辞書80の項目があるとき、図3のテキストに対して、誤り候補箇所にマーク付けを行った例を示している。この例では、入力テキストの言語解析結果を単語毎に調べ、各単語に一致する誤り候補の辞書項目が、誤り候補判定用辞書80に存在した場合には、その単語を誤り候補箇所としてマークとEIDをつけ、さらに各誤り候補箇所の修正候補が分かるように記録している。なお活用語は終止形に直して、誤り候補の辞書項目と一致を見ている。
図4では、文1と文3の「厚く」、文4の「追え」の3カ所が誤り候補箇所としてマーク付けられている。
候補展開特徴情報抽出部40は、マークした入力テキストの誤り候補箇所をそれぞれの修正候補で展開した上で、単語や表現パターン、構文木等の出現頻度を計数し、それらの中から、出現頻度や情報量などの統計的指標が高かったものを、特徴度の高い特徴情報として抽出する。具体的にどのようなものを、何の統計的指標を用いて、特徴情報として抽出するかは、本発明の実施の形態を使用する際の用途や目的に応じて定める。
例えば、図4の文1では、「厚く/て/持て/」の「厚く」の部分が3通りの修正候補に展開され、それぞれ別のテキストとして計数される。ただし、各修正候補は同時に全てが成立するわけではないため、展開した箇所から計数した結果は、後で修正候補の1つを選択したときに、他の候補の計数分を消去することができるよう、EIDを記録しておく。誤り候補箇所以外のテキストからは、通常のテキストマイニングにおける処理と同様に特徴情報を抽出・計数する。例として図4の5つの文から、1文内に共起する2つの自立語の組(以下、自立語共起組と記す)を計数し、その中で高頻度の自立語共起組を特徴情報とすることを考える。なおこの例では、自立語共起組を計数する際に、活用語を終止形に直し、単語の出現順は区別しないものとする。文1からは、下のような12個の自立語共起組が計数・抽出される。
Figure 2007058415
誤り候補箇所から抽出された、修正候補を含む自立語共起組は、全て修正候補の数だけ(この場合は3回)重複して、抽出・計数されている。ただし、修正候補を含む自立語共起組には、どの誤り候補箇所から抽出したのか判断できるようEIDを合わせて記録するため、後の特徴情報修正部50の処理で、EID1の修正候補のどれか1つが選択されたとき、重複して抽出・計数された自立語共起組を削除できるようになっている。また図8の文のように、1文中に複数の誤り候補箇所が存在し、それら複数の誤り候補箇所から共起する2単語を組として取り出す場合などでは、修正候補の組み合わせ数だけ重複して抽出・計数される自立語共起組が存在する。図8の文の例では、下のような自立語共起組が抽出される。ここで[EID:60,61]のように書かれているのは、EID60と61の両方から抽出した自立語共起であることを示している。例えば、後の特徴情報修正部50の処理で、EID60で「熱い」が選択されたとする。すると、EID60を含んでいる自立語共起組のうち、修正候補が選択された「熱い」でないものは全て削除される。このとき[厚い,燃える]([EID:60,61])などの、EID60から抽出した自立語で、選択された修正候補「熱い」以外の語を含む自立語共起組は、EID61の修正候補に依らず全て削除される。
Figure 2007058415
同様に図4の文2〜文5から、2単語の自立語共起組を抽出・計数し、文1に対する結果と合わせると次のようになる(なお、この例では「なる」「みたい」「ちょっと」「とにかく」等の単語は付属語扱いして、計数していない)。紙面の都合上、2つの表により結果全体を表している。
Figure 2007058415
Figure 2007058415
この図4の文1〜5から、自立語共起組を抽出・計数した例では、たまたまどの自立語共起組も1回しか出現していないが、ある自立語共起組が、入力されたテキスト中に複数回出現する場合には、その回数だけ計数する。さらに、その回数のうち、修正候補を含むものは何回で、それらは個々にどのようなEIDの箇所から抽出されたのかを記録する。この例では、抽出する特徴情報として、前述したように1文内に共起する自立語の組を対象としているが、単語や表現パターン、構文木等を計数する場合でも、計数した回数のうち、修正候補を含むものの数と、それらが個々にどのようなEIDの箇所から抽出されたものなのかを記録するのは、同様である。
こうして得られた計数の結果から、出現頻度や情報量などの統計的指標が高かったものを、特徴度の高い特徴情報として抽出する。具体的にどのような基準で特徴情報として抽出するかは、本発明の実施の形態を使用する際の用途や目的に応じて定める。この図4の文1〜5から計数した自立語共起組の例では、どの自立語共起組も1回しか出現していないため、全てを特徴情報として、特徴情報修正部50に渡すものとする。
関連語データベース90は、互いに関連性の高い単語や表現をまとめてグループにし、関連語辞書として登録したものである。各関連語のグループは、一意に定まるグループ名(あるいはID)を付与しておく。関連語辞書としては、言語解析時や特徴情報の抽出時に、同一視する単語や表現を記録する、同義語辞書や類義語辞書を用いても良い。また、必ずしも同一視できる単語や表現ではなくとも、同一の分野・話題を記述するときに用いられる単語や表現をまとめた、シソーラスや共起辞書をこの関連語辞書として使用してもよい。他には、入力テキストを各テキストデータ内の単語や表現の有無でクラス分類するために用いられるクラス辞書を関連語辞書とすることも考えられる。図5は、関連語データベース90に記録される関連語辞書として、クラス辞書が用いられた場合の例を示している。入力テキストの各データに、この表の右側にある単語や表現が含まれていた場合、そのデータを表の左に記述されているクラスに分類する。ただ、関連語データベース90としては、入力テキストのクラス分類の結果は関係なく、単に各クラスを構成する単語や表現を関連語辞書として利用する。クラス「発火」や「サイズ大」が、関連語辞書のグループであり、「熱い」「発火」「焦がす」「熱」「燃える」という関連語が、「発火」グループに属する単語や表現で、「厚い」「大きい」「邪魔」「でかい」という関連語が、「サイズ大」グループに属する単語や表現である。グループを識別するためのグループ識別情報としては、このように「発火」や「サイズ大」という意味を有する言葉を用いているが、この他、数字や記号等を用いてもよい。 特徴情報修正部50ではまず、候補展開特徴情報抽出部40で抽出された特徴情報の一部あるいは全部に、関連語データベース90の関連語辞書に登録されている単語や表現が使用されていた場合、その部分をそれが属する関連語のグループ名で置き換える。
例えば、前述の図4のような入力テキストから自立語共起組を計数した例では、「厚い」は図5の「サイズ大」グループに、「熱い」は「発火」グループに属しているため、各単語をグループ名で置き換えて、[携帯,「サイズ大」グループ](修正候補1の場合)、[携帯,「発火」グループ](修正候補2の場合)のようになる。同様に、文4からは[携帯,「発火」グループ](修正候補3の場合)、文5からは、[NP901,「サイズ大」グループ]のように特徴情報を置き換える。
ついで、関連語のグループ名で置き換えられた特徴情報と置き換え前の特徴情報をそれぞれ、特徴情報の内容(前述の自立語共起組の例では、[携帯,話す]のような共起する2単語を示す部分)毎にまとめる。まとめられた特徴情報の中には、修正候補を含まない確定した特徴情報もあれば、修正候補を含み、まだ本当にその特徴情報の特徴の度合いを示す統計量が正しいか判定できないものも含まれる。前述の自立語共起組の例を図5にあるグループ名で置き換えて、まとめると次のようになる(グループ名に置き換えられなかったものは、ここでは省略する)。
Figure 2007058415
次に、まとめられた特徴情報のうち、修正候補を含んでいるものの中で、特徴の度合いを示す統計量が最大のものに着目して、その特徴情報に含まれている各修正候補を現在の候補に確定する。この結果、同じ誤り候補箇所の別の修正候補は選択されなくなるので、選択されなくなった修正候補を含む特徴情報の特徴の度合いを修正する。
例えば、前述の図4の文1〜5から自立語共起組を計数し、グループ名に置き換えた例の手順を文と合わせて示すと図6のようになる(図6では、計数された特徴情報の全部は記していない)。この例では、修正候補を含む特徴情報のうち、[携帯,「発火」グループ]が3回で、最も際だった特徴といえる。そこで、この特徴情報が成立するよう、そこに含まれている誤り候補箇所の修正候補を、[携帯,「発火」グループ]において使用されているものに選択する。その結果、文1のEID1の「厚く」は修正候補2に定められ、文4のEID3の「追え」は修正候補3に定められ、EID1,EID3の対立する修正候補は削除される。この修正を受けて、特徴情報の特徴の度合いを修正すると、下のようになる(グループ名に置き換えられなかったものは、ここでは省略する)。
Figure 2007058415
さらに残った修正候補を含んでいる特徴情報のうち、特徴の度合いが最大のものに着目して、同様の処理を繰り返す。この処理は、修正候補を含む特徴情報がなくなるまで、あるいは、最大の特徴の度合いが予め定められた閾値以下になるまで続けるものとする。なお、特徴の度合いが最大となる特徴情報が2種類以上存在し、それらが同時に成立しない場合には、修正候補を含んでいる数が少ない方を選択する。それも同数の場合には、予め定められた基準に従って、どちらか一方を選択するか、あるいは、誤り候補箇所の修正が不可能として、特徴情報修正部50の処理を中断する。
前述の例では、次に着目するのは、[NP901,「サイズ大」グループ]の2回である。これが成立するよう、文3のEID2の「厚く」を修正候補1に確定し、EID2で「厚い」以外の修正候補から計数した分を、回数から減らす。その結果、特徴情報の特徴の度合いは、下のようになる(グループ名に置き換えられなかったものは、ここでは省略する)。
Figure 2007058415
これで、未確定の修正候補を含む特徴情報が存在しなくなったため、この例での特徴情報修正部50による処理は終了する。
こうした特徴情報修正部50の処理は、個々でみた場合、どう修正すべきか判断のつかない誤り候補箇所に対して、関連語のグループでまとめた後に特徴情報の特徴の度合いが最大になるよう、修正候補を選択していくという仕組みである。よって、必ずしも全ての誤り候補箇所が、どの修正候補にすべきか決定できるわけではない。修正候補が関連語のグループに属さなかった箇所や、関連語のグループを含む特徴情報をまとめた際に、相反する特徴情報の特徴の度合いに差がなかった場合などは、それに関する誤り候補箇所を修正できない。一方、入力テキスト中に顕著に見られる特徴情報に関する誤り候補箇所は修正可能である。
なお、上記の特徴情報修正部50の処理では、特徴情報の中で特徴の度合いが最大となるものに1つずつ着目し、着目した特徴情報の特徴の度合いが成立するような修正候補を順に定めていく手法を説明したが、一度に複数の箇所の修正候補を定めてしまう手法もあり得る。一度に修正候補を定める手法では、相互に相反しない修正候補の組み合わせ全てに対して、各組み合わせでの特徴情報とそれらの特徴の度合いを計算し、各組み合わせにおける特徴情報の特徴度合いの総和が最大になるような修正候補を選択する。
特徴度再計算部100は、特徴情報修正部50で選択された誤り候補箇所の修正候補に従って、テキストマイニングの結果として出力する特徴情報の特徴度合いを、必要に応じて再計算する機構である。特徴情報修正部50で誤り候補箇所の適切な修正候補を選択する過程において、出力する特徴情報の特徴度合いが既に計数されている場合は、何もしない。実際に、どのような特徴情報を出力し、その度合いを表すのにどのような統計情報を用いるのかは、本発明を実施する際の用途や目的に応じて異なる。
特徴情報出力装置60は、特徴情報修正部50で修正した特徴情報と、必要に応じて特徴度再計算部100で計算されたその特徴の度合いを出力する装置である。出力はディスプレイに行ってもよいし、ファイルとして出力してもよい。実際にどのような形式で特徴情報を出力するかは、本発明の実施の形態を使用する際の用途や目的などに応じて異なってくる。予め出力用のパラメータを設定して、統計的に定義される特徴情報の特徴の度合いが大きい方から、一定数だけ出力してもよいし、ある閾値を越えた特徴情報のみ出力するのでもよい。入力テキストの全データに関する特徴情報を一度に出力するのではなく、別途指定するクラスに属する入力テキストの一部に対してのみ、特徴情報を出力することも可能である。
以上が、本発明の実施の形態の構成である。
なお、本実施の形態では、テキストデータ入力装置10、言語解析部20、誤り候補箇所判定部30、候補展開特徴情報抽出部40、特徴情報修正部50、特徴情報出力装置60、言語解析用辞書70、誤り候補判定辞書80、関連語データベース90、特徴度再計算部100は、各部の機能を制御するプログラムとして、CD−ROMやフロッピー(登録商標)ディスクなどの機械読み取り可能な記録媒体や、インターネットなどのネットワークを通して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
次に、本発明の実施の形態のテキストマイニング装置における動作について、図7のフローチャートに沿って説明する。
本発明の実施の形態におけるテキストマイニング装置の動作では、まずユーザがマイニング対象とするテキストデータをテキストデータ入力装置10で入力する(ステップA1)。
テキストデータが入力されると、それに対してステップA5で特徴情報の抽出処理が可能なよう、言語解析処理を行う(ステップA2)。
ついで、言語解析処理結果に対して、誤り候補判定用辞書80を参照して、誤りの含まれている可能性の高い箇所を判定し、誤り候補箇所としてマークを付け、他の誤り候補箇所と区別がつくよう一意の誤り候補箇所IDを振っておく。さらに、各誤り候補箇所に対して、その修正候補をリストアップしておく(ステップA3)。
各誤り候補箇所とその修正候補が得られると、各誤り候補箇所のテキストデータを修正候補の種類毎に展開し、あたかも誤り候補箇所の部分だけは、修正候補の数だけ異なるテキストがあるようにする(ステップA4)。ただし、展開結果は、そこがどの誤り候補箇所の展開結果であるか分かるよう記録しておく。
展開後は、誤り候補箇所を含むテキストからは、特徴情報の抽出・計数を行うと同時に、どの誤り候補箇所から抽出した特徴情報なのか分かるようにする。誤り候補箇所を含まないテキストからは、通常のテキストマイニングと同様に特徴情報の抽出処理を行う(ステップA5)。
次に、関連語データベース90に記録されている関連語辞書を参照して、ステップA5で得られた特徴情報の中で関連語辞書に登録されている単語や表現を含むものに関しては、その部分を各関連語のグループ名(あるいはID)に置換する(ステップA6)。
得られた特徴情報の特徴の度合いが最大になるよう、修正候補を選択し(ステップA7)、さらにその結果、必要ならば修正候補を含む特徴情報とその特徴の度合いの値を再計算する(ステップA8)。
最後に、得られた特徴情報を出力する(ステップA9)。
以上のような動作を行うことで、本発明の実施の形態のテキストマイニング装置における動作全体の終了となる。
本発明によれば、コンタクトセンターやコールセンターなどの業務における音声から、音声認識技術を使用して作成したテキストデータから、精度良く特徴情報を抽出することができるテキストマイニング装置や、そのようなテキストマイニング装置をコンピュータに実現するためのプログラムといった用途に適用できる。
また紙面上に記録されたテキストデータから、文字認識技術を用いて作成したテキストデータから、精度良く特徴情報を抽出することができるテキストマイニング装置や、そのようなテキストマイニング装置をコンピュータに実現するためのプログラムといった用途にも適用可能である。
本発明の実施の形態によるデータマイニング装置の構成を示すブロック図である。 図1に示す誤り候補判定用辞書に登録してある辞書項目の例である。 本発明の実施形態によるデータマイニング装置が入力するテキストの例である。 図1に示す誤り候補判定部により誤り候補箇所にマーク付けされたテキストの例である。 図1に示す関連語データベースに記録されるクラス辞書の例である。 図1に示す特徴情報修正部により一部がグループ名で置き換えられた特徴情報の例である。 本発明の実施の形態によるデータマイニング装置の動作を示すフローチャートである。 複数の誤り候補箇所が存在する文の例である。
符号の説明
10 テキストデータ入力装置
20 言語解析部
30 誤り候補箇所判定部
40 候補展開特徴情報抽出部
50 特徴情報修正部
60 特徴情報出力装置
70 言語解析用辞書
80 誤り候補判定用辞書
90 関連語データベース
100 特徴度再計算部

Claims (15)

  1. 曖昧性のある箇所が1つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出部と、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正部とを備えたことを特徴とするテキストマイニング装置。
  2. 曖昧性のある箇所が1つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出部と、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択し、選択した結果からあらためて特徴情報とその度合いを計算する特徴情報修正部とを備えたことを特徴とするテキストマイニング装置。
  3. 曖昧性のある箇所が1つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正ステップとを備えたことを特徴とするテキストマイニング方法。
  4. 曖昧性のある箇所が1つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択し、選択した結果からあらためて特徴情報とその度合いを計算する特徴情報修正ステップとを備えたことを特徴とするテキストマイニング方法。
  5. 曖昧性のある箇所が1つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択する特徴情報修正ステップとを備えた特徴とするテキストマイニング方法をコンピュータに実行させるためのプログラム。
  6. 曖昧性のある箇所が1つ以上含まれているテキストに対して、曖昧な箇所を可能な候補に展開して、展開されたテキストから特徴情報を抽出する候補展開特徴情報抽出ステップと、抽出した特徴情報を、関連語のグループ毎にまず分類して、その後に特徴情報の度合いを示す統計量が最大となるよう、テキストの曖昧な箇所の候補の組み合わせを選択し、選択した結果からあらためて特徴情報とその度合いを計算する特徴情報修正ステップとを備えたテキストマイニング方法をコンピュータに実行させるためのプログラム。
  7. 入力テキストに含まれる1以上の誤り候補箇所を検出し、各誤り候補箇所に対し2以上の修正候補を対応付ける誤り候補検出手段と、
    前記入力テキストを該入力テキストに含まれる前記1以上の誤り候補箇所に対応付けられた前記2以上の修正候補により展開する展開手段と、
    展開された前記入力テキストから1以上の特徴情報を抽出する特徴情報抽出手段と、
    抽出された各特徴情報に含まれる関連語を該関連語を含むグループの識別情報に置き換えるグループ置換手段と、
    前記置換え後に各特徴情報毎に特徴度を計算する特徴度計算手段と、
    前記置換え後の特徴度が高い特徴情報に含まれるグループ識別情報を検出するグループ識別情報検出手段と、
    検出されたグループ識別情報の元となる関連語のうちの、関連語であり且つ前記修正候補であるものを検出する確定修正候補検出手段と、
    検出された前記修正候補により該修正候補に対応付けられた誤り候補箇所を修正する修正手段と、
    を備えることを特徴とするテキストマイニング装置。
  8. 請求項7に記載のテキストマイニング装置において、
    前記修正後に、修正された誤り候補箇所に対応付けられた前記2以上の修正候補のうち修正に利用された修正候補以外の修正候補を削除し、削除された修正候補を含んでいた特徴情報に対して前記置換えをすることにより得られた特徴情報の特徴度を前記特徴度計算手段により再計算させ、再計算後の特徴情報とその特徴度及び再計算に係わらなかった特徴情報とその特徴度に基づいて前記グループ識別情報検出手段、前記確定修正候補検出手段及び前記修正手段を動作させる繰返手段を更に備えることを特徴とするテキストマイニング装置。
  9. 請求項7又は8に記載のテキストマイニング装置において、
    前記修正が終了した後の前記入力テキストから特徴情報を改めて抽出する手段を更に備えることを特徴とするテキストマイニング装置。
  10. 入力テキストに含まれる1以上の誤り候補箇所を検出し、各誤り候補箇所に対し2以上の修正候補を対応付ける誤り候補検出ステップと、
    前記入力テキストを該入力テキストに含まれる前記1以上の誤り候補箇所に対応付けられた前記2以上の修正候補により展開する展開ステップと、
    展開された前記入力テキストから1以上の特徴情報を抽出する特徴情報抽出ステップと、
    抽出された各特徴情報に含まれる関連語を該関連語を含むグループの識別情報に置き換えるグループ置換ステップと、
    前記置換え後に各特徴情報毎に特徴度を計算する特徴度計算ステップと、
    前記置換え後の特徴度が高い特徴情報に含まれるグループ識別情報を検出するグループ識別情報検出ステップと、
    検出されたグループ識別情報の元となる関連語のうちの、関連語であり且つ前記修正候補であるものを検出する確定修正候補検出ステップと、
    検出された前記修正候補により該修正候補に対応付けられた誤り候補箇所を修正する修正ステップと、
    を備えることを特徴とするテキストマイニング方法。
  11. 請求項10に記載のテキストマイニング方法において、
    前記修正後に、修正された誤り候補箇所に対応付けられた前記2以上の修正候補のうち修正に利用された修正候補以外の修正候補を削除し、削除された修正候補を含んでいた特徴情報に対して前記置換えをすることにより得られた特徴情報の特徴度を前記特徴度計算ステップにより再計算させ、再計算後の特徴情報とその特徴度及び再計算に係わらなかった特徴情報とその特徴度に基づいて前記グループ識別情報検出ステップ、前記確定修正候補検出ステップ及び前記修正ステップを行なう繰返しステップを更に備えることを特徴とするテキストマイニング方法。
  12. 請求項10又は11に記載のテキストマイニング方法において、
    前記修正が終了した後の前記入力テキストから特徴情報を改めて抽出するステップを更に備えることを特徴とするテキストマイニング方法。
  13. 入力テキストに含まれる1以上の誤り候補箇所を検出し、各誤り候補箇所に対し2以上の修正候補を対応付ける誤り候補検出ステップと、
    前記入力テキストを該入力テキストに含まれる前記1以上の誤り候補箇所に対応付けられた前記2以上の修正候補により展開する展開ステップと、
    展開された前記入力テキストから1以上の特徴情報を抽出する特徴情報抽出ステップと、
    抽出された各特徴情報に含まれる関連語を該関連語を含むグループの識別情報に置き換えるグループ置換ステップと、
    前記置換え後に各特徴情報毎に特徴度を計算する特徴度計算ステップと、
    前記置換え後の特徴度が高い特徴情報に含まれるグループ識別情報を検出するグループ識別情報検出ステップと、
    検出されたグループ識別情報の元となる関連語のうちの、関連語であり且つ前記修正候補であるものを検出する確定修正候補検出ステップと、
    検出された前記修正候補により該修正候補に対応付けられた誤り候補箇所を修正する修正ステップと、
    を備えることを特徴とするテキストマイニング方法をコンピュータに実行させるためのプログラム。
  14. 請求項13に記載のプログラムにおいて、
    前記テキストマイニング方法は、
    前記修正後に、修正された誤り候補箇所に対応付けられた前記2以上の修正候補のうち修正に利用された修正候補以外の修正候補を削除し、削除された修正候補を含んでいた特徴情報に対して前記置換えをすることにより得られた特徴情報の特徴度を前記特徴度計算ステップにより再計算させ、再計算後の特徴情報とその特徴度及び再計算に係わらなかった特徴情報とその特徴度に基づいて前記グループ識別情報検出ステップ、前記確定修正候補検出ステップ及び前記修正ステップを行なう繰返しステップを更に備えることを特徴とするプログラム。
  15. 請求項13又は14に記載のプログラムにおいて、
    前記テキストマイニング方法は、前記修正が終了した後の前記入力テキストから特徴情報を改めて抽出するステップを更に備えることを特徴とするプログラム。
JP2005241145A 2005-08-23 2005-08-23 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム Withdrawn JP2007058415A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005241145A JP2007058415A (ja) 2005-08-23 2005-08-23 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005241145A JP2007058415A (ja) 2005-08-23 2005-08-23 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Publications (1)

Publication Number Publication Date
JP2007058415A true JP2007058415A (ja) 2007-03-08

Family

ID=37921889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005241145A Withdrawn JP2007058415A (ja) 2005-08-23 2005-08-23 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Country Status (1)

Country Link
JP (1) JP2007058415A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010044123A1 (ja) 2008-10-14 2010-04-22 三菱電機株式会社 検索装置、検索用索引作成装置、および検索システム
JP2011023007A (ja) * 2009-07-17 2011-02-03 Nhn Corp 統計データに基づくユーザクエリ校正システムおよび方法
JP2017531849A (ja) * 2014-08-13 2017-10-26 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 画面表示装置用の文字編集方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010044123A1 (ja) 2008-10-14 2010-04-22 三菱電機株式会社 検索装置、検索用索引作成装置、および検索システム
JP2011023007A (ja) * 2009-07-17 2011-02-03 Nhn Corp 統計データに基づくユーザクエリ校正システムおよび方法
JP2017531849A (ja) * 2014-08-13 2017-10-26 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 画面表示装置用の文字編集方法及び装置

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US8000956B2 (en) Semantic compatibility checking for automatic correction and discovery of named entities
US20070230787A1 (en) Method for automated processing of hard copy text documents
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
US20110202545A1 (en) Information extraction device and information extraction system
JP2010015571A (ja) エッセイ中の過度の反復語使用の自動評価
JP4600045B2 (ja) 意見抽出用学習装置及び意見抽出用分類装置
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
US11574287B2 (en) Automatic document classification
JP2008039983A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
CN111488466A (zh) 中文带标记错误语料生成方法、计算装置和存储介质
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
US20180181559A1 (en) Utilizing user-verified data for training confidence level models
CN114118194A (zh) 选择学习模型的系统及选择学习模型的方法
Babhulgaonkar et al. Language identification for multilingual machine translation
CN111259645A (zh) 一种裁判文书结构化方法及装置
US10706369B2 (en) Verification of information object attributes
US20190065453A1 (en) Reconstructing textual annotations associated with information objects
JP2009098952A (ja) 情報検索システム
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
JP6600849B2 (ja) 顔文字感情情報抽出システム、方法及びプログラム
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
CN111581950B (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080711

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100402