JP5472640B2 - テキストマイニング装置、テキストマイニング方法、及びプログラム - Google Patents

テキストマイニング装置、テキストマイニング方法、及びプログラム Download PDF

Info

Publication number
JP5472640B2
JP5472640B2 JP2010526563A JP2010526563A JP5472640B2 JP 5472640 B2 JP5472640 B2 JP 5472640B2 JP 2010526563 A JP2010526563 A JP 2010526563A JP 2010526563 A JP2010526563 A JP 2010526563A JP 5472640 B2 JP5472640 B2 JP 5472640B2
Authority
JP
Japan
Prior art keywords
text data
text
mining
reliability
computer processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010526563A
Other languages
English (en)
Other versions
JPWO2010023938A1 (ja
Inventor
開 石川
晃裕 田村
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010526563A priority Critical patent/JP5472640B2/ja
Publication of JPWO2010023938A1 publication Critical patent/JPWO2010023938A1/ja
Application granted granted Critical
Publication of JP5472640B2 publication Critical patent/JP5472640B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識から得られたテキストデータをマイニング対象とする、テキストマイニング装置、及びテキストマイニング方法に関する。
近年、大量のテキストデータの中から有益な情報を抽出する技術として、テキストマイニングが注目されている。テキストマイニングは、定型化されていない文章の集まりを、自然言語解析の手法を使って単語やフレーズに分割し、特徴語を抽出する。そして、特徴語の出現頻度や相関関係が分析され、分析者に有益な情報が提供される。テキストマイニングによれば、これまで人手で分析することが不可能であった、膨大な量のテキストデータの分析が可能となる。
このようなテキストマイニングの適用分野の一例として、自由記述形式のアンケートが挙げられる。この場合、テキストマイニングは、アンケートの回答結果をタイピング又は文字認識することによって得られたテキストデータに対して実行される(例えば、特許文献1、特許文献2及び非特許文献1参照。)。分析者は、テキストマイニングの結果を用いて、様々な分析や、仮説の検証を行うことができる。
また、テキストマイニングの適用分野の他の例としては、企業のコールセンターが挙げられる。コールセンターは、顧客とオペレータとの通話を録音した音声や、オペレータが応対の際にキー入力等によって作成したメモを、大量に蓄積している。これらの情報は、近年、企業にとって、消費者のニーズや、自社の製品及びサービスの改善点などを知るための重要な知識源となっている。
コールセンターへの適用の場合は、テキストマイニングは、通話の音声認識から得られたテキストデータ(音声認識テキストデータ)に対して、又はオペレータが作成した通話メモから得られるテキストデータ(通話メモテキストデータ)に対して実行される。いずれのテキストデータに対してテキストマイニングが実行されるかは、分析者が求める分析の観点によって決定される。
例えば、音声認識テキストデータは、オペレータと消費者との間の通話を全て網羅している。よって、製品やサービスに対する消費者の要望の抽出が目的である場合は、消費者の発話を全て網羅する必要があるため、音声認識テキストデータに対してテキストマイニングが実行される。
一方、通話メモテキストデータは、網羅する範囲は狭いが、オペレータが通話の中で重要であると判断した事項、更には、オペレータが通話の内容をヒントにして認識した事項や判断した事項を含んでいる。よって、他のオペレータも共有すべきベテランオペレータの判断ノウハウや、新人オペレータの判断ミスなどを抽出する場合等、オペレータの付加情報に着目した分析が求められる場合は、通話メモテキストデータに対してテキストマイニングが実行される。
但し、音声認識テキストデータは、殆どの場合、認識誤りを含んでいる。このため、音声認識テキストデータに対するテキストマイニングでは、認識誤りの影響により、特徴語の抽出が正確になされない場合がある。このような問題を解決するため、音声認識によって得られた単語候補に信頼度が付与された音声認識テキストデータ(例えば、非特許文献2参照。)を用いて、テキストマイニングを行うことが提案されている(例えば、特許文献3参照。)。特許文献3に記載のテキストマイニングにおいては、抽出された特徴語を計数する際に、信頼度に基づいた補正が行われ、認識誤りによる影響が低減される。
また、音声認識テキストデータに対するテキストマイニングは、上述のコールセンター以外の分野でも求められている。例えば、テレビやラジオで報道された内容から企業イメージを分析する場合や、会議などのコミュニケーションの場における会話内容を分析する場合等が挙げられる。前者の場合は、アナウンサー等の発話を音声認識することによって得られた音声認識テキストデータが用いられる。また、後者の場合は、会議などのコミュニケーションの場における参加者の会話を音声認識することによって得られた音声認識テキストデータが用いられる。
ところで、上記コールセンターの例で述べた、音声認識テキストデータ及び通話メモテキストデータは、同一の事象(通話)から別々のチャネルを介して得られる情報である。両者は、チャネルが異なる情報ではあるが、両者の情報源は同一である。よって、両者の特性を利用し、両者を相補的に用いるテキストマイニングを実行すれば、一方のテキストデータに対してテキストマイニングを行った場合や、単に両方それぞれに対してテキストマイニングを行った場合よりも、複雑な分析が可能になると考えられる。
具体的には、先ず、音声認識テキストデータは、通話メモテキストデータと共通の部分と、通話メモテキストデータには記述されていない通話音声に固有の部分とに分離される。同様に、通話メモテキストデータも、音声認識テキストデータと共通の部分と、音声認識テキストデータには記述されていない通話メモに固有の部分とに分離される。
次に、音声認識テキストデータの通話音声に固有の部分について、テキストマイニングが実行される。このテキストマイニングは、通話音声には出現するが、通話メモの記述から漏れている情報に対して、重点的な分析を実行する。そして、この分析により、通話メモとして記録すべきであったが、漏れてしまった情報が抽出される。抽出された情報は、通話メモの記述ガイドラインの改良に利用できる。
続いて、通話メモテキストデータの通話メモに固有の部分について、テキストマイニングが実行される。このテキストマイニングは、通話メモには出現するが、通話音声の音声認識テキストデータには現れない情報に対して、重点的な分析を実行する。この分析によれば、上述した通話メモテキストデータのみに対してテキストマイニングを実行する場合よりも、確実に、経験を積んだオペレータの判断ノウハウを抽出できる。抽出された判断ノウハウは、新人オペレータの教育材料に活用できる。
このような、同一の事象から別々のチャンネルを介して得られる複数のテキストデータに対して行うテキストマイニング(以下「クロスチャネルテキストマイニング」という。)は、他の例にも利用できる。
例えば、上述した、報道された内容から企業イメージを分析する場合は、アナウンサー等の発話からの音声認識テキストデータと、発話原稿や新聞記事等のテキストデータとに対してクロスチャネルテキストマイニングが実行される。更に、上述した、会議などのコミュニケーションの場における会話内容を分析する場合は、参加者の会話からの音声認識テキストデータと、その場において参加者が参照した文書、参加者が作成したメモや議事録等のテキストデータとに対してクロスチャネルテキストマイニングが実行される。
なお、クロスチャネルテキストマイニングにおいて、マイニング対象は、音声認識テキストデータや、キー入力によって作成されたテキストデータである必要は無い。例えば、上述したアンケートや議事録等を文字認識することによって得られた文字認識テキストデータ(非特許文献3参照。)等も、マイニング対象となる。
また、クロスチャネルテキストマイニングを実行する場合は、一方のテキストデータと他方のテキストデータとの間で、それぞれの共通部分と固有の部分とを明確に分けることが重要である。明確でない場合は、分析精度が大きく低下してしまうからである。
特開2001−101194号公報 特開2004−164079号公報 特開2008−039983号公報
H. Li and K. Yamanishi, "Mining from open answers inquestionnaire data", In Proceedings of the seventh ACM SIGKDDinternational conference on Knowledge discovery and data mining, pp.443-449,2001. Frank Wessel 他, "Confidence Measures for Large Vocabulary Continuous SpeechRecognition", IEEE Trans. Speech and Audio Processing, vol. 9, No. 3,March 2001, pp.288-298. John F. Pitrelli, Michael P. Perrone, "Confidence-scoring post-processing for off-linehandwritten-character recognition verification", In Proceedings of the seventh InternationalConference on Document Analysis and Recognition (ICDAR), vol. 1, August 2003,pp.278-282.
しかしながら、音声認識や文字認識といったコンピュータ処理によって生成されたテキストデータには、殆どの場合、誤りが含まれている。このため、コンピュータ処理によって生成されたテキストデータと、それ以外の手法で作成された別のテキストデータとの間で、それぞれの固有の部分と共通の部分とを判別し、これらを分離することは、極めて困難である。この結果、クロスチャネルテキストマイニングの実用化も難しい状況にある。
また、上述したように、上記特許文献3は、音声認識の認識誤りがテキストマイニングに影響を与える場合に、それを軽減する技術を開示しているが、この技術はクロスチャネルテキストマイニングへの適用を考慮した技術ではない。つまり、特許文献3の発明は、音声認識テキストデータと別のテキストデータとの間で、両者の固有の部分と共通の部分とを判別する際に、認識誤りが与える影響を除去するものではない。
本発明の目的は、上記問題を解消し、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータ間において、それぞれの固有部分を精度良く判別し得る、テキストマイニング装置、テキストマイニング方法、及びプログラムを提供することにある。
上記目的を達成するために本発明におけるテキストマイニング装置は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
前記複数のテキストデータそれぞれに信頼度が設定されており、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出する、固有部分抽出部を備えている、ことを特徴とする。
更に、上記目的を達成するため本発明におけるテキストマイニング方法は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するためのテキストマイニング方法であって、
(a)前記複数のテキストデータそれぞれに信頼度を設定するステップと、
(b)前記(a)のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを有する、ことを特徴とする。
また、上記目的を達成するため本発明におけるプログラムは、コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムであって、
前記コンピュータ装置に、
(a)前記複数のテキストデータそれぞれに信頼度を設定するステップと、
(b)前記(a)のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを実行させる、ことを特徴とする。
以上のように、本発明におけるテキストマイニング装置、テキストマイニング方法及びコンピュータ読み取り可能な記録媒体によれば、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータ間において、それぞれの固有部分が精度良く判別される。
図1は、本発明の実施の形態1におけるテキストマイニング装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態1においてテキストマイニングの対象となるデータの一例を示す図である。 図3は、信頼度が設定された音声認識テキストデータの一例を示す図である。 図4は、信頼度が設定された音声認識テキストデータの一例であって言語が英語である場合を示す図である。 図5は、本発明の実施の形態1におけるテキストマイニング装置が抽出した固有部分の一例を示す図である。 図6は、テキストマイニング処理の結果の一例を示す図である。 図7は、本発明の実施の形態1におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。 図8は、本発明の実施の形態2におけるテキストマイニング装置の概略構成を示すブロック図である。 図9は、本発明の実施の形態2におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。
(実施の形態1)
以下、本発明の実施の形態1におけるテキストマイニング装置、テキストマイニング方法及びプログラムについて、図1〜図7を参照しながら説明する。最初に、本発明の実施の形態1におけるテキストマイニング装置の構成について図1〜図6を用いて説明する。
図1は、本発明の実施の形態1におけるテキストマイニング装置の概略構成を示すブロック図である。図2は、本発明の実施の形態1においてテキストマイニングの対象となるデータの一例を示す図である。図3は、信頼度が設定された音声認識テキストデータの一例を示す図である。図4は、信頼度が設定された音声認識テキストデータの一例であって言語が英語である場合を示す図である。図5は、本発明の実施の形態1におけるテキストマイニング装置が抽出した固有部分の一例を示す図である。図6は、テキストマイニング処理の結果の一例を示す図である。
図1に示すテキストマイニング装置1は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行する。図1に示すように、テキストマイニング装置1は、固有部分抽出部6を備えている。また、複数のテキストデータそれぞれには、信頼度が設定されている。
また、固有部分抽出部6は、複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出する。ここで、各テキストデータの他のテキストデータに対する固有部分とは、各テキストデータそれぞれを構成する単語又はフレーズであって、他のテキストデータに全く含まれていなもの、又は含まれていても僅かであるものをいう。
また、「信頼度」は、テキストデータを構成する単語が適切であることの度合いを示している。例えば、コンピュータ処理によって生成されたテキストデータにおいては、「信頼度」は、テキストデータを構成する各単語がコンピュータ処理の処理結果として正しいかどうかの指標となる。
よって、固有部分抽出部6による、信頼度を用いた固有部分の抽出によれば、コンピュータ処理による誤りが各テキストデータの固有部分の判別に対して与える影響を小さくすることができる。この結果、これらの固有部分の判別精度が向上され、テキストマイニング装置1は、従来困難であったクロスチャネルテキストマイニングの実現を可能にする。
なお、本発明において「コンピュータ処理」とは、一定のアルゴリズムに従ってコンピュータによって実行される解析処理をいう。また、「コンピュータ処理によって得られたテキストデータ」とは、コンピュータ処理によって自動的に生成されるテキストデータをいう。コンピュータ処理の具体例としては、音声認識処理、文字認識処理、機械翻訳処理といった処理が挙げられる。
続いて、テキストマイニング装置1の構成について更に具体的に説明する。また、以下においては、テキストマイニング装置1をコールセンターに適用する例について説明する。本実施の形態1では、コールセンターで録音された通話音声データD1(図2参照)を音声認識(コンピュータ処理)して得られたテキストデータと、通話メモテキストデータD2(図2参照)とが、マイニング対象となる。
図1に示すように、テキストマイニング装置1には、図2に示す、通話音声データD1、通話メモテキストデータD2、及び付帯情報D3といった三種類のデータが入力される。通話音声データD1は、コールセンターでのオペレータと顧客とのやりとりを記録した音声データである。図2において「A」はオペレータを示し、「B」は顧客を示している。通話音声データD1を音声認識して得られるテキストデータが、上述の音声認識テキストデータとなる。
通話メモテキストデータD2は、オペレータが通話の際にメモとして作成したテキストデータであり、コンピュータ処理によって得られたテキストデータではない。付帯情報D3は、通話音声データD1及び通話メモテキストデータD2に付随するデータであり、図2には一部のみが示されている。付帯情報D3は、主に、後述する特徴度の算出において利用される。
また、通話音声データD1は、オペレータと顧客との通話の開始から終了までを1単位(1レコード)とし、通話メモテキストデータD2及び付帯情報D3は、1レコード毎に作成される。図2には、1レコードの通話音声データD1と、対応する通話メモテキストデータD2及び付帯情報D3とが示されている。実際には、レコード番号lのレコードにおける通話音声データD1(l)と、これに対応する通話メモテキストデータD2(l)及び付帯情報D3(l)とを1組として、複数組がテキストマイニング装置1に入力される。なお、「l」は、1からLまでの自然数である(l=1、2、・・・、L)。
また、図1に示すように、テキストマイニング装置1は、固有部分抽出部6に加えて、データ入力部2と、音声認識部3と、言語処理部5と、マイニング処理部10とを備えている。更に、テキストマイニング装置1には、入力装置15及び出力装置16が接続されている。入力装置15の具体例としては、キーボードや、マウス等が挙げられる。出力装置16の具体例としては、液晶ディスプレイ等の表示装置や、プリンタ等が挙げられる。また、入力装置15及び出力装置16は、テキストマイニング装置1にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。
先ず、各レコードlにおける通話音声データD1(l)、対応する通話メモテキストデータD2(l)、及び同じく対応する付帯情報D3(l)といった入力データは、データ入力部2に入力される。このとき、これらのデータは、外部のコンピュータ装置からネットワークを介して、直接、データ入力部2に入力されても良いし、記録媒体に格納された状態で提供されても良い。前者の場合は、データ入力部2としては、外部とテキストマイニング装置1とを接続するためのインターフェイスが用いられる。また、後者の場合は、データ入力部2としては、読取装置が用いられる。
これらのデータが入力されると、データ入力部2は、通話音声データD1(l)を音声認識部3に出力し、通話メモテキストデータD2(l)を言語処理部5に出力する。また、データ入力部2は、付帯情報D3(l)をマイニング処理部10に出力する。
音声認識部3は、通話音声データD1(l)に対して音声認識を実行し、音声認識テキストデータを生成する。また、音声認識部3は、信頼度設定部4を備えている。信頼度設定部4は、音声認識テキストデータに対して、それを構成する単語毎に、信頼度を設定する。信頼度が設定された音声認識テキストデータは、固有部分抽出部6に出力される。
ここで、図2に示した通話音声データD1に含まれる会話を用いて、音声認識部3における処理を図3及び図4に基づいて説明する。会話としては、通話音声データD1に含まれる多数の会話のうち、「保機能は付いていますか」と、「白は無いですか。」とが用いられることとする。
先ず、音声認識部3は、各レコードlにおける通話音声データD1(l)毎に、音声認識を行う。そして、音声認識部3は、図3に示すように、時間フレームm毎に候補となる単語wを抽出する。図3において、横軸に付された番号はフレーム番号であり、一つのレコードl内においてフレーム番号は連続している。
また、同一の時間フレームmに複数の候補が存在する場合は、音声認識部3は、複数個の単語を抽出する。図3の例では、フレーム番号20において、「保存」と「保温」の二つの候補が抽出されている。また、フレーム番号33において、「色」と「白」の二つが抽出されている。
また、会話の言語が英語である場合も、音声認識部3は、時間フレームm毎に候補となる単語wを抽出する。例えば、会話が、図3の例の英訳に相当する「Does it have heat retaining function ?」及び「Do you have white color ?」である場合は、音声認識部3は、図4に示すように、単語wを抽出する。
但し、図4の例では、フレーム番号23−24において、「heat retaining」と「eat remaining」の二つの候補が抽出され、フレーム番号37において、「color」と「collar」の二つの候補が抽出されている。また、図4においても、横軸に付された番号はフレーム番号であり、一つのレコードl内においてフレーム番号は連続している。
なお、音声認識部3は全ての単語を候補として抽出する必要はない。本実施の形態1では、音声認識部3は、言語の種類に拘わらず、助詞や前置詞等の単独では意味を成さない単語については候補として抽出せず、名詞、動詞、副詞といった自立語の品詞のみを候補として抽出する。
信頼度設定部4は、単語w毎に、信頼度RCall(w,l,m)を設定する。図3及び図4においては、各単語の下側に併記された1以下の数字が信頼度を表している。また、本実施の形態1では、信頼度RCall(w,l,m)は、特に限定されるものではなく、音声認識テキストデータを構成する単語が認識結果として正しいかどうかの指標となるものであれば良い。
例えば、信頼度RCall(w,l,m)としては、上述した非特許文献2に開示された「Confidence Measure」を用いることができる。具体的には、前提として、入力音声又はその音声に対して観測された音響特徴量が与えられているとする。この場合、単語wの信頼度RCall(w,l,m)は、単語wの事後確率として、入力音声又は音響特徴量に対する認識結果として得られるワードグラフを元にForward-Backwardアルゴリズムを用いて計算可能である。
また、本実施の形態1は、予め、テキストマイニング装置1の外部の音声認識装置によって音声認識が行われ、単語毎に信頼度が設定された音声認識テキストデータが、テキストマイニング装置1への入力前に作成されている態様であっても良い。この場合は、テキストマイニング装置1は音声認識部3を備える必要がなく、音声認識テキストデータは、データ入力部2を介して、固有部分抽出部6に入力される。但し、テキストマイニング装置1が、音声認識部3を備える場合は、音声認識に用いられる言語モデルや音響モデルの調整が容易となり、音声認識の認識精度の向上が図られる。
言語処理部5は、通話メモテキストデータに対して、形態素解析、係り受け解析、同義語処理、不用語処理等の言語処理を実行する。また、言語処理部5は、通話メモテキストデータを、音声認識テキストデータの単語wに対応するように、単語w毎に区切り、単語列を生成する。単語列は、固有部分抽出部6に出力される。
本実施の形態1では、固有部分抽出部6は、各テキストデータを構成する単語毎に、スコアScall(w,l)又はスコアSMemo(w,l)を算出し、算出された値に基づいて、各テキストデータの固有部分を抽出する。スコアScall(w,l)は、音声認識テキストデータを構成する各単語がその固有部分に該当する度合いを示している。また、スコアSMemo(w,l)は、音声メモテキストデータを構成する各単語がその固有部分に該当する度合いを示している。
上記機能を実現するため、固有部分抽出部6は、頻度算出部7と、スコア算出部8と、固有部分判定部9とを備えている。頻度算出部7には、各レコードlにおける通話音声データD1(l)から得られた音声認識テキストデータと、言語処理部5が通話メモテキストデータD2(l)から生成した単語列とが入力される。
頻度算出部7は、先ず、音声認識テキストデータを構成している各単語wについて、既に求められている信頼度RCall(w,l,m)を用いて、各レコードlに対する信頼度RCall(w,l)を算出する。具体的には、頻度算出部7は、下記の式(数1)を用いて、全ての単語wについて計算を行う。
Figure 0005472640
頻度算出部7は、次に、言語処理部5が出力した単語列を用いて、通話メモテキストデータを構成している各単語wに対して信頼度RMemo(w,l)を設定する。本実施の形態1では、通話メモテキストデータに対しても信頼度が設定されるため、この点からも、固有部分かどうかの判別の精度が向上する。
但し、本実施の形態1では、通話メモテキストデータは、オペレータによるキー入力によって生成されている。よって、通話メモテキストデータ中に含まれている単語であれば、その信頼度は「1.0」となる。なお、通話メモテキストデータ中に含まれていない単語の信頼度は、「0.0」となる。
続いて、頻度算出部7は、単語wについての信頼度RCall(w,l)と、単語wについての信頼度RMemo(w,l)とから、それぞれの出現頻度NCall(w)及びNMemo(w)を求める。また、頻度算出部7は、信頼度RCall(w,l)と信頼度RMemo(w,l)とから、全てのレコード(レコード(1)〜レコード(L))に対する両者の共起頻度NCall,Memo(w,w)も求める。
具体的には、頻度算出部7は、下記の式(数2)を用いて、単語wの出現頻度NCall(w)を求め、下記の式(数3)を用いて、単語wの出現頻度NMemo(w)を求める。また、頻度算出部7は、下記の式(数4)を用いて、共起頻度NCall,Memo(w,w)を求める。その後、頻度算出部7は、出現頻度NCall(w)、出現頻度NMemo(w)、共起頻度NCall,Memo(w,w)をスコア算出部8に出力する。
Figure 0005472640
Figure 0005472640
Figure 0005472640
スコア算出部8は、出現頻度NCall(w)、出現頻度NMemo(w)、及び共起頻度NCall,Memo(w,w)を用いて、上述したスコアScall(w,l)及びスコアSMemo(w,l)を算出する。具体的には、スコア算出部8は、先ず、wとwとを離散確率変数とする相互情報量I(w;w)を算出する。
ここで、出現頻度NCall(w)、出現頻度NMemo(w)、及び共起頻度NCall,Memo(w,w)の計数対象である全レコード数が、「L」であるとする。また、相互情報量I(w;w)の同時分布関数をPCall,Memo(w,w)とする。PCall,Memo(w,w)は、下記の式(数5)によって算出できる。
Figure 0005472640
上記の式(数5)より、PCall,Memo(w,w)は、ある1レコードにおいて、単語wが音声認識テキストデータCallに出現し、且つ、単語wが通話メモテキストデータMemoに出現する確率事象に対する、同時分布関数であることが分かる。
また、相互情報量I(w;w)の周辺確率分布関数をPCall(w)及びPMemo(w)とする。PCall(w)は下記の式(数6)によって算出される。また、PMemo(w)は、下記の式(数7)によって算出される。
Figure 0005472640
Figure 0005472640
上記の式(数6)より、PCall(w)は、ある1レコードにおいて、単語wが音声認識テキストデータCallに出現する確率事象に対する、周辺確分布関数であることが分かる。また、上記の式(数7)より、PMemo(w)は、ある1レコードにおいて、単語wが通話メモテキストデータMemoに出現する確率事象に対する、周辺確率分布関数であることが分かる。
そして、wとwとを離散確率変数とする相互情報量I(w;w)は、下記の式(数8)を用いて算出することができる。
Figure 0005472640
次に、スコア算出部8は、相互情報量I(w;w)を利用して、スコアScall(w,l)及びスコアSMemo(w;l)を算出する。本実施の形態1では、スコアScall(w;l)及びスコアSMemo(w;l)としては、相互情報量I(w;w)に対して単調に減少する関数が用いられる。具体的には、スコアScall(w;l)は、下記の式(数9)によって算出され、スコアSMemo(w;l)は、下記の式(数10)によって算出される。なお、式(数9)及び式(数10)において、βは、0(ゼロ)より大きい任意の定数である。算出されたスコアScall(w;l)及びスコアSMemo(w;l)は、固有部分判定部9に出力される。
Figure 0005472640
Figure 0005472640
このようにして算出されたスコアは、音声認識テキストデータや音声メモテキストデータに設定された信頼度の値に応じて変動する。つまり、スコアは、音声認識における認識誤りに応じても変動する。よって、スコアScall(w,l)及びスコアSMemo(w,l)を用いれば、後述する固有部分の判定において、判定精度の向上が図られる。
なお、本実施の形態1において、スコアScall(w,l)及びスコアSMemo(w,l)の算出方法は、上記の算出方法に限定されるものではない。スコアS(w,l)及びスコアS(w,l)は、固有部分かどうかの判定に使用できるものであれば良い。
固有部分判定部9は、スコアScall(w,l)及びスコアSMemo(w,l)を、予め設定された閾値と対比し、固有部分かどうかを判定する。本実施の形態1では、固部分判定部9は、スコアが閾値以上の場合に、その単語を固有部分と判定する。例えば、図5に示すように、音声認識テキストデータを構成する単語wと通話メモテキストデータを構成する単語wについてスコアが算出され、閾値がスコアScall(w,l)及びスコアSMemo(w,l)のいずれに対しても0.500に設定されていたとする。
この場合は、固有部分判定部9は、音声認識テキストデータの固有部分として、「広告」と「白」を抽出する。また、固有部分判定部9は、通話メモテキストデータの固有部分として「今後」、「カラーバリエーション」、「増加」、「新たな」、「付加」、及び「検討」を抽出する。
また、本実施の形態1において、閾値の大きさは、特に限定されず、後述するテキストマイニング処理の結果に基づいて、適宜選択すれば良い。但し、クロスチャネルテキストマイニングにおいて、良好な結果を得る点からは、閾値は、予め実験を行い、その実験結果に基づいて設定するのが好ましい。
具体的には、固有部分が予め設定された音声データと、同じく固有部分が予め設定されたテキストデータとを実験データとして用い、上述した手順でスコアScall(w,l)及びスコアSMemo(w,l)を算出する。そして、各データで予め設定されている各固有部分が、抽出されるように、閾値を設定する。この場合、閾値の設定は、スコア毎に行うことができる。また、設定された閾値の信頼性を高めるため、できるだけ多くの実験データを用意しておくのが好ましい。
マイニング処理部10は、音声認識テキストデータの固有部分と、通話メモテキストデータの固有部分とのそれぞれに対してマイニング処理を行うことができる。言い換えると、マイニング処理部10は、いわゆるクロスチャネルテキストマイニングを実行することができる。よって、テキストマイニング装置1によれば、クロスチャネルテキストマイニングが実行できない従来のテキストマイニング装置に比べて、より深い分析が可能となる。
なお、マイニング処理部10は、クロスチャネルテキストマイニング以外のテキストマイニング、即ち、音声認識テキストデータ全体又は通話メモテキストデータ全体に対してのテキストマイニングを実行することもできる。
また、本実施の形態1においては、マイニング処理部10は、マイニング処理として、特徴語を抽出し、その特徴度を算出する。「特徴語」とは、マイニング処理によって抽出される単語やフレーズをいう。例えば、固有部分についてマイニング処理が行われる場合は、固有部分と判断された単語の中から、特徴語が抽出される。「特徴度」は、抽出された特徴語が、任意のカテゴリー(例えば、付帯情報D3において特定の値を持つレコード集合が挙げられる。)において、どの程度特徴的であるかの度合いを示している。
上記の処理を行うため、マイニング処理部10は、マイニング処理管理部11と、特徴語計数部12と、特徴度算出部13と、マイニング結果出力部14とを備えている。特徴語計数部12は、音声認識テキストデータ及び通話メモテキストデータの固有部分として判断された単語に対して、各単語が、対応するテキストデータにおいて、或いは、全てのテキストデータにおいて何回出現したかカウントする。これにより、出現頻度及び総出現頻度が求められる(図6参照)。
図6の例では、特徴語の計数は、複数のレコードに対して行われている。本実施の形態1では、特徴語の計数の対象となるレコードの数は特に限定されるものではない。また、クロスチャネルテキストマイニングが行われない場合は、特徴語計数部12は、音声認識テキストデータ又は通話メモテキストデータに含まれる全ての単語(意味をなさない単語を除く)に対して、出現頻度をカウントする。
特徴度算出部13は、特徴語計数部12で得られた出現頻度や総出現頻度を用いて特徴度(図6参照)を算出する。特徴度の算出方法は、特に限定されるものではなく、マイニングの目的等に応じて、種々の統計解析技術等を利用して行うことができる。
具体的には、特徴算出部13は、特定のカテゴリーにおける、各単語の頻度、対数尤度比、χ2値、イエーツ補正χ2値、自己相互情報量、SE、ESCなどの統計的尺度を、単語の特徴量として計算し、得られた値を特徴度とすることができる。なお、特定のカテゴリーとしては、上述したように、例えば、付帯情報D3において分析者が指定する特定の値を持つレコード集合等が挙げられる。また、特徴度の算出には、重回帰分析、主成分分析、因子分析、判別分析、クラスター解析などの統計解析技術を用いることもできる。
また、マイニング処理管理部11は、入力装置15を介して、ユーザが入力したマイニング条件を受け付け、受け付けた条件に応じて、特徴語計数部12及び特徴度算出部13を動作させている。例えば、ユーザが、音声認識テキストデータの固有部分に対してのみテキストマイニングを行う旨を指示した場合は、マイニング処理管理部11は、特徴語計数部12に、音声認識テキストデータの固有部分を対象として特徴語の計数を実施させる。また、マイニング処理管理部11は、特徴度算出部13に対しては、音声認識テキストデータの固有部分に対して特徴度の算出を行わせる。
マイニング結果出力部14は、図6に示すようなマイニング結果を出力装置16に出力する。図6においては、マイニング結果は、特徴語、出現頻度、総出現頻度、及び特徴度を含んでいる。また、本実施の形態1では、クロスチャネルテキストマイニングが実行されるため、音声認識テキストデータと通話メモテキストデータとの両方についてのマイニング結果が出力される。また、マイニング結果は、表示装置が出力装置16である場合は、表示画面に表示される。
次に、本発明の実施の形態1におけるテキストマイニング方法について、図7を用いて説明する。図7は、本発明の実施の形態1におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。
本実施の形態1におけるテキストマイニング方法は、図1に示したテキストマイニング装置1を動作させることによって実施できる。このため、以降において、本実施の形態1におけるテキストマイニング方法の説明は、適宜図1〜図6を参酌しながら、図1に示したテキストマイニング装置1の動作の説明と共に行う。
先ず、レコード(1)〜レコード(L)それぞれの通話音声データD1(l)、通話メモテキストデータD2(l)、及び付帯情報D3(l)が、テキストマイニング装置1のデータ入力部2に入力される。このとき、各レコードl(l=1、2、・・・、L)における、通話音声データD1(l)、通話メモテキストデータD2(l)、及び付帯情報D3(l)は、レコード番号が同一のものを一つの組として、組毎に入力される。次に、図7に示すように、音声認識部3は、音声認識を行い、候補となる単語wを抽出して音声認識テキストデータを作成する(ステップA1)。
また、ステップA1においては、信頼度設定部4は、音声認識テキストデータに対して、それを構成する単語w毎に、信頼度RCall(w,l,m)を設定する。なお、単語毎に信頼度が設定された音声認識テキストデータが、テキストマイニング装置1への入力前に作成されている場合は、ステップA1は省略される。
続いて、言語処理部5が、通話メモテキストデータに対して、言語処理を実行する(ステップA2)。これにより、通話メモテキストデータは、単語wの単語列となり、単語列となった状態で、出力される。なお、ステップA2は、ステップA1の前に実行されても良いし、ステップA1と同時に実行されても良い。
次に、頻度算出部7は、信頼度RCall(w,l,m)を上記の式(数1)に当てはめて、各レコードlに対する単語wの信頼度RCall(w,l)を算出する(ステップA3)。更に、頻度算出部7は、通話メモテキストデータに対しても、単語w毎に、信頼度RMemo(w,l)を設定する(ステップA4)。
続いて、頻度算出部7は、単語wの信頼度RCall(w,l)と、単語wの信頼度RMemo(w,l)とから、それぞれの出現頻度NCall(w)及びNMemo(w)と、全てのレコード(レコード(1)〜レコード(L))に対する両者の共起頻度NCall,Memo(w,w)とを求める(ステップA5)。ステップA5では、上記の式(数2)〜(数4)が用いられる。
次に、頻度算出部7での処理(ステップA3〜A5)が終了すると、スコア算出部8が、出現頻度NCall(w)及びNMemo(w)と、共起頻度NCall,Memo(w,w)とを用いて、スコアScall(w,l)及びSMemo(w,l)を算出する(ステップA6)。スコアScall(w,l)及びSMemo(w,l)の算出は、レコード(1)〜レコード(L)それぞれについて行われる。具体的には、上述したように、スコア算出部8は、上記の式(数5)〜(数8)を用いて、相互情報量I(w,w)を算出した後、これを上記の式(数9)と(数10)とに当てはめる。ステップA6の結果、図5に示すデータが得られる。
次に、固有部分判定部9は、レコード(1)〜レコード(L)それぞれの各単語について、対応するスコアScall(w,l)又はスコアSMemo(w,l)が、予め設定された閾値以上となっているかどうかを判定し、閾値以上となった単語を固有部分であると判定する(ステップA7)。ステップA7において固有部分であると判定された単語を特定する情報が、マイニング処理部10に送られる。
次いで、マイニング処理部10がマイニング処理を実行する(ステップA8)。ステップA8の実行により、特徴語の計数処理及び特徴度の算出が行われる。ステップA8の結果、図6に示すデータが得られる。
その後、マイニング結果出力部14が、ステップA8で得られた結果を出力装置16に出力する(ステップA9)。ステップA9の実行後、テキストマイニング装置1は、処理を終了する。
このように、本実施の形態1におけるテキストマイニング方法によれば、音声認識テキストデータの固有の部分と、非音声認識テキストデータの固有部分との判別において、音声認識で発生する認識誤りの影響を最小限とできる。この結果、これらの固有部分の判別精度が向上され、本実施の形態1におけるテキストマイニング方法は、従来困難であったクロスチャネルテキストマイニングの実現を可能にする。
また、本実施の形態1におけるプログラムは、コンピュータに、図7に示すステップA1〜A9を実行させる命令を含むプログラムであれば良い。この場合、コンピュータに、この本実施の形態1におけるプログラムをインストールし、このプログラムを実行することによって、テキストマイニング装置1を実現することができる。更に、この場合、コンピュータのCPU(Central Processing Unit)は、音声認識部3、言語処理部5、固有部分抽出部6、及びマイニング処理部10として機能し、ステップA1〜Aの処理を行なう。
また、本実施の形態1におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。
(実施の形態2)
次に、本発明の実施の形態2におけるテキストマイニング装置、テキストマイニング方法及びプログラムについて、図8及び図9を用いて説明する。最初に、本発明の実施の形態2におけるテキストマイニング装置の構成について図8を用いて説明する。図8は、本発明の実施の形態2におけるテキストマイニング装置の概略構成を示すブロック図である。
図8に示すテキストマイニング装置20は、音声認識テキストデータと、文字認識を行うことによって得られたテキストデータ(文字認識テキストデータ)とをマイニング対象とする。このため、テキストマイニング装置20には、スキャナー等の光学読取装置から出力された文書の画像データD4が入力される。
なお、本実施の形態2においても、レコード番号1〜レコード番号Lまでのレコードがテキストマイニング装置20に入力される。また、レコード番号l(l=1、2、・・・、L)のレコードにおける通話音声データD1(l)と、これに対応する画像データD4(l)と、同じく対応する付帯情報D3(l)とを1組として、複数組がテキストマイニング装置20に入力される。
図8に示すように、テキストマイニング装置20は、各レコードlに対応する文書の画像データD4(l)毎に、文字認識を行うため、実施の形態1において図1に示された言語処理部5の代わりに、文字認識部21を備えている。
本実施の形態2においても、テキストマイニング装置20は、実施の形態1と同様に、コールセンターに適用される。各レコードlに対応する画像データD4(l)の元となった文書は、オペレータが手書きで作成したメモや、顧客から送られてきたFAX等である。
文字認識部21は、各レコードlに対応する画像データD4(l)毎に、文字認識を行い、各レコードlに対応する文字認識テキストデータを生成する。また、文字認識部21は、文字認識テキストデータを構成する単語を抽出し、単語毎に信頼度を設定する。この場合の信頼度は、文字認識テキストデータを構成する単語が入力画像の認識結果として正しいかどうかの指標となるものであれば良い。
具体的には、文字認識テキストデータ中の単語の信頼度としては、入力画像データD4(l)、又は入力画像データD4(l)から観測された文字認識の特徴量が与えられた場合における、単語の事後確率を用いることができる。具体的には、この場合の事後確率としては、上述した非特許文献3に開示された「Estimated posterior probability」を用いることができる。
なお、上述した点以外については、テキストマイニング装置20は、図1に示したテキストマイニング装置1と同様に構成されている。よって、データ入力部2、音声認識部3、固有部分抽出部6及びマイニング処理部10は、実施の形態1の例と同様に機能する。本実施の形態2においては、音声認識テキストデータと文字認識テキストデータとに対して、固有部分の抽出が行われ、その後、クロスチャネルマイニングが実行される。
また、本実施の形態2は、予め、テキストマイニング装置20の外部の文字認識装置によって文字認識が行われ、単語毎に信頼度が設定された文字認識テキストデータが、テキストマイニング装置20への入力前に作成されている態様であっても良い。この場合は、テキストマイニング装置20は文字認識部21を備える必要がなく、文字認識テキストデータは、データ入力部2を介して、固有部分抽出部6に入力される。
次に、本発明の実施の形態2におけるテキストマイニング方法について、図9を用いて説明する。図9は、本発明の実施の形態2におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。
本実施の形態2におけるテキストマイニング方法は、図8に示したテキストマイニング装置20を動作させることによって実施できる。以降においては、本実施の形態2におけるテキストマイニング方法の説明は、適宜図1〜図6を参酌しながら、図8に示したテキストマイニング装置20の動作の説明と共に行う。
先ず、レコード(1)〜レコード(L)それぞれの通話音声データD1(l)、画像データD4(l)、及び付帯情報D3(l)が、テキストマイニング装置20のデータ入力部2に入力されるこのとき、各レコードl(l=1、2、・・・、L)における、通話音声データD1(l)、画像データD4(l)、及び付帯情報D3(l)は、レコード番号が同一のものを一つの組として、組毎に入力される。
次に、図9に示すように、音声認識部3は、音声認識を行い、音声認識テキストデータを作成する(ステップA11)。ステップA11は、図7に示したステップA1と同様のステップである。
次に、文字認識部21が、各レコードlに対応する画像データD4(l)それぞれに対して、文字認識を実行する(ステップA12)。これにより、各画像データD4(l)から文字認識テキストデータが生成され、更に、文字認識テキストデータを構成する単語wの抽出、単語w毎の信頼度の設定が行われる。なお、単語毎に信頼度が設定された文字認識テキストデータが、テキストマイニング装置20への入力前に作成されている場合は、ステップA12は省略される。また、ステップA12は、ステップA11の前に実行されても良いし、ステップA11と同時に実行されても良い。
次に、頻度算出部7は、信頼度RCall(w,l,m)の算出(ステップA13)、出現頻度NCall(w)、出現頻度NMemo(w)、共起頻度NCall,Memo(w,w)の算出(ステップA14)を実行する。ステップA13及びステップA14は、それぞれ、図7に示したステップA及びA5と同様のステップである。
続いて、スコア算出部10によるスコアの算出(ステップA15)、及び固有部分判定部9による固有部分の判定(ステップA16)が行われる。ステップA15及びA16は、それぞれ、図7に示したステップA6及びA7と同様のステップである。
その後、マイニング処理部10によるマイニング処理(ステップA17)、マイニング結果出力部14によるマイニング結果の出力(ステップA18)が行われ、処理が終了する。ステップA17及びステップA18は、それぞれ、図7に示したステップA8及びA9と同様のステップである。
このように、本実施の形態2によれば、音声認識テキストデータの固有部分と、文字認識テキストデータの固有部分とを、精度良く判別でき、両者を対象としたクロスチャネルテキストマイニングを実行することができる。
また、本実施の形態2におけるプログラムは、コンピュータに、図9に示すステップA11〜A18を実行させるプログラムであれば良い。この場合、コンピュータに、この本実施の形態2におけるプログラムをインストールし、このプログラムを実行することによって、テキストマイニング装置20を実現することができる。更に、この場合、コンピュータのCPU(Central Processing Unit)は、音声認識部3、文字認識部21、固有部分抽出部6、及びマイニング処理部10として機能し、ステップA11〜A1の処理を行なう。
また、本実施の形態2におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。
実施の形態1及び2は、テキストマイニング装置がコールセンターに適用される例を示しているが、テキストマイニング装置の適用例は、これに限定されるものではない。テキストマイニング装置は、テレビやラジオで報道された内容から企業イメージを分析する場合や、会議などのコミュニケーションの場における会話内容を分析する場合等にも適用できる。また、実施の形態1及び2では、固有部分の抽出は、二つのテキストデータに対して行われているが、これに限定されるものではない。固有部分の抽出は、三つ以上のテキストデータに対して行われていても良い。
また、上述した実施の形態1は、誤りを含み得る音声認識テキストデータと、誤りを含まない通話メモテキストデータとの組を、テキストマイニングの対象とする例について説明している。上述した実施の形態2は、誤りを含み得る音声認識テキストデータと、同じく誤りを含みうる文字認識テキストデータとの組みを、テキストマイニングの対象とする例について説明している。但し、本発明は、上記の組み合わせを対象とする場合に限定されず、上記の組み合わせ以外の組み合わせに対しても、テキストマイニングを実行することができる。
本発明は、テキストデータの組のそれぞれから、その構成要素である単語集合と、その信頼度とに基づいて、各単語がそれぞれのテキストの固有部分に該当するかどうかの度合いを計算することができる。よって、例えば、上記の組以外の組、例えば、オペレータの通話音声に対する音声認識テキストデータと、顧客の通話音声に対する音声認識テキストデータとの組をテキストマイニングの対象とすることもできる。
また、テキストマイニングの対象となるテキストデータは、音声認識テキストデータや、キー入力によって生成されたテキストデータ(通話メモテキストデータ)、文字認識テキストデータ以外のテキストデータであっても良い。このようなテキストデータであっても、その構成要素である単語を抽出でき、更に単語毎に信頼度の設定が可能であれば、本発明の適用は可能である。具体的には、その他に、機械翻訳によって得られたテキストデータが挙げられる。
以上、実施の形態1及び2を参照して本願発明を説明したが、本願発明は上記実施の形態1及び2に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年8月29日出願された日本出願特願2008−222454を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本願発明におけるテキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。
(1)コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
前記複数のテキストデータそれぞれに信頼度が設定されており、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出する、固有部分抽出部を備えている、ことを特徴とするテキストマイニング装置。
(2)前記固有部分抽出部が、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された値に基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記(1)に記載のテキストマイニング装置。
(3)前記固有部分抽出部が、
前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、上記(2)に記載のテキストマイニング装置。
(4)二つのテキストデータに対して前記テキストマイニングが実行され、且つ、一方のテキストデータを構成する単語がw、他方のテキストデータを構成する単語がwで表される場合に、
前記固有部分抽出部が、前記出現頻度と前記共起頻度とを用いて、相互情報量I(w;w)を算出し、相互情報量I(w;w)を前記度合いの算出に利用する、上記(3)に記載のテキストマイニング装置。
(5)前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
当該テキストマイニング装置が、信頼度設定部を更に備え、
前記信頼度設定部は、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、上記(1)に記載のテキストマイニング装置。
(6)当該テキストマイニング装置が、マイニング処理部を更に備え、
前記マイニング処理部は、前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行する、上記(1)に記載のテキストマイニング装置。
(7)コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するためのテキストマイニング方法であって、
(a)前記複数のテキストデータそれぞれに信頼度を設定するステップと、
(b)前記(a)のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを有する、ことを特徴とするテキストマイニング方法。
(8)前記(b)のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された値に基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記(7)に記載のテキストマイニング方法。
(9)前記(b)のステップにおいて、
前記(a)のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、上記(8)に記載のテキストマイニング方法。
(10)二つのテキストデータに対して前記テキストマイニングが実行され、且つ、一方のテキストデータを構成する単語がw、他方のテキストデータを構成する単語がwで表される場合に、
前記(b)のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量I(w;w)を算出し、相互情報量I(w;w)を前記度合いの算出に利用する、上記(9)に記載のテキストマイニング方法。
(11)前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
前記(a)のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、
上記(7)に記載のテキストマイニング方法。
(12)前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、更に有する、上記(7)に記載のテキストマイニング方法。
(13)コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータ装置に、
(a)前記複数のテキストデータそれぞれに信頼度を設定するステップと、
(b)前記(a)のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップとを実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。
(14)前記(b)のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された値に基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記(13)に記載のコンピュータ読み取り可能な記録媒体。
(15)前記(b)のステップにおいて、
前記(a)のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータを構成する各単語の出現頻度を算出し、
更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、上記(14)に記載のコンピュータ読み取り可能な記録媒体。
(16)二つのテキストデータに対して前記テキストマイニングが実行され、且つ、一方のテキストデータを構成する単語がw、他方のテキストデータを構成する単語がwで表される場合に、
前記(b)のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量I(w;w)を算出し、相互情報量I(w;w)を前記度合いの算出に利用する、上記(15)に記載のコンピュータ読み取り可能な記録媒体。
(17)前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
前記(a)のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、上記(13)に記載のコンピュータ読み取り可能な記録媒体。
(18)前記プログラムが、前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、前記コンピュータに実行させる命令を更に含む、上記(13)に記載のコンピュータ読み取り可能な記録媒体。
1 テキストマイニング装置(実施の形態1)
2 データ入力部
3 音声認識部
4 信頼度設定部
5 言語処理部
6 固有部分抽出部
7 頻度算出部
8 スコア算出部
9 固有部分判定部
10 マイニング処理部
11 マイニング処理管理部
12 特徴語計数部
13 特徴度算出部
14 マイニング結果出力部
15 入力装置
16 出力装置
20 テキストマイニング装置(実施の形態2)
21 文字認識部
D1(l) 通話音声データ
D2(l) 通話メモテキストデータ
D3(l) 付帯情報
D4(l) 画像データ

Claims (18)

  1. コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
    前記複数のテキストデータそれぞれに信頼度が設定されており、
    前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記複数のテキストデータにおける、前記コンピュータ処理によって生成された各テキストデータの、前記コンピュータ処理によって生成されたテキストデータ以外の他のテキストデータに対する固有部分を抽出する、固有部分抽出部を備えている、ことを特徴とするテキストマイニング装置。
  2. 前記固有部分抽出部が、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記コンピュータ処理によって生成された各テキストデータについて、それを構成する各単語が、前記固有部分に該当する度合いを算出し、
    算出された値に基づいて、前記固有部分を抽出する、請求項1に記載のテキストマイニング装置。
  3. 前記固有部分抽出部が、
    前記複数のテキストデータそれぞれに設定された信頼度を用いて、それぞれを構成する各単語の出現頻度を算出し、
    更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
    前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、請求項2に記載のテキストマイニング装置。
  4. 前記コンピュータ処理によって生成されたテキストデータと前記他のテキストデータとの二つのテキストデータに対して前記テキストマイニングが実行され、且つ、前記コンピュータ処理によって生成されたテキストデータを構成する単語がw前記他のテキストデータを構成する単語がwで表される場合に、
    前記固有部分抽出部が、前記出現頻度と前記共起頻度とを用いて、相互情報量I(w;w)を算出し、相互情報量I(w;w)を前記度合いの算出に利用する、請求項3に記載のテキストマイニング装置。
  5. 前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
    当該テキストマイニング装置が、信頼度設定部を更に備え、
    前記信頼度設定部は、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、請求項1〜4のいずれかに記載のテキストマイニング装置。
  6. 当該テキストマイニング装置が、マイニング処理部を更に備え、
    前記マイニング処理部は、前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行する、請求項1〜5のいずれかに記載のテキストマイニング装置。
  7. コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを、コンピュータ装置によって実行するためのテキストマイニング方法であって、
    (a)前記複数のテキストデータそれぞれに信頼度を設定するステップと、
    (b)前記(a)のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記複数のテキストデータにおける、前記コンピュータ処理によって生成された各テキストデータの、前記コンピュータ処理によって生成されたテキストデータ以外の他のテキストデータに対する固有部分を抽出するステップとを有する、ことを特徴とするテキストマイニング方法。
  8. 前記(b)のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記コンピュータ処理によって生成された各テキストデータについて、それを構成する各単語が、前記固有部分に該当する度合いを算出し、
    算出された値に基づいて、前記固有部分を抽出する、請求項7に記載のテキストマイニング方法。
  9. 前記(b)のステップにおいて、
    前記(a)のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、それぞれを構成する各単語の出現頻度を算出し、
    更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
    その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、請求項8に記載のテキストマイニング方法。
  10. 前記コンピュータ処理によって生成されたテキストデータと前記他のテキストデータとの二つのテキストデータに対して前記テキストマイニングが実行され、且つ、前記コンピュータ処理によって生成されたテキストデータを構成する単語がw前記他のテキストデータを構成する単語がwで表される場合に、
    前記(b)のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量I(w;w)を算出し、相互情報量I(w;w)を前記度合いの算出に利用する、請求項9に記載のテキストマイニング方法。
  11. 前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
    前記(a)のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、
    請求項7〜10のいずれかに記載のテキストマイニング方法。
  12. 前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、更に、有する、請求項7〜11のいずれかに記載のテキストマイニング方法。
  13. コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムであって、
    前記コンピュータ装置に、
    (a)前記複数のテキストデータそれぞれに信頼度を設定するステップと、
    (b)前記(a)のステップで、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記複数のテキストデータにおける、前記コンピュータ処理によって生成された各テキストデータの、前記コンピュータ処理によって生成されたテキストデータ以外の他のテキストデータに対する固有部分を抽出するステップとを実行させる、プログラム。
  14. 前記(b)のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記コンピュータ処理によって生成された各テキストデータについて、それを構成する各単語が、前記固有部分に該当する度合いを算出し、
    算出された値に基づいて、前記固有部分を抽出する、請求項13に記載のプログラム。
  15. 前記(b)のステップにおいて、
    前記(a)のステップで前記複数のテキストデータそれぞれに設定された信頼度を用いて、それぞれを構成する各単語の出現頻度を算出し、
    更に、前記複数のテキストデータそれぞれに設定された信頼度を用いて、一のテキストデータを構成する単語とそれ以外のテキストデータを構成する単語との共起頻度を算出し、
    その後、前記出現頻度と前記共起頻度とを用いて、前記度合いを算出する、請求項14に記載のプログラム。
  16. 前記コンピュータ処理によって生成されたテキストデータと前記他のテキストデータとの二つのテキストデータに対して前記テキストマイニングが実行され、且つ、前記コンピュータ処理によって生成されたテキストデータを構成する単語がw前記他の他方のテキストデータを構成する単語がwで表される場合に、
    前記(b)のステップにおいて、前記出現頻度と前記共起頻度とを用いて、相互情報量I(w;w)を算出し、相互情報量I(w;w)を前記度合いの算出に利用する、請求項15に記載のプログラム。
  17. 前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
    前記(a)のステップにおいて、前記音声認識で得られるワードグラフに基づいて、前記音声認識によって生成されたテキストデータに前記信頼度を設定する、請求項13〜16のいずれかに記載のプログラム。
  18. 前記複数のテキストデータそれぞれの前記固有部分に対して、別々に前記テキストマイニングを実行するステップを、前記コンピュータに更に実行させる、請求項13〜17のいずれかに記載のプログラム。
JP2010526563A 2008-08-29 2009-08-28 テキストマイニング装置、テキストマイニング方法、及びプログラム Active JP5472640B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010526563A JP5472640B2 (ja) 2008-08-29 2009-08-28 テキストマイニング装置、テキストマイニング方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008222454 2008-08-29
JP2008222454 2008-08-29
PCT/JP2009/004210 WO2010023938A1 (ja) 2008-08-29 2009-08-28 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
JP2010526563A JP5472640B2 (ja) 2008-08-29 2009-08-28 テキストマイニング装置、テキストマイニング方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010023938A1 JPWO2010023938A1 (ja) 2012-01-26
JP5472640B2 true JP5472640B2 (ja) 2014-04-16

Family

ID=41721119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010526563A Active JP5472640B2 (ja) 2008-08-29 2009-08-28 テキストマイニング装置、テキストマイニング方法、及びプログラム

Country Status (3)

Country Link
US (1) US8751531B2 (ja)
JP (1) JP5472640B2 (ja)
WO (1) WO2010023938A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10339452B2 (en) 2013-02-06 2019-07-02 Verint Systems Ltd. Automated ontology development
US20150066506A1 (en) 2013-08-30 2015-03-05 Verint Systems Ltd. System and Method of Text Zoning
US9697246B1 (en) * 2013-09-30 2017-07-04 Verint Systems Ltd. Themes surfacing for communication data analysis
US10255346B2 (en) * 2014-01-31 2019-04-09 Verint Systems Ltd. Tagging relations with N-best
US9977830B2 (en) 2014-01-31 2018-05-22 Verint Systems Ltd. Call summary
US11030406B2 (en) 2015-01-27 2021-06-08 Verint Systems Ltd. Ontology expansion using entity-association rules and abstract relations
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
WO2020086580A1 (en) 2018-10-22 2020-04-30 Carlson William D Therapeutic combinations of tdfrps and additional agents and methods of use
US11769012B2 (en) 2019-03-27 2023-09-26 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
US10887552B1 (en) * 2020-07-01 2021-01-05 Vitalchat, Inc. Door-knocking for teleconferencing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026347A (ja) * 2005-07-21 2007-02-01 Nec Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
WO2007066704A1 (ja) * 2005-12-09 2007-06-14 Nec Corporation テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
WO2007138872A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP2008039983A (ja) * 2006-08-03 2008-02-21 Nec Corp テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5617488A (en) * 1995-02-01 1997-04-01 The Research Foundation Of State University Of New York Relaxation word recognizer
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
JP2001101194A (ja) 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
US6973428B2 (en) * 2001-05-24 2005-12-06 International Business Machines Corporation System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition
US7010515B2 (en) * 2001-07-12 2006-03-07 Matsushita Electric Industrial Co., Ltd. Text comparison apparatus
JP3955522B2 (ja) 2002-11-11 2007-08-08 株式会社ジャストシステム データ分析装置及び方法、並びにプログラム
JP2004178123A (ja) * 2002-11-26 2004-06-24 Hitachi Ltd 情報処理装置、該情報処理装置を実現するためのプログラム
US7346151B2 (en) * 2003-06-24 2008-03-18 Avaya Technology Corp. Method and apparatus for validating agreement between textual and spoken representations of words
US20050283357A1 (en) * 2004-06-22 2005-12-22 Microsoft Corporation Text mining method
US7461056B2 (en) * 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
KR100837751B1 (ko) * 2006-12-12 2008-06-13 엔에이치엔(주) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007026347A (ja) * 2005-07-21 2007-02-01 Nec Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
WO2007066704A1 (ja) * 2005-12-09 2007-06-14 Nec Corporation テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
WO2007138872A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP2008039983A (ja) * 2006-08-03 2008-02-21 Nec Corp テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Also Published As

Publication number Publication date
JPWO2010023938A1 (ja) 2012-01-26
US8751531B2 (en) 2014-06-10
US20110161368A1 (en) 2011-06-30
WO2010023938A1 (ja) 2010-03-04

Similar Documents

Publication Publication Date Title
JP5472640B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
US10515156B2 (en) Human-to-human conversation analysis
CN102906735B (zh) 语音流增强的笔记记录
US8086453B2 (en) Automatic detection and application of editing patterns in draft documents
US8750489B2 (en) System and method for automatic call segmentation at call center
US20140153709A1 (en) System And Method For Automatically Generating Adaptive Interaction Logs From Customer Interaction Text
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
WO2008015907A1 (fr) Dispositif, procédé et programme d'exploration de texte
JP5472641B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
WO2023124647A1 (zh) 一种纪要确定方法及其相关设备
CN112562684A (zh) 一种语音识别方法、装置和电子设备
JP5574842B2 (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
Tamura et al. Extractive summarization method for contact center dialogues based on call logs
US20230359826A1 (en) Computer-implemented system and method to perform natural language processing entity research and resolution
US20230062115A1 (en) Communication data log processing apparatus, communication data log processing method, and storage medium storing program
Boulis et al. The role of disfluencies in topic classification of human-human conversations
Ikbal et al. Intent focused summarization of caller-agent conversations
CN116504391A (zh) 一种智能人工诊后随访质控评估系统、方法及装置
CN118377812A (zh) 一种双录音视频文件质检方法及计算机可读存储介质
Takeuchi et al. Sentence boundary detection in conversational speech transcripts using noisily labeled examples
CN118101833A (zh) 一种呼叫中心客户画像方法和系统
Khosmood Increasing Efficiency In Video Transcription

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140121

R150 Certificate of patent or registration of utility model

Ref document number: 5472640

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150