JP5440815B2 - 情報分析装置、情報分析方法、及びプログラム - Google Patents

情報分析装置、情報分析方法、及びプログラム

Info

Publication number
JP5440815B2
JP5440815B2 JP2011519511A JP2011519511A JP5440815B2 JP 5440815 B2 JP5440815 B2 JP 5440815B2 JP 2011519511 A JP2011519511 A JP 2011519511A JP 2011519511 A JP2011519511 A JP 2011519511A JP 5440815 B2 JP5440815 B2 JP 5440815B2
Authority
JP
Japan
Prior art keywords
text
word
topic
score
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011519511A
Other languages
English (en)
Other versions
JPWO2010150464A1 (ja
Inventor
晃裕 田村
開 石川
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011519511A priority Critical patent/JP5440815B2/ja
Publication of JPWO2010150464A1 publication Critical patent/JPWO2010150464A1/ja
Application granted granted Critical
Publication of JP5440815B2 publication Critical patent/JP5440815B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、同一の事象が記述された2種類のテキストを用いて、特定のトピックに対する単語の出現度合いを推定するための統計的モデルを生成する、情報分析装置、情報分析方法、及びプログラムに関する。
近年、大量のテキストを分析するために、様々なテキスト分析方法が開発されている。そのうちの一つの分析方法では、分析対象となるテキストに含まれる各単語について、特定対象となるトピックにおける出現度合いを推定し、その結果を用いて分析が行われる(非特許文献1及び非特許文献2参照)。
例えば、非特許文献1は、新聞データを対象にしたテキスト分析方法を開示している。非特許文献1に開示のテキスト分析方法では、分析対象となる記事(テキスト)に含まれる各単語のトピックに対する出現度合いが推定され、該記事のトピックが同定される。
また、非特許文献2は、トピックセグメンテーションによるテキスト分析方法を開示している。非特許文献2に開示のテキスト分析方法では、トピックに対する単語の出現度合いがモデル化され、得られたモデルを用いて、複数のトピックを含むテキストを同じトピックの塊に分割するトピックセグメンテーションが行われる。
そして、非特許文献1及び非特許文献2のいずれにおいても、分析対象となるテキストに含まれる各単語の、特定対象となるトピックでの出現度合いは、教師データを用いて、該単語の該トピックでの出現頻度等の指標に基づき、統計的に求められる。ここで、教師データとしては、特定対象となるトピックに関して記述されたテキストや、特定対象となるトピック以外のトピックに関して記述されたテキストが挙げられる。具体的に述べると、教師データとしては、元となる事象が分析対象となるテキストと共通しているが、特定対象となるトピックについて、分析対象となるテキストとは異なるプロセスを経て作成されているテキストが挙げられる。
例えば、コールセンターにおいて、通話音声を音声認識した結果からテキストが得られているとする。このテキストにおいて元となる事象は、コールセンターでの通話である。また、コールセンターにおいては、多くの場合、オペレータは、通話から得られた情報を、応対メモという形で記録する。よって、音声認識から得られたテキストを分析対象とするのであれば、この応対メモの内、特定対象となるトピック(例えば、「コンピュータのPC故障状況」等)に関して記述された部分のテキストを、教師データとして捉える事ができる。
また、多数のトピックを含むニュース番組の原稿、又は番組での音声の音声認識の結果から得られたテキストが、分析対象となる場合を考える。この場合、ニュース番組と同一の日の新聞記事は、ニュース番組と同一の事件等に基づいて作成されている。よって、この場合は、該新聞記事の内、特定対象となるトピック(例えば、「経済」等)に該当する記事を、教師データとして捉える事ができる。
このように、分析対象となるテキストと、教師データとなるテキストとが存在する場合は、非特許文献1又は非特許文献2に開示されたテキスト分析方法を実行することができる。その結果、分析対象となるテキストデータ中の各単語の特定対象となるトピックでの出現度合いをモデル化することができ、統計的モデルの学習が可能となる。
横井謙太朗、河原達也、堂下修司著、「単語の共起情報を用いたニュース朗読音声の話題同定機構」、電子情報通信学会技術研究報告(SP、音声)、Vol.96、No.449、1997年、pp.71−78 Rui Amaral and Isabel Trancoso, "Topic Detection in Read Documents", In Proceedingsof 4th European Conference on Research and Advanced Technology for DigitalLibraries, 2000, pp.315-318.
ところで、一般に、分析対象となるテキストと教師データとなるテキストとで、使用される単語、及び使用される単語の傾向が異なる程、該教師データから生成した統計的モデルは、分析対象となるテキストの解析には適さなくなる。また、分析対象となるテキストと、教師データとなるテキストとで、使用される単語が異なる場合は多いと考えられる。そのため、上記非特許文献1及び非特許文献2に開示されたテキスト分析方法には、分析精度が低いという問題がある。
例えば、分析対象となるテキストが、コールセンターにおける通話音声を音声認識した結果から得られたテキストであり、教師データが、コールセンターでの通話から作成された応対メモの内の、特定対象となるトピックに関するテキストである場合を考える。この場合、応対メモは、オペレータが作成するものであり、応対メモには、殆どの場合、通話の情報が簡潔にまとめられた状態で記述されている。
そのため、応対メモのテキストが通話中で使用された単語と異なる場合は、多いと考えられる。また、応対メモのテキストに通話中の該トピックに対する情報が全て含まれていない場合も多いと考えられる。更に、応対メモに、オペレータの判断により、通話にはない該トピックに関する情報が書き加えられる場合もしばしば存在すると考えられる。
このように、分析対象となるテキストと、教師データとなるテキストとでは、多くの場合、使用される単語が異なり、更に、使用される単語の傾向も異なる。この場合、教師データから作成した統計的モデルによるテキスト分析では、分析対象となるテキストに含まれる単語の特定対象となるトピックでの出現度合いは、適切に推定されず、結果、上述するように、分析精度が低いという問題が生じてしまう。
本発明の目的は、上記問題を解消し、分析対象となるテキストと、教師データとなる特定のトピックについて記述されたテキストとの間で使用される単語が異なる場合であっても、分析対象となるテキスト中の単語の出現度合いを推定する統計的モデルにおける、推定精度の低下を抑制し得る、情報分析装置、情報分析方法、及びプログラムを提供する事にある。
上記目的を達成するため、本発明における情報分析装置は、分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成する情報分析装置であって、
前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、関連箇所特定部と、
前記関連箇所特定部によって特定された前記部分に含まれる単語を抽出する、潜在トピック語抽出部と、
前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成する、統計的モデル生成部とを備え、
前記統計的モデル生成部は、前記第二のテキストに含まれる単語、及び前記潜在トピック語抽出部によって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるように、前記統計的モデルを生成する、ことを特徴とする。
また、上記目的を達成するため、本発明における情報分析方法は、分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成するための方法であって、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を有する、ことを特徴とする。
更に、上記目的を達成するため、本発明におけるプログラムは、分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを、コンピュータによって生成するためのプログラムであって、
前記コンピュータに、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を実行させることを特徴とする。
以上の特徴により、本発明によれば、分析対象となるテキストと、教師データとなる特定のトピックについて記述されたテキストとの間で使用される単語が異なる場合であっても、分析対象となるテキスト中の単語の出現度合いを推定する統計的モデルの推定精度の低下を抑制できる。
図1は、本発明の実施の形態1における情報分析装置の構成を示すブロック図である。 図2は、本発明の実施の形態1における情報分析装置の動作を示すフロー図である。 図3は、本発明の実施の形態2における情報分析装置の構成を示すブロック図である。 図4は、本発明の実施の形態2における情報分析装置の動作を示すフロー図である。 図5は、本発明の実施の形態3における情報分析装置の構成を示すブロック図である。 図6は、本発明の実施の形態3における情報分析装置の動作を示すフロー図である。 図7は、実施例1で用いられる通話音声の認識結果の一例を示す図である。 図8は、実施例1で用いられる応対メモの一例を示す図である。 図9は、図7に示す認識結果を文単位でのセグメントに分割した場合の一例を示す図である。 図10は、図8に示す応対メモを文単位でのセグメントに分割した場合の一例を示す図である。 図11(a)は、図10に示した応対メモの形態素解析の結果を示す図であり、図11(b)及び図11(c)は、それぞれ、図9に示した認識結果の形態素解析の結果を示す図である。 図12(a)は、実施例1で得られた単語ベクトルの一例を示す図であり、図12(b)は、実施例1で用いられる次元と単語との割り当て表の一例を示す図である。 図13は、実施例1で実行された対応付け処理の結果の一例を示す図である。 図14は、実施例1で実行された対応付け処理の結果の他の例を示す図である。 図15は、実施例1によって得られる統計的モデルの一例を示す図である。 図16は、実施例1によって得られる統計的モデルの他の例を示す図である。 図17は、実施例2によって実行された係り受け解析の結果の一例を示す図である。 図18は、実施例3によって抽出された共通語の一例を示す図である。 図19は、予め作成された統計的モデルの一例を示す図である。 図20(a)は、図10に示した応対メモが英語で作成されている場合の形態素解析の結果を示す図であり、図20(b)及び図20(c)は、それぞれ、図7に示した会話が英語でなされたときの認識結果から得られる形態素解析の結果を示す図である。 図21(a)は、実施例1で得られた単語ベクトルの他の例を示す図であり、図21(b)は、実施例1で用いられる次元と単語との割り当て表の他の例を示す図である。 図22は、実施例2によって実行された係り受け解析の結果の他の例を示す図である。 図23は、本発明の実施の形態及び実施例におけるプログラムを実行可能なコンピュータを示すブロック図である。
(実施の形態1)
以下、本発明の実施の形態1における、情報分析装置、情報分析方法、及びプログラムについて、図1及び図2を参照しながら説明する。最初に、本実施の形態1における情報分析装置の構成について図1を用いて説明する。図1は、本発明の実施の形態1における情報分析装置の構成を示すブロック図である。
図1に示された、本実施の形態1における情報分析装置30は、分析対象となるテキスト(以下、「分析対象テキスト」という。)に含まれる各単語についての統計的モデルを生成する装置である。図1に示すように、情報分析装置30は、関連箇所特定部31と、潜在トピック語抽出部32と、統計的モデル生成部33とを備えている。
関連箇所特定部31は、分析対象テキストと、それと共に入力されるトピック関連テキストとを対比する。トピック関連テキストは、分析対象テキストと同一の事象について記載されたテキストであって、特定のトピックに関する情報(以下「トピック情報」という。)を含むテキストである。また、関連箇所特定部31は、対比の結果から、分析対象テキストにおけるトピック情報に関連している部分を特定する。
潜在トピック語抽出部32は、関連箇所特定部31によって特定された部分に含まれる単語を抽出する。統計的モデル生成部33は、分析対象テキストに含まれる各単語の特定のトピックでの出現度合いを推定する統計的モデルを生成する。そして、統計的モデル生成部33は、統計的モデルを生成する際、トピック関連テキストに含まれる単語及び潜在トピック語抽出部32によって抽出された単語についての、特定のトピックでの出現度合いが、他の単語についての出現度合いよりも高くなるようにする。
このように、情報分析装置30では、分析対象テキストにおける、トピック情報に関連しているとして特定された部分の単語は、特定のトピックに関する単語として捉えられ、そのことが反映された統計的モデルが作成されている。よって、分析対象テキストとトピック関連テキストとの間で使用される単語が異なる場合であっても、分析対象テキスト中の単語の出現度合いを推定する統計的モデルの推定精度の低下は、抑制されることになる。
また、統計的モデルの推定精度の低下が抑制される点について、更に詳細に述べる。先ず、分析対象テキストと、トピック関連テキストとは、同一の事象について記載されているため、トピック情報に関連している部分は、ほとんどの場合、分析対象テキストに存在していると考えることができる。
次に、トピック情報に関連している部分は、分析対象テキストにおいて、特定のトピックについて記述されている可能性が高く、この部分に含まれる単語を特定のトピックを示す単語として扱うことに何ら問題は生じないと考えられる。この結果、統計的モデルの作成に際して、トピック関連テキストには出現していないが、特定のトピックとの関連が強い単語が補完されることとなるので、推定精度の高い統計的モデルの生成が可能になる。
ここで、本実施の形態1における情報分析装置30の構成について更に具体的に説明する。本実施の形態1では、図1に示すように、情報分析装置30には、入力装置10と、出力装置20とが接続されている。また、情報分析装置30は、後述するように、プログラム制御によって動作するコンピュータによって実現されている。
入力装置10は、情報分析装置30に、分析対象テキスト及びトピック関連テキストを入力するための装置である。入力装置10の具体例としては、テキストデータを出力可能なキーボード等の機器、ネットワーク等を介してテキストデータを出力可能なコンピュータが挙げられる。
また、本実施の形態1では、入力装置10は、予め作成された、特定のトピックにおける単語の出現度合いを推定可能な統計的モデル、又は特定のトピックに関するトピック関連テキスト以外のテキストを情報分析装置30に入力する事もできる。なお、ここでいう統計的モデルとしては、例えば、単語と該単語の特定のトピックでの出現度合いとの組データが複数個登録されたリストが挙げられる。
また、本実施の形態1において、分析対象テキストとしては、例えば、コールセンターにおける通話音声を音声認識した結果から得られたテキストが挙げられる。この場合、トピック関連テキストとしては、コールセンターでの通話から作成された応対メモの内の、特定のトピック(例えば、「故障状況」等)に関するテキストが挙げられる。
出力装置20は、統計的モデル生成部33が生成した統計的モデルを取得し、取得した統計的モデルを、これを使用する装置へと出力(送信)する。出力装置20の具体例としては、ネットワーク等を介して接続されたコンピュータが挙げられる。また、出力装置20と入力装置10とは同一のコンピュータであっても良い。
また、図1に示すように、本実施の形態1では、関連箇所特定部31は、更に、セグメント分割部34と、対応付け部35とを備えている。セグメント分割部34は、分析対象テキストとトピック関連テキストとを、それぞれ、設定された処理単位であるセグメントへと分割する。具体的には、セグメント分割部34は、例えば、分割対象テキスト及びトピック関連テキストを、文毎、段落毎に分割する。また、例えば、これらのテキストが複数人の会話の内容を記載している場合は、更に、発話毎、話者毎に分割してもよい。
対応付け部35は、分析対象テキストとトピック関連テキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度を求める。そして、対応付け部35は、求めた類似度に基づき、分析対象テキストの各セグメントについて、トピック関連テキストのセグメントへの対応付けを行う。また、対応付け部35は、分析対象テキストの対応付けられたセグメントを、分析対象テキストにおけるトピック情報に関連している部分として特定する。
また、トピック関連テキストと分析対象テキストとは同一の事象について記載されているため、トピック関連テキストに含まれるトピック情報に関連する情報は、分析対象テキストに含まれている可能性が高いと考えられる。したがって、トピック関連テキストに含まれるトピック情報に関連する情報が、必ず、分析対象テキストに含まれているという仮定の下、本実施の形態1では、対応付け部35は、対応付けの際に、トピック関連テキストの各セグメントに、少なくとも一つの分析対象テキストのセグメントを対応付けるのが好ましい。
更に、本実施の形態1では、潜在トピック語抽出部32は、単語抽出部36を備えている。単語抽出部36は、分析対象テキストの対応付けられたセグメントに含まれる単語を抽出する。
本実施の形態1では、関連箇所特定部31を構成する対応付け部35は、更に、対応度スコアを算出することができる。対応度スコアは、分析対象テキストの特定された部分とそれが関連しているトピック情報との一致の程度を示す。具体的には、対応度スコアは、対応付けられた分析対象テキストのセグメントと、対応先のトピック関連テキストのセグメントとの内容の一致の程度を示す。
また、対応度スコアは、本実施の形態1では、一致の程度が高い程、値が高くなるように設定されている。そして、この対応度スコアが高いほど、分析対象テキストのセグメントは、対応先のトピック関連テキストのセグメントと内容が一致しているので、分析対象テキストのセグメントが特定のトピックに関する記述となる可能性は高くなる。
そのため、対応度スコアが高い箇所(セグメント)に含まれている単語ほど、その特定のトピックでの出現度合いが高まるように、対応度スコアの算出が行われていると捉える事ができる。このようにして算出される対応度スコアを用いれば、特定のトピックに深く関与する単語を優先的に考慮でき、推定精度の高い統計的モデルを生成する事ができる。したがって、関連箇所特定部31で対応度スコアを算出し、これを、潜在トピック語抽出部32を介して統計的モデル生成部33で利用する事は、推定精度の高い統計的モデルの生成に有効である。
更に、潜在トピック語抽出部32を構成する単語抽出部36は、抽出された単語がトピック情報に関連する程度を示すトピック関連スコアを算出することができる。トピック関連スコアは、本実施の形態1では、関連する程度が高い程、値が高くなるように設定される。また、潜在トピック語抽出部32は、単語抽出部36により抽出された単語の個数、又は関連箇所特定部31が算出した対応度スコアを入力として、トピック関連スコアを算出することができる。特に、対応度スコアが入力された場合は、潜在トピック語抽出部32は、対応度スコアが高い部分に存在する単語程、そのトピック関連スコアが高くなるように、その算出を行うのが良い。
また、トピック関連スコアは、上述したように、各単語が特定のトピックに関連する程度を示す。よって、トピック関連スコアが高い単語ほど、その特定のトピックでの出現度合いが高まるように、トピック関連スコアの算出が行われていると捉える事ができる。このようにして算出されたトピック関連スコアを用いれば、特定のトピックに深く関与する単語を優先的に考慮でき、推定精度の高い統計的モデルを生成する事ができる。したがって、潜在トピック語抽出部32で関連度スコアを算出し、統計的モデル生成部33で利用する事は推定精度の高い統計的モデルの生成に有効である。
更に、単語抽出部36がトピック関連スコアを算出する場合は、統計的モデル生成部33は、単語抽出部36によって抽出された単語の出現度合いが、対応するトピック関連スコアの値が高い程、高くなるように、統計的モデルを生成する。このように、トピック関連スコアを用いて統計的モデルを生成した場合は、統計的モデルの推定精度の更なる向上が図られる。なお、対応度スコア、トピック関連スコア、これらを用いた統計的モデルの具体例については、後述する実施例に示す。
次に、本実施の形態1における情報分析装置30の動作について図2を用いて説明する。図2は、本発明の実施の形態1における情報分析装置の動作を示すフロー図である。また、本実施の形態1においては、情報分析装置30を動作させることによって、本実施の形態1における情報分析方法が実施される。よって、本実施の形態1における情報分析方法の説明は、情報分析装置30の動作の説明に代える。また、以下の説明においては、適宜図1を参酌する。
図2に示すように、最初に、セグメント分割部34は、入力装置10からの分析対象テキスト及びトピック関連テキストの入力を受け付ける(ステップA1)。次に、セグメント分割部34は、分析対象テキスト及びトピック関連テキストを、処理単位であるセグメントに分割する(ステップA2)。ステップA2では、具体的には、セグメント分割部34は、上述したように、各テキストを、文毎、段落毎、発話毎、又は話者毎に分割する。
次に、対応付け部35は、トピック関連テキスト内の各セグメントに対して、該セグメントと内容が一致する(同じ情報を有する)分析対象テキスト内のセグメントを対応付け(ステップA3)、結果を出力する。具体的には、ステップA3では、対応付けは、上述した単語ベクトルによる類似度に基づいて行われている。ステップA3により、分析対象テキストの各セグメントは、トピック関連テキストのセグメントに対応付けられる。
本実施の形態1において、ステップA3では、「トピック関連テキスト内のセグメントの一部が、分析対象テキスト内のセグメントのどれにも対応付けられない」という結果が出力されていても良い。また、上述した「トピック関連テキストに含まれるトピック情報に関連する情報が、必ず、分析対象テキストに含まれる」という仮定に基づき、対応付け部35は、トピック関連テキストの各セグメントに、少なくとも一つの分析対象テキストのセグメントを対応付けても良い。更に、ステップA3では、対応付け部35は、上述した対応度スコアを算出し、対応度スコアを対応付けの結果と共に出力しても良い。
次に、潜在トピック語抽出部32は、関連箇所特定部31が出力した結果を受け取り、分析対象テキストの中で特定された部分に含まれる単語を抽出する(ステップA4)。ステップA4において抽出された単語は、特定のトピックに関する可能性が高い単語に相当する。
具体的には、ステップA4では、単語抽出部36が、ステップA3によって得られた対応付けの結果から、分析対象テキスト内のセグメントの内、トピック関連テキスト内のセグメントに対応付けられたセグメントを特定する。特定されたセグメントは、トピック関連テキストのトピック情報に関連する箇所であり、単語抽出部36は、特定されたセグメント内の単語を、特定のトピックに関する可能性が高い単語として抽出する。
また、単語抽出部36は、上述したトピック関連スコアを算出することができる。この場合、単語抽出部36は、抽出した単語と共に、各単語に対応するトピック関連スコアも出力する。
次に、統計的モデル生成部33は、入力装置10からトピック関連テキストを受け取り、潜在トピック語抽出部32からステップA4で得られた抽出結果を受け取る。そして、統計的モデル生成部33は、受け取った情報を用いて、分析対象テキスト内の各単語の特定のトピックに対する出現度合いを推定する統計的モデルを生成する(ステップA5)。また、ステップA5では、統計的モデル生成部33は、トピック関連テキストに含まれる単語及びステップA4で抽出された単語についての、特定のトピックでの出現度合いが、他の単語についての出現度合いよりも高くなるように統計的モデルを生成する。
ステップA5において、統計的モデル生成部33は、統計的モデルを生成する際、特定のトピックについて予め作成した別の統計的モデルを用いることもできる。また、統計的モデル生成部33は、生成対象となる統計的モデルを学習するために、トピック関連テキストとは別の教師データを使用することもできる。なお、これらの場合においても、統計的モデル生成部33は、トピック関連テキストに含まれる単語及びステップA4で抽出された単語についての、特定のトピックでの出現度合いが、他の単語についての出現度合いよりも高くなるように統計的モデルを生成する。
また、ステップA5で生成された統計的モデルは、分析対象テキスト内の単語を入力すると、入力された単語の、特定対象のトピックに関する出現度合いを出力するものである。更に、本実施の形態1において、出現度合いとしては、単語の出現のし易さを示す確率を用いることができ、この場合、出現度合いは、例えば、入力された単語が出現し易い程大きい値となり、出現し難い程小さい値となる。
その後、統計的モデル生成部33は、ステップA5で生成された統計的モデルを出力装置20へと出力する(ステップA6)。ステップA6の実行により、情報分析装置30における処理は終了する。なお、出力装置20は、統計的モデルを使用する他の装置に、取得した統計的モデルを出力する。他の装置では、統計的モデルを用いて、求める単語の出現度合いの算出が行われる。
また、本実施の形態1におけるプログラムは、コンピュータに、図2に示すステップA1〜A6を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールして実行することにより、本実施の形態1における情報分析装置30及び情報分析方法を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、関連箇所特定部31、潜在トピック語抽出部32、及び統計的モデル生成部33として機能し、処理を行なう。
以上のように本実施の形態1では、分析対象テキストと、トピック関連テキストとは、同一の事象について記述されているため、両者のセグメント間で対応付けられた部分同士は、同一の情報に関し、且つ、特定のトピックに関連している可能性が高いと考えられる。そして、この考えの下、トピック関連テキストのセグメントに対応付けられた分析対象テキストのセグメント中の単語は、特定のトピックに関して出現する単語として捉えられる。また、この単語の特定のトピックに対する出現度合いが高くなるように、統計的モデルが生成される。
このため、本実施の形態1によれば、トピック関連テキストに出現していないが、トピックに関連している単語が補完された状態で、統計的モデルが生成される。よって、トピック関連テキストと分析対象テキストとの間で、特定のトピックについて記載された部分が同一でなく、更に使用されている単語が異なっている場合でも、統計的モデルの推定精度の向上が図られる。
(実施の形態2)
次に、本発明の実施の形態2における、情報分析装置、情報分析方法、及びプログラムについて、図3及び図4を参照しながら説明する。最初に、本実施の形態2における情報分析装置の構成について図3を用いて説明する。図3は、本発明の実施の形態2における情報分析装置の構成を示すブロック図である。
図3に示された、本実施の形態2における情報分析装置130は、図1に示した実施の形態1における情報分析装置30と同様に、分析対象テキストに含まれる各単語についての統計的モデルを生成する装置である。
但し、本実施の形態2においては、実施の形態1と異なり、潜在トピック語抽出部132が、単語抽出部136に加えて、フィルタリング部137を備えている。フィルタリング部137は、関連箇所特定部131によって特定された部分から、特定のトピックに関連する可能性が特に高い単語を特定する。
具体的には、フィルタリング部137は、対応付けられた分析対象テキストのセグメントに含まれる単語の中から、一定の条件を満たす単語を特定する。一定の条件を満たす単語としては、下記の(1)〜(6)のいずれかに該当する単語が挙げられる。本実施の形態2においては、フィルタリング部137によって特定された単語が、最終的に潜在トピック語抽出部132によって抽出される単語に相当する。
(1)予め設定された種類の単語
(2)出現回数が予め設定された閾値以上となる単語
(3)共通語が位置する節の中に位置している単語
(4)共通語からの距離が予め定められた閾値以下となる単語
(5)共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語
(6)上記(1)〜(5)の単語のうち2以上に相当する単語
また、上記した共通語とは、関連箇所特定部131によって特定された部分と、トピック関連テキストのトピック情報とに同じ意味で出現している単語である。具体的には、共通語としては、関連箇所特定部131によって特定された部分に含まれる単語の内、トピック関連テキストのトピック情報を示す単語と、原形の表層及び品詞において一致する単語、同義語となる単語、又は類義語となる単語を用いることができる。
なお、上記した点以外については、情報分析装置130は、実施の形態1における情報分析装置30と同様に構成されている。つまり、セグメント分割部134、対応付け部135、及び単語抽出部136は、それぞれ、実施の形態1において図1に示した、セグメント分割部34、対応付け部35、及び単語抽出部36と同様に動作する。
また、統計的モデル生成部133は、フィルタリング部137の出力結果を利用する以外は、統計的モデル生成部33と同様に動作する。更に、本実施の形態2において利用される、入力装置110及び出力装置120は、実施の形態1で利用されている、入力装置10及び出力装置20と同様のものである。
次に、本実施の形態2における情報分析装置130の動作について図4を用いて説明する。図4は、本発明の実施の形態2における情報分析装置の動作を示すフロー図である。また、本実施の形態2においては、情報分析装置130を動作させることによって、本実施の形態2における情報分析方法が実施される。よって、本実施の形態2における情報分析方法の説明は、情報分析装置130の動作の説明に代える。また、以下の説明においては、適宜図3を参酌する。
図4に示すように、最初に、セグメント分割部134は、入力装置110からの分析対象テキスト及びトピック関連テキストの入力を受け付け(ステップB1)、これらを複数のセグメントに分割する(ステップB2)。なお、ステップB1及びB2は、それぞれ、図2に示したステップA1及びA2と同様のステップである。
次に、対応付け部135は、トピック関連テキスト内の各セグメントに対して、該セグメントと内容が一致する分析対象テキスト内のセグメントを対応付ける(ステップB3)。続いて、単語抽出部136が、トピック関連テキスト内のセグメントに対応付けられた分析対象テキスト内のセグメントから、それに含まれる単語を抽出する(ステップB4)。
なお、ステップB3及びB4は、それぞれ、図2に示したステップA3及びA4と同様のステップである。また、本実施の形態2においても、ステップB3において対応度スコア算出し、ステップB4においてトピック関連スコアを算出することもできる。
次に、フィルタリング部137は、ステップB4で抽出された単語の中から、特定のトピックに関連する可能性が特に高い単語、即ち、上述した(1)〜(6)のいずれかに該当する単語を特定する(ステップB5)。なお、ステップB5において、フィルタリング部137は、特定した単語と共に、ステップB4において算出したトピック関連スコアを統計的モデル生成部133に出力することもできる。また、ステップB5において、上述した(1)〜(6)の条件にしたがってトピック関連スコアを新たに算出し、統計的モデル生成部133に出力することもできる。
トピック関連スコアは、本実施の形態2においても、実施の形態1で述べたように、各単語が特定のトピックに関連する程度を示す。よって、トピック関連スコアが高い単語ほど、特定のトピックでの出現度合いが高まるように、その算出を行えば、特定のトピックに深く関与する単語を優先的に考慮でき、推定精度の高い統計的モデルを生成する事ができる。したがって、フィルタリング部137から関連度スコアを出力し、統計的モデル生成部133によって関連度スコアを利用する事は推定精度の高い統計的モデルの生成に有効である。
次に、統計的モデル生成部133は、入力装置110からトピック関連テキストを受け取り、潜在トピック語抽出部132(フィルタリング部137)からステップB5で得られた結果を受け取り、統計的モデルを生成する(ステップB6)。その後、統計的モデル生成部133は、ステップB6で生成された統計的モデルを出力装置120へと出力する(ステップB7)。ステップB7の実行により、情報分析装置130における処理は終了する。なお、ステップB6及びB7は、それぞれ、図2に示したステップA5及びA6と同様のステップである。
また、本実施の形態2におけるプログラムは、コンピュータに、図4に示すステップB1〜B7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールして実行することにより、本実施の形態2における情報分析装置130及び情報分析方法を実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、関連箇所特定部131、潜在トピック語抽出部132、及び統計的モデル生成部133として機能し、処理を行なう。
以上のように、本実施の形態2では、フィルタリング部137により、トピック関連テキストのセグメントに対応付けられた、分析対象テキストのセグメント中の単語の中から、特定のトピックに関連する可能性が特に高いものが特定される。そして、この特定された単語における特定のトピックに関する出現度合いが高くなるように、統計的モデルが生成される。このため、統計的モデルにおいて、特定のトピックへの関連性が低い単語の出現度合いは相対的に高くならないため、結果、本実施の形態2では、実施の形態1よりも、更に、統計的モデルの推定精度の向上が図られる。
(実施の形態3)
次に本発明の実施の形態3における、情報分析装置、情報分析方法、及びプログラムについて、図5及び図6を参照しながら説明する。最初に、本実施の形態3における情報分析装置の構成について図5を用いて説明する。図5は、本発明の実施の形態3における情報分析装置の構成を示すブロック図である。
図5に示された、本実施の形態3における情報分析装置230は、図1に示した実施の形態1における情報分析装置30と同様に、分析対象テキストに含まれる各単語についての統計的モデルを生成する装置である。
但し、本実施の形態3においては、実施の形態1と異なり、情報分析装置230は、共通語抽出部237を備えている。また、統計的モデル生成部233は、図1に示された統計的モデル生成部33と異なり、共通語抽出部237からの出力結果も用いて統計的モデルを生成する。
共通語抽出部237は、関連箇所特定部231によって特定された部分と、トピック関連テキストのトピック情報とから、これらに共通の意味で出現している共通語を抽出する。本実施の形態3において、共通語は、実施の形態2で述べた共通語と同義である。具体的には、共通語抽出部237は、先ず、トピック関連テキストのトピック情報を示す単語を特定する。次に、共通語抽出部237は、特定した単語の中から、対応付けられた分析対象テキストのセグメントに含まれる単語と、原形の表層及び品詞において一致する単語、同義語となる単語、又は類義語となる単語を更に特定する。そして、共通語抽出部237は、最終的に特定した単語を共通語として抽出する。
また、統計的モデル生成部233は、特定のトピックにおいて、トピック関連テキストに含まれる単語、及び潜在トピック語抽出部232によって抽出された単語それぞれの出現度合いが、これら以外の単語の出現度合いよりも高くなるように、統計的モデルを生成する。更に、本実施の形態3では、統計的モデル生成部233は、共通語抽出部237で特定された共通語の出現度合いが、トピック関連テキストに含まれる共通語以外の単語の出現度合いよりも高くなるようにもして、統計的モデルを生成する。
また、共通語抽出部237は、記載スコアを算出することができる。記載スコアは、抽出された共通語が、分析対象テキストにおける特定のトピックに関する部分で、使用されている可能性を示す数値である。記載スコアは、使用されている可能性が高い程、値が高くなるように設定されている。更に、この場合、統計的モデル生成部233は、抽出された共通語の特定のトピックでの出現度合いが、対応する記載スコアの値が高い程、高くなるように、統計的モデルを生成する。
共通語抽出部237は、共通単語抽出部237により抽出された単語の個数や、関連箇所特定部231が算出した対応度スコアを入力として、記載スコアを算出することができる。また、上述したように、対応度スコアは、分析対象テキストのセグメントと、対応先のトピック関連テキストのセグメントとの内容の一致の程度を示し、一致の程度が高い程、値が高くなる。従って、対応度スコアが高い箇所に含まれている単語ほど、特定のトピックに関する記述となっている可能性が高くなる。そのため、対応度スコアが入力された場合は、対応度スコアが高い部分に存在する共通語程、記載スコアが高くなるように、その算出を行うのが好ましい。この場合、記載スコアは、分析対象テキストにおける特定のトピックに関する部分で使用されている可能性を表すスコアとして適切なものとなる。
なお、上記した点以外については、情報分析装置230は、実施の形態1における情報分析装置30と同様に構成されている。つまり、セグメント分割部234、対応付け部235、及び単語抽出部236は、それぞれ、実施の形態1において図1に示した、セグメント分割部34、対応付け部35、及び単語抽出部36と同様に動作する。
また、統計的モデル生成部233は、共通語抽出部237の出力結果を利用する以外は、統計的モデル生成部33と同様に動作する。更に、本実施の形態3において利用される、入力装置210及び出力装置220は、実施の形態1で利用されている、入力装置10及び出力装置20と同様のものである。
次に、本実施の形態3における情報分析装置230の動作について図6を用いて説明する。図6は、本発明の実施の形態3における情報分析装置の動作を示すフロー図である。また、本実施の形態3においては、情報分析装置230を動作させることによって、本実施の形態3における情報分析方法が実施される。よって、本実施の形態3における情報分析方法の説明は、情報分析装置230の動作の説明に代える。また、以下の説明においては、適宜図5を参酌する。
図6に示すように、最初に、セグメント分割部234は、入力装置210からの分析対象テキスト及びトピック関連テキストの入力を受け付け(ステップC1)、これらを複数のセグメントに分割する(ステップC2)。なお、ステップC1及びC2は、それぞれ、図2に示したステップA1及びA2と同様のステップである。
次に、対応付け部235は、トピック関連テキスト内の各セグメントに対して、該セグメントと内容が一致する分析対象テキスト内のセグメントを対応付ける(ステップC3)。続いて、単語抽出部236が、トピック関連テキスト内のセグメントに対応付けられた分析対象テキスト内のセグメントから、それに含まれる単語を抽出する(ステップC4)。
なお、ステップC3及びC4は、それぞれ、図2に示したステップA3及びA4と同様のステップである。また、本実施の形態3においても、ステップC3において対応度スコア算出することもできるし、ステップC4においてトピック関連スコアを算出することもできる。
次に、共通語抽出部237は、ステップC3で解析された、分析対象テキストとトピック関連テキストとの対応付けの結果を受け取り、トピック関連テキストのトピック情報を示す単語の中から、共通語を抽出する(ステップC5)。
また、ステップC5においては、共通語抽出部237は、記載スコアを算出することができる。この場合、共通語抽出部237は、抽出した共通語と記載スコアとを共に、統計的モデル作成部233に出力することができる。また、本実施の形態3においては、ステップC4とステップC5とは、同時に実行されていても良いし、ステップC5の実行後にステップC4が実行されても良い。ステップC4とステップC5との間での実行順序は特に限定されるものではない。
次に、統計的モデル生成部233は、入力装置210から、トピック関連テキストを受け取り、潜在トピック語抽出部232から、ステップC4で抽出された単語を受け取り、共通語抽出部237から、ステップC5で抽出された共通語を受け取る。そして、トピックモデル生成部233は、これらを用いて、統計的モデルを生成する(ステップC6)。
また、ステップC6では、統計的モデル生成部233は、特定のトピックにおいて、トピック関連テキストに含まれる単語、及びステップC4で抽出された単語それぞれの出現度合いが、他の単語についての出現度合いよりも高くなるように統計的モデルを生成する。また、このとき、統計的モデル生成部233は、ステップC5で抽出された共通語の出現度合いは、トピック関連テキストに含まれる共通語以外の単語の出現度合いよりも高くなるようにもして、統計的モデルを生成する。
また、ステップC6では、ステップA5同様、統計的モデル生成部233は、統計的モデルを生成する際、特定のトピックについて予め作成した別の統計的モデルを用いることもできる。また、統計的モデル生成部233は、生成対象となる統計的モデルを学習するために、トピック関連テキストとは別の教師データを使用することもできる。なお、これらの場合でも、統計的モデル生成部233は、トピック関連テキストに含まれる単語及びステップC4で抽出された単語についての、特定のトピックでの出現度合いが、他の単語についての出現度合いよりも高くなるように、統計的モデルを生成する。更に、このとき、統計的モデル生成部233による統計的モデルの生成は、ステップC5で抽出された共通語の出現度合いが、トピック関連テキストに含まれる共通語以外の単語の出現度合いよりも高くなるようにも行われる。
その後、統計的モデル生成部233は、ステップC6で生成された統計的モデルを出力装置220へと出力する(ステップC7)。ステップC7の実行により、情報分析装置230における処理は終了する。なお、ステップC7は、それぞれ、図2に示したステップA6と同様のステップである。
また、本実施の形態3におけるプログラムは、コンピュータに、図6に示すステップC1〜C7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールして実行することにより、本実施の形態3における情報分析装置230及び情報分析方法を実現することができる。この場合、コンピュータのCPU(Central Processing
Unit)は、関連箇所特定部231、潜在トピック語抽出部232、統計的モデル生成部233、及び共通語抽出部237として機能し、処理を行なう。
ところで、トピック関連テキストに含まれる単語が、分析対象テキスト内の特定のトピックについて記述された部分以外の部分で使用されている場合が存在する。この場合、該単語がトピック関連テキストに含まれているため、分析対象テキスト内の該単語の特定トピックでの出現度合いは、実際よりも高い値となり、統計的モデルの推定精度が低下する可能性がある。
これに対して、本実施の形態3では、共通語抽出部237により、共通語が抽出され、そして、統計的モデル生成部233は、共通語の出現度合いが高められるように統計的モデルを生成する。このため、本実施の形態3によれば、上記場合が存在していても、分析対象テキスト内の特定のトピックについて記述された部分以外で使用されている単語の出現度合いは、分析対象テキスト内の特定のトピックについて記述された部分で使用された単語(共通語)のそれに比べ、相対的に低くなる。この結果、本実施の形態3では、分析対象テキストに含まれる単語の出現度合いの値が不正確となるのが抑制される。
また、本実施の形態3において、情報分析装置230は、図3に示されたフィルタリング部137を備えることができる。この場合は、図6に示したステップC4の後、又はステップC5と並列して、図4に示したステップB5と同様のステップが実行される。この結果、情報分析装置230において、実施の形態2で述べた効果が得られることとなる。
(実施例1の動作)
以下、図7〜図16、図19を参照しながら、実施の形態1における情報分析装置及び情報分析方法の具体的な実施例を説明する。また、以下においては、図2に示したフロー図に沿って、実施の形態1におけるテキスト処理装置の動作を説明する。なお、適宜、図1も参酌する。
図7は、実施例1で用いられる通話音声の認識結果の一例を示す図である。図8は、実施例1で用いられる応対メモの一例を示す図である。実施例1では、分析対象テキストは、図7に示すように、コールセンターにおける通話音声を音声認識することによって得られた音声認識テキストである。また、トピック関連テキストは、図8に示すように、図7に示す音声認識テキストの認識の元となった通話から作成された応対メモにおける、「故障状況」の欄に記載されたテキストである。更に、実施例1では、特定のトピックは、図8に示す応対メモの「故障状況」の欄の元となったトピックに設定されている。
また、図7及び図8に示すように、分析対象テキストとトピック関連テキストとは、同一の事象について記載されているため、分析対象テキストには、トピック関連テキストに関連した部分が存在している事が殆どである。そして、分析対象テキストにおいて、トピック関連テキストに関連した部分は、特定のトピックに関する部分である。
但し、分析対象テキストとトピック関連テキストとにおいて、関連する部分同士は同一ではなく、使用される単語も異なっている。例えば、図7に示す分析対象テキストの「故障状況」にあたる部分で使用されている、単語「ガタガタ」、単語「音」、及び単語「エラー」は、図8に示すトピック関連テキストでは使用されていない。
以下、本実施例1では、図7に示す音声認識テキスト(受付ID=311)内の各単語について、図8に示す応対メモの「故障状況」というトピックに対する出現度合いを推定する、統計的モデルを生成する過程を挙げて説明する。
[ステップA1]
まず、入力装置10は、通話の音声認識テキストを分析対象テキストとして、また、元となった通話から作成された応対メモの特定のトピック「故障状況」に記載されたテキストをトピック関連テキストとして、情報分析装置30に入力する。これにより、セグメント分割部34は、入力装置10からの分析対象テキスト及びトピック関連テキストの入力を受け付ける。
また、本実施例では、情報分析装置30は、入力装置10から、図19に示す、予め作成された統計的モデルの入力を受け付けることができる。図19は、予め作成された統計的モデルの一例を示す図である。図19に示す統計的モデルは、特定のトピックにおける単語の出現度合いを推定する統計的モデルである。また、図19に示すように、この統計的モデルは、表形式のデータで構成されており、単語と該単語の特定のトピックでの出現度合いとの組データのリストを有している。更に、本実施例では、情報分析装置30は、入力装置10から、トピック関連テキスト以外の、特定のトピックに関するテキストの入力も受け付けることができる。前記テキストとしては、例えば、受付IDが311のテキスト以外のテキストであって、応対メモ内の故障状況部分にあるテキストが挙げられる。
続いて、関連箇所特定部31は、入力された分析対象テキストから、トピック関連テキストに記述されたトピック情報に関連して記述された部分を特定する(ステップA2、A3)。
[ステップA2]
具体的には、セグメント分割部34は、分析対象テキスト及びトピック関連テキストを、分析の処理単位であるセグメントに分割する。例えば、分析単位のセグメントが文である場合、文のセパレータが予め定められているので、セグメント分割部34は、そのセパレータ間を一つのセグメントとして分割する。
図7及び図8に示すテキストを、「。」と「?」とをセパレータとして分割した場合は、セグメント分割の結果は、それぞれ図9及び図10に示す通りとなる。図9は、図7に示す認識結果を文単位でのセグメントに分割した場合の一例を示す図である。図10は、図8に示す応対メモを文単位でのセグメントに分割した場合の一例を示す図である。
また、セグメント分割部34は、分割対象となるテキストが音声認識テキストである場合は、音声認識エンジンによる無音区間の検出の結果等を利用して、セグメントへの分割を行うことができる。また、この場合は、セグメント分割部34は、出力される発話を単位として、分割を行うこともできる。
更に、セグメント分割部34は、分割対象となるテキストが備える情報を用いてセグメント分割を行うこともできる。例えば、図7に示すように、音声認識テキストにおいて、対話の話者を特定できる場合、セグメント分割部34は、同一話者の部分を一つのセグメントとして分割してもよい。なお、図7においては、表の区切りが同一話者による発話に相当する。
また、セグメント分割部34は、予め、テキストが、段落等によって、明示的、且つ形式的な塊に分割されている場合は、各塊を各セグメントとして捉えて、分割を行うこともできる。なお、本発明において、セグメントの単位は、ユーザが任意に指定することもでき、実施の形態1及び本実施例1に記述された単位以外であっても良い。
[ステップA3]
続いて、対応付け部35は、トピック関連テキスト内の各セグメントに対して、該セグメントと同じ情報を持つ分析対象テキスト内のセグメントを対応付ける。ここで、図10に示すトピック関連テキスト内のセグメントID=3に対して、図9に示す分析対象テキスト内のセグメントから、同じ情報を持つセグメントを対応付ける処理を例に取り、図11を用いて、以下に説明する。図11(a)は、図10に示した応対メモの形態素解析の結果を示す図であり、図11(b)及び図11(c)は、それぞれ、図9に示した認識結果の形態素解析の結果を示す図である。
先ず、対応付け部35は、トピック関連テキスト内のセグメントID=3及び分析対象テキスト内の各セグメントに対して形態素解析を実行する。トピック関連テキスト内のセグメントID=3及び分析対象テキスト内のセグメントの一部の形態素解析の結果を、図11(a)〜図11(c)に示す。なお、図11(a)〜(c)は、会話が日本語でなされており、トピック関連テキストも日本語で作成されている場合を示している。
次に、対応付け部35は、形態素の内、自立語を用いて、一形態素がベクトルの一次元に対応し、全形態素数がベクトルの次元数となるベクトルを生成する。具体的には、対応付け部35は、図12(b)に示す、次元と単語との割り当て表を用いて、セグメント毎に、例えば、図12(a)に示す単語ベクトルを生成する。このとき、対応付け部35は、次元と単語との割当表で次元が設定された形態素が、各セグメントを構成する形態素に存在している場合は、対応する次元の要素の値を1とし、存在していない場合は、対応する次元の要素の値を0とする。図12(a)は、実施例1で得られた単語ベクトルの一例を示す図であり、図12(b)は、実施例1で用いられる次元と単語との割り当て表の一例を示す図である。
次に、対応付け部35は、生成したトピック関連テキストのセグメントの単語ベクトルと分析対象テキスト内の各セグメントの単語ベクトルとのコサイン類似度を算出する。例えば、上記したID=3(トピック関連テキスト)とID=31(分析対象テキスト)とのコサイン類似度cosine(ID=3,ID=31)は下記の数1の通りとなる。また、ID=3とID=34(分析対象テキスト)とのコサイン類似度は、下記の数2の通りとなる。
Figure 0005440815
Figure 0005440815
また、会話が英語でなされており、トピック関連テキストも英語で作成されている場合は、応対メモの形態素解析の結果、及び認識結果から得られる形態素解析の結果は、図20(a)〜(c)に示す通りとなる。図20(a)は、図10に示した応対メモが英語で作成されている場合の形態素解析の結果を示す図であり、図20(b)及び図20(c)は、それぞれ、図7に示した会話が英語でなされたときの認識結果から得られる形態素解析の結果を示す図である。
更に、会話が英語でなされており、トピック関連テキストも英語で作成されている場合は、図21(b)に示す割り当て表が用いられ、図21(a)に示す単語ベクトルが作成される。図21(a)は、実施例1で得られた単語ベクトルの他の例を示す図であり、図21(b)は、実施例1で用いられる次元と単語との割り当て表の他の例を示す図である。また、単語ベクトルが図21(a)に示す例となる場合、コサイン類似度cosine(ID=3,ID=31)の値は0(ゼロ)となり、コサイン類似度cosine(ID=3,ID=34)の値は0.87となる。
次に、対応付け部35は、算出したコサイン類似度が閾値以上である場合に、この場合の分析対象テキストのセグメントとトピック関連テキストのセグメントとを対応付ける。これにより、対応付け部35での処理が実現される。なお、閾値は、例えば、教師データや予備実験等を用いて、予め設定される。
ここで、上述した処理による結果の例を図13に示す。図13は、実施例1で実行された対応付け処理の結果の一例を示す図である。図13において、トピック関連テキストのセグメントIDの下段にあるIDが、対応付けられた分析対象テキストのセグメントIDである。また、対応付けられた分析対象テキストのセグメントは一つに限らず、複数個が一つのトピック関連テキストのセグメントに対応付けられていても良い。なお、図13において、「×」は、分析対象テキスト内のいずれのセグメントも対応付けられていないことを示している。
また、本実施例1においては、実施の形態1で述べたように、分析対象テキストとトピック関連テキストとは、同一事象について記載されているという特徴がある。よって、本実施例1では、対応付け部35が、この特徴に基づき、対応付けの際に、トピック関連テキストの各セグメントに、少なくとも一つの分析対象テキストのセグメントを対応付ける、といった制約が設定されていても良い。この場合は、上述したコサイン類似度が閾値以下にしかならない、トピック関連テキストのセグメントであっても、コサイン類似度が最も高くなる分析対象テキストのセグメントに対応付けられる。これにより、対応する分析対象テキストのセグメントが存在するにも拘わらず、使用されている単語の異なりが多く、コサイン類似度が低いために、トピック関連テキストのセグメントが、分析対象テキスト内のどのセグメントにも対応付けられない、といった誤った事態の発生が抑制される。
更に、対応付け部35は、対応付けの結果と共に、図14に示す「対応度スコア」を出力することもできる。対応度スコアは、分析対象テキスト内のセグメントとトピック関連テキスト内のセグメントとが、互いにどの程度対応付いているかという内容の一致度を表している。本実施例1では、例えば、「対応度スコア」として、コサイン類似度が用いられている。図14は、実施例1で実行された対応付け処理の結果の他の例を示す図である。
また、分析対象テキストとトピック関連テキストとは同一の事象について記載されているため、殆どの場合、分析対象テキストには、トピック関連テキストに関連した部分が、存在していると考えられる。よって、同一の情報に関するセグメント同士の対応付けは、一般的なセグメント間のアライメントによって行うことも可能であると考えられる。従って、対応付け部35の他の例として、従来からのアライメント処理を実行可能な対応付け部35も挙げられる。
例えば、従来からのアライメント処理の例の一つが、下記の参考文献1に記載されている。参考文献1に開示のアライメント処理において、分析対象テキストのセグメントと、トピック関連テキストのセグメントとを入力とすれば、対応付けが実現できる。また、参考文献1に開示のアライメント処理では、二つのセグメントに対するアライメントスコア(値が高い程、二つのセグメントの対応の度合いが高いことを示すスコア)が計算され、得られた値に基づいて、アライメントが実行される。従って、対応付け部35によってアライメント処理が実行されるのであれば、アライメントスコアが「対応度スコア」として用いられていても良い。
(参考文献1)
R. Barzilay and N. Elhadad, “Sentence
Alignment for Monolingual Comparable Corpora”, In
Proceedings of the Conference on Empirical Methods in NaturalLanguage
Processing (EMNLP 2003), pp.25-32, 2003.
[ステップA4]
続いて、潜在トピック語抽出部32(単語抽出部36)は、関連箇所特定部31からの結果を受け取り、分析対象テキストの中でトピック関連テキストに関連付けられた箇所から、特定のトピックに関連する可能性が高い単語を抽出する。具体的には、単語抽出部36は、ステップA3によって得られた、分析対象テキストのトピック関連テキストへの対応付けの結果を受け取る。そして、単語抽出部36は、分析対象テキスト内のセグメントの内、トピック関連テキスト内のセグメントに対応付けられたセグメントを、トピック関連テキストとの関連箇所として特定する。次いで、単語抽出部36は、特定したセグメント内の単語を、特定のトピックに関連する可能性が高い単語として抽出する。
ここで、本実施例1における単語抽出部36の動作を、入力されたデータに応じて場合分けして説明する。先ず、単語抽出部36に、トピック関連テキストの各セグメントに対応付けられた、分析対象テキストのセグメントのみが、入力された場合について説明する。具体的には、図13に示した、対応付け処理の結果が入力される。
最初に、単語抽出部36は、トピック関連テキスト内のセグメントに対応付けられた、分析対象テキスト内のセグメントを特定する。図13の例では、単語抽出部36は、セグメントID=30、31、33、及び34を特定する。そして、単語抽出部36は、セグメントID=30、31、33、及び34のテキスト中の単語を抽出する。
また、このとき、単語抽出部36は、形態素解析の結果に基づいて、単語を抽出する。例えば、図13に示したセグメントID=31を例にとると、図11(b)に示した形態素解析の結果より、11種類の単語が抽出される。この単語は、特定のトピックに関連する可能性が高いと考えられる。なお、英語の場合は、図20(b)に示した形態素解析の結果より、12種類の単語が抽出される。
そして、単語抽出部36は、抽出した単語を出力するが、このとき、抽出した単語と共に、抽出した単語が特定のトピックに関連する可能性を表す「トピック関連スコア」を出力することもできる。関連箇所特定部31により特定されたセグメントは、トピック情報に関連して記述された部分であるので、該部分に多く含まれる単語程、その単語の特定のトピックに対する関連度合いは高いと考えられる。従って、トピック関連スコアとしては、例えば、抽出された単語毎に設定され、抽出された個数が多ければ多いほど、値が高くなるようなスコアが挙げられる。
トピック関連スコアを各単語の抽出個数とすると、「昨日(名詞−副詞可能)」(yesterday ; noun)は、トピック関連テキストのセグメントIDが2、分析対象テキストのセグメントIDが31の場合に抽出されている。抽出されているセグメントの組は一つであるので、トピック関連スコアは「1」となる。なお、このような場合は、以下、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(2,31)と表す。
また、「表示(名詞−サ変接続)」(displayed ; verb-past participle)は、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(3,33),(3,34)で抽出される。抽出されているセグメントの組は二つであるので、トピック関連スコアは「2」となる。
次に、単語抽出部36に、トピック関連テキストの各セグメントに対応付けられたセグメントと、対応度スコアとが入力された場合について説明する。具体的には、図14に示した、対応度スコアが付与された対応付け処理の結果が入力される。
なお、この場合においても、単語抽出部36は、上記の対応度スコアが入力されなかった例と同様に、セグメントを特定し、特定したセグメントから単語を抽出する。また、単語抽出部36は、抽出した単語のみを出力しても良いし、抽出した単語と共に、トピック関連スコアを出力しても良い。更に、この場合のトピック関連スコアとしても、上述した、抽出された単語毎に設定され、抽出された個数が多ければ多いほど、値が高くなるスコアを用いることができる。
また、単語抽出部36は、例えば、各単語について、該単語を含むセグメント同士に付与されている対応度スコアの和を求め、これをトピック関連スコアとしても良い。例えば、「昨日(名詞−副詞可能)」(yesterday ; noun)は、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(2,31)で抽出されるので、トピック関連スコアは「0.6」となる。
更に、「表示(名詞−サ変接続)」(displayed ; verb-past participle)は、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(3,33)、(3,34)で抽出されるので、トピック関連スコアは「1.1」(=0.4+0.7)となる。
また、単語抽出部36は、各単語について、該単語を含む対応付けられたセグメント同士に付与されている対応度スコアのうち、最大値を求め、求めた最大値を該単語のトピック関連スコアとして扱うこともできる。この場合、「昨日(名詞−副詞可能)」(yesterday ; noun)のトピック関連スコアは「0.6」となる。また、「表示(名詞−サ変接続)」(displayed ; verb-past participle)のトピック関連スコアは「0.7」(=max(0.4,0.7))となる。
[ステップA5]
続いて、統計的モデル生成部33は、入力装置10から、トピック関連テキストを受け取り、潜在トピック語抽出部32から、ステップA4の抽出結果を受け取る。そして、統計的モデル生成部33は、これらを用いて、分析対象テキスト内の各単語の特定のトピックに対する出現度合いを推定する統計的モデルを生成する。この時、統計的モデル生成部33は、トピック関連テキスト内の単語及びステップA4で抽出された単語に対して、特定のトピックでの出現度合いが高まるように、統計的モデルを生成する。
具体的には、統計的モデル生成部33は、例えば、以下の数3によって、各単語に対する特定のトピックでの出現度合いが与えられる、統計的モデルを構築する。
Figure 0005440815
ここで、上記数3において、wは単語、tは特定のトピック、P(t|w)は単語wの特定のトピックtでの出現確率を示す。また、Ptopic(w)は、単語wのトピック関連スコアを0以上1以下に正規化することによって得られた値である。なお、統計的モデル生成部33の入力にトピック関連スコアが与えられなかった場合では、Ptopic(w)は、単語wがステップA4で抽出された単語リストに出現している場合に1となり、出現しなかった場合に0となる。
Exist(w)は、単語wのトピック関連テキストでの出現状況を表す。具体的には、Exist(w)としては、例えば、単語wがトピック関連テキストに出現した回数を用いることができる。また、Exist(w)としては、例えば、単語wがトピック関連テキストに出現した場合に1、出現しなかった場合に0とする値を用いることができる。
また、上記のトピック関連スコアの正規化は、例えば、次の処理により実現できる。まず、トピック関連スコアに負の値があった場合は、各トピック関連スコアに最小のトピック関連スコアを加算し、全てのトピック関連スコアを0以上の値にする。そして、全てのトピック関連スコアを0以上の値にする補正の後に、各トピック関連スコアを、補正後のトピック関連スコアの最大の値で除算することにより、0以上1以下への正規化が実現できる。
よって、上記数3によって出現度合いが与えられる統計的モデルを生成すれば、トピック関連テキスト及びステップA4で抽出した単語リストに出現する単語における、特定のトピックでの出現度合いが高くなる統計的モデルが生成される。
また、本実施例1では、統計的モデル生成部33は、統計的モデルを生成する際、予め作成された、特定のトピックについての既存の統計的モデルを使用することもできる。つまり、統計的モデル生成部33は、既定の統計的モデルで定められている各単語の特定のトピックでの出現度合いを補正する事で、分析対象テキスト内の各単語の特定のトピックに対する出現度合いを推定する統計的モデルを生成することもできる。このような既存の統計的モデルとしては、例えば、単語を入力とした場合に、該単語が特定のトピックに出現する度合いとして、出現の確率を出力する、統計的モデルが挙げられる。具体的には、このような統計的モデルを使用する場合は、統計的モデル生成部33は、例えば、以下の数4を用いて、特定のトピックでの出現度合いを変更する事により、統計的モデルを生成する。
Figure 0005440815
ここで、上記数4において、w、t、Exist(w)、及びPtopic(w)の定義は、上記数3における定義と同じである。また、Pold(t|w)は、入力として与えられた既存の統計的モデルで定義されている、単語wの特定のトピックtにおける出現確率wを示す。Pnew(t|w)は、補正後の単語wの特定のトピックtにおける出現確率を示す。
また、本実施例1では、既存の統計的モデルは、例えば、単語を入力とした場合に、該単語が特定のトピックに出現する度合いとして、出現し易い単語ほど値が大きくなり、出現し難い単語ほど値が小さくなるスコアを出力しても良い。このような統計的モデルを使用する場合、統計的モデル生成部33は、例えば、以下の数5を用いて、特定のトピックに対する出現度合いを変更する事により、統計的モデルを生成する。
Figure 0005440815
ここで、上記数5において、w、t、及びExist(w)の定義は、上記数3における定義と同じである。また、SCtopic(w)は、単語wのトピック関連スコア、又は単語wのトピック関連スコアを0以上1以下に正規化することによって得られた値である。なお、統計的モデル生成部33の入力にトピック関連スコアが与えられなかった場合では、SCtopic(w)は、単語wが、ステップA4で抽出された単語リストに出現した場合に1となり、出現しなかった場合に0となる。また、SCtopic(w)を得るための、トピック関連スコアの0以上1以下への正規化は、上記数3において説明した、Ptopic(w)の場合と同様の処理によって行われる。
また、上記数5において、aは、予備実験や人手等によって予め定められた0より大きい実数である。Scoreold(t|w)は、入力で与えられた既存の統計的モデルによって定義されている、単語wの特定のトピックtにおける出現度合いを示す。Scorenew(t|w)は、補正後の単語wの特定のトピックtにおける出現度合いを示す。
このように、上記数4及び数5を用いた場合は、トピック関連テキスト内の単語、及び、ステップA4で抽出された単語について、出現度合いを高めるための補正が行われる。よって、これらの場合においても、上記数3を用いた場合と同様に、トピック関連テキスト内の単語及びステップA4で抽出された単語の特定のトピックでの出現度合いが高くなる統計的モデルが生成される。
また、本実施例1では、統計的モデル生成部33は、統計的モデルを生成する際、統計的モデルの学習のために、特定のトピックに関するトピック関連テキスト以外のテキストを教師データとして使用することもできる。その場合の統計的モデル生成部33の動作を以下に説明する。
先ず、統計的モデル生成部33は、教師データとして入力された、特定のトピックに関するトピック関連テキスト以外のテキストに、二つのデータを加えて新たな教師データを作成し、新たな教師データを用いて、統計的モデルを生成する。この二つのデータとしては、ステップA4で抽出された単語と該単語のトピック関連スコアを0以上1以下に正規化して得られた値(以下「正規化値」という。)との組データのリスト、及びトピック関連テキストが挙げられる。
なお、トピック関連スコアの正規化処理は、上記数3におけるPtopic(w)を求める場合のトピック関連スコアの正規化処理と同様の処理によって実現できる。また、統計的モデル生成部33の入力として、トピック関連スコアが与えられなかった場合は、正規化値は1に設定される。
例えば、統計的モデル生成部33は、新たな教師データを用いて、各単語が特定のトピックに関して出現する確率を、「単語wの特定のトピックでの出現確率=(単語wが出現した特定のトピックのデータ数)/(特定のトピックの全データ数)」のように求める。
但し、「ステップA4で抽出された単語と該単語の正規化値との組データのリスト」のデータ数は、単語wが出現していた場合に、「1」増加させるのではなく、単語wのトピック関連スコアを正規化して得られた値の分だけ増加させる。
そして、統計的モデル生成部33は、以上のようにして求めた単語wのトピックでの出現確率と単語wとのペアを、統計的モデルとする。また、その他、統計的モデル生成部33は、新たな教師データの内、特定のトピックに関するデータを正例、該トピック以外に関するデータを負例とし、そして、MEやSVMなどの学習アルゴリズムを用いて、統計的モデルを生成することもできる。
具体的には、統計的モデル生成部33は、教師データ中の各データから、データ内の単語と該データでの単語の出現度合いとの組データのリストを作成し、これを上記の学習アルゴリズムに入力する。この時、統計的モデル生成部33は、単語の出現度合いについては、該単語が出現した場合を「1」とし、出現しなかった場合を「0」として扱っても良いし、出現した場合を「出現回数」とし、出現しなかった場合を「0」として扱っても良い。但し、「ステップA4で抽出された単語と、該単語の正規化値との組データのリスト」のデータ数は、該単語が出現した場合は「トピック関連スコアを正規化した値(正規化値)」とし、出現しなかった場合は「0」とする。
[ステップA6]
最後に、統計的モデル生成部33は、ステップA5で生成された統計的モデルを出力装置20に出力する。統計的モデルは、図15又は図16に示すように、分析対象テキスト内の単語が入力されると、該単語の特定のトピックに関する出現度合いを出力する。ここで、出現度合いは、図15に示す、単語の出現のし易さを示す確率であっても良いし、図16に示す、出現し易いほど値が大きくなり、出現し難いほど値が小さくなるスコアであっても良い。図15は、実施例1によって得られる統計的モデルの一例を示す図である。図16は、実施例1によって得られる統計的モデルの他の例を示す図である。
(実施例1の効果)
以下に、本実施例1の効果を説明する。一般に、何の関係もない任意の対となったテキスト間においては、セグメント間の単語が似ていても、これらセグメント同士が同じ情報を示し、同一のトピックに関連しているとは限らないと考えられる。これに対して、本実施例1では、分析対象テキストと、トピック関連テキストとは、同一の事象について記載されているので、トピック関連テキストに関連した部分が、分析対象テキストに存在している場合がほとんどである。このため、ある程度、単語類似度が高い場合は、セグメント間において、情報は関連し、且つ、それぞれが関連するトピックは同一である可能性が高いと考えられる。
そして、上記の考えの下、対応付け部35は、セグメント間の単語類似度が高いか否かに基づいて対応付けを行っている。この場合、トピック関連テキストに対応付けられた分析対象テキストのセグメントは、特定のトピックに関連している可能性は高くなる。更に、上述の通り、統計的モデル生成部33は、対応付け部35によってトピック関連テキストのセグメントに対応付けられた、分析対象テキストのセグメント中の単語を、特定のトピックに関して出現する単語として捉える。そして、統計的モデル生成部33は、該単語の特定のトピックに対する出現度合いが高くなるよう、統計的モデルを生成する。
従って、本実施例1では、統計的モデルの生成において、トピック関連テキストに出現しなかったトピックに関する単語が補完されることとなる。よって、トピック関連テキストと、分析対象テキスト内のトピックに書かれた部分とが同一でなくても、更に使用される単語が異なる場合でも、統計的モデルの推定精度の向上が図られることとなる。
例えば、本実施例1において、「エラー」という単語は、分析対象テキスト(通話音声認識結果(受付ID=311))において、特定のトピック(故障状況)で使用される単語である。しかし、この単語は、トピック関連テキスト(応対メモ(受付ID=311))には出現していない。従って、トピック関連テキスト内に出現する単語のみからしか学習を行わない、上記非特許文献1及び2の技術では、「エラー」という単語が特定のトピックで出現する事を学習することは極めて困難である。この場合、生成される統計的モデルの推定精度は、低下してしまう。
これに対して、本実施例1では、トピック関連テキストのセグメントに対応付けられた、分析対象テキストのセグメント(セグメントID=33、34)中には「エラー」が含まれている。よって、「エラー」は特定のトピックの事例として考慮され、この単語の特定のトピックでの出現度合いが高まるように、統計的モデルが生成されるので、推定精度の向上が図られることとなる。
また、本実施例1では、潜在トピック語抽出部32を構成する単語抽出部36は、抽出された単語がトピック情報に関連する程度を示すトピック関連スコアを算出することができる。実施の形態1で述べたように、トピック関連スコアは、特定のトピックに関連する程度が高い程、値が高くなるように設定されている。
例えば、トピック関連スコアとしては、関連箇所特定部31によって対応付けられたセグメント内に含まれる、各単語の個数を用いることができる。この場合、本実施例1のステップA4において記述したように、単語「表示」のトピック関連スコアは「2」となる。一方、単語「何か」のトピック関連スコアは「1」となる。このため、単語「表示」の方が、単語「何か」より、「故障状況」というトピックに関連していると判断できる。従って、潜在トピック語抽出部32により、トピック関連度スコアを算出し、統計的モデル生成部33により、トピック関連スコアが高い単語程、特定のトピックでの出現度合いが高まるように統計的モデルを生成するのが良い。これにより、統計的モデルの推定精度の向上が図られることとなる。
また、本実施例1では、関連箇所特定部31を構成する対応付け部35は、対応度スコアを算出することができる。実施の形態1で述べたように、対応度スコアは、分析対象テキストのセグメントと対応先のトピック関連テキストのセグメントとの内容の一致の程度を示し、一致の程度が高い程、値が高くなるように設定されている。従って、この対応度スコアが高いほど、分析対象テキストのセグメントは、対応先のトピック関連テキストのセグメントと内容において一致し、特定のトピックに関する記述となっている可能性が高くなる。そのため、対応度スコアが高い箇所に含まれている単語ほど、特定のトピックに関与する可能性が高くなる。
例えば、図13の例において、(3,34)(=(トピック関連テキストのセグメントID,分析対象テキストのセグメントID))の対応度スコアは、(3,33)(=上記と同様)の対応度スコアより高くなっている。このため、セグメントIDが33の分析対象テキストに含まれている単語「?」よりも、セグメントIDが34の分析対象テキストに含まれている単語「XXX」の方が、「故障状況」というトピックに深く関与している事が分かる。従って、関連箇所特定部31により対応度スコアを算出し、潜在トピック語抽出部32により、対応度スコアが高い程トピック関連スコアが高くなるように設定し、統計的モデル生成部33により、関連スコアを用いて、対応度スコアの情報を間接的に利用するのが良い。これにより、統計的モデルの推定精度の向上が図られることとなる。
(実施例2の動作)
次に、図17を参照しながら、実施の形態2における情報分析装置及び情報分析方法の具体的な実施例を説明する。また、以下においては、図4に示したフロー図に沿って、実施の形態2における情報分析装置の動作を説明する。なお、適宜、図3も参酌する。
本実施例2においても、実施例1と同様に、分析対象テキストは、図7に示された、コールセンターにおける通話音声を音声認識することによって得られた音声認識テキストである。また、トピック関連テキストは、図8に示された、図7に示す音声認識テキストの認識の元となった通話から作成された応対メモにおける、「故障状況」の欄に記載されたテキストである。更に、本実施例2においても、実施例1と同様に、図7に示す音声認識テキスト(受付ID=311)内の各単語について、図8に示す応対メモの「故障状況」というトピックに対する出現度合いを推定する、統計的モデルを生成する過程を挙げて説明する。
[ステップB1〜ステップB4]
最初に、ステップB1〜B4が実行される。本実施例2におけるステップB1〜B4は、実施例1におけるステップA1〜A4と同様に行われる。但し、本実施例2では、ステップB4において、単語抽出部136は、抽出した単語、又は抽出した単語とそのトピック関連スコアとを出力するのに加え、各単語が属していたセグメントIDも共に出力することができる。この場合、出力されたセグメントIDは、フィルタリング部137での処理に使用される。
例えば、入力が図13に示す例である場合は、単語「表示」に関して、「表示(ID:33)」と「表示(ID:34)」とが出力される。また、入力が図14に示す例である場合は、「表示(対応度スコア:0.4、ID:33)」と「表示(対応度スコア:0.7、ID:34)」とが出力される。
[ステップB5]
続いて、フィルタリング部137は、ステップB4で抽出された単語の中から、特定のトピックに関連する可能性が特に高い単語を特定し、特定した単語を出力する。このとき、フィルタリング部137は、例えば、上述した実施の形態2で説明した、上記(1)〜(6)のいずれかに該当する単語を特定する。言い換えると、フィルタリング部137は、単語の種類、単語の出現回数、単語の位置、単語の共通語からの距離、共通語を含む節からの係り受け距離、及びこれらの組み合わせを判断の基準に用いて、単語の特定を行う。ここで、フィルタリング部137の動作を、入力されるデータの種類と単語の特定で用いられる基準の種類とに応じて場合分けし、以下に場合毎に説明する。
[ステップB5:場合1]
まず、フィルタリング部137に、トピック関連テキスト内のセグメントに対応付けられた、分析対象テキスト内のセグメント中の単語、又は該単語と該単語が属するセグメントIDとが入力された場合の動作を説明する。この場合、トピック関連スコアは、フィルタリング部137には入力されていない。また、以下の説明では、具体例として、フィルタリング部137に、分析対象テキストのセグメントID=31内の11種類(英語の場合は12種類)の単語が入力された場合を挙げ、この場合の動作を説明する。
フィルタリング部137が、品詞などの単語の種類を基準にして、特定のトピックである可能性が特に高い単語を特定する場合は、予め、特定のトピックに該当する可能性が特に高い単語の種類が設定され、これにより、単語の特定が実現される。例えば、自立語は特定のトピックである可能性が特に高いと定めておくと、上記の具体例において「で」、「昨日」、「印刷」、「出来」、及び「なっ」が特定される。英語の場合は、「And」、「nothing」、「has」、「come」、「printer」、「yesterday」が特定される。また、単語の品詞又は種類に応じて特定トピックである可能性の高さを示すスコアが、予め、人手によって、単語の品詞又は種類毎に設定されていても良い。この場合、フィルタリング部137は、各単語の品詞又は種類から、予め設定されたスコアを特定し、該スコアをトピック関連スコアとして出力することができる。
フィルタリング部137が、単語の出現回数を基準にして、特定のトピックである可能性が特に高い単語を特定する場合は、例えば、入力となった単語集合に対して、出現回数の閾値が設定される。そして、フィルタリング部137は、出現回数が閾値以上の単語を特定する。なお、閾値の設定は、例えば、予め実施された予備実験等の結果を基にして、人手によって行うことができる。また、この場合、フィルタリング部137は、単語の出現回数を該単語のトピック関連スコアとして出力することができる。
また、フィルタリング部137は、単語の位置を基準にして、特定のトピックである可能性が特に高い単語を特定する場合は、先ず、共通語を特定する。そして、フィルタリング部137は、共通語が位置する節の中に位置している単語(節が同一の単語)を特定する。この場合、特定された単語が、特定のトピックに関連する可能性が特に高い単語であると判定される。
実施の形態2において述べたように、共通語は、関連箇所特定部131によって特定された部分と、トピック関連テキストのトピック情報とに共通している単語である。例えば、フィルタリング部137は、関連箇所特定部131によって特定された部分に含まれる単語を特定し、トピック関連テキストのトピック情報を示す単語の内、特定された単語と原形の表層及び品詞において一致する単語を特定する。この特定された単語が、共通語となる。
また、フィルタリング部137は、予め用意された同義語辞書又は類義語辞書を用い、上記の最初に特定された単語の同義語又は類義となる単語を更に特定し、トピック関連テキストのトピック情報を示す単語の内、特定された単語と一致する単語も共通語とすることもできる。上記の具体例においては、共通語が、形態素解析の結果より得られた単語と表層及び品詞において一致する単語であり、かつ、自立語である単語とするならば、「昨日」と「印刷」とが共通語となる。
具体例において、「/」によって節の切れ目を表すとすると、セグメントID=31の節は、「で、/昨日から/印刷が/出来なくなって。」となる。ここで、共通語は、「昨日」と「印刷」とであるから、共通語と同一節内にある、「昨日」、「から」、「印刷」、及び「が」が単語として特定される。英語の場合、節は、「And,/nothing/has
come out of/the printer/since
yesterday.」となる。よって、共通語は、「yesterday」と「printer」とであるから、共通語と同一節内にある、「since」、「yesterday」、「the」、「printer」が特定される。
また、上記の場合、特定された単語のトピック関連スコアは、共通語に近い程高くなるように設定されていても良い。フィルタリング部137は、特定した単語と共に、各単語のトピック関連スコアを出力する事ができる。例えば、共通語のトピック関連スコアを「2」に設定し、その他の単語のトピック関連スコアとして、該単語に最も近い共通語からの距離の逆数を用いることができる。
また、フィルタリング部137は、単語の共通語からの距離を基準にして、特定のトピックである可能性が特に高い単語を判定する場合も、単語の位置を基準にする場合と同様に、先ず、共通語を特定する。そして、フィルタリング部137は、共通語からの距離が予め定められた閾値以下となる単語を特定する。この場合、閾値の設定は、予め実施された予備実験等の結果を基にして、人手によって行うことができる。
上記具体例において、例えば、閾値が2に設定されているとする。この場合、フィルタリング部137は、「昨日」及び「印刷」それぞれの前後2単語である、「で」、「、」、「昨日」、「から」、「印刷」、「が」、及び「出来」を特定する。英語の場合は、フィルタリング部137は、「printer」及び「yesterday」それぞれの前後2単語である、「of」、「the」、「printer」、「since」、「yesterday」及び「.」を特定する。また、上記の場合も、特定された単語のトピック関連スコアは、共通語に近い程高くなるように設定されていても良い。フィルタリング部137は、特定した単語と共に、各単語のトピック関連スコアを出力する事ができる。例えば、共通語のトピック関連スコアを2に設定し、その他の単語のトピック関連スコアとして、該単語に最も近い共通語からの距離の逆数を用いることができる。
更に、フィルタリング部137は、共通語を含む節からの係り受け距離を基準にして、特定のトピックである可能性が特に高い単語を判定する場合も、単語の位置を基準にする場合と同様に、先ず、共通語を特定する。そして、フィルタリング部137は、共通語を含む節からの係り受け距離が、予め定められた閾値以下となる単語を特定する。この場合、閾値の設定は、予め実施された予備実験等の結果を基にして、人手によって行うことができる。
また、本実施例2においては、ある節Aとある節Bの係り受け距離としては、ある節Aからある節Bまで係り受け関係を辿る際に通る係り受け関係の回数が用いられる。上記の具体例において、セグメントID=31の係り受けは図17に示す通りとなる。図17は、実施例2によって実行された係り受け解析の結果の一例を示す図である。なお、図17は、会話が日本語でなされている場合を示している。
図17に示すように、上記の具体例において、「で」と「出来なくなって」、「昨日から」と「出来なくなって」、「印刷が」と「出来なくなって」、それぞれにおいて係り受け関係の回数は1である。よって、それぞれの係り受け距離は1となる。また、上記の具体例において、共通語は「昨日」と「印刷」とであるので、例えば、閾値が1に設定されているとすると、図17に示すように、「昨日」又は「印刷」を含む節との距離が1以内である節は、「昨日から」「印刷が」「出来なくなって。」となる。よって、フィルタリング部137は、「昨日」、「から」、「印刷」、「が」、「出来」、「なく」、「なっ」、「て」、及び「。」を特定する。
また、英語の場合は、セグメントID=31の係り受けは図22に示す通りとなる。図22は、実施例2によって実行された係り受け解析の結果の他の例を示す図である。図22の例において、「And,」と「has come out of」、「nothing」と「has come out of」、「the printer」と「has come out of」、「since yesterday.」と「has come out of」、それぞれにおいて係り受け関係の回数は1である。よって、図22の例でも、それぞれの係り受け距離1となる。更に、共通語は、「printer」と「yesterday」とであるので、この場合も閾値が1に設定されているとすると、「printer」又は「yesterday」を含む節との距離が1以内である節は、「has come out of」「the printer」「since yesterday.」となる。よって、フィルタリング部137は、「has」、「come」、「out」、「of」、「the」、「printer」、「since」、「yesterday」、「.」を特定する。
また、上記の図17の例及び図22の例の場合も、特定された単語のトピック関連スコアは、共通語を含む節に近い程高くなるように設定されていても良い。フィルタリング部137は、特定した単語と共に、各単語のトピック関連スコアを出力する事ができる。例えば、共通語のトピック関連スコアを2に設定し、その他の単語のトピック関連スコアとして、該単語が属する節と最も近い共通語を含む節との係り受け距離の逆数を用いることができる。
また、フィルタリング部137は、上記した基準を複数組み合わせることにより、特定のトピックに関連する可能性が特に高い単語を特定することもできる。この場合、フィルタリング部137は、例えば、各基準に基づく単語の特定によって得られた、各トピック関連スコアの和を求め、特定した単語と共に、トピック関連スコアの和を出力することもできる。
更に、基準に応じて重要度が変わる場合は、各基準に対して、重要度が高いものほど値が大きくなる重みが、予め付与されていても良い。この場合、フィルタリング部137は、該重みを用いて、それぞれの尺度により得られたトピック関連スコアの重みつき和を求めることができる。このようにして求められたトピック関連スコアの和も、特定された単語ともに、出力される。
また、フィルタリング部137は、上述のようにして特定された単語集合とトピック関連スコアの他に、単語抽出部136から入力された単語の内、特定のトピックに関連する可能性が特に高い単語であると判定しなかった単語も出力できる。その際、フィルタリング部137は、更に、判定されなかった該単語に加え、該単語のトピック関連スコアも出力できる。なお、判定されなかった該単語のトピック関連スコアは、フィルタリング部137により特定のトピックに関連する可能性が特に高いと判定された単語のトピック関連スコアの最小値より低い値に設定される。
[ステップB5:場合2]
次に、フィルタリング部137に、トピック関連テキスト内のセグメントに対応付けられた、分析対象テキスト内のセグメント中の単語、又は該単語と該単語が属するセグメントIDに加えて、単語抽出部136で算出されたトピック関連スコアが入力される場合の動作を説明する。
先ず、フィルタリング部137は、単語抽出部136から入力された各単語に対して、上述のトピック関連スコアが入力されない場合(ステップB5:場合1)と同様の動作により、トピック関連スコアを計算する。この場合のトピック関連スコアを「第一のトピック関連スコア」とする。
そして、フィルタリング部137は、単語抽出部136から単語と共に入力された各単語のトピック関連スコアと、第一のトピック関連スコアとの積を求め、これを「第二のトピック関連スコア」とする。次いで、フィルタリング部137は、求めた第二のトピック関連スコアが、予め定められた閾値以上となる単語を、特定のトピックである可能性が特に高い単語として特定する。
その後、フィルタリング部137は、特定された単語集合のみ、又は、特定された単語集合と、該単語集合の各単語の第二のトピック関連スコアとを共に出力する。また、フィルタリング部137は、特定された単語集合と、該単語集合の各単語の第二のトピック関連スコアとに加えて、第二のトピック関連スコアが閾値以下であった単語を特定する情報を出力することもできる。このとき、フィルタリング部137は、第二のトピック関連スコアが閾値以下であった単語と共に、その第二のトピック関連スコアを出力することもできる。
[ステップB6〜ステップB7]
ステップB5の実行後、統計的モデル生成部133によってステップB6が実行される。これにより、フィルタリング部137によって特定された単語の出現度合いが高められた統計的モデルが生成される。そして、統計的モデル生成部133は、ステップB6の実行後、ステップB7を実行する。本実施例2におけるステップB6及びB7は、実施例1におけるステップA5及びA6と同様に行われる。
(実施例2の効果)
以下に、本実施例2の効果を説明する。本実施例2では、実施例1と異なり、トピック関連テキストのセグメントに対応付けられた分析対象テキストのセグメントの単語の中から、フィルタリング部137によって、特定のトピックに関連する可能性が特に高い単語が特定される。また、本実施例2では、フィルタリング部137によって特定された単語の出現度合いが高くなるように統計的モデルが生成される。
このため、本実施例2によれば、特定のトピックへの関係が少ない単語の特定のトピックでの出現度合いが誤って高くなってしまうことが抑制されるので、統計的モデルの推定精度は、実施例1の場合よりも更に向上することとなる。
例えば、上述した具体例において、フィルタリング部137は、単語の特定の基準として、単語の種類、共通語を含む節内に単語が位置しているかどうかの情報、共通語を含む節からの係り受け距離等の基準を採用する。このため、フィルタリング部137は、採用した基準を用いて、単語を特定するので、分析対象テキスト内のセグメントID=31における「で」、「、」といった、特定のトピックには関係の薄い単語は、特定から排除される。よって、統計的モデルの生成においては、これらの単語の影響が緩和されるので、結果として、推定精度の高い統計的モデルの生成が可能となる。
(実施例3の動作)
次に、図18を参照しながら、実施の形態3における情報分析装置及び情報分析方法の具体的な実施例を説明する。また、以下においては、図6に示したフロー図に沿って、実施の形態3における情報分析装置の動作を説明する。なお、適宜、図5も参酌する。
本実施例3においても、実施例1と同様に、分析対象テキストは、図7に示された、コールセンターにおける通話音声を音声認識することによって得られた音声認識テキストである。また、トピック関連テキストは、図8に示された、図7に示す音声認識テキストの認識の元となった通話から作成された応対メモにおける、「故障状況」の欄に記載されたテキストである。更に、本実施例3においても、実施例1と同様に、図7に示す音声認識テキスト(受付ID=311)内の各単語について、図8に示す応対メモの「故障状況」というトピックに対する出現度合いを推定する、統計的モデルを生成する過程を挙げて説明する。
[ステップC1〜ステップC4]
最初に、ステップC1〜C4が実行される。本実施例3におけるステップC1〜C4は、実施例1におけるステップA1〜A4と同様に行われる。
[ステップC5]
ステップC4と同時に、又はステップC4の後に、共通語抽出部237は、ステップC5を実行する。具体的には、共通語抽出部237は、先ず、ステップC3における解析によって得られた、分析対象テキストとトピック関連テキストとの対応付けの結果を受け取る。そして、共通語抽出部237は、トピック関連テキスト中の単語から、分析対象テキスト中の特定のトピックの部分で使用された単語を抽出する。
具体的には、共通語抽出部237は、トピック関連テキスト中の単語の内、対応付けられた分析対象テキストのセグメントの単語と、共通の単語(共通語)とを抽出する。実施例3における「共通語」の定義は、実施例2のステップB5で特定される共通語の定義と同義である。ここで、共通語抽出部237の動作を、入力されるデータの種類に応じて場合分けし、以下に場合毎に説明する。
[ステップC5:場合1]
まず、共通語抽出部237に、対応度スコアは入力されず、トピック関連テキストの各セグメントに対応付けられたセグメントのみが入力された場合の動作を説明する。例えば、入力が図13に示す例である場合、共通語抽出部237は、トピック関連テキストのセグメント中に含まれる単語のうち、対応付けられた分析対象テキストのセグメントに含まれる単語と、原形の表層及び品詞において一致する単語とを、共通語として抽出する。これにより、図18に示す結果が得られる。図18は、実施例3によって抽出された共通語の一例を示す図である。
そして、共通語抽出部237は、図18に示された共通語を出力する。また、共通語抽出部237は、抽出された共通語に加え、それが、分析対象テキスト中の特定のトピックに関する部分で使用されている可能性を示す「記載スコア」を出力することもできる。
記載スコアは、実施の形態3で述べたように、分析対象テキスト中の特定のトピックに関する部分で使用されている可能性が高い程、値が高くなるように設定される。具体的には、共通語抽出部237は、記載スコアとして、各単語の抽出個数を用いることができる。この場合、例えば、単語「プリンター」は、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(1,30)において抽出される。よって、記載スコアは「1」となる。また、単語「表示」は、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(3,33)と、(3,34)とで抽出される。よって、記載スコアは「2」となる。
[ステップC5:場合2]
次に、共通語抽出部237に、トピック関連テキストの各セグメントに対応付けられたセグメントと共に、対応度スコアが入力された場合の動作を説明する。この場合、共通語抽出部237は、対応度スコアが入力されなかった上記の場合と同様にして、共通語を抽出する。また、この場合も、共通語抽出部237は、抽出した共通語のみを出力しても良いし、抽出した共通語と共に、共通語の記載スコアを出力することもできる。
共通語抽出部237は、例えば、共通語が複数のセグメント組に含まれている場合は、組毎の共通語の対応度スコアを求め、これらを合算し、得られた和を記載スコアとして設定できる。共通語抽出部237に、図14に示された例が入力されている場合について説明する。「プリンター」は、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(1,30)で、つまり、一のセグメント組でのみ抽出されるので、記載スコアは「0.7」である。一方、「表示」は、(トピック関連テキストのセグメントID,分析対象テキストのセグメントID)=(3,33)と(3,34)との二つのセグメント組で抽出される。よって、このときの記載スコアは「1.1」(=0.4+0.7)となる。
また、共通語抽出部237は、共通語が複数のセグメント組に含まれている場合は、共通語に付与された対応度スコアを組同士で対比して、最大の対応度スコアを求め、これを記載スコアとして設定することもできる。共通語抽出部237に、図14に示された例が入力されている場合について説明する。この場合、「プリンター」は、一のセグメント組でのみ抽出されており、記載スコアは「0.7」となる。一方、「表示」は、それぞれ二つのセグメント組で抽出されている。そして、一方のセグメント組では対応度スコアは0.4であり、他方のセグメント組では対応度スコアは0.7である。従って、記載スコアは「0.7」(=max(0.4,0.7))となる。
[ステップC6]
ステップC4及びC5に続いて、統計的モデル生成部233は、入力装置210から、トピック関連テキストを受け取り、潜在トピック語抽出部232から、ステップC4での単語の抽出結果を受け取る。本実施例3では、実施例1及び2と異なり、統計的モデル生成部233は、共通語抽出部237から、ステップC5での共通語の抽出結果も受け取る。そして、統計的モデル生成部233は、これらの結果を用いて、分析対象テキスト内の各単語の特定のトピックでの出現度合いを推定する統計的モデルを生成する。
また、統計的モデル生成部233は、この場合、ステップC4で抽出された単語の特定のトピックでの出現度合いが高まるように、統計的モデルを生成する。また、統計的モデル生成部233は、特定のトピックにおいて、ステップC5で抽出された共通語の出現度合いが、トピック関連テキスト中の該共通語以外の単語の出現度合いより高くなるようにもして、統計的モデルを生成する。
以下に、本実施例3における統計的モデル生成部233の動作を具体的に説明する。具体的には、統計的モデル生成部233は、例えば、以下の数6によって、各単語に対する特定のトピックでの出現度合いが与えられる、統計的モデルを構築する。
Figure 0005440815
ここで、上記数6において、w、t、P(t|w)、Ptopic(w)、及びExist(w)の定義は、上記数3における定義と同じである。また、上記数6において、Pcommon(w)は、単語wがステップC5で抽出された共通語であった場合、共通語wの記載スコアを0以上1以下に正規化することによって得られた値であり、単語wが前記共通語でなかった場合、0である。なお、統計的モデル生成部233の入力にトピック関連スコアが与えられなかった場合では、Pcommon(w)は、単語wがステップC5で抽出された共通語であった場合は1となり、単語wが前記共通語でなかった場合は0となる。また、記載スコアの0以上1以下への正規化は、上記数3において説明した、トピック関連スコアの正規化の場合と同様の処理によって行われる。
従って、上記数6では、Ptopic(w)及びExist(w)により、トピック関連テキスト内の単語、及び、ステップC4で抽出された単語リストに出現する単語の、特定のトピックでの出現度合いが高くなる、統計的モデルが生成される。また、上記数6では、Pcommon(w)により、ステップC5で抽出された共通語の出現度合いが、トピック関連テキスト中の共通語以外の単語の出現度合いよりも高くなる、統計的モデルが生成される。
また、本実施例3においても、実施例1と同様に、統計的モデル生成部233は、統計的モデルを生成する際、予め作成された、特定のトピックについての既存の統計的モデルを使用することができる。この場合、統計的モデル生成部233は、該既定の統計的モデルで定められている各単語の特定のトピックでの出現度合いを補正する事により、分析対象テキスト内の各単語の特定のトピックに対する出現度合いを推定する統計的モデルを生成する。このような既存の統計的モデルとしては、例えば、単語を入力とした場合に、該単語が特定のトピックに出現する度合いとして、出現の確率を出力する、統計的モデルが挙げられる。具体的には、このような統計的モデルを使用する場合は、統計的モデル生成部233は、例えば、以下の数7を用いて、特定のトピックでの出現度合いを変更することにより、統計的モデルを生成する。
Figure 0005440815
ここで、上記数7において、w、t、Ptopic(w)、Exist(w)の定義は、上記数3における定義と同じである。Pcommon(w)の定義は、上記数6における定義と同じである。また、Pnew(t|w)及びPold(t|w)の定義は、上記数4における定義と同じである。
また、本実施例3においても、実施例1と同様に、既存の統計的モデルは、例えば、単語を入力とした場合、該単語が特定のトピックに出現する度合いとして、出現し易い単語ほど値が大きくなり、出現し難い単語ほど値が小さくなるスコアを出力しても良い。このような統計的モデルを使用する場合、統計的モデル生成部233は、例えば、以下の数8を用いて、特定のトピックに対する出現度合いを変更する事により、統計的モデルを生成する。
Figure 0005440815
ここで、上記数8において、w、t、及びExist(w)の定義は、上記数3における定義と同じである。また、a、SCtopic(w)、Scoreold(t|w)、及びScorenew(t|w)の定義は、上記数5における定義と同じである。
SCcommonは、単語wがステップC5で抽出された共通語であった場合に、共通語wの記載スコア、又は共通語wの記載スコアを0以上1以下に正規化することによって得られる値であり、単語wが共通語でなかった場合は0となる。なお、統計的モデル生成部233の入力に記載スコアが与えられなかった場合では、SCcommonは、単語wがステップC5で抽出された共通語であった場合は1となり、単語wが共通語でなかった場合は0となる。また、この場合の記載スコアの正規化も、上記数3において説明した、トピック関連スコアの正規化の場合と同様の処理によって行われる。
このように、上記数7及び数8を用いた場合も、上記数6を用いた場合と同様に、トピック関連テキスト内、及び、ステップC4で抽出された単語リストに出現する単語の、特定のトピックでの出現度合いが高くなる、統計的モデルが生成される。更に、生成された統計的モデルでは、ステップC5で抽出された共通語の出現度合いが、トピック関連テキスト中の共通語以外の単語の出現度合いよりも高くなる。
また、本実施例3でも、実施例1と同様に、統計的モデル生成部233は、統計的モデルを生成する際、統計的モデルの学習のために、特定のトピックに対するトピック関連テキスト以外のテキストを教師データとして使用することができる。その場合の統計的モデル生成部233の動作を以下に説明する。
先ず、統計的モデル生成部233は、ステップC4で抽出された単語毎に、該単語のトピック関連スコアを0以上1以下に正規化し、値(以下「正規化値」という。)を計算する。このトピック関連スコアの正規化処理は、上記数3におけるPtopic(w)を求める場合のトピック関連スコアの正規化処理と同様の処理によって実現できる。なお、統計的モデル生成部233の入力として、トピック関連スコアが与えられなかった場合は、正規化値は1に設定される。
そして、統計的モデル生成部233は、ステップC4で抽出された単語と、該単語のトピック関連スコアを0以上1以下に正規化して得られた正規化値との組データのリストを、教師データの一つとして使用する。
また、統計的モデル生成部233は、トピック関連テキスト内の各単語に、ステップC5の判定結果を基に、重みを付与する。この場合、ステップ5で抽出された共通語に対する重みを、共通語以外の単語に対する重みより大きく設定する。
例えば、統計的モデル生成部233は、ステップC5で抽出された共通語に対する重みを、「該単語の記載スコアを0以上1以下に正規化し、得られた値に1を足した値」に設定する。一方、統計的モデル生成部233は、共通語以外の単語に対する重みについては「1」に設定する。なお、この場合の記載スコアの正規化処理は、上述したPtopic(w)を求めた場合のトピック関連スコアの正規化処理と同様の処理によって行われる。また、統計的モデル生成部233の入力として、記載スコアが与えられなかった場合は、ステップC5で抽出された共通語の重みは一律に「2」に設定される。
そして、統計的モデル生成部233は、上述のように単語に重みが設定されている場合は、重みが設定された単語を有するトピック関連テキストを、教師データの一つとして使用する。
このように、本実施例3では、統計的モデル生成部233は、教師データとして入力された、特定のトピックに対するトピック関連テキスト以外のテキストに、新たな二つの教師データを用いて、統計的モデルを生成する。新たな教師データは、ステップC4で抽出された単語と該単語の正規化値との組データのリストと、重みが設定された単語を有するトピック関連テキストとの二つのデータである。
例えば、統計的モデル生成部233は、新たな教師データを用いて、各単語が特定のトピックに関して出現する確率を、「単語wの特定のトピックでの出現確率=単語wが出現した特定のトピックデータ数÷特定のトピックの全データ数」のように求める。
但し、「ステップC4で抽出された単語と該単語の正規化値との組データのリスト」のデータ数は、単語wが出現していた場合に、「1」増加させるのではなく、単語wのトピック関連スコアを正規化して得られた値の分だけ増加させる。また、「重みが設定された単語を持つトピック関連テキスト」のデータ数は、単語wが出現していた場合に、「1」増加させるのではなく、単語wに付与された重みの値の分だけ増加させる。
そして、統計的モデル生成部233は、以上のようにして求めた単語wのトピックでの出現確率と単語wとのペアを、統計的モデルとする。また、その他、統計的モデル生成部233は、新たな教師データの内、特定のトピックに関するデータを正例、該トピック以外に関するデータを負例とし、そして、MEやSVMなどの学習アルゴリズムを用いて、統計的モデルを生成することもできる。
具体的には、統計的モデル生成部233は、教師データ中の各データから、データ内の単語と該データでの単語の出現度合いとの組みデータのリストを作成し、これを上記の学習アルゴリズムに入力する。この時、統計的モデル生成部233は、単語の出現度合いについては、該単語が出現した場合を「1」とし、出現しなかった場合を「0」として扱っても良いし、出現した場合を「出現回数」とし、出現しなかった場合「0」として扱っても良い。
但し、「ステップC4で抽出された単語と、該単語の正規化値との組データのリスト」のデータ数は、該単語が出現した場合は「トピック関連スコアを正規化した値(正規化値)」とし、出現しなかった場合は「0」とする。また、「重みが設定された単語を有するトピック関連テキスト」のデータ数は、該単語が出現した場合は「単語の重み」とし、出現しなかった場合は「0」とする。
[ステップC7]
ステップC6の実行後、統計的モデル生成部233は、ステップC7を実行する。本実施例3におけるステップC7は、実施例1におけるステップA6と同様に行われる。
(実施例3の効果)
本実施例3では、実施例1及び2と異なり、統計的モデル生成部233は、特定のトピックについて、共通語抽出部237で抽出された共通語の出現度合いが、トピック関連テキスト中の共通語以外の単語の出現度合いよりも高くなるように、統計的モデルを生成する。このため、本実施例3では、実際には分析対象テキスト中の特定のトピック以外の部分で使用されている単語による、統計的モデルへの悪影響が緩和される。本実施例3によれば、統計的モデルの推定精度の更なる向上が図られる。
例えば、分析対象テキストが、図9に示した通話音声の認識結果(受付ID=311)であり、特定のトピックが応対メモの「対応に関する要望」であるとする。また、トピック関連テキストが応対メモ(受付ID=311)の「対応に関する要望」の部分に書かれたテキストであるとする。この場合に、トピック関連テキスト内の単語全てに対して、特定のトピックに関する出現度合いを高めるようにすると、単語「確認」についての、特定のトピック「対応に関する要望」での出現度合いが高められてしまう。しかし、単語「確認」は、分析対象テキストにおいては、応対メモの「電話での処置内容」に関するトピックでは出現するが、トピック「対応に関する要望」では出現していない。よって、単語「確認」のトピック「対応に関する要望」での出現度合いが低くなる統計的モデルを生成するべきである。
これに対して、本実施例3では、単語「確認」のトピック「対応に関する要望」での出現度合いが高くならないように統計的モデルが生成される。つまり、本実施例3では、トピック関連テキスト内の単語の内、分析対象テキスト中の特定のトピックに関して記述された部分に含まれる単語が、共通語として特定される。そして、トピック関連テキスト内の共通語以外の単語の特定のトピックでの出現度合いが高くならないように抑制される。
つまり、単語「確認」は、分析対象テキスト中の、トピック「対応に関する要望」に関して記述された部分には含まれていない、と判定され、単語「確認」のトピック「対応に関する要望」での出現度合いが高くならないように抑制される。従って、本実施例3によれば、統計的モデルの推定精度の更なる向上が図られ、分析対象テキストの解析により適した統計的モデルの生成が可能となる。
また、本実施例3においては、共通語抽出部237は、抽出された共通単語が分析対象テキスト中の特定のトピックに関する部分で使用されている可能性を示す記載スコアを算出することができる。記載スコアは、可能性が高い程、値が高くなるように設定されている。
例えば、記載スコアが、共通語抽出部237で抽出された共通語の抽出個数である場合、実施例3のステップC5において記述したように、単語「表示」の記載スコアは「2」となる。一方、単語「プリンター」の記載スコアは「1」となる。そのため、分析対象テキストの「故障状況」というトピックで出現度合いの高い、単語「表示」の記載スコアの方が、単語「プリンター」の記載スコアより大きくなる。従って、共通語抽出部237により、記載スコアを算出し、統計的モデル生成部233により、記載スコアが高い単語程、特定のトピックでの出現度合いが高まるように統計的モデルを生成するのが良い。これにより、分析対象テキストの解析により適した統計的モデルの生成が可能となる。
また、本実施例3では、関連箇所特定部231を構成する対応付け部235は、対応度スコアを算出し、該対応度スコアを用いて、記載スコアを算出する事もできる。対応度スコアは、分析対象テキストのセグメントと対応先のトピック関連テキストのセグメントとの内容の一致の程度を示し、一致の程度が高い程、値が高くなる。従って、対応度スコアが高い程、分析対象テキストのセグメントは、対応先のトピック関連テキストのセグメントと内容が一致し、特定のトピックに関する記述となっている可能性が高くなる。そのため、対応度スコアが高い箇所に含まれている単語程、特定のトピックに関与する可能性が高くなる。従って、対応度スコアが高い単語程、記載スコアをその値が高くなるように算出するのが好ましい。これにより、記載スコアは、分析対象テキストにおける特定のトピックに関する部分で使用されている可能性を表すスコアとして適切なものとなる。
なお、実施例2において、ステップB4及びステップB5の処理と並列してステップC5の処理を実行し、更に、ステップB6において、ステップC5の結果も入力し、ステップC6と同様の処理を行うこともできる。この場合は、実施例2においても、実施例3における効果が得られることとなる。
ここで、上述した実施の形態及び実施例におけるプログラムを実行することによって、情報分析装置を実現するコンピュータについて図23を用いて説明する。図23は、本発明の実施の形態及び実施例におけるプログラムを実行可能なコンピュータを示すブロック図である。
図23に示すように、コンピュータ310は、CPU311と、メインメモリ312と、記憶装置313と、入力インターフェイス314と、表示コントローラ315と、データリーダ/ライタ316と、通信インターフェイス317とを備える。これらの各部は、バス321を介して、互いにデータ通信可能に接続される。
CPU311は、記憶装置313に格納されたプログラム(コード)をメインメモリ312に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ312は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、プログラムは、コンピュータ読み取り可能な記録媒体320に格納された状態で提供される。なお、プログラムは、通信インターフェイス317を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置313の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス314は、CPU311と、キーボード及びマウスといった入力機器318との間のデータ伝送を仲介する。表示コントローラ315は、ディスプレイ装置319と接続され、ディスプレイ装置319での表示を制御する。
データリーダ/ライタ316は、CPU311と記録媒体320との間のデータ伝送を仲介し、記録媒体320からのプログラムの読み出し、及び処理結果の記録媒体320への書き込みを実行する。通信インターフェイス317は、CPU311と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体320の具体例としては、CF(Compact Flash)及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk
Read Only Memory)等の光学記憶媒体が挙げられる。
以上、実施の形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施の形態及び実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年6月26日に出願された日本出願特願2009−152758を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本願発明における、情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体は、以下の特徴を有する。
(1)分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成する情報分析装置であって、
前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、関連箇所特定部と、
前記関連箇所特定部によって特定された前記部分に含まれる単語を抽出する、潜在トピック語抽出部と、
前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成する、統計的モデル生成部とを備え、
前記統計的モデル生成部は、前記第二のテキストに含まれる単語、及び前記潜在トピック語抽出部によって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるように、前記統計的モデルを生成する、ことを特徴とする情報分析装置。
(2)前記関連箇所特定部が、
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、上記(1)に記載の情報分析装置。
(3)前記関連箇所特定部が、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、上記(2)に記載の情報分析装置。
(4)前記関連箇所特定部が、
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、上記(2)に記載の情報分析装置。
(5)前記潜在トピック語抽出部が、前記関連箇所特定部によって特定された前記部分に含まれる単語の中から、
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記関連箇所特定部によって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、
前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、上記(1)に記載の情報分析装置。
(6)前記潜在トピック語抽出部が、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出し、
前記統計的モデル生成部が、対応する前記トピック関連スコアの値が高い程、抽出された前記単語の出現度合いが高くなるように、前記統計的モデルを生成する、上記(1)に記載の情報分析装置。
(7)前記関連箇所特定部が、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
前記潜在トピック語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、上記(6)に記載の情報分析装置。
(8)前記関連箇所特定部によって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、共通語抽出部を更に備え、
前記統計的モデル生成部が、更に、前記共通語抽出部によって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、上記(1)に記載の情報分析装置。
(9)前記共通語抽出部が、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
前記統計的モデル生成部が、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、上記(8)に記載の情報分析装置。
(10)前記関連箇所特定部が、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
前記共通語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、上記(9)に記載の情報分析装置。
(11)分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成するための方法であって、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を有する、ことを特徴とする情報分析方法。
(12)前記(a)のステップにおいて、
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、上記(11)に記載の情報分析方法。
(13)前記(a)のステップにおいて、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、上記(12)に記載の情報分析方法。
(14)前記(a)のステップにおいて、
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、上記(12)に記載の情報分析方法。
(15)前記(b)のステップにおいて、前記(a)のステップによって特定された前記部分に含まれる単語の中から、
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、上記(11)に記載の情報分析方法。
(16)前記(b)のステップにおいて、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出し、
前記(c)のステップにおいて、対応する前記トピック関連スコアの値が高い程、抽出された前記単語の出現度合いが高くなるように、前記統計的モデルを生成する、上記(11)に記載の情報分析方法。
(17)前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、上記(16)に記載の情報分析方法。
(18)(d)前記(a)のステップによって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、ステップを更に備え、
前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、上記(11)に記載の情報分析方法。
(19)前記(d)のステップにおいて、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、上記(18)に記載の情報分析方法。
(20)前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、上記(19)に記載の情報分析方法。
(21)分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを、コンピュータによって生成するためのプログラムであって、
前記コンピュータに、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を実行させるプログラム。
(22)前記(a)のステップにおいて、
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、上記(21)に記載のプログラム
(23)前記(a)のステップにおいて、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、上記(22)に記載のプログラム
(24)前記(a)のステップにおいて、
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、上記(22)に記載のコプログラム
(25)前記(b)のステップにおいて、前記(a)のステップによって特定された前記部分に含まれる単語の中から、
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、上記(21)に記載のプログラム
(26)前記(b)のステップにおいて、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出し、
前記(c)のステップにおいて、対応する前記トピック関連スコアの値が高い程、抽出された前記単語の出現度合いが高くなるように、前記統計的モデルを生成する、上記(21)に記載のプログラム
(27)前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、上記(26)に記載のプログラム
(28)前記プログラムが、前記コンピュータに、更に、
(d)前記(a)のステップによって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、ステップを実行させる、命令を含み、
前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、上記(21)に記載のプログラム
(29)前記(d)のステップにおいて、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、上記(28)に記載のプログラム
(30)前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、上記(29)に記載のプログラム
本発明は、分析対象テキストと、該分析対象テキストと同一の事象について記載され、且つ、特定のトピックに関して記述している、トピック関連テキストとが存在する場合に適用できる。特に、本発明は、トピック関連テキストと、分析対象テキスト内の特定のトピックに関する部分とが同一ではなく、それぞれで使用されている単語が互いに異なる場合に効果を発揮する。
例えば、コールセンターの通話音声からは、通話音声の音声認識テキストと、通話音声を書き起こすことによって得られた応対メモとが得られる。本発明は、音声認識テキストを分析対象テキストとし、応対メモにおける特定のトピックについてのテキストをトピック関連テキストとした場合に適用でき、効果を発揮する。
また、本発明は、例えば、ニュース番組のテキストを分析対象テキストとし、ニュース番組と同一の日付の新聞記事のうち特定のトピックに該当する記事をトピック関連テキストとした場合にも適用でき、効果を発揮する。
更に、本発明は、会議音声の音声認識テキストやその書き起こしのテキストを分析対象テキストとし、該会議に対して作成された議事録や該会議における発表資料の中で特定のトピックについてのテキストをトピック関連テキストとした場合にも適用でき、効果を発揮する。
また、本発明は、論文を分析対象テキストとし、該論文の発表資料の中で特定のトピックについてのテキストをトピック関連テキストとした場合にも適用でき、効果を発揮する。
10 入力装置(実施の形態1)
20 出力装置(実施の形態1)
30 情報分析装置(実施の形態1)
31 関連箇所特定部(実施の形態1)
32 潜在トピック語抽出部(実施の形態1)
33 統計的モデル生成部(実施の形態1)
34 セグメント分割部(実施の形態1)
35 対応付け部(実施の形態1)
36 単語抽出部(実施の形態1)
110 入力装置(実施の形態2)
120 出力装置(実施の形態2)
130 情報分析装置(実施の形態2)
131 関連箇所特定部(実施の形態2)
132 潜在トピック語抽出部(実施の形態2)
133 統計的モデル生成部(実施の形態2)
134 セグメント分割部(実施の形態2)
135 対応付け部(実施の形態2)
136 単語抽出部(実施の形態2)
137 フィルタリング部(実施の形態2)
210 入力装置(実施の形態3)
220 出力装置(実施の形態3)
230 情報分析装置(実施の形態3)
231 関連箇所特定部(実施の形態3)
232 潜在トピック語抽出部(実施の形態3)
233 統計的モデル生成部(実施の形態3)
234 セグメント分割部(実施の形態3)
235 対応付け部(実施の形態3)
236 単語抽出部(実施の形態3)
237 共通語抽出部(実施の形態3)
310 コンピュータ
311 CPU
312 メインメモリ
313 記憶装置
314 入力インターフェイス
315 表示コントローラ
316 データリーダ/ライタ
317 通信インターフェイス
318 入力機器
319 ディスプレイ装置
320 記録媒体
321 バス

Claims (27)

  1. 分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成する情報分析装置であって、
    前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、関連箇所特定部と、
    前記関連箇所特定部によって特定された前記部分に含まれる単語を抽出し、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出する、潜在トピック語抽出部と、
    前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成する、統計的モデル生成部とを備え、
    前記統計的モデル生成部は、前記第二のテキストに含まれる単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなり、更に、前記潜在トピック語抽出部によって抽出された前記単語についての前記特定のトピックでの出現度合いが、対応する前記トピック関連スコアの値が高い程高くなるように、前記統計的モデルを生成する、ことを特徴とする情報分析装置。
  2. 前記関連箇所特定部が、
    前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
    前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
    前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、請求項1に記載の情報分析装置。
  3. 前記関連箇所特定部が、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、請求項2に記載の情報分析装置。
  4. 前記関連箇所特定部が、
    文毎、又は段落毎に、前記セグメントへの分割を実行し、
    更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、請求項2または3に記載の情報分析装置。
  5. 前記潜在トピック語抽出部が、前記関連箇所特定部によって特定された前記部分に含まれる単語の中から、
    予め設定された種類の単語、
    出現回数が予め設定された閾値以上となる単語、
    前記関連箇所特定部によって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、
    前記共通語からの距離が予め定められた閾値以下となる単語、
    前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
    これらの単語のうち2以上に相当する単語を特定し、
    特定した単語を抽出する、請求項1〜4のいずれかに記載の情報分析装置。
  6. 前記関連箇所特定部が、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
    前記潜在トピック語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、請求項に記載の情報分析装置。
  7. 前記関連箇所特定部によって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、共通語抽出部を更に備え、
    前記統計的モデル生成部が、更に、前記共通語抽出部によって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、請求項1〜のいずれかに記載の情報分析装置。
  8. 前記共通語抽出部が、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
    前記統計的モデル生成部が、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、請求項に記載の情報分析装置。
  9. 前記関連箇所特定部が、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
    前記共通語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、請求項に記載の情報分析装置。
  10. 分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成するための方法であって、
    (a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
    (b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出し、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出する、ステップと、
    (c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなり、更に、前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合が、対応する前記トピック関連スコアの値が高い程高くなるようにする、ステップと、
    を有する、ことを特徴とする情報分析方法。
  11. 前記(a)のステップにおいて、
    前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
    前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
    前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、請求項10に記載の情報分析方法。
  12. 前記(a)のステップにおいて、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、請求項11に記載の情報分析方法。
  13. 前記(a)のステップにおいて、
    文毎、又は段落毎に、前記セグメントへの分割を実行し、
    更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、請求項11または12に記載の情報分析方法。
  14. 前記(b)のステップにおいて、前記(a)のステップによって特定された前記部分に含まれる単語の中から、
    予め設定された種類の単語、
    出現回数が予め設定された閾値以上となる単語、
    前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
    前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
    これらの単語のうち2以上に相当する単語を特定し、
    特定した単語を抽出する、請求項1013に記載の情報分析方法。
  15. 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
    前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、請求項10に記載の情報分析方法。
  16. (d)前記(a)のステップによって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、ステップを更に備え、
    前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、請求項1014のいずれかに記載の情報分析方法。
  17. 前記(d)のステップにおいて、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
    前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、請求項16に記載の情報分析方法。
  18. 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
    前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、請求項17に記載の情報分析方法。
  19. 分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを、コンピュータによって生成するためのプログラムであって、
    前記コンピュータに、
    (a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
    (b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出し、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出する、ステップと、
    (c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなり、更に、前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合が、対応する前記トピック関連スコアの値が高い程高くなるようにする、ステップと、
    を実行させるプログラム。
  20. 前記(a)のステップにおいて、
    前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
    前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
    前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、請求項19に記載のプログラム。
  21. 前記(a)のステップにおいて、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、請求項20に記載のプログラム。
  22. 前記(a)のステップにおいて、
    文毎、又は段落毎に、前記セグメントへの分割を実行し、
    更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、請求項20または21に記載のプログラム。
  23. 前記(b)のステップにおいて、前記(a)のステップによって特定された前記部分に含まれる単語の中から、
    予め設定された種類の単語、
    出現回数が予め設定された閾値以上となる単語、
    前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
    前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
    これらの単語のうち2以上に相当する単語を特定し、
    特定した単語を抽出する、請求項1922に記載のプログラム。
  24. 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
    前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、請求項19に記載のプログラム
  25. 前記プログラムが、前記コンピュータに、更に、
    (d)前記(a)のステップによって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、ステップを実行させる、命令を含み、
    前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、請求項1923のいずれかに記載のプログラム。
  26. 前記(d)のステップにおいて、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
    前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、請求項25に記載のプログラム。
  27. 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
    前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、請求項26に記載のプログラム。
JP2011519511A 2009-06-26 2010-05-28 情報分析装置、情報分析方法、及びプログラム Expired - Fee Related JP5440815B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011519511A JP5440815B2 (ja) 2009-06-26 2010-05-28 情報分析装置、情報分析方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009152758 2009-06-26
JP2009152758 2009-06-26
PCT/JP2010/003609 WO2010150464A1 (ja) 2009-06-26 2010-05-28 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
JP2011519511A JP5440815B2 (ja) 2009-06-26 2010-05-28 情報分析装置、情報分析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010150464A1 JPWO2010150464A1 (ja) 2012-12-06
JP5440815B2 true JP5440815B2 (ja) 2014-03-12

Family

ID=43386254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011519511A Expired - Fee Related JP5440815B2 (ja) 2009-06-26 2010-05-28 情報分析装置、情報分析方法、及びプログラム

Country Status (3)

Country Link
US (1) US20120096029A1 (ja)
JP (1) JP5440815B2 (ja)
WO (1) WO2010150464A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012151743A1 (en) * 2011-05-10 2012-11-15 Nokia Corporation Methods, apparatuses and computer program products for providing topic model with wording preferences
US9691395B1 (en) * 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
US9275636B2 (en) 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
US9569413B2 (en) * 2012-05-07 2017-02-14 Sap Se Document text processing using edge detection
JPWO2014020834A1 (ja) * 2012-07-31 2016-07-21 日本電気株式会社 単語潜在トピック推定装置および単語潜在トピック推定方法
US10152533B2 (en) * 2012-10-18 2018-12-11 Thomson Reuters Global Resources Unlimited Company System, method and interface for providing a search result using segment constraints
JP6020161B2 (ja) * 2012-12-28 2016-11-02 富士通株式会社 グラフ作成プログラム、情報処理装置、およびグラフ作成方法
US20150100582A1 (en) * 2013-10-08 2015-04-09 Cisco Technology, Inc. Association of topic labels with digital content
CN104978320B (zh) * 2014-04-02 2018-11-02 东华软件股份公司 一种基于相似度的知识推荐方法和设备
US10061867B2 (en) 2014-12-30 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for interactive multi-resolution topic detection and tracking
US10354010B2 (en) * 2015-04-24 2019-07-16 Nec Corporation Information processing system, an information processing method and a computer readable storage medium
US20160350696A1 (en) * 2015-05-26 2016-12-01 International Business Machines Corporation Integrating dynamic interpersonal relationships in an organization hierarchy
US9959341B2 (en) 2015-06-11 2018-05-01 Nuance Communications, Inc. Systems and methods for learning semantic patterns from textual data
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
US10255283B1 (en) * 2016-09-19 2019-04-09 Amazon Technologies, Inc. Document content analysis based on topic modeling
US10558657B1 (en) 2016-09-19 2020-02-11 Amazon Technologies, Inc. Document content analysis based on topic modeling
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
CN108090047B (zh) * 2018-01-10 2022-05-24 华南师范大学 一种文本相似度的确定方法及设备
JP7235960B2 (ja) 2019-02-07 2023-03-09 富士通株式会社 ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置
US11361165B2 (en) * 2020-03-27 2022-06-14 The Clorox Company Methods and systems for topic detection in natural language communications
CN113496118B (zh) * 2020-04-07 2024-05-31 北京中科闻歌科技股份有限公司 一种新闻主体识别方法、设备和计算机可读存储介质
CN112256860B (zh) * 2020-11-25 2024-01-30 携程计算机技术(上海)有限公司 客服对话内容的语义检索方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034624A (ja) * 1999-07-19 2001-02-09 Fujitsu Ltd 文書要約装置およびその方法
US20040264652A1 (en) * 2003-06-24 2004-12-30 Erhart George W. Method and apparatus for validating agreement between textual and spoken representations of words
WO2005069158A2 (ja) * 2004-01-16 2005-07-28 Nec Corp テキスト処理方法/プログラム/プログラム記録媒体/装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104989A (en) * 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
US6560597B1 (en) * 2000-03-21 2003-05-06 International Business Machines Corporation Concept decomposition using clustering
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US7844555B2 (en) * 2007-11-13 2010-11-30 Microsoft Corporation Ranker selection for statistical natural language processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034624A (ja) * 1999-07-19 2001-02-09 Fujitsu Ltd 文書要約装置およびその方法
US20040264652A1 (en) * 2003-06-24 2004-12-30 Erhart George W. Method and apparatus for validating agreement between textual and spoken representations of words
WO2005069158A2 (ja) * 2004-01-16 2005-07-28 Nec Corp テキスト処理方法/プログラム/プログラム記録媒体/装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200900092080; 田村晃裕、外2名: 'トピック分割を用いた通話とコールメモの差分生成法の提案' 言語処理学会第15回年次大会発表論文集 , 20090302, p.356-359, 言語処理学会 *
CSNG200900158106; 三木清一、外2名: 'コールセンタオペレータ通話認識における話し言葉認識言語モデルの効率的な構築' マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム論文集[CD-ROM] 第2007巻,第1号, 20070629, p.784-790, 社団法人情報処理学会 *
CSNJ200910045117; 田村晃裕、外2名: 'コールセンターのコールメモと通話を対象とした差分マイニング' FIT2008 第7回情報科学技術フォーラム 講演論文集 第2分冊 , 20080820, p.295-298, 社団法人電子情報通信学会 *
JPN6010035377; 田村晃裕、外2名: 'トピック分割を用いた通話とコールメモの差分生成法の提案' 言語処理学会第15回年次大会発表論文集 , 20090302, p.356-359, 言語処理学会 *
JPN6010035378; 三木清一、外2名: 'コールセンタオペレータ通話認識における話し言葉認識言語モデルの効率的な構築' マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム論文集[CD-ROM] 第2007巻,第1号, 20070629, p.784-790, 社団法人情報処理学会 *
JPN6010035379; 田村晃裕、外2名: 'コールセンターのコールメモと通話を対象とした差分マイニング' FIT2008 第7回情報科学技術フォーラム 講演論文集 第2分冊 , 20080820, p.295-298, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
JPWO2010150464A1 (ja) 2012-12-06
US20120096029A1 (en) 2012-04-19
WO2010150464A1 (ja) 2010-12-29

Similar Documents

Publication Publication Date Title
JP5440815B2 (ja) 情報分析装置、情報分析方法、及びプログラム
US10418029B2 (en) Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US9201862B2 (en) Method for symbolic correction in human-machine interfaces
US11734514B1 (en) Automated translation of subject matter specific documents
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
EP2572355A2 (en) Voice stream augmented note taking
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
US9336186B1 (en) Methods and apparatus related to sentence compression
WO2010023938A1 (ja) テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
CN114999463B (zh) 语音识别方法、装置、设备及介质
JP2021022211A (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
WO2011071174A1 (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
JP5713963B2 (ja) 音声認識単語追加装置とその方法とプログラム
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
Kozielski et al. Open-lexicon language modeling combining word and character levels
WO2010023939A1 (ja) テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
JP5849960B2 (ja) 含意判定装置、方法、およびプログラム
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
WO2012131822A1 (ja) 音声認識結果整形装置、音声認識結果整形方法及びプログラム
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
JP2013109738A (ja) 意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム
US20180033425A1 (en) Evaluation device and evaluation method
JP2018073298A (ja) 人工知能装置による手段・方法の自動抽出・作成方法
CN112749555A (zh) 变形词识别方法和装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131203

R150 Certificate of patent or registration of utility model

Ref document number: 5440815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees