JP5440815B2 - 情報分析装置、情報分析方法、及びプログラム - Google Patents
情報分析装置、情報分析方法、及びプログラムInfo
- Publication number
- JP5440815B2 JP5440815B2 JP2011519511A JP2011519511A JP5440815B2 JP 5440815 B2 JP5440815 B2 JP 5440815B2 JP 2011519511 A JP2011519511 A JP 2011519511A JP 2011519511 A JP2011519511 A JP 2011519511A JP 5440815 B2 JP5440815 B2 JP 5440815B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- word
- topic
- score
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 292
- 238000013179 statistical model Methods 0.000 claims description 295
- 238000000605 extraction Methods 0.000 claims description 117
- 238000000034 method Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 description 58
- 238000010586 diagram Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 30
- 239000000284 extract Substances 0.000 description 20
- 230000004044 response Effects 0.000 description 19
- 230000000877 morphologic effect Effects 0.000 description 16
- 238000010606 normalization Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 9
- 238000012790 confirmation Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000002344 surface layer Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、関連箇所特定部と、
前記関連箇所特定部によって特定された前記部分に含まれる単語を抽出する、潜在トピック語抽出部と、
前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成する、統計的モデル生成部とを備え、
前記統計的モデル生成部は、前記第二のテキストに含まれる単語、及び前記潜在トピック語抽出部によって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるように、前記統計的モデルを生成する、ことを特徴とする。
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を有する、ことを特徴とする。
前記コンピュータに、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を実行させることを特徴とする。
以下、本発明の実施の形態1における、情報分析装置、情報分析方法、及びプログラムについて、図1及び図2を参照しながら説明する。最初に、本実施の形態1における情報分析装置の構成について図1を用いて説明する。図1は、本発明の実施の形態1における情報分析装置の構成を示すブロック図である。
次に、本発明の実施の形態2における、情報分析装置、情報分析方法、及びプログラムについて、図3及び図4を参照しながら説明する。最初に、本実施の形態2における情報分析装置の構成について図3を用いて説明する。図3は、本発明の実施の形態2における情報分析装置の構成を示すブロック図である。
(2)出現回数が予め設定された閾値以上となる単語
(3)共通語が位置する節の中に位置している単語
(4)共通語からの距離が予め定められた閾値以下となる単語
(5)共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語
(6)上記(1)〜(5)の単語のうち2以上に相当する単語
次に本発明の実施の形態3における、情報分析装置、情報分析方法、及びプログラムについて、図5及び図6を参照しながら説明する。最初に、本実施の形態3における情報分析装置の構成について図5を用いて説明する。図5は、本発明の実施の形態3における情報分析装置の構成を示すブロック図である。
Unit)は、関連箇所特定部231、潜在トピック語抽出部232、統計的モデル生成部233、及び共通語抽出部237として機能し、処理を行なう。
以下、図7〜図16、図19を参照しながら、実施の形態1における情報分析装置及び情報分析方法の具体的な実施例を説明する。また、以下においては、図2に示したフロー図に沿って、実施の形態1におけるテキスト処理装置の動作を説明する。なお、適宜、図1も参酌する。
まず、入力装置10は、通話の音声認識テキストを分析対象テキストとして、また、元となった通話から作成された応対メモの特定のトピック「故障状況」に記載されたテキストをトピック関連テキストとして、情報分析装置30に入力する。これにより、セグメント分割部34は、入力装置10からの分析対象テキスト及びトピック関連テキストの入力を受け付ける。
具体的には、セグメント分割部34は、分析対象テキスト及びトピック関連テキストを、分析の処理単位であるセグメントに分割する。例えば、分析単位のセグメントが文である場合、文のセパレータが予め定められているので、セグメント分割部34は、そのセパレータ間を一つのセグメントとして分割する。
続いて、対応付け部35は、トピック関連テキスト内の各セグメントに対して、該セグメントと同じ情報を持つ分析対象テキスト内のセグメントを対応付ける。ここで、図10に示すトピック関連テキスト内のセグメントID=3に対して、図9に示す分析対象テキスト内のセグメントから、同じ情報を持つセグメントを対応付ける処理を例に取り、図11を用いて、以下に説明する。図11(a)は、図10に示した応対メモの形態素解析の結果を示す図であり、図11(b)及び図11(c)は、それぞれ、図9に示した認識結果の形態素解析の結果を示す図である。
R. Barzilay and N. Elhadad, “Sentence
Alignment for Monolingual Comparable Corpora”, In
Proceedings of the Conference on Empirical Methods in NaturalLanguage
Processing (EMNLP 2003), pp.25-32, 2003.
続いて、潜在トピック語抽出部32(単語抽出部36)は、関連箇所特定部31からの結果を受け取り、分析対象テキストの中でトピック関連テキストに関連付けられた箇所から、特定のトピックに関連する可能性が高い単語を抽出する。具体的には、単語抽出部36は、ステップA3によって得られた、分析対象テキストのトピック関連テキストへの対応付けの結果を受け取る。そして、単語抽出部36は、分析対象テキスト内のセグメントの内、トピック関連テキスト内のセグメントに対応付けられたセグメントを、トピック関連テキストとの関連箇所として特定する。次いで、単語抽出部36は、特定したセグメント内の単語を、特定のトピックに関連する可能性が高い単語として抽出する。
続いて、統計的モデル生成部33は、入力装置10から、トピック関連テキストを受け取り、潜在トピック語抽出部32から、ステップA4の抽出結果を受け取る。そして、統計的モデル生成部33は、これらを用いて、分析対象テキスト内の各単語の特定のトピックに対する出現度合いを推定する統計的モデルを生成する。この時、統計的モデル生成部33は、トピック関連テキスト内の単語及びステップA4で抽出された単語に対して、特定のトピックでの出現度合いが高まるように、統計的モデルを生成する。
最後に、統計的モデル生成部33は、ステップA5で生成された統計的モデルを出力装置20に出力する。統計的モデルは、図15又は図16に示すように、分析対象テキスト内の単語が入力されると、該単語の特定のトピックに関する出現度合いを出力する。ここで、出現度合いは、図15に示す、単語の出現のし易さを示す確率であっても良いし、図16に示す、出現し易いほど値が大きくなり、出現し難いほど値が小さくなるスコアであっても良い。図15は、実施例1によって得られる統計的モデルの一例を示す図である。図16は、実施例1によって得られる統計的モデルの他の例を示す図である。
以下に、本実施例1の効果を説明する。一般に、何の関係もない任意の対となったテキスト間においては、セグメント間の単語が似ていても、これらセグメント同士が同じ情報を示し、同一のトピックに関連しているとは限らないと考えられる。これに対して、本実施例1では、分析対象テキストと、トピック関連テキストとは、同一の事象について記載されているので、トピック関連テキストに関連した部分が、分析対象テキストに存在している場合がほとんどである。このため、ある程度、単語類似度が高い場合は、セグメント間において、情報は関連し、且つ、それぞれが関連するトピックは同一である可能性が高いと考えられる。
次に、図17を参照しながら、実施の形態2における情報分析装置及び情報分析方法の具体的な実施例を説明する。また、以下においては、図4に示したフロー図に沿って、実施の形態2における情報分析装置の動作を説明する。なお、適宜、図3も参酌する。
最初に、ステップB1〜B4が実行される。本実施例2におけるステップB1〜B4は、実施例1におけるステップA1〜A4と同様に行われる。但し、本実施例2では、ステップB4において、単語抽出部136は、抽出した単語、又は抽出した単語とそのトピック関連スコアとを出力するのに加え、各単語が属していたセグメントIDも共に出力することができる。この場合、出力されたセグメントIDは、フィルタリング部137での処理に使用される。
続いて、フィルタリング部137は、ステップB4で抽出された単語の中から、特定のトピックに関連する可能性が特に高い単語を特定し、特定した単語を出力する。このとき、フィルタリング部137は、例えば、上述した実施の形態2で説明した、上記(1)〜(6)のいずれかに該当する単語を特定する。言い換えると、フィルタリング部137は、単語の種類、単語の出現回数、単語の位置、単語の共通語からの距離、共通語を含む節からの係り受け距離、及びこれらの組み合わせを判断の基準に用いて、単語の特定を行う。ここで、フィルタリング部137の動作を、入力されるデータの種類と単語の特定で用いられる基準の種類とに応じて場合分けし、以下に場合毎に説明する。
まず、フィルタリング部137に、トピック関連テキスト内のセグメントに対応付けられた、分析対象テキスト内のセグメント中の単語、又は該単語と該単語が属するセグメントIDとが入力された場合の動作を説明する。この場合、トピック関連スコアは、フィルタリング部137には入力されていない。また、以下の説明では、具体例として、フィルタリング部137に、分析対象テキストのセグメントID=31内の11種類(英語の場合は12種類)の単語が入力された場合を挙げ、この場合の動作を説明する。
come out of/the printer/since
yesterday.」となる。よって、共通語は、「yesterday」と「printer」とであるから、共通語と同一節内にある、「since」、「yesterday」、「the」、「printer」が特定される。
次に、フィルタリング部137に、トピック関連テキスト内のセグメントに対応付けられた、分析対象テキスト内のセグメント中の単語、又は該単語と該単語が属するセグメントIDに加えて、単語抽出部136で算出されたトピック関連スコアが入力される場合の動作を説明する。
ステップB5の実行後、統計的モデル生成部133によってステップB6が実行される。これにより、フィルタリング部137によって特定された単語の出現度合いが高められた統計的モデルが生成される。そして、統計的モデル生成部133は、ステップB6の実行後、ステップB7を実行する。本実施例2におけるステップB6及びB7は、実施例1におけるステップA5及びA6と同様に行われる。
以下に、本実施例2の効果を説明する。本実施例2では、実施例1と異なり、トピック関連テキストのセグメントに対応付けられた分析対象テキストのセグメントの単語の中から、フィルタリング部137によって、特定のトピックに関連する可能性が特に高い単語が特定される。また、本実施例2では、フィルタリング部137によって特定された単語の出現度合いが高くなるように統計的モデルが生成される。
次に、図18を参照しながら、実施の形態3における情報分析装置及び情報分析方法の具体的な実施例を説明する。また、以下においては、図6に示したフロー図に沿って、実施の形態3における情報分析装置の動作を説明する。なお、適宜、図5も参酌する。
最初に、ステップC1〜C4が実行される。本実施例3におけるステップC1〜C4は、実施例1におけるステップA1〜A4と同様に行われる。
ステップC4と同時に、又はステップC4の後に、共通語抽出部237は、ステップC5を実行する。具体的には、共通語抽出部237は、先ず、ステップC3における解析によって得られた、分析対象テキストとトピック関連テキストとの対応付けの結果を受け取る。そして、共通語抽出部237は、トピック関連テキスト中の単語から、分析対象テキスト中の特定のトピックの部分で使用された単語を抽出する。
まず、共通語抽出部237に、対応度スコアは入力されず、トピック関連テキストの各セグメントに対応付けられたセグメントのみが入力された場合の動作を説明する。例えば、入力が図13に示す例である場合、共通語抽出部237は、トピック関連テキストのセグメント中に含まれる単語のうち、対応付けられた分析対象テキストのセグメントに含まれる単語と、原形の表層及び品詞において一致する単語とを、共通語として抽出する。これにより、図18に示す結果が得られる。図18は、実施例3によって抽出された共通語の一例を示す図である。
次に、共通語抽出部237に、トピック関連テキストの各セグメントに対応付けられたセグメントと共に、対応度スコアが入力された場合の動作を説明する。この場合、共通語抽出部237は、対応度スコアが入力されなかった上記の場合と同様にして、共通語を抽出する。また、この場合も、共通語抽出部237は、抽出した共通語のみを出力しても良いし、抽出した共通語と共に、共通語の記載スコアを出力することもできる。
ステップC4及びC5に続いて、統計的モデル生成部233は、入力装置210から、トピック関連テキストを受け取り、潜在トピック語抽出部232から、ステップC4での単語の抽出結果を受け取る。本実施例3では、実施例1及び2と異なり、統計的モデル生成部233は、共通語抽出部237から、ステップC5での共通語の抽出結果も受け取る。そして、統計的モデル生成部233は、これらの結果を用いて、分析対象テキスト内の各単語の特定のトピックでの出現度合いを推定する統計的モデルを生成する。
ステップC6の実行後、統計的モデル生成部233は、ステップC7を実行する。本実施例3におけるステップC7は、実施例1におけるステップA6と同様に行われる。
本実施例3では、実施例1及び2と異なり、統計的モデル生成部233は、特定のトピックについて、共通語抽出部237で抽出された共通語の出現度合いが、トピック関連テキスト中の共通語以外の単語の出現度合いよりも高くなるように、統計的モデルを生成する。このため、本実施例3では、実際には分析対象テキスト中の特定のトピック以外の部分で使用されている単語による、統計的モデルへの悪影響が緩和される。本実施例3によれば、統計的モデルの推定精度の更なる向上が図られる。
Read Only Memory)等の光学記憶媒体が挙げられる。
前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、関連箇所特定部と、
前記関連箇所特定部によって特定された前記部分に含まれる単語を抽出する、潜在トピック語抽出部と、
前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成する、統計的モデル生成部とを備え、
前記統計的モデル生成部は、前記第二のテキストに含まれる単語、及び前記潜在トピック語抽出部によって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるように、前記統計的モデルを生成する、ことを特徴とする情報分析装置。
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、上記(1)に記載の情報分析装置。
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、上記(2)に記載の情報分析装置。
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記関連箇所特定部によって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、
前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、上記(1)に記載の情報分析装置。
前記統計的モデル生成部が、対応する前記トピック関連スコアの値が高い程、抽出された前記単語の出現度合いが高くなるように、前記統計的モデルを生成する、上記(1)に記載の情報分析装置。
前記潜在トピック語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、上記(6)に記載の情報分析装置。
前記統計的モデル生成部が、更に、前記共通語抽出部によって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、上記(1)に記載の情報分析装置。
前記統計的モデル生成部が、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、上記(8)に記載の情報分析装置。
前記共通語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、上記(9)に記載の情報分析装置。
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を有する、ことを特徴とする情報分析方法。
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、上記(11)に記載の情報分析方法。
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、上記(12)に記載の情報分析方法。
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、上記(11)に記載の情報分析方法。
前記(c)のステップにおいて、対応する前記トピック関連スコアの値が高い程、抽出された前記単語の出現度合いが高くなるように、前記統計的モデルを生成する、上記(11)に記載の情報分析方法。
前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、上記(16)に記載の情報分析方法。
前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、上記(11)に記載の情報分析方法。
前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、上記(18)に記載の情報分析方法。
前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、上記(19)に記載の情報分析方法。
前記コンピュータに、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語、及び前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなるようにする、ステップと、
を実行させるプログラム。
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、上記(21)に記載のプログラム。
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、上記(22)に記載のコプログラム。
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、上記(21)に記載のプログラム。
前記(c)のステップにおいて、対応する前記トピック関連スコアの値が高い程、抽出された前記単語の出現度合いが高くなるように、前記統計的モデルを生成する、上記(21)に記載のプログラム。
前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、上記(26)に記載のプログラム。
(d)前記(a)のステップによって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、ステップを実行させる、命令を含み、
前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、上記(21)に記載のプログラム。
前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、上記(28)に記載のプログラム。
前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、上記(29)に記載のプログラム。
20 出力装置(実施の形態1)
30 情報分析装置(実施の形態1)
31 関連箇所特定部(実施の形態1)
32 潜在トピック語抽出部(実施の形態1)
33 統計的モデル生成部(実施の形態1)
34 セグメント分割部(実施の形態1)
35 対応付け部(実施の形態1)
36 単語抽出部(実施の形態1)
110 入力装置(実施の形態2)
120 出力装置(実施の形態2)
130 情報分析装置(実施の形態2)
131 関連箇所特定部(実施の形態2)
132 潜在トピック語抽出部(実施の形態2)
133 統計的モデル生成部(実施の形態2)
134 セグメント分割部(実施の形態2)
135 対応付け部(実施の形態2)
136 単語抽出部(実施の形態2)
137 フィルタリング部(実施の形態2)
210 入力装置(実施の形態3)
220 出力装置(実施の形態3)
230 情報分析装置(実施の形態3)
231 関連箇所特定部(実施の形態3)
232 潜在トピック語抽出部(実施の形態3)
233 統計的モデル生成部(実施の形態3)
234 セグメント分割部(実施の形態3)
235 対応付け部(実施の形態3)
236 単語抽出部(実施の形態3)
237 共通語抽出部(実施の形態3)
310 コンピュータ
311 CPU
312 メインメモリ
313 記憶装置
314 入力インターフェイス
315 表示コントローラ
316 データリーダ/ライタ
317 通信インターフェイス
318 入力機器
319 ディスプレイ装置
320 記録媒体
321 バス
Claims (27)
- 分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成する情報分析装置であって、
前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、関連箇所特定部と、
前記関連箇所特定部によって特定された前記部分に含まれる単語を抽出し、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出する、潜在トピック語抽出部と、
前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成する、統計的モデル生成部とを備え、
前記統計的モデル生成部は、前記第二のテキストに含まれる単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなり、更に、前記潜在トピック語抽出部によって抽出された前記単語についての前記特定のトピックでの出現度合いが、対応する前記トピック関連スコアの値が高い程高くなるように、前記統計的モデルを生成する、ことを特徴とする情報分析装置。 - 前記関連箇所特定部が、
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、請求項1に記載の情報分析装置。 - 前記関連箇所特定部が、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、請求項2に記載の情報分析装置。
- 前記関連箇所特定部が、
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、請求項2または3に記載の情報分析装置。 - 前記潜在トピック語抽出部が、前記関連箇所特定部によって特定された前記部分に含まれる単語の中から、
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記関連箇所特定部によって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、
前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、請求項1〜4のいずれかに記載の情報分析装置。 - 前記関連箇所特定部が、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
前記潜在トピック語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、請求項1に記載の情報分析装置。 - 前記関連箇所特定部によって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、共通語抽出部を更に備え、
前記統計的モデル生成部が、更に、前記共通語抽出部によって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、請求項1〜5のいずれかに記載の情報分析装置。 - 前記共通語抽出部が、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
前記統計的モデル生成部が、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、請求項7に記載の情報分析装置。 - 前記関連箇所特定部が、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
前記共通語抽出部が、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、請求項8に記載の情報分析装置。 - 分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを生成するための方法であって、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出し、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなり、更に、前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合が、対応する前記トピック関連スコアの値が高い程高くなるようにする、ステップと、
を有する、ことを特徴とする情報分析方法。 - 前記(a)のステップにおいて、
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、請求項10に記載の情報分析方法。 - 前記(a)のステップにおいて、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、請求項11に記載の情報分析方法。
- 前記(a)のステップにおいて、
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、請求項11または12に記載の情報分析方法。 - 前記(b)のステップにおいて、前記(a)のステップによって特定された前記部分に含まれる単語の中から、
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、請求項10〜13に記載の情報分析方法。 - 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、請求項10に記載の情報分析方法。 - (d)前記(a)のステップによって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、ステップを更に備え、
前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、請求項10〜14のいずれかに記載の情報分析方法。 - 前記(d)のステップにおいて、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、請求項16に記載の情報分析方法。 - 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、請求項17に記載の情報分析方法。 - 分析対象となる第一のテキストに含まれる各単語についてのトピックに関する統計的モデルを、コンピュータによって生成するためのプログラムであって、
前記コンピュータに、
(a)前記第一のテキストと同一の事象について記載され、且つ、特定のトピックに関する情報を含む第二のテキストと、前記第一のテキストとを対比し、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分を特定する、ステップと、
(b)前記(a)のステップによって特定された前記部分に含まれる単語を抽出し、更に、抽出された前記単語が前記第二のテキストの前記情報に関連する程度を示し、且つ、関連する程度が高い程、値が高くなるトピック関連スコアを算出する、ステップと、
(c)前記第一のテキストに含まれる各単語の前記特定のトピックでの出現度合いを推定する統計的モデルを生成し、その際、前記第二のテキストに含まれる単語についての前記特定のトピックでの出現度合いが、他の単語についての前記出現度合いよりも高くなり、更に、前記(b)のステップによって抽出された前記単語についての前記特定のトピックでの出現度合が、対応する前記トピック関連スコアの値が高い程高くなるようにする、ステップと、
を実行させるプログラム。 - 前記(a)のステップにおいて、
前記第一のテキストと前記第二のテキストとを、それぞれ、設定された処理単位であるセグメントへ分割し、
前記第一のテキストと前記第二のテキストとをそれぞれのセグメント毎に対比し、セグメント間の単語ベクトルによる類似度に基づき、前記第一のテキストの各セグメントについて前記第二のテキストのセグメントへの対応付けを行い、
前記第一のテキストの対応付けられたセグメントを、前記第一のテキストにおける、前記第二のテキストの前記情報に関連している部分として特定する、請求項19に記載のプログラム。 - 前記(a)のステップにおいて、前記対応付けの際に、前記第二のテキストの各セグメントに、少なくとも一つの前記第一のテキストのセグメントを対応付ける、請求項20に記載のプログラム。
- 前記(a)のステップにおいて、
文毎、又は段落毎に、前記セグメントへの分割を実行し、
更に、前記第一のテキスト及び前記第二のテキストが複数人の会話の内容について記載されている場合に、文毎、段落毎、発話毎、又は話者毎に、前記セグメントへの分割を実行する、請求項20または21に記載のプログラム。 - 前記(b)のステップにおいて、前記(a)のステップによって特定された前記部分に含まれる単語の中から、
予め設定された種類の単語、
出現回数が予め設定された閾値以上となる単語、
前記(a)のステップによって特定された前記部分とそれが関連する前記第二のテキストの前記情報とに共通の意味で出現している共通語が位置する節の中に位置している単語、前記共通語からの距離が予め定められた閾値以下となる単語、
前記共通語を含む節からの係り受け距離が予め定められた閾値以下となる節の中に位置している単語、又は、
これらの単語のうち2以上に相当する単語を特定し、
特定した単語を抽出する、請求項19〜22に記載のプログラム。 - 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる対応度スコアを算出し、
前記(b)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記単語の前記トピック関連スコアが高くなるように、前記トピック関連スコアを算出する、請求項19に記載のプログラム。 - 前記プログラムが、前記コンピュータに、更に、
(d)前記(a)のステップによって特定された前記部分と前記第二のテキストの前記情報とから、これらに共通の意味で出現している共通語を抽出する、ステップを実行させる、命令を含み、
前記(c)のステップにおいて、更に、前記(d)のステップによって抽出された前記共通語それぞれの前記出現度合いが、前記共通語以外の前記第二のテキストに含まれる単語の前記出現度合いよりも高くなるように、前記統計的モデルを生成する、請求項19〜23のいずれかに記載のプログラム。 - 前記(d)のステップにおいて、更に、抽出された前記共通語が、前記第一のテキストにおける前記特定のトピックに関する部分で使用されている可能性を示し、且つ、使用されている可能性が高い程、値が高くなる、記載スコアを算出し、
前記(c)のステップにおいて、対応する前記記載スコアの値が高い程、抽出された前記共通語の前記出現度合いが高くなるように、前記統計的モデルを生成する、請求項25に記載のプログラム。 - 前記(a)のステップにおいて、更に、特定された前記部分とそれが関連している前記第二のテキストの前記情報との内容の一致の程度を示し、且つ、前記一致の程度が高い程、値が高くなる、対応度スコアを算出し、
前記(d)のステップにおいて、前記対応度スコアが高い部分に存在する単語程、抽出された前記共通語の前記記載スコアが高くなるように、前記記載スコアを算出する、請求項26に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011519511A JP5440815B2 (ja) | 2009-06-26 | 2010-05-28 | 情報分析装置、情報分析方法、及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009152758 | 2009-06-26 | ||
JP2009152758 | 2009-06-26 | ||
PCT/JP2010/003609 WO2010150464A1 (ja) | 2009-06-26 | 2010-05-28 | 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体 |
JP2011519511A JP5440815B2 (ja) | 2009-06-26 | 2010-05-28 | 情報分析装置、情報分析方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010150464A1 JPWO2010150464A1 (ja) | 2012-12-06 |
JP5440815B2 true JP5440815B2 (ja) | 2014-03-12 |
Family
ID=43386254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011519511A Expired - Fee Related JP5440815B2 (ja) | 2009-06-26 | 2010-05-28 | 情報分析装置、情報分析方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120096029A1 (ja) |
JP (1) | JP5440815B2 (ja) |
WO (1) | WO2010150464A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012151743A1 (en) * | 2011-05-10 | 2012-11-15 | Nokia Corporation | Methods, apparatuses and computer program products for providing topic model with wording preferences |
US9691395B1 (en) * | 2011-12-31 | 2017-06-27 | Reality Analytics, Inc. | System and method for taxonomically distinguishing unconstrained signal data segments |
US9275636B2 (en) | 2012-05-03 | 2016-03-01 | International Business Machines Corporation | Automatic accuracy estimation for audio transcriptions |
US9569413B2 (en) * | 2012-05-07 | 2017-02-14 | Sap Se | Document text processing using edge detection |
JPWO2014020834A1 (ja) * | 2012-07-31 | 2016-07-21 | 日本電気株式会社 | 単語潜在トピック推定装置および単語潜在トピック推定方法 |
US10152533B2 (en) * | 2012-10-18 | 2018-12-11 | Thomson Reuters Global Resources Unlimited Company | System, method and interface for providing a search result using segment constraints |
JP6020161B2 (ja) * | 2012-12-28 | 2016-11-02 | 富士通株式会社 | グラフ作成プログラム、情報処理装置、およびグラフ作成方法 |
US20150100582A1 (en) * | 2013-10-08 | 2015-04-09 | Cisco Technology, Inc. | Association of topic labels with digital content |
CN104978320B (zh) * | 2014-04-02 | 2018-11-02 | 东华软件股份公司 | 一种基于相似度的知识推荐方法和设备 |
US10061867B2 (en) | 2014-12-30 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | System and method for interactive multi-resolution topic detection and tracking |
US10354010B2 (en) * | 2015-04-24 | 2019-07-16 | Nec Corporation | Information processing system, an information processing method and a computer readable storage medium |
US20160350696A1 (en) * | 2015-05-26 | 2016-12-01 | International Business Machines Corporation | Integrating dynamic interpersonal relationships in an organization hierarchy |
US9959341B2 (en) | 2015-06-11 | 2018-05-01 | Nuance Communications, Inc. | Systems and methods for learning semantic patterns from textual data |
CN107797982B (zh) * | 2016-08-31 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
US10255283B1 (en) * | 2016-09-19 | 2019-04-09 | Amazon Technologies, Inc. | Document content analysis based on topic modeling |
US10558657B1 (en) | 2016-09-19 | 2020-02-11 | Amazon Technologies, Inc. | Document content analysis based on topic modeling |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
CN108090047B (zh) * | 2018-01-10 | 2022-05-24 | 华南师范大学 | 一种文本相似度的确定方法及设备 |
JP7235960B2 (ja) | 2019-02-07 | 2023-03-09 | 富士通株式会社 | ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 |
US11361165B2 (en) * | 2020-03-27 | 2022-06-14 | The Clorox Company | Methods and systems for topic detection in natural language communications |
CN113496118B (zh) * | 2020-04-07 | 2024-05-31 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN112256860B (zh) * | 2020-11-25 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 客服对话内容的语义检索方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034624A (ja) * | 1999-07-19 | 2001-02-09 | Fujitsu Ltd | 文書要約装置およびその方法 |
US20040264652A1 (en) * | 2003-06-24 | 2004-12-30 | Erhart George W. | Method and apparatus for validating agreement between textual and spoken representations of words |
WO2005069158A2 (ja) * | 2004-01-16 | 2005-07-28 | Nec Corp | テキスト処理方法/プログラム/プログラム記録媒体/装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6104989A (en) * | 1998-07-29 | 2000-08-15 | International Business Machines Corporation | Real time detection of topical changes and topic identification via likelihood based methods |
US6560597B1 (en) * | 2000-03-21 | 2003-05-06 | International Business Machines Corporation | Concept decomposition using clustering |
US6665661B1 (en) * | 2000-09-29 | 2003-12-16 | Battelle Memorial Institute | System and method for use in text analysis of documents and records |
US6772120B1 (en) * | 2000-11-21 | 2004-08-03 | Hewlett-Packard Development Company, L.P. | Computer method and apparatus for segmenting text streams |
US8200477B2 (en) * | 2003-10-22 | 2012-06-12 | International Business Machines Corporation | Method and system for extracting opinions from text documents |
US7844555B2 (en) * | 2007-11-13 | 2010-11-30 | Microsoft Corporation | Ranker selection for statistical natural language processing |
-
2010
- 2010-05-28 WO PCT/JP2010/003609 patent/WO2010150464A1/ja active Application Filing
- 2010-05-28 JP JP2011519511A patent/JP5440815B2/ja not_active Expired - Fee Related
- 2010-05-28 US US13/380,735 patent/US20120096029A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001034624A (ja) * | 1999-07-19 | 2001-02-09 | Fujitsu Ltd | 文書要約装置およびその方法 |
US20040264652A1 (en) * | 2003-06-24 | 2004-12-30 | Erhart George W. | Method and apparatus for validating agreement between textual and spoken representations of words |
WO2005069158A2 (ja) * | 2004-01-16 | 2005-07-28 | Nec Corp | テキスト処理方法/プログラム/プログラム記録媒体/装置 |
Non-Patent Citations (6)
Title |
---|
CSNG200900092080; 田村晃裕、外2名: 'トピック分割を用いた通話とコールメモの差分生成法の提案' 言語処理学会第15回年次大会発表論文集 , 20090302, p.356-359, 言語処理学会 * |
CSNG200900158106; 三木清一、外2名: 'コールセンタオペレータ通話認識における話し言葉認識言語モデルの効率的な構築' マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム論文集[CD-ROM] 第2007巻,第1号, 20070629, p.784-790, 社団法人情報処理学会 * |
CSNJ200910045117; 田村晃裕、外2名: 'コールセンターのコールメモと通話を対象とした差分マイニング' FIT2008 第7回情報科学技術フォーラム 講演論文集 第2分冊 , 20080820, p.295-298, 社団法人電子情報通信学会 * |
JPN6010035377; 田村晃裕、外2名: 'トピック分割を用いた通話とコールメモの差分生成法の提案' 言語処理学会第15回年次大会発表論文集 , 20090302, p.356-359, 言語処理学会 * |
JPN6010035378; 三木清一、外2名: 'コールセンタオペレータ通話認識における話し言葉認識言語モデルの効率的な構築' マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム論文集[CD-ROM] 第2007巻,第1号, 20070629, p.784-790, 社団法人情報処理学会 * |
JPN6010035379; 田村晃裕、外2名: 'コールセンターのコールメモと通話を対象とした差分マイニング' FIT2008 第7回情報科学技術フォーラム 講演論文集 第2分冊 , 20080820, p.295-298, 社団法人電子情報通信学会 * |
Also Published As
Publication number | Publication date |
---|---|
JPWO2010150464A1 (ja) | 2012-12-06 |
US20120096029A1 (en) | 2012-04-19 |
WO2010150464A1 (ja) | 2010-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5440815B2 (ja) | 情報分析装置、情報分析方法、及びプログラム | |
US10418029B2 (en) | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods | |
US9201862B2 (en) | Method for symbolic correction in human-machine interfaces | |
US11734514B1 (en) | Automated translation of subject matter specific documents | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
EP2572355A2 (en) | Voice stream augmented note taking | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
US9336186B1 (en) | Methods and apparatus related to sentence compression | |
WO2010023938A1 (ja) | テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体 | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
JP2021022211A (ja) | 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体 | |
WO2011071174A1 (ja) | テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム | |
JP5713963B2 (ja) | 音声認識単語追加装置とその方法とプログラム | |
CN111161730B (zh) | 语音指令匹配方法、装置、设备及存储介质 | |
Kozielski et al. | Open-lexicon language modeling combining word and character levels | |
WO2010023939A1 (ja) | テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体 | |
JP5849960B2 (ja) | 含意判定装置、方法、およびプログラム | |
US20100145677A1 (en) | System and Method for Making a User Dependent Language Model | |
WO2012131822A1 (ja) | 音声認識結果整形装置、音声認識結果整形方法及びプログラム | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
JP2013109738A (ja) | 意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム | |
US20180033425A1 (en) | Evaluation device and evaluation method | |
JP2018073298A (ja) | 人工知能装置による手段・方法の自動抽出・作成方法 | |
CN112749555A (zh) | 变形词识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130814 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5440815 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |