JP5423993B2 - テキスト処理装置、テキスト処理方法、及びプログラム - Google Patents

テキスト処理装置、テキスト処理方法、及びプログラム Download PDF

Info

Publication number
JP5423993B2
JP5423993B2 JP2010543840A JP2010543840A JP5423993B2 JP 5423993 B2 JP5423993 B2 JP 5423993B2 JP 2010543840 A JP2010543840 A JP 2010543840A JP 2010543840 A JP2010543840 A JP 2010543840A JP 5423993 B2 JP5423993 B2 JP 5423993B2
Authority
JP
Japan
Prior art keywords
text
segment
degree
analysis target
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010543840A
Other languages
English (en)
Other versions
JPWO2010073591A1 (ja
Inventor
晃裕 田村
開 石川
真一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010543840A priority Critical patent/JP5423993B2/ja
Publication of JPWO2010073591A1 publication Critical patent/JPWO2010073591A1/ja
Application granted granted Critical
Publication of JP5423993B2 publication Critical patent/JP5423993B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、同一の事象を対象としているが、互いに異なる生成過程を経て生成された、第一のテキストと第二のテキストとが与えられたときに、テキストの解析処理を行う、テキスト処理装置、テキスト処理方法及びプログラムに関する。
同一の事象を対象として、異なる生成過程によって二種類のテキストが生成される場合がある。そして、一方の種類のテキストを第一のテキストとし、複数の第一のテキストの集合を第一のテキスト集合とする。また、他方の種類のテキストを第二のテキストとし、複数の第二のテキストの集合を第二のテキスト集合とする。このような2種類のテキストが存在する場合に、第一のテキスト集合を構成する第一のテキストから、対応する第二のテキストに記述すべき内容が記述された部分を特定する事は有用である。
例えば、コールセンターにおいて、通話音声は音声認識され、その結果、多数のテキストが得られている。この得られたテキストが第一のテキスト、その集合が第一のテキスト集合である場合を考える。多くのコールセンターにおいては、オペレータは通話の要点をまとめ、テキストで構成された応対メモを作成する。従って、多くのコールセンターでは、第一のテキスト集合の各第一のテキストに対応する応対メモの集合が存在する事になる。応対メモは、第一のテキストと同一の事象を対象として、それとは異なる生成工程によって生成されているから、この応対メモを第二のテキストとし、応対メモの集合を第二のテキスト集合として捉える事ができる。
このようなコールセンターでの状況下では、各音声認識テキストの中で、対応する応対メモ中に書かれるべき要点となる部分を特定する事は重要である。各音声認識テキストの中で、対応する応対メモ中に書かれるべき要点となる部分を特定する事ができれば、例えば、該部分をハイライトしておく事で、分析者は重要な部分のみを見る事ができ、分析効率の向上が図られる。また、その後、要点部分に着目したテキストマイニングや、要点部分に着目した検索、更には、各音声認識テキストの要点を利用した要約の作成なども可能になる。
また、他に、例えば、論文の集合を第一のテキスト集合であると考えた場合、該集合内の各論文に対応する発表資料が存在することがある。この場合では、該発表資料の集合を第二のテキスト集合と捉える事ができる。そして、各論文(第一のテキスト集合)の中から、発表資料として書かれるべき重要な部分を特定する事は、重要である。
各論文の中から、発表資料として書かれるべき部分を特定する事ができれば、例えば、該部分をハイライトする事で、論文の読者は、効率的に閲覧を行うことが可能になる。また、先に述べた、通話音声を音声認識して得られたテキスト集合を第一のテキスト集合とした場合と同様、上記の場合も、その後の、テキストマイニングや検索、要約の作成に役立てることができる。
また、例えば、ある文書集合に対して、異なる二人の人がそれぞれ要約を行って要約文書を作成する場合を考える。この場合、一方の人により要約された要約文書の集合を第一のテキスト集合として、他方の人により要約された要約文書の集合を第二のテキスト集合として捉える事ができる。
異なる二人がそれぞれ要約を作成する状況下でも、第一のテキスト集合を構成する各第一のテキスト中から、対応する第二のテキストに書かれるべき部分を特定することは重要である。このような特定を行えば、特定された部分を見る事で、二人によって重要であると思われた部分を決定でき、決定された部分に着目した分析も可能となる。また、決定された部分以外を見る事で、二人の要約の違いを分析する事も可能となる。
そして、二つのテキストの対を入力とし、一方のテキスト中から他方のテキストに記述されている部分を特定する手法としては、テキスト間のアラインメント(対応付け:alignment)手法が知られている。アラインメント手法では、一つのテキストは、同質の情報の塊であるセグメントの列として捉えられる。そして、このアライメント手法では、一方のテキスト中のセグメントの内容に対応するセグメントが、他方のテキスト中のいずれかのセグメントに存在しているのか、又は存在していないのかが判定される。
例えば、特許文献1及び非特許文献1は、アラインメント手法の具体的な一例を開示している。特許文献1は、アラインメントの手がかりとして、多様な語彙情報や、知識情報を効率的に用いるアライメント手法を開示している。特許文献1に開示されたアライメント手法では、原語と、その翻訳文とのアライメントが行われる。
また、非特許文献1に開示のアライメント手法では、最終的に実行される、文毎のアラインメントの前段階として、先ず、各文が属する段落のトピックが判定され、該トピックを利用した、段落間のマクロなアラインメントが実行される。そして、対応付けられた段落対を対象にして、文単位のアラインメントが実行される。非特許文献1に開示されたアライメント手法では、百科事典の詳細版と、その簡易版とのアラインメントが行われる。
よって、第一のテキストと、これに対応する第二のテキストとの対を、特許文献1又は非特許文献1に開示されたアラインメント手法の入力とすれば、第一のテキストの中から、第二のテキスト内に記述されている部分(セグメント)が特定される。
特開2002−215619号公報
R. Barzilay and N. Elhadad, "Sentence Alignment for Monolingual Comparable Corpora", In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2003), pp.25-32, 2003.
ところで、実存するテキストのなかには、テキストを生成した者のミス等が原因で、本来ならばテキストの内容として書かれるべき情報が一部欠如しているものが存在している。例えば、コールセンターにおける応対メモのなかには、オペレータの書き忘れや判断ミス等が原因で、本来ならば、応対メモとして残すべき情報が含まれていないものが存在する。
しかしながら、上記の特許文献1及び非特許文献1に開示されたアラインメント手法では、入力された二つのテキストの対、つまり、第一のテキストとそれに対応する第二のテキストとの対のみを手がかりとして、アライメントが行われる。そして、この手がかりから、第一のテキストにおける第二のテキストに記述されたセグメントが特定される。
そのため、上述のアライメント手法を用いると、第二のテキストとして書かれるべき情報が欠如した第二のテキストが存在している場合に、次の問題が発生する。つまり、この場合、本来ならば第二のテキスト集合内に書かれるべき部分として判定される第一のテキストのセグメントが、対応する第二のテキストにおける情報の欠如により、書かれるべき部分として正しく判定されない、という問題が発生する。
本発明の目的は、上記問題を解消し、解析対象とするテキストに対応している別のテキストにおいて、情報の一部が欠如していても、解析対象とするテキストから、別のテキストに記述すべき部分を特定し得る、テキスト処理装置、テキスト処理方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明におけるテキスト処理装置は、第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うテキスト処理装置であって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理装置は、セグメント判定部と、記述内容判定部とを備え、
前記セグメント判定部は、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定し、
前記記述内容判定部は、前記セグメント判定部による判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ことを特徴とする。
また、上記目的を達成するため、本発明におけるテキスト処理方法は、第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うためのテキスト処理方法であって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理方法は、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを有することを特徴とする。
更に、上記目的を達成するため、本発明におけるプログラムは、第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比する、解析処理を、コンピュータに実行させるための、プログラムであって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
記コンピュータに、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを実行させることを特徴とする。
以上の特徴により、本発明によれば、解析対象とするテキストに対応している別のテキストにおいて、情報の一部が欠如していても、解析対象とするテキストから、別のテキストに記述すべき部分を特定することができる。
図1は、本発明の実施の形態1におけるテキスト処理装置の概略構成を示すブロック図である。 図2は、本発明におけるテキスト処理の原理を示す説明図である。 図3は、本発明の実施の形態1におけるテキスト処理方法で行われる処理の流れを示すフロー図である。 図4は、本発明の実施の形態2におけるテキスト処理装置の概略構成を示すブロック図である。 図5は、本発明の実施の形態2におけるテキスト処理方法で行われる処理の流れを示すフロー図である。 図6は、本発明の実施の形態3におけるテキスト処理装置の概略構成を示すブロック図である。 図7は、本発明の実施の形態3におけるテキスト処理方法で行われる処理の流れを示すフロー図である。 図8は、本発明の実施の形態4におけるテキスト処理方法で行われる処理の流れを示すフロー図である。 図9は、本発明の実施の形態5におけるテキスト処理方法で行われる処理の流れを示すフロー図である。 図10は、実施例1で用いられる音声認識テキストの一例を示す図である。 図11は、実施例1で用いられる応対メモ集合の一例を示す図である。 図12は、同種セグメントの判定に際して行われる形態素解析の解析結果の一例を示す図である。 図13は、同種セグメントの判定に際して作成される単語ベクトルの一例を示す図である。 図14は、実施例1における同種セグメントの判定結果の一例を示す図である。 図15は、第一のテキストとそれに対応する第二のテキストとを形態素解析した結果の一例を示す図である。 図16は、実施例1で算出される相互情報量の一例を示す図である。 図17は、セグメントの内容が第二のテキストに記述されているかどうかの判定結果の一例を示す図である。 図18は、実施例1において応対メモに記述されるべきと判定されたセグメントの一例を示す図である。 図19は、実施例2で用いられる音声認識テキストの一例を示す図である。 図20は、実施例2で用いられる応対メモ集合の一例を示す図である。 図21は、実施例2においてトピックで分割された通話音声認識結果の一例を示している。 図22は、実施例2においてフェーズで分割された通話音声認識結果の一例を示している。 図23は、実施例3における同種セグメントの判定結果の一例を示す図である。 図24は、実施例4において計算された類似度スコアの一例を示す図である。 図25は、実施例5において計算された含有スコアの一例を示す図である。
(実施の形態1)
以下、本発明の実施の形態1におけるテキスト処理装置、テキスト処理方法、及びプログラムについて、図1〜図3を参照しながら説明する。最初に、本実施の形態1におけるテキスト処理装置の構成について図1及び図2を用いて説明する。図1は、本発明の実施の形態1におけるテキスト処理装置の概略構成を示すブロック図である。図2は、本発明におけるテキスト処理の原理を示す説明図である。
図1に示す本実施の形態1におけるテキスト処理装置30は、入力となる第一のテキスト集合と第二のテキスト集合とを対比して、解析処理を実施する。図2に示すように、第一のテキスト集合は、第一のテキスト(1)〜(n)によって構成されている。また、第二のテキスト集合は、各第一のテキストに対応する第二のテキスト(1)〜(n)によって構成されている。また、第一のテキストとそれに対応する第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されている。なお、図2において、n及びmは整数であり、n>mの関係にある。
本実施の形態1では、第一のテキストの例としては、後述の実施例1にも示すように、コールセンターにおける通話音声を音声認識して得られたテキストが挙げられる。この場合の第二のテキストの例としては、オペレータが作成した応対メモが挙げられる。また、第一のテキスト集合及び第二のテキスト集合内の各テキストは、予め、解析単位となるセグメントに明示的に分割されている。各テキストは、その後のテキスト処理装置30による作業において、セグメント単位で機械処理できる状態とされている。なお、セグメントの設定は、例えば、文、段落、トピック、及びフェーズなどに基づいて行うことができる。トピック及びフェーズについては、実施の形態2において具体的に説明する。
図1に示すように、テキスト処理装置30は、セグメント判定部36と、記述内容判定部33とを備えている。セグメント判定部36は、解析対象に設定された第一のテキスト(以下「解析対象テキスト」とする。)を構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定する。また、記述内容判定部33は、セグメント判定部36による判定の結果に基づいて、解析対象テキストを構成する各セグメントが、解析対象テキストに対応する、第二のテキストに記述されるべきかどうかを判定する。
本実施の形態1では、セグメント判定部36は、更に、同種セグメント特定部31と、含有判定部32とを備えている。同種セグメント特定部31は、先ず、解析対象テキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比する。続いて、同種セグメント特定部31は、別の第一のテキストを構成する複数個のセグメントから、解析対象テキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとする。含有判定部32は、同種セグメントの内容が、同種セグメントを含む第一のテキスト(解析対象テキストとは別の第一のテキスト)に対応する、第二のテキストに含まれているかどうかを判定する。
本実施の形態1では、記述内容判定部33は、含有判定部32による判定の結果に基づいて、同種セグメントの内容が、同種セグメントを含む第一のテキストに対応する第二のテキストに含まれている程度を求める。この程度としては、同種セグメントの内容が、対応する第二のテキストに記述される回数や、同種セグメントの内容が、対応する第二のテキストに記述される割合が挙げられる。
更に、記述内容判定部33は、求められた程度に基づいて、解析対象テキストを構成する各セグメントが、解析対象テキストに対応する第二のテキストに記述されるべき度合い(以下「関連度」という。)を求める。
このとき、記述内容判定部33は、上記程度が第二のテキストに記述される回数である場合は、回数が多いほど関連度が高くなるようにして、関連度を計算する。更に、記述内容判定部33は、上記程度が第二のテキストに記述される割合である場合は、割合が高いほど関連度が高くなるように、関連度を計算する。そして、記述内容判定部33は、計算された関連度を用いて、解析対象テキストを構成する各セグメントが、対応する第二のテキストに記述されるべきかどうかを判定する。
本実施の形態1では、テキスト処理装置30には、入力装置10と出力装置20とが接続されている。入力装置10は、第一のテキスト集合及び第二のテキスト集合をテキスト処理装置30に入力する装置である。入力装置10の具体例としては、キーボード等の入力機器、ネットワーク等を介してテキストデータを送信するコンピュータ装置、テキストデータが記録された記録媒体の読取が可能な読取装置等が挙げられる。出力装置20は、テキスト処理装置30による解析処理の結果を出力する装置であり、出力装置20の具体例としては、表示装置や印刷装置が挙げられる。
また、本実施の形態1では、テキスト処理装置30は、入力受付部34を備えている。入力受付部34は、入力装置10によって入力された第一のテキスト集合及び第二のテキスト集合を受け付けると、これらを同種セグメント特定部31及び含有判定部32に入力する。更に、テキスト処理装置30は、プログラム制御により動作するコンピュータによって実現されており、コンピュータのCPU(中央処理装置:central processing unit)が、同種セグメント特定部31、含有判定部32、及び記述内容判定部33として機能している。
次に、本発明の実施の形態1におけるテキスト処理方法について図3を用いて説明する。図3は、本発明の実施の形態1におけるテキスト処理方法で行われる処理の流れを示すフロー図である。また、本実施の形態1において、テキスト処理方法は、図1に示した本実施の形態1におけるテキスト処理装置30を動作させることによって実施される。このため、以下のテキスト処理方法の説明は、適宜図1及び図2を参酌しながら、図1に示すテキスト処理装置30の動作の説明と共に行う。
図3に示すように、最初に、入力受付部34は、入力装置10から、第一のテキスト集合と第二のテキスト集合との2つの集合(図2参照)を入力として受け付け、続いて、解析対象となる第一のテキスト集合中の第一のテキストの指定を受け付ける(ステップA1)。
具体的には、例えば、図2に示すように、第一のテキスト(1)〜(n)で構成された第一のテキスト集合と、第二のテキスト(1)〜(n)で構成された第二のテキスト集合との入力が受け付けられる。図2において、カッコ内の番号が互いに一致する、第一のテキストと第二のテキストとは、同一の事象を対象として、異なる生成過程によって生成されており、互いに対応している。また、図2の例では、第一のテキスト(1)が解析対象として指定されている。
続いて、同種セグメント特定部31は、解析対象テキストを除く第一のテキスト集合内の全セグメントの中から、解析対象テキスト内の各セグメントA〜Dと類似した同種セグメントを特定する(ステップA2)。図2の例では、セグメントB´は、セグメントBの同種セグメントであると判定されている。なお、実際には、セグメントB以外のセグメント(セグメントA、C、D)についても同種セグメントは特定される。図2の例は、特に、セグメントBに着目した場合を示している。
次に、含有判定部32は、ステップA2で特定された同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に、記述されているか否かを判定する(ステップA3)。図2の例では、同種セグメントB´は、第二のテキスト(2)及び(m)に記述されている。また、本実施の形態1では、含有判定部32は、解析対象テキスト内の各セグメント(セグメントA〜D)の内容が、第二のテキスト集合内の対応するテキスト中に、記述されているか否かも判定している。
続いて、記述内容判定部33は、ステップA3における判定の結果に基づいて、同種セグメントの内容が、対応する第二のテキストに含まれている程度を求め、求めた程度に基づいて、関連度を計算する(ステップA4)。なお、関連度とは、上述したように、解析対象テキストを構成する各セグメントが、対応する第二のテキストに記述されるべき度合いをいう。また、本実施の形態1では、解析対象テキスト内の各セグメントの内容が、第二のテキスト集合内の対応するテキストに含まれているかどうかの判定結果も、関連度の計算に利用されている。
その後、記述内容判定部33は、ステップA4で計算された各セグメントの関連度に基づいて、解析対象テキストを構成する各セグメントA〜Dが第二のテキストに記述されるべきかどうかを判定する。そして、判定の結果に基づいて、記述内容判定部33は、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントを特定し、これを出力装置20に出力する(ステップA5)。
なお、記述内容判定部33は、第二のテキストに記述されるべきセグメントのみを出力しても良いし、ステップA5で求められた関連度についても、特定されたセグメントと共に出力しても良い。また、図2の例では、セグメントBが、第二のテキストに記述されるべきセグメントに特定されているが、これは単なる一例であり、他のセグメントが、第二のテキストに記述されるべきセグメントとして特定されていても良い。
本実施の形態1におけるプログラムは、コンピュータに、図3に示すステップA1〜A5を実行させる命令を含むプログラムであれば良い。本実施の形態1におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態1におけるテキスト処理装置30を実現できる。この場合、上述したように、コンピュータのCPUは、同種セグメント特定部31、含有判定部32、及び記述内容判定部33として機能し、処理を行なう。
また、本実施の形態1におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。
このように、本実施の形態1では、記述内容判定部33は、同種セグメントの内容が、第二のテキスト集合内の対応するテキストに記述されているか否かを考慮して、解析対象テキストを構成する各セグメントが第二のテキストに記述すべきか否かを判定している。よって、解析対象テキストのセグメントの内容が、対応する第二のテキストに記述されているか否かという情報のみで、記述すべき内容の判定を行う場合と異なり、第二のテキストに書かれるべき情報の一部が欠如していても、正しく判定することが可能となる。
つまり、第二のテキストにおいて欠如していた、本来ならば書かれるべき情報は、解析対象テキスト以外の第一のテキストに出現すれば、それに対応する第二のテキスト集合内のテキストにも記述される確率が高いはずである。例えば、図2におけるセグメントBの同種セグメントB´の内容は、第二のテキストに記述されている。従って、解析対象テキスト以外の第一のテキストに存在する同種セグメントの内容が、該同種セグメントに対応する第二のテキスト集合内のテキストに記述されている度合いが高ければ、同種セグメントの元となったセグメントの内容は、第二のテキストに書かれるべき内容だと判断できる。この結果、解析対象テキストを構成するセグメントの内容が第二のテキストに記述すべき内容かどうかが、正しく判断される。
(実施の形態2)
次に、本発明の実施の形態2におけるテキスト処理装置、テキスト処理方法及びプログラムについて図4及び図5を参照して詳細に説明する。最初に、本実施の形態2におけるテキスト処理装置の構成について図4を用いて説明する。図4は、本発明の実施の形態2におけるテキスト処理装置の概略構成を示すブロック図である。
図4に示すように、本実施の形態2におけるテキスト処理装置130は、テキスト分割部135を備えており、この点で、図1に示した実施の形態1におけるテキスト処理装置30と異なっている。これ以外の点では、テキスト処理装置130は、図1に示したテキスト処理装置30と同様に構成されている。
なお、テキスト処理装置130は、セグメント判定部136と、記述内容判定部133と、入力受付部134とを備え、更に、セグメント判定部136は、同種セグメント特定部131と、含有判定部132とを備えている。但し、これらは、それぞれ、図1に示された、セグメント判定部36(同種セグメント特定部31及び含有判定部32を含む)、記述内容判定部33、入力受付部34と同様である。また、テキスト処理装置130も、図1に示したテキスト処理装置30と同様に、プログラム制御により動作するコンピュータによって実現されている。更に、入力装置110及び出力装置120は、それぞれ、図1に示した入力装置10及び出力装置20と同様である。
図4に示すテキスト分割部135は、第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、複数個のセグメントを設定する。本実施の形態では、テキスト分割部135は、第二のテキストに対しても分割を行うことができ、複数個のセグメントに分割することができる。
ここで、セグメント設定に用いられる文とは、「。」や「、」で区切られた文字集合の単位である。また、「段落」とは、一又は二以上の文で構成された集合であって、人又は機械が設定した単位である。「トピック」とは、いわゆる話題であり、トピックで分割した場合は、同一又は類似の単語が繰り返し現れる部分が一つのセグメントとなる。
また、「フェーズ」とは、特定の分野で用いられる決まり文句(例えば、接客マニュアルで設定されている決まり文句)等によって仕切られた単位である。コールセンターを例にとると、「挨拶」→「問題点等の聞き出し」→「お客様情報の聞き出し」→・・・「終了」といった一連の流れにおける、各場面がフェーズとなる。
次に、本発明の実施の形態2におけるテキスト処理方法について図5を用いて説明する。図5は、本発明の実施の形態2におけるテキスト処理方法で行われる処理の流れを示すフロー図である。また、本実施の形態2において、テキスト処理方法は、図4に示した本実施の形態2におけるテキスト処理装置130を動作させることによって実施される。このため、以下のテキスト処理方法の説明は、適宜図4を参酌しながら、図4に示すテキスト処理装置130の動作の説明と共に行う。
図5に示すように、最初に、入力受付部134は、入力装置110から、第一のテキスト集合と第二のテキスト集合との2つの集合を入力として受け付け、続いて、解析対象となる第一のテキスト集合中の第一のテキストの指定を受け付ける(ステップB1)。ステップB1は、実施の形態1におけるステップA1と同様に行われる。但し、ステップB1においては、ステップA1と異なり、入力される第一のテキスト集合及び第二のテキスト集合内の各テキストは、必ずしも解析単位のセグメント(例えば、文や段落やトピックや話題のフェーズなど)に分割されている必要はない。
続いて、テキスト分割部135は、第一のテキスト集合及び第二のテキスト集合内の各テキストを分割し、解析単位となる複数個のセグメントを設定する(ステップB2)。その後、セグメント分割された第一のテキスト集合と第二のテキスト集合とに対して、ステップB3〜B6の処理が行われる。但し、以降のステップB3〜B6は、それぞれ、実施の形態1において図3に示したステップA2〜A5のそれぞれと同様のステップであり、ステップB3〜B6の説明は省略する。
本実施の形態2におけるプログラムは、コンピュータに、図5に示すステップB1〜B6を実行させる命令を含むプログラムであれば良い。本実施の形態2におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるテキスト処理装置130を実現できる。この場合、コンピュータのCPUは、同種セグメント特定部131、含有判定部132、記述内容判定部133及びテキスト分割部135として機能し、処理を行なう。
また、本実施の形態2におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。
このように、本実施の形態2では、テキスト分割部135は、第一のテキスト集合及び第二のテキスト集合内の各テキストを分割し、解析単位であるセグメントを設定することができる。よって、本実施の形態2では、入力装置110から入力された第一のテキスト集合及び第二のテキスト集合内の各テキストは、予め、解析単位となるセグメントに分割されている必要はない。本実施の形態2によれば、テキストの種類等に応じて、同種セグメントの情報を利用するのに効果的なセグメント単位へ分割する事ができる。この結果、テキスト解析処理は、適切なセグメント単位で行われるため、最終的な出力の精度も向上する。
また、本実施の形態2は、第一のテキスト集合及び第二のテキスト集合の入力後にセグメントが設定される以外は、実施の形態1と同様であり、本実施の形態2を用いた場合も実施の形態1と同様の効果を得ることが可能である。
(実施の形態3)
次に、本発明の実施の形態3におけるテキスト処理装置、テキスト処理方法及びプログラムについて図6及び図7を参照して詳細に説明する。最初に、本実施の形態3におけるテキスト処理装置の構成について図6を用いて説明する。図6は、本発明の実施の形態3におけるテキスト処理装置の概略構成を示すブロック図である。
図6に示すように、本実施の形態3におけるテキスト処理装置230は、実施の形態1におけるテキスト処理装置30と同様に、入力受付部234と、セグメント判定部236と記述内容判定部233とを備えている。また、セグメント判定部236は、同種セグメント特定部231と、含有判定部232とを備えている。更に、テキスト処理装置230は、プログラム制御により動作するコンピュータによって実現されている。
但し、本実施の形態3では、同種セグメント特定部231及び含有判定部232は、それぞれが実行する処理の点で、実施の形態1において図1に示した同種セグメント特定部31及び含有判定部32とは異なっている。この点について以下に説明する。
本実施の形態3においては、含有判定部232は、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、第二のテキストに含まれているかどうかを判定する。
また、同種セグメント特定部231は、解析対象テキストを構成する複数個のセグメントそれぞれと、含有判定部232によって第二のテキストに含まれていると判定され、且つ、解析対象テキストとは別の第一のテキストに含まれるセグメントとを対比する。更に、同種セグメント特定部231は、解析対象テキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとする。
なお、記述内容判定部233及び入力受付部234は、それぞれ、図1に示された、記述内容判定部33及び入力受付部34と同様である。更に、入力装置210及び出力装置220は、それぞれ、図1に示した入力装置10及び出力装置20と同様である。
次に、本発明の実施の形態3におけるテキスト処理方法について図7を用いて説明する。図7は、本発明の実施の形態3におけるテキスト処理方法で行われる処理の流れを示すフロー図である。また、本実施の形態3において、テキスト処理方法は、図6に示した本実施の形態3におけるテキスト処理装置230を動作させることによって実施される。このため、以下のテキスト処理方法の説明は、適宜図6を参酌しながら、図6に示すテキスト処理装置230の動作の説明と共に行う。
図7に示すように、最初に、入力受付部234は、図3に示した実施の形態1でのステップA1と同様に、第一のテキスト集合と第二のテキスト集合との入力を受け付け、続いて、解析対象となる第一のテキスト集合中の第一のテキストの指定を受け付ける(ステップC1)。
続いて、含有判定部232は、第一のテキスト集合内のテキストの全セグメントについて、各セグメントの内容が、第二のテキスト集合内の対応するテキスト内に記述されているか(含まれているか)否かを判定する(ステップC2)。
続いて、同種セグメント特定部231は、ステップC2において、対応する第二のテキスト内に内容が記述されていると判定され、且つ、解析対象テキストとは別の第一のテキストに含まれる、セグメントの集合を特定する。更に、同種セグメント特定部23は、このセグメント集合の中から、第一のテキストの各セグメントと類似する同種セグメントを特定する(ステップC3)。
続いて、記述内容判定部233は、ステップC2及びC3の結果に基づいて、第一のテキスト内の各セグメントの内容が、第二のテキストへ記述されるべき内容である度合いを示す関連度を計算する(ステップC4)。具体的には、計算には、ステップC4では、セグメントの内容が第二のテキストに記述されているかどうかと、内容が第二のテキスト集合内の対応するテキストに記述されている同種セグメントがどの程度存在するかとが、用いられる。
その後、記述内容判定部233は、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントを特定し、これを出力装置220に出力する(ステップC5)。ステップC5は、実施の形態1におけるステップA5と同様のステップである。
なお、本実施の形態3においても、実施の形態2と同様に、テキスト処理装置230は、テキスト分割部13を備えていても良い。この場合は、ステップC1とステップC2との間で、図5に示したステップB2が実施される。こうする事で、予め分析単位のセグメントに分割されていないテキストの集合を、入力となる第一のテキスト集合及び第二のテキスト集合として受け付ける事が可能となる。
本実施の形態3におけるプログラムは、コンピュータに、図7に示すステップC1〜C5を実行させる命令を含むプログラムであれば良い。本実施の形態3におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態3におけるテキスト処理装置230を実現できる。この場合、上述したように、コンピュータのCPUは、同種セグメント特定部231、含有判定部232、及び記述内容判定部233として機能し、処理を行なう。
また、本実施の形態3におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。
このように、本実施の形態3では、同種セグメントを探索する探索範囲は、対応する第二のテキスト集合内のテキスト内に同一内容が書かれているセグメントの集合である。このため、実施の形態3によれば、同種セグメントの特定に際して、解析対象テキスト以外の第一のテキストの全セグメントを探索対象とする、実施の形態1及び2に比べて、同種セグメントの探索の高速化が可能となる。また、本実施の形態3を用いた場合も、関連度は、内容が第二テキストに記述されている同種セグメントがどの程度存在するかを基に計算されるため、実施の形態1と同様の効果を得ることが可能である。
(実施の形態4)
次に、本発明の実施の形態4におけるテキスト処理装置、テキスト処理方法及びプログラムについて図8を参照して詳細に説明する。本実施の形態4におけるテキスト処理装置は、図1に示した実施の形態1におけるテキスト処理装置30と同様に構成されている。よって、以下の説明においては、適宜図1を参酌する。
本実施の形態4においては、同種セグメント特定部31と記述内容判定部33とで行われる処理が、実施の形態1と異なっている。具体的には、本実施の形態4では、同種セグメント特定部31は、同種セグメントの特定に加え、解析対象テキストを構成する複数個のセグメントそれぞれと、同種セグメントとの類似の程度を表す類似度スコアを算出する。また、記述内容判定部33は、更に、同種セグメント特定部31によって算出された類似度スコアを用いて、関連度を計算する。
次に、本発明の実施の形態4におけるテキスト処理方法について図8を用いて説明する。図8は、本発明の実施の形態4におけるテキスト処理方法で行われる処理の流れを示すフロー図である。また、本実施の形態4において、テキスト処理方法は、本実施の形態4におけるテキスト処理装置を動作させることによって実施される。このため、以下のテキスト処理方法の説明は、適宜図1を参酌しながら、テキスト処理装置の動作の説明と共に行う。
図8に示すように、最初に、入力受付部34は、図3に示した実施の形態1でのステップA1と同様に、第一のテキスト集合と第二のテキスト集合との入力を受け付け、続いて、解析対象となる第一のテキスト集合中の第一のテキストの指定を受け付ける(ステップD1)。
次に、同種セグメント特定部31は、第一のテキスト集合内の全セグメントを対象に、解析対象テキストを構成する複数個のセグメントそれぞれと、同種セグメントとの類似の程度を表す類似度スコアを算出する(ステップD2)。この類似度スコアは、二つのセグメントがどの程度同じかを示している。
続いて、同種セグメント特定部31は、ステップD2で算出した類似度スコアを基に、解析対象テキストの各セグメントの同種セグメントを、解析対象テキスト以外の第一のテキスト集合内の全セグメントの中から特定する(ステップD3)。
次に、含有判定部32は、第1の実施の形態において図3に示したステップA3と同様に、同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に、記述されているか否かを判定する(ステップD4)。また、ステップD4では、含有判定部32は、解析対象テキスト内の各セグメントの内容が、第二のテキスト集合内の対応するテキスト中に、記述されているか否かも判定する。
続いて、記述内容判定部33は、ステップD4の判定結果とステップD2の類似度スコアとに基づいて、解析対象テキストの各セグメントに対し、該セグメントの内容が、第二のテキストに記述されるべき内容である度合いを示す関連度を計算する(ステップD5)。
その後、記述内容判定部33は、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントを特定し、これを出力装置20に出力する(ステップD6)。ステップD6は、実施の形態1におけるステップA5と同様のステップである。
また、本実施の形態4におけるプログラムは、コンピュータに、図8に示すステップD1〜D6を実行させる命令を含むプログラムであれば良い。本実施の形態4におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態4におけるテキスト処理装置を実現できる。この場合、上述したように、コンピュータのCPUは、同種セグメント特定部31、含有判定部32、及び記述内容判定部33として機能し、処理を行なう。
また、本実施の形態4におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。
このように、本実施の形態4では、記述内容判定部33は、類似度スコアを利用するため、セグメントの内容が第二のテキスト集合内の対応するテキスト中に記述されているか否かという情報は、実施の形態1の場合よりも厳密なものとなる。つまり、本実施の形態4では、完全に同じであると判定できるセグメントの影響は、あまり類似していないセグメントの影響よりも大きくなる。従って、本実施の形態4によれば、最終出力の精度の向上を図ることが可能となる。
また、本実施の形態4を用いた場合も、関連度は、内容が第二テキストに記述されている同種セグメントがどの程度存在するかを基に計算されるため、実施の形態1と同様の効果を得ることが可能である。
なお、本実施の形態4では、実施の形態2におけるステップB2を、ステップD2及びD3の実行前に行うことができる。この場合、実施の形態2と同様の効果が得られる。また、実施の形態3におけるステップC4に、本実施の形態におけるステップD4を適用し、ステップC4におけるセグメントの関連度の計算の際に、二つのセグメントがどの程度同じかを表す類似度スコアを用いることもできる。
具体的には、実施の形態3におけるステップC3の後で、ステップD2を実行し、解析対象テキストの各セグメントと、ステップC3によって同種セグメントと判定されたセグメントとが、どの程度同じかを表す類似度スコアを保存しておくのが良い。この場合、実施の形態3において、本実施の形態4における効果を付与することができる。
(実施の形態5)
次に、本発明の実施の形態5におけるテキスト処理装置、テキスト処理方法およびプログラムについて図9を参照して詳細に説明する。本実施の形態5におけるテキスト処理装置は、図1に示した実施の形態1におけるテキスト処理装置30と同様に構成されている。よって、以下の説明においては、適宜図1を参酌する。
本実施の形態5においては、含有判定部32と記述内容判定部33とで行われる処理が、実施の形態1と異なっている。具体的には、含有判定部32は、同種セグメントの内容についての判定に加え、解析対象テキストを構成する複数個のセグメントそれぞれと、同種セグメントとについて、含有スコアを算出する。含有スコアは、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、第二のテキストに含まれている可能性を表すスコアである。また、記述内容判定部33は、更に、含有判定部32によって算出された含有スコアを用い、含有スコアが高いほど関連度が高くなるように、関連度を求めることができる。
次に、本発明の実施の形態5におけるテキスト処理方法について図9を用いて説明する。図9は、本発明の実施の形態5におけるテキスト処理方法で行われる処理の流れを示すフロー図である。また、本実施の形態5において、テキスト処理方法は、本実施の形態5におけるテキスト処理装置を動作させることによって実施される。このため、以下のテキスト処理方法の説明は、適宜図1を参酌しながら、テキスト処理装置の動作の説明と共に行う。
図9に示すように、最初に、入力受付部34は、図3に示した実施の形態1でのステップA1と同様に、第一のテキスト集合と第二のテキスト集合との入力を受け付け、続いて、解析対象となる第一のテキスト集合中の第一のテキストの指定を受け付ける(ステップE1)。
続いて、同種セグメント特定部31は、解析対象テキストを除く第一のテキスト集合内の全セグメントの中から、解析対象テキスト内の各セグメントと類似した同種セグメントを特定する(ステップE2)。ステップE2は、図3に示した実施の形態1でのステップA2と同様のステップである。
続いて、含有判定部32は、解析対象テキスト内の各セグメント、及び、ステップE2で該セグメントの同種セグメントと判定されたセグメントに対して、第二のテキスト集合内の対応するテキスト中に同一の内容が記述されているかを判定する。更に、含有判定部32は、この判定に加え、解析対象テキスト内の各セグメントと同種セグメントとについて、同一の内容が記述されている可能性を表す含有スコアを計算する(ステップE3)。
続いて、記述内容判定部33は、解析対象テキスト内の各セグメントに対し、該セグメントの内容が、第二のテキストへ記述されるべき内容である度合いを示す関連度を、ステップE3で計算した含有スコアを基に計算する(ステップE4)。つまり、ステップE4では、解析対象テキスト内の各セグメントの内容が第二のテキストに記述されている可能性を表す含有スコアと、同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に記述されている可能性を表す含有スコアとが用いられている。更に、ステップE4では、含有スコアが高いほど関連度は高くなっている。
その後、記述内容判定部33は、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントを特定し、これを出力装置20に出力する(ステップE6)。ステップE6は、実施の形態1におけるステップA5と同様のステップである。
また、本実施の形態5におけるプログラムは、コンピュータに、図9に示すステップE1〜E5を実行させる命令を含むプログラムであれば良い。本実施の形態5におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態5におけるテキスト処理装置を実現できる。この場合、上述したように、コンピュータのCPUは、同種セグメント特定部31、含有判定部32、及び記述内容判定部33として機能し、処理を行なう。
また、本実施の形態5におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。
このように、本実施の形態5では、記述内容判定部33は、関連度を計算する際、第二のテキスト集合内の対応するテキスト中に同一の内容が記述されている可能性を表す含有スコアを用いる。これにより、セグメントの内容が第二のテキスト集合内の対応するテキスト中に記述されているか否かという情報は、第1の実施の形態よりも厳密なものとなる。つまり、第二のテキスト集合内の対応するテキスト中に記述される可能性が高いセグメントが存在する方が、該可能性が低いセグメントが存在する場合よりも、関連度は大きくなる。従って、本実施の形態5によれば、最終出力も精度の向上を図ることが可能となる。
また、本実施の形態5を用いた場合も、関連度は、内容が第二テキストに記述されている同種セグメントがどの程度存在するかを基に計算されるため、実施の形態1と同様の効果を得ることが可能である。
なお、実施の形態2におけるステップB4を本実施の形態5におけるステップE3に置き換え、更に、ステップB5をステップE4に置き換えることができる。そうする事で、実施の形態2においても、実施の形態5と同様の効果が得られる。
また、実施の形態3におけるステップC4において、本実施の形態5におけるステップE4のように、セグメントの関連度を計算する際、セグメントの内容が第二のテキスト集合内の対応するテキスト中に記述されている可能性を表す含有スコアを考慮することもできる。この場合は、実施の形態3においても、実施の形態5と同様の効果が得られる。
具体的には、実施の形態3におけるステップC2を「含有判定部23が、第一のテキスト集合内のテキストの全セグメントに対して、第二のテキスト集合内の対応するテキスト中に内容が記述されている可能性を表す含有スコアを計算する。そして、含有判定部23が、計算した含有スコアを基に、第二のテキスト集合内の対応するテキスト中に内容が記述されているか否かを判定する(ステップC2)。」という動作に変更すれば良い。
そして、実施の形態3におけるステップC4を「記述内容判定部233は、解析対象テキスト内の各セグメントの関連度を、含有判定部23で計算した、該セグメントの含有スコアと、該セグメントの同種セグメントの含有スコアを基に計算する(ステップC4)。」という動作に変更すれば良い。
また、実施の形態4におけるステップD4を本実施の形態5におけるステップE3へ置き換え、ステップD5を、「記述内容判定部33は、解析対象テキスト中の各セグメントの関連度を、ステップE3と同様に計算した、該セグメントの含有スコアと、該セグメントの同種セグメントの含有スコアと、ステップD2で求めた、二つのセグメントがどの程度同じかを表す類似度スコアとを基に計算する(ステップD)。」という動作に置き換えてもよい。そうする事で、実施の形態4においても、実施の形態5と同様の効果が得られる。
以下、図10〜図18を参照しながら、実施の形態1におけるテキスト処理装置及びテキスト処理方法の具体的な実施例を説明する。また、以下においては、図3に示したフロー図に沿って、実施の形態1におけるテキスト処理装置の動作を説明する。なお、適宜、図1も参酌する。
実施例1では、第一のテキスト集合は、図10に示すように、コールセンターにおける通話音声を音声認識することによって得られた、音声認識テキストの集合である。また、第二のテキスト集合は、図11に示すように、図10に示す音声認識テキスト集合の認識元の通話に対する応対メモの集合である。実施例1は、音声認識テキスト集合中の各テキストの中で、応対メモ中の問い合わせ内容に書かれるべき部分の判定が行われる。図10は、実施例1で用いられる音声認識テキストの一例を示す図である。図11は、実施例1で用いられる応対メモ集合の一例を示す図である。
[ステップA1:入力の受け付け処理]
まず、入力受付部34は、通話音声の音声認識結果の集合を第一のテキスト集合として、また、音声認識結果に対応する応対メモの集合を第二のテキスト集合として受け付ける。更に、入力受付部34は、第一のテキスト集合の中からの解析対象となる第一のテキストの指定も、受け付ける(ステップA1)。
これらの入力テキストは、図10及び図11に示すように、予め、解析単位となるセグメントに明示的に分割されており、その後の作業において該セグメント単位で機械処理できる形になっているものとする。実施例1では、第一のテキスト集合及び第二のテキスト集合のセグメントの設定は、文(「。」又は「?」で区切った塊)に基づいて行われている。
[ステップA2:同種セグメントの特定]
次に、実施例1では、同種セグメント特定部31が、第一のテキスト集合(図10参照)内の全セグメントを対象に、第一のテキスト内の各セグメントと類似した同種セグメントの特定を行う。ここで、図10に示した、15280−1「お待たせしました、ABCコールセンターです。」及び15280−33「何かエラーは表示されていますか?」と、15281−1「はい、ABCコールセンター」とについて行われる、同種セグメントの判定を説明する。
(形態素解析)
先ず、音声認識結果の集合内の全セグメントに対して形態素解析が実施される。この結果、例えば、図12に示す形態素解析結果が得られる。図12は、同種セグメントの判定に際して行われる形態素解析の解析結果の一例を示す図である。
(単語ベクトルの生成)
次に、自立語を用いて、一形態素がベクトルの一次元に対応し、全形態素数がベクトルの次元数となるベクトルを生成する。具体的には、図13に示すように、各セグメントに対して、セグメントを構成する形態素に対応する要素が1、セグメント内に含まれない形態素に対応する要素は0とした単語ベクトルを生成する。図13は、同種セグメントの判定に際して作成される単語ベクトルの一例を示す図である。図13には、次元と単語の割り当て表と、それに基づいて作成された単語ベクトルの一例が示されている。
(クラスタリング)
次に、生成された各セグメントの単語ベクトルに対して、例えば、コサイン類似度を尺度にしたk−means法や、PLSIなどの一般的なクラスタリング手法が実行される。これらのクラスタリング法の実行により、類似するセグメントがまとめられ、まとめられたクラス各々が同種類のセグメントの集まりと捉える事ができる。そして、同じクラスとなったセグメントが同種セグメントと判定される。
具体的には、例えば、k−means法は、任意のセグメントにクラスタの中心を割り当て、コサイン類似度を用いて、クラスタの中心に最も近い別のセグメントを同一のクラスに分類する。その後、その分類結果の要素の平均が計算され、それを新たなクラスタの中心として、再分類が行われる。この一連の動作を繰り返し行うことでクラスタリングが実現する。
ここで、例えば、上記した15280−1、1528、15280−33のコサイン距離は、下記の通りとなる。
cosine(15280−1,15280−33)=0/(√5*√4)=0
cosine(15280−1,15281−1)=3/(√5*√3)=0.
77
このとき、クラスタの中心が15280−1に割り当てられたと仮定すると、15280−1と15281−1との類似度が高いので、これら2つは同じクラスタに分配される。一方、15280−1と15280−33との類似度は0なので、これら2つは同じクラスタに分配されない。この例では、再分類を繰り返しても、類似度の高いものは結局同じクラスタになり、15280−1と15281−1とは同じクラスタ、つまり、同種セグメントと判定される。
(その他)
また、実施例1では、例えば、第一のテキスト集合の各テキストに共通のフェーズがある場合は、フェーズに基づいて、同種セグメントを特定することもできる。例えば、各テキスト集合の共通のフェーズの手がかりを、下記の参考文献1に記載された手法で求めておき、その手がかりに該当する所でテキストを分割する。そして共通のフェーズに含まれるセグメントを類似しているセグメントと捉えられ、共通のフェーズに含まれるセグメントが、同種セグメントとして判定される。
(参考文献1)
R. Shourya and L.V. Subramaniam, “Automatic Generation of Domain Models for Call- Centers from Noisy Transcriptions”, In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, pp737-755, 2006.
このようにして、例えば、図14に示すように、同種セグメントを示す表が作成される。図14では、同一行内にあるセグメント同士が、同種セグメントとなっている。図14は、実施例1における同種セグメントの判定結果の一例を示す図である。
[ステップA3:同一内容の記述の判定]
次に、実施例1では、含有判定部32が、解析対象テキスト内の各セグメント、及び、ステップA2で判定された、該セグメントの同種セグメントに対し、第二のテキスト集合内の対応するテキスト中に、同一の内容が記述されているか否かを判定する。
例えば、解析対象テキストが、図10に示した通話音声認識結果(受付ID=15280)の場合について説明する。この場合、解析対象テキスト内の各セグメント(ID=15280−1,15280−2,15280−3,…)の同種セグメント(図14において該セグメントと同一行にあるセグメント)を対象に、それらの内容が、対応する第二のテキスト中に記述されているか否かが判定される。
(アライメント手法を用いた判定)
あるセグメントの内容が、対応するテキストに記述されているかの判定は、例えば、上述した非特許文献1に開示された従来のアラインメント手法を用いる事で実現できる。具体的には、第一のテキストのセグメント(ID=15280−1)の内容が、第二のテキストに記述されているかの判定は、通話音声認識結果(受付ID=15280)と応対メモ(受付ID=15280)とを、上記のアラインメント手法の入力とする事で実現できる。
(相互情報量を用いた判定)
また、本実施例1では、セグメント同士のアラインメントを取り、第二のテキスト集合内の対応するテキストのどのセグメントに対応するかまでは判定せず、第二のテキスト集合内の対応するテキスト中に記述されているか否かのみが判定されても良い。
その他、第一のテキスト集合内のあるセグメントの内容が、第二のテキスト集合内の対応するテキスト内に記述されているかの判定は、相互情報量に基づいて行うこともできる。この判定は、下記の参考文献2に記載の共起関係を用いた差分生成法のように、相互情報量を基にする事で実現できる。
(参考文献2)
田村晃裕、石川開、安藤真一著、「コールセンターのコールメモと通話を対象とした差分マイニング」、FIT2008、2008
ここで、相互情報量を用いた処理について、図10に示した15280−35「恐らく紙が詰まっているのかと。」が、応対メモ15280に記述されていると判定される事例を用いて説明する。先ず、図15に示すように、全応対メモ(図11)及び全通話音声認識結果(図10)に対して、形態素解析が行われ、自立語のみが抽出される。図15は、第一のテキストとそれに対応する第二のテキストとを形態素解析した結果の一例を示す図である。
次に、通話音声認識結果中の単語vと応対メモ中の単語との出現に関する相互情報量I(v;w)が、下記の数1によって算出される。下記の数1において、Dは通話音声認識結果の集合、は応対メモの集合、xはvのDi中での出現に関する確率変数、yはwのMi中での出現に関する確率変数を表している。
Figure 0005423993


この結果、図16に示すように、通話音声認識結果内の全単語と応対メモ内の全単語との相互情報量が得られる。図16は、実施例1で算出される相互情報量の一例を示す図である。また、相互情報量の定義より、共起パタンが似ているほど相互情報量は高くなる傾向にある。よって、同じ意味であるもの同士は共起パタンが似ているため、相互情報量の大きさは、二つの単語の意味の類似度を間接的に表すと捉える事ができる。
その後、下記の数2により、通話音声認識結果に含まれる任意のセグメントSeg_Dが、対応する応対メモMiに書かれている度合いを表すスコアが計算される。そして、このスコアが予め定めた閾値以上であれば、 Seg_DがMiに書かれていると判定される。
Figure 0005423993

上記の数2において、Miは、vに対してI(v,)の大きい上位N個の単語集合を示している。例えば、Nは3に設定される。結果、Score(通話音声15280−35,応対メモ15280)=0.785であったとする。このとき、閾値が0.5である状況を想定すると、通話音声15280−35は、応対メモ15280に書かれていると判定される。なお、この場合の閾値は、例えば、人為的に作成されたテキストから得られる教師データや、人為的に作成されたテキストを用いた予備実験等により予め設定しておくのが好ましい。
このようにして、例えば、図17に示すように、各セグメントの内容が、第二のテキスト集合内の対応するテキストに記述されているか否かを示す表を得る事ができる。図17は、セグメントの内容が第二のテキストに記述されているかどうかの判定結果の一例を示す図である。
[ステップA4:関連度の計算]
次に、実施例1では、記述内容判定部33が、ステップA3の判定結果に基づいて、関連度を計算する。関連度は、解析対象テキスト内の各セグメントの内容が、第二のテキスト集合内の対応する第二のテキストに記述されるべき内容である度合いを示している。また、上述したように、ステップA3では、解析対象テキスト内の各セグメントの内容が該第二のテキストに記述されているかどうか、該解析対象テキスト内の各セグメントの同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に記述されているかどうか、が判定されている。
例えば、あるセグメントSegの第二のテキストに対する関連度Cor(Seg)は下記の数3により求めることができる。下記の数3において、第2項は、セグメント(Seg)に対する同種セグメント(Seg)の内容が、第二のテキスト集合内の対応するテキスト中に含まれている程度を示している。具体的には、セグメント(Seg)の同種セグメントの内容が、対応する第二のテキストに記述される回数や、記述される割合を示している。
Figure 0005423993

上記数3において、aとbは、正の数である。a及びbの設定方法については後述する。また、上記数3において、cont(Seg)は、上述したステップA3でのSegに対する判定結果、つまり、Segの内容が、第二のテキスト集合内の対応するテキスト中に記述されているかどうかを表す。具体的には、cont(Seg)は、例えば、第二のテキスト集合内の対応するテキスト中に該セグメントの内容が記述されている場合には「1」とされ、記述されていない場合には「0」とされる。
また、上記数3において、Cluster(Seg)は、上述したステップA2で求めた、Segの同種セグメントの集合を表している。換言すると、Cluster(Seg)は、図14において、Segと同一の行にあるセグメントの集合を表している。Nは、Cluster(Seg)の要素数である(ステップA4)。
その後、上述したステップA4で計算された各セグメントの関連度を基にして、記述内容判定部33は、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントを、例えば、図18に示された例(受付ID=15280)のように特定する。図18は、実施例1において応対メモに記述されるべきと判定されたセグメントの一例を示す図である。
具体的には、図18の例では、関連度が閾値θ以上であるセグメントが特定されており、これらのセグメントの内容は、第二のテキストに記述されるべきであると判定されている(ステップA5)。
ここで、上述した変数a及びbと、閾値θとの設定方法について説明する。これらの値は、例えば、教師データを利用した予備実験等によって実験的に予め定めておくことができる。予備実験では、例えば、予め、第一のテキスト集合内のセグメントの一部に対して、該セグメントの内容が対応する第二のテキストに記述すべきかどうかを人手で判定した結果が、付与されている。そして、a、b、θの初期値をランダムに設定する。
次に、人手で判定結果の付与された第一のテキスト集合内のセグメントを対象にして、上記の数3により関連度を求め、関連度が、上記で設定した閾値θ以上のものを第二のテキストに記述すべきセグメントであると判定する。この判定結果と、人手で付与した正解とを比較し、正解率を求める。次いで、a、b、θの値を変え、上述した関連度の算出、比較といった一連の処理を複数回試行する。そして、正解率が最も高かった、a、b、θが採用される。
その後、記述内容判定部33は、第二のテキストに内容が記述されるべきであると判定されたセグメントのテキスト部分のみを出力することもできるし、図18に示されているように、テキスト部分と関連度とを共に出力することもできる。また、記述内容判定部33は、関連度順にセグメントをランキングした表を出力することもできる。
図18からは、第二のテキストに内容が記述されるべきセグメントと判定されたセグメントに、セグメントID=34が含まれている事が分かる。該セグメントの内容は、第二のテキスト(受付ID=15280)には記述されていないが、第二のテキストとして書かれるべき情報である。このような情報は、特許文献1及び非特許文献1では、第二のテキストとして書かれるべき情報と判定されない。これに対して、本実施例では、該セグメントの関連度を計算する際、上記数3の第2項部分によって、該セグメントの同種セグメントの情報が用いられる。このため、本実施例によれば、該セグメントは、第二のテキストに書かれるべき情報と判定される。
次に、図19〜図22を参照しながら、実施の形態2におけるテキスト処理装置及びテキスト処理方法の具体的な実施例を説明する。また、以下においては、図5に示したフロー図に沿って、実施の形態2におけるテキスト処理装置の動作を説明する。なお、適宜、図4も参酌する。
本実施例2においても、実施例1と同様に、第一のテキスト集合は、図19に示すように、コールセンターにおける通話音声を音声認識することによって得られた、音声認識テキストの集合である。また、第二のテキスト集合は、図20に示すように、図19に示す音声認識テキスト集合の認識元の通話に対する応対メモの集合である。実施例2でも、実施例1と同様に、音声認識テキスト集合中の各テキストの中で、応対メモ中の問い合わせ内容に書かれるべき部分の判定が行われる。図19は、実施例2で用いられる音声認識テキストの一例を示す図である。図20は、実施例2で用いられる応対メモ集合の一例を示す図である。
[ステップB1:入力の受け付け処理]
入力受付部134は、通話音声の音声認識結果のテキスト集合を第一のテキスト集合として、音声認識結果に対応する応対メモの集合を第二のテキスト集合として受け付ける。また、入力受付部134は、第一のテキスト集合の中から、解析対象となる第一のテキストの指定も受け付ける(ステップB1)。このとき、入力となる第一のテキスト集合及び第二のテキスト集合内の各テキストは、図19及び図20に示すように、必ずしも解析単位のセグメントに分割されている必要はない。
[ステップB2:セグメントの設定]
次に、テキスト分割部135は、第一のテキスト集合及び第二のテキスト集合内の各テキストを、解析単位のセグメントに分割する(ステップB2)。例えば、解析単位のセグメントが文である場合、テキスト分割部135は、文のセパレータを予め定め、そのセパレータ間が一つのセグメントに設定されるように分割を行う。図19及び図20では、「。」と「?」とがセパレータとして予め定められており、図19及び図20に示したテキストに対するテキスト分割の結果、図10及び図11に示した結果が得られる。
また、テキスト分割部135は、トピックに基づいて、テキストを分割してセグメントを設定することもできる。この場合、テキスト分割部135は、例えば、単語の頻度や分布を用いて話題が変化する位置を決める手法(下記の参考文献3参照)等を用いる事で、セグメント分割を実現できる。具体的には、図19に示された受付ID=15280の例を、トピックに基づいて分割すると、例えば、図21に示される例のようになる。図21は、実施例2においてトピックで分割された通話音声認識結果の一例を示している。
(参考文献3)
Marti A. Hearst, “TextTiling: Segmenting Text into Multi-paragraph Subtopic Passage”, Computational Linguistics, Vol.23 No.1, pp33-64, 1997.
その他、テキスト分割部135は、テキスト集合の各テキストに共通のフェーズがある場合は、それらのフェーズの手がかりを、例えば、下記の参考文献4に開示されている手法で求め、その手がかりに該当する所でテキストを分割することができる。この場合、テキストのセグメントは、話題のフェーズという単位で分割できる。具体的には、図19に示された受付ID=15280の例を、話題のフェーズで分割すると、例えば、図22に示される例のようになる。図22は、実施例2においてフェーズで分割された通話音声認識結果の一例を示している。
(参考文献4)
R. Shourya and L.V. Subramaniam, “Automatic Generation of Domain Models for Call- Centers from Noisy Transcriptions”, In Proceedings of the 21st International Conference on Computational Linguisticsand the 44th annual meeting of the Association for Computational Linguistics, pp737-755, 2006.
また、本実施例2では、テキスト分割部135は、他の基準によってテキストを分割して、セグメントを設定しても良い。セグメント設定の基準の上記の例に限定されるものではない。
ステップB2の実行後、セグメント分割された第一のテキスト集合と第二のテキスト集合に対し、図5に示されたステップB3〜B6が実行される。但し、ステップB3〜B6は、実施例1におけるステップA2〜A5と同様の処理によって行われる。
このように、本実施例2によれば、入力された第一及び第二のテキスト集合内の各テキストが予め解析単位のセグメントに分割されているか否かに拘わらず、データに応じて、同種セグメントの情報を利用するのに効果的なセグメントが設定される。従って、適切なセグメント単位での処理が行われるため、最終的な出力の精度も向上することとなる。
次に、図23を参照しながら、実施の形態3におけるテキスト処理装置及びテキスト処理方法の具体的な実施例を説明する。また、以下においては、図7に示したフロー図に沿って、実施の形態3におけるテキスト処理装置の動作を説明する。なお、適宜図6も参酌する。
本実施例3においても、実施例1と同様に、第一のテキスト集合は、コールセンターにおける通話音声を音声認識することによって得られた、音声認識テキストの集合である。また、第二のテキスト集合は、音声認識テキスト集合の認識元となった通話に対する応対メモの集合である。実施例3でも、実施例1と同様に、音声認識テキスト集合中の各テキストの中で、応対メモ中の問い合わせ内容に書かれる部分の判定が行われる。
[ステップC1:入力の受け付け処理]
入力受付部34は、実施例1でべたステップA1における処理と同様の処理を行う(ステップC1)。
[ステップC2:同一内容の記述の判定]
次に、本実施例3では、含有判定部23は、第一のテキスト集合内のテキストの全セグメントに対し、第二のテキスト集合内の対応するテキスト内に、内容が記述されているか否かを判定する。
実施例1におけるステップA3と、本ステップC2との違いは、実施例1におけるステップA3では、入力対象のセグメントは限定されていたが、本ステップC2では、第一のテキスト集合内の全セグメントが対象である点のみである。従って、本ステップC2における判定手法としては、実施例1のステップA3と同様の手法を用いることができる。また、本ステップC2の出力としては、実施例1のステップA3で得られる図17に示された例と同様の結果が得られる(ステップC2)。
[ステップC3:同種セグメントの特定]
次に、同種セグメント特定部23は、上述のステップC2により、第二のテキスト集合内の対応するテキスト内に内容が記述されていると判定されたセグメントの集合の中から、解析対象テキストの各セグメントの同種セグメントを特定する。なお、ステップC2で記述されていると判定されたセグメントとしては、図17に示された表と同形式の表で「同一内容の記述」の欄が○となっているセグメントが挙げられる。
また、本実施例3においても、二つのセグメントが同種セグメントの関係になっているかどうかを判定する具体的手法としては、実施例1のステップA2で述べた、形態素解析、単語ベクトルの生成、及びクラスタリングによる判定手法が挙げられる。本実施例3におけるステップC3の結果として、例えば、図23に示すように、解析対象テキストの各セグメントと、該セグメントの同種セグメントとを一行とする表が得られる(ステップC3)。図23は、実施例3における同種セグメントの判定結果の一例を示す図である。
[ステップC4:関連度の計算]
次に、実施例3では、記述内容判定部233は、ステップC2及びC3の結果に基づいて、関連度を計算する。関連度は、解析対象テキスト内の各セグメントに対し、該セグメントの内容が、第二のテキストへ記述されるべき内容である度合いを示している。また、ステップC2及びC3により、解析対象テキストの各セグメントの内容が第二のテキストに記述されているかと、同種セグメントのうち、内容が第二のテキスト集合内の対応するテキストに記述されているセグメントがどの程度存在するかとが、判定される。
具体的には、あるセグメントSegの第二のテキストに対する関連度Cor(Seg)は、例えば、下記の数4により求められる。下記の数4において、第2項は、セグメント(Seg)に対する同種セグメント(Seg)の内容が、第二のテキスト集合内の対応するテキスト中に含まれている程度を示している。
Figure 0005423993

上記数4において、a、bは、正の数である。a及びbは、実施例1の場合と同様に、例えば、教師データを利用した予備実験等により実験的に予め設定される。cont(Seg)は、ステップC2でのSegに対する判定結果、つまり、Segの内容が、第二のテキスト集合内の対応するテキスト中に記述されているかどうかを表す。具体的には、例えば、Segの内容が、第二のテキスト集合内の対応するテキスト中に記述されている場合には「1」とされ、記述されていない場合には「0」とされる。
また、上記数4において、Cluster(Seg)は、Segの同種セグメントの集合を表している。換言すると、図23において、Segと同一の行に存在するセグメントの集合を表している(ステップC4)。
その後、記述内容判定部233は、実施例1におけるステップA5と同様に、動作する(ステップC5)。これにより、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントが特定される。
ここで、本実施例3においても、実施例2と同様に、テキスト分割部によるテキストの分割を行っても良い。この場合は、ステップC1とステップC2との間で、実施例2におけるステップB2が実施される。こうする事で、本実施例3においても、図19及び図20に示した、予め解析単位のセグメントが設定されていないテキストの集合を、第一のテキスト集合及び第二のテキスト集合として受け付ける事が可能となる。
次に、図24を参照しながら、実施の形態4におけるテキスト処理装置及びテキスト処理方法の具体的な実施例を説明する。また、以下においては、図8に示したフロー図に沿って、実施の形態4におけるテキスト処理装置の動作を説明する。
本実施例4においても、実施例1と同様に、第一のテキスト集合は、コールセンターにおける通話音声を音声認識することによって得られた、音声認識テキストの集合である。また、第二のテキスト集合は、音声認識テキスト集合の認識元となった通話に対する応対メモの集合である。実施例4でも、実施例1と同様に、音声認識テキスト集合中の各テキストの中で、応対メモ中の問い合わせ内容に書かれる部分の判定が行われる。
[ステップD1:入力の受け付け処理]
入力受付部は、実施例1でべたステップA1における処理と同様の処理を行う(ステップD1)。
[ステップD2:類似度スコアの計算]
次に、実施例4では、同種セグメント特定部は、第一のテキスト集合内の全セグメントを対象に、解析対象テキストの各セグメントとの類似度を表す類似度スコアを計算し、各セグメントに類似度スコアを付与する。この類似度スコアは、二つのセグメントがどの程度同じかを示す。
具体的には、実施例4においても、実施例1におけるステップA2と同様に、各セグメントに対し形態素解析が行われ、一形態素がベクトルの一次元に対応し、全形態素数がベクトルの次元数となるベクトルが生成される。つまり、各セグメントに対し、セグメント内の形態素に対応する要素が1、セグメント内に含まれない形態素に対応する要素が0となる単語ベクトルが生成される(図13参照)。実施例4では、このようにして生成された二つの単語ベクトルのコサイン距離が、類似度スコアとして、各セグメントに付与される。
上記の処理により、結果として、例えば図24に示す、(i,j)成分がセグメントiとセグメントjとの類似度スコアを示す行列が得られる(ステップD2)。図24は、実施例4において計算された類似度スコアの一例を示す図である。
[ステップD3:同種セグメントの特定]
次に、同種セグメント特定部は、ステップD2で求めた類似度スコアを基に、解析対象テキストの各セグメントの同種セグメントを、解析対象テキスト以外の第一のテキスト集合内の全セグメントの中から特定する。
本実施例4では、同種セグメント特定部は、例えば、図24における各セル内の類似度スコアが閾値以上であれば、該スコアの行と列に対応するセグメント同士が同じセグメントタイプであると判定することができる。この場合の閾値は、実施例1でも述べたように、例えば、教師データを利用した予備実験等により実験的に予め定めておくことができる(ステップD3)。
[ステップD4:同一内容の記述の判定]
次に、実施例4では、含有判定部は、実施例1におけるステップA3と同様の処理を行う。この動作により、例えば、解析対象テキスト内の各セグメント及び該セグメントの同種セグメントに対し、第二のテキスト集合内の対応するテキスト中に、内容が記述されているか否かが判定される。そして、図17に示すような判定結果が示された表の取得が可能となる(ステップD4)。
[ステップD5:関連度の計算]
次に、実施例4では、記述内容判定部33は、ステップD4の結果と、ステップD2で求めた類似度スコアに基づいて、関連度を計算する。関連度は、解析対象テキストの各セグメントの内容が、第二のテキストに記述されるべき内容である度合いを示している。また、ステップD4の判定結果は、該セグメントの内容が第二のテキストに記述されているかどうかと、該セグメントの同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に記述されているかどうかとである。
例えば、あるセグメントSegの第二のテキストに対する関連度Cor(Seg)は下記の数5により求められる。下記の数5において、第2項は、セグメント(Seg)に対する同種セグメント(Seg)の内容が、第二のテキスト集合内の対応するテキスト中に含まれている程度を示している。
Figure 0005423993

上記数5において、a、bは、正の数である。a及びbは、実施例1の場合と同様に、例えば、教師データを利用した予備実験等により実験的に予め設定される。また、cont(Seg)は、Segの内容が、第二のテキスト集合内の対応するテキスト中に記述されているかどうかを表す。具体的には、例えば、Segの内容が、第二のテキスト集合内の対応するテキスト中に記述されている場合には「1」とされ、記述されていない場合には「0」とされる。
また、上記数5において、Cluster(Seg)は、Segの同種セグメントの集合であり、ステップD3により得られる。NはCluster(Seg)の要素数である。更に、上記数5において、また、sim(Seg, Seg)は、SegとSegとの類似度スコアであり、ステップD2で計算されたものである。本例では、図24内の(i,j)成分の値である(ステップD5)。
その後、記述内容判定部は、実施例1におけるステップA5と同様に、動作する(ステップD5)。これにより、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントが特定される。
以上のように、本実施例4では、ステップD5において、セグメントの関連度を計算する際、上記数5に示すように、sim(Seg, Seg)を用いる。これにより、SegとSegとが同種セグメントか否かという情報が、実施例1に比べてより詳細なものとなるため、最終出力も精度のよい結果となる。
ここで、実施例2では、ステップB3を、本実施例4のステップD2及びD3へ置き換え、図24に示す、各成分がセグメント間の類似度スコアを表す行列を取得することができる。更に、この場合、実施例2では、ステップB5をステップD5に置き換え、関連度は、上記数5によって、図24から得られるセグメント間の類似度スコアを代入して計算されても良い。そうする事で、実施例2においても、本実施例4と同様の効果が得られる。
また、実施例3では、ステップC4において、本実施例4のステップD4のように、セグメントの関連度を計算する際に、sim(Seg,Seg)を用いた、下記数6を用いることができる。この場合は、実施例3においても、本実施例4と同様の効果が得られる。なお、下記数6において、各変数の定義は、上記数5と同じである。また、下記数6において、第2項は、セグメント(Seg)に対する同種セグメント(Seg)が、第二のテキスト集合内の対応するテキスト中に記述されている度合いを示している。
Figure 0005423993

具体的には、実施例3におけるステップC3の後で、ステップD2と同様のステップを行い、解析対象テキストの各セグメントと、ステップC3によって該セグメントの同種のセグメントであると判定された、セグメントとの類似度スコアを保存しておく。結果として、例えば、図24と同様の行列であって、行が解析対象テキスト内のセグメント、列がステップC3により同種セグメントと判定されたセグメントとで構成された行列が生成される。その後、実施例3におけるステップC4では、上記数4の代わりに、上記数6を用いて関連度が計算される。
次に、図25を参照しながら、実施の形態5におけるテキスト処理装置及びテキスト処理方法の具体的な実施例を説明する。また、以下においては、図9に示したフロー図に沿って、実施の形態5におけるテキスト処理装置の動作を説明する。
本実施例5においても、実施例1と同様に、第一のテキスト集合は、コールセンターにおける通話音声を音声認識することによって得られた、音声認識テキストの集合である。また、第二のテキスト集合は、音声認識テキスト集合の認識元となった通話に対する応対メモの集合である。実施例5でも、実施例1と同様に、音声認識テキスト集合中の各テキストの中で、応対メモ中の問い合わせ内容に書かれる部分の判定が行われる。
[ステップE1:入力の受け付け処理]
入力受付部は、実施例1でべたステップA1における処理と同様の処理を行う(ステップE1)。
[ステップE2:同種セグメントの特定]
次に、実施例5では、同種セグメント特定部が、実施例1におけるステップA2と同様に、第一のテキスト集合内の全セグメントを対象に、解析対象テキスト内の各セグメントと類似した同種セグメントの特定を行う。具体的には、第一のテキスト集合の全セグメントの中で、解析対象テキストの各セグメントに対する同種セグメントを特定する。その結果、例えば、図14のような結果を得る(ステップE2)。
[ステップE3:含有スコアの計算]
次に、本実施例5では、含有判定部は、解析対象テキスト内の各セグメント、及び、ステップE2で特定された同種セグメントに対して、第二のテキスト集合内の対応するテキスト中に同一の内容が記述されているかを判定する。また、含有判定部は、更に、これらのセグメントについて、同一の内容が記述されている可能性を表す含有スコアも計算する。
ところで、背景技術の欄で述べた、特許文献1及び非特許文献1においては、二つのセグメントに対するアラインメントスコア(値が高いほど二つのセグメントは対応づく事を表すスコア)が計算され、アラインメントが実行されている。
本実施例5では、上記のアライメントスコアを、セグメントの内容が第二のテキスト集合内の対応するテキスト中に記述される可能性を表す、含有スコアと捉え、これを保存する(ステップE3)。この処理により、結果として、例えば、図25に示すように、各セグメントが第二のテキストに記述される可能性が示された表が取得される。図25は、実施例5において計算された含有スコアの一例を示す図である。
また、上述した参考文献2に記載の共起関係を用いた差分生成法のように、相互情報量を基にして、含有スコアを算出することもできる。この場合は、セグメントの内容が第二のテキスト集合内の対応するテキスト中に記述されているかを判定した場合に、セグメント内の各単語と、第二のテキスト集合内の対応するテキスト内の各単語との相互情報量の総和が含有スコアとして捉えられる(ステップE3)。
[ステップE4:関連度の計算]
次に、実施例5では、記述内容判定部は、ステップE3で計算した含有スコアに基づいて、関連度を計算する。関連度は、解析対象テキスト内の各セグメントの内容が、第二のテキストへ記述されるべき内容である度合いを示している。また、ステップE3で計算された含有スコアは、該セグメントの内容が第二のテキストに記述されている可能性を表す含有スコアと、該セグメントの同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に記述されている可能性を表す含有スコアとである。
例えば、あるセグメントSegの第二のテキストに対する関連度Cor(Seg)は、下記数7により求められる。下記の数7において、第2項が、セグメント(Seg)に対する同種セグメント(Seg)の内容が、第二のテキスト集合内の対応するテキスト中に含まれている程度を示している。
Figure 0005423993

上記数において、a、bは、正の数である。a及びbは、実施例1の場合と同様に、例えば、教師データを利用した予備実験等により実験的に予め設定される。また、score_cont(Seg)は、Segに対してステップE3で得られた含有スコアである。更に、Cluster(Seg)は、Segの同種セグメントの集合であり、ステップE2により得られる。Nは、Cluster(Seg )の要素数である(ステップE4)。
その後、記述内容判定部は、実施例1におけるステップA5と同様に、動作する(ステップE5)。これにより、解析対象テキストのセグメントの内、第二のテキストに記述されるべきセグメントが特定される。
以上のように、本実施例5では、ステップE4において、セグメントの関連度を計算する際、上記数7のように、セグメントの含有スコアscore_cont(Seg)を用いる。これにより、Segの内容が第二のテキスト集合内の対応するテキスト中に記述されているか否かという情報は、実施例1よりも厳密なものとなる。このため、最終出力も精度のよい結果となる。
ここで、実施例2では、ステップB4を、本実施例5のステップE3へ置き換え、図25に示す、各セグメントに対する含有スコアを取得することができる。更に、この場合、実施例2では、ステップB5をステップE4に置き換え、含有スコアを用いて関連度が計算されていても良い。そうする事で、実施例2においても、本実施例5と同様の効果が得られる。
また、実施例3では、ステップC4において、本実施例5のステップE4のように、セグメントの関連度を計算する際に、各セグメントの含有スコアを用いた、下記数8を用いることができる。この場合は、実施例3においても、本実施例5と同様の効果が得られる。なお、下記数8において、各変数の定義は、上記数7と同じである。また、下記数8における第2項は、セグメント(Seg)に対する同種セグメント(Seg)が、第二のテキスト集合内の対応するテキスト中に記述されている度合いを示している。
Figure 0005423993

具体的には、実施例3におけるステップC2で、第一のテキスト集合内の全セグメントに対し、対応する第二のテキスト中に内容が記述されているか否かを判定する際に、判定結果と共に、含有スコアが計算され、保存される。なお、含有スコアの計算は、本実施例5のステップE3と同様の処理によって行われる。結果として、例えば、全セグメントに対する含有スコアが格納された、図25と同一形式の表が取得される。そして、実施例3のステップC4において、上記数4の代わりに、上記数8が用いられて、関連度が計算される。
また、実施例4では、ステップD4を本実施例5のステップE3へ置き換え、図25に示す、各セグメントに対する含有スコアを得ておくことができる。この場合、ステップD5においては、セグメントの関連度を計算する際、各セグメントの含有スコアを含む下記数9を用いることができる。これにより、実施例4においても、本実施例5と同様の効果が得られる。また、下記の数9において、第2項は、セグメント(Seg)に対する同種セグメント(Seg)が、第二のテキスト集合内の対応するテキスト中に記述されている度合いを示している。
Figure 0005423993

ここで、a、b、sim(Seg, Seg)、Cluster(Seg)、及びNは、実施例4で示した上記数6における変数と同様のものである。また、score_cont(Seg)は、Segに対してステップE3で得られる含有スコアである。
以上、実施の形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施の形態及び実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年12月26日出願された日本出願特願2008−335327を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本願発明におけるテキスト処理装置、テキスト処理方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。
(1)第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うテキスト処理装置であって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理装置は、セグメント判定部と、記述内容判定部とを備え、
前記セグメント判定部は、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定し、
前記記述内容判定部は、前記セグメント判定部による判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ことを特徴とするテキスト処理装置。
(2)前記セグメント判定部が、同種セグメント特定部と、含有判定部とを備え、
前記同種セグメント特定部は、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとし、
前記含有判定部は、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定する、上記(1)に記載のテキスト処理装置。
(3)前記記述内容判定部は、
前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(2)に記載のテキスト処理装置。
(4)前記含有判定部が、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(3)に記載のテキスト処理装置。
(5)前記セグメント判定部が、含有判定部と、同種セグメント特定部とを備え、
前記含有判定部が、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定し、
前記同種セグメント特定部が、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記含有判定部によって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、
前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとする、上記(1)に記載のテキスト処理装置。
(6)前記記述内容判定部は、
前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(5)に記載のテキスト処理装置。
(7)前記含有判定部が、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(6)に記載のテキスト処理装置。
(8)前記記述内容判定部が、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(3)に記載のテキスト処理装置。
(9)前記記述内容判定部が、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(3)に記載のテキスト処理装置。
(10)前記同種セグメント特定部が、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
前記記述内容判定部が、更に、前記同種セグメント特定部によって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、上記(8)に記載のテキスト処理装置。
(11)前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、テキスト分割部を更に備えている、上記(1)に記載のテキスト処理装置。
(12)前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、上記(1)に記載のテキスト処理装置。
(13)第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うためのテキスト処理方法であって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理方法は、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを有することを特徴とするテキスト処理方法。
(14)前記(a)のステップが、
(l)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
(m)前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを有する、上記(13)に記載のテキスト処理方法。
(15)前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(14)に記載のテキスト処理方法。
(16)前記(m)のステップで、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(15)に記載のテキスト処理方法。
(17)前記(a)のステップが、
(x)全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
(y)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを有する、上記(13)に記載のテキスト処理方法。
(18)前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(17)に記載のテキスト処理方法。
(19)前記(x)のステップで、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(18)に記載のテキスト処理方法。
(20)前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(15)に記載のテキスト処理方法。
(21)前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(15)に記載のテキスト処理方法。
(22)前記(l)のステップで、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
前記(b)のステップで、更に、前記(l)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、上記(20)に記載のテキスト処理方法。
(23)(c)前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、ステップを更に有している、上記(13)に記載のテキスト処理方法。
(24)前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、上記(13)に記載のテキスト処理方法。
(25)第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比する、解析処理を、コンピュータに実行させるための、プログラムであって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
記コンピュータに、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを実行させる、プログラム。
(26)前記コンピュータが、前記(a)のステップとして、
(l)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
(m)前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを実行する、上記(25)に記載のプログラム
(27)前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(26)に記載のプログラム
(28)前記(m)のステップで、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(27)に記載のプログラム
(29)前記コンピュータが、前記(a)のステップとして、
(x)全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
(y)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを実行する、上記(25)に記載のプログラム
(30)前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(29)に記載のプログラム
(31)前記(x)のステップで、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(30)に記載のプログラム
【0246】
【0246】
(32)前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(27)に記載のプログラム。
(33)前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(27)に記載のプログラム。
(34)前記(l)のステップで、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
前記(b)のステップで、更に、前記(l)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、上記(32)に記載のプログラム
(35)(c)前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、ステップを、前記コンピュータに更に実行させる、上記(25)に記載のプログラム
(36)前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、上記(25)に記載のプログラム
本発明は、第一のテキスト集合に対する第二のテキスト集合が存在する場合に適用できる。特に、第二のテキスト集合内に、本来ならば書かれるべき情報が一部欠如しているテキストが存在する場合に効果を発揮する。したがって、人間が作成したテキスト集合が第二のテキスト集合となる時には、特に効果を発揮する。このことから、本発明は産業上の利用可能性を有している。
例えば、第一のテキスト集合が、コールセンターにおける通話音声の音声認識結果や通話音声の書き起こしテキスト集合で、第二のテキスト集合が、応対メモの集合の場合などである。また、第一のテキスト集合が、会議音声の音声認識結果や、その書き起こしのテキスト集合で、第二のテキスト集合が、議事録の集合の場合などの分析にも効果を発揮する。
また、ある文書集合を、異なる二人の人がそれぞれ要約した場合を考え、片方の人により要約された要約文書集合を第一のテキスト集合、他方の人により要約された要約文書集合を第二のテキスト集合とする場合なども例としてあげられる。さらに、第一のテキスト集合を論文、第二のテキスト集合を、その論文に対する概要の集合とする場合や、第一のテキスト集合を論文、第二のテキスト集合を、その論文の発表資料とする場合にも、本発明は効果を発揮する。
10 入力装置(実施の形態1)
20 出力装置(実施の形態1)
31 同種セグメント特定部(実施の形態1)
32 含有判定部(実施の形態1)
33 記述内容判定部(実施の形態1)
34 入力受付部(実施の形態1)
110 入力装置(実施の形態2)
120 出力装置(実施の形態2)
131 同種セグメント特定部(実施の形態2)
132 含有判定部(実施の形態2)
133 記述内容判定部(実施の形態2)
134 入力受付部(実施の形態2)
135 テキスト分割部(実施の形態2)
210 入力装置(実施の形態3)
220 出力装置(実施の形態3)
231 同種セグメント特定部(実施の形態3)
232 含有判定部(実施の形態3)
233 記述内容判定部(実施の形態3)
234 入力受付部(実施の形態3)

Claims (36)

  1. 第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うテキスト処理装置であって、
    前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
    当該テキスト処理装置は、セグメント判定部と、記述内容判定部とを備え、
    前記セグメント判定部は、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定し、
    前記記述内容判定部は、前記セグメント判定部による判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ことを特徴とするテキスト処理装置。
  2. 前記セグメント判定部が、同種セグメント特定部と、含有判定部とを備え、
    前記同種セグメント特定部は、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとし、
    前記含有判定部は、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定する、請求項1に記載のテキスト処理装置。
  3. 前記記述内容判定部は、
    前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
    更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項2に記載のテキスト処理装置。
  4. 前記含有判定部が、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
    前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項3に記載のテキスト処理装置。
  5. 前記セグメント判定部が、含有判定部と、同種セグメント特定部とを備え、
    前記含有判定部が、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定し、
    前記同種セグメント特定部が、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記含有判定部によって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、
    前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとする、請求項1に記載のテキスト処理装置。
  6. 前記記述内容判定部は、
    前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
    更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項5に記載のテキスト処理装置。
  7. 前記含有判定部が、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
    前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項6に記載のテキスト処理装置。
  8. 前記記述内容判定部が、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
    更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項3または4に記載のテキスト処理装置。
  9. 前記記述内容判定部が、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
    更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項3、4、6または7に記載のテキスト処理装置。
  10. 前記同種セグメント特定部が、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
    前記記述内容判定部が、更に、前記同種セグメント特定部によって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、請求項8または9に記載のテキスト処理装置。
  11. 前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、テキスト分割部を更に備えている、請求項1〜10のいずれかに記載のテキスト処理装置。
  12. 前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、請求項1〜10のいずれかに記載のテキスト処理装置。
  13. 第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うためのテキスト処理方法であって、
    前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
    当該テキスト処理方法は、
    (a)コンピュータによって、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
    (b)前記コンピュータによって、前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを有することを特徴とするテキスト処理方法。
  14. 前記(a)のステップが、
    (l)前記コンピュータによって、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
    (m)前記コンピュータによって、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを有する、請求項13に記載のテキスト処理方法。
  15. 前記(b)のステップで、
    前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
    更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項14に記載のテキスト処理方法。
  16. 前記(m)のステップで、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
    前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項15に記載のテキスト処理方法。
  17. 前記(a)のステップが、
    (x)前記コンピュータによって、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
    (y)前記コンピュータによって、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを有する、請求項13に記載のテキスト処理方法。
  18. 前記(b)のステップで、
    前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
    更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項17に記載のテキスト処理方法。
  19. 前記(x)のステップで、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
    前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項18に記載のテキスト処理方法。
  20. 前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
    更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項15または16に記載のテキスト処理方法。
  21. 前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
    更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項15、16、18または19に記載のテキスト処理方法。
  22. 前記(l)又は(y)のステップで、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
    前記(b)のステップで、更に、前記(l)又は前記(y)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、請求項20または21に記載のテキスト処理方法。
  23. (c)前記コンピュータによって、前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、ステップを更に有している、請求項13〜22のいずれかに記載のテキスト処理方法。
  24. 前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、請求項13〜22のいずれかに記載のテキスト処理方法。
  25. 第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比する、解析処理を、コンピュータに実行させるための、プログラムであって、
    前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
    前記コンピュータに、
    (a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
    (b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを実行させる、プログラム。
  26. 前記コンピュータが、前記(a)のステップとして、
    (l)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
    (m)前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを実行する、請求項25に記載のプログラム。
  27. 前記(b)のステップで、
    前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
    更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項26に記載のプログラム。
  28. 前記(m)のステップで、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
    前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項27に記載のプログラム。
  29. 前記コンピュータが、前記(a)のステップとして、
    (x)全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
    (y)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを実行する、請求項25に記載のプログラム。
  30. 前記(b)のステップで、
    前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
    更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項29に記載のプログラム。
  31. 前記(x)のステップで、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
    前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項30に記載のプログラム。
  32. 前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
    更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項27または28に記載のプログラム。
  33. 前記(b)のステップで、前記第二テキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
    更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項27、28、30または31に記載のプログラム。
  34. 前記(l)又は(y)のステップで、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
    前記(b)のステップで、更に、前記(l)又は前記(y)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、請求項32または33に記載のプログラム。
  35. (c)前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、ステップを、前記コンピュータに更に実行させる、請求項25〜34のいずれかに記載のプログラム。
  36. 前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、請求項25〜34のいずれかに記載のプログラム。
JP2010543840A 2008-12-26 2009-12-21 テキスト処理装置、テキスト処理方法、及びプログラム Expired - Fee Related JP5423993B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010543840A JP5423993B2 (ja) 2008-12-26 2009-12-21 テキスト処理装置、テキスト処理方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008335327 2008-12-26
JP2008335327 2008-12-26
PCT/JP2009/007071 WO2010073591A1 (ja) 2008-12-26 2009-12-21 テキスト処理装置、テキスト処理方法、及びコンピュータ読み取り可能な記録媒体
JP2010543840A JP5423993B2 (ja) 2008-12-26 2009-12-21 テキスト処理装置、テキスト処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2010073591A1 JPWO2010073591A1 (ja) 2012-06-07
JP5423993B2 true JP5423993B2 (ja) 2014-02-19

Family

ID=42287241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010543840A Expired - Fee Related JP5423993B2 (ja) 2008-12-26 2009-12-21 テキスト処理装置、テキスト処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US8886519B2 (ja)
JP (1) JP5423993B2 (ja)
WO (1) WO2010073591A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6618992B2 (ja) * 2015-04-10 2019-12-11 株式会社東芝 発言提示装置、発言提示方法およびプログラム
US10341397B2 (en) * 2015-08-12 2019-07-02 Fuji Xerox Co., Ltd. Non-transitory computer readable medium, information processing apparatus, and information processing system for recording minutes information
JP6657920B2 (ja) * 2015-12-18 2020-03-04 日本電気株式会社 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム
WO2019093239A1 (ja) * 2017-11-07 2019-05-16 日本電気株式会社 情報処理装置、方法及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125112A (ja) * 1997-07-04 1999-01-29 N T T Data:Kk 対話音声処理方法及び装置、記録媒体
JP2004253011A (ja) * 2004-06-07 2004-09-09 National Institute Of Information & Communication Technology 自動要約処理装置および自動要約処理方法
WO2008078670A1 (ja) * 2006-12-22 2008-07-03 Nec Corporation 文言い換え方法、プログラムおよびシステム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6108620A (en) * 1997-07-17 2000-08-22 Microsoft Corporation Method and system for natural language parsing using chunking
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US6275797B1 (en) * 1998-04-17 2001-08-14 Cisco Technology, Inc. Method and apparatus for measuring voice path quality by means of speech recognition
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
US6993527B1 (en) * 1998-12-21 2006-01-31 Adobe Systems Incorporated Describing documents and expressing document structure
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
US7813915B2 (en) * 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
US7054803B2 (en) 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US7120581B2 (en) * 2001-05-31 2006-10-10 Custom Speech Usa, Inc. System and method for identifying an identical audio segment using text comparison
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
WO2003036425A2 (en) * 2001-10-23 2003-05-01 Electronic Data Systems Corporation System and method for managing a procurement process
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7386439B1 (en) * 2002-02-04 2008-06-10 Cataphora, Inc. Data mining by retrieving causally-related documents not individually satisfying search criteria used
US7756827B1 (en) * 2002-06-28 2010-07-13 Teradata Us, Inc. Rule-based, event-driven, scalable data collection
US7127475B2 (en) * 2002-08-15 2006-10-24 Sap Aktiengesellschaft Managing data integrity
US7158983B2 (en) * 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
EP1812898A2 (en) * 2004-11-02 2007-08-01 Eagleforce Associates System and method for predictive analysis and predictive analysis markup language
US8869037B2 (en) * 2006-06-22 2014-10-21 Linkedin Corporation Event visualization
US8055997B2 (en) * 2006-06-26 2011-11-08 Lexmark International Technology, S.A. System and method for implementing dynamic forms
US7822750B2 (en) * 2007-01-17 2010-10-26 Aptima, Inc Method and system to compare data entities
US8345159B2 (en) * 2007-04-16 2013-01-01 Caption Colorado L.L.C. Captioning evaluation system
JP5100203B2 (ja) * 2007-05-21 2012-12-19 日本放送協会 テキスト分析装置およびテキスト分析プログラム
US8032573B2 (en) * 2007-06-10 2011-10-04 Philippe Richard System and method for managing and updating data from a number of sources for a project
US9276758B2 (en) * 2008-02-11 2016-03-01 Adobe Systems Incorporated Analyzing and repairing documents
US20100005087A1 (en) * 2008-07-01 2010-01-07 Stephen Basco Facilitating collaborative searching using semantic contexts associated with information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125112A (ja) * 1997-07-04 1999-01-29 N T T Data:Kk 対話音声処理方法及び装置、記録媒体
JP2004253011A (ja) * 2004-06-07 2004-09-09 National Institute Of Information & Communication Technology 自動要約処理装置および自動要約処理方法
WO2008078670A1 (ja) * 2006-12-22 2008-07-03 Nec Corporation 文言い換え方法、プログラムおよびシステム

Also Published As

Publication number Publication date
WO2010073591A1 (ja) 2010-07-01
JPWO2010073591A1 (ja) 2012-06-07
US8886519B2 (en) 2014-11-11
US20110282653A1 (en) 2011-11-17

Similar Documents

Publication Publication Date Title
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
US20180113856A1 (en) Producing training sets for machine learning methods by performing deep semantic analysis of natural language texts
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
US20210397787A1 (en) Domain-specific grammar correction system, server and method for academic text
RU2665261C1 (ru) Восстановление текстовых аннотаций, связанных с информационными объектами
JP2012221316A (ja) 文書トピック抽出装置及び方法及びプログラム
KR20180101991A (ko) 발상 지원 장치 및 발상 지원 방법
JP5423993B2 (ja) テキスト処理装置、テキスト処理方法、及びプログラム
Rajalakshmi et al. DLRG@ DravidianLangTech-EACL2021: Transformer based approachfor offensive language identification on code-mixed Tamil
Tüselmann et al. Are end-to-end systems really necessary for NER on handwritten document images?
Al-Azani et al. Audio-textual Arabic dialect identification for opinion mining videos
Touahri et al. Deep analysis of an Arabic sentiment classification system based on lexical resource expansion and custom approaches building
Smaïli et al. A first summarization system of a video in a target language
Cao et al. Attention where it matters: Rethinking visual document understanding with selective region concentration
KR20100041019A (ko) 문서 번역 장치 및 그 방법
Sangeetha et al. Exploration of sentiment analysis techniques on a multilingual dataset dealing with Tamil-English reviews
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
JP2011028638A (ja) 要約文作成装置、要約文作成方法、プログラム
JP3787310B2 (ja) キーワード決定方法、装置、プログラム、および記録媒体
Ramel et al. Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis
JP2009053743A (ja) 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム
Pontes et al. Lia-rag: a system based on graphs and divergence of probabilities applied to speech-to-text summarization
US20230359837A1 (en) Multilingual summarization of episodes using longformers
US20220083581A1 (en) Text classification device, text classification method, and text classification program
Litvak et al. Improving summarization quality with topic modeling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131112

R150 Certificate of patent or registration of utility model

Ref document number: 5423993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees