JP5423993B2 - テキスト処理装置、テキスト処理方法、及びプログラム - Google Patents
テキスト処理装置、テキスト処理方法、及びプログラム Download PDFInfo
- Publication number
- JP5423993B2 JP5423993B2 JP2010543840A JP2010543840A JP5423993B2 JP 5423993 B2 JP5423993 B2 JP 5423993B2 JP 2010543840 A JP2010543840 A JP 2010543840A JP 2010543840 A JP2010543840 A JP 2010543840A JP 5423993 B2 JP5423993 B2 JP 5423993B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- segment
- degree
- analysis target
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 135
- 238000003672 processing method Methods 0.000 title claims description 68
- 238000004458 analytical method Methods 0.000 claims description 198
- 238000000034 method Methods 0.000 claims description 57
- 238000010586 diagram Methods 0.000 description 36
- 239000013598 vector Substances 0.000 description 15
- 230000000694 effects Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 11
- 230000000877 morphologic effect Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 5
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000004836 empirical method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理装置は、セグメント判定部と、記述内容判定部とを備え、
前記セグメント判定部は、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定し、
前記記述内容判定部は、前記セグメント判定部による判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ことを特徴とする。
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理方法は、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを有することを特徴とする。
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
前記コンピュータに、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを実行させる、ことを特徴とする。
以下、本発明の実施の形態1におけるテキスト処理装置、テキスト処理方法、及びプログラムについて、図1〜図3を参照しながら説明する。最初に、本実施の形態1におけるテキスト処理装置の構成について図1及び図2を用いて説明する。図1は、本発明の実施の形態1におけるテキスト処理装置の概略構成を示すブロック図である。図2は、本発明におけるテキスト処理の原理を示す説明図である。
次に、本発明の実施の形態2におけるテキスト処理装置、テキスト処理方法及びプログラムについて図4及び図5を参照して詳細に説明する。最初に、本実施の形態2におけるテキスト処理装置の構成について図4を用いて説明する。図4は、本発明の実施の形態2におけるテキスト処理装置の概略構成を示すブロック図である。
次に、本発明の実施の形態3におけるテキスト処理装置、テキスト処理方法及びプログラムについて図6及び図7を参照して詳細に説明する。最初に、本実施の形態3におけるテキスト処理装置の構成について図6を用いて説明する。図6は、本発明の実施の形態3におけるテキスト処理装置の概略構成を示すブロック図である。
次に、本発明の実施の形態4におけるテキスト処理装置、テキスト処理方法及びプログラムについて図8を参照して詳細に説明する。本実施の形態4におけるテキスト処理装置は、図1に示した実施の形態1におけるテキスト処理装置30と同様に構成されている。よって、以下の説明においては、適宜図1を参酌する。
次に、本発明の実施の形態5におけるテキスト処理装置、テキスト処理方法およびプログラムについて図9を参照して詳細に説明する。本実施の形態5におけるテキスト処理装置は、図1に示した実施の形態1におけるテキスト処理装置30と同様に構成されている。よって、以下の説明においては、適宜図1を参酌する。
まず、入力受付部34は、通話音声の音声認識結果の集合を第一のテキスト集合として、また、音声認識結果に対応する応対メモの集合を第二のテキスト集合として受け付ける。更に、入力受付部34は、第一のテキスト集合の中からの解析対象となる第一のテキストの指定も、受け付ける(ステップA1)。
次に、実施例1では、同種セグメント特定部31が、第一のテキスト集合(図10参照)内の全セグメントを対象に、第一のテキスト内の各セグメントと類似した同種セグメントの特定を行う。ここで、図10に示した、15280−1「お待たせしました、ABCコールセンターです。」及び15280−33「何かエラーは表示されていますか?」と、15281−1「はい、ABCコールセンター」とについて行われる、同種セグメントの判定を説明する。
先ず、音声認識結果の集合内の全セグメントに対して形態素解析が実施される。この結果、例えば、図12に示す形態素解析結果が得られる。図12は、同種セグメントの判定に際して行われる形態素解析の解析結果の一例を示す図である。
次に、自立語を用いて、一形態素がベクトルの一次元に対応し、全形態素数がベクトルの次元数となるベクトルを生成する。具体的には、図13に示すように、各セグメントに対して、セグメントを構成する形態素に対応する要素が1、セグメント内に含まれない形態素に対応する要素は0とした単語ベクトルを生成する。図13は、同種セグメントの判定に際して作成される単語ベクトルの一例を示す図である。図13には、次元と単語の割り当て表と、それに基づいて作成された単語ベクトルの一例が示されている。
次に、生成された各セグメントの単語ベクトルに対して、例えば、コサイン類似度を尺度にしたk−means法や、PLSIなどの一般的なクラスタリング手法が実行される。これらのクラスタリング法の実行により、類似するセグメントがまとめられ、まとめられたクラス各々が同種類のセグメントの集まりと捉える事ができる。そして、同じクラスとなったセグメントが同種セグメントと判定される。
cosine(15280−1,15280−33)=0/(√5*√4)=0
cosine(15280−1,15281−1)=3/(√5*√3)=0.
77
また、実施例1では、例えば、第一のテキスト集合の各テキストに共通のフェーズがある場合は、フェーズに基づいて、同種セグメントを特定することもできる。例えば、各テキスト集合の共通のフェーズの手がかりを、下記の参考文献1に記載された手法で求めておき、その手がかりに該当する所でテキストを分割する。そして共通のフェーズに含まれるセグメントを類似しているセグメントと捉えられ、共通のフェーズに含まれるセグメントが、同種セグメントとして判定される。
R. Shourya and L.V. Subramaniam, “Automatic Generation of Domain Models for Call- Centers from Noisy Transcriptions”, In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, pp737-755, 2006.
次に、実施例1では、含有判定部32が、解析対象テキスト内の各セグメント、及び、ステップA2で判定された、該セグメントの同種セグメントに対し、第二のテキスト集合内の対応するテキスト中に、同一の内容が記述されているか否かを判定する。
あるセグメントの内容が、対応するテキストに記述されているかの判定は、例えば、上述した非特許文献1に開示された従来のアラインメント手法を用いる事で実現できる。具体的には、第一のテキストのセグメント(ID=15280−1)の内容が、第二のテキストに記述されているかの判定は、通話音声認識結果(受付ID=15280)と応対メモ(受付ID=15280)とを、上記のアラインメント手法の入力とする事で実現できる。
また、本実施例1では、セグメント同士のアラインメントを取り、第二のテキスト集合内の対応するテキストのどのセグメントに対応するかまでは判定せず、第二のテキスト集合内の対応するテキスト中に記述されているか否かのみが判定されても良い。
田村晃裕、石川開、安藤真一著、「コールセンターのコールメモと通話を対象とした差分マイニング」、FIT2008、2008
次に、実施例1では、記述内容判定部33が、ステップA3の判定結果に基づいて、関連度を計算する。関連度は、解析対象テキスト内の各セグメントの内容が、第二のテキスト集合内の対応する第二のテキストに記述されるべき内容である度合いを示している。また、上述したように、ステップA3では、解析対象テキスト内の各セグメントの内容が該第二のテキストに記述されているかどうか、該解析対象テキスト内の各セグメントの同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に記述されているかどうか、が判定されている。
入力受付部134は、通話音声の音声認識結果のテキスト集合を第一のテキスト集合として、音声認識結果に対応する応対メモの集合を第二のテキスト集合として受け付ける。また、入力受付部134は、第一のテキスト集合の中から、解析対象となる第一のテキストの指定も受け付ける(ステップB1)。このとき、入力となる第一のテキスト集合及び第二のテキスト集合内の各テキストは、図19及び図20に示すように、必ずしも解析単位のセグメントに分割されている必要はない。
次に、テキスト分割部135は、第一のテキスト集合及び第二のテキスト集合内の各テキストを、解析単位のセグメントに分割する(ステップB2)。例えば、解析単位のセグメントが文である場合、テキスト分割部135は、文のセパレータを予め定め、そのセパレータ間が一つのセグメントに設定されるように分割を行う。図19及び図20では、「。」と「?」とがセパレータとして予め定められており、図19及び図20に示したテキストに対するテキスト分割の結果、図10及び図11に示した結果が得られる。
Marti A. Hearst, “TextTiling: Segmenting Text into Multi-paragraph Subtopic Passage”, Computational Linguistics, Vol.23 No.1, pp33-64, 1997.
R. Shourya and L.V. Subramaniam, “Automatic Generation of Domain Models for Call- Centers from Noisy Transcriptions”, In Proceedings of the 21st International Conference on Computational Linguisticsand the 44th annual meeting of the Association for Computational Linguistics, pp737-755, 2006.
入力受付部234は、実施例1で述べたステップA1における処理と同様の処理を行う(ステップC1)。
次に、本実施例3では、含有判定部232は、第一のテキスト集合内のテキストの全セグメントに対し、第二のテキスト集合内の対応するテキスト内に、内容が記述されているか否かを判定する。
次に、同種セグメント特定部231は、上述のステップC2により、第二のテキスト集合内の対応するテキスト内に内容が記述されていると判定されたセグメントの集合の中から、解析対象テキストの各セグメントの同種セグメントを特定する。なお、ステップC2で記述されていると判定されたセグメントとしては、図17に示された表と同形式の表で「同一内容の記述」の欄が○となっているセグメントが挙げられる。
次に、実施例3では、記述内容判定部233は、ステップC2及びC3の結果に基づいて、関連度を計算する。関連度は、解析対象テキスト内の各セグメントに対し、該セグメントの内容が、第二のテキストへ記述されるべき内容である度合いを示している。また、ステップC2及びC3により、解析対象テキストの各セグメントの内容が第二のテキストに記述されているかと、同種セグメントのうち、内容が第二のテキスト集合内の対応するテキストに記述されているセグメントがどの程度存在するかとが、判定される。
入力受付部は、実施例1で述べたステップA1における処理と同様の処理を行う(ステップD1)。
次に、実施例4では、同種セグメント特定部は、第一のテキスト集合内の全セグメントを対象に、解析対象テキストの各セグメントとの類似度を表す類似度スコアを計算し、各セグメントに類似度スコアを付与する。この類似度スコアは、二つのセグメントがどの程度同じかを示す。
次に、同種セグメント特定部は、ステップD2で求めた類似度スコアを基に、解析対象テキストの各セグメントの同種セグメントを、解析対象テキスト以外の第一のテキスト集合内の全セグメントの中から特定する。
次に、実施例4では、含有判定部は、実施例1におけるステップA3と同様の処理を行う。この動作により、例えば、解析対象テキスト内の各セグメント及び該セグメントの同種セグメントに対し、第二のテキスト集合内の対応するテキスト中に、内容が記述されているか否かが判定される。そして、図17に示すような判定結果が示された表の取得が可能となる(ステップD4)。
次に、実施例4では、記述内容判定部33は、ステップD4の結果と、ステップD2で求めた類似度スコアに基づいて、関連度を計算する。関連度は、解析対象テキストの各セグメントの内容が、第二のテキストに記述されるべき内容である度合いを示している。また、ステップD4の判定結果は、該セグメントの内容が第二のテキストに記述されているかどうかと、該セグメントの同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に記述されているかどうかとである。
入力受付部は、実施例1で述べたステップA1における処理と同様の処理を行う(ステップE1)。
次に、実施例5では、同種セグメント特定部が、実施例1におけるステップA2と同様に、第一のテキスト集合内の全セグメントを対象に、解析対象テキスト内の各セグメントと類似した同種セグメントの特定を行う。具体的には、第一のテキスト集合の全セグメントの中で、解析対象テキストの各セグメントに対する同種セグメントを特定する。その結果、例えば、図14のような結果を得る(ステップE2)。
次に、本実施例5では、含有判定部は、解析対象テキスト内の各セグメント、及び、ステップE2で特定された同種セグメントに対して、第二のテキスト集合内の対応するテキスト中に同一の内容が記述されているかを判定する。また、含有判定部は、更に、これらのセグメントについて、同一の内容が記述されている可能性を表す含有スコアも計算する。
次に、実施例5では、記述内容判定部は、ステップE3で計算した含有スコアに基づいて、関連度を計算する。関連度は、解析対象テキスト内の各セグメントの内容が、第二のテキストへ記述されるべき内容である度合いを示している。また、ステップE3で計算された含有スコアは、該セグメントの内容が第二のテキストに記述されている可能性を表す含有スコアと、該セグメントの同種セグメントの内容が、第二のテキスト集合内の対応するテキスト中に記述されている可能性を表す含有スコアとである。
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理装置は、セグメント判定部と、記述内容判定部とを備え、
前記セグメント判定部は、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定し、
前記記述内容判定部は、前記セグメント判定部による判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ことを特徴とするテキスト処理装置。
前記同種セグメント特定部は、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとし、
前記含有判定部は、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定する、上記(1)に記載のテキスト処理装置。
前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(2)に記載のテキスト処理装置。
前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(3)に記載のテキスト処理装置。
前記含有判定部が、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定し、
前記同種セグメント特定部が、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記含有判定部によって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、
前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとする、上記(1)に記載のテキスト処理装置。
前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(5)に記載のテキスト処理装置。
前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(6)に記載のテキスト処理装置。
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(3)に記載のテキスト処理装置。
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(3)に記載のテキスト処理装置。
前記記述内容判定部が、更に、前記同種セグメント特定部によって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、上記(8)に記載のテキスト処理装置。
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理方法は、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを有することを特徴とするテキスト処理方法。
(l)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
(m)前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを有する、上記(13)に記載のテキスト処理方法。
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(14)に記載のテキスト処理方法。
前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(15)に記載のテキスト処理方法。
(x)全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
(y)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを有する、上記(13)に記載のテキスト処理方法。
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(17)に記載のテキスト処理方法。
前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(18)に記載のテキスト処理方法。
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(15)に記載のテキスト処理方法。
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(15)に記載のテキスト処理方法。
前記(b)のステップで、更に、前記(l)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、上記(20)に記載のテキスト処理方法。
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
前記コンピュータに、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを実行させる、プログラム。
(l)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
(m)前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを実行する、上記(25)に記載のプログラム。
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(26)に記載のプログラム。
前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(27)に記載のプログラム。
(x)全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
(y)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを実行する、上記(25)に記載のプログラム。
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、上記(29)に記載のプログラム。
前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、上記(30)に記載のプログラム。
【0246】
(32)前記(b)のステップで、前記第二のテキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(27)に記載のプログラム。
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、上記(27)に記載のプログラム。
前記(b)のステップで、更に、前記(l)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、上記(32)に記載のプログラム。
20 出力装置(実施の形態1)
31 同種セグメント特定部(実施の形態1)
32 含有判定部(実施の形態1)
33 記述内容判定部(実施の形態1)
34 入力受付部(実施の形態1)
110 入力装置(実施の形態2)
120 出力装置(実施の形態2)
131 同種セグメント特定部(実施の形態2)
132 含有判定部(実施の形態2)
133 記述内容判定部(実施の形態2)
134 入力受付部(実施の形態2)
135 テキスト分割部(実施の形態2)
210 入力装置(実施の形態3)
220 出力装置(実施の形態3)
231 同種セグメント特定部(実施の形態3)
232 含有判定部(実施の形態3)
233 記述内容判定部(実施の形態3)
234 入力受付部(実施の形態3)
Claims (36)
- 第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うテキスト処理装置であって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理装置は、セグメント判定部と、記述内容判定部とを備え、
前記セグメント判定部は、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定し、
前記記述内容判定部は、前記セグメント判定部による判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ことを特徴とするテキスト処理装置。 - 前記セグメント判定部が、同種セグメント特定部と、含有判定部とを備え、
前記同種セグメント特定部は、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとし、
前記含有判定部は、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定する、請求項1に記載のテキスト処理装置。 - 前記記述内容判定部は、
前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項2に記載のテキスト処理装置。 - 前記含有判定部が、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項3に記載のテキスト処理装置。 - 前記セグメント判定部が、含有判定部と、同種セグメント特定部とを備え、
前記含有判定部が、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定し、
前記同種セグメント特定部が、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記含有判定部によって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、
前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとする、請求項1に記載のテキスト処理装置。 - 前記記述内容判定部は、
前記セグメント判定部による判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項5に記載のテキスト処理装置。 - 前記含有判定部が、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記記述内容判定部が、更に、前記含有判定部によって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項6に記載のテキスト処理装置。 - 前記記述内容判定部が、前記第二のテキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項3または4に記載のテキスト処理装置。 - 前記記述内容判定部が、前記第二のテキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項3、4、6または7に記載のテキスト処理装置。 - 前記同種セグメント特定部が、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
前記記述内容判定部が、更に、前記同種セグメント特定部によって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、請求項8または9に記載のテキスト処理装置。 - 前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、テキスト分割部を更に備えている、請求項1〜10のいずれかに記載のテキスト処理装置。
- 前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、請求項1〜10のいずれかに記載のテキスト処理装置。
- 第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比して、解析処理を行うためのテキスト処理方法であって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
当該テキスト処理方法は、
(a)コンピュータによって、解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記コンピュータによって、前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを有することを特徴とするテキスト処理方法。 - 前記(a)のステップが、
(l)前記コンピュータによって、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
(m)前記コンピュータによって、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを有する、請求項13に記載のテキスト処理方法。 - 前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項14に記載のテキスト処理方法。 - 前記(m)のステップで、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項15に記載のテキスト処理方法。 - 前記(a)のステップが、
(x)前記コンピュータによって、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
(y)前記コンピュータによって、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを有する、請求項13に記載のテキスト処理方法。 - 前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項17に記載のテキスト処理方法。 - 前記(x)のステップで、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項18に記載のテキスト処理方法。 - 前記(b)のステップで、前記第二のテキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項15または16に記載のテキスト処理方法。 - 前記(b)のステップで、前記第二のテキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項15、16、18または19に記載のテキスト処理方法。 - 前記(l)又は(y)のステップで、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
前記(b)のステップで、更に、前記(l)又は前記(y)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、請求項20または21に記載のテキスト処理方法。 - (c)前記コンピュータによって、前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、ステップを更に有している、請求項13〜22のいずれかに記載のテキスト処理方法。
- 前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、請求項13〜22のいずれかに記載のテキスト処理方法。
- 第一のテキストによって構成された第一のテキスト集合と、前記第一のテキストに対応する第二のテキストによって構成された第二のテキスト集合とを対比する、解析処理を、コンピュータに実行させるための、プログラムであって、
前記第一のテキストとそれに対応する前記第二のテキストとは、互いに異なる生成過程を経て、同一の事象を対象として生成されており、
前記コンピュータに、
(a)解析対象に設定された第一のテキストを構成する複数個のセグメントに類似し、且つ、別の第一のテキストに含まれる、同種セグメントに対して、その内容が、前記第二のテキストに含まれているかどうかを判定するステップと、
(b)前記(a)のステップでの判定の結果に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべきかどうかを判定する、ステップとを実行させる、プログラム。 - 前記コンピュータが、前記(a)のステップとして、
(l)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、別の第一のテキストとを対比して、前記別の第一のテキストを構成する複数個のセグメントから、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップと、
(m)前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップとを実行する、請求項25に記載のプログラム。 - 前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項26に記載のプログラム。 - 前記(m)のステップで、前記同種セグメントの内容についての判定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとについて、セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(m)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項27に記載のプログラム。 - 前記コンピュータが、前記(a)のステップとして、
(x)全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれているかどうかを判定するステップと、
(y)前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記(x)のステップによって前記第二のテキストに含まれていると判定され、且つ、別の第一のテキストに含まれるセグメントとを対比して、前記解析対象に設定された第一のテキストを構成する複数個のセグメントのいずれかに類似するセグメントを特定し、これを同種セグメントとするステップとを実行する、請求項25に記載のプログラム。 - 前記(b)のステップで、
前記(a)のステップによる判定の結果に基づいて、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに含まれている程度を求め、
更に、求めた程度に基づいて、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを求め、前記度合いを用いて判定を行う、請求項29に記載のプログラム。 - 前記(x)のステップで、前記各セグメントの内容についての判定に加え、全ての第一のテキストにおける、それぞれを構成する複数個のセグメントについて、各セグメントの内容が、当該セグメントを含む第一のテキストに対応する、前記第二のテキストに含まれている可能性を表す含有スコアを算出し、
前記(b)のステップで、更に、前記(x)のステップによって算出された前記含有スコアを用い、前記含有スコアが高いほど前記度合いが高くなるように、前記度合いを求める、請求項30に記載のプログラム。 - 前記(b)のステップで、前記第二のテキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される割合を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記割合が高いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項27または28に記載のプログラム。 - 前記(b)のステップで、前記第二のテキストに含まれている程度として、前記同種セグメントの内容が、前記同種セグメントを含む前記別の第一のテキストに対応する、前記第二のテキストに記述される回数を求め、
更に、前記解析対象に設定された第一のテキストを構成する各セグメントが、前記解析対象に設定された第一のテキストに対応する、前記第二のテキストに記述されるべき度合いを、前記回数が多いほど、高くなるようにして求め、求めた前記度合いを用いて判定を行う、請求項27、28、30または31に記載のプログラム。 - 前記(l)又は(y)のステップで、前記同種セグメントの特定に加え、前記解析対象に設定された第一のテキストを構成する複数個のセグメントそれぞれと、前記同種セグメントとの類似の程度を表す類似度スコアを算出し、
前記(b)のステップで、更に、前記(l)又は前記(y)のステップによって算出された前記類似度スコアが高いほど、前記度合いが高くなるように前記度合いを求める、請求項32または33に記載のプログラム。 - (c)前記第一のテキストを、それに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて分割し、そして、前記複数個のセグメントを設定する、ステップを、前記コンピュータに更に実行させる、請求項25〜34のいずれかに記載のプログラム。
- 前記第一のテキストを構成する前記複数個のセグメントの設定が、前記第一のテキストに含まれる、文、段落、トピック、及びフェーズの少なくとも一つに基づいて行われている、請求項25〜34のいずれかに記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010543840A JP5423993B2 (ja) | 2008-12-26 | 2009-12-21 | テキスト処理装置、テキスト処理方法、及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008335327 | 2008-12-26 | ||
JP2008335327 | 2008-12-26 | ||
PCT/JP2009/007071 WO2010073591A1 (ja) | 2008-12-26 | 2009-12-21 | テキスト処理装置、テキスト処理方法、及びコンピュータ読み取り可能な記録媒体 |
JP2010543840A JP5423993B2 (ja) | 2008-12-26 | 2009-12-21 | テキスト処理装置、テキスト処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010073591A1 JPWO2010073591A1 (ja) | 2012-06-07 |
JP5423993B2 true JP5423993B2 (ja) | 2014-02-19 |
Family
ID=42287241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010543840A Expired - Fee Related JP5423993B2 (ja) | 2008-12-26 | 2009-12-21 | テキスト処理装置、テキスト処理方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8886519B2 (ja) |
JP (1) | JP5423993B2 (ja) |
WO (1) | WO2010073591A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6618992B2 (ja) * | 2015-04-10 | 2019-12-11 | 株式会社東芝 | 発言提示装置、発言提示方法およびプログラム |
US10341397B2 (en) * | 2015-08-12 | 2019-07-02 | Fuji Xerox Co., Ltd. | Non-transitory computer readable medium, information processing apparatus, and information processing system for recording minutes information |
JP6657920B2 (ja) * | 2015-12-18 | 2020-03-04 | 日本電気株式会社 | 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム |
WO2019093239A1 (ja) * | 2017-11-07 | 2019-05-16 | 日本電気株式会社 | 情報処理装置、方法及び記録媒体 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125112A (ja) * | 1997-07-04 | 1999-01-29 | N T T Data:Kk | 対話音声処理方法及び装置、記録媒体 |
JP2004253011A (ja) * | 2004-06-07 | 2004-09-09 | National Institute Of Information & Communication Technology | 自動要約処理装置および自動要約処理方法 |
WO2008078670A1 (ja) * | 2006-12-22 | 2008-07-03 | Nec Corporation | 文言い換え方法、プログラムおよびシステム |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5708825A (en) * | 1995-05-26 | 1998-01-13 | Iconovex Corporation | Automatic summary page creation and hyperlink generation |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
US6108620A (en) * | 1997-07-17 | 2000-08-22 | Microsoft Corporation | Method and system for natural language parsing using chunking |
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
US6275797B1 (en) * | 1998-04-17 | 2001-08-14 | Cisco Technology, Inc. | Method and apparatus for measuring voice path quality by means of speech recognition |
JP3879321B2 (ja) * | 1998-12-17 | 2007-02-14 | 富士ゼロックス株式会社 | 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体 |
US6993527B1 (en) * | 1998-12-21 | 2006-01-31 | Adobe Systems Incorporated | Describing documents and expressing document structure |
US6317708B1 (en) * | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
US7509572B1 (en) * | 1999-07-16 | 2009-03-24 | Oracle International Corporation | Automatic generation of document summaries through use of structured text |
US7813915B2 (en) * | 2000-09-25 | 2010-10-12 | Fujitsu Limited | Apparatus for reading a plurality of documents and a method thereof |
US7054803B2 (en) | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
US7120581B2 (en) * | 2001-05-31 | 2006-10-10 | Custom Speech Usa, Inc. | System and method for identifying an identical audio segment using text comparison |
US6810146B2 (en) * | 2001-06-01 | 2004-10-26 | Eastman Kodak Company | Method and system for segmenting and identifying events in images using spoken annotations |
WO2003036425A2 (en) * | 2001-10-23 | 2003-05-01 | Electronic Data Systems Corporation | System and method for managing a procurement process |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US7386439B1 (en) * | 2002-02-04 | 2008-06-10 | Cataphora, Inc. | Data mining by retrieving causally-related documents not individually satisfying search criteria used |
US7756827B1 (en) * | 2002-06-28 | 2010-07-13 | Teradata Us, Inc. | Rule-based, event-driven, scalable data collection |
US7127475B2 (en) * | 2002-08-15 | 2006-10-24 | Sap Aktiengesellschaft | Managing data integrity |
US7158983B2 (en) * | 2002-09-23 | 2007-01-02 | Battelle Memorial Institute | Text analysis technique |
US7752045B2 (en) * | 2002-10-07 | 2010-07-06 | Carnegie Mellon University | Systems and methods for comparing speech elements |
EP1812898A2 (en) * | 2004-11-02 | 2007-08-01 | Eagleforce Associates | System and method for predictive analysis and predictive analysis markup language |
US8869037B2 (en) * | 2006-06-22 | 2014-10-21 | Linkedin Corporation | Event visualization |
US8055997B2 (en) * | 2006-06-26 | 2011-11-08 | Lexmark International Technology, S.A. | System and method for implementing dynamic forms |
US7822750B2 (en) * | 2007-01-17 | 2010-10-26 | Aptima, Inc | Method and system to compare data entities |
US8345159B2 (en) * | 2007-04-16 | 2013-01-01 | Caption Colorado L.L.C. | Captioning evaluation system |
JP5100203B2 (ja) * | 2007-05-21 | 2012-12-19 | 日本放送協会 | テキスト分析装置およびテキスト分析プログラム |
US8032573B2 (en) * | 2007-06-10 | 2011-10-04 | Philippe Richard | System and method for managing and updating data from a number of sources for a project |
US9276758B2 (en) * | 2008-02-11 | 2016-03-01 | Adobe Systems Incorporated | Analyzing and repairing documents |
US20100005087A1 (en) * | 2008-07-01 | 2010-01-07 | Stephen Basco | Facilitating collaborative searching using semantic contexts associated with information |
-
2009
- 2009-12-21 JP JP2010543840A patent/JP5423993B2/ja not_active Expired - Fee Related
- 2009-12-21 WO PCT/JP2009/007071 patent/WO2010073591A1/ja active Application Filing
- 2009-12-21 US US13/142,302 patent/US8886519B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125112A (ja) * | 1997-07-04 | 1999-01-29 | N T T Data:Kk | 対話音声処理方法及び装置、記録媒体 |
JP2004253011A (ja) * | 2004-06-07 | 2004-09-09 | National Institute Of Information & Communication Technology | 自動要約処理装置および自動要約処理方法 |
WO2008078670A1 (ja) * | 2006-12-22 | 2008-07-03 | Nec Corporation | 文言い換え方法、プログラムおよびシステム |
Also Published As
Publication number | Publication date |
---|---|
WO2010073591A1 (ja) | 2010-07-01 |
JPWO2010073591A1 (ja) | 2012-06-07 |
US8886519B2 (en) | 2014-11-11 |
US20110282653A1 (en) | 2011-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110770735B (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
US20180113856A1 (en) | Producing training sets for machine learning methods by performing deep semantic analysis of natural language texts | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
US20210397787A1 (en) | Domain-specific grammar correction system, server and method for academic text | |
RU2665261C1 (ru) | Восстановление текстовых аннотаций, связанных с информационными объектами | |
JP2012221316A (ja) | 文書トピック抽出装置及び方法及びプログラム | |
KR20180101991A (ko) | 발상 지원 장치 및 발상 지원 방법 | |
JP5423993B2 (ja) | テキスト処理装置、テキスト処理方法、及びプログラム | |
Rajalakshmi et al. | DLRG@ DravidianLangTech-EACL2021: Transformer based approachfor offensive language identification on code-mixed Tamil | |
Tüselmann et al. | Are end-to-end systems really necessary for NER on handwritten document images? | |
Al-Azani et al. | Audio-textual Arabic dialect identification for opinion mining videos | |
Touahri et al. | Deep analysis of an Arabic sentiment classification system based on lexical resource expansion and custom approaches building | |
Smaïli et al. | A first summarization system of a video in a target language | |
Cao et al. | Attention where it matters: Rethinking visual document understanding with selective region concentration | |
KR20100041019A (ko) | 문서 번역 장치 및 그 방법 | |
Sangeetha et al. | Exploration of sentiment analysis techniques on a multilingual dataset dealing with Tamil-English reviews | |
JP2011123565A (ja) | Faq候補抽出システムおよびfaq候補抽出プログラム | |
JP2011028638A (ja) | 要約文作成装置、要約文作成方法、プログラム | |
JP3787310B2 (ja) | キーワード決定方法、装置、プログラム、および記録媒体 | |
Ramel et al. | Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis | |
JP2009053743A (ja) | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム | |
Pontes et al. | Lia-rag: a system based on graphs and divergence of probabilities applied to speech-to-text summarization | |
US20230359837A1 (en) | Multilingual summarization of episodes using longformers | |
US20220083581A1 (en) | Text classification device, text classification method, and text classification program | |
Litvak et al. | Improving summarization quality with topic modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130724 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5423993 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |