JP5343861B2 - テキスト分割装置とテキスト分割方法およびプログラム - Google Patents
テキスト分割装置とテキスト分割方法およびプログラム Download PDFInfo
- Publication number
- JP5343861B2 JP5343861B2 JP2009548054A JP2009548054A JP5343861B2 JP 5343861 B2 JP5343861 B2 JP 5343861B2 JP 2009548054 A JP2009548054 A JP 2009548054A JP 2009548054 A JP2009548054 A JP 2009548054A JP 5343861 B2 JP5343861 B2 JP 5343861B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- division
- text
- model
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims description 117
- 230000008859 change Effects 0.000 claims abstract description 167
- 238000001514 detection method Methods 0.000 claims abstract description 147
- 230000010354 integration Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 238000009499 grossing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
本願は、先の日本特許出願2007−336400号(2007年12月27日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、テキスト分割技術に関し、特に、単語列や文字列などのテキストを意味的なまとまりの単位である話題へと分割するテキスト分割装置と方法およびプログラムに関する。
・膨大な量のテキストの話題ごとへの分類、
・テキスト全体の構造の抽出、
・それぞれの話題について要約作成、
等を可能としている。
・窓幅、
・類似度閾値、
・類似度の平滑化回数、
等の分割結果を制御するための各種パラメータが存在する。そして、これら各種パラメータの値によって、入力テキストがどのような話題単位へと分割されるかが変化する。
前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定手段と、
前記パラメータ推定手段で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割手段と、
を備えたテキスト分割装置が提供される。
前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割手段と、
前記モデルベース話題分割手段による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定手段と、
前記パラメータ推定手段で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割手段と、
を備えた構成としてもよい。
前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合手段をさらに備えた構成としてもよい。
前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対して、前記分割信頼度を相対的に低く出力する構成としてもよい。
前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割するようにしてもよい。
前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定工程と、
前記パラメータ推定工程で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割工程と、
を含むテキスト分割方法が提供される。
前記モデルベース話題分割工程による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定工程と、
前記パラメータ推定工程で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割工程と、
を含むようにしてもよい。本発明の方法によれば、上記本発明に係る装置の上記さらに他の側面として説明した内容に対応する方法が提供される。
前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定処理と、
前記パラメータ推定処理で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割処理と、
を実行させるプログラムが提供される。
前記モデルベース話題分割処理による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定処理と、
前記パラメータ推定処理で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割処理と、
を実行させるプログラムよりなる。本発明の方法によれば、上記本発明に係る装置のさらに他の側面として説明した内容に対応するプログラムが提供される。
102 モデルベース話題分割手段
103 パラメータ推定手段
104 変化点検出話題分割手段
105 分割結果統合手段
201 話題モデル記憶手段
202 モデルベース話題分割手段
203 パラメータ推定手段
204 変化点検出話題分割手段
205 分割結果統合手段
206 分割対象区間決定手段
510 データ処理装置
520 記憶装置
521 話題モデル記憶手段
530 テキスト分割用プログラム
601 台本データ記憶手段
602 映像データ記憶手段
603 台本テキスト区間取得手段
604 映像テキスト区間生成手段
605 テキスト類似度計算手段
606 テキスト対応付け手段
607 再帰処理制御手段
608 映像テキスト区間統合手段
・あらゆる単語の出現確率が等しいモデルや、
・様々な話題を含んだ大量のテキストデータ全体における単語の出現確率を表したモデル、
などを用いれば良い。
・パラメータ推定手段103は、変化点検出話題分割手段104が入力テキスト中のどのような区間でも所望に近い話題単位へと分割するようなパラメータ値を推定し、
・変化点検出話題分割手段104は、パラメータ推定手段103で推定されたパラメータを用いて分割する、
ため、入力テキスト中のどのような区間でも所望に近い話題単位へと分割することができる。
・未知の話題区間と判定された区間は、変化点検出話題分割手段104による分割結果を出力し、
・既知の話題区間と判定された区間は、モデルベース話題分割手段102による分割結果を出力すれば良い。
・窓幅、
・類似度の閾値、
・類似度の平滑化回数、
などが存在する。この場合、パラメータ推定手段103で推定するパラメータは、窓幅や類似度の閾値等となる。なお、以下では、変化点検出話題分割手段104は、一例としてHearst法によって入力テキストを分割するものとして説明を行うが、本発明において、変化点検出話題分割手段104の実現手法がHearst法に限定されるものではないことは勿論である。
Precisionは、分割した点のうち正しく分割できた点の割合である。
F値は、RecallとPrecisionの調和平均である。
Recallは、6/6=1.0である。
また分割した点12箇所(H1〜H12)のうち6箇所(H1、H2、H3、H5、H6、H7)が正しく分割できているので、
Precisionは、6/12=0.5であり、従ってF値は0.67となる。
・未知の話題区間と判定された区間M3−M5は、変化点検出話題分割手段104による分割結果であるH4を出力し、
・既知の話題区間と判定された区間M1−M3および区間M5−M7は、モデルベース話題分割手段102による分割結果であるM1、M2、M3、M5、M6、M7を出力すれば、入力テキストのあらゆる区間を所望の話題単位に分割できる。
なお、各話題モデルの事後確率は、各話題モデルの尤度を用いれば容易に計算できる。周知のごとく、データXが与えられたときのパラメータθiの事後確率P[θi|X]=P[X|θi]・P[θi]/{Σi P[X|θi]・P[θi]}で与えられる。ここで、P[θi]は各話題の事前確率であり、事前に学習データから求めておいても良いし、或いは、話題によらず一定であるとしても良い。
・分割信頼度が一定値以下の区間は変化点検出話題分割手段104による分割結果を出力し、
・分割信頼度が一定値以上の区間はモデルベース話題分割手段102による分割結果を出力しても良い。
・分割対象区間M3−M5を分割する際には、区間T1−T2におけるモデルベース話題分割の結果を教師として推定されたパラメータ値を用い、
・分割対象区間M8−M9を分割する際には、区間T3−T4におけるモデルベース話題分割の結果を教師として推定されたパラメータ値を用いる。
・変化点検出話題分割手段204が分割対象とした区間では、変化点検出話題分割手段204による分割結果を出力し、
・変化点検出話題分割手段204が分割対象としなかった区間では、モデルベース話題分割手段202による分割結果を出力する。
Claims (30)
- テキストを複数の区間に分割する装置であって、
意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段と、
前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割手段と、
前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割する変化点検出話題分割手段と、
前記変化点検出話題分割手段で値の異なるパラメータを用いたときの分割点と、前記モデルベース話題分割手段による分割点とを比較し、前記変化点検出話題分割手段による分割結果が前記モデルベース話題分割手段による分割結果をより良く再現するような前記パラメータを求めるパラメータ推定手段と、
を備え、
前記パラメータ推定手段で推定され、前記変化点検出話題分割手段で前記テキストの分割に用いられる前記パラメータは、前記窓の幅、前記類似度の閾値、前記類似度を平滑化する回数のうちのうちの少なくとも一つを含む、ことを特徴とするテキスト分割装置。 - 前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項1に記載のテキスト分割装置。 - 前記パラメータ推定手段は、前記変化点検出話題分割手段による前記テキストの分割信頼度が所定値以下の区間である分割対象区間に隣接し分割信頼度が前記所定値を超える分割点を含む所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項2に記載のテキスト分割装置。
- 前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合手段をさらに備えたことを特徴とする請求項2又は3に記載のテキスト分割装置。 - 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項2に記載のテキスト分割装置。 - 前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項5に記載のテキスト分割装置。
- 前記モデルベース話題分割手段は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項2に記載のテキスト分割装置。
- 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項3に記載のテキスト分割装置。 - 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める分割対象区間決定手段をさらに備え、
前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項3に記載のテキスト分割装置。 - 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶部と、モデルベース話題分割手段と、変化点検出話題分割手段と、パラメータ推定手段を備えた装置により、テキストを複数の区間に分割する方法であって、
前記モデルベース話題分割手段は、前記話題モデル記憶部を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割し、
前記変化点検出話題分割手段は、前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割し、
前記パラメータ推定手段は、前記変化点検出話題分割手段で値の異なるパラメータを用いたときの分割点と、前記モデルベース話題分割手段による分割点とを比較し、前記変化点検出話題分割手段による分割結果が前記モデルベース話題分割手段による分割結果をより良く再現するような前記パラメータを求め、
前記パラメータ推定手段で推定され、前記変化点検出話題分割手段で前記テキストの分割に用いられる前記パラメータは、前記窓の幅、前記類似度の閾値、前記類似度を平滑化する回数のうちのうちの少なくとも一つを含む、ことを特徴とするテキスト分割方法。 - 前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項10に記載のテキスト分割方法。 - 前記パラメータ推定手段は、前記変化点検出話題分割手段による前記テキストの分割信頼度が所定値以下の区間である分割対象区間に隣接し分割信頼度が前記所定値を超える分割点を含む所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項11に記載のテキスト分割方法。
- 前記装置に含まれる分割結果統合手段が、前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する、ことを特徴とする請求項11又は12に記載のテキスト分割方法。 - 前記モデルベース話題分割手段は、前記話題モデル記憶部に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
前記話題モデル記憶部に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項11に記載のテキスト分割方法。 - 前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶部に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項14に記載のテキスト分割方法。
- 前記モデルベース話題分割手段は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項11に記載のテキスト分割方法。
- 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項12に記載のテキスト分割方法。 - 前記装置に含まれる分割対象区間決定手段が、前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める工程をさらに含み、
前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項12に記載のテキスト分割方法。 - テキストを複数の区間に分割する処理をコンピュータに実行させるプログラムであって、
意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割するするモデルベース話題分割処理と、
前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割する変化点検出話題分割処理と、
前記変化点検出話題分割処理で値の異なるパラメータを用いたときの分割点と、前記モデルベース話題分割処理による分割点とを比較し、前記変化点検出話題分割処理による分割結果が前記モデルベース話題分割処理による分割結果をより良く再現するような前記パラメータを推定するパラメータ推定処理と、
を含み、
前記パラメータ推定処理で推定され、前記変化点検出話題分割処理で前記テキストの分割に用いられる前記パラメータは、前記窓の幅、前記類似度の閾値、前記類似度を平滑化する回数のうちのうちの少なくとも一つを含む、プログラム。 - 前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項19に記載のプログラム。 - 前記パラメータ推定手段は、前記変化点検出話題分割手段による前記テキストの分割信頼度が所定値以下の区間である分割対象区間に隣接し分割信頼度が前記所定値を超える分割点を含む所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項20に記載のプログラム。
- 前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合処理を、さらに前記コンピュータに実行させる請求項20又は21に記載のプログラム。 - 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項20に記載のプログラム。 - 前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項23に記載のプログラム。
- 前記モデルベース話題分割手段は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項20に記載のプログラム。
- 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項21に記載のプログラム。 - 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める分割対象区間決定手段をさらに含み、
前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項21に記載のプログラム。 - 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段と、
テキストを入力し前記話題モデルの話題に対応させて分割するモデルベース話題分割手段と、
前記テキストを入力し、前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割し、前記窓の幅、前記類似度の閾値、前記類似度の平滑化回数のうちの少なくとも一つをパラメータとして用いる変化点検出話題分割手段と、
前記モデルベース話題分割手段で分割された前記テキストの分割結果を教師として、前記変化点検出話題分割手段での前記テキストを分割した区間が、前記モデルベース話題分割手段での話題モデルによる分割区間とより良く一致するように、前記変化点検出話題分割手段で用いる、前記窓の幅、前記類似度の閾値、前記類似度の平滑化回数の少なくとも一つを含む前記パラメータの推定を行うパラメータ推定手段と、
分割の確からしさを表す分割信頼度が相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、前記分割信頼度が相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合手段と、
を備えたことを特徴とするテキスト分割システム。 - 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、分割信頼度を相対的に高く出力し、
前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力し、
前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による分割対象区間と定める分割対象区間決定手段をさらに備え、
前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項28に記載のテキスト分割システム。 - 入力テキストを話題モデルを用いて話題に対応させて複数の区間に分割するモデルベース話題分割部と、
前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割し、前記窓の幅、前記類似度の閾値、前記類似度の平滑化回数のうちの少なくとも一つをパラメータとして用いる変化点検出話題分割部と、
前記変化点検出話題分割部で値の異なる前記パラメータを用いたときの分割点と、前記モデルベース話題分割処理による分割点とを比較し、前記変化点検出話題分割部による分割結果が前記モデルベース話題分割部による分割結果をより良く再現するような、前記パラメータを推定するパラメータ推定部と、
分割の確からしさを表す分割信頼度が相対的に高い区間においては、前記モデルベース話題分割部による分割結果を出力し、前記分割信頼度が相対的に低い区間においては、前記変化点検出話題分割部による分割結果を出力する分割結果統合部を含む、ことを特徴とするテキスト分割装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009548054A JP5343861B2 (ja) | 2007-12-27 | 2008-12-25 | テキスト分割装置とテキスト分割方法およびプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007336400 | 2007-12-27 | ||
JP2007336400 | 2007-12-27 | ||
JP2009548054A JP5343861B2 (ja) | 2007-12-27 | 2008-12-25 | テキスト分割装置とテキスト分割方法およびプログラム |
PCT/JP2008/073502 WO2009084554A1 (ja) | 2007-12-27 | 2008-12-25 | テキスト分割装置とテキスト分割方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009084554A1 JPWO2009084554A1 (ja) | 2011-05-19 |
JP5343861B2 true JP5343861B2 (ja) | 2013-11-13 |
Family
ID=40824268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009548054A Active JP5343861B2 (ja) | 2007-12-27 | 2008-12-25 | テキスト分割装置とテキスト分割方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8422787B2 (ja) |
JP (1) | JP5343861B2 (ja) |
WO (1) | WO2009084554A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101746427B1 (ko) * | 2016-02-26 | 2017-06-13 | 동국대학교 산학협력단 | 착용형 사용자 장치를 이용한 증강 현실 구현 방법 및 착용형 사용자 장치 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8806455B1 (en) * | 2008-06-25 | 2014-08-12 | Verint Systems Ltd. | Systems and methods for text nuclearization |
US8010545B2 (en) * | 2008-08-28 | 2011-08-30 | Palo Alto Research Center Incorporated | System and method for providing a topic-directed search |
US20100057577A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing |
US20100057536A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Community-Based Advertising Term Disambiguation |
US8209616B2 (en) * | 2008-08-28 | 2012-06-26 | Palo Alto Research Center Incorporated | System and method for interfacing a web browser widget with social indexing |
US8549016B2 (en) | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
US8239397B2 (en) * | 2009-01-27 | 2012-08-07 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US8452781B2 (en) * | 2009-01-27 | 2013-05-28 | Palo Alto Research Center Incorporated | System and method for using banded topic relevance and time for article prioritization |
US8356044B2 (en) * | 2009-01-27 | 2013-01-15 | Palo Alto Research Center Incorporated | System and method for providing default hierarchical training for social indexing |
US9031944B2 (en) | 2010-04-30 | 2015-05-12 | Palo Alto Research Center Incorporated | System and method for providing multi-core and multi-level topical organization in social indexes |
US8423555B2 (en) * | 2010-07-09 | 2013-04-16 | Comcast Cable Communications, Llc | Automatic segmentation of video |
CN102479191B (zh) | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
US9110986B2 (en) * | 2011-01-31 | 2015-08-18 | Vexigo, Ltd. | System and method for using a combination of semantic and statistical processing of input strings or other data content |
US8600730B2 (en) * | 2011-02-08 | 2013-12-03 | Microsoft Corporation | Language segmentation of multilingual texts |
US10467289B2 (en) * | 2011-08-02 | 2019-11-05 | Comcast Cable Communications, Llc | Segmentation of video according to narrative theme |
DE102012102797B4 (de) * | 2012-03-30 | 2017-08-10 | Beyo Gmbh | Kamerabasiertes Mobilfunkgerät zur Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf dem kamerabasierten Mobilfunkgerät |
CN103425691B (zh) | 2012-05-22 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
US9892194B2 (en) | 2014-04-04 | 2018-02-13 | Fujitsu Limited | Topic identification in lecture videos |
US11017022B2 (en) * | 2016-01-28 | 2021-05-25 | Subply Solutions Ltd. | Method and system for providing audio content |
CN107797982B (zh) * | 2016-08-31 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
CN107480143B (zh) * | 2017-09-12 | 2020-05-29 | 山东师范大学 | 基于上下文相关性的对话话题分割方法和系统 |
US10558689B2 (en) * | 2017-11-15 | 2020-02-11 | International Business Machines Corporation | Leveraging contextual information in topic coherent question sequences |
CN114026557A (zh) * | 2019-07-04 | 2022-02-08 | 松下知识产权经营株式会社 | 说话解析装置、说话解析方法以及程序 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005167452A (ja) * | 2003-12-01 | 2005-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
WO2005069158A2 (ja) * | 2004-01-16 | 2005-07-28 | Nec Corp | テキスト処理方法/プログラム/プログラム記録媒体/装置 |
JP2007052307A (ja) * | 2005-08-19 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音声認識結果の検査装置及びコンピュータプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5659766A (en) * | 1994-09-16 | 1997-08-19 | Xerox Corporation | Method and apparatus for inferring the topical content of a document based upon its lexical content without supervision |
US5687364A (en) * | 1994-09-16 | 1997-11-11 | Xerox Corporation | Method for learning to infer the topical content of documents based upon their lexical content |
US6052657A (en) * | 1997-09-09 | 2000-04-18 | Dragon Systems, Inc. | Text segmentation and identification of topic using language models |
US6223145B1 (en) * | 1997-11-26 | 2001-04-24 | Zerox Corporation | Interactive interface for specifying searches |
US6297824B1 (en) * | 1997-11-26 | 2001-10-02 | Xerox Corporation | Interactive interface for viewing retrieval results |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
US6529902B1 (en) * | 1999-11-08 | 2003-03-04 | International Business Machines Corporation | Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling |
US6928407B2 (en) * | 2002-03-29 | 2005-08-09 | International Business Machines Corporation | System and method for the automatic discovery of salient segments in speech transcripts |
DE602004003497T2 (de) * | 2003-06-30 | 2007-09-13 | Koninklijke Philips Electronics N.V. | System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen |
US7801358B2 (en) * | 2006-11-03 | 2010-09-21 | Google Inc. | Methods and systems for analyzing data in media material having layout |
-
2008
- 2008-12-25 US US12/810,166 patent/US8422787B2/en active Active
- 2008-12-25 JP JP2009548054A patent/JP5343861B2/ja active Active
- 2008-12-25 WO PCT/JP2008/073502 patent/WO2009084554A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005167452A (ja) * | 2003-12-01 | 2005-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
WO2005069158A2 (ja) * | 2004-01-16 | 2005-07-28 | Nec Corp | テキスト処理方法/プログラム/プログラム記録媒体/装置 |
JP2007052307A (ja) * | 2005-08-19 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音声認識結果の検査装置及びコンピュータプログラム |
Non-Patent Citations (7)
Title |
---|
CSNG200501033007; 越仲 孝文,磯 健一,奥村 明俊: 'HMMの変分ベイズ学習によるテキスト文書の話題分割法' 情報処理学会研究報告 Vol.2004 No.57 第2004巻 第57号, 20040528, p.49-p.54, 社団法人情報処理学会 * |
CSNG200600948017; 越仲 孝文,奥村 明俊,磯谷 亮輔: 'HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用' 電子情報通信学会論文誌 (J89-D) 第9号 第J89-D巻 第9号, 20060901, p.2113〜p.2122, 社団法人電子情報通信学会 * |
CSNG200701093002; 但馬 康宏,北出 大蔵,中野 未知子,藤本 浩司,中林 智,小谷 善行: '発話を出力単位とするHMMによる対話に対する話題分割' 電子情報通信学会技術研究報告 Vol.107 No.158 第107巻 第158号, 20070717, p.7-p.12, 社団法人電子情報通信学会 * |
JPN6012066536; 越仲 孝文,磯 健一,奥村 明俊: 'HMMの変分ベイズ学習によるテキスト文書の話題分割法' 情報処理学会研究報告 Vol.2004 No.57 第2004巻 第57号, 20040528, p.49-p.54, 社団法人情報処理学会 * |
JPN6012066537; 越仲 孝文,奥村 明俊,磯谷 亮輔: 'HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用' 電子情報通信学会論文誌 (J89-D) 第9号 第J89-D巻 第9号, 20060901, p.2113〜p.2122, 社団法人電子情報通信学会 * |
JPN6012066540; 但馬 康宏,北出 大蔵,中野 未知子,藤本 浩司,中林 智,小谷 善行: '発話を出力単位とするHMMによる対話に対する話題分割' 電子情報通信学会技術研究報告 Vol.107 No.158 第107巻 第158号, 20070717, p.7-p.12, 社団法人電子情報通信学会 * |
JPN7012005236; Marti Hearst,: '"Multi-Paragraph Segmentation of Expository text"' ACL '94 Proceedings of the 32nd annual meeting on Association for Computational Linguistics , 1994, pp.9-16, Association for Computational Linguistics * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101746427B1 (ko) * | 2016-02-26 | 2017-06-13 | 동국대학교 산학협력단 | 착용형 사용자 장치를 이용한 증강 현실 구현 방법 및 착용형 사용자 장치 |
Also Published As
Publication number | Publication date |
---|---|
US8422787B2 (en) | 2013-04-16 |
JPWO2009084554A1 (ja) | 2011-05-19 |
WO2009084554A1 (ja) | 2009-07-09 |
US20100278428A1 (en) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5343861B2 (ja) | テキスト分割装置とテキスト分割方法およびプログラム | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
CN107305541B (zh) | 语音识别文本分段方法及装置 | |
CN106980624B (zh) | 一种文本数据的处理方法和装置 | |
US10133538B2 (en) | Semi-supervised speaker diarization | |
JP4860265B2 (ja) | テキスト処理方法/プログラム/プログラム記録媒体/装置 | |
CN107678561A (zh) | 基于人工智能的语音输入纠错方法及装置 | |
US20140195238A1 (en) | Method and apparatus of confidence measure calculation | |
CN106446109A (zh) | 语音文件摘要的获取方法和装置 | |
CN103956169A (zh) | 一种语音输入方法、装置和系统 | |
US8312379B2 (en) | Methods, systems, and computer program products for editing using an interface | |
WO2009054535A1 (en) | Boundary estimation apparatus and method | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
US10762375B2 (en) | Media management system for video data processing and adaptation data generation | |
Ghaemmaghami et al. | A study of speaker clustering for speaker attribution in large telephone conversation datasets | |
JP5253317B2 (ja) | 要約文作成装置、要約文作成方法、プログラム | |
JPWO2009113505A1 (ja) | 映像分割装置、方法及びプログラム | |
JP2004233541A (ja) | ハイライトシーン検出システム | |
CN113539235B (zh) | 文本分析与语音合成方法、装置、系统及存储介质 | |
Bohac et al. | Post-processing of the recognized speech for web presentation of large audio archive | |
Ma et al. | A detection-based approach to broadcast news video story segmentation | |
Chaisorn et al. | Story boundary detection in news video using global rule induction technique | |
JP5392780B2 (ja) | コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム | |
Repp et al. | Segmentation of lecture videos based on spontaneous speech recognition | |
JP7556395B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5343861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |