JP5343861B2 - テキスト分割装置とテキスト分割方法およびプログラム - Google Patents

テキスト分割装置とテキスト分割方法およびプログラム Download PDF

Info

Publication number
JP5343861B2
JP5343861B2 JP2009548054A JP2009548054A JP5343861B2 JP 5343861 B2 JP5343861 B2 JP 5343861B2 JP 2009548054 A JP2009548054 A JP 2009548054A JP 2009548054 A JP2009548054 A JP 2009548054A JP 5343861 B2 JP5343861 B2 JP 5343861B2
Authority
JP
Japan
Prior art keywords
topic
division
text
model
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009548054A
Other languages
English (en)
Other versions
JPWO2009084554A1 (ja
Inventor
真 寺尾
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009548054A priority Critical patent/JP5343861B2/ja
Publication of JPWO2009084554A1 publication Critical patent/JPWO2009084554A1/ja
Application granted granted Critical
Publication of JP5343861B2 publication Critical patent/JP5343861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

(関連出願についての記載)
本願は、先の日本特許出願2007−336400号(2007年12月27日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、テキスト分割技術に関し、特に、単語列や文字列などのテキストを意味的なまとまりの単位である話題へと分割するテキスト分割装置と方法およびプログラムに関する。
単語列や文字列などのテキストを意味的なまとまりの単位である話題へと分割するテキスト分割技術は、自然言語処理における重要な基礎技術の一つである。テキストを話題ごとに分割することにより、例えば、
・膨大な量のテキストの話題ごとへの分類、
・テキスト全体の構造の抽出、
・それぞれの話題について要約作成、
等を可能としている。
また、近時、映像コンテンツが大量に流通しつつあるなか、テキスト分割を映像に含まれる音声の書き起こしテキスト、或いは、音声認識結果テキストに適用することで、映像コンテンツの一覧性・検索性を向上することが可能となる。このように、テキスト分割技術の重要性はさらに増しつつある。
テキスト分割技術として、大きく2種類の技術を挙げることができる。まず、これら2種類の技術について、図面を参照して詳細に説明する。
第1の技術は、分割対象となる入力テキスト内における単語分布の変化点を話題の境界として検出するものである。これは、入力テキスト内で同じ話題に属する区間では、同じ単語分布が継続するであろうことを仮定した技術である。第1の技術の代表例として、非特許文献1に記載されているHearst法が挙げられる(第1の関連技術)。
図10は、Hearst法の動作を模式的に示した説明図である。図10に示すように、Hearst法では、まず、入力テキストの各部分に対して一定幅の窓を設定し、各窓内の単語分布を求める。そして、隣接する窓間の単語分布を比較することで単語分布が大きく変化する点を検出し、これを話題境界とする。単語分布としては、窓内の単語の出現頻度を計数して求められるユニグラムがよく用いられる。あるいは、隣接する単語の2つ組み、3つ組み等の出現頻度を単語分布としても良い。単語分布が大きく変化する点を検出するには、例えば、隣接窓間の単語分布の類似度をコサイン類似度などによって求め、類似度の系列の極小点が閾値以下である点を検出すれば良い。図10においては、類似度閾値としてth2を設定すれば、分割点H1、H2、H3、H4、H5、H6、H7が得られる。類似度閾値としてth3を設定すれば、分割点H2、H6が得られる。
以上の説明から分かるように、Hearst法は、どのような入力テキストが与えられても何らかの分割結果を出力することが可能である。
しかしながら、Hearst法においては、
・窓幅、
・類似度閾値、
・類似度の平滑化回数、
等の分割結果を制御するための各種パラメータが存在する。そして、これら各種パラメータの値によって、入力テキストがどのような話題単位へと分割されるかが変化する。
テキスト分割の第2の技術は、あらかじめ様々な話題に関する知識を持ち、これを利用することで入力テキストを各話題へと分割する。第2の技術の例として、非特許文献2が挙げられる。
図11は、非特許文献2に記載されている技術(第2の関連技術)の動作を模式的に示す説明図である。図11に示すように、この非特許文献2に記載の技術では、あらかじめ、新聞記事などの話題ごとに分割されているテキストコーパスを用いて、「野球」や「為替」等のような様々な話題に関する統計モデル、すなわち話題モデルを学習して用意しておく。話題モデルとしては、例えば、各話題に出現する単語の出現頻度を学習したユニグラムモデルなどを用いれば良い。ここで、話題間の遷移の起こりやすさを適宜決めてやれば、入力テキストと最も良く整合する話題モデル系列を、話題の変化点の位置とともに求めることができる。すなわち、入力テキストを話題単位へと分割することができる。入力テキストと話題モデルとの対応付けは、仮に、入力単語列を入力音声波形に置き換え、話題モデルを音素モデルに置き換えてみれば分かるように、音声認識でよく用いられている技術と同様に、フレーム同期ビームサーチなどの計算法によって実現することができる。
これにより、入力テキストの中で、あらかじめ話題モデルを用意しておいた話題に関する区間については、用意した話題モデルを話題単位として分割することが可能となる。図11においては、あらかじめ用意した「野球」、「為替」、「サッカー」、「総選挙」の各話題モデルが入力テキストの対応する区間とマッチすることで、入力テキストがそれぞれの話題へと分割され、分割点M1、M2、M3、M5、M6、M7が得られる。
さらに、第1の技術の特徴である入力テキスト内の単語分布の変化点検出と、第2の技術の特徴である話題に関する知識の利用とを組み合わせることで入力テキストを話題へと分割する技術が、特許文献1に記載されている。この特許文献1に記載の発明を第3の関連技術として詳細に説明する。
特許文献1に記載の発明においては、映像を話題ごとに分割することを目的として、映像中の字幕や音声から得られるテキストの時系列を話題ごとに分割する。このとき、分割結果として得たい各話題に関する知識として、あらかじめ各話題に関する何らかのテキスト情報が得られることが前提となっている。以下の説明では、この各話題に関するテキスト情報のことを「台本データ」と呼ぶ。
特許文献1に記載の発明の動作の概略を説明する。まず、映像から抽出したテキストの時系列を第1の技術によって分割し、次に、分割された各区間のテキストと台本データから得られる各話題に関するテキスト情報とが類似しているかどうかを検証し、台本データ中のいずれの話題とも類似していなかった区間は再び第1の技術によってより細かく分割することを繰り返す、というものである。
以下では、ニュース番組を個々のニュースへと分割する場合を例に、図面を参照して、特許文献1に記載の発明の動作の詳細を説明する。
図12は、特許文献1の図2の構成を示す図である(ただし、図12において、参照符号は特許文献1の図2とは異なる)。図12を参照すると、映像データ記憶手段602には、分割対象となるニュース番組が記憶されている。また、台本データ記憶手段601には、分割結果として得たい話題の単位である個々のニュースに関するテキスト情報として、各ニュースのタイトルテキストが記憶されている。
まず、台本テキスト区間取得手段603が、台本データ記憶手段601を参照することで、各ニュースのタイトルテキストを取得する。
次に、映像テキスト区間生成手段604が、第1の技術、すなわち適当なパラメータを用いて単語分布の変化点を検出する手法によって、ニュース番組中の字幕や音声から得られるテキストの時系列を分割し、分割された各区間のテキストを映像テキスト区間として出力する。
そして、テキスト類似度計算手段605は、映像テキスト区間生成手段604によって分割された各映像テキスト区間のテキストと、台本テキスト区間取得手段603で得られた各ニュースのタイトルテキストとの類似度を計算する。
テキスト対応付け手段606は、各映像テキスト区間に対して、その区間のテキストと最もよく類似し、かつ、類似度があらかじめ設定された閾値より高いタイトルテキストを持つニュースを対応付ける。
さらに、再帰処理制御手段607は、テキスト対応付け手段606によってニュースが対応付けられなかった映像テキスト区間を対象に、映像テキスト区間生成手段604においてより細かい分割がなされるようにパラメータを変更した上で、映像テキスト区間生成手段604、テキスト類似度計算手段605、およびテキスト対応付け手段606による処理を繰り返し行わせる。
このとき、全ての映像テキスト区間にニュースが対応付けられるか、パラメータがあらかじめ設定された限界値に達した場合は、繰り返し処理を終了する。
最後に、映像テキスト区間統合手段608が、隣接する映像テキスト区間で対応するニュースが同一である場合に、これを一つの映像テキスト区間として統合し、最終的な分割結果として出力する。
Marti A. Hearst、 "MULTI−PARAGRAPH SEGMENTATION OF EXPOSITORY TEXT,"32nd Annual Meeting of the Association for Computational Linguistics、 pp.9−16、1994. J.P.Yamron、 I.Carp、 L.Gillick、 S.Lowe、 and P.van Mulbregt,"A HIDDEN MARKOV MODEL APPROACH TO TEXT SEGMENTATION AND EVENT TRACKING、"IEEE International Conference on Acoustics、 Speech and Signal Processing、 pp.333−336、 1998. 越仲孝文、奥村明俊、磯谷亮輔、"HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用、"電子情報通信学会論文誌、Vol.J89−D、No.9、pp.2113−2122、2006. 特開2005−167452号公報(図2)
以上の非特許文献1乃至3、及び特許文献1の各開示事項は、本書に引用をもって繰り込み記載されているものとする。以下に本発明による関連技術の分析を与える。
上述した第1、第2および第3の関連技術は、それぞれ次に挙げる問題点を有する。
第1の関連技術においては、入力テキストを所望の話題単位へと分割することが難しい、という問題がある。ここで、所望の話題単位とは、分割結果として得ようとしている話題単位のことである。例えば、ニュースに関するテキストを分割する場合の所望の話題単位としては、個々のニュース単位やニュースジャンル単位などが考えられる。
前述したように、第1の関連技術では、窓幅や類似度閾値等といった各種パラメータを変更することで、入力テキストがどのような話題単位へと分割されるかが変わってくる。そして、所望の話題単位を得るためには、どのようなパラメータ値を設定すれば良いかが明らかではない。これが、第1の関連技術において入力テキストを所望の話題単位へと分割することが難しい理由である。以下具体例に即して説明する。
例えば、図10に示す例において、類似度閾値をth3に設定すると、分割点H2、H6が得られ、入力テキストは、「経済」、「スポーツ」、「政治」といったニュースジャンルを話題単位として分割される。
一方、図10に示す例において、類似度閾値をth2に設定すると、分割点H1、H2、H3、H4、H5、H6、H7が得られ、個々のニュースへと分割される。さらに、類似度閾値をth1に設定するとH8、H9、H10、H11、H12も分割点となり、さらに細かな単位へと分割される。
このとき、例えば、所望の話題単位として、個々のニュースを単位に分割したいとしても、類似度閾値としてth2を適切に設定することは難しい。その結果、所望の話題単位とは異なる単位で分割されてしまうことになる。
言い換えると、第1の関連技術においては、入力テキストがどのような話題単位へと分割されるかが事前に分からない。これは実用上大きな問題である。
このことは、窓幅などの他のパラメータの設定についても同様である。また、仮に、ある入力テキストに対して所望の話題単位で分割できる適切なパラメータ値を設定できたとしても、同じパラメータ値で全く性質の異なる他のテキストを所望の話題単位へと分割できる保証はない。このため、様々な入力テキストを扱う場合には、上記問題は、より深刻となる。なお、入力テキストによってパラメータの最適値が異なることは、例えば、窓幅の適正値が話題の継続長に依存することを考えても明らかである。
第2の関連技術においては、話題モデルを用意することができなかった未知の話題が入力テキスト中に現れると、その区間を正しく分割することが不可能である、という問題がある。
例えば、図11に示す例において、入力テキスト中の区間A1−A3および区間A5−A7は、対応する話題モデルとして、「為替」、「野球」、「サッカー」、「総選挙」に関する話題モデルが用意されているため、これらの話題を単位として分割できるが、区間A3−A5は対応する話題モデルが用意されていないため(図11の「未知の話題区間」参照)、この区間は、正しく分割することができない。
そして、あらかじめあらゆる話題を想定して話題モデルを用意することは、現実には不可能である。このため、第2の関連技術において、様々な入力テキストを扱う場合には、実用上大きな問題となる。
次に、第3の関連技術においては、台本データとしてテキスト情報を用意することができなかった話題が入力テキスト中に現れると、その区間を正しく分割することができない、という問題がある。これは、第2の関連技術とほぼ同様の問題である。その理由は、第3の関連技術においては、台本データ中のいずれの話題とも対応付けられない区間は、再帰処理によってパラメータが限界値に達するまで細分化されてしまうためである。その結果、台本データ中のいずれの話題とも対応付けられない区間がどのように分割されるかは、あらかじめ設定されたパラメータの限界値によって決定されることになる。台本データ中のいずれの話題とも対応付けられない区間に対して、事前にパラメータの限界値を適切に設定することは不可能である。このため、適切な分割結果が得られない。
したがって、本発明の目的は、入力テキストを所望の話題単位へ適正に分割可能とする、テキスト分割装置、テキスト分割方法およびプログラムを提供することにある。
本願で開示される発明は、上記課題を解決するため、概略以下の構成とされる。
本発明の1つの側面によれば、テキストを複数の区間に分割する装置であって、
前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定手段と、
前記パラメータ推定手段で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割手段と、
を備えたテキスト分割装置が提供される。
本発明に係る装置においては、他の側面において、意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段と、
前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割手段と、
前記モデルベース話題分割手段による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定手段と、
前記パラメータ推定手段で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割手段と、
を備えた構成としてもよい。
本発明に係る装置は、さらに他の側面において、前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する構成としてもよい。
本発明に係る装置において、前記パラメータ推定手段は、前記変化点検出話題分割手段の分割対象区間から所定の範囲内において、前記モデルベース話題分割手段による前記テキストの分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、構成としてもよい。
本発明に係る装置において、前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合手段をさらに備えた構成としてもよい。
本発明に係る装置において、前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対して、前記分割信頼度を相対的に高く出力し、
前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対して、前記分割信頼度を相対的に低く出力する構成としてもよい。
本発明に係る装置において、前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する構成としてもよい。
本発明に係る装置において、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算するようにしてもよい。
本発明に係る装置において、前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割するようにしてもよい。
本発明に係る装置において、前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める分割対象区間決定手段をさらに備え、前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割するようにしてもよい。
本発明に係る装置において、前記パラメータ推定手段は、前記モデルベース話題分割手段による分割結果を正解とみなしたときに、前記変化点検出話題分割手段による分割結果に関する分割正解精度が大となるように、前記パラメータを推定するようにしてもよい。
本発明によれば、テキストを複数の区間に分割する方法であって、
前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定工程と、
前記パラメータ推定工程で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割工程と、
を含むテキスト分割方法が提供される。
本発明に係る方法において、意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割工程と、
前記モデルベース話題分割工程による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定工程と、
前記パラメータ推定工程で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割工程と、
を含むようにしてもよい。本発明の方法によれば、上記本発明に係る装置の上記さらに他の側面として説明した内容に対応する方法が提供される。
本発明に係るコンピュータプログラムよれば、テキストを複数の区間に分割するコンピュータに、
前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定処理と、
前記パラメータ推定処理で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割処理と、
を実行させるプログラムが提供される。
本発明に係るプログラムによれば、テキストを複数の区間に分割するコンピュータに、意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割処理と、
前記モデルベース話題分割処理による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定処理と、
前記パラメータ推定処理で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割処理と、
を実行させるプログラムよりなる。本発明の方法によれば、上記本発明に係る装置のさらに他の側面として説明した内容に対応するプログラムが提供される。
本発明によれば、入力テキストを所望の話題単位へ適正に分割することが可能となる。その理由は、本発明においては、入力テキストを所望の話題単位へと分割するためのパラメータを推定し、任意の入力テキストに対して分割結果を出力可能としたためである。
本発明の第1の実施例の構成を示す図である。 本発明の第2の実施例の構成を示す図である。 本発明の第1の実施例の動作を説明するための流れ図である。 本発明の第2の実施例の動作を説明するための流れ図である。 本発明の第1の実施例の動作の一例を示す説明図である。 本発明の第1の実施例におけるパラメータ推定手段の動作の一例を示す説明図である。 本発明の第1の実施例におけるパラメータ推定手段の動作の一例を示す説明図である。 本発明の第2の実施例の動作の一例を示す説明図である。 本発明の第3の実施例の構成を示す図である。 第1の関連技術の動作の一例を示す説明図である。 第2の関連技術の動作の一例を示す説明図である。 第3の関連技術の構成を示す図である。
符号の説明
101 話題モデル記憶手段
102 モデルベース話題分割手段
103 パラメータ推定手段
104 変化点検出話題分割手段
105 分割結果統合手段
201 話題モデル記憶手段
202 モデルベース話題分割手段
203 パラメータ推定手段
204 変化点検出話題分割手段
205 分割結果統合手段
206 分割対象区間決定手段
510 データ処理装置
520 記憶装置
521 話題モデル記憶手段
530 テキスト分割用プログラム
601 台本データ記憶手段
602 映像データ記憶手段
603 台本テキスト区間取得手段
604 映像テキスト区間生成手段
605 テキスト類似度計算手段
606 テキスト対応付け手段
607 再帰処理制御手段
608 映像テキスト区間統合手段
本発明の実施の形態について図面を参照して以下に説明する。本発明に係るテキスト分割装置においては、意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段(図1の101)と、話題モデルを用いてテキストを話題に対応させて分割するモデルベース話題分割手段(図1の102)と、モデルベース話題分割手段によるテキストの分割結果を教師として、テキスト内の単語分布の変化点の検出に基づいてテキストを分割する際の制御パラメータを推定するパラメータ推定手段(図1の103)と、パラメータ推定手段が推定したパラメータを用いて、テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する変化点検出話題分割手段(図1の104)を備えている。
パラメータ推定手段(図1の103)は、モデルベース話題分割手段(図1の102)による入力テキストの分割結果を教師として、変化点検出話題分割手段(図1の104)で用いられるパラメータを推定する。
変化点検出話題分割手段(図1の104)は、パラメータ推定手段(図1の103)で推定されたパラメータを用いて、入力テキストを分割する。
次に、本発明の第1の実施例について、図面を参照して詳細に説明する。図1は、本発明の第1の実施例の構成を示す図である。
図1を参照すると、本発明の第1の実施例は、入力されたテキストを複数の区間に分割する装置であって、話題モデル記憶手段101と、モデルベース話題分割手段102と、パラメータ推定手段103と、変化点検出話題分割手段104と、分割結果統合手段105と、を備えている。
これらの手段は、それぞれ概略次のように動作する。
モデルベース話題分割手段102は、話題モデル記憶手段101が記憶する話題モデルを用いて、入力テキストを話題ごとへと分割する。
次に、パラメータ推定手段103は、モデルベース話題分割手段102による分割結果を教師として、変化点検出話題分割手段104の動作を制御するパラメータを推定する。
変化点検出話題分割手段104は、パラメータ推定手段103が推定したパラメータを用いて、テキスト内の単語分布の変化点を検出することで、入力テキストを分割する。
最後に、分割結果統合手段105は、モデルベース話題分割手段102による分割結果と、変化点検出話題分割手段104による分割結果とを統合して、入力テキストの最終的な分割結果を出力する。
図3は、本発明の第1の実施例の動作を説明する流れ図である。次に、図1、図3を参照して、本実施例の全体の動作について詳細に説明する。
分割対象となる入力テキストとしては、任意の文字や単語の並び、或いは、コンピュータを操作した際のコマンドの時系列などが用いられる。特に制限されないが、本実施例においては、複数の単語から構成される単語列を入力テキストとする。日本語のように、単語単位に分かち書きされていない言語のテキストを入力とする場合は、入力テキストに対して、例えば公知の形態素解析法等を適用することで、入力テキストを複数の単語へと事前に分割したものを入力テキストとしてもよい。また、入力テキストの単語列から、話題とは直接関係のない助詞や助動詞などを事前に取り除いたものを、入力テキストとしても良い。
本実施例においては、あらかじめ、入力テキストを分割する際の所望の話題単位に対応した話題モデルを用意し、話題モデル記憶手段101に記憶しておく。例えば、ニュースに関するテキストを分割する際に、ニュースのジャンルを所望の話題単位として分割したい場合には、「スポーツ」や「政治」といったニュースジャンルごとの話題モデルを用意する。また、個々のニュースを所望の話題単位として分割したい場合には、「為替」、「野球」、「総選挙」といった個々のニュースごとの話題モデルを用意する。これらの話題モデルとしては、例えば、それぞれの話題に出現する単語や単語の2つ組みの出現確率を表したユニグラムやバイグラムなどのモデルを用いればよい。このような話題モデルは、あらかじめ話題ごとに分類された大量のテキストデータ、例えば、新聞記事データなどを用いて学習することができる。なお、あらゆる話題に関する話題モデルをあらかじめ用意して話題モデル記憶手段101に記憶しておくことは現実的には不可能である。
以下では、話題モデル記憶手段101が記憶する話題モデルのいずれかが表す話題を「既知の話題」、話題モデル記憶手段101が記憶する話題モデルのいずれもが表さない、すなわち、話題モデルが用意されていない話題を「未知の話題」と呼ぶことにする。
入力テキストを分割する際には、まず、モデルベース話題分割手段102が、話題モデル記憶手段101に記憶された話題モデルを用いて入力テキストを分割する(図3のステップS301)。特に制限されないが、モデルベース話題分割手段102による分割は、前述した第2の関連技術を用いて、入力テキストと最も良く整合する話題モデル系列を、話題の変化点の位置とともに求めることで実現してもよい。
具体的には、例えば、各話題モデルが各状態に配置されたHidden Markov Model(HMM)を用いたフレーム同期ビームサーチなどの方法により、入力テキストと整合する話題モデル系列を求めることができる。このとき、話題間の遷移確率を定める必要がある。話題間の遷移確率の設定は、話題モデルの学習に用いたテキストデータ中の各話題の並びを元に学習しても良いし、或いは、あらゆる話題間の遷移確率を等しいものとしても良い。
モデルベース話題分割手段102によって、入力テキスト中の既知の話題区間は、所望の話題単位へと分割される。一方、入力テキスト中の未知の話題区間は、用意されているいずれの話題モデルとも整合しないため、未知の話題区間を正しく分割することはできず、どのような分割結果が得られるかは分からない。
本実施例において、モデルベース話題分割手段102は、入力テキストを話題ごとに分割するだけでなく、入力テキストのどの区間が未知の話題区間であるかを判定するように動作させても良い。この場合、モデルベース話題分割手段102において、未知の話題区間の判定は、特定の話題を表さない話題モデルであるガーベジモデルを用意しておき、入力テキストを分割する際に、話題モデル記憶手段101に記憶された話題モデルに加え、予め用意されたガーベジモデルも用いることで実現できる。すなわち、未知の話題区間では他の話題モデルよりもガーベジモデルの方がより良く整合することから、ガーベジモデルが整合した区間が未知の話題区間であり、それ以外の他の話題モデルが整合した区間が既知の話題区間であると判定できる。
ここで、ガーベジモデルとしては、例えば、
・あらゆる単語の出現確率が等しいモデルや、
・様々な話題を含んだ大量のテキストデータ全体における単語の出現確率を表したモデル、
などを用いれば良い。
次に、パラメータ推定手段103が、モデルベース話題分割手段102による分割結果を教師として、変化点検出話題分割手段104がテキストの分割に際して用いるパラメータを推定する(図3のステップS302)。パラメータの推定は、様々なパラメータを用いて変化点検出話題分割手段104によって入力テキストを複数の区間に分割し、変化点検出話題分割手段104がモデルベース話題分割手段102による分割結果を最も良く再現するような分割結果を出力する際のパラメータを求めれば良い。このようにすることで、パラメータ推定手段103は、変化点検出話題分割手段104が入力テキスト中のどのような区間についても所望する結果に近い話題単位へと分割するようなパラメータ値を推定することができる。
変化点検出話題分割手段104は、パラメータ推定手段103によって推定されたパラメータを用いて、入力テキスト内の単語分布の変化点を検出することで、入力テキストを分割する(図3のステップS303)。本実施例において、変化点検出話題分割手段104は、パラメータ推定手段103からのパラメータを用いて入力テキストの単語分布の変化点を検出してる点が、前記第1の関連技術と相違しているが、変化点の検出の動作自体は、前記1の関連技術と同様の動作とされる。変化点検出話題分割手段104は、入力テキストのあらゆる区間を分割することが可能であるが、第1の関連技術について説明したとおり、適切な分割結果を出力するためには、パラメータを適正に定める必要がある。
本実施例においては、
・パラメータ推定手段103は、変化点検出話題分割手段104が入力テキスト中のどのような区間でも所望に近い話題単位へと分割するようなパラメータ値を推定し、
・変化点検出話題分割手段104は、パラメータ推定手段103で推定されたパラメータを用いて分割する、
ため、入力テキスト中のどのような区間でも所望に近い話題単位へと分割することができる。
最後に、分割結果統合手段105は、モデルベース話題分割手段102による分割結果と、変化点検出話題分割手段104による分割結果とを統合して(図3のステップS304)、例えば2つの分割結果を統合した結果を入力テキストの最終的な分割結果として出力する(図3のステップS305)。
2つの分割結果を統合して出力する方法としては、例えば、モデルベース話題分割手段102によって、
・未知の話題区間と判定された区間は、変化点検出話題分割手段104による分割結果を出力し、
・既知の話題区間と判定された区間は、モデルベース話題分割手段102による分割結果を出力すれば良い。
このようにすることで、既知の話題区間は、モデルベース話題分割手段102によって確実に所望の話題単位で分割し、かつ、未知の話題区間も、変化点検出話題分割手段104によって所望に近い話題単位で分割することができる。
なお、分割結果統合手段105は、モデルベース話題分割手段102による分割結果と、変化点検出話題分割手段104による分割結果とを統合するかわりに、入力テキストの全ての区間において、変化点検出話題分割手段104による分割結果をそのまま出力しても良い。
次に、図1、および、図5から図7の説明図を参照して、本実施例の動作を具体例に基づいて説明する。
以下では、図5の(a)に示した話題を含むニュースに関するテキストを分割する場合を例に説明する。ここで、所望の話題単位は、個々のニュースであるものとする。図5において、横軸は一次元に展開したテキストを表している。
すなわち、最終的な分割結果としては、図5の(b)に「正解話題分割」として示した分割点A1、A2、A3、A4、A5、A6、A7を得たいものとする。
図1の話題モデル記憶手段101には、所望の話題単位である個々のニュースに関する話題モデルとして、「為替」、「野球」、「サッカー」、「総選挙」の話題モデルが記憶されているものとする(図5の(d)参照)。
また、特に制限されないが、本実施例において、変化点検出話題分割手段104は、例えば非特許文献1に記載されているHearst法によって、入力テキストを分割するものとする。Hearst法は、入力テキストの各部分に対して一定幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が閾値以下である点で入力テキストを分割する。Hearst法のパラメータには、
・窓幅、
・類似度の閾値、
・類似度の平滑化回数、
などが存在する。この場合、パラメータ推定手段103で推定するパラメータは、窓幅や類似度の閾値等となる。なお、以下では、変化点検出話題分割手段104は、一例としてHearst法によって入力テキストを分割するものとして説明を行うが、本発明において、変化点検出話題分割手段104の実現手法がHearst法に限定されるものではないことは勿論である。
まず、図1のモデルベース話題分割手段102が話題モデルを用いて入力テキストを分割することで、図5の(c)に「モデルベース話題分割結果」として示したように、分割点M1、M2、M3、M5、M6、M7が得られる。
図5の(c)のモデルベース話題分割結果において、区間M1−M3、区間M5−M7は、既知の話題区間であるため、所望の話題単位である個々のニュースを単位として分割することができる。一方、区間M3−M5は、「スケート」と「ゴルフ」の2つのニュースから構成されているが、これらの話題に関する話題モデルが用意されていないため、区間M3−M5にはガーベジモデルが整合し、未知の話題区間と判定されている。
次に、図1のパラメータ推定手段103が、モデルベース話題分割手段102による分割結果を教師として、変化点検出話題分割手段104で変化点検出による分割に用いるパラメータを推定する。ここでは、変化点検出話題分割手段104はHearst法により入力テキストを分割することから、パラメータ推定手段103は、Hearst法のパラメータを推定する。
パラメータ推定手段103によるパラメータ推定の方法を、Hearst法のパラメータの一つである類似度閾値を推定する場合を例に説明する。
パラメータ推定手段103は、まず、値が異なる様々な類似度閾値を用いて、入力テキストをHearst法によって分割する。
図5の(f)に、入力テキストに対してHearst法を適用した際の「隣接窓間の単語分布の類似度」の系列を示す。これより、例えば、変化点検出話題分割手段104が類似度閾値としてth1を用いて分割した場合、分割点H1、H8、H2、H9、H3、H10、H4、H5、H11、H6、H12、H7が得られる。
変化点検出話題分割手段104が類似度閾値としてth2(<th1)を用いた場合、分割点H1、H2、H3、H4、H5、H6、H7が得られる。
変化点検出話題分割手段104が類似度閾値としてth3(<th2)を用いた場合、分割点H2、H6が得られる。
このとき、パラメータ推定手段103は、モデルベース話題分割手段102による分割点(M1、M2、M3、M5、M6、M7)と、変化点検出話題分割手段104で各類似度閾値を用いたときのHearst法による分割点とを比較し、モデルベース話題分割による分割結果を、最も良く再現するような分割結果が得られる類似度閾値を求める。
そのためには、例えば、モデルベース話題分割手段102による分割結果を正解としたときに、Hearst法による分割結果の分割正解精度が最大になるような類似度閾値を求めればよい。
図6および図7は、この手順の一例を示す説明図である。図6には、教師となるモデルベース話題分割手段102による分割結果と、類似度閾値としてth1、th2、th3を用いた場合の変化点検出話題分割手段104によるHearst法の分割結果(図6の(d)変化点検出話題分割結果)が示されている。ここで、モデルベース話題分割による分割点を正解としたときに、Hearst法による分割点のうち正しく分割できたとみなせる分割点には○印が付与されている(図6の(d)において、分割点番号が○で囲まれている)。
例えば、類似度閾値としてth1を用いたときのHearst法による分割点のうち、○印が付与されているH1、H2、H3、H5、H6、H7が正しく分割できたとみなせることを示している。
なお、本実施例において、パラメータ推定手段103は、変化点検出話題分割手段104で行われたHearst法による分割点と、モデルベース話題分割手段102で行われたモデルベース話題分割による分割点とが完全に一致せずに、例えば数単語程度、両者の分割点がずれている場合でも、正しく分割できたとみなしても良い。
ここで、パラメータ推定手段103において、モデルベース話題分割の結果を正解としたときのHearst法による分割結果の分割正解精度を、Recall、Precision、F値などで評価することができる。
Recallは、分割すべき点のうち正しく分割できた点の割合である。
Precisionは、分割した点のうち正しく分割できた点の割合である。
F値は、RecallとPrecisionの調和平均である。
図6の(d)の変化点検出話題分割結果において、例えば、類似度閾値がth1の場合、分割すべき点6箇所(M1、M2、M3、M5、M6、M7)のうち6箇所(H1、H2、H3、H5、H6、H7)が正しく分割できているので、
Recallは、6/6=1.0である。
また分割した点12箇所(H1〜H12)のうち6箇所(H1、H2、H3、H5、H6、H7)が正しく分割できているので、
Precisionは、6/12=0.5であり、従ってF値は0.67となる。
図7(a)の表に、類似度閾値としてth1、th2、th3を用いた場合の分割正解精度を計算した結果の一覧を示す。
ここで、分割正解精度をF値で評価するものとすれば、分割正解精度が最大になるのは類似度閾値としてth2を用いた場合である。このため、パラメータ推定手段103は、類似度閾値として、th2を推定する。
なお、パラメータ推定手段103は、モデルベース話題分割手段102によって既知の話題区間と判定された区間の結果のみを参照して、モデルベース話題分割手段102による分割結果と様々なパラメータを用いたときのHearst法による分割結果とを比較し、変化点検出話題分割手段104のパラメータを推定しても良い。
未知の話題区間は、モデルベース話題分割手段102によって正しく分割できない区間であることから、未知の話題区間の結果を除外することで、所望の話題単位へと分割するためのパラメータをより適切に推定することができるようになる。
例えば、図6において、既知の話題区間と判定された区間M1−M3および区間M5−M7の結果のみを用いて、前記と同様に、それぞれの類似度閾値における分割正解精度を計算すると、図7(b)となり、類似度閾値がth2のときF値は1.0となる(分割信頼度高い)。
また、ここでは、パラメータ推定手段103が推定するパラメータの例として、類似度閾値を例に説明したが、窓幅や類似度の平滑化回数などの他のパラメータについても、同様にして、推定することができる。
本実施例において、パラメータ推定手段103におけるパラメータ推定の方法は、変化点検出話題分割手段104でHearst法を用いた場合のパラメータ推定に限定されるものでないことは勿論である。変化点検出話題分割手段104がHearst法以外の手法によって入力テキストを分割する場合でも、パラメータ推定手段103は、前記と同様の方法によって、変化点検出話題分割手段104のパラメータを推定することができる。例えば、入力テキスト内の単語分布の変化点を検出することで入力テキストを分割する他の手法として、非特許文献3に記載のテキスト分割法が挙げられる。
非特許文献3に記載のテキスト分割法は、入力テキストを学習データとみなして状態が話題に対応したHMMを学習することで入力テキストを分割する手法であり、分割結果を変化させるパラメータとして、HMMの事前分布の超パラメータが存在する。
本実施例において、変化点検出話題分割手段104として、非特許文献3に記載のテキスト分割法を採用した場合でも、パラメータ推定手段103は、前記と同様の方法によって、HMMの事前分布の超パラメータを推定することができる。
本実施例においては、前述したように、変化点検出話題分割手段104は、パラメータ推定手段103によって推定されたパラメータを用いて、入力テキストを分割する。これによって、変化点検出話題分割手段104は、入力テキスト中のどのような区間でも、所望に近い話題単位へと分割することができる。
この点について、再び図5を参照して説明する。
まず、図5の例において、パラメータ推定手段103によって推定された類似度閾値th2を用いると、変化点検出話題分割手段104では、Hearst法によって、入力テキスト中の既知の話題区間を所望に近い話題単位へと分割することができる。
図5を参照すると、既知の話題区間(区間A1−A3、区間A5−A7)では、変化点検出話題分割手段104において類似度閾値th2を用いたHearst法によって、所望の話題単位である個々のニュースへと分割する分割点H1、H2、H3、H5、H6、H7が得られている。すなわち「為替」、「野球」、「サッカー」、「総選挙」のニュースへと分割可能であることが分かる。
これは、既知の話題区間を所望の話題単位へと分割することができるモデルベース話題分割手段102による分割結果を最も良く再現するように、類似度閾値th2を求めたことから当然である。
さらに、変化点検出話題分割手段104において類似度閾値th2を用いると、Hearst法によって、入力テキスト中の未知の話題区間も所望の話題単位、すなわち個々のニュース単位へと分割することができる。なぜならば、あるテキストを所望の話題単位へと分割するためのパラメータ値は、そのテキスト内ではほぼ一定であると期待できるためである。実際、図5を参照すると、変化点検出話題分割手段104において、類似度閾値としてth2を用いれば、入力テキスト中の未知の話題区間(区間A3−A5)では、Hearst法によって分割点H4が得られ、個々のニュース、すなわち「スケート」と「ゴルフ」のニュースへと分割可能であることが分かる。
以上より、変化点検出話題分割手段104において、類似度閾値としてth2を用いれば、Hearst法によって、入力テキスト全体を、概ね個々のニュース単位へと分割できることが分かる。なお、類似度閾値としてth3を用いると、Hearst法によってこの入力テキスト全体を概ねニュースジャンル単位へと分割できる。分割点H2、H6により、入力テキストは、経済、スポーツ、政治に分割される。
最後に、分割結果統合手段105は、モデルベース話題分割手段102による分割結果と、変化点検出話題分割手段104による分割結果とを統合して、入力テキストの最終的な分割結果を出力する。具体的には、例えば、モデルベース話題分割手段102によって、
・未知の話題区間と判定された区間M3−M5は、変化点検出話題分割手段104による分割結果であるH4を出力し、
・既知の話題区間と判定された区間M1−M3および区間M5−M7は、モデルベース話題分割手段102による分割結果であるM1、M2、M3、M5、M6、M7を出力すれば、入力テキストのあらゆる区間を所望の話題単位に分割できる。
或いは、入力テキストの全ての区間において、変化点検出話題分割手段104による分割結果であるH1、H2、H3、H4、H5、H6、H7を出力しても良い。
なお、モデルベース話題分割手段102は、入力テキストの各区間に対して、分割の確からしさを表す分割信頼度を出力しても良い。ここで、分割信頼度が高い区間は、モデルベース話題分割手段102による分割結果が正しい可能性が高いことを意味し、逆に、分割信頼度が低い区間は、モデルベース話題分割手段102による分割結果が誤っている可能性が高いことを意味するものとする。
本実施例において、例えば、入力テキストの各区間と最も良く整合した話題モデルの尤度(likelihood)をその区間の分割信頼度とすることが出来る。一般に、入力テキストと整合した話題モデルの尤度が高いほど、その区間の分割結果が正しい可能性が高まるためである。データXが与えられたときのパラメータθの尤度L(θ)は条件確率P[X|θ]で与えられる。
或いは、入力テキストの各区間に対して各話題モデルの事後確率(a posterior probability)を計算し、それら事後確率のエントロピーが小さいほど分割信頼度が高くなるようにしても良い。例えば、事後確率のエントロピーの逆数を分割信頼度とすることが出来る。話題モデルの事後確率をPiとした場合、事後確率のエントロピーHは、−Σi Pi・log(Pi)で与えられる。事後確率のエントロピーが小さい場合、特定の話題モデルの事後確率が高い、すなわち特定の話題モデルのみが入力テキストと良く整合したことを意味するので、その区間の分割結果が正しい可能性が高い。
なお、各話題モデルの事後確率は、各話題モデルの尤度を用いれば容易に計算できる。周知のごとく、データXが与えられたときのパラメータθiの事後確率P[θi|X]=P[X|θi]・P[θi]/{Σi P[X|θi]・P[θi]}で与えられる。ここで、P[θi]は各話題の事前確率であり、事前に学習データから求めておいても良いし、或いは、話題によらず一定であるとしても良い。
或いは、特定の話題を表さない話題モデルであるガーベジモデルが整合した未知の話題区間に対しては分割信頼度が低くなるようにしても良い。ガーベジモデルが整合した区間はいずれの話題モデルとも整合しなかったことを意味するので、当然ながら、その区間は正しく分割されていないためである。
このようにして、モデルベース話題分割手段102が分割信頼度を出力する場合、パラメータ推定手段103は、分割信頼度が一定値以上の区間の結果のみを参照して、モデルベース話題分割手段102による分割結果と様々なパラメータを用いたときのHearst法による分割結果とを比較し、変化点検出話題分割手段104のパラメータを推定しても良い。
このように、モデルベース話題分割手段102によって正しく分割できている可能性が高い区間の結果を用いてパラメータを推定することで、所望の話題単位へと分割するためのパラメータをより適切に推定することができるようになる。
また、モデルベース話題分割手段102が分割信頼度を出力する場合、分割結果統合手段105は、
・分割信頼度が一定値以下の区間は変化点検出話題分割手段104による分割結果を出力し、
・分割信頼度が一定値以上の区間はモデルベース話題分割手段102による分割結果を出力しても良い。
このように、モデルベース話題分割手段102による分割結果が誤っている可能性が高い区間(分割信頼度が一定値以下の区間)は、変化点検出話題分割手段104の結果を出力することで、入力テキスト全体をより正確に話題分割することが可能となる。
なお、本実施例では、パラメータ推定手段103は、モデルベース話題分割手段102による分割結果を教師として、変化点検出話題分割手段104のパラメータを推定しているが、本発明はかかる構成に制限されるものでないことは勿論である。一例として、本実施例において、パラメータ推定手段103は、モデルベース話題分割手段102による分割結果以外の分割結果を教師として、変化点検出話題分割手段104のパラメータを推定しても良い。
例えば、モデルベース話題分割手段102の代わりに、人手によって入力テキストを所望の話題単位に分割し、パラメータ推定手段103は人手による分割結果を教師とすることもできる。このようにすることで、人手によって入力テキストの一部分を所望の話題単位へと分割することで、入力テキストの他の部分も所望の話題単位へと分割することが可能となる。
次に、本実施例の作用効果について説明する。
本実施例では、パラメータ推定手段103が、モデルベース話題分割手段102による分割結果を教師とすることで、変化点検出話題分割手段104が入力テキスト中のどのような区間でも所望の話題単位へと分割するようなパラメータを推定することができる。このため、どのような入力テキストが与えられても、テキストを所望の話題単位へと分割することができる。
次に、本発明の第2の実施例について、図面を参照して詳細に説明する。図2は、本発明の第2の実施例の構成を示す図である。本実施例においては、前記第1の実施例に対して、分割対象区間を決定する手段が追加されている。
図2を参照すると、本発明の第2の実施例は、入力されたテキストを複数の区間に分割する装置であって、話題モデル記憶手段201と、モデルベース話題分割手段202と、パラメータ推定手段203と、変化点検出話題分割手段204と、分割結果統合手段205と、分割対象区間決定手段206とを備えている。図4は、本発明の第2の実施例の動作を説明する流れ図である。図8は、本発明の第2の実施例を説明するための説明図である。
次に、図2、図4、図8を参照して、本実施例の全体の動作について詳細に説明する。ただし、話題モデル記憶手段201、モデルベース話題分割手段202はそれぞれ、本発明の第1の実施例における話題モデル記憶手段101、モデルベース話題分割手段102、と同様の動作を行うため、詳しい説明は適宜省略する。
まず、モデルベース話題分割手段202が、話題モデル記憶手段201に記憶された話題モデルを用いて入力テキストを分割する(図4のステップS401)。このとき、モデルベース話題分割手段202は、入力テキストの各区間に対して、分割の確からしさを表す分割信頼度を出力する。
分割信頼度は、本発明の第1の実施例において説明したように、話題モデルの尤度や事後確率のエントロピー、或いはガーベジモデルと整合したか否か、などに基づいて計算すれば良い。
図8に示した例では、モデルベース話題分割手段202によって、入力テキストは分割点M1、M2、M3、M5、M6、M7、M8、M9、M10、M11で分割され、さらに、区間M3−M5および区間M8−M9は分割信頼度が低いものと判定されている。
次に、分割対象区間決定手段206が、分割信頼度が一定値以下の区間を、変化点検出話題分割手段204の分割対象区間として定める(図4のステップS402)。
分割信頼度が低い区間は、モデルベース話題分割手段202による分割結果が誤っている可能性が高いことから、変化点検出話題分割手段204によって分割した方が、望ましい分割結果が得られるものと想定される。
図8に示した例では、区間M3−M5および区間M8−M9が、変化点検出話題分割手段204で分割すべき区間として定められる。
パラメータ推定手段203は、本発明の第1の実施例におけるパラメータ推定手段103と同様に、変化点検出話題分割手段204のパラメータを推定する(図4のステップS403)。このとき、分割対象区間決定手段206により定められた分割対象区間から所定の範囲内におけるモデルベース話題分割手段202による分割結果のみを教師とする点が、本発明の第1の実施例におけるパラメータ推定手段103とは異なる。
図8に示した例では、変化点検出話題分割手段204が区間M3−M5を分割する際に用いるパラメータは、分割対象区間M3−M5から所定の範囲内である区間T1−T2におけるモデルベース話題分割の結果(M2、M3、M5、M6)のみを教師として推定される。
また、変化点検出話題分割手段204が区間M8−M9を分割する際に用いるパラメータは、分割対象区間M8−M9から所定の範囲内である区間T3−T4におけるモデルベース話題分割の結果(M7、M8、M9、M10)のみを教師として推定される。
入力テキスト中での位置が近いほど、入力テキストを所望の話題単位へと分割するためのパラメータ値も似ていると考えられるため、分割対象区間から所定の範囲内のモデルベース話題分割の結果のみを教師とすることで、その分割対象区間を所望の話題単位へと分割するためのより適切なパラメータを推定することができる。
ここで、上述した所定の範囲、すなわち、教師として用いるモデルベース話題分割結果の範囲を定める最も簡単な方法は、分割対象区間を前後に一定値だけ広げた区間を所定の範囲とする方法である。
このような単純な方法でも、分割対象区間の周辺のモデルベース話題分割結果のみを教師としているため、入力テキスト全体を教師として用いるよりは、分割対象区間を所望の話題単位へと分割するのにより適したパラメータを得ることができる。
或いは、他の方法として、パラメータを推定しながら教師とする範囲を少しずつ広げていき、推定されるパラメータ値の急激な変化を検出し、変化する直前の範囲を所定の範囲としても良い。すなわち、推定されるパラメータ値が急激に変化した場合、その範囲の前後で入力テキストの性質が大きく変化していると考えられるため、このように所定の範囲を定めることで適切なパラメータ値を推定することができる。
変化点検出話題分割手段204は、パラメータ推定手段203によって推定されたパラメータを用いて、入力テキスト中の分割対象区間決定手段206により定められた分割対象区間を分割する(図4のステップS404)。
図8に示した例では、変化点検出話題分割手段204は、分割対象区間M3−M5およびM8−M9を分割する。このとき、
・分割対象区間M3−M5を分割する際には、区間T1−T2におけるモデルベース話題分割の結果を教師として推定されたパラメータ値を用い、
・分割対象区間M8−M9を分割する際には、区間T3−T4におけるモデルベース話題分割の結果を教師として推定されたパラメータ値を用いる。
本実施例においては、このように、パラメータ推定手段203によって、分割対象区間ごとに適切に推定されたパラメータ値を用いることで、入力テキストをより所望に近い話題単位へと分割することができる。
分割結果統合手段205は、モデルベース話題分割手段202による分割結果と、変化点検出話題分割手段204による分割結果とを統合して(図4のステップS405)、2つの手段202、204による分割結果を統合したものを入力テキストの最終的な分割結果として出力する(図4のステップS406)。具体的には、分割結果統合手段205は、
・変化点検出話題分割手段204が分割対象とした区間では、変化点検出話題分割手段204による分割結果を出力し、
・変化点検出話題分割手段204が分割対象としなかった区間では、モデルベース話題分割手段202による分割結果を出力する。
次に、本実施例の作用効果について説明する。
本実施例では、変化点検出話題分割手段204のパラメータを、分割対象区間から、所定の範囲内におけるモデルベース話題分割の結果のみを教師として推定するため、分割対象区間の周辺のテキストの性質にあわせたパラメータ値を推定することが可能となる。その結果、分割対象区間を所望の話題単位へと分割する精度を向上することができる。
さらに、本実施例では、変化点検出話題分割手段204のそれぞれの分割対象区間ごとに、それぞれの区間から所定の範囲内におけるモデルベース話題分割の結果を教師としてパラメータを推定している。このため、入力テキスト内において所望の話題単位を得るための最適なパラメータ値が変化している場合でも、変化点検出話題分割手段204によって精度良く入力テキストを所望の話題単位へと分割できる。
次に、本発明の第3の実施例について、図面を参照して詳細に説明する。
本発明の第3の実施例は、第1または第2の実施例をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。
図9を参照すると、本発明の第3の実施例は、MPU等を含んで構成されるデータ処理装置510と、磁気ディスクや半導体メモリ等で構成される記憶装置520と、テキスト分割用プログラム530とから構成される。記憶装置520は、話題モデル記憶手段521などとして使用される。テキスト分割用プログラム530は、データ処理装置510に読み込まれ、データ処理装置510の動作を制御することにより、データ処理装置510上に、前記第1又は第2に実施例の機能を実現する。すなわち、データ処理装置510は、テキスト分割用プログラム530の制御により、図1のモデルベース話題分割手段102、パラメータ推定手段103、変化点検出話題分割手段104、分割結果統合手段105、あるいは、図2のモデルベース話題分割手段202、パラメータ推定手段203、変化点検出話題分割手段204、分割結果統合手段205、分割対象区間決定手段206の処理を実行する。
本発明は、テキスト・音声・映像などのメディアデータを話題ごとに整理された状態で閲覧する情報閲覧システムや、情報閲覧システムをコンピュータに実現するためのプログラムといった用途に適用できる。また、大量のメディアデータの中から特定の話題に関するメディアデータを検索する情報検索システムといった用途にも適用可能である。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims (30)

  1. テキストを複数の区間に分割する装置であって、
    意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段と、
    前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割手段と、
    前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割する変化点検出話題分割手段と、
    前記変化点検出話題分割手段で値の異なるパラメータを用いたときの分割点と、前記モデルベース話題分割手段による分割点とを比較し、前記変化点検出話題分割手段による分割結果が前記モデルベース話題分割手段による分割結果をより良く再現するような前記パラメータを求めるパラメータ推定手段と、
    を備え、
    前記パラメータ推定手段で推定され、前記変化点検出話題分割手段で前記テキストの分割に用いられる前記パラメータは、前記窓の幅、前記類似度の閾値、前記類似度を平滑化する回数のうちのうちの少なくとも一つを含む、ことを特徴とするテキスト分割装置。
  2. 前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
    前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項に記載のテキスト分割装置。
  3. 前記パラメータ推定手段は、前記変化点検出話題分割手段による前記テキストの分割信頼度が所定値以下の区間である分割対象区間に隣接し分割信頼度が前記所定値を超える分割点を含む所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項に記載のテキスト分割装置。
  4. 前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
    前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合手段をさらに備えたことを特徴とする請求項又はに記載のテキスト分割装置。
  5. 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
    前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項に記載のテキスト分割装置。
  6. 前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項に記載のテキスト分割装置。
  7. 前記モデルベース話題分割手段は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項に記載のテキスト分割装置。
  8. 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
    前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項に記載のテキスト分割装置。
  9. 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める分割対象区間決定手段をさらに備え、
    前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項に記載のテキスト分割装置。
  10. 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶部と、モデルベース話題分割手段と、変化点検出話題分割手段と、パラメータ推定手段を備えた装置により、テキストを複数の区間に分割する方法であって、
    前記モデルベース話題分割手段は、前記話題モデル記憶を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割し、
    前記変化点検出話題分割手段は、前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割し、
    前記パラメータ推定手段は、前記変化点検出話題分割手段で値の異なるパラメータを用いたときの分割点と、前記モデルベース話題分割手段による分割点とを比較し、前記変化点検出話題分割手段による分割結果が前記モデルベース話題分割手段による分割結果をより良く再現するような前記パラメータを求め、
    前記パラメータ推定手段で推定され、前記変化点検出話題分割手段で前記テキストの分割に用いられる前記パラメータは、前記窓の幅、前記類似度の閾値、前記類似度を平滑化する回数のうちのうちの少なくとも一つを含む、ことを特徴とするテキスト分割方法。
  11. 前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
    前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項1に記載のテキスト分割方法。
  12. 前記パラメータ推定手段は、前記変化点検出話題分割手段による前記テキストの分割信頼度が所定値以下の区間である分割対象区間に隣接し分割信頼度が前記所定値を超える分割点を含む所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項1に記載のテキスト分割方法。
  13. 前記装置に含まれる分割結果統合手段が、前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
    前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力することを特徴とする請求項1又は1に記載のテキスト分割方法。
  14. 前記モデルベース話題分割手段は、前記話題モデル記憶に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
    前記話題モデル記憶に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項1に記載のテキスト分割方法。
  15. 前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項1に記載のテキスト分割方法。
  16. 前記モデルベース話題分割手段は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項1に記載のテキスト分割方法。
  17. 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
    前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項1に記載のテキスト分割方法。
  18. 前記装置に含まれる分割対象区間決定手段が、前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める工程をさらに含み、
    前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項1に記載のテキスト分割方法。
  19. テキストを複数の区間に分割する処理をコンピュータに実行させるプログラムであって
    意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割するするモデルベース話題分割処理と、
    前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割する変化点検出話題分割処理と、
    前記変化点検出話題分割処理で値の異なるパラメータを用いたときの分割点と、前記モデルベース話題分割処理による分割点とを比較し、前記変化点検出話題分割処理による分割結果が前記モデルベース話題分割処理による分割結果をより良く再現するような前記パラメータを推定するパラメータ推定処理と、
    を含み、
    前記パラメータ推定処理で推定され、前記変化点検出話題分割処理で前記テキストの分割に用いられる前記パラメータは、前記窓の幅、前記類似度の閾値、前記類似度を平滑化する回数のうちのうちの少なくとも一つを含む、プログラム。
  20. 前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
    前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項19に記載のプログラム。
  21. 前記パラメータ推定手段は、前記変化点検出話題分割手段による前記テキストの分割信頼度が所定値以下の区間である分割対象区間に隣接し分割信頼度が前記所定値を超える分割点を含む所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項2に記載のプログラム。
  22. 前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
    前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合処理を、さらに前記コンピュータに実行させる請求項2又は2に記載のプログラム。
  23. 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
    前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項2に記載のプログラム。
  24. 前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項2に記載のプログラム。
  25. 前記モデルベース話題分割手段は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項2に記載のプログラム。
  26. 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
    前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項2に記載のプログラム。
  27. 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める分割対象区間決定手段をさらに含み、
    前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項2に記載のプログラム。
  28. 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段と、
    テキストを入力し前記話題モデルの話題に対応させて分割するモデルベース話題分割手段と、
    前記テキストを入力し、前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割し、前記窓の幅、前記類似度の閾値、前記類似度の平滑化回数のうちの少なくとも一つをパラメータとして用いる変化点検出話題分割手段と、
    前記モデルベース話題分割手段で分割された前記テキストの分割結果を教師として、前記変化点検出話題分割手段での前記テキストを分割した区間が、前記モデルベース話題分割手段での話題モデルによる分割区間とより良く一致するように、前記変化点検出話題分割手段で用いる、前記窓の幅、前記類似度の閾値、前記類似度の平滑化回数の少なくとも一つを含む前記パラメータの推定を行うパラメータ推定手段と、
    分割の確からしさを表す分割信頼度が相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、前記分割信頼度が相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合手段と、
    を備えたことを特徴とするテキスト分割システム。
  29. 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、分割信頼度を相対的に高く出力し、
    前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力し、
    前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による分割対象区間と定める分割対象区間決定手段をさらに備え、
    前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項28に記載のテキスト分割システム。
  30. 入力テキストを話題モデルを用いて話題に対応させて複数の区間に分割するモデルベース話題分割部と、
    前記テキストの各部分に対して、予め定められた幅の窓を設定し、隣接窓間の単語分布の類似度の極小点が予め定められた閾値以下である点で、前記テキストを分割し、前記窓の幅、前記類似度の閾値、前記類似度の平滑化回数のうちの少なくとも一つをパラメータとして用いる変化点検出話題分割部と、
    前記変化点検出話題分割部で値の異なる前記パラメータを用いたときの分割点と、前記モデルベース話題分割処理による分割点とを比較し、前記変化点検出話題分割部による分割結果が前記モデルベース話題分割部による分割結果をより良く再現するような、前記パラメータを推定するパラメータ推定部と、
    分割の確からしさを表す分割信頼度が相対的に高い区間においては、前記モデルベース話題分割部による分割結果を出力し、前記分割信頼度が相対的に低い区間においては、前記変化点検出話題分割部による分割結果を出力する分割結果統合部を含む、ことを特徴とするテキスト分割装置。
JP2009548054A 2007-12-27 2008-12-25 テキスト分割装置とテキスト分割方法およびプログラム Active JP5343861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009548054A JP5343861B2 (ja) 2007-12-27 2008-12-25 テキスト分割装置とテキスト分割方法およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007336400 2007-12-27
JP2007336400 2007-12-27
JP2009548054A JP5343861B2 (ja) 2007-12-27 2008-12-25 テキスト分割装置とテキスト分割方法およびプログラム
PCT/JP2008/073502 WO2009084554A1 (ja) 2007-12-27 2008-12-25 テキスト分割装置とテキスト分割方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2009084554A1 JPWO2009084554A1 (ja) 2011-05-19
JP5343861B2 true JP5343861B2 (ja) 2013-11-13

Family

ID=40824268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009548054A Active JP5343861B2 (ja) 2007-12-27 2008-12-25 テキスト分割装置とテキスト分割方法およびプログラム

Country Status (3)

Country Link
US (1) US8422787B2 (ja)
JP (1) JP5343861B2 (ja)
WO (1) WO2009084554A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101746427B1 (ko) * 2016-02-26 2017-06-13 동국대학교 산학협력단 착용형 사용자 장치를 이용한 증강 현실 구현 방법 및 착용형 사용자 장치

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8806455B1 (en) * 2008-06-25 2014-08-12 Verint Systems Ltd. Systems and methods for text nuclearization
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US8549016B2 (en) 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US9031944B2 (en) 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US8423555B2 (en) * 2010-07-09 2013-04-16 Comcast Cable Communications, Llc Automatic segmentation of video
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US9110986B2 (en) * 2011-01-31 2015-08-18 Vexigo, Ltd. System and method for using a combination of semantic and statistical processing of input strings or other data content
US8600730B2 (en) * 2011-02-08 2013-12-03 Microsoft Corporation Language segmentation of multilingual texts
US10467289B2 (en) * 2011-08-02 2019-11-05 Comcast Cable Communications, Llc Segmentation of video according to narrative theme
DE102012102797B4 (de) * 2012-03-30 2017-08-10 Beyo Gmbh Kamerabasiertes Mobilfunkgerät zur Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf dem kamerabasierten Mobilfunkgerät
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US9892194B2 (en) 2014-04-04 2018-02-13 Fujitsu Limited Topic identification in lecture videos
US11017022B2 (en) * 2016-01-28 2021-05-25 Subply Solutions Ltd. Method and system for providing audio content
CN107797982B (zh) * 2016-08-31 2021-05-07 百度在线网络技术(北京)有限公司 用于识别文本类型的方法、装置和设备
CN107480143B (zh) * 2017-09-12 2020-05-29 山东师范大学 基于上下文相关性的对话话题分割方法和系统
US10558689B2 (en) * 2017-11-15 2020-02-11 International Business Machines Corporation Leveraging contextual information in topic coherent question sequences
CN114026557A (zh) * 2019-07-04 2022-02-08 松下知识产权经营株式会社 说话解析装置、说话解析方法以及程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167452A (ja) * 2003-12-01 2005-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体
WO2005069158A2 (ja) * 2004-01-16 2005-07-28 Nec Corp テキスト処理方法/プログラム/プログラム記録媒体/装置
JP2007052307A (ja) * 2005-08-19 2007-03-01 Advanced Telecommunication Research Institute International 音声認識結果の検査装置及びコンピュータプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659766A (en) * 1994-09-16 1997-08-19 Xerox Corporation Method and apparatus for inferring the topical content of a document based upon its lexical content without supervision
US5687364A (en) * 1994-09-16 1997-11-11 Xerox Corporation Method for learning to infer the topical content of documents based upon their lexical content
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6223145B1 (en) * 1997-11-26 2001-04-24 Zerox Corporation Interactive interface for specifying searches
US6297824B1 (en) * 1997-11-26 2001-10-02 Xerox Corporation Interactive interface for viewing retrieval results
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6529902B1 (en) * 1999-11-08 2003-03-04 International Business Machines Corporation Method and system for off-line detection of textual topical changes and topic identification via likelihood based methods for improved language modeling
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
DE602004003497T2 (de) * 2003-06-30 2007-09-13 Koninklijke Philips Electronics N.V. System und verfahren zur erzeugung einer multimedia-zusammenfassung von multimedia-strömen
US7801358B2 (en) * 2006-11-03 2010-09-21 Google Inc. Methods and systems for analyzing data in media material having layout

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167452A (ja) * 2003-12-01 2005-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体
WO2005069158A2 (ja) * 2004-01-16 2005-07-28 Nec Corp テキスト処理方法/プログラム/プログラム記録媒体/装置
JP2007052307A (ja) * 2005-08-19 2007-03-01 Advanced Telecommunication Research Institute International 音声認識結果の検査装置及びコンピュータプログラム

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CSNG200501033007; 越仲 孝文,磯 健一,奥村 明俊: 'HMMの変分ベイズ学習によるテキスト文書の話題分割法' 情報処理学会研究報告 Vol.2004 No.57 第2004巻 第57号, 20040528, p.49-p.54, 社団法人情報処理学会 *
CSNG200600948017; 越仲 孝文,奥村 明俊,磯谷 亮輔: 'HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用' 電子情報通信学会論文誌 (J89-D) 第9号 第J89-D巻 第9号, 20060901, p.2113〜p.2122, 社団法人電子情報通信学会 *
CSNG200701093002; 但馬 康宏,北出 大蔵,中野 未知子,藤本 浩司,中林 智,小谷 善行: '発話を出力単位とするHMMによる対話に対する話題分割' 電子情報通信学会技術研究報告 Vol.107 No.158 第107巻 第158号, 20070717, p.7-p.12, 社団法人電子情報通信学会 *
JPN6012066536; 越仲 孝文,磯 健一,奥村 明俊: 'HMMの変分ベイズ学習によるテキスト文書の話題分割法' 情報処理学会研究報告 Vol.2004 No.57 第2004巻 第57号, 20040528, p.49-p.54, 社団法人情報処理学会 *
JPN6012066537; 越仲 孝文,奥村 明俊,磯谷 亮輔: 'HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用' 電子情報通信学会論文誌 (J89-D) 第9号 第J89-D巻 第9号, 20060901, p.2113〜p.2122, 社団法人電子情報通信学会 *
JPN6012066540; 但馬 康宏,北出 大蔵,中野 未知子,藤本 浩司,中林 智,小谷 善行: '発話を出力単位とするHMMによる対話に対する話題分割' 電子情報通信学会技術研究報告 Vol.107 No.158 第107巻 第158号, 20070717, p.7-p.12, 社団法人電子情報通信学会 *
JPN7012005236; Marti Hearst,: '"Multi-Paragraph Segmentation of Expository text"' ACL '94 Proceedings of the 32nd annual meeting on Association for Computational Linguistics , 1994, pp.9-16, Association for Computational Linguistics *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101746427B1 (ko) * 2016-02-26 2017-06-13 동국대학교 산학협력단 착용형 사용자 장치를 이용한 증강 현실 구현 방법 및 착용형 사용자 장치

Also Published As

Publication number Publication date
US8422787B2 (en) 2013-04-16
JPWO2009084554A1 (ja) 2011-05-19
WO2009084554A1 (ja) 2009-07-09
US20100278428A1 (en) 2010-11-04

Similar Documents

Publication Publication Date Title
JP5343861B2 (ja) テキスト分割装置とテキスト分割方法およびプログラム
US11210470B2 (en) Automatic text segmentation based on relevant context
CN107305541B (zh) 语音识别文本分段方法及装置
CN106980624B (zh) 一种文本数据的处理方法和装置
US10133538B2 (en) Semi-supervised speaker diarization
JP4860265B2 (ja) テキスト処理方法/プログラム/プログラム記録媒体/装置
CN107678561A (zh) 基于人工智能的语音输入纠错方法及装置
US20140195238A1 (en) Method and apparatus of confidence measure calculation
CN106446109A (zh) 语音文件摘要的获取方法和装置
CN103956169A (zh) 一种语音输入方法、装置和系统
US8312379B2 (en) Methods, systems, and computer program products for editing using an interface
WO2009054535A1 (en) Boundary estimation apparatus and method
CN104750677A (zh) 语音传译装置、语音传译方法及语音传译程序
US10762375B2 (en) Media management system for video data processing and adaptation data generation
Ghaemmaghami et al. A study of speaker clustering for speaker attribution in large telephone conversation datasets
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
JPWO2009113505A1 (ja) 映像分割装置、方法及びプログラム
JP2004233541A (ja) ハイライトシーン検出システム
CN113539235B (zh) 文本分析与语音合成方法、装置、系统及存储介质
Bohac et al. Post-processing of the recognized speech for web presentation of large audio archive
Ma et al. A detection-based approach to broadcast news video story segmentation
Chaisorn et al. Story boundary detection in news video using global rule induction technique
JP5392780B2 (ja) コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム
Repp et al. Segmentation of lecture videos based on spontaneous speech recognition
JP7556395B2 (ja) データ処理装置、データ処理方法及びデータ処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130729

R150 Certificate of patent or registration of utility model

Ref document number: 5343861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150