JP2007241902A - テキストデータの分割システム及びテキストデータの分割及び階層化方法 - Google Patents

テキストデータの分割システム及びテキストデータの分割及び階層化方法 Download PDF

Info

Publication number
JP2007241902A
JP2007241902A JP2006066716A JP2006066716A JP2007241902A JP 2007241902 A JP2007241902 A JP 2007241902A JP 2006066716 A JP2006066716 A JP 2006066716A JP 2006066716 A JP2006066716 A JP 2006066716A JP 2007241902 A JP2007241902 A JP 2007241902A
Authority
JP
Japan
Prior art keywords
analysis section
text data
analysis
topic
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006066716A
Other languages
English (en)
Inventor
Atsushi Fujii
敦 藤井
Kazuyo Tanaka
和世 田中
Kei Uchiumi
慶 内海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tsukuba NUC
Original Assignee
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tsukuba NUC filed Critical University of Tsukuba NUC
Priority to JP2006066716A priority Critical patent/JP2007241902A/ja
Publication of JP2007241902A publication Critical patent/JP2007241902A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】分析区間の長さに拘束されない複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割を可能とするテキストデータの分割及び階層化システムを提供する。
【解決手段】 分割対象のテキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備える。
【選択図】図1

Description

本発明は、複数のトピック又はテーマを含むテキストデータを当該複数のトピック又はテーマ毎に複数の境界に分割するテキストデータ分割システムに関し、さらに、分割されたテキストデータを複数のトピック又はテーマ毎に階層化させる階層化させるテキストデータの階層化システムに関する。
TV、ラジオ、新聞、雑誌等のマスメディアを介して、日々様々な情報が提供される。また、インターネットのウェブ上には膨大な量の情報が溢れている。これらの情報は、インターネットを介して直接テキストデータの形で入手できることもあるが、放送された音声データや出版された活字データを音声認識装置や文字認識装置を利用することにより、テキストデータに変換して入手することが可能である。
このようにして入手したテキストデータの中から、所望のテーマ(題目)又はトピック(話題)(以下、本願においては適宜「トピック」という)に応じて必要な部分だけを取得できれば、これらの膨大な情報を種々の目的のために有効利用することができるので大変便利である。また、複数のトピック等を包含する大きなボリュームのテキストデータをトピック毎に区分けすることができれば、膨大な情報をトピック毎に分類して格納しておき、必要なトピック毎に検索することができ多くの人が利用できることとなる。
このため、従来から、テキストデータをコンピュータを利用して分割する技術が知られている。特開平06−19962号公報は、機械翻訳、文章要約、キーワード抽出などの言語処理に付するために行うテキスト分割装置に関して、テキストに含まれる区切り文字と、テキストのフォーマットとからテキストの分割位置を検出するための分割位置検出手段と、分割位置検出手段により検出された分割位置にてテキストを区切って出力するための出力手段とにより、分割位置として区切り文字のみでなく、テキストのフォーマットをも用いて検出処理を行えるようにしたテキスト分割装置を開示している。
そして、従来は、このようにして分割されたテキストに含まれるテーマやトピック等のキーワードに基づいて、各分割されたテキストを人為的に又は機械的に分割していたのである。
一方、テキストデータに含まれる情報の抽出では、テキスト内に混在する個々のトピックを特定することで抽出精度が向上する。また、会話や人間が作成する文章では、トピックが変わると使用される単語が変化することに着目し、使用される単語やキーワードの変化に基づいて、予め一定の長さを持つ分析区間に区分けされたテキスト間の結束性を判断してテキストの分類を行うことが考えられている。
特開平06−19962号公報
しかし、テキストを一定の長さを持つ分析区間の単位に分割し、分析区間毎の結束性を判断しても、分析区間の長さが最適でないと種々の問題が生じることとなる。すなわち、分析区間が短いと、分析区間どうしで共通する単語等が少なくなる過分割の問題が生じる。また、分割区間が長いと、トピックの境界が分割区間に内包されてしまい、検索漏れが生じてしまうこととなる。
このため、本発明は、分析区間の長さに拘束されないように複数の分割パターンを生じさせ、当該複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割を可能とするテキストデータの分割及び階層化システムの提供を目的とする。
このため、本発明は、複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割システムであって、前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、
前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備え、前記分析区間作成手段は、前記テキストデータを構成する文を1文ずつ移動した分析区間を作成し、前記トピックベクトル作成手段は、当該移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段が、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことを特徴とするテキストデータ分割システムを提供するものである。
ここで、前記分析区間作成手段は、前記分析区間の長さを1つずつ増加させた分析区間を作成し、前記トピックベクトル作成手段は、当該増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段が、当該増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことにより分析区間長を可変としたのである。
そして、本テキストデータ分割システムは、前記境界位置検出手段が検出した前記複数の境界位置の確かさを予め設定された閾値に基づいて計算する投票手段をさらに備え、当該投票手段によって前記テキストデータの最終的な境界位置を確定させるのである。
そして、本システムは、このようにして得られたテキストデータの境界位置に基づいて、このテキストデータを階層化するようにしている。その第1の手法は、前記した投票手段において設定される閾値を複数段階設定し、前記境界位置検出手段が検出した前記複数の境界位置を、当該閾値の高い値から低い値に変化させながら確定させるのである。また、その第2の手法は、前記分析区間作成手段は、前記境界位置検出手段による前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定し、前記トピックベクトル作成手段は、当該トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段は、トピック毎の分析区間のトピックベクトルの類似度を計算し、前記トピックベクトル作成手段は、前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、前記境界位置検出手段は、前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算することにより、分析区間の階層化を行うのである。
ここで、前記トピックベクトル作成手段は、前記結合した分析区間が2つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、前記境界位置検出手段は、前記新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するようにしている。
ところで、前記内容語の重要度を示すトピックベクトルは、数1「i(t、w)×TFIDF」で表される。
また、前記トピックベクトルの類似度は、数2のcosθで表される。
そして、前記境界位置検出手段は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより、前記複数のトピックの境界位置を検出するのである。
本発明は、また、複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、(a)前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、(b)前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、(c)隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、(d)前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、(e)前記境界位置の確かさを計算するステップと、(f)前記テキストデータを構成する文を1文ずつ移動した分析区間を作成するステップと、(g)前記1文ずつ移動した分析区間内について前記ステップ(b)乃至(f)を繰り返すステップと、の各ステップを有することを特徴とするテキストデータ分割方法を提供するものである。さらに、(h)前記ステップ(a)において区分けされた分析区間の長さを1つずつ増加させた分析区間を作成するステップと、(i)前記ステップ(b)乃至(g)を繰り返すステップと、の各ステップを、さらに有することにより分析区間長を可変とするのである。
本発明は、さらに、複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、(a)前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、(b)前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、(c)隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、(d)前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、(e)前記境界位置の確かさを計算するステップと、(f)前記テキストデータを構成する文を1文ずつ移動した分析区間を作成するステップと、(g)前記1文ずつ移動した分析区間内について前記ステップ(b)乃至(f)を繰り返すステップと、(h)前記作成された分析区間に基づく前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定するステップと、(i)前記トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、(j)前記トピック毎の分析区間のトピックベクトルの類似度を計算するステップと、(k)前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成するステップと、(l)前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、の各ステップを有することを特徴とするテキストデータの分割及び階層化方法を提供するものである。
このように、本発明においては、分析区間の長さに拘束されないように複数の分割パターンを生じさせ、当該複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割と階層化を実現したのである。
以下、本発明に係るテキストデータ分割システム及び階層化システムについて説明する。
図1は、本発明のテキストデータ分割システム及び階層化システム10の全体構成とその機能ブロックの例を示すものである。図1に示すように、本発明のテキストデータ分割システム及び階層化システム10には、最初に、分割処理するべきテキストデータが入力される。本システム10は、この入力されたテキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段11と、このようにして得られた分析区間に含まれる複数の単語や動詞等の内容語に基づいて分析区間の特徴を表している語を抽出して当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段12と、隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段13と、各分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段14とを備える。
そして、本システムにおいては、テキストデータを構成する文を1文ずつ移動した分析区間が作成され、この移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、この移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出するようにする。これにより、一つの分析区間に隣接する文を含んだ分析区間の類似度に基づいて検出する境界位置の妥当性が図られるのである。
さらに、本テキスト分割システムにおいては、前記分析区間の長さを1つずつ増加させた分析区間を作成して、当該増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、この増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出するようにしている。このように、本システムにおいては、分析区間の長さに拘束されないように複数の分割パターンを生じさせ、この複数の分割パターンに区分けされた各テキスト間の拘束性又は類似性を判断することにより、高精度の分割を可能としているのである。
本テキストデータ分割システムは、さらに、後に詳しく説明するように、境界位置検出手段14が検出した複数の境界位置の確かさを計算する投票手段15を備え、テキストデータの最終的な境界位置を確定させるのである。
次に、本システム10におけるテキストデータの階層化について説明する。図1において、テキストデータの階層化のための処理フローは点線により示されている。
ところで、本システム10は、このようにして得られたテキストデータの境界位置に基づいて、このテキストデータを階層化するようにしている。
その第1の手法は、前記した投票手段において設定される閾値を複数段階設定し、境界位置検出手段14が検出した複数の境界位置を、当該閾値の高い値から低い値に変化させながら確定させるのである。
そして、その第2の手法は、各分析区間の内容の類似性に基づくものである。このため、上記した処理フロー(図1の実線表示)により分割されたテキストデータは、さらに、その内容の類似性に基づいて階層化する処理に付される。このため、分析区間作成手段11は、境界位置検出手段14によるテキストデータの分割結果に基づいてトピック毎の分析区間を設定し、トピックベクトル作成手段12は、当該トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成する。これを受けて、境界位置検出手段14は、トピック毎の分析区間のトピックベクトルの類似度を計算するのである。そして、この類似度が予め設定された閾値以上である場合には分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、この結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する。
ここで、トピックベクトル作成手段12は、前記結合した分析区間が2つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、境界位置検出手段14は、新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するようにしている。このようにして、本システム10においては、分割されたテキストデータをその内容の類似度に基づいて階層化するのである。
以下、上記に概説した本システムの個々の構成手段の詳細について説明する。本システム10においては、「文」を分析区間の最小単位とし、テキストデータ内のトピック(以下、適宜「話題」という)の境界は、文と文の間に存在するとする。従って、本システム10におけるテキストデータ分割処理の初期状態では、全ての文と文の間が境界候補である。
本システム10によるテキストデータの分割手順は、以下のように進められる。図2は、本システム10により処理されるテキストデータにおいて、可変長の分析区間を作成する際の概念図を示す。
テキストデータの分割の手順の概要は、次の通りである。
(a)図2に示すように各境界候補(aからd)から前後N文までを分析区間とする。図2においてAからEは、文である。図2は、分析区間長をN=1、2とした時に境界候補点をずらしながら分析区間を作成する様子を表している。
(b)分析区間に含まれる単語の重要度を計算し、分析区間のベクトル(トピックベクトル)を作成する。
(c)2つの分析区間についてトピックベクトルの類似度を計算する。
(d)境界候補を1文ずつズラしながら、全ての境界候補について上記手順(a)乃至(c)の処理を繰り返す。
(e)手順(c)で計算した類似度の変化に基づいて話題の境界位置を検出する。
(f)分析区間の長さNを1から1つずつ増やしながら、手順(a)乃至(e)を繰り返す。
(g)図3のように、各境界候補について、上記(f)までで得られた各分析区間長の分割パターンを用いて投票を行う。
図3で、「○」は境界候補(aからd)が境界として検出されたことを示し、「×」は、境界候補が境界として検出されなかったことを示す。例えば、候補bは、3つの分割パターンから支持されており、他の候補よりも境界としての尤度が高い。このため、ある境界候補が得た票数が閾値を越えた場合、その境界候補を境界と決定する。
本発明では、上記した手順(a)乃至(f)において分析区間の長さを変化させて複数の分割パターンを得ている点と、得られた複数の分割パターンに対して手順(g)で投票を行って結果を統合する点である。
A.分析区間の作成
以下、分析区間の作成について述べる。分析区間は、文と文の間から前後N文を含むように構成する。基準となる文と文の間が境界候補である。基準点をずらしながら全ての境界候補について前後にN文の長さの分析区間を作成する。Nの値は1から始まり、事前に設定した上限まで1ずつ増やす。
B.トピックベクトルの作成
トピックベクトルは、作成された分析区間に含まれる内容語から、分析区間の特徴を現している語を抽出して作成する。以下、トピックベクトルの作成手順を示す。
(a)作成した分析区間に対して形態素解析を行い、内容語(名詞、動詞)を抽出する。
(b)分析区間ごとに内容語の重要度を求める。
(c)各分析区間を表すベクトルにおいて、テキストの異なり語数を次元とし、分析区間に含まれる内容語の単語重要度を要素にする。
トピックベクトルの作成方法は、図4に示すように、分析区間をずらしながら分析区間毎に単語の頻度分布を求める。次に、単語の頻度分布を基に単語重要度を決定する。
単語重要度は、数1のTFIDFを考慮した相互情報量で計算されるP(t,w)は、文書tにおける索引語wの確率を、P(t),P(w)は文書t、索引語wのそれぞれの確率を表す。
Figure 2007241902
最後に、重要度を閾値処理して、閾値より高い重要度を持つ単語だけでベクトルを作る。このベクトルをトピックベクトルと呼ぶ。
C.トピックベクトル間の類似度の計算
それぞれの分析区間は、重要度計算によって抽出された単語を成分とするトピックベクトルで表されている。従って、このトピックベクトル同士の内積は、分析区間同士の単語のオーバーラップ率を表し、隣接する2つの分析区間の類似度を表す。よって、トピックベクトル間の類似度は数2で表される。
Figure 2007241902
ここで、xikc,xilcはそれぞれ 分析区間tにおける分析区間tおよび分析区間tに共通に出現した単語の重要度、分析区間tにおける分析区間tおよび分析区間tに共通に出現した単語の重要度を表す。xik,xilはそれぞれ分析区間tに出現した単語の重要度 分析区間tに出現した単語の重要度を表す。
cosθが1に近ければ近いほどトピックベクトル間の類似度は高くなる。そして、作成した類似度グラフから。境界位置を検出する。
D.境界検出
図8のような類似度グラフから境界を検出する方法として2つの手法が取られている。その第1の手法は、類似度が閾値以下となる点を境界として検出する方法であり、その第2の手法は、類似度が極小となる点を境界とする方法である。本発明では、各分析区間長での境界検出に、この2つの手法のどちらか、又は2つの組み合わせを用いるか決めるために、それぞれの方法による境界検出性能を比較する。
E.投票
投票は、複数の分析区間長の結果を統合し、検出された境界の確かさを計算する作業である。表1に投票の例を示す。
Figure 2007241902
表1は、各分析区間長での「分割パターン」を並べたものである。表2における「○」は、その分析区間長において、その境界候補位置が境界として検出されたことを意味する。「x」は、その逆で、その分析区間長においてその境界候補位置が境界として検出されなかったことを意味する。表2において、多くの「分割パターン」で支持される境界位置は、より正しい境界位置である可能性が高い。
Figure 2007241902
本発明では、定めた票数の閾値を越える境界候補位置を境界として検出する。投票方式を導入することで、より確かな境界位置を判別できると共に、ある特定の分析区間長のみで検出される検出誤りを除去し、精度を上げる効果が期待できる。実際の投票には、表2のように、どの分割パターンでも一律で1票とするのではなく、分割パターンごとに1票の重みを変える。重みは、実験によって最適なものを求める。また、決定した重みを用いた投票方式による境界検出の精度の評価を行う。
F.階層構築
トピックには、章、節、項というように階層が存在する。この階層は、大きなトピックの中に、さらに複数のサブトピックが含まれていることを意味する。
従来の手法では、トピックの階層はテキスト分割において考慮されていないか、あるいは講義音声のように教科書が存在するものについては、テキスト分割結果と教科書の章、節、項のそれぞれの類似度を計算して割り振るという手法が行われている。
本発明では、トピックの階層構造を構築する手法として2つの手法を有する。第1の手法は、本発明の境界検出で用いる投票の閾値を変化させることでトピックの階層構築を行う。話題には粒度が存在する、投票による境界検出では、閾値を大きくするとより粒度の高い話題の境界のみが検出される。閾値を小さくしていくと、粒度の大きい話題の中から、さらに細かい粒度で話題の境界を検出することが出来る、すなわち、話題の粒度を変更しながらテキスト分割を行うことで話題の階層構築も行うことが出来る。この手法の特長は、テキスト分割と同時に階層の構築が可能なことである。
以下、この手法の階層構築手順を示す。
(a)投票の閾値を複数段階用意する。
(b)投票の閾値の高い値から低い値へ変化させながら境界検出を行う。
(c)閾値の高い時に検出された境界を上位の階層の境界とする。
(d)閾値を低くした時に検出された境界を 上位の階層に含まれる下位の階層の境界とする。
本発明における階層化の第2の手法は、テキスト分割したセグメント間の類似度を計算し、閾値によってクラスタリングを行うことで、この階層構造の構築を試みる。この手法では、トピックの階層決定に、もともと階層を持った正解のテキストデータを必要とせず、そのため、講義音声の転記のように教科書が存在しないデータについても適用できる。
階層構築の手順は以下の通りである。
(a)テキスト分割結果から トピックの境界位置を読み込む。
(b)読み込んだトピックの境界位置から トピックごとで分析区間を設ける。
(c)分析区間ごとにTFIDFで単語重要度の計算を行い、分析区間を表すトピックベクトルを作成する。
(d)隣接するトピックベクトル間で類似度を計算する。
(e)類似度が閾値以上である場合には分析区間を結合し、新たにトピックベクトルを作成する。
(f)結合した分析区間とその隣の分析区間でトピックベクトル間の類似度を計算する。
(g)それ以上結合が行われないか、分析区間の数が2つ以下になるまで上記手順(e)及び(f)を繰り返す。
G.本システムの実験
(1)実験条件
ここでは、実験結果から最良な境界検出手法を求め、各分析区間長の境界検出性能と、投票方式の境界検出性能の比較には、実験で求めた境界検出手法を用いる。また、投票に用いる重みとしては、どのようなパラメータが良いか評価実験を行う。このほか、作成したテキスト分割システムで、自動音声認識による転記と人手による転記のテキスト分割を行い、2つの比較を行う。テキスト分割の評価には、再現率、精度、F値を用いる。
「実験データ」
実験には、放送大学の講義音声を人手で転記した18件と音声認識で自動的に転記した5件を使用した。また、放送大学の教科書23件を使用した。尚、1件とは、1回分(約45分)の放送に対応する。
評価に用いる正解の境界として、教科書は章と節を用いた。転記と音声認識結果には、人手で境界を付与した。音声認識では、話者適用と言語モデルの適応を行った。
(2)境界検出方法の比較
分析区間どうしの類似度グラフから、境界位置を検出する方法として、以下の3つについて実験を行い比較する。
a)類似度を閾値処理して検出する。
b)極小点で検出する。
c)上記2つを組み合わせて使用する。
(3)類似度を閾値処理して検出
分析区間の長さが変化すると類似度も変わる。そのため、本発明では、複数の長さの分析区間を用意するために、閾値を一定の値に固定すると言うことは出来ない。そこで、各分析区間ごとの平均類似度に全分析区間長共通の係数をかけたものを閾値とした。係数の値を01〜10まで変化させて、各分析区間長の精度(Precision:以下P)、再現率(Recall:以下R)、F−measure(以下F)の値の変化を調べる。結果を表3から表11に示す。
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
尚、本発明では、検出した境界位置が、正解の境界の前後1文以内であれば正解とした。
(4)極小点で検出
トピックが変化する場所では、分析区間どうしの類似度は小さくなり、トピックが変化した後では、徐々に類似度が高くなる。最終的に類似度グラフは、1つのトピックで1つの山を描く。
しかし、実際の類似度の変化を見ると、トピックが変化する場所では必ずしも極小点となるわけではなく、類似度がいくつかの境界候補の点で低い状態が続くことがある。これは、トピックが徐々に変化する場合には2つの異なるトピックの混在する区間があるためと考えられる。
そこで本発明では 単純に極小点となる場所だけを境界として検出するのではなく、次の2つのパターンを境界として検出する。Sは境界候補iについてその前後の分析区間どうしで計算した類似度である。Si−1,Si+1は、境界候補i−1,i+1について同様の計算を行った類似度である。
Figure 2007241902
Figure 2007241902
上記のパターンで、各分析区間の境界検出を行った結果を表12に示す。
Figure 2007241902
(5)極小点と類似度の閾値処理の組み合わせで検出
次に、上記2つを組み合わせて境界の検出を行う。組み合わせた条件は、次の通りである。
Figure 2007241902
Figure 2007241902
係数の値を01〜10まで変化させ、各分析区間の境界検出性能を評価した。結果を表13〜22までに示す。
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
Figure 2007241902
(6)最適な境界検出条件
表2から表2の結果を見ると、全ての分析区間長で、極小点のみで境界を検出した場合が最も良いテキスト分割性能となることが分かった。
類似度による閾値処理では 閾値を変化させても、精度は最大で0332であった。また、閾値の係数の01と10の位置で比較しても、精度の差は01前後である。
閾値を低くしてもまた高くしても精度に差が見られないことから境界検出の条件として類似度の閾値は適切ではないと言える。
類似度による閾値処理と極小点での検出を組み合わせた場合でも、極小点のみで検出した場合に比べてテキスト分割性能が低下している。これより1つ前のトピックとその次のトピックが内容的に近い場合には、類似度は一時的に下がり極小点は存在するものの類似度そのものは文書全体の平均より高い場合があることを意味している。
実験に使ったデータは放送大学の転記および教科書である1つのテーマ(ここでは教科書の章など)に沿って話されている。このような文書からトピックの境界を検出する場合、トピックどうしが内容的に近く、類似度が全体的に高くなってしまうことが考えられる。そのため類似度による閾値処理は実験で使用したデータに対し適切ではなく極小点で検出する方法がベストであると言える。
H.投票方式の境界検出性能
各分析区間の境界検出の結果から 投票によってさらに境界を絞り込む。本発明の投票では、各分析区間長ごとで票に重みをつける。この重みは各分析区間長で検出された境界の確かさを表すように設定する。すなわち境界検出性能の高い分析区間長で検出された境界位置はより多くの票として逆に境界検出性能の低い分析区間長で検出された境界位置は少ない票として計算される。
票の重みに用いられるパラメータとして次のつが考えられる。
その第1は、各分析区間長のF−measureであり、その第2は、各分析区間長の精度である。
この2つのパラメータのうち、どちらのパラメータが適切であるか、以下で実験的に求める。各分析区間長の精度F−measureは極小点による境界検出方法で求める。
(1)投票方式の境界検出性能
投票に用いる重みに各分析区間長のF値を用いて実験を行う。評価方法にはテストデータに偏りがあった場合に起こる結果の誤りを防止するために交差検定を用いる。
まず教科書23件を11件と12件の2つに分け、一方をテストデータ、他方を訓練データとする。訓練データで境界検出を行った時のF値を投票の重みとして、テストデータで学習した重みによる境界検出を行う。次にテストデータと訓練データを入れ替えてもう一度実験を行い2回の実験結果の平均を取って教科書データを対象とした時の投票による境界検出の評価とする。教科書と同様に転記についても9件ずつに分け交差検定を行う。
実験に使用する分析区間長は1〜10までの10通りである。閾値は各分析区間の数(10)×係数とした。係数は01〜10の範囲で変化させる。境界検出は各境界候補ごとに集まった票数が閾値を超えたものを正しい境界として検出する。
教科書についての実験結果を表23転記についての実験結果を表24に示す。
Figure 2007241902
Figure 2007241902
(2)精度を重みに用いた場合
次に投票に用いる重みを各分析区間長の精度に変更して(1)と同様の交差検定を行う。教科書データでの実験結果を表25に転記データでの実験結果を表26に示す。
Figure 2007241902
Figure 2007241902
(3)投票方式の評価
表23、25を基に 教科書のデータに対して重み付けをF値とした場合と精度とした場合のそれぞれで
閾値を変化させながら境界検出を行った時の再現率と精度の変化を図4に示す
表24、表26を基に転記のデータに対して重み付けをF値とした場合と精度とした場合のそれぞれで、閾値を変化させながら境界検出を行った時の再現率と精度の変化を図5に示す。
図6及び図7を見ると、投票の閾値を変化させることで、界検出の精度と再現率を調整できると言うことが分かる。
表2の類似度による閾値処理での境界検出では 閾値を変化させても精度の上昇は投票による手法に比べ小さい。また極小点による検出ではそもそも閾値のように変化させられるパラメータがないため、精度と再現率の調整というようなことは行えない。
最適な重みについては重みとしてF値を使った場合と精度を使った場合とで大きな差は見られなかった。表12を見ると精度は分析区間長が1の時最も低くなり、分析区間長が大きくなるにつれて精度が上がっている。一方F値については分析区間長が変化すると、精度と再現率でトレードオフが起こるため
分析区間長が1から10まで変化してもF値の変化は精度と比べ小さい。そのためF値を重みに用いた場合、各分析区間長ごとで票に差が生まれなくなる可能性がある。
一方で表12では精度は分析区間長が大きくなるほど高くなっている。よって、分析区間長が長い時に検出した境界はより正解である可能性が高いと考えられる。
今回の実験では分析区間長を10までと限定したために 分析区間長の大きさが十分ではなかったと考えられそれによって2つの重み付けで差が見られなかったと考えられる。
テキストの話題には詳細度があるニュース番組における個々のニュースは明らかに話題がことなる。それに大して放送大学のような講義ではより細かな単位で話題が徐々に変化する。本手法は
投票に用いる閾値の設定によって分割すべき話題の詳細度に対応することが可能である。
(4)音声認識と人手による転記の比較
音声認識と人手による転記に対して投票によるテキスト分割を行った場合のF値を表27に示す。実験では音声認識と転記それぞれに最適な閾値を与えた。表27では転記のF値が005〜015ほど高くなった。しかし単語誤り率とF値の変化には特に関連がなかった。
Figure 2007241902
音声認識結果の5件と同講義の転記5件それぞれについて投票を行わなかった場合と行った場合の再現率、精度、F値を表28と表29に示す。「投票なし」と「投票あり」の手法は表1と同じである。
Figure 2007241902
Figure 2007241902
表28と表29で、「投票なし」と「投票あり」を比較すると「投票なし」の方がF値が005ほど高くなった。また、「投票なし」と「投票あり」で、表28と表29を比較すると、どちらも表29の方がF値が011ほど高くなった。このことから、投票方式は音声認識の結果に対しては有効でなかった。ただし、投票方式は音声認識結果に対して分析区間長を固定した場合のテキスト分割と同程度の頑健さを持つことが分かった。
I.テキスト分割実験の考察
表23乃至26では、閾値を一定幅で変化させた時に表12のF値を上回る場所は転記の係数03、04の位置だけであった。これは投票の境界検出に用いる閾値を全文書共通としたことが原因で実際の閾値の最適値は文書ごとで最適な閾値が異なっていることが考えられる。そこで各文書ごとに人手で最適な投票の閾値を求め再度テキスト分割実験を行った。
最適な閾値の実験では票の重みに各分析区間長の境界検出精度を用いた。最適な重み付けも文書ごとに異なるためここでは重みには各文書ごとでの精度を与えた。また、投票における境界検出の閾値も同様に文書ごとで個別に最適な値を与えた。その時の投票による境界検出の精度、再現率、F値を表30に示す。
Figure 2007241902
表30を見ると投票による重み付けにおいて文書ごとで最適な重みと最適な閾値が設定された場合では教科書転記それぞれで表12のどの分析区間長よりも高いF値となっていることが分かる。これより最適な閾値と重み付けを与えることで分析区間長の可変長化と投票による境界検出方法の組み合わせは従来問題であった分析区間の長さを決定すると言う点を解決するだけではなく、話題の境界検出においても投票が有効であると言える。
音声認識と人手による転記に対して投票によるテキスト分割を行った場合では人手による転記の方がF値が高くなった。しかし単語誤り率とF値の変化には関連が見られなかった。これについては今後実験データを増やしてさらに検討する必要がある。
J.階層構築実験
分割されたテキストから分割セグメント間の類似度を基に階層構造を構築できるか実験を行った。実験のアルゴリズムは、クラスタリング手法のとおりである。階層構築の評価としてテキスト分割の性能を考慮せずに階層構築の性能を見るため正解の境界位置が与えられた場合での階層構築実験とテキスト分割処理で検出した境界位置を利用した場合の階層構築実験を行う。階層構築の評価は精度、再現率、F値で示す。
(1)正解の境界位置を与えた場合の階層構築実験
構築した階層の精度と再現率、F値を求めた。表31に教科書データを対象とした場合における階層構築実験の精度と再現率、F値を、表32に転記データを対象とした場合における階層構築実験の精度と再現率、F値を示す。表の階層は数字の小さいものほど上位の階層であり、数字の大きなものは上位の話題に含まれる下位の話題である。精度と再現率、およびF値は検出した境界位置を基に分割したセグメントに対してクラスタリング処理を行い、そこで作成されたツリー構造の各ノードと話題の階層を対応づけて各階層の話題の境界位置と正解の階層の境界位置で計算した。
Figure 2007241902
Figure 2007241902
(2)システムの検出した境界位置を使用した階層構築実験
テキスト分割で検出された境界位置を用いて階層構築実験を行った。表33に教科書データを対象とした場合における階層構築実験の精度と再現率、F値を表34に転記データを対象とした場合における階層構築実験の精度と再現率、F値を示す。
Figure 2007241902
Figure 2007241902
(3)階層構築の考察
表28から表31を見ると、テキスト分割処理での境界検出誤りのない境界情報を用いた場合と、境界検出誤りを持つテキスト分割処理の結果を用いた場合とではF値で01から03ほどの差が見られた。
教科書を対象とした場合と転記を対象とした場合では 全体的に教科書を対象とした場合の方がF値が高い。教科書と転記では階層の深さが異なることから階層構築では深い階層を持つデータも正しい階層構築を行うことが難しいと言える。
また教科書、転記どちらを対象とした場合でも、階層1のF値は01〜02程度となった。全体的に見ても階層が低いものに比べて階層が上位になるとF値が落ちている。これより、階層が上位になるほど検出が難しいと言える。
以上詳しく説明したように、本発明に係るテキストデータ分割及び階層化システムは、分割対象のテキストデータの入力を受けて、当該テキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段11と、この分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段12と、隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段13と、前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段14と、を備え、前記テキストデータを構成する文を1文ずつ移動した分析区間に含まれる内容語の重要度を示すトピックベクトルを作成し、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するようにしたのである。そして、前記分析区間の長さを1つずつ増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、前記境界位置検出手段が、当該増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出するようにしたのである。
これにより、本システムは、テキストデータ内のトピックの内容に高精度に対応したテキストデータの分割及び階層化システムを可能にしたのである。
本発明は、複数のトピック又はテーマを含むテキストデータを当該複数のトピック又はテーマ毎に複数の境界に分割しその内容に応じて階層化するようにしたコンピュータを用いたテキストデータ分割システムに関するものであり、産業上の利用可能性を有する。
本発明のテキストデータ分割システムにおける可変長の分析区間を作成する概念図を示す。 可変長の分析区間を作成する例を示す。 投票による境界検出の例を示す。 トピックベクトルの作成過程の例を示す。 各区間長毎の類似度グラフの例を示す。 教科書データを対象とした境界検出の精度と再現率の例を示す。 転記データを対象とした境界検出の精度と再現率の例を示す。
符号の説明
10:本テキストデータ分割及び階層化システム
11:分析区間作成手段
12:トピックベクトル作成手段
13:類似度計算手段
14:境界位置検出手段
15:投書手段

Claims (16)

  1. 複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割システムであって、
    前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成する分析区間作成手段と、
    前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するトピックベクトル作成手段と、
    隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算する類似度計算手段と、
    前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出する境界位置検出手段と、を備え、
    前記分析区間作成手段は、前記テキストデータを構成する文を1文ずつ移動した分析区間を作成し、
    前記トピックベクトル作成手段は、当該移動した分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
    前記境界位置検出手段が、当該移動した分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、ことを特徴とするテキストデータ分割システム。
  2. 前記分析区間作成手段は、前記分析区間の長さを1つずつ増加させた分析区間を作成し、
    前記トピックベクトル作成手段は、当該増加させた分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
    前記境界位置検出手段が、当該増加させた分析区間のトピックベクトルの類似度の変化に基づいて前記複数のトピックの境界位置を検出する、
    ようにした分析区間長を可変としたことを特徴とする請求項1に記載のテキストデータ分割システム。
  3. 前記境界位置検出手段が検出した前記複数の境界位置の確かさを予め設定された閾値に基づいて計算する投票手段をさらに備え、当該投票手段によって前記テキストデータの最終的な境界位置を確定させることを特徴とする請求項1又は2に記載のテキストデータ分割システム。
  4. 前記投票手段は、前記閾値を複数段階設定し、前記境界位置検出手段が検出した前記複数の境界位置を、当該閾値の高い値から低い値に変化させながら確定させることにより、前記テキストデータの分析区間の階層化を行うことを特徴とする請求項1乃至3の何れかの項に記載のテキストデータ分割システム。
  5. 前記分析区間作成手段は、前記境界位置検出手段による前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定し、
    前記トピックベクトル作成手段は、当該トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成し、
    前記境界位置検出手段は、トピック毎の分析区間のトピックベクトルの類似度を計算し、
    前記トピックベクトル作成手段は、前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、
    前記境界位置検出手段は、前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する、
    ことにより、前記テキストデータの分析区間の階層化を行うことを特徴とする請求項1乃至3の何れかの項に記載のテキストデータ分割システム。
  6. 前記トピックベクトル作成手段は、前記結合した分析区間が2つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成し、
    前記境界位置検出手段は、前記新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算する、
    ことを特徴とする請求項5に記載のテキストデータ分割システム。
  7. 前記内容語の重要度を示すトピックベクトルは、数1
    Figure 2007241902
    における「i(t、w)×TFIDF」で表されることを特徴とする請求項1に記載のテキストデータ分割システム。
    但し、P(t、w)は、テキスト(t)中に内容語(w)が現れる確率、P(t)はテキスト(t)の確率を、P(w)は内容語(w)の確率を、それぞれ示す。
  8. 前記トピックベクトルの類似度は、数2
    Figure 2007241902
    のcosθで表されることを特徴とする請求項7に記載のテキストデータ分割システム。
  9. 前記境界位置検出手段は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより、前記複数のトピックの境界位置を検出することを特徴とする請求項1又は8に記載のテキストデータ分割システム。
  10. 複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、
    (a)前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、
    (b)前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
    (c)隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、
    (d)前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、
    (e)前記境界位置の確かさを計算するステップと、
    (f)前記テキストデータを構成する文を1文ずつ移動した分析区間を作成するステップと、
    (g)前記1文ずつ移動した分析区間内について前記ステップ(b)乃至(f)を繰り返すステップと、
    の各ステップを有することを特徴とするテキストデータ分割方法。
  11. (h)前記ステップ(a)において区分けされた分析区間の長さを1つずつ増加させた分析区間を作成するステップと、
    (i)前記ステップ(b)乃至(g)を繰り返すステップと、
    の各ステップを、さらに有する分析区間長を可変としたことを特徴とする請求項10に記載のテキストデータ分割方法。
  12. 複数のトピックを含むテキストデータを当該複数のトピックに対応する境界毎に分割するテキストデータの分割方法であって、
    (a)前記テキストデータを構成する夫々の文を最小単位とする分析区間を作成するステップと、
    (b)前記分析区間に含まれる複数の内容語に基づいて当該分析区間の特徴を表している語を抽出し、当該分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
    (c)隣接する2つの前記分析区間について前記トピックベクトルの類似度を計算するステップと、
    (d)前記分析区間のトピックベクトルの類似度の変化に基づいて、前記複数のトピックの境界位置を検出するステップ、を備え、
    (e)前記境界位置の確かさを計算するステップと、
    (f)前記テキストデータを構成する文を1文ずつ移動した分析区間を作成するステップと、
    (g)前記1文ずつ移動した分析区間内について前記ステップ(b)乃至(f)を繰り返すステップと、
    (h)前記作成された分析区間に基づく前記テキストデータの分割結果に基づいて前記トピック毎に前記分析区間を設定するステップと、
    (i)前記トピック毎の分析区間内に含まれる内容語の重要度を示すトピックベクトルを作成するステップと、
    (j)前記トピック毎の分析区間のトピックベクトルの類似度を計算するステップと、
    (k)前記類似度が予め設定された閾値以上である場合には前記分析区間を結合して当該結合した分析区間のトピックベクトルを作成するステップと、
    (l)前記結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、
    の各ステップを有することを特徴とするテキストデータの分割及び階層化方法。
  13. (m)前記ステップ(k)において前記分析区間を結合した分析区間が2つになるまで、前記類似度が予め設定された閾値以上である場合に分析区間を結合して当該結合した分析区間のトピックベクトルを作成する手段と、
    (n)新たに結合された分析区間と当該分析区間に隣接する分析区間の前記トピックベクトルの類似度を計算するステップと、
    の各ステップをさらに有することを特徴とする請求項12に記載のテキストデータ分割及び階層化方法。
  14. 前記内容語の重要度を示すトピックベクトルは、数1
    Figure 2007241902
    における「i(t、w)×TFIDF」で表されることを特徴とする請求項9に記載のテキストデータ分割方法又は請求項12に記載のテキストデータ分割及び階層化方法。
    但し、P(t、w)は、テキスト(t)中に内容語(w)が現れる確率、P(t)はテキスト(t)の確率を、P(w)は内容語(w)の確率を、それぞれ示す。
  15. 前記トピックベクトルの類似度は、数2
    Figure 2007241902
    のcosθで表されることを特徴とする請求項14に記載のテキストデータ分割方及び階層化方法。
  16. 前記ステップ(d)における前記テキストデータにおける前記複数のトピックの境界位置を検出は、前記分析区間のトピックベクトルの類似度の変化における極小点を検出することにより行われることを特徴とする請求項9に記載のテキストデータ分割方法又は請求項12に記載のテキストデータ分割及び階層化方法。
JP2006066716A 2006-03-10 2006-03-10 テキストデータの分割システム及びテキストデータの分割及び階層化方法 Pending JP2007241902A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006066716A JP2007241902A (ja) 2006-03-10 2006-03-10 テキストデータの分割システム及びテキストデータの分割及び階層化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006066716A JP2007241902A (ja) 2006-03-10 2006-03-10 テキストデータの分割システム及びテキストデータの分割及び階層化方法

Publications (1)

Publication Number Publication Date
JP2007241902A true JP2007241902A (ja) 2007-09-20

Family

ID=38587342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006066716A Pending JP2007241902A (ja) 2006-03-10 2006-03-10 テキストデータの分割システム及びテキストデータの分割及び階層化方法

Country Status (1)

Country Link
JP (1) JP2007241902A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009288870A (ja) * 2008-05-27 2009-12-10 Nec Corp 文書重要度算出システム、文書重要度算出方法およびプログラム
WO2010041420A1 (ja) * 2008-10-10 2010-04-15 日本電気株式会社 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
CN101808210A (zh) * 2009-02-18 2010-08-18 索尼公司 信息处理设备、信息处理方法和程序
JP2012059227A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 文書分割装置、文書処理システム、プログラム
JP5278425B2 (ja) * 2008-03-14 2013-09-04 日本電気株式会社 映像分割装置、方法及びプログラム
CN107229609A (zh) * 2016-03-25 2017-10-03 佳能株式会社 用于分割文本的方法和设备
US10055097B2 (en) 2014-03-10 2018-08-21 International Business Machines Corporation Grasping contents of electronic documents
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法
JP2020140464A (ja) * 2019-02-28 2020-09-03 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
CN114048734A (zh) * 2021-11-11 2022-02-15 四川启睿克科技有限公司 一种文本主题句的提取方法
CN117371440A (zh) * 2023-12-05 2024-01-09 广州阿凡提电子科技有限公司 基于aigc的话题文本大数据分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117019A (ja) * 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002117019A (ja) * 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> 意味的まとまりに基づいて文書を分割する装置および方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5278425B2 (ja) * 2008-03-14 2013-09-04 日本電気株式会社 映像分割装置、方法及びプログラム
JP2009288870A (ja) * 2008-05-27 2009-12-10 Nec Corp 文書重要度算出システム、文書重要度算出方法およびプログラム
WO2010041420A1 (ja) * 2008-10-10 2010-04-15 日本電気株式会社 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
US8510249B2 (en) 2008-10-10 2013-08-13 Nec Corporation Determining whether text information corresponds to target information
CN101808210A (zh) * 2009-02-18 2010-08-18 索尼公司 信息处理设备、信息处理方法和程序
JP2012059227A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 文書分割装置、文書処理システム、プログラム
US10055097B2 (en) 2014-03-10 2018-08-21 International Business Machines Corporation Grasping contents of electronic documents
CN107229609A (zh) * 2016-03-25 2017-10-03 佳能株式会社 用于分割文本的方法和设备
CN109902289A (zh) * 2019-01-23 2019-06-18 汕头大学 一种面向模糊文本挖掘的新闻视频主题分割方法
JP2020140464A (ja) * 2019-02-28 2020-09-03 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
JP7148077B2 (ja) 2019-02-28 2022-10-05 日本電信電話株式会社 木構造解析装置、方法、及びプログラム
CN114048734A (zh) * 2021-11-11 2022-02-15 四川启睿克科技有限公司 一种文本主题句的提取方法
CN117371440A (zh) * 2023-12-05 2024-01-09 广州阿凡提电子科技有限公司 基于aigc的话题文本大数据分析方法及系统
CN117371440B (zh) * 2023-12-05 2024-03-12 广州阿凡提电子科技有限公司 基于aigc的话题文本大数据分析方法及系统

Similar Documents

Publication Publication Date Title
JP2007241902A (ja) テキストデータの分割システム及びテキストデータの分割及び階層化方法
US20200082808A1 (en) Speech recognition error correction method and apparatus
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
KR101498331B1 (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
US10834462B2 (en) System and method for context detection of objectionable speech in video
US8577155B2 (en) System and method for duplicate text recognition
US20090067719A1 (en) System and method for automatic segmentation of ASR transcripts
CN107180084B (zh) 词库更新方法及装置
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
US20030046073A1 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
JPWO2009084554A1 (ja) テキスト分割装置とテキスト分割方法およびプログラム
CN108021545B (zh) 一种司法文书的案由提取方法及装置
WO2008016102A1 (fr) dispositif de calcul de similarité et dispositif de recherche d&#39;informations
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN111324810A (zh) 一种信息过滤方法、装置及电子设备
Staš et al. Classification of heterogeneous text data for robust domain-specific language modeling
CN117669513B (zh) 一种基于人工智能的数据管理系统及方法
El Hannani et al. Evaluation of the effectiveness and efficiency of state-of-the-art features and models for automatic speech recognition error detection
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
JP5849960B2 (ja) 含意判定装置、方法、およびプログラム
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
JP2005234786A (ja) 映像キーワード抽出方法及び装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100326

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100622

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100823

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20101001