JP3925418B2 - Topic boundary determination apparatus and program - Google Patents

Topic boundary determination apparatus and program Download PDF

Info

Publication number
JP3925418B2
JP3925418B2 JP2003024476A JP2003024476A JP3925418B2 JP 3925418 B2 JP3925418 B2 JP 3925418B2 JP 2003024476 A JP2003024476 A JP 2003024476A JP 2003024476 A JP2003024476 A JP 2003024476A JP 3925418 B2 JP3925418 B2 JP 3925418B2
Authority
JP
Japan
Prior art keywords
division
word
vector
section
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003024476A
Other languages
Japanese (ja)
Other versions
JP2004234512A (en
Inventor
克人 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003024476A priority Critical patent/JP3925418B2/en
Publication of JP2004234512A publication Critical patent/JP2004234512A/en
Application granted granted Critical
Publication of JP3925418B2 publication Critical patent/JP3925418B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、トピック境界決定装置及びプログラムに係り、特に、複数の文もしくは、単語からなるテキストを意味的なまとまりの単位であるトピック区間に分割し、トピック間の境界を決定するトピック境界決定装置及びプログラムに関する。
【0002】
【従来の技術】
従来技術として、テキストをトピック単位に分割するHearst法がある(例えば、非特許文献1,非特許文献2参照。)。Hearst法では、テキストを単語に分割し、不要語を除去した後、各単語境界の前後に一定の単語数の単語列の窓をとり、各窓毎に窓に含まれる単語の出現頻度ベクトルをとり、前後の窓に対応するベクトル間の余弦測度を当該単語境界の結束度として計算する。結束度が極小となる単語境界あるいはその直近の文境界をトピック境界と認定する。
【0003】
また、形態素解析処理で得られた各単語に対応するベクトルを取得し、単語の境界の前後にある個数の集合である単語列をとり、各単語列を構成する単語のベクトルの情報から前後の単語列の類似尺度、または、距離尺度である単語列結束度を算出し、単語列結束度が類似尺度である場合、極小である単語境界を、距離尺度である場合、極大である単語境界を、テキストの意味段落の境界とする方法がある(特許文献1参照。)。
【0004】
【特許文献1】
特開2002−342324号公報
【0005】
【非特許文献1】
Hearst, M.A.: Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp.9-16 (1994).
【0006】
【非特許文献2】
Hearst, M.A.: TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages, Computational Linguistics, Vol.23, No.1, pp.33-64 (1997).
【0007】
【発明が解決しようとする課題】
しかしながら、上記従来のHearst法や単語ベクトルに基づく結束度を用いる方法においては、一定の大きさの窓を各単語境界の前後にとるが、トピック区間が窓幅よりも小さい場合、窓に対応するベクトルは、該トピックの意味を適切に表せず、結果として結束度も適切なものではないため、小さいトピック区間の検出が困難であるという問題がある。
【0008】
また、Hearst法や単語ベクトルに基づく結束度を用いる方法では、テキストの局所的な範囲でトピックの変わり目を判断しているため、大きなトピック区間も細かく分断されていくつかのトピック区間として検出されることがあり、大きなトピック区間の検出が困難であるという問題もある。
【0009】
本発明は、上記の点に鑑みなされたもので、小さなトピック区間と大きなトピック区間の双方の検出の精度を向上させることが可能なトピック境界決定装置及びプログラムを提供することを目的とする。
【0010】
【課題を解決するための手段】
図1は、本発明の原理構成図である。
【0011】
本発明(請求項1)は、テキストを意味的なまとまりの単位であるトピックに分割し、該トピック間の境界を決定するトピック境界決定装置であって、
テキストを形態素解析して、単語に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
概念ベースを検索することによって、形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
単語ベクトルの系列において、ある単語からまたは文から、それ以降のある単語または文までの範囲の単語ベクトルの系列である区間に対し、該区間内の単語ベクトルの重心ベクトルと各単語ベクトルとの間のユークリッド距離の自乗の和を含むコストを求め、任意の分割数に対し、該分割数の分割を構成する各区間のコストの和の最小値及び該最小値をとる分割を求める最小コスト分割取得手段と、からなる
【0013】
また、本発明(請求項2)は、分割数に対応する各区間のコストの和の最小値E は、分割数jに対して単調減少という理論の上で、最小値E に対する最小値E j−1 の比を求め、該比が所定の値以上となる最大の分割数jを求め、該最大の分割数jに対応した分割を最適な分割と認定する最適分割取得手段と、を更に合わせ持つ
【0014】
本発明(請求項3)は、請求項1または請求項2記載のトピック境界決定装置を構成する各手段としてコンピュータを機能させるトピック境界決定プログラムである。
【0015】
上記のように、本発明は、任意の区間列のクラスタ群としての妥当性をもとに最尤の分割を決定することを可能とする。本発明では、任意の区間を考慮しており、テキストの局所的な範囲も大局的な範囲も同時にみて判断を行うことにより、小さなトピック区間と大きなトピック区間の双方の検出の精度が向上する。
【0016】
【発明の実施の形態】
以下に、図面と共に本発明の実施の形態を説明する。
【0017】
は、本発明の一実施の形態におけるトピック境界決定装置の構成を示す。同図に示すトピック境界決定装置は、形態素解析部10、単語ベクトル取得部20、該念ベース30、最小コスト分割取得部40、最適分割取得部50から構成される。
【0018】
なお、形態素解析部10、単語ベクトル取得部20、最小コスト分割取得部40、最適分割取得部50は、CPU等の制御手段で行い、単語と対応付けられた単語ベクトル、計算されたコストを分割(区間)の組み合わせと対応付けて記憶手段に格納するものとする。
【0019】
形態素解析部10は、入力されたテキストを形態素解析して品詞付きの単語に分解する。形態素解析の結果得られた単語の内、付属語等の単語はトピック境界認定に無関係と考えられるので、形態素解析の後、このような不要語を削除してもよい。
【0020】
単語ベクトル取得部20は、各単語に対応して意味を示すベクトル値が格納されている概念ベース30を検索することにより、形態素解析部10で分解された単語に対する単語ベクトルを取得する。
【0021】
は、本発明の一実施の形態における概念ベース例を示す。同図に示す概念ベース30は、ハードディスク等の記憶手段に格納され、各単語毎に、f次元のベクトル値が付与されている。概念ベース30中の単語は、名詞や動詞、形容詞等の自立語である。概念ベース30における単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されている。
【0022】
概念ベースの例としては、特開平6−103315の「類似性判別装置」や、特開平7−302265の「類似性判別用データ精錬方法およびこの方法を実施する装置」で開示されているデータベースがある。
【0023】
また、Deerwesterの論文(Deerwester, S., Dumais, S.T., Furnas, G.W., Landauer, T.K., and Harshman, R.: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp.391-407(1990)) では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。Schutze の論文(Schutze,H.: Dimensions of Meaning, Proc. of Supercomputing '92,pp.786-796 (1992))では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分析により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。
【0024】
最小コスト分割取得部40は、単語ベクトルの系列において、ある単語または文から、それ以降のある単語または文までの範囲の単語ベクトルの系列である区間に対し、区間内の単語ベクトルの重心ベクトルと各単語ベクトルとの間のユークリッド距離の自乗の和等のコストを求め、任意の分割数に対し、当該分割数の分割を構成する各区間のコストの和の最小値及び当該最小値をとる分割を求める。また、最小値としては、一定の制約条件下における最小値を用いることもある。
【0025】
最適分割取得部50は、各分割数に対応する最小コスト値間の比を含む、各分割数に対応する最小コストに関係する値及び分割数が一定の条件を満足する分割を最適な分割と認定する。
【0026】
次に、上記の構成における動作を説明する。
【0027】
は、本発明の一実施の形態におけるトピック境界決定のフローチャートである。
【0028】
ステップ101) 形態素解析部10において、入力テキストを形態素解析して単語に分割する。形態素解析の結果得られた単語のうち、付属語等の単語は、トピック境界認定に無関係と考えられるので、形態素解析の後、このような不要語を削除してもよい。
【0029】
ステップ102) 単語ベクトル取得部20において、単語の意味を表現するベクトルが格納されている概念ベース30を検索し、形態素解析部10で得られた各単語に対応するベクトルを取得する。
【0030】
ステップ103) 最小コスト分割取得部40において、単語ベクトルの系列において、ある単語または文から、それ以降のある単語または文までの範囲の単語ベクトルの系列である区間に対し、区間内の単語ベクトルの重心ベクトルと各単語ベクトルとの間のユークリッド距離の自乗の和等のコストを求め、任意の分割数に対し、該分割数の分割を構成する各区間のコストの和の、または、一定の制約条件下における最小値及び該最小値をとる分割を求める。例えば、入力テキストの単語ベクトルの系列を、
w1 ,w2 ,…,wx …(数1)
とする。
【0031】
また、入力テキストの文の系列を、
s1 ,s2 ,…,sg …(数2)
とする。
【0032】
トピック境界は常に文境界であると仮定した場合、入力テキストを分割する任意の区間列は、文番号1≦h≦gの分割
T1 =(1,2,…,n2 −1),
T2 =(n2 ,n2 +1,…,n3 −1),


Ti =(ni ,ni +1,…,ni+1 −1),


Tj =(nj ,nj +1,…,g) …(数3)
という形になる。各文sh は、単語ベクトルの系列
【0033】
【数1】

Figure 0003925418
から成り立っているものとする。
【0034】
ここで、トピック境界は文境界とは限らないと仮定したときは、上記の(数2)において各文を単語とみなせばよい。
【0035】
区間Ti =(ni ,ni +1,…,ni+1 −1)のコストc(ni ,ni+1 −1)を、
【0036】
【数2】
Figure 0003925418
【0037】
【数3】
Figure 0003925418
と定義する。ここで、
【0038】
【数4】
Figure 0003925418
は、区間Ti 内の単語ベクトルの重心ベクトルであり、c(ni ,ni+1 −1)は、当該重心ベクトルと各単語ベクトルとの間のユークリッド距離の自乗和である。
【0039】
分割T1 ,T2 ,…,Tj のコストe(T1 ,T2 ,…,Tj )を、
【0040】
【数5】
Figure 0003925418
と定義する。各区間をクラスタとみたとき、e(Ti ,T2 ,…,Tj )は、いわゆるクラスタ内変動である。
【0041】
クラスタ内変動とクラスタ間変動の和は常に全変動に等しいという性質がある。ここでこのことについて説明する。
【0042】
全変動及びクラスタ間変動の算出は、本発明では必ずしも必要ではない。
【0043】
入力テキストの単語ベクトルの系列(数1)の全変動Aは、
【0044】
【数6】
Figure 0003925418
【0045】
【数7】
Figure 0003925418
と定義される。
【0046】
また、区間列(数3)のクラスタ間変動B(T1 ,T2 ,…,Tj )は、
【0047】
【数8】
Figure 0003925418
と定義される。
【0048】
任意の区間列(数3)に対し、
A=B(T1 ,T2 ,…,Tj )+e(T1 ,T2 ,…,Tj )
…(数10)
が成立する。
【0049】
全変動Aは一定であるので、クラスタ内変動e(T1 ,T2 ,…,Tj )が小さいほど、クラスタ間変動B(T1 ,T2 ,…,Tj )は大きくなり、各区間の間はクラスタとしてよく分離されているといえる。
【0050】
上記の(数10)の式から分かることは、ある区間列を更に細分割して得られる区間列のコストは、分割前の区間列のコスト以下となるということである。クラスタ内変動e(T1 ,T2 ,…,Tj )は、分割数が一つの場合(j=1)、最も大きく、各区間が一文の場合(j=g)、最も小さくなる。従って、クラスタ群として妥当かどうかは、分割数を固定した場合に意味がある。
【0051】
任意の分割数jに対し、分割数jの分割のコストの最小値及び当該最小値をとる分割を求める。
【0052】
文の系列s1 ,s2 ,…,sh (1≦h≦g)をq個に分割する分割で、最小のコストをとる分割をP(h,q)と表すことにする。
【0053】
P(h,q):T1 =(1,2,…,n2 −1),…,
Tq-1 =(nq-1 ,nq-1 +1,…,nq −1),
Tq =(nq ,nq +1,…,h) … (数11)
としたとき、区間列のコストは、各区間のコストの和なので、
P(nq −1,q−1):T1 =(1,2,…n2 −1),…,
Tq-1 =(nq-1 ,nq-1 +1,…nq −1)
…(数12)
となる。
【0054】
この性質を用いて、任意の分割数jに対し、P(g,j)及びe(P(g,j))を、以下のダイナミック・プログラミングで効率的に求めることができる。
(1) 1≦r≦s≦gなる全てのr,に対して、区間(r,r+1,…,s)のコストC(r,s)を計算する。
【0055】
(2) e(P(h,2))(2≦h≦g)を、
【0056】
【数9】
Figure 0003925418
として求める。
【0057】
【数10】
Figure 0003925418
として記憶しておく。
【0058】
(3) 分割数3≦q≦gに対し、e(P(h,q))(q≦h≦g)を、
【0059】
【数11】
Figure 0003925418
として求める。
【0060】
【数12】
Figure 0003925418
として記憶しておく。
【0061】
(4) 分割数2≦j≦gに対し、分割P(g,j)を求める。
【0062】
P(h,2)=(1,…,th,2 −1),(th,2 ,…,h)(2≦h≦g)
…(数17)
P(h,q)=p(th,q −1,q−1),(th,q ,…,h)
(3≦q≦g,q≦h≦g)
…(数18)
より求めようとする区間列の一番最後の区間の最初の文番号を取得できることから、分割P(g,j)の区間列を得ることができる。
【0063】
ステップ104) 最適分割取得部50において、各分割数に対応する最小コスト値間の比を含む、各分割数に対応する最小コストに関係する値及び分割数が一定の条件を満足する分割を最適な分割と認定する。
【0064】
分割数jの最小コストe(P(g,j))をEj と表すことにする。上記の(数10)の式により、jが増えるにつれ、Ej は、単調減少していく。
【0065】
最適分割認定の一例として、Ej の平均をμ、標準偏差をσとしたときに、閾値α=μ+zσ(z:例えば、1.5)をとり、
【0066】
【数13】
Figure 0003925418
となるjで、最大のjに対応する分割P(g,j)を最適分割と認定する。
【0067】
最小コスト値の間の比
【0068】
【数14】
Figure 0003925418
は一般に、jが増えるにつれ単調減少していく傾向がある。分割がトピック分割とほぼ一致しているとき、それ以上分割数が増えてもコストは殆ど減少することなく変わらず、比の値は1に近くなる。最適分割認定の別の一例として、閾値α(α:例えば1.0005)をとり、Rj≧αとなるjで、最大のjに対応する分割P(g,j)を最適分割と認定する。
【0069】
また、別の一例として、Rj の平均をμ、標準偏差をσとしたときに、閾値α=μ+zσ(z:例えば0.8)をとり、
【0070】
【数15】
Figure 0003925418
となるjで、最大のjに対応する分割P(g,j)を最適分割と認定する。
【0071】
以上、一連の各過程の説明を行ったが、上記のステップ103において、区間Ti =(ni ,ni +1,…,ni+1 −1)のコストC(ni ,ni+1 −1)として、以下のように区間内の単語ベクトルのメディアン(各座標毎に中央値をとって得られるベクトル)と各単語ベクトルとの間のマンハッタン距離(各座標毎に値の差の絶対値をとり、それを全ての座標にわたって足し合わせた値)の和をとることもできる。
【0072】
【数16】
Figure 0003925418
【0073】
【数17】
Figure 0003925418
また、上記のステップ103において、任意の分割数に対し、当該分割数で、コストが最小ではないが、一定の制約条件下で最小となる分割及びそのコストを、先に述べたダイナミック・プログラミングよりも短い時間で求めることができる。例えば、以下の(1)、(2)の方法が挙げられる。
【0074】
(1) 文番号列1≦h≦gを2分割するコスト最小の分割を求める。次に、先に2分割した分割位置は固定のまま、文番号列1≦h≦gを3分割するコスト最小の分割を求める。以降同様に、これまで得られた分割位置を固定したまま、1回分割してコストが最小となる分割を求めていく。
【0075】
(2) 文番号列1≦h≦gをg分割されたg個のクラスタとする。隣接する2個のクラスタを結合して1つのクラスタにすることによって、コストが最小となる分割を求める。以降同様に、これまで得られたクラスタは分割することなく、隣接する2個のクラスタを結合して1つのクラスタにすることによって、コストが最小となる分割を求めていく。
【0076】
なお、上記の形態素解析、単語ベクトル取得、コスト計算、分割取得等の処理をプログラムとして構築し、当該プログラムを通信回線または、記憶媒体からインストールし、CPU等の制御手段で実施することが可能である。
【0077】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
【0078】
【発明の効果】
上述のように、本発明によれば、任意の区間列のクラスタ群としての妥当性をもとに最尤の分割を決定し、また、任意の区間を考慮しており、テキストの局所的な範囲も大局的な範囲も同時にみて判断行うことにより、小さなトピック区間と大きなトピック区間の双方の検出の精度が向上する。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施の形態におけるトピック境界決定装置の構成図である。
【図3】本発明の一実施の形態における概念ベースの例である。
【図4】本発明の一実施の形態におけるトピック境界決定のフローチャートである。
【符号の説明】
10 形態素解析手段、形態素解析部
20 単語ベクトル取得手段、単語ベクトル取得部
30 概念ベース
40 最小コスト分割取得手段、最小コスト分割取得部
50 最適分割取得手段、最適分割取得部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a topic boundary determination apparatus and program, particularly, a plurality of sentences or to divide the text consisting of words semantic topic section is a unit of unity, the topic boundary determination apparatus for determining a boundary between topics And programs .
[0002]
[Prior art]
As a conventional technique, there is a Hearst method in which text is divided into topic units (for example, see Non-Patent Document 1 and Non-Patent Document 2). In the Hearst method, text is divided into words, unnecessary words are removed, a window of word strings with a certain number of words is taken before and after each word boundary, and the appearance frequency vector of the words included in the window is calculated for each window. Then, the cosine measure between the vectors corresponding to the front and back windows is calculated as the cohesion degree of the word boundary. The word boundary where the cohesion degree is minimized or the sentence boundary nearest to it is recognized as the topic boundary.
[0003]
Also, a vector corresponding to each word obtained by the morphological analysis processing is acquired, a word string that is a set of numbers before and after the boundary of the word is taken, and information on the vectors of words constituting each word string When the word string cohesion is calculated as the similarity measure of the word string or the distance measure, if the word string cohesion is the similarity measure, the word boundary that is the minimum is calculated, and if the word string is the distance measure, the word boundary that is the maximum is calculated. , There is a method of making the meaning paragraph boundary of the text (see Patent Document 1).
[0004]
[Patent Document 1]
Japanese Patent Laid-Open No. 2002-342324
[Non-Patent Document 1]
Hearst, MA: Multi-Paragraph Segmentation of Expository Text, 32nd Annual Meeting of the Association for Computational Linguistics, pp. 9-16 (1994).
[0006]
[Non-Patent Document 2]
Hearst, MA: TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages, Computational Linguistics, Vol.23, No.1, pp.33-64 (1997).
[0007]
[Problems to be solved by the invention]
However, in the conventional Hearst method and the method using the degree of cohesion based on the word vector, a window with a certain size is taken before and after each word boundary, but if the topic interval is smaller than the window width, it corresponds to the window. The vector does not appropriately represent the meaning of the topic, and as a result, the degree of cohesion is not appropriate, so that there is a problem that it is difficult to detect a small topic section.
[0008]
Also, in the Hearst method and the method using the cohesion degree based on the word vector, the topic change is judged in the local range of the text, so the large topic section is also divided into small sections and detected as several topic sections. There is also a problem that it is difficult to detect a large topic section.
[0009]
The present invention has been made in view of the above points, and an object of the present invention is to provide a topic boundary determination apparatus and program capable of improving the accuracy of detection of both small topic sections and large topic sections.
[0010]
[Means for Solving the Problems]
FIG. 1 is a principle configuration diagram of the present invention.
[0011]
The present invention (Claim 1) is a topic boundary determination device that divides text into topics that are units of semantic units and determines boundaries between the topics ,
Morphological analysis means for analyzing the text and dividing it into words,
A concept base which is a storage means in which a vector expressing the meaning of a word is stored;
A word vector acquisition means for acquiring a vector corresponding to each word obtained by the morpheme analysis means by searching the concept base;
In a word vector series, for a section that is a series of word vectors ranging from a certain word or sentence to a certain word or sentence thereafter, between the centroid vector of the word vectors in the section and each word vector The cost including the sum of the squares of the Euclidean distance is obtained, and the minimum cost division acquisition for obtaining the minimum value of the cost sum of each section constituting the division of the division number and the division taking the minimum value for the arbitrary division number Means .
[0013]
Further, the present invention (Claim 2), the minimum value E j of the sum of the cost of each section corresponding to the number of divisions, on the theory that monotonically decreases with respect to the division number j, the minimum value to the minimum value E j An optimum division acquisition unit that obtains a ratio of E j−1 , obtains a maximum division number j at which the ratio is equal to or greater than a predetermined value, and certifies a division corresponding to the maximum division number j as an optimum division; In addition, have it together .
[0014]
The present invention (Claim 3) is a topic boundary determination program for causing a computer to function as each means constituting the topic boundary determination apparatus according to Claim 1 or Claim 2.
[0015]
As described above, the present invention makes it possible to determine the maximum likelihood division based on the validity of a cluster group of an arbitrary section sequence. In the present invention, an arbitrary section is taken into consideration, and the accuracy of detection of both a small topic section and a large topic section is improved by making a determination while simultaneously viewing a local range and a global range of text.
[0016]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings.
[0017]
Figure 2 shows the structure of a topic boundary determination apparatus according to an embodiment of the present invention. The topic boundary determination apparatus shown in FIG. 1 includes a morphological analysis unit 10, a word vector acquisition unit 20, a case base 30, a minimum cost division acquisition unit 40, and an optimal division acquisition unit 50.
[0018]
The morphological analysis unit 10, the word vector acquisition unit 20, the minimum cost division acquisition unit 40, and the optimal division acquisition unit 50 are performed by a control unit such as a CPU, and divide the word vector associated with the word and the calculated cost. Assume that it is stored in the storage means in association with the combination of (section).
[0019]
The morpheme analysis unit 10 performs morphological analysis on the input text and breaks it down into words with parts of speech. Of the words obtained as a result of the morphological analysis, words such as attached words are considered to be irrelevant to the topic boundary recognition. Therefore, such unnecessary words may be deleted after the morphological analysis.
[0020]
The word vector acquisition unit 20 acquires a word vector for the word decomposed by the morpheme analysis unit 10 by searching the concept base 30 in which a vector value indicating meaning is stored corresponding to each word.
[0021]
FIG. 3 shows an example of a concept base in an embodiment of the present invention. The concept base 30 shown in the figure is stored in storage means such as a hard disk, and an f-dimensional vector value is assigned to each word. The words in the concept base 30 are independent words such as nouns, verbs, and adjectives. The word vectors in the concept base 30 are set such that the distance between words that are semantically similar is closer, and the distance between words that are not semantically similar is longer.
[0022]
Examples of the concept base include the databases disclosed in “Similarity Discriminating Device” of Japanese Patent Laid-Open No. 6-103315 and “Data Refining Method for Similarity Discrimination and Device for Implementing this Method” of Japanese Patent Laid-Open No. 7-302265. is there.
[0023]
Also, Deerwester's paper (Deerwester, S., Dumais, ST, Furnas, GW, Landauer, TK, and Harshman, R .: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp.391-407 ( 1990)) converts the co-occurrence matrix between words and documents that records the frequency of word documents into a matrix whose dimensionality is reduced by singular value decomposition. This converted matrix is also an example of a concept base. It is. In Schutze's paper (Schutze, H .: Dimensions of Meaning, Proc. Of Supercomputing '92, pp. 786-796 (1992)) The matrix is converted to a matrix with a reduced number of dimensions by singular value analysis, and this converted matrix is also an example of a concept base.
[0024]
The minimum cost division acquisition unit 40 obtains a centroid vector of word vectors in a section for a section that is a series of word vectors ranging from a certain word or sentence to a certain word or sentence thereafter in the word vector series. The cost, such as the sum of squares of the Euclidean distance between each word vector, is obtained, and for any number of divisions, the minimum sum of the costs of each section constituting the division of the division number and the division that takes the minimum value Ask for. Moreover, as the minimum value, the minimum value under a certain constraint condition may be used.
[0025]
The optimal division acquisition unit 50 includes a value related to the minimum cost corresponding to each division number, including a ratio between the minimum cost values corresponding to each division number, and a division that satisfies a certain condition of the division number as an optimal division. Authorize.
[0026]
Next, the operation in the above configuration will be described.
[0027]
FIG. 4 is a flowchart of topic boundary determination in one embodiment of the present invention.
[0028]
Step 101) In the morpheme analysis unit 10, the input text is morphologically analyzed and divided into words. Of the words obtained as a result of the morphological analysis, words such as attached words are considered to be irrelevant to the topic boundary recognition. Therefore, such unnecessary words may be deleted after the morphological analysis.
[0029]
Step 102) The word vector acquisition unit 20 searches the concept base 30 in which a vector representing the meaning of the word is stored, and acquires a vector corresponding to each word obtained by the morpheme analysis unit 10.
[0030]
Step 103) In the minimum cost division acquisition unit 40, in the word vector series, the word vector in the section is compared with the section that is a series of word vectors ranging from a certain word or sentence to a certain word or sentence thereafter. The cost, such as the sum of squares of the Euclidean distance between the centroid vector and each word vector, is obtained, and for any number of divisions, the sum of the costs of each section constituting the division of the division number or a certain constraint The minimum value under the condition and the division that takes the minimum value are obtained. For example, a sequence of word vectors of input text
w1, w2, ..., wx ... (Equation 1)
And
[0031]
In addition, the sentence series of the input text,
s1, s2, ..., sg ... (Equation 2)
And
[0032]
Assuming that the topic boundary is always a sentence boundary, an arbitrary interval sequence for dividing the input text is a division of sentence number 1 ≦ h ≦ g T 1 = (1, 2,..., N 2 −1),
T2 = (n2, n2 + 1,..., N3-1),


Ti = (ni, ni + 1,..., Ni + 1-1),


Tj = (nj, nj + 1,..., G) (Equation 3)
It becomes the form. Each sentence sh is a sequence of word vectors.
[Expression 1]
Figure 0003925418
It shall consist of
[0034]
Here, when it is assumed that the topic boundary is not necessarily a sentence boundary, each sentence may be regarded as a word in the above (Equation 2).
[0035]
The cost c (ni, ni + 1 −1) of the section Ti = (ni, ni + 1,..., Ni + 1−1) is
[0036]
[Expression 2]
Figure 0003925418
[0037]
[Equation 3]
Figure 0003925418
It is defined as here,
[0038]
[Expression 4]
Figure 0003925418
Is the centroid vector of the word vector in the section Ti, and c (ni, ni + 1 −1) is the square sum of the Euclidean distance between the centroid vector and each word vector.
[0039]
The cost e (T1, T2,..., Tj) of the divisions T1, T2,.
[0040]
[Equation 5]
Figure 0003925418
It is defined as When each section is regarded as a cluster, e (Ti, T2,..., Tj) is a so-called intracluster fluctuation.
[0041]
The sum of intra-cluster variation and inter-cluster variation is always equal to the total variation. This will be described here.
[0042]
Calculation of total variation and inter-cluster variation is not necessarily required in the present invention.
[0043]
The total variation A of the word vector series (Equation 1) of the input text is
[0044]
[Formula 6]
Figure 0003925418
[0045]
[Expression 7]
Figure 0003925418
Is defined.
[0046]
In addition, the inter-cluster variation B (T1, T2,..., Tj) of the interval sequence (Equation 3) is
[0047]
[Equation 8]
Figure 0003925418
Is defined.
[0048]
For any interval sequence (Equation 3)
A = B (T1, T2,..., Tj) + e (T1, T2,..., Tj)
... (10)
Is established.
[0049]
Since the total variation A is constant, the smaller the intra-cluster variation e (T1, T2,..., Tj) is, the larger the intercluster variation B (T1, T2,..., Tj) is. It can be said that they are well separated.
[0050]
What can be understood from the above equation (10) is that the cost of the section sequence obtained by further subdividing a section sequence is equal to or lower than the cost of the section sequence before the division. The intra-cluster variation e (T1, T2,..., Tj) is the largest when the number of divisions is one (j = 1), and the smallest when each section is one sentence (j = g). Therefore, whether or not the cluster group is valid is meaningful when the number of divisions is fixed.
[0051]
For an arbitrary division number j, a minimum value of the division cost of the division number j and a division that takes the minimum value are obtained.
[0052]
The sentence sequence s1, s2,..., Sh (1 ≦ h ≦ g) is divided into q pieces, and the division that takes the minimum cost is represented as P (h, q).
[0053]
P (h, q): T1 = (1, 2, ..., n2 -1), ...,
Tq-1 = (nq-1, nq-1 +1,..., Nq-1),
Tq = (nq, nq + 1,..., H) (Equation 11)
, The cost of the interval column is the sum of the costs of each interval,
P (nq-1, q-1): T1 = (1, 2, ... n2 -1), ...,
Tq-1 = (nq-1, nq-1 + 1,... Nq-1)
(Equation 12)
It becomes.
[0054]
Using this property, P (g, j) and e (P (g, j)) can be efficiently obtained by the following dynamic programming for an arbitrary division number j.
(1) with respect to 1 ≦ r ≦ s ≦ g becomes all r, s, interval (r, r + 1, ... , s) cost C (r, s) of computing the.
[0055]
(2) e (P (h, 2)) (2 ≦ h ≦ g)
[0056]
[Equation 9]
Figure 0003925418
Asking.
[0057]
[Expression 10]
Figure 0003925418
Remember as.
[0058]
(3) For the number of divisions 3 ≦ q ≦ g, e (P (h, q)) (q ≦ h ≦ g) is
[0059]
## EQU11 ##
Figure 0003925418
Asking.
[0060]
[Expression 12]
Figure 0003925418
Remember as.
[0061]
(4) For the number of divisions 2 ≦ j ≦ g, obtain a division P (g, j).
[0062]
P (h, 2) = (1,..., Th, 2 −1), (th, 2,..., H) (2 ≦ h ≦ g)
... (Equation 17)
P (h, q) = p (th, q−1, q−1), (th, q,..., H)
(3 ≦ q ≦ g, q ≦ h ≦ g)
... (Equation 18)
Since the first sentence number of the last section of the section string to be obtained can be acquired, the section string of the division P (g, j) can be obtained.
[0063]
Step 104) The optimum division acquisition unit 50 optimizes the division that satisfies the condition that the value related to the minimum cost corresponding to each division number and the division number satisfy a certain condition, including the ratio between the minimum cost values corresponding to each division number. Qualify as a split.
[0064]
The minimum cost e (P (g, j)) of the division number j is expressed as Ej. According to the above equation (Equation 10), as j increases, Ej decreases monotonously.
[0065]
As an example of the optimum division certification, when the average of Ej is μ and the standard deviation is σ, a threshold α = μ + zσ (z: for example, 1.5) is taken,
[0066]
[Formula 13]
Figure 0003925418
The division P (g, j) corresponding to the largest j is recognized as the optimal division.
[0067]
Ratio between minimum cost values [0068]
[Expression 14]
Figure 0003925418
Generally has a tendency to monotonously decrease as j increases. When division is substantially equal to the topic division, cost does not change without decline etc.殆be more number of divisions increases, the value of the ratio is close to 1. As another example of the optimum division recognition, a threshold value α (α: for example 1.0005) is taken, and the division P (g, j) corresponding to the maximum j with j satisfying Rj ≧ α is recognized as the optimum division.
[0069]
As another example, when the average of Rj is μ and the standard deviation is σ, a threshold α = μ + zσ (z: 0.8, for example) is taken,
[0070]
[Expression 15]
Figure 0003925418
The division P (g, j) corresponding to the largest j is recognized as the optimal division.
[0071]
The series of processes has been described above. In step 103, the cost C (ni, ni + 1-1) of the section Ti = (ni, ni + 1,..., Ni + 1-1) is The Manhattan distance between the word vector median (vector obtained by taking the median value for each coordinate) and each word vector (the absolute value of the value difference for each coordinate is It is also possible to take the sum of the values of all the coordinates.
[0072]
[Expression 16]
Figure 0003925418
[0073]
[Expression 17]
Figure 0003925418
Further, in the above-described step 103, for any number of divisions, the number of divisions and the cost that is not the minimum but the minimum under certain constraint conditions and the costs thereof are determined by the dynamic programming described above. Can be obtained in a short time. For example, the following methods (1) and (2) may be mentioned.
[0074]
(1) Find the lowest cost division that divides sentence number sequence 1 ≦ h ≦ g into two. Next, the division with the minimum cost for dividing the sentence number sequence 1 ≦ h ≦ g into three is obtained while the division position divided into two is fixed. Thereafter, similarly, the division position obtained so far is fixed, and the division with the lowest cost is obtained by dividing once.
[0075]
(2) Assume that the sentence number string 1 ≦ h ≦ g is g-divided into g clusters. By combining two adjacent clusters into one cluster, a division with the lowest cost is obtained. Similarly, the cluster obtained so far is not divided, but two adjacent clusters are combined into one cluster to obtain a division with the minimum cost.
[0076]
It is possible to construct the above morphological analysis, word vector acquisition, cost calculation, division acquisition, etc. as a program, install the program from a communication line or a storage medium, and implement it by a control means such as a CPU. is there.
[0077]
The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
[0078]
【The invention's effect】
As described above, according to the present invention, the maximum likelihood division is determined based on the validity of an arbitrary section sequence as a cluster group, and an arbitrary section is considered, and the local text By making the determination while simultaneously viewing the range and the global range, the accuracy of detection of both the small topic section and the large topic section is improved.
[Brief description of the drawings]
FIG. 1 is a principle configuration diagram of the present invention.
FIG. 2 is a configuration diagram of a topic boundary determination device according to an embodiment of the present invention.
FIG. 3 is an example of a concept base in an embodiment of the present invention.
FIG. 4 is a flowchart of topic boundary determination in an embodiment of the present invention.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 10 Morphological analysis means, Morphological analysis part 20 Word vector acquisition means, Word vector acquisition part 30 Concept base 40 Minimum cost division acquisition means, Minimum cost division acquisition part 50 Optimal division acquisition means, Optimal division acquisition part

Claims (3)

テキストを意味的なまとまりの単位であるトピックに分割し、該トピック間の境界を決定するトピック境界決定装置であって、
前記テキストを形態素解析して、単語に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
前記概念ベースを検索することによって、前記形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
単語ベクトルの系列において、ある単語からまたは文から、それ以降のある単語または文までの範囲の単語ベクトルの系列である区間に対し、該区間内の単語ベクトルの重心ベクトルと各単語ベクトルとの間のユークリッド距離の自乗の和を含むコストを求め、任意の分割数に対し、該分割数の分割を構成する各区間のコストの和の最小値及び該最小値をとる分割を求める最小コスト分割取得手段と、
からなることを特徴とするトピック境界決定装置。
A topic boundary determination device that divides a text into topics that are units of semantic units and determines a boundary between the topics,
Morphological analysis means for analyzing the text and dividing it into words,
A concept base which is a storage means in which a vector expressing the meaning of a word is stored;
Word vector acquisition means for acquiring a vector corresponding to each word obtained by the morpheme analysis means by searching the concept base;
In a word vector series, for a section that is a series of word vectors ranging from a certain word or sentence to a certain word or sentence thereafter, between the centroid vector of the word vectors in the section and each word vector seeking costs, including the sum of the squares of the Euclidean distances, for any division number, minimum cost division seeking division taking the minimum value and the outermost small value of the sum of the cost of each section constituting the division of the number of divisions Acquisition means;
A device for determining a topic boundary, comprising:
分割数に対応する各区間のコストの和の最小値EMinimum value E of the cost sum of each section corresponding to the number of divisions j は、分割数jに対して単調減少という理論の上で、最小値EIs the minimum value E on the theory of monotonically decreasing with respect to the division number j. j に対する最小値EMinimum value E for j−1j-1 の比を求め、該比が所定の値以上となる最大の分割数jを求め、該最大の分割数jに対応した分割を最適な分割と認定する最適分割取得手段と、Optimal division obtaining means for obtaining a ratio of the maximum division number j for which the ratio is equal to or greater than a predetermined value, and certifying a division corresponding to the maximum division number j as an optimum division;
を更に合わせ持つHave more
請求項1記載のトピック境界決定装置。The topic boundary determination apparatus according to claim 1.
請求項1または請求項2記載のトピック境界決定装置を構成する各手段としてコンピュータを機能させるトピック境界決定プログラム。 A topic boundary determination program for causing a computer to function as each means constituting the topic boundary determination apparatus according to claim 1 .
JP2003024476A 2003-01-31 2003-01-31 Topic boundary determination apparatus and program Expired - Lifetime JP3925418B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003024476A JP3925418B2 (en) 2003-01-31 2003-01-31 Topic boundary determination apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003024476A JP3925418B2 (en) 2003-01-31 2003-01-31 Topic boundary determination apparatus and program

Publications (2)

Publication Number Publication Date
JP2004234512A JP2004234512A (en) 2004-08-19
JP3925418B2 true JP3925418B2 (en) 2007-06-06

Family

ID=32952999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003024476A Expired - Lifetime JP3925418B2 (en) 2003-01-31 2003-01-31 Topic boundary determination apparatus and program

Country Status (1)

Country Link
JP (1) JP3925418B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012247834A (en) * 2011-05-25 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> Document division scoring device, method, and program

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2006255181A1 (en) * 2005-06-06 2006-12-14 The Regents Of The University Of California Relationship networks
JPWO2009078183A1 (en) * 2007-12-19 2011-04-28 日本電気株式会社 Document segmentation system
JP2011159100A (en) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> Successive similar document retrieval apparatus, successive similar document retrieval method and program
JP6210934B2 (en) * 2014-05-26 2017-10-11 日本電信電話株式会社 Topic conversion detection device, method, and program
JP6215137B2 (en) * 2014-05-26 2017-10-18 日本電信電話株式会社 Dialog division apparatus, method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012247834A (en) * 2011-05-25 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> Document division scoring device, method, and program

Also Published As

Publication number Publication date
JP2004234512A (en) 2004-08-19

Similar Documents

Publication Publication Date Title
KR101201037B1 (en) Verifying relevance between keywords and web site contents
JP4726528B2 (en) Suggested related terms for multisense queries
US7565361B2 (en) Method and system for lexical mapping between document sets having a common topic
EP1801714B1 (en) Generation of descriptions for classes and clusters of documents
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
Vani et al. Using K-means cluster based techniques in external plagiarism detection
JP2009514076A (en) Computer-based automatic similarity calculation system for quantifying the similarity of text expressions
JP2014120053A (en) Question answering device, method, and program
JP2023551418A (en) Method and system for reuse of data item fingerprints in the generation of semantic maps
JP2006338342A (en) Word vector generation device, word vector generation method and program
JP5565568B2 (en) Information recommendation device, information recommendation method and program
JP2005122510A (en) Topic structure extracting method and device and topic structure extracting program and computer-readable storage medium with topic structure extracting program recorded thereon
JP4325370B2 (en) Document-related vocabulary acquisition device and program
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
JP2006331245A (en) Information retrieval device, information retrieval method and program
JP3925418B2 (en) Topic boundary determination apparatus and program
JP3921837B2 (en) Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method
Claveau et al. Topic segmentation of TV-streams by watershed transform and vectorization
Kashefi et al. Optimizing Document Similarity Detection in Persian Information Retrieval.
Ribeiro et al. Self reinforcement for important passage retrieval
JP4906123B2 (en) Document classification apparatus, document classification method, program, and recording medium
TW201619853A (en) Method and system for filtering search result
JP3775239B2 (en) Text segmentation method and apparatus, text segmentation program, and storage medium storing text segmentation program
KR100837797B1 (en) Method for automatic construction of acronym dictionary based on acronym type, Recording medium thereof and Apparatus for automatic construction of acronym dictionary based on acronym type
JP4175093B2 (en) Topic boundary determination method and apparatus, and topic boundary determination program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070219

R150 Certificate of patent or registration of utility model

Ref document number: 3925418

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term