JP4333318B2 - 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 - Google Patents

話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP4333318B2
JP4333318B2 JP2003357372A JP2003357372A JP4333318B2 JP 4333318 B2 JP4333318 B2 JP 4333318B2 JP 2003357372 A JP2003357372 A JP 2003357372A JP 2003357372 A JP2003357372 A JP 2003357372A JP 4333318 B2 JP4333318 B2 JP 4333318B2
Authority
JP
Japan
Prior art keywords
word
cluster
segment
topic
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003357372A
Other languages
English (en)
Other versions
JP2005122510A (ja
Inventor
克人 別所
義博 松尾
伸章 廣嶋
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003357372A priority Critical patent/JP4333318B2/ja
Publication of JP2005122510A publication Critical patent/JP2005122510A/ja
Application granted granted Critical
Publication of JP4333318B2 publication Critical patent/JP4333318B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体に係り、特に、テキスト中の複数の話題を検出し、話題間の関係を抽出・可視化するための話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体に関する。
議事録作成技術として、入力テキストが同一話題の区間の集合へ階層的に分割され、各話題区間から話題語が抽出される(例えば、特許文献1参照)(以下、従来技術1と記す)。
また、入力テキストを同一話題の区間の集合へ分割した後、各話題区間から、時間的に後の話題区間で類似度が閾値以上のものへリンクを張っていく(例えば、非特許文献1参照)(以下、従来技術2と記す)。
特開平8−87501号公報 松村真宏,加藤優,大澤幸生,石塚満:議論構造の可視化による論点の発見と理解,Journal of SOFT, Vol.15, No.5,2003.
人間が作る議事録は項目毎に階層的に整理されている。議事録作成者は、記憶に残っているもの、会議の時にメモをとったもの(共に記録しておく必要があると考えた重要事項)を必ず項目毎にまとめ、階層的に整理しようとする。全ての項目を時系列順に忠実に並べようとはしないし、そもそも会議の模様を時系列に細かく追想するのは困難である。そこで、機械が議事録を作成するにあたっても、話題毎の集約・階層化が必要となる。
従来技術1の方法は、1次元のストリームにおける話題区間の階層的分割であるため、隣接していない話題区間で同一話題のもの、あるいは関係の深いものが同じクラスタに属さないことがある。話題区間の階層構成を1次元の制約下で行うため、適切な話題の集約・階層化ができないという問題がある。
従来技術2の方法により、リンク付けられた話題区間の集合を人間が把握することはできるが、そこでできている話題区間群内部のより詳細な話題構成、及び話題区間群同士の類似性を把握することは難しく、よりきめ細かな話題構成を把握することは困難である。議事録においては、会議全体の内容を容易に把握できる必要があり、そのためには大局的なクラスタから局所的なクラスタまでの表示が必要となる。
また、従来技術2の方法では、リンク付けられた話題区間の集合に対して、それを要約する語句・文の抽出への応用は示唆されているものの、具体的な要約処理そのものについては言及されていない。このため、リンク付けられた話題区間の集合の内容を容易に把握することが困難である。
本発明は、上記の点に鑑みなされたもので、入力テキストの話題構造を容易に把握することを可能にする話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明は、テキスト中の複数の話題を検出し、話題間の関係を抽出・可視化するための話題構造抽出装置が実行する話題構造抽出方法において、
キストを単語単位に分割する形態素解析過程と(ステップ1)、
語の意味を表現するベクトルが格納されている記憶手段である概念ベースを検索することによって、形態素解析過程で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程と(ステップ2)、
語ベクトル取得過程で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程と(ステップ3)、
ピックセグメンテーション過程で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング過程(ステップ4)と
要約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルとの距離の自乗の和であるTwと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるUwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約過程と(ステップ5)、
グメントクラスタリング過程で得られたツリーの上で、要約過程で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力過程(ステップ6)と、を行う。
本発明は、テキスト中の複数の話題を検出し、話題間の関係を抽出・可視化するための話題構造抽出装置が実行する話題構造抽出方法において、
テキストを単語単位に分割する形態素解析過程と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースを検索することによって、形態素解析過程で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程と、
単語ベクトル取得過程で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程と(ステップ3)、
トピックセグメンテーション過程で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング過程と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルの重心との距離Twと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Uwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約過程と、
セグメントクラスタリング過程で得られたツリーの上で、要約過程で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力過程と、を行う。
また、本発明では、トピックセグメンテーション過程で得られた各セグメント毎に、該トピックセグメンテーション過程該セグメントSをより短い区間のセグメントの集合へ分割させる制御を行い、この結果得られた、該セグメントS内のセグメント集合をセグメントクラスタリング過程階層的にクラスタリングさせる制御を行う制御過程を更に行う。
図2は、本発明の原理構成図である。
本発明(請求項1)、テキストを単語単位に分割する形態素解析手段21と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベース27と、
概念ベース27を検索することによって、形態素解析手段21で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段22と、
単語ベクトル取得手段22で得られた単語ベクトルの系列から、テキストを同一話題区間であるセグメントの集合へ分割するトピックセグメンテーション手段23と、
トピックセグメンテーション手段23で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段24と、
要約対象のクラスタCに含まれる各単語について、該クラスタC内の全ての単語ベクトルとの距離の自乗の和であるTwと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるUwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段25と、
セグメントクラスタリング手段24で得られたツリーの上で、要約手段25で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段26と、を有する。
本発明(請求項2)は、テキストを単語単位に分割する形態素解析手段と、
単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
概念ベースを検索することによって、形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
単語ベクトル取得手段で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルの重心との距離Twと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Uwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
セグメントクラスタリング手段で得られたツリーの上で、要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
を有する。
また、本発明(請求項3)は、トピックセグメンテーション手段23で得られた各セグメント毎に、該トピックセグメンテーション手段23該セグメントSをより短い区間のセグメントの集合へ分割させる制御を行い、この結果得られた、該セグメントS内のセグメント集合をセグメントクラスタリング手段24階層的にクラスタリングさせる制御を行う制御手段28を更に併せ持つ。
本発明(請求項4)は、請求項1乃至3の何れか1項に記載の話題構造抽出装置を構成する手段としてコンピュータを機能させるための話題構造抽出プログラムである。
本発明(請求項5)は、請求項4に記載の話題構造抽出プログラムを格納したコンピュータ読み取り可能な記憶媒体である。
上記の請求項1、2で述べた内容により、入力テキストを同一話題の区間であるセグメントの集合へ分割した後、セグメント集合を階層的にクラスタリングすることにより、話題毎の集約・階層化が可能となる。各クラスタから要約文が抽出されることにより、入力テキストは図3に示すようなツリー構成で表示される。各セグメントはツリーにおけるリーフとなり、ツリー上、上位ノードが議事録における大項目、下位ノードが小項目に相当することになる。上位ノード群より会議における主要項目を容易に把握でき、下位ノードを読むにつれ、各主要項目の詳細情報を知ることができる。このように会議の話題がトップダウン式に整理され構造化されているので、ユーザは容易にその内容を理解することが可能となる。
また、請求項1,2で述べた処理により、クラスタCの話題を表す単語で、なおかつCと兄弟関係にあるクラスタ群と差異化するものが選定される。これにより、出力ツリーの各ノードにおいて、該ノードと兄弟関係にあるノードの単語群となるべく一致することがなく、該ノードに特徴的な単語群を表示することが可能となる。
また、本発明においては、トピックセグメンテーション過程(手段)において、各文を1セグメントとした上で、セグメントクラスタリング過程(手段)で、全文集合をクラスタリングすることも原理的には可能である。しかしながら、実運用でそのようにすると、異なる話題に属する文で、類似性の高いものは同一クラスタに誤って分類されるため、クラスタリング結果の精度は低いものとなる。高精度なクラスタリング結果を得るために、ある程度の長さを持つセグメントに分割した上でクラスタリングする必要があり、本発明において、セグメントクラスタリング過程(手段)のみならずトピックセグメンテーション過程(手段)も具備する意義もそこにある。
一方、請求項3で述べた処理により、最初に得たセグメントよりももっと粒度の高いセグメント(場合によっては1文のみからなるセグメント)を、高精度のままクラスタリング結果のツリーにおけるリーフとすることが可能となる。なぜなら、より粒度の高いセグメント(小セグメントと呼ぶ)は、それを含むセグメント内の小セグメントとしか同一クラスタとなり得ず、異なる話題のセグメント内の小セグメントとは同一クラスタとなり得ないからである。
以下、図面と共に本発明の実施の形態を説明する。
図4は、本発明の一実施の形態における一連の動作を示すフローチャートであり、図5は、本発明の一実施の形態における話題構造抽出装置の構成を示す。
話題構造抽出装置は、形態素解析部21、単語ベクトル取得部22、トピックセグメンテーション部23、セグメントクラスタリング部24、要約部25、話題構造出力部26、概念ベース27、制御部28から構成される。
本発明は、形態素解析部21が、入力テキストを単語単位に分割する形態素解析過程(ステップ11)と、単語ベクトル取得部22が、単語の意味を表現するベクトルが格納されている記憶手段である概念ベース27を検索することによって、形態素解析過程(ステップ11)で得られた各単語に対応するベクトルを取得する単語ベクトル取得過程(ステップ12)と、トピックセグメンテーション部23が、単語ベクトル取得過程(ステップ12)で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション過程(ステップ13)と、セグメントクラスタリング部24が、トピックセグメンテーション過程(ステップ13)で得られたセグメント集合を、各セグメントを該セグメントに含まれる単語ベクトルの集合と見做して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングするセグメントクラスタリング過程(ステップ14)と、要約部25が、セグメントクラスタリング過程(ステップ14)で得られた各クラスタに対し、該クラスタに含まれるテキストから該クラスタを特徴付ける要約文を抽出する要約過程(ステップ15)と、話題構造出力部26が、セグメントクラスタリング過程(ステップ14)で得られたクラスタ間の関係と、要約過程(ステップ15)で得られた各クラスタの要約文を出力する話題構造出力過程(ステップ16)とからなる。
また、本発明は、要約過程(ステップ15)において、要約対象のクラスタCに含まれる単語の内、該クラスタC内の任意の単語ベクトルとの距離が小さく、該クラスタCの上位クラスタの下位クラスタで該クラスタC以外のクラスタ群に含まれる任意の単語ベクトルとの距離が大きくなるような単語から順にある個数だけ単語を出力する。
また、本発明は、要約過程(ステップ15)において、要約対象のクラスタCに含まれる単語の内、該クラスタC内の単語ベクトルの重心との距離が小さく、該クラスタCの上位クラスタの下位クラスタで該クラスタC以外のクラスタ群に含まれる単語ベクトルの重心との距離が大きくなるような単語から順にある個数だけ単語を出力する。
また、本発明では、制御部28が、トピックセグメンテーション過程(ステップ13)で得られた各セグメント毎に、トピックセグメンテーション過程(ステップ13)において該セグメントSをより短い区間のセグメント集合へ分割し、この結果得られた、該セグメントS内のセグメント集合をセグメントクラスタリング過程(ステップ14)において階層的にクラスタリングする。この際、トピックセグメンテーション過程(ステップ13)において、階層的にセグメンテーションを行っておき、セグメントクラスタリング過程(ステップ14)において各階層レベル毎に、該階層レベルに属するセグメント集合のクラスタリングを行う。あるいは、トピックセグメンテーション過程(ステップ13)において非階層的にセグメンテーションを行い、この結果得られたセグメント集合をセグメントクラスタリング過程(ステップ14)においてクラスタリングした後、再び、トピックセグメンテーション過程(ステップ13)において、各セグメント毎にその内部で非階層的にセグメンテーションを行い、この結果得られたセグメント集合をセグメントクラスタリング過程(ステップ14)においてクラスタリングするというように、トピックセグメンテーション過程(ステップ13)とセグメントクラスタリング過程(ステップ14)を繰り返すように行うことも可能である。トピックセグメンテーション過程(ステップ13)におけるセグメンテーションは指定した階層数のセグメンテーション結果を出力した段階、あるいは、任意のセグメントが1文になった段階で停止する。
以下、各構成要素の詳細な説明を行う。
形態素解析部21は、テキストを単語単位に分割する。この結果得られた単語の内、品詞情報等を参照して、内容語のみを残す。
単語ベクトル取得部22は、単語の意味を表現するベクトルが格納されている記憶手段である概念ベース27を検索することによって、形態素解析過程(ステップ11)で得られた各単語に対応するベクトルを取得する。
図6は、本発明の一実施の形態における概念ベースの例を示す。
同図に示す概念ベース27は、ハードディスク等の記憶手段に格納され、各単語毎に、 f次元ベクトル値が付与されている。概念ベース27中の単語は、名詞や動詞、形容詞等の自立語である。概念ベース27における単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間ほど距離が遠くなるように値が設定されている。
概念ベースの例としては、特開平6−103315の「類似性判別装置」や、特開平7−302265の「類似性判別用データ精錬方法及びこの方法を実施する装置」で開示されているデータベースがある。
また、Deerwesterの論文(Deerwester, S., Dumais,S.T., Furnas, G.W., Landauer, T.K., and Harshman, R.: Indexing by Latent Semantic Analysis, Journal of the American Society for Information Science, pp. 391-407(1990))では、単語の文書における頻度を記録した単語・文書間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。Schutzeの論文(Schutze,H.:Dimensions of Meaning, Proc. of Supercomputing’92, pp.786-796(1992))では、コーパス中の単語間の共起頻度を記録した単語・単語間の共起行列を特異値分解により次元数を縮退させた行列に変換しているが、この変換後の行列も概念ベースの一例である。
トピックセグメンテーション部23は、単語ベクトル取得過程(ステップ12)で得られた単語ベクトルの系列から、テキストを同一話題の区間であるセグメントの集合へ分割する。トピックセグメンテーションの方法としては、特開2002−342324や「別所克人:クラスター内変動最小アルゴリズムに基づくトピックセグメンテーション,情報処理学会研究報告,Vol. SIG-NL 154, pp.177-183(2003)」で述べられている方法がある。
特開2002−342324で述べられている方法の一実施例では、任意の単語境界の前後に、ある個数の単語の集合である単語列をとり、各単語列に対し、各単語列を構成する単語のベクトルの重心を算出し、前後の単語列に対応する重心間の余弦測度を該単語境界の結束度としてとり、この結束度が極小となる単語境界を話題区間の境界と認定する。
また、上記の文献「クラスター内変動最小アルゴリズムに基づくトピックセグメンテーション」で述べられている方法の一実施例では、任意の区間に対して、該区間内の単語ベクトルの重心と各単語ベクトルとの間の距離の自乗の和をコストとして求め、任意の区間列のコストを、該区間列に含まれる区間のコストの和として、一定の条件下でコストが最小になる区間列を話題区間列と認定する。
いずれの方法も、あるセグメンテーション結果の各セグメント内で、より細分化されたセグメントの列があるように、階層的なセグメンテーション結果を出力することが可能である。それは、話題区間の境界として尤度の高い境界から順に出力していく方法で可能である。あるいは、一旦出力したセグメンテーション結果中の各セグメントを、新たな入力テキストとしてセグメンテーション処理する方法によっても可能である。
セグメントクラスタリング部24は、トピックセグメンテーション過程(ステップ13)で得られたセグメント集合を、各セグメントを該セグメントに含まれる単語ベクトルの集合と見做して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングする。
階層的なクラスタリングアルゴリズムの一例を説明する。
入力テキスト中の全単語ベクトルの集合(同一単語が複数存在する場合、対応する単語ベクトルは別物とする)を、
Figure 0004333318
とし、Xの分割であるクラスタ集合を
Figure 0004333318
とする。
クラスタCの重心M(C)は、
Figure 0004333318
と計算される。クラスタCのコストE(C)を
Figure 0004333318
とし、クラスタ集合DのコストE(D)を、
Figure 0004333318
とする。これから述べるクラスタリングアルゴリズムは、クラスタリングの過程で、このコストE(D)が常に最小となるように、クラスタの併合を行っていくものである。即ち、クラスタC,C(i≠j)間の距離ΔE(C,C)を、C,Cを併合した時のコストE(D)の増分とし、距離が最小となるクラスタC,C(i≠j)を併合する。ΔE(C,C)は、
Figure 0004333318
となる。
トピックセグメンテーション過程(ステップ13)で得られたセグメントを、S,S,・・・,Sとする。これは、Xの分割であり、各Sはそれに含まれる単語ベクトルの集合である。|S|は、Sに含まれる単語ベクトルの個数であり、M(S)は、Sに含まれる単語ベクトルの重心である。具体的なクラスタリングアルゴリズムは以下のようになる。
・階層的クラスタリングアルゴリズム:
ステップ101)
初期のクラスタ集合を、C=S(1≦i≦n)とする。各CiにコストE(D)を対応付けて記憶しておく。クラスタC,C(1≦i,j≦n,i≠j)の間の距離ΔE(C,C)を式(1)によって計算する。
ステップ102)
距離最小のクラスタ対を探して結合する。
Figure 0004333318
とCをDから取り除き、C´=C∪CをDに追加する。│C´│=│C│+│C│である。
│D│:=│D│―1とクラスタの数を1つ減らす。
E(D):=E(D)+ΔE(C,C)とし、C´にコストE(D)を対応付けて記憶しておく。
とCの親ノードをC´とし、C´の子ノードをCとCとする。
│D│=1ならば終了。│D│≠1ならばステップ103に進む。
ステップ103)
全てのCi∈D,Ci≠C´についてクラスタ間の距離ΔE(C´,Ci)を再計算する。ΔE(C´,Ci)は、
Figure 0004333318
として計算できる。ステップ102に進む。
クラスタリングアルゴリズムの処理が終了すると、図7のような2分木が得られる。ルーフのN1,・・・,N8のそれぞれは、トピックセグメンテーション過程(ステップ13)で得られたセグメントである。N1,・・・,N8は、セグメントテキスト中における順序に従って並んでいるとは限らない。クラスタ対が結合されることによってできるクラスタには、それまでの添数の最大値に1増やした添数のついたラベルが付与されている。また、各クラスタはそれに対応付けられているコストE(D)のレベル(縦方向の位置)には位置されている。
ツリー出力の際の、任意のノードの直下にくる子ノードの順序を例えば次のように定めることもできる。クラスタリングアルゴリズムのステップ102で、C´の子ノードC,Cそれぞれに対し、配下のセグメントで、テキスト中、一番前方にあるものをとり、その一番前方にあるセグメントがより前方にある子ノードを前、もう一方の子ノードを後ろとして記憶しておく。
,Cには、配下のセグメントで、テキスト中、一番前方にあるものが対応付けられており、C´には、その中でより前方にあるセグメントを対応付ける。あるいは、C,Cには、配下のセグメント集合がテキスト中の出現順にソートされた上で対応付けられており、それらをマージしテキスト中の出現順にソートしたものを、C´に対応付けるというようにしてもよい。
図7のような2分木では階層数が非常に多くなる傾向があり、話題構造としては複雑になるという問題がある。そこで、クラスタリングアルゴリズムの処理終了後、ツリーを指定した階層数のツリーに変形する処理を行う。具体的なツリー変形アルゴリズムは以下のようになる。
・ツリー変形アルゴリズム:
ステップ201)
ルートノードのコストe1とリーフノードのコストe0を端点とする区間を指定した数で等分する。図7では3等分しており、新しくできる等分点はf1,f2でる。以下、等分点といったときは、端点も含めるものとする。
ステップ202)
ルートノードを引数にして関数Aを呼び出す。
関数A)
引数のノードXがリーフなら終了する。
Xがリーフでないならば、Xのコスト未満の等分点の最大値mを求める(Xのコストがe0に等しいならe0そのものとする)。
Xのノードを展開し、展開先ノードのコストがmより大きい限り展開先ノードを展開する。このようにして、コストがm以下となるノード群が得られる。
Xの新しい子を求めたノード群にし、求めたノード群の新しい親をXとする。
求めたノード群の中のそれぞれのノードを引数として関数Aを再帰呼び出しする。
以上述べたアルゴリズムを図7のような2分木に適用することによって図8のような、階層数がより少なく、1ノードの子ノードが3個以上の場合もあり得るようなツリーが得られる。
以上、セグメントクラスタリング部24の処理の一例を述べたが、初期のクラスタ集合を、C={M(S)} (1≦i≦n)としてもよい。
また、クラスタ間の距離を、コストに基づく方法以外の方法で定義して処理することも可能である。
また、階層的なクラスタリングアルゴリズムは、最初、セグメント集合自体を1つのクラスタとし、これを分割していくトップダウンの方式であってもよい。
ここで述べたクラスタリングアルゴリズムにおいては、各クラスタの親となるクラスタは一つであるが、同一のクラスタが複数の異なるクラスタの子となるようにアルゴリズムを拡張することも可能である。
要約部25は、前述のセグメントクラスタリング過程(ステップ14)で得られた各クラスタに対し、該クラスタに含まれるテキストから該クラスタを特徴付ける要約文を抽出する。
要約部25においては、請求項1で述べたように、要約対象のクラスタCに含まれる単語の内、C内の任意の単語ベクトルとの距離が小さく、Cの上位クラスタの下位クラスタでC以外のクラスタ群に含まれる任意の単語ベクトルとの距離が大きくなるような単語から順にある個数だけ単語を出力する。この処理の例を以下に説明する。
あるクラスタC内の単語集合(同一単語が複数存在する場合、別物とする)をF、F内の同一単語をユニークにした集合をGとし、任意の単語wのベクトルをvとしたとき、
Figure 0004333318
とおく。これは、G内のある単語wに対して定まる値で、wのベクトルとC内の任意の単語ベクトルとの距離の自乗の和である。
また、ツリー上、Cと兄弟関係にあるクラスタ群H,H,…,Hに対し、I=H∪H∪・・・∪Hとしたとき、I内の単語集合(同一単語が複数存在する場合、別物とする)をJとする。
Figure 0004333318
とおく。これも、G内のある単語wに対して定まる値で、wのベクトルとI内の任意の単語ベクトルとの距離の自乗の和である。
スコアU/Tの大きい順にG内の単語をソートする。J=φの場合は、スコアTwの小さい順にG内の単語をソートする。より厳密にはG内の単語を以下の規則により降順にソートする。
・J=φのときは、U=0とする。
・T=0とT>0なら、T=0となる方を大とする。
・T=0同士なら、Uの値の大きい方を大とする。
・T>0同士で、共にU=0なら、Tの値の小さい方を大とする。
・T>0同士で、少なくとも一方がU>0なら、U/Tの大きい方を大とする。
ソートした後、最大、指定した数(ツリーにおける全階層レベルにわたって共通としてもよいし、階層レベルごとに異なるようにしてもよい)だけの上位の単語を出力する。あるいは、単語に付随したスコアがある閾値を満足する単語を出力するようにしてもよい。さらに、スコアがある閾値を満足する単語で最大、指定した数だけの上位の単語を出力するようにしてもよい。
図9は、各クラスタからスコアがある閾値以上の、最大5個の上位単語を出力して得られるツリーである。
なお、請求項1においては、兄弟関係にあるクラスタ群に含まれる単語ベクトルとの距離を考慮しないで単語を順序付けることも可能である。その場合は、常にスコアTwの小さい順にG内の単語をソートする。
また、要約部25においては、請求項3,7,11で述べたように、要約対象のクラスタCに含まれる単語の内、C内の単語ベクトルの重心との距離が小さく、Cの上位クラスタの下位クラスタでC以外のクラスタ群に含まれる単語ベクトルの重心との距離が大きくなるような単語から順にある個数だけ単語を出力する。この処理の例を説明する。
あるクラスタC内の単語集合(同一単語が複数存在する場合、別物とする)をF、F内の同一単語をユニークした集合をGとし、任意の単語wのベクトルをvとし、Cの重心をM(C)としたとき、
=‖M(C)−v‖ w∈G
とおく。これは、G内のある単語wに対して定まる値で、wのベクトルとC内の単語ベクトルの重心との距離である。
また、ツリー上、Cと兄弟関係にあるクラスタ群H,H,…,Hに対し、I=H∪H∪・・・∪Hとし、Iの重心をM(I)としたとき、
=‖M(I)−v‖ w∈G
とおく。これも、G内のある単語wに対して定まる値で、wのベクトルとI内の単語ベクトルの重心との距離である。
スコアU/Tの大きい順にG内の単語をソートする。J=φの場合は、スコアTwの小さい順にG内の単語をソートする。より厳密にはG内の単語を以下の規則により降順にソートする。
・J=φのときは、U=0とする。
・T=0とT>0なら、T=0となる方を大とする。
・T=0同士なら、Uの値の大きい方を大とする。
・T>0同士で、共にU=0なら、Tの値の小さい方を大とする。
・T>0同士で、少なくとも一方がU>0なら、U/Tの大きい方を大とする。
ソートした後、最大、指定した数(ツリーにおける全階層レベルにわたって共通としてもよいし、階層レベル毎に異なるようにしてもよい)だけの上位の単語を出力する。あるいは、単語に付随したスコアがある閾値を満足する単語を出力するようにしてもよい。更に、スコアがある閾値を満足する単語で最大、指定した数だけの上位の単語を出力するようにしてもよい。
この処理によっても、図9と同様のツリーが出力される。
なお、請求項2においては、兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離を考慮しないで単語を順序付けることも可能である。その場合には、常にスコアTの小さい順にG内の単語をソートする。

なお、要約部25においては、「廣嶋伸章,長谷川隆明,山崎毅文:統計的手法に基づくWebページからのヘッドライン生成,情報処理学会研究報告,Vol.SIG-NL 149, pp.45-50 (2002)」で述べられているような要約アルゴリズムを用いることにより、各クラスタに含まれるテキストから該クラスタを特徴付ける語句や文、文章を抽出することも可能である。このようなアルゴリズムを用いることにより、例えば、図3に示したようなツリー上の各ノードに語句相当の要約文が表示されている話題構造を出力することができる。また、リーフにあたるセグメントの要約として、図3では語句相当のものを表示しているが、より詳細な文ないし文章相当の要約文も抽出可能である。さらに、一セグメントは、同一話者による発言区間によって細分されるので、この細分して得られる区間それぞれから要約文を抽出することも可能である。
話題構造出力部26は、セグメントクラスタリング過程(ステップ14)で得られたクラスタ間の関係である、各クラスタをノードとするツリーと、要約過程(ステップ15)で得られた各クラスタの要約文を、要約文は該クラスタに対応するノードのラベルとした上で、ディスプレイやプリンタに出力する。出力の結果の例は、図3や図9に示すツリーである。
また、各ノードに、配下にあるテキストの全文(セグメント単位に分割されているが、セグメントはテキスト中の出現順になっている)をリンク付け、ユーザが見たいノードの項目の実際の発言内容を読むことができるようにすることも可能である。
制御部28は、トピックセグメンテーション過程(ステップ13)で得られた各セグメント毎に、トピックセグメンテーション過程(ステップ13)において該セグメントSをより短い区間のセグメントの集合へ分割し、この結果得られた、該セグメントS内のセグメント集合をセグメントクラスタリング過程(ステップ14)において階層的にクラスタリングする。
例えば、図10に示したように、トピックセグメンテーション過程でテキストをS,S,S,Sに分割する。これを階層レベルLevel1のセグメンテーション結果とする。トピックセグメンテーション過程で、Level1のセグメンテーション結果を得た直後に、セグメント境界を固定したままセグメンテーション処理を続行することにより、各S内部が細分されたLevel2のセグメンテーション結果を得ることができる。Level2のセグメンテーション結果においては、例えば、セグメントS1はより粒度の高いセグメントS11、S12、S13、S14に細分されている。この階層レベル毎のセグメンテーション結果の情報を保持したまま、セグメントクラスタリング過程に進む。
セグメントクラスタリング過程では、Level1のセグメンテーション結果S,S,S,Sを階層的にクラスタリングし、その結果ツリー構造であるTree1が得られる。次に、各S内部において、Sを細分するセグメント集合の階層的クラスタリングを行う。例えば、S内部においては、セグメント集合S11,S12,S13,S14の階層的クラスタリングを行う。各S内部においてこの処理を行うことによりTree2が得られる。1つのS内部におけるクラスタリングによって得られるツリーのルートノードは、Sノードそのものとなる。
このようにすることにより、最初に得たセグメンテーション結果のセグメントよりもより粒度の高いセグメントをリーフとするツリー構造で精度の高いものを得ることが可能である。例えば、Sが教育問題のトピックであり、Sが医療問題のトピックで、S13とS23が共に「分かりました」という文だった場合、Level2のセグメンテーション結果を最初からクラスタリングすると、S13とS23は同一クラスタとなってしまい誤った構造が得られてしまう。これに対し、各S内部において、Sを細分するセグメント集合をクラスタリングすることにより、S13とS23が誤って同一クラスタに分類されることはなくなる。
制御部28においては、Level3以降のトピックセグメンテーションを行い、各階層レベル毎のセグメンテーション結果の情報を保持したまま、セグメントクラスタリングの処理を同様に行うことも勿論可能である。トピックセグメンテーション過程におけるセグメンテーションは、指定した階層レベルのセグメンテーション結果を出力した段階、あるいは任意のセグメントが1文になった段階で停止する。このようにすることにより、例えば、テキスト中の各文をリーフとする精度の高いツリー構造を得ることも可能である。
また、制御部28においては、これまで述べたようにトピックセグメンテーション過程で複数の階層レベルのセグメンテーション結果を出した後、セグメントクラスタリング過程に進むのではなく、1つの階層レベルのセグメンテーションとクラスタリングを行った後、再び、次の階層レベルのセグメンテーションとクラスタリングを行うようにすることも可能である。例えば、トピックセグメンテーション過程でLevel1のセグメンテーション結果S,S,S,Sを得た後、セグメントクラスタリング過程でTree1を出し、次に、トピックセグメンテーション過程でLevel2のセグメンテーション結果を得た後、セグメントクラスタリング過程で、各S内部において、Sを細分するセグメント集合の階層的クラスタリングを行い、Tree2を出す。セグメンテーションとクラスタリングの処理を3回以上繰り返し行うことも勿論可能である。この処理は、トピックセグメンテーション過程において、指定した階層レベルのセグメンテーション結果を出力し、あるいは、任意のセグメントが1文になり、このセグメンテーション結果をセグメントクラスタリング過程で処理した時点で終了する。
なお、これまで述べた処理をプログラムとして構築し、該プログラムを通信回線または、記憶媒体からインストールし、CPU等の手段で実施することも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、会議の議事録を自動生成する技術に適用可能である。例えば、会議音声を収録し、それを音声認識して得られたテキストや書き起こして得られるテキストを入力として、議事録を生成するような処理に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明を適用することにより出力される話題構造の例である。 本発明の一実施の形態における一連の動作を示すフローチャートである。 本発明の一実施の形態における話題構造抽出装置の構成図である。 本発明の一実施の形態における概念ベースの例である。 本発明の一実施の形態における階層的クラスタリングアルゴリズムの出力するツリーの例である。 本発明の一実施の形態におけるツリー変形アルゴリズムの出力するツリーの例である。 本発明の一実施の形態における要約部が出力するツリーの例である。 本発明の一実施の形態における制御手段による処理を説明するための図である。
符号の説明
21 形態素解析手段、形態素解析部
22 単語ベクトル取得手段、単語ベクトル取得部
23 トピックセグメンテーション手段、トピックセグメンテーション部
24 セグメントクラスタリング手段、セグメントクラスタリング部
25 要約手段、要約部
26 話題構造出力手段、話題構造出力部
27 概念ベース
28 制御手段、制御部

Claims (5)

  1. キストを単語単位に分割する形態素解析手段と、
    語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
    前記概念ベースを検索することによって、前記形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
    記単語ベクトル取得手段で得られた単語ベクトルの系列から、前記テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
    記トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
    要約対象のクラスタCに含まれる各単語について、該クラスタC内の全ての単語ベクトルとの距離の自乗の和であるTwと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる全ての単語ベクトルとの距離の自乗の和であるUwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
    前記セグメントクラスタリング手段で得られたツリーの上で、前記要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
    を有することを特徴とする話題構造抽出装置
  2. テキストを単語単位に分割する形態素解析手段と、
    単語の意味を表現するベクトルが格納されている記憶手段である概念ベースと、
    前記概念ベースを検索することによって、前記形態素解析手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
    前記単語ベクトル取得手段で得られた単語ベクトルの系列から、前記テキストを同一話題の区間であるセグメントの集合へ分割するトピックセグメンテーション手段と、
    前記トピックセグメンテーション手段で得られた各セグメントに対して、セグメントに含まれる単語ベクトルを利用して、距離が近いセグメントを同一クラスタとする基準により、階層的にクラスタリングし、各クラスタをノードとするツリーを生成するセグメントクラスタリング手段と、
    約対象のクラスタCに含まれる各単語について、該クラスタC内の単語ベクトルの重心との距離Twと、該クラスタCと階層的に兄弟関係にあるクラスタ群に含まれる単語ベクトルの重心との距離Uwを求め、UwをTwで除したスコアが大きい単語から順にある個数だけ単語を出力する要約手段と、
    前記セグメントクラスタリング手段で得られたツリーの上で、前記要約手段で得られた各クラスタの単語を、該クラスタのノードのラベルとして出力する話題構造出力手段と、
    を有することを特徴とする話題構造抽出装置
  3. 前記トピックセグメンテーション手段で得られた各セグメント毎に、該トピックセグメンテーション手段に該セグメントSをより短い区間のセグメントの集合へ分割させる制御を行い、この結果得られた、該セグメントS内のセグメント集合を前記セグメントクラスタリング手段に階層的にクラスタリングさせる制御を行う制御手段を更に併せ持つ請求項1または2に記載の話題構造抽出装置
  4. 請求項1乃至3の何れか1項に記載の話題構造抽出装置を構成する手段としてコンピュータを機能させるための話題構造抽出プログラム。
  5. 請求項4に記載の話題構造抽出プログラムを格納したコンピュータ読み取り可能な記憶媒体。
JP2003357372A 2003-10-17 2003-10-17 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 Expired - Lifetime JP4333318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003357372A JP4333318B2 (ja) 2003-10-17 2003-10-17 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003357372A JP4333318B2 (ja) 2003-10-17 2003-10-17 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP2005122510A JP2005122510A (ja) 2005-05-12
JP4333318B2 true JP4333318B2 (ja) 2009-09-16

Family

ID=34614279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003357372A Expired - Lifetime JP4333318B2 (ja) 2003-10-17 2003-10-17 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP4333318B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118657A (ja) * 2010-11-30 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 文書分割検索装置及び方法及びプログラム
JP2012247834A (ja) * 2011-05-25 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> 文書分割スコアリング装置、方法、及びプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8117204B2 (en) * 2008-02-04 2012-02-14 Fuji Xerox Co., Ltd. Video browser for navigating linear video on small display devices using a similarity-based navigation hierarchy of temporally ordered video keyframes with short navigation paths
JP4594992B2 (ja) * 2008-03-03 2010-12-08 日本電信電話株式会社 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP5224532B2 (ja) * 2009-02-25 2013-07-03 日本電信電話株式会社 評判情報分類装置及びプログラム
JP5253317B2 (ja) * 2009-07-28 2013-07-31 日本電信電話株式会社 要約文作成装置、要約文作成方法、プログラム
WO2012111226A1 (ja) * 2011-02-15 2012-08-23 日本電気株式会社 時系列文書要約装置、時系列文書要約方法およびコンピュータ読み取り可能な記録媒体
JP6239344B2 (ja) * 2013-10-31 2017-11-29 株式会社東芝 テキスト処理装置、テキスト処理方法およびプログラム
KR20150081981A (ko) * 2014-01-07 2015-07-15 삼성전자주식회사 회의 내용 구조화 장치 및 방법
JP6215137B2 (ja) * 2014-05-26 2017-10-18 日本電信電話株式会社 対話分割装置、方法、及びプログラム
JP6908987B2 (ja) * 2016-11-04 2021-07-28 株式会社イトーキ 会議分析装置、会議分析方法、及びプログラム
JP6370961B2 (ja) * 2017-05-10 2018-08-08 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム
CN108776706A (zh) * 2018-06-13 2018-11-09 北京信息科技大学 一种基于本体的专利技术主题聚类方法
JP2021179832A (ja) * 2020-05-14 2021-11-18 富士通株式会社 変化検出プログラム、変化検出装置及び変化検出方法
CN112231471B (zh) * 2020-09-04 2022-06-07 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
JP7048024B1 (ja) 2021-09-30 2022-04-05 株式会社ShareFair 情報処理装置、情報処理方法、および情報処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118657A (ja) * 2010-11-30 2012-06-21 Nippon Telegr & Teleph Corp <Ntt> 文書分割検索装置及び方法及びプログラム
JP2012247834A (ja) * 2011-05-25 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> 文書分割スコアリング装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2005122510A (ja) 2005-05-12

Similar Documents

Publication Publication Date Title
EP1736901B1 (en) Method for classifying sub-trees in semi-structured documents
Inzalkar et al. A survey on text mining-techniques and application
JP4333318B2 (ja) 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
US7295967B2 (en) System and method of analyzing text using dynamic centering resonance analysis
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
JPWO2009063925A1 (ja) 文書管理・検索システムおよび文書の管理・検索方法
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN113221559B (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
Kutter Corpus analysis
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
JP6409071B2 (ja) 文の並び替え方法および計算機
Koutropoulou et al. TMG-BoBI: generating back-of-the-book indexes with the text-to-matrix-generator
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
Ali et al. Arabic keyphrases extraction using a hybrid of statistical and machine learning methods
Tadesse et al. Event extraction from unstructured amharic text
Puscasu A multilingual method for clause splitting
Melero et al. Selection of correction candidates for the normalization of Spanish user-generated content
Elamine et al. Intrinsic Detection of Plagiarism based on Writing Style Grouping.
Zenasni et al. Discovering types of spatial relations with a text mining approach
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム
TWI813028B (zh) 文字資料之篩選關聯方法及系統
Dasri et al. Text mining framework, methods and techniques
Abainia et al. Topic Identification of Noisy Arabic Texts Using Graph Approaches
Škrlj et al. Retrieval-efficiency trade-off of Unsupervised Keyword Extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090615

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4333318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term