JP2008226162A - テキスト分析装置及びテキスト分析プログラム - Google Patents

テキスト分析装置及びテキスト分析プログラム Download PDF

Info

Publication number
JP2008226162A
JP2008226162A JP2007067267A JP2007067267A JP2008226162A JP 2008226162 A JP2008226162 A JP 2008226162A JP 2007067267 A JP2007067267 A JP 2007067267A JP 2007067267 A JP2007067267 A JP 2007067267A JP 2008226162 A JP2008226162 A JP 2008226162A
Authority
JP
Japan
Prior art keywords
tree structure
learning
final hypothesis
hypothesis information
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007067267A
Other languages
English (en)
Other versions
JP5100162B2 (ja
Inventor
Ichiro Yamada
一郎 山田
Kikuka Miura
菊佳 三浦
Hideki Sumiyoshi
英樹 住吉
Nobuyuki Yagi
伸行 八木
Atsushi Matsui
淳 松井
Yohei Nakada
洋平 中田
Takashi Matsumoto
隆 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007067267A priority Critical patent/JP5100162B2/ja
Publication of JP2008226162A publication Critical patent/JP2008226162A/ja
Application granted granted Critical
Publication of JP5100162B2 publication Critical patent/JP5100162B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の文を対象として文章区間を抽出するために、学習データに基づく学習処理の結果を用いることが出来るようにする。またその学習処理の時間を短縮する。
【解決手段】テキスト分析装置が、最終仮説情報を記憶する最終仮説情報記憶部と、学習データを構文解析した結果に基づき木構造を生成する第1木構造生成部と、生成された木構造から複数の部分木を抽出して弱学習器を生成する弱学習器生成部と、生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成する学習処理部と、判定対象のテキストデータからテキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成部と、この木構造と前記最終仮説情報とに基づき、文章区間が検索対象に該当するか否かを判定する判定処理部を備える。
【選択図】図1

Description

本発明は、電子化されたテキストデータを対象とした、テキスト分析装置及びテキスト分析プログラムに関する。特に、電子化されたテキストを解析することにより情報を抽出するためのテキスト分析装置及びテキスト分析プログラムに関する。
現在、インターネットに接続されたサーバ装置が様々な情報を提供しているが、それらの多くはテキストデータであり、全体としては膨大な量のテキストデータにアクセスできるようになっている。また、放送局では、番組のクローズドキャプションのデータが大量に蓄積され、これらが公開されたり、他の番組の制作に利用されたりしている。番組のクローズドキャプションの一例として「・・・・・・やっぱり絵を描かなくて良かったかもしれませんね。セーヌ川を挟み、ル・アーブルの対岸に位置する港町、オンフルール。今なお中世の古い家並みが残る町です。18歳の時、モネは、パリに出て画家を目指しますが、美術学校の入学試験に合格しませんでした。実家に戻る事を強要した父親の意向に反して、なおも、・・・・・・」というテキストデータがあったとき、このテキストの中の一部は、「オンフルール」という町を、ある定型的な表現によって説明している。つまり、場所を説明する定型的表現が用いられている。この定型的表現を自動的に抽出することができれば、その番組映像の対応箇所あるいは写されている被写体に、「場所:オンフルール」というメタデータを自動的に付与することが出来、この情報を有効に活用することが出来る。
上記の例のような、テキストデータから所定の特徴を有する文章区間を自動的に抽出するための研究が行なわれている。例えば、非特許文献1では、テキストデータに含まれる単語の出現頻度、単語の語彙的結束性、接続詞、及び修飾語等の表層的な手がかりに基づいて内容の区切れ目を推定する手法が提案されている。また、非特許文献2では、単語集合の特徴だけでなく、構文構造を考慮したテキスト解析の手法として、部分木を弱学習器としたブースティングアルゴリズムを用いる手法が提案され、製品レビュー文及び新聞記事のテキスト分類の実験がなされている。
望月源、本田岳夫、奥村学,「複数の知識の組合せを用いたテキストセグメンテーション」,情処学会研究報,1995年9月14日,自然言語処理109−7,p.47−54 工藤拓、松本裕治,「半構造化テキストの分類のためのブースティングアルゴリズム」,情処論文誌,2004年,Vol.45,No.9,p.2146−2156
しかしながら、前述の非特許文献1の手法では、単語情報を利用することにより文章区間を抽出しているから、単語の出現に大きな偏りがない場合には精度良く処理することが出来ないという問題があった。また、前述の非特許文献2の手法では、ノードの飛び越えを許さない部分木の完全一致を類似度判定の基準としているから、結果として局所的な部分木しか特徴として利用されないことが多いという問題があった。さらに、一つの文のみを対象としているから、複雑な文章区間を抽出することが難しいという問題があった。
また特に、複数文のテキストデータを構文解析して得た木構造から部分木を生成する場合には、部分木の量が莫大となるが、これら部分木から適切なものを選択して学習処理をするには時間を要することも考えられる。特に、ブースティングにより莫大な量の部分木から最適な部分木を選択するための時間は相当長くなる。また、最適な一つの部分木を選択する方法では、学習データによっては良い判定器が得られるかどうか、バラツキが出る。
本発明は、上記の課題認識に基づいて行なわれたものであり、複数文から構成されるテキストデータから、定型的な表現を含む文章区間を自動抽出することが可能なテキスト分析装置及びテキスト分析プログラムを提供することを目的とする。また特に、複数の文を対象として文章区間を抽出するために、学習データに基づいて学習処理をする手法を採用する場合に、構文の複雑さゆえに学習処理に時間がかかることも考えられるが、本発明は、学習処理を効率的に短時間で行なえるテキスト分析装置及びテキスト分析プログラムを提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様によるテキスト分析装置は、学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部と、検索対象の文章区間であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第1木構造生成部と、生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成部と、前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理部と、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成部と、前記第2木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部を備えることを特徴とする。
これにより、第1木構造生成部は、学習データに基づく構文木を生成する。そして、弱学習器生成部は上記構文木の部分木に対応する弱学習器を生成する。そして、学習処理部は、学習データに含まれる情報、即ち学習データに含まれる文章区間が検索対象の文章区間であるか否かの情報を利用して、学習処理を行なう。学習処理の結果、学習データに対応した最終仮説情報が得られる。判定処理部は、この最終仮説情報を用いて、判定対象のテキストデータに含まれる文章区間が前記検索対象に該当するか否かを判定できる。
本発明の一態様においては、学習データは正例と負例とを含む。この場合、「前記学習データを用いて」とは、文章区間が正例に含まれるか負例に含まれるかの情報(正解情報)を用いる。
判定処理部が「文章区間が前記検索対象に該当するか否かを判定できる」とは、例えば、その文章区間が特定の定型的な表現であるか否か、あるいは、その文章区間がある文章ないしは文章の集合に類似であるか否かなどといった判定を行なえることである。
[2]また、本発明の一態様は、前記のテキスト分析装置において、前記学習処理部は、事前確率値を計算しこの事前確率値に応じて前記弱学習器生成部によって生成された複数の前記弱学習器からサンプリングし、このサンプリングの結果に応じて前記学習データに基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成することを特徴とするものである。
[3]また、本発明の一態様は、前記のテキスト分析装置において、前記学習処理部は、前記弱学習器に対応する部分木に属するノードの前記構文木の根ノードからの深さに基づいて前記事前確率値を計算することを特徴とするものである。
これにより、構文木の根ノードに近いノードを有する部分木に対応する弱学習器が選択される確率を高めるようにすることができる。
[4]また、本発明の一態様は、前記のテキスト分析装置において、前記学習処理部は、前記弱学習器に対応する部分木に属する複数のノード間の前記構文木における距離に基づいて前記事前確率値を計算することを特徴とするものである。
これにより、構文木における相互の距離が近いノードを有する構文木に対応する弱学習器が選択される確率を高めるようにすることができる。
[5]また、本発明の一態様によるテキスト分析装置は、検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部と、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成部と、前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部を備えることを特徴とする。
これにより、判定処理部は、最終仮説情報記憶部に記憶されている最終仮説情報を読み出して、判定対象のテキストデータに含まれる文章区間が前記検索対象に該当するか否かを判定できる。
[6]また、本発明の一態様によるテキスト分析プログラムは、学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部を備えるコンピュータに、検索対象の文章区間であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第1木構造生成過程と、生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成過程と、前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理過程と、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成過程と、前記第2木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程の各過程の処理を実行させるものである。
[7]また、本発明の一態様によるテキスト分析プログラムは、検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部を備えるコンピュータに、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成過程と、前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程の各過程の処理を実行させるものである。
本発明によれば、複数文のテキストデータを構文解析して生成した木構造から、莫大な量の部分木を抽出し、この部分木から弱学習器を生成する。その中から莫大な量の弱学習器の有効性(事前確率)を事前に決定し、この有効性を元にした弱学習器サンプリングを行なう。弱学習器サンプリング処理では、最適なものを選択する処理は行わず、事前に決定している有効性の事前分布に基づいて取り出すため、処理時間は少なくなる。つまり、テキストデータの必要な構造だけを効果的にサンプリングするために、学習時間は短くて済む。そして、サンプリングの結果に基づいて学習処理を行なう。
また、本発明によれば、選択された弱学習器の系列を一つでなく複数作成するため、頑健な判定器を作成できる。
以下、本発明の実施の形態について、図面を参照しながら説明する。
図1は、本実施形態のテキスト分析装置の機能構成を示すブロック図である。図示するテキスト分析装置1は、内部に、構文解析部9と、木構造生成部11(第1木構造生成部)と、弱学習器生成部12と、学習処理部13と、最終仮説情報記憶部15と、構文解析部29と、木構造生成部31(第2木構造生成部)と、判定処理部33とを備えている。また、これら各部から学習データ(正例および負例)14やテキストデータ35にアクセス可能となっている。このテキスト分析装置1では、学習データ14に基づいて構文解析部9が構文解析処理を行なった結果によって木構造生成部11が構文木を生成し、弱学習器生成部12はその部分木によって弱学習器を生成し、この生成した弱学習器を用いて学習処理部13が機械学習を行ない、学習処理部13の結果得られる最終仮説情報を最終仮説情報記憶部15に書き込む。また、判定対象のテキストデータ35に基づいて構文解析部29が構文解析処理を行なった結果によって木構造生成部31が構文木を生成し、判定処理部33は最終仮説情報記憶部15から読み出した最終仮説情報と木構造生成部31が生成した構文木により、テキストデータ35中の文章区間が特定の定型的表現を含んでいるか否かを判定する。そして、判定処理部33は、その判定結果を出力する。あるいは判定処理部33は、特定の定型的表現を含む文章区間のみを類似文章として抽出し、出力する。つまり、判定処理部33は、構造生成部31が生成した木構造と最終仮説情報記憶部15から読み出した前記最終仮説情報とに基づき、文章区間が検索対象に該当するか否かを判定する。
なお、最終仮説情報記憶部15は例えばハードディスクドライブ等のコンピュータから読み書き可能な記憶装置を用いて構成する。学習データ14やテキストデータ35も同様の記憶装置に記憶されている。
テキスト分析装置1を構成する各部の概略は次の通りである。
構文解析部9は、学習データ14を読み出し、字句解析、形態素解析、構文解析の各処理を行なうことにより学習データ内の文章を一文ごとに構文解析する。入力文を一文ごとに構文解析した結果、複数文の構文木が生成される。木構造生成部11は、上記の構文解析の結果に基づき、複数文を一つにまとめた構文木を生成する。これは、各文の構文木の根(ルート)ノードの親ノードに相当する最上位ノードを生成し、一つの文章区間に含まれる複数文のテキストから単一の木構造を生成する。弱学習器生成部12は、木構造生成部11によって生成された構文木から、指定数以下のノードを含む部分木を抽出し、部分木から入力データに対して2値に判別する複数の弱学習器を生成する。
学習処理部13は、生成された弱学習器を利用したギブスブースト学習アルゴリズム(GibbsBoost)による学習処理を行なう。具体的には、学習処理部13は上で部分木から生成された複数の弱学習器から、その部分木の各ノードの位置による選ばれやすさを事前確率として与え、その事前確率に従って弱学習器を選択する。そして、弱学習器の重みを計算しながら複数の系列を生成し、最終仮説情報を作成する。そして、作成された最終仮説情報は最終仮説情報記憶部15に書き込まれる。
一方で構文解析部29は、テキストデータ35を読み出し、これに基づき、構文解析部9と同様の構文解析処理を行なう。そして、木構造生成部31は、構文解析部29の処理の結果に基づき、木構造生成部11と同様の処理により構文木を生成する。判定処理部33は、最終仮説情報記憶部15から読み出す最終仮説情報により、木構造生成部31が生成した構文木を判定し、対応するテキストが検索対象文章に類似しているか(つまり、特定の定型的表現を含むか)検索非対象文章に類似しているかを判定し、その判定結果を出力する。
次に具体的な処理手順を説明する。図2は、本実施形態のテキスト分析装置1の各部による処理の手順を示す概略図である。まずステップS2−1からS2−7までの学習処理について説明する。
入力される学習データは、正例と負例とをほぼ同量含んでいる。正例は、特定の定型的表現を含む検索対象文章の集合である。負例は、前記の特定の定型的表現を含まない、検索非対象文章の集合である。つまり、学習データに含まれる文章が正例であるか負例であるかは既知情報として与えられる。即ち、学習データは、その文章区間が検索対象の文章区間であるか否かの情報を含む。
まず、ステップS2−1において、構文解析部9が、入力された日本語によるテキストを構文解析し木構造に変換する。これにより、それぞれの文に対応する構文木が生成される。この構文木の各ノードは、その文に含まれる文節に対応する。
次に、ステップS2−2(第1木構造生成過程)において、木構造生成部11は、各文の構文木の根ノードに対する親ノードとして最上位ノードを生成し、この最上位ノードから各文の構文木の根ノードへは順序付きのアークで結んだ木構造を生成する。この木構造については、後で図3を参照しながら説明する。
次に、ステップS2−3(弱学習器生成過程)において、弱学習器生成部12は、上で生成された木構造から指定数以下のノードを含む部分木を抽出する。この部分木の構造等については、後で図4を参照しながら説明する。そして、定義された類似度を用いて入力データに対して2値の判別を行なう弱学習器を、抽出された部分木に対応して作成する。なお、部分木rと入力データの木構造xとの類似度sim(r,x)は、次の式(1)により定義される。
Figure 2008226162
式(1)における文の出現順序の差に与えるペナルティ値Cは、例えば0.5とする。また、文の出現順序の差dは、複数文からなる構文木と部分木を比較するときに生じるもので、複数の組み合わせの可能性がある場合は、その最大値をsim(r,x)とする。この類似度が一定値以上か否かを判断基準とすることによる弱学習器h(x;r,φr)を生成する。ここで、h(x;r,φr)=1または−1である。この弱学習器は、入力xに対して部分木rと閾値φrを変数に持つものである。このステップにおいて弱学習器は複数(例えば、10万個)生成される。
次に、ステップS2−4において、学習処理部13は、上で生成された弱学習器のサンプリングを行なう。つまり、生成された複数の弱学習器の中から、弱学習器の基となる部分木の各ノードの位置による事前確率に応じた選択を行なう。
構文木では、各文の木の根ノードに主節の述部があり、その下のノードには、主節の述部に直接係る連体節または主節の格要素が位置する。これらは文を比較する上で重要な要素である。そこで、弱学習器のサンプリングに用いる事前確率は、根ノードに近いノードほど選択される確率が高くなり、さらに、選択されたノード間の距離が近いほど選択される確率が高くなるようにする。部分木θの事前分布は、次の式(2)により計算される。
Figure 2008226162
つまり、式(2)によって計算される確率値は、弱学習器に対応する部分木に属するノードの構文木の根ノードからの深さに基づくものであり、また、弱学習器に対応する部分木に属する複数のノード間の前記構文木における距離に基づくものである。
学習データの正例の構文木から生成された大量の弱学習器に対して、式(2)の確率値を利用して一定数M個(例えば、500個)をサンプリングする。このサンプリングにより選ばれる確率は式(2)で計算される確率値に比例する。つまり、式(2)の確率値が2倍になると選ばれる確率は2倍となり、式(2)の確率値が半分になると選ばれる確率は半分となる。
次に、ステップS2−5において、学習処理部13は、ギブスブースト学習アルゴリズムを用いて弱学習器の選択を行なう。この処理では、学習処理部13は、弱学習器のうちの一定数であるM個(例えば500個)の弱学習器だけを選択し、それまでに選ばれた系列の後ろに繋げ新たな系列を生成する。この系列は、最初の処理では一つの弱学習器からなり、次の処理では、それまでの弱学習器の系列が、どの程度有効であるかを示す重要度ウェイト(Importance Weight)w(j)の値により、確率的に系列が選択され、新たな弱学習器が繋がれる。このステップS2−5は、ステップS2−6とS2−7からなる。
ステップS2−6においては、学習処理部13は、下の式(3)により、弱学習器の系列がどの程度有効であるかを示す重要度ウェイトw(j)の値を計算する。
Figure 2008226162
ここで、Θtは、t番目の弱学習器の信頼度αtと、t番目にどの弱学習器を選択するかを決めるパラメータθtからなり(Θt:=(α1,・・・,αt,θ1,・・・,θt))、その出現確率を与えるPt(Θt (j);βt)は、次の式(4)で定められる。
Figure 2008226162
式(4)において、βtは、統計力学における温度の逆数を示す係数であり、確率分布Pt(Θt)の分散を抑制する。βtが大きい場合にはΘtは損失関数の和が小さくなるような値に集中し、βtが小さい場合にはπ(Θt)と似た分布となる。既存のアニーリング手法のどのような値でも利用できる。例えばCauchy annealingをベースとした値βt=0.7(t+1)などが利用できる。
上のπ(Θt)は、パラメータΘtに対する事前確率分布であり、下の式(5)により定義される。
Figure 2008226162
式(5)において、πθ(θt')は、t’番目の弱学習器の候補を選択する事前分布であり、前記の式(2)により決定する。πα(αt')はt’番目の弱学習器の信頼度に対する事前分布であり、ここでは正規分布と定める。
式(3)におけるQ(Θt)=Q(θt)Q(αt)で、Q(θt)=πθ(θt)とし、選ばれた弱学習器の信頼度を決定する提案分布提案分布Q(αt)は学習データに対するエラーレートから算出する。
ステップS2−7においては、学習処理部13は、弱学習器系列のサンプリングをする。つまり、式(3)の重要度ウェイトの値によって、利用する弱学習器の系列をI個だけ決定する。この選択数Iは、サンプリングした弱学習器の数Mと同数でも良いし、他の値でもよい。重要度ウェイトの値が高い系列ほど、次の処理でも利用される確率が高くなる。重要度ウェイトの値が2倍になれば選択される確率も2倍となり、重要度ウェイトの値が半分になれば選択される確率も半分となる。ステップS2−7の処理により、順次、I個の系列に、選択された弱学習器が繋がれる。
そして、さらに、改めてM個の弱学習器をサンプリングし(ステップS2−4)、重要度ウェイトを算出し(ステップS2−5)、I個の系列を重要度ウェイトにより選択する(ステップS2−6)という同様の処理を計T回繰り返すことにより、T個の弱学習器の系列がI個出来る。この、選択されたI個の系列については、後で図5を参照しながら説明する。
以上の処理により、各々がT個の弱学習器で構成されるI個の系列が生成されたが、これらI個の系列を用いて2値判別する最終仮説は、下の式(6)により示される。
Figure 2008226162
式(6)において、h(j)(x;θt')は、j番目の系列のt’番目の弱学習器である。また、αt' (j)は、j番目の系列のt’番目の弱学習器に対する信頼度を表す係数である。
学習処理部13は、この最終仮説の情報を最終仮説情報記憶部15に書き込む。ここで最終仮説情報記憶部15に記憶される最終仮説情報とは、具体的には、学習済みのI個の系列それぞれに属する各弱学習器についての、対応する部分木の情報と、閾値θtの値と、信頼度αt' (j)の値である。
以上まとめると、学習処理部13は、学習データを用いて、生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成する。具体的には、学習処理部33は、事前確率値を計算しこの事前確率値に応じて弱学習器生成部12によって生成された複数の弱学習器からサンプリングし、このサンプリングの結果に応じて学習データ14に基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成する。
そして、ステップS2−8において、判定処理部33は、最終仮説情報記憶部15から読みd下最終仮説の情報を用いて、入力されたテキストデータが検索対象文章に類似しているか、検索非対象文章に類似しているかを判定し、検索対象文章に類似している文章を出力する。なお、判定処理部33の処理に関する詳細については、後で図6を参照しながら説明する。
図3は、木構造生成部11により生成された木構造の例を示す概略図である。図示する木構造は、「セーヌ川を挟み、ル・アーブルの対岸に位置する港町、オンフルール。今なお中世の古い家並みが残る、町です。」という入力文から生成された例である。2つの文の根ノードの上位に最上位ノード(丸印)が設けられている。装置内では、この木構造は、適宜、XML形式等の構造を有するテキストデータあるいはポインタを使ったバイナリデータなどで表現される。
図4は、図3で示した構文木から弱学習器生成部12によって抽出された部分木の例を示す概略図である。図4の(a)および(b)は他の2個のノードを含む部分木の例を示す。同(c)は3個のノードを含み、(d)は4個のノードを含む。弱学習器生成部12は、例えば、指定数5が指定されたときには、指定数以下のノード数の部分木(図4の(a)〜(d)など)を抽出する。
図5は、学習処理部13によってサンプリングされる弱学習器の概要を示す概略図である(図2のステップS2−4からS2−7、即ち学習処理過程)。既に述べたように、学習処理部13は、t=1からt=Tまで、M個の弱学習器のサンプリング、重要度ウェイトの算出、I個の系列(その各々の系列は、途中段階ではt個の弱学習器の系列)の選択を繰り返す。その基となるのは、図5の中でも示される大量の弱学習器候補であり、これらの候補は弱学習器生成部12で生成されたものである。あるt(1からT−1まで)において、サンプリングされたM個の弱学習器に対して、それぞれw(j)が計算されている(1≦j≦M)。図中で網掛けされた弱学習器が、最終的に選択された弱学習器となっている。最終的にt=Tの段階で、I個の系列が選択されている。
図6は、テキストデータ35に含まれる文章が、検索対象文章に類似しているか検索非対象文章集合に類似しているかを判定する処理手順を示すフローチャートである。同図に示す手順では、複数文章を含むテストデータを入力とし、まずステップS6−1において、構文解析部29がこのテストデータの構文解析を行う。そしてステップS6−2(第2木構造生成過程)において、木構造生成部31が木構造を生成する。次にステップS6−3において、判定処理部33が生成された木構造を基に式(6)により判定値を計算する。そして、ステップS6−4において判定処理部33は、判定値が正か負かによって二値判断を行なう。即ち、その判定値が正であれば当該文章は検索対象文章に類似している(つまり、検索対象文章集合に属する)と判定し、判定値が負であれば検索非対象文章に類似している(つまり、検索非対象文章集合に属する)と判定する(ステップS6−3およびS6−4が、判定処理過程)。
本実施形態の応用としては、例えば、上記の判定結果に応じてテキストに所定のメタデータなどを付与する構成を追加しても良い。これにより、大量のテキストから、例えば場所を表わす文章など特定の対象の文章のみを検索し、検索対象に類似していると判定された文章に自動的にメタデータを付与することも可能となる。
図7は、実データを用いて本実施形態によるテキスト分析装置を評価した結果を示す判定評価結果の表である。テレビ番組のクローズドキャプション(テキスト)から、映像とともに場所を説明している定型的な文章区間154区間を人手により抜き出して正例とした。また、負例についても同クローズドキャプションから人手により154区間を抜き出した。そして、これら正例および負例をそれぞれ2つのグループに分け、一方のグループを学習データとし、他方をテストデータとしたクロスバリデーション実験を行なった。また、比較対象としてアダブースト(AdaBoost)による方法でも同様の評価を行なった。図示するように、実験結果によると、本実施形態によるテキスト分析装置は、定型的な文章での正解率は85.2%、定型的でない文章での正解率は92.5%、全体では88.8%であった。つまり、比較対象の形態と比べて、定型的な文章でより優れた正解率が得られ、全体でもやや優れた正解率が得られた。
一方で、学習に要した時間では本実施形態による装置のほうが格段に良い結果が得られた。具体的には、当該実験を一般的なパーソナルコンピュータのシステム(2CPUで、クロック周波数は2.80GHz(ギガヘルツ))を用いて行なったところ、本実施形態(ギブスブースト)のテキスト分析装置が学習処理に要した平均時間(CPU時間)が4分30秒であったのに対して、比較対象の形態(アダブースト)による平均学習時間(CPU時間)は325分48秒であった。
つまり、本実施形態と比較対象の形態とでは、本実施形態のほうが同程度ないしはやや良い正解率が得られ、学習処理に要する時間は本実施形態のほうが格段に短い(比較対象形態の約1.4%)。つまり、本実施形態によるテキスト分析装置の学習処理効率の圧倒的な良さが実証された。
以上から明らかなように、本発明により、複数文から構成される文章の類似性を効率的に評価することができるようになる。テレビ番組のナレーションでは、場所紹介や人物紹介など特定の事柄を表現するために類似の言い回しが多用される。従って、例えば番組のクローズドキャプションからこのような文章区間を抽出することが可能となり、対応する番組映像区間に場所情報や人物情報などのメタデータを効果的に付与することが可能となる。テレビの受信機に内蔵して、視聴者の興味を持った番組のEPGなどの情報と類似するほかの番組を大量の放送番組の中から探し出し提示する機能としても利用できる。さらには、複数の文で構成される文章データの類似性を判定できるので、インターネットの検索手法としても有効である。
なお、上述した実施形態におけるテキスト分析装置をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、前記の実施形態では学習データ14に基づく解析および学習処理部13と、テキストデータ35および最終仮説情報記憶部15に記憶された最終仮説情報に基づく判定処理部33の両方を含む構成のテキスト分析装置としていたが、予め学習データに基づく学習処理を済ませている場合には、構文解析部9と木構造生成部11と弱学習器生成部12と学習処理部13とを省略し、学習処理によって得られている最終仮説情報を最終仮説情報記憶部15に記憶させておき、この最終仮説情報に基づいてテキストデータ35を対象とする判定を判定処理部33が行なうようにしても良い。
本発明の実施形態によるテキスト分析装置の機能構成を示したブロック図である。 本発明の実施形態による処理(主として学習処理まで)の手順を示す概略図である。 本発明の実施形態により木構造生成部が生成した木構造の例を示す概略図である。 本発明の実施形態により弱学習器生成部が生成した部分木の例を示す概略図である。 本発明の実施形態による弱学習器のサンプリングの概要を示した概略図である。 本発明の実施形態による処理(テストデータの解析と判定)の手順を示す概略図である。 本発明の実施形態による判定処理を評価した結果を表わす表である。
符号の説明
1 テキスト分析装置
11 木構造生成部(第1木構造生成部)
12 弱学習器生成部
13 学習処理部
14 学習データ
15 最終仮説情報記憶部
31 木構造生成部(第2木構造生成部)
33 判定処理部
35 テキストデータ

Claims (7)

  1. 学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部と、
    検索対象であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第1木構造生成部と、
    生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成部と、
    前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理部と、
    判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成部と、
    前記第2木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部と、
    を備えることを特徴とするテキスト分析装置。
  2. 前記学習処理部は、事前確率値を計算しこの事前確率値に応じて前記弱学習器生成部によって生成された複数の前記弱学習器からサンプリングし、このサンプリングの結果に応じて前記学習データに基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成することを特徴とする請求項1に記載のテキスト分析装置。
  3. 前記学習処理部は、前記弱学習器に対応する部分木に属するノードの前記構文木の根ノードからの深さに基づいて前記事前確率値を計算することを特徴とする請求項2に記載のテキスト分析装置。
  4. 前記学習処理部は、前記弱学習器に対応する部分木に属する複数のノード間の前記構文木における距離に基づいて前記事前確率値を計算することを特徴とする請求項2または請求項3に記載のテキスト分析装置。
  5. 検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部と、
    判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成部と、
    前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部と、
    を備えることを特徴とするテキスト分析装置。
  6. 学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部を備えるコンピュータに、
    検索対象の文章区間であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第1木構造生成過程と、
    生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成過程と、
    前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理過程と、
    判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第2木構造生成過程と、
    前記第2木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程と、
    の各過程の処理を実行させるテキスト分析プログラム。
  7. 検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部を備えるコンピュータに、
    判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成過程と、
    前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程と、
    の各過程の処理を実行させるテキスト分析プログラム。
JP2007067267A 2007-03-15 2007-03-15 テキスト分析装置及びテキスト分析プログラム Active JP5100162B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007067267A JP5100162B2 (ja) 2007-03-15 2007-03-15 テキスト分析装置及びテキスト分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007067267A JP5100162B2 (ja) 2007-03-15 2007-03-15 テキスト分析装置及びテキスト分析プログラム

Publications (2)

Publication Number Publication Date
JP2008226162A true JP2008226162A (ja) 2008-09-25
JP5100162B2 JP5100162B2 (ja) 2012-12-19

Family

ID=39844650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007067267A Active JP5100162B2 (ja) 2007-03-15 2007-03-15 テキスト分析装置及びテキスト分析プログラム

Country Status (1)

Country Link
JP (1) JP5100162B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819596A (zh) * 2010-04-28 2010-09-01 烽火通信科技股份有限公司 一种基于内存的xml脚本缓存容器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819596A (zh) * 2010-04-28 2010-09-01 烽火通信科技股份有限公司 一种基于内存的xml脚本缓存容器

Also Published As

Publication number Publication date
JP5100162B2 (ja) 2012-12-19

Similar Documents

Publication Publication Date Title
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
Blodgett et al. Demographic dialectal variation in social media: A case study of African-American English
US10769552B2 (en) Justifying passage machine learning for question and answer systems
US7467079B2 (en) Cross lingual text classification apparatus and method
US9621601B2 (en) User collaboration for answer generation in question and answer system
Ferrández et al. Addressing ontology-based question answering with collections of user queries
US20060277028A1 (en) Training a statistical parser on noisy data by filtering
Spreafico et al. Neural data-driven captioning of time-series line charts
Atef et al. AQAD: 17,000+ arabic questions for machine comprehension of text
CN113204670A (zh) 一种基于注意力模型的视频摘要描述生成方法及装置
Gonzales Sociolinguistic analysis with missing metadata? Leveraging linguistic and semiotic resources through deep learning to investigate English variation and change on Twitter
JP5100162B2 (ja) テキスト分析装置及びテキスト分析プログラム
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
KR20230080849A (ko) 실시간 온라인 전문 강의용 주제 친화적 자막 생성 방법 및 시스템
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
KR20140056715A (ko) 계층적 카테고리를 기초로 하는 감성 분석을 위한 장치 및 이를 위한 방법
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
CN114722267A (zh) 信息推送方法、装置及服务器
JP6621437B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
Öhman et al. EmotionArcs: Emotion Arcs for 9,000 Literary Texts
JP2008287638A (ja) テキスト分析装置およびテキスト分析プログラム
CN118170919B (zh) 一种文学作品的分类方法及系统
Wang et al. Video description with integrated visual and textual information
CN118350368B (zh) 一种基于nlp技术的大语言模型的多文档摘编方法
Wojciechowska et al. Deep Dive into the Language of International Relations: NLP-based Analysis of UNESCO's Summary Records

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5100162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250