JP5100162B2

JP5100162B2 - テキスト分析装置及びテキスト分析プログラム

Info

Publication number: JP5100162B2
Application number: JP2007067267A
Authority: JP
Inventors: 一郎山田; 菊佳三浦; 英樹住吉; 伸行八木; 淳松井; 洋平中田; 隆松本
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-03-15
Filing date: 2007-03-15
Publication date: 2012-12-19
Anticipated expiration: 2027-03-15
Also published as: JP2008226162A

Description

本発明は、電子化されたテキストデータを対象とした、テキスト分析装置及びテキスト分析プログラムに関する。特に、電子化されたテキストを解析することにより情報を抽出するためのテキスト分析装置及びテキスト分析プログラムに関する。

現在、インターネットに接続されたサーバ装置が様々な情報を提供しているが、それらの多くはテキストデータであり、全体としては膨大な量のテキストデータにアクセスできるようになっている。また、放送局では、番組のクローズドキャプションのデータが大量に蓄積され、これらが公開されたり、他の番組の制作に利用されたりしている。番組のクローズドキャプションの一例として「・・・・・・やっぱり絵を描かなくて良かったかもしれませんね。セーヌ川を挟み、ル・アーブルの対岸に位置する港町、オンフルール。今なお中世の古い家並みが残る町です。１８歳の時、モネは、パリに出て画家を目指しますが、美術学校の入学試験に合格しませんでした。実家に戻る事を強要した父親の意向に反して、なおも、・・・・・・」というテキストデータがあったとき、このテキストの中の一部は、「オンフルール」という町を、ある定型的な表現によって説明している。つまり、場所を説明する定型的表現が用いられている。この定型的表現を自動的に抽出することができれば、その番組映像の対応箇所あるいは写されている被写体に、「場所：オンフルール」というメタデータを自動的に付与することが出来、この情報を有効に活用することが出来る。

上記の例のような、テキストデータから所定の特徴を有する文章区間を自動的に抽出するための研究が行なわれている。例えば、非特許文献１では、テキストデータに含まれる単語の出現頻度、単語の語彙的結束性、接続詞、及び修飾語等の表層的な手がかりに基づいて内容の区切れ目を推定する手法が提案されている。また、非特許文献２では、単語集合の特徴だけでなく、構文構造を考慮したテキスト解析の手法として、部分木を弱学習器としたブースティングアルゴリズムを用いる手法が提案され、製品レビュー文及び新聞記事のテキスト分類の実験がなされている。

望月源、本田岳夫、奥村学，「複数の知識の組合せを用いたテキストセグメンテーション」，情処学会研究報，１９９５年９月１４日，自然言語処理１０９−７，ｐ．４７−５４工藤拓、松本裕治，「半構造化テキストの分類のためのブースティングアルゴリズム」，情処論文誌，２００４年，Ｖｏｌ．４５，Ｎｏ．９，ｐ．２１４６−２１５６

しかしながら、前述の非特許文献１の手法では、単語情報を利用することにより文章区間を抽出しているから、単語の出現に大きな偏りがない場合には精度良く処理することが出来ないという問題があった。また、前述の非特許文献２の手法では、ノードの飛び越えを許さない部分木の完全一致を類似度判定の基準としているから、結果として局所的な部分木しか特徴として利用されないことが多いという問題があった。さらに、一つの文のみを対象としているから、複雑な文章区間を抽出することが難しいという問題があった。

また特に、複数文のテキストデータを構文解析して得た木構造から部分木を生成する場合には、部分木の量が莫大となるが、これら部分木から適切なものを選択して学習処理をするには時間を要することも考えられる。特に、ブースティングにより莫大な量の部分木から最適な部分木を選択するための時間は相当長くなる。また、最適な一つの部分木を選択する方法では、学習データによっては良い判定器が得られるかどうか、バラツキが出る。

本発明は、上記の課題認識に基づいて行なわれたものであり、複数文から構成されるテキストデータから、定型的な表現を含む文章区間を自動抽出することが可能なテキスト分析装置及びテキスト分析プログラムを提供することを目的とする。また特に、複数の文を対象として文章区間を抽出するために、学習データに基づいて学習処理をする手法を採用する場合に、構文の複雑さゆえに学習処理に時間がかかることも考えられるが、本発明は、学習処理を効率的に短時間で行なえるテキスト分析装置及びテキスト分析プログラムを提供することを目的とする。

［１］上記の課題を解決するため、本発明の一態様によるテキスト分析装置は、学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部と、検索対象の文章区間であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第１木構造生成部と、生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成部と、前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理部と、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第２木構造生成部と、前記第２木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部を備えることを特徴とする。
これにより、第１木構造生成部は、学習データに基づく構文木を生成する。そして、弱学習器生成部は上記構文木の部分木に対応する弱学習器を生成する。そして、学習処理部は、学習データに含まれる情報、即ち学習データに含まれる文章区間が検索対象の文章区間であるか否かの情報を利用して、学習処理を行なう。学習処理の結果、学習データに対応した最終仮説情報が得られる。判定処理部は、この最終仮説情報を用いて、判定対象のテキストデータに含まれる文章区間が前記検索対象に該当するか否かを判定できる。
本発明の一態様においては、学習データは正例と負例とを含む。この場合、「前記学習データを用いて」とは、文章区間が正例に含まれるか負例に含まれるかの情報（正解情報）を用いる。
判定処理部が「文章区間が前記検索対象に該当するか否かを判定できる」とは、例えば、その文章区間が特定の定型的な表現であるか否か、あるいは、その文章区間がある文章ないしは文章の集合に類似であるか否かなどといった判定を行なえることである。

［２］また、本発明の一態様は、前記のテキスト分析装置において、前記学習処理部は、事前確率値を計算しこの事前確率値に応じて前記弱学習器生成部によって生成された複数の前記弱学習器からサンプリングし、このサンプリングの結果に応じて前記学習データに基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成することを特徴とするものである。

［３］また、本発明の一態様は、前記のテキスト分析装置において、前記学習処理部は、前記弱学習器に対応する部分木に属するノードの前記構文木の根ノードからの深さに基づいて前記事前確率値を計算することを特徴とするものである。
これにより、構文木の根ノードに近いノードを有する部分木に対応する弱学習器が選択される確率を高めるようにすることができる。

［４］また、本発明の一態様は、前記のテキスト分析装置において、前記学習処理部は、前記弱学習器に対応する部分木に属する複数のノード間の前記構文木における距離に基づいて前記事前確率値を計算することを特徴とするものである。
これにより、構文木における相互の距離が近いノードを有する構文木に対応する弱学習器が選択される確率を高めるようにすることができる。

［５］また、本発明の一態様によるテキスト分析装置は、検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部と、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成部と、前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部を備えることを特徴とする。
これにより、判定処理部は、最終仮説情報記憶部に記憶されている最終仮説情報を読み出して、判定対象のテキストデータに含まれる文章区間が前記検索対象に該当するか否かを判定できる。

［６］また、本発明の一態様によるテキスト分析プログラムは、学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部を備えるコンピュータに、検索対象の文章区間であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第１木構造生成過程と、生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成過程と、前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理過程と、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第２木構造生成過程と、前記第２木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程の各過程の処理を実行させるものである。

［７］また、本発明の一態様によるテキスト分析プログラムは、検索対象の文章区間であるか否かの情報を含む学習データを用いて生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって得られた最終仮説情報を記憶している最終仮説情報記憶部を備えるコンピュータに、判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する木構造生成過程と、前記木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程の各過程の処理を実行させるものである。

本発明によれば、複数文のテキストデータを構文解析して生成した木構造から、莫大な量の部分木を抽出し、この部分木から弱学習器を生成する。その中から莫大な量の弱学習器の有効性（事前確率）を事前に決定し、この有効性を元にした弱学習器サンプリングを行なう。弱学習器サンプリング処理では、最適なものを選択する処理は行わず、事前に決定している有効性の事前分布に基づいて取り出すため、処理時間は少なくなる。つまり、テキストデータの必要な構造だけを効果的にサンプリングするために、学習時間は短くて済む。そして、サンプリングの結果に基づいて学習処理を行なう。
また、本発明によれば、選択された弱学習器の系列を一つでなく複数作成するため、頑健な判定器を作成できる。

以下、本発明の実施の形態について、図面を参照しながら説明する。
図１は、本実施形態のテキスト分析装置の機能構成を示すブロック図である。図示するテキスト分析装置１は、内部に、構文解析部９と、木構造生成部１１（第１木構造生成部）と、弱学習器生成部１２と、学習処理部１３と、最終仮説情報記憶部１５と、構文解析部２９と、木構造生成部３１（第２木構造生成部）と、判定処理部３３とを備えている。また、これら各部から学習データ（正例および負例）１４やテキストデータ３５にアクセス可能となっている。このテキスト分析装置１では、学習データ１４に基づいて構文解析部９が構文解析処理を行なった結果によって木構造生成部１１が構文木を生成し、弱学習器生成部１２はその部分木によって弱学習器を生成し、この生成した弱学習器を用いて学習処理部１３が機械学習を行ない、学習処理部１３の結果得られる最終仮説情報を最終仮説情報記憶部１５に書き込む。また、判定対象のテキストデータ３５に基づいて構文解析部２９が構文解析処理を行なった結果によって木構造生成部３１が構文木を生成し、判定処理部３３は最終仮説情報記憶部１５から読み出した最終仮説情報と木構造生成部３１が生成した構文木により、テキストデータ３５中の文章区間が特定の定型的表現を含んでいるか否かを判定する。そして、判定処理部３３は、その判定結果を出力する。あるいは判定処理部３３は、特定の定型的表現を含む文章区間のみを類似文章として抽出し、出力する。つまり、判定処理部３３は、構造生成部３１が生成した木構造と最終仮説情報記憶部１５から読み出した前記最終仮説情報とに基づき、文章区間が検索対象に該当するか否かを判定する。

なお、最終仮説情報記憶部１５は例えばハードディスクドライブ等のコンピュータから読み書き可能な記憶装置を用いて構成する。学習データ１４やテキストデータ３５も同様の記憶装置に記憶されている。

テキスト分析装置１を構成する各部の概略は次の通りである。
構文解析部９は、学習データ１４を読み出し、字句解析、形態素解析、構文解析の各処理を行なうことにより学習データ内の文章を一文ごとに構文解析する。入力文を一文ごとに構文解析した結果、複数文の構文木が生成される。木構造生成部１１は、上記の構文解析の結果に基づき、複数文を一つにまとめた構文木を生成する。これは、各文の構文木の根（ルート）ノードの親ノードに相当する最上位ノードを生成し、一つの文章区間に含まれる複数文のテキストから単一の木構造を生成する。弱学習器生成部１２は、木構造生成部１１によって生成された構文木から、指定数以下のノードを含む部分木を抽出し、部分木から入力データに対して２値に判別する複数の弱学習器を生成する。

学習処理部１３は、生成された弱学習器を利用したギブスブースト学習アルゴリズム（ＧｉｂｂｓＢｏｏｓｔ）による学習処理を行なう。具体的には、学習処理部１３は上で部分木から生成された複数の弱学習器から、その部分木の各ノードの位置による選ばれやすさを事前確率として与え、その事前確率に従って弱学習器を選択する。そして、弱学習器の重みを計算しながら複数の系列を生成し、最終仮説情報を作成する。そして、作成された最終仮説情報は最終仮説情報記憶部１５に書き込まれる。

一方で構文解析部２９は、テキストデータ３５を読み出し、これに基づき、構文解析部９と同様の構文解析処理を行なう。そして、木構造生成部３１は、構文解析部２９の処理の結果に基づき、木構造生成部１１と同様の処理により構文木を生成する。判定処理部３３は、最終仮説情報記憶部１５から読み出す最終仮説情報により、木構造生成部３１が生成した構文木を判定し、対応するテキストが検索対象文章に類似しているか（つまり、特定の定型的表現を含むか）検索非対象文章に類似しているかを判定し、その判定結果を出力する。

次に具体的な処理手順を説明する。図２は、本実施形態のテキスト分析装置１の各部による処理の手順を示す概略図である。まずステップＳ２−１からＳ２−７までの学習処理について説明する。
入力される学習データは、正例と負例とをほぼ同量含んでいる。正例は、特定の定型的表現を含む検索対象文章の集合である。負例は、前記の特定の定型的表現を含まない、検索非対象文章の集合である。つまり、学習データに含まれる文章が正例であるか負例であるかは既知情報として与えられる。即ち、学習データは、その文章区間が検索対象の文章区間であるか否かの情報を含む。
まず、ステップＳ２−１において、構文解析部９が、入力された日本語によるテキストを構文解析し木構造に変換する。これにより、それぞれの文に対応する構文木が生成される。この構文木の各ノードは、その文に含まれる文節に対応する。
次に、ステップＳ２−２（第１木構造生成過程）において、木構造生成部１１は、各文の構文木の根ノードに対する親ノードとして最上位ノードを生成し、この最上位ノードから各文の構文木の根ノードへは順序付きのアークで結んだ木構造を生成する。この木構造については、後で図３を参照しながら説明する。

次に、ステップＳ２−３（弱学習器生成過程）において、弱学習器生成部１２は、上で生成された木構造から指定数以下のノードを含む部分木を抽出する。この部分木の構造等については、後で図４を参照しながら説明する。そして、定義された類似度を用いて入力データに対して２値の判別を行なう弱学習器を、抽出された部分木に対応して作成する。なお、部分木ｒと入力データの木構造ｘとの類似度ｓｉｍ（ｒ，ｘ）は、次の式（１）により定義される。

式（１）における文の出現順序の差に与えるペナルティ値Ｃは、例えば０．５とする。また、文の出現順序の差ｄは、複数文からなる構文木と部分木を比較するときに生じるもので、複数の組み合わせの可能性がある場合は、その最大値をｓｉｍ（ｒ，ｘ）とする。この類似度が一定値以上か否かを判断基準とすることによる弱学習器ｈ（ｘ；ｒ，φ_r）を生成する。ここで、ｈ（ｘ；ｒ，φ_r）＝１または−１である。この弱学習器は、入力ｘに対して部分木ｒと閾値φ_rを変数に持つものである。このステップにおいて弱学習器は複数（例えば、１０万個）生成される。

次に、ステップＳ２−４において、学習処理部１３は、上で生成された弱学習器のサンプリングを行なう。つまり、生成された複数の弱学習器の中から、弱学習器の基となる部分木の各ノードの位置による事前確率に応じた選択を行なう。
構文木では、各文の木の根ノードに主節の述部があり、その下のノードには、主節の述部に直接係る連体節または主節の格要素が位置する。これらは文を比較する上で重要な要素である。そこで、弱学習器のサンプリングに用いる事前確率は、根ノードに近いノードほど選択される確率が高くなり、さらに、選択されたノード間の距離が近いほど選択される確率が高くなるようにする。部分木θの事前分布は、次の式（２）により計算される。

つまり、式（２）によって計算される確率値は、弱学習器に対応する部分木に属するノードの構文木の根ノードからの深さに基づくものであり、また、弱学習器に対応する部分木に属する複数のノード間の前記構文木における距離に基づくものである。
学習データの正例の構文木から生成された大量の弱学習器に対して、式（２）の確率値を利用して一定数Ｍ個（例えば、５００個）をサンプリングする。このサンプリングにより選ばれる確率は式（２）で計算される確率値に比例する。つまり、式（２）の確率値が２倍になると選ばれる確率は２倍となり、式（２）の確率値が半分になると選ばれる確率は半分となる。

次に、ステップＳ２−５において、学習処理部１３は、ギブスブースト学習アルゴリズムを用いて弱学習器の選択を行なう。この処理では、学習処理部１３は、弱学習器のうちの一定数であるＭ個（例えば５００個）の弱学習器だけを選択し、それまでに選ばれた系列の後ろに繋げ新たな系列を生成する。この系列は、最初の処理では一つの弱学習器からなり、次の処理では、それまでの弱学習器の系列が、どの程度有効であるかを示す重要度ウェイト（ＩｍｐｏｒｔａｎｃｅＷｅｉｇｈｔ）ｗ^(j)の値により、確率的に系列が選択され、新たな弱学習器が繋がれる。このステップＳ２−５は、ステップＳ２−６とＳ２−７からなる。

ステップＳ２−６においては、学習処理部１３は、下の式（３）により、弱学習器の系列がどの程度有効であるかを示す重要度ウェイトｗ^(j)の値を計算する。

ここで、Θ_tは、ｔ番目の弱学習器の信頼度α_tと、ｔ番目にどの弱学習器を選択するかを決めるパラメータθ_tからなり（Θ_t：＝（α₁，・・・，α_t，θ₁，・・・，θ_t））、その出現確率を与えるＰ_t（Θ_t ^(j)；β_t）は、次の式（４）で定められる。

式（４）において、β_tは、統計力学における温度の逆数を示す係数であり、確率分布Ｐ_t（Θ_t）の分散を抑制する。β_tが大きい場合にはΘ_tは損失関数の和が小さくなるような値に集中し、β_tが小さい場合にはπ（Θ_t）と似た分布となる。既存のアニーリング手法のどのような値でも利用できる。例えばＣａｕｃｈｙａｎｎｅａｌｉｎｇをベースとした値β_t＝０．７（ｔ＋１）などが利用できる。
上のπ（Θ_t）は、パラメータΘ_tに対する事前確率分布であり、下の式（５）により定義される。

式（５）において、π_θ（θ_t'）は、ｔ’番目の弱学習器の候補を選択する事前分布であり、前記の式（２）により決定する。π_α（α_t'）はｔ’番目の弱学習器の信頼度に対する事前分布であり、ここでは正規分布と定める。
式（３）におけるＱ（Θ_t）＝Ｑ（θ_t）Ｑ（α_t）で、Ｑ（θ_t）＝π_θ（θ_t）とし、選ばれた弱学習器の信頼度を決定する提案分布提案分布Ｑ（α_t）は学習データに対するエラーレートから算出する。

ステップＳ２−７においては、学習処理部１３は、弱学習器系列のサンプリングをする。つまり、式（３）の重要度ウェイトの値によって、利用する弱学習器の系列をＩ個だけ決定する。この選択数Ｉは、サンプリングした弱学習器の数Ｍと同数でも良いし、他の値でもよい。重要度ウェイトの値が高い系列ほど、次の処理でも利用される確率が高くなる。重要度ウェイトの値が２倍になれば選択される確率も２倍となり、重要度ウェイトの値が半分になれば選択される確率も半分となる。ステップＳ２−７の処理により、順次、Ｉ個の系列に、選択された弱学習器が繋がれる。

そして、さらに、改めてＭ個の弱学習器をサンプリングし（ステップＳ２−４）、重要度ウェイトを算出し（ステップＳ２−５）、Ｉ個の系列を重要度ウェイトにより選択する（ステップＳ２−６）という同様の処理を計Ｔ回繰り返すことにより、Ｔ個の弱学習器の系列がＩ個出来る。この、選択されたＩ個の系列については、後で図５を参照しながら説明する。
以上の処理により、各々がＴ個の弱学習器で構成されるＩ個の系列が生成されたが、これらＩ個の系列を用いて２値判別する最終仮説は、下の式（６）により示される。

式（６）において、ｈ^(j)（ｘ；θ_t'）は、ｊ番目の系列のｔ’番目の弱学習器である。また、α_t' ^(j)は、ｊ番目の系列のｔ’番目の弱学習器に対する信頼度を表す係数である。
学習処理部１３は、この最終仮説の情報を最終仮説情報記憶部１５に書き込む。ここで最終仮説情報記憶部１５に記憶される最終仮説情報とは、具体的には、学習済みのＩ個の系列それぞれに属する各弱学習器についての、対応する部分木の情報と、閾値θ_tの値と、信頼度α_t' ^(j)の値である。
以上まとめると、学習処理部１３は、学習データを用いて、生成された複数の弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成する。具体的には、学習処理部３３は、事前確率値を計算しこの事前確率値に応じて弱学習器生成部１２によって生成された複数の弱学習器からサンプリングし、このサンプリングの結果に応じて学習データ１４に基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成する。

そして、ステップＳ２−８において、判定処理部３３は、最終仮説情報記憶部１５から読みｄ下最終仮説の情報を用いて、入力されたテキストデータが検索対象文章に類似しているか、検索非対象文章に類似しているかを判定し、検索対象文章に類似している文章を出力する。なお、判定処理部３３の処理に関する詳細については、後で図６を参照しながら説明する。

図３は、木構造生成部１１により生成された木構造の例を示す概略図である。図示する木構造は、「セーヌ川を挟み、ル・アーブルの対岸に位置する港町、オンフルール。今なお中世の古い家並みが残る、町です。」という入力文から生成された例である。２つの文の根ノードの上位に最上位ノード（丸印）が設けられている。装置内では、この木構造は、適宜、ＸＭＬ形式等の構造を有するテキストデータあるいはポインタを使ったバイナリデータなどで表現される。

図４は、図３で示した構文木から弱学習器生成部１２によって抽出された部分木の例を示す概略図である。図４の（ａ）および（ｂ）は他の２個のノードを含む部分木の例を示す。同（ｃ）は３個のノードを含み、（ｄ）は４個のノードを含む。弱学習器生成部１２は、例えば、指定数５が指定されたときには、指定数以下のノード数の部分木（図４の（ａ）〜（ｄ）など）を抽出する。

図５は、学習処理部１３によってサンプリングされる弱学習器の概要を示す概略図である（図２のステップＳ２−４からＳ２−７、即ち学習処理過程）。既に述べたように、学習処理部１３は、ｔ＝１からｔ＝Ｔまで、Ｍ個の弱学習器のサンプリング、重要度ウェイトの算出、Ｉ個の系列（その各々の系列は、途中段階ではｔ個の弱学習器の系列）の選択を繰り返す。その基となるのは、図５の中でも示される大量の弱学習器候補であり、これらの候補は弱学習器生成部１２で生成されたものである。あるｔ（１からＴ−１まで）において、サンプリングされたＭ個の弱学習器に対して、それぞれｗ^(j)が計算されている（１≦ｊ≦Ｍ）。図中で網掛けされた弱学習器が、最終的に選択された弱学習器となっている。最終的にｔ＝Ｔの段階で、Ｉ個の系列が選択されている。

図６は、テキストデータ３５に含まれる文章が、検索対象文章に類似しているか検索非対象文章集合に類似しているかを判定する処理手順を示すフローチャートである。同図に示す手順では、複数文章を含むテストデータを入力とし、まずステップＳ６−１において、構文解析部２９がこのテストデータの構文解析を行う。そしてステップＳ６−２（第２木構造生成過程）において、木構造生成部３１が木構造を生成する。次にステップＳ６−３において、判定処理部３３が生成された木構造を基に式（６）により判定値を計算する。そして、ステップＳ６−４において判定処理部３３は、判定値が正か負かによって二値判断を行なう。即ち、その判定値が正であれば当該文章は検索対象文章に類似している（つまり、検索対象文章集合に属する）と判定し、判定値が負であれば検索非対象文章に類似している（つまり、検索非対象文章集合に属する）と判定する（ステップＳ６−３およびＳ６−４が、判定処理過程）。

本実施形態の応用としては、例えば、上記の判定結果に応じてテキストに所定のメタデータなどを付与する構成を追加しても良い。これにより、大量のテキストから、例えば場所を表わす文章など特定の対象の文章のみを検索し、検索対象に類似していると判定された文章に自動的にメタデータを付与することも可能となる。

図７は、実データを用いて本実施形態によるテキスト分析装置を評価した結果を示す判定評価結果の表である。テレビ番組のクローズドキャプション（テキスト）から、映像とともに場所を説明している定型的な文章区間１５４区間を人手により抜き出して正例とした。また、負例についても同クローズドキャプションから人手により１５４区間を抜き出した。そして、これら正例および負例をそれぞれ２つのグループに分け、一方のグループを学習データとし、他方をテストデータとしたクロスバリデーション実験を行なった。また、比較対象としてアダブースト（ＡｄａＢｏｏｓｔ）による方法でも同様の評価を行なった。図示するように、実験結果によると、本実施形態によるテキスト分析装置は、定型的な文章での正解率は８５．２％、定型的でない文章での正解率は９２．５％、全体では８８．８％であった。つまり、比較対象の形態と比べて、定型的な文章でより優れた正解率が得られ、全体でもやや優れた正解率が得られた。

一方で、学習に要した時間では本実施形態による装置のほうが格段に良い結果が得られた。具体的には、当該実験を一般的なパーソナルコンピュータのシステム（２ＣＰＵで、クロック周波数は２．８０ＧＨｚ（ギガヘルツ））を用いて行なったところ、本実施形態（ギブスブースト）のテキスト分析装置が学習処理に要した平均時間（ＣＰＵ時間）が４分３０秒であったのに対して、比較対象の形態（アダブースト）による平均学習時間（ＣＰＵ時間）は３２５分４８秒であった。
つまり、本実施形態と比較対象の形態とでは、本実施形態のほうが同程度ないしはやや良い正解率が得られ、学習処理に要する時間は本実施形態のほうが格段に短い（比較対象形態の約１．４％）。つまり、本実施形態によるテキスト分析装置の学習処理効率の圧倒的な良さが実証された。

以上から明らかなように、本発明により、複数文から構成される文章の類似性を効率的に評価することができるようになる。テレビ番組のナレーションでは、場所紹介や人物紹介など特定の事柄を表現するために類似の言い回しが多用される。従って、例えば番組のクローズドキャプションからこのような文章区間を抽出することが可能となり、対応する番組映像区間に場所情報や人物情報などのメタデータを効果的に付与することが可能となる。テレビの受信機に内蔵して、視聴者の興味を持った番組のＥＰＧなどの情報と類似するほかの番組を大量の放送番組の中から探し出し提示する機能としても利用できる。さらには、複数の文で構成される文章データの類似性を判定できるので、インターネットの検索手法としても有効である。

なお、上述した実施形態におけるテキスト分析装置をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

例えば、前記の実施形態では学習データ１４に基づく解析および学習処理部１３と、テキストデータ３５および最終仮説情報記憶部１５に記憶された最終仮説情報に基づく判定処理部３３の両方を含む構成のテキスト分析装置としていたが、予め学習データに基づく学習処理を済ませている場合には、構文解析部９と木構造生成部１１と弱学習器生成部１２と学習処理部１３とを省略し、学習処理によって得られている最終仮説情報を最終仮説情報記憶部１５に記憶させておき、この最終仮説情報に基づいてテキストデータ３５を対象とする判定を判定処理部３３が行なうようにしても良い。

本発明の実施形態によるテキスト分析装置の機能構成を示したブロック図である。本発明の実施形態による処理（主として学習処理まで）の手順を示す概略図である。本発明の実施形態により木構造生成部が生成した木構造の例を示す概略図である。本発明の実施形態により弱学習器生成部が生成した部分木の例を示す概略図である。本発明の実施形態による弱学習器のサンプリングの概要を示した概略図である。本発明の実施形態による処理（テストデータの解析と判定）の手順を示す概略図である。本発明の実施形態による判定処理を評価した結果を表わす表である。

符号の説明

１テキスト分析装置
１１木構造生成部（第１木構造生成部）
１２弱学習器生成部
１３学習処理部
１４学習データ
１５最終仮説情報記憶部
３１木構造生成部（第２木構造生成部）
３３判定処理部
３５テキストデータ

Claims

学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部と、
検索対象であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第１木構造生成部と、
生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成部と、
前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理部と、
判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第２木構造生成部と、
前記第２木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理部と、を備え、
前記学習処理部は、事前確率値を計算しこの事前確率値に応じて前記弱学習器生成部によって生成された複数の前記弱学習器からサンプリングし、このサンプリングの結果に応じて前記学習データに基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成する
ことを特徴とするテキスト分析装置。
前記学習処理部は、前記弱学習器に対応する部分木に属するノードの前記構文木の根ノードからの深さに基づいて前記事前確率値を計算することを特徴とする請求項１に記載のテキスト分析装置。
前記学習処理部は、前記弱学習器に対応する部分木に属する複数のノード間の前記構文木における距離に基づいて前記事前確率値を計算することを特徴とする請求項１または請求項２に記載のテキスト分析装置。
学習の結果得られる最終仮説情報を記憶する最終仮説情報記憶部を備えるコンピュータに、
検索対象の文章区間であるか否かの情報を含む学習データを構文解析した結果に基づき木構造を生成する第１木構造生成過程と、
生成された前記木構造から複数の部分木を抽出して各部分木に対応する弱学習器を生成する弱学習器生成過程と、
前記学習データを用いて、生成された複数の前記弱学習器を基にギブスブースト学習アルゴリズムによる学習処理を行なって最終仮説情報を作成し、この最終仮説情報を前記最終仮説情報記憶部に書き込む学習処理過程と、
判定対象のテキストデータを構文解析した結果に基づき前記テキストデータに含まれる文章区間に対応する木構造を生成する第２木構造生成過程と、
前記第２木構造生成部が生成した木構造と前記最終仮説情報記憶部から読み出した前記最終仮説情報とに基づき、前記文章区間が前記検索対象に該当するか否かを判定する判定処理過程と、の各過程の処理を実行させるテキスト分析プログラムであって、
前記学習処理過程では、事前確率値を計算しこの事前確率値に応じて前記弱学習器生成過程において生成された複数の前記弱学習器からサンプリングし、このサンプリングの結果に応じて前記学習データに基づき弱学習器の重要度ウェイトの値を算出し、算出された前記重要度ウェイトの値に応じて弱学習器の系列を繋ぐ処理を複数回繰り返すことにより、複数個の弱学習器からなる系列を複数個生成し、この複数個の系列に対応して前記最終仮説情報を作成する、
テキスト分析プログラム。