JP4933118B2

JP4933118B2 - 文章区間抽出装置及びプログラム

Info

Publication number: JP4933118B2
Application number: JP2006064508A
Authority: JP
Inventors: 一郎山田; 菊佳三浦; 英樹住吉; 伸行八木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-03-09
Filing date: 2006-03-09
Publication date: 2012-05-16
Anticipated expiration: 2026-03-09
Also published as: JP2007241739A

Description

本発明は、電子化されたテキストデータを対象とした、情報抽出及び自然言語処理に関し、特に、自然言語処理技術を利用することにより、テキストデータから、定型的な表現を含む文章区間を抽出する技術に関する。

現在、放送局では、番組情報を蓄積及び管理するシステムが普及しており、このシステムにより蓄積された番組情報が公開されたり、他の番組制作のために利用されたりしている。しかしながら、これらの蓄積情報は十分に活用されていない。例えば、デジタル放送において、映像に写っている被写体と映像内に被写体が写っているクローズドキャプションの区間を特定することができれば、蓄積した番組情報を、映像百科事典のような新たなコンテンツとして有効に活用することが可能となる。

テレビのナレーションでは、「場所紹介」や「人物紹介」等の特定の事象を表現するために同じような言い回しが多用される。例えば、表１に示すクローズドキャプション中では、矩形で囲まれた部分が、「場所」の説明として映像と共に提供されている。

具体的には、最初に、体言止めにより「オンフルール」という町の位置情報が説明され、次に、町の詳細を断定の助動詞「です」を用いて説明されている。したがって、この矩形で囲まれた部分は、「オンフルール」の町を紹介するという特定の事象を、定型的な表現を含む文章によって表されている。このような「場所を説明するための定型的な表現」が含まれる文章区間を抽出することにより、対応する番組やその映像に写っている被写体に、「場所：オンフルール」というメタデータを付与することができ、結果として、番組情報を有効活用することが可能となる。

このような状況の下で、テキストデータから所定の特徴を有する文章区間を自動抽出する研究が進められている。例えば、テキストデータに含まれる単語の出現頻度、単語の語彙的結束性、接続詞、及び修飾語等の表層的な手掛かりに基づいて内容の区切れ目を推定する手法が提案されている（非特許文献１を参照）。また、単語集合の特徴だけでなく、構文構造を考慮したテキスト解析の手法として、部分木を弱学習器としたブースティングアルゴリズムを用いる手法が提案され、製品レビュー文及び新聞記事のテキスト分類の実験がなされている（非特許文献２を参照）。

望月源、本田岳夫、奥村学、"複数の知識の組合せを用いたテキストセグメンテーション"、情処学会研究報、自然言語処理１０９−７、ｐｐ４７−５４、１９９５年９月１４日工藤拓、松本裕治、"半構造化テキストの分類のためのブースティングアルゴリズム"、情処論文誌、ｖｏｌ．４５、Ｎｏ．９、ｐｐ２１４６−２１５６、２００４年

しかしながら、前述の非特許文献１の手法では、単語情報を利用することにより文章区間を抽出しているから、単語の出現に大きな偏りが無い場合には精度良く処理することができないという問題があった。また、前述の非特許文献２の手法では、ノードの飛び越えを許さない部分木の完全一致を類似度判定の基準としているから、結果として局所的な部分木しか特徴として利用されないことが多いという問題があった。さらに、一つの文のみを対象としているから、複数の文章区間を抽出することが難しいという問題があった。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、複数文から構成されるテキストデータから、定型的な表現を含む文章区間を自動抽出することが可能な文章区間抽出装置及びプログラムを提供することにある。

上記課題を解決するため、本発明による文章区間抽出装置は、複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置であって、定型表現が含まれているか否かが予め設定された複数の文から成る学習データが記憶される記憶手段、該記憶手段から学習データを読み出し、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する木構造生成手段、前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、該木構造生成手段により生成された各木構造から、該キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する部分木抽出手段、及び、該部分木抽出手段により生成された部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習し、所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する学習手段を有する学習部を備え、前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出することを特徴とする。

また、本発明による文章区間抽出装置は、さらに、テキストデータからキーとなる単語を抽出する単語抽出手段、前記キーとなる単語を含む文と、その前の文、後ろ文、または前及び後ろの文とを合わせた文章区間を抽出する文章抽出手段、及び、該文章抽出手段により抽出された文章区間に対して、前記学習部に備えた学習手段により生成された関数に基づいて、定型表現が含まれる文章区間であるか否かを判定する判定手段を有する抽出部を備えたことを特徴とする。

また、本発明による文章区間抽出装置は、前記抽出部が、さらに、判定手段により定型表現が含まれる文章区間であると判定された第１の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第１の値、及び、判定手段により定型表現が含まれる文章区間であると判定された第２の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第２の値から、前記第２の値に係る前記第１の値からの増加値が所定の値より小さい場合に、前記第２の文章区間に冗長な文が含まれると判定し、前記第１の文章区間を、定型表現が含まれる文章区間として抽出する文章区間抽出手段を有することを特徴とする。

本発明を文章区間抽出装置として説明したが、本発明はこの文章区間抽出装置を構成するコンピュータによって実行されるプログラムとしても実質的に実現し得るものであり、本発明には、文章区間抽出プログラムも包含される。すなわち、本発明による文章区間抽出プログラムは、複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置による文章区間抽出プログラムであって、該装置を構成するコンピュータに、定型表現が含まれているか否かが予め設定された複数の文から成る学習データから、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する処理と、前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、前記各木構造から、該キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する処理と、前記部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習する処理と、所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する処理と、前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出する処理と、を実行させることを特徴とする。

以上のように、本発明によれば、複数文から構成されるテキストデータから、定型表現を含む文章区間を自動抽出することが可能となる。また、本発明は、キーとなる単語の情報に加えて、木構造及び部分木による構文構造の情報により、定型表現を含む文章区間を抽出するようにしたから、単語の出現に偏りがなくても文章区間の抽出が可能となり、前述した非特許文献１による問題を解決することができる。また、本発明は、ノードの飛び越えを許した部分木も対象とし、かつ複数文から成る木構造も対象として、類似度を算出し関数を生成しているから、ノードの飛び超えを許した部分木の特徴を利用し、複数文を対象とした文章区間の抽出が可能となり、前述した非特許文献２による問題を解決することができる。

以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
〔構成〕
まず、本発明の実施の形態による文章区間抽出装置の構成について説明する。図１は、文章区間抽出装置の構成を示すブロック図である。この文章区間抽出装置１は、学習データに基づいて部分木によって弱学習器を生成し、この生成した弱学習器を用いて機械学習を行うことにより、重み付き係数及び弱学習器から成る最終仮説情報を生成する学習部１０と、テキストデータからキーとなる単語及び文章区間を抽出し、学習部１０により生成された最終仮説情報に基づいて、定型的な表現が含まれる文章区間を特定する抽出部２０を備えている。

学習部１０は、木構造生成手段１１、部分木抽出手段１２、学習手段１３及び記憶手段１４，１５を備えている。記憶手段１４には、オペレータによって定型的な表現が含まれるか否かの正解データｙ_ｉ＝｛１，−１｝が付与されたテキスト集合｛（ｘ_１，ｙ_１），（ｘ_２，ｙ_２），・・・，（ｘ_Ｎ，ｙ_Ｎ）｝である学習データが格納されている。

木構造生成手段１１は、記憶手段１４から学習データを読み出し、既存の形態素解析装置・構文解析装置により、テキストｘ_１，ｘ_２，・・・，ｘ_Ｎの入力文を一文毎に構文解析し、複数文の構文木の根ノードの親として最上位ノードを生成し、複数文のテキストから一つの木構造を生成する（図３を参照、詳細は後述する）。すなわち、各文の根ノードの親ノードに最上位ノードを生成し、最上位ノードから各文の構文木へは順序付きのアークで結んだ木構造を生成する（図３を参照、詳細は後述する）。この構文解析手法は既知であるため、ここでは説明を省略する。詳細については、「工藤他、“チャンキングの段階適用による係り受け解析”、情処論、Ｖｏｌ．４３、Ｎｏ．６、ｐｐ．１８３４−１８４２（２００２）」の文献を参照されたい。

部分木抽出手段１２は、木構造生成手段１１により生成された木構造を入力し、この木構造に基づいて、キーとなる単語及び指定数以下のノードを含む部分木を抽出し（図４及び５を参照、詳細は後述する）、部分木と木構造との間の類似度を算出し、弱学習器を生成する。

学習手段１３は、部分木抽出手段１２により抽出された部分木毎の弱学習器を入力し、この部分木を弱学習器としたアダブースト（ＡｄａＢｏｏｓｔ）により、どの弱学習器が正例（定型表現が含まれる文章集合）及び負例（定型表現が含まれない文章集合）の分別力があるかを判定しながら各学習器に対する重み付き係数を学習し、重み付き係数及び弱学習器から成る最終仮説情報を生成する。この重み付き係数は、分別力が大きい学習器に対しては大きな値が学習され、分別力が小さい学習器に対しては小さな値が学習される。このアダブーストによるアルゴリズムは既知であるため、ここでは説明を省略する。詳細については、「Ｆｒｅｕｎｄ，Ｙ．ａｎｄＳｃｈａｐｉｒｅ，Ｒ．Ｅ．：Ａｄｅｃｉｓｉｏｎｔｈｅｏｒｅｔｉｃｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｏｎ−ｌｉｎｅｌｅａｒｎｉｎｇａｎｄａｎａｐｐｌｉｃａｔｉｏｎｔｏｂｏｏｓｔｉｎｇ，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒａｎｄＳｙｓｔｅｍＳｃｉｅｎｃｅｓ，Ｖｏｌ．５５，Ｎｏ．１，ｐｐ．１１９−１３９（１９６６）」の文献を参照されたい。

記憶手段１５には、学習手段１３により生成された最終仮説情報が格納される。この最終仮説情報は、木構造生成手段１１により読み出された学習データであるテキストｘ_１，ｘ_２，・・・，ｘ_Ｎの各木構造に対して、重み付けされた（重み付き係数が乗算された）全ての弱学習器により、定型表現が含まれるか否かを判断するための関数であり、抽出部２０により文章区間を特定する際に用いられる。

抽出部２０は、単語抽出手段２１、文章抽出手段２２、判定手段２３、文章区間抽出手段２４及び記憶手段２５を備えている。記憶手段２５には、文章区間を抽出する対象となる、複数文から構成されるテキストデータが格納されている。

単語抽出手段２１は、記憶手段２５からテキストデータを読み出し、定型的な表現を含む文章区間を抽出する際に、その定型的な表現に含まれるキーとなる単語を抽出する。例えば、「場所を説明するための定型的な表現」を含む文章区間を抽出する場合には、図示しない記憶手段に格納された形態素解析辞書に「地名」として登録されている用語を読み出し、その用語をキーとなる単語として、テキストデータからその単語を抽出する。

文章抽出手段２２は、単語抽出手段２１により抽出されたキーとなる単語が含まれる文とその前後の文とを合わせ、これらの文から成る文章の組み合わせを抽出する。例えば、テキストデータをＸ（＝Ｘ１，Ｘ２，Ｘ３，Ｘ４・・・，ＸＭ）とし、キーとなる単語が含まれる文をＸ３とすると、文章抽出手段２２により抽出される文章は、このＸ３の文とＸ３の文の前後の文とを組み合わせた文章である。具体的には、その組み合わせは、｛Ｘ３，Ｘ２＋Ｘ３，Ｘ３＋Ｘ４，Ｘ１＋Ｘ２＋Ｘ３，Ｘ２＋Ｘ３＋Ｘ４，Ｘ３＋Ｘ４＋Ｘ５，・・・｝となる。

判定手段２３は、文章抽出手段２２により抽出された文章（各組み合わせの文章）に対して、すなわちその文章区間（Ｘ３、Ｘ２＋Ｘ３等）に対して、定型的な表現が含まれるか否かを、記憶手段１５に格納された最終仮説情報に基づいて判定する。

文章区間抽出手段２４は、判定手段２３により、定型的な表現が含まれるものと判定された文章区間に対して、冗長な部分を除去し、定型的な表現が含まれる文章区間を特定する。

〔動作〕
次に、図１に示した文章区間抽出装置１の動作について説明する。図２は、文章区間抽出装置１の処理を説明するフローチャート図である。文章区間抽出装置１の木構造生成手段１１は、まず、記憶手段１４から学習データを読み出し、学習データを構成する文を入力文として構文解析し、木構造に変換する（ステップＳ２−１）。図３は、木構造生成手段１１により生成された木構造の例を示す図である。この木構造は、「セーヌ川を挟み、ル・アーブルの対岸に位置する港町、オンフルール。今なお中世の古い家並みが残る、町です。」という２つの入力文から生成されたものである。

次に、部分木抽出手段１２は、木構造生成手段１１により生成された木構造から、キーとなる単語及び指定数以下のノードを含む部分木を抽出する（ステップＳ２−２）。具体的には、キーとなる単語（図３の例では「オンフルール」）と指定数以下のノードを選択して抜き出し、選択されなかったノードにノードを飛ばしたことを示す記号（例えば＋）を与え、根ノードから選択したノードまでの木構造を部分木として抽出する。図４は、図３に示した木構造から抽出した部分木の例を示す図である。図４（ａ）（ｂ）は、キーとなる単語「オンフルール」及び２個のノードを含む部分木の例を、図４（ｃ）は、キーとなる単語「オンフルール」及び３個のノードを含む部分木の例を、図４（ｄ）は、キーとなる単語「オンフルール」及び５個のノードを含む部分木の例をそれぞれ示している。すなわち、部分木抽出手段１２は、例えば指定数を５とした場合に、キーとなる単語「オンフルール」及び指定数４以下のノードを含む部分木を、例えば図４（ａ）〜（ｄ）のように抽出する。

また、図４に示した部分木の例では、キーとなる単語の種類が自明であるから、部分木抽出手段１２は、部分木を抽出するに際し、単語表記そのものではなく、キーとなる単語と同じ概念に属する単語を上位概念に抽象化し、上位概念で表した単語表記により部分木を生成する。図５は、図４に示した部分木の単語を上位概念に抽象化した例を示す図である。図５に示すように、キーとなる単語「オンフルール」が上位概念である「（地名）」に、「セーヌ川」の上位概念「地名」であり、キーとなる単語と別の地名であるので「セーヌ川を」は「（別地名）を」になる。また、「町」「港町」は、地名の言い換え表現であるので、「（地言換）」に抽象化する。このように、部分木抽出手段１２は、キーとなる単語を含め、その概念に属する単語を上位概念に抽象化し、部分木を生成する。

また、部分木抽出手段１２は、抽出した部分木と木構造生成手段１１により生成された木構造との間の類似度を以下の式による算出する。ｓｉｍ（ｔ，ｘ）は部分木ｔと木構造ｘとの間の類似度を示す。

この類似度は、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、その各リスト構造が対象とする木構造に含まれる割合を基準として定義された度合いである。そして、部分木抽出手段１２は、類似度が一定値以上であるか否かを判断基準とすることにより、木構造ｘ及び閾値θ_ｔを変数に持つ弱学習器ｈ_ｔ（ｘ，θ_ｔ）を生成する。ここで、ｈ_ｔ（ｘ，θ_ｔ）＝１または−１である。

例えば、図４（ｄ）に示した部分木ｔと図６に示す木構造ｘとの間の類似度を算出する場合には、部分木ｔに含まれるリスト｛「位置する」，「（地名）」｝、｛「（地言換）」，「（地名）」，｝、｛「残る」，「（地言換）です」｝と、木構造ｘに含まれるリストとの間の類似性を以下ように算出する。

次に、学習手段１３は、部分木抽出手段１２により生成された弱学習器を用いて機械学習を行う（ステップＳ２−３）。図７は、図１に示した学習手段１３の処理を説明するフローチャートである。以下、学習手段１３の処理について説明する。学習手段１３は、部分木抽出手段１２により生成された弱学習器ｈ_ｔ（ｘ，θ_ｔ）を入力し、記憶手段１４から学習データ｛（ｘ_１，ｙ_１），（ｘ_２，ｙ_２），・・・，（ｘ_Ｎ，ｙ_Ｎ）｝（但しｙ_ｉ＝｛１，−１｝）を読み出し、学習データ（ｘ_ｉ，ｙ_ｉ）に与える重みＤ_ｔ（ｉ）を初期化する（ステップＳ７−１）。この場合、読み出した学習データの数はＮ個だから、初期値はＤ_１（ｉ）＝１／Ｎとなる。そして、学習手段１３は、残っている全ての弱学習器に対して以下の式によりエラーε_ｔを計算し（ステップＳ７−２）、エラーε_ｔが最も小さい弱学習器を選択し、処理対象からその弱学習器を除外する（ステップＳ７−３）。

学習手段１３は、ステップ７−３により除外した弱学習器以外の全ての弱学習器のエラーε_ｔから、学習データ（ｘ_ｉ，ｙ_ｉ）に与える重みＤ_ｔ（ｉ）を以下の式により更新する（ステップＳ７−４）。ここで、α_ｔは、部分木ｔの弱学習器に対する重み付き係数である。

学習手段１３は、弱学習器が残っていないかの判定を行い（ステップＳ７−５）、弱学習器が残っている場合はステップ７−２に戻る。弱学習器が残っていない場合は、以下の関数式Ｈ（ｘ）である最終仮説情報を生成し、記憶手段１５に格納する（ステップＳ７−６）。

この関数式Ｈ（ｘ）は、所定の木構造の文章ｘが、定型的な表現が含まれる文章区間であるか否かの判定処理に用いられる。ここで、Ｈ（ｘ）＝１または０であり、１の場合に木構造ｘは定型的な表現が含まれる文章区間であることを示し、０の場合に木構造ｘは定型的な表現が含まれる文章区間でないことを示す。このように、機械学習された重み付き係数α_ｔは、弱学習器ｈ_ｔ（ｘ，θ_ｔ）に対して与えられ、正例（定型表現が含まれる文章集合）及び負例（定型表現が含まれない文章集合）の分別力がある場合は大きい値が与えられ、分別力がない場合は小さい値が与えられることになる。

尚、図７に示したステップ７−５において、学習手段１３は、弱学習器が残っているか否かの判定を行っているが、このステップにて、学習データがどれだけ正確に分類できているかを判定するようにしてもよい。例えば、（６）式の計算を行い、学習データが９割以上正確に分類できているかを判定するようにしてもよい。

図２に戻って、学習手段１３が機械学習により各学習器に対する重み付き係数を学習し、最終仮説情報Ｈ（ｘ）を生成した後、抽出部２０は、学習データとは異なるテキストデータを記憶手段２５から読み出し、このテキストデータから、最終仮説情報Ｈ（ｘ）を用いて、定型的な表現が含まれる文章区間を抽出する。まず、単語抽出手段２１は、読み出したテキストデータからキーとなる単語を抽出する（ステップＳ２−４）。

次に、文章抽出手段２２は、単語抽出手段２１により抽出されたキーとなる単語が含まれる文とその前後の文とから成る文章の組み合わせを抽出する（ステップＳ２−５）。そして、判定手段２３は、その文章（文章区間）を木構造ｘとし、（６）式によりＨ（ｘ）を算出する。Ｈ（ｘ）＝１の場合、定型的な表現が含まれる文章区間であると判定する（ステップＳ２−６）。

しかし、負例（定型表現が含まれない文章集合）には特徴が少ないため、定型的な表現が含まれない文章区間が、定型的な表現が含まれる文章区間であると誤判定される可能性がある。そこで、Ｈ（ｘ）＝１を算出した文章に対して、図７に示したアダブーストの機械学習により判定を行う。すなわち、判定手段２３は、重み付き係数α_ｔを機械学習し、最終仮説情報Ｈ（ｘ）を生成し、判定を行う。この場合、学習で利用しなかった負例に対して誤って定型表現を含むと判定されたものから負例データを選択し、正例はそのままとした学習による最終仮説情報Ｈ（ｘ）を利用する。その処理を繰り返すことにより、精度向上を期待することができる。

また、文章区間抽出手段２４は、判定手段２３により定型的な表現が含まれるものと判定された文章区間に対して、冗長な部分を除去し、定型的な表現が含まれる文章区間を特定する。ある文章区間（Ｘ１＋Ｘ２）でＨ（ｘ）＝１と算出され、その前後の文を含めた文章区間（Ｘ１＋Ｘ２＋Ｘ３）においても同様にＨ（ｘ）＝１と算出される場合に、文章区間抽出手段２４は、Ｈ（ｘ）に含まれる関数の値Σα_ｔｈ_ｔ（ｘ，θ_ｔ）により定型的な表現が含まれる文章区間を判定し、文を追加してこの値が増加するときのみ、その文をＨ（ｘ）＝１と算出された文章区間（定型的な表現が含まれる文章区間）に追加する。すなわち、文章区間（Ｘ１＋Ｘ２）におけるΣα_ｔｈ_ｔ（ｘ，θ_ｔ）及び文章区間（Ｘ１＋Ｘ２＋Ｘ３）におけるΣα_ｔｈ_ｔ（ｘ，θ_ｔ）から増加値を求め、その増加値が予め設定された値よりも小さい場合に（増加が少ない場合に）、Ｘ３を冗長な部分とみなし、この冗長な部分Ｘ３を文章区間から除去し、文章区間（Ｘ１＋Ｘ２）を定型表現が含まれる文章区間であるものと特定する。これにより、ステップ２−４によりキーとなる単語が抽出され、ステップ２−５〜７により定型表現が含まれる文章区間が抽出される。

以上のように、本発明の実施の形態による文章区間抽出装置１によれば、学習部１０が、学習データに基づいて部分木の弱学習器を生成し、この生成した弱学習器を用いて機械学習を行うことにより、重み付き係数及び弱学習器から成る最終仮説情報を生成し、抽出部２０が、テキストデータから文章を抽出し、この最終仮説情報に基づいて、定型的な表現が含まれる文章区間を特定するようにした。これにより、複数文から構成される文章から、定型的な表現が含まれる文章区間を自動抽出することができる。例えば、テレビ番組のナレーションでは、「場所紹介」や「人物紹介」等の特定の事象を表現するために同じような言い回しが用いられることが多い。文章区間抽出装置１を用いることにより、クローズドキャプションからこのような文章区間を抽出することができ、対応する番組映像区間に場所情報や人物情報等のメタデータを効果的に付与することができる。さらに、複数文で構成される文章データの類似性も判定することができるので、インターネットの検索手法としても有効となる。

尚、文章区間抽出装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。文章区間抽出装置１に備えた木構造生成手段１１、部分木抽出手段１２、学習手段１３、単語抽出手段２１、文章抽出手段２２、判定手段２３及び文章区間抽出手段２４の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク（フロッピィーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもできる。

以上、実施の形態を挙げて本発明を説明したが、本発明は上記実施の形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図１に示した文章区間抽出装置１は、１台のコンピュータ装置により構成されるが、これに限定されるものではなく、学習部１０と抽出部２０とをそれぞれ異なるコンピュータに備え、ネットワークを介して接続するように構成してもよい。また、記憶手段１４、記憶手段１５及び記憶手段２５を他のコンピュータに備え、またはこれらの記憶手段の一部を他のコンピュータに備え、ネットワークを介して接続するように構成してもよい。

本発明の実施の形態による文章区間抽出装置の構成を示すブロック図である。図１の文章区間抽出装置の処理を説明するフローチャート図である。木構造の例を示す図である。部分木の例を示す図である。単語を上位概念に抽象化した部分木の例を示す図である。他の木構造の例を示す図である。図１の学習手段の処理を説明するフローチャートである。

符号の説明

１文章区間抽出装置
１０学習部
１１木構造生成手段
１２部分木抽出手段
１３学習手段
１４，１５，２５記憶手段
２０抽出部
２１単語抽出手段
２２文章抽出手段
２３判定手段
２４文章区間抽出手段

Claims

複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置であって、
定型表現が含まれているか否かが予め設定された複数の文から成る学習データが記憶される記憶手段、
該記憶手段から学習データを読み出し、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する木構造生成手段、
前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、該木構造生成手段により生成された各木構造から、該キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する部分木抽出手段、及び、
該部分木抽出手段により生成された部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習し、所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する学習手段を有する学習部を備え、
前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出することを特徴とする文章区間抽出装置。
請求項１に記載の文章区間抽出装置において、
さらに、テキストデータからキーとなる単語を抽出する単語抽出手段、
前記キーとなる単語を含む文と、その前の文、後ろ文、または前及び後ろの文とを合わせた文章区間を抽出する文章抽出手段、及び、
該文章抽出手段により抽出された文章区間に対して、前記学習部に備えた学習手段により生成された関数に基づいて、定型表現が含まれる文章区間であるか否かを判定する判定手段を有する抽出部を備えたことを特徴とする文章区間抽出装置。
請求項２に記載の文章区間抽出装置において、
前記抽出部は、さらに、判定手段により定型表現が含まれる文章区間であると判定された第１の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第１の値、及び、判定手段により定型表現が含まれる文章区間であると判定された第２の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第２の値から、前記第２の値に係る前記第１の値からの増加値が所定の値より小さい場合に、前記第２の文章区間に冗長な文が含まれると判定し、前記第１の文章区間を、定型表現が含まれる文章区間として抽出する文章区間抽出手段を有することを特徴とする文章区間抽出装置。
複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置による文章区間抽出プログラムであって、該装置を構成するコンピュータに、
定型表現が含まれているか否かが予め設定された複数の文から成る学習データから、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する処理と、
前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、前記各木構造から、該キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する処理と、
前記部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習する処理と、
所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する処理と、
前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出する処理と、
を実行させる文章区間抽出プログラム。