JP4933118B2 - 文章区間抽出装置及びプログラム - Google Patents

文章区間抽出装置及びプログラム Download PDF

Info

Publication number
JP4933118B2
JP4933118B2 JP2006064508A JP2006064508A JP4933118B2 JP 4933118 B2 JP4933118 B2 JP 4933118B2 JP 2006064508 A JP2006064508 A JP 2006064508A JP 2006064508 A JP2006064508 A JP 2006064508A JP 4933118 B2 JP4933118 B2 JP 4933118B2
Authority
JP
Japan
Prior art keywords
sentence
subtree
section
extracting
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006064508A
Other languages
English (en)
Other versions
JP2007241739A (ja
Inventor
一郎 山田
菊佳 三浦
英樹 住吉
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2006064508A priority Critical patent/JP4933118B2/ja
Publication of JP2007241739A publication Critical patent/JP2007241739A/ja
Application granted granted Critical
Publication of JP4933118B2 publication Critical patent/JP4933118B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、電子化されたテキストデータを対象とした、情報抽出及び自然言語処理に関し、特に、自然言語処理技術を利用することにより、テキストデータから、定型的な表現を含む文章区間を抽出する技術に関する。
現在、放送局では、番組情報を蓄積及び管理するシステムが普及しており、このシステムにより蓄積された番組情報が公開されたり、他の番組制作のために利用されたりしている。しかしながら、これらの蓄積情報は十分に活用されていない。例えば、デジタル放送において、映像に写っている被写体と映像内に被写体が写っているクローズドキャプションの区間を特定することができれば、蓄積した番組情報を、映像百科事典のような新たなコンテンツとして有効に活用することが可能となる。
テレビのナレーションでは、「場所紹介」や「人物紹介」等の特定の事象を表現するために同じような言い回しが多用される。例えば、表1に示すクローズドキャプション中では、矩形で囲まれた部分が、「場所」の説明として映像と共に提供されている。
Figure 0004933118
具体的には、最初に、体言止めにより「オンフルール」という町の位置情報が説明され、次に、町の詳細を断定の助動詞「です」を用いて説明されている。したがって、この矩形で囲まれた部分は、「オンフルール」の町を紹介するという特定の事象を、定型的な表現を含む文章によって表されている。このような「場所を説明するための定型的な表現」が含まれる文章区間を抽出することにより、対応する番組やその映像に写っている被写体に、「場所:オンフルール」というメタデータを付与することができ、結果として、番組情報を有効活用することが可能となる。
このような状況の下で、テキストデータから所定の特徴を有する文章区間を自動抽出する研究が進められている。例えば、テキストデータに含まれる単語の出現頻度、単語の語彙的結束性、接続詞、及び修飾語等の表層的な手掛かりに基づいて内容の区切れ目を推定する手法が提案されている(非特許文献1を参照)。また、単語集合の特徴だけでなく、構文構造を考慮したテキスト解析の手法として、部分木を弱学習器としたブースティングアルゴリズムを用いる手法が提案され、製品レビュー文及び新聞記事のテキスト分類の実験がなされている(非特許文献2を参照)。
望月源、本田岳夫、奥村学、"複数の知識の組合せを用いたテキストセグメンテーション"、情処学会研究報、自然言語処理109−7、pp47−54、1995年9月14日 工藤拓、松本裕治、"半構造化テキストの分類のためのブースティングアルゴリズム"、情処論文誌、vol.45、No.9、pp2146−2156、2004年
しかしながら、前述の非特許文献1の手法では、単語情報を利用することにより文章区間を抽出しているから、単語の出現に大きな偏りが無い場合には精度良く処理することができないという問題があった。また、前述の非特許文献2の手法では、ノードの飛び越えを許さない部分木の完全一致を類似度判定の基準としているから、結果として局所的な部分木しか特徴として利用されないことが多いという問題があった。さらに、一つの文のみを対象としているから、複数の文章区間を抽出することが難しいという問題があった。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、複数文から構成されるテキストデータから、定型的な表現を含む文章区間を自動抽出することが可能な文章区間抽出装置及びプログラムを提供することにある。
上記課題を解決するため、本発明による文章区間抽出装置は、複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置であって、定型表現が含まれているか否かが予め設定された複数の文から成る学習データが記憶される記憶手段、該記憶手段から学習データを読み出し、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する木構造生成手段、前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、該木構造生成手段により生成された各木構造から、キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する部分木抽出手段、及び、該部分木抽出手段により生成された部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習し、所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する学習手段を有する学習部を備え、前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出することを特徴とする。
また、本発明による文章区間抽出装置は、さらに、テキストデータからキーとなる単語を抽出する単語抽出手段、前記キーとなる単語を含む文と、その前の文、後ろ文、または前及び後ろの文とを合わせた文章区間を抽出する文章抽出手段、及び、該文章抽出手段により抽出された文章区間に対して、前記学習部に備えた学習手段により生成された関数に基づいて、定型表現が含まれる文章区間であるか否かを判定する判定手段を有する抽出部を備えたことを特徴とする。
また、本発明による文章区間抽出装置は、前記抽出部が、さらに、判定手段により定型表現が含まれる文章区間であると判定された第1の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第1の値、及び、判定手段により定型表現が含まれる文章区間であると判定された第2の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第2の値から、前記第2の値に係る前記第1の値からの増加値が所定の値より小さい場合に、前記第2の文章区間に冗長な文が含まれると判定し、前記第1の文章区間を、定型表現が含まれる文章区間として抽出する文章区間抽出手段を有することを特徴とする。
本発明を文章区間抽出装置として説明したが、本発明はこの文章区間抽出装置を構成するコンピュータによって実行されるプログラムとしても実質的に実現し得るものであり、本発明には、文章区間抽出プログラムも包含される。すなわち、本発明による文章区間抽出プログラムは、複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置による文章区間抽出プログラムであって、該装置を構成するコンピュータに、定型表現が含まれているか否かが予め設定された複数の文から成る学習データから、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する処理と、前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、前記各木構造から、キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する処理と、前記部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習する処理と、所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する処理と、前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出する処理とを実行させることを特徴とする。
以上のように、本発明によれば、複数文から構成されるテキストデータから、定型表現を含む文章区間を自動抽出することが可能となる。また、本発明は、キーとなる単語の情報に加えて、木構造及び部分木による構文構造の情報により、定型表現を含む文章区間を抽出するようにしたから、単語の出現に偏りがなくても文章区間の抽出が可能となり、前述した非特許文献1による問題を解決することができる。また、本発明は、ノードの飛び越えを許した部分木も対象とし、かつ複数文から成る木構造も対象として、類似度を算出し関数を生成しているから、ノードの飛び超えを許した部分木の特徴を利用し、複数文を対象とした文章区間の抽出が可能となり、前述した非特許文献2による問題を解決することができる。
以下、本発明を実施するための最良の形態について図面を用いて詳細に説明する。
〔構成〕
まず、本発明の実施の形態による文章区間抽出装置の構成について説明する。図1は、文章区間抽出装置の構成を示すブロック図である。この文章区間抽出装置1は、学習データに基づいて部分木によって弱学習器を生成し、この生成した弱学習器を用いて機械学習を行うことにより、重み付き係数及び弱学習器から成る最終仮説情報を生成する学習部10と、テキストデータからキーとなる単語及び文章区間を抽出し、学習部10により生成された最終仮説情報に基づいて、定型的な表現が含まれる文章区間を特定する抽出部20を備えている。
学習部10は、木構造生成手段11、部分木抽出手段12、学習手段13及び記憶手段14,15を備えている。記憶手段14には、オペレータによって定型的な表現が含まれるか否かの正解データy={1,−1}が付与されたテキスト集合{(x,y),(x,y),・・・,(x,y)}である学習データが格納されている。
木構造生成手段11は、記憶手段14から学習データを読み出し、既存の形態素解析装置・構文解析装置により、テキストx,x,・・・,xの入力文を一文毎に構文解析し、複数文の構文木の根ノードの親として最上位ノードを生成し、複数文のテキストから一つの木構造を生成する(図3を参照、詳細は後述する)。すなわち、各文の根ノードの親ノードに最上位ノードを生成し、最上位ノードから各文の構文木へは順序付きのアークで結んだ木構造を生成する(図3を参照、詳細は後述する)。この構文解析手法は既知であるため、ここでは説明を省略する。詳細については、「工藤他、“チャンキングの段階適用による係り受け解析”、情処論、Vol.43、No.6、pp.1834−1842(2002)」の文献を参照されたい。
部分木抽出手段12は、木構造生成手段11により生成された木構造を入力し、この木構造に基づいて、キーとなる単語及び指定数以下のノードを含む部分木を抽出し(図4及び5を参照、詳細は後述する)、部分木と木構造との間の類似度を算出し、弱学習器を生成する。
学習手段13は、部分木抽出手段12により抽出された部分木毎の弱学習器を入力し、この部分木を弱学習器としたアダブースト(AdaBoost)により、どの弱学習器が正例(定型表現が含まれる文章集合)及び負例(定型表現が含まれない文章集合)の分別力があるかを判定しながら各学習器に対する重み付き係数を学習し、重み付き係数及び弱学習器から成る最終仮説情報を生成する。この重み付き係数は、分別力が大きい学習器に対しては大きな値が学習され、分別力が小さい学習器に対しては小さな値が学習される。このアダブーストによるアルゴリズムは既知であるため、ここでは説明を省略する。詳細については、「Freund,Y.and Schapire,R.E.:A decision theoretic generalization of on−line learning and an application to boosting,Journal of Computer and System Sciences,Vol.55,No.1,pp.119−139(1966)」の文献を参照されたい。
記憶手段15には、学習手段13により生成された最終仮説情報が格納される。この最終仮説情報は、木構造生成手段11により読み出された学習データであるテキストx,x,・・・,xの各木構造に対して、重み付けされた(重み付き係数が乗算された)全ての弱学習器により、定型表現が含まれるか否かを判断するための関数であり、抽出部20により文章区間を特定する際に用いられる。
抽出部20は、単語抽出手段21、文章抽出手段22、判定手段23、文章区間抽出手段24及び記憶手段25を備えている。記憶手段25には、文章区間を抽出する対象となる、複数文から構成されるテキストデータが格納されている。
単語抽出手段21は、記憶手段25からテキストデータを読み出し、定型的な表現を含む文章区間を抽出する際に、その定型的な表現に含まれるキーとなる単語を抽出する。例えば、「場所を説明するための定型的な表現」を含む文章区間を抽出する場合には、図示しない記憶手段に格納された形態素解析辞書に「地名」として登録されている用語を読み出し、その用語をキーとなる単語として、テキストデータからその単語を抽出する。
文章抽出手段22は、単語抽出手段21により抽出されたキーとなる単語が含まれる文とその前後の文とを合わせ、これらの文から成る文章の組み合わせを抽出する。例えば、テキストデータをX(=X1,X2,X3,X4・・・,XM)とし、キーとなる単語が含まれる文をX3とすると、文章抽出手段22により抽出される文章は、このX3の文とX3の文の前後の文とを組み合わせた文章である。具体的には、その組み合わせは、{X3,X2+X3,X3+X4,X1+X2+X3,X2+X3+X4,X3+X4+X5,・・・}となる。
判定手段23は、文章抽出手段22により抽出された文章(各組み合わせの文章)に対して、すなわちその文章区間(X3、X2+X3等)に対して、定型的な表現が含まれるか否かを、記憶手段15に格納された最終仮説情報に基づいて判定する。
文章区間抽出手段24は、判定手段23により、定型的な表現が含まれるものと判定された文章区間に対して、冗長な部分を除去し、定型的な表現が含まれる文章区間を特定する。
〔動作〕
次に、図1に示した文章区間抽出装置1の動作について説明する。図2は、文章区間抽出装置1の処理を説明するフローチャート図である。文章区間抽出装置1の木構造生成手段11は、まず、記憶手段14から学習データを読み出し、学習データを構成する文を入力文として構文解析し、木構造に変換する(ステップS2−1)。図3は、木構造生成手段11により生成された木構造の例を示す図である。この木構造は、「セーヌ川を挟み、ル・アーブルの対岸に位置する港町、オンフルール。今なお中世の古い家並みが残る、町です。」という2つの入力文から生成されたものである。
次に、部分木抽出手段12は、木構造生成手段11により生成された木構造から、キーとなる単語及び指定数以下のノードを含む部分木を抽出する(ステップS2−2)。具体的には、キーとなる単語(図3の例では「オンフルール」)と指定数以下のノードを選択して抜き出し、選択されなかったノードにノードを飛ばしたことを示す記号(例えば+)を与え、根ノードから選択したノードまでの木構造を部分木として抽出する。図4は、図3に示した木構造から抽出した部分木の例を示す図である。図4(a)(b)は、キーとなる単語「オンフルール」及び2個のノードを含む部分木の例を、図4(c)は、キーとなる単語「オンフルール」及び3個のノードを含む部分木の例を、図4(d)は、キーとなる単語「オンフルール」及び5個のノードを含む部分木の例をそれぞれ示している。すなわち、部分木抽出手段12は、例えば指定数を5とした場合に、キーとなる単語「オンフルール」及び指定数4以下のノードを含む部分木を、例えば図4(a)〜(d)のように抽出する。
また、図4に示した部分木の例では、キーとなる単語の種類が自明であるから、部分木抽出手段12は、部分木を抽出するに際し、単語表記そのものではなく、キーとなる単語と同じ概念に属する単語を上位概念に抽象化し、上位概念で表した単語表記により部分木を生成する。図5は、図4に示した部分木の単語を上位概念に抽象化した例を示す図である。図5に示すように、キーとなる単語「オンフルール」が上位概念である「(地名)」に、「セーヌ川」の上位概念「地名」であり、キーとなる単語と別の地名であるので「セーヌ川を」は「(別地名)を」になる。また、「町」「港町」は、地名の言い換え表現であるので、「(地言換)」に抽象化する。このように、部分木抽出手段12は、キーとなる単語を含め、その概念に属する単語を上位概念に抽象化し、部分木を生成する。
また、部分木抽出手段12は、抽出した部分木と木構造生成手段11により生成された木構造との間の類似度を以下の式による算出する。sim(t,x)は部分木tと木構造xとの間の類似度を示す。
Figure 0004933118

この類似度は、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、その各リスト構造が対象とする木構造に含まれる割合を基準として定義された度合いである。そして、部分木抽出手段12は、類似度が一定値以上であるか否かを判断基準とすることにより、木構造x及び閾値θを変数に持つ弱学習器h(x,θ)を生成する。ここで、h(x,θ)=1または−1である。
例えば、図4(d)に示した部分木tと図6に示す木構造xとの間の類似度を算出する場合には、部分木tに含まれるリスト{「位置する」,「(地名)」}、{「(地言換)」,「(地名)」,}、{「残る」,「(地言換)です」}と、木構造xに含まれるリストとの間の類似性を以下ように算出する。
Figure 0004933118
次に、学習手段13は、部分木抽出手段12により生成された弱学習器を用いて機械学習を行う(ステップS2−3)。図7は、図1に示した学習手段13の処理を説明するフローチャートである。以下、学習手段13の処理について説明する。学習手段13は、部分木抽出手段12により生成された弱学習器h(x,θ)を入力し、記憶手段14から学習データ{(x,y),(x,y),・・・,(x,y)}(但しy={1,−1})を読み出し、学習データ(x,y)に与える重みD(i)を初期化する(ステップS7−1)。この場合、読み出した学習データの数はN個だから、初期値はD(i)=1/Nとなる。そして、学習手段13は、残っている全ての弱学習器に対して以下の式によりエラーεを計算し(ステップS7−2)、エラーεが最も小さい弱学習器を選択し、処理対象からその弱学習器を除外する(ステップS7−3)。
Figure 0004933118
学習手段13は、ステップ7−3により除外した弱学習器以外の全ての弱学習器のエラーεから、学習データ(x,y)に与える重みD(i)を以下の式により更新する(ステップS7−4)。ここで、αは、部分木tの弱学習器に対する重み付き係数である。
Figure 0004933118

Figure 0004933118
学習手段13は、弱学習器が残っていないかの判定を行い(ステップS7−5)、弱学習器が残っている場合はステップ7−2に戻る。弱学習器が残っていない場合は、以下の関数式H(x)である最終仮説情報を生成し、記憶手段15に格納する(ステップS7−6)。
Figure 0004933118

この関数式H(x)は、所定の木構造の文章xが、定型的な表現が含まれる文章区間であるか否かの判定処理に用いられる。ここで、H(x)=1または0であり、1の場合に木構造xは定型的な表現が含まれる文章区間であることを示し、0の場合に木構造xは定型的な表現が含まれる文章区間でないことを示す。このように、機械学習された重み付き係数αは、弱学習器h(x,θ)に対して与えられ、正例(定型表現が含まれる文章集合)及び負例(定型表現が含まれない文章集合)の分別力がある場合は大きい値が与えられ、分別力がない場合は小さい値が与えられることになる。
尚、図7に示したステップ7−5において、学習手段13は、弱学習器が残っているか否かの判定を行っているが、このステップにて、学習データがどれだけ正確に分類できているかを判定するようにしてもよい。例えば、(6)式の計算を行い、学習データが9割以上正確に分類できているかを判定するようにしてもよい。
図2に戻って、学習手段13が機械学習により各学習器に対する重み付き係数を学習し、最終仮説情報H(x)を生成した後、抽出部20は、学習データとは異なるテキストデータを記憶手段25から読み出し、このテキストデータから、最終仮説情報H(x)を用いて、定型的な表現が含まれる文章区間を抽出する。まず、単語抽出手段21は、読み出したテキストデータからキーとなる単語を抽出する(ステップS2−4)。
次に、文章抽出手段22は、単語抽出手段21により抽出されたキーとなる単語が含まれる文とその前後の文とから成る文章の組み合わせを抽出する(ステップS2−5)。そして、判定手段23は、その文章(文章区間)を木構造xとし、(6)式によりH(x)を算出する。H(x)=1の場合、定型的な表現が含まれる文章区間であると判定する(ステップS2−6)。
しかし、負例(定型表現が含まれない文章集合)には特徴が少ないため、定型的な表現が含まれない文章区間が、定型的な表現が含まれる文章区間であると誤判定される可能性がある。そこで、H(x)=1を算出した文章に対して、図7に示したアダブーストの機械学習により判定を行う。すなわち、判定手段23は、重み付き係数αを機械学習し、最終仮説情報H(x)を生成し、判定を行う。この場合、学習で利用しなかった負例に対して誤って定型表現を含むと判定されたものから負例データを選択し、正例はそのままとした学習による最終仮説情報H(x)を利用する。その処理を繰り返すことにより、精度向上を期待することができる。
また、文章区間抽出手段24は、判定手段23により定型的な表現が含まれるものと判定された文章区間に対して、冗長な部分を除去し、定型的な表現が含まれる文章区間を特定する。ある文章区間(X1+X2)でH(x)=1と算出され、その前後の文を含めた文章区間(X1+X2+X3)においても同様にH(x)=1と算出される場合に、文章区間抽出手段24は、H(x)に含まれる関数の値Σα(x,θ)により定型的な表現が含まれる文章区間を判定し、文を追加してこの値が増加するときのみ、その文をH(x)=1と算出された文章区間(定型的な表現が含まれる文章区間)に追加する。すなわち、文章区間(X1+X2)におけるΣα(x,θ)及び文章区間(X1+X2+X3)におけるΣα(x,θ)から増加値を求め、その増加値が予め設定された値よりも小さい場合に(増加が少ない場合に)、X3を冗長な部分とみなし、この冗長な部分X3を文章区間から除去し、文章区間(X1+X2)を定型表現が含まれる文章区間であるものと特定する。これにより、ステップ2−4によりキーとなる単語が抽出され、ステップ2−5〜7により定型表現が含まれる文章区間が抽出される。
以上のように、本発明の実施の形態による文章区間抽出装置1によれば、学習部10が、学習データに基づいて部分木の弱学習器を生成し、この生成した弱学習器を用いて機械学習を行うことにより、重み付き係数及び弱学習器から成る最終仮説情報を生成し、抽出部20が、テキストデータから文章を抽出し、この最終仮説情報に基づいて、定型的な表現が含まれる文章区間を特定するようにした。これにより、複数文から構成される文章から、定型的な表現が含まれる文章区間を自動抽出することができる。例えば、テレビ番組のナレーションでは、「場所紹介」や「人物紹介」等の特定の事象を表現するために同じような言い回しが用いられることが多い。文章区間抽出装置1を用いることにより、クローズドキャプションからこのような文章区間を抽出することができ、対応する番組映像区間に場所情報や人物情報等のメタデータを効果的に付与することができる。さらに、複数文で構成される文章データの類似性も判定することができるので、インターネットの検索手法としても有効となる。
尚、文章区間抽出装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。文章区間抽出装置1に備えた木構造生成手段11、部分木抽出手段12、学習手段13、単語抽出手段21、文章抽出手段22、判定手段23及び文章区間抽出手段24の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。
以上、実施の形態を挙げて本発明を説明したが、本発明は上記実施の形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図1に示した文章区間抽出装置1は、1台のコンピュータ装置により構成されるが、これに限定されるものではなく、学習部10と抽出部20とをそれぞれ異なるコンピュータに備え、ネットワークを介して接続するように構成してもよい。また、記憶手段14、記憶手段15及び記憶手段25を他のコンピュータに備え、またはこれらの記憶手段の一部を他のコンピュータに備え、ネットワークを介して接続するように構成してもよい。
本発明の実施の形態による文章区間抽出装置の構成を示すブロック図である。 図1の文章区間抽出装置の処理を説明するフローチャート図である。 木構造の例を示す図である。 部分木の例を示す図である。 単語を上位概念に抽象化した部分木の例を示す図である。 他の木構造の例を示す図である。 図1の学習手段の処理を説明するフローチャートである。
符号の説明
1 文章区間抽出装置
10 学習部
11 木構造生成手段
12 部分木抽出手段
13 学習手段
14,15,25 記憶手段
20 抽出部
21 単語抽出手段
22 文章抽出手段
23 判定手段
24 文章区間抽出手段

Claims (4)

  1. 複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置であって、
    定型表現が含まれているか否かが予め設定された複数の文から成る学習データが記憶される記憶手段、
    該記憶手段から学習データを読み出し、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する木構造生成手段、
    前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、該木構造生成手段により生成された各木構造から、キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する部分木抽出手段、及び、
    該部分木抽出手段により生成された部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習し、所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する学習手段を有する学習部を備え、
    前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出することを特徴とする文章区間抽出装置。
  2. 請求項1に記載の文章区間抽出装置において、
    さらに、テキストデータからキーとなる単語を抽出する単語抽出手段、
    前記キーとなる単語を含む文と、その前の文、後ろ文、または前及び後ろの文とを合わせた文章区間を抽出する文章抽出手段、及び、
    該文章抽出手段により抽出された文章区間に対して、前記学習部に備えた学習手段により生成された関数に基づいて、定型表現が含まれる文章区間であるか否かを判定する判定手段を有する抽出部を備えたことを特徴とする文章区間抽出装置。
  3. 請求項2に記載の文章区間抽出装置において、
    前記抽出部は、さらに、判定手段により定型表現が含まれる文章区間であると判定された第1の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第1の値、及び、判定手段により定型表現が含まれる文章区間であると判定された第2の文章区間に対して、前記関数における重み付き係数及び弱学習器に基づいて算出した第2の値から、前記第2の値に係る前記第1の値からの増加値が所定の値より小さい場合に、前記第2の文章区間に冗長な文が含まれると判定し、前記第1の文章区間を、定型表現が含まれる文章区間として抽出する文章区間抽出手段を有することを特徴とする文章区間抽出装置。
  4. 複数文から構成されるテキストデータから、定型表現が含まれる文章区間を抽出する装置による文章区間抽出プログラムであって、該装置を構成するコンピュータに、
    定型表現が含まれているか否かが予め設定された複数の文から成る学習データから、該学習データ毎に構文解析し、前記複数の文の構文木の根ノードの親として最上位ノードを生成し、該最上位ノードによって各文の構文木を結ぶことによって木構造を生成する処理と、
    前記学習データから形態素解析辞書に基づいてキーとなる単語を抽出し、前記各木構造から、キーとなる単語及び予め設定された数以下のノードを含む部分木をそれぞれ抽出し、該部分木と前記木構造との間で、部分木に含まれる葉ノードから根ノードまでの全リスト構造を抽出し、各リスト構造が木構造に含まれる割合を示す類似度を算出し、該類似度が一定値以上であるか否かを判断基準として該部分木についての弱学習器を生成する処理と、
    前記部分木についての弱学習器及び前記学習データを用いて、部分木に対して定型表現が含まれる文章区間であるかまたは定型表現が含まれていない文章区間であるかの分別力を、前記部分木を前記弱学習器としたアダブーストにより判定し、前記弱学習器に対する該分別力の大きさを示す重み付き係数を学習する処理と、
    所定の文章区間に対して、定型表現が含まれる文章区間であるか否かを前記重み付き係数及び弱学習器に基づいて判定する関数を生成する処理と、
    前記関数に基づいて、テキストデータから定型表現が含まれる文章区間を抽出する処理と
    を実行させる文章区間抽出プログラム。
JP2006064508A 2006-03-09 2006-03-09 文章区間抽出装置及びプログラム Active JP4933118B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006064508A JP4933118B2 (ja) 2006-03-09 2006-03-09 文章区間抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006064508A JP4933118B2 (ja) 2006-03-09 2006-03-09 文章区間抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2007241739A JP2007241739A (ja) 2007-09-20
JP4933118B2 true JP4933118B2 (ja) 2012-05-16

Family

ID=38587209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006064508A Active JP4933118B2 (ja) 2006-03-09 2006-03-09 文章区間抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4933118B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6069077B2 (ja) * 2013-04-09 2017-01-25 日本放送協会 中継区間抽出装置、及びプログラム

Also Published As

Publication number Publication date
JP2007241739A (ja) 2007-09-20

Similar Documents

Publication Publication Date Title
US9727553B2 (en) System and method for generating and using user semantic dictionaries for natural language processing of user-provided text
US9588962B2 (en) System and method for generating and using user ontological models for natural language processing of user-provided text
US9588960B2 (en) Automatic extraction of named entities from texts
CA2484410C (en) System for identifying paraphrases using machine translation techniques
US10445428B2 (en) Information object extraction using combination of classifiers
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
US8204736B2 (en) Access to multilingual textual resources
US20220245353A1 (en) System and method for entity labeling in a natural language understanding (nlu) framework
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
Toral et al. Linguistically-augmented perplexity-based data selection for language models
Siklósi Using embedding models for lexical categorization in morphologically rich languages
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
Fischbach et al. Fine-grained causality extraction from natural language requirements using recursive neural tensor networks
Dubuisson Duplessis et al. Utterance retrieval based on recurrent surface text patterns
Kapočiūtė-Dzikienė et al. A comparison of Lithuanian morphological analyzers
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
US20220245352A1 (en) Ensemble scoring system for a natural language understanding (nlu) framework
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
US20220229987A1 (en) System and method for repository-aware natural language understanding (nlu) using a lookup source framework
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
JP4933118B2 (ja) 文章区間抽出装置及びプログラム
CN1627289B (zh) 用于分析汉语的装置和方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110707

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120216

R150 Certificate of patent or registration of utility model

Ref document number: 4933118

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250