JP2008217529A - テキスト分析装置およびテキスト分析プログラム - Google Patents

テキスト分析装置およびテキスト分析プログラム Download PDF

Info

Publication number
JP2008217529A
JP2008217529A JP2007055419A JP2007055419A JP2008217529A JP 2008217529 A JP2008217529 A JP 2008217529A JP 2007055419 A JP2007055419 A JP 2007055419A JP 2007055419 A JP2007055419 A JP 2007055419A JP 2008217529 A JP2008217529 A JP 2008217529A
Authority
JP
Japan
Prior art keywords
occurrence information
word
text data
features
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007055419A
Other languages
English (en)
Inventor
Ichiro Yamada
一郎 山田
Kikuka Miura
菊佳 三浦
Hideki Sumiyoshi
英樹 住吉
Nobuyuki Yagi
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007055419A priority Critical patent/JP2008217529A/ja
Publication of JP2008217529A publication Critical patent/JP2008217529A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】幅広いデータを対象とすることができ、且つ所望の特定の関係を有する複数の語の組みを網羅的に抽出することのできるテキスト分析装置およびテキスト分析プログラムを提供する。
【解決手段】テキスト分析装置が、入力されるテキストデータに含まれる2語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部を備える。
【選択図】図1

Description

本発明は、電子化されたテキストを分析するテキスト分析装置及びテキスト分析プログラムに関する。特に、自然言語のテキストを処理し、対象名詞と属性名と属性値などといった特定の関係を有する語の組みを解析し、知識抽出等に応用することのできるテキスト分析装置及びテキスト分析プログラムに関する。
従来、文章から特定の関係を有する複数の語を抽出する手法としてはテンプレートを利用する手法が提案されている。例えば、非特許文献1では、文章から単語とその属性名を抽出する手法として、「名詞A+が+形容詞+名詞B」というテンプレートに合うものから統計的に判定して抽出する手法が提案されている。
阿辺川武,奥村学,「形容詞を用いた対象・属性名詞対の収集および分析」,言語処理学会第12回年次大会,日本,2006年3月,p.73−76
しかしながら、上記の従来技術による方法では、テンプレートに合致しない語の組みを抽出できないという問題がある。従って、従来技術による方法では、準備するテンプレートに抽出結果が大きく依存してしまう。また、従来技術による方法で網羅的に抽出するためには多種のテンプレートを準備する必要がある。逆に、テンプレートに合致するパターンの組みが大量に出現しないと、望む結果を得る処理が困難となる。
本発明は、上記の課題認識に基づいて行なわれたものであり、テンプレートを利用する方法に比べて幅広いデータを対象とすることができ、且つ所望の特定の関係を有する複数の語の組みを網羅的に抽出することのできるテキスト分析装置およびテキスト分析プログラムを提供することを目的とする。
本発明のテキスト分析装置による属性抽出手法では、共起している名詞を処理対象とするため、テンプレートを利用する手法に比べて幅広いデータを対象とすることができる。また、幅広いデータを対象とするため、属性名や属性値の候補となる名詞は、属性名や属性値でないものが多くなる。そこで、共起した名詞ペアの語義特徴と構文特徴の2つを利用して、統計的に属性名や属性値の候補となる名詞を抽出する。
[1]前記の課題を解決するため、本発明の一態様によるテキスト分析装置は、入力されるテキストデータに含まれる2語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部とを備えることを特徴とする。
この発明によれば、予めテンプレートを作成することなく、特定の関係を有する可能性のある2語のペア(候補)の語義特徴あるいは構文特徴に基づくとともに、当該ペアの特徴と関連付けられた共起情報に基づき、当該ペアが特定の関係を有するか否かを判断することができる。
本発明の一態様においては、前記構文特徴は、入力テキストデータを構文解析処理し、構文解析の結果得られる構文木のうちのペアの2語を連結する部分木のデータを表わすリストである。つまり、ペアである2語についての構文上での共通係り先までのリスト構造である。
本発明の一態様においては、前記語義特徴は、2語の上位概念を表わす語である。
[2]また、本発明の一態様は、前記のテキスト分析装置において、前記テキストデータ中の2語のペアが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記2語のペアの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするものである。
これによれば、例えば比較的少量の教師有りテキストデータと比較的多量の教師無しテキストデータに基づき、共起情報を算出することが出来、算出された共起情報は、語のペアが特定の関係にあるか否かの判定に用いることが出来る。
本発明の一態様においては、前記機械学習処理は、EMアルゴリズムを用いて語のペアが特定の関係にある確率(または、ない確率)を算出する。
[3]また、本発明の一態様によるテキスト分析装置は、前記のテキスト分析装置であって、前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性名であることを特徴とする。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性名のペアを自動的に抽出できる。
[4]また、本発明の一態様によるテキスト分析装置は、前記のテキスト分析装置であって、前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性値であることを特徴とする。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性値のペアを自動的に抽出できる。
[5]また、本発明の一態様によるテキスト分析装置は、入力されるテキストデータに含まれる3項の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記3項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記3項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該3項の語の組みの前記共起情報とに基づき、当該3項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部とを備えることを特徴とするものである。
これによれば、予めテンプレートを作成することなく、特定の関係を有する可能性のある3項の語の組み(候補)の語義特徴あるいは構文特徴に基づくとともに、当該組みの特徴と関連付けられた共起情報に基づき、当該組みが特定の関係を有するか否かを判断することができる。
[6]また、本発明の一態様は、前記のテキスト分析装置において、前記テキストデータ中の3項の語の組みが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記3項の語の組みの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするものである。
これによれば、例えば比較的少量の教師有りテキストデータと比較的多量の教師無しテキストデータに基づき、共起情報を算出することが出来、算出された共起情報は、3項の語の組みが特定の関係にあるか否かの判定に用いることが出来る。
[7]また、本発明の一態様は、前記のテキスト分析装置において、前記特定の関係は、前記テキストデータ中に含まれる対象語と、当該対象語の属性名と、当該対象語の属性値の組みであることを特徴とするものである。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性名とその属性名に対応する属性値の3項からなる語の組みを自動的に抽出できる。
このような3項の語の組みは、コンピュータによる処理のための知識表現に向いているため、つまり、テキスト分析装置がテキストデータ中に含まれる知識を自動的に抽出できる。
[8]また、本発明の一態様によるテキスト分析装置は、入力されるテキストデータに含まれるN項(Nは2以上の整数)の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記N項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記N項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該N項の語の組みの前記共起情報とに基づき、当該N項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部とを備えることを特徴とする。
これによれば、予めテンプレートを作成することなく、特定の関係を有する可能性のあるN項の語の組み(候補)の語義特徴あるいは構文特徴に基づくとともに、当該組みの特徴と関連付けられた共起情報に基づき、当該組みが特定の関係を有するか否かを判断することができる。
[9]また、本発明の一態様によるテキスト分析プログラムは、入力されるテキストデータに含まれるN項(Nは2以上の整数)の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出処理過程と、複数の前記N項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部から前記共起情報を読み出す読み出し過程と、前記特徴抽出処理過程において抽出した前記N項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該N項の語の組みの前記共起情報とに基づき、当該N項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理過程との処理をコンピュータに実行させる。
本発明によれば、大量のテキストデータから、特定の関係を有する語の組みを自動的に抽出することができる。具体的には、大量のテキストデータから対象名詞(対象語)に対する属性名、属性値を自動的に判別して抽出することができる。インターネットなどにおける情報検索では、対象名詞に対する属性名、属性値がわかれば検索精度が向上することが期待できる。また、放送においても、字幕放送のテキストデータをテレビが解析することによって、あらゆる名詞に対する属性名、属性値を自動獲得することが可能となり、ニュース項目を自動分類したり、番組中で紹介されたノウハウを溜め込んだりする手法としても有効である。
コンピュータ処理に向いた知識表現の形態として(対象語,属性名,属性値)の3項の組みによる表現がよく用いられる。属性名とは対象語が表わす対象の特徴の名前であり、属性値とはその属性名に対する値である。例えば、(「キリン」,「体長」,「6メートル」)や(「キリン」,「首」,「長い」)という表現である。以下で説明する複数の実施形態は、日本語による大量の入力テキストデータを解析して、自動的に、そのテキストデータの中に含まれる対象語(多くの場合、名詞)に対して属性名や属性値を当該テキストデータから抽出するテキスト分析装置に関するものである。これにより、大量のテキストデータからの知識獲得を自動的に行なえるようになる。
[第1の実施の形態]
第1の実施形態は、入力テキストデータから、対象語と属性名とのペアを自動的に抽出するためのテキスト分析装置に関するものである。
図1は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。図1において、符号1aはテキスト分析装置である。テキスト分析装置1aは、対象語及び属性名候補単語抽出部10aと、特徴抽出部20と、機械学習部30と、共起情報記憶部40と、判断処理部50と、出力部60とを内部に有している。
そして、テキスト分析装置1aは、入力テキストデータ100および教師有りテキストデータ110aを読み込み、分析処理の結果を出力部60から出力データ150として出力する。
対象語及び属性名候補単語抽出部10aは、入力されるテキストデータから対象語と属性名候補単語を抽出する。これら対象語と属性名候補単語はほとんどの場合において名詞である。
特徴抽出部20は、上の処理で抽出された語のペアを基に、そのペアの語義特徴と構文特徴とを抽出する。語義特徴とはこれらの語の上位概念であり、構文特徴とはこれらの語の構文上での共通係り先までのリスト構造である。特徴抽出部20の詳細な構成と動作は別の図を参照しながら後述する。
機械学習部30は、教師有りテキストデータ110aによって示される正解に基づき機械学習処理を行ない、学習の結果として、入力テキストデータ中から抽出された語のペアが対象語と属性名の関係を有するか否かの判定の元となる共起情報を出力する。教師有りテキストデータ110aには、入力テキストデータ100と比べると少量のテキストと、当該テキスト内に含まれる語のペアが対象語と属性名の関係を有するか否かを示す正解データ(「真」または「偽」)とを含んでいる。具体的な学習手順については、別の図を参照しながら後述する。
共起情報記憶部40は、機械学習部30による機械学習処理の結果として得られた共起情報を記憶するものであり、半導体メモリや磁気ハードディスクドライブなどを用いて構成される。共起情報は、語のペアに関する確率値を含む情報である。つまり、共起情報記憶部40は、語のペアについての特定の関係における共起情報を記憶するものである。
判断処理部50は、共起情報記憶部40から共起情報を読み出し、この共起情報を用いて、上の処理で抽出された対象語と属性名候補単語のペアが対象語と属性名の関係にあるか否かを判定する。更に言うと、判断処理部50は、特徴抽出部20が抽出した語義特徴および構文特徴と、共起情報記憶部40から読み出した当該ペアの共起情報とに基づき、当該ペアが特定の関係を有するか否かを判断する処理を行なうものである。
出力部60は、判断処理部50による判断の結果に基づき、入力テキストデータ100から抽出された、対象語と属性名のペアを出力する。入力テキストデータが十分に大量であれば、通常の場合は複数のペアが出力される。
以下では、装置を構成する各部の詳細な動作について説明する。
まず、対象語及び属性名候補単語抽出部10aが、入力テキストデータ100から対象語と属性名候補単語を抽出する。対象語としては、例えば同じ意味のカテゴリーに属するような単語を選択する。例えば、操作者による操作または入力されるパラメータデータによって「動物」と指定された場合、入力テキストデータ100中の「ライオン」,「キリン」,「ゾウ」などが処理の対象語となる。特定のカテゴリーに属する対象語を選択するための判定には、既存のシソーラス(例えば、国立国語研究所・編,「分類語彙表 増補改訂版」,大日本図書,2004年)を電子化し、コンピュータ読み出し可能としたものを利用する。
また、属性名候補単語は、入力テキスト中の全ての名詞とする。但し、属性名とはなり得ない単語をこの段階で候補から除外するようにしても良い。属性名とはなり得ない単語とは、例えば数詞(数値表現)や対象語と同一のカテゴリーに属する単語などである。このような除外を行なうことにより後の段階の機械学習処理の時間を短縮することもできる。
抽出された対象語の個数がL個、属性名候補単語の個数がM個のとき、単純にすべての組合せをペアとして出力すると(L×M)個のペアが抽出されることになる。
対象語及び属性名候補単語抽出部10aは、また、教師有りデータ110aのテキストについても同様の方法で対象語と属性名候補単語を抽出する。
上で抽出された対象語と属性名候補単語のペアに対して、次に、特徴抽出部20が特徴抽出の処理を行なう。図2は、特徴抽出部20のより詳細な機能構成を示したブロック図である。図示するように、特徴抽出部20は、構文解析部21と、構文特徴抽出部23と、語義特徴抽出部25と、シソーラス29を含んで構成される。
語義特徴抽出部25は、シソーラス29(前述の「分類語彙表 増補改訂版」などを電子化しコンピュータ読み出し可能としたもの)などから語のペアの上位概念を語義特徴として抽出する。
構文解析部21は、入力されるテキスト(入力テキストデータ100または教師有りテキストデータ110aに含まれるテキスト)の構文解析を行ない、結果として構文木を出力する。この構文解析は、例えば、テキストの字句解析、形態素解析等を行ない、入力テキストの文節間の係り受け関係を解析した結果を利用して処理する。入力テキストが複数文からなる場合は、各文を構文解析して構文木を得て、これら構文木のルート(root,根)となるノードの上に最上位ノードを作成して、全ての文の構文解析結果の構文木を繋げ、一つの構文木とする。そして得られたこの構文木を基に、語のペアのそれぞれについて、共通係り先までのリストを抽出する。この時、この木構造にある各ノード中の、自立語(名詞、動詞、形容詞、副詞、形容動詞、接続詞など)と機能語(助詞、助動詞など)を分離して別ノードとして扱う。つまり、助詞や助動詞などの機能語も独立のノードとして扱う。
構文特徴抽出部23による処理の具体例を説明する。
図3は、入力される複数の文と、対象語と属性名候補単語のペアの例である。図示する例では、「ダチョウの仲間レアです。背丈は1m50cmもあります。」という入力文が処理対象となっている。また、対象語と属性名候補単語のペアとして、「レア」と「背丈」が抽出されている。
図4は、図3の入力文を構文解析した結果の構文木である。第1の文「ダチョウの仲間レアです。」を構文解析した結果として、ルートから順に「です」−「レア」−「仲間」−「の」−「ダチョウ」というノードが連結された構文木が得られている。第2の文「背丈は1m50cmもあります。」を構文解析した結果として、ルートから順に「ます」−「ある」−「は」−「背丈」というノードが連結するとともにこの途中のノード「ある」から枝分かれして「ある」−「も」−「1m50cm」というノードが連結されている。そしてこれら2つの構文木のそれぞれのルート「です」および「ます」をより上位のルート(最上位ノード)で連結して一つの構文木としている。
図5は、図4で得られた構文木から、対象語「レア」と属性名候補単語「背丈」とを連結する共通係り先までの部分木を示す。この共通係り先までの部分木をリストで表わすと「対象語(=『レア』),『です』,最上位ノード,『ます』,『ある』,『は』,属性名候補単語(=『背丈』)」となる。構文特徴抽出部23は、このリストを当該ペアの構文特徴として出力する。
語義特徴抽出部25による処理の具体例は次の通りである。即ち、シソーラス29を参照することにより、この対象語「レア」については「動物名」という上位概念が与えられる。また同様に、属性名候補単語「背丈」については「長短・高低・深浅・厚薄・遠近」(コード番号1.1911)という上位概念が与えられる。語義特徴抽出部25はこれらの上位概念を語義特徴として出力する。
次に、機械学習部30による処理を説明する。機械学習部30の入力となるのは、入力テキストデータ100、教師有りテキストデータ110a(正解データを含む)、及び各ペアの構文特徴と語義特徴である。
入力されたテキストに対応する複数の語のペアの群について、各ペアに一意な順序が付けられており、i番目(i=1,2,3,・・・)のペアから特徴抽出部20が抽出した特徴(語義特徴および構文特徴)をtとする。語のペアが特定の関係にある、つまり対象語と属性名の関係にあるという命題をcとする。逆に、語のペアが特定の関係にない、つまり対象語と属性名の関係にないという命題をcとする。特徴tを有するペアについて命題cまたはcが成立する確率は次の式(1)で与えられる。
Figure 2008217529
式(1)において、jは0又は1である。P(c)は語のペアが対象語と属性名の関係にある確率であり、P(c)はそれらが対象語と属性名の関係にない確率である。P(t)は特徴tが出現する確率である。式(1)で与えられるこの値P(c|t)により、特徴tを有するペアが属するクラスc(cまたはc)を判定する。つまり、そのペアが対象語と属性名の関係にあるか否かを判定する。
P(t|c)は、クラスcのときに特徴tが出現する確率であり、次の式(2)により与えられる。
Figure 2008217529
式(2)において、CPtiは特徴tに含まれる構文特徴を指し、SPtiは特徴tに含まれる語義特徴を指す。P(CPti|c)は、クラスcのときに特徴tに含まれる構文構造CPtiが出現する確率である。P(SPti|c)は、クラスcのときに特徴tに含まれる語義特徴SPtiが出現する確率である。
機械学習部30は、これらの式を利用して、EMアルゴリズム(Expectation-Maximization Algorithm,期待値最大化アルゴリズム)を利用した機械学習処理を行なう。図6は、機械処理部30による機械学習処理の手順を示すフローチャートである。以下、図6に沿って手順を説明する。
まず、ステップS6−1(Eステップ)において、教師有りテキストデータ110aの中のテキストを対象として特徴tが属するクラスc(語のペアが対象語と属性名の関係にある場合はc、語のペアが対象語と属性名の関係にない場合はc)の初期確率P(c|t)計算する。初期確率P(c|t)の計算は次の式(3)により行なう。
Figure 2008217529
言うまでもなく、教師有りテキストデータ110aには正解データが含まれている。つまり、特徴tを有する語のペアがクラスCに属するかCに属するかは確定的に決定される。よって、上記の式(3)により初期確率P(c|t)は数値として算出される。
次に、ステップS6−2(Mステップ)において、クラスcのもとで構文特徴CPtiが発生する確率P(CPti|c)、及びクラスcのもとで語義特徴SPtiが発生する確率P(SPti|c)を、下の、それぞれ式(4)及び式(5)により求める。なお、ステップS6−2以降では、初期値を求めるために利用した教師有りテキストデータだけではなく、教師無しテキストデータ(図1における入力テキストデータと同じ)も含めたテキスト全体について分析する。
Figure 2008217529
Figure 2008217529
式(4)および式(5)において、|CP|はペアである語と語の間の構文構造の総種類数(つまり、同じ構文特徴を有するペアの種類数)を表わし、|SP|は語のペアの総種類数を表わし、|T|は抽出した特徴の総種類数(つまり、CPとSPの組み合わせの種類数)を表す。また、N(SP,t)は、語義特徴に関する関数であり、特徴tに語のペアが含まれるか否かを表す。即ち、含まれるときだけ1の値をとり、その他の時には0の値をとる。また、sim(CPti,CPtk)は構文特徴CPtiと構文特徴CPtkの類似性を表す関数であり、下の式(6)により計算される。
Figure 2008217529
式(6)において、wc(p)は、対象としている語のペアの構文特徴CPtiであるリストに含まれる要素から対象語と属性名候補単語を除いた単語数を基準として算出するものであり、名詞や動詞などの自立語には1、助詞や助動詞などの付属語には0.5などの重みを与えてその和とする。この重みは適宜変更してもよい。図5に示した例では、対象語(「レア」)と属性名候補単語(「背丈」)を除いたリストは「『です』,最上位ノード,『ます』,『ある』,『は』」であり、このうち自立語である「ある」には重み1、付属語である「です」,「は」,「ます」には重み0.5を与えると、この構文特徴に対しては、wc(p)=2.5と算出される。
図7は、対象語「レア」と属性名候補単語「背丈」を持つもうひとつのペアの構文特徴を表わす構文木(部分構文木)の概略図である。この構文特徴に関して、対象語と属性名候補単語を除いたリストは「『は』,『ある』,『が』」である。これについてwc(p)を計算すると、「ある」には重み1が与えられ、「は」,「が」には重み0.5が与えられるので、wc(p)=2.0となる。
また、com(p,p)は、構文特徴CPt1と構文特徴CPt2に基づき、対象語からルートノードまでの順序を考慮した重み付き共通単語数と、属性名候補単語からルートノードまでの順序を考慮した重み付き共通単語数の和である。図5に示した構文特徴CPt1と図7に示した構文特徴CPt2については、共通単語は「ある」のみであり、これは自立語であるため重み1が与えられ、com(p,p)=1である。
つまり図5に示した構文特徴と図7に示した構文特徴との間の類似度は、式(6)により、sim(p,p)=(1×2)/(2.5+2.0)であり、約0.44と計算される。
次に、ステップS6−3(Eステップ)では、式(4)と式(5)の結果を利用して、下の式(7)によりP(c|t)の期待値を計算する。
Figure 2008217529
そしてこの式(7)の結果を利用して、ステップS6−4では、P(c)の値を、下の式(8)により計算する。
Figure 2008217529
式(8)において、|c|は分類すべきクラスの数であり、ここでは2となる。そしてステップS6−5においては、ステップS6−4で計算したP(c)の値が収束したかどうかを判定するために、ステップS6−2からステップS6−5までの処理ループで前回計算したP(c)の値と今回計算したP(c)の値の変化量(差の絶対値)を所定の閾値と比較し、P(c)の変化量がその閾値以上の場合には、ステップS6−2に戻り新たなP(c)及び新たなP(c|t)を利用してP(CPti|c)及びP(SPti|c)の値を計算する。閾値は、例えば1.0×10−3とする。上記比較においてP(c)の変化量が閾値より小さい場合には、最後に計算された確率値P(c|t),P(CPti|c),P(SPti|c)の値を共起情報として共起情報記憶部40に書き込み、処理を終了する。
次に、判断処理部50が、上の機械学習処理の過程で得られた学習結果である共起情報を用いた判断処理を行なう。判断処理部50は、共起情報記憶部40から適宜必要な共起情報(P(c|t),P(CPti|c),P(SPti|c))を読み出して利用する。判断処理部50は、入力テキストデータ100内に含まれる対象語と属性名候補単語のペアそれぞれについて、共起情報である確率値P(c|t)により、そのペアが特定の関係にあるか否か、つまり対象語と属性名の関係にあるか否かを判断(推定)する処理を行なう。
また、判断処理部50は、共起情報である確率値P(CPti|c)を用いて下の式(9)により、P(c|CPti)が計算できる。P(c|CPti)は、特徴tに含まれる構文特徴CPtiを有する語のペアが対象語と属性名の関係である確率を示している。そして判断処理部50は、この値により対象語と属性名の関係にあるか否かを判断(推定)する処理を行なう。
Figure 2008217529
また、判断処理部50は、共起情報である確率値P(SPti|c)を用いて下の式(10)により、P(c|SPti)が計算できる。P(c|SPti)は、特徴tに含まれる語義特徴SPtiを有する語のペアが対象語と属性名の関係である確率を示している。そして判断処理部50は、この値により対象語と属性名の関係にあるか否かを判断(推定)する処理を行なう。
Figure 2008217529
そして、出力部60は、判断処理部50の判断結果に基づき、特定の関係にある語のペア、つまり対象語と属性名のペアのリストを出力する。
図8は、共起情報の一例として確率値P(c|SPti)を用いて、入力テキストデータからこの確率値の高い名詞ペア(つまり対象語と属性名とのペア)をリストアップしたテーブルである。元となったテキストデータは、日本放送協会が制作し放送した実際のテレビ番組「地球ふしぎ大自然」のクローズドキャプションに相当するテキストであり、対象語としては「動物」を選択した。図8に示している確率値P(c|SPti)は前記の式(10)により計算したものである。「仲間」,「祖先」,「群れ」,・・・など、動物の属性名として相応しい語が高い確率値により抽出されている。この実例は、本実施形態が属性名の抽出、ひいては知識抽出に有効であることを示している。
つまり、本実施形態のテキスト分析装置1aを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性名のペアを抽出することが可能となる。
以上、教師有りテキストデータ110aと入力テキストデータ100を基に機械学習処理を行なって、その結果得られる共起情報を用いて判定処理を行なう手順を述べたが、予め行なわれた学習処理の際に共起情報記憶部40に書き込まれた共起情報を読み出すことにより、対象語と属性名候補単語のペアについて判断をするようにしても良い。この場合は、機械学習部30は動作せず、対象語及び属性名候補単語抽出部10aで抽出されたペアについて、特徴抽出部20が抽出した語義特徴と構文特徴を用いて、また共起情報を用いて、判断処理部50が判断処理をする。
[第2の実施の形態]
次に、本発明の第2の実施形態について説明する。前記の実施形態が入力テキストデータから対象語と属性名のペアを抽出するものであったのに対して、この第2の実施形態によるテキスト分析装置は、入力テキストデータから、対象語と属性値とのペアを自動的に抽出する。
図9は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
図示するテキスト分析装置1bが前記の実施形態と異なるところは、次の2点である。
第1に、テキスト分析装置1bが対象語及び属性値候補単語抽出部10bを有する点。これは、第1の実施形態における対象語及び属性名候補単語抽出部10aと同様の構成・機能・作用を有しているが抽出するのが対象語と属性値候補単語のペアである点が異なっている。例えば数詞が属性名となり得ないという前提の下、第1の実施形態における対象語及び属性名候補単語抽出部10aは数詞を属性名候補から除外するようにしても良いことを第1の実施形態において記載したが、本実施形態においては数詞を属性値候補から除外することは適切ではない場合が多いため、そのような除外は行なわない。
第2には、入力として取り込む教師有りテキストデータ110bが、第1の実施形態における教師有りテキストデータ110aとは異なる正解データを有している点である。
上記の相違点を除けば、テキスト分析装置1bの構成および動作は、第1の実施形態におけるテキスト分析装置1aと同様である。テキスト分析装置1bの具体的な処理手順は、第1の実施形態におけるテキスト分析装置1aの処理手順において「属性名」とあるものを「属性値」と読み替えたものと同様である。
つまり、本実施形態のテキスト分析装置1bを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性値のペアを抽出することが可能となる。
なお、予め行なわれた学習処理の際に共起情報記憶部40に書き込まれた共起情報を読み出すことにより、対象語と属性値候補単語のペアについて判断をするようにしても良い。この場合は、機械学習部30は動作せず、対象語及び属性名候補単語抽出部10bで抽出されたペアについて、特徴抽出部20が抽出した語義特徴と構文特徴を用いて、また共起情報を用いて、判断処理部50が判断処理をする。
[第3の実施形態]
次に、本発明の第3の実施形態について説明する。前記の各実施形態が入力テキストデータから、ペア(対象語と属性名、または対象語と属性値)を抽出するものであったのに対して、この第3の実施形態によるテキスト分析装置は、入力テキストデータから、3項の語の組みを抽出する。
図10は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
図10に示すように、テキスト分析装置1cは、対象語及び属性名候補単語抽出部10aとそれに対応した特徴抽出部20a、対象語及び属性値候補単語抽出部10bとそれに対応した特徴抽出部20b、属性名候補単語及び属性値候補単語抽出部10cとそれに対応した特徴抽出部20cとを備えている。更にテキスト分析装置は、機械学習部31、共起情報記憶部41、判断処理部51、出力部61を備えている。
入力テキストデータ100は、前記の実施形態と同様に、比較的大量の教師無しデータである。また、教師有りテキストデータ110は、比較的少量のテキストデータと、正解データとを含んでいる。本実施形態における教師ありテキストデータ110は、3項の語の組みが「対象語−属性名−属性値」の関係にあるか否かの情報を正解データとして持っている。
次に、このテキスト分析装置1cの動作について説明する。
対象語及び属性名候補単語抽出部10aは、第1の実施形態におけるものと同様の動作をする。そして、特徴抽出部20aは、第1の実施形態における特徴抽出部20と同様の構成を有し同様の動作をする。これらの処理により、対象語と属性名候補単語のペアと、各ペアの語義特徴及び構文特徴が抽出される。
対象語及び属性値候補単語抽出部10bは、第2の実施形態におけるものと同様の動作をする。そして、特徴抽出部20bは、第2の実施形態における特徴抽出部20と同様の構成を有し同様の動作をする。これらの処理により、対象語と属性値候補単語のペアと、各ペアの語義特徴及び構文特徴が抽出される。
属性名候補単語及び属性値候補単語抽出部10cは、属性名と属性値のペアの候補を抽出する。例えば、属性名候補単語として、対象語及び属性名候補単語抽出部10aによって抽出された属性名候補単語の集合と同じものを抽出するようにする。また、例えば、属性値候補単語として、対象語及び属性値候補単語抽出部10bによって抽出された属性値候補単語の集合と同じものを抽出するようにする。そして、それらの組合せにより、属性名候補と属性値候補のペアを抽出する。特徴抽出部20cは、属性名候補単語及び属性値候補単語抽出部10cによって抽出されたペアそれぞれについて、前記の実施形態と同様の方法で語義特徴及び構文特徴を抽出する処理を行なう。
つまり、特徴抽出部20a〜20cは、入力されるテキストデータに含まれる3項の語の組みそれぞれについての語義特徴および構文特徴を抽出するものである。
機械学習部31は、特徴抽出部20a、20b、20cによって抽出された語義特徴および構文特徴を用いた学習処理を行なう。そのためにまず、上の処理で抽出された対象語と属性名候補単語のペア、対象語と属性値候補単語のペア、および属性名候補単語と属性値候補単語のペアを組み合わせることにより、対象語と属性名候補単語と属性値候補単語の3項による語の組みを生成する。i番目の3項の語の組みが特徴tを有するとき、ここで生成された3項の語の組みが、「対象語−属性名−属性値」の関係にある(これを命題cとする)確率P(c|t)、および「対象語−属性名−属性値」の関係に無い(これを命題cとする)確率P(c|t)は、前記の式1で与えられる。
以下、処理手順を説明する。手順は、前記の実施形態と基本的には同様であるので、図6に示したフローチャートを参照しながら説明する。
機械学習部31は、まずステップS6−1(Eステップ)において、教師有りテキストデータ110を用いて特徴tが属するクラスcの初期確率P(c|t)を前記の式(3)で計算する。ここで、P(c)は、対象語、属性名候補単語、属性値候補単語が「対象語−属性名−属性値」の関係にある確率であり、P(c)はそれらが「対象語−属性名−属性値」の関係に無い確率である。P(t)は特徴tが出現する確率である。この値が大きいクラスc(cまたはc)を、「対象語−属性名−属性値」の関係にあるか否かの判定結果とする。
P(t|c)は、クラスcのときに特徴tが出現する確率であり、次の式(11)により与えられる。
Figure 2008217529
式(11)において、CPatiは特徴tに含まれる対象語と属性名候補単語のペアに関する構文特徴を指し、CPbtiは特徴tに含まれる対象語と属性値候補単語のペアに関する構文特徴を指し、CPctiは特徴tに含まれる属性名候補単語と属性値候補単語のペアに関する構文特徴を指す。また、SPatiは特徴tに含まれる対象語と属性名候補単語のペアに関する語義特徴を指し、SPbtiは特徴tに含まれる対象語と属性値候補単語のペアに関する語義特徴を指し、SPctiは特徴tに含まれる属性名候補単語と属性値候補単語のペアに関する語義特徴を指す。
機械学習部31は、前記実施形態における機械学習部30と同様に、EMアルゴリズムを用いる。本実施形態のステップS6−2(Mステップ)においては、P(CPti|c)とP(SPti|c)を計算する代わりに、3項内の各ペアについての計算を行なう。即ち、前記の式(4)により、P(CPati|c),P(CPbti|c),P(CPcti|c)を計算する。また、前記の式(5)により、P(SPati|c),P(SPbti|c),P(SPcti|c)を計算する。
次に機械学習部31はステップS6−3(Eステップ)において、式(12)により、P(c|t)の期待値を計算する。
Figure 2008217529
そして、ステップS6−4では、前記の式(8)により、P(c)の値を計算する。
そして、ステップS6−5においては、前記の実施形態における手順と同様に、ステップS6−4で計算したP(c)の値が収束したかどうかを判定するために、前回計算したP(c)の値と今回計算したP(c)の値の変化量を閾値(例えば1.0×10−3)と比較する。この変化量が閾値以上の場合には、ステップS6−2に戻って計算を繰り返す。この変化量が閾値より小さい場合には、最後に計算された確率値P(c|t),P(CPati|c),P(SPati|c),P(CPbti|c),P(SPbti|c)の値を共起情報として共起情報記憶部41に書き込み、処理を終了する。通常、「対象語−属性項目−属性値」の関係を判定するためにはこの共起情報で十分であるが、P(CPcti|c),P(SPcti|c)の値を共起情報に含めて、共起情報記憶部41に書き込むようにしても良い。
つまり、共起情報記憶部41は、3項の語の複数の組みについての特定の関係における共起情報を記憶する。
そして前記の式(10)を用いると、P(c|SPati),P(c|SPbti)を計算することができる。判断処理部51は、「対象語−属性名−属性値」の3項の組みの候補について、共起情報記憶部41から読み出した共起情報に基づくP(c|SPati),P(c|SPbti)の値により判定処理を行ない、これにより「対象語−属性名−属性値」の組みを抽出する。つまり、判断処理部51は、特徴抽出部20a〜20cが抽出した3項の語の組みの語義特徴および構文特徴と、共起情報記憶部41から読み出した当該3項の語の組みの共起情報とに基づき、当該3項の語の組みが特定の関係を有するか否かを判断する処理を行なう。出力部61は、判断処理部51による抽出結果に基づき、出力データ151を出力する。
つまり、本実施形態のテキスト分析装置1cを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性名と属性値の3項の組みを抽出することが可能となる。
なお、予め行なわれた学習処理の際に共起情報記憶部41に書き込まれた共起情報を読み出すことにより、対象語と属性値候補単語のペアについて判断をするようにしても良い。この場合は、機械学習部31は動作せず、抽出された3項の語の組みについて、特徴抽出部20a〜20cが抽出した語義特徴と構文特徴を用いて、また共起情報を用いて、判断処理部51が判断処理をする。
なお、上述した各実施形態におけるテキスト分析装置の一部、例えば、ペアあるいは3項の語の組みを抽出する各抽出部、特徴抽出部、機械学習部、判断処理部、出力部等の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、「対象語−属性名」のペアや、「対象語−属性値」のペアや、「対象語−属性名−属性値」の語の組みなどだけではなく、一般的に、入力テキストデータから特定の関係を有する語の組み(2項、3項など)を抽出するテキスト分析装置とする形態が可能である。そのためには、装置としては特に前記の実施形態を変える必要はなく、目的に応じた適切な教師有りテキストデータを入力するようにすれば良い。
また例えば、語のペアの抽出や、語の3項の組みの抽出だけではなく、一般に入力テキストデータから特定の関係を有するN項(Nは2以上の自然数)の語の組みを抽出するテキスト分析装置とする形態が可能である。そのためには、入力されるテキストデータに含まれるN項(Nは2以上の整数)の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記N項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記N項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該N項の語の組みの前記共起情報とに基づき、当該N項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部を備えるテキスト分析装置を構成すればよい。また、この場合の機械学習処理部は、第3の実施形態におけるそれをN項に一般化し、テキストデータ中の3項の語の組みが特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、特徴抽出部によって抽出される3項の語の組みの語義特徴および構文特徴を用いて機械学習処理した結果を共起情報として共起情報記憶部に書き込む。
なお、この場合、N項の語の組みの特徴としては、当該N項の語の組みから選んだ2語のペア(ペアの数は通り)それぞれについての前記実施形態と同様の語義特徴および構文特徴の総集合を用いる。
なお、第1〜第3の実施形態は、このN項の語の組みを抽出するテキスト分析装置の特殊形態である。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明の第1実施形態によるテキスト分析装置の機能構成を示したブロック図である。 本発明の第1実施形態による特徴抽出部の詳細機能構成を示したブロック図である。 本発明の実施形態により分析対象となる入力文の例と、抽出候補となる名詞ペアの例を示した概略図である。 本発明の実施形態により入力文を構文解析した結果の構文木の例を示した概略図である。 本発明の実施形態により入力分を構文解析した結果の構文木の部分木であり、対象語と属性名候補単語との間のリストに対応する部分木の例を示す概略図である。 本発明の実施形態による機械学習処理の処理手順を示したフローチャート図である。 本発明の実施形態により抽出される構文特徴の例であり、対象語「レア」と属性名候補単語「背丈」を持つ部分構文木を示す概略図である。 本発明の実施形態により実際の番組のクローズドキャプションテキストから出力された対象語と属性名とのペアの例およびその確率値を表わすテーブルである。 本発明の第2実施形態によるテキスト分析装置の機能構成を示したブロック図である。 本発明の第3実施形態によるテキスト分析装置の機能構成を示したブロック図である。
符号の説明
1a,1b,1c テキスト分析装置
10a 対象語及び属性名候補単語抽出部
10b 対象語及び属性値候補単語抽出部
10c 属性名候補単語及び属性値候補単語抽出部
20,20a,20b,20c 特徴抽出部
21 構文解析部
23 構文特徴抽出部
25 語義特徴抽出部
29 シソーラス
30,31 機械学習部
40,41 共起情報記憶部
50,51 判断処理部
60,61 出力部
100 入力テキストデータ
110,110a,110b 教師有りテキストデータ

Claims (9)

  1. 入力されるテキストデータに含まれる2語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
    複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、
    前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
    を備えることを特徴とするテキスト分析装置。
  2. 請求項1に記載のテキスト分析装置において、
    前記テキストデータ中の2語のペアが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記2語のペアの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするテキスト分析装置。
  3. 請求項1または請求項2に記載のテキスト分析装置であって、
    前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性名である
    ことを特徴とするテキスト分析装置。
  4. 請求項1または請求項2に記載のテキスト分析装置であって、
    前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性値である
    ことを特徴とするテキスト分析装置。
  5. 入力されるテキストデータに含まれる3項の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
    複数の前記3項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、
    前記特徴抽出部が抽出した前記3項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該3項の語の組みの前記共起情報とに基づき、当該3項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
    を備えることを特徴とするテキスト分析装置。
  6. 請求項5に記載のテキスト分析装置において、
    前記テキストデータ中の3項の語の組みが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記3項の語の組みの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするテキスト分析装置。
  7. 請求項5または請求項6に記載のテキスト分析装置であって、
    前記特定の関係は、前記テキストデータ中に含まれる対象語と、当該対象語の属性名と、当該対象語の属性値の組みである
    ことを特徴とするテキスト分析装置。
  8. 入力されるテキストデータに含まれるN項(Nは2以上の整数)の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
    複数の前記N項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、
    前記特徴抽出部が抽出した前記N項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該N項の語の組み前記共起情報とに基づき、当該N項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
    を備えることを特徴とするテキスト分析装置。
  9. 入力されるテキストデータに含まれるN項(Nは2以上の整数)の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出処理過程と、
    複数の前記N項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部から前記共起情報を読み出す読み出し過程と、
    前記特徴抽出処理過程において抽出した前記N項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該N項の語の組みの前記共起情報とに基づき、当該N項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理過程と、
    の処理をコンピュータに実行させるテキスト分析プログラム。
JP2007055419A 2007-03-06 2007-03-06 テキスト分析装置およびテキスト分析プログラム Pending JP2008217529A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007055419A JP2008217529A (ja) 2007-03-06 2007-03-06 テキスト分析装置およびテキスト分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007055419A JP2008217529A (ja) 2007-03-06 2007-03-06 テキスト分析装置およびテキスト分析プログラム

Publications (1)

Publication Number Publication Date
JP2008217529A true JP2008217529A (ja) 2008-09-18

Family

ID=39837482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007055419A Pending JP2008217529A (ja) 2007-03-06 2007-03-06 テキスト分析装置およびテキスト分析プログラム

Country Status (1)

Country Link
JP (1) JP2008217529A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011204225A (ja) * 2010-03-25 2011-10-13 Nec (China) Co Ltd 属性抽出装置および方法
JP2012527058A (ja) * 2009-05-14 2012-11-01 コレクシス・ホールディングス・インコーポレーテッド 知識発見のための方法およびシステム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200600808004; 山田一郎 他5名: 'AdaBoostを利用した字幕テキストからの定型表現文章区間抽出' 電子情報通信学会技術研究報告 Vol.106,No.190, 20060720, 25-30頁, 社団法人電子情報通信学会 *
CSNG200600984020; 山田一郎 他4名: 'アナウンサーと解説者のコメントを利用したサッカー番組セグメントメタデータ自動生成' 電子情報通信学会論文誌 Vol.J89-D NO.10, 20061001, 2328-2337頁, 社団法人電子情報通信学会 *
CSNJ200610036045; 山田一郎 他5名: 'クローズドキャプションを対象とした因果関係知識抽出の検討' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, 113-114頁, 社団法人情報処理学会・社団法人電子情報通信学会 *
JPN6012012016; 山田一郎 他5名: 'クローズドキャプションを対象とした因果関係知識抽出の検討' FIT2005 第4回情報科学技術フォーラム 一般講演論文集 第2分冊 , 20050822, 113-114頁, 社団法人情報処理学会・社団法人電子情報通信学会 *
JPN6012047548; 山田一郎 他5名: 'AdaBoostを利用した字幕テキストからの定型表現文章区間抽出' 電子情報通信学会技術研究報告 Vol.106,No.190, 20060720, 25-30頁, 社団法人電子情報通信学会 *
JPN6012047549; 山田一郎 他4名: 'アナウンサーと解説者のコメントを利用したサッカー番組セグメントメタデータ自動生成' 電子情報通信学会論文誌 Vol.J89-D NO.10, 20061001, 2328-2337頁, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012527058A (ja) * 2009-05-14 2012-11-01 コレクシス・ホールディングス・インコーポレーテッド 知識発見のための方法およびシステム
JP2011204225A (ja) * 2010-03-25 2011-10-13 Nec (China) Co Ltd 属性抽出装置および方法

Similar Documents

Publication Publication Date Title
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
JP3973549B2 (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US7636657B2 (en) Method and apparatus for automatic grammar generation from data entries
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
CN110096599B (zh) 知识图谱的生成方法及装置
JP6551968B2 (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
US20100228538A1 (en) Computational linguistic systems and methods
CN114266256A (zh) 一种领域新词的提取方法及系统
JP2008217529A (ja) テキスト分析装置およびテキスト分析プログラム
JP4005477B2 (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
CN114302227B (zh) 基于容器采集的网络视频采集与解析的方法和系统
JP5184195B2 (ja) 言語処理装置およびプログラム
JP5100203B2 (ja) テキスト分析装置およびテキスト分析プログラム
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
CN113761919A (zh) 一种口语化短文本的实体属性提取方法及电子装置
KR100574887B1 (ko) 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법
JP4933118B2 (ja) 文章区間抽出装置及びプログラム
JP4059501B2 (ja) 自然語辞書更新装置
JP5178357B2 (ja) 単語スコア算出装置、文書ラベル判定システム、および単語スコア算出プログラム
CN115796194A (zh) 一种基于机器学习的英语翻译系统
Tukeyev A NEW COMPUTATIONAL MODEL FOR TURKIC LANGUAGES MORPHOLOGY AND PROCESSING
Chebanyuk Multilingual Question-Driven Approach and Software System to Obtaining Information from Texts
KR101450795B1 (ko) 대용어 복원 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121120