JP2008217529A

JP2008217529A - テキスト分析装置およびテキスト分析プログラム

Info

Publication number: JP2008217529A
Application number: JP2007055419A
Authority: JP
Inventors: Ichiro Yamada; 一郎山田; Kikuka Miura; 菊佳三浦; Hideki Sumiyoshi; 英樹住吉; Nobuyuki Yagi; 伸行八木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2007-03-06
Filing date: 2007-03-06
Publication date: 2008-09-18

Abstract

【課題】幅広いデータを対象とすることができ、且つ所望の特定の関係を有する複数の語の組みを網羅的に抽出することのできるテキスト分析装置およびテキスト分析プログラムを提供する。
【解決手段】テキスト分析装置が、入力されるテキストデータに含まれる２語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部を備える。
【選択図】図１

Description

本発明は、電子化されたテキストを分析するテキスト分析装置及びテキスト分析プログラムに関する。特に、自然言語のテキストを処理し、対象名詞と属性名と属性値などといった特定の関係を有する語の組みを解析し、知識抽出等に応用することのできるテキスト分析装置及びテキスト分析プログラムに関する。

従来、文章から特定の関係を有する複数の語を抽出する手法としてはテンプレートを利用する手法が提案されている。例えば、非特許文献１では、文章から単語とその属性名を抽出する手法として、「名詞Ａ＋が＋形容詞＋名詞Ｂ」というテンプレートに合うものから統計的に判定して抽出する手法が提案されている。
阿辺川武，奥村学，「形容詞を用いた対象・属性名詞対の収集および分析」，言語処理学会第１２回年次大会，日本，２００６年３月，ｐ．７３−７６

しかしながら、上記の従来技術による方法では、テンプレートに合致しない語の組みを抽出できないという問題がある。従って、従来技術による方法では、準備するテンプレートに抽出結果が大きく依存してしまう。また、従来技術による方法で網羅的に抽出するためには多種のテンプレートを準備する必要がある。逆に、テンプレートに合致するパターンの組みが大量に出現しないと、望む結果を得る処理が困難となる。
本発明は、上記の課題認識に基づいて行なわれたものであり、テンプレートを利用する方法に比べて幅広いデータを対象とすることができ、且つ所望の特定の関係を有する複数の語の組みを網羅的に抽出することのできるテキスト分析装置およびテキスト分析プログラムを提供することを目的とする。

本発明のテキスト分析装置による属性抽出手法では、共起している名詞を処理対象とするため、テンプレートを利用する手法に比べて幅広いデータを対象とすることができる。また、幅広いデータを対象とするため、属性名や属性値の候補となる名詞は、属性名や属性値でないものが多くなる。そこで、共起した名詞ペアの語義特徴と構文特徴の２つを利用して、統計的に属性名や属性値の候補となる名詞を抽出する。

［１］前記の課題を解決するため、本発明の一態様によるテキスト分析装置は、入力されるテキストデータに含まれる２語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部とを備えることを特徴とする。
この発明によれば、予めテンプレートを作成することなく、特定の関係を有する可能性のある２語のペア（候補）の語義特徴あるいは構文特徴に基づくとともに、当該ペアの特徴と関連付けられた共起情報に基づき、当該ペアが特定の関係を有するか否かを判断することができる。
本発明の一態様においては、前記構文特徴は、入力テキストデータを構文解析処理し、構文解析の結果得られる構文木のうちのペアの２語を連結する部分木のデータを表わすリストである。つまり、ペアである２語についての構文上での共通係り先までのリスト構造である。
本発明の一態様においては、前記語義特徴は、２語の上位概念を表わす語である。

［２］また、本発明の一態様は、前記のテキスト分析装置において、前記テキストデータ中の２語のペアが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記２語のペアの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするものである。
これによれば、例えば比較的少量の教師有りテキストデータと比較的多量の教師無しテキストデータに基づき、共起情報を算出することが出来、算出された共起情報は、語のペアが特定の関係にあるか否かの判定に用いることが出来る。
本発明の一態様においては、前記機械学習処理は、ＥＭアルゴリズムを用いて語のペアが特定の関係にある確率（または、ない確率）を算出する。

［３］また、本発明の一態様によるテキスト分析装置は、前記のテキスト分析装置であって、前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性名であることを特徴とする。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性名のペアを自動的に抽出できる。

［４］また、本発明の一態様によるテキスト分析装置は、前記のテキスト分析装置であって、前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性値であることを特徴とする。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性値のペアを自動的に抽出できる。

［５］また、本発明の一態様によるテキスト分析装置は、入力されるテキストデータに含まれる３項の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記３項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記３項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該３項の語の組みの前記共起情報とに基づき、当該３項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部とを備えることを特徴とするものである。
これによれば、予めテンプレートを作成することなく、特定の関係を有する可能性のある３項の語の組み（候補）の語義特徴あるいは構文特徴に基づくとともに、当該組みの特徴と関連付けられた共起情報に基づき、当該組みが特定の関係を有するか否かを判断することができる。

［６］また、本発明の一態様は、前記のテキスト分析装置において、前記テキストデータ中の３項の語の組みが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記３項の語の組みの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするものである。
これによれば、例えば比較的少量の教師有りテキストデータと比較的多量の教師無しテキストデータに基づき、共起情報を算出することが出来、算出された共起情報は、３項の語の組みが特定の関係にあるか否かの判定に用いることが出来る。

［７］また、本発明の一態様は、前記のテキスト分析装置において、前記特定の関係は、前記テキストデータ中に含まれる対象語と、当該対象語の属性名と、当該対象語の属性値の組みであることを特徴とするものである。
これによれば、テキスト分析装置が、テキストデータ中に含まれる対象語とその対象語の属性名とその属性名に対応する属性値の３項からなる語の組みを自動的に抽出できる。
このような３項の語の組みは、コンピュータによる処理のための知識表現に向いているため、つまり、テキスト分析装置がテキストデータ中に含まれる知識を自動的に抽出できる。

［８］また、本発明の一態様によるテキスト分析装置は、入力されるテキストデータに含まれるＮ項（Ｎは２以上の整数）の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記Ｎ項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記Ｎ項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該Ｎ項の語の組みの前記共起情報とに基づき、当該Ｎ項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部とを備えることを特徴とする。
これによれば、予めテンプレートを作成することなく、特定の関係を有する可能性のあるＮ項の語の組み（候補）の語義特徴あるいは構文特徴に基づくとともに、当該組みの特徴と関連付けられた共起情報に基づき、当該組みが特定の関係を有するか否かを判断することができる。

［９］また、本発明の一態様によるテキスト分析プログラムは、入力されるテキストデータに含まれるＮ項（Ｎは２以上の整数）の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出処理過程と、複数の前記Ｎ項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部から前記共起情報を読み出す読み出し過程と、前記特徴抽出処理過程において抽出した前記Ｎ項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該Ｎ項の語の組みの前記共起情報とに基づき、当該Ｎ項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理過程との処理をコンピュータに実行させる。

本発明によれば、大量のテキストデータから、特定の関係を有する語の組みを自動的に抽出することができる。具体的には、大量のテキストデータから対象名詞（対象語）に対する属性名、属性値を自動的に判別して抽出することができる。インターネットなどにおける情報検索では、対象名詞に対する属性名、属性値がわかれば検索精度が向上することが期待できる。また、放送においても、字幕放送のテキストデータをテレビが解析することによって、あらゆる名詞に対する属性名、属性値を自動獲得することが可能となり、ニュース項目を自動分類したり、番組中で紹介されたノウハウを溜め込んだりする手法としても有効である。

コンピュータ処理に向いた知識表現の形態として（対象語，属性名，属性値）の３項の組みによる表現がよく用いられる。属性名とは対象語が表わす対象の特徴の名前であり、属性値とはその属性名に対する値である。例えば、（「キリン」，「体長」，「６メートル」）や（「キリン」，「首」，「長い」）という表現である。以下で説明する複数の実施形態は、日本語による大量の入力テキストデータを解析して、自動的に、そのテキストデータの中に含まれる対象語（多くの場合、名詞）に対して属性名や属性値を当該テキストデータから抽出するテキスト分析装置に関するものである。これにより、大量のテキストデータからの知識獲得を自動的に行なえるようになる。

[第１の実施の形態]
第１の実施形態は、入力テキストデータから、対象語と属性名とのペアを自動的に抽出するためのテキスト分析装置に関するものである。
図１は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。図１において、符号１ａはテキスト分析装置である。テキスト分析装置１ａは、対象語及び属性名候補単語抽出部１０ａと、特徴抽出部２０と、機械学習部３０と、共起情報記憶部４０と、判断処理部５０と、出力部６０とを内部に有している。
そして、テキスト分析装置１ａは、入力テキストデータ１００および教師有りテキストデータ１１０ａを読み込み、分析処理の結果を出力部６０から出力データ１５０として出力する。

対象語及び属性名候補単語抽出部１０ａは、入力されるテキストデータから対象語と属性名候補単語を抽出する。これら対象語と属性名候補単語はほとんどの場合において名詞である。
特徴抽出部２０は、上の処理で抽出された語のペアを基に、そのペアの語義特徴と構文特徴とを抽出する。語義特徴とはこれらの語の上位概念であり、構文特徴とはこれらの語の構文上での共通係り先までのリスト構造である。特徴抽出部２０の詳細な構成と動作は別の図を参照しながら後述する。

機械学習部３０は、教師有りテキストデータ１１０ａによって示される正解に基づき機械学習処理を行ない、学習の結果として、入力テキストデータ中から抽出された語のペアが対象語と属性名の関係を有するか否かの判定の元となる共起情報を出力する。教師有りテキストデータ１１０ａには、入力テキストデータ１００と比べると少量のテキストと、当該テキスト内に含まれる語のペアが対象語と属性名の関係を有するか否かを示す正解データ（「真」または「偽」）とを含んでいる。具体的な学習手順については、別の図を参照しながら後述する。
共起情報記憶部４０は、機械学習部３０による機械学習処理の結果として得られた共起情報を記憶するものであり、半導体メモリや磁気ハードディスクドライブなどを用いて構成される。共起情報は、語のペアに関する確率値を含む情報である。つまり、共起情報記憶部４０は、語のペアについての特定の関係における共起情報を記憶するものである。
判断処理部５０は、共起情報記憶部４０から共起情報を読み出し、この共起情報を用いて、上の処理で抽出された対象語と属性名候補単語のペアが対象語と属性名の関係にあるか否かを判定する。更に言うと、判断処理部５０は、特徴抽出部２０が抽出した語義特徴および構文特徴と、共起情報記憶部４０から読み出した当該ペアの共起情報とに基づき、当該ペアが特定の関係を有するか否かを判断する処理を行なうものである。
出力部６０は、判断処理部５０による判断の結果に基づき、入力テキストデータ１００から抽出された、対象語と属性名のペアを出力する。入力テキストデータが十分に大量であれば、通常の場合は複数のペアが出力される。

以下では、装置を構成する各部の詳細な動作について説明する。
まず、対象語及び属性名候補単語抽出部１０ａが、入力テキストデータ１００から対象語と属性名候補単語を抽出する。対象語としては、例えば同じ意味のカテゴリーに属するような単語を選択する。例えば、操作者による操作または入力されるパラメータデータによって「動物」と指定された場合、入力テキストデータ１００中の「ライオン」，「キリン」，「ゾウ」などが処理の対象語となる。特定のカテゴリーに属する対象語を選択するための判定には、既存のシソーラス（例えば、国立国語研究所・編，「分類語彙表増補改訂版」，大日本図書，２００４年）を電子化し、コンピュータ読み出し可能としたものを利用する。
また、属性名候補単語は、入力テキスト中の全ての名詞とする。但し、属性名とはなり得ない単語をこの段階で候補から除外するようにしても良い。属性名とはなり得ない単語とは、例えば数詞（数値表現）や対象語と同一のカテゴリーに属する単語などである。このような除外を行なうことにより後の段階の機械学習処理の時間を短縮することもできる。
抽出された対象語の個数がＬ個、属性名候補単語の個数がＭ個のとき、単純にすべての組合せをペアとして出力すると（Ｌ×Ｍ）個のペアが抽出されることになる。
対象語及び属性名候補単語抽出部１０ａは、また、教師有りデータ１１０ａのテキストについても同様の方法で対象語と属性名候補単語を抽出する。

上で抽出された対象語と属性名候補単語のペアに対して、次に、特徴抽出部２０が特徴抽出の処理を行なう。図２は、特徴抽出部２０のより詳細な機能構成を示したブロック図である。図示するように、特徴抽出部２０は、構文解析部２１と、構文特徴抽出部２３と、語義特徴抽出部２５と、シソーラス２９を含んで構成される。
語義特徴抽出部２５は、シソーラス２９（前述の「分類語彙表増補改訂版」などを電子化しコンピュータ読み出し可能としたもの）などから語のペアの上位概念を語義特徴として抽出する。

構文解析部２１は、入力されるテキスト（入力テキストデータ１００または教師有りテキストデータ１１０ａに含まれるテキスト）の構文解析を行ない、結果として構文木を出力する。この構文解析は、例えば、テキストの字句解析、形態素解析等を行ない、入力テキストの文節間の係り受け関係を解析した結果を利用して処理する。入力テキストが複数文からなる場合は、各文を構文解析して構文木を得て、これら構文木のルート（ｒｏｏｔ，根）となるノードの上に最上位ノードを作成して、全ての文の構文解析結果の構文木を繋げ、一つの構文木とする。そして得られたこの構文木を基に、語のペアのそれぞれについて、共通係り先までのリストを抽出する。この時、この木構造にある各ノード中の、自立語（名詞、動詞、形容詞、副詞、形容動詞、接続詞など）と機能語（助詞、助動詞など）を分離して別ノードとして扱う。つまり、助詞や助動詞などの機能語も独立のノードとして扱う。

構文特徴抽出部２３による処理の具体例を説明する。
図３は、入力される複数の文と、対象語と属性名候補単語のペアの例である。図示する例では、「ダチョウの仲間レアです。背丈は１ｍ５０ｃｍもあります。」という入力文が処理対象となっている。また、対象語と属性名候補単語のペアとして、「レア」と「背丈」が抽出されている。
図４は、図３の入力文を構文解析した結果の構文木である。第１の文「ダチョウの仲間レアです。」を構文解析した結果として、ルートから順に「です」−「レア」−「仲間」−「の」−「ダチョウ」というノードが連結された構文木が得られている。第２の文「背丈は１ｍ５０ｃｍもあります。」を構文解析した結果として、ルートから順に「ます」−「ある」−「は」−「背丈」というノードが連結するとともにこの途中のノード「ある」から枝分かれして「ある」−「も」−「１ｍ５０ｃｍ」というノードが連結されている。そしてこれら２つの構文木のそれぞれのルート「です」および「ます」をより上位のルート（最上位ノード）で連結して一つの構文木としている。
図５は、図４で得られた構文木から、対象語「レア」と属性名候補単語「背丈」とを連結する共通係り先までの部分木を示す。この共通係り先までの部分木をリストで表わすと「対象語（＝『レア』），『です』，最上位ノード，『ます』，『ある』，『は』，属性名候補単語（＝『背丈』）」となる。構文特徴抽出部２３は、このリストを当該ペアの構文特徴として出力する。

語義特徴抽出部２５による処理の具体例は次の通りである。即ち、シソーラス２９を参照することにより、この対象語「レア」については「動物名」という上位概念が与えられる。また同様に、属性名候補単語「背丈」については「長短・高低・深浅・厚薄・遠近」（コード番号１．１９１１）という上位概念が与えられる。語義特徴抽出部２５はこれらの上位概念を語義特徴として出力する。

次に、機械学習部３０による処理を説明する。機械学習部３０の入力となるのは、入力テキストデータ１００、教師有りテキストデータ１１０ａ（正解データを含む）、及び各ペアの構文特徴と語義特徴である。

入力されたテキストに対応する複数の語のペアの群について、各ペアに一意な順序が付けられており、ｉ番目（ｉ＝１，２，３，・・・）のペアから特徴抽出部２０が抽出した特徴（語義特徴および構文特徴）をｔ_ｉとする。語のペアが特定の関係にある、つまり対象語と属性名の関係にあるという命題をｃ_１とする。逆に、語のペアが特定の関係にない、つまり対象語と属性名の関係にないという命題をｃ_０とする。特徴ｔ_ｉを有するペアについて命題ｃ_１またはｃ_０が成立する確率は次の式（１）で与えられる。

式（１）において、ｊは０又は１である。Ｐ(ｃ_１)は語のペアが対象語と属性名の関係にある確率であり、Ｐ(ｃ_０)はそれらが対象語と属性名の関係にない確率である。Ｐ(ｔ_ｉ)は特徴ｔ_ｉが出現する確率である。式（１）で与えられるこの値Ｐ(ｃ_ｊ｜ｔ_ｉ)により、特徴ｔ_ｉを有するペアが属するクラスｃ_ｊ（ｃ_０またはｃ_１）を判定する。つまり、そのペアが対象語と属性名の関係にあるか否かを判定する。
Ｐ（ｔ_ｉ｜ｃ_ｊ）は、クラスｃ_ｊのときに特徴ｔ_ｉが出現する確率であり、次の式（２）により与えられる。

式（２）において、ＣＰ_ｔｉは特徴ｔ_ｉに含まれる構文特徴を指し、ＳＰ_ｔｉは特徴ｔ_ｉに含まれる語義特徴を指す。Ｐ（ＣＰ_ｔｉ|ｃ_ｊ)は、クラスｃ_ｊのときに特徴ｔ_ｉに含まれる構文構造ＣＰ_ｔｉが出現する確率である。Ｐ（ＳＰ_ｔｉ|ｃ_ｊ)は、クラスｃ_ｊのときに特徴ｔ_ｉに含まれる語義特徴ＳＰ_ｔｉが出現する確率である。

機械学習部３０は、これらの式を利用して、ＥＭアルゴリズム（Expectation-Maximization Algorithm，期待値最大化アルゴリズム）を利用した機械学習処理を行なう。図６は、機械処理部３０による機械学習処理の手順を示すフローチャートである。以下、図６に沿って手順を説明する。

まず、ステップＳ６−１（Ｅステップ）において、教師有りテキストデータ１１０ａの中のテキストを対象として特徴ｔ_ｉが属するクラスｃ_ｊ（語のペアが対象語と属性名の関係にある場合はｃ_１、語のペアが対象語と属性名の関係にない場合はｃ_０）の初期確率Ｐ（ｃ_ｊ｜ｔ_ｉ）計算する。初期確率Ｐ（ｃ_ｊ｜ｔ_ｉ）の計算は次の式（３）により行なう。

言うまでもなく、教師有りテキストデータ１１０ａには正解データが含まれている。つまり、特徴ｔ_ｉを有する語のペアがクラスＣ_１に属するかＣ_０に属するかは確定的に決定される。よって、上記の式（３）により初期確率Ｐ（ｃ_ｊ｜ｔ_ｉ）は数値として算出される。

次に、ステップＳ６−２（Ｍステップ）において、クラスｃ_ｊのもとで構文特徴ＣＰ_ｔｉが発生する確率Ｐ（ＣＰ_ｔｉ|ｃ_ｊ)、及びクラスｃ_ｊのもとで語義特徴ＳＰ_ｔｉが発生する確率Ｐ（ＳＰ_ｔｉ|ｃ_ｊ)を、下の、それぞれ式（４）及び式（５）により求める。なお、ステップＳ６−２以降では、初期値を求めるために利用した教師有りテキストデータだけではなく、教師無しテキストデータ（図１における入力テキストデータと同じ）も含めたテキスト全体について分析する。

式（４）および式（５）において、｜ＣＰ｜はペアである語と語の間の構文構造の総種類数（つまり、同じ構文特徴を有するペアの種類数）を表わし、｜ＳＰ｜は語のペアの総種類数を表わし、｜Ｔ｜は抽出した特徴の総種類数（つまり、ＣＰとＳＰの組み合わせの種類数）を表す。また、Ｎ（ＳＰ,ｔ_ｋ）は、語義特徴に関する関数であり、特徴ｔ_ｋに語のペアが含まれるか否かを表す。即ち、含まれるときだけ１の値をとり、その他の時には０の値をとる。また、ｓｉｍ（ＣＰ_ｔｉ，ＣＰ_ｔｋ）は構文特徴ＣＰ_ｔｉと構文特徴ＣＰ_ｔｋの類似性を表す関数であり、下の式（６）により計算される。

式（６）において、ｗｃ（ｐ_ｉ）は、対象としている語のペアの構文特徴ＣＰ_ｔｉであるリストに含まれる要素から対象語と属性名候補単語を除いた単語数を基準として算出するものであり、名詞や動詞などの自立語には１、助詞や助動詞などの付属語には０．５などの重みを与えてその和とする。この重みは適宜変更してもよい。図５に示した例では、対象語（「レア」）と属性名候補単語（「背丈」）を除いたリストは「『です』，最上位ノード，『ます』，『ある』，『は』」であり、このうち自立語である「ある」には重み１、付属語である「です」，「は」，「ます」には重み０．５を与えると、この構文特徴に対しては、ｗｃ（ｐ_１）＝２．５と算出される。
図７は、対象語「レア」と属性名候補単語「背丈」を持つもうひとつのペアの構文特徴を表わす構文木（部分構文木）の概略図である。この構文特徴に関して、対象語と属性名候補単語を除いたリストは「『は』，『ある』，『が』」である。これについてｗｃ（ｐ_２）を計算すると、「ある」には重み１が与えられ、「は」，「が」には重み０．５が与えられるので、ｗｃ（ｐ_２）＝２．０となる。

また、ｃｏｍ（ｐ_１，ｐ_２）は、構文特徴ＣＰ_ｔ１と構文特徴ＣＰ_ｔ２に基づき、対象語からルートノードまでの順序を考慮した重み付き共通単語数と、属性名候補単語からルートノードまでの順序を考慮した重み付き共通単語数の和である。図５に示した構文特徴ＣＰ_ｔ１と図７に示した構文特徴ＣＰ_ｔ２については、共通単語は「ある」のみであり、これは自立語であるため重み１が与えられ、ｃｏｍ（ｐ_１，ｐ_２）＝１である。
つまり図５に示した構文特徴と図７に示した構文特徴との間の類似度は、式（６）により、ｓｉｍ（ｐ_１，ｐ_２）＝（１×２）／（２．５＋２．０）であり、約０．４４と計算される。

次に、ステップＳ６−３（Ｅステップ）では、式（４）と式（５）の結果を利用して、下の式（７）によりＰ（ｃ_ｊ｜ｔ_ｉ）の期待値を計算する。

そしてこの式（７）の結果を利用して、ステップＳ６−４では、Ｐ（ｃ_ｊ）の値を、下の式（８）により計算する。

式（８）において、|ｃ|は分類すべきクラスの数であり、ここでは２となる。そしてステップＳ６−５においては、ステップＳ６−４で計算したＰ（ｃ_ｊ）の値が収束したかどうかを判定するために、ステップＳ６−２からステップＳ６−５までの処理ループで前回計算したＰ（ｃ_ｊ）の値と今回計算したＰ（ｃ_ｊ）の値の変化量（差の絶対値）を所定の閾値と比較し、Ｐ（ｃ_ｊ）の変化量がその閾値以上の場合には、ステップＳ６−２に戻り新たなＰ（ｃ_ｊ）及び新たなＰ（ｃ_ｊ｜ｔ_ｉ）を利用してＰ（ＣＰ_ｔｉ|ｃ_ｊ)及びＰ（ＳＰ_ｔｉ|ｃ_ｊ)の値を計算する。閾値は、例えば１．０×１０^−３とする。上記比較においてＰ（ｃ_ｊ）の変化量が閾値より小さい場合には、最後に計算された確率値Ｐ（ｃ_ｊ｜ｔ_ｉ），Ｐ（ＣＰ_ｔｉ|ｃ_ｊ)，Ｐ（ＳＰ_ｔｉ|ｃ_ｊ）の値を共起情報として共起情報記憶部４０に書き込み、処理を終了する。

次に、判断処理部５０が、上の機械学習処理の過程で得られた学習結果である共起情報を用いた判断処理を行なう。判断処理部５０は、共起情報記憶部４０から適宜必要な共起情報（Ｐ（ｃ_ｊ｜ｔ_ｉ），Ｐ（ＣＰ_ｔｉ|ｃ_ｊ），Ｐ（ＳＰ_ｔｉ|ｃ_ｊ））を読み出して利用する。判断処理部５０は、入力テキストデータ１００内に含まれる対象語と属性名候補単語のペアそれぞれについて、共起情報である確率値Ｐ（ｃ_ｊ｜ｔ_ｉ）により、そのペアが特定の関係にあるか否か、つまり対象語と属性名の関係にあるか否かを判断（推定）する処理を行なう。

また、判断処理部５０は、共起情報である確率値Ｐ（ＣＰ_ｔｉ|ｃ_ｊ）を用いて下の式（９）により、Ｐ（ｃ_ｊ|ＣＰ_ｔｉ）が計算できる。Ｐ（ｃ_１|ＣＰ_ｔｉ）は、特徴ｔ_ｉに含まれる構文特徴ＣＰ_ｔｉを有する語のペアが対象語と属性名の関係である確率を示している。そして判断処理部５０は、この値により対象語と属性名の関係にあるか否かを判断（推定）する処理を行なう。

また、判断処理部５０は、共起情報である確率値Ｐ（ＳＰ_ｔｉ|ｃ_ｊ）を用いて下の式（１０）により、Ｐ（ｃ_ｊ|ＳＰ_ｔｉ）が計算できる。Ｐ（ｃ_１|ＳＰ_ｔｉ）は、特徴ｔ_ｉに含まれる語義特徴ＳＰ_ｔｉを有する語のペアが対象語と属性名の関係である確率を示している。そして判断処理部５０は、この値により対象語と属性名の関係にあるか否かを判断（推定）する処理を行なう。

そして、出力部６０は、判断処理部５０の判断結果に基づき、特定の関係にある語のペア、つまり対象語と属性名のペアのリストを出力する。
図８は、共起情報の一例として確率値Ｐ（ｃ_ｊ|ＳＰ_ｔｉ）を用いて、入力テキストデータからこの確率値の高い名詞ペア（つまり対象語と属性名とのペア）をリストアップしたテーブルである。元となったテキストデータは、日本放送協会が制作し放送した実際のテレビ番組「地球ふしぎ大自然」のクローズドキャプションに相当するテキストであり、対象語としては「動物」を選択した。図８に示している確率値Ｐ（ｃ_ｊ|ＳＰ_ｔｉ）は前記の式（１０）により計算したものである。「仲間」，「祖先」，「群れ」，・・・など、動物の属性名として相応しい語が高い確率値により抽出されている。この実例は、本実施形態が属性名の抽出、ひいては知識抽出に有効であることを示している。
つまり、本実施形態のテキスト分析装置１ａを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性名のペアを抽出することが可能となる。

以上、教師有りテキストデータ１１０ａと入力テキストデータ１００を基に機械学習処理を行なって、その結果得られる共起情報を用いて判定処理を行なう手順を述べたが、予め行なわれた学習処理の際に共起情報記憶部４０に書き込まれた共起情報を読み出すことにより、対象語と属性名候補単語のペアについて判断をするようにしても良い。この場合は、機械学習部３０は動作せず、対象語及び属性名候補単語抽出部１０ａで抽出されたペアについて、特徴抽出部２０が抽出した語義特徴と構文特徴を用いて、また共起情報を用いて、判断処理部５０が判断処理をする。

[第２の実施の形態]
次に、本発明の第２の実施形態について説明する。前記の実施形態が入力テキストデータから対象語と属性名のペアを抽出するものであったのに対して、この第２の実施形態によるテキスト分析装置は、入力テキストデータから、対象語と属性値とのペアを自動的に抽出する。
図９は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。

図示するテキスト分析装置１ｂが前記の実施形態と異なるところは、次の２点である。
第１に、テキスト分析装置１ｂが対象語及び属性値候補単語抽出部１０ｂを有する点。これは、第１の実施形態における対象語及び属性名候補単語抽出部１０ａと同様の構成・機能・作用を有しているが抽出するのが対象語と属性値候補単語のペアである点が異なっている。例えば数詞が属性名となり得ないという前提の下、第１の実施形態における対象語及び属性名候補単語抽出部１０ａは数詞を属性名候補から除外するようにしても良いことを第１の実施形態において記載したが、本実施形態においては数詞を属性値候補から除外することは適切ではない場合が多いため、そのような除外は行なわない。
第２には、入力として取り込む教師有りテキストデータ１１０ｂが、第１の実施形態における教師有りテキストデータ１１０ａとは異なる正解データを有している点である。

上記の相違点を除けば、テキスト分析装置１ｂの構成および動作は、第１の実施形態におけるテキスト分析装置１ａと同様である。テキスト分析装置１ｂの具体的な処理手順は、第１の実施形態におけるテキスト分析装置１ａの処理手順において「属性名」とあるものを「属性値」と読み替えたものと同様である。
つまり、本実施形態のテキスト分析装置１ｂを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性値のペアを抽出することが可能となる。

なお、予め行なわれた学習処理の際に共起情報記憶部４０に書き込まれた共起情報を読み出すことにより、対象語と属性値候補単語のペアについて判断をするようにしても良い。この場合は、機械学習部３０は動作せず、対象語及び属性名候補単語抽出部１０ｂで抽出されたペアについて、特徴抽出部２０が抽出した語義特徴と構文特徴を用いて、また共起情報を用いて、判断処理部５０が判断処理をする。

［第３の実施形態］
次に、本発明の第３の実施形態について説明する。前記の各実施形態が入力テキストデータから、ペア（対象語と属性名、または対象語と属性値）を抽出するものであったのに対して、この第３の実施形態によるテキスト分析装置は、入力テキストデータから、３項の語の組みを抽出する。

図１０は、本実施形態によるテキスト分析装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
図１０に示すように、テキスト分析装置１ｃは、対象語及び属性名候補単語抽出部１０ａとそれに対応した特徴抽出部２０ａ、対象語及び属性値候補単語抽出部１０ｂとそれに対応した特徴抽出部２０ｂ、属性名候補単語及び属性値候補単語抽出部１０ｃとそれに対応した特徴抽出部２０ｃとを備えている。更にテキスト分析装置は、機械学習部３１、共起情報記憶部４１、判断処理部５１、出力部６１を備えている。
入力テキストデータ１００は、前記の実施形態と同様に、比較的大量の教師無しデータである。また、教師有りテキストデータ１１０は、比較的少量のテキストデータと、正解データとを含んでいる。本実施形態における教師ありテキストデータ１１０は、３項の語の組みが「対象語−属性名−属性値」の関係にあるか否かの情報を正解データとして持っている。

次に、このテキスト分析装置１ｃの動作について説明する。
対象語及び属性名候補単語抽出部１０ａは、第１の実施形態におけるものと同様の動作をする。そして、特徴抽出部２０ａは、第１の実施形態における特徴抽出部２０と同様の構成を有し同様の動作をする。これらの処理により、対象語と属性名候補単語のペアと、各ペアの語義特徴及び構文特徴が抽出される。
対象語及び属性値候補単語抽出部１０ｂは、第２の実施形態におけるものと同様の動作をする。そして、特徴抽出部２０ｂは、第２の実施形態における特徴抽出部２０と同様の構成を有し同様の動作をする。これらの処理により、対象語と属性値候補単語のペアと、各ペアの語義特徴及び構文特徴が抽出される。
属性名候補単語及び属性値候補単語抽出部１０ｃは、属性名と属性値のペアの候補を抽出する。例えば、属性名候補単語として、対象語及び属性名候補単語抽出部１０ａによって抽出された属性名候補単語の集合と同じものを抽出するようにする。また、例えば、属性値候補単語として、対象語及び属性値候補単語抽出部１０ｂによって抽出された属性値候補単語の集合と同じものを抽出するようにする。そして、それらの組合せにより、属性名候補と属性値候補のペアを抽出する。特徴抽出部２０ｃは、属性名候補単語及び属性値候補単語抽出部１０ｃによって抽出されたペアそれぞれについて、前記の実施形態と同様の方法で語義特徴及び構文特徴を抽出する処理を行なう。
つまり、特徴抽出部２０ａ〜２０ｃは、入力されるテキストデータに含まれる３項の語の組みそれぞれについての語義特徴および構文特徴を抽出するものである。

機械学習部３１は、特徴抽出部２０ａ、２０ｂ、２０ｃによって抽出された語義特徴および構文特徴を用いた学習処理を行なう。そのためにまず、上の処理で抽出された対象語と属性名候補単語のペア、対象語と属性値候補単語のペア、および属性名候補単語と属性値候補単語のペアを組み合わせることにより、対象語と属性名候補単語と属性値候補単語の３項による語の組みを生成する。ｉ番目の３項の語の組みが特徴ｔ_ｉを有するとき、ここで生成された３項の語の組みが、「対象語−属性名−属性値」の関係にある（これを命題ｃ_１とする）確率Ｐ（ｃ_１｜ｔ_ｉ）、および「対象語−属性名−属性値」の関係に無い（これを命題ｃ_０とする）確率Ｐ（ｃ_０｜ｔ_ｉ）は、前記の式１で与えられる。

以下、処理手順を説明する。手順は、前記の実施形態と基本的には同様であるので、図６に示したフローチャートを参照しながら説明する。
機械学習部３１は、まずステップＳ６−１（Ｅステップ）において、教師有りテキストデータ１１０を用いて特徴ｔ_ｉが属するクラスｃ_ｊの初期確率Ｐ（ｃ_ｊ｜ｔ_ｉ）を前記の式（３）で計算する。ここで、Ｐ（ｃ_１）は、対象語、属性名候補単語、属性値候補単語が「対象語−属性名−属性値」の関係にある確率であり、Ｐ（ｃ_０）はそれらが「対象語−属性名−属性値」の関係に無い確率である。Ｐ（ｔ_ｉ）は特徴ｔ_ｉが出現する確率である。この値が大きいクラスｃ_ｊ（ｃ_０またはｃ_１）を、「対象語−属性名−属性値」の関係にあるか否かの判定結果とする。
Ｐ（ｔ_ｉ｜ｃ_ｊ）は、クラスｃ_ｊのときに特徴ｔ_ｉが出現する確率であり、次の式（１１）により与えられる。

式（１１）において、ＣＰａ_ｔｉは特徴ｔ_ｉに含まれる対象語と属性名候補単語のペアに関する構文特徴を指し、ＣＰｂ_ｔｉは特徴ｔ_ｉに含まれる対象語と属性値候補単語のペアに関する構文特徴を指し、ＣＰｃ_ｔｉは特徴ｔ_ｉに含まれる属性名候補単語と属性値候補単語のペアに関する構文特徴を指す。また、ＳＰａ_ｔｉは特徴ｔ_ｉに含まれる対象語と属性名候補単語のペアに関する語義特徴を指し、ＳＰｂ_ｔｉは特徴ｔ_ｉに含まれる対象語と属性値候補単語のペアに関する語義特徴を指し、ＳＰｃ_ｔｉは特徴ｔ_ｉに含まれる属性名候補単語と属性値候補単語のペアに関する語義特徴を指す。

機械学習部３１は、前記実施形態における機械学習部３０と同様に、ＥＭアルゴリズムを用いる。本実施形態のステップＳ６−２（Ｍステップ）においては、Ｐ（ＣＰ_ｔｉ｜ｃ_ｊ）とＰ（ＳＰ_ｔｉ｜ｃ_ｊ）を計算する代わりに、３項内の各ペアについての計算を行なう。即ち、前記の式（４）により、Ｐ（ＣＰａ_ｔｉ｜ｃ_ｊ），Ｐ（ＣＰｂ_ｔｉ｜ｃ_ｊ），Ｐ（ＣＰｃ_ｔｉ｜ｃ_ｊ）を計算する。また、前記の式（５）により、Ｐ（ＳＰａ_ｔｉ｜ｃ_ｊ），Ｐ（ＳＰｂ_ｔｉ｜ｃ_ｊ），Ｐ（ＳＰｃ_ｔｉ｜ｃ_ｊ）を計算する。
次に機械学習部３１はステップＳ６−３（Ｅステップ）において、式（１２）により、Ｐ（ｃ_ｊ｜ｔ_ｉ）の期待値を計算する。

そして、ステップＳ６−４では、前記の式（８）により、Ｐ（ｃ_ｊ）の値を計算する。
そして、ステップＳ６−５においては、前記の実施形態における手順と同様に、ステップＳ６−４で計算したＰ（ｃ_ｊ）の値が収束したかどうかを判定するために、前回計算したＰ（ｃ_ｊ）の値と今回計算したＰ（ｃ_ｊ）の値の変化量を閾値（例えば１．０×１０^−３）と比較する。この変化量が閾値以上の場合には、ステップＳ６−２に戻って計算を繰り返す。この変化量が閾値より小さい場合には、最後に計算された確率値Ｐ（ｃ_ｊ｜ｔ_ｉ），Ｐ（ＣＰａ_ｔｉ|ｃ_ｊ)，Ｐ（ＳＰａ_ｔｉ|ｃ_ｊ），Ｐ（ＣＰｂ_ｔｉ|ｃ_ｊ)，Ｐ（ＳＰｂ_ｔｉ|ｃ_ｊ）の値を共起情報として共起情報記憶部４１に書き込み、処理を終了する。通常、「対象語−属性項目−属性値」の関係を判定するためにはこの共起情報で十分であるが、Ｐ（ＣＰｃ_ｔｉ|ｃ_ｊ)，Ｐ（ＳＰｃ_ｔｉ|ｃ_ｊ）の値を共起情報に含めて、共起情報記憶部４１に書き込むようにしても良い。
つまり、共起情報記憶部４１は、３項の語の複数の組みについての特定の関係における共起情報を記憶する。
そして前記の式（１０）を用いると、Ｐ（ｃ_１|ＳＰａ_ｔｉ），Ｐ（ｃ_１|ＳＰｂ_ｔｉ）を計算することができる。判断処理部５１は、「対象語−属性名−属性値」の３項の組みの候補について、共起情報記憶部４１から読み出した共起情報に基づくＰ（ｃ_１|ＳＰａ_ｔｉ），Ｐ（ｃ_１|ＳＰｂ_ｔｉ）の値により判定処理を行ない、これにより「対象語−属性名−属性値」の組みを抽出する。つまり、判断処理部５１は、特徴抽出部２０ａ〜２０ｃが抽出した３項の語の組みの語義特徴および構文特徴と、共起情報記憶部４１から読み出した当該３項の語の組みの共起情報とに基づき、当該３項の語の組みが特定の関係を有するか否かを判断する処理を行なう。出力部６１は、判断処理部５１による抽出結果に基づき、出力データ１５１を出力する。

つまり、本実施形態のテキスト分析装置１ｃを用いることにより、少量の教師有りテキストデータを基に学習処理を行ない、大量の教師無しテキストデータを分析処理して、自動的に対象語と属性名と属性値の３項の組みを抽出することが可能となる。

なお、予め行なわれた学習処理の際に共起情報記憶部４１に書き込まれた共起情報を読み出すことにより、対象語と属性値候補単語のペアについて判断をするようにしても良い。この場合は、機械学習部３１は動作せず、抽出された３項の語の組みについて、特徴抽出部２０ａ〜２０ｃが抽出した語義特徴と構文特徴を用いて、また共起情報を用いて、判断処理部５１が判断処理をする。

なお、上述した各実施形態におけるテキスト分析装置の一部、例えば、ペアあるいは３項の語の組みを抽出する各抽出部、特徴抽出部、機械学習部、判断処理部、出力部等の機能をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、「対象語−属性名」のペアや、「対象語−属性値」のペアや、「対象語−属性名−属性値」の語の組みなどだけではなく、一般的に、入力テキストデータから特定の関係を有する語の組み（２項、３項など）を抽出するテキスト分析装置とする形態が可能である。そのためには、装置としては特に前記の実施形態を変える必要はなく、目的に応じた適切な教師有りテキストデータを入力するようにすれば良い。

また例えば、語のペアの抽出や、語の３項の組みの抽出だけではなく、一般に入力テキストデータから特定の関係を有するＮ項（Ｎは２以上の自然数）の語の組みを抽出するテキスト分析装置とする形態が可能である。そのためには、入力されるテキストデータに含まれるＮ項（Ｎは２以上の整数）の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、複数の前記Ｎ項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、前記特徴抽出部が抽出した前記Ｎ項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該Ｎ項の語の組みの前記共起情報とに基づき、当該Ｎ項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部を備えるテキスト分析装置を構成すればよい。また、この場合の機械学習処理部は、第３の実施形態におけるそれをＮ項に一般化し、テキストデータ中の３項の語の組みが特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、特徴抽出部によって抽出される３項の語の組みの語義特徴および構文特徴を用いて機械学習処理した結果を共起情報として共起情報記憶部に書き込む。
なお、この場合、Ｎ項の語の組みの特徴としては、当該Ｎ項の語の組みから選んだ２語のペア（ペアの数は_ＮＣ_２通り）それぞれについての前記実施形態と同様の語義特徴および構文特徴の総集合を用いる。
なお、第１〜第３の実施形態は、このＮ項の語の組みを抽出するテキスト分析装置の特殊形態である。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明の第１実施形態によるテキスト分析装置の機能構成を示したブロック図である。本発明の第１実施形態による特徴抽出部の詳細機能構成を示したブロック図である。本発明の実施形態により分析対象となる入力文の例と、抽出候補となる名詞ペアの例を示した概略図である。本発明の実施形態により入力文を構文解析した結果の構文木の例を示した概略図である。本発明の実施形態により入力分を構文解析した結果の構文木の部分木であり、対象語と属性名候補単語との間のリストに対応する部分木の例を示す概略図である。本発明の実施形態による機械学習処理の処理手順を示したフローチャート図である。本発明の実施形態により抽出される構文特徴の例であり、対象語「レア」と属性名候補単語「背丈」を持つ部分構文木を示す概略図である。本発明の実施形態により実際の番組のクローズドキャプションテキストから出力された対象語と属性名とのペアの例およびその確率値を表わすテーブルである。本発明の第２実施形態によるテキスト分析装置の機能構成を示したブロック図である。本発明の第３実施形態によるテキスト分析装置の機能構成を示したブロック図である。

符号の説明

１ａ，１ｂ，１ｃテキスト分析装置
１０ａ対象語及び属性名候補単語抽出部
１０ｂ対象語及び属性値候補単語抽出部
１０ｃ属性名候補単語及び属性値候補単語抽出部
２０，２０ａ，２０ｂ，２０ｃ特徴抽出部
２１構文解析部
２３構文特徴抽出部
２５語義特徴抽出部
２９シソーラス
３０，３１機械学習部
４０，４１共起情報記憶部
５０，５１判断処理部
６０，６１出力部
１００入力テキストデータ
１１０，１１０ａ，１１０ｂ教師有りテキストデータ

Claims

入力されるテキストデータに含まれる２語のペアそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
複数の前記ペアについての特定の関係における共起情報を記憶する共起情報記憶部と、
前記特徴抽出部が抽出した前記ペアの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該ペアの前記共起情報とに基づき、当該ペアが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
を備えることを特徴とするテキスト分析装置。
請求項１に記載のテキスト分析装置において、
前記テキストデータ中の２語のペアが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記２語のペアの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするテキスト分析装置。
請求項１または請求項２に記載のテキスト分析装置であって、
前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性名である
ことを特徴とするテキスト分析装置。
請求項１または請求項２に記載のテキスト分析装置であって、
前記特定の関係は、前記テキストデータ中に含まれる対象語と、前記対象語の属性値である
ことを特徴とするテキスト分析装置。
入力されるテキストデータに含まれる３項の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
複数の前記３項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、
前記特徴抽出部が抽出した前記３項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該３項の語の組みの前記共起情報とに基づき、当該３項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
を備えることを特徴とするテキスト分析装置。
請求項５に記載のテキスト分析装置において、
前記テキストデータ中の３項の語の組みが前記特定の関係を有するか否かを表わす正解データを含む教師有りテキストデータに基づき、前記特徴抽出部によって抽出される前記３項の語の組みの語義特徴および構文特徴を用いて機械学習処理した結果を前記共起情報として前記共起情報記憶部に書き込む機械学習処理部を更に備えることを特徴とするテキスト分析装置。
請求項５または請求項６に記載のテキスト分析装置であって、
前記特定の関係は、前記テキストデータ中に含まれる対象語と、当該対象語の属性名と、当該対象語の属性値の組みである
ことを特徴とするテキスト分析装置。
入力されるテキストデータに含まれるＮ項（Ｎは２以上の整数）の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出部と、
複数の前記Ｎ項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部と、
前記特徴抽出部が抽出した前記Ｎ項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該Ｎ項の語の組み前記共起情報とに基づき、当該Ｎ項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理部と、
を備えることを特徴とするテキスト分析装置。
入力されるテキストデータに含まれるＮ項（Ｎは２以上の整数）の語の組みそれぞれについての語義特徴および構文特徴を抽出する特徴抽出処理過程と、
複数の前記Ｎ項の語の組みについての特定の関係における共起情報を記憶する共起情報記憶部から前記共起情報を読み出す読み出し過程と、
前記特徴抽出処理過程において抽出した前記Ｎ項の語の組みの前記語義特徴および前記構文特徴と、前記共起情報記憶部から読み出した当該Ｎ項の語の組みの前記共起情報とに基づき、当該Ｎ項の語の組みが前記特定の関係を有するか否かを判断する処理を行なう判断処理過程と、
の処理をコンピュータに実行させるテキスト分析プログラム。