JP2640793B2

JP2640793B2 - 共起辞書構築装置及びこの共起辞書を用いた文解析装置

Info

Publication number: JP2640793B2
Application number: JP4006454A
Authority: JP
Inventors: 野祐司菅
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-01-17
Filing date: 1992-01-17
Publication date: 1997-08-13
Anticipated expiration: 2012-08-13
Also published as: US5406480A; JPH05197712A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ワードプロセッサ、機
械翻訳、文書検索、対話システム等の計算機応用システ
ムに用いられる自然言語処理技術のうち、意味解析用共
起辞書の構築・更新を行なう装置および共起・意味解析
を行なって文の解析を行なう文解析装置に関するもので
ある。

【０００２】

【従来の技術】近年、自然言語処理の技術を応用した計
算機応用システムが多数研究開発され、その一部が商品
化されて、徐々に我々の言語文化に定着しつつある。特
に我が国においては、かな漢字変換技術の発達により、
永年の懸案であった漢字かな混じり文の平易な計算機入
力が実用化し、日本語ワードプロセッサーやパーソナル
コンピューター上の文書処理ソフトウエアの本格的な普
及期を迎えている。

【０００３】しかしながら、自然言語の文の意味に係わ
る処理、例えばかな漢字変換に、同音異議語の中から、
意味的に正しい語を選択する処理などは、語の意味や語
と語の意味的な関係をどのように表現し、どのように処
理するかという問題が解決されておらず、構文解析にお
ける文脈自由文法のような確固とした基礎理論がないの
が現状である。

【０００４】現在、実用に耐えうるものとして機械翻訳
等に広く用いられているのが、Ｃ．Ｊ．Ｆｉｌｌｍｏｒ
ｅによって創始された「格文法」を基本とした意味解析
方法であり、共起解析に「意味ラベル」を用いる方法で
ある。以下、この「意味ラベル」を用いる従来の共起解
析方法と、この従来の共起解析方法を用いた従来の意味
解析方法、ならびにこれらの解析に必要な共起辞書につ
いての共起辞書構築方法および従来の共起辞書更新方法
について説明する。

【０００５】図８は従来の意味解析方法を用いる日本語
文の文解析装置の一例を示すブロック図、図９は図８の
文解析方法によって「ＡがＢをＣにＶする」というタイ
プの文を意味解析する際の手順を示す流れ図、図１０は
図９の流れ図中で、「名詞ＮがＣ格として、動詞Ｖの格
パターンＰと共起するかどうか」を解析する手順を示す
流れ図、図１１は図１０の共起解析方法において用いる
意味ラベルの体系の一例を示す意味分類基準、図１２は
図１１の基準に従って名詞に意味ラベルを付与した名詞
意味辞書の内容の一部、図１３は動詞の格パターンを定
め、個々の格スロットに適合する体言の意味ラベルの集
合を図１１の基準に従って付与した動詞格辞書の内容の
一部である。

【０００６】図８において、７０１は解析すべき文を入
力する入力手段、７０２は入力手段７０１から入力され
た文を形態素の列に分割する形態素解析手段、７０３は
形態素解析手段７０２が形態素分割の際に検索する形態
素辞書、７０４は形態素解析手段７０２が形態素間の接
続検定に用いる接続規則、７０５は形態素解析手段７０
２が出力する形態素列を受け取って構文構造を分析し、
構文木を出力する構文解析手段、７０６は構文解析手段
７０５が構文構造の分析に用いる分脈自由文法規則、７
０７は構文解析手段７０６が出力する構文木を受け取っ
て格解析を行い、意味構造を出力する意味解析手段、７
０８は意味解析手段７０７が用いる動詞格辞書、７０９
は意味解析手段７０７が用いる名詞意味ラベル辞書、７
１０は意味解析手段７０７により作成された格フレーム
を中心とする意味構造を格納し、外部の装置が参照・操
作するための意味構造格納手段である。意味解析に用い
る名詞意味ラベル辞書７０９は、図１１に示す意味分類
基準に従って、形態素辞書７０３中の個々の名詞の意味
を１つ以上の意味ラベルで記述したもので、図１２のよ
うな内容をもつ。また、動詞格辞書７０８は、形態素辞
書７０３中の個々の動詞の持つ意味を１つ以上の格パタ
ーンに分割して記述したもので、図１３のような内容で
あり、個々の格スロットに共起する名詞の意味は、名詞
意味ラベル辞書７０９の場合と同じく、図１１に示す意
味分類基準に従った１つ以上の意味ラベルで記述する。

【０００７】以上のように構成された従来の文解析装置
について、その動作を「ＡがＢをＣにＶする」というタ
イプの文を解析する際の動作を例にとって説明する。ま
ず、入力手段７０１を通じて「ＡがＢをＣにＶした」と
いうタイプの文が文字列として形態素解析手段７０２に
送られる。形態素解析手段７０２は、文頭から文末へ向
かって形態素分割処理を進める。形態素辞書７０３を検
索して、入力文字列の一部分と一致する形態素が見つか
ると、見つけた部分の直前の形態素との接続可能性を接
続規則７０４によって調べ、接続が可能な場合は、見つ
けた部分の次の入力文字列について、さらに形態素分割
処理を続ける。形態素辞書７０３の検索結果が複数個あ
る場合には、「最長一致」や「文節数最小」などの発見
的方法によって、優先順位をつける。このようにして、
文末までの形態素の列、「Ａ（名詞），が（格助詞），Ｂ（名詞），を（格助
詞），Ｃ（名詞），に（格助詞），Ｖ（動詞），し（動
詞語尾），た（過去の助動詞）」が求まる。

【０００８】上記の形態素の列は構文解析手段７０５に
送られ、構文構造が分析され、図１４に示すような構文
木が求まる。この構文木から、３つの後置詞句「Ａ
が」，「Ｂを」，「Ｃに」のいずれもが動詞句「Ｖす
る」に「かかる」ことがわかる。

【０００９】図１４の構文木は、意味解析手段７０７に
渡され、図９に示す手順によって入力文の意味解析が実
行される。まず、動詞「Ｖ］の持つ格パターンが動詞格
辞書７０８を検索して求められ、また、名詞「Ａ」，
「Ｂ」，「Ｃ」のそれぞれの意味ラベルが、名詞意味ラ
ベル辞書７０９を検索して求められる（ステップ８０
１）。次に、動詞Ｖの個々の格パターンに対して、それ
ぞれの後置詞句の名詞の意味ラベルが対応する「格スロ
ット」と共起するかどうかを、図１０の共起解析の手順
によって調べる。すなわち、３つの名詞がすべて共起す
る格パターンだけに候補を絞り、さらに格パターン間の
優先順位や格スロットの埋まり具合いなどを基準にし
て、最良の格パターンを選んで、選んだ格パターンに時
制や態等の情報を付加して意味構造として出力する（ス
テップ８０２〜８１２）。

【００１０】共起解析の手順は、図１０に示すように、
まず格パターンＰの格にＣ格があるかどうか調べ（ステ
ップ９０１）、存在する場合には、格パターンＰのＣ格
の格スロット中の意味ラベル群と名詞Ｎの持つ意味ラベ
ル群の間に共通の意味ラベルがあるかどうか調べ（ステ
ップ９０２）、存在すれば共起すると判定し（ステップ
９０３）、存在しない場合には共起しないと判定する
（ステップ９０４）。また、格パターンＰの格にＣ格が
ない場合には、Ｃ格が時間や場所といった「任意格」に
なる格かどうか調べ（ステップ９０５）、任意格になり
得ない場合には共起しないと判定し（ステップ９０
４）、任意格になり得る場合には、動詞によらない任意
格の格スロット情報を検索して、任意格スロット中の意
味ラベル群と、名詞の意味ラベル群の間に共通の意味ラ
ベルがあるかどうか調べ（ステップ９０６）、存在すれ
ば共起すると判定し（ステップ９０３）、存在しない場
合には共起しないと判定する（ステップ９０３）。

【００１１】以上の文解析装置に用いる動詞格辞書７０
８および名詞意味ラベル辞書７０９は、対になって共起
辞書を構成する。従来、その構築は完全な人手により行
われてきた。以下、その典型的な手順を説明する。ま
ず、図１１のような意味分類基準を一人または数名の専
門家が、辞典類や過去のシステム等を参考にして定め
る。次に、この意味分類基準をもとにして、形態素辞書
７０３中の個々の名詞に、一人または複数の作業者が１
個以上の意味ラベルを付与する。また、形態素辞書７０
３中の個々の動詞について、一人または複数の作業者
が、格パターンや法、態、相などの統語情報が異なる１
種以上の「サブシート」に分類し、格サブシート毎に、
図１３のような格パターン情報とその他の統語情報を記
述してゆく。共起辞書の構築段階で意味分類基準に不備
が見つかった場合には、意味分類基準は随時追加・変更
されることがある。また、「かぜをひく」などの慣用的
で特殊な共起関係は、主として動詞格辞書中に「例外」
として直接記述され、上記の意味解析に先だって、ある
いは上記の意味解析が失敗した後で、例外処理を行って
解析される。

【００１２】共起辞書の更新も、共起辞書の構築メンバ
ーが、意味分類基準とそれまでに構築した共起辞書の内
容を総合的に考慮して、整合性がとれるように人手によ
って行う。大規模な更新では、意味分類基準の追加・変
更は行われることも多い。

【００１３】

【発明が解決しようとする課題】しかしながら、上記の
従来の方法では、共起辞書の構築・更新の面において、
系統的で客観的な方法がなく、言語学の専門家や各シス
テムの構造をよく知っている小数の開発メンバーのノウ
ハウと熟練に負うところが非常に大きく、さまざまな問
題を有していた。すなわち、まず意味ラベルの体系の構
築方法が明確でないため、専門家の経験と内省によっ
て、名詞意味辞書や動詞の格辞書の構築前に人手により
意味ラベルの種類と解釈とを設定する必要があり、実際
の辞書構築や文解析の際に、意味ラベルの「粗さ」や種
類の不足などの問題が生じて、体系の追加・変更が必要
になるという問題があった。また、個々の意味ラベルの
「解釈」が明確にできないため、大規模な辞書を複数の
人間で構築する場合、個々の単語にどの意味ラベルの集
合を付与すればよいのかがわからなかったり、個々の作
業者によって解釈に差異がでてしまったりするという問
題があった。また、意味解析機構を組み込んだ計算機応
用システムをエンドユーザが使用する際に、未知語（辞
書にない語）を登録しようとしても、そのシステムで使
用されている意味ラベルの体系をエンドユーザが理解し
て適切な意味ラベルを付与することは、非常に困難であ
り、エンドユーザによる手軽な共起辞書の更新が困難で
あるという問題があった。

【００１４】さらに、共起解析・意味解析の精度面でも
いくつかの問題を有していた。まず、精密な共起辞書の
構築が困難なため、意味ラベルが「甘く」、特に精密な
意味ラベルの付与が困難な抽象名詞とその格スロットと
の共起解析の精度が悪いという問題があった。例えば、
「かんしょう」という読みをもつ単語は２０種以上ある
がいずれも抽象名詞であり、従来の共起解析では高精度
な漢字表記への変換は困難であった。また、意味解析の
主要部である格フレームの決定・優先順序付けの際に
も、個々の共起分析結果が「共起する」あるいは「共起
しない」の２値であるため、「どの程度共起しやすいの
か」を数値として知ることができず、精密な格フレーム
の決定・優先順序付けができないという問題があった。

【００１５】本発明は、このような従来技術の課題を解
決するものであり、系統的かつ高精度な共起辞書構築
と、手軽で整合性のとれた共起辞書更新とを行なう共起
辞書構築装置と、高精度で共起の度合を計算できる共起
解析と、競合する解釈間の優先順位付けが数値的に高精
度で計算可能な意味解析とを行なう文解析装置とを提供
することを目的とする。

【００１６】

【課題を解決するための手段】上記目的を達成するため
に、本願第１の発明は、第１のカテゴリーに属する語句
を納めた第１の辞書と、第２のカテゴリーに属する語句
を納めた第２の辞書と、前記第１の辞書および第２の辞
書の要素の中がら軸となる要素を選択する軸要素選別手
段と、軸要素選別手段が選別した要素に基づいて共起情
報を収集する共起情報入力手段と、共起情報入力手段か
らの共起情報と軸要素選別からの選別結果とから各要素
に与える特徴ベクトルを算出する特徴ベクトル算出手段
と、特徴ベクトル算出手段により算出された、第１のカ
テゴリーに属する語句についての特徴ベクトルを含む、
当該語句の辞書情報を格納する第１の意味辞書と、特徴
ベクトル算出手段により算出された、第２のカテゴリ
ーに属する語句についての特徴ベクトルを含む、当該語
句の辞書情報を格納し、前記第１の意味辞書とともに共
起辞書を構成する第２の意味辞書とを備えた共起辞書構
築装置を要旨とする。この共起辞書構築装置は、共起辞
書構築方法として、３種の共起情報と、個々のカテゴリ
ーに対応させた実数ベクトルを算出する手段とを有し、
共起辞書更新方法として、追加共起情報のための共起の
相手側語句の選択手段と、追加共起情報から追加語に対
応させた実数ベクトルを算出する手段とを有し、共起解
析方法として、共起関係を調べたい２つのカテゴリーに
対応させた実数ベクトルから共起の度合を実数で算出す
る手段を有し、意味解析方法として、個々の共起の度合
から解釈の妥当性を数値で表す手段を有している。

【００１７】より具体的には、図１に示すように、対象
とする自然言語の語句を収録した辞書中の２種類のカテ
ゴリーに属する各々の語句が１つの文中で共起するか否
かを記述する共起辞書を構築するために、辞書中の語句
で第１のカテゴリーに属する語句をすべて集めた語句群
０１から一部の語句を選択して語句群１１とし、辞書中
の語句で第２のカテゴリーに属する語句をすべて集めた
語句群０２から一部の語句を選択して語句群２１とし、
語句群１１に属する各々の語句と語句群２１に属する各
々の語句とが、対象とする言語の１つの文中で共起する
か否かを記述した第１の共起情報と、語句群０１の語句
で語句群１１に属さないものをすべて集めた語句群１２
に属する各々の語句と語句群２１に属する各々の語句と
が、対象とする言語の１つの文中で共起するか否かを記
述した第２の共起情報と、語句群０２の語句で語句群２
１に属さないものをすべて集めた語句群２２に属する各
々の語句と語句群１１に属する各々の語句とが、対象と
する言語の１つの文中で共起するか否かを記述した第３
の共起情報からなる３種の共起情報を用意し、次に、語
句群１１に属する各々の語句に一定の最大次元を越えな
い次元の実数ベクトルを対応させ、語句群２１に属する
各々の語句にも前記最大次元を越えない次元の実数ベク
トルを対応させた第１の共起情報において、語句群１１
に属する語句１と語句群２１に属する語句２とが１つの
文中で共起すると記述されている場合には、語句１に対
応する実数ベクトルと語句２に対応する実数ベクトルと
の内積の値が正になり、反対に語句群１１に属する語句
１と語句群２１に属する語句２とが１つの文中で共起し
ないと記述されている場合には、語句１に対応する実数
ベクトルと語句２に対応する実数ベクトルとの内積の値
が負になるような２つの語句の組の個数が、語句群１１
に属する語句と語句群２１に属する語句とからなるすべ
ての組のうちで最大になるように、語句群１１中の各々
の語句に対応させた実数ベクトルの値と語句群２１中の
各々の語句に対応させた実数ベクトルの値とを第１の共
起情報をもとにして算出し、次に、語句群１２に属する
各々の語句にも前記最大次元を越えない次元の実数ベク
トルを対応させた第２の共起情報において、語句群１２
に属する語句３と語句群２１に属する語句４とが１つの
文中で共起すると記述されている場合には、語句３に対
応する実数ベクトルと第１の共起情報をもとにして算出
した語句４に対応する実数ベクトルとの内積の値が正に
なり、反対に語句群１２に属する語句３と語句群２１に
属する語句４とが１つの文中で共起しないと記述されて
いる場合には、語句３に対応する実数ベクトルと第１の
共起情報をもとにして算出した語句４に対応する実数ベ
クトルとの内積の値が負になるような２つの語句の組の
個数が、語句群１２に属する語句と語句群２１に属する
語句とからなるすべての組のうちで最大になるように、
語句群１２中の各々の語句に対応させた実数ベクトルの
値を第２の共起情報をもとにして算出し、次に、語句群
２２に属する各々の語句にも前記最大次元を越えない次
元の実数ベクトルを対応させた第３の共起情報におい
て、語句群１１に属する語句５と語句群２２に属する語
句６とが１つの文中で共起すると記述されている場合に
は、第１の共起情報をもとにして算出した語句５に対応
する実数ベクトルと語句６に対応する実数ベクトルとの
内積の値が正になり、反対に語句群１１に属する語句５
と語句群２２に属する語句６とが１つの文中で共起しな
いと記述されている場合には、第１の共起情報をもとに
して算出した語句５に対応する実数ベクトルと語句６に
対応する実数ベクトルとの内積の値が負になるような２
つの語句の組の個数が、語句群１１に属する語句と語句
群２２に属する語句とからなるすべての組のうちで最大
になるように、語句群２２中の各々の語句に対応させた
実数ベクトルの値を第３の共起情報をもとにして算出す
ることにより、語句群０１および語句群０２のすべての
語句に対して実数ベクトルの形式で共起情報を算出する
ようにしたものである。

【００１８】また、第１の共起情報から各語句に対応す
る実数ベクトルを算出する際、語句群１１に属する語句
１と語句群２１に属する語句２とが１つの文中で共起す
ると記述されている場合には、語句１に対応する実数ベ
クトルと語句２に対応する実数ベクトルとの内積の値が
正になり、反対に第１の共起情報において、語句群１１
に属する語句１と語句群２１に属する語句２とが１つの
文中で共起しないと記述されている場合には、語句１１
に対応する実数ベクトルと語句２に対応する実数ベクト
ルとの内積の値が負になるような２つの語句の組の個数
が、語句群１１に属する語句と語句群２１に属する語句
からなるすべての組のうちの一定以上の割合を占めるよ
うに、第１の共起情報の一部の情報を「例外」として共
起するか否かの判断を反転した修正された第１の共起情
報を作成し、この修正された第１の共起情報を改めて第
１の共起情報として用い、語句群０１および語句群０２
のすべての語句に対して実数ベクトルの形式で共起情報
を算出し、この実数ベクトルと前記の例外情報の形式で
共起情報を算出するようにしたものである。

【００１９】また、共起辞書を更新するために、対象と
する自然言語の語句を収録した辞書中の第１のカテゴリ
ーおよび第２のカテゴリーの２種類のカテゴリーに属す
る各々の語句が１つの文中で共起するか否かを記述した
上記の方法またはこれらに類似する方法によって構築さ
れ、個々の語句に対して実数ベクトルの形式で共起情報
を記述した共起辞書において、上記第１のカテゴリーに
属する新たな語句７を上記共起辞書に加える際、上記辞
書中の語句で第２のカテゴリーに属する語句のうちの対
応する実数ベクトルの最高次元以上のＮ個の語句で、Ｎ
個中のどの２つの語句に対応する実数ベクトルの内積の
絶対値もある一定値以下になるような語句群２３を選
び、このＮ個の語句と語句７が、対象とする言語の１つ
の文中で共起するか否かの追加共起情報を与え、語句７
に上記最大次元を越えない次元の実数ベクトルを対応さ
せるとともに、上記追加共起情報において、語句群２３
に属する語句８と語句７とが１つの文中で共起すると記
述されている場合には、語句７に対応する実数ベクトル
と語句８に対応する実数ベクトルとの内積の値が正にな
り、反対に上記追加共起情報において、語句群２３に属
する語句８と語句７とが１つの文中で共起しないと記述
されている場合には、語句７に対応する実数ベクトルと
語句８に対応する実数ベクトルとの内積の値が負になる
ような２つの語句の組の個数Ｍが最大になるように、語
句７に対応する実数ベクトルＶを算出して語句７の共起
情報として上記共起辞書に付加するようにしたものであ
る。

【００２０】また、個数Ｍが予め定めた個数Ｌ以下の場
合には、さらに一定個数の語句群２４を第２のカテゴリ
ーから選び、語句群２４と語句７とが対象とする言語の
１つの文中で共起するか否かの再追加共起情報を与え、
追加共起情報と再追加共起情報中の一部の情報を「例
外」として共起するか否かの判断を反転した修正された
追加共起情報を作成し、この修正された追加共起情報を
改めて追加共起情報として用いて、個数Ｍが予め定めた
個数Ｌ以上になるように語句７に対応する実数ベクトル
を算出し、語句７の共起情報として共起辞書に付加する
ようにしたものである。

【００２１】また上記目的を達成するため、本願第２の
発明は、解析すべき文を入力する入力手段と、入力手段
から入力された文を形態素の列に分割する形態素解析手
段と、前記形態素解析手段が出力する形態素列を受け取
って構文構造を分析し構文木を出力する意味解析手段
と、第１のカテゴリーに属する語句についての特徴ベク
トルを含む、当該語句の辞書情報を格納し、前記意味解
析手段が意味解析を行なうに際して検索する第１の意味
辞書と、第１の意味辞書とともに共起辞書を構成し、第
２のカテゴリーに属する語句についての特徴ベクトルを
含む、当該語句の辞書情報を格納し、前記意味解析手段
が意味解析を行なうに際して検索する第２の意味辞書
と、意味解析手段により作成された格フレームを中心と
する意味構造を格納し、外部の装置が参照・操作する意
味構造手段とを備えた文解析装置を要旨とする。この文
解析装置は、対象とする自然言語の語句を収録した辞書
中の２種類のカテゴリーに属する各々の語句が１つの文
中で共起するか否かを機械的に判定する共起解析を行う
ために、上記の方法またはこれらに類似する方法によっ
て構築・更新され、個々の語句に対して実数ベクトルの
形式で共起情報を記述した共起辞書を用い、解析すべき
文中に前記共起辞書中の第１のカテゴリーに含まれる語
句１と、上記共起辞書中の第２のカテゴリーに含まれる
語句２とが形態素および構文上許される位置に現われた
際、語句１に対応する実数ベクトルと語句２に対応する
実数ベクトルとの内積が正である場合には語句１と語句
２は共起すると判断し、反対に語句１に対応する実数ベ
クトルと語句２に対応する実数ベクトルとの内積が負で
ある場合には語句１と語句２は共起しないと判断するよ
うにしている。

【００２２】また、上記文解析装置は、意味解析を行う
ために、解析すべき文中に、語句１または語句２に関す
る形態素、構文上の曖昧さがある場合には、上記の共起
解析方法を用いて算出した語句１に対応する実数ベクト
ルと語句２に対応する実数ベクトルとの内積の絶対値が
一番大きい解釈または上記内積の絶対値が一定値以上の
解釈群を採用し、それ以外の解釈を棄却するようにして
いる。

【００２３】

【作用】本発明は、上記構成によって、カテゴリー間の
実際の共起関係を最もよく再現するように実数ベクトル
を算出して双方のカテゴリーに属する各語彙に対応させ
た共起辞書の構築と更新を実現し、共起解析・意味解析
の際には、共起辞書を検索して実数ベクトルを求め、そ
の内積を計算することにより、系統的かつ高精度な共起
辞書構築方法と、手軽で整合性のとれた共起辞書更新方
法と、高精度で共起の度合を計算できる共起解析方法
と、競合する解釈間の優先順位付けが数値的に高精度で
計算可能な意味解析方法とを実現することができる。

【００２４】

【実施例】以下、本発明の実施例について図面を参照し
ながら説明するが、対象とする自然言語は日本語であ
り、第１のカテゴリーが名詞、第２のカテゴリーが動詞
の格である。

【００２５】（実施例１）図２は本発明の第１の実施例における日本語の動詞の格
と名詞との共起辞書を構築および更新するための装置の
ブロック図である。図２において、１０１は日本語の名
詞の表記と読みなどを納めた第１の辞書としての名詞辞
書、１０２は日本語の動詞の表層格パターンと格スロッ
トに入り得る典型的な名詞を集めた第２の辞書としての
動詞格パターン辞書、１０３は名詞辞書１０１および動
詞格パターン辞書１０２の要素中から軸となる要素を選
別する軸要素選別手段、１０４は軸要素選別手段１０３
が選択した要素から共起情報入力者へ提示する質問文を
作成する質問文生成手段、１０５は質問文生成手段１０
４が作成した質問文を共起情報入力者に提示するための
質問文表示手段、１０６は質問文表示手段１０５の表示
を見て共起情報入力者が共起情報を入力するための共起
情報入力手段、１０７は共起情報入力手段１０６からの
共起情報と軸要素選別手段１０３からの選別結果とから
各要素に与える特徴ベクトルを算出する特徴ベクトル算
出手段、１０８は特徴ベクトル算出手段１０７が出力し
た名詞の特徴ベクトルを含めて名詞の辞書情報を格納す
る名詞意味辞書、１０９は特徴ベクトル算出手段が出力
した動詞の格の特徴ベクトルを含めて動詞の格パターン
の辞書情報を格納する動詞意味辞書である。なお、動詞
格パターン辞書１０２には、［彼／特許課／ミルク］が［被害／盗難］に会う／遭うの形式で各動詞の表層格パターンと、名詞の典型例が記
述されている。

【００２６】次に、以上のように構成された共起辞書構
築装置について、その動作を説明する。その前に以下の
説明で用いる公式について説明しておく。線形代数の知
識は、階数ｐのｎ行ｖ列の行列Ｃが、適切なｖ行ｐ列の
直交行列Ａと、ｎ行ｐ列の直交行列Ｂを用いて、（式
１）の形に表せることを教えてくれる。

【００２７】

【数１】

【００２８】従って、元の行列Ｃは、（式２）の形に変
形できる。

【００２９】

【数２】

【００３０】（式２）において、λは行列Ｃの特異値、
（式２）の右辺は、行列Ｃのスペクトル分解と呼ばれ
る。

【００３１】さて、行列Ｃのスペクトル分解は、次の注
目すべき性質を持つ。いま、階数ｐの行列Ｃを、ｐより
小さな階数ｑの行列Ｄで近似することを考える。近似の
悪さの尺度を、ユークリッド距離を用いて、（式３）で
計量すれば、この近似の悪さの尺度δを最小にする行列
Ｄは、行列Ｃのスペクトル分解の部分和を用いて、（式
４）で与えられる。

【００３２】

【数３】

【００３３】

【数４】

【００３４】しかも、一般に（式５）が成り立つことか
ら、（式６）が成り立つｋについては、（式４）におけ
る右辺第ｋ項からの寄与は小さい。

【００３５】

【数５】

【００３６】

【数６】

【００３７】以下、これらの基本公式を使用して説明を
進めて行く。はじめに、各変数の定義をおこなう。名詞
辞書１０１中の名詞の総数をＮとして語句群１とすると
共に、動詞格パターン辞書中の個々の「格」の総数をＶ
として語句群２とする。「格」は、動詞の格パターン
と、格パターン中の格の出現する順番を指定すれば一意
に定まる。そして、Ｎ個の名詞と、Ｖ個の「格」のそれ
ぞれに１から始まる通し番号をつけ、第ｉ番目の名詞
と、第ｊ番目の格が共起すれば、すなわち他の格に適当
な名詞を当てはめた時、第ｊ番目の格に第ｉ番目の名詞
を当てはめた文が日本語の文として意味的に妥当であれ
ば整数値Ｍを、日本語としてナンセンスであれば値０
を、微妙な場合には、その妥当さに応じて１以上Ｍ未満
の整数値をとる変数を（式７）で表すことにする。ただ
し、Ｍは１以上とする。

【００３８】

【数７】

【００３９】変数（式７）はＮ個の名詞と、Ｖ個の格の
組合せ毎に１個ずつ考えることができるので、全体とし
てはＮ行Ｖ列の行列Ｃで与えられる。この行列Ｃのこと
を「共起データ」と呼ぶことにしよう。共起データは、
名詞、格の双方を固定しても、共起の判断を行う人が異
なれば完全には一致しないであろう。共起の判断を行う
人を固定したとしても、判断すべき文の使用される分野
や、判断する時の気分が異なれば、やはり微妙に異なる
であろう。ここでは、そのような因子は無視するか、ま
たは多数の人の判断あるいは多数回の判断の多数決また
は平均で共起データの値を定めるものとする。

【００４０】共起辞書構築の第１段階では、軸要素選別
手段１０３が、Ｎ個の名詞の一部であるＮ１個の名詞を
無作為あるいは予め与えた指示通りに選択して語句群１
１とし、またＶ個の格の一部であるＶ１個の格を、それ
ぞれ無作為あるいは予め与えた指示通りに選択して語句
群２１とする。

【００４１】共起辞書構築の第２段階では、第１段階で
選択したＮ１個の名詞の各々を、Ｖ１個の格のそれぞれ
に当てはめた文を質問文生成手段１０４が順に生成し、
質問文表示手段１０５を通じて共起情報入力者に次々に
提示する。例えば、名詞「水泳」と、格「［彼／特許課
／ミルク］が？に会う／遭う」の組合せからは、「［彼／特許課／ミルク］が水泳に会う／遭う」という文が生成される。共起情報入力者は、質問文表示
手段１０５に表示されたこのような文を見て、日本語と
して妥当かどうかを判断し、０からＭまでのいずれかの
整数値を共起情報入力手段１０６を通じて入力する。例
えば、上記の文の場合ならば、大部分の作業者は０を入
力するであろう。特徴ベクトル算出手段１０７は、共起
情報入力手段１０６からの入力を集計・蓄積し、Ｎ１行
Ｖ１列の第１の共起情報である共起データＣ１を作成す
る。このとき、先に、注意した種々の要因による共起デ
ータの揺れが問題となる場合には、先に述べたような適
切な補正を行うことは言うまでもない。

【００４２】共起辞書構築の第３段階では、例外の抽出
を段階的に行って、徐々に共起データＣ１の階数を下げ
る。まず、共起データＣ１の行列のスペクトル分解を行
う。すると、ｉとｊによって定まる「共起の次元」を表
すある整数ｋがとれて、ｋ以上の整数ｍに対しては、第
ｉ番目の名詞と、第ｊ番目の格の共起を表す変数（式
７）の値は、共起データＣ１の行列のスペクトル分解の
第１項から第ｍ項までの部分和が関係式（式８）を満足
するために、正確に再現することが可能になる。

【００４３】

【数８】

【００４４】そこで、Ｎ１個の名詞とＶ１個の格の全て
の組合せの中から、上記の「共起の次元」が最大となる
組合せを選び、この共起は「例外」であるとして記憶
し、この組合せに対する「共起の次元」が最小になるよ
う、入力された共起情報を任意に変更する。この「例外
の抽出」と「共起データの変更」を繰り返して、共起デ
ータＣ１の階数を除々に下げていく。共起データＣ１の
階数が予め設定した値、例えば１６以下に下がるか、例
外の個数がある一定値に達したなら、この繰り返しを終
了する。

【００４５】共起辞書構築の第４段階では、個々の名
詞、格に与える実数ベクトルを算出する。すなわち、第
ｉ番目の名詞を固定した場合の「共起の次元」の最大値
Ｔｉを求めて、第ｉ番目の名詞にＴｉ次元のベクトル
（式９）を対応させる。

【００４６】

【数９】

【００４７】また、第ｊ番目の格を固定した場合の「共
起の次元」の最大値Ｕｊを求めて、第ｊ番目の格にＵｊ
次元のベクトル（式１０）を対応させる。

【００４８】

【数１０】

【００４９】これらのベクトル（式９）、（式１０）
は、個々の名詞および格の「共起の特徴」を表現したも
のになっている。そこで、（式９）を「第ｉ番目の名詞
の特徴ベクトル」と、（式１０）を「第ｊ番目の格の特
徴ベクトル」と、それぞれ呼ぶことにしよう。このよう
に、第４段階の終了時点において、Ｎ個の名詞のうちの
Ｎ１個、Ｖ個の格のうちのＶ１個について、それぞれ特
徴ベクトルが特徴ベクトル算出手段１０７によって定ま
り、その他の辞書情報と一緒に名詞意味辞書１０８、動
詞意味辞書１０９にそれぞれ格納する。

【００５０】共起辞書構築の第５段階では、先に第１段
階で選んだＮ１個の名詞およびＶ１個の格から、それぞ
れＮ０個の名詞およびＶ０個の格を「軸要素」として軸
要素選別手段１０３が選び出す。ここで、Ｎ０個の名詞
はＮ１個の名詞から選び出されたものであるから語句群
１１に属する語句である。Ｖ０個の格はＶ１個の格から
選び出されたものであるから語句群２１に属する語句で
ある。このとき、Ｎ０およびＶ０は、ともに共起データ
Ｃ１の階数より大きくなるようにする。名詞の選別の基
準は、選んだＮ０個の名詞の特徴ベクトルが１次独立で
各名詞の共起に「例外」が少なく、特徴ベクトルの次元
ができるだけ低く、しかも任意の２つの特徴ベクトルの
間の、ベクトル空間における方位角ができるだけ大きく
なることである。すなわち、この場合、特徴ベクトル算
出手段１０７はＮ１個の中のどの２つの語句に対応する
実数ベクトルの内積の絶対値もある一定値以下になるよ
うな語句群２３を選ぶ。Ｖ０個の格の選別の基準も名詞
の選別基準と同様である。ただし、特徴ベクトルの次元
が共起データＣ１の階数より低い場合には、ベクトルの
後に０の列を補って、特徴ベクトルの次元を共起データ
Ｃ１の階数まで「引き上げて」、一次独立性、ベクトル
空間における方位角を考察することとする。

【００５１】共起辞書構築の第６段階では、先に第１段
階で選んだＮ１個の名詞以外の残りのＮ２個の名詞の共
起情報を入力し、Ｎ２個の名詞の特徴ベクトルを求め
る。ただし、Ｎ１とＮ２を加えた個数は名詞全体の個数
Ｎに一致するものとする。

【００５２】まず、共起辞書構築の第２段階と同様にし
て、第５段階で選んだＶ０個の格に、Ｎ２個の名詞のそ
れぞれを当てはめた文を質問文生成手段１０４で順に生
成し、質問文表示手段１０５を通じて共起情報入力者に
次々に提示、共起情報入力者から日本語として妥当かど
うかの判断を、０からＭまでのいずれかの整数値の形で
共起情報入力手段１０６を通じて入力して第２の共起情
報に対応する共起データＣ２を得る。ここで、Ｎ２個の
名詞はＮ１個の名詞以外の名詞であるから語句群１１に
属さないものをすべて集めた語句群１２を構成する。ま
た、Ｖ０個の格は、前述のように、Ｖ１個の格から選び
出されたものであるから語句群２１に属する語句であ
る。こうして得られた共起データＣ２を最もよく再現す
るような名詞の特徴ベクトルは、再現の悪さをユークリ
ッド距離で計量すれば、（式１１）なる変分方程式を解
いて、通常の最小二乗法によって、特徴ベクトル算出手
段１０７が求めることができる。

【００５３】

【数１１】

【００５４】こうして求まったＮ２個の名詞の特徴ベク
トルは、その他の辞書情報と一緒に名詞意味辞書１０８
に格納する。これで、名詞意味辞書１０８が構築され
た。

【００５５】共起辞書構築の第７段階では、先に第１段
階で選んだＶ１個の格以外の残りのＶ２個の格の共起情
報を入力し、Ｖ２個の格の特徴ベクトルを求める。ただ
し、Ｖ１とＶ２を加えた個数は格全体の個数Ｖに一致す
るものとする。

【００５６】まず、共起辞書構築の第２段階と同様にし
て、第５段階で選んだＮ０個の名詞に、Ｖ２個の格のそ
れぞれを当てはめた文を質問文生成手段１０４で順に生
成し、質問文表示手段１０５を通じて共起情報入力者に
次々に提示、共起情報入力者から日本語として妥当かど
うかの判断を０からＭまでのいずれかの整数値の形で共
起情報入力手段１０６を通じて入力して第３の共起情報
に対応する共起データＣ３を得る。ここで、Ｎ０個の名
詞は、前述のように、Ｎ１個の名詞から選び出されたも
のであるから語句群１１に属する語句である。また、Ｖ
２個の格はＶ１個の格以外の格であるから語句群２１に
属さないものをすべて集めた語句群２２を構成する。こ
うして得られた共起データＣ３を最もよく再現するよう
な格の特徴ベクトルは、再現の悪さをユークリッド距離
で計量すれば、（式１２）なる変分方程式を解いて、通
常の最小二乗法によって、特徴ベクトル算出手段１０７
が求めることができる。

【００５７】

【数１２】

【００５８】こうして求まったＶ２個の格の特徴ベクト
ルは、その他の辞書情報と一緒に動詞意味辞書１０９に
格納する。これで、動詞意味辞書１０９が構築され、共
起辞書の構築が終了する。

【００５９】共起辞書の更新の動作は、すでに意味辞書
にある語彙の変更の場合でも、新たな語彙の追加の場合
でも、名詞の更新の場合には共起辞書構築の第６段階
と、動詞の格の更新の場合には共起辞書構築の第７段階
と全く同一である。例えば、新たな名詞の追加の場合に
は、新たな名詞（複数）を、共起辞書構築の第６段階に
おける「残りのＮ２個の名詞」であるとみなし、共起辞
書構築の第６段階と同様の処理を行なえばよい。このと
き、共起情報入力手段は、共起辞書構築の第６段階と同
様に、追加すべき名詞と、動詞の格パターン辞書中の軸
となる要素が共起するか否かを作業者に質問し、作業者
から追加共起情報を収集（作成）する。このように、本
実施例においては、共起辞書の構築と更新とを統一的に
行うことができる。

【００６０】また、特定の名詞と格の組合せについて、
共起解析で誤った判定を行うことが判明した場合には、
その組合せを「例外」に指定して、動詞意味辞書に追加
する「例外追加処理」も可能である。

【００６１】以上の説明では、共起辞書の対象を日本語
の名詞と動詞の格としたが、名詞と形容動詞の格、副詞
と助動詞など、その他のカテゴリー間の共起辞書や、英
語、フランス語、ドイツ語などその他の言語の共起辞書
の構築・更新にも上記と同様の方法が適用できることは
言うまでもない。

【００６２】（実施例２）次に、本発明の第２の実施例について、図面を参照しな
がら説明する。図３は本発明独自の意味解析方法および
共起解析方法を用いる、本発明の第２の実施例に係る日
本語文の文解析装置の一実施例を示すブロック図、図４
は図３の文解析装置によって「ＡがＢをＣにＶする」と
いうタイプの文を意味解析する際の手順を示す流れ図、
図５は図４の流れ図中で、「名詞ＮがＣ格として、動詞
Ｖの格パターンＰと共起するかどうか」を共起解析する
手順を示す流れ図、図６は図５の共起解析方法において
用いる特徴ベクトルを用いた名詞意味辞書の内容の一
部、図７は動詞の格パターンと格スロットの性質を特徴
ベクトルで記述した動詞意味辞書の内容の一部である。

【００６３】図３において、２０１は解析すべき文を入
力する入力手段、２０２は入力手段２０１から入力され
た文を形態素の列に分割する形態素解析手段、２０３は
形態素解析手段２０２が形態素分割の際に検索する形態
素辞書、２０４は形態素解析手段２０２が形態素間の接
続検定に用いる接続規則、２０５は形態素解析手段２０
２が出力する形態素列を受け取って構文構造を分析し、
構文木を出力する構文解析手段、２０６は構文解析手段
２０５が構文構造の分析に用いる分脈自由文法規則、２
０７は構文解析手段２０５が出力する構文木を受け取っ
て格解析を行い、意味構造を出力する意味解析手段、２
０８は意味解析手段２０７が用いる動詞意味辞書、２０
９は意味解析手段２０７が用いる名詞意味辞書、２１０
は意味解析手段２０７により作成された格フレームを中
心とする意味構造を格納し、外部の装置が参照・操作す
るための意味構造格納手段である。

【００６４】意味解析に用いる名詞意味辞書２０９は、
形態素辞書２０３中の個々の名詞の意味を、実施例１で
述べたような共起辞書構築・更新方法によって構築・更
新したもので、図６に示すように、各語彙の表記５０
１、読み５０２および特徴ベクトル５０３が各語彙に付
随している。また、動詞意味辞書２０８は、形態素辞書
２０３中の個々の動詞の持つ意味を、１つ以上の格パタ
ーンに分割して記述したもので、図７に示すように、個
々の格スロットに共起する名詞の性質を、表記６０１、
読み６０２、格パターン６０３および特徴ベクトルと例
外となる名詞の集合の組６０４で記述したものである。

【００６５】以上のように構成された本発明の文解析装
置について、その動作を「ＡがＢをＣにＶする」という
タイプの文を解析する際の動作を例にとって説明する。
まず、入力手段２０１を通じて「ＡがＢをＣにＶした」
というタイプの文が文字列として形態素解析手段２０２
に送られる。形態素解析手段２０２は、文頭から文末へ
向かって形態素分割処理を進める。形態素辞書２０３を
検索して、入力文字列の一部分と一致する形態素が見つ
かると、見つけた部分の直前の形態素との接続可能性を
接続規則２０４によって調べ、接続が可能な場合は、見
つけた部分の次の入力文字列について、さらに形態素分
割処理を続ける。形態素辞書２０３の検索結果が複数個
ある場合には、「最長一致」や「文節数最小」などの発
見的方法によって、優先順位をつけ、優先度の高い解釈
を一定個数選択する。このようにして、「Ａ（名詞），が（格助詞），Ｂ（名詞），を（格助詞），Ｃ（名詞），に（格助詞），Ｖ（動詞），し（動詞語尾），た（過去の助動詞）」のような文末までの形態素の列が求まる。

【００６６】上記のような、形態素の列は構文解析手段
２０５に送られ、構文構造が分析され、従来例と同様に
図１４の構文木がいくつか求まる。図１４の構文木から
は、３つの後置詞句「Ａが」，「Ｂを」，「Ｃに」がい
ずれも動詞句「Ｖする」に「かかる」ことがわかる。

【００６７】図１４の構文木は、意味解析手段２０７に
渡され、図４に示す手順によって入力文の意味解析が実
行される。まず、動詞「Ｖ］の持つ格パターンと、それ
に付随した特徴ベクトルが動詞意味辞書２０８を検索し
て求められ、また、名詞「Ａ」，「Ｂ」，「Ｃ」のそれ
ぞれの特徴ベクトルが、名詞意味辞書２０９を検索して
求められる（ステップ３０１）。動詞Ｖの個々の格パタ
ーンに対して、それぞれの後置詞句の名詞の意味ラベル
が対応する「格スロット」との共起の度合を、図５の共
起解析の手順によって調べる（ステップ３０２〜３０
５）。３つの名詞の共起の度合を加算して（ステップ３
０６）、この格パターンの妥当性を数値化し、この数値
の大きな順に優先順位を付与し（ステップ３０７，３０
８）、最良の格パターンを選ぶ。複数の構文木がある場
合には、上記の処理を構文木の数だけ行い、最も数値の
大きい格パターンを有する構文木を選んで、選んだ格パ
ターンに時制や態等の情報を付加して意味構造として出
力する（ステップ３０９）。なお、本実施例では、各深
層格に対する「重み」をすべて１とした場合で説明した
が、「が」格は重み２で、それ以外の格は重み１などのようにそれぞれの格毎に異なる重みを乗じた後、
各深層格の共起の度合いを加算するように、ステップ３
０６を変更した構成も容易に実現することができる。

【００６８】共起解析の手順は、図５に示すように、ま
ず格パターンＰの格にＣ格があるかどうか調べ（ステッ
プ４０１）、存在する場合には、格パターンＰのＣ格の
格スロット中の特徴ベクトルと名詞Ｎの持つ特徴ベクト
ルの内積を求め（ステップ４０２）、さらに動詞意味辞
書のＣ格に名詞Ｎが「例外」として記述されているかど
うかを調べ（ステップ４０３）、記述されていれば、実
施例１で述べた値Ｍからステップ４０２で計算した内積
の値を、そうでなければ内積の値そのものを、それぞれ
共起の度合として返却する（ステップ４０４，４０
５）。また、格パターンＰの格にＣ格がない場合には、
Ｃ格が時間や場所といった「任意格」になる格かどうか
調べ（ステップ４０６）、任意格になり得ない場合はＸ
を０とし（ステップ４０７）、任意格になり得る場合に
は、動詞によらない任意格の格スロット情報を検索し
て、任意格スロット中の特徴ベクトルと、名詞の特徴ベ
クトルの内積を求め（ステップ４０８）、さらに任意格
であるＣ格に名詞Ｎが「例外」として記述されているか
どうかを調べ（ステップ４０９）、記述されていれば、
実施例１で述べた値Ｍからステップ４０８で計算した内
積の値を、そうでなければ内積の値そのものを、それぞ
れ共起の度合として返却する（ステップ４０９，４１
０）。

【００６９】このように、共起解析・意味解析が共起ベ
クトルの内積という定量的な尺度で簡単に求まるため、
解釈間の比較や優先順位付けが極めて容易となる。

【００７０】また、抽象名詞などの直感では分類しづら
いカテゴリーでも、実際の共起データから算出した精密
な特徴ベクトルによって、共起の度合を正確に判定する
ことができる。

【００７１】以上の説明では、共起解析、意味解析の対
象を日本語の名詞と動詞の格としたが、名詞と形容動詞
の格、副詞と助動詞など、その他のカテゴリー間の共起
解析や、英語、フランス語、ドイツ語などその他の言語
の共起解析、意味解析にも上記と同様の方法が適用でき
ることは言うまでもない。

【００７２】

【発明の効果】以上のように本発明は、共起辞書構築の
ためには、３種の共起情報と、個々のカテゴリー対応さ
せた実数ベクトルを算出する手段とを設け、共起辞書更
新のためには、追加共起情報のための共起の相手側語句
の選択手段と、追加共起情報から追加語に対応させた実
数ベクトルを算出する手段とを設け、共起解析のために
は、共起関係を調べたい２つのカテゴリーに対応させた
実数ベクトルから共起の度合を実数で算出する手段を設
け、意味解析のためには、個々の共起の度合から解釈の
妥当性を数値で表す手段を設けたので、系統的かつ高精
度な共起辞書構築方法と、手軽で整合性のとれた共起辞
書更新方法と、高精度で共起の度合を計算できる共起解
析方法と、競合する解釈間の優先順位付けが数値的に高
精度で計算可能な意味解析方法とを実現することができ
る。

【００７３】特に、本発明を日本語の格解析に用いた場
合、従来に比べて抽象名詞を含む文の解析精度を格段に
向上させることが可能であり、その効果は非常に大き
い。

【図面の簡単な説明】

【図１】本発明による共起辞書構築・更新方法および共
起・意味解析方法を説明するための模式図

【図２】本発明の第１の実施例における日本語の動詞の
格と名詞との共起辞書の構築および更新装置のブロック
図

【図３】第２の実施例における日本語の文解析装置のブ
ロック図

【図４】第２の実施例における意味解析の動作を示す流
れ図

【図５】第２の実施例における共起解析の動作を示す流
れ図

【図６】第２の実施例における名詞意味辞書の内容の一
部を示す一覧図

【図７】第２の実施例における動詞意味辞書の内容の一
部を示す一覧図

【図８】従来の意味解析方法を用いる日本語の文解析装
置のブロック図

【図９】従来の意味解析の動作を示す流れ図

【図１０】従来の共起解析の動作を示す流れ図

【図１１】従来の意味ラベルの体系の一部を示す一覧図

【図１２】従来の名詞意味ラベル辞書の内容の一部を示
す一覧図

【図１３】従来の動詞格辞書の内容の一部を示す一覧図

【図１４】構文木の一例を示す模式図

【符号の説明】

１０１名詞辞書１０２動詞格パターン辞書１０３軸要素選別手段１０４質問文生成手段１０５質問文表示手段１０６共起情報入力手段１０７特徴ベクトル算出手段１０８名詞意味辞書１０９動詞意味辞書２０１入力手段２０２形態素解析手段２０３形態素辞書２０４接続規則２０５構文解析手段２０６文脈自由文法規則２０７意味解析手段２０８動詞意味辞書２０９名詞意味辞書２１０意味構造格納手段

Claims

(57)【特許請求の範囲】

【請求項１】第１のカテゴリーに属する語句を納めた
第１の辞書と、第２のカテゴリーに属する語句を納めた
第２の辞書と、前記第１の辞書および第２の辞書の要素
の中から、無作為あるいは人間の指示にしたがって、軸
となる要素を選択する軸要素選別手段と、軸要素選別手
段が選別した要素に基づいて、前記第１の辞書中の軸と
なる要素と、前記第２の辞書中の軸となる要素が共起す
るか否かを作業者に質問し、作業者から共起情報を収集
する共起情報入力手段と、共起情報入力手段からの共起
情報と軸要素選別手段からの選別結果とから各要素に与
える特徴ベクトルを算出する特徴ベクトル算出手段と、
特徴ベクトル算出手段により算出された、第１のカテゴ
リーに属する語句についての特徴ベクトルを含む、当該
語句の辞書情報を格納する第１の意味辞書と、特徴ベク
トル算出手段により算出された、第２のカテゴリーに属
する語句についての特徴ベクトルを含む、当該語句の辞
書情報を格納し、前記第１の意味辞書とともに共起辞書
を構築する第２の意味辞書とを備え、共起辞書を構築する際に、軸要素選別手段は、前記第１の辞書中の語句をすべて集
めた語句群０１から一部の語句を選択して語句群１１と
し、また、前記第２の辞書中の語句をすべて集めた語句
群０２から一部の語句を選択して語句群２１とし、共起情報入力手段は、語句群１１に属する各々の語句と
語句群２１に属する各々の語句とが、対象とする言語の
１つの文中で共起するか否かを記述した第１の共起情報
と、語句群０１の語句で語句群１１に属さないものをす
べて集めた語句群１２に属する各々の語句と、語句群２
１に属する各々の語句とが、対象とする言語の１つの文
中で共起するか否かを記述した第２の共起情報と、語句
群０２の語句で語句群２１に属さないものをすべて集め
た語句群２２に属する各々の語句と、語句群１１に属す
る各々の語句とが、対象とする言語の１つの文中で共起
するか否かを記述した第３の共起情報とからなる３種の
共起情報を用意し、また、特徴ベクトル算出手段は、カ
テゴリー間の共起関係を再現すべく実数ベクトルを算出
して双方のカテゴリーに属する各語彙に対応させた共起
辞書を構築することを特徴とする共起辞書構築装置。
【請求項２】特徴ベクトル算出手段は、語句群１１に
属する各々の語句に一定の最大次元を越えない次元の実
数ベクトルを対応させ、語句群２１に属する各々の語句
にも前記最大次元を越えない次元の実数ベクトルを対応
させ、共起情報入力手段が収集した第１の共起情報にお
いて、語句群１１に属する語句１と語句群２１に属する
語句２とが１つの文中で共起すると記述されている場合
には、語句１に対応する実数ベクトルと語句２に対応す
る実数ベクトルとの内積の値が正になり、反対に語句群
１１に属する語句１と語句群２１に属する語句２とが１
つの文中で共起しないと記述されている場合には、語句
１に対応する実数ベクトルと語句２に対応する実数ベク
トルとの内積の値が負になるような２つの語句の組の個
数が、語句群１１に属する語句と語句群２１に属する語
句とからなるすべての組のうちで最大になるように、語
句群１１中の各々の語句に対応させた実数ベクトルの値
と語句群２１中の各々の語句に対応させた実数ベクトル
の値とを第１の共起情報をもとにして算出し、次に、語句群１２に属する各々の語句にも前記最大次元
を越えない次元の実数ベクトルを対応させ、共起情報入
力手段が収集した第２の共起情報において、語句群１２
に属する語句３と語句群２１に属する語句４とが１つの
文中で共起すると記述されている場合には、語句３に対
応する実数ベクトルと第１の共起情報をもとにして算出
した語句４に対応する実数ベクトルとの内積の値が正に
なり、反対に語句群１２に属する語句３と語句群２１に
属する語句４とが１つの文中で共起しないと記述されて
いる場合には、語句３に対応する実数ベクトルと第１の
共起情報をもとにして算出した語句４に対応する実数ベ
クトルとの内積の値が負になるような２つの語句の組の
個数が、語句群１２に属する語句と語句群２１に属する
語句とからなるすべての組のうちで最大になるように、
語句群１２中の各々の語句に対応させた実数ベクトルの
値を第２の共起情報をもとにして算出し、次に、語句群２２に属する各々の語句にも前記最大次元
を越えない次元の実数ベクトルを対応させ、共起情報入
力手段が収集した第３の共起情報において、語句群１１
に属する語句５と語句群２２に属する語句６とが１つの
文中で共起すると記述されている場合には、第１の共起
情報をもとにして算出した語句５に対応する実数ベクト
ルと語句６に対応する実数ベクトルとの内積の値が正に
なり、反対に語句群１１に属する語句５と語句群２２に
属する語句６とが１つの文中で共起しないと記述されて
いる場合には、第１の共起情報をもとにして算出した語
句５に対応する実数ベクトルと語句６に対応する実数ベ
クトルとの内積の値が負になるような２つの語句の組の
個数が、語句群１１に属する語句と語句群２２に属する
語句とからなるすべての組のうちで最大になるように、
語句群２２中の各々の語句に対応させた実数ベクトルの
値を第３の共起情報をもとにして算出することにより、
語句群０１および語句群０２のすべての語句に対して実
数ベクトルの形式で共起情報を算出することを特徴とす
る請求項１記載の共起辞書構築装置。
【請求項３】特徴ベクトル算出手段は、第１の共起情
報から各語句に対応する実数ベクトルを算出する際、語
句群１１に属する語句１と語句群２１に属する語句２と
が１つの文中で共起すると記述されている場合には、語
句１に対応する実数ベクトルと語句２に対応する実数ベ
クトルとの内積の値が正になり、反対に第１の共起情報
において、語句群１１に属する語句１と語句群２１に属
する語句２とが１つの文中で共起しないと記述されてい
る場合には、語句１１に対応する実数ベクトルと語句２
に対応する実数ベクトルとの内積の値が負になるような
２つの語句の組の個数が、語句群１１に属する語句と語
句群２１に属する語句からなるすべての組のうち予め設
定した一定値以上の割合を占めるように、第１の共起情
報の一部の情報を「例外」として共起するか否かの判断
を反転した修正された第１の共起情報を作成し、この修
正された第１の共起情報を改めて第１の共起情報として
用い、語句群０１および語句群０２のすべての語句に対
して実数ベクトルの形式で共起情報を算出し、この実数
ベクトルと前記の例外情報の形式で共起情報を算出する
請求項２記載の共起辞書構築装置。
【請求項４】特徴ベクトル算出手段は、共起辞書に対
して、前記第１のカテゴリーに属する新たな語句７を加
える際、前記辞書中の語句で第２のカテゴリーに属する
語句のうちの対応する実数ベクトルの最高次元以上のＮ
個の語句で、Ｎ個中のどの２つの語句に対応する実数ベ
クトルの内積の絶対値も或る一定値以下になるような語
句群２３を選び、共起情報入力手段は、このＮ個の語句
と語句７が、対象とする言語の１つの文中で共起するか
否かの追加共起情報を収集し、語句７に前記最大次元を
越えない次元の実数ベクトルを対応させるとともに、前
記追加共起情報において、語句群２３に属する語句８と
語句７とが１つの文中で共起すると記述されている場合
には、語句７に対応する実数ベクトルと語句８に対応す
る実数ベクトルとの内積の値が正になり、反対に前記追
加共起情報において、語句群２３に属する語句８と語句
７とが１つの文中で共起しないと記述されている場合に
は、語句７に対応する実数ベクトルと語句８に対応する
実数ベクトルとの内積の値が負になるような２つの語句
の組の個数Ｍが最大になるように、語句７に対応する実
数ベクトルＶを算出して語句７の共起情報として前記共
起辞書に付加し当該共起辞書を更新することを特徴とす
る請求項１記載の共起辞書構築装置。
【請求項５】個数Ｍが予め定めた個数Ｌ以下の場合に
は、さらに一定個数の語句群２４を第２のカテゴリーか
ら選び、語句群２４と語句７とが対象とする言語の１つ
の文中で共起するか否かの再追加共起情報を収集し、追
加共起情報と再追加共起情報中の一部の情報を「例外」
として共起するか否かの判断を反転した修正された追加
共起情報を作成し、この修正された追加共起情報を改め
て追加共起情報として用いて、個数Ｍが予め定めた個数
Ｌ以上になるように語句７に対応する実数ベクトルを算
出し、語句７の共起情報として共起辞書に付加し当該共
起辞書を更新することを特徴とする請求項４記載の共起
辞書構築装置。
【請求項６】対象とする自然言語が日本語であり、第
１のカテゴリーが名詞、第２のカテゴリーが用言の深層
格であることを特徴とする請求項１乃至５のいずれかに
記載の共起辞書構築装置。
【請求項７】解析すべき文を入力する入力手段と、入力手段から入力された文を形態素の列に分割する形態
素解析手段と、前記形態素解析手段が出力する形態素列を受け取って構
文構造を分析し構文木を出力する意味解析手段と、第１のカテゴリーに属する語句についての特徴ベクトル
を含む、当該語句の辞書情報を格納し、前記意味解析手
段が意味解析を行なうに際して検索する第１の意味辞書
と、第１の意味辞書とともに共起辞書を構成し、第２のカテ
ゴリーに属する語句についての特徴ベクトルを含む、当
該語句の辞書情報を格納し、前記意味解析手段が意味解
析を行なうに際して検索する第２の意味辞書と、意味解析手段により作成された格フレームを中心とする
意味構造を格納し、外部の装置が参照・操作する意味構
造手段とを備え、前記共起辞書は、第１のカテゴリーに属する語句を納めた第１の辞書と、
第２のカテゴリーに属する語句を納めた第２の辞書とに
含まれた複数の語句について、前記第１の辞書中の語句
をすべて集めた語句群０１から一部の語句を選択して語
句群１１とし、また、前記第２の辞書中の語句をすべて
集めた語句群０２から一部の語句を選択して語句群２１
とし、また、語句群１１に属する各々の語句と語句群２
１に属する各々の語句とが、対象とする言語の１つの文
中で共起するか否かを記述した第１の共起情報と、語句
群０１の語句で語句群１１に属さないものをすべて集め
た語句群１２に属する各々の語句と、語句群２１に属す
る各々の語句とが、対象とする言語の１つの文中で共起
するか否かを記述した第２の共起情報と、語句群０２の
語句で語句群２１に属さないものをすべて集めた語句群
２２に属する各々の語句と、語句群１１に属する各々の
語句とが、対象とする言語の１つの文中で共起するか否
かを記述した第３の共起情報との３種の共起情報に基づ
いて生成され、且つ、カテゴリー間の共起関係を再現すべく前記第１および第
２の双方のカテゴリーに属する格語彙に対応させた実数
ベクトルの形式で記述された特徴ベクトルを含むことを
特徴とする文解析装置。
【請求項８】対象とする自然言語が日本語であり、第
１のカテゴリーが名詞、第２のカテゴリーが用言の深層
格であることを特徴とする請求項７記載の文解析装置。