JP2640793B2 - 共起辞書構築装置及びこの共起辞書を用いた文解析装置 - Google Patents

共起辞書構築装置及びこの共起辞書を用いた文解析装置

Info

Publication number
JP2640793B2
JP2640793B2 JP4006454A JP645492A JP2640793B2 JP 2640793 B2 JP2640793 B2 JP 2640793B2 JP 4006454 A JP4006454 A JP 4006454A JP 645492 A JP645492 A JP 645492A JP 2640793 B2 JP2640793 B2 JP 2640793B2
Authority
JP
Japan
Prior art keywords
phrase
dictionary
group
belonging
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4006454A
Other languages
English (en)
Other versions
JPH05197712A (ja
Inventor
野 祐 司 菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP4006454A priority Critical patent/JP2640793B2/ja
Priority to US08/004,029 priority patent/US5406480A/en
Publication of JPH05197712A publication Critical patent/JPH05197712A/ja
Application granted granted Critical
Publication of JP2640793B2 publication Critical patent/JP2640793B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ワードプロセッサ、機
械翻訳、文書検索、対話システム等の計算機応用システ
ムに用いられる自然言語処理技術のうち、意味解析用共
起辞書の構築・更新を行なう装置および共起・意味解析
を行なって文の解析を行なう文解析装置に関するもので
ある。
【0002】
【従来の技術】近年、自然言語処理の技術を応用した計
算機応用システムが多数研究開発され、その一部が商品
化されて、徐々に我々の言語文化に定着しつつある。特
に我が国においては、かな漢字変換技術の発達により、
永年の懸案であった漢字かな混じり文の平易な計算機入
力が実用化し、日本語ワードプロセッサーやパーソナル
コンピューター上の文書処理ソフトウエアの本格的な普
及期を迎えている。
【0003】しかしながら、自然言語の文の意味に係わ
る処理、例えばかな漢字変換に、同音異議語の中から、
意味的に正しい語を選択する処理などは、語の意味や語
と語の意味的な関係をどのように表現し、どのように処
理するかという問題が解決されておらず、構文解析にお
ける文脈自由文法のような確固とした基礎理論がないの
が現状である。
【0004】現在、実用に耐えうるものとして機械翻訳
等に広く用いられているのが、C.J.Fillmor
eによって創始された「格文法」を基本とした意味解析
方法であり、共起解析に「意味ラベル」を用いる方法で
ある。以下、この「意味ラベル」を用いる従来の共起解
析方法と、この従来の共起解析方法を用いた従来の意味
解析方法、ならびにこれらの解析に必要な共起辞書につ
いての共起辞書構築方法および従来の共起辞書更新方法
について説明する。
【0005】図8は従来の意味解析方法を用いる日本語
文の文解析装置の一例を示すブロック図、図9は図8の
文解析方法によって「AがBをCにVする」というタイ
プの文を意味解析する際の手順を示す流れ図、図10は
図9の流れ図中で、「名詞NがC格として、動詞Vの格
パターンPと共起するかどうか」を解析する手順を示す
流れ図、図11は図10の共起解析方法において用いる
意味ラベルの体系の一例を示す意味分類基準、図12は
図11の基準に従って名詞に意味ラベルを付与した名詞
意味辞書の内容の一部、図13は動詞の格パターンを定
め、個々の格スロットに適合する体言の意味ラベルの集
合を図11の基準に従って付与した動詞格辞書の内容の
一部である。
【0006】図8において、701は解析すべき文を入
力する入力手段、702は入力手段701から入力され
た文を形態素の列に分割する形態素解析手段、703は
形態素解析手段702が形態素分割の際に検索する形態
素辞書、704は形態素解析手段702が形態素間の接
続検定に用いる接続規則、705は形態素解析手段70
2が出力する形態素列を受け取って構文構造を分析し、
構文木を出力する構文解析手段、706は構文解析手段
705が構文構造の分析に用いる分脈自由文法規則、7
07は構文解析手段706が出力する構文木を受け取っ
て格解析を行い、意味構造を出力する意味解析手段、7
08は意味解析手段707が用いる動詞格辞書、709
は意味解析手段707が用いる名詞意味ラベル辞書、7
10は意味解析手段707により作成された格フレーム
を中心とする意味構造を格納し、外部の装置が参照・操
作するための意味構造格納手段である。意味解析に用い
る名詞意味ラベル辞書709は、図11に示す意味分類
基準に従って、形態素辞書703中の個々の名詞の意味
を1つ以上の意味ラベルで記述したもので、図12のよ
うな内容をもつ。また、動詞格辞書708は、形態素辞
書703中の個々の動詞の持つ意味を1つ以上の格パタ
ーンに分割して記述したもので、図13のような内容で
あり、個々の格スロットに共起する名詞の意味は、名詞
意味ラベル辞書709の場合と同じく、図11に示す意
味分類基準に従った1つ以上の意味ラベルで記述する。
【0007】以上のように構成された従来の文解析装置
について、その動作を「AがBをCにVする」というタ
イプの文を解析する際の動作を例にとって説明する。ま
ず、入力手段701を通じて「AがBをCにVした」と
いうタイプの文が文字列として形態素解析手段702に
送られる。形態素解析手段702は、文頭から文末へ向
かって形態素分割処理を進める。形態素辞書703を検
索して、入力文字列の一部分と一致する形態素が見つか
ると、見つけた部分の直前の形態素との接続可能性を接
続規則704によって調べ、接続が可能な場合は、見つ
けた部分の次の入力文字列について、さらに形態素分割
処理を続ける。形態素辞書703の検索結果が複数個あ
る場合には、「最長一致」や「文節数最小」などの発見
的方法によって、優先順位をつける。このようにして、
文末までの形態素の列、 「A(名詞),が(格助詞),B(名詞),を(格助
詞),C(名詞),に(格助詞),V(動詞),し(動
詞語尾),た(過去の助動詞)」 が求まる。
【0008】上記の形態素の列は構文解析手段705に
送られ、構文構造が分析され、図14に示すような構文
木が求まる。この構文木から、3つの後置詞句「A
が」,「Bを」,「Cに」のいずれもが動詞句「Vす
る」に「かかる」ことがわかる。
【0009】図14の構文木は、意味解析手段707に
渡され、図9に示す手順によって入力文の意味解析が実
行される。まず、動詞「V]の持つ格パターンが動詞格
辞書708を検索して求められ、また、名詞「A」,
「B」,「C」のそれぞれの意味ラベルが、名詞意味ラ
ベル辞書709を検索して求められる(ステップ80
1)。次に、動詞Vの個々の格パターンに対して、それ
ぞれの後置詞句の名詞の意味ラベルが対応する「格スロ
ット」と共起するかどうかを、図10の共起解析の手順
によって調べる。すなわち、3つの名詞がすべて共起す
る格パターンだけに候補を絞り、さらに格パターン間の
優先順位や格スロットの埋まり具合いなどを基準にし
て、最良の格パターンを選んで、選んだ格パターンに時
制や態等の情報を付加して意味構造として出力する(ス
テップ802〜812)。
【0010】共起解析の手順は、図10に示すように、
まず格パターンPの格にC格があるかどうか調べ(ステ
ップ901)、存在する場合には、格パターンPのC格
の格スロット中の意味ラベル群と名詞Nの持つ意味ラベ
ル群の間に共通の意味ラベルがあるかどうか調べ(ステ
ップ902)、存在すれば共起すると判定し(ステップ
903)、存在しない場合には共起しないと判定する
(ステップ904)。また、格パターンPの格にC格が
ない場合には、C格が時間や場所といった「任意格」に
なる格かどうか調べ(ステップ905)、任意格になり
得ない場合には共起しないと判定し(ステップ90
4)、任意格になり得る場合には、動詞によらない任意
格の格スロット情報を検索して、任意格スロット中の意
味ラベル群と、名詞の意味ラベル群の間に共通の意味ラ
ベルがあるかどうか調べ(ステップ906)、存在すれ
ば共起すると判定し(ステップ903)、存在しない場
合には共起しないと判定する(ステップ903)。
【0011】以上の文解析装置に用いる動詞格辞書70
8および名詞意味ラベル辞書709は、対になって共起
辞書を構成する。従来、その構築は完全な人手により行
われてきた。以下、その典型的な手順を説明する。ま
ず、図11のような意味分類基準を一人または数名の専
門家が、辞典類や過去のシステム等を参考にして定め
る。次に、この意味分類基準をもとにして、形態素辞書
703中の個々の名詞に、一人または複数の作業者が1
個以上の意味ラベルを付与する。また、形態素辞書70
3中の個々の動詞について、一人または複数の作業者
が、格パターンや法、態、相などの統語情報が異なる1
種以上の「サブシート」に分類し、格サブシート毎に、
図13のような格パターン情報とその他の統語情報を記
述してゆく。共起辞書の構築段階で意味分類基準に不備
が見つかった場合には、意味分類基準は随時追加・変更
されることがある。また、「かぜをひく」などの慣用的
で特殊な共起関係は、主として動詞格辞書中に「例外」
として直接記述され、上記の意味解析に先だって、ある
いは上記の意味解析が失敗した後で、例外処理を行って
解析される。
【0012】共起辞書の更新も、共起辞書の構築メンバ
ーが、意味分類基準とそれまでに構築した共起辞書の内
容を総合的に考慮して、整合性がとれるように人手によ
って行う。大規模な更新では、意味分類基準の追加・変
更は行われることも多い。
【0013】
【発明が解決しようとする課題】しかしながら、上記の
従来の方法では、共起辞書の構築・更新の面において、
系統的で客観的な方法がなく、言語学の専門家や各シス
テムの構造をよく知っている小数の開発メンバーのノウ
ハウと熟練に負うところが非常に大きく、さまざまな問
題を有していた。すなわち、まず意味ラベルの体系の構
築方法が明確でないため、専門家の経験と内省によっ
て、名詞意味辞書や動詞の格辞書の構築前に人手により
意味ラベルの種類と解釈とを設定する必要があり、実際
の辞書構築や文解析の際に、意味ラベルの「粗さ」や種
類の不足などの問題が生じて、体系の追加・変更が必要
になるという問題があった。また、個々の意味ラベルの
「解釈」が明確にできないため、大規模な辞書を複数の
人間で構築する場合、個々の単語にどの意味ラベルの集
合を付与すればよいのかがわからなかったり、個々の作
業者によって解釈に差異がでてしまったりするという問
題があった。また、意味解析機構を組み込んだ計算機応
用システムをエンドユーザが使用する際に、未知語(辞
書にない語)を登録しようとしても、そのシステムで使
用されている意味ラベルの体系をエンドユーザが理解し
て適切な意味ラベルを付与することは、非常に困難であ
り、エンドユーザによる手軽な共起辞書の更新が困難で
あるという問題があった。
【0014】さらに、共起解析・意味解析の精度面でも
いくつかの問題を有していた。まず、精密な共起辞書の
構築が困難なため、意味ラベルが「甘く」、特に精密な
意味ラベルの付与が困難な抽象名詞とその格スロットと
の共起解析の精度が悪いという問題があった。例えば、
「かんしょう」という読みをもつ単語は20種以上ある
がいずれも抽象名詞であり、従来の共起解析では高精度
な漢字表記への変換は困難であった。また、意味解析の
主要部である格フレームの決定・優先順序付けの際に
も、個々の共起分析結果が「共起する」あるいは「共起
しない」の2値であるため、「どの程度共起しやすいの
か」を数値として知ることができず、精密な格フレーム
の決定・優先順序付けができないという問題があった。
【0015】本発明は、このような従来技術の課題を解
決するものであり、系統的かつ高精度な共起辞書構
、手軽で整合性のとれた共起辞書更新とを行なう共起
辞書構築装置と、高精度で共起の度合を計算できる共起
析と、競合する解釈間の優先順位付けが数値的に高精
度で計算可能な意味解析とを行なう文解析装置とを提供
することを目的とする。
【0016】
【課題を解決するための手段】上記目的を達成するため
に、本願第1の発明は、第1のカテゴリーに属する語句
を納めた第1の辞書と、第2のカテゴリーに属する語句
を納めた第2の辞書と、前記第1の辞書および第2の辞
書の要素の中がら軸となる要素を選択する軸要素選別手
段と、軸要素選別手段が選別した要素に基づいて共起情
報を収集する共起情報入力手段と、共起情報入力手段か
らの共起情報と軸要素選別からの選別結果とから各要素
に与える特徴ベクトルを算出する特徴ベクトル算出手段
と、特徴ベクトル算出手段により算出された、第1のカ
テゴリーに属する語句についての特徴ベクトルを含む、
当該語句の辞書情報を格納する第1の意味辞書と、特徴
ベクトル算出手段により算出され た、第2のカテゴリ
ーに属する語句についての特徴ベクトルを含む、当該語
句の辞書情報を格納し、前記第1の意味辞書とともに共
起辞書を構成する第2の意味辞書とを備えた共起辞書構
築装置を要旨とする。この共起辞書構築装置は、共起辞
書構築方法として、3種の共起情報と、個々のカテゴリ
ーに対応させた実数ベクトルを算出する手段とを有し、
共起辞書更新方法として、追加共起情報のための共起の
相手側語句の選択手段と、追加共起情報から追加語に対
応させた実数ベクトルを算出する手段とを有し、共起解
析方法として、共起関係を調べたい2つのカテゴリーに
対応させた実数ベクトルから共起の度合を実数で算出す
る手段を有し、意味解析方法として、個々の共起の度合
から解釈の妥当性を数値で表す手段を有している。
【0017】より具体的には、図1に示すように、対象
とする自然言語の語句を収録した辞書中の2種類のカテ
ゴリーに属する各々の語句が1つの文中で共起するか否
かを記述する共起辞書を構築するために、辞書中の語句
で第1のカテゴリーに属する語句をすべて集めた語句群
01から一部の語句を選択して語句群11とし、辞書中
の語句で第2のカテゴリーに属する語句をすべて集めた
語句群02から一部の語句を選択して語句群21とし、
語句群11に属する各々の語句と語句群21に属する各
々の語句とが、対象とする言語の1つの文中で共起する
か否かを記述した第1の共起情報と、語句群01の語句
で語句群11に属さないものをすべて集めた語句群12
に属する各々の語句と語句群21に属する各々の語句と
が、対象とする言語の1つの文中で共起するか否かを記
述した第2の共起情報と、語句群02の語句で語句群2
1に属さないものをすべて集めた語句群22に属する各
々の語句と語句群11に属する各々の語句とが、対象と
する言語の1つの文中で共起するか否かを記述した第3
の共起情報からなる3種の共起情報を用意し、次に、語
句群11に属する各々の語句に一定の最大次元を越えな
い次元の実数ベクトルを対応させ、語句群21に属する
各々の語句にも前記最大次元を越えない次元の実数ベク
トルを対応させた第1の共起情報において、語句群11
に属する語句1と語句群21に属する語句2とが1つの
文中で共起すると記述されている場合には、語句1に対
応する実数ベクトルと語句2に対応する実数ベクトルと
の内積の値が正になり、反対に語句群11に属する語句
1と語句群21に属する語句2とが1つの文中で共起し
ないと記述されている場合には、語句1に対応する実数
ベクトルと語句2に対応する実数ベクトルとの内積の値
が負になるような2つの語句の組の個数が、語句群11
に属する語句と語句群21に属する語句とからなるすべ
ての組のうちで最大になるように、語句群11中の各々
の語句に対応させた実数ベクトルの値と語句群21中の
各々の語句に対応させた実数ベクトルの値とを第1の共
起情報をもとにして算出し、次に、語句群12に属する
各々の語句にも前記最大次元を越えない次元の実数ベク
トルを対応させた第2の共起情報において、語句群12
に属する語句3と語句群21に属する語句4とが1つの
文中で共起すると記述されている場合には、語句3に対
応する実数ベクトルと第1の共起情報をもとにして算出
した語句4に対応する実数ベクトルとの内積の値が正に
なり、反対に語句群12に属する語句3と語句群21に
属する語句4とが1つの文中で共起しないと記述されて
いる場合には、語句3に対応する実数ベクトルと第1の
共起情報をもとにして算出した語句4に対応する実数ベ
クトルとの内積の値が負になるような2つの語句の組の
個数が、語句群12に属する語句と語句群21に属する
語句とからなるすべての組のうちで最大になるように、
語句群12中の各々の語句に対応させた実数ベクトルの
値を第2の共起情報をもとにして算出し、次に、語句群
22に属する各々の語句にも前記最大次元を越えない次
元の実数ベクトルを対応させた第3の共起情報におい
て、語句群11に属する語句5と語句群22に属する語
句6とが1つの文中で共起すると記述されている場合に
は、第1の共起情報をもとにして算出した語句5に対応
する実数ベクトルと語句6に対応する実数ベクトルとの
内積の値が正になり、反対に語句群11に属する語句5
と語句群22に属する語句6とが1つの文中で共起しな
いと記述されている場合には、第1の共起情報をもとに
して算出した語句5に対応する実数ベクトルと語句6に
対応する実数ベクトルとの内積の値が負になるような2
つの語句の組の個数が、語句群11に属する語句と語句
群22に属する語句とからなるすべての組のうちで最大
になるように、語句群22中の各々の語句に対応させた
実数ベクトルの値を第3の共起情報をもとにして算出す
ることにより、語句群01および語句群02のすべての
語句に対して実数ベクトルの形式で共起情報を算出する
ようにしたものである。
【0018】また、第1の共起情報から各語句に対応す
る実数ベクトルを算出する際、語句群11に属する語句
1と語句群21に属する語句2とが1つの文中で共起す
ると記述されている場合には、語句1に対応する実数ベ
クトルと語句2に対応する実数ベクトルとの内積の値が
正になり、反対に第1の共起情報において、語句群11
に属する語句1と語句群21に属する語句2とが1つの
文中で共起しないと記述されている場合には、語句11
に対応する実数ベクトルと語句2に対応する実数ベクト
ルとの内積の値が負になるような2つの語句の組の個数
が、語句群11に属する語句と語句群21に属する語句
からなるすべての組のうちの一定以上の割合を占めるよ
うに、第1の共起情報の一部の情報を「例外」として共
起するか否かの判断を反転した修正された第1の共起情
報を作成し、この修正された第1の共起情報を改めて第
1の共起情報として用い、語句群01および語句群02
のすべての語句に対して実数ベクトルの形式で共起情報
を算出し、この実数ベクトルと前記の例外情報の形式で
共起情報を算出するようにしたものである。
【0019】また、共起辞書を更新するために、対象と
する自然言語の語句を収録した辞書中の第1のカテゴリ
ーおよび第2のカテゴリーの2種類のカテゴリーに属す
る各々の語句が1つの文中で共起するか否かを記述した
上記の方法またはこれらに類似する方法によって構築さ
れ、個々の語句に対して実数ベクトルの形式で共起情報
を記述した共起辞書において、上記第1のカテゴリーに
属する新たな語句7を上記共起辞書に加える際、上記辞
書中の語句で第2のカテゴリーに属する語句のうちの対
応する実数ベクトルの最高次元以上のN個の語句で、N
個中のどの2つの語句に対応する実数ベクトルの内積の
絶対値もある一定値以下になるような語句群23を選
び、このN個の語句と語句7が、対象とする言語の1つ
の文中で共起するか否かの追加共起情報を与え、語句7
に上記最大次元を越えない次元の実数ベクトルを対応さ
せるとともに、上記追加共起情報において、語句群23
に属する語句8と語句7とが1つの文中で共起すると記
述されている場合には、語句7に対応する実数ベクトル
と語句8に対応する実数ベクトルとの内積の値が正にな
り、反対に上記追加共起情報において、語句群23に属
する語句8と語句7とが1つの文中で共起しないと記述
されている場合には、語句7に対応する実数ベクトルと
語句8に対応する実数ベクトルとの内積の値が負になる
ような2つの語句の組の個数Mが最大になるように、語
句7に対応する実数ベクトルVを算出して語句7の共起
情報として上記共起辞書に付加するようにしたものであ
る。
【0020】また、個数Mが予め定めた個数L以下の場
合には、さらに一定個数の語句群24を第2のカテゴリ
ーから選び、語句群24と語句7とが対象とする言語の
1つの文中で共起するか否かの再追加共起情報を与え、
追加共起情報と再追加共起情報中の一部の情報を「例
外」として共起するか否かの判断を反転した修正された
追加共起情報を作成し、この修正された追加共起情報を
改めて追加共起情報として用いて、個数Mが予め定めた
個数L以上になるように語句7に対応する実数ベクトル
を算出し、語句7の共起情報として共起辞書に付加する
ようにしたものである。
【0021】また上記目的を達成するため、本願第2の
発明は、解析すべき文を入力する入力手段と、入力手段
から入力された文を形態素の列に分割する形態素解析手
段と、前記形態素解析手段が出力する形態素列を受け取
って構文構造を分析し構文を出力する意味解析手段
と、第1のカテゴリーに属する語句についての特徴ベク
トルを含む、当該語句の辞書情報を格納し、前記意味解
析手段が意味解析を行なうに際して検索する第1の意味
辞書と、第1の意味辞書とともに共起辞書を構成し、第
2のカテゴリーに属する語句についての特徴ベクトルを
含む、当該語句の辞書情報を格納し、前記意味解析手段
が意味解析を行なうに際して検索する第2の意味辞書
と、意味解析手段により作成された格フレームを中心と
する意味構造を格納し、外部の装置が参照・操作する意
味構造手段とを備えた文解析装置を要旨とする。この文
解析装置は、対象とする自然言語の語句を収録した辞書
中の2種類のカテゴリーに属する各々の語句が1つの文
中で共起するか否かを機械的に判定する共起解析を行う
ために、上記の方法またはこれらに類似する方法によっ
て構築・更新され、個々の語句に対して実数ベクトルの
形式で共起情報を記述した共起辞書を用い、解析すべき
文中に前記共起辞書中の第1のカテゴリーに含まれる語
句1と、上記共起辞書中の第2のカテゴリーに含まれる
語句2とが形態素および構文上許される位置に現われた
際、語句1に対応する実数ベクトルと語句2に対応する
実数ベクトルとの内積が正である場合には語句1と語句
2は共起すると判断し、反対に語句1に対応する実数ベ
クトルと語句2に対応する実数ベクトルとの内積が負で
ある場合には語句1と語句2は共起しないと判断するよ
うにしている
【0022】また、上記文解析装置は、意味解析を行う
ために、解析すべき文中に、語句1または語句2に関す
る形態素、構文上の曖昧さがある場合には、上記の共起
解析方法を用いて算出した語句1に対応する実数ベクト
ルと語句2に対応する実数ベクトルとの内積の絶対値が
一番大きい解釈または上記内積の絶対値が一定値以上の
解釈群を採用し、それ以外の解釈を棄却するようにし
る。
【0023】
【作用】本発明は、上記構成によって、カテゴリー間の
実際の共起関係を最もよく再現するように実数ベクトル
を算出して双方のカテゴリーに属する各語彙に対応させ
た共起辞書の構築と更新を実現し、共起解析・意味解析
の際には、共起辞書を検索して実数ベクトルを求め、そ
の内積を計算することにより、系統的かつ高精度な共起
辞書構築方法と、手軽で整合性のとれた共起辞書更新方
法と、高精度で共起の度合を計算できる共起解析方法
と、競合する解釈間の優先順位付けが数値的に高精度で
計算可能な意味解析方法とを実現することができる。
【0024】
【実施例】以下、本発明の実施例について図面を参照し
ながら説明するが、対象とする自然言語は日本語であ
り、第1のカテゴリーが名詞、第2のカテゴリーが動詞
の格である。
【0025】(実施例1) 図2は本発明の第1の実施例における日本語の動詞の格
と名詞との共起辞書を構築および更新するための装置の
ブロック図である。図2において、101は日本語の名
詞の表記と読みなどを納めた第1の辞書としての名詞辞
書、102は日本語の動詞の表層格パターンと格スロッ
トに入り得る典型的な名詞を集めた第2の辞書としての
動詞格パターン辞書、103は名詞辞書101および動
詞格パターン辞書102の要素中から軸となる要素を選
別する軸要素選別手段、104は軸要素選別手段103
が選択した要素から共起情報入力者へ提示する質問文を
作成する質問文生成手段、105は質問文生成手段10
4が作成した質問文を共起情報入力者に提示するための
質問文表示手段、106は質問文表示手段105の表示
を見て共起情報入力者が共起情報を入力するための共起
情報入力手段、107は共起情報入力手段106からの
共起情報と軸要素選別手段103からの選別結果とから
各要素に与える特徴ベクトルを算出する特徴ベクトル算
出手段、108は特徴ベクトル算出手段107が出力し
た名詞の特徴ベクトルを含めて名詞の辞書情報を格納す
る名詞意味辞書、109は特徴ベクトル算出手段が出力
した動詞の格の特徴ベクトルを含めて動詞の格パターン
の辞書情報を格納する動詞意味辞書である。なお、動詞
格パターン辞書102には、 [彼/特許課/ミルク]が [被害/盗難]に 会う/遭う の形式で各動詞の表層格パターンと、名詞の典型例が記
述されている。
【0026】次に、以上のように構成された共起辞書構
築装置について、その動作を説明する。その前に以下の
説明で用いる公式について説明しておく。線形代数の知
識は、階数pのn行v列の行列Cが、適切なv行p列の
直交行列Aと、n行p列の直交行列Bを用いて、(式
1)の形に表せることを教えてくれる。
【0027】
【数1】
【0028】従って、元の行列Cは、(式2)の形に変
形できる。
【0029】
【数2】
【0030】(式2)において、λは行列Cの特異値、
(式2)の右辺は、行列Cのスペクトル分解と呼ばれ
る。
【0031】さて、行列Cのスペクトル分解は、次の注
目すべき性質を持つ。いま、階数pの行列Cを、pより
小さな階数qの行列Dで近似することを考える。近似の
悪さの尺度を、ユークリッド距離を用いて、(式3)で
計量すれば、この近似の悪さの尺度δを最小にする行列
Dは、行列Cのスペクトル分解の部分和を用いて、(式
4)で与えられる。
【0032】
【数3】
【0033】
【数4】
【0034】しかも、一般に(式5)が成り立つことか
ら、(式6)が成り立つkについては、(式4)におけ
る右辺第k項からの寄与は小さい。
【0035】
【数5】
【0036】
【数6】
【0037】以下、これらの基本公式を使用して説明を
進めて行く。はじめに、各変数の定義をおこなう。名詞
辞書101中の名詞の総数をNとして語句群1とすると
共に、動詞格パターン辞書中の個々の「格」の総数をV
として語句群2とする。「格」は、動詞の格パターン
と、格パターン中の格の出現する順番を指定すれば一意
に定まる。そして、N個の名詞と、V個の「格」のそれ
ぞれに1から始まる通し番号をつけ、第i番目の名詞
と、第j番目の格が共起すれば、すなわち他の格に適当
な名詞を当てはめた時、第j番目の格に第i番目の名詞
を当てはめた文が日本語の文として意味的に妥当であれ
ば整数値Mを、日本語としてナンセンスであれば値0
を、微妙な場合には、その妥当さに応じて1以上M未満
の整数値をとる変数を(式7)で表すことにする。ただ
し、Mは1以上とする。
【0038】
【数7】
【0039】変数(式7)はN個の名詞と、V個の格の
組合せ毎に1個ずつ考えることができるので、全体とし
てはN行V列の行列Cで与えられる。この行列Cのこと
を「共起データ」と呼ぶことにしよう。共起データは、
名詞、格の双方を固定しても、共起の判断を行う人が異
なれば完全には一致しないであろう。共起の判断を行う
人を固定したとしても、判断すべき文の使用される分野
や、判断する時の気分が異なれば、やはり微妙に異なる
であろう。ここでは、そのような因子は無視するか、ま
たは多数の人の判断あるいは多数回の判断の多数決また
は平均で共起データの値を定めるものとする。
【0040】共起辞書構築の第1段階では、軸要素選別
手段103が、N個の名詞の一部であるN1個の名詞を
無作為あるいは予め与えた指示通りに選択して語句群1
1とし、またV個の格の一部であるV1個の格を、それ
ぞれ無作為あるいは予め与えた指示通りに選択して語句
群21とする。
【0041】共起辞書構築の第2段階では、第1段階で
選択したN1個の名詞の各々を、V1個の格のそれぞれ
に当てはめた文を質問文生成手段104が順に生成し、
質問文表示手段105を通じて共起情報入力者に次々に
提示する。例えば、名詞「水泳」と、格「[彼/特許課
/ミルク]が ?に 会う/遭う」の組合せからは、 「[彼/特許課/ミルク]が 水泳に 会う/遭う」 という文が生成される。共起情報入力者は、質問文表示
手段105に表示されたこのような文を見て、日本語と
して妥当かどうかを判断し、0からMまでのいずれかの
整数値を共起情報入力手段106を通じて入力する。例
えば、上記の文の場合ならば、大部分の作業者は0を入
力するであろう。特徴ベクトル算出手段107は、共起
情報入力手段106からの入力を集計・蓄積し、N1行
V1列の第1の共起情報である共起データC1を作成す
る。このとき、先に、注意した種々の要因による共起デ
ータの揺れが問題となる場合には、先に述べたような適
切な補正を行うことは言うまでもない。
【0042】共起辞書構築の第3段階では、例外の抽出
を段階的に行って、徐々に共起データC1の階数を下げ
る。まず、共起データC1の行列のスペクトル分解を行
う。すると、iとjによって定まる「共起の次元」を表
すある整数kがとれて、k以上の整数mに対しては、第
i番目の名詞と、第j番目の格の共起を表す変数(式
7)の値は、共起データC1の行列のスペクトル分解の
第1項から第m項までの部分和が関係式(式8)を満足
するために、正確に再現することが可能になる。
【0043】
【数8】
【0044】そこで、N1個の名詞とV1個の格の全て
の組合せの中から、上記の「共起の次元」が最大となる
組合せを選び、この共起は「例外」であるとして記憶
し、この組合せに対する「共起の次元」が最小になるよ
う、入力された共起情報を任意に変更する。この「例外
の抽出」と「共起データの変更」を繰り返して、共起デ
ータC1の階数を除々に下げていく。共起データC1の
階数が予め設定した値、例えば16以下に下がるか、例
外の個数がある一定値に達したなら、この繰り返しを終
了する。
【0045】共起辞書構築の第4段階では、個々の名
詞、格に与える実数ベクトルを算出する。すなわち、第
i番目の名詞を固定した場合の「共起の次元」の最大値
Tiを求めて、第i番目の名詞にTi次元のベクトル
(式9)を対応させる。
【0046】
【数9】
【0047】また、第j番目の格を固定した場合の「共
起の次元」の最大値Ujを求めて、第j番目の格にUj
次元のベクトル(式10)を対応させる。
【0048】
【数10】
【0049】これらのベクトル(式9)、(式10)
は、個々の名詞および格の「共起の特徴」を表現したも
のになっている。そこで、(式9)を「第i番目の名詞
の特徴ベクトル」と、(式10)を「第j番目の格の特
徴ベクトル」と、それぞれ呼ぶことにしよう。このよう
に、第4段階の終了時点において、N個の名詞のうちの
N1個、V個の格のうちのV1個について、それぞれ特
徴ベクトルが特徴ベクトル算出手段107によって定ま
り、その他の辞書情報と一緒に名詞意味辞書108、動
詞意味辞書109にそれぞれ格納する。
【0050】共起辞書構築の第5段階では、先に第1段
階で選んだN1個の名詞およびV1個の格から、それぞ
れN0個の名詞およびV0個の格を「軸要素」として軸
要素選別手段103が選び出す。ここで、N0個の名詞
はN1個の名詞から選び出されたものであるから語句群
11に属する語句である。V0個の格はV1個の格から
選び出されたものであるから語句群21に属する語句で
ある。このとき、N0およびV0は、ともに共起データ
C1の階数より大きくなるようにする。名詞の選別の基
準は、選んだN0個の名詞の特徴ベクトルが1次独立で
各名詞の共起に「例外」が少なく、特徴ベクトルの次元
ができるだけ低く、しかも任意の2つの特徴ベクトルの
間の、ベクトル空間における方位角ができるだけ大きく
なることである。すなわち、この場合、特徴ベクトル算
出手段107はN1個の中のどの2つの語句に対応する
実数ベクトルの内積の絶対値もある一定値以下になるよ
うな語句群23を選ぶ。V個の格の選別の基準も名詞
の選別基準と同様である。ただし、特徴ベクトルの次元
が共起データC1の階数より低い場合には、ベクトルの
後に0の列を補って、特徴ベクトルの次元を共起データ
C1の階数まで「引き上げて」、一次独立性、ベクトル
空間における方位角を考察することとする。
【0051】共起辞書構築の第6段階では、先に第1段
階で選んだN1個の名詞以外の残りのN2個の名詞の共
起情報を入力し、N2個の名詞の特徴ベクトルを求め
る。ただし、N1とN2を加えた個数は名詞全体の個数
Nに一致するものとする。
【0052】まず、共起辞書構築の第2段階と同様にし
て、第5段階で選んだV0個の格に、N2個の名詞のそ
れぞれを当てはめた文を質問文生成手段104で順に生
成し、質問文表示手段105を通じて共起情報入力者に
次々に提示、共起情報入力者から日本語として妥当かど
うかの判断を、0からMまでのいずれかの整数値の形で
共起情報入力手段106を通じて入力して第2の共起情
報に対応する共起データC2を得る。ここで、N2個の
名詞はN1個の名詞以外の名詞であるから語句群11に
属さないものをすべて集めた語句群12を構成する。ま
た、V0個の格は、前述のように、V1個の格から選び
出されたものであるから語句群21に属する語句であ
る。こうして得られた共起データC2を最もよく再現す
るような名詞の特徴ベクトルは、再現の悪さをユークリ
ッド距離で計量すれば、(式11)なる変分方程式を解
いて、通常の最小二乗法によって、特徴ベクトル算出手
段107が求めることができる。
【0053】
【数11】
【0054】こうして求まったN2個の名詞の特徴ベク
トルは、その他の辞書情報と一緒に名詞意味辞書108
に格納する。これで、名詞意味辞書108が構築され
た。
【0055】共起辞書構築の第7段階では、先に第1段
階で選んだV1個の格以外の残りのV2個の格の共起情
報を入力し、V2個の格の特徴ベクトルを求める。ただ
し、V1とV2を加えた個数は格全体の個数Vに一致す
るものとする。
【0056】まず、共起辞書構築の第2段階と同様にし
て、第5段階で選んだN0個の名詞に、V2個の格のそ
れぞれを当てはめた文を質問文生成手段104で順に生
成し、質問文表示手段105を通じて共起情報入力者に
次々に提示、共起情報入力者から日本語として妥当かど
うかの判断を0からMまでのいずれかの整数値の形で共
起情報入力手段106を通じて入力して第3の共起情報
に対応する共起データC3を得る。ここで、N0個の名
詞は、前述のように、N1個の名詞から選び出されたも
のであるから語句群11に属する語句である。また、V
2個の格はV1個の格以外の格であるから語句群21に
属さないものをすべて集めた語句群22を構成する。
うして得られた共起データC3を最もよく再現するよう
な格の特徴ベクトルは、再現の悪さをユークリッド距離
で計量すれば、(式12)なる変分方程式を解いて、通
常の最小二乗法によって、特徴ベクトル算出手段107
が求めることができる。
【0057】
【数12】
【0058】こうして求まったV2個の格の特徴ベクト
ルは、その他の辞書情報と一緒に動詞意味辞書109に
格納する。これで、動詞意味辞書109が構築され、共
起辞書の構築が終了する。
【0059】共起辞書の更新の動作は、すでに意味辞書
にある語彙の変更の場合でも、新たな語彙の追加の場合
でも、名詞の更新の場合には共起辞書構築の第6段階
と、動詞の格の更新の場合には共起辞書構築の第7段階
と全く同一である。例えば、新たな名詞の追加の場合に
は、新たな名詞(複数)を、共起辞書構築の第6段階に
おける「残りのN2個の名詞」であるとみなし、共起辞
書構築の第6段階と同様の処理を行なえばよい。このと
き、共起情報入力手段は、共起辞書構築の第6段階と同
様に、追加すべき名詞と、動詞の格パターン辞書中の軸
となる要素が共起するか否かを作業者に質問し、作業者
から追加共起情報を収集(作成)する。このように、本
実施例においては、共起辞書の構築と更新とを統一的に
行うことができる。
【0060】また、特定の名詞と格の組合せについて、
共起解析で誤った判定を行うことが判明した場合には、
その組合せを「例外」に指定して、動詞意味辞書に追加
する「例外追加処理」も可能である。
【0061】以上の説明では、共起辞書の対象を日本語
の名詞と動詞の格としたが、名詞と形容動詞の格、副詞
と助動詞など、その他のカテゴリー間の共起辞書や、英
語、フランス語、ドイツ語などその他の言語の共起辞書
の構築・更新にも上記と同様の方法が適用できることは
言うまでもない。
【0062】(実施例2) 次に、本発明の第2の実施例について、図面を参照しな
がら説明する。図3は本発明独自の意味解析方法および
共起解析方法を用いる、本発明の第2の実施例に係る日
本語文の文解析装置の一実施例を示すブロック図、図4
は図3の文解析装置によって「AがBをCにVする」と
いうタイプの文を意味解析する際の手順を示す流れ図、
図5は図4の流れ図中で、「名詞NがC格として、動詞
Vの格パターンPと共起するかどうか」を共起解析する
手順を示す流れ図、図6は図5の共起解析方法において
用いる特徴ベクトルを用いた名詞意味辞書の内容の一
部、図7は動詞の格パターンと格スロットの性質を特徴
ベクトルで記述した動詞意味辞書の内容の一部である。
【0063】図3において、201は解析すべき文を入
力する入力手段、202は入力手段201から入力され
た文を形態素の列に分割する形態素解析手段、203は
形態素解析手段202が形態素分割の際に検索する形態
素辞書、204は形態素解析手段202が形態素間の接
続検定に用いる接続規則、205は形態素解析手段20
2が出力する形態素列を受け取って構文構造を分析し、
構文木を出力する構文解析手段、206は構文解析手段
205が構文構造の分析に用いる分脈自由文法規則、2
07は構文解析手段205が出力する構文木を受け取っ
て格解析を行い、意味構造を出力する意味解析手段、2
08は意味解析手段207が用いる動詞意味辞書、20
9は意味解析手段207が用いる名詞意味辞書、210
は意味解析手段207により作成された格フレームを中
心とする意味構造を格納し、外部の装置が参照・操作す
るための意味構造格納手段である。
【0064】意味解析に用いる名詞意味辞書209は、
形態素辞書203中の個々の名詞の意味を、実施例1で
述べたような共起辞書構築・更新方法によって構築・更
新したもので、図6に示すように、各語彙の表記50
1、読み502および特徴ベクトル503が各語彙に付
随している。また、動詞意味辞書208は、形態素辞書
203中の個々の動詞の持つ意味を、1つ以上の格パタ
ーンに分割して記述したもので、図7に示すように、個
々の格スロットに共起する名詞の性質を、表記601、
読み602、格パターン603および特徴ベクトルと例
外となる名詞の集合の組604で記述したものである。
【0065】以上のように構成された本発明の文解析装
置について、その動作を「AがBをCにVする」という
タイプの文を解析する際の動作を例にとって説明する。
まず、入力手段201を通じて「AがBをCにVした」
というタイプの文が文字列として形態素解析手段202
に送られる。形態素解析手段202は、文頭から文末へ
向かって形態素分割処理を進める。形態素辞書203を
検索して、入力文字列の一部分と一致する形態素が見つ
かると、見つけた部分の直前の形態素との接続可能性を
接続規則204によって調べ、接続が可能な場合は、見
つけた部分の次の入力文字列について、さらに形態素分
割処理を続ける。形態素辞書203の検索結果が複数個
ある場合には、「最長一致」や「文節数最小」などの発
見的方法によって、優先順位をつけ、優先度の高い解釈
を一定個数選択する。このようにして、 「A(名詞),が(格助詞),B(名詞),を(格助詞),C(名詞), に(格助詞),V(動詞),し(動詞語尾),た(過去の助動詞)」のような文末までの 形態素の列が求まる。
【0066】上記のような、形態素の列は構文解析手段
205に送られ、構文構造が分析され、従来例と同様に
図14の構文木がいくつか求まる。図14の構文木から
、3つの後置詞句「Aが」,「Bを」,「Cに」がい
ずれも動詞句「Vする」に「かかる」ことがわかる。
【0067】図14の構文木は、意味解析手段207に
渡され、図4に示す手順によって入力文の意味解析が実
行される。まず、動詞「V]の持つ格パターンと、それ
に付随した特徴ベクトルが動詞意味辞書208を検索し
て求められ、また、名詞「A」,「B」,「C」のそれ
ぞれの特徴ベクトルが、名詞意味辞書209を検索して
求められる(ステップ301)。動詞Vの個々の格パタ
ーンに対して、それぞれの後置詞句の名詞の意味ラベル
が対応する「格スロット」との共起の度合を、図5の共
起解析の手順によって調べる(ステップ302〜30
5)。3つの名詞の共起の度合を加算して(ステップ3
06)、この格パターンの妥当性を数値化し、この数値
の大きな順に優先順位を付与し(ステップ307,30
8)、最良の格パターンを選ぶ。複数の構文木がある場
合には、上記の処理を構文木の数だけ行い、最も数値の
大きい格パターンを有する構文木を選んで、選んだ格パ
ターンに時制や態等の情報を付加して意味構造として出
力する(ステップ309)。なお、本実施例では、各深
層格に対する「重み」をすべて1とした場合で説明した
が、 「が」格は重み2で、それ以外の格は重み1 などのようにそれぞれの格毎に異なる重みを乗じた後、
各深層格の共起の度合いを加算するように、ステップ3
06を変更した構成も容易に実現することができる。
【0068】共起解析の手順は、図5に示すように、ま
ず格パターンPの格にC格があるかどうか調べ(ステッ
プ401)、存在する場合には、格パターンPのC格の
格スロット中の特徴ベクトルと名詞Nの持つ特徴ベクト
ルの内積を求め(ステップ402)、さらに動詞意味辞
書のC格に名詞Nが「例外」として記述されているかど
うかを調べ(ステップ403)、記述されていれば、実
施例1で述べた値Mからステップ402で計算した内積
の値を、そうでなければ内積の値そのものを、それぞれ
共起の度合として返却する(ステップ404,40
5)。また、格パターンPの格にC格がない場合には、
C格が時間や場所といった「任意格」になる格かどうか
調べ(ステップ406)、任意格になり得ない場合はX
を0とし(ステップ407)、任意格になり得る場合に
は、動詞によらない任意格の格スロット情報を検索し
て、任意格スロット中の特徴ベクトルと、名詞の特徴ベ
クトルの内積を求め(ステップ408)、さらに任意格
であるC格に名詞Nが「例外」として記述されているか
どうかを調べ(ステップ409)、記述されていれば、
実施例1で述べた値Mからステップ408で計算した内
積の値を、そうでなければ内積の値そのものを、それぞ
れ共起の度合として返却する(ステップ409,41
0)。
【0069】このように、共起解析・意味解析が共起ベ
クトルの内積という定量的な尺度で簡単に求まるため、
解釈間の比較や優先順位付けが極めて容易となる。
【0070】また、抽象名詞などの直感では分類しづら
いカテゴリーでも、実際の共起データから算出した精密
な特徴ベクトルによって、共起の度合を正確に判定する
ことができる。
【0071】以上の説明では、共起解析、意味解析の対
象を日本語の名詞と動詞の格としたが、名詞と形容動詞
の格、副詞と助動詞など、その他のカテゴリー間の共起
解析や、英語、フランス語、ドイツ語などその他の言語
の共起解析、意味解析にも上記と同様の方法が適用でき
ることは言うまでもない。
【0072】
【発明の効果】以上のように本発明は、共起辞書構築の
ためには、3種の共起情報と、個々のカテゴリー対応さ
せた実数ベクトルを算出する手段とを設け、共起辞書更
新のためには、追加共起情報のための共起の相手側語句
の選択手段と、追加共起情報から追加語に対応させた実
数ベクトルを算出する手段とを設け、共起解析のために
は、共起関係を調べたい2つのカテゴリーに対応させた
実数ベクトルから共起の度合を実数で算出する手段を設
け、意味解析のためには、個々の共起の度合から解釈の
妥当性を数値で表す手段を設けたので、系統的かつ高精
度な共起辞書構築方法と、手軽で整合性のとれた共起辞
書更新方法と、高精度で共起の度合を計算できる共起解
析方法と、競合する解釈間の優先順位付けが数値的に高
精度で計算可能な意味解析方法とを実現することができ
る。
【0073】特に、本発明を日本語の格解析に用いた場
合、従来に比べて抽象名詞を含む文の解析精度を格段に
向上させることが可能であり、その効果は非常に大き
い。
【図面の簡単な説明】
【図1】本発明による共起辞書構築・更新方法および共
起・意味解析方法を説明するための模式図
【図2】本発明の第1の実施例における日本語の動詞の
格と名詞との共起辞書の構築および更新装置のブロック
【図3】第2の実施例における日本語の文解析装置のブ
ロック図
【図4】第2の実施例における意味解析の動作を示す流
れ図
【図5】第2の実施例における共起解析の動作を示す流
れ図
【図6】第2の実施例における名詞意味辞書の内容の一
部を示す一覧図
【図7】第2の実施例における動詞意味辞書の内容の一
部を示す一覧図
【図8】従来の意味解析方法を用いる日本語の文解析装
置のブロック図
【図9】従来の意味解析の動作を示す流れ図
【図10】従来の共起解析の動作を示す流れ図
【図11】従来の意味ラベルの体系の一部を示す一覧図
【図12】従来の名詞意味ラベル辞書の内容の一部を示
す一覧図
【図13】従来の動詞格辞書の内容の一部を示す一覧図
【図14】構文木の一例を示す模式図
【符号の説明】
101 名詞辞書 102 動詞格パターン辞書 103 軸要素選別手段 104 質問文生成手段 105 質問文表示手段 106 共起情報入力手段 107 特徴ベクトル算出手段 108 名詞意味辞書 109 動詞意味辞書 201 入力手段 202 形態素解析手段 203 形態素辞書 204 接続規則 205 構文解析手段 206 文脈自由文法規則 207 意味解析手段 208 動詞意味辞書 209 名詞意味辞書 210 意味構造格納手段

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1のカテゴリーに属する語句を納めた
    第1の辞書と、第2のカテゴリーに属する語句を納めた
    第2の辞書と、前記第1の辞書および第2の辞書の要素
    の中から、無作為あるいは人間の指示にしたがって、軸
    となる要素を選択する軸要素選別手段と、軸要素選別手
    段が選別した要素に基づいて、前記第1の辞書中の軸と
    なる要素と、前記第2の辞書中の軸となる要素が共起す
    るか否かを作業者に質問し、作業者から共起情報を収集
    する共起情報入力手段と、共起情報入力手段からの共起
    情報と軸要素選別手段からの選別結果とから各要素に与
    える特徴ベクトルを算出する特徴ベクトル算出手段と、
    特徴ベクトル算出手段により算出された、第1のカテゴ
    リーに属する語句についての特徴ベクトルを含む、当該
    語句の辞書情報を格納する第1の意味辞書と、特徴ベク
    トル算出手段により算出された、第2のカテゴリーに属
    する語句についての特徴ベクトルを含む、当該語句の辞
    書情報を格納し、前記第1の意味辞書とともに共起辞書
    を構築する第2の意味辞書とを備え、 共起辞書を構築する際に、 軸要素選別手段は、前記第1の辞書中の語句をすべて集
    めた語句群01から一部の語句を選択して語句群11と
    し、また、前記第2の辞書中の語句をすべて集めた語句
    02から一部の語句を選択して語句群21とし、 共起情報入力手段は、語句群11に属する各々の語句と
    語句群21に属する各々の語句とが、対象とする言語の
    1つの文中で共起するか否かを記述した第1の共起情報
    と、語句群01の語句で語句群11に属さないものをす
    べて集めた語句群12に属する各々の語句と、語句群2
    1に属する各々の語句とが、対象とする言語の1つの文
    中で共起するか否かを記述した第2の共起情報と、語句
    02の語句で語句群21に属さないものをすべて集め
    た語句群22に属する各々の語句と、語句群11に属す
    る各々の語句とが、対象とする言語の1つの文中で共起
    するか否かを記述した第3の共起情報とからなる3種の
    共起情報を用意し、また、特徴ベクトル算出手段は、カ
    テゴリー間の共起関係を再現すべく実数ベクトルを算出
    して双方のカテゴリーに属する各語彙に対応させた共起
    辞書を構築することを特徴とする共起辞書構築装置。
  2. 【請求項2】 特徴ベクトル算出手段は、語句群11に
    属する各々の語句に一定の最大次元を越えない次元の実
    数ベクトルを対応させ、語句群21に属する各々の語句
    にも前記最大次元を越えない次元の実数ベクトルを対応
    させ、共起情報入力手段が収集した第1の共起情報にお
    いて、語句群11に属する語句1と語句群21に属する
    語句2とが1つの文中で共起すると記述されている場合
    には、語句1に対応する実数ベクトルと語句2に対応す
    る実数ベクトルとの内積の値が正になり、反対に語句群
    11に属する語句1と語句群21に属する語句2とが1
    つの文中で共起しないと記述されている場合には、語句
    1に対応する実数ベクトルと語句2に対応する実数ベク
    トルとの内積の値が負になるような2つの語句の組の個
    数が、語句群11に属する語句と語句群21に属する語
    句とからなるすべての組のうちで最大になるように、語
    句群11中の各々の語句に対応させた実数ベクトルの値
    と語句群21中の各々の語句に対応させた実数ベクトル
    の値とを第1の共起情報をもとにして算出し、 次に、語句群12に属する各々の語句にも前記最大次元
    を越えない次元の実数ベクトルを対応させ、共起情報入
    力手段が収集した第2の共起情報において、語句群12
    に属する語句3と語句群21に属する語句4とが1つの
    文中で共起すると記述されている場合には、語句3に対
    応する実数ベクトルと第1の共起情報をもとにして算出
    した語句4に対応する実数ベクトルとの内積の値が正に
    なり、反対に語句群12に属する語句3と語句群21に
    属する語句4とが1つの文中で共起しないと記述されて
    いる場合には、語句3に対応する実数ベクトルと第1の
    共起情報をもとにして算出した語句4に対応する実数ベ
    クトルとの内積の値が負になるような2つの語句の組の
    個数が、語句群12に属する語句と語句群21に属する
    語句とからなるすべての組のうちで最大になるように、
    語句群12中の各々の語句に対応させた実数ベクトルの
    値を第2の共起情報をもとにして算出し、 次に、語句群22に属する各々の語句にも前記最大次元
    を越えない次元の実数ベクトルを対応させ、共起情報入
    力手段が収集した第3の共起情報において、語句群11
    に属する語句5と語句群22に属する語句6とが1つの
    文中で共起すると記述されている場合には、第1の共起
    情報をもとにして算出した語句5に対応する実数ベクト
    ルと語句6に対応する実数ベクトルとの内積の値が正に
    なり、反対に語句群11に属する語句5と語句群22に
    属する語句6とが1つの文中で共起しないと記述されて
    いる場合には、第1の共起情報をもとにして算出した語
    句5に対応する実数ベクトルと語句6に対応する実数ベ
    クトルとの内積の値が負になるような2つの語句の組の
    個数が、語句群11に属する語句と語句群22に属する
    語句とからなるすべての組のうちで最大になるように、
    語句群22中の各々の語句に対応させた実数ベクトルの
    値を第3の共起情報をもとにして算出することにより、
    語句群01および語句群02のすべての語句に対して実
    数ベクトルの形式で共起情報を算出することを特徴とす
    る請求項1記載の共起辞書構築装置。
  3. 【請求項3】 特徴ベクトル算出手段は、第1の共起情
    報から各語句に対応する実数ベクトルを算出する際、語
    句群11に属する語句1と語句群21に属する語句2と
    が1つの文中で共起すると記述されている場合には、語
    句1に対応する実数ベクトルと語句2に対応する実数ベ
    クトルとの内積の値が正になり、反対に第1の共起情報
    において、語句群11に属する語句1と語句群21に属
    する語句2とが1つの文中で共起しないと記述されてい
    る場合には、語句11に対応する実数ベクトルと語句2
    に対応する実数ベクトルとの内積の値が負になるような
    2つの語句の組の個数が、語句群11に属する語句と語
    句群21に属する語句からなるすべての組のうち予め設
    定した一定値以上の割合を占めるように、第1の共起情
    報の一部の情報を「例外」として共起するか否かの判断
    を反転した修正された第1の共起情報を作成し、この修
    正された第1の共起情報を改めて第1の共起情報として
    用い、語句群01および語句群02のすべての語句に対
    して実数ベクトルの形式で共起情報を算出し、この実数
    ベクトルと前記の例外情報の形式で共起情報を算出する
    請求項2記載の共起辞書構築装置。
  4. 【請求項4】 特徴ベクトル算出手段は、共起辞書に対
    して、前記第1のカテゴリーに属する新たな語句7を加
    える際、前記辞書中の語句で第2のカテゴリーに属する
    語句のうちの対応する実数ベクトルの最高次元以上のN
    個の語句で、N個中のどの2つの語句に対応する実数ベ
    クトルの内積の絶対値も或る一定値以下になるような語
    句群23を選び、共起情報入力手段は、このN個の語句
    と語句7が、対象とする言語の1つの文中で共起するか
    否かの追加共起情報を収集し、語句7に前記最大次元を
    越えない次元の実数ベクトルを対応させるとともに、前
    記追加共起情報において、語句群23に属する語句8と
    語句7とが1つの文中で共起すると記述されている場合
    には、語句7に対応する実数ベクトルと語句8に対応す
    る実数ベクトルとの内積の値が正になり、反対に前記追
    加共起情報において、語句群23に属する語句8と語句
    7とが1つの文中で共起しないと記述されている場合に
    は、語句7に対応する実数ベクトルと語句8に対応する
    実数ベクトルとの内積の値が負になるような2つの語句
    の組の個数Mが最大になるように、語句7に対応する実
    数ベクトルVを算出して語句7の共起情報として前記共
    起辞書に付加し当該共起辞書を更新することを特徴とす
    る請求項1記載の共起辞書構築装置。
  5. 【請求項5】 個数Mが予め定めた個数L以下の場合に
    は、さらに一定個数の語句群24を第2のカテゴリーか
    ら選び、語句群24と語句7とが対象とする言語の1つ
    の文中で共起するか否かの再追加共起情報を収集し、追
    加共起情報と再追加共起情報中の一部の情報を「例外」
    として共起するか否かの判断を反転した修正された追加
    共起情報を作成し、この修正された追加共起情報を改め
    て追加共起情報として用いて、個数Mが予め定めた個数
    L以上になるように語句7に対応する実数ベクトルを算
    出し、語句7の共起情報として共起辞書に付加し当該共
    起辞書を更新することを特徴とする請求項4記載の共起
    辞書構築装置。
  6. 【請求項6】 対象とする自然言語が日本語であり、第
    1のカテゴリーが名詞、第2のカテゴリーが用言の深層
    格であることを特徴とする請求項1乃至5のいずれかに
    記載の共起辞書構築装置。
  7. 【請求項7】 解析すべき文を入力する入力手段と、 入力手段から入力された文を形態素の列に分割する形態
    素解析手段と、 前記形態素解析手段が出力する形態素列を受け取って構
    文構造を分析し構文木を出力する意味解析手段と、 第1のカテゴリーに属する語句についての特徴ベクトル
    を含む、当該語句の辞書情報を格納し、前記意味解析手
    段が意味解析を行なうに際して検索する第1の意味辞書
    と、 第1の意味辞書とともに共起辞書を構成し、第2のカテ
    ゴリーに属する語句についての特徴ベクトルを含む、当
    該語句の辞書情報を格納し、前記意味解析手段が意味解
    析を行なうに際して検索する第2の意味辞書と、 意味解析手段により作成された格フレームを中心とする
    意味構造を格納し、外部の装置が参照・操作する意味構
    造手段とを備え、 前記共起辞書は、 第1のカテゴリーに属する語句を納めた第1の辞書と、
    第2のカテゴリーに属する語句を納めた第2の辞書とに
    含まれた複数の語句について、前記第1の辞書中の語句
    をすべて集めた語句群01から一部の語句を選択して語
    句群11とし、また、前記第2の辞書中の語句をすべて
    集めた語句群02から一部の語句を選択して語句群21
    とし、また、語句群11に属する各々の語句と語句群2
    1に属する各々の語句とが、対象とする言語の1つの文
    中で共起するか否かを記述した第1の共起情報と、語句
    01の語句で語句群11に属さないものをすべて集め
    た語句群12に属する各々の語句と、語句群21に属す
    る各々の語句とが、対象とする言語の1つの文中で共起
    するか否かを記述した第2の共起情報と、語句群02
    語句で語句群21に属さないものをすべて集めた語句群
    22に属する各々の語句と、語句群11に属する各々の
    語句とが、対象とする言語の1つの文中で共起するか否
    かを記述した第3の共起情報との3種の共起情報に基づ
    いて生成され、且つ、 カテゴリー間の共起関係を再現すべく前記第1および第
    2の双方のカテゴリーに属する格語彙に対応させた実数
    ベクトルの形式で記述された特徴ベクトルを含むことを
    特徴とする文解析装置。
  8. 【請求項8】 対象とする自然言語が日本語であり、第
    1のカテゴリーが名詞、第2のカテゴリーが用言の深層
    格であることを特徴とする請求項7記載の文解析装置。
JP4006454A 1992-01-17 1992-01-17 共起辞書構築装置及びこの共起辞書を用いた文解析装置 Expired - Fee Related JP2640793B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP4006454A JP2640793B2 (ja) 1992-01-17 1992-01-17 共起辞書構築装置及びこの共起辞書を用いた文解析装置
US08/004,029 US5406480A (en) 1992-01-17 1993-01-15 Building and updating of co-occurrence dictionary and analyzing of co-occurrence and meaning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4006454A JP2640793B2 (ja) 1992-01-17 1992-01-17 共起辞書構築装置及びこの共起辞書を用いた文解析装置

Publications (2)

Publication Number Publication Date
JPH05197712A JPH05197712A (ja) 1993-08-06
JP2640793B2 true JP2640793B2 (ja) 1997-08-13

Family

ID=11638881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4006454A Expired - Fee Related JP2640793B2 (ja) 1992-01-17 1992-01-17 共起辞書構築装置及びこの共起辞書を用いた文解析装置

Country Status (2)

Country Link
US (1) US5406480A (ja)
JP (1) JP2640793B2 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
JP2994926B2 (ja) * 1993-10-29 1999-12-27 松下電器産業株式会社 有限状態機械作成方法とパターン照合機械作成方法とこれらを変形する方法および駆動方法
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5724594A (en) * 1994-02-10 1998-03-03 Microsoft Corporation Method and system for automatically identifying morphological information from a machine-readable dictionary
JPH08153090A (ja) * 1994-11-29 1996-06-11 Internatl Business Mach Corp <Ibm> かな漢字変換システム及びその辞書作成方法
JP2817776B2 (ja) * 1995-05-25 1998-10-30 日本電気株式会社 単語変換装置
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US5995922A (en) 1996-05-02 1999-11-30 Microsoft Corporation Identifying information related to an input word in an electronic dictionary
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
US6173298B1 (en) 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
GB2321117A (en) * 1997-01-09 1998-07-15 Sharp Kk Disambiguating syntactic word multiples
CA2329345A1 (en) * 1997-04-22 1998-10-29 Greg Hetherington Method and apparatus for processing free-format data
US6260008B1 (en) 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US6609087B1 (en) * 1999-04-28 2003-08-19 Genuity Inc. Fact recognition system
US20100122164A1 (en) * 1999-12-03 2010-05-13 Tegic Communications, Inc. Contextual prediction of user words and user actions
WO2001055950A2 (en) * 2000-01-25 2001-08-02 Cellomics, Inc. Method and system for a automated inference of physico-chemical interaction knowledge
AU2001229744A1 (en) * 2000-01-25 2001-08-07 Cellomics, Inc. Method and system for automated inference of physico-chemical interaction knowl edge
JP2002269114A (ja) * 2001-03-14 2002-09-20 Kousaku Ookubo 知識データベース及び知識データベースの構築方法
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US6986106B2 (en) 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
US20030233237A1 (en) * 2002-06-17 2003-12-18 Microsoft Corporation Integration of speech and stylus input to provide an efficient natural input experience
US7137076B2 (en) * 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US7848573B2 (en) * 2003-12-03 2010-12-07 Microsoft Corporation Scaled text replacement of ink
US7506271B2 (en) * 2003-12-15 2009-03-17 Microsoft Corporation Multi-modal handwriting recognition correction
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
WO2005101236A2 (en) * 2004-04-06 2005-10-27 Educational Testing Service Lexical association metric for knowledge-free extraction of phrasal terms
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
JP4170325B2 (ja) * 2005-08-05 2008-10-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 辞書の妥当性を評価する装置、方法およびプログラム
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US8849653B2 (en) * 2006-05-09 2014-09-30 International Business Machines Corporation Updating dictionary during application installation
US8209163B2 (en) * 2006-06-02 2012-06-26 Microsoft Corporation Grammatical element generation in machine translation
US7865352B2 (en) * 2006-06-02 2011-01-04 Microsoft Corporation Generating grammatical elements in natural language sentences
US7739255B2 (en) * 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US20080109845A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp System and method for generating advertisements for use in broadcast media
US20080109409A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Brokering keywords in radio broadcasts
US20080109305A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Using internet advertising as a test bed for radio advertisements
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system
US9292490B2 (en) 2013-08-16 2016-03-22 International Business Machines Corporation Unsupervised learning of deep patterns for semantic parsing
WO2018093904A1 (en) 2016-11-17 2018-05-24 Goldman Sachs & Co. LLC System and method for coupled detection of syntax and semantics for natural language understanding and generation
JP7095264B2 (ja) * 2017-11-13 2022-07-05 富士通株式会社 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55102072A (en) * 1979-01-29 1980-08-04 Nippon Telegr & Teleph Corp <Ntt> Kana-kanji conversion method for homophone
US4916614A (en) * 1986-11-25 1990-04-10 Hitachi, Ltd. Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words
JPS63236167A (ja) * 1987-03-24 1988-10-03 Fujitsu Ltd 単語辞書登録方式
JPH01314373A (ja) * 1988-06-15 1989-12-19 Hitachi Ltd 機械翻訳システムにおける訳語選択方式
JPH0336662A (ja) * 1989-07-03 1991-02-18 Ricoh Co Ltd 自然言語処理方式
JPH0347547A (ja) * 1989-07-12 1991-02-28 Matsushita Refrig Co Ltd 空気清浄装置
JP2975613B2 (ja) * 1989-08-18 1999-11-10 株式会社東芝 かな漢字変換方法及び装置
JPH0392957A (ja) * 1989-09-06 1991-04-18 Matsushita Electric Ind Co Ltd 仮名漢字変換装置
JPH03244070A (ja) * 1990-02-22 1991-10-30 Casio Comput Co Ltd かな漢字変換装置

Also Published As

Publication number Publication date
US5406480A (en) 1995-04-11
JPH05197712A (ja) 1993-08-06

Similar Documents

Publication Publication Date Title
JP2640793B2 (ja) 共起辞書構築装置及びこの共起辞書を用いた文解析装置
Oostdijk Corpus linguistics and the automatic analysis of English
RU2487403C1 (ru) Способ построения семантической модели документа
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
US5748973A (en) Advanced integrated requirements engineering system for CE-based requirements assessment
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
KR20080021017A (ko) 텍스트 기반의 문서 비교
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
JP2006506692A (ja) テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム
Smadja et al. Translating collocations for use in bilingual lexicons
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2003167898A (ja) 情報検索システム
Cowie et al. Automatic Question Answering.
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
JP4041876B2 (ja) 複数尺度の利用による言語変換処理システムおよびその処理プログラム
Jayashree et al. Text Document Summarization Using POS tagging for Kannada Text Documents
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Jagtman et al. Report-COMOLA: a computer system for the analysis of interlanguage data
Guerram et al. A domain independent approach for ontology semantic enrichment
Fu et al. Domain ontology learning for question answering system in network education
KR100431190B1 (ko) 주제 적응 품사 태깅 시스템 및 방법
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files
Chanev Portability of dependency parsing algorithms–an application for Italian
JP2002259445A (ja) 対応カテゴリ検索システムおよび方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090502

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100502

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees