JP2765618B2 - 言語解析装置 - Google Patents

言語解析装置

Info

Publication number
JP2765618B2
JP2765618B2 JP7130184A JP13018495A JP2765618B2 JP 2765618 B2 JP2765618 B2 JP 2765618B2 JP 7130184 A JP7130184 A JP 7130184A JP 13018495 A JP13018495 A JP 13018495A JP 2765618 B2 JP2765618 B2 JP 2765618B2
Authority
JP
Japan
Prior art keywords
phrase
rule
analysis
predetermined
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP7130184A
Other languages
English (en)
Other versions
JPH08329080A (ja
Inventor
敏久 田代
逞 森元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP7130184A priority Critical patent/JP2765618B2/ja
Publication of JPH08329080A publication Critical patent/JPH08329080A/ja
Application granted granted Critical
Publication of JP2765618B2 publication Critical patent/JP2765618B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、言語解析装置に関し、
特に、言語知識を階層毎にかつ用途別に分割し、形態素
解析手段、句構造解析手段、依存構造解析手段、格構造
解析手段、及び意味構造解析手段のそれぞれが分割され
た知識を有効利用して効率的に解析を行う言語解析装置
に関する。
【0002】
【従来の技術】従来のほとんどの自然言語処理システム
は、入力された自然言語を機械処理に都合が良いような
データ構造に変換する装置、すなわち言語解析装置を必
要としている。従って、高性能な自然言語処理システム
の構築のためには、高精度で処理効率が良い言語解析装
置が要求される。効率良く言語解析を行うためには、文
法や言語データベースから抽出した統計情報等の多様な
言語知識を有効に利用できる機構が必要である。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
言語解析装置は、言語解析のために必要な知識の全部や
一部を、同一の計算機構で処理しようとするために、無
駄な計算時間や記憶容量が必要となるという問題があっ
た。例えば、単一化演算に基づく言語解析装置は、上記
の知識をすべて同じ計算機構で処理しようとするため
に、単一化演算というきわめて多大な計算量を必要とす
る演算を、形態素や句構造等のあまり計算時間を必要と
しない知識の処理にも利用してしまうという問題があっ
た。
【0004】また、他の方法に基づく言語解析装置は、
言語解析を複数の計算機構で行うことが多いが、上記の
知識のすべてを区別して取り扱ってはいないために、単
一化に基づく言語解析と同様の問題を多かれ少なかれ有
している。
【0005】本発明の目的は以上の問題点を解決し、言
語知識を階層毎に分割して、従来例に比較して効率的に
言語解析を実行することができる言語解析装置を提供す
ることにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の言語解析装置は、所定の形態素解析辞書を格納する
第1の記憶装置と、所定の句構造規則を格納する第2の
記憶装置と、所定の依存構造規則を格納する第3の記憶
装置と、所定の格構造解析規則を格納する第4の記憶装
置と、所定の意味構造解析規則を格納する第5の記憶装
置と、入力される文字列を単語に分割して、上記第1の
記憶装置に格納された形態素解析辞書を参照して品詞や
活用情報の形態素情報を付与することにより、単語と形
態素情報との組の集合であり、上記文字列に対応する形
態素列を生成して出力する形態素解析手段と、上記形態
素解析手段から出力される形態素列に基づいて、上記第
2の記憶装置に格納された句構造規則を参照して複数の
語から成立する言語的な構成要素である句を抽出するこ
とにより、上記形態素列に対応する句構造を生成して出
力する句構造解析手段と、上記句構造解析手段から出力
される句構造に基づいて、上記第3の記憶装置に格納さ
れた依存構造規則を参照して句の要素の語の中で中心的
な役割を果たす語とその他の語との主従関係を判定する
ことにより、上記句構造に対応する依存構造を生成して
出力する依存構造解析手段と、上記依存構造解析手段か
ら出力される依存構造に基づいて、上記第4の記憶装置
に格納された格構造解析規則を参照して中心的な役割を
果たす語とその他の語との格役割を決定することによ
り、上記依存構造に対応する格構造を生成して出力する
格構造解析手段と、上記格構造解析手段から出力される
格構造に基づいて、上記第5の記憶装置に格納された意
味構造解析規則を参照して表層の語句には明示的に表現
されない意味情報を推論により抽出することにより、上
記格構造に対応する意味構造を生成して出力する意味構
造解析手段を備えたことを特徴とする。
【0007】また、請求項2記載の言語解析装置は、請
求項1記載の言語解析装置において、上記形態素解析手
段は、曖昧性を解消する知識情報として、所定の品詞バ
イグラムと所定の単語の頻度とを参照して、上記文字列
に対応する形態素列を生成して出力することを特徴とす
る。
【0008】さらに、請求項3記載の言語解析装置は、
請求項1又は2記載の言語解析装置において、上記句構
造解析手段は、曖昧性を解消する知識情報として、所定
の句構造規則の適用順序のバイグラムを参照して、上記
形態素列に対応する句構造を生成して出力することを特
徴とする。
【0009】またさらに、請求項4記載の言語解析装置
は、請求項1乃至3のうちの1つに記載の言語解析装置
において、上記依存構造解析手段は、曖昧性を解消する
知識情報として、所定の依存構造規則の頻度を参照し
て、上記句構造に対応する依存構造を生成して出力する
ことを特徴とする。
【0010】また、請求項5記載の言語解析装置は、請
求項1乃至4のうちの1つに記載の言語解析装置におい
て、上記格構造解析手段は、曖昧性を解消する知識情報
として、所定の格構造制約を参照して、上記依存構造に
対応する格構造を生成して出力することを特徴とする。
【0011】さらに、請求項6記載の言語解析装置は、
請求項1乃至5のうちの1つに記載の言語解析装置にお
いて、上記意味構造解析手段は、曖昧性を解消する知識
情報として、所定のメタ規則を参照して、上記格構造に
対応する意味構造を生成して出力することを特徴とす
る。
【0012】
【作用】以上のように構成された請求項1記載の言語解
析装置においては、上記第1の記憶装置は所定の形態素
解析辞書を格納し、上記第2の記憶装置は所定の句構造
規則を格納し、上記第3の記憶装置は所定の依存構造規
則を格納し、上記第4の記憶装置は所定の格構造解析規
則を格納し、上記第5の記憶装置は所定の意味構造解析
規則を格納する。そして、上記形態素解析手段は、入力
される文字列を単語に分割して、上記第1の記憶装置に
格納された形態素解析辞書を参照して品詞や活用情報の
形態素情報を付与することにより、単語と形態素情報と
の組の集合であり、上記文字列に対応する形態素列を生
成して出力し、上記句構造解析手段は、上記形態素解析
手段から出力される形態素列に基づいて、上記第2の記
憶装置に格納された句構造規則を参照して複数の語から
成立する言語的な構成要素である句を抽出することによ
り、上記形態素列に対応する句構造を生成して出力す
る。次いで、上記依存構造解析手段は、上記句構造解析
手段から出力される句構造に基づいて、上記第3の記憶
装置に格納された依存構造規則を参照して句の要素の語
の中で中心的な役割を果たす語とその他の語との主従関
係を判定することにより、上記句構造に対応する依存構
造を生成して出力し、上記格構造解析手段は、上記依存
構造解析手段から出力される依存構造に基づいて、上記
第4の記憶装置に格納された格構造解析規則を参照して
中心的な役割を果たす語とその他の語との格役割を決定
することにより、上記依存構造に対応する格構造を生成
して出力する。さらに、上記意味構造解析手段は、上記
格構造解析手段から出力される格構造に基づいて、上記
第5の記憶装置に格納された意味構造解析規則を参照し
て表層の語句には明示的に表現されない意味情報を推論
により抽出することにより、上記格構造に対応する意味
構造を生成して出力する。
【0013】また、請求項2記載の言語解析装置におい
ては、請求項1記載の言語解析装置において、上記形態
素解析手段は、好ましくは、曖昧性を解消する知識情報
として、所定の品詞バイグラムと所定の単語の頻度とを
参照して、上記文字列に対応する形態素列を生成して出
力する。
【0014】さらに、請求項3記載の言語解析装置にお
いては、請求項1又は2記載の言語解析装置において、
上記句構造解析手段は、好ましくは、曖昧性を解消する
知識情報として、所定の句構造規則の適用順序のバイグ
ラムを参照して、上記形態素列に対応する句構造を生成
して出力する。
【0015】またさらに、請求項4記載の言語解析装置
においては、請求項1乃至3のうちの1つに記載の言語
解析装置において、上記依存構造解析手段は、好ましく
は、曖昧性を解消する知識情報として、所定の依存構造
規則の頻度を参照して、上記句構造に対応する依存構造
を生成して出力する。
【0016】また、請求項5記載の言語解析装置におい
ては、請求項1乃至4のうちの1つに記載の言語解析装
置において、上記格構造解析手段は、好ましくは、曖昧
性を解消する知識情報として、所定の格構造制約を参照
して、上記依存構造に対応する格構造を生成して出力す
る。
【0017】さらに、請求項6記載の言語解析装置にお
いては、請求項1乃至5のうちの1つに記載の言語解析
装置において、上記意味構造解析手段は、好ましくは、
曖昧性を解消する知識情報として、所定のメタ規則を参
照して、上記格構造に対応する意味構造を生成して出力
する。
【0018】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る一実施例の言語
解析装置のブロック図である。本実施例の言語解析装置
は、図1に示すように、形態素解析部1と、句構造解析
部2と、依存構造解析部3と、格構造解析部4と、意味
構造解析部5とを備え、各処理部1乃至5のそれぞれ
は、階層別かつ用途別に分割された言語知識1a,1
b,1c,2a,2b,3a,3b,4a,4b,5
a,5bを参照してより適切な計算機構で解析処理する
ことにより、言語解析を効率的に行うことを特徴として
いる。
【0019】言語解析装置において必要である多様な言
語知識は、以下の2つの観点で分類することができる。 (A)階層別:形態素に関する知識、句構造に関する知
識、依存構造に関する知識、格構造に関する知識、意味
構造に関する知識。 (B)用途別:構造作成のための知識、構造作成時の曖
昧性の解消のための知識。 これらの知識の適用に必要な計算量や記憶容量はそれぞ
れ異なっているが、本実施例においては、言語知識を階
層毎にかつ用途別に厳密に以下の如く分割している。
【0020】図1に示すように、各処理部1乃至5のそ
れぞれに接続される言語解析のために必要な参照情報1
a,1b,1c,2a,2b,3a,3b,4a,4
b,5a,5bは、例えばハードディスクなどの記憶装
置に格納され、各処理部1乃至5は例えばディジタル計
算機で構成される。ここで、形態素解析部1には、形態
素辞書1aと、品詞バイグラム1bと、単語の頻度1c
とが接続される。また、句構造解析部2には、句構造規
則2aと、句構造規則の適用順序のバイグラム2bとが
接続される。さらに、依存構造解析部3には、依存構造
規則3aと、依存構造規則の頻度3bとが接続される。
またさらに、格構造解析部4には、格構造解析規則4a
と、格構造制約4bとが接続される。さらに、意味構造
解析部5には、意味構造解析規則5aと、メタ規則5b
とが接続される。
【0021】以下、言語解析装置の構成及び動作につい
て、この言語解析装置に入力される文字列100が図2
に示すように、「漫画雑誌はすぐ買いたいのですが」で
ある場合を一例にとり説明する。まず、形態素解析部1
は、入力される文字列100を単語に分割して、形態素
解析辞書1aを参照して品詞や活用情報の形態素情報を
付与することにより、単語と形態素情報との組の集合で
あり、上記文字列100に対応する形態素列101を生
成して句構造解析部2に出力する。ここで、形態素解析
部1には、以下の表1に示す形態素解析辞書1aと、以
下の表2に示す品詞バイグラム1bと、以下の表3に示
す単語の頻度1cとが接続されて参照される。
【0022】
【表1】形態素解析辞書1a ────────── (単語,品詞) ────────── (漫画,名詞) (雑誌,名詞) (を,助詞) (すぐ,副詞) (買い,動詞) (たい,助動詞) (たい,名詞) (の,助詞) (です,助動詞) (が,助詞) …………… …………… ──────────
【0023】
【表2】品詞バイグラム1b ───────────── 品詞,品詞 バイグラム ───────────── 名詞,名詞 0.3 名詞,助詞 0.7 名詞,助動詞 0.1 助詞,副詞 0.2 助詞,動詞 0.2 動詞,助動詞 0.3 動詞,名詞 0.1 ……………………… ……………………… ─────────────
【0024】
【表3】単語の頻度1c ──────────── 単語−品詞 頻度 ──────────── 漫画−名詞 56 雑誌−名詞 200 を−助詞 903 すぐ−副詞 84 買い−動詞 542 たい−助動詞 236 たい−名詞 36 …………………… …………………… ────────────
【0025】この例では「たい」という単語は、希望を
表す助動詞としての「たい」と、魚類の名前としての
「たい」との2つの解釈が生じる。そこで、曖昧性を解
消する知識である表2の品詞バイグラム1bを参照する
と、動詞,名詞という品詞の並びより、動詞,助動詞と
いう品詞の並びが生じる確率が高いことがわかり、「た
い」を助動詞として解釈するほうがよりもっともらし
い、ということがわかる。なお、曖昧性を解消する知識
には、品詞バイグラム1bの他にも数多く存在する。例
えば、この例では、表3の単語の出現頻度1cを利用す
ることによっても「たい」を助動詞として解釈すること
ができる。従って、形態素解析部1は図3に示す形態素
列101を生成して出力する。
【0026】本実施例の言語解析装置は、曖昧性を解消
する知識および処理手続きを解析本体とは切り離して構
成しているので、数多くの知識の中でもっとも有効な知
識を利用することができる。以下の解析においても同様
だが、説明を簡単化するため、曖昧性を解消する知識と
しては代表的な一例のみを挙げる。
【0027】次いで、句構造解析部2は、形態素解析部
1から出力される形態素列101に基づいて、句構造規
則2aを参照して複数の語から成立する言語的な構成要
素である句を抽出することにより、上記形態素列101
に対応する句構造102を生成して依存構造解析部3に
出力する。ここで、句構造解析部2には、以下の表4に
示す句構造規則2aと、以下の表5に示す句構造規則の
適用順序のバイグラム2bとが接続されて参照される。
【0028】
【表4】句構造規則2a ──────────────────────── 規則番号 句構造規則 ──────────────────────── RULE−0 (文 (動詞句)) RULE−1 (動詞句 (動詞句 助詞)) RULE−2 (名詞句 (動詞句 助詞)) RULE−3 (助詞 (の)) RULE−4 (助詞 (が)) RULE−5 (後置詞句 (名詞句 助詞)) RULE−6 (動詞句 (動詞句 助動詞)) RULE−7 (動詞句 (名詞句 助動詞)) RULE−8 (動詞句 (後置詞句 動詞句)) RULE−9 (名詞句 (名詞 名詞)) ………………………………………………… ………………………………………………… ────────────────────────
【0029】
【表5】句構造規則の適用順序のバイグラム2b ─────────────────── 規則番号, 規則番号 バイグラム ─────────────────── RULE−3,RULE−2 0.7 RULE−3,RULE−1 0.3 RULE−4,RULE−1 1.0 RULE−5,RULE−6 0.2 ……………………………………… ……………………………………… ───────────────────
【0030】この例では、「動詞句(…たい)助詞
(の)」という句は、動詞句としての解釈「例:これを
食べたいの?」と、名詞句としての解釈「例:食べたい
のはこれだ。」との2つの解釈がある。そこで、曖昧性
を解消する知識である表5の句構造規則の適用規則のバ
イグラム2bを参照すると、助詞「の」の句が成立した
後に(すなわち、RULE−3を適用した後に)、動詞
句が成立し(すなわち、RULE−1が適用され)、確
率より名詞句が成立する(すなわち、RULE−2が適
用される)、確率が高いことから、名詞句としての解釈
を優先できる。従って、句構造解析部2は、図4に示す
句構造102を生成して出力する。
【0031】次いで、依存構造解析部3は、句構造解析
部2から出力される句構造102に基づいて、表6の依
存構造規則3aを参照して句の要素の語の中で中心的な
役割を果たす語とその他の語との主従関係を判定するこ
とにより、上記句構造102に対応する依存構造103
を生成して格構造解析部4に出力する。ここで、依存構
造解析部3には、以下の表6に示す依存構造規則3a
と、以下の表7に示す依存構造規則の頻度3bとが接続
されて参照される。
【0032】
【表6】 依存構造規則3a ────────────────────────── 依存構造規則 規則番号 ────────────────────────── (文 (動詞句)) TYPE−0 (動詞句 (動詞句 助詞)) TYPE−1 (名詞句 (動詞句 助詞)) TYPE−1 (助詞 (の)) TYPE−0 (助詞 (が)) TYPE−0 (後置詞句 (名詞 助詞)) TYPE−1 (動詞句 (動詞句 助動詞)) TYPE−1 (動詞句 (名詞句 助動詞)) TYPE−1 (動詞句 (後置詞句 動詞句)) TYPE−1 (名詞句 (名詞 名詞)) TYPE−1 (名詞句 (名詞 名詞)) TYPE−2 …………………………………………………………… …………………………………………………………… ────────────────────────── (注) TYPE−0:句の要素が1つの場合、その語が主要な役割を果たす。 TYPE−1:句の要素が2つで、右側の語が主要な役割を果たす。 TYPE−2:句の要素が2つで、2つの語が対等な役割を果たす。 TYPE−3:句の要素が2つで、左側の語が主要な役割を果たす。
【0033】
【表7】 依存構造規則の頻度3b ──────────────────────────────── 依存構造規則 規則番号 頻度 ──────────────────────────────── (文 (動詞句)) TYPE−0 10456 (動詞句 (動詞句 助詞)) TYPE−1 13023 (名詞句 (動詞句 助詞)) TYPE−1 7891 (助詞 (の)) TYPE−0 7923 (助詞 (が)) TYPE−0 8091 (後置詞句 (名詞 助詞)) TYPE−1 11789 (動詞句 (動詞句 助動詞)) TYPE−1 12431 (動詞句 (名詞句 助動詞)) TYPE−1 8912 (動詞句 (後置詞句 動詞句)) TYPE−1 13790 (名詞句 (名詞 名詞)) TYPE−1 3710 (名詞句 (名詞 名詞)) TYPE−2 12 (名詞句 (名詞 名詞)) TYPE−3 3 ……………………………………………………………………… ……………………………………………………………………… ───────────────────────────────
【0034】この例では、2つの名詞が連続して一つの
名詞句を構成する場合、右側の語が主要な役割を果たす
場合「例:学術,雑誌」と、2つの名詞の役割が対等な
場合「例:新聞 雑誌」、左側の語が主要な役割を果た
す場合「例:少年,A」の3つの解釈がある。そこで、
曖昧性を解消する知識である依存構造規則の頻度3bを
参照すると、右側の語が主要な役割を果たす場合が多い
ことから、右側の語を主要な役割を果たす解釈を優先で
きる。従って、依存構造解析部3は、図5に示す依存構
造103を生成して出力する。
【0035】次いで、格構造解析部4は、依存構造解析
部3から出力される依存構造103に基づいて、所定の
格構造解析規則を参照して中心的な役割を果たす語とそ
の他の語との役割を決定することにより、上記依存構造
103に対応する格構造104を生成して意味構造解析
部5に出力する。ここで、格構造解析部4には、以下の
表8に示す格構造解析規則4aと、以下の表9に示す格
構造制約4bとが接続されて参照される。
【0036】
【表8】格構造解析規則4a ──────────────────── 格構造解析規則 ──────────────────── (買う は X)→(買う 主体 は X) (買う は X)→(買う 対象 は X) (買う が X)→(買う 主体 が X) (買う を X)→(買う 対象 を X) (買う φ X)→(買う 時間 φ X) ……………………………………………… ……………………………………………… ────────────────────
【0037】
【表9】 格構造制約4b ─────────────────────────── 格構造制約 ─────────────────────────── (買う は X)→(買う 主体 は X) X=*有意思体* *有意思体*={私、あなた、人々、学生、会社員、…} ─────────────────────────── (買う は X)→(買う 対象 は X) X=*具体物* *具体物*={本、雑誌、車、パン、…} ─────────────────────────── ……………………………………………………………… ─────────────────────────── ……………………………………………………………… ───────────────────────────
【0038】上記表8において、φは、「昨日買った」
のように、助詞を介さずに名詞が動詞を修飾する場合を
示す。ここで、表8において、例えば、(買う は
X)→(買う 主体 は X)は、「私は買う」のよう
に、名詞が「は」という助詞を介して「買う」を修飾
し、その意味的な関係が主体であることを示し、表9に
おいて、例えば、「
【数1】(買う は X)→(買う 主体 は X) X=*有意思体* *有意思体*={私、あなた、人々、学生、会社員、
…} 」は、助詞「は」を介して「買う」を修飾する名詞Xと
動詞の関係が「主体」であるためには、名詞Xの意味か
有意志体である必要があること示している。
【0039】この例では、「買う」と「は」の関係は、
主体と対象の2つの解釈がある。そこで、曖昧性を解消
する知識である格構造制約4bを参照すると、「雑誌」
のような具体物は対象として解釈することがもっともら
しいことがわかる。従って、格構造解析部4は、図6に
示す格構造104を生成して出力する。
【0040】さらに、意味構造解析部5は、格構造解析
部4から出力される格構造104に基づいて、表10の
意味構造解析規則5aを参照して表層の語句には明示的
に表現されない意味情報を推論により抽出することによ
り、上記格構造104に対応する意味構造105を生成
して出力する。ここで、意味構造解析部5には、以下の
表10に示す意味構造解析規則5aと、以下の表11に
示すメタ規則5bとが接続されて参照される。
【0041】
【表10】
【0042】
【表11】メタ規則5b ─────────────────── メタ規則 ─────────────────── IF 同時に適用できる規則が複数ある THEN 条件部の指定が細かい規則を優先する ─────────────────── …………………………………………… ───────────────────
【0043】ここで、表10の意味構造解析規則5aに
おいて、例えば、RULE−1は、入力の格構造の一部
が「X→の→です→が」であった場合に、それを「X→
逆説表現」に書き換えてよいということを示している。
また、表11のメタ規則5bは、規則の運用方法を定め
た規則である。
【0044】この例では、「…のですが」という表現
は、逆説の接続表現「例:私は買ったのですが、彼は買
いませんでした。」としても、婉曲な希望表現「例:こ
れを買いたいのですが、売ってくれますか。」としても
解釈できる。そこで、曖昧性を解消する知識であるメタ
規則5bを参照すると、より詳細な規則を優先させると
いう記述があるので、婉曲な希望表現としての解釈を優
先できる。従って、意味構造解析部5は、図7に示す意
味構造105を生成して出力する。
【0045】以上のように構成された言語解析装置につ
いて、シミュレーションを行った結果について以下に述
べる。しかしながら、上述の言語解析装置は現在開発中
であるが、句構造解析部2までの部分についてはにほと
んど完成しているので、極めて簡単な解析実験(シミュ
レーション)を行った。解析対象は、本出願人で作成し
ている音声言語データベース(文献1「Morimoto, T. e
t al.“A Speech andLanguage Database for Speech Tr
anslation Research”, ICSLP94, 1994年」参照。)に
含まれている2352文(64会話)である。これらの
文は既に形態素解析及び句構造解析が済んでいるので、
形態素解析結果を入力とし、句構造解析結果を正解ファ
イルとすることにより、句構造解析実験を容易に行うこ
とができる。なお、これらの文は必ずしも文法的に適格
ではないので、例えば、部分木又はその集合としてしか
解釈できない文もかなりある。
【0046】
【表12】
【0047】この実験で使用した文法は、適格な日本語
文を想定して作成された229規則からなる純粋な文脈
自由文法(核文法)である。純粋な文脈自由文法を用い
た構文解析では、当然のことながら大量の曖昧性が生じ
る。本発明者は、曖昧性解消のための知識として文法規
則の統計情報を用いることにし、解析対象とは別の42
37文(104会話)から、(1)通常の確率文法と、
(2)文脈依存の確率文法の一種である文献2「Kita,
K et al.,“Continuously Spoken Sentence Recognitio
n by HMM-LR",ICSLP-92,pp.305-308,1992年」参照。)
により提案された言語モデルの2つを学習した。次の表
13に実験条件を示す。
【0048】
【表13】実験条件 ──────────────────────── 文法規則(核文法) 229規則 テスト集合 2352文(64会話) 最長 49語 最短 2語 平均 11.6語 訓練集合 4237文(104会話) ────────────────────────
【0049】そして、解析の方法も極めて単純なものに
した。句構造解析部2はボトムアップ探索を行うチャー
トパーザなので、とりあえずチャートの弧の数が上限
(現在は20000)に達するまで全解探索を行ない、
入力が適格な文として解釈された場合には、文としての
全ての解釈を結果として出力した。入力が不適格な文で
あったり、適格な文でもメモリ不足になった場合には、
チャートに保持されれいる部分木を、左最長優先のヒュ
ーリスティックを利用して探索し、最大50通りの部分
木の組合せを結果として出力した。こうして出力した木
又は部分木の集合のすべての中から、(1)たまたま最
初に見つかった結果(以下、ファーストヒットとい
う。)、(2)通常の確率文法を用いてスコアリング
し、もっとも高いスコアを得た結果(以下、PCFGと
いう。)、(3)文献2により提案された言語モデルを
用いてスコアリングし、もっとも高いスコアを得た結果
(以下、規則バイグラムという。)、の3つの解を求
め、評価した。なお、解の評価は、ブラック(Black)
により提案された方法で行なった。次の表14に実験結
果を示す。ここで、再現率とは、正解の句構造をどれだ
け出力できたかを示す値であり、適合率とは、出力した
句構造のどれくらいが正解と一致したかを示す値であ
り、交差率とは、出力した句構造のどれくらいが正解と
交差したかを示す値である。
【0050】
【表14】 実験結果 ─────────────────────────────── 再現率 適合率 交差率 ─────────────────────────────── ファーストヒット 88.2% 88.8% 9.2% PCFG 89.4% 90.5% 8.2% 規則バイグラム 92.1% 92.9% 6.1% ───────────────────────────────
【0051】表14から明らかなように、再現率と適合
率はともに、88%を越えており、きわめて高い正解率
を達成することができ、言語解析をきわめて適切に実行
することができることがわかる。また、規則バイグラム
を利用して約4%の正解率を向上させることができたこ
とがわかる。
【0052】今回の実験では、予め正しく形態素解析さ
れた入力という、現実にはあり得ない入力を用いている
ので、結果の数値の絶対値には意味がほとんどない。し
かしながら、ある程度まとまった量の解析実験なので、
文献2の言語モデル(規則バイグラム)は曖昧性解消の
ための知識としてかなり優れている、と判断することが
できる。
【0053】以上説明したように、本発明に係る実施例
によれば、形態素解析部1と、句構造解析部2と、依存
構造解析部3と、格構造解析部4と、意味構造解析部5
とを備えることにより、各処理部1乃至5のそれぞれ
は、階層別かつ用途別に分割された言語知識情報1a,
1b,1c,2a,2b,3a,3b,4a,4b,5
a,5bなどを参照してより適切な計算機構で解析処理
することにより、言語解析を効率的に行うことができ
る。これによって、言語解析の正解率を従来例に比較し
て向上させることができる。
【0054】本実施例の言語解析装置は、例えば、マイ
クロホンを介して入力された音声を認識するための音声
認識装置や、入力された文字列を他の言語に翻訳する自
動翻訳装置などに適用することができる。
【0055】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の言語解析装置によれば、所定の形態素解析辞書
を格納する第1の記憶装置と、所定の句構造規則を格納
する第2の記憶装置と、所定の依存構造規則を格納する
第3の記憶装置と、所定の格構造解析規則を格納する第
4の記憶装置と、所定の意味構造解析規則を格納する第
5の記憶装置と、入力される文字列を単語に分割して、
上記第1の記憶装置に格納された形態素解析辞書を参照
して品詞や活用情報の形態素情報を付与することによ
り、単語と形態素情報との組の集合であり、上記文字列
に対応する形態素列を生成して出力する形態素解析手段
と、上記形態素解析手段から出力される形態素列に基づ
いて、上記第2の記憶装置に格納された句構造規則を参
照して複数の語から成立する言語的な構成要素である句
を抽出することにより、上記形態素列に対応する句構造
を生成して出力する句構造解析手段と、上記句構造解析
手段から出力される句構造に基づいて、上記第3の記憶
装置に格納された依存構造規則を参照して句の要素の語
の中で中心的な役割を果たす語とその他の語との主従関
係を判定することにより、上記句構造に対応する依存構
造を生成して出力する依存構造解析手段と、上記依存構
造解析手段から出力される依存構造に基づいて、上記第
4の記憶装置に格納された格構造解析規則を参照して中
心的な役割を果たす語とその他の語との格役割を決定す
ることにより、上記依存構造に対応する格構造を生成し
て出力する格構造解析手段と、上記格構造解析手段から
出力される格構造に基づいて、上記第5の記憶装置に格
納された意味構造解析規則を参照して表層の語句には明
示的に表現されない意味情報を推論により抽出すること
により、上記格構造に対応する意味構造を生成して出力
する意味構造解析手段を備える。従って、各処理部1乃
至5のそれぞれは、階層別に分割されて第1乃至第5の
記憶装置に格納された言語知識情報を参照してより適切
な計算機構で解析処理することにより、言語解析を効率
的に行うことができる。これによって、言語解析の正解
率を従来例に比較して向上させることができる。
【0056】また、請求項2記載の言語解析装置におい
ては、請求項1記載の言語解析装置において、上記形態
素解析手段は、好ましくは、曖昧性を解消する知識情報
として、所定の品詞バイグラムと所定の単語の頻度とを
参照して、上記文字列に対応する形態素列を生成して出
力する。従って、より適切に形態素解析することができ
るので、形態素解析の正解率を向上させることができ
る。
【0057】さらに、請求項3記載の言語解析装置にお
いては、請求項1又は2記載の言語解析装置において、
上記句構造解析手段は、好ましくは、曖昧性を解消する
知識情報として、所定の句構造規則の適用順序のバイグ
ラムを参照して、上記形態素列に対応する句構造を生成
して出力する。従って、より適切に句構造解析すること
ができるので、句構造解析の正解率を向上させることが
できる。
【0058】またさらに、請求項4記載の言語解析装置
においては、請求項1乃至3のうちの1つに記載の言語
解析装置において、上記依存構造解析手段は、好ましく
は、曖昧性を解消する知識情報として、所定の依存構造
規則の頻度を参照して、上記句構造に対応する依存構造
を生成して出力する。従って、より適切に依存構造解析
することができるので、依存構造解析の正解率を向上さ
せることができる。
【0059】また、請求項5記載の言語解析装置におい
ては、請求項1乃至4のうちの1つに記載の言語解析装
置において、上記格構造解析手段は、好ましくは、曖昧
性を解消する知識情報として、所定の格構造制約を参照
して、上記依存構造に対応する格構造を生成して出力す
る。従って、より適切に格構造解析することができるの
で、格構造解析の正解率を向上させることができる。
【0060】さらに、請求項6記載の言語解析装置にお
いては、請求項1乃至5のうちの1つに記載の言語解析
装置において、上記意味構造解析手段は、好ましくは、
曖昧性を解消する知識情報として、所定のメタ規則を参
照して、上記格構造に対応する意味構造を生成して出力
する。従って、より適切に意味構造解析することができ
るので、意味構造解析の正解率を向上させることができ
る。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である言語解析装置の
ブロック図である。
【図2】 図1の実施例における形態素解析部1に入力
される文字列の一例を示す図である。
【図3】 図1の実施例における形態素解析部1から出
力される形態素列の一例を示す図である。
【図4】 図1の実施例における句構造解析部2から出
力される句構造の一例を示す図である。
【図5】 図1の実施例における依存構造解析部3から
出力される依存構造の一例を示す図である。
【図6】 図1の実施例における格構造解析部4から出
力される格構造の一例を示す図である。
【図7】 図1の実施例における意味構造解析部5から
出力される意味構造の一例を示す図である。
【符号の説明】
1…形態素解析部、 1a…形態素解析辞書、 1b…品詞バイグラム、 1c…単語の頻度、 2…句構造解析部、 2a…句構造規則、 2b…句構造規則の適用順序のバイグラム、 3…依存構造解析部、 3a…依存構造規則、 3b…依存構造規則の頻度、 4…格構造解析部、 4a…格構造解析規則、 4b…格構造制約、 5…意味構造解析部、 5a…意味構造解析規則、 5b…メタ規則。
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 17/27

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 所定の形態素解析辞書を格納する第1の
    記憶装置と、 所定の句構造規則を格納する第2の記憶装置と、 所定の依存構造規則を格納する第3の記憶装置と、 所定の格構造解析規則を格納する第4の記憶装置と、 所定の意味構造解析規則を格納する第5の記憶装置と、 入力される文字列を単語に分割して、上記第1の記憶装
    置に格納された形態素解析辞書を参照して品詞や活用情
    報の形態素情報を付与することにより、単語と形態素情
    報との組の集合であり、上記文字列に対応する形態素列
    を生成して出力する形態素解析手段と、 上記形態素解析手段から出力される形態素列に基づい
    て、上記第2の記憶装置に格納された句構造規則を参照
    して複数の語から成立する言語的な構成要素である句を
    抽出することにより、上記形態素列に対応する句構造を
    生成して出力する句構造解析手段と、 上記句構造解析手段から出力される句構造に基づいて、
    上記第3の記憶装置に格納された依存構造規則を参照し
    て句の要素の語の中で中心的な役割を果たす語とその他
    の語との主従関係を判定することにより、上記句構造に
    対応する依存構造を生成して出力する依存構造解析手段
    と、 上記依存構造解析手段から出力される依存構造に基づい
    て、上記第4の記憶装置に格納された格構造解析規則を
    参照して中心的な役割を果たす語とその他の語との格役
    割を決定することにより、上記依存構造に対応する格構
    造を生成して出力する格構造解析手段と、 上記格構造解析手段から出力される格構造に基づいて、
    上記第5の記憶装置に格納された意味構造解析規則を参
    照して表層の語句には明示的に表現されない意味情報を
    推論により抽出することにより、上記格構造に対応する
    意味構造を生成して出力する意味構造解析手段を備えた
    ことを特徴とする言語解析装置。
  2. 【請求項2】 上記形態素解析手段は、曖昧性を解消す
    る知識情報として、所定の品詞バイグラムと所定の単語
    の頻度とを参照して、上記文字列に対応する形態素列を
    生成して出力することを特徴とする請求項1記載の言語
    解析装置。
  3. 【請求項3】 上記句構造解析手段は、曖昧性を解消す
    る知識情報として、所定の句構造規則の適用順序のバイ
    グラムを参照して、上記形態素列に対応する句構造を生
    成して出力することを特徴とする請求項1又は2記載の
    言語解析装置。
  4. 【請求項4】 上記依存構造解析手段は、曖昧性を解消
    する知識情報として、所定の依存構造規則の頻度を参照
    して、上記句構造に対応する依存構造を生成して出力す
    ることを特徴とする請求項1乃至3のうちの1つに記載
    の言語解析装置。
  5. 【請求項5】 上記格構造解析手段は、曖昧性を解消す
    る知識情報として、所定の格構造制約を参照して、上記
    依存構造に対応する格構造を生成して出力することを特
    徴とする請求項1乃至4のうちの1つに記載の言語解析
    装置。
  6. 【請求項6】 上記意味構造解析手段は、曖昧性を解消
    する知識情報として、所定のメタ規則を参照して、上記
    格構造に対応する意味構造を生成して出力することを特
    徴とする請求項1乃至5のうちの1つに記載の言語解析
    装置。
JP7130184A 1995-05-29 1995-05-29 言語解析装置 Expired - Lifetime JP2765618B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7130184A JP2765618B2 (ja) 1995-05-29 1995-05-29 言語解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7130184A JP2765618B2 (ja) 1995-05-29 1995-05-29 言語解析装置

Publications (2)

Publication Number Publication Date
JPH08329080A JPH08329080A (ja) 1996-12-13
JP2765618B2 true JP2765618B2 (ja) 1998-06-18

Family

ID=15028089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7130184A Expired - Lifetime JP2765618B2 (ja) 1995-05-29 1995-05-29 言語解析装置

Country Status (1)

Country Link
JP (1) JP2765618B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354746B (zh) 2007-07-23 2011-08-31 夏普株式会社 文字图像抽出装置及文字图像抽出方法

Also Published As

Publication number Publication date
JPH08329080A (ja) 1996-12-13

Similar Documents

Publication Publication Date Title
Liddy Natural language processing
Brill et al. An overview of empirical natural language processing
JP2764343B2 (ja) 節/句境界抽出方式
Altintas et al. A machine translation system between a pair of closely related languages
McKeown et al. Collocations
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
Antony et al. A survey of advanced methods for efficient text summarization
Lee Natural Language Processing: A Textbook with Python Implementation
WO1997040453A1 (en) Automated natural language processing
Harper et al. Integrating language models with speech recognition
Hutchens et al. Natural language grammatical inference
KR20020036059A (ko) 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
JP2765618B2 (ja) 言語解析装置
KR19980038185A (ko) 자연언어 인터페이스 에이전트 및 그의 의미 분석방법
Babhulgaonkar et al. Experimenting with factored language model and generalized back-off for Hindi
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Gwei et al. A Flexible Synonym Interface with application examples in CAL and Help Environments
KR100292376B1 (ko) 문장변환장치 및 그 방법
JP4039282B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3050743B2 (ja) 言語データベースの形態素列変換装置
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
Thede et al. Analysis of unknown lexical items using morphological and syntactic information with the timit corpus
Afrin Extraction of basic noun phrases from natural language using statistical context-free grammar

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080403

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090403

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090403

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100403

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110403

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110403

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120403

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130403

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140403

Year of fee payment: 16

EXPY Cancellation because of completion of term