JPH07200591A - 構文解析装置 - Google Patents

構文解析装置

Info

Publication number
JPH07200591A
JPH07200591A JP5352369A JP35236993A JPH07200591A JP H07200591 A JPH07200591 A JP H07200591A JP 5352369 A JP5352369 A JP 5352369A JP 35236993 A JP35236993 A JP 35236993A JP H07200591 A JPH07200591 A JP H07200591A
Authority
JP
Japan
Prior art keywords
analysis
word
syntax
syntactic
parsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5352369A
Other languages
English (en)
Other versions
JP3476237B2 (ja
Inventor
Yuki Nagase
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP35236993A priority Critical patent/JP3476237B2/ja
Priority to US08/322,382 priority patent/US5687384A/en
Publication of JPH07200591A publication Critical patent/JPH07200591A/ja
Application granted granted Critical
Publication of JP3476237B2 publication Critical patent/JP3476237B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】効率よく、しかも的確な構文解析を行うことを
可能とする。 【構成】解析対象入力部1は、解析対象となる文または
句を指定入力する。辞書部2は、前記解析対象の属する
言語に関する辞書引きのための辞書データを保持する。
形態素解析部3は、前記解析対象について前記辞書引き
を行って単語の切れ目を認識する。文法規則部4は、一
般文脈自由文法の形式に則った構文解析のための文法規
則を保持する。統語解析部5は、該文法規則を適用して
統語解析を行う。解析テーブル部6は、統語解析部5に
よる解析の途中経過を所定の格納場所に格納するととも
に、前記解析の途中経過の格納場所および格納場所への
ポインタの少なくとも一方の入った解析テーブルを保持
する。解析テーブル部6の解析の途中経過の情報として
は、構文カテゴリの情報および構文的、意味的、制御的
なあらゆる属性の少なくとも一部の情報を付与する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳システム等に
好適な構文解析装置に係り、特に自然言語を文脈自由文
法の構文解析により並行的に統語解析する構文解析装置
に関する。
【0002】
【従来の技術】例えば、機械翻訳システムにおいては、
入力される文または句を的確に他の言語の文または句に
翻訳するため、入力される文または句の適切な構文解析
を行って、入力される文または句を正しく解析する必要
がある。このため、機械翻訳における構文解析は機械翻
訳自体の性能を決定する重大な要素となる。
【0003】文脈自由文法の構文解析は、(1) 後戻り型
構文解析、(2) 並行型構文解析、の2つに大きく分けら
れる。このうち、近年、主として性能面および応用面の
点から注目されているのが並行型構文解析である。
【0004】並行型構文解析としては、CYK(Cocke-
Younger-Kasami)法、チャート(chart parsing)法、
およびEarley法等が代表的な方法として知られて
いる。
【0005】CYK法は、2次元の統語解析表を備え、
統語解析表に部分的な解析結果、すなわち途中経過を書
き込みながら、後戻りせずに解析を進める効率のよい構
文解析法である。しかしながら、このCYK法では、解
析のための規則が文脈自由文法のうちのチョムスキー標
準形と呼ばれるクラス、つまり子カテゴリが1個または
2個のものに限られる。すなわち、 A→B A→B C などの規則はCYK法で扱うことができるが、 A→B C D A→B C D F などはCYK法では扱うことができない。
【0006】これに対し、チャート法は一般の子カテゴ
リがN個の文脈自由文法を扱うことのできる方法である
が、CYK法のように具体的な解析手法ではなく、統語
解析アリゴリズムのための枠組みを提案しているにすぎ
ない。したがって、チャート法を実際に構文解析装置等
にインプリメントする場合は、それぞれに効率的なアル
ゴリズムを工夫する必要があった。
【0007】また、並行型構文解析は、原文の曖昧性を
同時並列的に解析することができる優れた解析方式であ
り、通常、上述のように、解析の途中段階である部分木
の解析結果を格納しておく領域を備えている。部分木の
解析結果としては、最初に辞書引きの結果が格納され、
これをもとに文法の適用が繰り返される。
【0008】多品詞語は、品詞の数だけ単語が格納され
るのが普通であるが、同一品詞でもいくつかの意味を持
った語は正しく解析されないおそれがある。さらに、イ
ディオムの存在する場合や、長さの異なる複数の単語が
ヒットする場合などはうまく解析できないことがある。
【0009】
【発明が解決しようとする課題】上述したように、並行
型構文解析のうち、CYK法は、解析のための規則が、
文脈自由文法のうちの、子カテゴリが1個または2個の
いわゆるチョムスキー標準形クラスに限られるという欠
点があった。そして、チャート法は、具体的な解析手法
ではなく、統語解析アリゴリズムのための枠組みを提案
しているに過ぎないので、実際にシステム等にインプリ
メントする場合には、個々に効率的なアルゴリズムを工
夫する必要があった。
【0010】また、並行型構文解析では、解析の途中段
階である部分木の解析結果を格納するにあたり、多品詞
語は、品詞の数だけ単語が格納されるのが普通ではある
が、同一品詞でもいくつかの意味を持った語は正しく解
析されないおそれがあった。さらに、イディオムの存在
する場合や、長さの異なる複数の単語がヒットする場合
などもうまく解析できないことがあった。
【0011】本発明は、上述した事情に鑑みてなされた
もので、効率よく、しかも的確な構文解析を行うことを
可能とする構文解析装置を提供することを目的としてい
る。また本発明は、CYK法のような効率の良さを持ち
ながら、しかも、解析のための規則として一般の文脈自
由文法を扱うことを可能とする構文解析装置を提供する
ことを目的としている。
【0012】さらに本発明は、多義語を含む単語、イデ
ィオムの可能性のある単語、長さの違う複数単語をも同
時並行的に処理することを可能とし、自然言語の構文解
析精度を向上させ得る構文解析装置を提供することを目
的とする。
【0013】
【課題を解決するための手段】本発明は、前記目的を達
成するために、統語解析による解析の途中経過を所定の
格納場所に格納するとともに、この解析の途中経過の格
納場所および格納場所へのポインタの少なくとも一方の
入った解析テーブルを保持し、前記解析の途中経過の情
報として、構文カテゴリの情報および少なくとも1つの
構文解析属性の情報を付与することにより、効率的で且
つ高精度な構文解析装置とした。
【0014】図1は、本発明による構文解析装置の原理
構成を示している。図1に示す構文解析装置は、解析対
象入力部1、辞書部2、形態素解析部3、文法規則部
4、統語解析部5および解析テーブル部6を有してい
る。
【0015】解析対象入力部1は、解析対象となる文ま
たは句を指定入力する。辞書部2は、前記解析対象の属
する言語に関する辞書引きのための辞書データを保持す
る。
【0016】形態素解析部3は、前記解析対象について
前記辞書引きを行って単語の切れ目を認識する。文法規
則部4は、一般文脈自由文法の形式に則った構文解析の
ための文法規則を保持する。
【0017】統語解析部5は、該文法規則を適用して統
語解析を行う。解析テーブル部6は、統語解析部5によ
る解析の途中経過を所定の格納場所に格納するととも
に、前記解析の途中経過の格納場所および格納場所への
ポインタの少なくとも一方の入った解析テーブルを保持
する。
【0018】解析テーブル部6の解析の途中経過の情報
としては、構文カテゴリの情報および構文解析属性の情
報を付与する。構文解析属性としては、典型的には、構
文的、意味的、および制御的なあらゆる属性の少なくと
もいずれかを含む。
【0019】解析テーブル部6の解析の途中経過の情報
として、規則を全て満たした完全な部分木であるか、規
則の未充足の部分が残っている不完全な部分木であるか
の別を記述して格納してもよい。この場合、解析テーブ
ル部6は、解析テーブルとして、不完全な部分木のため
の活性弧テーブルと、完全な部分木のための不活性弧テ
ーブルとを含んでいてもよい。
【0020】解析テーブル部6は、解析テーブルとし
て、文法カテゴリをキーにした規則参照テーブルを含ん
でいてもよい。辞書引き後で且つ統語解析前に解析の精
度を向上させるための前処理を実行するための解析前処
理部7をさらに具備していてもよい。
【0021】解析前処理部7は、辞書引き結果である単
語群についてそれぞれ多義語を検索し、多義語が見つか
った場合、その一部または全てを予め前記解析テーブル
に加えるようにしてもよい。
【0022】解析前処理部7は、辞書引き結果である単
語群についてそれぞれイディオムの可能性を検索し、イ
ディオムの可能性が見つかった場合、イディオムの中心
単語と不変化語の部分とを前記解析テーブルに予め追加
するようにしてもよい。この場合、解析テーブルに追加
するイディオムの中心単語には、イディオムの文法的な
特徴を示す属性を付しておいてもよい。
【0023】解析前処理部7は、辞書引き結果である単
語が2ワード以上から構成される見出し語を持っている
とき、見出し語を区切った部分の単語を解析の対象にす
るように解析テーブルに追加するようにしてもよい。こ
の場合、見出し語を区切った部分の単語を解析テーブル
に追加するのは、最初に引かれた単語が所定の属性を持
っているときに限るようにしてもよい。
【0024】統語解析部5は、同一の部分文字列に対応
する複数の部分木候補に対し、所定の基準に従い評価し
て順位付けするようにしてもよい。解析テーブル部6
は、属性として、品詞別にカウントされた単語の出現頻
度に関する情報を付与し、且つ統語解析部5は、前記順
位付けのための評価の基準として、単語の出現頻度の高
いものを優先するようにしてもよい。
【0025】解析テーブル部6は、属性として、規則の
適用回数に関する情報を付与し、且つ統語解析部5は、
順位付けのための評価の基準として、前記規則の適用回
数の少ないものを優先するようにしてもよい。
【0026】解析テーブル部6は、属性として、修飾語
と被修飾語の距離の合計に関する情報を付与し、且つ統
語解析部5は、順位付けのための評価の基準として、前
記修飾語と被修飾語の距離の合計の低いものを優先する
ようにしてもよい。
【0027】解析テーブル部6は、属性として、適用規
則に予め付与された得点の合計に関する情報を付与し、
且つ統語解析部5は、順位付けのための評価の基準とし
て、前記適用規則に付与された得点の合計の高いものを
優先するようにしてもよい。
【0028】解析テーブル部6は、属性として、修飾語
と被修飾語の意味的な距離の評価値に関する情報を付与
し、且つ統語解析部5は、順位付けのための評価の基準
として、前記修飾語と被修飾語の意味的な距離の評価値
の高いものを優先するようにしてもよい。
【0029】統語解析部5は、同一の部分文字列に対応
する順位付けされた複数の解析木候補のうち、順位の低
い一部の解析木候補について以後の解析で利用できなく
するようにしてもよい。この場合、統語解析部5は、さ
らに、順位の低い一部解析木候補を解析で利用せずに解
析を行って全体の解析に失敗した場合、先に利用できな
いようにした一部解析木候補を利用して、前記失敗した
解析木を補いながら再解析するようにしてもよい。
【0030】
【作用】本発明による構文解析装置では、CYK法の効
率の良さを生かしながら解析のための規則として一般の
文脈自由文法が扱えるように拡張することができ、機械
翻訳などの文法記述を容易にし、且つ並行構文解析の実
行速度を向上させる。
【0031】また、統語解析の前に前処理手段を設け、
多義を含む単語、イディオムの可能性、長さの違う複数
単語をも同時並行的に処理することを可能とし、自然言
語の構文解析精度を向上させる。
【0032】解析の途中段階である部分木の解析結果を
解析テーブルを用いて格納していることに着目し、再解
析のときに以前の解析結果をそのまま利用することによ
り、高品質、高性能の構文解析を可能とする。これによ
り、探索の絞り込みを単語レベルのみならず規則適用の
全ての場面で全ての部分木に対して行うことができ、よ
り効率的な構文解析を行うことができる。
【0033】
【実施例】
《実施例1》次に、本発明に係る構文解析装置の具体的
な実施例を図面を参照して説明する。
【0034】図2は、本発明の第1の実施例に係る構文
解析装置の構成を示している。図2の構文解析装置は、
解析対象入力部11、辞書部12、形態素解析部13、
文法規則部14、テーブル参照/書込み部15、活性弧
テーブル部16および不活性弧テーブル部17を有して
いる。
【0035】解析対象入力部11は、解析対象となる文
または句を指定入力する。辞書部12は、前記解析対象
の属する言語に関する辞書引きのための辞書データを保
持する。
【0036】形態素解析部13は、前記解析対象につい
て前記辞書引きを行って単語の切れ目を認識する。文法
規則部14は、一般文脈自由文法の形式に則った構文解
析のための文法規則を保持する。
【0037】テーブル参照/書込み部15は、図1にお
ける統語解析部5に相当し、文法規則を適用して統語解
析を行うとともに、活性弧テーブル16および不活性弧
テーブル17の参照および書込みを行う。
【0038】活性弧テーブル部16および不活性弧テー
ブル部17は、図1における解析テーブル部6に相当
し、統語解析の途中経過をとして得られる活性弧および
不活性弧それぞれの格納場所または格納場所へのポイン
タを格納する活性弧テーブルおよび不活性弧テーブルを
保持する。
【0039】ここで、文法規則、辞書および入力文の内
容をそれぞれ次のようなものであるとする。 <文法規則> (1) S → NP VP (2) NP → DET N (3) NP → N (4) VP → V NP (5) VP → V NP NP (6) VP → V (7) NP → PRON <辞書> DET = the DET = a N = boy N = toy V = gives PRON = you <入力文> The boy gives you a toy. (ただし、S:文、N:名詞、V:動詞、NP:名詞
句、VP:動詞句、DET:決定詞、PRON:代名
詞) 解析対象の文が入力されると、形態素解析部13が辞書
部12の辞書データを使って原文の辞書引きをする。辞
書引きの結果は、次のようになる。 the DET boy N give V you PRON a DET toy N 形態素解析の結果は、各々の単語が品詞情報等の辞書中
の属性を持ったままテーブル参照/書き込み部15に渡
される。
【0040】テーブル書き込み部15が書き込むテーブ
ルには、不活性弧表と活性弧表がある。不活性弧表およ
び活性弧表は、それぞれ図3のような三角の形をした表
である。表の横方向(行方向)の数字は文内の単語の位
置を示し、縦方向(列方向)の数字は単語数を表す。
【0041】表中の、第i列、第j行の箱は、原文のi
番目の単語からjの長さの単語列に対応する。例えば
は、3番目の単語から長さ4単語の単語列、"gives you
a toy"に対応する。
【0042】ここでは、便宜上、チャート法で使われて
いる用語を使うことにする。不活性弧とは、文法規則を
完全に満足する原文中の単語列のことである。例え
ば、"the boy"と"gives you toy"は、それぞれ、規則
(2) NP→DET Nと規則(5) VP→V NP NP
を満足するので不活性弧を張る。
【0043】活性弧とは、文法規則の一部を満たしただ
けで、不活性弧になる途中段階ともいえる単語列であ
る。例えば、"gives you"は規則(5) の子カテゴリのう
ち2つ(V NP)まで満たしているが完全に満足する
には右側にさらにNPが必要であるので活性弧を張
る("gives you"は同時に規則(4) の不活性弧も張
る)。同様に、"the"も右からNをもらってNPになる
ので(規則(2))活性弧を張る。
【0044】本発明では、すべての部分単語列の活性弧
と不活性弧の情報を活性弧テーブルと不活性弧テーブル
に書き込みながら、ボトムアップに解析を進める。以下
に、実際に例文を解析する過程を説明する。
【0045】不活性弧テーブルと活性弧テーブルの第i
行、第j列の箱を、それぞれH(i,j)K(i,j)
と表すとする。テーブル書き込み部が形態素情報を受け
取ると。まず、不活性弧のH(i,1)辞書引き結果を
書き込む。
【0046】図4に1行目まで書き込まれた状態を示
す。不活性弧テーブルへの書き込みはCYK法のそれと
同じである。すなわち、チョムスキー標準形(右辺が1
つまたは2つのカテゴリ)の規則の条件を満たしたとき
は、それによって構成される構文木の情報を活性弧テー
ブル表に直接書き込む。CYK法に従って2行目まで不
活性弧を書き込んだ状態を図5に示す。
【0047】チョムスキー標準形でない規則(右辺が3
つ以上のカテゴリの規則)は、第1および第2のカテゴ
リの条件を満たす連続する単語列の組み合わせを不活性
弧テーブルから探して、途中経過を活性弧テーブルに書
き込む。活性弧テーブルの第i行目の書き込みは不活性
弧テーブルの第i行目の書き込みと同じタイミングで行
う。つまり、第i行目を書き込むときには、どちらのテ
ーブルもi−1行までの箱は完成していなければならな
い。
【0048】活性弧テーブルの第2行を書き込む場合を
考える。不活性弧テーブル表中の連続する2つの部分単
語列のうち、右辺が3つ以上のカテゴリの規則の第1お
よび第2のカテゴリを満足する組み合わせがないか探す
(この段階の不活性弧は1行しか完成していない)。す
ると、“VP→V NP NP”の条件を"give"(V)
+"you"(NP)が満たすので、これらを連結した文字
列(i=3,j=2)に対応する活性弧の箱に、残りの
カテゴリの条件(NP)と親カテゴリの文法情報を書き
込む。図5のVP[NP]は残りの項NPが満たされれ
ばVPが構成されることを意味している。
【0049】活性弧テーブルの第i行の情報は、テーブ
ルのi+1行以降を書き込む際に参照される。K(3,
2)のVP[NP]は第3行目以降の不活性弧を書き込
む際に、K(3,2)に隣接する単語列でNPのものが
不活性弧テーブルにないか探される。実際には4行目の
書き込みのときにH(5,2)="a toy"が見つかり、
条件のカテゴリを全て満足したので、K(3,2)とH
(5,2)が連結された単語列の情報として不活性弧テ
ーブルH(3,4)に記録される。
【0050】右辺が4カテゴリ以上からなる規則は、不
活性弧テーブルから3つ目のカテゴリの条件を満たす単
語列が見つかっても不活性弧テーブルに書き込むことは
できない。代わりに3つ目まで満たした単語列に対応す
る活性弧テーブルに書き込み、4つ目以降のカテゴリが
不活性弧より探されることになる。
【0051】上述の例文に対して活性弧表および不活性
弧表を最後まで書き込んだ結果は図6のようになる。テ
ーブル参照/書込み部15は図7〜図9のステップに従
って、活性弧表、不活性弧表に順次途中経過を書き込み
ながら解析を進める。ただし、この場合、入力文の長
さ、すなわち単語数をnとする。
【0052】上述のように、構文解析装置は、2つの2
次元テーブル(不活性弧、活性弧)を備えることから、
一般文脈自由文法の並行型構文解析を行う際に次のよう
な効果を得ることができる。
【0053】(a) 従来のCYK法では扱えなかった一般
文脈自由文法を解析することができる。これは、機械翻
訳などで文法記述をおこなう際、開発効率で大きな違い
となって現れる。
【0054】(b) 連続する2つの部分単語列に対し文法
規則の第1および第2番目のカテゴリの充足チェックを
同時に行うから、第1番目の子カテゴリだけが満たされ
た状態の活性弧を記録する必要がなく、検索効率を高め
メモリ領域を節減することができる。
【0055】なお、自然言語の統語解析において、適用
されるべき規則を効率良く検索するため、次のようにす
ることもできる。図10に示すような文法選択表を用意
する。
【0056】表の行と列は、文脈自由規則の子カテゴリ
(右辺)の、第1のカテゴリと第2のカテゴリにそれぞ
れ対応する。カテゴリには予め連続したコード番号を与
えておく、箱の中には、行、列に対応するカテゴリが第
1番目、第2番目の子カテゴリになっている文法(ある
いは文法へのポインタ)が格納されている。
【0057】例えば、図10に示すには第1のカテゴ
リが“V”で第2のカテゴリが無い規則、すなわち、 VP→V S→V などが格納される。図10のには、第1のカテゴリが
“VP”で第2のカテゴリが“NP”の規則、すなわ
ち、 VP→VP NP VP→VP NP NP などが格納される。
【0058】このようにして、文法カテゴリを予めコー
ド化しておけば、表は2次元配列として表現され、第1
および第2のカテゴリから直ちに文法規則を探し出すこ
とができる。
【0059】《実施例2》図11は、本発明の第2の実
施例に係る構文解析装置の構成を示している。図11に
おいて、図2と同様の部分には同符号を付して示してお
り、その詳細な説明は省略する。
【0060】図11の構文解析装置は、図2と全く同様
の解析対象入力部11、辞書部12および文法規則部1
4、ならびに実質的に図2の形態素解析部13、テーブ
ル参照/書込み部15、および活性弧、不活性弧テーブ
ル部16、17にほぼ対応して同様の機能を有する辞書
引き/語尾処理部21、統語解析部22、および解析テ
ーブル部23に加えて、解析前処理部24、多義語デー
タ部25、およびイディオムデータ部26を有してい
る。
【0061】解析前処理部24は、辞書引き後で且つ統
語解析前に解析の精度を向上させるための前処理を実行
する。多義語データ部25は、多義語データが格納され
ており、多義語の検索に用いられる。解析前処理部24
は、多義語が見つかった場合、その一部または全てを予
め解析テーブル部23の解析テーブルに加える。
【0062】イディオムデータ部26、イディオムデー
タが格納されており、イディオムの可能性の検索に用い
られる。解析前処理部24は、イディオムが見つかった
場合、イディオムの中心単語と不変化語の部分とを予め
解析テーブル部23の解析テーブルに加える。この場
合、解析テーブルに追加するイディオムの中心単語に
は、イディオムの文法的な特徴を示す属性を付しておい
てもよい。
【0063】ここでは、解析テーブルとして第1の実施
例の場合と同様のCYK法の表を使うことにする。解析
テーブルのそれぞれの箱の中には、対応する原文の部分
に関する解析結果へのポインタが入るものとする。第i
行、第j列には、原文のi番目からjの長さの部分単語
列に関する情報が格納される。
【0064】解析対象入力部11、辞書引き/語尾処理
部21を経ると、解析テーブルは図12のように解析テ
ーブルの第1行目だけが埋まっている状態になってい
る。第1行第i列には、i番目の入力単語に関する情報
へのポインタが格納されている。
【0065】解析前処理はこの状態に作用し、多義語、
イディオム、長さの違う単語などの曖昧さを表の中に展
開する。 〈多義語〉解析対象の文が辞書引きされた後で、文を構
成するそれぞれの単語について多義語データ部25の多
義語データを参照し、多義語候補が見つかれば解析表の
第1列に加える。この際、解析効率の観点から、候補と
する多義語とそうでない多義語を選別する処理を設け、
多義語の一部だけを候補とすることも可能である。ま
た、多義語情報は必ずしも独立したテーブルである必要
はなく、辞書部12の辞書エントリの一部として検索す
ることも考えられる。
【0066】ここでいう多義語には、品詞の違う単語は
もちろん、翻訳したときに異なった訳語を割り当てられ
る語まで含まれるが、多義語データの中に構文的な属性
を書き込んでおけば、統語解析過程で単語の意味選択ま
で処理することが可能になる。
【0067】この場合の多義語情報の追加処理は、図1
3に示すようにして行われる。次に、多義語データの一
例を示す。 表記 意味 属性 play 遊ぶ 自動詞 play 弾く 他動詞、目的語(楽器) play 演じる 他動詞、目的語(芝居/劇) … … … 〈イディオム〉解析対象の文が辞書引きされた後で、文
を構成するそれぞれの単語について、イディオムデータ
部26のイディオムデータを参照し、第I番目の語でイ
ディオム候補が見つかれば、中心単語の情報を解析表の
第1行、第i列に加える。不変化部分は対応する位置に
情報を書き込む。例えば、不変化語が第j語より始まる
2語のときは、第2行、第j列に不変化語の情報を書き
込む。
【0068】このとき中心語と不変化語には対応関係が
わかるように、ID情報を持たせておく。これによっ
て、「look up to」の中心語と「look up」の不変化語
が結びつくことが避けられる。
【0069】このような準備をしておくことにより、並
行型統語解析で、イディオムの解析を行うことが可能に
なる。文法規則としては例えば次のようにかけばよい。 動詞句 → 中心語+不変化語 イディオムの中心単語には、それぞれ構文属性を持たせ
るようにすると、イディオムの可能性が多数ある場合に
も適切なイディオムの選択ができる。例えば、 動詞句 → 中心語(自動詞的)+不変化語 動詞句 → 中心語(他動詞的)+不変化語+名詞句 のようにすれば、文型に即したイディオムの選択が可能
になる。
【0070】イディオムの選択にはイディオムを使わな
い解析の選択も含まれる。一般に不変化語は前置詞句と
しての可能性も持ち合わせるので、 前置詞句 → 前置詞+名詞 動詞句 → 動詞句+前置詞句 の規則での解析も当然候補の1つである。
【0071】イディオムデータは必ずしも独立したテー
ブルである必要はなく、多義語と同様に、辞書部12の
辞書エントリの一部として検索することも考えられる。
図14にイディオムの前処理後の解析テーブルの一例を
示す。イディオムの可能性追加の処理は図15に示すよ
うにして行われる。
【0072】次に、イディオムデータの一例を示す。 中心語表記 不変化語句 意味 属性 look about 見渡す 主語(生物) look after 世話をする 目的語必要 目的語(生物) 主語(生物) look into 調べる 目的語必要 主語(生物) look up 見上げる 目的語必要 目的語(人) look up to 尊敬する 目的語必要 目的語(人) 主語(人) … … … … 〈長さの違う単語〉ある文を解析するために2単語以上
を辞書の1エントリにすることがある。しかし、その単
語によって、それまで正しく解析できていた文が解析で
きなくなることがある。
【0073】例えば、 I don't know him at all. を解析するためにには、"at all" (全然)という単語
が必要である。
【0074】一方で、 The temperature is constant at all heights. 等の文では、"at all"が登録されているとうまく解析で
きない。
【0075】そこで、2単語以上からなる辞書エントリ
はその構成要素としての単語も解析表に加える処理を、
並列型統語解析の前処理として行う。原文の単語を左か
ら順に見ていき、2語以上からなる辞書エントリが使わ
れていたら、構成要素のそれぞれが辞書引きできる場合
に限り構成要素も解析テーブルに加える。"at all"であ
れば"at"、"all"とも辞書に存在するので、解析表は図
16のようになる。このとき、"at all"の情報は2行目
に格納される。
【0076】ただし、専門用語や著しく慣用的な表現の
エントリの中には展開しても無駄なものも含まれるの
で、元の単語に展開するべきかしないべきかを示す何ら
かの属性を入れておき、2語以上からなる辞書エントリ
の一部だけを展開する処理も有効である。
【0077】長さの違う単語情報の追加処理は、図17
に示すようにして行われる。このように、解析過程を記
録しながら進める並列型構文解析装置において、統語解
析の文法規則を適用する前に、辞書データ、多義語デー
タ、およびイディオムデータ等を参照して、多義語、イ
ディオムおよび長さの異なる単語の可能性を解析テーブ
ルに予め格納することにより、これらの解析を統語解析
の中で行うことが可能になる。
【0078】このようにすることによって、多義語の選
択、イディオムの解析、および単語の選択の精度が向上
し、機械翻訳をはじめ様々な自然言語システムの質を高
めることができる。
【0079】《実施例3》図18は、本発明の第3の実
施例に係る構文解析装置の構成を示している。図18に
おいて、図11と同様の部分には同符号を付して示して
おり、その詳細な説明は省略する。
【0080】図18の構文解析装置は、図11と同様の
解析対象入力部11、辞書部12、文法規則部14、辞
書引き/語尾処理部21、および解析テーブル部23、
および解析前処理部24を有している。この場合、統語
解析部31のみが図11の場合と異なっている。
【0081】統語解析部31は、図11の統語解析部2
2に加えて、一部の解析候補を頻度等により除外し、必
要に応じて除外した解析候補を再利用する処理を行う。
この実施例においても、解析テーブルとしてCYK法の
表を使うことにする。解析テーブルのそれぞれの箱の中
には、対応する原文の部分に関する解析結果へのポイン
タが入るものとする。第i行、第j列には、原文のi番
目からjの長さの部分単語列に関する情報が格納され
る。
【0082】"The can press machine"という文を例と
して、解析する過程を説明する。解析対象入力部11、
辞書引き/語尾処理部21を経ると、解析テーブル部2
3の解析テーブルは、図19のように解析テーブルの第
1行目だけが埋まっている状態になっている。第1行目
第i列には、i番目の入力単語に関する情報へのポイン
タが格納されている。この状態において、逐次、文法規
則を適用する。文法規則の例として次のものを使用す
る。
【0083】 (1) 文 →名詞句+動詞句 the(冠詞) (2) 名詞句→名詞 can(助動詞、*名
詞) (3) 名詞句→名詞 +名詞句 press(名詞、動詞) (4) 名詞句→冠詞 +名詞 machine(名詞) (5) 動詞句→動詞 (6) 動詞句→動詞 +名詞 (7) 動詞句→助動詞+動詞句 ここで、品詞の頻度が低いものを除外して最初の解析を
する。この例では、「*」を付した"can"(名詞)の頻
度が低いものとする。
【0084】まず、文法を適用して2列目を埋めてい
く。"can"と"press"は規則(7) によって動詞句に、"pre
ss"および"machine"は規則(3) および規則(6) によって
それぞれ名詞句および動詞句になる。
【0085】次に、3列目を埋める。"can"と"press ma
chine"が規則(7) によって動詞句になる。最後に4列目
であるが、冠詞と動詞句とをつなぐ規則がないので4列
目を埋めることができない。つまり、このような場合は
解析失敗である。
【0086】この状態を図20に示す。解析に失敗する
と、頻度が低い単語として除外されていた候補を入力に
加えて再解析する。再解析は、以前の解析結果を保存し
たままであり、以前の解析の同じ処理を繰り返すことな
く除外されていた単語に関係する部分を追加するように
する。
【0087】"can"(名詞)からは、規則(3) によっ
て、"can press"で名詞句が、さらに規則(3) によって"
can press machine"で名詞句が構成される。このように
すると、"the"と"can press machine"は規則(4) によっ
て名詞句となり、解析成功となる。
【0088】次に、解析候補に順位付けを行う方法につ
いて、"I like flowers like rose."を例文として、次
のような文法および辞書を使って説明する。
【0089】 (1) 文 →名詞句+動詞句 I(代名詞) (2) 文 →代名詞+動詞句 like(動詞、前置
詞) (3) 名詞句 →名詞 flowers(名詞、
動詞) (4) 名詞句 →名詞 +前置詞句 like(動詞、前置
詞) (5) 名詞句 →冠詞 +名詞 rose(名詞) (6) 動詞句 →動詞 (7) 動詞句 →動詞 +名詞 (8) 動詞句 →動詞 +前置詞句 (9) 前置詞句→前置詞+名詞 同一文字列に一定の個数以上の候補が存在する場合にこ
れらに順位付けを行い、順位が一定の値以下の候補を以
後の解析対象としないことによって解析の効率化を図る
方法について説明する。ここでは、簡単化のために一定
の値を1にする。すなわち候補が2個以上できた文字列
はその後の解析を最上位に評価された1個のみにする。
【0090】解析の進み方は前項の説明と同じであ
る。"like"+"flowers"が規則(7) および規則(9) によ
って動詞句および前置詞句になる。"like flowers"の2
つの候補を評価した結果、動詞句が前置詞句よりも上位
になったと仮定すると、以後の解析には動詞句のみが適
用対象になる。"like"+"rose"についても同様である。
すると、解析は図22の状態でストップし、解析失敗と
なる。
【0091】解析が失敗になったので、規則の適用を中
止していた候補について制限を外し、再解析する。ここ
で1回目の解析で作った解析表の内容はクリアしないで
そのまま2回目の解析に利用する。すなわち、2回目以
降の解析は制限が外れた候補に関係するところを追加す
る。
【0092】この結果、図23のようにして解析が成功
する。ここでは、説明のために同一文字に対応する候補
を1つに絞ったが、数個の候補にすることもできる。ま
た、制限を同一品詞内だけにすることも考えられる。ま
た、候補を3つ以上のグループに分けて、3回以上の解
析を試みるシステムも可能である。このように、解析過
程を記録しながら進める並列型構文解析装置において、
同一単語列で解析候補が多数存在する場合に、可能性が
低い一部の候補について文法適用を制限することによっ
て解析の精度向上と効率化を図ることができる。
【0093】単に品詞を絞り込んで性能を上げることは
従来から知られているが、本実施例では、解析を0から
やり直すのではなく、並列型解析の特徴を生かして以前
の解析結果に順次追加する方法なので、解析効率がよ
い。
【0094】また、この場合、品詞の絞り込みだけでは
なく、あらゆる範囲の部分文字列の候補について絞り込
みができるためさらに効率の良い解析が可能となる。一
般に、子カテゴリの数が多い規則は特殊な構文パターン
を記述している場合が多い。子カテゴリの数が多い規則
を適用すると、規則の適用回数が少なくなる。そこで、
限定的な規則を用いた部分木を優先するために、規則の
適用回数が少ない部分木を優先するようにすることもで
きる。
【0095】この場合、第1の実施例の文法に NP→NP NP を加えたものを文法として使用する。
【0096】解析テーブルは、対応する文字列で構成さ
れる部分木への、ポインタが格納されており、部分木が
複数存在するときは図のように次々とポインタで繋がれ
ているとする。
【0097】図24は、部分木の情報として、カテゴリ
と子カテゴリの部分木へのポインタ、および文法適用回
数を持たせたときの、情報の参照関係を示したものであ
る。部分木には、他にも文法的、意味的、制御的な属性
を持たせることができる。
【0098】図24では文全体の木が2通りできるが、
規則適用回数はAが3回、Bが4回なので、Aの方がB
より優先順位が高いとする。また、一般に前置詞や副詞
句などは、遠くのものよりも近くの句に係る傾向があ
る。そこで部分木の属性として、修飾語と被修飾語の距
離の合計を持たせ、係り距離の合計が小さいものを優先
するようにしてもよい。
【0099】具体例は、図24の場合と同様だが、部分
木の情報として図25に示すような係りの距離を持たせ
る。係り距離の計算は、文法が適用され親カテゴリが生
成されるときに行われる。
【0100】係り距離の計算は、子カテガゴリの係り距
離の総和に子カテゴリ同士の修飾語と被修飾語の距離を
足した数である。図26の例は、係り距離の合計はAが
6、Bが8なので、距離の短いAが優先される。
【0101】さらに、文法規則の中には、普通の文法に
則った積極的に適用して欲しい規則と、非文に近い表現
のために加えた規則などできるだけ適用を避けたい規則
が混在している。そこで、文法規則1つ1つに点数を付
加できることとし、部分木の属性として、適用した規則
の点数の合計を持たせるようにすることができる。
【0102】図27は、このような場合の一例を示して
おり、第1の実施例の文法規則における S→NP VP に代えて次の2つの規則を用いた規則で解析した例であ
る。
【0103】 1:S→NP(三人称・単数・現在) VP(s付き) −1:S→NP(二人称) VP(s付
き) 親カテゴリの前に付された数字は、文法につけられた点
数である。点数が高い文法規則を適用した部分木ほど優
先的に扱われる。
【0104】この場合、文法点としては、積極的に適用
して欲しい文法にはプラス点を与え、できれば適用して
ほしくない文法にはマイナス点を与えている。すなわ
ち、この例は、おおむね図24の場合と同様だが、部分
木の情報として文法点を持たせている。文法点の計算
は、文法が適用され親カテゴリが生成されるときに行わ
れる。
【0105】Aは主語が動詞句に係るときに点数が+1
の文法を適用した例、Bは−1の文法を適用した例であ
る。親カテゴリの文法点は子カテゴリの文法点の総和に
適用している規則の文法点を加えたものである。
【0106】例えば、A、Bを作るための他の文法が全
て0点だとすると、Aの部分木の点数には+1、Bには
−1が入り、点数の高いAが優先される。また、図28
に示すように、部分木の情報として意味点を持たせるよ
うにしてもよい。この意味点は、文法が適用され親カテ
ゴリが生成されるときに親カテゴリに付与される。
【0107】親カテゴリの意味点は子カテゴリの意味点
の総和に子カテゴリの間で修飾がおこるときに得られる
点数を加えたものである。修飾がおこる時の点数は、 前置詞 被修飾側属性 修飾側属性 点数 WITH 動作動詞 道具 2 WITH 動作動詞 人間 3 TO 移動動詞 場所 2 … … … … のようなテーブルを参照して獲得する。例えば、動作動
詞が道具に修飾されたケースでは2点が与えられる。
【0108】このようにして、修飾関係に意味点を与え
ても解析の精度および効率を向上させることができる。
【0109】
【発明の効果】以上説明したように、本発明によれば、
解析の途中経過の情報として、構文カテゴリの情報およ
び構文的、意味的、制御的なあらゆる属性の少なくとも
一部の情報を付与することにより、効率よく、しかも的
確な構文解析を行うことの可能な構文解析装置を提供す
ることができる。
【0110】また、本発明によれば、CYK法のような
効率の良さを持ちながら、しかも、解析のための規則と
して一般の文脈自由文法を扱うことを可能とする構文解
析装置を提供することができる。
【0111】さらに、本発明によれば、統語解析の前に
前処理手段を設けて、多義を含む単語、イディオムの可
能性、長さの違う複数単語をも同時並行的に処理するこ
とを可能として自然言語の構文解析精度を向上させ得る
構文解析装置を提供することができる。
【0112】また、本発明によれば、解析の途中段階で
ある部分木の解析結果を解析テーブルを用いて格納して
いることに着目し、再解析のときに以前の解析結果をそ
のまま利用することにより、高品質、高性能の構文解析
を可能とする。これにより、探索の絞り込みを単語レベ
ルのみならず規則適用の全ての場面で全ての部分木に対
して行うことができ、より効率的な構文解析を行うこと
ができる構文解析装置を提供することができる。
【図面の簡単な説明】
【図1】本発明に係る構文解析装置の構成を示す原理図
である。
【図2】本発明の第1の実施例に係る構文解析装置の構
成を示すブロック図である。
【図3】図2に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルのフォーマッ
トを示す模式図である。
【図4】図2に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルの1行目まで
書き込まれた状態を示す模式図である。
【図5】図2に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルの2行目まで
書き込まれた状態を示す模式図である。
【図6】図2に示す構文解析装置の動作を説明するため
の不活性弧テーブルおよび活性弧テーブルの最後まで書
き込まれた状態を示す模式図である。
【図7】図2に示す構文解析装置の動作を説明するため
のフローチャートの最初の部分である。
【図8】図2に示す構文解析装置の動作を説明するため
のフローチャートの中間の部分である。
【図9】図2に示す構文解析装置の動作を説明するため
のフローチャートの最後の部分である。
【図10】図2に示す構文解析装置の動作を説明するた
めの文法選択表を示す模式図である。
【図11】本発明の第2の実施例に係る構文解析装置の
構成を示すブロック図である。
【図12】図11に示す構文解析装置の解析テーブルを
説明するための模式図である。
【図13】図11に示す構文解析装置の多義語情報追加
の動作を説明するためのフローチャートである。
【図14】図11に示す構文解析装置のイディオムの前
処理後の解析テーブルを説明するための模式図である。
【図15】図11に示す構文解析装置のイディオムの可
能性情報追加の動作を説明するためのフローチャートで
ある。
【図16】図11に示す構文解析装置の長さの異なる単
語の前処理の結果を示す解析テーブルを説明するための
模式図である。
【図17】図11に示す構文解析装置の長さの異なる単
語情報追加の動作を説明するためのフローチャートであ
る。
【図18】本発明の第3の実施例に係る構文解析装置の
構成を示すブロック図である。
【図19】図18に示す構文解析装置の頻度の低い解析
候補の処理における解析テーブルを説明するための模式
図である。
【図20】図18に示す構文解析装置の頻度の低い解析
候補の処理における解析失敗時の解析テーブルを説明す
るための模式図である。
【図21】図18に示す構文解析装置の頻度の低い解析
候補の処理における解析成功時の解析テーブルを説明す
るための模式図である。
【図22】図18に示す構文解析装置の順位付け処理に
おける解析失敗時の解析テーブルを説明するための模式
図である。
【図23】図18に示す構文解析装置の順位付け処理に
おける解析成功時の解析テーブルを説明するための模式
図である。
【図24】図18に示す構文解析装置の文法適用回数処
理を説明するための模式図である。
【図25】図18に示す構文解析装置の係り距離処理を
説明するための模式図である。
【図26】図18に示す構文解析装置の係り距離処理を
説明するための模式図である。
【図27】図18に示す構文解析装置の文法点処理を説
明するための模式図である。
【図28】図18に示す構文解析装置の意味点処理を説
明するための模式図である。
【符号の説明】
1,11…解析対象入力部 2,12…辞書部 3,13…形態素解析部 4,14…文法規則部 5,22,31…統語解析部 6,23…解析テーブル部 7,24…解析前処理部 15…テーブル参照/書込み部 16…活性弧テーブル部 17…不活性弧テーブル部 21…辞書引き/語尾処理部 25…多義語データ部 26…イディオムデータ部

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 自然言語を並行的に統語解析する構文解
    析装置において、 解析対象となる文および句のいずれか一方を指定するた
    めの入力手段(1)と、 前記解析対象の属する言語に関する辞書引きのための辞
    書データを保持するための辞書手段(2)と、 前記解析対象について前記辞書引きを行って単語の切れ
    目を認識する形態素解析手段(3)と、 一般文脈自由文法の形式に則った構文解析のための文法
    規則を保持し、該文法規則を適用して統語解析を行うた
    めの統語解析手段(5)と、 この統語解析手段(5)による解析の途中経過を所定の
    格納場所に格納するための途中経過格納手段(6)と、 途中経過格納手段(6)による解析の途中経過の格納場
    所および格納場所へのポインタの少なくとも一方の入っ
    た解析テーブルを保持するためのテーブル保持手段
    (6)とを備え、 前記解析の途中経過の情報として、構文カテゴリの情報
    および構文解析属性の情報を付与することを特徴とする
    構文解析装置。
  2. 【請求項2】 請求項1記載の構文解析装置において、
    構文解析属性は、構文的、意味的および制御的属性の少
    なくともいずれかの属性を含むことを特徴とする構文解
    析装置。
  3. 【請求項3】 請求項1記載の構文解析装置において、
    途中経過格納手段(6)は、解析の途中経過の情報とし
    て、規則を全て満たした完全な部分木であるか、規則の
    未充足の部分が残っている不完全な部分木であるかの別
    を記述して格納するための手段であることを特徴とする
    構文解析装置。
  4. 【請求項4】 請求項3記載の構文解析装置において、
    テーブル保持手段(6)は、解析の途中経過の情報への
    アクセスのための解析テーブルとして、不完全な部分木
    のための活性弧テーブルと、完全な部分木のための不活
    性弧テーブルとを含む手段であることを特徴とする構文
    解析装置。
  5. 【請求項5】 請求項1記載の構文解析装置において、
    テーブル保持手段(6)は、解析テーブルとして、文法
    カテゴリをキーにした規則参照テーブルを含む手段であ
    ることを特徴とする構文解析装置。
  6. 【請求項6】 請求項1記載の構文解析装置において、
    辞書引き後で且つ統語解析前に解析の精度を向上させる
    ための前処理を実行するための解析前処理手段(7)を
    さらに具備することを特徴とする構文解析装置。
  7. 【請求項7】 請求項6記載の構文解析装置において、
    解析前処理手段(7)は、辞書引き結果である単語群に
    ついてそれぞれ多義語を検索し、多義語が見つかった場
    合、その一部または全てを予め解析テーブルに加えるた
    めの多義語処理手段を含むことを特徴とする構文解析装
    置。
  8. 【請求項8】 請求項6記載の構文解析装置において、
    解析前処理手段(7)は、辞書引き結果である単語群に
    ついてそれぞれイディオムの可能性を検索し、イディオ
    ムの可能性が見つかった場合、イディオムの中心単語と
    不変化語の部分とを解析テーブルに予め追加するための
    イディオム処理手段を含むことを特徴とする構文解析装
    置。
  9. 【請求項9】 請求項8記載の構文解析装置において、
    イディオム処理手段は、解析テーブルに追加するイディ
    オムの中心単語には、イディオムの文法的な特徴を示す
    属性を付しておく手段を含むことを特徴とする構文解析
    装置。
  10. 【請求項10】 請求項6記載の構文解析装置におい
    て、解析前処理手段(7)は、辞書引き結果である単語
    が2ワード以上から構成される見出し語を持っていると
    き、見出し語を区切った部分の単語を解析の対象にする
    ように解析テーブルに追加する部分単語処理手段を含む
    ことを特徴とする構文解析装置。
  11. 【請求項11】 請求項10記載の構文解析装置におい
    て、部分単語処理手段は、見出し語を区切った部分の単
    語を解析テーブルに追加するのは、最初に引かれた単語
    が所定の属性を持っているときに限る手段を含むことを
    特徴とする構文解析装置。
  12. 【請求項12】 請求項1記載の構文解析装置におい
    て、統語解析手段(5)は、同一の部分文字列に対応す
    る複数の部分木候補に対し、所定の基準に従い評価して
    順位付けするための評価手段を備えることを特徴とする
    構文解析装置。
  13. 【請求項13】 請求項12記載の構文解析装置におい
    て、途中経過格納手段(6)は、属性として、品詞別に
    カウントされた単語の出現頻度に関する情報を付与する
    手段を含み、且つ評価手段は、順位付けのための評価の
    基準として、単語の出現頻度の高いものを優先する手段
    を含むことを特徴とする構文解析装置。
  14. 【請求項14】 請求項12記載の構文解析装置におい
    て、途中経過格納手段(6)は、属性として、規則の適
    用回数に関する情報を付与する手段を含み、且つ評価手
    段は、順位付けのための評価の基準として、前記規則の
    適用回数の少ないものを優先する手段を含むことを特徴
    とする構文解析装置。
  15. 【請求項15】 請求項12記載の構文解析装置におい
    て、途中経過格納手段(6)は、属性として、修飾語と
    被修飾語の距離の合計に関する情報を付与する手段を含
    み、且つ評価手段は、順位付けのための評価の基準とし
    て、前記修飾語と被修飾語の距離の合計の低いものを優
    先する手段を含むことを特徴とする構文解析装置。
  16. 【請求項16】 請求項12記載の構文解析装置におい
    て、途中経過格納手段(6)は、属性として、適用規則
    に予め付与された得点の合計に関する情報を付与する手
    段を含み、且つ評価手段は、順位付けのための評価の基
    準として、前記適用規則に付与された得点の合計の高い
    ものを優先する手段を含むことを特徴とする構文解析装
    置。
  17. 【請求項17】 請求項12記載の構文解析装置におい
    て、途中経過格納手段(6)は、属性として、修飾語と
    被修飾語の意味的な距離の評価値に関する情報を付与す
    る手段を含み、且つ評価手段は、順位付けのための評価
    の基準として、前記修飾語と被修飾語の意味的な距離の
    評価値の高いものを優先する手段を含むことを特徴とす
    る構文解析装置。
  18. 【請求項18】 請求項12記載の構文解析装置におい
    て、評価手段は、同一の部分文字列に対応する順位付け
    された複数の解析木候補のうち、順位の低い一部の解析
    木候補について以後の解析で利用できなくするための手
    段を含むことを特徴とする構文解析装置。
  19. 【請求項19】 請求項18記載の構文解析装置におい
    て、評価手段は、順位の低い一部解析木候補を解析で利
    用せずに解析を行って全体の解析に失敗した場合、先に
    利用できないようにした一部解析木候補を利用して、前
    記失敗した解析木を補いながら再解析する手段を含むこ
    とを特徴とする構文解析装置。
JP35236993A 1993-12-28 1993-12-28 構文解析装置 Expired - Fee Related JP3476237B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP35236993A JP3476237B2 (ja) 1993-12-28 1993-12-28 構文解析装置
US08/322,382 US5687384A (en) 1993-12-28 1994-10-12 Parsing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35236993A JP3476237B2 (ja) 1993-12-28 1993-12-28 構文解析装置

Publications (2)

Publication Number Publication Date
JPH07200591A true JPH07200591A (ja) 1995-08-04
JP3476237B2 JP3476237B2 (ja) 2003-12-10

Family

ID=18423596

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35236993A Expired - Fee Related JP3476237B2 (ja) 1993-12-28 1993-12-28 構文解析装置

Country Status (2)

Country Link
US (1) US5687384A (ja)
JP (1) JP3476237B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
CN102845075A (zh) * 2010-10-14 2012-12-26 Jvc建伍株式会社 节目检索装置及节目检索方法
US11501077B2 (en) * 2018-09-26 2022-11-15 Asustek Computer Inc. Semantic processing method, electronic device, and non-transitory computer readable recording medium

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US5926784A (en) * 1997-07-17 1999-07-20 Microsoft Corporation Method and system for natural language parsing using podding
US6181909B1 (en) * 1997-07-22 2001-01-30 Educational Testing Service System and method for computer-based automatic essay scoring
US7072826B1 (en) * 1998-06-04 2006-07-04 Matsushita Electric Industrial Co., Ltd. Language conversion rule preparing device, language conversion device and program recording medium
AU2440100A (en) 1999-03-19 2000-10-09 Trados Gmbh Workflow management system
US6327561B1 (en) * 1999-07-07 2001-12-04 International Business Machines Corp. Customized tokenization of domain specific text via rules corresponding to a speech recognition vocabulary
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US6762699B1 (en) 1999-12-17 2004-07-13 The Directv Group, Inc. Method for lossless data compression using greedy sequential grammar transform and sequential encoding
US7099855B1 (en) 2000-01-13 2006-08-29 International Business Machines Corporation System and method for electronic communication management
US6999917B1 (en) * 2000-02-22 2006-02-14 Microsoft Corporation Left-corner chart parsing system
WO2001065416A2 (en) * 2000-02-28 2001-09-07 Vality Technology Incorporated Probabilistic matching engine
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
AU2001250050A1 (en) * 2000-03-24 2001-10-08 Eliza Corporation Remote server object architecture for speech recognition
US7370086B2 (en) * 2000-03-24 2008-05-06 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US6704728B1 (en) 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
WO2001098942A2 (en) * 2000-06-19 2001-12-27 Lernout & Hauspie Speech Products N.V. Package driven parsing using structure function grammar
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
AU2002224343A1 (en) * 2000-10-02 2002-04-15 Vialanguage, Inc. Machine editing system incorporating dynamic rules database
US7027974B1 (en) 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
JP2002236681A (ja) * 2001-02-09 2002-08-23 Inst Of Physical & Chemical Res 日常言語コンピューティングシステムおよびその方法
US6813616B2 (en) 2001-03-07 2004-11-02 International Business Machines Corporation System and method for building a semantic network capable of identifying word patterns in text
US7426505B2 (en) * 2001-03-07 2008-09-16 International Business Machines Corporation Method for identifying word patterns in text
US6988063B2 (en) * 2002-02-12 2006-01-17 Sunflare Co., Ltd. System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
US7013262B2 (en) * 2002-02-12 2006-03-14 Sunflare Co., Ltd System and method for accurate grammar analysis using a learners' model and part-of-speech tagged (POST) parser
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US7389230B1 (en) 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US8495002B2 (en) 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
WO2005033909A2 (en) * 2003-10-08 2005-04-14 Any Language Communications Inc. Relationship analysis system and method for semantic disambiguation of natural language
US20050091036A1 (en) * 2003-10-23 2005-04-28 Hazel Shackleton Method and apparatus for a hierarchical object model-based constrained language interpreter-parser
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
ATE470218T1 (de) * 2004-10-05 2010-06-15 Inago Corp System und verfahren zur verbesserung der genauigkeit der spracherkennung
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US7818333B2 (en) 2006-12-28 2010-10-19 Pitney Bowes Software Inc. Universal address parsing system and method
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US8762969B2 (en) * 2008-08-07 2014-06-24 Microsoft Corporation Immutable parsing
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
US8533214B2 (en) * 2010-06-15 2013-09-10 Verizon Patent And Licensing Inc. System and method for assessing quality of address information for physical locations
US20130144609A1 (en) * 2010-08-19 2013-06-06 Nec Corporation Text processing system, text processing method, and text processing program
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
GB2497793A (en) * 2011-12-21 2013-06-26 Ninian Solutions Ltd Pre-emptive caching of potentially relevant content from a collaborative workspace at a client device
US9472189B2 (en) * 2012-11-02 2016-10-18 Sony Corporation Language processing method and integrated circuit
US9594745B2 (en) * 2013-03-01 2017-03-14 The Software Shop, Inc. Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using general composition
US10592980B1 (en) 2013-03-15 2020-03-17 Intuit Inc. Systems methods and computer program products for identifying financial accounts utilized for business purposes
US9372846B1 (en) * 2013-11-20 2016-06-21 Dmitry Potapov Method for abstract syntax tree building for large-scale data analysis
JP6784084B2 (ja) * 2016-07-27 2020-11-11 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2814634B2 (ja) * 1989-12-29 1998-10-27 松下電器産業株式会社 機械翻訳装置
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5442780A (en) * 1991-07-11 1995-08-15 Mitsubishi Denki Kabushiki Kaisha Natural language database retrieval system using virtual tables to convert parsed input phrases into retrieval keys
US5511213A (en) * 1992-05-08 1996-04-23 Correa; Nelson Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
JP5418596B2 (ja) * 2009-07-17 2014-02-19 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium
CN102845075A (zh) * 2010-10-14 2012-12-26 Jvc建伍株式会社 节目检索装置及节目检索方法
US11501077B2 (en) * 2018-09-26 2022-11-15 Asustek Computer Inc. Semantic processing method, electronic device, and non-transitory computer readable recording medium

Also Published As

Publication number Publication date
US5687384A (en) 1997-11-11
JP3476237B2 (ja) 2003-12-10

Similar Documents

Publication Publication Date Title
JP3476237B2 (ja) 構文解析装置
US5528491A (en) Apparatus and method for automated natural language translation
US6760695B1 (en) Automated natural language processing
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
Bouma et al. Alpino: Wide-coverage computational analysis of Dutch
JP3189186B2 (ja) パターンに基づく翻訳装置
US7243305B2 (en) Spelling and grammar checking system
JP2855409B2 (ja) 自然言語処理方法及びシステム
US5729659A (en) Method and apparatus for controlling a digital computer using oral input
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US7184950B2 (en) Method and apparatus for improved grammar checking using a stochastic parser
JP3196868B2 (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JPH0756933A (ja) 文書検索方法
KR20040111715A (ko) 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법
JPH1074203A (ja) 大文字及び非強調テキストの語彙処理の方法及びシステム
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
WO1997040453A1 (en) Automated natural language processing
Srinivas et al. An approach to robust partial parsing and evaluation metrics
JP2593065B2 (ja) 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
Litkowski Question Answering Using XML-Tagged Documents.
KR100327114B1 (ko) 문장골격을 기반으로 한 자동번역 시스템 및 그 방법
JP2632806B2 (ja) 言語解析装置
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Nasr et al. Nonlexical chart parsing for TAG

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030107

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030909

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080926

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090926

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100926

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees