JPH07200591A - 構文解析装置 - Google Patents
構文解析装置Info
- Publication number
- JPH07200591A JPH07200591A JP5352369A JP35236993A JPH07200591A JP H07200591 A JPH07200591 A JP H07200591A JP 5352369 A JP5352369 A JP 5352369A JP 35236993 A JP35236993 A JP 35236993A JP H07200591 A JPH07200591 A JP H07200591A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- word
- syntax
- syntactic
- parsing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
可能とする。 【構成】解析対象入力部1は、解析対象となる文または
句を指定入力する。辞書部2は、前記解析対象の属する
言語に関する辞書引きのための辞書データを保持する。
形態素解析部3は、前記解析対象について前記辞書引き
を行って単語の切れ目を認識する。文法規則部4は、一
般文脈自由文法の形式に則った構文解析のための文法規
則を保持する。統語解析部5は、該文法規則を適用して
統語解析を行う。解析テーブル部6は、統語解析部5に
よる解析の途中経過を所定の格納場所に格納するととも
に、前記解析の途中経過の格納場所および格納場所への
ポインタの少なくとも一方の入った解析テーブルを保持
する。解析テーブル部6の解析の途中経過の情報として
は、構文カテゴリの情報および構文的、意味的、制御的
なあらゆる属性の少なくとも一部の情報を付与する。
Description
好適な構文解析装置に係り、特に自然言語を文脈自由文
法の構文解析により並行的に統語解析する構文解析装置
に関する。
入力される文または句を的確に他の言語の文または句に
翻訳するため、入力される文または句の適切な構文解析
を行って、入力される文または句を正しく解析する必要
がある。このため、機械翻訳における構文解析は機械翻
訳自体の性能を決定する重大な要素となる。
構文解析、(2) 並行型構文解析、の2つに大きく分けら
れる。このうち、近年、主として性能面および応用面の
点から注目されているのが並行型構文解析である。
Younger-Kasami)法、チャート(chart parsing)法、
およびEarley法等が代表的な方法として知られて
いる。
統語解析表に部分的な解析結果、すなわち途中経過を書
き込みながら、後戻りせずに解析を進める効率のよい構
文解析法である。しかしながら、このCYK法では、解
析のための規則が文脈自由文法のうちのチョムスキー標
準形と呼ばれるクラス、つまり子カテゴリが1個または
2個のものに限られる。すなわち、 A→B A→B C などの規則はCYK法で扱うことができるが、 A→B C D A→B C D F などはCYK法では扱うことができない。
リがN個の文脈自由文法を扱うことのできる方法である
が、CYK法のように具体的な解析手法ではなく、統語
解析アリゴリズムのための枠組みを提案しているにすぎ
ない。したがって、チャート法を実際に構文解析装置等
にインプリメントする場合は、それぞれに効率的なアル
ゴリズムを工夫する必要があった。
同時並列的に解析することができる優れた解析方式であ
り、通常、上述のように、解析の途中段階である部分木
の解析結果を格納しておく領域を備えている。部分木の
解析結果としては、最初に辞書引きの結果が格納され、
これをもとに文法の適用が繰り返される。
るのが普通であるが、同一品詞でもいくつかの意味を持
った語は正しく解析されないおそれがある。さらに、イ
ディオムの存在する場合や、長さの異なる複数の単語が
ヒットする場合などはうまく解析できないことがある。
型構文解析のうち、CYK法は、解析のための規則が、
文脈自由文法のうちの、子カテゴリが1個または2個の
いわゆるチョムスキー標準形クラスに限られるという欠
点があった。そして、チャート法は、具体的な解析手法
ではなく、統語解析アリゴリズムのための枠組みを提案
しているに過ぎないので、実際にシステム等にインプリ
メントする場合には、個々に効率的なアルゴリズムを工
夫する必要があった。
階である部分木の解析結果を格納するにあたり、多品詞
語は、品詞の数だけ単語が格納されるのが普通ではある
が、同一品詞でもいくつかの意味を持った語は正しく解
析されないおそれがあった。さらに、イディオムの存在
する場合や、長さの異なる複数の単語がヒットする場合
などもうまく解析できないことがあった。
もので、効率よく、しかも的確な構文解析を行うことを
可能とする構文解析装置を提供することを目的としてい
る。また本発明は、CYK法のような効率の良さを持ち
ながら、しかも、解析のための規則として一般の文脈自
由文法を扱うことを可能とする構文解析装置を提供する
ことを目的としている。
ィオムの可能性のある単語、長さの違う複数単語をも同
時並行的に処理することを可能とし、自然言語の構文解
析精度を向上させ得る構文解析装置を提供することを目
的とする。
成するために、統語解析による解析の途中経過を所定の
格納場所に格納するとともに、この解析の途中経過の格
納場所および格納場所へのポインタの少なくとも一方の
入った解析テーブルを保持し、前記解析の途中経過の情
報として、構文カテゴリの情報および少なくとも1つの
構文解析属性の情報を付与することにより、効率的で且
つ高精度な構文解析装置とした。
構成を示している。図1に示す構文解析装置は、解析対
象入力部1、辞書部2、形態素解析部3、文法規則部
4、統語解析部5および解析テーブル部6を有してい
る。
たは句を指定入力する。辞書部2は、前記解析対象の属
する言語に関する辞書引きのための辞書データを保持す
る。
前記辞書引きを行って単語の切れ目を認識する。文法規
則部4は、一般文脈自由文法の形式に則った構文解析の
ための文法規則を保持する。
語解析を行う。解析テーブル部6は、統語解析部5によ
る解析の途中経過を所定の格納場所に格納するととも
に、前記解析の途中経過の格納場所および格納場所への
ポインタの少なくとも一方の入った解析テーブルを保持
する。
としては、構文カテゴリの情報および構文解析属性の情
報を付与する。構文解析属性としては、典型的には、構
文的、意味的、および制御的なあらゆる属性の少なくと
もいずれかを含む。
として、規則を全て満たした完全な部分木であるか、規
則の未充足の部分が残っている不完全な部分木であるか
の別を記述して格納してもよい。この場合、解析テーブ
ル部6は、解析テーブルとして、不完全な部分木のため
の活性弧テーブルと、完全な部分木のための不活性弧テ
ーブルとを含んでいてもよい。
て、文法カテゴリをキーにした規則参照テーブルを含ん
でいてもよい。辞書引き後で且つ統語解析前に解析の精
度を向上させるための前処理を実行するための解析前処
理部7をさらに具備していてもよい。
語群についてそれぞれ多義語を検索し、多義語が見つか
った場合、その一部または全てを予め前記解析テーブル
に加えるようにしてもよい。
語群についてそれぞれイディオムの可能性を検索し、イ
ディオムの可能性が見つかった場合、イディオムの中心
単語と不変化語の部分とを前記解析テーブルに予め追加
するようにしてもよい。この場合、解析テーブルに追加
するイディオムの中心単語には、イディオムの文法的な
特徴を示す属性を付しておいてもよい。
語が2ワード以上から構成される見出し語を持っている
とき、見出し語を区切った部分の単語を解析の対象にす
るように解析テーブルに追加するようにしてもよい。こ
の場合、見出し語を区切った部分の単語を解析テーブル
に追加するのは、最初に引かれた単語が所定の属性を持
っているときに限るようにしてもよい。
する複数の部分木候補に対し、所定の基準に従い評価し
て順位付けするようにしてもよい。解析テーブル部6
は、属性として、品詞別にカウントされた単語の出現頻
度に関する情報を付与し、且つ統語解析部5は、前記順
位付けのための評価の基準として、単語の出現頻度の高
いものを優先するようにしてもよい。
適用回数に関する情報を付与し、且つ統語解析部5は、
順位付けのための評価の基準として、前記規則の適用回
数の少ないものを優先するようにしてもよい。
と被修飾語の距離の合計に関する情報を付与し、且つ統
語解析部5は、順位付けのための評価の基準として、前
記修飾語と被修飾語の距離の合計の低いものを優先する
ようにしてもよい。
則に予め付与された得点の合計に関する情報を付与し、
且つ統語解析部5は、順位付けのための評価の基準とし
て、前記適用規則に付与された得点の合計の高いものを
優先するようにしてもよい。
と被修飾語の意味的な距離の評価値に関する情報を付与
し、且つ統語解析部5は、順位付けのための評価の基準
として、前記修飾語と被修飾語の意味的な距離の評価値
の高いものを優先するようにしてもよい。
する順位付けされた複数の解析木候補のうち、順位の低
い一部の解析木候補について以後の解析で利用できなく
するようにしてもよい。この場合、統語解析部5は、さ
らに、順位の低い一部解析木候補を解析で利用せずに解
析を行って全体の解析に失敗した場合、先に利用できな
いようにした一部解析木候補を利用して、前記失敗した
解析木を補いながら再解析するようにしてもよい。
率の良さを生かしながら解析のための規則として一般の
文脈自由文法が扱えるように拡張することができ、機械
翻訳などの文法記述を容易にし、且つ並行構文解析の実
行速度を向上させる。
多義を含む単語、イディオムの可能性、長さの違う複数
単語をも同時並行的に処理することを可能とし、自然言
語の構文解析精度を向上させる。
解析テーブルを用いて格納していることに着目し、再解
析のときに以前の解析結果をそのまま利用することによ
り、高品質、高性能の構文解析を可能とする。これによ
り、探索の絞り込みを単語レベルのみならず規則適用の
全ての場面で全ての部分木に対して行うことができ、よ
り効率的な構文解析を行うことができる。
な実施例を図面を参照して説明する。
解析装置の構成を示している。図2の構文解析装置は、
解析対象入力部11、辞書部12、形態素解析部13、
文法規則部14、テーブル参照/書込み部15、活性弧
テーブル部16および不活性弧テーブル部17を有して
いる。
または句を指定入力する。辞書部12は、前記解析対象
の属する言語に関する辞書引きのための辞書データを保
持する。
て前記辞書引きを行って単語の切れ目を認識する。文法
規則部14は、一般文脈自由文法の形式に則った構文解
析のための文法規則を保持する。
ける統語解析部5に相当し、文法規則を適用して統語解
析を行うとともに、活性弧テーブル16および不活性弧
テーブル17の参照および書込みを行う。
ブル部17は、図1における解析テーブル部6に相当
し、統語解析の途中経過をとして得られる活性弧および
不活性弧それぞれの格納場所または格納場所へのポイン
タを格納する活性弧テーブルおよび不活性弧テーブルを
保持する。
容をそれぞれ次のようなものであるとする。 <文法規則> (1) S → NP VP (2) NP → DET N (3) NP → N (4) VP → V NP (5) VP → V NP NP (6) VP → V (7) NP → PRON <辞書> DET = the DET = a N = boy N = toy V = gives PRON = you <入力文> The boy gives you a toy. (ただし、S:文、N:名詞、V:動詞、NP:名詞
句、VP:動詞句、DET:決定詞、PRON:代名
詞) 解析対象の文が入力されると、形態素解析部13が辞書
部12の辞書データを使って原文の辞書引きをする。辞
書引きの結果は、次のようになる。 the DET boy N give V you PRON a DET toy N 形態素解析の結果は、各々の単語が品詞情報等の辞書中
の属性を持ったままテーブル参照/書き込み部15に渡
される。
ルには、不活性弧表と活性弧表がある。不活性弧表およ
び活性弧表は、それぞれ図3のような三角の形をした表
である。表の横方向(行方向)の数字は文内の単語の位
置を示し、縦方向(列方向)の数字は単語数を表す。
番目の単語からjの長さの単語列に対応する。例えば
は、3番目の単語から長さ4単語の単語列、"gives you
a toy"に対応する。
いる用語を使うことにする。不活性弧とは、文法規則を
完全に満足する原文中の単語列のことである。例え
ば、"the boy"と"gives you toy"は、それぞれ、規則
(2) NP→DET Nと規則(5) VP→V NP NP
を満足するので不活性弧を張る。
けで、不活性弧になる途中段階ともいえる単語列であ
る。例えば、"gives you"は規則(5) の子カテゴリのう
ち2つ(V NP)まで満たしているが完全に満足する
には右側にさらにNPが必要であるので活性弧を張
る("gives you"は同時に規則(4) の不活性弧も張
る)。同様に、"the"も右からNをもらってNPになる
ので(規則(2))活性弧を張る。
と不活性弧の情報を活性弧テーブルと不活性弧テーブル
に書き込みながら、ボトムアップに解析を進める。以下
に、実際に例文を解析する過程を説明する。
行、第j列の箱を、それぞれH(i,j)K(i,j)
と表すとする。テーブル書き込み部が形態素情報を受け
取ると。まず、不活性弧のH(i,1)辞書引き結果を
書き込む。
す。不活性弧テーブルへの書き込みはCYK法のそれと
同じである。すなわち、チョムスキー標準形(右辺が1
つまたは2つのカテゴリ)の規則の条件を満たしたとき
は、それによって構成される構文木の情報を活性弧テー
ブル表に直接書き込む。CYK法に従って2行目まで不
活性弧を書き込んだ状態を図5に示す。
つ以上のカテゴリの規則)は、第1および第2のカテゴ
リの条件を満たす連続する単語列の組み合わせを不活性
弧テーブルから探して、途中経過を活性弧テーブルに書
き込む。活性弧テーブルの第i行目の書き込みは不活性
弧テーブルの第i行目の書き込みと同じタイミングで行
う。つまり、第i行目を書き込むときには、どちらのテ
ーブルもi−1行までの箱は完成していなければならな
い。
考える。不活性弧テーブル表中の連続する2つの部分単
語列のうち、右辺が3つ以上のカテゴリの規則の第1お
よび第2のカテゴリを満足する組み合わせがないか探す
(この段階の不活性弧は1行しか完成していない)。す
ると、“VP→V NP NP”の条件を"give"(V)
+"you"(NP)が満たすので、これらを連結した文字
列(i=3,j=2)に対応する活性弧の箱に、残りの
カテゴリの条件(NP)と親カテゴリの文法情報を書き
込む。図5のVP[NP]は残りの項NPが満たされれ
ばVPが構成されることを意味している。
ルのi+1行以降を書き込む際に参照される。K(3,
2)のVP[NP]は第3行目以降の不活性弧を書き込
む際に、K(3,2)に隣接する単語列でNPのものが
不活性弧テーブルにないか探される。実際には4行目の
書き込みのときにH(5,2)="a toy"が見つかり、
条件のカテゴリを全て満足したので、K(3,2)とH
(5,2)が連結された単語列の情報として不活性弧テ
ーブルH(3,4)に記録される。
活性弧テーブルから3つ目のカテゴリの条件を満たす単
語列が見つかっても不活性弧テーブルに書き込むことは
できない。代わりに3つ目まで満たした単語列に対応す
る活性弧テーブルに書き込み、4つ目以降のカテゴリが
不活性弧より探されることになる。
弧表を最後まで書き込んだ結果は図6のようになる。テ
ーブル参照/書込み部15は図7〜図9のステップに従
って、活性弧表、不活性弧表に順次途中経過を書き込み
ながら解析を進める。ただし、この場合、入力文の長
さ、すなわち単語数をnとする。
次元テーブル(不活性弧、活性弧)を備えることから、
一般文脈自由文法の並行型構文解析を行う際に次のよう
な効果を得ることができる。
文脈自由文法を解析することができる。これは、機械翻
訳などで文法記述をおこなう際、開発効率で大きな違い
となって現れる。
規則の第1および第2番目のカテゴリの充足チェックを
同時に行うから、第1番目の子カテゴリだけが満たされ
た状態の活性弧を記録する必要がなく、検索効率を高め
メモリ領域を節減することができる。
されるべき規則を効率良く検索するため、次のようにす
ることもできる。図10に示すような文法選択表を用意
する。
(右辺)の、第1のカテゴリと第2のカテゴリにそれぞ
れ対応する。カテゴリには予め連続したコード番号を与
えておく、箱の中には、行、列に対応するカテゴリが第
1番目、第2番目の子カテゴリになっている文法(ある
いは文法へのポインタ)が格納されている。
リが“V”で第2のカテゴリが無い規則、すなわち、 VP→V S→V などが格納される。図10のには、第1のカテゴリが
“VP”で第2のカテゴリが“NP”の規則、すなわ
ち、 VP→VP NP VP→VP NP NP などが格納される。
ド化しておけば、表は2次元配列として表現され、第1
および第2のカテゴリから直ちに文法規則を探し出すこ
とができる。
施例に係る構文解析装置の構成を示している。図11に
おいて、図2と同様の部分には同符号を付して示してお
り、その詳細な説明は省略する。
の解析対象入力部11、辞書部12および文法規則部1
4、ならびに実質的に図2の形態素解析部13、テーブ
ル参照/書込み部15、および活性弧、不活性弧テーブ
ル部16、17にほぼ対応して同様の機能を有する辞書
引き/語尾処理部21、統語解析部22、および解析テ
ーブル部23に加えて、解析前処理部24、多義語デー
タ部25、およびイディオムデータ部26を有してい
る。
語解析前に解析の精度を向上させるための前処理を実行
する。多義語データ部25は、多義語データが格納され
ており、多義語の検索に用いられる。解析前処理部24
は、多義語が見つかった場合、その一部または全てを予
め解析テーブル部23の解析テーブルに加える。
タが格納されており、イディオムの可能性の検索に用い
られる。解析前処理部24は、イディオムが見つかった
場合、イディオムの中心単語と不変化語の部分とを予め
解析テーブル部23の解析テーブルに加える。この場
合、解析テーブルに追加するイディオムの中心単語に
は、イディオムの文法的な特徴を示す属性を付しておい
てもよい。
例の場合と同様のCYK法の表を使うことにする。解析
テーブルのそれぞれの箱の中には、対応する原文の部分
に関する解析結果へのポインタが入るものとする。第i
行、第j列には、原文のi番目からjの長さの部分単語
列に関する情報が格納される。
部21を経ると、解析テーブルは図12のように解析テ
ーブルの第1行目だけが埋まっている状態になってい
る。第1行第i列には、i番目の入力単語に関する情報
へのポインタが格納されている。
イディオム、長さの違う単語などの曖昧さを表の中に展
開する。 〈多義語〉解析対象の文が辞書引きされた後で、文を構
成するそれぞれの単語について多義語データ部25の多
義語データを参照し、多義語候補が見つかれば解析表の
第1列に加える。この際、解析効率の観点から、候補と
する多義語とそうでない多義語を選別する処理を設け、
多義語の一部だけを候補とすることも可能である。ま
た、多義語情報は必ずしも独立したテーブルである必要
はなく、辞書部12の辞書エントリの一部として検索す
ることも考えられる。
もちろん、翻訳したときに異なった訳語を割り当てられ
る語まで含まれるが、多義語データの中に構文的な属性
を書き込んでおけば、統語解析過程で単語の意味選択ま
で処理することが可能になる。
3に示すようにして行われる。次に、多義語データの一
例を示す。 表記 意味 属性 play 遊ぶ 自動詞 play 弾く 他動詞、目的語(楽器) play 演じる 他動詞、目的語(芝居/劇) … … … 〈イディオム〉解析対象の文が辞書引きされた後で、文
を構成するそれぞれの単語について、イディオムデータ
部26のイディオムデータを参照し、第I番目の語でイ
ディオム候補が見つかれば、中心単語の情報を解析表の
第1行、第i列に加える。不変化部分は対応する位置に
情報を書き込む。例えば、不変化語が第j語より始まる
2語のときは、第2行、第j列に不変化語の情報を書き
込む。
わかるように、ID情報を持たせておく。これによっ
て、「look up to」の中心語と「look up」の不変化語
が結びつくことが避けられる。
行型統語解析で、イディオムの解析を行うことが可能に
なる。文法規則としては例えば次のようにかけばよい。 動詞句 → 中心語+不変化語 イディオムの中心単語には、それぞれ構文属性を持たせ
るようにすると、イディオムの可能性が多数ある場合に
も適切なイディオムの選択ができる。例えば、 動詞句 → 中心語(自動詞的)+不変化語 動詞句 → 中心語(他動詞的)+不変化語+名詞句 のようにすれば、文型に即したイディオムの選択が可能
になる。
い解析の選択も含まれる。一般に不変化語は前置詞句と
しての可能性も持ち合わせるので、 前置詞句 → 前置詞+名詞 動詞句 → 動詞句+前置詞句 の規則での解析も当然候補の1つである。
ブルである必要はなく、多義語と同様に、辞書部12の
辞書エントリの一部として検索することも考えられる。
図14にイディオムの前処理後の解析テーブルの一例を
示す。イディオムの可能性追加の処理は図15に示すよ
うにして行われる。
を辞書の1エントリにすることがある。しかし、その単
語によって、それまで正しく解析できていた文が解析で
きなくなることがある。
が必要である。
きない。
はその構成要素としての単語も解析表に加える処理を、
並列型統語解析の前処理として行う。原文の単語を左か
ら順に見ていき、2語以上からなる辞書エントリが使わ
れていたら、構成要素のそれぞれが辞書引きできる場合
に限り構成要素も解析テーブルに加える。"at all"であ
れば"at"、"all"とも辞書に存在するので、解析表は図
16のようになる。このとき、"at all"の情報は2行目
に格納される。
エントリの中には展開しても無駄なものも含まれるの
で、元の単語に展開するべきかしないべきかを示す何ら
かの属性を入れておき、2語以上からなる辞書エントリ
の一部だけを展開する処理も有効である。
に示すようにして行われる。このように、解析過程を記
録しながら進める並列型構文解析装置において、統語解
析の文法規則を適用する前に、辞書データ、多義語デー
タ、およびイディオムデータ等を参照して、多義語、イ
ディオムおよび長さの異なる単語の可能性を解析テーブ
ルに予め格納することにより、これらの解析を統語解析
の中で行うことが可能になる。
択、イディオムの解析、および単語の選択の精度が向上
し、機械翻訳をはじめ様々な自然言語システムの質を高
めることができる。
施例に係る構文解析装置の構成を示している。図18に
おいて、図11と同様の部分には同符号を付して示して
おり、その詳細な説明は省略する。
解析対象入力部11、辞書部12、文法規則部14、辞
書引き/語尾処理部21、および解析テーブル部23、
および解析前処理部24を有している。この場合、統語
解析部31のみが図11の場合と異なっている。
2に加えて、一部の解析候補を頻度等により除外し、必
要に応じて除外した解析候補を再利用する処理を行う。
この実施例においても、解析テーブルとしてCYK法の
表を使うことにする。解析テーブルのそれぞれの箱の中
には、対応する原文の部分に関する解析結果へのポイン
タが入るものとする。第i行、第j列には、原文のi番
目からjの長さの部分単語列に関する情報が格納され
る。
して、解析する過程を説明する。解析対象入力部11、
辞書引き/語尾処理部21を経ると、解析テーブル部2
3の解析テーブルは、図19のように解析テーブルの第
1行目だけが埋まっている状態になっている。第1行目
第i列には、i番目の入力単語に関する情報へのポイン
タが格納されている。この状態において、逐次、文法規
則を適用する。文法規則の例として次のものを使用す
る。
詞) (3) 名詞句→名詞 +名詞句 press(名詞、動詞) (4) 名詞句→冠詞 +名詞 machine(名詞) (5) 動詞句→動詞 (6) 動詞句→動詞 +名詞 (7) 動詞句→助動詞+動詞句 ここで、品詞の頻度が低いものを除外して最初の解析を
する。この例では、「*」を付した"can"(名詞)の頻
度が低いものとする。
く。"can"と"press"は規則(7) によって動詞句に、"pre
ss"および"machine"は規則(3) および規則(6) によって
それぞれ名詞句および動詞句になる。
chine"が規則(7) によって動詞句になる。最後に4列目
であるが、冠詞と動詞句とをつなぐ規則がないので4列
目を埋めることができない。つまり、このような場合は
解析失敗である。
と、頻度が低い単語として除外されていた候補を入力に
加えて再解析する。再解析は、以前の解析結果を保存し
たままであり、以前の解析の同じ処理を繰り返すことな
く除外されていた単語に関係する部分を追加するように
する。
て、"can press"で名詞句が、さらに規則(3) によって"
can press machine"で名詞句が構成される。このように
すると、"the"と"can press machine"は規則(4) によっ
て名詞句となり、解析成功となる。
いて、"I like flowers like rose."を例文として、次
のような文法および辞書を使って説明する。
詞) (3) 名詞句 →名詞 flowers(名詞、
動詞) (4) 名詞句 →名詞 +前置詞句 like(動詞、前置
詞) (5) 名詞句 →冠詞 +名詞 rose(名詞) (6) 動詞句 →動詞 (7) 動詞句 →動詞 +名詞 (8) 動詞句 →動詞 +前置詞句 (9) 前置詞句→前置詞+名詞 同一文字列に一定の個数以上の候補が存在する場合にこ
れらに順位付けを行い、順位が一定の値以下の候補を以
後の解析対象としないことによって解析の効率化を図る
方法について説明する。ここでは、簡単化のために一定
の値を1にする。すなわち候補が2個以上できた文字列
はその後の解析を最上位に評価された1個のみにする。
る。"like"+"flowers"が規則(7) および規則(9) によ
って動詞句および前置詞句になる。"like flowers"の2
つの候補を評価した結果、動詞句が前置詞句よりも上位
になったと仮定すると、以後の解析には動詞句のみが適
用対象になる。"like"+"rose"についても同様である。
すると、解析は図22の状態でストップし、解析失敗と
なる。
止していた候補について制限を外し、再解析する。ここ
で1回目の解析で作った解析表の内容はクリアしないで
そのまま2回目の解析に利用する。すなわち、2回目以
降の解析は制限が外れた候補に関係するところを追加す
る。
する。ここでは、説明のために同一文字に対応する候補
を1つに絞ったが、数個の候補にすることもできる。ま
た、制限を同一品詞内だけにすることも考えられる。ま
た、候補を3つ以上のグループに分けて、3回以上の解
析を試みるシステムも可能である。このように、解析過
程を記録しながら進める並列型構文解析装置において、
同一単語列で解析候補が多数存在する場合に、可能性が
低い一部の候補について文法適用を制限することによっ
て解析の精度向上と効率化を図ることができる。
従来から知られているが、本実施例では、解析を0から
やり直すのではなく、並列型解析の特徴を生かして以前
の解析結果に順次追加する方法なので、解析効率がよ
い。
なく、あらゆる範囲の部分文字列の候補について絞り込
みができるためさらに効率の良い解析が可能となる。一
般に、子カテゴリの数が多い規則は特殊な構文パターン
を記述している場合が多い。子カテゴリの数が多い規則
を適用すると、規則の適用回数が少なくなる。そこで、
限定的な規則を用いた部分木を優先するために、規則の
適用回数が少ない部分木を優先するようにすることもで
きる。
れる部分木への、ポインタが格納されており、部分木が
複数存在するときは図のように次々とポインタで繋がれ
ているとする。
と子カテゴリの部分木へのポインタ、および文法適用回
数を持たせたときの、情報の参照関係を示したものであ
る。部分木には、他にも文法的、意味的、制御的な属性
を持たせることができる。
規則適用回数はAが3回、Bが4回なので、Aの方がB
より優先順位が高いとする。また、一般に前置詞や副詞
句などは、遠くのものよりも近くの句に係る傾向があ
る。そこで部分木の属性として、修飾語と被修飾語の距
離の合計を持たせ、係り距離の合計が小さいものを優先
するようにしてもよい。
木の情報として図25に示すような係りの距離を持たせ
る。係り距離の計算は、文法が適用され親カテゴリが生
成されるときに行われる。
離の総和に子カテゴリ同士の修飾語と被修飾語の距離を
足した数である。図26の例は、係り距離の合計はAが
6、Bが8なので、距離の短いAが優先される。
則った積極的に適用して欲しい規則と、非文に近い表現
のために加えた規則などできるだけ適用を避けたい規則
が混在している。そこで、文法規則1つ1つに点数を付
加できることとし、部分木の属性として、適用した規則
の点数の合計を持たせるようにすることができる。
おり、第1の実施例の文法規則における S→NP VP に代えて次の2つの規則を用いた規則で解析した例であ
る。
き) 親カテゴリの前に付された数字は、文法につけられた点
数である。点数が高い文法規則を適用した部分木ほど優
先的に扱われる。
して欲しい文法にはプラス点を与え、できれば適用して
ほしくない文法にはマイナス点を与えている。すなわ
ち、この例は、おおむね図24の場合と同様だが、部分
木の情報として文法点を持たせている。文法点の計算
は、文法が適用され親カテゴリが生成されるときに行わ
れる。
の文法を適用した例、Bは−1の文法を適用した例であ
る。親カテゴリの文法点は子カテゴリの文法点の総和に
適用している規則の文法点を加えたものである。
て0点だとすると、Aの部分木の点数には+1、Bには
−1が入り、点数の高いAが優先される。また、図28
に示すように、部分木の情報として意味点を持たせるよ
うにしてもよい。この意味点は、文法が適用され親カテ
ゴリが生成されるときに親カテゴリに付与される。
の総和に子カテゴリの間で修飾がおこるときに得られる
点数を加えたものである。修飾がおこる時の点数は、 前置詞 被修飾側属性 修飾側属性 点数 WITH 動作動詞 道具 2 WITH 動作動詞 人間 3 TO 移動動詞 場所 2 … … … … のようなテーブルを参照して獲得する。例えば、動作動
詞が道具に修飾されたケースでは2点が与えられる。
ても解析の精度および効率を向上させることができる。
解析の途中経過の情報として、構文カテゴリの情報およ
び構文的、意味的、制御的なあらゆる属性の少なくとも
一部の情報を付与することにより、効率よく、しかも的
確な構文解析を行うことの可能な構文解析装置を提供す
ることができる。
効率の良さを持ちながら、しかも、解析のための規則と
して一般の文脈自由文法を扱うことを可能とする構文解
析装置を提供することができる。
前処理手段を設けて、多義を含む単語、イディオムの可
能性、長さの違う複数単語をも同時並行的に処理するこ
とを可能として自然言語の構文解析精度を向上させ得る
構文解析装置を提供することができる。
ある部分木の解析結果を解析テーブルを用いて格納して
いることに着目し、再解析のときに以前の解析結果をそ
のまま利用することにより、高品質、高性能の構文解析
を可能とする。これにより、探索の絞り込みを単語レベ
ルのみならず規則適用の全ての場面で全ての部分木に対
して行うことができ、より効率的な構文解析を行うこと
ができる構文解析装置を提供することができる。
である。
成を示すブロック図である。
の不活性弧テーブルおよび活性弧テーブルのフォーマッ
トを示す模式図である。
の不活性弧テーブルおよび活性弧テーブルの1行目まで
書き込まれた状態を示す模式図である。
の不活性弧テーブルおよび活性弧テーブルの2行目まで
書き込まれた状態を示す模式図である。
の不活性弧テーブルおよび活性弧テーブルの最後まで書
き込まれた状態を示す模式図である。
のフローチャートの最初の部分である。
のフローチャートの中間の部分である。
のフローチャートの最後の部分である。
めの文法選択表を示す模式図である。
構成を示すブロック図である。
説明するための模式図である。
の動作を説明するためのフローチャートである。
処理後の解析テーブルを説明するための模式図である。
能性情報追加の動作を説明するためのフローチャートで
ある。
語の前処理の結果を示す解析テーブルを説明するための
模式図である。
語情報追加の動作を説明するためのフローチャートであ
る。
構成を示すブロック図である。
候補の処理における解析テーブルを説明するための模式
図である。
候補の処理における解析失敗時の解析テーブルを説明す
るための模式図である。
候補の処理における解析成功時の解析テーブルを説明す
るための模式図である。
おける解析失敗時の解析テーブルを説明するための模式
図である。
おける解析成功時の解析テーブルを説明するための模式
図である。
理を説明するための模式図である。
説明するための模式図である。
説明するための模式図である。
明するための模式図である。
明するための模式図である。
Claims (19)
- 【請求項1】 自然言語を並行的に統語解析する構文解
析装置において、 解析対象となる文および句のいずれか一方を指定するた
めの入力手段(1)と、 前記解析対象の属する言語に関する辞書引きのための辞
書データを保持するための辞書手段(2)と、 前記解析対象について前記辞書引きを行って単語の切れ
目を認識する形態素解析手段(3)と、 一般文脈自由文法の形式に則った構文解析のための文法
規則を保持し、該文法規則を適用して統語解析を行うた
めの統語解析手段(5)と、 この統語解析手段(5)による解析の途中経過を所定の
格納場所に格納するための途中経過格納手段(6)と、 途中経過格納手段(6)による解析の途中経過の格納場
所および格納場所へのポインタの少なくとも一方の入っ
た解析テーブルを保持するためのテーブル保持手段
(6)とを備え、 前記解析の途中経過の情報として、構文カテゴリの情報
および構文解析属性の情報を付与することを特徴とする
構文解析装置。 - 【請求項2】 請求項1記載の構文解析装置において、
構文解析属性は、構文的、意味的および制御的属性の少
なくともいずれかの属性を含むことを特徴とする構文解
析装置。 - 【請求項3】 請求項1記載の構文解析装置において、
途中経過格納手段(6)は、解析の途中経過の情報とし
て、規則を全て満たした完全な部分木であるか、規則の
未充足の部分が残っている不完全な部分木であるかの別
を記述して格納するための手段であることを特徴とする
構文解析装置。 - 【請求項4】 請求項3記載の構文解析装置において、
テーブル保持手段(6)は、解析の途中経過の情報への
アクセスのための解析テーブルとして、不完全な部分木
のための活性弧テーブルと、完全な部分木のための不活
性弧テーブルとを含む手段であることを特徴とする構文
解析装置。 - 【請求項5】 請求項1記載の構文解析装置において、
テーブル保持手段(6)は、解析テーブルとして、文法
カテゴリをキーにした規則参照テーブルを含む手段であ
ることを特徴とする構文解析装置。 - 【請求項6】 請求項1記載の構文解析装置において、
辞書引き後で且つ統語解析前に解析の精度を向上させる
ための前処理を実行するための解析前処理手段(7)を
さらに具備することを特徴とする構文解析装置。 - 【請求項7】 請求項6記載の構文解析装置において、
解析前処理手段(7)は、辞書引き結果である単語群に
ついてそれぞれ多義語を検索し、多義語が見つかった場
合、その一部または全てを予め解析テーブルに加えるた
めの多義語処理手段を含むことを特徴とする構文解析装
置。 - 【請求項8】 請求項6記載の構文解析装置において、
解析前処理手段(7)は、辞書引き結果である単語群に
ついてそれぞれイディオムの可能性を検索し、イディオ
ムの可能性が見つかった場合、イディオムの中心単語と
不変化語の部分とを解析テーブルに予め追加するための
イディオム処理手段を含むことを特徴とする構文解析装
置。 - 【請求項9】 請求項8記載の構文解析装置において、
イディオム処理手段は、解析テーブルに追加するイディ
オムの中心単語には、イディオムの文法的な特徴を示す
属性を付しておく手段を含むことを特徴とする構文解析
装置。 - 【請求項10】 請求項6記載の構文解析装置におい
て、解析前処理手段(7)は、辞書引き結果である単語
が2ワード以上から構成される見出し語を持っていると
き、見出し語を区切った部分の単語を解析の対象にする
ように解析テーブルに追加する部分単語処理手段を含む
ことを特徴とする構文解析装置。 - 【請求項11】 請求項10記載の構文解析装置におい
て、部分単語処理手段は、見出し語を区切った部分の単
語を解析テーブルに追加するのは、最初に引かれた単語
が所定の属性を持っているときに限る手段を含むことを
特徴とする構文解析装置。 - 【請求項12】 請求項1記載の構文解析装置におい
て、統語解析手段(5)は、同一の部分文字列に対応す
る複数の部分木候補に対し、所定の基準に従い評価して
順位付けするための評価手段を備えることを特徴とする
構文解析装置。 - 【請求項13】 請求項12記載の構文解析装置におい
て、途中経過格納手段(6)は、属性として、品詞別に
カウントされた単語の出現頻度に関する情報を付与する
手段を含み、且つ評価手段は、順位付けのための評価の
基準として、単語の出現頻度の高いものを優先する手段
を含むことを特徴とする構文解析装置。 - 【請求項14】 請求項12記載の構文解析装置におい
て、途中経過格納手段(6)は、属性として、規則の適
用回数に関する情報を付与する手段を含み、且つ評価手
段は、順位付けのための評価の基準として、前記規則の
適用回数の少ないものを優先する手段を含むことを特徴
とする構文解析装置。 - 【請求項15】 請求項12記載の構文解析装置におい
て、途中経過格納手段(6)は、属性として、修飾語と
被修飾語の距離の合計に関する情報を付与する手段を含
み、且つ評価手段は、順位付けのための評価の基準とし
て、前記修飾語と被修飾語の距離の合計の低いものを優
先する手段を含むことを特徴とする構文解析装置。 - 【請求項16】 請求項12記載の構文解析装置におい
て、途中経過格納手段(6)は、属性として、適用規則
に予め付与された得点の合計に関する情報を付与する手
段を含み、且つ評価手段は、順位付けのための評価の基
準として、前記適用規則に付与された得点の合計の高い
ものを優先する手段を含むことを特徴とする構文解析装
置。 - 【請求項17】 請求項12記載の構文解析装置におい
て、途中経過格納手段(6)は、属性として、修飾語と
被修飾語の意味的な距離の評価値に関する情報を付与す
る手段を含み、且つ評価手段は、順位付けのための評価
の基準として、前記修飾語と被修飾語の意味的な距離の
評価値の高いものを優先する手段を含むことを特徴とす
る構文解析装置。 - 【請求項18】 請求項12記載の構文解析装置におい
て、評価手段は、同一の部分文字列に対応する順位付け
された複数の解析木候補のうち、順位の低い一部の解析
木候補について以後の解析で利用できなくするための手
段を含むことを特徴とする構文解析装置。 - 【請求項19】 請求項18記載の構文解析装置におい
て、評価手段は、順位の低い一部解析木候補を解析で利
用せずに解析を行って全体の解析に失敗した場合、先に
利用できないようにした一部解析木候補を利用して、前
記失敗した解析木を補いながら再解析する手段を含むこ
とを特徴とする構文解析装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35236993A JP3476237B2 (ja) | 1993-12-28 | 1993-12-28 | 構文解析装置 |
US08/322,382 US5687384A (en) | 1993-12-28 | 1994-10-12 | Parsing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35236993A JP3476237B2 (ja) | 1993-12-28 | 1993-12-28 | 構文解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07200591A true JPH07200591A (ja) | 1995-08-04 |
JP3476237B2 JP3476237B2 (ja) | 2003-12-10 |
Family
ID=18423596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35236993A Expired - Fee Related JP3476237B2 (ja) | 1993-12-28 | 1993-12-28 | 構文解析装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5687384A (ja) |
JP (1) | JP3476237B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011007627A1 (ja) * | 2009-07-17 | 2011-01-20 | 日本電気株式会社 | 音声処理装置および方法ならびに記憶媒体 |
CN102845075A (zh) * | 2010-10-14 | 2012-12-26 | Jvc建伍株式会社 | 节目检索装置及节目检索方法 |
US11501077B2 (en) * | 2018-09-26 | 2022-11-15 | Asustek Computer Inc. | Semantic processing method, electronic device, and non-transitory computer readable recording medium |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5878385A (en) * | 1996-09-16 | 1999-03-02 | Ergo Linguistic Technologies | Method and apparatus for universal parsing of language |
US5926784A (en) * | 1997-07-17 | 1999-07-20 | Microsoft Corporation | Method and system for natural language parsing using podding |
US6181909B1 (en) * | 1997-07-22 | 2001-01-30 | Educational Testing Service | System and method for computer-based automatic essay scoring |
US7072826B1 (en) * | 1998-06-04 | 2006-07-04 | Matsushita Electric Industrial Co., Ltd. | Language conversion rule preparing device, language conversion device and program recording medium |
AU2440100A (en) | 1999-03-19 | 2000-10-09 | Trados Gmbh | Workflow management system |
US6327561B1 (en) * | 1999-07-07 | 2001-12-04 | International Business Machines Corp. | Customized tokenization of domain specific text via rules corresponding to a speech recognition vocabulary |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US6762699B1 (en) | 1999-12-17 | 2004-07-13 | The Directv Group, Inc. | Method for lossless data compression using greedy sequential grammar transform and sequential encoding |
US7099855B1 (en) | 2000-01-13 | 2006-08-29 | International Business Machines Corporation | System and method for electronic communication management |
US6999917B1 (en) * | 2000-02-22 | 2006-02-14 | Microsoft Corporation | Left-corner chart parsing system |
WO2001065416A2 (en) * | 2000-02-28 | 2001-09-07 | Vality Technology Incorporated | Probabilistic matching engine |
US6868380B2 (en) | 2000-03-24 | 2005-03-15 | Eliza Corporation | Speech recognition system and method for generating phonotic estimates |
AU2001250050A1 (en) * | 2000-03-24 | 2001-10-08 | Eliza Corporation | Remote server object architecture for speech recognition |
US7370086B2 (en) * | 2000-03-24 | 2008-05-06 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US7366766B2 (en) * | 2000-03-24 | 2008-04-29 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US6704728B1 (en) | 2000-05-02 | 2004-03-09 | Iphase.Com, Inc. | Accessing information from a collection of data |
US8478732B1 (en) | 2000-05-02 | 2013-07-02 | International Business Machines Corporation | Database aliasing in information access system |
WO2001098942A2 (en) * | 2000-06-19 | 2001-12-27 | Lernout & Hauspie Speech Products N.V. | Package driven parsing using structure function grammar |
US6408277B1 (en) | 2000-06-21 | 2002-06-18 | Banter Limited | System and method for automatic task prioritization |
US8290768B1 (en) | 2000-06-21 | 2012-10-16 | International Business Machines Corporation | System and method for determining a set of attributes based on content of communications |
US9699129B1 (en) | 2000-06-21 | 2017-07-04 | International Business Machines Corporation | System and method for increasing email productivity |
US6675159B1 (en) | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
AU2002224343A1 (en) * | 2000-10-02 | 2002-04-15 | Vialanguage, Inc. | Machine editing system incorporating dynamic rules database |
US7027974B1 (en) | 2000-10-27 | 2006-04-11 | Science Applications International Corporation | Ontology-based parser for natural language processing |
US7644057B2 (en) | 2001-01-03 | 2010-01-05 | International Business Machines Corporation | System and method for electronic communication management |
US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
JP2002236681A (ja) * | 2001-02-09 | 2002-08-23 | Inst Of Physical & Chemical Res | 日常言語コンピューティングシステムおよびその方法 |
US6813616B2 (en) | 2001-03-07 | 2004-11-02 | International Business Machines Corporation | System and method for building a semantic network capable of identifying word patterns in text |
US7426505B2 (en) * | 2001-03-07 | 2008-09-16 | International Business Machines Corporation | Method for identifying word patterns in text |
US6988063B2 (en) * | 2002-02-12 | 2006-01-17 | Sunflare Co., Ltd. | System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model |
US7013262B2 (en) * | 2002-02-12 | 2006-03-14 | Sunflare Co., Ltd | System and method for accurate grammar analysis using a learners' model and part-of-speech tagged (POST) parser |
US8375008B1 (en) | 2003-01-17 | 2013-02-12 | Robert Gomes | Method and system for enterprise-wide retention of digital or electronic data |
US8943024B1 (en) | 2003-01-17 | 2015-01-27 | Daniel John Gardner | System and method for data de-duplication |
US7389230B1 (en) | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US8495002B2 (en) | 2003-05-06 | 2013-07-23 | International Business Machines Corporation | Software tool for training and testing a knowledge base |
US20050187913A1 (en) | 2003-05-06 | 2005-08-25 | Yoram Nelken | Web-based customer service interface |
WO2005033909A2 (en) * | 2003-10-08 | 2005-04-14 | Any Language Communications Inc. | Relationship analysis system and method for semantic disambiguation of natural language |
US20050091036A1 (en) * | 2003-10-23 | 2005-04-28 | Hazel Shackleton | Method and apparatus for a hierarchical object model-based constrained language interpreter-parser |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
GB2417103A (en) * | 2004-08-11 | 2006-02-15 | Sdl Plc | Natural language translation system |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
ATE470218T1 (de) * | 2004-10-05 | 2010-06-15 | Inago Corp | System und verfahren zur verbesserung der genauigkeit der spracherkennung |
US7970600B2 (en) * | 2004-11-03 | 2011-06-28 | Microsoft Corporation | Using a first natural language parser to train a second parser |
US8527468B1 (en) | 2005-02-08 | 2013-09-03 | Renew Data Corp. | System and method for management of retention periods for content in a computing system |
US20060277028A1 (en) * | 2005-06-01 | 2006-12-07 | Microsoft Corporation | Training a statistical parser on noisy data by filtering |
US20080189273A1 (en) * | 2006-06-07 | 2008-08-07 | Digital Mandate, Llc | System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data |
US20100198802A1 (en) * | 2006-06-07 | 2010-08-05 | Renew Data Corp. | System and method for optimizing search objects submitted to a data resource |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US7818333B2 (en) | 2006-12-28 | 2010-10-19 | Pitney Bowes Software Inc. | Universal address parsing system and method |
US8615490B1 (en) | 2008-01-31 | 2013-12-24 | Renew Data Corp. | Method and system for restoring information from backup storage media |
US8762969B2 (en) * | 2008-08-07 | 2014-06-24 | Microsoft Corporation | Immutable parsing |
GB2468278A (en) | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
US8738668B2 (en) | 2009-12-16 | 2014-05-27 | Renew Data Corp. | System and method for creating a de-duplicated data set |
US8533214B2 (en) * | 2010-06-15 | 2013-09-10 | Verizon Patent And Licensing Inc. | System and method for assessing quality of address information for physical locations |
US20130144609A1 (en) * | 2010-08-19 | 2013-06-06 | Nec Corporation | Text processing system, text processing method, and text processing program |
JP5392227B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | フィルタリング装置およびフィルタリング方法 |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
GB2497793A (en) * | 2011-12-21 | 2013-06-26 | Ninian Solutions Ltd | Pre-emptive caching of potentially relevant content from a collaborative workspace at a client device |
US9472189B2 (en) * | 2012-11-02 | 2016-10-18 | Sony Corporation | Language processing method and integrated circuit |
US9594745B2 (en) * | 2013-03-01 | 2017-03-14 | The Software Shop, Inc. | Systems and methods for improving the efficiency of syntactic and semantic analysis in automated processes for natural language understanding using general composition |
US10592980B1 (en) | 2013-03-15 | 2020-03-17 | Intuit Inc. | Systems methods and computer program products for identifying financial accounts utilized for business purposes |
US9372846B1 (en) * | 2013-11-20 | 2016-06-21 | Dmitry Potapov | Method for abstract syntax tree building for large-scale data analysis |
JP6784084B2 (ja) * | 2016-07-27 | 2020-11-11 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、及び検索方法 |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2814634B2 (ja) * | 1989-12-29 | 1998-10-27 | 松下電器産業株式会社 | 機械翻訳装置 |
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
US5442780A (en) * | 1991-07-11 | 1995-08-15 | Mitsubishi Denki Kabushiki Kaisha | Natural language database retrieval system using virtual tables to convert parsed input phrases into retrieval keys |
US5511213A (en) * | 1992-05-08 | 1996-04-23 | Correa; Nelson | Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition |
-
1993
- 1993-12-28 JP JP35236993A patent/JP3476237B2/ja not_active Expired - Fee Related
-
1994
- 1994-10-12 US US08/322,382 patent/US5687384A/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011007627A1 (ja) * | 2009-07-17 | 2011-01-20 | 日本電気株式会社 | 音声処理装置および方法ならびに記憶媒体 |
JP5418596B2 (ja) * | 2009-07-17 | 2014-02-19 | 日本電気株式会社 | 音声処理装置および方法ならびに記憶媒体 |
US9583095B2 (en) | 2009-07-17 | 2017-02-28 | Nec Corporation | Speech processing device, method, and storage medium |
CN102845075A (zh) * | 2010-10-14 | 2012-12-26 | Jvc建伍株式会社 | 节目检索装置及节目检索方法 |
US11501077B2 (en) * | 2018-09-26 | 2022-11-15 | Asustek Computer Inc. | Semantic processing method, electronic device, and non-transitory computer readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
US5687384A (en) | 1997-11-11 |
JP3476237B2 (ja) | 2003-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3476237B2 (ja) | 構文解析装置 | |
US5528491A (en) | Apparatus and method for automated natural language translation | |
US6760695B1 (en) | Automated natural language processing | |
US5878386A (en) | Natural language parser with dictionary-based part-of-speech probabilities | |
Bouma et al. | Alpino: Wide-coverage computational analysis of Dutch | |
JP3189186B2 (ja) | パターンに基づく翻訳装置 | |
US7243305B2 (en) | Spelling and grammar checking system | |
JP2855409B2 (ja) | 自然言語処理方法及びシステム | |
US5729659A (en) | Method and apparatus for controlling a digital computer using oral input | |
US6278967B1 (en) | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis | |
US7184950B2 (en) | Method and apparatus for improved grammar checking using a stochastic parser | |
JP3196868B2 (ja) | テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ | |
JPH0756933A (ja) | 文書検索方法 | |
KR20040111715A (ko) | 검색 시스템에 사용하기 위해 텍스트 문서로부터 정보를검색하기 위한 자기 학습 시스템의 합성 방법 | |
JPH1074203A (ja) | 大文字及び非強調テキストの語彙処理の方法及びシステム | |
JPH0447364A (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
WO1997040453A1 (en) | Automated natural language processing | |
Srinivas et al. | An approach to robust partial parsing and evaluation metrics | |
JP2593065B2 (ja) | 自然言語処理装置における構文解析結果の表示及び校正のための制御方法 | |
Litkowski | Question Answering Using XML-Tagged Documents. | |
KR100327114B1 (ko) | 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 | |
JP2632806B2 (ja) | 言語解析装置 | |
KR100327115B1 (ko) | 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
Nasr et al. | Nonlexical chart parsing for TAG |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030107 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030909 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080926 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080926 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090926 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090926 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |