JP3135221B2 - 用例主導型言語構造解析装置 - Google Patents
用例主導型言語構造解析装置Info
- Publication number
- JP3135221B2 JP3135221B2 JP09054592A JP5459297A JP3135221B2 JP 3135221 B2 JP3135221 B2 JP 3135221B2 JP 09054592 A JP09054592 A JP 09054592A JP 5459297 A JP5459297 A JP 5459297A JP 3135221 B2 JP3135221 B2 JP 3135221B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similarity
- language
- language structure
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
Description
文に対する言語構造の対が、予めデータベースとして記
憶された用例を用いて、入力された自然言語文に対する
言語構造を自動的に解析する用例主導型言語構造解析装
置に関する。
係を用いる翻訳手法が、例えば、特願平8−20179
4号の特許出願(以下、第1の従来例という。)におい
て開示されている。第1の従来例の用例機械翻訳装置に
おいては、特定の類似関係を用いる手法が提案されてお
り、対訳の付いた元言語文データベースを用例とし、少
なくとも4つの文の間で特定の類似関係が成り立つと
き、その用例文の組合せを翻訳に利用している。
“類似検索機能を備えたツリーバンク構築エディタ”,
情報処理学会第52回全国大会予稿集,Vol.3,p
p.53−54,1996年3月」(以下、第2の従来
例という)では、第1の従来例と同様の類似関係を文と
言語構造の対を記憶したデータベースに適用し、入力文
に対する言語構造を検索する手法が提案されている。
似関係は正しい言語構造に特有な関係ではないため、第
2の従来例は大量の言語構造候補を出力し、正しい出力
を捜し出すことが困難であった。
量の言語構造候補が出力された場合でも、正しい出力が
容易に捜し出せることができる用例主導型言語構造解析
装置を提供することにある。
載の用例主導型言語構造解析装置は、文とその文の言語
構造との複数の対を用例として記憶する用例記憶手段
と、入力された文と、上記用例記憶手段に記憶された文
との間に所定の類似関係があるか否かを判断し、類似関
係があるときには、文の組合せと、その文の組合せにお
ける類推妥当性を出力する文間類似関係判定手段と、上
記文間類似関係判定手段から出力される文の組合せと、
その文の組合せにおける類推妥当性を記憶する類似関係
記憶手段と、上記類似関係記憶手段に記憶された文の組
合せのうち、入力された文以外の文に対する言語構造を
上記用例記憶手段に記憶された用例から検索し、検索さ
れた言語構造と、上記用例記憶手段に記憶された別の言
語構造との間で所定の類似関係があるか否かを判断し、
類似関係があるときには、言語構造の組合せと、その言
語構造の組合せにおける類推妥当性を上記類似関係記憶
手段に記憶する言語構造間類似関係判定手段と、上記類
似関係記憶手段に記憶された言語構造が、入力された文
から類推できる確からしさを表す評価値を、上記類似関
係記憶手段に記憶された類推妥当性に従って計算し、上
記類似関係記憶手段に記憶された入力された文に対応す
る言語構造を、上記計算された評価値を付加して出力す
る類推妥当性計算手段とを備えたことを特徴とする。
解析装置は、請求項1記載の用例主導型言語構造解析装
置において、上記言語構造は、構文解析木又は意味的構
造であることを特徴とする。
る実施形態について説明する。
例主導型言語構造解析装置のブロック図である。この実
施形態は、所定の類似関係にある文及び言語構造の組合
せに対する類推の成り立ち易さという尺度を導入するこ
とで、出力される言語構造候補を確からしい順番に並べ
ることにより、大量の言語構造候補が出力された場合で
も、正しい出力が容易に捜し出せる用例主導型言語構造
解析装置を提供する。
に、(a)文字列である文を入力するための入力手段で
あるキーボード31と、(b)文とその文の言語構造と
の複数の対を用例として記憶する用例メモリ14と、
(c)入力された文と、用例メモリ14に記憶された文
との間に所定の類似関係があるか否かを判断し、類似関
係があるときには、文の組合せと、その文の組合せにお
ける類推妥当性を出力する文間類似関係判定部11と、
(d)文間類似関係判定部11から出力される文の組合
せと、その文の組合せにおける類推妥当性を記憶する類
似関係メモリ15と、(e)類似関係メモリ15に記憶
された文の組合せのうち、入力された文以外の文に対す
る言語構造を用例メモリ14に記憶された用例から検索
し、検索された言語構造と、用例メモリ14に記憶され
た別の言語構造との間で所定の類似関係があるか否かを
判断し、類似関係があるときには、言語構造の組合せ
と、その言語構造の組合せにおける類推妥当性を類似関
係メモリ15に記憶する言語構造間類似関係判定部12
と、(f)類似関係メモリ15に記憶された言語構造
が、入力された文から類推できる確からしさを表す評価
値を、類似関係メモリ15に記憶された類推妥当性に従
って計算し、類似関係メモリ15に記憶された入力され
た文に対応する言語構造を、計算された評価値を付加し
て出力する類推妥当性計算部13とを備えたことを特徴
とする。
析木又は意味的構造である。類推妥当性計算部13によ
って計算された評価値は、入力された文に対応する言語
構造とともに、機械翻訳装置20に入力され、翻訳処理
中の構文解析などに利用される。
義する。文字列間の「距離」又は「類似距離」はLev
enshteinの編集距離であり、文字単位の置換、
削除、挿入を編集操作として2つの文字列を同じ文字列
にするためにかかる編集操作数を距離として定義する
(例えば、従来技術文献2「Levenshtein,“Binary cod
es capable of correcting deletions,insertionsand r
eversals",Dokl.Akad.Nauk SSSR,Vol.163,No.4,pp.845-
848,1965年8月」参照。)。具体的な計算方法は、例え
ば、従来技術文献3「R.A.Wagner et al.,“The String
-to-String Correction Problem",Journal of the Asso
ciation forComputing Machinery,Vol.21,No.1,pp.168-
172,1974年」において提案されている。例えば、文字列
“abcd”と文字列“ace”を考える。当該方法に
よると、文字列“abcd”は“b”を削除し“d”を
“e”に置換することで文字列“ace”に変換するこ
とができるので、2つの文字列の類似度又は距離は2と
なる。
述べる類推とは、語尾変化などの語形変化を説明し、言
語の生産性の基礎をなす言語学的現象である。すなわ
ち、辞書には載っていないが理解し得る新語を作ること
ができるということを意味する。この種の類推は、特定
の類似関係を持つ語の上で働くため、この類似関係を方
程式として解くことで、類推結果を得ることができる。
例えば、与えられた第1の単語に対して2つの形式が与
えられ、第2の単語に1つの形式のみが与えられると、
第2の単語に対する求める形式を作ることができる。こ
れは、どんな言語にも見られる言語学的現象である。単
語の類似関係の例について次の表1に示す。
類似関係は、対向する各2つの辺の類似距離が等しく、
対角線の2つの類似距離が等しい、矩形を構成する。こ
の矩形関係を数式で表せば、次式の通りである。
yとの間の類似距離であって、すなわち編集距離であ
る。この関数の定義を用いれば、各単語の間の文字単位
の距離は図3に示すようになる。
べる。単語が文字列であるのと同じように、文章も単語
列と考えることができる。従って、文章における類似関
係は、図4に示すように、単語を単位とした編集操作に
基づいて計算した距離で表わすことができる。
he Tree-to-Tree Editing Probrem",Information Proce
ssing Letters,Vol.6,No.6,pp.184-186,1977年」におい
て示されているように、ノード単位の置換、脱落、挿入
を編集操作として木構造間の類似度を計算することがで
きる。従って、言語構造における類似関係は、図5に示
すように、ノードを単位とした編集操作に基づいて計算
した距離で表わすことができる。
類似関係にある4項のうち3項から残る1項を推測する
処理として定義することができる。
形態について説明する。本発明は、文が与えられると、
文とその文の言語構造を格納したデータベースから3つ
の文を検索する。次に、もしそれらの文章が入力文と類
似関係を有しておれば、その3つの対応する言語構造
と、入力文に対応する言語構造も類似関係を構成すると
いう原理を用いる。
ns off」(以下、文aという。)がキーボード31を用
いて入力されたときの、本発明の一実施例について説明
する。入力文aが入力されると、まず、文間類似関係判
定部11において、入力文aと上記類似関係にある文が
用例メモリ14に記憶された文から検索される。例え
ば、以下の3文が用例メモリ14に記憶されているとす
る。
この3文が一つの組合せとして類似関係メモリに記憶さ
れる。このとき、この組合せに対して類推が正しく働く
確からしさを示す類推妥当性が計算される。
る4つの文の間の類似度を用いることができる。類似関
係にある4つの文が似ていれば似ているほど、より正し
く類推が働くと考えられる。このため、例えば、
ほどその4つの文の上で類推が正しく働くと考えられ
る。上式を用いると、本実施例の組合せにおける類推妥
当性は、
5に記憶される。
類似関係メモリ15に記憶された文に対する言語構造を
用例メモリ14から検索する。類似関係メモリ15に記
憶された文は、もともと用例メモリ14に言語構造とと
もに記憶されていた文であり、各文に対して必ず1つの
言語構造が記憶されている。ここで、文b,c,dに対
する言語構造として、下記の言語構造b’,c’,d’
が用例メモリ14に記憶されていたとする。
索した言語構造b’,c’,d’と類似関係にある言語
構造を用例メモリ14に記憶された言語構造から検索す
る。例えば用例メモリ14に以下の文と言語構造の対が
記憶されていたとする。
b,c,dの組合せに構文構造e’を加えた組合せが類
似関係メモリ15に記憶される。
く働く確からしさを示す類推妥当性の評価値が計算され
る。例えば、文の場合と同様の定義を利用すると構文構
造における類推妥当性の評価値は、
性ととともに類似関係メモリ15に記憶される。
係メモリ15に記憶された組合せに対する類推妥当性か
ら、入力文からその言語構造が類推できる確からしさを
計算する。例えば、文から言語構造への全体の類推妥当
性を文の類推妥当性と構文構造の類推妥当性の和で表す
とすると、入力文aから言語構造e’が類推できる確か
らしさを表す評価値は、
により、入力文aから類推できる複数の言語構造の各々
に類推妥当性の評価値を付加することができる。この評
価値を用いると、最も確からしい言語構造を選択するこ
とができ、この言語構造は機械翻訳装置20における翻
訳処理に利用される。
形態によれば、所定の類似関係にある文及び言語構造の
組合せに対する類推の成り立ち易さという尺度を導入す
ることで、出力される言語構造候補を確からしい順番に
並べることができる。このためユーザは、大量の言語構
造候補が出力された場合でも、正しい出力を容易に捜し
出すことができる。また、本発明による手法は、従来の
構文解析装置と組み合せることも可能である。例えば、
従来例の構文解析装置が出力した複数の構文構造候補を
本発明の手法によって順位付けすることで、構文解析装
置の精度を向上することができる。
定部11と、言語構造間類似関係判定部12と、類推妥
当性計算部13と、機械翻訳装置20とは、例えばディ
ジタル計算機である演算制御装置で構成され、用例メモ
リ14と、類似関係メモリ15と、バイテキストメモリ
21とは、例えば、ハードディスクメモリで構成され
る。
とその文の言語構造との複数の対を用例として記憶する
用例記憶手段と、入力された文と、上記用例記憶手段に
記憶された文との間に所定の類似関係があるか否かを判
断し、類似関係があるときには、文の組合せと、その文
の組合せにおける類推妥当性を出力する文間類似関係判
定手段と、上記文間類似関係判定手段から出力される文
の組合せと、その文の組合せにおける類推妥当性を記憶
する類似関係記憶手段と、上記類似関係記憶手段に記憶
された文の組合せのうち、入力された文以外の文に対す
る言語構造を上記用例記憶手段に記憶された用例から検
索し、検索された言語構造と、上記用例記憶手段に記憶
された別の言語構造との間で所定の類似関係があるか否
かを判断し、類似関係があるときには、言語構造の組合
せと、その言語構造の組合せにおける類推妥当性を上記
類似関係記憶手段に記憶する言語構造間類似関係判定手
段と、上記類似関係記憶手段に記憶された言語構造が、
入力された文から類推できる確からしさを表す評価値
を、上記類似関係記憶手段に記憶された類推妥当性に従
って計算し、上記類似関係記憶手段に記憶された入力さ
れた文に対応する言語構造を、上記計算された評価値を
付加して出力する類推妥当性計算手段とを備える。ここ
で、上記言語構造は、構文解析木又は意味的構造であ
る。
構造の組合せに対する類推の成り立ち易さという尺度を
導入することで、出力される言語構造候補を確からしい
順番に並べることができる。このためユーザは、大量の
言語構造候補が出力された場合でも、正しい出力を容易
に捜し出すことができる。また、本発明による手法は、
従来の構文解析装置と組み合せることも可能である。例
えば、構文解析装置の出力した複数の構文構造候補を本
発明の手法によって順位付けすることで、構文解析装置
の精度を向上することができる。
語構造解析装置のブロック図である。
る、矩形を成す類似関係を示す説明図である。
る、類似関係の矩形と類似距離を示す説明図である。
る、文章の類似関係を示す説明図である。
る、言語構造の類似関係を示す説明図である。
Claims (2)
- 【請求項1】 文とその文の言語構造との複数の対を用
例として記憶する用例記憶手段と、 入力された文と、上記用例記憶手段に記憶された文との
間に所定の類似関係があるか否かを判断し、類似関係が
あるときには、文の組合せと、その文の組合せにおける
類推妥当性を出力する文間類似関係判定手段と、 上記文間類似関係判定手段から出力される文の組合せ
と、その文の組合せにおける類推妥当性を記憶する類似
関係記憶手段と、 上記類似関係記憶手段に記憶された文の組合せのうち、
入力された文以外の文に対する言語構造を上記用例記憶
手段に記憶された用例から検索し、検索された言語構造
と、上記用例記憶手段に記憶された別の言語構造との間
で所定の類似関係があるか否かを判断し、類似関係があ
るときには、言語構造の組合せと、その言語構造の組合
せにおける類推妥当性を上記類似関係記憶手段に記憶す
る言語構造間類似関係判定手段と、 上記類似関係記憶手段に記憶された言語構造が、入力さ
れた文から類推できる確からしさを表す評価値を、上記
類似関係記憶手段に記憶された類推妥当性に従って計算
し、上記類似関係記憶手段に記憶された入力された文に
対応する言語構造を、上記計算された評価値を付加して
出力する類推妥当性計算手段とを備えたことを特徴とす
る用例主導型言語構造解析装置。 - 【請求項2】 上記言語構造は、構文解析木又は意味的
構造であることを特徴とする請求項1記載の用例主導型
言語構造解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09054592A JP3135221B2 (ja) | 1997-03-10 | 1997-03-10 | 用例主導型言語構造解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09054592A JP3135221B2 (ja) | 1997-03-10 | 1997-03-10 | 用例主導型言語構造解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254880A JPH10254880A (ja) | 1998-09-25 |
JP3135221B2 true JP3135221B2 (ja) | 2001-02-13 |
Family
ID=12975006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09054592A Expired - Lifetime JP3135221B2 (ja) | 1997-03-10 | 1997-03-10 | 用例主導型言語構造解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3135221B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPQ825300A0 (en) * | 2000-06-20 | 2000-07-13 | University Of Queensland, The | Method of sentence analysis |
-
1997
- 1997-03-10 JP JP09054592A patent/JP3135221B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10254880A (ja) | 1998-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
US7353165B2 (en) | Example based machine translation system | |
CN100511215C (zh) | 多语种翻译存储器和翻译方法 | |
US7296223B2 (en) | System and method for structured document authoring | |
Ofazer et al. | Bootstrapping morphological analyzers by combining human elicitation and machine learning | |
JP2006268375A (ja) | 翻訳メモリシステム | |
JP2001043236A (ja) | 類似語抽出方法、文書検索方法及びこれらに用いる装置 | |
JP3765799B2 (ja) | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム | |
US5132901A (en) | System and method for input of target language equivalents and determination of attribute data associated therewith | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2004070636A (ja) | 概念検索装置 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP3135221B2 (ja) | 用例主導型言語構造解析装置 | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
Janssen et al. | Improving POS tagging in Old Spanish using TEITOK | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2005025555A (ja) | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
JP2001067378A (ja) | 文字列類似度算出方法、装置及び記録媒体 | |
Sedlácek et al. | Automatic Processing of Czech Inflectional and Derivative Morphology | |
JP2840258B2 (ja) | 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法 | |
JPH0827803B2 (ja) | テキストベース検索方法 | |
JP4049141B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
JP3999771B2 (ja) | 翻訳支援プログラム、翻訳支援装置、翻訳支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081201 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081201 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091201 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101201 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101201 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111201 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121201 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131201 Year of fee payment: 13 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |