JP2003242136A - 構文情報タグ付与支援システムおよび方法 - Google Patents
構文情報タグ付与支援システムおよび方法Info
- Publication number
- JP2003242136A JP2003242136A JP2002043697A JP2002043697A JP2003242136A JP 2003242136 A JP2003242136 A JP 2003242136A JP 2002043697 A JP2002043697 A JP 2002043697A JP 2002043697 A JP2002043697 A JP 2002043697A JP 2003242136 A JP2003242136 A JP 2003242136A
- Authority
- JP
- Japan
- Prior art keywords
- analysis result
- sentence
- analysis
- semantic analysis
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
情報タグを付与できるようにする。 【解決手段】 構文解析手段2は、対象文に対して構文
解析を施し、文の係り受け関係等の構文解析結果候補を
出力する。意味解析手段3は、対象文に対して意味解析
を行い、文の格構造等の意味解析結果候補を出力する。
意味解析結果確定手段5は、意味解析結果の候補を利用
者に提示し、利用者に正しい意味解析結果を選択させる
ユーザインタフェースを有する。利用者の選択により意
味解析結果が確定される。構文解析結果確定手段6は、
確定した意味解析結果と、解析結果情報に基づき構文解
析結果を確定する。タグ付与手段7は、確定した構文解
析結果に基づき、対象文に対して構文情報を示すタグを
付与する。
Description
計算機による構文解析処理を施し、その結果に対してオ
ペレータによる判断を加えて最終的な構文解析結果を決
定した後、得られた構文情報をテキストにタグ形式で付
与する構文情報タグ付与技術に関する。また、本発明は
そのような構文情報タグ付与技術等で用いられる文章解
析技術に関する。
り、文法規則に基づいて語と語の係り受け関係を決定す
る処理のことを指す。構文解析結果は通常構文木と呼ば
れる木構造として表現される。日本語の文「接客に当た
る高校生やフリーターに言葉遣いや注文の受け方を教え
るマニュアル(手引き書)が昨年夏大きく姿を変え
た。」の解析結果として得られる構文木の一例を図2に
示す。図2のように、木構造の各節点(ノード)には、
その節点以下の部分構造を代表する名前を割り当てるこ
とが多い。例えば、図2中の「NP(Noun Phr
ase)」は、その名前が割り当てられている節点以下
の部分構造が名詞句であることを示している。
文の解析をしよう,情報処理,Vol.41,No.
7,pp.763−768(2000)」は、構文解析
の重要性に関して以下の3点を挙げている。 (1)言語理解に不可欠な部分タスクである。 (2)文と文、テキストとテキストの意味的な類似性を
評価する重要な手掛かりを与える。 (3)知識獲得の道具として有用である。
訳、文書校正支援、文書要約等を関連するアプリケーシ
ョンとして挙げることができる。これらのアプリケーシ
ョンと構文解析処理の関係については、文献「長尾真,
自然言語処理,岩波書店(1996)」「田中穂積,自
然言語処理−基礎と応用−,電子情報通信学会(199
9)」等に詳しく述べられている。
ング、文書クラスタリング、Question Ans
weringといったアプリケーションに関するもので
あり、文献「鳥澤健太郎,高機能な構文解析器に向け
て,情報処理,Vol.40,No.4,pp.380
−386(1999)」にこれらのアプリケーションに
果たす構文解析処理の重要性が述べられている。
模な知識を電子化テキストから自動的あるいは半自動的
に獲得する手法に関係するものである。「長尾真,自然
言語処理,岩波書店(1996)」「田中穂積,自然言
語処理−基礎と応用−,電子情報通信学会(199
9)」に述べられているように、動詞の格フレームの抽
出、単語の意味分類の抽出、翻訳知識の獲得、文法知識
の獲得等、言語データからの知識獲得は自然言語処理技
術を実用レベルに引き上げるための急務の課題であり、
ここでも構文解析処理は重要な役割を担う。
ョンの実現において重要な役割を果たす技術である。し
かしながら、文献「黒橋禎男,結構やるな、KNP,情
報処理,Vol.41,No.11,pp.1215−
1220(2000)」にも述べられているとおり、現
在の構文解析システムは、実用的なアプリケーションを
実現する上で十分な解析精度を達成しているとは言い難
い。
方法は構文解析システムによって得られた解析結果を人
手で修正することである。例えば、自然言語文に対して
予め構文情報を示すタグ(アノテーション)を付与する
ことによって機械翻訳や文章要約を極めて高い精度で実
現する方式が文献「長尾確,セマンティック・トランス
コーディング:Webの意味的な拡張と効率的な再利用
のメカニズム,第15回AIシンポジウム予稿集,p
p.7−13(2001)」で提案されている。ここで
のタグはXML(eXtensible Markup
Language)で表現されるものであり、GDA
(Global Document Annotati
on)と呼ばれる記述形式を採用している。この文献の
提案では、正しい構文情報のみが付与されていることが
前提になっている。しかし、上述の通り現状の構文解析
技術から常に正しい解析結果を得ることは不可能である
ため、全ての構文情報タグを人手で付与するか、あるい
は、構文解析システムから得られた解析結果を人手で正
しいものに編集することによって構文情報タグを付与す
ることになる。
グを付与する手法によれば、前記の文献「長尾確,セマ
ンティック・トランスコーディング:Webの意味的な
拡張と効率的な再利用のメカニズム,第15回AIシン
ポジウム予稿集,pp.7−13(2001)」で述べ
られている通り、機械翻訳、文書要約、音声合成、文書
集合からの知識発見等を極めて高い精度で実現できる。
しかしながらこの手法には、構文情報タグを人手で付与
するためのコストが大きい点が問題として残る。図3に
構文情報がXMLタグとして付与されている文の例を
「長尾確,セマンティック・トランスコーディング:W
ebの意味的な拡張と効率的な再利用のメカニズム,第
15回AIシンポジウム予稿集,pp.7−13(20
01)」から引用して示す。このようなタグ付けを人手
で大量のテキストに対して行うことは事実上不可能であ
る。しかしながら、このようなタグ情報は、正しい構文
木が得られればそこから自動的に付与することが容易に
可能である。そこで実際には、構文解析システムから最
も確からしい解析結果として得られる構文木をユーザに
提示し、木構造の誤っている部分をユーザが変更するこ
とが可能なユーザーインタフェースを用いることによっ
てタグ付けを半自動化し、コストの低減を目指す手法が
採用されている。このような手法を提案している文献の
例として「公開特許公報 特開2001−51998
日本語文書作成装置」を挙げることができる。
複雑な構造を持っている。節点に割り当てられた名前の
意味を理解すること、および、正しい構文木であるか否
かを判別することは、言語学に精通した者でなければ難
しい。したがって、構文情報を示すタグを常に正しく付
与する作業を行うことができる者は言語学に詳しい人材
に限られてしまう。よって、構文木の提示による支援手
法を用いたとしても、必要な人材を見い出しにくいた
め、大量のテキストにタグ付けを行うことはやはり困難
であるといえる。さらに、たとえ言語学に精通した者で
あってもそこから誤った部分を発見し正しく修正するこ
とは容易な作業ではなく、依然として時間コストの極め
て大きい作業である。
のであり、意味解析処理による解析結果を利用すること
により、言語学に精通したものでなくとも容易に構文情
報タグを付与できるユーザインタフェースを持った構文
情報タグ付与支援技術を提供することを目的とする。
的を達成するために特許請求の範囲に記載のとおりの構
成を採用している。ここで、特許請求の範囲の記載内容
について若干説明する。
援システムは、構文解析の対象となる文の集合を保持す
る解析対象文章保持手段と、上記解析対象文章保持手段
に保持されているそれぞれの文に対して構文解析処理を
施し、文の係り受け関係等の構文解析結果候補を出力す
る構文解析手段と、上記解析対象文章保持手段に保持さ
れているそれぞれの文に対して意味解析処理を行い、文
の格構造等の意味解析結果候補を出力する意味解析手段
と、上記構文解析結果候補と上記意味解析結果候補およ
び両者の間の対応関係を保持する解析結果保持手段と、
上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを有する意
味解析結果確定手段と、確定した意味解析結果と上記解
析結果保持手段に保持された解析結果情報に基づき構文
解析結果を確定する構文解析結果確定手段と、確定した
構文解析結果に基づき、上記解析対象文章保持手段に保
持されているそれぞれの文に対して構文情報を示すタグ
を付与するタグ付与手段とからなる構成をとる。
すために文に付加される補助情報であり、アノテーショ
ンと呼ばれることもある。このような補助情報はどのよ
うな呼び方をするにしてもここでいう「タグ」に含まれ
る。
の係り受け関係を決定する処理のことを指す。これに対
して、意味解析は文中の格情報を決定する処理を含む。
日本語の場合、格情報はそのレベルに応じて以下の3種
に分類できる。 (1)格助詞の種類による分類(「ガ格」「ヲ格」等) (2)文法役割による分類(「主語」「目的語」等) (3)意味役割による分類(「動作主格」「対象格」
等)
用によって格助詞が省略されることが多い。したがっ
て、(1)よりも(2)の情報の方がより本質的である
と言える。例えば「彼が本は読む。」や「彼は本を読
む。」といった文の場合、(1)のレベルにおいては
「本は」や「彼は」の格情報を決定することはできない
が、(2)ではそれぞれ「目的語」「主語」であると決
定する。また、受動文や使役文では(2)のレベルの分
類である「主語」や「目的語」は、(3)のレベルの分
類である「動作主格」や「対象格」と一致しない。例え
ば、「彼がその本を読んだ。」の「主語」は「彼」であ
り、「目的語」は「その本」である。一方「その本は彼
によって読まれた。」の「主語」は「その本」であり
「彼」は「受動斜格」と呼ばれる文法役割である。これ
に対して(3)のレベルの分類では、どちらの文におい
ても「彼」が「動作主格」であり、「その本」が「対象
格」である。この例から分かるように、(2)よりも
(3)の方がより本質的な分類であると言える。一般に
(1)(2)の分類で得られる格情報を表層格、(3)
で得られる格情報を深層格と呼び、本発明の具体的な構
成においては、(2)(3)の格情報を得ることができ
る解析を意味解析と呼ぶことにする。本発明の具体的な
構成は、(2)(3)のいずれの情報を利用しても同様
の効果を得ることができる。もちろん、場合によっては
(1)の情報が本発明上有用なこともある。
述語といった概念は言語学を学んでいない者にとっても
常識的に理解が可能であり、意味解析結果を修正する作
業は構文解析結果を修正する作業に比べて容易である。
本発明によれば、意味解析結果候補をシステムの利用者
に提示して修正を受けることにより誤りのない意味解析
結果を取得し、得られた意味解析結果に基づいて構文解
析結果を決定することによって、正しい構文情報タグを
文に付与することができる構文情報タグ付与支援システ
ムを構築することができる。これによって、言語学に詳
しくない者であっても、正しい構文情報タグを従来技術
と比較してより低いコストで付与することが可能とな
る。
面は特許請求の範囲に記載され以下実施例を用いて詳細
に説明される。
実現されるのみでなく方法の態様でも実現可能であり、
また少なくともその一部をコンピュータプログラムとし
て実現することも可能である。
いて説明する。
文情報タグ付与支援システムを示しており、この図にお
いて、構文情報タグ付与支援システムは、解析対象文章
保持手段1、構文解析手段2、意味解析手段3、解析結
果保持手段4、意味解析結果確定手段5、構文解析結果
確定手段6およびタグ付与手段7を含んで構成されてい
る。
象となる文の集合を保持する。構文解析手段2は、解析
対象文章保持手段1に保持されているそれぞれの文に対
して構文解析処理を施し、文の係り受け関係等の構文解
析結果候補を出力する。意味解析手段3は、解析対象文
章保持手段1に保持されているそれぞれの文に対して意
味解析処理を行い、文の格構造等の意味解析結果候補を
出力する。解析結果保持手段4は、構文解析結果候補と
意味解析結果候補および両者の間の対応関係を保持す
る。意味解析結果確定手段5は、意味解析結果の候補を
利用者に提示し、利用者に正しい意味解析結果を選択さ
せるユーザインタフェースを有する。利用者の選択によ
り意味解析結果が確定される。構文解析結果確定手段6
は、確定した意味解析結果と、解析結果保持手段4に保
持された解析結果情報に基づき構文解析結果を確定す
る。タグ付与手段7は、確定した構文解析結果に基づ
き、解析対象文章保持手段1に保持されているそれぞれ
の文に対して構文情報を示すタグを付与する。
詳細に説明する図31や図32に示すようなユーザイン
タフェースを利用者に提示して意味の曖昧性を解消させ
る。インタフェースは構文情報でなく意味情報に関する
ものであるので、利用者は自然にかつ簡易に扱うことが
できる。
ソナルコンピュータ等のコンピュータ100に実行する
ことが可能であり、また、タグを付与した文をタグ付文
出力手段8を介して外部に出力することもできる。出力
されたタグ付文は種々の記録媒体9(ハードディスク、
可搬性記録ディスク等)に記録することができる。ま
た、機械翻訳手段10を用いてタグ付文を翻訳すること
もできる。
明をさらに説明する。
与支援システムの構成を示している。この本実施例で
は、上述の文法役割による分類に基づく格情報を用い
る。なお、本実施例では日本語を対象として説明を行う
が、構文解析処理および意味解析処理が適用可能な言語
であればいかなる言語であっても同様の効果を得ること
ができる。また、本実施例では構文解析および意味解析
として、文献「A Grammar Writer’s
Cookbook,Miriam Butt,Tra
cy Holloway King,Maria−En
genia Nino and Frederique
Segond,CSLI publication
s,Stanford University(199
9)」に詳細な内容が記述されているLFG(Lexi
cxal Functional Grammar)と
呼ばれる文法理論に基づいた解析を想定するが、他の文
法理論を用いた構文解析および意味解析手法を用いても
同様の効果が得られることは明らかである。
与支援システムは、解析対象文章保持手段11、LFG
解析手段12、解析結果保持手段13、意味解析結果確
定手段16およびタグ付与手段26を含んで構成されて
いる。
語文を計算機内部に保持する手段である。
手段11に保持されている各日本語文を対象として、L
FG理論に基づいた解析を実行する手段である。LFG
理論に基づいた解析では、前出の文献「A Gramm
ar Writer’s Cookbook,Miri
am Butt,Tracy Holloway Ki
ng,Maria−Engenia Nino and
Frederique Segond,CSLI p
ublications,StanfordUnive
rsity(1999)」に記述されている通り、構文
解析の結果としてc−structureと呼ばれる構
文木を示す木構造を、意味解析の結果として格構造を示
すf−structureと呼ばれるリスト構造を、そ
れぞれ得ることができる。また、LFG解析を実行する
際には、格構造辞書保持手段25に保持されている格構
造辞書を参照することが必須である。c−strucu
re、f−structureおよび解析手法の詳細に
ついては、同文献を参考されたい。LFG解析手段12
は図1の構文解析手段2および意味解析手段3を構成す
る。
ure保持手段14とf−structure保持手段
15から構成される。c−structure保持手段
14とf−strucure保持手段15は、それぞれ
LFG解析手段12から得られるc−strucure
とf−structureを各日本語文ごとに計算機内
部に保持する手段である。一般に、自然言語文は構文的
/意味的曖昧性を含んでいるため、一文から複数のc−
structureおよびf−structureが解
析結果候補として得られることになる。
座っている女の子が娘です。」を対象とした場合に、構
文解析結果候補として得られるc−strucureを
図5〜図13に示す。この場合、構文解析の結果は図5
〜図13に対応する9種の曖昧性を持つことになる。ま
た、同じ文を対象とした場合に、意味解析結果として得
られるf−strucureを図14〜図22に示す。
図5に示す構文解析結果に対応する意味解析結果が図1
4に示され、図6に示す構文解析結果に対応する意味解
析結果が図15に示されている。以下、図7〜図13に
ついても同様である。
中の各ノードとf−structure中の各リスト
(“[“および”]”で囲まれている部分)には対応関
係がある。例えば、図5中で「2992」の識別子を持
ち「NP」のラベルを持つノードは、図14中で同じ
「2992」の識別子を持ち「SUBJ(主語)」をリ
スト名として持つリストと対応関係があることを示して
いる。なお、図16〜図22では識別子の一部を省略し
ている。
4に保持されているc−strucureは、単語を最
小の単位として木構造を構成し、活用する単語について
はその終止形を単位としているが、解析対象文の対応す
る文字列(表層文字列)を同時に保持するものとする。
例えば、図5中の「読む」「座る」に対して、それぞれ
「読ん」「座っ」を同時に保持する。
段17、格構造取得手段18、格要素取得手段19、非
格要素取得手段20、述部確定手段21、格構造確定手
段22、格要素確定手段23、非格要素確定手段24か
ら構成される。
re保持手段14に保持されているc−strucur
eから、解析対象文の述部に対応するノードの識別子、
および該ノードに対応する文字列を取得する。図5〜図
13に示したc−strucureの例では、「Vve
rb」あるいは「Vnoun」のラベルを持つノードが
述部に対応するものである。例えば、図5に示すc−s
tructureからは、「Vverb」に対応する識
別子として「5755」「1784」を、「Vnou
n」に対応する識別子として「645」を取得する。ま
た、それぞれに対応する表層文字列「読んでいる」「座
っている」および「娘です」を取得する。「Vver
b」は動詞を中心とする述部であることを表し、「Vn
oun」は、「娘です」のように名詞に「だ」「です」
等が付与された形の述部であることを表している。一般
的には「Vverb」および「Vnoun」以外の述部
を表すラベルとして、形容詞を中心とする述部を表す
「Vadjective」と、形容動詞を中心とする述
部を表す「Vadjectiveverb」がある。
で得られた述部に対応するノード識別子を受け取り、f
−structure保持手段15中の対応するf−s
tructure中のリストを参照することによって、
該述部の格構造を取得する手段である。例えば、上記の
図5から得られた「5755」「1784」「645」
のノード識別子に対して、図14中の「5755」「1
784」「645」の識別子が付与されたリストを参照
し、各述部の格構造を取得する。図23(図14と同一
のf−structure)に図示した通り、「575
5」の識別子を持つリストには格要素として「SUB
J」のみが存在する。同様に「1784」の識別子を持
つリストには「SUBJ」のみが、「5755」の識別
子を持つリストには「SUBJ」と「OBJ(目的
語)」が存在する。したがって、図14に対応する意味
解析結果から、「主語―娘です」「主語―座っている」
「主語―目的語―読んでいる」という格構造を得ること
ができる。このような格構造の取得を、解析結果保持手
段13に保持されている全ての解析結果に対して行う。
なお、実際の格要素は、「SUBJ」「OBJ」以外
に、道具格(―で)や源泉格(―から)等LFGにおい
ては「OBLIQUE」という文法役割で表現されるも
のが存在する。
8が取得した格要素の実体(単語)をf−struct
ure保持手段15が保持しているf−structu
reを参照して取得する手段である。この処理は、f−
strucure中の格要素(SUBJ,OBJ等)に
対応するリスト中の「PRED」に対応する単語を参照
することにより実現できる。(ただし述部が関係詞節に
含まれる場合は、その関係詞節の修飾先を参照する。関
係詞節は、f−strucure中でリスト名が「AD
JUNCT」であり、「ADJUNCT−TYPE」が
「rel」であるという記述を含むリストに対応す
る。)例えば、図24(図14と同一のf−struc
ture)に図示した通り、図14に対応する意味解析
の結果からは、「娘です」の主語として「女の子」が、
「座っている」の「主語」として「女の子」が、「読ん
でいる」の主語として「女性」目的語として「本」が、
取得される。このような格要素の取得を、解析結果保持
手段13に保持されている全ての解析結果に対して行
う。
ture保持手段15が保持しているf−struct
ureを参照して、格要素以外の修飾句(単語)とその
修飾先に対応する識別子を取得する手段である。LFG
において、格要素以外の修飾句は、「ADJUNCT」
と呼ばれる文法役割で表現されている。ただし、関係詞
節については、格要素取得手段19で既に取得している
ため、それ以外の「ADJUNCT」を対象とする。図
25(図14と同一のf−structure)に図示
した通り、図14に対応する意味解析の結果からは、
「娘です」(識別子「645」)を修飾する非格要素と
して「女性は」を、「座っている」(識別子「178
4」)を修飾する非格要素として「妹で」を、「女の
子」(識別子「54」)を修飾する非格要素として「私
の」を取得する。このような非格要素の取得を、解析結
果保持手段13に保持されている全ての解析結果に対し
て行う。
ら得られる全ての述部を参照し、特定の文に対して述部
が一定しない部分(述部の曖昧性)があれば、その情報
を利用者に提示して曖昧性の解消を行うためのユーザイ
ンタフェースを有する手段である。例えば、図5〜図1
3(図14〜図22)に示す9つの解析結果をそれぞれ
A,B,C,D,E,F,G,H,Iと呼ぶことにすれ
ば、述部の一覧と各述部を含む解析結果の対応関係は図
26に示す通りとなる。この表から、解析結果Bのみ
が、「妹だ(で)」(図6中の識別子「2772」を持
つノード(Vnoun)および図15中の識別子「27
72」を持つリストに対応)を述部として持ち、他の解
析結果では述部となっていない曖昧性が生じていること
が分かる。利用者への提示に関しては、述部取得手段1
7で得られた述部(の終止形)と、格要素取得手段19
で得られた対応する格要素(およびその修飾句)を同時
に提示し、文として成立するかどうかを尋ねる形式とす
る。これにより、c−structureを一意に決定
することができれば、そのc−strucureをタグ
付与手段26に渡し、決定できなければ正しい解析結果
として可能性の残るc−strucureの候補の集合
を格構造確定手段22に渡す。
8から得られる全ての述部の格構造を参照し、特定の文
に対して格構造が一定しない部分(格構造の曖昧性)が
あれば、その情報を利用者に提示して曖昧性の解消を行
うためのユーザインタフェースを有する手段である。図
27に示す通り、上述の解析結果A,B,C,D,E,
F,G,H,Iにおいては、一つの述部に対して複数の
格構造が出現することはないため、この例に関しては格
構造の曖昧性は存在しない。
の候補を利用者に提示する、あるいは、格構造辞書保持
手段25を参照して各格構造に対応する述部(の中心と
なる単語)の意味を利用者に提示する(後述)、ことに
よって曖昧性の解消を行う。これにより、c−stru
ctureを一意に決定することができれば、そのc−
strucureをタグ付与手段26に渡し、決定でき
なければ正しい解析結果として可能性の残るc−str
ucureの候補の集合を格要素確定手段23に渡す。
から得られる全ての述部および格要素取得手段23から
得られる全ての格要素を参照し、特定の文に対して格構
造中の格要素が一定しない部分(格要素の曖昧性)があ
れば、その情報を利用者に提示して曖昧性の解消を行う
ためのユーザインタフェースを有する手段である。図2
8に示す通り、上述の解析結果A,B,C,D,E,
F,G,H,Iには、述部「読んでいる」および「座っ
ている」の主語にそれぞれ2種の格要素(「女性」「女
の子」および「女の子」「私」)が該当し得るという曖
昧性がある。
候補を利用者に提示することによって曖昧性の解消を行
う。これにより、c−structureを一意に決定
することができれば、そのc−strucureをタグ
付与手段26に渡し、決定できなければ正しい解析結果
として可能性の残るc−strucureの候補の集合
を非格要素確定手段24に渡す。
段20から得られる全ての非格要素およびその修飾先を
参照し、特定の文に対して非格要素の修飾先が一定しな
い部分(修飾先の曖昧性)があれば、その情報を利用者
に提示して曖昧性の解消を行うためのユーザインタフェ
ースを有する手段である。上述の解析結果A,B,C,
D,E,F,G,H,Iには、図29に示す修飾先の曖
昧性がある。
る場合、修飾関係の候補を利用者に提示することによっ
て曖昧性の解消を行う。これにより、c−struct
ureを一意に決定することが可能となり、得られたc
−strucureをタグ付与手段26に渡す。
段12が構文解析/意味解析を行う際に必要となる格構
造の一覧を保持する手段である。すなわち、動詞、形容
詞等の格構造を支配する単語の各々に対して、可能な格
構造を列挙し対応する単語の意味あるいは例文を付与す
るものである。動詞「すく」に対応する格構造記述の一
例を図59に示す。この格構造の一覧は、格構造確定手
段22が格構造の曖昧性を解消するためにも用いられ
る。
格構造確定手段22、格要素確定手段23、あるいは非
格要素確定手段24によって最終解析結果として確定さ
れれたc−structureを受け取り、得られた木
構造をタグの形式で解析対象文章保持手段11に保持さ
れている文章に付与する手段である。
一つの文に対する意味解析結果確定手段16の処理の流
れを説明する。 [ステップ31]:LFG解析手段12から入力文に対
する解析結果としてc−structureとf−st
ructureを受け取る。c−structureの
候補が一つの場合は[ステップ39]へ進む。そうでな
ければ[ステップ32]へ進む。 [ステップ32]:述部の曖昧性があれば[ステップ3
3]へ進む。そうでなければ[ステップ34]へ進む。
(全ての解析結果で述部が同じあれば[ステップ34]
へ進む。そうでなければ[ステップ33]へ進む。) [ステップ33]:利用者に述部の候補を提示し、曖昧
性を解消する。c−strucureが一意に決定すれ
ば[ステップ39]へ進む。そうでなければ[ステップ
34]へ進む。 [ステップ34]:格構造の曖昧性があれば[ステップ
35]へ進む。そうでなければ[ステップ36]へ進
む。 [ステップ35]:利用者に格構造の候補、あるいは、
格構造の候補を表す意味を提示し、曖昧性を解消する。
c−strucureが一意に決定すれば[ステップ3
9]へ進む。そうでなければ[ステップ36]へ進む。 [ステップ36]:格要素の曖昧性があれば[ステップ
38]へ進む。そうでなければ[ステップ37]へ進
む。 [ステップ37]:利用者に格要素の候補を提示し、曖
昧性を解消する。c−strucureが一意に決定す
れば[ステップ39]へ進む。そうでなければ[ステッ
プ38]へ進む。 [ステップ38]:利用者に非格要素の修飾先の候補を
提示し、曖昧性を解消する。[ステップ39]へ進む。 [ステップ39]:決定したc−structureを
取得し、対応する構文タグを入力文に付与する。
っている女の子が娘です。」を入力文とした場合の処理
の流れを説明する。入力文から得られるc−struc
tureは、前述の通り図5〜図13の9種である。ま
た、それぞれのc−structureに対して一つず
つのf−structure(図14〜図22)が得ら
れる。一般には、一つのc−structureに対し
て複数のf−strucureが得られるが、図30で
説明したフローチャートの処理に何ら変更を加える必要
はない。
た通り、「読んでいる」「座っている」「娘です」の3
つを述部とする解析結果(A,C,D,E,F,G,
H,I)と、「読んでいる」「妹だ」「座っている」
「娘です」の4つを述部とする解析結果(B)とが存在
する。したがって、[ステップ33]において図31の
ようなユーザインタフェースを用いることにより、「妹
だ」が述部であるか否かを利用者に確認する。この場
合、「妹だ」は述部であるため「成立する。」が選択さ
れる。よって、解析結果はB(図6のc−struct
ure)に一意に決定し、[ステップ39]によって図
6に対応するタグ付けが行われる。
満員の観光客で賑わっていたリゾート施設がここで
す。」を入力文とした場合の処理の流れを説明する。こ
の文は上記の文「本を読んでいる女性は私の妹で座って
いる女の子が娘です。」と比べて、名詞/動詞の単語お
よび時制を変えただけの文であり、見かけの構造は全く
同じである。したがって、LFG解析手段12から、図
5〜図13および図14〜図22に示したものと同じ構
造を持つ9種のc−structureおよびf−st
ructureが得られることになる。この9つの解析
結果候補を上記と同様にA,B,C,D,E,F,G,
H,Iと呼ぶことにする。
において図32のようなユーザインタフェースを用いる
ことにより、「観光客だ(で)」が述部であるか否かを
利用者に確認する。この場合、「観光客だ(で)」は述
部でないため「成立しない。」が選択される。よって、
解析結果はB以外の8つの候補に絞られる。
おいても、格構造の曖昧性は存在しないため、[ステッ
プ34]は実行されない。
いても、図33に示すような格要素の曖昧性が存在す
る。すなわち、「申告している」の主語として「一昔
前」および「リゾート施設」の両者が成り立ち得る。
(「申告している」の目的語は常に「破産申請」であり
曖昧性は生じていない。)また、「賑わっていた」の主
語として「リゾート施設」および「満員」の両者が成り
立ち得る。したがって、[ステップ37]において図3
4および図35のようなユーザインタフェースを用いる
ことにより、格要素の曖昧性解消を行う。図34では
「リゾート施設が」が選択され、図33を参照すること
によって、解析結果の候補は「F,G」に絞られる。さ
らに、図35でも「リゾート施設が」が選択され解析結
果はF(図36のc−structure)に一意に決
定し、[ステップ39]によって図36に対応するタグ
付けが行われる。
の一人で過ごしている部屋が新居です。」を入力文とし
た場合の処理の流れを説明する。この文も上記の文「本
を読んでいる女性は私の妹で座っている女の子が娘で
す。」と比べて、名詞/動詞の単語および時制を変えた
だけの文であり、見かけの構造は全く同じである。した
がって、LFG解析手段12から、図5〜図13および
図14〜図22に示したものと同じ構造を持つ9種のc
−structureおよびf−structureが
得られることになる。この9つの解析結果候補を上記と
同様にA,B,C,D,E,F,G,H,Iと呼ぶこと
にする。
において図37のようなユーザインタフェースを用いる
ことにより、「一人だ(で)」が述部であるか否かを利
用者に確認する。この場合、「一人だ(で)」は述部で
ないため「成立しない。」が選択される。よって、解析
結果はB以外の8つの候補に絞られる。
おいても、格構造の曖昧性は存在しないため、[ステッ
プ34]は実行されない。
いても、図38に示すような格要素の曖昧性が存在す
る。すなわち、「持たない」の主語として「いつも」お
よび「部屋」の両者が成り立ち得る。(「持たない」の
目的語は常に「暖房設備」であり曖昧性は生じていな
い。)また、「過ごしている」の主語として「部屋」お
よび「彼女」の両者が成り立ち得る。したがって、[ス
テップ37]において図39および図40のようなユー
ザインタフェースを用いることにより、格要素の曖昧性
解消を行う。図39では「部屋が」が選択され、図38
を参照することによって、解析結果の候補は「F,G」
に絞られる。さらに、図40では「彼女が」が選択され
解析結果はG(図41のc−structure)に一
意に決定し、[ステップ39]によって図41に対応す
るタグ付けが行われる。
とした場合の処理は以下の通りである。この場合、LF
G解析手段12から図42および図43に示すc−st
ructureが得られる。また、図42のc−str
uctureに対応するf−structureとして
図44および図45が、図43のc−strucure
に対応するf−strucureとして図46が得られ
る。図44、図45、図46の解析結果をそれぞれA,
B,Cと呼ぶことにする。この場合、全ての解析結果
(A,B,C)において、述部は「すいている」と「待
った」で共通しており、述部の曖昧性はない。したがっ
て、[ステップ33]は実行されない。
の曖昧性が存在する。すなわち、「すいている」が主語
のみをとる格構造を持つ(自動詞)場合と、主語と目的
語の両者をとる格構造を持つ(他動詞)の場合とがあり
得る。したがって、図59を参照し、[ステップ35]
において図48のようなユーザインタフェースを用いる
ことにより、格構造の曖昧性解消を行う。図48では
(自動詞の)「すいている(空いている)」が選択さ
れ、解析結果はA(図44のc−structure)
に一意に決定し、[ステップ39]によって図44に対
応するタグ付けが行われる。
入力文とした場合の処理は以下の通りである。この場
合、文中の「は」および「も」がどちらも、主語あるい
は目的語を表現し得る係助詞であるため、LFG解析手
段12から図49〜図52に示す4つのc−struc
tureが得られる。また、各c−structure
に対応するf−structureとして図53〜図5
6が得られる。それぞれの解析結果をA,B,C,Dと
呼ぶことにする。この場合、全ての解析結果(A,B,
C,D)において、述部は「買った」で共通しており、
述部の曖昧性はない。したがって、[ステップ33]は
実行されない。また、全ての解析結果で格構造は「主語
―目的語―買った」で同じであり、格構造の曖昧性もな
い。したがって、[ステップ35]も実行されない。
の曖昧性が存在する。したがって、[ステップ37]に
おいて図58のようなユーザインタフェースを用いるこ
とにより、格構造の曖昧性解消を行う。図58では「彼
が」および「プラモデルと自転車を」が選択され、解析
結果はB(図50のc−structure)に一意に
決定し、[ステップ39]によって図50に対応するタ
グ付けが行われる。なお、図57を参照することにより
「彼が」が選択された時点で、目的語は「自転車を」か
「プラモデルと自転車を」のいずれかに絞り込まれるこ
とになる。
部の曖昧性、格構造の曖昧性、格要素の曖昧性、非格要
素の曖昧性の順に優先的に曖昧性の解消を行う構成をと
るものとした。これは、述部を中心とし格構造(文法役
割)を重視するLFG理論の考え方に基づくものであ
る。しかしながら、曖昧性の解消の順序は他の方法を採
用しても本発明の効果は同様である。例えば、確率付き
の構文解析手法を用い、構文解析結果に確率(信頼度)
が付与されている場合は、信頼度の高い構文解析結果に
対応する意味解析結果を優先してユーザに提示し曖昧性
解消を図る方式としても構わない。
章に付与する構成としたが、構文情報タグを別ファイル
へ格納し解析対象文章へのポインタを併記するといった
構成をとる場合でも、本発明の効果が変らないのは明ら
かである。
ステムは、計算機上のソフトウェアとして実現すること
が可能であり、また分散環境で言語処理を行うようにす
ることもできる。例えば、図60のようにネットワーク
200上に多数のホスト300A、300B、300
C、300D、300E、300Fを配置し、ワードプ
ロセッサ(あるいは音声認識システム等)400によっ
て作成されたテキストに対してタグ付与支援システム5
00によりタグを付与し、ネットワーク200を介して
データベース600に保存した後、必要に応じて機械翻
訳システム700等への入力として使用する構成が考え
られる。また、図61のように、タグの付与されていな
いテキストをデータベース600から取得した後に、機
械翻訳システム700の前処理としてタグ付与支援シス
テム500によりタグを付与することにより翻訳の精度
を向上させるといった利用法も考えられる。
結果候補をシステムの利用者に提示して修正を受けるこ
とにより誤りのない意味解析結果を取得し、得られた意
味解析結果に基づいて構文解析結果を決定することによ
って、正しい構文情報タグを文に付与することができる
構文情報タグ付与支援システムを提供することが可能と
なる。これによって、従来必要であった、図3のような
タグ付けを人手で行う、あるいは、図5等に示したよう
な構文木を人手で編集するといった言語学を学んだ者に
とっても困難な作業を行う必要がなくなり、替わって図
31、図32、図34、図35、図37、図39、図4
0、図48、図58に示したような平易かつ直感的な作
業を行うのみで同様のタグ付与を行うことができる。す
なわち、言語学に詳しくない者であっても、正しい構文
情報タグを従来技術と比較して極めて低いコストで付与
することが可能となる。結果として、例えば「本を読ん
でいる女性は私の妹で座っている女の子が娘です。」に
正しい構文情報タグが付与され、日英の機械翻訳結果と
して「The woman who is readi
ng a book is my younger s
ister anda sitting girl i
s a daughter.」という正しい翻訳結果を
得ることができる。これに対して、タグが付与されてい
ない場合、現状の機械翻訳システムでは正しい構文解析
結果が得られないため、「The girl on w
hom the woman who is read
inga book is sitting by m
y younger sister is a dau
ghter.」といった誤った翻訳結果が出力されるこ
とになる。
システムの構成を示す図である。
る。
トの一例を示す図である。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
る。
図である。
図である。
念図である。
表である。
示す表である。
示す表である。
示す表である。
ーチャートである。
である。
である。
示す表である。
である。
である。
る。
である。
示す表である。
である。
である。
る。
る。
る。
る。
る。
る。
示す表である。
である。
る。
る。
る。
る。
る。
る。
る。
る。
示す表である。
である。
ムの利用形態例を示す図である。
ムの利用形態例を示す図である。
Claims (23)
- 【請求項1】 構文解析の対象となる文の集合を保持す
る解析対象文章保持手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して構文解析処理を施し、文の係り受け関係等の
構文解析結果候補を出力する構文解析手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して意味解析処理を行い、文の格構造等の意味解
析結果候補を出力する意味解析手段と、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持手段と、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを有する意
味解析結果確定手段と、 確定した意味解析結果と上記解析結果保持手段に保持さ
れた解析結果情報に基づき構文解析結果を確定する構文
解析結果確定手段と、 確定した構文解析結果に基づき、上記解析対象文章保持
手段に保持されているそれぞれの文に対して構文情報を
示すタグを付与するタグ付与手段と、を備えることを特
徴とする構文情報タグ付与支援システム。 - 【請求項2】 構文解析の対象となる文の集合を保持す
る解析対象文章保持手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して構文解析処理を施し、文の係り受け関係等の
構文解析結果候補を出力する構文解析手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して意味解析処理を行い、文の格構造等の意味解
析結果候補を出力する意味解析手段と、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持手段と、 上記構文解析手段から得られる上記構文解析結果候補と
上記意味解析手段から得られる上記意味解析結果候補に
基づき、解析結果を特定するために必要となる少なくと
も1つの選択項目を利用者に提示し、上記利用者に正し
い意味解析結果を選択させるユーザインタフェースを有
する意味解析結果確定手段と、 確定した意味解析結果と上記解析結果保持手段に保持さ
れた解析結果情報に基づき構文解析結果を確定する構文
解析結果確定手段と、 確定した構文解析結果に基づき、上記解析対象文章保持
手段に保持されているそれぞれの文に対して構文情報を
示すタグを付与するタグ付与手段と、を備えることを特
徴とする構文情報タグ付与支援システム。 - 【請求項3】 構文解析の対象となる文の集合を保持す
る解析対象文章保持手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して構文解析処理を施し、文の係り受け関係等の
構文解析結果候補を出力する構文解析手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して意味解析処理を行い、文の格構造等の意味解
析結果候補を出力する意味解析手段と、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持手段と、 上記構文解析手段から得られる上記構文解析結果候補と
上記意味解析手段から得られる上記意味解析結果候補に
基づき、解析結果を特定するために必要となる複数の選
択項目を所定の優先順位で利用者に提示し、上記利用者
に正しい意味解析結果を選択させるユーザインタフェー
スを有する意味解析結果確定手段と、 確定した意味解析結果と上記解析結果保持手段に保持さ
れた解析結果情報に基づき構文解析結果を確定する構文
解析結果確定手段と、 確定した構文解析結果に基づき、上記解析対象文章保持
手段に保持されているそれぞれの文に対して構文情報を
示すタグを付与するタグ付与手段と、を備えることを特
徴とする構文情報タグ付与支援システム。 - 【請求項4】 上記構文解析手段から得られる上記構文
解析結果候補と上記意味解析手段から得られる上記意味
解析結果候補に基づき、上記複数の選択項目を提示する
上記優先順位を決定する選択項目決定手段をさらに有す
る請求項3記載の構文情報タグ付与支援システム。 - 【請求項5】 上記選択項目決定手段が、述部の曖昧
性、格構造の曖昧性、格要素の曖昧性、非格要素の修飾
先の曖昧性の順に、選択項目の優先順位を決定する請求
項4記載の構文情報タグ付与支援システム。 - 【請求項6】 上記構文解析手段が確率付構文木を出力
し、選択項目決定手段が構文木の信頼度に基づいて選択
項目の優先順位を決定する請求項4記載の構文情報タグ
付与支援システム。 - 【請求項7】 上記意味解析手段が文法役割による分類
に基づいた格情報を出力する請求項1〜6のいずれかに
記載の構文情報タグ付与支援システム。 - 【請求項8】 上記意味解析手段が、意味役割による分
類に基づいた格情報を出力する請求項第1〜6のいずれ
かに記載の構文情報タグ付与支援システム。 - 【請求項9】 構文解析の対象となる文の集合を保持す
る解析対象文章保持ステップと、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して構文解析処理を施し、文の係り受け
関係等の構文解析結果候補を出力する構文解析ステップ
と、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して意味解析処理を行い、文の格構造等
の意味解析結果候補を出力する意味解析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを用いて意
味解析結果を確定する意味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、 確定した構文解析結果に基づき、上記解析対象文章保持
ステップにより保持されているそれぞれの文に対して構
文情報を示すタグを付与するタグ付与ステップと、を有
することを特徴とする構文情報タグ付与支援方法。 - 【請求項10】 構文解析の対象となる文の集合を保持
する解析対象文章保持ステップと、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して構文解析処理を施し、文の係り受け
関係等の構文解析結果候補を出力する構文解析ステップ
と、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して意味解析処理を行い、文の格構造等
の意味解析結果候補を出力する意味解析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを用いて意
味解析結果を確定する意味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、 確定した構文解析結果に基づき、上記解析対象文章保持
ステップにより保持されているそれぞれの文に対して構
文情報を示すタグを付与するタグ付与ステップとをコン
ピュータに実行させるために用いられることを特徴とす
る構文情報タグ付与支援用コンピュータプログラム。 - 【請求項11】 構文解析の対象となる文に対して構文
解析処理を施し、文の係り受け関係等の構文解析結果候
補を出力する構文解析手段と、 上記構文解析の対象となる文に対して意味解析処理を行
い、文の格構造等の意味解析結果候補を出力する意味解
析手段と、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持手段と、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを有する意
味解析結果確定手段と、 確定した意味解析結果と上記解析結果保持手段に保持さ
れた解析結果情報に基づき構文解析結果を確定する構文
解析結果確定手段と、を備えることを特徴とする文章解
析システム。 - 【請求項12】 構文解析の対象となる文に対して構文
解析処理を施し、文の係り受け関係等の構文解析結果候
補を出力する構文解析ステップと、 上記構文解析の対象となる文に対して意味解析処理を行
い、文の格構造等の意味解析結果候補を出力する意味解
析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを用いて意
味解析結果を確定する意味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、を有することを特徴
とする文章解析方法。 - 【請求項13】 構文解析の対象となる文に対して構文
解析処理を施し、文の係り受け関係等の構文解析結果候
補を出力する構文解析ステップと、 上記構文解析の対象となる文に対して意味解析処理を行
い、文の格構造等の意味解析結果候補を出力する意味解
析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを用いて意
味解析結果を確定する意味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、 をコンピュータに実行させるために用いられることを特
徴とする文章解析用コンピュータプログラム。 - 【請求項14】 構文解析の対象となる文の集合を保持
する解析対象文章保持手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して構文解析処理を施し、文の係り受け関係等の
構文解析結果候補を出力する構文解析手段と、 上記解析対象文章保持手段に保持されているそれぞれの
文に対して意味解析処理を行い、文の格構造等の意味解
析結果候補を出力する意味解析手段と、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持手段と、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを有する意
味解析結果確定手段と、 確定した意味解析結果と上記解析結果保持手段に保持さ
れた解析結果情報に基づき構文解析結果を確定する構文
解析結果確定手段と、 確定した構文解析結果に基づき、上記解析対象文章保持
手段に保持されているそれぞれの文に対して構文情報を
示すタグを付与するタグ付与手段と、 上記タグ付与手段により構文情報を示すタグが付与され
た文を出力する文出力手段と、を備えることを特徴とす
る構文情報タグ付文作成システム。 - 【請求項15】 請求項14記載の構文情報タグ付文作
成システムから出力された構文情報タグ付文を記憶した
記録媒体。 - 【請求項16】 構文解析の対象となる文の集合を保持
する解析対象文章保持ステップと、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して構文解析処理を施し、文の係り受け
関係等の構文解析結果候補を出力する構文解析ステップ
と、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して意味解析処理を行い、文の格構造等
の意味解析結果候補を出力する意味解析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを用いて意
味解析結果を確定する意味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、 確定した構文解析結果に基づき、上記解析対象文章保持
ステップにより保持されているそれぞれの文に対して構
文情報を示すタグを付与するタグ付与ステップと、 上記タグ付与ステップにより構文情報を示すタグが付与
された文を出力する文出力ステップと、を有することを
特徴とする構文情報タグ付文作成方法。 - 【請求項17】 構文解析の対象となる文の集合を保持
する解析対象文章保持ステップと、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して構文解析処理を施し、文の係り受け
関係等の構文解析結果候補を出力する構文解析ステップ
と、 上記解析対象文章保持ステップにより保持されているそ
れぞれの文に対して意味解析処理を行い、文の格構造等
の意味解析結果候補を出力する意味解析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを用いて意
味解析結果を確定する意味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、 確定した構文解析結果に基づき、上記解析対象文章保持
ステップにより保持されているそれぞれの文に対して構
文情報を示すタグを付与するタグ付与ステップと、 上記タグ付与ステップにより構文情報を示すタグが付与
された文を出力する文出力ステップと、をコンピュータ
に実行させるために用いられることを特徴とする構文情
報タグ付文作成用コンピュータプログラム。 - 【請求項18】 構文解析の対象となる第1の自然言語
で記述された文に対して構文解析処理を施し、文の係り
受け関係等の構文解析結果候補を出力する構文解析手段
と、 上記文に対して意味解析処理を行い、文の格構造等の意
味解析結果候補を出力する意味解析手段と、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持手段と、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを有する意
味解析結果確定手段と、 確定した意味解析結果と上記解析結果保持手段に保持さ
れた解析結果情報に基づき構文解析結果を確定する構文
解析結果確定手段と、 確定した構文解析結果に基づき、上記第1の自然言語で
記述された文を第2の自然言語で記述された文に変換す
る言語変換手段と、を備えることを特徴とする機械翻訳
システム。 - 【請求項19】 構文解析の対象となる第1の自然言語
で記述された文に対して構文解析処理を施し、文の係り
受け関係等の構文解析結果候補を出力する構文解析ステ
ップと、 上記文に対して意味解析処理を行い、文の格構造等の意
味解析結果候補を出力する意味解析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを有する意
味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、 確定した構文解析結果に基づき、上記第1の自然言語で
記述された文を第2の自然言語で記述された文に変換す
る言語変換ステップと、を有することを特徴とする機械
翻訳方法。 - 【請求項20】 構文解析の対象となる第1の自然言語
で記述された文に対して構文解析処理を施し、文の係り
受け関係等の構文解析結果候補を出力する構文解析ステ
ップと、 上記文に対して意味解析処理を行い、文の格構造等の意
味解析結果候補を出力する意味解析ステップと、 上記構文解析結果候補と上記意味解析結果候補および両
者の間の対応関係を保持する解析結果保持ステップと、 上記意味解析結果の候補を利用者に提示し、正しい意味
解析結果を選択させるユーザインタフェースを有する意
味解析結果確定ステップと、 確定した意味解析結果と上記解析結果保持ステップによ
り保持された解析結果情報に基づき構文解析結果を確定
する構文解析結果確定ステップと、 確定した構文解析結果に基づき、上記第1の自然言語で
記述された文を第2の自然言語で記述された文に変換す
る言語変換ステップと、をコンピュータに実行させるた
めに用いられることを特徴とする機械翻訳用コンピュー
タプログラム。 - 【請求項21】 構文解析の対象となる文から生成され
た複数の構文解析結果候補、および上記構文解析の対象
となる文から生成された複数の意味解析結果候補を記憶
する手段と、 上記記憶手段に記憶されている意味解析結果候補を用い
て、述部の曖昧性、格構造の曖昧性、格要素の曖昧性、
非格要素の修飾先の曖昧性のうち一つ以上を解消させる
べく操作者に選択させることによって、意味解析結果を
確定する意味解析結果確定手段と、 上記意味解析結果確定手段により確定した意味解析結果
に応じて、上記記憶手段に記憶されている複数の構文解
析結果候補から構文解析結果を確定する構文解析結果確
定手段と、を具備することを特徴とする文章解析システ
ム。 - 【請求項22】 構文解析の対象となる文から生成され
た複数の意味解析結果候補から、述部の曖昧性、格構造
の曖昧性、格要素の曖昧性、非格要素の修飾先の曖昧性
のうち一つ以上を解消させるべく操作者に選択させるこ
とによって、意味解析結果を確定する意味解析結果確定
ステップと、 上記確定した意味解析結果に応じて、上記構文解析の対
象となる文から生成された意味解析結果候補に対応する
構文解析結果を確定する構文解析結果確定ステップと、
を有することを特徴とする文章解析方法。 - 【請求項23】 構文解析の対象となる文から生成され
た複数の意味解析結果候補から、述部の曖昧性、格構造
の曖昧性、格要素の曖昧性、非格要素の修飾先の曖昧性
のうち一つ以上を解消させるべく操作者に選択させるこ
とによって、意味解析結果を確定する意味解析結果確定
ステップと、 上記確定した意味解析結果に応じて、上記構文解析の対
象となる文から生成された意味解析結果候補に対応する
構文解析結果を確定する構文解析結果確定ステップと、
をコンピュータに実行させるために用いられることを特
徴とする文章解析用コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002043697A JP2003242136A (ja) | 2002-02-20 | 2002-02-20 | 構文情報タグ付与支援システムおよび方法 |
US10/368,445 US20030158723A1 (en) | 2002-02-20 | 2003-02-20 | Syntactic information tagging support system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002043697A JP2003242136A (ja) | 2002-02-20 | 2002-02-20 | 構文情報タグ付与支援システムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003242136A true JP2003242136A (ja) | 2003-08-29 |
Family
ID=27678426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002043697A Pending JP2003242136A (ja) | 2002-02-20 | 2002-02-20 | 構文情報タグ付与支援システムおよび方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20030158723A1 (ja) |
JP (1) | JP2003242136A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015506511A (ja) * | 2011-12-27 | 2015-03-02 | コーニンクレッカ フィリップス エヌ ヴェ | テキスト分析システム |
US10311867B2 (en) | 2015-03-20 | 2019-06-04 | Kabushiki Kaisha Toshiba | Tagging support apparatus and method |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4718687B2 (ja) | 1999-03-19 | 2011-07-06 | トラドス ゲゼルシャフト ミット ベシュレンクテル ハフツング | ワークフロー管理システム |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
WO2003005166A2 (en) * | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
WO2004001623A2 (en) | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US20050108630A1 (en) * | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US20100262621A1 (en) * | 2004-03-05 | 2010-10-14 | Russ Ross | In-context exact (ice) matching |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
GB2414573B (en) * | 2004-05-26 | 2007-08-08 | Advanced Risc Mach Ltd | Control of access to a shared resource in a data processing apparatus |
GB2417103A (en) * | 2004-08-11 | 2006-02-15 | Sdl Plc | Natural language translation system |
JP5452868B2 (ja) | 2004-10-12 | 2014-03-26 | ユニヴァーシティー オブ サザン カリフォルニア | トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング |
JP4645242B2 (ja) * | 2005-03-14 | 2011-03-09 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2006252382A (ja) * | 2005-03-14 | 2006-09-21 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP4635659B2 (ja) * | 2005-03-14 | 2011-02-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP4654776B2 (ja) * | 2005-06-03 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP4654780B2 (ja) * | 2005-06-10 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US8676563B2 (en) * | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
JP5071373B2 (ja) * | 2006-02-27 | 2012-11-14 | 日本電気株式会社 | 言語処理装置、言語処理方法および言語処理用プログラム |
US20070219773A1 (en) * | 2006-03-17 | 2007-09-20 | Xerox Corporation | Syntactic rule development graphical user interface |
JP2007287134A (ja) * | 2006-03-20 | 2007-11-01 | Ricoh Co Ltd | 情報抽出装置、及び情報抽出方法 |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9122674B1 (en) * | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US8990064B2 (en) * | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) * | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10528664B2 (en) | 2017-11-13 | 2020-01-07 | Accenture Global Solutions Limited | Preserving and processing ambiguity in natural language |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US10747958B2 (en) * | 2018-12-19 | 2020-08-18 | Accenture Global Solutions Limited | Dependency graph based natural language processing |
US11281864B2 (en) * | 2018-12-19 | 2022-03-22 | Accenture Global Solutions Limited | Dependency graph based natural language processing |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06195373A (ja) * | 1992-12-24 | 1994-07-15 | Sharp Corp | 機械翻訳装置 |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US6360197B1 (en) * | 1996-06-25 | 2002-03-19 | Microsoft Corporation | Method and apparatus for identifying erroneous characters in text |
US5895464A (en) * | 1997-04-30 | 1999-04-20 | Eastman Kodak Company | Computer program product and a method for using natural language for the description, search and retrieval of multi-media objects |
US6223150B1 (en) * | 1999-01-29 | 2001-04-24 | Sony Corporation | Method and apparatus for parsing in a spoken language translation system |
US6434523B1 (en) * | 1999-04-23 | 2002-08-13 | Nuance Communications | Creating and editing grammars for speech recognition graphically |
US6999963B1 (en) * | 2000-05-03 | 2006-02-14 | Microsoft Corporation | Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations |
US6965857B1 (en) * | 2000-06-02 | 2005-11-15 | Cogilex Recherches & Developpement Inc. | Method and apparatus for deriving information from written text |
US6970860B1 (en) * | 2000-10-30 | 2005-11-29 | Microsoft Corporation | Semi-automatic annotation of multimedia objects |
US7080004B2 (en) * | 2001-12-05 | 2006-07-18 | Microsoft Corporation | Grammar authoring system |
-
2002
- 2002-02-20 JP JP2002043697A patent/JP2003242136A/ja active Pending
-
2003
- 2003-02-20 US US10/368,445 patent/US20030158723A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015506511A (ja) * | 2011-12-27 | 2015-03-02 | コーニンクレッカ フィリップス エヌ ヴェ | テキスト分析システム |
US10311867B2 (en) | 2015-03-20 | 2019-06-04 | Kabushiki Kaisha Toshiba | Tagging support apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
US20030158723A1 (en) | 2003-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003242136A (ja) | 構文情報タグ付与支援システムおよび方法 | |
Bird et al. | Seven dimensions of portability for language documentation and description | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
US20100121630A1 (en) | Language processing systems and methods | |
Riefer et al. | Mining process models from natural language text: A state-of-the-art analysis | |
JP2006338457A (ja) | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム | |
JP2007287134A (ja) | 情報抽出装置、及び情報抽出方法 | |
TWI735380B (zh) | 自然語言處理方法與其計算裝置 | |
Packard | Full forest treebanking | |
Arunthavanathan et al. | Support for traceability management of software artefacts using natural language processing | |
EP1655674A2 (en) | THIRD LANGUAGE TEXT GENERATING ALGORITHM BY MULTI−LINGUAL TEXT INPUTTING AND DEVICE AND PROGRAM THEREFOR | |
Schuurman et al. | Interacting Semantic Layers of Annotation in SoNaR, a Reference Corpus of Contemporary Written Dutch. | |
Alnajjar et al. | On editing dictionaries for uralic languages in an online environment | |
Abrate et al. | Sharing cultural heritage: the clavius on the web project | |
Bonial et al. | Current directions in english and arabic propbank | |
Bloodgood et al. | Data cleaning for xml electronic dictionaries via statistical anomaly detection | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
JP2008077512A (ja) | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム | |
KR101589626B1 (ko) | 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 | |
JP2006228242A (ja) | 翻訳装置、翻訳プログラム及び翻訳方法 | |
JP4588417B2 (ja) | 翻訳装置 | |
Jlaiel et al. | A semantic approach for automatic structuring and analysis of software process patterns | |
JP5909123B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP2001155017A (ja) | タグ付き文書作成装置およびそのプログラムを記録した記録媒体 | |
JP7302267B2 (ja) | 検索プログラム、検索方法及び検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070220 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070515 |