JP2005182794A - 言語的構造を正規化するためのデータ処理方法及び装置 - Google Patents

言語的構造を正規化するためのデータ処理方法及び装置 Download PDF

Info

Publication number
JP2005182794A
JP2005182794A JP2004360770A JP2004360770A JP2005182794A JP 2005182794 A JP2005182794 A JP 2005182794A JP 2004360770 A JP2004360770 A JP 2004360770A JP 2004360770 A JP2004360770 A JP 2004360770A JP 2005182794 A JP2005182794 A JP 2005182794A
Authority
JP
Japan
Prior art keywords
verb
noun
passage
syntactic
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004360770A
Other languages
English (en)
Other versions
JP4295203B2 (ja
Inventor
Denys Proux
プルー デニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2005182794A publication Critical patent/JP2005182794A/ja
Application granted granted Critical
Publication of JP4295203B2 publication Critical patent/JP4295203B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】同じ意味を持つが表現が異なる様々な文を共通の文構造へと正規化する。
【解決手段】対象となる文から構文上の依存関係を抽出し(S2100)、その中からbe動詞又はhave動詞を含む直接目的語関係を求め(S2200)、その直接目的語関係に現れる名詞を求め(S2300)、その名詞に派生形態論処理を適用し(S2400)、これにより求められたその名詞の派生形に動詞形が存在すれば(S2500)、関連する全ての依存関係において、be動詞又はhave動詞とその名詞形とをS2500で求めた動詞形に置換し(S2700)、所定の書き直し基準を適用して構文上の依存関係を書き直す(S2800)。
【選択図】図3

Description

本発明は、言語的構造を正規化するためのシステム及び方法に関する。
ユーザから入力されたキーワードに応じたユーザ基準に適合する文章の一節(text passage)を選び出す情報検索ツールが広く知られている。これらツールは、典型的には、キーワードを含んだすべての入手可能な一節を検索するものの、それら一節に対し言語学的或いは意味的又はその両方についての解析を行うことはない。
非特許文献1において、著者Christian Jacqueminは、文書データベースのコンテンツへのアクセスを改善するためのテクニックについて論じている。Jacqueminが論じたテクニックは、語の形態構文論(morpho-syntactic)的なバリエーションを含み、文書群の中から類似の用語や言語的表現を識別することに焦点を合わせている。しかし、文章の一節を正規化された構文構造へと書き直すことについては書かれていない。
文章に一節に対して実行される他の操作の中には、情報抽出及び談話処理(Information Extraction and Discourse Processing)がある。このような操作は、例えば、ユーザが他言語へ翻訳したい文章を入力し、システムがその翻訳を実行するような自動翻訳システムや、ユーザがクエリやサーチ要求を「"How is the BicD gene repressed?"(BicD遺伝子はどのように抑制されるのか)」などと自然言語の形態で入力するような自然言語質問システム等のようなものに適用されている。情報抽出及び談話処理のためには、記述されたエンティティ同士の意味的関係が必要である。このレベルでの情報処理は、典型的には、構文(統語)的な依存関係(dependencies)を抽出し、それからパターンマッチングを行って、予め定められた情報のパターンを見つけ出すことにより実行されている。このレベルでは、自然言語の複雑さが問題となる。なぜなら、同じ情報の断片が多くの異なる言語構造を用いて表現される可能性があるからである。したがって、文章の一節のなかの特定の情報を捉えるために、パターン設計者は、そのような言語構造を予期し、あり得るすべてのパターンのバリエーションを書かなければならない。例えば次の文を例にとる。
"Antp protein is a repressor of the BicD gene."(Antpタンパク質はBicD遺伝子のリプレッサーである。)
この文は、エンティティ"Antp protein" (Antpタンパク質)とエンティティ"BicD gene"(BicD遺伝子)との間での抑制の作用を記述している。この情報は次のようなパターンにより抽出できる。
"X is a repressor of Y"(XはYのリプレッサーである)
しかし同じ事実は次のような文でも記述できる。
"Antp protein represses the BicD gene."(Antpタンパク質はBicD遺伝子を抑制する。)
パターン: "X represses Y"(XはYを抑制する)
"Antp protein has a repressive effect on the BicD gene."(Antpタンパク質はBicD遺伝子に対する抑制効果を持つ。)
パターン: "X has a repressive effect on Y"(XはYに対する抑制効果を持つ)
などである。このことは、単純な情報の断片を得るのに多くのパターンが必要であることを示している。
本発明は、上記従来技術の問題点を解決する方法を提供する。
この発明の目的は、文章の一節を正規化すること、すなわち複雑な文章の意味構造を標準的なより単純な構造へと変形し、同一の情報を得るのに必要なパターンの数が少なくて済むようにすること、ができるようにすることである。
本発明は、構文(統語)上の依存関係を抽出し、その構文上の依存関係を構文書き直し規則と派生形態論処理(derivational morphology)を用いて変形する。本発明は、処理のために事前の意味論的な知識は必要としない。本発明は、純粋に語彙的、構文的なものとすることができる。後で詳細に説明する実施例はbe動詞やhave動詞を含む文に対して処理を行っているが、本発明は他の動詞に対しても、その動詞に応じた書き直し規則を用意すれば、同様に適用できることを了解されたい。
実施例では、文の内部のあまりにも一般的なbe動詞やhave動詞をその文の中の最も特徴的な名詞の動詞形に置き換える。例えば次の文、
"Antp protein is a strong repressor of the BicD gene."

"Antp protein strongly represses the BicD gene."
と変形される。この場合、次のような変換がなされている。
is → 0
repressor → repress
strong → strongly
また、次の文、
"Antp protein has a repressive effect on the BicD gene."
は、
"Antp protein represses the BicD gene."
と変形される。この場合、次のような変換がなされている。
has → 0
repressive → repress
effect → 0
本発明は、例えば、自動翻訳ツールに適用することができ、文の複雑さを減らすことにより翻訳の正確さを高めることが期待される。このほかにも、データベースサーチエンジンのような情報抽出システムや質問応答ツールなどにも応用できる。
以下、図面を参照して、本発明を実施するための最良の形態(以下「実施形態」と呼ぶ)について説明する。
本実施形態は、その構文上の依存関係に基づき、構文書き直し規則と派生形態論処理(derivational morphology)を用いて、複雑な文章を単純化する。
図1は、本発明に係るデータ処理装置100の一実施形態を示す機能ブロック図である。データ処理装置は、入出力インタフェース110、コントローラ120、メモリ130、パーザー140、派生形態論処理装置150、及び構文構造変形部160を備えており、これらはデータ/制御バス170を介して相互に接続されている。入出力インタフェース110は、リンク210を介してデータ供給源200に、リンク310を介してデータ出力先300に、それぞれ接続されている。
データ供給源200は、例えばローカル又はリモートに配置されたコンピュータ又はデータベースであるが、この他にも電子データを生成できる既知の又はこれから開発されるあらゆる装置であってもよい。同様に、データ供給源200は、ネットワークのクライアントやサーバなどのように電子データを格納したり送信ししたりする様々な装置であってもよい。またこの代わりに、データ供給源200は、磁気ディスクや光ディスクなどの可搬型の記憶媒体であってもよく、この場合その記憶媒体はデータ処理装置100に内蔵されるか外部接続された、その媒体を読めるディスクドライブによりアクセスされる。データ供給源200はデータ処理装置100に対し、モデムやローカルエリアネットワーク、ワイドエリアネットワーク、イントラネット、インターネット、その他のあらゆる分散処理ネットワークなどのような接続手段、或いはその他の公知の或いはこれから開発される接続手段を介して接続することができる。データ供給源200は、ユーザが要求を入力したサーチエンジンや自動翻訳ツールなど、(本処理装置100から見て)他の処理装置やデバイス(図示省略)からの出力である場合もある。
電子データは、データ処理装置100で処理される直前、或いは処理されている間でさえも、生成され得るものであることはもちろん、電子データは過去のいつの時点に生成されたものであってもよいことも理解されるべきである。したがって、データ供給源200は、リンク210を介してデータ処理装置100に電子データを供給することができるものなら、公知の又はこれから開発されるどのような装置であってもよい。またリンク210は、したがって、データ供給源200からデータ処理装置100へと電子データを伝送するものであれば、公知の又はこれから開発されるどのようなシステムや装置であってもよい。
データ出力先300は、データ処理装置100が処理した電子データをリンク310を介して受け取ることができる公知の又はこれから開発されるあらゆるシステムであり得る。典型的には、ユーザはデータ処理装置100の処理結果そのものを直接目にすることはないであろう。むしろユーザは、典型的には、データ処理装置100の処理の結果を一部分として含む更なる情報を検討するであろう。例えば、データ処理装置100がデータベースサーチエンジンの一部であれば、ユーザはサーチ要求を例えば自然言語でタイプ入力する。ユーザにより入力された自然言語のサーチ要求の一例が、"How is the BicD gene repressed?" である。すると、これに関連する文章の一節がデータベースから抽出され、返されてユーザの閲覧に供される。別の例として、データ処理装置100が自動翻訳ツールの一部であれば、ユーザは翻訳すべきテキスト文を入力し、この翻訳要求に対する処理が完了した後でその翻訳結果を閲覧することになる。
このように、データ処理装置100の処理の直接の結果は、典型的にはユーザには見えないものであり、ユーザに表示する他の情報を生成するためにシステムにより使用されるのである。したがって、データ出力先300はサーチエンジンや自動翻訳ツールなどのような他の処理部や装置への入力であってもよく、これら処理部や装置は更にコンピュータやテレビモニタ、印刷エンジンその他のようなデータ出力先へ接続される。データ出力先300は、磁気ディスクや光ディスク、コンピュータメモリその他のような、処理されたデータを後で入力するために格納しておくためのデバイスであってもよい。
データ処理装置100は、サーチエンジンや自動翻訳ツール等の他の大きなシステムに直接に組み込まれるものであってもよいことは理解されるべきである。この場合、パーザー140、派生形態論処理装置150及び構文構造変形部160のうちの1つ又はすべては、その大きなシステムに直接にリンクされていてもよいし、この場合入出力インタフェース110、コントローラ120及びメモリ130のうちの1つ或いはすべては無くてもよい。
リンク210及び310の一方又は両方は、1本乃至複数本の電気ケーブル又は光ケーブルのような直接のリンクであってもよい。またリンク210及び310の一方又は両方は、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、イントラネット、他の分散処理ネットワークや分散記憶ネットワークなどであってもよい。更にリンク210及び310の一方又は両方は、無線リンクであってもよいし、その一部に無線リンクを含んでいてもよい。
コントローラ120は、データ処理装置100を構成する他の構成要素の動作を必要に応じて制御し、必要なあらゆる計算を実行し、このデータ処理装置100及びその各構成要素の処理を実現するのに必要なあらゆるプログラムを実行し、必要に応じてデータ処理装置100内の他の構成要素との間のデータの流れを制御する。
メモリ130は、データ処理装置100に対し入ってくる又は出て行く情報のためのバッファとしての機能、データ処理装置100の諸機能を実現するために必要なプログラムやデータ或いはその両方を格納する機能、及び処理の様々な段階でのデータを記憶する機能、のうちの1つ以上を果たす。更に、メモリ130は、図には1つの実態として示されているが、実際には分散記憶であってもよい。メモリ130の可変部分は、様々な実施例において、SRAM(static random access memory)やDRAM(dynamic RAM)等を用いて実現できる。しかし、メモリ130は、フレキシブルディスクとそのディスクドライブ、書込可能な光ディスクとそのディスクドライブ、ハードディスクドライブ、フラッシュメモリなどにより実現してもよい。メモリ130のうちの一般に静的な部分は、様々な実施例において、ROM(read only memory)である。しかし、その静的部分は、他の不揮発性メモリ、例えばPROM(programmable ROM)、EPROM(erasable programmable ROM)、EEPROM(electrically erasable programmable ROM)、CD−ROMやDVD−ROMなどのような光ROMディスクとそのディスクドライブ、上述のようなフラッシュメモリその他の可変メモリなど、を用いて実装することもできる。
パーザー140は、入力された文章の一節、例えば典型的には一つの文、から構文的な依存関係を抽出するために用いられる。好適なパーザーの例は、フィンランドの会社Connexorから入手できるMACHINESE SYNTAXという製品である。しかしながら、一節の中、特に文の中の語の後述される依存関係のような構文的な依存関係を抽出できるパーザーであれば、どのようなものでも用いることができることが理解されるべきである。
派生形態論処理は、入力された語を語根と語尾とに分ける語彙的な処理であり、同じ語根を用いて複数のあり得る語を生成する。従って、例えば "operation"と言う語から始めると、派生形態論処理装置150は、名詞 "operator", "operability"、形容詞"operational",、及び副詞"operationally"を生成する。派生形態論処理装置150の一例としては、フランスの会社TemisがXELDAの名で提供している言語サービスプラットフォームを挙げることができるが、これに限らず、与えられた語根から1個以上の異なる語を生成できる装置又はプログラムであればどのようなものでもよいことは理解されるべきである。以下の説明を読めば了解されることだが、本実施形態は、生成された複数のあり得る語のうちのただ1つ、すなわちその語の動詞形のみを用いるので、派生形態論処理装置150は語のすべての可能な語形を実際に生成する必要はない。
構文構造変形部160は、様々な基準に従って、パーザー140又は派生形態論処理装置150又はそれら両方から得られた情報を用いて、構文的な依存関係を変形又は書き直す。
パーザー140や、派生形態論処理装置150、構文構造変形部160等のように、図1に示した構成要素のうちの1つ乃至複数は、適切なプログラムを備えた汎用コンピュータの一部として実装することができることは理解されるべきである。この代わりに、それら構成要素は、物理的に個別のハードウエア回路として実装することもできる。このような各構成要素のハードウエア回路としては、ASIC内の回路、FPGA、PDL、PLA、PALを用いた回路、或いはディスクリートのロジック素子やディスクリートの回路素子を用いた回路など、様々なものがある。図1に示した各構成要素がどのような形態をとるのかは、設計上の選択事項であり、当業者には自明であり予想できるものであろう。
図2は、本実施形態の言語構造を正規化する処理手順を示すフローチャートである。図2において、手順はステップS1000から始まり、続くS1100で文を取得する。この文は、例えば、抽出してユーザに表示する候補であるデータベースからの文章の一節から取得したものでもよく、他の言語に翻訳すべきものとしてユーザがタイプ入力したり選択したりした文章から取得したものでもよい。手順はS1200に進み、その文がbe動詞又はhaveと直接目的語を含んでいるか否かが判定される。その文がbe動詞又はhaveと直接目的語を含んでいなければ、手順はS1300に進み、リターンする(すなわち処理を終了する)。すなわち、その文は既に単純な形であると判定され、それ以上の変形を要しない。一方、その文がbe動詞又はhaveと直接目的語を含んでいる場合は、手順はS1400に飛ぶ。
ステップS1400では、その文が過去分詞の前に来る名詞目的語を含んでいるか否かが判定される。その文が過去分詞の前に名詞目的語を含んでいる場合は、手順はステップS1500に進み、図4に示した部分手順を実行する。そうでなければ、手順はステップS1600へ飛ぶ。
ステップS1600では、その文が動作を表す現在分詞形の動詞を含んでいるか否かが判定される。もしその文が動作を表す現在分詞形の動詞を含んでいれば、手順はステップS1700に進み、図7に示した部分手順を実行する。そうでなければ、手順はステップS1800に進み、図3に示した部分手順を実行する。
図3は、本実施形態における言語構造を正規化するための第1の部分手順の例を示すフローチャートである。図3では、手順はステップS2000から始まり、続くS2100では文から構文上の依存関係が抽出される。
例えば、図2のステップS1100で取得された文が次の文であったとする。
"Antp protein is a strong repressor of the BicD gene."
この場合、抽出される構文的な依存関係は次のようになる。
SUBJECT (protein, be)
DIRECT OBJECT (be, repressor)
INDIRECT OBJECT (be, of, gene)
ADJECTIVE (strong, repressor)
NOUN MODIFIER (repressor, of, gene)
NOMINAL PHRASE (a strong repressor)
PREPOSITIONAL PHRASE (of the BicD gene)
NOMINAL PHRASE (Antp, protein)
となる。ここでSUBJECTは主語についての関係を示し、DIRECT OBJECTは直接目的語、INDIRECT OBJECTは間接目的語、ADJECTIVEは形容詞、NOUN MODIFIERは名詞に対する修飾語、NOMINAL PHRASEは名詞句、PREPOSITIONAL PHRASEは前置詞句、についての関係をそれぞれ示す。例えばSUBJECT (protein, be)は、"protein"が"be"の主語であるという関係を示し、NOUN MODIFIER (repressor, of, gene)は"of gene"が名詞"repressor"の修飾語であると言う関係を示している。また、NOMINAL PHRASE (a strong repressor)は、"a strong repressor"が名詞句であるという関係を示す。他の関係も英文法の知識から容易に理解できるであろう。
手順はステップS2200に進み、be動詞又はhave動詞を含んだ直接目的語の関係を取得する。この例では、be動詞又はhave動詞を含んだ直接目的語の関係は(be, repressor)である。
手順はステップS2300に進み、その直接目的語の関係に現れる名詞を取得する。例えばこの例では、直接目的語の関係に表れる名詞は"repressor" である。
手順は次にステップS2400に進み、その名詞に対して派生形態論処理を適用する。この例では、次のような派生形が得られる。
repression : NOUN(名詞)
repressive : ADJECTIVE(形容詞)
repress : VERB(動詞)
手順は次にステップS2500に進み、S2300で得た名詞の動詞形が存在するかどうかを判定する。もし動詞形が存在すれば、手順はステップS2600に進む。そうでなければ、処理対象の文はこれ以上単純化できないものである。したがって、方法はステップS2900に進み、その文を変形しないまま、処理を終了する。
ステップS2600では、その名詞の動詞形が取得される。この例では、取得される動詞形は"repress"である。
手順は更にステップS2700に進み、be動詞又はhave動詞と古い名詞形とを、すべての関連する依存関係の中での新しい動詞形に置き換える。この例では、ステップS2700の結果は次の表1に示すようなものとなる。
Figure 2005182794
手順は次にステップS2800に進み、構文的な依存関係を書き直す。
新しい動詞形への置き換えを含んだ構文的な依存関係の書き直しは、所定の基準に従って行われる。この基準は例えば次のようなものである
(1) DIRECT OBJECT (X, X) → 0
(2) If ∃( INDIRECT OBJECT (X, prep, Y) and
NOUN MODIFIER (X, prep, Y) and
( prep = "of" for a "be" verb or
prep = "on" for a "have" verb
)
)
then ( ( INDIRECT OBJECT (X, prep, Y) → DIRECT OBJECT (X, Y))
and (NOUN MODIFIER (X, prep, Y) → 0 ) )
(3) ADJECTIVE (adj, X) → ADVERB (adv, X)
ここで形容詞(adj)の副詞形は派生形態論処理を用いて既に作成されている→(adv)。
(4) NOMINAL PHRASE ( … X … ) → 0
(名詞句は新しい動詞形を含んでいる)
この基準において、矢印は関係の変換を示し、0はその関係が存在しないことをしめす。また"∃"は存在記号であり、"and"は論理積を、"or"は論理和を示す。また、"verb"は動詞、"prep"は前置詞、"adj"は形容詞、"adv"は副詞を示す。例えば「prep = "of" for a "be" verb」なる記述は「前置詞がbe動詞に対するofである」ことを意味する。if、thenは、公知のif-then形式と同様のものである。
この例では、構文的な依存関係の書き直しの結果は次の表2のようになる。
Figure 2005182794
この時点では、最初の文は次のように書き換えられる。
"Antp protein represses the BicD gene."
この書き直された文は、もし要求があるならば、ユーザに対して表示するようにしてもよい。新しい構文的な依存関係は、典型的には、この部分手順の最終結果となるであろうし、この場合その最終結果に基づき実際の文が生成されることは必ずしも必要ない。例えばサーチエンジンなどの情報抽出ツールの場合は、データ処理装置100が上記の新しい構文的な依存関係を求めると、その依存関係は候補となる文章の一節がユーザに対し提示するものとして適切か否かを判定するのに十分な情報を持っている。自動翻訳ツールの場合は、ユーザは一般的には翻訳の最終結果を見るだけである。
最後に、処理手順はステップS2900に進み、処理を終了する。
図4は、本実施形態での言語構造の正規化のための部分手順の第2の例を示すフローチャートである。図4に示した部分手順は、文がbe動詞と過去分詞の前にある名詞目的語とを含んでいる場合の例である。例えば次のような文である。
"Antp is a local inhibitor activated in embryonic cells."
この文が与えられた場合、仮に図3の部分手順なら次のような文を生成するであろう。
"Antp locally inhibits activated in embryonic cells."
これは文法的に正しくない。従って、この代わりに図4の部分手順が用いられる。
図4の部分手順はS3000にて始まり、次いでS3100では、対象の文から構文的な依存関係が抽出される。次にステップS3200に進み、be動詞やhave動詞を含む直接目的語関係を取得するとともに、名詞目的語を修飾する過去分詞を記述する関係(以下では "NOBJ-PAST-PART"と示されている。)例えば、この例では、文から得られる関係は次のようなものである。
SUBJECT (Antp, be)
DIRECT OBJECT (be, inhibitor)
INDIRECT OBJECT (be, in, cell)
ADJECTIVE (embryonic, cell)
ADJECTIVE (local, inhibitor)
NOBJ-PAST-PART (inhibitor, activate)
PREPOSITIONAL PHRASE (in small cells)
NOMINAL PHRASE (a local inhibitor)
NOMINAL PHRASE (Antp)
手順はステップS3300に進み、直接目的語の関係と名詞目的語を修飾する過去分詞を示す関係との両方に現れる名詞を取得する。この例では、"inhibitor"という名詞が取得される。次にステップS3400では、名詞目的語を修飾する過去分詞を示す関係に現れる過去分詞の能動形(active form)が、派生形態論処理を適用することにより求められる。この例では、過去分詞"activated"から能動形"activate"が求められる。
手順は次いでステップS3500に進み、例えば次のような基準に従って、構文上の依存関係の書き直しを実行する。
SUBJECT (X, Be) → DIRECT OBJECT (V, X)
DIRECT OBJECT (be, Y) → ATTRIBUTE (X, Y)
INDIRECT OBJECT (be, prep, Z) → INDIRECT OBJECT (V, prep, Z)
NOBJ-PAST-PART (Y, V) → 0
NOUN MODIFIER (Y, prep, Z) → 0
この例では、依存関係は表3に示すようになる。ここでATTRIBUTE (X, Y)は、YがXの属性を表すという関係を示す。
Figure 2005182794
図5は、図4の部分手順に従った構文的な変形の第1例の結果を示す依存関係グラフを示す図である。
もし文が、前置詞句(PREPOSITONAL PHRASE)の代わりに、be動詞と、過去分詞の動作主であって後置されたもの(以下ではPAGENTと表す)と、を含んでいる場合、ステップS3500での書き直し規則は少し違ったものとなる。この場合、be動詞を含んだ間接目的語関係に関係するPAGENTは、次のようにSUBJECT(主語)の依存関係に書き換えられる。
PAGENT ( V, prep, Z ) → SUBJECT ( Z, V )
INDIRECT OBJECT ( be, by, Z ) → 0
この例では、依存関係は次の表4に示すようになる。
Figure 2005182794
この場合の構文的な依存関係の変形の結果は図6の依存関係グラフに示される。
図5及び図6に示したような、そして後述する図8に示すようなグラフ化は、上述した文の書き直しの代わりに、或いはその書き直しに加えて、本実施形態の方法又はシステムによって実行され得ることが理解されるべきである。必要であれば、書き直された文とともにそのグラフをユーザに対して表示することができるが、典型的には、グラフは、ユーザに対する最終的な出力を生成するために、本実施形態の方法又はシステムによって内部的に利用される。
構文的な依存関係が書き直され、又はグラフ化され、或いはその両方がなされると、処理手順はステップS3600に進み、処理を終える。
図7は、本実施形態における言語構造の正規化の部分手順の第3の例を示すフローチャートである。図7に示した部分手順は、be動詞と能動形の現在分詞とを含む文の場合の例である。例えば次のような文である。
"Antp is a local inhibitor activating the BicD gene."
この処理手順はステップS4000から始まり、次いでステップS4100では文から構文的な依存関係を抽出する。続いてステップS4200では、be動詞やhave動詞を含んだ直接目的語の関係を取得するとともに、能動形の現在分詞の主語を記述する関係(以下ではSUB-ING-VERBと表す)を取得する。例えばこの例において上記の文から得られる関係は次のようになる。
SUBJECT (Antp, be)
DIRECT OBJECT (be, inhibitor)
DIRECT OBJECT (activate, gene)
ADJECTIVE (local, inhibitor)
SUB-ING-VERB (inhibitor,activate)
NOMINAL PHRASE (the BicD gene)
NOMINAL PHRASE (a local inhibitor)
NOMINAL PHRASE (Antp)
手順はステップS4300に進み、直接目的語の関係と能動形の現在分詞の主語を記述する関係の両方の関係に表れる名詞を求める。この例では、"inhibitor"がその名詞である。次にステップS4400で、その名詞とともに現れる現在分詞の動詞の能動形が、派生形態論処理を適用することにより求められる。この例では、現在分詞"activating"から能動形"activate"が求められる。
手順はステップS4500に進み、例えば次のような基準に従って、構文的な依存関係を書き直す。
SUBJECT ( X, be ) → SUBJECT ( X, V )
DIRECT OBJECT ( be,Y ) → ATTRIBUTE ( X, Y )
SUBJ-ING-VERB ( Y, V ) → 0
この例では、依存関係は次の表5に示すようになる。
Figure 2005182794
図8は、ステップS4500の構文上の変形の結果を示す依存関係グラフである。
再び図7を参照すると、手順は最後にステップS4600に達し、処理を終了する。
図1のデータ処理装置100は、プログラムより動作する単一の汎用コンピュータとして実現することもできるし、プログラムにより動作する複数の汎用コンピュータから構成することもできる。またデータ処理装置100は、特定用途コンピュータ、プログラム動作するマイクロプロセッサ又はマイクロコンピュータとその周辺の集積回路要素、ASICその他の集積回路、デジタルシグナルプロセッサ、ディスクリート素子回路のようなハードワイヤード電子回路乃至ロジック回路、PLDやPLA、FPGA、PALなどのプログラマブル・ロジック・デバイス、等として実現することもできる。一般に、図2〜4,7のフローチャートに示した処理、またはそれらの中の適切な部分を実行できる有限状態機械を実現できる装置であれば、どのようなものでも、この実施形態のデータ処理装置100を実現するために用いることができる。
更に、上述の手順は、例えば、オブジェクトや、様々なコンピュータやワークステーションのハードウエアプラットフォームで利用できる移植性のよいソースコードを作成できるオブジェクト指向ソフトウエア開発環境を用いて、ソフトウエアとして容易に実現することができる。また、この代わりに、上述のデータ処理装置100の適切な部分部分を、標準的な論理回路又はVLSIデザインを用いて、部分的に又は完全にハードウエアとして実装することもできる。本実施形態のシステムを実現するのにソフトウエアを用いるかハードウエアを用いるかは、速度又は効率又はその両方についてのシステムに対する要件や、特定の機能、及び実用化されている特定のソフトウエア又はハードウエアのシステム、或いはマイクロプロセッサ又はマイクロコンピュータのシステムに依存する。上述の処理システム及び方法は、この応用分野の通常の知識を有する者なら、公知の又はこれから開発されるシステム或いは構造、装置及び/又はソフトウエアを用いることにより、ここに示した機能上の説明とコンピュータ技術の一般的な知識から、過度の実験をすること無く、ハードウエア又はソフトウエアの形で容易に実現できる。
更に、上述の方法は、汎用コンピュータ、特定用途コンピュータ、マイクロプロセッサ等において実行されるソフトウエアの形で容易に実現できる。この場合、本実施形態の方法及びシステムは、パーソナルコンピュータに組み込まれたルーチンや、サーバやワークステーションに搭載された資源として実現することができる。このシステム及び方法は、また、情報抽出システムや自動翻訳ツール等のようなソフトウエアやハードウエア又はその両方を用いたシステムに対して物理的に組み込む形で実現することもできる。
本発明を上述の特定の実施形態との関連で説明してきたが、当業者ならば、本明細書の説明を読めば、多くの同等の変形例や変化形が可能なことが明らかであろう。したがって、上記実施形態はあくまで例示的なものであり、そのような実施形態に限定されるものと捉えるべきではない。本発明の技術的思想の範囲から逸脱することなく、上述の実施形態に対して様々な変形を施すことが可能である。
例えば、図2〜4,7に示した手順において、その中に示したステップの実行順序は変えることができるし、追加のステップを加えることも、いくつかのステップを全体的又は部分的に削除することも、そのような追加や削除の両方をすることもできる。
さらに、上述の派生形態論処理装置150が、例えば図3,4,7のステップS2400,S2600,S3400,S4400を実現するのに用いられる際、その装置150は、必要な処理手順を実現するのに必要な程度に、単純又は複雑でありさえすればよい。
以上説明したように、本実施形態によれば文法的な機能は果たすがそれ自体意味を含まないbe動詞やhave動詞などを含む構文を、文の特徴を示す意味ある動詞を核とした構文に変換することで、同じ意味を持つが表現が異なる様々な文を共通の文構造へと正規化することができる。
本発明に係るデータ処理装置の実施例を示す機能ブロック図である。 本発明に係る言語構造の正規化方法の例を示すフローチャートである。 本発明に係る言語構造の正規化方法の部分手順の第1の例を示すフローチャートである。 本発明に係る言語構造の正規化方法の部分手順の第2の例を示すフローチャートである。 図4の部分手順における構文変形の第1の例の結果を示す依存関係グラフを示す図である。 図4の部分手順における構文変形の第2の例の結果を示す依存関係グラフを示す図である。 本発明に係る言語構造の正規化方法の部分手順の第3の例を示すフローチャートである。 図4の部分手順における構文変形の第1の例の結果を示す依存関係グラフを示す図である。
符号の説明
100 データ処理装置、110 入出力インタフェース、120 コントローラ、130 メモリ、140 パーザー、150 派生形態論処理装置、160 構文構造変形部、200 データ供給源、300 データ出力先。

Claims (4)

  1. データを処理する方法であって、
    be動詞又はhave動詞の一方を含んだ文章の一節を取得する第1ステップと、
    該一節から第1の構文上の依存関係と第2の構文上の依存関係とを取得するステップであって、少なくとも前記第1の構文上の依存関係は主語とbe動詞又はhave動詞の一方との依存関係であるところの第2ステップと、
    be動詞とhave動詞の一方を前記第2の構文上の依存関係から求めた動詞に置き換えることにより前記第1の構文上の依存関係の意味を限定する第3ステップと、
    を有し、前記第3ステップでは、
    派生形態論処理を前記第2の構文上の依存関係に現れる少なくとも1つの語に適用し、
    前記派生形態論処理から得られる少なくとも1つの語の動詞形に基づき、構文書き直し基準を適用する、
    ことにより前be動詞とhave動詞の一方を前記第2の構文上の依存関係から求めた動詞に置き換える、
    方法。
  2. データを処理する方法であって、
    文章の一節を取得するステップと、
    その一節がbe動詞又はhave動詞の一方を含むか、その一節が名詞目的語とその後に続く過去分詞形の動詞を含むか、及びその一節が能動形の現在分詞形の動詞を含むか、を判定するステップと、
    その一節がbe動詞又はhave動詞の一方を含むが名詞目的語とその後に続く過去分詞形の動詞及び能動形の現在分詞形の動詞を含まない場合に、その一節から1以上の第1の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第1の直接目的語関係を求め、その第1の直接目的語関係に表れる第1の名詞の動詞形を求め、その第1の名詞の動詞形に基づき前記1以上の第1の構文上の依存関係を書き直すステップと、
    その一節がbe動詞又はhave動詞の一方を含むと共に名詞目的語とその後に続く過去分詞形の動詞を含むが能動形の現在分詞形の動詞は含まない場合に、その一節から1以上の第2の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第2の直接目的語関係を求め、前記第2の直接目的語関係と、前記名詞目的語とその後に続く過去分詞形の動詞を含む関係と、の両方に第2の名詞が現れることを確認し、前記過去分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第2の構文上の依存関係を書き直すステップと、
    その一節がbe動詞又はhave動詞の一方を含むと共に能動形の現在分詞形の動詞を含むが名詞目的語とその後に続く過去分詞形の動詞は含まない場合に、その一節から1以上の第3の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第3の直接目的語関係を求め、前記第3の直接目的語関係と、前記能動形の現在分詞形の動詞を含む関係と、の両方に第3の名詞が現れることを確認し、前記現在分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第3の構文上の依存関係を書き直すステップと、
    を有する方法。
  3. 文章の一節から構文上の依存関係を求めるパーザーと、
    入力された語の少なくとも1つの異形を求める派生形態論処理部と、
    その文章の一節の前記構文上の依存関係を変形する構文構造変形部と、
    前記パーザー、前記派生形態論処理部、及び前記構文構造変形部のうちの少なくとも1つの処理と連携して動作するコントローラと、
    を有し、該コントローラは、
    その文章の一節から、主語とbe動詞又はhave動詞の一方との依存関係である第1の構文上の依存関係と、第2の構文上の依存関係と、を取得し、
    前記be動詞とhave動詞の一方を前記第2の構文上の依存関係から求めた動詞に置き換え、派生形態論処理を前記第2の構文上の依存関係に現れる少なくとも1つの語に適用し、前記派生形態論処理から得られる少なくとも1つの語の動詞形に基づき、構文書き直し基準を適用することにより、前記第1の構文上の依存関係の意味を限定する、
    ことを特徴とするデータ処理装置。
  4. 文章の一節から構文上の依存関係を求めるパーザーと、
    入力された語の少なくとも1つの異形を求める派生形態論処理部と、
    その文章の一節の前記構文上の依存関係を変形する構文構造変形部と、
    前記パーザー、前記派生形態論処理部、及び前記構文構造変形部のうちの少なくとも1つの処理と連携して動作するコントローラと、
    を有し、該コントローラは、
    その一節がbe動詞又はhave動詞の一方を含むか、その一節が名詞目的語とその後に続く過去分詞形の動詞を含むか、及びその一節が能動形の現在分詞形の動詞を含むか、を判定し、
    その一節がbe動詞又はhave動詞の一方を含むが名詞目的語とその後に続く過去分詞形の動詞及び能動形の現在分詞形の動詞を含まない場合に、その一節から1以上の第1の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第1の直接目的語関係を求め、その第1の直接目的語関係に表れる第1の名詞の動詞形を求め、その第1の名詞の動詞形に基づき前記1以上の第1の構文上の依存関係を書き直し、
    その一節がbe動詞又はhave動詞の一方を含むと共に名詞目的語とその後に続く過去分詞形の動詞を含むが能動形の現在分詞形の動詞は含まない場合に、その一節から1以上の第2の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第2の直接目的語関係を求め、前記第2の直接目的語関係と、前記名詞目的語とその後に続く過去分詞形の動詞を含む関係と、の両方に第2の名詞が現れることを確認し、前記過去分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第2の構文上の依存関係を書き直し、
    その一節がbe動詞又はhave動詞の一方を含むと共に能動形の現在分詞形の動詞を含むが名詞目的語とその後に続く過去分詞形の動詞は含まない場合に、その一節から1以上の第3の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第3の直接目的語関係を求め、前記第3の直接目的語関係と、前記能動形の現在分詞形の動詞を含む関係との両方に第3の名詞が現れることを確認し、前記現在分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第3の構文上の依存関係を書き直す、
    ことを特徴とするデータ処理装置。
JP2004360770A 2003-12-19 2004-12-14 言語的構造を正規化するためのデータ処理装置 Expired - Fee Related JP4295203B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/739,214 US7440890B2 (en) 2003-12-19 2003-12-19 Systems and methods for normalization of linguisitic structures

Publications (2)

Publication Number Publication Date
JP2005182794A true JP2005182794A (ja) 2005-07-07
JP4295203B2 JP4295203B2 (ja) 2009-07-15

Family

ID=34523187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004360770A Expired - Fee Related JP4295203B2 (ja) 2003-12-19 2004-12-14 言語的構造を正規化するためのデータ処理装置

Country Status (3)

Country Link
US (2) US7440890B2 (ja)
EP (1) EP1544747A3 (ja)
JP (1) JP4295203B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009966A1 (en) * 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US20060277028A1 (en) * 2005-06-01 2006-12-07 Microsoft Corporation Training a statistical parser on noisy data by filtering
CN105095222B (zh) * 2014-04-25 2019-10-15 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN110347818B (zh) * 2019-07-18 2022-03-25 广州虎牙科技有限公司 分词统计方法、装置、电子设备及计算机可读存储介质
CN110825864A (zh) * 2019-11-13 2020-02-21 北京香侬慧语科技有限责任公司 一种获取问题答案的方法及装置
CN116227488B (zh) * 2023-05-09 2023-07-04 北京拓普丰联信息科技股份有限公司 一种文本分词的方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3067966B2 (ja) * 1993-12-06 2000-07-24 松下電器産業株式会社 画像部品を検索する装置及びその方法
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
GB9726654D0 (en) * 1997-12-17 1998-02-18 British Telecomm Data input and retrieval apparatus

Also Published As

Publication number Publication date
US7440890B2 (en) 2008-10-21
US20050137848A1 (en) 2005-06-23
US7957956B2 (en) 2011-06-07
EP1544747A3 (en) 2006-05-31
JP4295203B2 (ja) 2009-07-15
EP1544747A2 (en) 2005-06-22
US20080312908A1 (en) 2008-12-18

Similar Documents

Publication Publication Date Title
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
JP2004110835A (ja) 確認文を検索するための方法およびシステム
US20050137855A1 (en) Systems and methods for the generation of alternate phrases from packed meaning
US7957956B2 (en) Systems and methods for normalization of linguistic structures
JP5107556B2 (ja) 改善された中国語−英語翻訳ツール
US20120185496A1 (en) Method of and a system for retrieving information
Harriehausen-Mühlbauer et al. Semantic web based machine translation
Rajendran Parsing in tamil: Present state of art
Neme A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP3257264B2 (ja) 未知語登録装置
JPH0561902A (ja) 機械翻訳システム
JP2713354B2 (ja) 話題抽出装置
Sakamoto et al. Utilization of Multi-word Expressions to Improve Statistical Machine Translation of Statutory Sentences
JP2006252290A (ja) 機械翻訳装置及びコンピュータプログラム
JP2928246B2 (ja) 翻訳支援装置
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language
JP3884001B2 (ja) 言語解析システムおよび方法
JP2938897B2 (ja) 文書作成処理装置
US20210334476A1 (en) Language-neutral translation memories
JP2839419B2 (ja) イディオム登録機能を持つ機械翻訳装置
Schwall et al. From METAL to T1: systems and components for machine translation applications
JPS61260367A (ja) 機械翻訳システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090310

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090409

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140417

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees