JP2005182794A

JP2005182794A - 言語的構造を正規化するためのデータ処理方法及び装置

Info

Publication number: JP2005182794A
Application number: JP2004360770A
Authority: JP
Inventors: Denys Proux; プルーデニス
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2003-12-19
Filing date: 2004-12-14
Publication date: 2005-07-07
Anticipated expiration: 2024-12-14
Also published as: US7440890B2; US20050137848A1; US7957956B2; EP1544747A3; JP4295203B2; EP1544747A2; US20080312908A1

Abstract

【課題】同じ意味を持つが表現が異なる様々な文を共通の文構造へと正規化する。
【解決手段】対象となる文から構文上の依存関係を抽出し（Ｓ２１００）、その中からbe動詞又はhave動詞を含む直接目的語関係を求め（Ｓ２２００）、その直接目的語関係に現れる名詞を求め（Ｓ２３００）、その名詞に派生形態論処理を適用し（Ｓ２４００）、これにより求められたその名詞の派生形に動詞形が存在すれば（Ｓ２５００）、関連する全ての依存関係において、be動詞又はhave動詞とその名詞形とをＳ２５００で求めた動詞形に置換し（Ｓ２７００）、所定の書き直し基準を適用して構文上の依存関係を書き直す（Ｓ２８００）。
【選択図】図３

Description

本発明は、言語的構造を正規化するためのシステム及び方法に関する。

ユーザから入力されたキーワードに応じたユーザ基準に適合する文章の一節(text passage)を選び出す情報検索ツールが広く知られている。これらツールは、典型的には、キーワードを含んだすべての入手可能な一節を検索するものの、それら一節に対し言語学的或いは意味的又はその両方についての解析を行うことはない。

非特許文献１において、著者Christian Jacqueminは、文書データベースのコンテンツへのアクセスを改善するためのテクニックについて論じている。Jacqueminが論じたテクニックは、語の形態構文論(morpho-syntactic)的なバリエーションを含み、文書群の中から類似の用語や言語的表現を識別することに焦点を合わせている。しかし、文章の一節を正規化された構文構造へと書き直すことについては書かれていない。

文章に一節に対して実行される他の操作の中には、情報抽出及び談話処理（Information Extraction and Discourse Processing）がある。このような操作は、例えば、ユーザが他言語へ翻訳したい文章を入力し、システムがその翻訳を実行するような自動翻訳システムや、ユーザがクエリやサーチ要求を「"How is the BicD gene repressed?"（BicD遺伝子はどのように抑制されるのか)」などと自然言語の形態で入力するような自然言語質問システム等のようなものに適用されている。情報抽出及び談話処理のためには、記述されたエンティティ同士の意味的関係が必要である。このレベルでの情報処理は、典型的には、構文（統語）的な依存関係(dependencies)を抽出し、それからパターンマッチングを行って、予め定められた情報のパターンを見つけ出すことにより実行されている。このレベルでは、自然言語の複雑さが問題となる。なぜなら、同じ情報の断片が多くの異なる言語構造を用いて表現される可能性があるからである。したがって、文章の一節のなかの特定の情報を捉えるために、パターン設計者は、そのような言語構造を予期し、あり得るすべてのパターンのバリエーションを書かなければならない。例えば次の文を例にとる。
"Antp protein is a repressor of the BicD gene."（Antpタンパク質はBicD遺伝子のリプレッサーである。）
この文は、エンティティ"Antp protein" (Antpタンパク質)とエンティティ"BicD gene"(BicD遺伝子)との間での抑制の作用を記述している。この情報は次のようなパターンにより抽出できる。
"X is a repressor of Y"（XはYのリプレッサーである）
しかし同じ事実は次のような文でも記述できる。
"Antp protein represses the BicD gene."（Antpタンパク質はBicD遺伝子を抑制する。）
パターン: "X represses Y"（XはYを抑制する）
"Antp protein has a repressive effect on the BicD gene."（Antpタンパク質はBicD遺伝子に対する抑制効果を持つ。）
パターン: "X has a repressive effect on Y"（XはYに対する抑制効果を持つ）
などである。このことは、単純な情報の断片を得るのに多くのパターンが必要であることを示している。

Christian Jacquemin著、"Variation terminologique: Reconnaissance et acquisition automatique de termes et de leurs variants en corpus" (Terminological variation: identification and automatique extraction of terms and their variations from corpora")

本発明は、上記従来技術の問題点を解決する方法を提供する。

この発明の目的は、文章の一節を正規化すること、すなわち複雑な文章の意味構造を標準的なより単純な構造へと変形し、同一の情報を得るのに必要なパターンの数が少なくて済むようにすること、ができるようにすることである。

本発明は、構文（統語）上の依存関係を抽出し、その構文上の依存関係を構文書き直し規則と派生形態論処理(derivational morphology)を用いて変形する。本発明は、処理のために事前の意味論的な知識は必要としない。本発明は、純粋に語彙的、構文的なものとすることができる。後で詳細に説明する実施例はbe動詞やhave動詞を含む文に対して処理を行っているが、本発明は他の動詞に対しても、その動詞に応じた書き直し規則を用意すれば、同様に適用できることを了解されたい。

実施例では、文の内部のあまりにも一般的なbe動詞やhave動詞をその文の中の最も特徴的な名詞の動詞形に置き換える。例えば次の文、
"Antp protein is a strong repressor of the BicD gene."
は
"Antp protein strongly represses the BicD gene."
と変形される。この場合、次のような変換がなされている。
is → 0
repressor → repress
strong → strongly
また、次の文、
"Antp protein has a repressive effect on the BicD gene."
は、
"Antp protein represses the BicD gene."
と変形される。この場合、次のような変換がなされている。
has → 0
repressive → repress
effect → 0

本発明は、例えば、自動翻訳ツールに適用することができ、文の複雑さを減らすことにより翻訳の正確さを高めることが期待される。このほかにも、データベースサーチエンジンのような情報抽出システムや質問応答ツールなどにも応用できる。

以下、図面を参照して、本発明を実施するための最良の形態（以下「実施形態」と呼ぶ）について説明する。

本実施形態は、その構文上の依存関係に基づき、構文書き直し規則と派生形態論処理(derivational morphology)を用いて、複雑な文章を単純化する。

図１は、本発明に係るデータ処理装置１００の一実施形態を示す機能ブロック図である。データ処理装置は、入出力インタフェース１１０、コントローラ１２０、メモリ１３０、パーザー１４０、派生形態論処理装置１５０、及び構文構造変形部１６０を備えており、これらはデータ／制御バス１７０を介して相互に接続されている。入出力インタフェース１１０は、リンク２１０を介してデータ供給源２００に、リンク３１０を介してデータ出力先３００に、それぞれ接続されている。

データ供給源２００は、例えばローカル又はリモートに配置されたコンピュータ又はデータベースであるが、この他にも電子データを生成できる既知の又はこれから開発されるあらゆる装置であってもよい。同様に、データ供給源２００は、ネットワークのクライアントやサーバなどのように電子データを格納したり送信ししたりする様々な装置であってもよい。またこの代わりに、データ供給源２００は、磁気ディスクや光ディスクなどの可搬型の記憶媒体であってもよく、この場合その記憶媒体はデータ処理装置１００に内蔵されるか外部接続された、その媒体を読めるディスクドライブによりアクセスされる。データ供給源２００はデータ処理装置１００に対し、モデムやローカルエリアネットワーク、ワイドエリアネットワーク、イントラネット、インターネット、その他のあらゆる分散処理ネットワークなどのような接続手段、或いはその他の公知の或いはこれから開発される接続手段を介して接続することができる。データ供給源２００は、ユーザが要求を入力したサーチエンジンや自動翻訳ツールなど、（本処理装置１００から見て）他の処理装置やデバイス（図示省略）からの出力である場合もある。

電子データは、データ処理装置１００で処理される直前、或いは処理されている間でさえも、生成され得るものであることはもちろん、電子データは過去のいつの時点に生成されたものであってもよいことも理解されるべきである。したがって、データ供給源２００は、リンク２１０を介してデータ処理装置１００に電子データを供給することができるものなら、公知の又はこれから開発されるどのような装置であってもよい。またリンク２１０は、したがって、データ供給源２００からデータ処理装置１００へと電子データを伝送するものであれば、公知の又はこれから開発されるどのようなシステムや装置であってもよい。

データ出力先３００は、データ処理装置１００が処理した電子データをリンク３１０を介して受け取ることができる公知の又はこれから開発されるあらゆるシステムであり得る。典型的には、ユーザはデータ処理装置１００の処理結果そのものを直接目にすることはないであろう。むしろユーザは、典型的には、データ処理装置１００の処理の結果を一部分として含む更なる情報を検討するであろう。例えば、データ処理装置１００がデータベースサーチエンジンの一部であれば、ユーザはサーチ要求を例えば自然言語でタイプ入力する。ユーザにより入力された自然言語のサーチ要求の一例が、"How is the BicD gene repressed?" である。すると、これに関連する文章の一節がデータベースから抽出され、返されてユーザの閲覧に供される。別の例として、データ処理装置１００が自動翻訳ツールの一部であれば、ユーザは翻訳すべきテキスト文を入力し、この翻訳要求に対する処理が完了した後でその翻訳結果を閲覧することになる。

このように、データ処理装置１００の処理の直接の結果は、典型的にはユーザには見えないものであり、ユーザに表示する他の情報を生成するためにシステムにより使用されるのである。したがって、データ出力先３００はサーチエンジンや自動翻訳ツールなどのような他の処理部や装置への入力であってもよく、これら処理部や装置は更にコンピュータやテレビモニタ、印刷エンジンその他のようなデータ出力先へ接続される。データ出力先３００は、磁気ディスクや光ディスク、コンピュータメモリその他のような、処理されたデータを後で入力するために格納しておくためのデバイスであってもよい。

データ処理装置１００は、サーチエンジンや自動翻訳ツール等の他の大きなシステムに直接に組み込まれるものであってもよいことは理解されるべきである。この場合、パーザー１４０、派生形態論処理装置１５０及び構文構造変形部１６０のうちの１つ又はすべては、その大きなシステムに直接にリンクされていてもよいし、この場合入出力インタフェース１１０、コントローラ１２０及びメモリ１３０のうちの１つ或いはすべては無くてもよい。

リンク２１０及び３１０の一方又は両方は、１本乃至複数本の電気ケーブル又は光ケーブルのような直接のリンクであってもよい。またリンク２１０及び３１０の一方又は両方は、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット、イントラネット、他の分散処理ネットワークや分散記憶ネットワークなどであってもよい。更にリンク２１０及び３１０の一方又は両方は、無線リンクであってもよいし、その一部に無線リンクを含んでいてもよい。

コントローラ１２０は、データ処理装置１００を構成する他の構成要素の動作を必要に応じて制御し、必要なあらゆる計算を実行し、このデータ処理装置１００及びその各構成要素の処理を実現するのに必要なあらゆるプログラムを実行し、必要に応じてデータ処理装置１００内の他の構成要素との間のデータの流れを制御する。

メモリ１３０は、データ処理装置１００に対し入ってくる又は出て行く情報のためのバッファとしての機能、データ処理装置１００の諸機能を実現するために必要なプログラムやデータ或いはその両方を格納する機能、及び処理の様々な段階でのデータを記憶する機能、のうちの１つ以上を果たす。更に、メモリ１３０は、図には１つの実態として示されているが、実際には分散記憶であってもよい。メモリ１３０の可変部分は、様々な実施例において、ＳＲＡＭ(static random access memory)やＤＲＡＭ(dynamic RAM)等を用いて実現できる。しかし、メモリ１３０は、フレキシブルディスクとそのディスクドライブ、書込可能な光ディスクとそのディスクドライブ、ハードディスクドライブ、フラッシュメモリなどにより実現してもよい。メモリ１３０のうちの一般に静的な部分は、様々な実施例において、ＲＯＭ(read only memory)である。しかし、その静的部分は、他の不揮発性メモリ、例えばＰＲＯＭ(programmable ROM)、ＥＰＲＯＭ(erasable programmable ROM)、ＥＥＰＲＯＭ(electrically erasable programmable ROM)、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどのような光ＲＯＭディスクとそのディスクドライブ、上述のようなフラッシュメモリその他の可変メモリなど、を用いて実装することもできる。

パーザー１４０は、入力された文章の一節、例えば典型的には一つの文、から構文的な依存関係を抽出するために用いられる。好適なパーザーの例は、フィンランドの会社Connexorから入手できるMACHINESE SYNTAXという製品である。しかしながら、一節の中、特に文の中の語の後述される依存関係のような構文的な依存関係を抽出できるパーザーであれば、どのようなものでも用いることができることが理解されるべきである。

派生形態論処理は、入力された語を語根と語尾とに分ける語彙的な処理であり、同じ語根を用いて複数のあり得る語を生成する。従って、例えば "operation"と言う語から始めると、派生形態論処理装置１５０は、名詞 "operator", "operability"、形容詞"operational",、及び副詞"operationally"を生成する。派生形態論処理装置１５０の一例としては、フランスの会社TemisがXELDAの名で提供している言語サービスプラットフォームを挙げることができるが、これに限らず、与えられた語根から１個以上の異なる語を生成できる装置又はプログラムであればどのようなものでもよいことは理解されるべきである。以下の説明を読めば了解されることだが、本実施形態は、生成された複数のあり得る語のうちのただ１つ、すなわちその語の動詞形のみを用いるので、派生形態論処理装置１５０は語のすべての可能な語形を実際に生成する必要はない。

構文構造変形部１６０は、様々な基準に従って、パーザー１４０又は派生形態論処理装置１５０又はそれら両方から得られた情報を用いて、構文的な依存関係を変形又は書き直す。

パーザー１４０や、派生形態論処理装置１５０、構文構造変形部１６０等のように、図１に示した構成要素のうちの１つ乃至複数は、適切なプログラムを備えた汎用コンピュータの一部として実装することができることは理解されるべきである。この代わりに、それら構成要素は、物理的に個別のハードウエア回路として実装することもできる。このような各構成要素のハードウエア回路としては、ＡＳＩＣ内の回路、ＦＰＧＡ、ＰＤＬ、ＰＬＡ、ＰＡＬを用いた回路、或いはディスクリートのロジック素子やディスクリートの回路素子を用いた回路など、様々なものがある。図１に示した各構成要素がどのような形態をとるのかは、設計上の選択事項であり、当業者には自明であり予想できるものであろう。

図２は、本実施形態の言語構造を正規化する処理手順を示すフローチャートである。図２において、手順はステップＳ１０００から始まり、続くＳ１１００で文を取得する。この文は、例えば、抽出してユーザに表示する候補であるデータベースからの文章の一節から取得したものでもよく、他の言語に翻訳すべきものとしてユーザがタイプ入力したり選択したりした文章から取得したものでもよい。手順はＳ１２００に進み、その文がbe動詞又はhaveと直接目的語を含んでいるか否かが判定される。その文がbe動詞又はhaveと直接目的語を含んでいなければ、手順はＳ１３００に進み、リターンする（すなわち処理を終了する）。すなわち、その文は既に単純な形であると判定され、それ以上の変形を要しない。一方、その文がbe動詞又はhaveと直接目的語を含んでいる場合は、手順はＳ１４００に飛ぶ。

ステップＳ１４００では、その文が過去分詞の前に来る名詞目的語を含んでいるか否かが判定される。その文が過去分詞の前に名詞目的語を含んでいる場合は、手順はステップＳ１５００に進み、図４に示した部分手順を実行する。そうでなければ、手順はステップＳ１６００へ飛ぶ。

ステップＳ１６００では、その文が動作を表す現在分詞形の動詞を含んでいるか否かが判定される。もしその文が動作を表す現在分詞形の動詞を含んでいれば、手順はステップＳ１７００に進み、図７に示した部分手順を実行する。そうでなければ、手順はステップＳ１８００に進み、図３に示した部分手順を実行する。

図３は、本実施形態における言語構造を正規化するための第１の部分手順の例を示すフローチャートである。図３では、手順はステップＳ２０００から始まり、続くＳ２１００では文から構文上の依存関係が抽出される。

例えば、図２のステップＳ１１００で取得された文が次の文であったとする。
"Antp protein is a strong repressor of the BicD gene."
この場合、抽出される構文的な依存関係は次のようになる。
SUBJECT (protein, be)
DIRECT OBJECT (be, repressor)
INDIRECT OBJECT (be, of, gene)
ADJECTIVE (strong, repressor)
NOUN MODIFIER (repressor, of, gene)
NOMINAL PHRASE (a strong repressor)
PREPOSITIONAL PHRASE (of the BicD gene)
NOMINAL PHRASE (Antp, protein)
となる。ここでSUBJECTは主語についての関係を示し、DIRECT OBJECTは直接目的語、INDIRECT OBJECTは間接目的語、ADJECTIVEは形容詞、NOUN MODIFIERは名詞に対する修飾語、NOMINAL PHRASEは名詞句、PREPOSITIONAL PHRASEは前置詞句、についての関係をそれぞれ示す。例えばSUBJECT (protein, be)は、"protein"が"be"の主語であるという関係を示し、NOUN MODIFIER (repressor, of, gene)は"of gene"が名詞"repressor"の修飾語であると言う関係を示している。また、NOMINAL PHRASE (a strong repressor)は、"a strong repressor"が名詞句であるという関係を示す。他の関係も英文法の知識から容易に理解できるであろう。

手順はステップＳ２２００に進み、be動詞又はhave動詞を含んだ直接目的語の関係を取得する。この例では、be動詞又はhave動詞を含んだ直接目的語の関係は(be, repressor)である。

手順はステップＳ２３００に進み、その直接目的語の関係に現れる名詞を取得する。例えばこの例では、直接目的語の関係に表れる名詞は"repressor" である。

手順は次にステップＳ２４００に進み、その名詞に対して派生形態論処理を適用する。この例では、次のような派生形が得られる。
repression : NOUN（名詞）
repressive : ADJECTIVE（形容詞）
repress : VERB（動詞）

手順は次にステップＳ２５００に進み、Ｓ２３００で得た名詞の動詞形が存在するかどうかを判定する。もし動詞形が存在すれば、手順はステップＳ２６００に進む。そうでなければ、処理対象の文はこれ以上単純化できないものである。したがって、方法はステップＳ２９００に進み、その文を変形しないまま、処理を終了する。

ステップＳ２６００では、その名詞の動詞形が取得される。この例では、取得される動詞形は"repress"である。

手順は更にステップＳ２７００に進み、be動詞又はhave動詞と古い名詞形とを、すべての関連する依存関係の中での新しい動詞形に置き換える。この例では、ステップＳ２７００の結果は次の表１に示すようなものとなる。

手順は次にステップＳ２８００に進み、構文的な依存関係を書き直す。

新しい動詞形への置き換えを含んだ構文的な依存関係の書き直しは、所定の基準に従って行われる。この基準は例えば次のようなものである
(1) DIRECT OBJECT (X, X) → 0
(2) If ∃( INDIRECT OBJECT (X, prep, Y) and
NOUN MODIFIER (X, prep, Y) and
( prep = "of" for a "be" verb or
prep = "on" for a "have" verb
)
)
then ( ( INDIRECT OBJECT (X, prep, Y) → DIRECT OBJECT (X, Y))
and (NOUN MODIFIER (X, prep, Y) → 0 ) )
(3) ADJECTIVE (adj, X) → ADVERB (adv, X)
ここで形容詞(adj)の副詞形は派生形態論処理を用いて既に作成されている→(adv)。
(4) NOMINAL PHRASE ( … X … ) → 0
（名詞句は新しい動詞形を含んでいる）
この基準において、矢印は関係の変換を示し、０はその関係が存在しないことをしめす。また"∃"は存在記号であり、"and"は論理積を、"or"は論理和を示す。また、"verb"は動詞、"prep"は前置詞、"adj"は形容詞、"adv"は副詞を示す。例えば「prep = "of" for a "be" verb」なる記述は「前置詞がbe動詞に対するofである」ことを意味する。if、thenは、公知のif-then形式と同様のものである。

この例では、構文的な依存関係の書き直しの結果は次の表２のようになる。

この時点では、最初の文は次のように書き換えられる。
"Antp protein represses the BicD gene."

この書き直された文は、もし要求があるならば、ユーザに対して表示するようにしてもよい。新しい構文的な依存関係は、典型的には、この部分手順の最終結果となるであろうし、この場合その最終結果に基づき実際の文が生成されることは必ずしも必要ない。例えばサーチエンジンなどの情報抽出ツールの場合は、データ処理装置１００が上記の新しい構文的な依存関係を求めると、その依存関係は候補となる文章の一節がユーザに対し提示するものとして適切か否かを判定するのに十分な情報を持っている。自動翻訳ツールの場合は、ユーザは一般的には翻訳の最終結果を見るだけである。

最後に、処理手順はステップＳ２９００に進み、処理を終了する。

図４は、本実施形態での言語構造の正規化のための部分手順の第２の例を示すフローチャートである。図４に示した部分手順は、文がbe動詞と過去分詞の前にある名詞目的語とを含んでいる場合の例である。例えば次のような文である。
"Antp is a local inhibitor activated in embryonic cells."
この文が与えられた場合、仮に図３の部分手順なら次のような文を生成するであろう。
"Antp locally inhibits activated in embryonic cells."
これは文法的に正しくない。従って、この代わりに図４の部分手順が用いられる。

図４の部分手順はＳ３０００にて始まり、次いでＳ３１００では、対象の文から構文的な依存関係が抽出される。次にステップＳ３２００に進み、be動詞やhave動詞を含む直接目的語関係を取得するとともに、名詞目的語を修飾する過去分詞を記述する関係（以下では "NOBJ-PAST-PART"と示されている。）例えば、この例では、文から得られる関係は次のようなものである。
SUBJECT (Antp, be)
DIRECT OBJECT (be, inhibitor)
INDIRECT OBJECT (be, in, cell)
ADJECTIVE (embryonic, cell)
ADJECTIVE (local, inhibitor)
NOBJ-PAST-PART (inhibitor, activate)
PREPOSITIONAL PHRASE (in small cells)
NOMINAL PHRASE (a local inhibitor)
NOMINAL PHRASE (Antp)

手順はステップＳ３３００に進み、直接目的語の関係と名詞目的語を修飾する過去分詞を示す関係との両方に現れる名詞を取得する。この例では、"inhibitor"という名詞が取得される。次にステップＳ３４００では、名詞目的語を修飾する過去分詞を示す関係に現れる過去分詞の能動形（active form）が、派生形態論処理を適用することにより求められる。この例では、過去分詞"activated"から能動形"activate"が求められる。

手順は次いでステップＳ３５００に進み、例えば次のような基準に従って、構文上の依存関係の書き直しを実行する。
SUBJECT (X, Be) → DIRECT OBJECT (V, X)
DIRECT OBJECT (be, Y) → ATTRIBUTE (X, Y)
INDIRECT OBJECT (be, prep, Z) → INDIRECT OBJECT (V, prep, Z)
NOBJ-PAST-PART (Y, V) → 0
NOUN MODIFIER (Y, prep, Z) → 0
この例では、依存関係は表３に示すようになる。ここでATTRIBUTE (X, Y)は、ＹがＸの属性を表すという関係を示す。

図５は、図４の部分手順に従った構文的な変形の第１例の結果を示す依存関係グラフを示す図である。

もし文が、前置詞句(PREPOSITONAL PHRASE)の代わりに、be動詞と、過去分詞の動作主であって後置されたもの（以下ではPAGENTと表す）と、を含んでいる場合、ステップＳ３５００での書き直し規則は少し違ったものとなる。この場合、be動詞を含んだ間接目的語関係に関係するPAGENTは、次のようにSUBJECT（主語）の依存関係に書き換えられる。
PAGENT ( V, prep, Z ) → SUBJECT ( Z, V )
INDIRECT OBJECT ( be, by, Z ) → 0

この例では、依存関係は次の表４に示すようになる。

この場合の構文的な依存関係の変形の結果は図６の依存関係グラフに示される。

図５及び図６に示したような、そして後述する図８に示すようなグラフ化は、上述した文の書き直しの代わりに、或いはその書き直しに加えて、本実施形態の方法又はシステムによって実行され得ることが理解されるべきである。必要であれば、書き直された文とともにそのグラフをユーザに対して表示することができるが、典型的には、グラフは、ユーザに対する最終的な出力を生成するために、本実施形態の方法又はシステムによって内部的に利用される。

構文的な依存関係が書き直され、又はグラフ化され、或いはその両方がなされると、処理手順はステップＳ３６００に進み、処理を終える。

図７は、本実施形態における言語構造の正規化の部分手順の第３の例を示すフローチャートである。図７に示した部分手順は、be動詞と能動形の現在分詞とを含む文の場合の例である。例えば次のような文である。
"Antp is a local inhibitor activating the BicD gene."

この処理手順はステップＳ４０００から始まり、次いでステップＳ４１００では文から構文的な依存関係を抽出する。続いてステップＳ４２００では、be動詞やhave動詞を含んだ直接目的語の関係を取得するとともに、能動形の現在分詞の主語を記述する関係（以下ではSUB-ING-VERBと表す）を取得する。例えばこの例において上記の文から得られる関係は次のようになる。
SUBJECT (Antp, be)
DIRECT OBJECT (be, inhibitor)
DIRECT OBJECT (activate, gene)
ADJECTIVE (local, inhibitor)
SUB-ING-VERB (inhibitor,activate)
NOMINAL PHRASE (the BicD gene)
NOMINAL PHRASE (a local inhibitor)
NOMINAL PHRASE (Antp)

手順はステップＳ４３００に進み、直接目的語の関係と能動形の現在分詞の主語を記述する関係の両方の関係に表れる名詞を求める。この例では、"inhibitor"がその名詞である。次にステップＳ４４００で、その名詞とともに現れる現在分詞の動詞の能動形が、派生形態論処理を適用することにより求められる。この例では、現在分詞"activating"から能動形"activate"が求められる。

手順はステップＳ４５００に進み、例えば次のような基準に従って、構文的な依存関係を書き直す。
SUBJECT ( X, be ) → SUBJECT ( X, V )
DIRECT OBJECT ( be,Y ) → ATTRIBUTE ( X, Y )
SUBJ-ING-VERB ( Y, V ) → 0

この例では、依存関係は次の表５に示すようになる。

図８は、ステップＳ４５００の構文上の変形の結果を示す依存関係グラフである。

再び図７を参照すると、手順は最後にステップＳ４６００に達し、処理を終了する。

図１のデータ処理装置１００は、プログラムより動作する単一の汎用コンピュータとして実現することもできるし、プログラムにより動作する複数の汎用コンピュータから構成することもできる。またデータ処理装置１００は、特定用途コンピュータ、プログラム動作するマイクロプロセッサ又はマイクロコンピュータとその周辺の集積回路要素、ＡＳＩＣその他の集積回路、デジタルシグナルプロセッサ、ディスクリート素子回路のようなハードワイヤード電子回路乃至ロジック回路、ＰＬＤやＰＬＡ、ＦＰＧＡ、ＰＡＬなどのプログラマブル・ロジック・デバイス、等として実現することもできる。一般に、図２〜４，７のフローチャートに示した処理、またはそれらの中の適切な部分を実行できる有限状態機械を実現できる装置であれば、どのようなものでも、この実施形態のデータ処理装置１００を実現するために用いることができる。

更に、上述の手順は、例えば、オブジェクトや、様々なコンピュータやワークステーションのハードウエアプラットフォームで利用できる移植性のよいソースコードを作成できるオブジェクト指向ソフトウエア開発環境を用いて、ソフトウエアとして容易に実現することができる。また、この代わりに、上述のデータ処理装置１００の適切な部分部分を、標準的な論理回路又はＶＬＳＩデザインを用いて、部分的に又は完全にハードウエアとして実装することもできる。本実施形態のシステムを実現するのにソフトウエアを用いるかハードウエアを用いるかは、速度又は効率又はその両方についてのシステムに対する要件や、特定の機能、及び実用化されている特定のソフトウエア又はハードウエアのシステム、或いはマイクロプロセッサ又はマイクロコンピュータのシステムに依存する。上述の処理システム及び方法は、この応用分野の通常の知識を有する者なら、公知の又はこれから開発されるシステム或いは構造、装置及び／又はソフトウエアを用いることにより、ここに示した機能上の説明とコンピュータ技術の一般的な知識から、過度の実験をすること無く、ハードウエア又はソフトウエアの形で容易に実現できる。

更に、上述の方法は、汎用コンピュータ、特定用途コンピュータ、マイクロプロセッサ等において実行されるソフトウエアの形で容易に実現できる。この場合、本実施形態の方法及びシステムは、パーソナルコンピュータに組み込まれたルーチンや、サーバやワークステーションに搭載された資源として実現することができる。このシステム及び方法は、また、情報抽出システムや自動翻訳ツール等のようなソフトウエアやハードウエア又はその両方を用いたシステムに対して物理的に組み込む形で実現することもできる。

本発明を上述の特定の実施形態との関連で説明してきたが、当業者ならば、本明細書の説明を読めば、多くの同等の変形例や変化形が可能なことが明らかであろう。したがって、上記実施形態はあくまで例示的なものであり、そのような実施形態に限定されるものと捉えるべきではない。本発明の技術的思想の範囲から逸脱することなく、上述の実施形態に対して様々な変形を施すことが可能である。

例えば、図２〜４，７に示した手順において、その中に示したステップの実行順序は変えることができるし、追加のステップを加えることも、いくつかのステップを全体的又は部分的に削除することも、そのような追加や削除の両方をすることもできる。

さらに、上述の派生形態論処理装置１５０が、例えば図３，４，７のステップＳ２４００，Ｓ２６００，Ｓ３４００，Ｓ４４００を実現するのに用いられる際、その装置１５０は、必要な処理手順を実現するのに必要な程度に、単純又は複雑でありさえすればよい。

以上説明したように、本実施形態によれば文法的な機能は果たすがそれ自体意味を含まないbe動詞やhave動詞などを含む構文を、文の特徴を示す意味ある動詞を核とした構文に変換することで、同じ意味を持つが表現が異なる様々な文を共通の文構造へと正規化することができる。

本発明に係るデータ処理装置の実施例を示す機能ブロック図である。本発明に係る言語構造の正規化方法の例を示すフローチャートである。本発明に係る言語構造の正規化方法の部分手順の第１の例を示すフローチャートである。本発明に係る言語構造の正規化方法の部分手順の第２の例を示すフローチャートである。図４の部分手順における構文変形の第１の例の結果を示す依存関係グラフを示す図である。図４の部分手順における構文変形の第２の例の結果を示す依存関係グラフを示す図である。本発明に係る言語構造の正規化方法の部分手順の第３の例を示すフローチャートである。図４の部分手順における構文変形の第１の例の結果を示す依存関係グラフを示す図である。

符号の説明

１００データ処理装置、１１０入出力インタフェース、１２０コントローラ、１３０メモリ、１４０パーザー、１５０派生形態論処理装置、１６０構文構造変形部、２００データ供給源、３００データ出力先。

Claims

データを処理する方法であって、
be動詞又はhave動詞の一方を含んだ文章の一節を取得する第１ステップと、
該一節から第１の構文上の依存関係と第２の構文上の依存関係とを取得するステップであって、少なくとも前記第１の構文上の依存関係は主語とbe動詞又はhave動詞の一方との依存関係であるところの第２ステップと、
be動詞とhave動詞の一方を前記第２の構文上の依存関係から求めた動詞に置き換えることにより前記第１の構文上の依存関係の意味を限定する第３ステップと、
を有し、前記第３ステップでは、
派生形態論処理を前記第２の構文上の依存関係に現れる少なくとも１つの語に適用し、
前記派生形態論処理から得られる少なくとも１つの語の動詞形に基づき、構文書き直し基準を適用する、
ことにより前be動詞とhave動詞の一方を前記第２の構文上の依存関係から求めた動詞に置き換える、
方法。
データを処理する方法であって、
文章の一節を取得するステップと、
その一節がbe動詞又はhave動詞の一方を含むか、その一節が名詞目的語とその後に続く過去分詞形の動詞を含むか、及びその一節が能動形の現在分詞形の動詞を含むか、を判定するステップと、
その一節がbe動詞又はhave動詞の一方を含むが名詞目的語とその後に続く過去分詞形の動詞及び能動形の現在分詞形の動詞を含まない場合に、その一節から１以上の第１の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第１の直接目的語関係を求め、その第１の直接目的語関係に表れる第１の名詞の動詞形を求め、その第１の名詞の動詞形に基づき前記１以上の第１の構文上の依存関係を書き直すステップと、
その一節がbe動詞又はhave動詞の一方を含むと共に名詞目的語とその後に続く過去分詞形の動詞を含むが能動形の現在分詞形の動詞は含まない場合に、その一節から１以上の第２の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第２の直接目的語関係を求め、前記第２の直接目的語関係と、前記名詞目的語とその後に続く過去分詞形の動詞を含む関係と、の両方に第２の名詞が現れることを確認し、前記過去分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記１以上の第２の構文上の依存関係を書き直すステップと、
その一節がbe動詞又はhave動詞の一方を含むと共に能動形の現在分詞形の動詞を含むが名詞目的語とその後に続く過去分詞形の動詞は含まない場合に、その一節から１以上の第３の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第３の直接目的語関係を求め、前記第３の直接目的語関係と、前記能動形の現在分詞形の動詞を含む関係と、の両方に第３の名詞が現れることを確認し、前記現在分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記１以上の第３の構文上の依存関係を書き直すステップと、
を有する方法。
文章の一節から構文上の依存関係を求めるパーザーと、
入力された語の少なくとも１つの異形を求める派生形態論処理部と、
その文章の一節の前記構文上の依存関係を変形する構文構造変形部と、
前記パーザー、前記派生形態論処理部、及び前記構文構造変形部のうちの少なくとも１つの処理と連携して動作するコントローラと、
を有し、該コントローラは、
その文章の一節から、主語とbe動詞又はhave動詞の一方との依存関係である第１の構文上の依存関係と、第２の構文上の依存関係と、を取得し、
前記be動詞とhave動詞の一方を前記第２の構文上の依存関係から求めた動詞に置き換え、派生形態論処理を前記第２の構文上の依存関係に現れる少なくとも１つの語に適用し、前記派生形態論処理から得られる少なくとも１つの語の動詞形に基づき、構文書き直し基準を適用することにより、前記第１の構文上の依存関係の意味を限定する、
ことを特徴とするデータ処理装置。
文章の一節から構文上の依存関係を求めるパーザーと、
入力された語の少なくとも１つの異形を求める派生形態論処理部と、
その文章の一節の前記構文上の依存関係を変形する構文構造変形部と、
前記パーザー、前記派生形態論処理部、及び前記構文構造変形部のうちの少なくとも１つの処理と連携して動作するコントローラと、
を有し、該コントローラは、
その一節がbe動詞又はhave動詞の一方を含むか、その一節が名詞目的語とその後に続く過去分詞形の動詞を含むか、及びその一節が能動形の現在分詞形の動詞を含むか、を判定し、
その一節がbe動詞又はhave動詞の一方を含むが名詞目的語とその後に続く過去分詞形の動詞及び能動形の現在分詞形の動詞を含まない場合に、その一節から１以上の第１の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第１の直接目的語関係を求め、その第１の直接目的語関係に表れる第１の名詞の動詞形を求め、その第１の名詞の動詞形に基づき前記１以上の第１の構文上の依存関係を書き直し、
その一節がbe動詞又はhave動詞の一方を含むと共に名詞目的語とその後に続く過去分詞形の動詞を含むが能動形の現在分詞形の動詞は含まない場合に、その一節から１以上の第２の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第２の直接目的語関係を求め、前記第２の直接目的語関係と、前記名詞目的語とその後に続く過去分詞形の動詞を含む関係と、の両方に第２の名詞が現れることを確認し、前記過去分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記１以上の第２の構文上の依存関係を書き直し、
その一節がbe動詞又はhave動詞の一方を含むと共に能動形の現在分詞形の動詞を含むが名詞目的語とその後に続く過去分詞形の動詞は含まない場合に、その一節から１以上の第３の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第３の直接目的語関係を求め、前記第３の直接目的語関係と、前記能動形の現在分詞形の動詞を含む関係との両方に第３の名詞が現れることを確認し、前記現在分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記１以上の第３の構文上の依存関係を書き直す、
ことを特徴とするデータ処理装置。