JP2005182794A - 言語的構造を正規化するためのデータ処理方法及び装置 - Google Patents
言語的構造を正規化するためのデータ処理方法及び装置 Download PDFInfo
- Publication number
- JP2005182794A JP2005182794A JP2004360770A JP2004360770A JP2005182794A JP 2005182794 A JP2005182794 A JP 2005182794A JP 2004360770 A JP2004360770 A JP 2004360770A JP 2004360770 A JP2004360770 A JP 2004360770A JP 2005182794 A JP2005182794 A JP 2005182794A
- Authority
- JP
- Japan
- Prior art keywords
- verb
- noun
- passage
- syntactic
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】対象となる文から構文上の依存関係を抽出し(S2100)、その中からbe動詞又はhave動詞を含む直接目的語関係を求め(S2200)、その直接目的語関係に現れる名詞を求め(S2300)、その名詞に派生形態論処理を適用し(S2400)、これにより求められたその名詞の派生形に動詞形が存在すれば(S2500)、関連する全ての依存関係において、be動詞又はhave動詞とその名詞形とをS2500で求めた動詞形に置換し(S2700)、所定の書き直し基準を適用して構文上の依存関係を書き直す(S2800)。
【選択図】図3
Description
"Antp protein is a repressor of the BicD gene."(Antpタンパク質はBicD遺伝子のリプレッサーである。)
この文は、エンティティ"Antp protein" (Antpタンパク質)とエンティティ"BicD gene"(BicD遺伝子)との間での抑制の作用を記述している。この情報は次のようなパターンにより抽出できる。
"X is a repressor of Y"(XはYのリプレッサーである)
しかし同じ事実は次のような文でも記述できる。
"Antp protein represses the BicD gene."(Antpタンパク質はBicD遺伝子を抑制する。)
パターン: "X represses Y"(XはYを抑制する)
"Antp protein has a repressive effect on the BicD gene."(Antpタンパク質はBicD遺伝子に対する抑制効果を持つ。)
パターン: "X has a repressive effect on Y"(XはYに対する抑制効果を持つ)
などである。このことは、単純な情報の断片を得るのに多くのパターンが必要であることを示している。
"Antp protein is a strong repressor of the BicD gene."
は
"Antp protein strongly represses the BicD gene."
と変形される。この場合、次のような変換がなされている。
is → 0
repressor → repress
strong → strongly
また、次の文、
"Antp protein has a repressive effect on the BicD gene."
は、
"Antp protein represses the BicD gene."
と変形される。この場合、次のような変換がなされている。
has → 0
repressive → repress
effect → 0
"Antp protein is a strong repressor of the BicD gene."
この場合、抽出される構文的な依存関係は次のようになる。
SUBJECT (protein, be)
DIRECT OBJECT (be, repressor)
INDIRECT OBJECT (be, of, gene)
ADJECTIVE (strong, repressor)
NOUN MODIFIER (repressor, of, gene)
NOMINAL PHRASE (a strong repressor)
PREPOSITIONAL PHRASE (of the BicD gene)
NOMINAL PHRASE (Antp, protein)
となる。ここでSUBJECTは主語についての関係を示し、DIRECT OBJECTは直接目的語、INDIRECT OBJECTは間接目的語、ADJECTIVEは形容詞、NOUN MODIFIERは名詞に対する修飾語、NOMINAL PHRASEは名詞句、PREPOSITIONAL PHRASEは前置詞句、についての関係をそれぞれ示す。例えばSUBJECT (protein, be)は、"protein"が"be"の主語であるという関係を示し、NOUN MODIFIER (repressor, of, gene)は"of gene"が名詞"repressor"の修飾語であると言う関係を示している。また、NOMINAL PHRASE (a strong repressor)は、"a strong repressor"が名詞句であるという関係を示す。他の関係も英文法の知識から容易に理解できるであろう。
repression : NOUN(名詞)
repressive : ADJECTIVE(形容詞)
repress : VERB(動詞)
(1) DIRECT OBJECT (X, X) → 0
(2) If ∃( INDIRECT OBJECT (X, prep, Y) and
NOUN MODIFIER (X, prep, Y) and
( prep = "of" for a "be" verb or
prep = "on" for a "have" verb
)
)
then ( ( INDIRECT OBJECT (X, prep, Y) → DIRECT OBJECT (X, Y))
and (NOUN MODIFIER (X, prep, Y) → 0 ) )
(3) ADJECTIVE (adj, X) → ADVERB (adv, X)
ここで形容詞(adj)の副詞形は派生形態論処理を用いて既に作成されている→(adv)。
(4) NOMINAL PHRASE ( … X … ) → 0
(名詞句は新しい動詞形を含んでいる)
この基準において、矢印は関係の変換を示し、0はその関係が存在しないことをしめす。また"∃"は存在記号であり、"and"は論理積を、"or"は論理和を示す。また、"verb"は動詞、"prep"は前置詞、"adj"は形容詞、"adv"は副詞を示す。例えば「prep = "of" for a "be" verb」なる記述は「前置詞がbe動詞に対するofである」ことを意味する。if、thenは、公知のif-then形式と同様のものである。
"Antp protein represses the BicD gene."
"Antp is a local inhibitor activated in embryonic cells."
この文が与えられた場合、仮に図3の部分手順なら次のような文を生成するであろう。
"Antp locally inhibits activated in embryonic cells."
これは文法的に正しくない。従って、この代わりに図4の部分手順が用いられる。
SUBJECT (Antp, be)
DIRECT OBJECT (be, inhibitor)
INDIRECT OBJECT (be, in, cell)
ADJECTIVE (embryonic, cell)
ADJECTIVE (local, inhibitor)
NOBJ-PAST-PART (inhibitor, activate)
PREPOSITIONAL PHRASE (in small cells)
NOMINAL PHRASE (a local inhibitor)
NOMINAL PHRASE (Antp)
SUBJECT (X, Be) → DIRECT OBJECT (V, X)
DIRECT OBJECT (be, Y) → ATTRIBUTE (X, Y)
INDIRECT OBJECT (be, prep, Z) → INDIRECT OBJECT (V, prep, Z)
NOBJ-PAST-PART (Y, V) → 0
NOUN MODIFIER (Y, prep, Z) → 0
この例では、依存関係は表3に示すようになる。ここでATTRIBUTE (X, Y)は、YがXの属性を表すという関係を示す。
PAGENT ( V, prep, Z ) → SUBJECT ( Z, V )
INDIRECT OBJECT ( be, by, Z ) → 0
"Antp is a local inhibitor activating the BicD gene."
SUBJECT (Antp, be)
DIRECT OBJECT (be, inhibitor)
DIRECT OBJECT (activate, gene)
ADJECTIVE (local, inhibitor)
SUB-ING-VERB (inhibitor,activate)
NOMINAL PHRASE (the BicD gene)
NOMINAL PHRASE (a local inhibitor)
NOMINAL PHRASE (Antp)
SUBJECT ( X, be ) → SUBJECT ( X, V )
DIRECT OBJECT ( be,Y ) → ATTRIBUTE ( X, Y )
SUBJ-ING-VERB ( Y, V ) → 0
Claims (4)
- データを処理する方法であって、
be動詞又はhave動詞の一方を含んだ文章の一節を取得する第1ステップと、
該一節から第1の構文上の依存関係と第2の構文上の依存関係とを取得するステップであって、少なくとも前記第1の構文上の依存関係は主語とbe動詞又はhave動詞の一方との依存関係であるところの第2ステップと、
be動詞とhave動詞の一方を前記第2の構文上の依存関係から求めた動詞に置き換えることにより前記第1の構文上の依存関係の意味を限定する第3ステップと、
を有し、前記第3ステップでは、
派生形態論処理を前記第2の構文上の依存関係に現れる少なくとも1つの語に適用し、
前記派生形態論処理から得られる少なくとも1つの語の動詞形に基づき、構文書き直し基準を適用する、
ことにより前be動詞とhave動詞の一方を前記第2の構文上の依存関係から求めた動詞に置き換える、
方法。 - データを処理する方法であって、
文章の一節を取得するステップと、
その一節がbe動詞又はhave動詞の一方を含むか、その一節が名詞目的語とその後に続く過去分詞形の動詞を含むか、及びその一節が能動形の現在分詞形の動詞を含むか、を判定するステップと、
その一節がbe動詞又はhave動詞の一方を含むが名詞目的語とその後に続く過去分詞形の動詞及び能動形の現在分詞形の動詞を含まない場合に、その一節から1以上の第1の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第1の直接目的語関係を求め、その第1の直接目的語関係に表れる第1の名詞の動詞形を求め、その第1の名詞の動詞形に基づき前記1以上の第1の構文上の依存関係を書き直すステップと、
その一節がbe動詞又はhave動詞の一方を含むと共に名詞目的語とその後に続く過去分詞形の動詞を含むが能動形の現在分詞形の動詞は含まない場合に、その一節から1以上の第2の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第2の直接目的語関係を求め、前記第2の直接目的語関係と、前記名詞目的語とその後に続く過去分詞形の動詞を含む関係と、の両方に第2の名詞が現れることを確認し、前記過去分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第2の構文上の依存関係を書き直すステップと、
その一節がbe動詞又はhave動詞の一方を含むと共に能動形の現在分詞形の動詞を含むが名詞目的語とその後に続く過去分詞形の動詞は含まない場合に、その一節から1以上の第3の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第3の直接目的語関係を求め、前記第3の直接目的語関係と、前記能動形の現在分詞形の動詞を含む関係と、の両方に第3の名詞が現れることを確認し、前記現在分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第3の構文上の依存関係を書き直すステップと、
を有する方法。 - 文章の一節から構文上の依存関係を求めるパーザーと、
入力された語の少なくとも1つの異形を求める派生形態論処理部と、
その文章の一節の前記構文上の依存関係を変形する構文構造変形部と、
前記パーザー、前記派生形態論処理部、及び前記構文構造変形部のうちの少なくとも1つの処理と連携して動作するコントローラと、
を有し、該コントローラは、
その文章の一節から、主語とbe動詞又はhave動詞の一方との依存関係である第1の構文上の依存関係と、第2の構文上の依存関係と、を取得し、
前記be動詞とhave動詞の一方を前記第2の構文上の依存関係から求めた動詞に置き換え、派生形態論処理を前記第2の構文上の依存関係に現れる少なくとも1つの語に適用し、前記派生形態論処理から得られる少なくとも1つの語の動詞形に基づき、構文書き直し基準を適用することにより、前記第1の構文上の依存関係の意味を限定する、
ことを特徴とするデータ処理装置。 - 文章の一節から構文上の依存関係を求めるパーザーと、
入力された語の少なくとも1つの異形を求める派生形態論処理部と、
その文章の一節の前記構文上の依存関係を変形する構文構造変形部と、
前記パーザー、前記派生形態論処理部、及び前記構文構造変形部のうちの少なくとも1つの処理と連携して動作するコントローラと、
を有し、該コントローラは、
その一節がbe動詞又はhave動詞の一方を含むか、その一節が名詞目的語とその後に続く過去分詞形の動詞を含むか、及びその一節が能動形の現在分詞形の動詞を含むか、を判定し、
その一節がbe動詞又はhave動詞の一方を含むが名詞目的語とその後に続く過去分詞形の動詞及び能動形の現在分詞形の動詞を含まない場合に、その一節から1以上の第1の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第1の直接目的語関係を求め、その第1の直接目的語関係に表れる第1の名詞の動詞形を求め、その第1の名詞の動詞形に基づき前記1以上の第1の構文上の依存関係を書き直し、
その一節がbe動詞又はhave動詞の一方を含むと共に名詞目的語とその後に続く過去分詞形の動詞を含むが能動形の現在分詞形の動詞は含まない場合に、その一節から1以上の第2の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第2の直接目的語関係を求め、前記第2の直接目的語関係と、前記名詞目的語とその後に続く過去分詞形の動詞を含む関係と、の両方に第2の名詞が現れることを確認し、前記過去分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第2の構文上の依存関係を書き直し、
その一節がbe動詞又はhave動詞の一方を含むと共に能動形の現在分詞形の動詞を含むが名詞目的語とその後に続く過去分詞形の動詞は含まない場合に、その一節から1以上の第3の構文上の依存関係を求め、be動詞又はhave動詞の一方を含んだ第3の直接目的語関係を求め、前記第3の直接目的語関係と、前記能動形の現在分詞形の動詞を含む関係との両方に第3の名詞が現れることを確認し、前記現在分詞形の動詞の能動形を求め、その動詞の能動形に基づき前記1以上の第3の構文上の依存関係を書き直す、
ことを特徴とするデータ処理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/739,214 US7440890B2 (en) | 2003-12-19 | 2003-12-19 | Systems and methods for normalization of linguisitic structures |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005182794A true JP2005182794A (ja) | 2005-07-07 |
JP4295203B2 JP4295203B2 (ja) | 2009-07-15 |
Family
ID=34523187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004360770A Expired - Fee Related JP4295203B2 (ja) | 2003-12-19 | 2004-12-14 | 言語的構造を正規化するためのデータ処理装置 |
Country Status (3)
Country | Link |
---|---|
US (2) | US7440890B2 (ja) |
EP (1) | EP1544747A3 (ja) |
JP (1) | JP4295203B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060009966A1 (en) * | 2004-07-12 | 2006-01-12 | International Business Machines Corporation | Method and system for extracting information from unstructured text using symbolic machine learning |
US7970600B2 (en) * | 2004-11-03 | 2011-06-28 | Microsoft Corporation | Using a first natural language parser to train a second parser |
US20060277028A1 (en) * | 2005-06-01 | 2006-12-07 | Microsoft Corporation | Training a statistical parser on noisy data by filtering |
CN105095222B (zh) * | 2014-04-25 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 单元词替换方法、搜索方法及装置 |
CN110347818B (zh) * | 2019-07-18 | 2022-03-25 | 广州虎牙科技有限公司 | 分词统计方法、装置、电子设备及计算机可读存储介质 |
CN110825864A (zh) * | 2019-11-13 | 2020-02-21 | 北京香侬慧语科技有限责任公司 | 一种获取问题答案的方法及装置 |
CN116227488B (zh) * | 2023-05-09 | 2023-07-04 | 北京拓普丰联信息科技股份有限公司 | 一种文本分词的方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3067966B2 (ja) * | 1993-12-06 | 2000-07-24 | 松下電器産業株式会社 | 画像部品を検索する装置及びその方法 |
US5708822A (en) * | 1995-05-31 | 1998-01-13 | Oracle Corporation | Methods and apparatus for thematic parsing of discourse |
US5966686A (en) * | 1996-06-28 | 1999-10-12 | Microsoft Corporation | Method and system for computing semantic logical forms from syntax trees |
GB9726654D0 (en) * | 1997-12-17 | 1998-02-18 | British Telecomm | Data input and retrieval apparatus |
-
2003
- 2003-12-19 US US10/739,214 patent/US7440890B2/en not_active Expired - Fee Related
-
2004
- 2004-12-14 JP JP2004360770A patent/JP4295203B2/ja not_active Expired - Fee Related
- 2004-12-15 EP EP04257780A patent/EP1544747A3/en not_active Withdrawn
-
2008
- 2008-08-18 US US12/193,118 patent/US7957956B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7440890B2 (en) | 2008-10-21 |
US20050137848A1 (en) | 2005-06-23 |
US7957956B2 (en) | 2011-06-07 |
EP1544747A3 (en) | 2006-05-31 |
JP4295203B2 (ja) | 2009-07-15 |
EP1544747A2 (en) | 2005-06-22 |
US20080312908A1 (en) | 2008-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6910004B2 (en) | Method and computer system for part-of-speech tagging of incomplete sentences | |
JPH083815B2 (ja) | 自然言語の共起関係辞書保守方法 | |
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
JP2004110835A (ja) | 確認文を検索するための方法およびシステム | |
US20050137855A1 (en) | Systems and methods for the generation of alternate phrases from packed meaning | |
US7957956B2 (en) | Systems and methods for normalization of linguistic structures | |
JP5107556B2 (ja) | 改善された中国語−英語翻訳ツール | |
US20120185496A1 (en) | Method of and a system for retrieving information | |
Harriehausen-Mühlbauer et al. | Semantic web based machine translation | |
Rajendran | Parsing in tamil: Present state of art | |
Neme | A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers | |
JP4023384B2 (ja) | 自然言語翻訳方法及び装置及び自然言語翻訳プログラム | |
JP3257264B2 (ja) | 未知語登録装置 | |
JPH0561902A (ja) | 機械翻訳システム | |
JP2713354B2 (ja) | 話題抽出装置 | |
Sakamoto et al. | Utilization of Multi-word Expressions to Improve Statistical Machine Translation of Statutory Sentences | |
JP2006252290A (ja) | 機械翻訳装置及びコンピュータプログラム | |
JP2928246B2 (ja) | 翻訳支援装置 | |
Balcha et al. | Design and Development of Sentence Parser for Afan Oromo Language | |
JP3884001B2 (ja) | 言語解析システムおよび方法 | |
JP2938897B2 (ja) | 文書作成処理装置 | |
US20210334476A1 (en) | Language-neutral translation memories | |
JP2839419B2 (ja) | イディオム登録機能を持つ機械翻訳装置 | |
Schwall et al. | From METAL to T1: systems and components for machine translation applications | |
JPS61260367A (ja) | 機械翻訳システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090310 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090409 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120417 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130417 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140417 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |