JP2004078962A - コーパスの中のテキストを構文解析する方法および記録媒体 - Google Patents
コーパスの中のテキストを構文解析する方法および記録媒体 Download PDFInfo
- Publication number
- JP2004078962A JP2004078962A JP2003293466A JP2003293466A JP2004078962A JP 2004078962 A JP2004078962 A JP 2004078962A JP 2003293466 A JP2003293466 A JP 2003293466A JP 2003293466 A JP2003293466 A JP 2003293466A JP 2004078962 A JP2004078962 A JP 2004078962A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- text
- parsing
- segment
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 コーパスの中のテキストを構文解析するための方法を提供する。テキストの第1のセグメントに基づいて辞書の可能な新しいエントリの仮説を立てる(ステップ302)。次に、その可能な新しいエントリを使用して、テキストの第1のセグメントに関する正常な構文解析が形成される(ステップ307)。その正常な構文解析に基づき、新しいエントリを含むように辞書が変更される(ステップ312)。次に、辞書の中のその新しいエントリを使用してテキストの第2のセグメントを構文解析する(ステップ300)。
【選択図】 図3
Description
403 トークン生成、モフォロジおよび品詞タグ付けユニット
404 擬似事実および名前付きエンティティユニット
405 シーディングユニット
406 候補リスト
407 ノードセレクタ
408 ノードチャート
409 規則エンジン
410 規則文法
412 メトリック計算器
414 構文解析ツリー
450 辞書仮説コーディネータ
452、454、456 辞書
Claims (11)
- テキストの第1のセグメントに基づいて辞書の可能な新しいエントリの仮説を立てるステップと、
前記可能な新しいエントリを使用してテキストの前記第1のセグメントの正常な構文解析を形成するステップと、
前記正常な構文解析に基づいて前記新しいエントリを含むように前記辞書を変更するステップと、
テキストの第2のセグメントを構文解析するために、前記辞書の中の前記新しいエントリを使用するステップと
を備えたことを特徴とするコーパスの中のテキストを構文解析する方法。 - 前記可能な新しいエントリの仮説を立てるステップは、辞書のための新しい語を提案するステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
- 前記可能な新しいエントリの仮説を立てるステップは、前記辞書の中の既存の語に関する新しい属性を提案するステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
- 前記辞書を変更するステップは、前記辞書の中の既存のエントリをアクティブにするステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
- 前記既存のエントリをアクティブにするステップは、
前記正常な構文解析に基づいて前記エントリに関連するカウントを増分するステップと、
前記カウントがしきい値を超えたことを判定するステップと、
前記カウントが前記しきい値を超えたことに基づいて前記既存のエントリをアクティブにするステップと
を含むことを特徴とする請求項4に記載のコーパスの中のテキストを構文解析する方法。 - 前記カウントがしきい値を超えたことを判定するステップは、前記エントリに基づいて複数の可能なしきい値の中からしきい値を選択するステップを含むことを特徴とする請求項5に記載のコーパスの中のテキストを構文解析する方法。
- 前記辞書を変更するステップは、領域特有の辞書を変更するステップを含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。
- 前記第2のセグメントを構文解析するために、前記辞書の中の前記新しいエントリを使用するステップは、
マージされた辞書を形成するために、前記領域特有の辞書を一般的な辞書とマージするステップと、
前記第2のセグメントを構文解析するために、前記マージされた辞書を使用するステップと
を含むことを特徴とする請求項7に記載のコーパスの中のテキストを構文解析する方法。 - 前記領域特有の辞書と前記一般的な辞書をマージするステップは、前記マージされた辞書の中の語に関する属性を、前記属性のいくつかが前記領域特有の辞書に由来し、前記属性のいくつかが前記一般的な辞書に由来するように指定するステップを含むことを特徴とする請求項8に記載のコーパスの中のテキストを構文解析する方法。
- 前記新しいエントリを使用するステップは、
テキストの前記第2のセグメントに基づいて第2の可能な新しいエントリの仮説を立てるステップと、
前記新しいエントリおよび前記第2の可能な新しいエントリを使用して正常な構文解析を形成するステップと、
前記第2の可能な新しいエントリを含むように前記辞書を変更するステップと
を含むことを特徴とする請求項1に記載のコーパスの中のテキストを構文解析する方法。 - テキストセグメントの中の語に関する、テキストセグメントから構文解析構造を形成するのに使用された辞書の中の前記語に関してリストされていない、可能な属性の仮説を立てるステップと、
前記語に関する前記可能な属性に基づいて構文解析トークンを生成するステップと、
前記テキストセグメントに関する構文解析構造を形成するために、前記構文解析トークンを使用するステップと、
前記構文解析構造の中で出現する前記構文解析トークンに基づき、前記語に関する前記可能な属性を、構文解析構造を形成するのに使用される辞書に追加するステップと、
第2のテキストセグメントに関する構文解析構造を形成するステップの一環として、前記辞書の中の前記語に関する前記可能な属性を取り出すために、前記辞書にアクセスする
ステップと
を行うためのコンピュータ実行可能命令を有することを特徴とするコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/219,752 US7158930B2 (en) | 2002-08-15 | 2002-08-15 | Method and apparatus for expanding dictionaries during parsing |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007322113A Division JP2008108274A (ja) | 2002-08-15 | 2007-12-13 | コーパスの中のテキストを構文解析するコンピュータ・プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004078962A true JP2004078962A (ja) | 2004-03-11 |
Family
ID=31714791
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003293466A Pending JP2004078962A (ja) | 2002-08-15 | 2003-08-14 | コーパスの中のテキストを構文解析する方法および記録媒体 |
JP2007322113A Pending JP2008108274A (ja) | 2002-08-15 | 2007-12-13 | コーパスの中のテキストを構文解析するコンピュータ・プログラムおよび記録媒体 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007322113A Pending JP2008108274A (ja) | 2002-08-15 | 2007-12-13 | コーパスの中のテキストを構文解析するコンピュータ・プログラムおよび記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7158930B2 (ja) |
EP (1) | EP1396794A3 (ja) |
JP (2) | JP2004078962A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020531953A (ja) * | 2017-08-17 | 2020-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 領域特化型字句解析 |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1290036C (zh) * | 2002-12-30 | 2006-12-13 | 国际商业机器公司 | 根据机器可读词典建立概念知识的计算机系统及方法 |
US20060101018A1 (en) * | 2004-11-08 | 2006-05-11 | Mazzagatti Jane C | Method for processing new sequences being recorded into an interlocking trees datastore |
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
US7970600B2 (en) * | 2004-11-03 | 2011-06-28 | Microsoft Corporation | Using a first natural language parser to train a second parser |
CN100530171C (zh) * | 2005-01-31 | 2009-08-19 | 日电(中国)有限公司 | 字典学习方法和字典学习装置 |
US20060277028A1 (en) * | 2005-06-01 | 2006-12-07 | Microsoft Corporation | Training a statistical parser on noisy data by filtering |
US20070005345A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Generating Chinese language couplets |
US7941418B2 (en) * | 2005-11-09 | 2011-05-10 | Microsoft Corporation | Dynamic corpus generation |
DE102005062512B4 (de) * | 2005-12-27 | 2009-06-04 | Vodafone Holding Gmbh | Verfahren zum Erzeugen und Abspeichern von Worten und/oder Wortbestandteilen in einem mobilen Endgerät sowie mobiles Endgerät |
KR100764174B1 (ko) * | 2006-03-03 | 2007-10-08 | 삼성전자주식회사 | 음성 대화 서비스 장치 및 방법 |
US8238351B2 (en) * | 2006-04-04 | 2012-08-07 | Unisys Corporation | Method for determining a most probable K location |
GB0611303D0 (en) * | 2006-06-08 | 2006-07-19 | Ibm | A method, apparatus and software for selecting terms for a glossary in a document processing system |
FI20060995A0 (fi) * | 2006-11-13 | 2006-11-13 | Tiksis Technologies Oy | Luonnollisen kielen käsittely |
JP4446313B2 (ja) * | 2006-12-15 | 2010-04-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
WO2008151465A1 (en) * | 2007-06-14 | 2008-12-18 | Google Inc. | Dictionary word and phrase determination |
CN101779200B (zh) | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US8630841B2 (en) | 2007-06-29 | 2014-01-14 | Microsoft Corporation | Regular expression word verification |
US8103503B2 (en) * | 2007-11-01 | 2012-01-24 | Microsoft Corporation | Speech recognition for determining if a user has correctly read a target sentence string |
US7962507B2 (en) * | 2007-11-19 | 2011-06-14 | Microsoft Corporation | Web content mining of pair-based data |
JP2009193356A (ja) * | 2008-02-14 | 2009-08-27 | Canon Inc | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 |
CN101615182A (zh) * | 2008-06-27 | 2009-12-30 | 西门子公司 | 中医症状信息存储系统及中医症状信息存储方法 |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
JP5716328B2 (ja) * | 2010-09-14 | 2015-05-13 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
GB2506807A (en) * | 2011-07-29 | 2014-04-09 | Trustees Of Columbia In The City Of New York | System and method for language extraction and encoding |
US9710431B2 (en) | 2012-08-18 | 2017-07-18 | Health Fidelity, Inc. | Systems and methods for processing patient information |
US9875319B2 (en) * | 2013-03-15 | 2018-01-23 | Wolfram Alpha Llc | Automated data parsing |
US10438221B2 (en) | 2013-06-24 | 2019-10-08 | Circupon | System and method to match sales with coupons |
US20150088493A1 (en) * | 2013-09-20 | 2015-03-26 | Amazon Technologies, Inc. | Providing descriptive information associated with objects |
RU2595531C2 (ru) * | 2014-04-21 | 2016-08-27 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система генерирования определения слова на основе множественных источников |
US10360301B2 (en) * | 2016-10-10 | 2019-07-23 | International Business Machines Corporation | Personalized approach to handling hypotheticals in text |
TWI665567B (zh) * | 2018-09-26 | 2019-07-11 | 華碩電腦股份有限公司 | 語意處理方法、電子裝置以及非暫態電腦可讀取記錄媒體 |
CN111951782A (zh) * | 2019-04-30 | 2020-11-17 | 京东方科技集团股份有限公司 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
US20230111052A1 (en) * | 2021-10-13 | 2023-04-13 | International Business Machines Corporation | Self-learning annotations to generate rules to be utilized by rule-based system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0850588A (ja) * | 1994-08-08 | 1996-02-20 | Matsushita Electric Ind Co Ltd | 未知語登録装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
US5251316A (en) * | 1991-06-28 | 1993-10-05 | Digital Equipment Corporation | Method and apparatus for integrating a dynamic lexicon into a full-text information retrieval system |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5991713A (en) * | 1997-11-26 | 1999-11-23 | International Business Machines Corp. | Efficient method for compressing, storing, searching and transmitting natural language text |
US6678409B1 (en) * | 2000-01-14 | 2004-01-13 | Microsoft Corporation | Parameterized word segmentation of unsegmented text |
US20020152219A1 (en) * | 2001-04-16 | 2002-10-17 | Singh Monmohan L. | Data interexchange protocol |
US7254530B2 (en) * | 2001-09-26 | 2007-08-07 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
-
2002
- 2002-08-15 US US10/219,752 patent/US7158930B2/en active Active
-
2003
- 2003-07-04 EP EP03015204A patent/EP1396794A3/en not_active Ceased
- 2003-08-14 JP JP2003293466A patent/JP2004078962A/ja active Pending
-
2007
- 2007-12-13 JP JP2007322113A patent/JP2008108274A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0850588A (ja) * | 1994-08-08 | 1996-02-20 | Matsushita Electric Ind Co Ltd | 未知語登録装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020531953A (ja) * | 2017-08-17 | 2020-11-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 領域特化型字句解析 |
JP7044448B2 (ja) | 2017-08-17 | 2022-03-30 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 領域特化型字句解析 |
Also Published As
Publication number | Publication date |
---|---|
EP1396794A3 (en) | 2007-12-12 |
EP1396794A2 (en) | 2004-03-10 |
US20040034525A1 (en) | 2004-02-19 |
JP2008108274A (ja) | 2008-05-08 |
US7158930B2 (en) | 2007-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7158930B2 (en) | Method and apparatus for expanding dictionaries during parsing | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
JP4491187B2 (ja) | 単語間の翻訳関係を計算する方法 | |
JP4694121B2 (ja) | 句の間の翻訳関係を学習するための統計的な方法および装置 | |
KR101130384B1 (ko) | 태그 데이터를 갖는 풀-폼 어휘집 및 이를 구축하고이용하는 방법 | |
KR101120798B1 (ko) | 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치 | |
US7447627B2 (en) | Compound word breaker and spell checker | |
US6965857B1 (en) | Method and apparatus for deriving information from written text | |
US7113905B2 (en) | Method and apparatus for determining unbounded dependencies during syntactic parsing | |
US7599828B2 (en) | Grammatically correct contraction spelling suggestions for french | |
US20020123877A1 (en) | Method and apparatus for performing machine translation using a unified language model and translation model | |
US6876963B1 (en) | Machine translation method and apparatus capable of automatically switching dictionaries | |
JP2005285129A (ja) | 論理形式のための統計的言語モデル | |
US20050234704A1 (en) | Using wildcards in semantic parsing | |
JP2008539476A (ja) | スペル提示の生成方法およびシステム | |
US7398210B2 (en) | System and method for performing analysis on word variants | |
US7634398B2 (en) | Method and apparatus for reattaching nodes in a parse structure | |
US6968308B1 (en) | Method for segmenting non-segmented text using syntactic parse | |
US20020152246A1 (en) | Method for predicting the readings of japanese ideographs | |
US8041556B2 (en) | Chinese to english translation tool | |
US7475006B2 (en) | Method and apparatus for parsing text using mutual information | |
JPH0721183A (ja) | 機械翻訳装置 | |
Srinivas et al. | An approach to robust partial parsing and evaluation metrics | |
TW548600B (en) | Method and system for identifying attributes of new words in non-segmented text | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070529 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070829 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070914 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071213 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20071214 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071214 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080125 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080208 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20100528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100528 |