JP2004326750A - 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 - Google Patents
文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 Download PDFInfo
- Publication number
- JP2004326750A JP2004326750A JP2004110409A JP2004110409A JP2004326750A JP 2004326750 A JP2004326750 A JP 2004326750A JP 2004110409 A JP2004110409 A JP 2004110409A JP 2004110409 A JP2004110409 A JP 2004110409A JP 2004326750 A JP2004326750 A JP 2004326750A
- Authority
- JP
- Japan
- Prior art keywords
- segmentation
- rewrite
- rules
- grammar
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 23
- 238000013138 pruning Methods 0.000 claims description 13
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000006855 networking Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01D—HARVESTING; MOWING
- A01D46/00—Picking of fruits, vegetables, hops, or the like; Devices for shaking trees or shrubs
- A01D46/24—Devices for picking apples or like fruit
- A01D46/247—Manually operated fruit-picking tools
-
- A—HUMAN NECESSITIES
- A01—AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
- A01D—HARVESTING; MOWING
- A01D46/00—Picking of fruits, vegetables, hops, or the like; Devices for shaking trees or shrubs
- A01D46/22—Baskets or bags attachable to the picker
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Environmental Sciences (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Harvesting Machines For Root Crops (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Error Detection And Correction (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】 規則ベース文法が生成される。セグメント化あいまい性は、トレーニングデータで識別される。あいまいなセグメント化に関する書き換え規則が列挙され、それぞれの確率が生成される。あいまい性はこの確率に基づいて解決される。一実施形態では、これは期待値最大化(EM)アルゴリズムを適用することによって実行される。
【選択図】 図2A
Description
数式1 P(from|ShowFlightCmd FPDCity)
=P(ε|ShowFlightCmd)*P(from|FPDCity)
+P(from|ShowFlightCmd)*P(ε|FPDCity)
=[(7/18)×(5/12)]+[(3/18)×(5/12)]=50/216
この数量から、空の文字列をShowFlightCmdと位置合わせし、「from」をFPDCityと位置合わせするセグメント化の比率は、以下のような新しく予測されるカウント
202 モデルオーサリング構成要素
204 ユーザインターフェース
206 スキーマ
208 トレーニング例テキスト文字列
209 文法ライブラリ
210 規則ベース文法
Claims (17)
- 自然言語処理に関する規則ベース文法を生成するための方法であって、
トレーニングデータのセグメント化があいまいなトレーニングデータにおいてセグメント化あいまい性を識別すること、
すべてのあいまいなセグメント化に関する書き換え規則を列挙すること、および
前記トレーニングデータによってサポートされる書き換え規則のオカレンスに基づいて、列挙されたそれぞれの書き換え規則に関する確率を生成することにより、前記セグメント化あいまい性を自動的に解決すること
を含むことを特徴とする方法。 - 前記セグメント化あいまい性を自動的に解決することは、
前記トレーニングデータによってサポートされる書き換え規則のオカレンスに基づいて、列挙されたそれぞれの書き換え規則に関するカウントを予測すること、
前記予測されたカウントに基づいて、前記列挙されたそれぞれの書き換え規則に関する確率を生成すること、
取得されたそれぞれの書き換え規則に関する前記確率に基づいて、前記列挙された書き換え規則に関するカウントを再度予測すること、および
前記確率を取得することと前記カウントを再度予測することとを、所望の収束が得られるまで反復すること
を含むことを特徴とする請求項1に記載の方法。 - 前記トレーニングデータを受け取ることをさらに含むことを特徴とする請求項2に記載の方法。
- 前記トレーニングデータを受け取ることは、
スキーマおよび1つまたは複数の意味的な注釈が付けられたテキスト文字列を受け取ることを含むことを特徴とする請求項3に記載の方法。 - 前記セグメント化あいまい性を識別することは、
書き換え規則を含むテンプレート文法を、前記トレーニングデータから生成することを含むことを特徴とする請求項4に記載の方法。 - 前記セグメント化あいまい性を識別することは、
前記スキーマ、前記書き換え規則、および前記注釈が付けられたテキスト文字列から、解析ツリーを生成することを含むことを特徴とする請求項5に記載の方法。 - 前記各書き換え規則は、前記解析ツリーのリーフを前記テキスト文字列の一部にマッピングするものであって、前記セグメント化あいまい性を識別することは、
前記解析ツリーの複数の可能なリーフにマッピングすることが可能な前記テキスト文字列のあいまいな部分を識別することを含むことを特徴とする請求項6に記載の方法。 - 前記すべてのあいまいなセグメント化に関する書き換え規則を列挙することは、
前記解析ツリーの前記可能なリーフのそれぞれに前記テキスト文字列のあいまいな部分をマッピングする、書き換え規則を列挙することを含むことを特徴とする請求項7に記載の方法。 - 前記列挙されたそれぞれの書き換え規則に関する確率を生成することは、
同じリーフに適用される書き換え規則それぞれに関するカウントを正規化することを含むことを特徴とする請求項8に記載の方法。 - 前記カウントを予測することに先立って、セグメント化あいまい性例の可能なセグメント化それぞれに関する確率を同じ値に設定することをさらに含むことを特徴とする請求項2に記載の方法。
- 前記セグメント化あいまい性を自動的に解決することは、
前記生成された確率に基づいて、前記列挙された書き換え規則をプルーニングすることを含むことを特徴とする請求項2に記載の方法。 - 前記プルーニングすることは、
前記書き換え規則それぞれについて生成された確率がしきい値と合致するかどうかを判別すること、および
前記判別に基づいて前記書き換え規則をプルーニングすることを含むことを特徴とする請求項11に記載の方法。 - 前記プルーニングすることは、
前記しきい値に合致しない書き換え規則をプルーニングすることを含むことを特徴とする請求項12に記載の方法。 - 前記プルーニングすることは、
セグメント化あいまい性のすべてのトレーニング例に関する最尤セグメント化によってサポートされていない書き換え規則をプルーニングすることを含むことを特徴とする請求項11に記載の方法。 - 規則ベース文法をオーサリングするためのコンピュータ実施文法オーサリングシステムであって、
トレーニングデータを受け取り、前記トレーニングデータにおけるセグメント化あいまい性に対応するあいまいな書き換え規則を含むテンプレート文法を生成するように構成されたテンプレート文法生成器と、
前記テンプレート文法生成器に結合され、前記あいまいな書き換え規則を受け取り、前記あいまいな書き換え規則に関する確率を生成するように構成された、あいまい性除去構成要素と、
前記あいまい性除去構成要素に結合され、前記生成された確率に基づいて前記あいまいな書き換え規則をプルーニングするように構成された、プルーニング構成要素と
を含むことを特徴とする文法オーサリングシステム。 - 前記あいまいな書き換え規則は、それぞれ、あいまいなセグメント化セット中の可能なセグメント化に対応することを特徴とする請求項15に記載の文法オーサリングシステム。
- 前記あいまい性除去構成要素は、
それぞれの可能なセグメント化に関連付けられた確率を生成するために、期待値最大化(EM)アルゴリズムを適用するように構成された期待値最大化(EM)アルゴリズム適用構成要素を含むことを特徴とする請求項16に記載の文法オーサリングシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/406,524 | 2003-04-03 | ||
US10/406,524 US7328147B2 (en) | 2003-04-03 | 2003-04-03 | Automatic resolution of segmentation ambiguities in grammar authoring |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004326750A true JP2004326750A (ja) | 2004-11-18 |
JP4738753B2 JP4738753B2 (ja) | 2011-08-03 |
Family
ID=32850648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004110409A Expired - Fee Related JP4738753B2 (ja) | 2003-04-03 | 2004-04-02 | 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7328147B2 (ja) |
EP (1) | EP1465155B1 (ja) |
JP (1) | JP4738753B2 (ja) |
KR (1) | KR100895940B1 (ja) |
CN (1) | CN100351837C (ja) |
AT (1) | ATE348383T1 (ja) |
DE (1) | DE602004003609T2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004019131D1 (de) * | 2003-11-12 | 2009-03-05 | Philips Intellectual Property | Vergabe semantischer etiketten an phrasen für die grammatikerzeugung |
US8229745B2 (en) * | 2005-10-21 | 2012-07-24 | Nuance Communications, Inc. | Creating a mixed-initiative grammar from directed dialog grammars |
US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
US8516457B2 (en) | 2011-06-28 | 2013-08-20 | International Business Machines Corporation | Method, system and program storage device that provide for automatic programming language grammar partitioning |
US8676826B2 (en) | 2011-06-28 | 2014-03-18 | International Business Machines Corporation | Method, system and program storage device for automatic incremental learning of programming language grammar |
US10102275B2 (en) | 2015-05-27 | 2018-10-16 | International Business Machines Corporation | User interface for a query answering system |
US10146858B2 (en) | 2015-12-11 | 2018-12-04 | International Business Machines Corporation | Discrepancy handler for document ingestion into a corpus for a cognitive computing system |
US10176250B2 (en) | 2016-01-12 | 2019-01-08 | International Business Machines Corporation | Automated curation of documents in a corpus for a cognitive computing system |
US9842161B2 (en) * | 2016-01-12 | 2017-12-12 | International Business Machines Corporation | Discrepancy curator for documents in a corpus of a cognitive computing system |
US11138374B1 (en) * | 2018-11-08 | 2021-10-05 | Amazon Technologies, Inc. | Slot type authoring |
US11308281B1 (en) * | 2018-11-08 | 2022-04-19 | Amazon Technologies, Inc. | Slot type resolution process |
US11281857B1 (en) * | 2018-11-08 | 2022-03-22 | Amazon Technologies, Inc. | Composite slot type resolution |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1045342C (zh) * | 1993-12-07 | 1999-09-29 | 张飞鹏 | 反映语法特征的汉语表意拼音文字输入法及键盘 |
US6052483A (en) * | 1994-11-04 | 2000-04-18 | Lucent Technologies Inc. | Methods and apparatus for classification of images using distribution maps |
US6292767B1 (en) | 1995-07-18 | 2001-09-18 | Nuance Communications | Method and system for building and running natural language understanding systems |
US6317708B1 (en) | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
US7031908B1 (en) | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US6865528B1 (en) | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
AU2001275845A1 (en) * | 2000-06-26 | 2002-01-08 | Onerealm Inc. | Method and apparatus for normalizing and converting structured content |
US6952666B1 (en) * | 2000-07-20 | 2005-10-04 | Microsoft Corporation | Ranking parser for a natural language processing system |
US7003444B2 (en) * | 2001-07-12 | 2006-02-21 | Microsoft Corporation | Method and apparatus for improved grammar checking using a stochastic parser |
US7039579B2 (en) | 2001-09-14 | 2006-05-02 | International Business Machines Corporation | Monte Carlo method for natural language understanding and speech recognition language models |
US7805302B2 (en) | 2002-05-20 | 2010-09-28 | Microsoft Corporation | Applying a structured language model to information extraction |
-
2003
- 2003-04-03 US US10/406,524 patent/US7328147B2/en not_active Expired - Fee Related
-
2004
- 2004-04-02 AT AT04008096T patent/ATE348383T1/de not_active IP Right Cessation
- 2004-04-02 DE DE602004003609T patent/DE602004003609T2/de not_active Expired - Lifetime
- 2004-04-02 JP JP2004110409A patent/JP4738753B2/ja not_active Expired - Fee Related
- 2004-04-02 EP EP04008096A patent/EP1465155B1/en not_active Expired - Lifetime
- 2004-04-03 KR KR1020040023190A patent/KR100895940B1/ko not_active IP Right Cessation
- 2004-04-05 CN CNB2004100352257A patent/CN100351837C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ATE348383T1 (de) | 2007-01-15 |
EP1465155B1 (en) | 2006-12-13 |
KR100895940B1 (ko) | 2009-05-07 |
US20040199374A1 (en) | 2004-10-07 |
US7328147B2 (en) | 2008-02-05 |
DE602004003609D1 (de) | 2007-01-25 |
DE602004003609T2 (de) | 2007-04-05 |
KR20040086842A (ko) | 2004-10-12 |
EP1465155A2 (en) | 2004-10-06 |
JP4738753B2 (ja) | 2011-08-03 |
CN1542650A (zh) | 2004-11-03 |
EP1465155A3 (en) | 2005-05-11 |
CN100351837C (zh) | 2007-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4724377B2 (ja) | 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル | |
US7451125B2 (en) | System and method for compiling rules created by machine learning program | |
JP5162697B2 (ja) | 情報検索手法による統一化されたタスク依存の言語モデルの生成 | |
US7496621B2 (en) | Method, program, and apparatus for natural language generation | |
US7478038B2 (en) | Language model adaptation using semantic supervision | |
US7529657B2 (en) | Configurable parameters for grammar authoring for speech recognition and natural language understanding | |
JP4532863B2 (ja) | 2言語コーパスを整列させるための方法および装置 | |
KR101120798B1 (ko) | 텍스트로부터 세만틱 구조들을 식별하기 위한 방법 및장치 | |
JP2004246368A (ja) | テキストから単語誤り率を予測するための方法および装置 | |
EP1475779B1 (en) | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding | |
JP4738753B2 (ja) | 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 | |
Wang et al. | Combination of CFG and n-gram modeling in semantic grammar learning. | |
JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム | |
JP4084816B2 (ja) | 依存構造情報処理装置、そのプログラム及び記録媒体 | |
Hall et al. | Corrective dependency parsing | |
JPH06223102A (ja) | 自然言語処理装置 | |
JPH09282321A (ja) | 単語分類処理方法、単語分類処理装置及び音声認識装置 | |
Crook et al. | D1. 3: POMDP Learning for ISU Dialogue Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070904 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071005 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080212 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20080213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080213 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080502 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20080704 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20100528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110310 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110427 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |