JP2006518502A - テキスト分析のためのシステムと方法 - Google Patents
テキスト分析のためのシステムと方法 Download PDFInfo
- Publication number
- JP2006518502A JP2006518502A JP2006501931A JP2006501931A JP2006518502A JP 2006518502 A JP2006518502 A JP 2006518502A JP 2006501931 A JP2006501931 A JP 2006501931A JP 2006501931 A JP2006501931 A JP 2006501931A JP 2006518502 A JP2006518502 A JP 2006518502A
- Authority
- JP
- Japan
- Prior art keywords
- chain
- constraint
- string
- regular expression
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 開示された発明は非循環有向グラフ(Direct Acyclic Graph)を「DAG」ストリングによって表し、単純な有限状態オートマタを用いて処理することを可能にする。
Description
・統計的な「品詞(Part Of Speech: POS)タガー(Tagger)」。これは、一般に、いわゆる隠れマルコフ・モデル(Hidden Markov Model:HMM)とビタビ(Viterbi)アルゴリズムを使用する;
・形式規則システム;
・これら2つの混合
この方法は、好ましくは、
(a)前記制約から正規表現を構築するステップと、
(b)前記正規表現を用いて、前記最初のストリングのマルチ・チェーンにおいて、前記少なくとも1つの制約が適用される位置を探索するステップと、
(c)前記最初のストリングのマルチ・チェーンを、前記制約が適用される位置に関してサブ・マルチ・チェーンに分離するステップと、
(d)前記制約が適用されなくなるまで、ステップ(b)およびステップ(c)を各サブ・マルチ・チェーンに適用するステップとを含む。
・マルチ・チェーンはただ1つのルートとただ1つのリーフを有する。
・所定のノードに由来する各頂点は同一のノードに至る。
・ST=<a b c><a b><a b c><a c><a c>
ここで、「<a b c>」はエッジ「a」、「b」、「c」によってリンクされている、ということを意味する。
したがって、この定式化の場合、上のストリング(ST)はノード(すなわち位置)2はノード(すなわち位置)1からエッジ「a」、「b」、「c」のうちのいずれか1つによって到達される、ということを意味する。したがって、位置3はエッジ「a」または「b」によって到達される。位置4はエッジ「a」、「b」、または「c」によって到達される。位置5はエッジ「a」または「c」によって到達され、そして最後の位置6はエッジ「a」または「c」によって到達される。
・ST1=<a b c><a b><b><c><a c>
・ST2=<a b c><a b><a b><a><a>
・ST3=<a b c><b><a b c><a><a>
・ST4=<a b c><b><b c><a c><a>
・ST5=<a b c><b><b c><c><a c>
P=“<”^(@*“>”@*)“a”^(@*“>”@*)“>”“<” ^(@*“>”@*)“c”^(@*“>”@*)“>”
ここで、
・記号「@」は任意の文字を意味し;
・「‘パターン(pattern)’*」は、正規表現「‘パターン(pattern)’」の0個または数個の発生を意味する周知のスター(star)演算子であり、したがって「@*」は、任意の文字が0個または数個発生することを意味し;
・「^('パターン(pattern)’) 」は正規表現「 'パターン(pattern)'」とマッチングしない任意のものを意味し、したがって、「^(@*“>”@*)」は文字「>」を含まない任意のストリングを意味し;
・2つの式の連結は間接的であるから、「“<”^(@*“>”@*)“a”^(@*“>”@*)“>”」は、文字「<」には文字「>」を含まない任意のものが続き、その後、文字「a」、文字「>」を含まない任意のもの、文字「>」が順に続くことを意味する。
・<b><a b c>
・<a b><a b>
・STA1=<a b c><b><a b c><a c><a c>
・STA2=<a b c><a b><a b><a c><a c>
・STA11=<a b c><b><b c><a c><a c>
・STA12=<a b c><b><a b c><a><a c>
・STA21=<a b c><a b><b><a c><a c>
・STA22=<a b c><a b><a b><a><a c>
・STA111=<a b c><b><b c><c><a c>
・STA112=<a b c><b><b c><a c><a>
・STA121=<a b c><b><a b c><a><a>
・STA122=<a b c><b><a b c><><a c>
・STA211=<a b c><a b><b><c><a c>
・STA212=<a b c><a b><b><a><a>
・STA221=<a b c><a b><a b><><a c>(これは有効ではない)
・STA222=<a b c><a b><a b><a><a>
・STA111=<a b c><b><b c><c><a c>
・STA112=<a b c><b><b c><a c><a>
・STA121=<a b c><b><a b c><a><a>
・STA211=<a b c><a b><b><c><a c>
・STA222=<a b c><a b><a b><a><a>
・所定の式は所定の文脈には出現しえない、ということを明言する負の規則。一般的に使用されている定式化においては、このような規則は次の仕方で表現される。
C <= L_R
これは正規表現「C」は正規表現「L」と正規表現「R」との間に出現しえない、ということを意味する。
・所定の式は所定の文脈には必須である、ということを明言する正の規則。一般的に使用されている定式化においては、このような規則は次の仕方で表現される。
C => L_R
これは正規表現「C」は正規表現「L」と正規表現「R」との間に必須である、ということを意味する。
・<b>=“<”^(@*(“>”|“<b”|“b”)@*)(“<b”|“b”)^(@*(“>”|“<b”|“b”)@*)“>”
これは「b」なるラベルを付されたエッジを含む2つのノード間の接続、たとえば、
・<b c>、<a b c>、または<b>を意味するが、しかし、
・<a c>または<a>を意味しない。
・結果として得られる第1のストリングの場合、それは「“<”」、「“>”」、「“<b”」、または「“b”」のような明示的な表現のみを書き替えることになり、メタ文字「@」がマッチングするすべてのものを消去することになる。このように、評価プログラムは「UNIX(R)」において周知の「sed」プログラムまたは周知の「PERL」プログラムの置換コマンドのように振る舞う。それは「b」とデリミタ「<」および「>」とを除くすべての文字を消去する。それはこの例の場合、この定式化では「s/<[^<b]*b[^<b]*>/<b>/」と書くことができる。
・結果として得られる第2のストリングの場合、それはデリミタ「<」および「
>」、ならびに「b」を除くすべての文字のみを書き替えることになる。PER
L言語では、これを次のように書くことができる。すなわち、
s/<([^<b]*)b([^<b]*)>/<$1$2>/
・結果として得られる最後のストリングはマッチングされたストリング自体である。
・<a> <= _ <c>
・0:“<L>”<a> 0:“<C>”<c> 0:“<R>”
ここで、「<L>」、「<C>」、および「<R>」はマッチングしたマルチ・チェーンを左部、中央部、および右部に分離するのを可能するタグである(「0:“<xyz>”」はストリング「xyz」を生成することを意味する)。この表現を次のストリングに適用する。すなわち、
・MC=<a b c><a b><a b c><a c><a c>
・MC1−1 = <L><a><C><><R>
・MC1−2 = <L><b c><C><a b><R>
・MC1−3 = <L><a b c><C><a b><R>
・MC2−1 = <L><a><C><c><R>
・MC2−2 = <L><b><C><a b><R>
・MC2−3 = <L><a b><C><a b c><R>
・「<b><a b c>」。これは、「<a>」以外の他の何かに続くすべてのものは上記規則によって影響されないからである。
・「<a><a b>」。これは、「<a>」に続くすべてのものは「c」を含んではいけないからである。
まず、制約文法の各規則(200)ごとに、対応する正規表現を構築する。すなわち、
各規則「R=C<=L_R」または「R=C=>L_R」ごとに、
正規表現「P=L 0:“<L>”C 0:“<C>”R 0:“<R>”」を構築する。
102 プロセッサ
104 メモリ
106 入力装置
108 ディスプレイ装置
110 データ記憶装置
112 データ通信装置
114 オペレーティング・システム
116 正規表現
118 ストリング・マルチ・チェーンDB
120 制約チェック・プログラム
Claims (10)
- 最初のストリングのマルチ・チェーンに適用される制約を表す非循環有向グラフ(DAG)を構築するための、コンピュータによって実現される方法であって、
(a)前記制約から正規表現を構築するステップと、
(b)前記正規表現を用いて、前記最初のストリングのマルチ・チェーンにおいて、前記制約が適用される位置を探索するステップと、
(c)前記最初のストリングのマルチ・チェーンを、前記制約が適用される位置に関してサブ・マルチ・チェーンに分離するステップと、
(d)前記制約の適用がなくなるまで、ステップ(b)およびステップ(c)を各サブ・マルチ・チェーンに適用するステップと
を含む
方法。 - さらに、
ステップ(c)の後に、前記制約が適用されないサブ・マルチ・チェーンを削除するステップを含む、
請求項1に記載の方法。 - さらに、
ステップ(c)の後に、少なくとも2つのサブ・マルチ・チェーンを組み合わせるステップを含む、
請求項1または2に記載の方法。 - ステップ(a)において構築した正規表現が、前記制約の文脈を特定するのを可能にする左部、中央部、および右部を含む、
請求項1〜3のうちの1項に記載の方法。 - ステップ(b)がさらに、前記左部、前記中央部および前記右部において探索を行うステップを含む、
請求項4に記載の方法。 - 前記制約が負の規則である、
請求項1〜5のうちの1項に記載の方法。 - 前記制約が正の規則である、
請求項1〜6のうちの1項に記載の方法。 - 前記最初のストリングのマルチ・チェーンが、曖昧性を無くすべき句のストリング表現である、
請求項1〜7のうちの1項に記載の方法。 - 請求項1〜8のうちの1項の方法の各ステップを実行する手段を含むシステム。
- コンピュータに請求項1〜8のうちの1項の方法を実行させるコンピュータ読み取り可能なプログラム手段を含む、コンピュータ使用可能な媒体に格納されたコンピュータ・プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03368008 | 2003-01-30 | ||
PCT/EP2004/001788 WO2004068366A1 (en) | 2003-01-30 | 2004-01-23 | System and method for text analysis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006518502A true JP2006518502A (ja) | 2006-08-10 |
Family
ID=32799164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006501931A Pending JP2006518502A (ja) | 2003-01-30 | 2004-01-23 | テキスト分析のためのシステムと方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7657422B2 (ja) |
EP (1) | EP1584047A1 (ja) |
JP (1) | JP2006518502A (ja) |
CN (1) | CN1717680A (ja) |
WO (1) | WO2004068366A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041208A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | グラフ変換装置、方法、及びプログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060075392A1 (en) * | 2004-10-05 | 2006-04-06 | International Business Machines Corporation | System and method for reverse engineering of pattern string validation scripts |
US20060167873A1 (en) * | 2005-01-21 | 2006-07-27 | Degenaro Louis R | Editor for deriving regular expressions by example |
US7908552B2 (en) * | 2007-04-13 | 2011-03-15 | A-Life Medical Inc. | Mere-parsing with boundary and semantic driven scoping |
US9218372B2 (en) * | 2012-08-02 | 2015-12-22 | Sap Se | System and method of record matching in a database |
US20180039693A1 (en) * | 2016-08-05 | 2018-02-08 | Microsoft Technology Licensing, Llc | Learned data filtering |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
GB2314433A (en) * | 1996-06-22 | 1997-12-24 | Xerox Corp | Finding and modifying strings of a regular language in a text |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
US6032111A (en) * | 1997-06-23 | 2000-02-29 | At&T Corp. | Method and apparatus for compiling context-dependent rewrite rules and input strings |
US6333999B1 (en) * | 1998-11-06 | 2001-12-25 | International Business Machines Corporation | Systematic enumerating of strings using patterns and rules |
US6553531B1 (en) * | 1999-04-22 | 2003-04-22 | Synopsys, Inc. | Method and apparatus for random stimulus generation |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
US7107205B2 (en) * | 2000-04-03 | 2006-09-12 | Xerox Corporation | Method and apparatus for aligning ambiguity in finite state transducers |
US6944588B2 (en) * | 2000-04-03 | 2005-09-13 | Xerox Corporation | Method and apparatus for factoring unambiguous finite state transducers |
CA2431209A1 (en) * | 2000-12-08 | 2002-06-13 | Configit Software A/S | A method of configuring a product using a directed acyclic graph |
US7010476B2 (en) * | 2000-12-18 | 2006-03-07 | Xerox Corporation | Method and apparatus for constructing finite-state networks modeling non-concatenative processes |
US6990519B2 (en) * | 2001-11-08 | 2006-01-24 | Texas Instruments Incorporated | Use of a directed acyclic organization structure for selection and execution of consistent subsets of rewrite rules |
US7136807B2 (en) * | 2002-08-26 | 2006-11-14 | International Business Machines Corporation | Inferencing using disambiguated natural language rules |
-
2004
- 2004-01-23 WO PCT/EP2004/001788 patent/WO2004068366A1/en not_active Application Discontinuation
- 2004-01-23 CN CNA2004800016339A patent/CN1717680A/zh active Pending
- 2004-01-23 US US10/542,456 patent/US7657422B2/en active Active - Reinstated
- 2004-01-23 JP JP2006501931A patent/JP2006518502A/ja active Pending
- 2004-01-23 EP EP04704614A patent/EP1584047A1/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041208A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | グラフ変換装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2004068366A1 (en) | 2004-08-12 |
EP1584047A1 (en) | 2005-10-12 |
CN1717680A (zh) | 2006-01-04 |
US7657422B2 (en) | 2010-02-02 |
US20060190244A1 (en) | 2006-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0907923B1 (en) | Method and system for computing semantic logical forms from syntax trees | |
Kumawat et al. | POS tagging approaches: A comparison | |
US11030407B2 (en) | Computer system, method and program for performing multilingual named entity recognition model transfer | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
US6684201B1 (en) | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites | |
US6859771B2 (en) | System and method for identifying base noun phrases | |
EP3859587A1 (en) | Robotic task planning for complex task instructions in natural language | |
US20040111255A1 (en) | Graph-based method for design, representation, and manipulation of NLU parser domains | |
US9720903B2 (en) | Method for parsing natural language text with simple links | |
WO2001082111A2 (en) | Computer-aided reading system and method with cross-language reading wizard | |
JP2003308320A (ja) | 文実現システム | |
JP7064274B2 (ja) | 意図認識のための抽象化および移植性 | |
Jin et al. | Unsupervised grammar induction with depth-bounded PCFG | |
CN110276080B (zh) | 一种语义处理方法和系统 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
EP3598321A1 (en) | Method for parsing natural language text with constituent construction links | |
Feldman et al. | TEG—a hybrid approach to information extraction | |
JP4311772B2 (ja) | 言語ストリング解析方法および言語ストリング解析システム | |
US10810368B2 (en) | Method for parsing natural language text with constituent construction links | |
JP4738753B2 (ja) | 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決 | |
Wintner | Formal language theory | |
CN112800244A (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
JP2006518502A (ja) | テキスト分析のためのシステムと方法 | |
Al-Khatib et al. | A New Enhanced Arabic Light Stemmer for IR in Medical Documents. | |
US20230111052A1 (en) | Self-learning annotations to generate rules to be utilized by rule-based system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070123 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070309 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070316 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070925 |