JP5224953B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP5224953B2 JP5224953B2 JP2008185780A JP2008185780A JP5224953B2 JP 5224953 B2 JP5224953 B2 JP 5224953B2 JP 2008185780 A JP2008185780 A JP 2008185780A JP 2008185780 A JP2008185780 A JP 2008185780A JP 5224953 B2 JP5224953 B2 JP 5224953B2
- Authority
- JP
- Japan
- Prior art keywords
- transition
- state
- node
- constraint
- partial structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
A. V. Aho and M. J. Corasick, "Efficient String Matching: An Aid to Bibliographic Search", Communications of the ACM,Vol. 18, No. 6, pp. 333−340 (1975). H. Maruyama "Backtracking-Free dictionary Access Method for Japanese Morphological Analysis", Proceedings ofthe 15th International Conference on Computational Linguistics, Vol. 1, pp.208-213 (1994). 森信介, 「DFAによる単語解析の高速化」,情報処理学会研究報告 自然言語処理研究会報告,Vol. 96, No. 65, pp. 101-107 (Jul 1996). J. Aoe, "An Efficient Digital Search Algorithm by using a Double-Array Structure", IEEE Transactions on Software Engineering, Vol. 15, No. 9, pp.1066-1077 (1989).
まず、本実施形態のトライ木生成部60は、入力された1以上の単語列パターン150からトライ木を生成する。トライ木は、取り得る状態の集合S、終了状態の集合E(⊆S)、遷移の集合T(S×C→S)を含んで構成される。状態の集合Sは、初期状態s0を含む有限の状態(s0,s1,…sN)から構成される。終了状態の集合Eの各要素には、出力関数が定義されており、照合の際にオートマトンの状態が終了状態に達すると、予め定義された出力関数に応じたアクションを発生させ、例えば、マッチした単語列、単語列パターンに付属する意味情報などを出力する。遷移の集合Tは、遷移条件c(∈C)を全て満たす場合に起こる状態siを起点とし状態sjを終点とする遷移t(=<si,sj,C>)から構成される。ここで、遷移条件の要素c(=<d,w>)は、入力単語列中の判定対象部分のd番目に位置する単語が制約wを満たすという条件である。また状態siは、その状態siからの遷移の深さを表す階層レベルL(si)を有し、状態s0の階層レベルL(s0)は、「0」に基準付けされている。
(2−1)自己相似構造の探索
変換処理部70は、単語列パターンからトライ木が生成された後、トライ木からDFAへ変換する。変換処理においては、相似構造探索部72は、トライ木の構造中、任意のノードを始点とするエッジおよびノードからなるパス(以下、部分状態列として参照する)Kと、ルートノードを始点とするエッジおよびノードからなるパス(以下、プレフィックス状態列として参照する。)Pとの比較を、すべての部分状態列Kおよびプレフィックス状態列Pの組み合わせについて実行し、部分状態列K側からプレフィックス状態列P側へのリンクの要否を判定する。
部分状態列Kにおけるi番目の遷移tP iの遷移条件CK iと、プレフィックス状態列Pにおけるi番目の遷移tP iの遷移条件CP iとの集合関係を、集合演算から求める。表1に、集合演算から求められる集合関係と、遷移リンクの要否、および不確定部分の制約の記録の要否との関係を示す。
上述したように、追加の遷移リンクは、パターン照合において、ある単語が部分状態列K側の遷移条件CK iにマッチしなかった場合であっても、プレフィックス状態列P側の遷移条件CP iにマッチする可能性がある場合に、部分状態列K側の状態sK iを起点としプレフィックス状態列P側の状態sP i+1を終点として生成されるものである。相似構造探索部72は、プレフィックス状態列Pに対して、全ての遷移条件が排他ではない部分状態列Kが存在し、かつ、該部分状態列Kの末尾ノードを起点とする全ての遷移がプレフィックス状態列Pの末尾ノードを起点とする遷移に対して、同値(EQUALS)でも被包含(INCLUDED)でもない部分状態列Kおよびプレフィックス状態列Pのセットを探索する。
上述したように、追加の終了状態リンクは、パターン照合において、ある単語が部分状態列K側の遷移条件CK iにマッチした場合、プレフィックス状態列P側の遷移条件CP iにマッチしている可能性がある場合に、状態sK iから状態sP iへの生成される参照リンクである。相似構造探索部72は、プレフィックス状態列Pに対して、全ての遷移条件が排他ではない部分状態列Kが存在し、かつ、プレフィックス状態列Pの末尾ノードが終了状態である部分状態列Kおよびプレフィックス状態列Pのセットを探索する。
上述したように、遷移リンク定義部74により、相似関係にある部分状態列Kの末尾ノードからプレフィックス状態列P末尾の子ノードへ、各遷移の集合関係に応じて追加の遷移が生成される。しかしながら、本実施形態の処理によれば、各追加の遷移リンクが異なる不確定部分の制約を持ちうるために、1つの遷移元ノードに対して遷移先の異なる複数の追加の遷移リンクが定義される可能性がある。一方、パターン照合の際には、オートマトンが保持する文脈を残すためにも、マッチする遷移のうち、可能な限りプレフィックスの長い、つまり階層レベルが深い遷移先へ遷移させることが好ましい。そこで、付加リンク構造データ120においては、追加の遷移リンクを階層レベルの深さの順にソーティングする。これによって、遷移の際には、最も長いプレフィックスへ効率的に遷移させることが可能となる。
以下、図4および図5を参照して、変換処理における部分的なの処理に注目して、変換処理の手順を例示する。図4および図5は、変換処理の部分的な処理を例示する模式図である。
以下、図6および図7を参照して、トライ木からDFAの構造へ変換するまでの全体処理フローを説明する。図6は、本実施形態のコンピュータ装置10が実行する変換処理を示す第1のフローチャートである。図6に示す処理は、トライ木の生成が完了した後、照合構造定義部50に呼び出されて、ステップS100から開始される。図6に示すDFA変換処理Aは、部分状態列Kの判定処理の開始点とする状態sK iと、プレフィックス状態列Pの判定処理の開始点である状態s0とが引数として与えられて開始される。
以下、図9および図10を参照して、変換処理後の結果出力を例示する。図9は、入力される単語列パターンのデータ構造を例示する。図9に示す単語列パターンは、XML(eXtensible Markup Language)のタグにより記述されており、<mi>タグにて単語列パターンが定義されている。<mi>タグ内にネストされた<w>タグによって単語列パターンに含まれる単語およびその順序が定義付けられ、str属性は、単語の文中に現れる文字列表現(字面)を示し、lex属性は、単語の辞書中の文字列表現(原型)を示す。それぞれの表現には、正規表現を含むことができる。つまり、これらの単語列パターンは、str属性により文中に現れる単語の字面にマッチし、lex属性によりその単語の辞書表現(原型)にマッチするよう設計されており、単語が内包する種々の情報に対する制約を含んで構成されている。
以下、本実施形態の照合構造定義部50によりトライ木生成処理および変換処理により定義付けられる照合データ構造100を参照してパターン照合を実行するオートマトン80の処理について、図11を参照して説明する。
上述まで説明した変換処理を、1以上の単語列パターンを格納するトライ木に適用することによって、パターン照合においてトライ木の状態数nである単語列パターンの集合を単語数mである入力文書に対して適用する際の計算量が、O(m)に短縮される。ここで、状態の平均データ・サイズをkバイト、遷移の平均データ・サイズをpバイトとすると、全ノードから全ノードへのリンクが存在する最悪のケースでも、リンクの数はn2であるため、このときに消費するメモリ使用量Mは、(kn+pn2)バイトである。例えば、状態数nが100、状態の平均データ・サイズkが1000バイト、遷移の平均データ・サイズpが500バイトであるとき、メモリ使用量は、5.1メガバイトとなる。
図12は、本実施形態のコンピュータ装置10の概略的なハードウェア構成を示す。図12に示すコンピュータ装置10は、中央処理装置(CPU)12と、CPU12が使用するデータの高速アクセスを可能とするL1およびL2などのレベルを有するキャッシュ・メモリ14と、CPU12の処理を可能とするRAM、DRAMなどの固体メモリ素子から形成されるシステム・メモリ16とを備えている。
(9−1)コンピュータにおける実装
クロック数1.8GHzのPENTIUM(登録商標)Mプロセッサと2GBのRAMを備えるThinkPad(登録商標)X32を用いて、本実施形態によるオートマトンの処理を実現するコンピュータ・システムを実装した。このコンピュータ・システムのオペレーティング・システムは、WINDOWS(登録商標)XP・Service
Pack2とした。上記プログラムは、JAVA(登録商標)によって記述した。
トライ木構造データ110のみを参照するオートマトンと、本発明の付加リンク構造データ120を含む照合データ構造100を参照するオートマトンとによる、サンプル文書に対するパターン照合の平均処理時間を計測して評価した。なお、サンプル文書は、Red Book IBM Virtualization Engine TS7700: Tape Virtualization for System z Servers Consolidate and protect your data with a Three Cluster Grid configurationからサンプリングしたものを使用した。また、19の単語列パターンをトライ木に変換したところ、状態数は37であった。
Claims (17)
- パターン照合のためのデータ構造を定義付ける情報処理装置であって、
それぞれ複数の制約から構成される1以上の制約パターンから、各制約を遷移条件としたノード間の遷移エッジを定義付けて、順序付き木構造を生成する生成部と、
各遷移エッジの遷移条件間の集合関係を判定して、ルートノードからの第1の部分構造に相似する第2の部分構造を探索する探索部と、
前記第2の部分構造の末尾ノードから前記第1の部分構造の末尾の子ノードへ、前記集合関係から特定される不確定部分の満たすべき制約を付加した追加の遷移リンクを定義付ける遷移定義部と
を含む、情報処理装置。 - 前記情報処理装置は、前記第2の部分構造の末尾ノードから、末尾が終了状態である前記第1の部分構造の末尾ノードへ、不確定部分の制約を条件とした参照リンクを定義付ける参照定義部をさらに含む、請求項1に記載の情報処理装置。
- 前記探索部は、遷移条件が同値、被包含、包含または交差の関係にある遷移エッジによって接続されたノード列を、相似する部分構造として特定する、請求項1に記載の情報処理装置。
- 前記遷移定義部は、前記第1の部分構造の末尾ノードからの遷移条件が、前記第2の部分構造の末尾ノードからの遷移条件に対し、被包含および同値のいずれの関係にも無かった場合に、前記追加の遷移リンクを定義づける、請求項1に記載の情報処理装置。
- 前記探索部は、前記第1の部分構造のノードからの遷移条件が、前記第2の部分構造側の対応する遷移エッジに対し被包含または交差の関係にある場合に、該対応する遷移エッジを前記不確定部分として、該遷移条件の制約を該不確定部分の制約として記録する、請求項1に記載の情報処理装置。
- 前記情報処理装置は、入力情報と、定義付けられた前記データ構造により表現される前記1以上の制約パターンとを照合するオートマトンを生成する、請求項1に記載の情報処理装置。
- 前記制約パターンを構成する前記制約のそれぞれは、単語の文字列表現、正規形または品詞情報に対する1以上の制約の要素を含む、請求項1に記載の情報処理装置。
- パターン照合を実行する情報処理装置であって、
1以上の制約パターンを表現するデータ構造を記憶する記憶装置と、
前記データ構造を参照しながら入力情報と前記制約パターンとをパターン照合するオートマトンと
を含み、前記データ構造は、
前記1以上の制約パターンを構成する複数の制約をそれぞれ遷移条件として定義付けられ、順序付き木構造を構成するノード間の遷移エッジと、
ルートノードからの第1の部分構造に相似する第2の部分構造の末尾ノードから、該第1の部分構造の末尾の子ノードへ定義付けられた追加の遷移リンクであって、前記遷移エッジの各遷移条件間の集合関係に応じた不確定部分の満たすべき制約を遷移条件に含む該追加の遷移リンクと
を含む、情報処理装置。 - 前記データ構造は、前記第2の部分構造の末尾ノードから、末尾が終了状態である前記第1の部分構造の末尾ノードへ定義付けられた参照リンクであって、不確定部分の制約を参照の条件とする該参照リンクをさらに含む、請求項8に記載の情報処理装置。
- 前記オートマトンは、前記データ構造を構成する各ノードを取り得る状態として、入力情報の部分構造に適合する遷移条件を検索して、状態を遷移させることによって、前記1以上の制約パターンと適合する前記部分構造を抽出する、請求項8に記載の情報処理装置。
- 請求項1に記載の情報処理装置によって定義付けられたパターン照合のためのデータ構造を記憶する記憶装置と、
前記データ構造を参照しながら入力情報と前記制約パターンとをパターン照合するオートマトンと
を含む、情報処理装置。 - パターン照合のためのデータ構造を定義付ける方法であって、情報処理装置が、
それぞれ複数の制約から構成される1以上の制約パターンから、各制約を遷移条件としたノード間の遷移エッジを定義付けて、順序付き木構造を生成するステップと、
各遷移エッジの遷移条件間の集合関係を判定して、ルートノードからの第1の部分構造に相似する第2の部分構造を探索するステップと、
前記第2の部分構造の末尾ノードから前記第1の部分構造の末尾の子ノードへ、前記集合関係から特定される不確定部分の満たすべき制約を付加した追加の遷移リンクを定義付けるステップと
を実行する、情報処理方法。 - 前記情報処理装置が、さらに、前記第2の部分構造の末尾ノードから、末尾が終了状態である前記第1の部分構造の末尾ノードへ、不確定部分の制約を条件とした参照リンクを定義付けるステップを実行する、請求項12に記載の情報処理方法。
- 入力情報とパターン照合する方法であって、情報処理装置が、
1以上の制約パターンを表現するデータ構造を参照して、前記制約パターンと前記入力情報とをパターン照合するステップを実行し、前記データ構造は、
前記1以上の制約パターンを構成する複数の制約をそれぞれ遷移条件として定義付けられ、順序付き木構造を構成するノード間の遷移エッジと、
ルートノードからの第1の部分構造に相似する第2の部分構造の末尾ノードから、該第1の部分構造の末尾の子ノードへ定義付けられた追加の遷移リンクであって、前記遷移エッジの各遷移条件間の集合関係に応じた不確定部分の満たすべき制約を遷移条件に含む該追加の遷移リンクと
を含む、情報処理方法。 - 前記照合するステップは、前記データ構造を構成する各ノードを取り得る状態として、前記入力情報の部分構造に適合する遷移条件を検索するステップと、オートマトンの状態を遷移させて、前記1以上の制約パターンと適合する前記部分構造を抽出するステップとを含む、請求項14に記載の情報処理方法。
- 請求項1〜10のいずれか1項に記載の各機能部をコンピュータに実現するためのコンピュータ実行可能なプログラム。
- パターン照合のためのデータ構造を定義付ける情報処理装置であって、
それぞれ複数の制約から構成される1以上の制約パターンから、各制約を遷移条件としたノード間の遷移エッジを定義付けて、順序付き木構造を生成する生成部と、
各遷移エッジの遷移条件間の集合関係を判定して、ルートノードからの第1の部分構造に相似する第2の部分構造を探索する探索部と、
前記第2の部分構造の末尾ノードから前記第1の部分構造の末尾の子ノードへ、前記集合関係から特定される不確定部分の満たすべき制約を付加した追加の遷移リンクを定義付ける遷移定義部と、
前記第2の部分構造の末尾ノードから、末尾が終了状態である前記第1の部分構造の末尾ノードへ、不確定部分の制約を条件とした参照リンクを定義付ける参照定義部と
を含み、
前記探索部は、遷移条件が同値、被包含、包含または交差の関係にある遷移エッジによって接続されたノード列を、相似する部分構造として特定し、前記第1の部分構造のノードからの遷移条件が、前記第2の部分構造側の対応する遷移エッジに対し被包含または交差の関係にある場合に、該対応する遷移エッジを前記不確定部分として、該遷移条件の制約を該不確定部分の制約として記録し、
前記遷移定義部は、前記第1の部分構造の末尾ノードからの遷移条件が、前記第2の部分構造の末尾ノードからの遷移条件に対し、被包含および同値のいずれの関係にも無かった場合に、前記追加の遷移リンクを定義づけ、
前記制約パターンを構成する前記制約のそれぞれは、単語の文字列表現、正規形または品詞情報に対する1以上の制約の要素を含み、
入力情報と、定義付けられた前記データ構造により表現される前記1以上の制約パターンとを照合するオートマトンを生成する、情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008185780A JP5224953B2 (ja) | 2008-07-17 | 2008-07-17 | 情報処理装置、情報処理方法およびプログラム |
US12/494,559 US8407261B2 (en) | 2008-07-17 | 2009-06-30 | Defining a data structure for pattern matching |
US13/408,706 US8495101B2 (en) | 2008-07-17 | 2012-02-29 | Defining a data structure for pattern matching |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008185780A JP5224953B2 (ja) | 2008-07-17 | 2008-07-17 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010026689A JP2010026689A (ja) | 2010-02-04 |
JP5224953B2 true JP5224953B2 (ja) | 2013-07-03 |
Family
ID=41531187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008185780A Expired - Fee Related JP5224953B2 (ja) | 2008-07-17 | 2008-07-17 | 情報処理装置、情報処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US8407261B2 (ja) |
JP (1) | JP5224953B2 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874663B2 (en) * | 2009-08-28 | 2014-10-28 | Facebook, Inc. | Comparing similarity between documents for filtering unwanted documents |
JP5678896B2 (ja) * | 2010-01-18 | 2015-03-04 | 日本電気株式会社 | 要求抽出システム、要求抽出方法および要求抽出プログラム |
US8619084B2 (en) * | 2010-05-03 | 2013-12-31 | International Business Machines Corporation | Dynamic adaptive process discovery and compliance |
WO2011150425A1 (en) | 2010-05-28 | 2011-12-01 | Securitymetrics, Inc. | Systems and methods for determining whether data includes strings that correspond to sensitive information |
US8375061B2 (en) * | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
US8407245B2 (en) * | 2010-11-24 | 2013-03-26 | Microsoft Corporation | Efficient string pattern matching for large pattern sets |
JP5589952B2 (ja) * | 2011-05-12 | 2014-09-17 | 富士通株式会社 | 照合装置および照合プログラム |
US9361578B2 (en) * | 2011-07-13 | 2016-06-07 | Palo Alto Research Center Incorporated | Memory efficient state-set representation for planning |
CN103890763B (zh) * | 2011-10-26 | 2017-09-12 | 国际商业机器公司 | 信息处理装置、数据存取方法以及计算机可读存储介质 |
US8380758B1 (en) | 2011-11-14 | 2013-02-19 | Google Inc. | Trie specialization allowing storage of value keyed by patterns and retrieval by tokens |
US20130298003A1 (en) * | 2012-05-04 | 2013-11-07 | Rawllin International Inc. | Automatic annotation of content |
US9280575B2 (en) * | 2012-07-20 | 2016-03-08 | Sap Se | Indexing hierarchical data |
US9460455B2 (en) * | 2013-01-04 | 2016-10-04 | 24/7 Customer, Inc. | Determining product categories by mining interaction data in chat transcripts |
JP6171476B2 (ja) * | 2013-03-28 | 2017-08-02 | 富士通株式会社 | ドキュメント作成支援装置,ドキュメント作成支援プログラム及びドキュメント作成支援方法 |
US10242125B2 (en) * | 2013-12-05 | 2019-03-26 | Entit Software Llc | Regular expression matching |
JP6300596B2 (ja) * | 2014-03-27 | 2018-03-28 | Kddi株式会社 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
JP6300601B2 (ja) * | 2014-03-31 | 2018-03-28 | Kddi株式会社 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
US9934325B2 (en) * | 2014-10-20 | 2018-04-03 | Korean Institute Of Science And Technology Information | Method and apparatus for distributing graph data in distributed computing environment |
ES2724001T3 (es) | 2015-11-26 | 2019-09-05 | Tata Consultancy Services Ltd | Sistema y procedimiento de habilitación de enmascaramiento de datos para documentos web |
US20170193291A1 (en) * | 2015-12-30 | 2017-07-06 | Ryan Anthony Lucchese | System and Methods for Determining Language Classification of Text Content in Documents |
CA2973686A1 (en) | 2016-07-14 | 2018-01-14 | Bradley R. Caldwell | Identification of potentially sensitive information in data strings |
CN106161098B (zh) * | 2016-07-21 | 2019-04-30 | 四川无声信息技术有限公司 | 一种网络行为检测方法及装置 |
CN107220300B (zh) * | 2017-05-05 | 2018-07-20 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
JP6912724B2 (ja) | 2017-11-29 | 2021-08-04 | 富士通株式会社 | 情報処理プログラム、情報処理装置及び情報処理方法 |
US10853558B2 (en) * | 2019-02-20 | 2020-12-01 | Adobe Inc. | Transforming digital text content using expressions |
CN110222143B (zh) * | 2019-05-31 | 2022-11-04 | 北京小米移动软件有限公司 | 字符串匹配方法,装置,存储介质及电子设备 |
CN110232084B (zh) * | 2019-06-19 | 2021-02-26 | 河北工业大学 | 具有局部-整体约束的近似模式匹配方法 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5452451A (en) * | 1989-06-15 | 1995-09-19 | Hitachi, Ltd. | System for plural-string search with a parallel collation of a first partition of each string followed by finite automata matching of second partitions |
US6292938B1 (en) * | 1998-12-02 | 2001-09-18 | International Business Machines Corporation | Retargeting optimized code by matching tree patterns in directed acyclic graphs |
WO2001016665A2 (en) * | 1999-08-31 | 2001-03-08 | Dealigence, Inc. | System and method for automated contract formation |
US6662184B1 (en) * | 1999-09-23 | 2003-12-09 | International Business Machines Corporation | Lock-free wild card search data structure and method |
US6614789B1 (en) * | 1999-12-29 | 2003-09-02 | Nasser Yazdani | Method of and apparatus for matching strings of different lengths |
US20070192863A1 (en) * | 2005-07-01 | 2007-08-16 | Harsh Kapoor | Systems and methods for processing data flows |
JP4047053B2 (ja) * | 2002-04-16 | 2008-02-13 | 富士通株式会社 | 繰り返しを含む順序パターンを用いた検索装置および方法 |
US7257576B2 (en) * | 2002-06-21 | 2007-08-14 | Microsoft Corporation | Method and system for a pattern matching engine |
US7139688B2 (en) * | 2003-06-20 | 2006-11-21 | International Business Machines Corporation | Method and apparatus for classifying unmarked string substructures using Markov Models |
US7508985B2 (en) * | 2003-12-10 | 2009-03-24 | International Business Machines Corporation | Pattern-matching system |
JP4347087B2 (ja) * | 2004-02-26 | 2009-10-21 | 日本電信電話株式会社 | パターンマッチング装置および方法ならびにプログラム |
US7620632B2 (en) * | 2004-06-30 | 2009-11-17 | Skyler Technology, Inc. | Method and/or system for performing tree matching |
US7389296B2 (en) * | 2004-09-02 | 2008-06-17 | International Business Machines Corporation | Method, system and program product for displaying a logical structure |
US7801923B2 (en) * | 2004-10-29 | 2010-09-21 | Robert T. and Virginia T. Jenkins as Trustees of the Jenkins Family Trust | Method and/or system for tagging trees |
US7359895B2 (en) * | 2004-11-18 | 2008-04-15 | Industrial Technology Research Institute | Spiral string matching method |
JP4535130B2 (ja) * | 2004-12-09 | 2010-09-01 | 三菱電機株式会社 | 文字列照合装置および文字列照合プログラム |
US7565380B1 (en) * | 2005-03-24 | 2009-07-21 | Netlogic Microsystems, Inc. | Memory optimized pattern searching |
DE602006014673D1 (de) * | 2005-04-20 | 2010-07-15 | Ibm | Vorrichtung und verfahren zur mustererfassung |
US20060259498A1 (en) * | 2005-05-11 | 2006-11-16 | Microsoft Corporation | Signature set content matching |
GB2437560A (en) * | 2006-04-28 | 2007-10-31 | Roke Manor Research | Constructing Aho Corasick trees |
US7627541B2 (en) * | 2006-09-15 | 2009-12-01 | Microsoft Corporation | Transformation of modular finite state transducers |
US8024691B2 (en) * | 2006-09-28 | 2011-09-20 | Mcgill University | Automata unit, a tool for designing checker circuitry and a method of manufacturing hardware circuitry incorporating checker circuitry |
WO2008067743A1 (fr) * | 2006-12-08 | 2008-06-12 | Hangzhou H3C Technologies Co., Ltd. | Procédé et dispositif d'appariement de formes |
US7814443B2 (en) * | 2007-01-16 | 2010-10-12 | International Business Machines Corporation | Graph-based pattern matching in L3GO designs |
US7676444B1 (en) * | 2007-01-18 | 2010-03-09 | Netlogic Microsystems, Inc. | Iterative compare operations using next success size bitmap |
US8161550B2 (en) * | 2007-01-23 | 2012-04-17 | Knowledge Based Systems, Inc. | Network intrusion detection |
CN101377757A (zh) * | 2007-08-28 | 2009-03-04 | 国际商业机器公司 | 基于约束模式进行约束故障分析的方法和装置 |
US8176085B2 (en) * | 2008-09-30 | 2012-05-08 | Microsoft Corporation | Modular forest automata |
US8346697B2 (en) * | 2008-10-31 | 2013-01-01 | International Business Machines Corporation | Direct construction of finite state machines |
TWI482083B (zh) * | 2008-12-15 | 2015-04-21 | Univ Nat Taiwan | 二階段式正規表示式比對處理方法及系統 |
-
2008
- 2008-07-17 JP JP2008185780A patent/JP5224953B2/ja not_active Expired - Fee Related
-
2009
- 2009-06-30 US US12/494,559 patent/US8407261B2/en active Active
-
2012
- 2012-02-29 US US13/408,706 patent/US8495101B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8495101B2 (en) | 2013-07-23 |
US20100017397A1 (en) | 2010-01-21 |
JP2010026689A (ja) | 2010-02-04 |
US20120158780A1 (en) | 2012-06-21 |
US8407261B2 (en) | 2013-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5224953B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
RU2610241C2 (ru) | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов | |
US6904402B1 (en) | System and iterative method for lexicon, segmentation and language model joint optimization | |
US6182062B1 (en) | Knowledge based information retrieval system | |
RU2596599C2 (ru) | Система и способ создания и использования пользовательских онтологических моделей для обработки пользовательского текста на естественном языке | |
RU2584457C1 (ru) | Система и способ создания и использования пользовательских семантических словарей для обработки пользовательского текста на естественном языке | |
JP4141556B2 (ja) | 構造化文書管理方法及びその実施装置並びにその処理プログラムを記録した媒体 | |
RU2592396C1 (ru) | Способ и система для машинного извлечения и интерпретации текстовой информации | |
US20200320142A1 (en) | Regular expression generation using span highlighting alignment | |
US20200320068A1 (en) | User interface commands for regular expression generation | |
RU2607976C1 (ru) | Извлечение информации из структурированных документов, содержащих текст на естественном языке | |
JPH05324713A (ja) | 自然語処理方法および自然語処理システム | |
US20220092252A1 (en) | Method for generating summary, electronic device and storage medium thereof | |
JPWO2009063925A1 (ja) | 文書管理・検索システムおよび文書の管理・検索方法 | |
US20180232351A1 (en) | Joining web data with spreadsheet data using examples | |
KR20150084706A (ko) | 온톨로지의 지식 학습 장치 및 그의 방법 | |
CN112580331A (zh) | 政策文本的知识图谱构建方法及系统 | |
JP4311772B2 (ja) | 言語ストリング解析方法および言語ストリング解析システム | |
US7302384B2 (en) | Left-corner chart parsing | |
CN112632333A (zh) | 查询语句生成方法、装置、设备及计算机可读存储介质 | |
Cuculovic et al. | Semantics to the rescue of document‐based XML diff: A JATS case study | |
KR100921563B1 (ko) | 의존 문법 구문 트리를 이용한 문장 요약 방법 | |
Qian et al. | BePT: a behavior-based process translator for interpreting and understanding process models | |
JP2009140113A (ja) | 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム | |
CN112699642A (zh) | 复杂医疗文书的索引提取方法及装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120724 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20120731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130312 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |