JP5339236B2 - 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 - Google Patents
要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 Download PDFInfo
- Publication number
- JP5339236B2 JP5339236B2 JP2010048551A JP2010048551A JP5339236B2 JP 5339236 B2 JP5339236 B2 JP 5339236B2 JP 2010048551 A JP2010048551 A JP 2010048551A JP 2010048551 A JP2010048551 A JP 2010048551A JP 5339236 B2 JP5339236 B2 JP 5339236B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- transition
- collation
- sentence
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
水平方向の遷移は文字どうしが一致する場合であり、垂直方向の遷移と斜め方向の遷移が不一致に対応する。
左上隅のノードに付けられたループ状の遷移は、照合が文章の任意の位置から開始できるようにするためのものである。
遷移ルールが2個あるので、ステップS601に進み(p',e')=(2,0)を生成する。
2 処理部
3 遷移ルール記憶部(辞書データ)
4 内部的変数記憶部
5 プログラム記憶部
6 入力部
7 出力部
Claims (8)
- オートマトンによる照合対象である文章の要素列と、辞書語の要素列とを近似的な照合又は検索をコンピュータによって実施させる方法であって、
あらかじめ近似的な照合又は検索を行うための、オートマトンの遷移ルールが付与された辞書語の要素列を登録するための工程と、
前記近似的な照合又は検索を行うための、エラー値の上限値を設定するための工程と、
照合対象となる文章の要素列を入力するための工程と、
前記遷移ルールが付与された辞書語の要素及びエラー値の上限値に基づき、第1の命令手順及び第2の命令手順によって、前記辞書語の要素と前記文章の要素列において照合対象となった部分文字列の要素とを照合し、前記辞書語の最後に照合を行った要素の位置情報pと、照合の不一致のエラー値eの内部的変数の組を生成する工程と、
前記生成された内部的変数の組(p、e)を記憶する工程と、
前記内部的変数の組(p、e)をもとに、照合結果を出力する工程を有することを特徴とする要素列の近似的な照合又は検索方法。 - 前記第1の命令手順は、遷移ルールの内容を解釈し、要素の位置情報p及び入力された要素との組み合わせによって遷移先を決め、内部的変数の組の生成、参照又は更新の操作を行って状態遷移させ、
前記第2の命令手順は、遷移ルールの内容を解釈することなく、内部的変数の組の直接的な生成、参照又は更新の操作を行う手順を追加するものであり、挿入エラー及び/又は削除エラーに必要な処理であることを特徴とする請求項1記載の要素列の近似的な照合又は検索方法。 - 前記遷移ルールは、
前記文章の要素列と、前記辞書語の要素列の要素の一致を認識するために、開始ノードから終了ノードへ至る各ノードの遷移条件に、辞書語の要素列の要素を順番に1個ずつ割り当てる遷移ルールを持ち、
さらに、前記部分文字列の要素の挿入エラーを認識するために、開始ノード以外の各ノードにおいて、遷移条件を辞書語の次の要素以外の要素、遷移先を自分自身とする遷移ルールと、前記部分文字列の要素の削除エラーを認識するために、各ノードにおいて、遷移条件を辞書語の次の要素以降の要素を1個以上飛び越した位置の要素、遷移先を飛び越した先のノードとする遷移ルールとのいずれか一方又は両方を持ち、
前記挿入エラーを認識する状態遷移があった時、前記エラー値に挿入エラーのコストが加算され、又は、前記削除エラーを認識する状態遷移があった時、前記エラー値に削除エラーのコストが加算されることを特徴とする請求項1又は2記載の要素列の近似的な照合又は検索を行う方法。 - 前記第2の命令手順は、置換エラー及び/又は転置エラーの認識並びに複数の辞書語との同時照合に必要な処理を更に含むことを特徴とする請求項2又は3記載の要素列の近似的な照合又は検索方法。
- 前記削除エラーの認識の直前に、1回以上の連続した前記挿入エラーの認識の繰り返しがあった時に、前記削除エラーの認識で認識された連続する1個以上の削除された要素のならびと前記1回以上の連続した挿入エラーの認識の繰り返しで認識された1個以上の挿入された要素のならびにおいて、前記削除された要素のならびの個数と前記挿入された要素のならびの個数の小さい方の個数について、前記削除された要素のならびが同数の前記挿入された要素のならびによって置換されたとみなして、前記エラー値を変更する置換エラーの認識が追加されたことを特徴とする請求項3又は4記載の要素列の近似的な照合又は検索を行う方法。
- 前記挿入エラーの認識の直前に前記削除エラーの認識があり、
さらに、前記挿入エラーの認識で認識された挿入された要素と前記削除エラーの認識で認識された削除された要素のならびの最後の要素が同一である時に、
前記文章の要素列において前記挿入された要素とその直前の要素が転置されているとみなして、前記挿入エラーを認識した状態遷移に加えて転置エラーを認識した状態遷移を同時に行うために、前記挿入エラーを認識した内部的変数の組の複製を生成し、複製された内部的変数の組のエラー値を変更する転置エラーの認識が追加されたことを特徴とする請求項3乃至5のいずれか一項記載の要素列の近似的な照合又は検索を行う方法。 - 前記辞書語が複数の場合において、
前記文章の要素列と、前記辞書語の要素列の一致を認識する遷移ルールによって状態遷移する時に、遷移前である現在のノードが、前記一致を認識する前記遷移ルールが複数ある場合に、
前記内部的変数の組を複製し、前記複製された内部的変数の組において、前記オートマトンから前記文章の要素列と、前記辞書語の要素列の要素の一致を認識する遷移ルールによって状態遷移する時の遷移条件及び遷移先を遷移ルールから除外し、前記除外されたオートマトンに、前記文章の要素列を続けて入力させる方法を追加することで、複数の辞書語の同時照合を行うことを特徴とする請求項1乃至6のいずれか一項記載の要素列の近似的な照合又は検索を行う方法。 - 請求項1乃至7のいずれか一項記載の方法をコンピュータに実行させるプログラムを格納した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010048551A JP5339236B2 (ja) | 2010-03-05 | 2010-03-05 | 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010048551A JP5339236B2 (ja) | 2010-03-05 | 2010-03-05 | 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011186569A JP2011186569A (ja) | 2011-09-22 |
JP5339236B2 true JP5339236B2 (ja) | 2013-11-13 |
Family
ID=44792783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010048551A Expired - Fee Related JP5339236B2 (ja) | 2010-03-05 | 2010-03-05 | 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5339236B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2880192B2 (ja) * | 1989-09-08 | 1999-04-05 | 株式会社日立製作所 | 文字列検索方法及び装置 |
US5606690A (en) * | 1993-08-20 | 1997-02-25 | Canon Inc. | Non-literal textual search using fuzzy finite non-deterministic automata |
JP4729389B2 (ja) * | 2005-11-21 | 2011-07-20 | 三菱電機株式会社 | パターン照合装置、パターン照合方法、パターン照合プログラム及び記録媒体 |
-
2010
- 2010-03-05 JP JP2010048551A patent/JP5339236B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011186569A (ja) | 2011-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1302861B1 (en) | Natural language parser | |
Kim et al. | Walk-weighted subsequence kernels for protein-protein interaction extraction | |
US7236923B1 (en) | Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
WO2007137487A1 (en) | Method and apparatus for named entity recognition in natural language | |
JP2012063883A (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
Stanojevic et al. | CCG parsing algorithm with incremental tree rotation | |
Osborne | Estimation of stochastic attribute-value grammars using an informative sample | |
KR101246101B1 (ko) | 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법 | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
JP5339236B2 (ja) | 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 | |
Othmane et al. | POS-tagging Arabic texts: A novel approach based on ant colony | |
Eisner et al. | Local search with very large-scale neighborhoods for optimal permutations in machine translation | |
Maraist | String shuffling over a gap between parsing and plan recognition | |
Liang | Spell checkers and correctors: A unified treatment | |
Gholami-Dastgerdi et al. | Part of speech tagging using part of speech sequence graph | |
Hou et al. | Event extraction for gene regulation network using syntactic and semantic approaches | |
Hertel | Neural language models for spelling correction | |
JP2009020567A (ja) | 文書検索装置 | |
JP2005234800A (ja) | 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
JP4105756B2 (ja) | 自然言語解析装置及び方法、自然言語解析プログラム | |
Sigletos et al. | Mining web sites using wrapper induction, named entities, and post-processing | |
Prolo | LR parsing for Tree Adjoining Grammars and its application to corpus-based natural language parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5339236 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130902 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |