JP5339236B2 - 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 - Google Patents

要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 Download PDF

Info

Publication number
JP5339236B2
JP5339236B2 JP2010048551A JP2010048551A JP5339236B2 JP 5339236 B2 JP5339236 B2 JP 5339236B2 JP 2010048551 A JP2010048551 A JP 2010048551A JP 2010048551 A JP2010048551 A JP 2010048551A JP 5339236 B2 JP5339236 B2 JP 5339236B2
Authority
JP
Japan
Prior art keywords
error
transition
collation
sentence
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010048551A
Other languages
English (en)
Other versions
JP2011186569A (ja
Inventor
健一 遠藤
Original Assignee
独立行政法人 国立印刷局
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 独立行政法人 国立印刷局 filed Critical 独立行政法人 国立印刷局
Priority to JP2010048551A priority Critical patent/JP5339236B2/ja
Publication of JP2011186569A publication Critical patent/JP2011186569A/ja
Application granted granted Critical
Publication of JP5339236B2 publication Critical patent/JP5339236B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体に関する。特に、文章の要素列と複数の辞書語の要素列を比較する照合処理、あるいは、ある文章の要素列中からその文章の要素列より短い長さの要素列を探す検索処理を近似的に行う照合又は検索の効率化に関するものである。
今日、パーソナルコンピュータ等の普及に伴い、パーソナルコンピュータにインストールされた文書作成ソフトウェアを用いて、文章データが大量に作成され、利用されている。
ところで、大量に作成された文章データを活用する手段の一つとして、「検索」という方法があり、この方法は、パーソナルコンピュータや文書サーバ等内に文章データがあらかじめ蓄積されている状況で、利用者が「キーワード」を指定することで、蓄積された文章データから、文章中の部分文字列とキーワードの照合とを行って、キーワードを含む文章、あるいは当該文章中から一致するキーワードを探し出す処理を行うものである。
通常の検索は、一致するものを探す処理であるが、指定したキーワードと似ている綴りが文章中から検出できると便利な場合がある。このような目的のために不一致、すなわちエラーが許容される検索を「近似的」検索であるという。
近似的な文字列照合及び検索に関しては、二つの文字列の相違度を示す指標として「編集距離」というものがあり、また、ある文字列に対して、文字の挿入、削除、置換(違う文字への置き換え)又は転置(隣りあった文字の入れ替え)を行う操作として「編集操作」というものがある。1回の編集操作によって変形された文字列と元の文字列との編集距離を、その編集操作の「コスト」と呼び、ある文字列から編集操作を繰り返すことで別の文字列に変形することができ、二つの文字列の編集距離は各編集操作のコストの和で示される。以下では編集距離を「エラー値」と称することがある。
日本語の検索処理やその他の文章処理を実現するための最も基本的な技術に形態素解析がある。形態素解析は、英語等と異なって、日本語では語の区切りが明示されていないために、文章を単語に区切る処理のことである。形態素解析では、検索に準じた処理が行われるが、検索と異なる点は、文章の同一の部分文字列に対して複数のキーワードの同時照合を行って一致するキーワードを見出す点等である。すなわち、形態素解析は、キーワードに相当する語を、辞書データにあらかじめ複数蓄積しておき、処理のきっかけとして文章を与えるものであり、1対多の同時照合を行うものである。辞書データに登録されたキーワードは、辞書語と定義する。
ここで、誤りを含む文章とは、正しい文章とほとんどが同じで若干の部分が異なると考えれば、誤り検出も、検索に準じた処理が必要であるが、利用者が辞書語を指定する検索とは逆に、文章を指定し、その中から辞書データ中の辞書語と似ている部分文字列を探すもので、そのため、近似的に1対多の同時照合を行う必要があり、これは形態素解析を近似的に行うことに近い。
形態素解析のような1対多の同時照合に適したデータ構造として、複数の辞書語の先頭又は末尾から同じ文字を一つのノードに割り当てていくトライ(trie)という方法がある。トライは、木構造で表現され、木の各要素はノードと呼ばれる。
例えば、図11は、「会社法」(平成17年法律第86号)と「会社計算規則」(平成18年法務省令第13号)という二つの法令名称とが含まれるトライの木構造の一部を示したものである。ノード0において“会”が入力されノード1に遷移したとき、入力された文字と、「会社法」の1文字目及び「会社計算規則」の1文字目との照合が1回で行われたことになり、処理の効率化が図られている。
1対多の近似的照合を行う場合は、Oflazerが示した方法が知られている(例えば、非特許文献1参照。)。この方法では、照合の対象として1個の語を与え、別に与えられた木構造のデータをバックトラック法で探索して得られる複数の文字列をもう一方の対象として各々の編集距離を計算し、編集距離の許容範囲内の文字列を結果として得るものである。
また、通信パケットのデータ(文字列)に対してパターン照合を行う技術に関するものとして、オリジナルパターンとオリジナルパターンの先頭からN文字(Nは自然数)ずつ削除してなる派生パターン、すなわち、接尾辞を用いて近似的照合を行うもの(例えば、特許文献1参照。)がある。
また、文章中から1個のキーワードを近似的に探す方法として、オートマトンという計算機の理論的モデルを用いるukkonenの方法がある(例えば、非特許文献2参照。)。
オートマトンとは、決められた規則に従って、いくつかの状態の間を移動(遷移)しながら計算を進める抽象的な機械である。状態とは、その物の内部の様子を表す言葉であり、一般的に状態数は有限である。また、遷移とは、ある状態から別の状態へ移り変わることをいい、ある状態の時にその状態に定められた遷移ルールと入力された文字との組み合わせによって定まる遷移先に状態が移り変わる。入力によって、あらかじめ「終了状態」と定められた状態に達した場合、入力が受理されたという。遷移ルールと入力された文字との組み合わせが未定義の場合は、特別な状態に遷移して停止する。なお一般に、後述する状態遷移図には特別な状態及び特別な状態への遷移を示さない。
オートマトンの状態の遷移を有向グラフで表したものを状態遷移図という。オートマトンの状態をグラフのノードに対応させ、遷移先を辺で示し、入力を辺ラベルに対応させて表す。以下では、入力を受け取って遷移した先のノードをアクティブなノードと称する。
図12は、ukkonenによって提案された近似照合を行うオートマトン(以下「ukkonenのオートマトン」と称する。)の一例であり、文章中にキーワード「ABC」と類似する部分文字列があるか否かを、エラー値の上限=2まで許容して検索するオートマトンを示す図である。
ukkonenのオートマトンは、格子状に構成され、左上隅のノードが開始状態であり、右端の列の各ノードが終了状態である。最上行の各ノードはエラー値=0の照合に、上から2行目はエラー値=1の照合に対応する。エラー値の上限に応じて行が増やされる。
水平方向の遷移は文字どうしが一致する場合であり、垂直方向の遷移と斜め方向の遷移が不一致に対応する。
左上隅のノードに付けられたループ状の遷移は、照合が文章の任意の位置から開始できるようにするためのものである。
垂直方向の遷移は、文字の挿入に対応している。任意の文字の入力によって1行下のノードへ遷移する。図12において、例えば、文章“AxBC”が入力されると、“A”によって左上隅から1列右のノードに遷移し、“x”によって1行下に遷移した後、“B”と“C”によって右端のノードまで水平に遷移して結果が出力される。“AxBC”を受理した際の経路を図13に示す。
斜め方向の破線の遷移は、文字の削除に対応している。これはε遷移と呼ばれるもので、長さ0の語εの入力によって斜め右下のノードへ遷移する。図12において、例えば、文章“AC”が入力されると、“A”によって左上隅から1列右のノードに遷移するとともに、さらに斜め下のノードにも遷移する。この時、2個のノードが同時にアクティブになる(図14(a))。“A”の次に“C”が入力されると、2行目のノードにおいて1列右のノードに遷移し、結果が出力される。“AC”を受理した際の経路を図14(b)に示す。
斜め方向の実線の遷移は、文字の置換に対応している。任意の文字の入力によって斜め右下のノードへ遷移する。図12において、例えば、文章“AxC”が入力されると、“A”によって左上隅から1列右のノードに遷移し、次に任意の文字“x”が入力されると、1行目のノードから斜め右下のノードに遷移する。“AxC”を受理した際の経路を図15に示す。
ukkonenのオートマトンは、エラー値が上限に達した最下行のノードにおいては、右隣のノードへの遷移だけが可能であり、入力された文字が当該ノードの遷移ルールに明示された文字と一致しない場合にはオートマトンは停止する。
上記したような、複数のノードが同時にアクティブになるオートマトンを非決定性オートマトンという。ukkonenのオートマトンは、照合途中で正解候補が複数現れる非決定性オートマトンである。例えば、キーワード「ABC」との近似的照合を行うukkonenのオートマトンに、文章“ACC”が入力される状況を考える。照合は1文字ずつ順に行われるため、2文字目の“AC”までが入力された時点では、文章全体が、“ABC”に“C”が挿入された“ACBC”なのか、“B”が削除された“AC”なのか、“B”が“C”に置換された“ACC”なのかを判別することができない。そのため、可能性のある候補のノードがすべてアクティブになっている。
非決定性オートマトンの処理方法の一つを示すと、遷移先が複数ある場合、その時点までの経歴を同じくする機械(以下、「分身」と称す。)を作り、その後は各々が同時に手順通りの動作をし、その後も遷移先が複数あれば分身を作る。最終的に終了状態で終わった分身が一つでもあれば、文章はこの非決定性オートマトンで受理されたとする。
上記したように、ukkonenのオートマトンは、格子状に構成されて規則的であるので、同じ列のノードを重ねて一つに統合する変形は容易に考案される。
例えば、「ユーザーが間違った又は意図しない検索語を入力する」場合や、「原稿のテキスト、OCR又は手動で入力されたキーワードにエラーがある場合」に対応する「ファジーな」検索を行うためにオートマトンを用いている技術が開示されている(例えば、特許文献2参照。)。
特開2007−141084号公報 特開平8−241335号公報(図4、図乃至図15)
Kemal Oflazer. Error-tolerant Finite-state Recognition with Applications to Morphologi cal Analysis and Spelling Correction. Computational Linguistics Vol.22, No.1 Gonzalo Navarro. A Guided Tour to Approximate String Matching. ACM Computing Surveys, Vol. 33, No. 1, March 2001, pp. 31-88.
しかしながら、非特許文献1のOflazerの方法は、1対多の照合が可能であるが、この場合は、語と語の照合であり、文章中からキーワードを探す検索は難しいという問題があった。例えば、文章“神奈川県の茅が崎市は、・・・”をOflazerの方法で検査しようとして形態素解析すると、“茅が崎”は「茅ヶ崎」の誤りであって形態素解析システム中の形態素データベースに存在しないため、同システムは“茅が崎”をデータベース中に存在する形態素に分解し、文章は「神奈川」「県」「の」「茅」「が」「崎」「市」「は」「、」「・・・」というように分解されてしまう。そのため、得られた各々の形態素と「茅ヶ崎」との近似的照合を行って誤りを発見することは難しいという問題があった。
また、特許文献1に開示されている技術は、1個のオリジナルパターンから枝分かれしたオートマトンが構成されるため、複数のオリジナルパターンから構成した複数のオートマトンをトライ構造に準じて結合することができず、本発明が目的とする複数の辞書語の同時照合は不可能であった。
また、特許文献2の図4、図6乃至図15に記載されているオートマトンは、ukkonenのオートマトンにおいて同じ列のノードを重ねて一つに統合したものを基礎としていると推察されるので、このオートマトンを用いれば、文章とキーワードとの近似的照合が可能であるが、本発明が目的とする複数キーワードの同時照合を効率的に行うことができないという問題があった。なぜならば、前記オートマトンには、任意の文字の入力或いは長さ0の語εの入力による遷移があり、前記オートマトンは照合開始からすぐに状態遷移があり、さらに入力に従って多くのノードがアクティブになっていることから、複数のキーワードから構成した複数の前記オートマトンをトライ構造に準じて結合して、複数キーワードの同時照合を行った場合、すべてのキーワードに対する照合が実行されてしまうためである。
すなわち、上記した従来技術のいずれの方法においても、文章中から、あらかじめ登録しておいた複数の辞書語のいずれかと類似する部分文字列を効率的に検索することができないという問題があった。
本発明は、上記問題点を解決するためになされたものであり、オートマトンを変形した構成とすることであり、また、構成された複数のオートマトンを結合することである。このような構成のオートマトンを用いることで、実用上は重要でない遷移の発生を防止し、文章中から、あらかじめ登録しておいた複数の辞書語のいずれかと類似する部分文字列を効率的に検索することが可能となる要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体を提供することを目的とする。
本発明は、オートマトンによる照合対象である文章の要素列と、辞書語の要素列とを近似的な照合又は検索をコンピュータによって実施させる方法であって、あらかじめ近似的な照合又は検索を行うための、オートマトンの遷移ルールが付与された辞書語の要素列を登録するための工程と、近似的な照合又は検索を行うための、エラー値の上限値を設定するための工程と、照合対象となる文章の要素列を入力するための工程と、遷移ルールが付与された辞書語の要素及びエラー値の上限値に基づき、第1の命令手順及び第2の命令手順によって、辞書語の要素と文章の要素列において照合対象となった部分文字列の要素とを照合し、辞書語の最後に照合を行った要素の位置情報pと、照合の不一致のエラー値eの内部的変数の組を生成する工程と、生成された内部的変数の組(p、e)を記憶する工程と、内部的変数の組(p、e)をもとに、照合結果を出力する工程を有することを特徴とする要素列の近似的な照合又は検索方法である。
また、本発明は、オートマトンによる照合対象である文章の要素列と、辞書語の要素列とを近似的な照合又は検索をコンピュータによって実施させる装置であって、あらかじめ近似的な照合又は検索を行うための、オートマトンの遷移ルールが付与された辞書語の要素列を登録するための遷移ルール記憶部と、照合対象となる文章の要素列を入力するための入力部と、近似的な照合又は検索を行うための、エラー値の上限値を設定し、遷移ルールが付与された辞書語の要素及びエラー値の上限値に基づき、第1の命令手順及び第2の命令手順によって、辞書語の要素と文章の要素列において照合対象となった部分文字列の要素とを照合し、辞書語の最後に照合を行った要素の位置情報pと、照合の不一致のエラー値eの内部的変数の組を生成するプログラム記憶部と、生成された内部的変数の組(p、e)を記憶する内部的変数記憶部と、内部的変数の組(p、e)をもとに、照合結果を出力する出力部と、入力部、遷移ルール記憶部、プログラム記憶部、内部的変数記憶部及び出力部の処理を行う処理部を有してなることを特徴とする要素列の近似的な照合又は検索を行うための照合装置である。
また、本発明の第1の命令手順は、遷移ルールの内容を解釈し、要素の位置情報p及び入力された要素との組み合わせによって遷移先を決め、内部的変数の組の生成、参照又は更新の操作を行って状態遷移させ、第2の命令手順は、遷移ルールの内容を解釈することなく、内部的変数の組の直接的な生成、参照又は更新の操作を行う手順を追加するものであり、挿入エラー及び/又は削除エラーに必要な処理であることを特徴とする。
また、本発明の遷移ルールは、文章の要素列と、辞書語の要素列の要素の一致を認識するために、開始ノードから終了ノードへ至る各ノードの遷移条件に、辞書語の要素列の要素を順番に1個ずつ割り当てる遷移ルールを持ち、さらに、部分文字列の要素の挿入エラーを認識するために、開始ノード以外の各ノードにおいて、遷移条件を辞書語の次の要素以外の要素、遷移先を自分自身とする遷移ルールと、部分文字列の要素の削除エラーを認識するために、各ノードにおいて、遷移条件を辞書語の次の要素以降の要素を1個以上飛び越した位置の要素、遷移先を飛び越した先のノードとする遷移ルールとのいずれか一方又は両方を持ち、挿入エラーを認識する状態遷移があった時、エラー値に挿入エラーのコストが加算され、又は、削除エラーを認識する状態遷移があった時、エラー値に削除エラーのコストが加算されることを特徴とする。
また、本発明の第2の命令手順は、置換エラー及び/又は転置エラーの認識並びに複数の辞書語との同時照合に必要な処理を更に含むことを特徴とする。
また、本発明は、削除エラーの認識の直前に、1回以上の連続した挿入エラーの認識の繰り返しがあった時に、削除エラーの認識で認識された連続する1個以上の削除された要素のならびと1回以上の連続した挿入エラーの認識の繰り返しで認識された1個以上の挿入された要素のならびにおいて、削除された要素のならびの個数と挿入された要素のならびの個数の小さい方の個数について、削除された要素のならびが同数の挿入された要素のならびによって置換されたとみなして、エラー値を変更する置換エラーの認識が追加されたことを特徴とする。
また、本発明は、挿入エラーの認識の直前に削除エラーの認識があり、さらに、挿入エラーの認識で認識された挿入された要素と削除エラーの認識で認識された削除された要素のならびの最後の要素が同一である時に、文章の要素列において挿入された要素とその直前の要素が転置されているとみなして、挿入エラーを認識した状態遷移に加えて転置エラーを認識した状態遷移を同時に行うために、挿入エラーを認識した内部的変数の組の複製を生成し、複製された内部的変数の組のエラー値を変更する転置エラーの認識が追加されたことを特徴とする。
また、本発明は、辞書語が複数の場合において、文章の要素列と、辞書語の要素列の一致を認識する遷移ルールによって状態遷移する時に、遷移前である現在のノードが、一致を認識する遷移ルールが複数ある場合に、内部的変数の組を複製し、複製された内部的変数の組において、オートマトンから文章の要素列と、辞書語の要素列の要素の一致を認識する遷移ルールによって状態遷移する時の遷移条件及び遷移先を遷移ルールから除外し、除外されたオートマトンに、文章の要素列を続けて入力させる方法を追加することで、複数の辞書語の同時照合を行うことを特徴とする。
また、本発明は、上記記載の方法をコンピュータに実行させるプログラムである。また、本発明は、上記記載の方法をコンピュータに実行させるプログラムを格納した記録媒体である。
本発明は、枝分かれのない構造を持ち、さらに入力された文字列の要素がオートマトンの遷移ルールに明示された要素と一致した場合のみ他のノードに遷移するオートマトンを構成することによって、構成された複数のオートマトンをトライ構造に準じて結合することが可能となり、実用上は重要でない遷移の発生が防止されることによって、文章中から、あらかじめ登録しておいた複数の辞書語のいずれかと類似する部分文字列を効率的に検索することが可能となるという効果を奏する。
本発明の実施の形態における、図12のオートマトンに施す一つ目の予備的変形を示す図である。 本発明の実施の形態における、図12のオートマトンに施す二つ目の予備的変形を示す図である。 本発明の実施の形態における、図12のオートマトンに施す二つ目の予備的変形を示す図である。 三つの予備的変形を行ったオートマトンを変形し、同じ列のノードを重ねて1個に統合する方法を示す図である。 実施例1及び実施例2における、近似的な照合又は検索をするための照合装置をコンピュータシステム上で実現した場合の概念的構成を示す図である。 文章中から、遷移ルール記憶部に登録している複数の辞書語のいずれかと類似する部分文字列を認識する処理の流れを示すフローチャートである。 図6のステップS004において、一致、挿入エラー及び削除エラーを認識する手順を示すフローチャートである。 置換エラー、転置エラーの認識及び複数辞書語との同時照合に必要な手順を追加したフローチャートである。 辞書語「会社法」及び「会社計算規則」で構築したトライを元に作成したエラー値の上限=1の辞書データの図である。 図9の辞書データを記憶させた照合装置に“会社法計算規則”(誤りを含む)を入力した時の内部的変数の状態及び照合装置の出力を表で示した図である。 辞書語「会社法」及び「会社計算規則」が含まれるトライの一部を示した図である。 文章中に辞書語「ABC」と類似する部分文字列があるか判定するukkonenのオートマトンを示した図である。 図12において、文章“AxBC”を受理した際の経路を示したものである。 図12において2個のノードが同時にアクティブになる場合を示した図と、“AC”を受理した際の経路を示した図である。 図12において、文章“AxC”を受理した際の経路を示した図である。 文章の要素列と、辞書語の要素列とを近似的に照合又は検索をコンピュータによって実施させる方法の工程図である。
本発明を実施するための形態について、図面を用いて説明する。しかしながら、本発明は以下に述べる発明を実施するための形態に限定されるものではなく、特許請求の範囲に記載されている技術の範疇であれば、その他いろいろな実施の形態が含まれる。
本発明の実施の形態では、特に、要素列どうしを比較する照合処理、あるいは、ある要素列中からその要素列より短い長さの要素列を探す検索処理を近似的に行うための照合又は検索の効率化に関して述べる。
本発明において、ある集合の要素を順序付けて並べたものを要素列という。集合及び要素列の最も代表的なものとして文字及び文字列が挙げられる。その他には、形態素とその並びや、コンピュータの命令コードを並べて構成したプログラム等も該当し、あるいは通信路を流れるデータの列を対象としてもよい。以下の説明では、一例として文字列を取り上げ、要素を文字、要素列を文字列、語、文章又は辞書語と表記することもある。
本発明の実施の形態における、文章と複数の辞書語とで、1対1又は1対多の近似的な照合又は検索を行うための照合装置に用いられるオートマトンを構成する方法を説明する。
本発明の要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体に用いるオートマトンは、ukkonenのオートマトンを変形することによって得られる。すなわち、ukkonenのオートマトンに三つの予備的変形を施し、予備的変形を施したオートマトンにおいて、同じ列のノードを重ねて一つに統合するという変形を行うものである。
ukkonenのオートマトンに施す三つの予備的変形は、入力された文字列の文字が、オートマトンの遷移ルールに明示された文字と一致した場合のみ他のノードに遷移させ、実用上は重要でない遷移の発生を防止することを目的としている。
一つ目の予備的変形は、文字置換に対応する斜め方向の実線の辺を除去するものである。置換エラーの存在は、後述のように挿入エラーと削除エラーの認識の並びから判断する。図1は、図12に示したオートマトンに一つ目の予備的変形を施したものを示す図である。ukkonenのオートマトンから置換に対応する辺を除去したものである。
二つ目の予備的変形は、文字削除に対応するε遷移を、文字を飛び越す遷移に置き換えるものである。図2は、図12に示したオートマトンに二つ目の予備的変形を施したものを示す図であり、1文字飛び越す場合の考え方を、図3は、2文字飛び越す場合の考え方を示した図である。ukkonenのオートマトンにおける1個の文字又は2個の文字の削除に対応するε遷移を、ノードを1個又は2個飛び越す遷移に置き換える場合である。
三つ目の予備的変形は、文字挿入に対応する垂直の辺において、遷移条件を「任意の文字」から「候補語の次の文字以外の文字」に変更するものである。
図4は、ukkonenのオートマトンに三つの予備的変形を行ったオートマトンを変形し、同じ列のノードを重ねて1個に統合する方法を示した図である。図4(a)は、ukkonenのオートマトンに三つの予備的変形を行ったオートマトンであり、図4(b)は、図4(a)の三つの予備的変形を行ったオートマトンに、四つ目の変形を行った、本発明の近似的な照合又は検索を行うためのオートマトンである。つまり、図4(a)に示すオートマトンの同じ列のノードを重ねて1個に統合し、垂直方向及び斜め方向の遷移を、始点と終点の列位置が変わらないようにして付け替えたものである。
垂直方向に遷移する辺は、同じノードに戻るループ状の辺になり(以下、ループ辺と称する。)、斜め方向に遷移する破線の辺は、一つ以上のノードを飛び越す曲線の辺になる(以下、スキップ辺と称する。)。
すなわち、近似的な照合又は検索を行うために、本発明で構成したオートマトンは、辞書語との一致を認識するオートマトンに、ループ辺とスキップ辺を付加したものである。このオートマトンを、以下「線状のオートマトン」と称する。
本発明で構成したオートマトンについて、本実施の形態ではukkonenのオートマトンを出発点とした考え方を説明したが、必ずしもこれに限定されるものではなく、接尾辞木など別の出発点から考え方を展開することもできる。
ループ辺は、遷移によって同じノードに戻るので、実施の形態によっては、遷移先を示すデータを作成しなくてもよい場合がある。スキップ辺は、必要に応じてあらかじめデータを作成しておく。作成するデータの例として、例えば辞書データの構造にトライを用いている場合は有益である。
コンピュータに実行させるプログラムを格納した記録媒体としては、前述したフレキシブルディスク、CD-R、USBメモリ、ハードディスクや、コンピュータシステム内のRAM等の揮発メモリを用いることが可能である。
実施例1では、文章の要素列と、辞書語の要素列の近似的な照合又は検索において、文章と複数の辞書語の1対1の同時照合に必要な手順を説明する。
図5は、実施例1に係わる本発明の文章の要素列と、辞書語の要素列の近似的な照合又は検索をするための照合装置1の一例を説明する図であり、照合装置1をコンピュータシステム上で実現した場合の概念的構成を示す図である。照合装置は、コンピュータシステムに限定されず、他の方法で構成してもよい。
照合装置1は、オートマトンを実行する機構をコンピュータシステム上で実現した場合の概念的構成に、内部的変数に対して直接的に生成又は参照、更新の操作を行って近似照合を実行する手順が追加される形態である。
照合装置1は、処理部2、遷移ルール記憶部3、内部的変数記憶部4及びプログラム記憶部5、入力部6、出力部7から構成される。
処理部2は、入力部6から要素列(文章)を受け取り、出力部7から結果を出力する。入力された要素列(文章)と辞書語との照合の処理に際し、遷移ルール記憶部3、内部的変数記憶部4及びプログラム記憶部5の各部に記憶された情報を用いる。
遷移ルール記憶部3は、認識させたい辞書語の辞書データが記憶され、辞書データは、近似的な照合又は検索を行うために構成した線状のオートマトンの遷移ルールであり、照合を行う前は変更可能であり、照合中は内容が参照されるのみで変更は行われない。
内部的変数記憶部4は、照合の処理中に処理部2によって生成された内部的変数の組(p,e)が複数同時に保持され、照合の処理中に組の数及び値が随時変化するものであり、内部的変数pは、遷移ルール記憶部3に記憶された各辞書語に対して、入力された文章の要素の最後に照合を行った場合、候補語の最後に照合を行った要素(文字)の位置情報を記録するものであり、内部的変数eは、要素(文字)の不一致に起因するエラー値を記録するものである。ここで候補語とは、辞書に登録された膨大な数の語のうち、照合の対象となった語のことである。つまり、照合のために内部的変数が生成された語のことである。例えば、辞書に「茅ヶ崎」と「小田原」が登録されていて、誤りを含む文章である「ここは茅ガ崎市。」が入力されると、「茅ヶ崎」は候補語となり、「小」、「田」、「原」、「小田原」等は候補語とはならない。よって、「小田原」は、照合を行う遷移が全く生じることがない。
プログラム記憶部5には、処理部2に対する命令手順が記憶され、オートマトンに相当する処理を行う第1の命令手順5aと、内部的変数記憶部4に対して直接的に生成又は参照、更新の操作を行う第2の命令手順5bとに分類され、照合装置を構成した時点で処理に必要な命令手順が記憶され、以後は内容の変更は行われない。なお、検索範囲となるエラー値の上限値については、プログラム記憶部5で登録されている。上限値は、辞書語の文字数によってプログラム上で自動的に設定することも可能である。
第1の命令手順5aは、オートマトンを実行する一般的な処理として、遷移ルール記憶部3の内容を解釈し、内部的変数pの値と入力された要素(文字)との組み合わせによって遷移先を決め、内部的変数記憶部4に対して、内部的変数の生成、参照又は更新の操作を行って状態遷移させる。
第2の命令手順5bは、装置側に追加する手順であり、遷移ルール記憶部3の内容に関わらず、内部的変数記憶部4に対して直接的に生成、参照又は更新の操作を行う手順を追加するものであり、挿入エラー及び/又は削除エラーに必要な処理の手順である。さらに、第2の命令手順は、置換エラー及び/又は転置エラーの認識並びに複数の辞書語との同時照合に必要な処理を含む手順である。
要素列の近似的な照合又は検索を行うための照合装置1は、オートマトンによる照合対象である文章の要素列と、辞書語の要素列とを近似的な照合又は検索をコンピュータによって実施させる装置であって、あらかじめ近似的な照合又は検索を行うための、オートマトンの遷移ルールが付与された辞書語の要素列を登録するための遷移ルール記憶部3と、照合対象となる文章の要素列を入力するための入力部6と、近似的な照合又は検索を行うための、エラー値の上限値を設定し、遷移ルールが付与された辞書語の要素及びエラー値の上限値に基づき、第1の命令手順5a及び第2の命令手順5bによって、辞書語の要素と文章の要素列において照合対象となった部分文字列の要素とを照合し、辞書語の最後に照合を行った要素の位置情報pと、照合の不一致のエラー値eの内部的変数の組を生成するプログラム記憶部5と、生成された内部的変数の組(p、e)を記憶する内部的変数記憶部4と、内部的変数の組(p、e)をもとに、照合結果を出力する出力部7と、入力部6、遷移ルール記憶部3、プログラム記憶部5、内部的変数記憶部4及び出力部7の処理を行う処理部2を有してなる。
図16に示すように要素列の近似的な照合又は検索方法は、オートマトンによる照合対象である文章の要素列と、辞書語の要素列とを近似的な照合又は検索をコンピュータによって実施させる方法であって、あらかじめ近似的な照合又は検索を行うための、オートマトンの遷移ルールが付与された辞書語の要素列を登録するための辞書語要素列登録工程と、近似的な照合又は検索を行うための、エラー値の上限値を設定するための上限値設定工程と、照合対象となる文章の要素列を入力するための文章要素列入力工程と、遷移ルールが付与された辞書語の要素及びエラー値の上限値に基づき、第1の命令手順及び第2の命令手順によって、辞書語の要素と文章の要素列において照合対象となった部分文字列の要素とを照合し、辞書語の最後に照合を行った要素の位置情報pと、照合の不一致のエラー値eの内部的変数の組を生成する照合生成工程と、生成された内部的変数の組(p、e)を記憶する記憶工程と、内部的変数の組(p、e)をもとに、照合結果を出力する出力工程を有することを特徴とするである。
図6は、本発明の要素列の近似的な照合又は検索をするための照合装置1を用いて、入力された文章中から、遷移ルール記憶部3に登録している複数の辞書語のいずれかと類似する部分文字列を認識する処理の流れを示すフローチャートである。本実施例において、入力部6から文章が入力されるとソフトウェアは処理を実行することになる。
入力部6から文章が処理部2に入力されると照合が開始され、ステップS001において、入力に続きがあるか判定し、入力が終了している場合はステップS006に進んで後処理を行い、処理を終わる。
入力が終了していない場合は、ステップS002に進んで文章から照合の対象とする文字を1文字取得する。以下、文章から取得した文字を入力文字と称する。
ステップS003において、その時点で存在する内部的変数の組(p,e)のすべてにおいて入力文字との照合が行われたか調べ、行われている場合はステップS005に進んで候補語検索を行い、ステップS001に戻って次の入力文字の照合を行うというように、処理が終了するまで繰り返す。
照合が行われていない内部的変数の組(p,e)がある場合は、ステップS004に進んで該当する組を一つ選び、入力文字と内部的変数が指す候補語の文字との照合を行い、ステップS003に戻ってすべての組の照合を行う。照合の詳細は、図7を用いて後で説明する。すべての内部的変数の組について照合が行われた場合は、ステップS005に進んで候補語検索を行い、ステップS001に戻って次の入力文字の照合を行う。
候補語検索は、遷移ルール記憶部3中の辞書語を対象として、先頭の文字が入力文字と一致する辞書語、或いは先頭から文字を1個以上飛び越した位置の文字が入力文字と一致する辞書語を検索し、該当する辞書語を候補語とし、辞書データ3中で一致した文字の位置を内部的変数pに、飛び越した文字数の削除コストを内部的変数eに設定する。
照合装置1の機能としての、一致、挿入エラー及び削除エラーを認識する手順を図7のフローチャートを用いて説明する。
図6のフローチャートにおいて、入力文字と内部的変数pが指す候補語の文字との照合後に、ステップS001及びステップS002を実行して次の文字を取得し、照合を続ける状況であるとする。当該状況において、ステップS003及びステップS004の繰り返しにより、照合装置1が保持しているすべての内部的変数の組に対して、図7の処理を行う。
図7において、一致、挿入エラー及び削除エラーを認識する手順の流れは以下のとおりである。
ステップS100は、入力文字と候補語の文字との一致を認識する手順であり、文字が一致する時は、ステップS101に進む。一致しない時は、ステップS200に進む。
ステップS101は、文字が一致した時の内部的変数記憶部4に対する操作である。
ステップS200は、削除エラーを認識する手順であり、削除エラーが認識された時は、ステップS201に進む。認識されなかった時は、ステップS301に進む。
ステップS201は、削除エラーが認識された時の内部的変数記憶部4に対する操作である。
ステップS200において、削除エラーが認識された時、また、削除エラーが認識されなかった時のいずれの時も、最終的にはステップS301に進む。
ステップS301は、挿入エラーが認識された時の内部的変数記憶部4に対する操作である。
入力文字と候補語の文字との一致を認識する手順としては、ステップS100において、入力文字と内部的変数pが指す候補語の文字の次の文字とを照合し、一致した場合はステップS101に進んで、文字の不一致に起因するエラー値を記録する内部的変数eは変えず、候補語において入力された文字との照合が行われた最後の文字の位置情報を記録する内部的変数pにはステップS100において一致した文字を指す位置を記録する。
削除エラーを認識する手順としては、ステップS200において、入力文字と内部的変数pが指す候補語の文字から文字を1個以上飛び越した位置の文字とを照合し、飛び越した位置の文字と一致した時はステップS201に進んで新たな内部的変数の組(p',e')を生成し、p'にはステップS200において一致した文字を指す位置を記録し、e'にはeの値に削除エラーのコストを加算した値を記録する。これはスキップ辺を遷移することに相当する。
挿入エラーを認識する手順としては、ステップS301において、内部的変数pは変えず、内部的変数eに挿入エラーのコストを加算する。これはループ辺を遷移することに相当する。
次に、図8のフローチャートを用いて照合装置1の更なる機能としての、置換エラー、転置エラー及び複数の辞書語との同時照合に必要な手順を説明する。図8のフローチャートは、図7のフローチャートに示す一致、挿入エラー及び削除エラーを認識する手順に、さらに、置換エラー、転置エラー及び複数の辞書語との同時照合に必要な手順を追加したフローチャートである。
図8のフローチャートにおける一致、挿入エラー及び削除エラーを認識する手順の考え方は、図7における場合と同じであり、図7及び図8におけるステップS100、S101、S200、S201、S301は同じ処理を行う。
照合装置1では、置換エラーの認識を、削除エラーとその直前の挿入エラーの並びを置換エラーに変換することで実現する。
例えば、辞書語「ABC」との近似的照合を行うオートマトンに、文章“AxyC”が入力された場合、“A”の後の“xy”の入力が挿入エラーとして認識され、その後の“C”の入力により「B」の削除エラーが認識される。これを、“x”が挿入され、「B」が“y”に置換されたと考える。
図8において、置換エラーが認識されるまでの手順の流れは以下のとおりである。
ステップS100は、入力文字と候補語の文字との一致を認識する手順であり、文字が一致しない時は、ステップS200に進む。
ステップS200は、削除エラーを認識する手順であり、削除エラーが認識された時は、ステップS400に進む。
ステップS400は、置換エラーを認識する手順であり、置換エラーが認識された時は、ステップS401に進む。
ステップS401は、置換エラーが認識された時の内部的変数記憶部4に対する操作である。
なお、図8において置換エラーがないことが判明した時の各手順は以下のとおりである。
ステップS100において、文字が一致する時は、ステップS600に進む。
また、ステップS200において、削除エラーが認識されなかった時は、ステップS500に進む。
また、ステップS400において、置換エラーが認識されなかった時は、ステップS201に進む。
置換エラーを認識する手順は、ステップS200において削除エラーが認識された時に行われ、置換エラーを認識する手順としては、ステップS400において、削除エラーの直前に挿入エラーが認識されていたかを調べ、挿入エラーが認識されていた時はステップS401に進んで新たな内部的変数の組(p',e')を生成し、p'にはステップS200において一致した文字を指す位置を記録し、e'にはeの値に置換エラーのコストを加算した値を記録する。
ステップS401における置換エラーのコストは、m個の挿入エラーがn個の削除エラーの直前にある時に、m≧nならば(m−n)個の挿入エラーとn個の置換エラーに、m≦nならばm個の置換エラーと(n−m)個の削除エラーになるものとして算出する。
転置エラーの認識は、ukkonenのオートマトンではできないが、本発明の照合装置では置換エラーと同様な手順の追加で実現される。
例えば、辞書語「ABC」の近似的照合を行うオートマトンに、文章“ACB”が入力された場合、“A”の後の“C”の入力により「B」の削除エラーが認識され、その後に“B”の入力があって挿入エラーが認識される。これを、「B」と「C」の転置と考える。
図8において、転置エラーが認識されるまでの手順の流れは以下のとおりである。
ステップS100は、入力文字と候補語の文字との一致を認識する手順であり、文字が一致しない時は、ステップS200に進む。
ステップS200は、削除エラーを認識する手順であり、削除エラーの認識の成否に関わらずステップS500に進む。
ステップS500は、転置エラーを認識する手順であり、転置エラーが認識された時は、ステップS501に進む。
ステップS501は、転置エラーが認識された時の内部的変数記憶部4に対する操作である。
なお、図8において転置エラーがないことが判明した場合の各手順は以下のとおりである。
ステップS100において、文字が一致する時は、ステップS600に進む。
また、ステップS500において、転置エラーが認識されなかった時は、ステップS301に進む。
転置エラーを認識する手順は、挿入エラーが認識された時の手順であるステップS301の前に行われ、転置エラーを認識する手順としては、ステップS500において、挿入エラーの直前に削除エラーが認識され、かつ、隣り合った1個の挿入エラーとその直前の1個の削除エラーの並びにおいて挿入された文字と削除された文字とが同一であるかを調べ、同一である時にはステップS501に進んで新たな内部的変数の組(p'',e'')を生成し、p''にはpと同じ値を、e''にはeの値に転置エラーのコストを加算した値を記録する。
なお、転置エラーを認識する手順は、文章から文字を先読みで取得することが可能な場合は、削除エラーが認識された時、すなわち、ステップS200とS400の間において行ってもよく、削除エラーの直後の入力文字が削除された文字と同一である時には、ステップS501で行われる手順を行う。
前述した挿入、削除、置換及び転置の各エラーの認識手順には、エラー値を記録する内部的変数eの値が許容値を超えた場合に、照合を終了させる手順が含まれる。これは、本発明の照合装置に用いられるオートマトンの各ノードに付加されたループ辺により、入力文字と遷移ルールとの組み合わせが未定義となることがないため、オートマトンの停止が発生しないために必要である。
なお、エラー値の上限は、照合中の状況に応じて動的に、又、内部的変数の組ごとに別個に定めてもよい。
実施例1では、本発明の文章の要素列と、辞書語の要素列の近似的な照合又は検索をするために、文章と辞書語の1対1の照合の場合を説明したが、実施例2では、照合装置1において、文章と複数の辞書語との1対多の同時照合に必要な手順を説明する。
ここでは、遷移ルール記憶部3がトライ構造であるとする。図8のステップS100において文字の一致があった時に、ステップS600に進んで、現在のノードが複数の遷移ルールを持つか調べ、複数の遷移ルールを持つ時には、ステップS601に進んで内部的変数の組(p,e)の複製(p',e')を生成し、ステップS602に進み、ステップS602においては内部的変数の組(p',e')に対しステップS200からS301までの処理を行う。
例えば、辞書語「会社法」及び「会社計算規則」を登録したトライを用いて、誤りを含む文章“会社法計算規則”の近似的照合を行う場合を考える。
図9は、辞書語「会社法」及び「会社計算規則」で構築したトライを元に作成したエラー値の上限=1の辞書データを示す図である。
辞書語「会社法」及び「会社計算規則」が登録された図11のトライに、ループ辺とスキップ辺を付加することによって、遷移ルール記憶部3に記憶させる辞書データが作成できる。これは容易であり、これにより複数の辞書語で近似的照合を行うことが可能となる。
図9において、3文字目の“法”が入力された時に、ノード3に遷移して照合が終了となるならば、文章“会社法計算規則”と辞書語「会社計算規則」との近似的照合が行われないことになる。そこで、一致によってノード2からノード3に遷移する際にノード2が複数の遷移ルールを持つか調べる。その結果、ノード2には「会社計算規則」との照合を行う他の遷移ルールがあったので内部的変数の組を新たに生成し、“法”が「会社計算規則」の3文字目と一致しなかったことに対応する。
図10は、図5の照合装置1に、誤りを含む文章“会社法計算規則”を入力した時の、内部的変数の状態及び照合結果を出力部7から出力した図を示す。辞書語が複数の場合において、文章の要素列と、辞書語の要素列の一致を認識する遷移ルールによって状態遷移する時に、遷移前である現在のノードが、一致を認識する遷移ルールが複数ある場合に、内部的変数の組を複製し、複製された内部的変数の組において、オートマトンから文章の要素列と、辞書語の要素列の要素の一致を認識する遷移ルールによって状態遷移する時の遷移条件及び遷移先を遷移ルールから除外し、除外されたオートマトンに、文章の要素列を続けて入力させる方法を追加することで、複数の辞書語の同時照合を行う。
図5の照合装置1に、誤りを含む文章“会社法計算規則”を入力部6から入力した時の処理を説明する。
図10において、照合を開始した時点においては、内部的変数はない。次に、入力文字“会”と関係する候補語が存在するか検索し、ノード1の文字と一致するので、内部的変数(p,e)=(1,0)を生成して候補語とし、次の入力文字についての照合を行う。
入力文字“社”についての照合を行う。対象とする内部的変数は(p,e)である。
内部的変数(p,e)=(1,0)は、図8のステップS100において、ノード2の文字と一致するので、ステップS600に進み、複数の遷移ルールがあるかを調べる。遷移ルールが1個であるのでステップS101に進み(p,e)=(2,0)とする。
他に内部的変数がないので、次の入力文字についての照合を行う。
入力文字“法”についての照合を行う。対象とする内部的変数は(p,e)である。
内部的変数(p,e)=(2,0)は、図8のステップS100において、ノード3の文字と一致するので、ステップS600に進み、複数の遷移ルールがあるかを調べる。
遷移ルールが2個あるので、ステップS601に進み(p',e')=(2,0)を生成する。
内部的変数(p',e')=(2,0)は、図8のステップS200以降の処理が行われる。ステップS200において、飛び越して一致するノードがないので、ステップS500に進む。S500の条件に適合しないのでステップS301に進み、(p',e')=(2,1)とする。
内部的変数(p,e)=(2,0)は、図8のステップS101に進み(p,e)=(3,0)とする。ノード3は終了状態であるので、「会社法」が受理され、結果が出力される。(p,e)は廃棄される。
他に内部的変数がないので、次の入力文字についての照合を行う。
入力文字“計”についての照合を行う。対象とする内部的変数は(p',e')である。
内部的変数(p',e')=(2,1)は、図8のステップS100において、ノード4の文字と一致するので、ステップS600に進み、複数の遷移ルールがあるかを調べる。遷移ルールが1個であるので、ステップS101に進み(p,e)=(4,1)とする。
他に内部的変数がないので、次の入力文字についての照合を行う。
内部的変数(p',e')は、入力文字“算”、“規”、“則”について同様の処理が行われ、(p',e')=(7,1)となる。ノード7は終了状態であるので、「会社計算規則」が受理され、結果が出力される。
以上の手順に従って実行することで、複数の辞書語で、誤りを含む文章の近似的照合を行うことができる。
1 照合装置
2 処理部
3 遷移ルール記憶部(辞書データ)
4 内部的変数記憶部
5 プログラム記憶部
6 入力部
7 出力部

Claims (8)

  1. オートマトンによる照合対象である文章の要素列と、辞書語の要素列とを近似的な照合又は検索をコンピュータによって実施させる方法であって、
    あらかじめ近似的な照合又は検索を行うための、オートマトンの遷移ルールが付与された辞書語の要素列を登録するための工程と、
    前記近似的な照合又は検索を行うための、エラー値の上限値を設定するための工程と、
    照合対象となる文章の要素列を入力するための工程と、
    前記遷移ルールが付与された辞書語の要素及びエラー値の上限値に基づき、第1の命令手順及び第2の命令手順によって、前記辞書語の要素と前記文章の要素列において照合対象となった部分文字列の要素とを照合し、前記辞書語の最後に照合を行った要素の位置情報pと、照合の不一致のエラー値eの内部的変数の組を生成する工程と、
    前記生成された内部的変数の組(p、e)を記憶する工程と、
    前記内部的変数の組(p、e)をもとに、照合結果を出力する工程を有することを特徴とする要素列の近似的な照合又は検索方法。
  2. 前記第1の命令手順は、遷移ルールの内容を解釈し、要素の位置情報p及び入力された要素との組み合わせによって遷移先を決め、内部的変数の組の生成、参照又は更新の操作を行って状態遷移させ、
    前記第2の命令手順は、遷移ルールの内容を解釈することなく、内部的変数の組の直接的な生成、参照又は更新の操作を行う手順を追加するものであり、挿入エラー及び/又は削除エラーに必要な処理であることを特徴とする請求項1記載の要素列の近似的な照合又は検索方法。
  3. 前記遷移ルールは、
    前記文章の要素列と、前記辞書語の要素列の要素の一致を認識するために、開始ノードから終了ノードへ至る各ノードの遷移条件に、辞書語の要素列の要素を順番に1個ずつ割り当てる遷移ルールを持ち、
    さらに、前記部分文字列の要素の挿入エラーを認識するために、開始ノード以外の各ノードにおいて、遷移条件を辞書語の次の要素以外の要素、遷移先を自分自身とする遷移ルールと、前記部分文字列の要素の削除エラーを認識するために、各ノードにおいて、遷移条件を辞書語の次の要素以降の要素を1個以上飛び越した位置の要素、遷移先を飛び越した先のノードとする遷移ルールとのいずれか一方又は両方を持ち、
    前記挿入エラーを認識する状態遷移があった時、前記エラー値に挿入エラーのコストが加算され、又は、前記削除エラーを認識する状態遷移があった時、前記エラー値に削除エラーのコストが加算されることを特徴とする請求項1又は2記載の要素列の近似的な照合又は検索を行う方法。
  4. 前記第2の命令手順は、置換エラー及び/又は転置エラーの認識並びに複数の辞書語との同時照合に必要な処理を更に含むことを特徴とする請求項2又は3記載の要素列の近似的な照合又は検索方法。
  5. 前記削除エラーの認識の直前に、1回以上の連続した前記挿入エラーの認識の繰り返しがあった時に、前記削除エラーの認識で認識された連続する1個以上の削除された要素のならびと前記1回以上の連続した挿入エラーの認識の繰り返しで認識された1個以上の挿入された要素のならびにおいて、前記削除された要素のならびの個数と前記挿入された要素のならびの個数の小さい方の個数について、前記削除された要素のならびが同数の前記挿入された要素のならびによって置換されたとみなして、前記エラー値を変更する置換エラーの認識が追加されたことを特徴とする請求項3又は4記載の要素列の近似的な照合又は検索を行う方法。
  6. 前記挿入エラーの認識の直前に前記削除エラーの認識があり、
    さらに、前記挿入エラーの認識で認識された挿入された要素と前記削除エラーの認識で認識された削除された要素のならびの最後の要素が同一である時に、
    前記文章の要素列において前記挿入された要素とその直前の要素が転置されているとみなして、前記挿入エラーを認識した状態遷移に加えて転置エラーを認識した状態遷移を同時に行うために、前記挿入エラーを認識した内部的変数の組の複製を生成し、複製された内部的変数の組のエラー値を変更する転置エラーの認識が追加されたことを特徴とする請求項3乃至5のいずれか一項記載の要素列の近似的な照合又は検索を行う方法。
  7. 前記辞書語が複数の場合において、
    前記文章の要素列と、前記辞書語の要素列の一致を認識する遷移ルールによって状態遷移する時に、遷移前である現在のノードが、前記一致を認識する前記遷移ルールが複数ある場合に、
    前記内部的変数の組を複製し、前記複製された内部的変数の組において、前記オートマトンから前記文章の要素列と、前記辞書語の要素列の要素の一致を認識する遷移ルールによって状態遷移する時の遷移条件及び遷移先を遷移ルールから除外し、前記除外されたオートマトンに、前記文章の要素列を続けて入力させる方法を追加することで、複数の辞書語の同時照合を行うことを特徴とする請求項1乃至6のいずれか一項記載の要素列の近似的な照合又は検索を行う方法。
  8. 請求項1乃至7のいずれか一項記載の方法をコンピュータに実行させるプログラムを格納した記録媒体。
JP2010048551A 2010-03-05 2010-03-05 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体 Expired - Fee Related JP5339236B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010048551A JP5339236B2 (ja) 2010-03-05 2010-03-05 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010048551A JP5339236B2 (ja) 2010-03-05 2010-03-05 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2011186569A JP2011186569A (ja) 2011-09-22
JP5339236B2 true JP5339236B2 (ja) 2013-11-13

Family

ID=44792783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010048551A Expired - Fee Related JP5339236B2 (ja) 2010-03-05 2010-03-05 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP5339236B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2880192B2 (ja) * 1989-09-08 1999-04-05 株式会社日立製作所 文字列検索方法及び装置
US5606690A (en) * 1993-08-20 1997-02-25 Canon Inc. Non-literal textual search using fuzzy finite non-deterministic automata
JP4729389B2 (ja) * 2005-11-21 2011-07-20 三菱電機株式会社 パターン照合装置、パターン照合方法、パターン照合プログラム及び記録媒体

Also Published As

Publication number Publication date
JP2011186569A (ja) 2011-09-22

Similar Documents

Publication Publication Date Title
EP1302861B1 (en) Natural language parser
Kim et al. Walk-weighted subsequence kernels for protein-protein interaction extraction
US7236923B1 (en) Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text
US11113470B2 (en) Preserving and processing ambiguity in natural language
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
WO2007137487A1 (en) Method and apparatus for named entity recognition in natural language
JP2012063883A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
Stanojevic et al. CCG parsing algorithm with incremental tree rotation
Osborne Estimation of stochastic attribute-value grammars using an informative sample
KR101246101B1 (ko) 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
JP5203324B2 (ja) 誤字脱字対応テキスト解析装置及び方法及びプログラム
JP5339236B2 (ja) 要素列の近似的な照合又は検索及びその方法を実行するためのプログラムを格納した記録媒体
Othmane et al. POS-tagging Arabic texts: A novel approach based on ant colony
Eisner et al. Local search with very large-scale neighborhoods for optimal permutations in machine translation
Maraist String shuffling over a gap between parsing and plan recognition
Liang Spell checkers and correctors: A unified treatment
Gholami-Dastgerdi et al. Part of speech tagging using part of speech sequence graph
Hou et al. Event extraction for gene regulation network using syntactic and semantic approaches
Hertel Neural language models for spelling correction
JP2009020567A (ja) 文書検索装置
JP2005234800A (ja) 用例機械翻訳装置及び用例翻訳コンピュータプログラム、並びに用例検索装置及び用例検索コンピュータプログラム
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP4105756B2 (ja) 自然言語解析装置及び方法、自然言語解析プログラム
Sigletos et al. Mining web sites using wrapper induction, named entities, and post-processing
Prolo LR parsing for Tree Adjoining Grammars and its application to corpus-based natural language parsing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130726

R150 Certificate of patent or registration of utility model

Ref document number: 5339236

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130902

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees