JP5347459B2 - 同一性判定システム、同一性判定方法及び同一性判定プログラム - Google Patents

同一性判定システム、同一性判定方法及び同一性判定プログラム Download PDF

Info

Publication number
JP5347459B2
JP5347459B2 JP2008307014A JP2008307014A JP5347459B2 JP 5347459 B2 JP5347459 B2 JP 5347459B2 JP 2008307014 A JP2008307014 A JP 2008307014A JP 2008307014 A JP2008307014 A JP 2008307014A JP 5347459 B2 JP5347459 B2 JP 5347459B2
Authority
JP
Japan
Prior art keywords
conversion operation
text
conversion
same
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008307014A
Other languages
English (en)
Other versions
JP2010134501A (ja
Inventor
健二 立石
格 細見
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008307014A priority Critical patent/JP5347459B2/ja
Publication of JP2010134501A publication Critical patent/JP2010134501A/ja
Application granted granted Critical
Publication of JP5347459B2 publication Critical patent/JP5347459B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、同一性判定システム、方法及びプログラムに関し、特に、テキスト組から同一性判定のための手がかり情報を抽出する同一性判定システム、方法及びプログラムに関する。
同一性判定とは、与えられたテキスト組が同一内容を示すか否かを求める問題である。同一性判定は、例えば、データベースの重複エントリ削除や、情報検索、文書クラスタリングに利用できる。
与えられたテキスト組は、同一内容を示すものであっても、様々な表記が存在する場合がある。そのため、同一内容を示すテキスト組は、文字列が完全に一致するとは限らない。そこで、同一性判定は、通常、与えられたテキスト組で共通する文字または単語を求め、それらの割合等によりテキスト組の類似度を計算し、類似度があらかじめ定めた閾値以上であれば同一と判断する。しかし、文字または単語が多く共通することとテキスト組が同一であることの間には一定の相関はあるものの、必ずしも一致しない。これは、同一であるか否かは対象データや利用目的に大きく依存するため、一律な尺度では限界があることを意味する。
この問題に対して、非特許文献1のように既に同一内容を示すことが明らかになっているテキスト組(以下、同一テキスト組)から変換操作の重みを求め、それらを類似度計算に反映する仕組みが提案されている。ここでは、一方の文字列を他方の文字列に変換するために必要な変換操作の重みからテキスト組の類似度を求める。ここで、変換操作とは置換と省略(削除及び挿入)を表し、各変換操作に対する重みは確率で与えられる。変換に必要となる変換操作の確率の積が類似度となる。この確率は、同一テキスト組の集合における着目する変換操作の起こりやすさにより定められる。すなわち、当該確率は、同一テキスト組の集合における着目する変換操作の発生割合により定められる。具体的には、与えられた同一テキスト組の集合において、全ての変換操作の総出現回数をA、着目する変換操作の出現回数をBとしたとき、着目する変換操作の確率はB/Aとなる。
ここで、非特許文献1は、同一性判定のために必要となる4種類の手がかり情報が存在することを示唆していると考えられる。
(1) 省略の変換操作の確率が高い
→ 省略可能語:その語を省略してもテキストの内容が変わらない
(2) 省略の変換操作の確率が低い
→ 省略不能語:その語を省略するとテキストの内容が変更する
(3) 置換の変換操作の確率が高い
→ 置換可能語:その語を置換してもテキストの内容が変わらない
(4) 置換の変換操作の確率が低い
→ 置換不能語:その語を置換するとテキストの内容が変更する
また、特許文献1には、文書構造によらず入力文書から箇条書きを生成することができる文章処理装置、方法及びプログラムに関する技術が開示されている。特許文献1に記載の技術によれば、所定の不要語削除ルールに従って、抽出文から文の意味の本質と関係の薄い語を削除することができる。
また、特許文献2には、制御タグの動作定義を容易にし、編集操作性及び柔軟性の高いテキスト処理装置に関する技術が開示されている。特に、特許文献2に記載のテキスト処理装置は、制御タグ変換表における第1制御タグと第2制御タグとの対応付けを編集する変換表編集手段を備えるものである。
また、特許文献3には、音声認識の誤りの修正負担を軽減する音声認識装置に関する技術が開示されている。特許文献3に記載の技術は、音声認識された単語について、手がかり語に対する単語の認識候補を抽出するものである。
また、特許文献4には、辞書容量の増大等を伴うことなく、異なる表記で記述される同一の語句を含む日本語文書を的確に処理できる日本語文書処理装置に関する技術が開示されている。特に、特許文献4に記載の日本語文書処理装置は、日本語文書のテキスト中から単語を抽出する単語抽出部と、単語を作る文字種を特定する構成字種判定部と、単語の音を解析する発音解析部と、異表記の単語セットを抽出する単語リスト生成部と、文字種間の置換可能性を判定する置換可能性判定部と、音解析の結果に基づいて前記異表記の単語セットの同一性を判定する発音同一性判定部とを備えるものである。
Mikhail Bilenko and Raymond J. Mooney, Adaptive Duplicate Detection Using Learnable String Similarity Measures, Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD-2003), Washington DC, pp.39-48, August, 2003. 特開2003−067368号公報 特開2004−325692号公報 特開2007−256836号公報 特開平08−069467号公報
上述した非特許文献1では、与えられるテキスト組が少ないと、テキスト組から抽出される手がかり語の精度が低くなるという問題点がある。その理由は、非特許文献1では、同一テキスト組を重みの算出に利用し、非同一内容を示すことが明らかになったテキスト組(以下、非同一テキスト組)を用いないからである。以下、具体例を用いてこの問題を説明する。
例えば、図4は、同一又は非同一と予め判定されたテキスト組の例を示す図である。図4において、テキスト組a、b、c及びdは、2つのテキストを組み合わせたテキスト組である。また、各テキストは、「/」により単語ごとに区切られている。テキスト組a及びcは、非同一テキスト組であると予め判定されている。また、テキスト組b及びdは、同一テキスト組であると予め判定されている。
また、図5は、図4に示すテキスト組から同定された変換操作セットの例を示す図である。図5において、変換操作セットa1は、テキスト組aにおける変換操作セットである。同様に、変換操作セットb1はテキスト組b、変換操作セットc1はテキスト組c並びに変換操作セットd1及びd2はテキスト組dにおける変換操作セットである。
ここで、テキスト組aは、変換操作セットa1に含まれる「(株)」及び「ソフトウェア」の省略操作を行うと、異なる内容の文字列に変換されることを示す。この時、テキスト組aにおいては、「ソフトウェア」の省略操作が、テキスト組aが非同一と判定されることに強く関係していることが直観的にわかる。すなわち、テキスト組aにおける「ソフトウェア」は、省略不能語と言える。非特許文献1では、この省略操作が同一テキスト組で発生しないことから導ける。しかし、その結果が信頼性を持つためには膨大な同一テキスト組が必要となる。与えられる同一テキスト組が少ないうちは、全体的に確率の低い変換操作が多くなる。そのため、真に省略不能語である場合と、同一テキスト組が少ないために確率が低く割り当てられているだけで実際には省略不能語ではない場合とを区別できない。
この問題に対する単純な改良として、変換操作の確率を同一テキスト組と非同一テキスト組の双方から求める方法が考えられる。具体的には、与えられた同一又は非同一テキスト組の集合において、着目する変換操作の総出現回数をA、着目する変換操作の同一テキスト組での出現回数をBとしたときの着目する変換操作の出現確率をB/Aで求める。しかし、この改良でも依然として、与えられるテキスト組が少ないと、テキスト組から抽出される手がかり語の精度が低くなる。その理由は、テキスト組から複数の変換操作又は変換操作セットが同定される場合に、曖昧性が存在し得る複数の変換操作又は変換操作セットを含めて一律に手がかり語を抽出してしまうためである。
例えば、「(株)」の省略操作が、同一テキスト組である変換操作セットb1に存在する。この省略操作「(株)」は、直観的には、省略可能語であるとわかる。しかしながら、このとき、着目する変換操作を省略操作「(株)」とした場合の出現確率は0.5となり、「(株)」は省略可能語とならない。「(株)」の省略操作は非同一テキスト組aの変換操作セットa1にも出現するからである。無論、与えられるテキスト組が多くなり、かつ、「(株)」の省略操作が同一テキスト組で多く出現すれば、確率は1に近くなり省略可能語として抽出できる可能性はあるが、少なくとも与えられるテキスト組が少ないうちは、このような問題が発生し得る。
また、テキスト組dは、変換操作セットd1又はd2のいずれかの変換操作の組み合わせを行うことにより、双方のテキストが同一な文字列へ変換されることを示す。具体的には、同一テキスト組であるテキスト組dは、変換操作セットd1により「工業」が省略され、「ソフト」が「ソフトウェア」へ置換されることで、同一の文字列に変換される。一方で、テキスト組dは、変換操作セットd2により「ソフトウェア」が省略され、「ソフト」が「工業」へ置換されることで、同一の文字列に変換される。しかしながら、このとき、着目する変換操作を省略操作「ソフトウェア」とした場合の出現確率は0.5となり、「ソフトウェア」は省略不能語とならない。「ソフトウェア」の省略操作は非同一テキスト組aの変換操作セットa1にも出現するからである。無論、与えられるテキスト組が多くなり、かつ、「ソフトウェア」の省略操作が非同一テキスト組で多く出現すれば、確率は0に近くなり省略不能語として抽出できる可能性はあるが、少なくとも与えられるテキスト組が少ないうちは、このような問題が発生し得る。
本発明は、このような問題点を解決するためになされたものであり、同一性判定に用いる手がかり情報を精度よく抽出することができる同一性判定システム、方法及びプログラムを提供することを目的とする。
本発明の第1の態様にかかる同一性判定システムは、2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、前記変換操作同定手段により同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出手段と、を備える。
本発明の第2の態様にかかる同一性判定システムは、2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、前記変換操作同定手段により同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出手段と、を備える。
本発明の第3の態様にかかる同一性判定システムは、2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、前記変換操作同定手段により同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出手段と、を備える。
本発明の第4の態様にかかる同一性判定方法は、2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、前記変換操作同定ステップにより同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出ステップと、を有する。
本発明の第5の態様にかかる同一性判定方法は、2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、前記変換操作同定ステップにより同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出ステップと、を有する。
本発明の第6の態様にかかる同一性判定方法は、2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、前記変換操作同定ステップにより同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出ステップと、を有する。
本発明の第7の態様にかかる同一性判定プログラムは、2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、前記変換操作同定処理により同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出処理と、を含む同一性判定処理をコンピュータに実行させる。
本発明の第8の態様にかかる同一性判定プログラムは、2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、前記変換操作同定処理により同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出処理と、を含む同一性判定処理をコンピュータに実行させる。
本発明の第9の態様にかかる同一性判定プログラムは、2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、前記変換操作同定処理により同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットに基づきテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出処理と、を含む同一性判定処理をコンピュータに実行させる。
本発明によれば、同一性判定に用いる手がかり情報を精度よく抽出することができる同一性判定システム、方法及びプログラムを提供することができる。
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
<発明の実施の形態1>
図1は、本発明の実施の形態1にかかる同一性判定システム100の構成を示すブロック図である。同一性判定システム100は、変換操作同定手段11と、手がかり情報抽出手段12とを備える。
変換操作同定手段11は、テキスト組31について変換操作セット32を同定する。そして、変換操作同定手段11は、テキスト組31についての変換操作セット32の内、変換操作の数が最少となるものを同定する。ここで、テキスト組31は、2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組である。例えば、テキスト組31は、同一又は非同一と判定されたことを示す識別情報を含むものであってもよい。
また、変換操作セット32は、一方のテキストデータを他方のテキストデータに一致させるための変換操作の集合である。ここで、変換操作とは、文字若しくは単語の置換操作若しくは省略操作のいずれかを表す。尚、省略操作とは、一方のテキストデータにおける削除操作又は他方のテキストデータにおける挿入操作を表す。
手がかり情報抽出手段12は、変換操作セット32及び変換操作セット32に含まれる変換操作の数を判定する。そして、手がかり情報抽出手段12は、同一と予め判定されたテキスト組31における変換操作セット32の数が1つである場合、変換操作セット32に基づき手がかり情報33を抽出する。また、手がかり情報抽出手段12は、非同一と予め判定されたテキスト組31における変換操作セット32に含まれる変換操作の数が1つである場合、変換操作セット32に基づき手がかり情報33を抽出する。
ここで、手がかり情報33は、テキスト組の同一又は非同一の判定に用いる情報である。例えば、テキスト組31が同一と予め判定されたテキスト組である同一テキスト組の場合は、省略操作を省略可能語とし、置換操作を置換可能語とする。また、テキスト組31が非同一と予め判定された非同一テキスト組の場合は、省略の編集操作を省略不能語とし、置換の編集操作を置換不能語とする。
図2は、本発明の実施の形態1にかかる同一性判定方法の流れを示すフローチャート図である。以下では、図4乃至図6を例として当該同一性判定方法を説明する。
まず、変換操作同定手段11は、テキスト組の変換操作セットを同定する(S11)。例えば、変換操作同定手段11は、図4に示すテキスト組a、b、c及びdをテキスト組31として入力する。ここで、図4は、同一又は非同一と予め判定されたテキスト組31の一例を示す図である。そして、変換操作同定手段11は、各テキスト組について、変換操作の数が最少となるように図5に示す変換操作セット32を同定する。図5は、図4に示すテキスト組31から変換操作同定手段11により同定された変換操作セット32の一例である。
図2に戻り、続いて、手がかり情報抽出手段12は、手がかり情報抽出処理を実行する(S12)。ここで、図3に示すフローチャート図を用いて、本発明の実施の形態1にかかる手がかり情報抽出処理の詳細な流れを説明する。また、図6は、本発明の実施の形態1により抽出された手がかり情報33の例を示す図である。
図3において、まず、手がかり情報抽出手段12は、変換操作セットの数及び変換操作の数を判定する(S121)。例えば、手がかり情報抽出手段12は、テキスト組aの変換操作セットの数が1つであり、変換操作の数が2つであると判定する。同様に、手がかり情報抽出手段12は、テキスト組b、c及びdについても変換操作セットの数及び変換操作の数を判定する。
次に、手がかり情報抽出手段12は、テキスト組31を参照し、テキスト組31が同一テキスト組であるか否かを判定する(S122)。例えば、手がかり情報抽出手段12は、テキスト組b及びdが同一テキスト組であると判定し、テキスト組a及びcが非同一テキスト組であると判定する。尚、手がかり情報抽出手段12は、非同一であると判定する必要はない。例えば、手がかり情報抽出手段12は、同一テキスト組でないと判定した場合に、当該テキスト組が非同一であるとしてもよい。尚、ステップS122の処理は、これに限定されない。すなわち、テキスト組a、b、c及びdは、同一又は非同一と予め判定されたものであるため、ステップS122は必須ではなく、その場合、変換操作同定手段11により予め同一又は非同一の場合として処理を分岐させても構わない。
ステップS122において、同一テキスト組であると判定された場合、手がかり情報抽出手段12は、テキスト組31における変換操作セット32が1つであるか否かを判定する(S123)。例えば、手がかり情報抽出手段12は、同一テキスト組であるテキスト組bについて、ステップS121の判定結果に基づき、変換操作セット32が1つであると判定する。同様に、手がかり情報抽出手段12は、テキスト組dについて、変換操作セット32が1つでないと判定する。
ステップS123において、変換操作セット32が1つであると判定された場合、手がかり情報抽出手段12は、変換操作セット32から手がかり情報33を抽出する(S124)。例えば、手がかり情報抽出手段12は変換操作セットb1から手がかり情報33を抽出する。
これにより、同一性判定システム100は、同一テキスト組であり変換操作セットが1つであるという、変換操作セットに曖昧性の存在しない場合を対象とすることができ、抽出される手がかり情報の精度を高めることができる。
その後、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。また、ステップS123において、変換操作セット32が1つでないと判定された場合も、同様に、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。
図6に示すように同一テキスト組であるテキスト組dには、変換操作セットd1及びd2という2つの変換操作セットが存在する。そして、変換操作セットd1及びd2のそれぞれには、2つの変換操作が存在する。つまり、変換操作セットd1又はd2には、曖昧性が存在する。そのため、手がかり情報抽出手段12は、テキスト組dから手がかり情報33を抽出しない。
ステップS122において、同一テキスト組でないと判定された場合、又は、非同一テキスト組であると判定された場合、手がかり情報抽出手段12は、テキスト組31における変換操作セット32に含まれる変換操作が1つであるか否かを判定する(S125)。例えば、手がかり情報抽出手段12は、非同一テキスト組であるテキスト組cについて、ステップS121の判定結果に基づき、変換操作が1つであると判定する。同様に、手がかり情報抽出手段12は、テキスト組aについて、変換操作が1つでないと判定する。
ステップS125において、変換操作セット32に含まれる変換操作が1つであると判定された場合、手がかり情報抽出手段12は、変換操作セット32から手がかり情報33を抽出する(S124)。例えば、手がかり情報抽出手段12は変換操作セットc1から手がかり情報33を抽出する。
これにより、同一性判定システム100は、非同一テキスト組であり変換操作セが1つであるという、変換操作に曖昧性の存在しない場合を対象とすることができ、抽出される手がかり情報の精度を高めることができる。
その後、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。また、ステップS125において、変換操作セット32に含まれる変換操作が1つでないと判定された場合も、同様に、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。
図6に示すように非同一テキスト組であるテキスト組aには、変換操作セットa1という1つの変換操作セットが存在する。そして、変換操作セットa1には、2つの変換操作が存在する。つまり、変換操作セットa2には、曖昧性が存在する。そのため、手がかり情報抽出手段12は、テキスト組aから手がかり情報33を抽出しない。
以上のことから、本発明の実施の形態1にかかる同一性判定システム100は、同一テキスト組と非同一テキスト組の双方を用いて、同一性判定に用いる手がかり情報を正確に抽出できる。その理由は、変換操作に曖昧性が存在しないテキスト組から手がかり情報を抽出するためである。言い換えれば、本発明の実施の形態1にかかる同一性判定システム100は、変換操作に曖昧性が存在するテキスト組から手がかり情報を抽出しない。そのため、本発明の実施の形態1により、同一性判定に用いる手がかり情報を精度よく抽出することができる。
ここで、手がかり情報抽出手段12は、ステップS124において、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として手がかり情報33を抽出することが望ましい。また、手がかり情報抽出手段12は、ステップS126において、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として手がかり情報33を抽出することが望ましい。
例えば、図6では、手がかり情報33は、省略可能語「(株)」及び置換不能語「工業−ソフト」となる。これにより、同一テキスト組の場合は、省略可能語又は置換可能語としての同一情報とし、非同一テキスト組の場合は、省略不能語又は置換不能語としての非同一情報とすることで、手掛かり情報33を同一判定においてより効果的なものとすることができる。
<発明の実施の形態2>
本発明の実施の形態2にかかる同一性判定システムは、同一テキスト組から手がかり情報を抽出するものである。尚、本発明の実施の形態2にかかる同一性判定システムの構成を示すブロック図は、図1と同様であるため、詳細な説明を省略する。以下では、本発明の実施の形態1との違いを中心に説明する。
本発明の実施の形態2にかかる変換操作同定手段11は、テキスト組31について変換操作セット32を同定する。そして、変換操作同定手段11は、テキスト組31についての変換操作セット32の内、変換操作の数が最少となるものを同定する。このとき、テキスト組31は、2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組である。
尚、本発明の実施の形態2にかかる変換操作セット32及び変換操作は、本発明の実施の形態1と同等であるため説明を省略する。
また、本発明の実施の形態2にかかる手がかり情報抽出手段12は、変換操作セット32の数を判定する。そして、手がかり情報抽出手段12は、変換操作セット32の数が1つである場合、変換操作セット32に基づきテキスト組の同一又は非同一の判定に用いる手がかり情報33を抽出する。また、手がかり情報抽出手段12は、変換操作セット32が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない。ここで、手がかり情報33は、テキスト組が同一であるか否かの判定に用いる情報である。
本発明の実施の形態2にかかる同一性判定方法の流れは、図2のフローチャート図と同等であるため、図示を省略する。以下では、本発明の実施の形態1との違いについて説明する。
ステップS11において、変換操作同定手段11は、同一テキスト組のみを入力とし、各テキスト組について、変換操作の数が最少となるように変換操作セット32を同定する。例えば、変換操作同定手段11は、図4のテキスト組b及びdを入力し、図5の変換操作セットb1、d1及びd2を出力する。
続いて、ステップS12の手がかり情報抽出処理の詳細を図7に示す。図7は、本発明の実施の形態2にかかる手がかり情報抽出処理の流れを示すフローチャート図である。
まず、手がかり情報抽出手段12は、変換操作セットの数を判定する(S121a)。例えば、手がかり情報抽出手段12は、テキスト組bの変換操作セットの数が1つであり、テキスト組dの変換操作セットの数が複数であると判定する。
次に、手がかり情報抽出手段12は、テキスト組31における変換操作セット32が1つであるか否かを判定する(S123)。ステップS123において、変換操作セット32が1つであると判定された場合、手がかり情報抽出手段12は、変換操作セット32から手がかり情報33を抽出する(S124)。例えば、手がかり情報抽出手段12は変換操作セットb1から手がかり情報33を抽出する。
その後、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。また、ステップS123において、変換操作セット32が1つでないと判定された場合も、同様に、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。
このように、本発明の実施の形態2では、同一テキスト組であり変換操作セットが1つであるという、変換操作セットに曖昧性の存在しない場合を対象とすることができる。そのため、変換操作セットb1、d1及びd2の全てから一律に手がかり情報を抽出する場合に比べて、同一性判定に用いる手がかり情報を精度よく抽出することができる。
ここで、手がかり情報抽出手段12は、ステップS124において、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として手がかり情報33を抽出することが望ましい。例えば、図6では、手がかり情報33は、省略可能語「(株)」となる。これにより、同一テキスト組から省略可能語又は置換可能語としての同一情報を抽出し、手掛かり情報33を同一判定においてより効果的なものとすることができる。
<発明の実施の形態3>
本発明の実施の形態3にかかる同一性判定システムは、非同一テキスト組から手がかり情報を抽出するものである。尚、本発明の実施の形態3にかかる同一性判定システムの構成を示すブロック図は、図1と同様であるため、詳細な説明を省略する。以下では、本発明の実施の形態1との違いを中心に説明する。
本発明の実施の形態3にかかる変換操作同定手段11は、テキスト組31について変換操作セット32を同定する。そして、変換操作同定手段11は、テキスト組31についての変換操作セット32の内、変換操作の数が最少となるものを同定する。このとき、テキスト組31は、2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組である。
尚、本発明の実施の形態3にかかる変換操作セット32及び変換操作は、本発明の実施の形態1と同等であるため説明を省略する。
また、本発明の実施の形態3にかかる手がかり情報抽出手段12は、変換操作セット32及び変換操作セット32に含まれる変換操作の数を判定する。そして、手がかり情報抽出手段12は、変換操作セット32に含まれる変換操作の数が1つである場合、変換操作セット32に基づき手がかり情報33を抽出する。また、手がかり情報抽出手段12は、変換操作セット32に含まれる変換操作が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない。ここで、手がかり情報33は、テキスト組が非同一であるか否かの判定に用いる情報である。
本発明の実施の形態3にかかる同一性判定方法の流れは、図2のフローチャート図と同等であるため、図示を省略する。以下では、本発明の実施の形態1との違いについて説明する。
ステップS11において、変換操作同定手段11は、非同一テキスト組のみを入力とし、各テキスト組について、変換操作の数が最少となるように変換操作セット32を同定する。例えば、変換操作同定手段11は、図4のテキスト組a及びcを入力し、図5の変換操作セットa1及びc1を出力する。
続いて、ステップS12の手がかり情報抽出処理の詳細を図8に示す。図8は、本発明の実施の形態3にかかる手がかり情報抽出処理の流れを示すフローチャート図である。
まず、手がかり情報抽出手段12は、変換操作セットの数及び変換操作の数を判定する(S121)。例えば、手がかり情報抽出手段12は、テキスト組aの変換操作セットの数が1つであり、変換操作の数が2つであると判定する。また、手がかり情報抽出手段12は、テキスト組cの変換操作セットの数が1つであり、変換操作の数が1つであると判定する。
次に、手がかり情報抽出手段12は、テキスト組31における変換操作セット32に含まれる変換操作が1つであるか否かを判定する(S125)。ステップS125において、変換操作セット32に含まれる変換操作が1つであると判定された場合、手がかり情報抽出手段12は、変換操作セット32から手がかり情報33を抽出する(S124)。例えば、手がかり情報抽出手段12は変換操作セットc1から手がかり情報33を抽出する。
その後、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。また、ステップS125において、変換操作セット32に含まれる変換操作が1つでないと判定された場合も、同様に、手がかり情報抽出手段12は、当該手がかり情報抽出処理を終了する。
このように、本発明の実施の形態3では、非同一テキスト組であり変換操作セットに含まれる変換操作が1つであるという、変換操作に曖昧性の存在しない場合を対象とすることができる。そのため、変換操作セットa1及びc1の全てから一律に手がかり情報を抽出する場合に比べて、同一性判定に用いる手がかり情報を精度よく抽出することができる。
ここで、手がかり情報抽出手段12は、ステップS126において、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として手がかり情報33を抽出することが望ましい。例えば、図6では、手がかり情報33は、置換不能語「工業−ソフト」となる。これにより、非同一テキスト組から省略不能語又は置換不能語としての非同一情報を抽出し、手掛かり情報33を非同一判定においてより効果的なものとすることができる。
<発明の実施の形態4>
本発明の実施の形態4にかかる同一性判定システム101は、本発明の実施の形態1にかかる同一性判定システム100の具体例である。図9は、本発明の実施の形態4にかかる同一性判定システム101の構成を示すブロック図である。同一性判定システム101は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを備える。尚、記憶装置2は、データ処理装置1に内蔵されたものであってもよい。
記憶装置2は、テキスト組31を格納するテキスト組記憶部21と、手がかり情報33を格納する手がかり情報記憶部22とを含む。記憶装置2は、ハードディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置でもよいし、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置であってもよい。また、テキスト組31は、少なくとも1組の同一テキスト組又は非同一テキスト組が含まれていればよい。
データ処理装置1は、変換操作同定手段11と、手がかり情報抽出手段12とを備える。変換操作同定手段11は、テキスト組記憶部21からテキスト組31を入力し、変換操作同定処理を行うことにより変換操作セット32を生成し、手がかり情報抽出手段12へ変換操作セット32を出力する。変換操作同定手段11の処理の詳細は、後述する。
また、手がかり情報抽出手段12は、変換操作同定手段11からの変換操作セット32を入力し、本発明の実施の形態1に示した手がかり情報抽出処理を行うことにより手がかり情報33を抽出し、手がかり情報記憶部22へ手がかり情報33を格納する。尚、手がかり情報抽出手段12は、本発明の実施の形態1における機能と同等であるため、詳細な説明を省略する。
データ処理装置1は、例えば、汎用的なコンピュータシステムであってもよい。その場合、データ処理装置1は、図示しない構成として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及び不揮発性記憶装置である記憶装置並びにユーザとの入出力インタフェースを備える。入出力インタフェースは、例えば、マウス、キーボード等の入力装置と、ディスプレイ等の画面の出力装置により構成される。また、当該記憶装置には、OS(Operating System)及び手がかり情報抽出処理を含む同一性判定処理を行うための同一性判定プログラムが格納されている。同一性判定システム101は、CPUによりOS及び同一性判定プログラムを読み込まれることで、同一性判定処理を実行する。
図10は、本発明の実施の形態4にかかる変換操作同定手段11においてテキスト組の最少の変換操作セットを求める変換操作同定処理の概念を示す図である。ここでは、「ABC」というテキストデータ41と、「B」というテキストデータ42という2つのテキストデータにおける変換操作同定処理を例とする。「A」「B」「C」は文字または単語を表す。
まず、変換操作同定手段11は、図10(i)に示すように、横軸と縦軸にテキストデータ41及び42を並べた表を作成する。尚、テキストデータ41及び42は、横軸と縦軸が入れ替わったものでも構わない。ここでは、当該表において左上のセルから右下のセルにまでの移動距離が変換操作の数とする。
当該表における移動方法は、図10(ii)のように右/下/右下の3通りがある。そして、右への移動を削除操作、下への移動を挿入操作、右下への移動を置換操作と表す。この時、同じ文字間または同じ単語間の置換操作の移動距離を0とする。したがって、最少の変換操作セットを求めることは、当該表における左上のセルから右下のセルまでの移動距離が最小となる移動パスを求めることと同値である。
ここで、最も単純な変換操作同定処理の方法は、左上のセルから右下のセルまでの全ての移動パスを求めた後、移動距離が最小となる移動パスを求めることである。しかしながら、最も単純な変換操作同定処理の方法では、効率が悪い。
そこで、動的計画法を用いた場合を説明する。具体的には、左上のセルから右下のセルまで横方向に順番に各セルまでの移動距離の最小値を計算する。例えば、図10(iii)の「?」のセルまでの移動距離の最小値を求める。「?」のセルには、その左側のセルから移動することで到達できる。したがって、「?」のセルまでの移動距離の最小値は、左側のセルの最小値+1=1である。ここで、どのセルから移動したかを示すパスは記録する。
また、別の例として、図10(iv)の「?」のセルまでの移動距離の最小値を求める。「?」のセルには、その左側、上側又は左上側のいずれかのセルから移動することで到達できる。左側のセルの最小値は1、上側のセルの最小値は1及び左上側のセルの最小値は0である。そのため、「?」のセルへの移動距離は全て1である。したがって、「?」のセルまでの移動距離の最小値は、左上側のセルの最小値+1=1である。
そして、図10(v)が最終形となる。右下のセルの値が最小となる移動距離であり、右下のセルに到達できるパスが、移動距離が最小となる移動パスとなる。
この移動パスからテキスト組の最少の変換操作セットは、削除操作「A」と削除操作「B」であることがわかる。但し、同一文字または同一単語の置換操作は変換操作セットに加えない。また、横方向のテキストと縦方向のテキストを入れ替えると、変換操作セットにおいても削除操作と挿入操作が入れ替わることになる。したがって、削除操作と挿入操作は実質的に同一の変換操作なので、共に、上述した省略操作と呼ぶことができる。
尚、本発明の実施の形態4では、単語単位で変換操作セットを求め、そこから手がかり語を抽出する方法を説明したが、文字単位に対しても適用可能である。また、削除操作と挿入操作は実質的に同一操作なので、削除操作の代わりに挿入操作としても、削除可能語の代わりに挿入可能語としても、削除不能語の代わりに挿入不能語としても良い。ここで、削除可能語とは、その語を挿入してもテキストの内容が変化しない語を示し、削除不能語とは、その語を挿入するとテキストの内容が変化する語を示す。また、挿入可能語とは、その語を挿入してもテキストの内容が変化しない語を示し、挿入不能語とは、その語を挿入するとテキストの内容が変化する語を示す。つまり、削除可能語及び挿入可能語は、省略可能語であり、削除不能語及び挿入不能語は、省略不能語である。
ここで、変換操作同定手段11は、テキスト組31について、最少となる変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択するようにしても良い。このような変換操作セットが尤もらしい可能性が高いからである。例えば、図11は、最少となる変換操作セットが複数存在する場合における変換操作同定処理の概念を示す図である。ここでは、「BC」というテキストデータ43と、「AB」というテキストデータ44という2つのテキストデータにおける変換操作同定処理を例とする。
図11では、最少の変換操作セットは2つ存在する。最少の変換操作セットの1つ目は、置換操作「A−B」と置換操作「B−C」である。また、最少の変換操作セットの2つ目は、挿入操作「A」と削除操作「C」である。この時、1つ目の変換操作セットにおける変換操作が必要となる文字数または単語数は、テキストデータ43の「B」と「C」、テキストデータ44の「A」と「B]であることから4である。一方、2つ目の変換操作セットにおける変換操作が必要となる文字数または単語数は、テキストデータ43の「C」、テキストデータ44の「A」であることから2である。したがって、ここでは、変換操作同定手段11は、2つ目の変換操作セットを選択する。
このように、本発明の実施の形態4では、最少となる変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択する。これにより、より曖昧性の低い変換操作セットを選択することができ、抽出される手がかり情報の精度を高めることができる。
<発明の実施の形態5>
本発明の実施の形態5は、本発明の実施の形態4の変形例である。本発明の実施の形態5では、既に明らかになった手がかり情報を、変換セットと照合し、含まれる場合に所定の削除を行うものである。これにより、本発明の実施の形態4に比べ、より多くの手がかり語を抽出することができる。
本発明の実施の形態5にかかる同一性判定システム102は、本発明の実施の形態4にかかる同一性判定システム101に変換操作削除手段13を加えたものである。図12は、本発明の実施の形態5にかかる同一性判定システム102の構成を示すブロック図である。尚、図12に記載された構成要素の内、図9と同様のものについては、同一の符号を付して詳細な説明を省略する。以下では、本発明の実施の形態4との違いを中心に説明する。
同一性判定システム102は、データ処理装置1aと、記憶装置2とを備える。尚、記憶装置2は、本発明の実施の形態4と同様のものであるため、説明を省略する。データ処理装置1aは、変換操作同定手段11と、変換操作削除手段13と、手がかり情報抽出手段12とを備える。
変換操作同定手段11は、本発明の実施の形態4と同様の機能である。但し、本発明の実施の形態5にかかる変換操作同定手段11は、変換操作セット32を変換操作削除手段13へ出力する。
変換操作削除手段13は、変換操作同定手段11により同定された変換操作セット32に含まれる変換操作が手がかり情報記憶部22から入力される手がかり情報33と一致する場合に、少なくとも当該変換操作を削除する。そして、変換操作削除手段13は、削除した変換操作セット32aを手がかり情報抽出手段12へ出力する。ここで、手がかり情報記憶部22から入力される手がかり情報33は、予め、手がかり情報抽出手段12により任意の変換操作セット32から抽出された手がかり情報33であってもよい。または、任意の手段で明らかになった手がかり情報であってもよい。
手がかり情報抽出手段12は、変換操作削除手段13により削除された変換操作セット32aに基づき、手がかり情報33を抽出し、手がかり情報記憶部22へ格納する。
このような構成を採用することにより、本発明の実施の形態4の効果に加え、多くの手がかり情報を抽出できる。その理由は、一旦抽出した手がかり情報を同一又は非同一テキスト組に適用し、新たな手がかり情報を抽出可能にするためである。
また、変換操作削除手段13は、変換操作同定手段11により同定された変換操作セット32に含まれる変換操作が所定の同一情報と一致する場合に、当該変換操作を削除することが望ましい。例えば、変換操作削除手段13は、同一テキスト組又は非同一テキスト組における変換操作セット32に含まれる変換操作が同一情報である省略可能語又は置換可能語である場合に変換操作セット32に含まれる変換操作のみを削除する。この時、テキスト組に複数の変換操作セットが含まれており、テキスト組に含まれる変換操作を削除した結果、その内の一つの変換操作セットの変換操作が全て削除された場合は、そのテキスト組に含まれる他の変換操作セットも全て削除する。
これにより、当該同一情報を含めた複数の変換操作又は変換操作セットがあるために手がかり情報抽出手段12の処理対象外となったテキスト組31について、既知の変換操作を除くことで、新たに手がかり情報抽出手段12の処理対象となる場合がある。そのため、抽出される手がかり情報の精度を保ちつつ、より多くの手がかり情報を抽出することができる。
また、変換操作削除手段13は、同一と予め判定されたテキスト組31における変換操作セット32に含まれる変換操作が所定の非同一情報と一致する場合に、当該変換操作セットを削除するようにするとよい。例えば、変換操作削除手段13は、同一テキスト組における変換操作セット32に含まれる変換操作が、非同一情報である省略不能語又は置換不能語である場合に変換操作セット32ごと削除する。
手がかり情報抽出手段12は、同一テキスト組において複数の変換操作セットがある場合、処理対象外とする。そこで、当該複数の変換操作セットの内、既に明らかになった手がかり情報に一致する変換操作を含む変換操作セットについて、当該変換操作セットごと削除する。これにより、同一テキスト組において変換操作セットが1つになり、新たに手がかり情報抽出手段12の処理対象となる場合がある。そのため、抽出される手がかり情報の精度を保ちつつ、より多くの手がかり情報を抽出することができる。
図13は、本発明の実施の形態5にかかる手がかり情報抽出処理の流れを示すフローチャート図である。また、図14は、本発明の実施の形態5にかかる手がかり情報抽出処理の例を示す図である。以下では、図4のテキスト組a、b、c及びdがテキスト組31として入力された場合について、適宜、図13及び図14を用いて説明する。前提として、予め図14(i)に示す手がかり情報33である省略可能語「(株)」及び置換不能語「工業−ソフト」が手がかり情報記憶部22に格納済みであるものとする。手がかり情報33は、例えば、本発明の実施の形態4にかかる手がかり情報抽出処理により、抽出されたものであってもよい。または、経験的に選択された手がかり情報であってもよい。
図13では、まず、変換操作同定手段11は、テキスト組の変換操作セットを同定する(S11)。ここでは、図5の変換操作セットa1、b1、c1、d1及びd2が同定される。
次に、変換操作削除手段13は、変換操作を削除する(S13)。具体的には、まず、変換操作削除手段13は、変換操作同定手段11からの変換操作セット32として変換操作セットa1、b1、c1、d1及びd2を入力する。併せて、変換操作削除手段13は、手がかり情報記憶部22から手がかり情報33として省略可能語「(株)」及び置換不能語「工業-ソフト」を入力する。そして、変換操作削除手段13は、変換操作セット32と手がかり情報33とを照合し、含まれる場合に所定の削除を行う。ここでは、図14(ii)に示すように、変換操作削除手段13は、省略可能語「(株)」に基づき、変換操作セットa1及びb1に含まれる省略操作「(株)」を削除する。また、図14(ii)に示すように、変換操作削除手段13は、置換不能語「工業-ソフト」に基づき、同一テキスト組であるテキスト組dにおける変換操作セットd2に置換操作「工業−ソフト」が含まれるため、変換操作セットd2ごと削除する。このように、変換操作削除手段13は、図14(iii)に示すような削除後の変換操作セット32aを生成する。そして、変換操作削除手段13は、変換操作セット32aを手がかり情報抽出手段12へ出力する。
その後、手がかり情報抽出手段12は、変換操作セット32aについて手がかり情報抽出処理を行う(S12)。ここでは、手がかり情報抽出手段12は、非同一テキスト組であるテキスト組aにおける変換操作セットa2に含まれる変換操作が1つとなったために、新たに処理対象とする。また、同様に、手がかり情報抽出手段12は、同一テキスト組であるテキスト組dにおける変換操作セットd2が削除され、変換操作セットd1の1つとなったために、新たに処理対象とする。そして、図14(iv)に示すように、手がかり情報抽出手段12は、省略不能語「ソフトウェア」、省略可能語「工業」及び置換可能語「ソフト−ソフトウェア」を新たに抽出し、手がかり情報記憶部22に格納する。尚、このとき、手がかり情報抽出手段12は、既に手がかり情報記憶部22に格納されている置換不能語「工業-ソフト」を変換操作セットc1から抽出し、手がかり情報記憶部22へ上書きしても構わない。尚、ステップS12の詳細は、図3と同様であればよいため詳細な説明を省略する。
これにより、本発明の実施の形態4よりも多くの手がかり情報を抽出できる。その理由は、一旦、本発明の実施の形態4により手がかり情報を抽出した後、それらの手がかり情報を再度、同じテキスト組に適用することにより、新たな手がかり情報が抽出可能になるためである。
<発明の実施の形態6>
本発明の実施の形態6は、本発明の実施の形態4の変形例である。本発明の実施の形態6では、既に明らかになった手がかり情報を、同一又は非同一と予め判定されていないテキスト組について適用し、同一性判定を行うものである。これにより、精度の高い手がかり情報を用いて、同一又は非同一が明らかでないテキスト組について精度の高い同一判定を行うことができる。
本発明の実施の形態6にかかる同一性判定システム103は、本発明の実施の形態4にかかる同一性判定システム101に同一性判定手段14を加えたものである。図15は、本発明の実施の形態6にかかる同一性判定システムの構成を示すブロック図である。また、図12に記載された構成要素の内、図9と同様のものについては、同一の符号を付して詳細な説明を省略する。但し、図15において、手がかり情報抽出手段12、テキスト組記憶部21の図示は省略している。以下では、本発明の実施の形態4との違いを中心に説明する。
同一性判定システム103は、データ処理装置1bと、記憶装置2aと、入力手段3と、出力手段4とを備える。記憶装置2aに含まれる手がかり情報記憶部22は、予め手がかり情報抽出手段12により抽出された手がかり情報33を格納する。尚、記憶装置2aのその他の構成は、本発明の実施の形態4にかかる記憶装置2と同様のものであるため、説明を省略する。
入力手段3は、テキスト組31aをデータ処理装置1bへ入力する入力装置である。入力手段3は、例えば、キーボード等であってもよい。また、テキスト組31aは、同一又は非同一と予め判定されていない少なくとも1組のテキスト組である判定対象テキスト組である。つまり、テキスト組31aは、テキスト組31と同様のテキスト組であるが、予め同一又は非同一と判定された情報が含まれていない。
出力手段4は、データ処理装置1bから同一性判定結果34を受け付けて出力する出力装置である。出力手段4は、例えば、ディスプレイ等の表示装置であってもよい。また、同一性判定結果34は、同一又は非同一であることを示す情報である。
データ処理装置1bは、変換操作同定手段11aと、同一性判定手段14とを備える。尚、データ処理装置1bは、手がかり情報抽出手段12の図示は省略している。変換操作同定手段11aは、入力手段3からテキスト組31aを入力し、変換操作同定処理を行うことにより変換操作セット32bを生成し、同一性判定手段14へ変換操作セット32bを出力する。尚、変換操作同定手段11aの処理は、入力データがテキスト組31aに置き換わったことを除き、変換操作同定手段11と同様であるため、詳細な説明を省略する。
同一性判定手段14は、テキスト組31aにおける変換操作同定手段11aにより同定された変換操作セット32bに手がかり情報抽出手段12により抽出された手がかり情報33を照合して、テキスト組31aが同一又は非同一と判定する。そして、同一性判定手段14は、同一性判定結果34を出力手段4へ出力する。
このように、本発明の実施の形態6により、同一又は非同一が明らかでないテキスト組の同一性を、精度の高い手がかり情報を用いて判定できる。
また、同一性判定手段14は、テキスト組31aにおける変換操作セット32bに含まれる変換操作セットが一つであり、当該変換操作セットに少なくとも非同一情報を含む場合に、テキスト組31aを非同一と判定することが望ましい。これにより、少なくとも非同一であるテキスト組を判定することができる。
さらにまた、同一性判定手段14は、テキスト組31aにおける変換操作セット32bに含まれる変換操作セットの一つについて、当該変換操作セットに含まれる変換操作の全てが同一情報に一致する場合に、同一と判定する。これにより、同一であるテキスト組をより確実に判定することができる。
図16は、本発明の実施の形態6にかかる同一性判定処理の流れを示すフローチャート図である。また、図17は、本発明の実施の形態6にかかる同一性判定処理の例を示す図である。以下では、図17(i)に示すテキスト組e及びfがテキスト組31aとして入力された場合について、適宜、図16及び図17を用いて説明する。前提として、予め図17(ii)に示す手がかり情報33である省略可能語「(株)」、置換不能語「工業−ソフト」、省略不能語「ソフトウェア」、省略可能語「工業」及び置換可能語「ソフト−ソフトウェア」が手がかり情報記憶部22に格納済みであるものとする。手がかり情報33は、例えば、本発明の実施の形態4又は5にかかる手がかり情報抽出処理により、抽出されたものであってもよい。または、経験的に選択された手がかり情報であってもよい。
図16では、まず、変換操作同定手段11aは、テキスト組の変換操作セットを同定する(S11a)。具体的には、変換操作同定手段11aは、入力手段3からテキスト組31aとしてテキスト組e及びfを入力する。そして、変換操作同定手段11aは、変換操作セット32bとして図17(iii)で示す変換操作セットe1及びf1を同定する。その後、変換操作同定手段11aは、変換操作セット32bを同一性判定手段14へ出力する。
次に、同一性判定手段14は、テキスト組の同一性を判定する(S14)。具体的には、まず、同一性判定手段14は、変換操作同定手段11aからの変換操作セット32bとして変換操作セットe1及びf1を入力する。併せて、同一性判定手段14は、手がかり情報記憶部22から手がかり情報33として省略可能語「(株)」、置換不能語「工業−ソフト」、省略不能語「ソフトウェア」、省略可能語「工業」及び置換可能語「ソフト−ソフトウェア」を入力する。そして、同一性判定手段14は、変換操作セット32bに手がかり情報33を照合して、テキスト組31aが同一又は非同一と判定する。ここでは、同一性判定手段14は、テキスト組eにおける変換操作セットe1に含まれる変換操作セットが1つであり少なくとも非同一情報である省略不能語「ソフトウェア」を含むため、テキスト組eを非同一と判定する。また、同一性判定手段14は、テキスト組fにおける変換操作セットf1に含まれる変換操作の全てである省略操作「工業」が同一情報である省略可能語「工業」に一致するため、テキスト組fを同一と判定する。最後に、同一性判定手段14は、同一性判定結果34を出力手段4へ出力する。
このように、本発明の実施の形態6により、精度の高い手がかり情報を用いて、同一又は非同一が明らかでないテキスト組について精度の高い同一判定を行うことができる。
尚、本発明の実施の形態6にかかる同一性判定システム103は、変換操作同定手段11aと同一性判定手段14の間に、同一情報削除手段をさらに加えても構わない。同一情報削除手段は、テキスト組31aにおける変換操作セット32bに含まれる変換操作が、手がかり情報抽出手段12により抽出された同一情報と一致する場合に、当該変換操作を削除するものである。その場合、同一性判定手段14は、前記同一情報削除手段により削除された変換操作セットに変換操作が存在しない場合に、同一と判定する。これにより、より精度の高い同一性判定を行うことができる。
例えば、図17(iii)の場合、同一情報削除手段は、テキスト組eにおける変換操作セットe1に含まれる省略操作「(株)」が、同一情報である省略可能語「(株)」と一致するため、変換操作セットe1から省略操作「(株)」を削除する。そのため、削除後の変換操作セットe1には、省略操作「ソフトウェア」が残る。また、同一情報削除手段は、テキスト組fにおける変換操作セットf1に含まれる省略操作「工業」が、同一情報である省略可能語「工業」と一致するため、変換操作セットf1から省略操作「工業」を削除する。そのため、削除後の変換操作セットf1には、省略操作及び置換操作が存在しない。このとき、同一性判定手段14は、削除後の変換操作セットe1に含まれる変換操作の全てである省略操作「ソフトウェア」が、非同一情報である省略不能語「ソフトウェア」と一致するため、上述した場合と同様に非同一と判定する。また、同一性判定手段14は、削除後の変換操作セットf1に変換操作が存在しないため、同一と判定する。
これにより、同一情報を含む複数の変換操作又は変換操作セットがあるために、同一性判定手段14により明確に判定できない場合であっても、同一情報削除手段により同一情報と一致する変換操作を削除することにより、新たに同一性判定手段14により明確に判定できることになる。そのため、さらに精度の高い同一判定を行うことができる。
<その他の発明の実施の形態>
尚、本発明により抽出された手がかり情報は、データベースの重複エントリ削除や、情報検索、文書クラスタリングといった同一性判定に利用できる。
さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
例えば、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではなく、任意の処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の伝送媒体を介して伝送することにより提供することも可能である。
本発明の実施の形態1にかかる同一性判定システムの構成を示すブロック図である。 本発明の実施の形態1にかかる同一性判定方法の流れを示すフローチャート図である。 本発明の実施の形態1にかかる手がかり情報抽出処理の流れを示すフローチャート図である。 同一又は非同一と予め判定されたテキスト組の例を示す図である 変換操作セットの例を示す図である。 本発明の実施の形態1により抽出された手がかり情報の例を示す図である。 本発明の実施の形態2にかかる手がかり情報抽出処理の流れを示すフローチャート図である。 本発明の実施の形態3にかかる手がかり情報抽出処理の流れを示すフローチャート図である。 本発明の実施の形態4にかかる同一性判定システムの構成を示すブロック図である。 本発明の実施の形態4にかかる変換操作同定処理の概念を示す図である。 本発明の実施の形態4にかかる変換操作同定処理の概念を示す図である。 本発明の実施の形態5にかかる同一性判定システムの構成を示すブロック図である。 本発明の実施の形態5にかかる手がかり情報抽出処理の流れを示すフローチャート図である。 本発明の実施の形態5にかかる手がかり情報抽出処理の例を示す図である。 本発明の実施の形態6にかかる同一性判定システムの構成を示すブロック図である。 本発明の実施の形態6にかかる同一性判定処理の流れを示すフローチャート図である。 本発明の実施の形態6にかかる同一性判定処理の例を示す図である。
符号の説明
100 同一性判定システム
101 同一性判定システム
102 同一性判定システム
103 同一性判定システム
1 データ処理装置
1a データ処理装置
1b データ処理装置
11 変換操作同定手段
11a 変換操作同定手段
12 手がかり情報抽出手段
13 変換操作削除手段
14 同一性判定手段
2 記憶装置
2a 記憶装置
21 テキスト組記憶部
22 手がかり情報記憶部
3 入力手段
31 テキスト組
31a テキスト組
32 変換操作セット
32a 変換操作セット
32b 変換操作セット
33 手がかり情報
34 同一性判定結果
4 出力手段
41 テキストデータ
42 テキストデータ
43 テキストデータ
44 テキストデータ
a テキスト組
a1 変換操作セット
a2 変換操作セット
b テキスト組
b1 変換操作セット
b2 変換操作セット
c テキスト組
c1 変換操作セット
d テキスト組
d1 変換操作セット
d2 変換操作セット
e テキスト組
e1 変換操作セット
f テキスト組
f1 変換操作セット

Claims (42)

  1. 2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、
    前記変換操作同定手段により同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出手段と、
    を備える同一性判定システム。
  2. 前記変換操作同定手段により同定された変換操作セットに含まれる変換操作が所定の前記手がかり情報と一致する場合に、少なくとも当該変換操作を削除する変換操作削除手段をさらに備え、
    前記手がかり情報抽出手段は、前記変換操作削除手段により削除された変換操作セットから前記手がかり情報を抽出する、
    ことを特徴とする請求項1に記載の同一性判定システム。
  3. 前記変換操作同定手段は、同一又は非同一と予め判定されていない少なくとも1組のテキスト組である判定対象テキスト組について、前記変換操作セットを同定し、
    前記判定対象テキスト組における前記変換操作同定手段により同定された変換操作セットに前記手がかり情報抽出手段により抽出された手がかり情報を照合して、当該判定対象テキスト組が同一又は非同一と判定する同一性判定手段をさらに備える、
    ことを特徴とする請求項1又は2に記載の同一性判定システム。
  4. 前記手がかり情報抽出手段は、
    前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出し、
    前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項1乃至3のいずれか1項に記載の同一性判定システム。
  5. 前記変換操作削除手段は、前記変換操作同定手段により同定された変換操作セットに含まれる変換操作が当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する、
    ことを特徴とする請求項2に記載の同一性判定システム。
  6. 前記変換操作削除手段は、前記同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作が当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報と一致する場合に、当該変換操作セットを削除する、
    ことを特徴とする請求項2又は5に記載の同一性判定システム。
  7. 前記同一性判定手段は、前記判定対象テキスト組における変換操作セットが一つであり、当該変換操作セットに少なくとも当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報を含む場合に、当該判定対象テキスト組を非同一と判定する、
    ことを特徴とする請求項3に記載の同一性判定システム。
  8. 前記同一性判定手段は、前記判定対象テキスト組に含まれる変換操作セットの一つについて、当該変換操作セットに含まれる変換操作の全てが当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報に一致する場合に、同一と判定する、
    ことを特徴とする請求項3又は7に記載の同一性判定システム。
  9. 前記判定対象テキスト組における変換操作セットに含まれる変換操作が、前記手がかり情報抽出手段により抽出された前記手がかり情報のうち当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する同一情報削除手段をさらに備え、
    前記同一性判定手段は、前記同一情報削除手段により削除された変換操作セットに変換操作が存在しない場合に、同一と判定する、
    ことを特徴とする請求項3又は7のいずれか1項に記載の同一性判定システム。
  10. 前記変換操作同定手段は、前記テキスト組について、最少となる前記変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択する、
    ことを特徴とする請求項1乃至9のいずれか1項に記載の同一性判定システム。
  11. 2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、
    前記変換操作同定手段により同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出手段と、
    を備える同一性判定システム。
  12. 前記手がかり情報抽出手段は、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項11に記載の同一性判定システム。
  13. 2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、
    前記変換操作同定手段により同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出手段と、
    を備える同一性判定システム。
  14. 前記手がかり情報抽出手段は、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項13に記載の同一性判定システム。
  15. 2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、
    前記変換操作同定ステップにより同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出ステップと、
    有する、コンピュータが実行する同一性判定方法。
  16. 前記変換操作同定ステップにより同定された変換操作セットに含まれる変換操作が所定の前記手がかり情報と一致する場合に、少なくとも当該変換操作を削除する変換操作削除ステップをさらに有し、
    前記手がかり情報抽出ステップは、前記変換操作削除ステップにより削除された変換操作セットから前記手がかり情報を抽出する、
    ことを特徴とする請求項15に記載のコンピュータが実行する同一性判定方法。
  17. 前記変換操作同定ステップは、同一又は非同一と予め判定されていない少なくとも1組のテキスト組である判定対象テキスト組について、前記変換操作セットを同定し、
    前記判定対象テキスト組における前記変換操作同定ステップにより同定された変換操作セットに前記手がかり情報抽出ステップにより抽出された手がかり情報を照合して、当該判定対象テキスト組が同一又は非同一と判定する同一性判定ステップをさらに有する、
    ことを特徴とする請求項15又は16に記載のコンピュータが実行する同一性判定方法。
  18. 前記手がかり情報抽出ステップは、
    前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出し、
    前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項15乃至17のいずれか1項に記載のコンピュータが実行する同一性判定方法。
  19. 前記変換操作削除ステップは、前記変換操作同定ステップにより同定された変換操作セットに含まれる変換操作が当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する、
    ことを特徴とする請求項16に記載のコンピュータが実行する同一性判定方法。
  20. 前記変換操作削除ステップは、前記同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作が当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報と一致する場合に、当該変換操作セットを削除する、
    ことを特徴とする請求項16又は19に記載のコンピュータが実行する同一性判定方法。
  21. 前記同一性判定ステップは、前記判定対象テキスト組における変換操作セットが一つであり、当該変換操作セットに少なくとも当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報を含む場合に、当該判定対象テキスト組を非同一と判定する、
    ことを特徴とする請求項17に記載のコンピュータが実行する同一性判定方法。
  22. 前記同一性判定ステップは、前記判定対象テキスト組に含まれる変換操作セットの一つについて、当該変換操作セットに含まれる変換操作の全てが当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報に一致する場合に、同一と判定する、
    ことを特徴とする請求項17又は21に記載のコンピュータが実行する同一性判定方法。
  23. 前記判定対象テキスト組における変換操作セットに含まれる変換操作が、前記手がかり情報抽出ステップにより抽出された前記手がかり情報のうち当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する同一情報削除ステップをさらに有し、
    前記同一性判定ステップは、前記同一情報削除ステップにより削除された変換操作セットに変換操作が存在しない場合に、同一と判定する、
    ことを特徴とする請求項17又は1に記載のコンピュータが実行する同一性判定方法。
  24. 前記変換操作同定ステップは、前記テキスト組について、最少となる前記変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択する、
    ことを特徴とする請求項15乃至23のいずれか1項に記載のコンピュータが実行する同一性判定方法。
  25. 2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、
    前記変換操作同定ステップにより同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出ステップと、
    を有する、コンピュータが実行する同一性判定方法。
  26. 前記手がかり情報抽出ステップは、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項25に記載のコンピュータが実行する同一性判定方法。
  27. 2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、
    前記変換操作同定ステップにより同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出ステップと、
    を有する、コンピュータが実行する同一性判定方法。
  28. 前記手がかり情報抽出ステップは、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項27に記載のコンピュータが実行する同一性判定方法。
  29. 2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、
    前記変換操作同定処理により同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出処理と、
    を含む同一性判定処理をコンピュータに実行させる同一性判定プログラム。
  30. 前記変換操作同定処理により同定された変換操作セットに含まれる変換操作が所定の前記手がかり情報と一致する場合に、少なくとも当該変換操作を削除する変換操作削除処理をさらに含み、
    前記手がかり情報抽出処理は、前記変換操作削除処理により削除された変換操作セットから前記手がかり情報を抽出する、
    ことを特徴とする請求項29に記載の同一性判定プログラム。
  31. 前記変換操作同定処理は、同一又は非同一と予め判定されていない少なくとも1組のテキスト組である判定対象テキスト組について、前記変換操作セットを同定し、
    前記判定対象テキスト組における前記変換操作同定処理により同定された変換操作セットに前記手がかり情報抽出処理により抽出された手がかり情報を照合して、当該判定対象テキスト組が同一又は非同一と判定する同一性判定処理をさらに含む、
    ことを特徴とする請求項29又は30に記載の同一性判定プログラム。
  32. 前記手がかり情報抽出処理は、
    前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出し、
    前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項29乃至31のいずれか1項に記載の同一性判定プログラム。
  33. 前記変換操作削除処理は、前記変換操作同定処理により同定された変換操作セットに含まれる変換操作が当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する、
    ことを特徴とする請求項30に記載の同一性判定プログラム。
  34. 前記変換操作削除処理は、前記同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作が当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報と一致する場合に、当該変換操作セットを削除する、
    ことを特徴とする請求項30又は33に記載の同一性判定プログラム。
  35. 前記同一性判定処理は、前記判定対象テキスト組における変換操作セットが一つであり、当該変換操作セットに少なくとも当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報を含む場合に、当該判定対象テキスト組を非同一と判定する、
    ことを特徴とする請求項31に記載の同一性判定プログラム。
  36. 前記同一性判定処理は、前記判定対象テキスト組に含まれる変換操作セットの一つについて、当該変換操作セットに含まれる変換操作の全てが当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報に一致する場合に、同一と判定する、
    ことを特徴とする請求項31又は35に記載の同一性判定プログラム。
  37. 前記判定対象テキスト組における変換操作セットに含まれる変換操作が、前記手がかり情報抽出処理により抽出された前記手がかり情報のうち当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する同一情報削除処理をさらに含み、
    前記同一性判定処理は、前記同一情報削除処理により削除された変換操作セットに変換操作が存在しない場合に、同一と判定する、
    ことを特徴とする請求項31又は5に記載の同一性判定プログラム。
  38. 2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、
    前記変換操作同定処理により同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出処理と、
    を含む同一性判定処理をコンピュータに実行させる同一性判定プログラム。
  39. 前記手がかり情報抽出処理は、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項38に記載の同一性判定プログラム。
  40. 2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、
    前記変換操作同定処理により同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出処理と、
    を含む同一性判定処理をコンピュータに実行させる同一性判定プログラム。
  41. 前記手がかり情報抽出処理は、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
    ことを特徴とする請求項40に記載の同一性判定プログラム。
  42. 前記変換操作同定手段は、前記判定対象テキスト組について、最少となる前記変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択する、
    ことを特徴とする請求項3、請求項3に従属する請求項4、及び請求項7乃至9のいずれか1項に記載の同一性判定システム。
JP2008307014A 2008-12-02 2008-12-02 同一性判定システム、同一性判定方法及び同一性判定プログラム Active JP5347459B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008307014A JP5347459B2 (ja) 2008-12-02 2008-12-02 同一性判定システム、同一性判定方法及び同一性判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008307014A JP5347459B2 (ja) 2008-12-02 2008-12-02 同一性判定システム、同一性判定方法及び同一性判定プログラム

Publications (2)

Publication Number Publication Date
JP2010134501A JP2010134501A (ja) 2010-06-17
JP5347459B2 true JP5347459B2 (ja) 2013-11-20

Family

ID=42345774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008307014A Active JP5347459B2 (ja) 2008-12-02 2008-12-02 同一性判定システム、同一性判定方法及び同一性判定プログラム

Country Status (1)

Country Link
JP (1) JP5347459B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323426A (ja) * 2002-05-08 2003-11-14 Advanced Telecommunication Research Institute International 換言規則抽出プログラム、換言規則統合プログラム、および翻訳プログラム
JP4687089B2 (ja) * 2004-12-08 2011-05-25 日本電気株式会社 重複レコード検出システム、および重複レコード検出プログラム
JP2006251843A (ja) * 2005-03-08 2006-09-21 Advanced Telecommunication Research Institute International 同義語対抽出装置及びそのためのコンピュータプログラム
JP4915499B2 (ja) * 2005-12-22 2012-04-11 日本電気株式会社 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム

Also Published As

Publication number Publication date
JP2010134501A (ja) 2010-06-17

Similar Documents

Publication Publication Date Title
Yu et al. Online segment to segment neural transduction
Zhang et al. Chinese segmentation with a word-based perceptron algorithm
Rijhwani et al. Estimating code-switching on twitter with a novel generalized word-level language detection technique
Virpioja et al. Morfessor 2.0: Python implementation and extensions for Morfessor Baseline
Evershed et al. Correcting noisy OCR: Context beats confusion
KR101453937B1 (ko) Cjk 성명 검출
Qian et al. Disfluency detection using multi-step stacked learning
US20070118351A1 (en) Apparatus, method and computer program product for translating speech input using example
JP6578941B2 (ja) 含意判定装置、含意判定方法及びプログラム
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
Tensmeyer et al. Training full-page handwritten text recognition models without annotated line breaks
JP2014157409A (ja) 情報処理装置及び情報処理プログラム
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
Oh et al. An ensemble of grapheme and phoneme for machine transliteration
Marrese-Taylor et al. An edit-centric approach for Wikipedia article quality assessment
US11221856B2 (en) Joint bootstrapping machine for text analysis
JP5347459B2 (ja) 同一性判定システム、同一性判定方法及び同一性判定プログラム
Ruzsics et al. Neural text normalization with adapted decoding and POS features
WO2020132851A1 (en) Date extractor
Banisakher et al. Improving the identification of the discourse function of news article paragraphs
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
WO2014049998A1 (ja) 情報検索システム、情報検索方法およびプログラム
JP5450276B2 (ja) 読み推定装置、読み推定方法、および読み推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130805

R150 Certificate of patent or registration of utility model

Ref document number: 5347459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150