JP5347459B2 - 同一性判定システム、同一性判定方法及び同一性判定プログラム - Google Patents
同一性判定システム、同一性判定方法及び同一性判定プログラム Download PDFInfo
- Publication number
- JP5347459B2 JP5347459B2 JP2008307014A JP2008307014A JP5347459B2 JP 5347459 B2 JP5347459 B2 JP 5347459B2 JP 2008307014 A JP2008307014 A JP 2008307014A JP 2008307014 A JP2008307014 A JP 2008307014A JP 5347459 B2 JP5347459 B2 JP 5347459B2
- Authority
- JP
- Japan
- Prior art keywords
- conversion operation
- text
- conversion
- same
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
(1) 省略の変換操作の確率が高い
→ 省略可能語:その語を省略してもテキストの内容が変わらない
(2) 省略の変換操作の確率が低い
→ 省略不能語:その語を省略するとテキストの内容が変更する
(3) 置換の変換操作の確率が高い
→ 置換可能語:その語を置換してもテキストの内容が変わらない
(4) 置換の変換操作の確率が低い
→ 置換不能語:その語を置換するとテキストの内容が変更する
Mikhail Bilenko and Raymond J. Mooney, Adaptive Duplicate Detection Using Learnable String Similarity Measures, Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD-2003), Washington DC, pp.39-48, August, 2003.
図1は、本発明の実施の形態1にかかる同一性判定システム100の構成を示すブロック図である。同一性判定システム100は、変換操作同定手段11と、手がかり情報抽出手段12とを備える。
本発明の実施の形態2にかかる同一性判定システムは、同一テキスト組から手がかり情報を抽出するものである。尚、本発明の実施の形態2にかかる同一性判定システムの構成を示すブロック図は、図1と同様であるため、詳細な説明を省略する。以下では、本発明の実施の形態1との違いを中心に説明する。
本発明の実施の形態3にかかる同一性判定システムは、非同一テキスト組から手がかり情報を抽出するものである。尚、本発明の実施の形態3にかかる同一性判定システムの構成を示すブロック図は、図1と同様であるため、詳細な説明を省略する。以下では、本発明の実施の形態1との違いを中心に説明する。
本発明の実施の形態4にかかる同一性判定システム101は、本発明の実施の形態1にかかる同一性判定システム100の具体例である。図9は、本発明の実施の形態4にかかる同一性判定システム101の構成を示すブロック図である。同一性判定システム101は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2とを備える。尚、記憶装置2は、データ処理装置1に内蔵されたものであってもよい。
本発明の実施の形態5は、本発明の実施の形態4の変形例である。本発明の実施の形態5では、既に明らかになった手がかり情報を、変換セットと照合し、含まれる場合に所定の削除を行うものである。これにより、本発明の実施の形態4に比べ、より多くの手がかり語を抽出することができる。
本発明の実施の形態6は、本発明の実施の形態4の変形例である。本発明の実施の形態6では、既に明らかになった手がかり情報を、同一又は非同一と予め判定されていないテキスト組について適用し、同一性判定を行うものである。これにより、精度の高い手がかり情報を用いて、同一又は非同一が明らかでないテキスト組について精度の高い同一判定を行うことができる。
尚、本発明により抽出された手がかり情報は、データベースの重複エントリ削除や、情報検索、文書クラスタリングといった同一性判定に利用できる。
101 同一性判定システム
102 同一性判定システム
103 同一性判定システム
1 データ処理装置
1a データ処理装置
1b データ処理装置
11 変換操作同定手段
11a 変換操作同定手段
12 手がかり情報抽出手段
13 変換操作削除手段
14 同一性判定手段
2 記憶装置
2a 記憶装置
21 テキスト組記憶部
22 手がかり情報記憶部
3 入力手段
31 テキスト組
31a テキスト組
32 変換操作セット
32a 変換操作セット
32b 変換操作セット
33 手がかり情報
34 同一性判定結果
4 出力手段
41 テキストデータ
42 テキストデータ
43 テキストデータ
44 テキストデータ
a テキスト組
a1 変換操作セット
a2 変換操作セット
b テキスト組
b1 変換操作セット
b2 変換操作セット
c テキスト組
c1 変換操作セット
d テキスト組
d1 変換操作セット
d2 変換操作セット
e テキスト組
e1 変換操作セット
f テキスト組
f1 変換操作セット
Claims (42)
- 2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、
前記変換操作同定手段により同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出手段と、
を備える同一性判定システム。 - 前記変換操作同定手段により同定された変換操作セットに含まれる変換操作が所定の前記手がかり情報と一致する場合に、少なくとも当該変換操作を削除する変換操作削除手段をさらに備え、
前記手がかり情報抽出手段は、前記変換操作削除手段により削除された変換操作セットから前記手がかり情報を抽出する、
ことを特徴とする請求項1に記載の同一性判定システム。 - 前記変換操作同定手段は、同一又は非同一と予め判定されていない少なくとも1組のテキスト組である判定対象テキスト組について、前記変換操作セットを同定し、
前記判定対象テキスト組における前記変換操作同定手段により同定された変換操作セットに前記手がかり情報抽出手段により抽出された手がかり情報を照合して、当該判定対象テキスト組が同一又は非同一と判定する同一性判定手段をさらに備える、
ことを特徴とする請求項1又は2に記載の同一性判定システム。 - 前記手がかり情報抽出手段は、
前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出し、
前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項1乃至3のいずれか1項に記載の同一性判定システム。 - 前記変換操作削除手段は、前記変換操作同定手段により同定された変換操作セットに含まれる変換操作が当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する、
ことを特徴とする請求項2に記載の同一性判定システム。 - 前記変換操作削除手段は、前記同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作が当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報と一致する場合に、当該変換操作セットを削除する、
ことを特徴とする請求項2又は5に記載の同一性判定システム。 - 前記同一性判定手段は、前記判定対象テキスト組における変換操作セットが一つであり、当該変換操作セットに少なくとも当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報を含む場合に、当該判定対象テキスト組を非同一と判定する、
ことを特徴とする請求項3に記載の同一性判定システム。 - 前記同一性判定手段は、前記判定対象テキスト組に含まれる変換操作セットの一つについて、当該変換操作セットに含まれる変換操作の全てが当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報に一致する場合に、同一と判定する、
ことを特徴とする請求項3又は7に記載の同一性判定システム。 - 前記判定対象テキスト組における変換操作セットに含まれる変換操作が、前記手がかり情報抽出手段により抽出された前記手がかり情報のうち当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する同一情報削除手段をさらに備え、
前記同一性判定手段は、前記同一情報削除手段により削除された変換操作セットに変換操作が存在しない場合に、同一と判定する、
ことを特徴とする請求項3又は7のいずれか1項に記載の同一性判定システム。 - 前記変換操作同定手段は、前記テキスト組について、最少となる前記変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択する、
ことを特徴とする請求項1乃至9のいずれか1項に記載の同一性判定システム。 - 2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、
前記変換操作同定手段により同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出手段と、
を備える同一性判定システム。 - 前記手がかり情報抽出手段は、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項11に記載の同一性判定システム。 - 2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定手段と、
前記変換操作同定手段により同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出手段と、
を備える同一性判定システム。 - 前記手がかり情報抽出手段は、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項13に記載の同一性判定システム。 - 2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、
前記変換操作同定ステップにより同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出ステップと、
を有する、コンピュータが実行する同一性判定方法。 - 前記変換操作同定ステップにより同定された変換操作セットに含まれる変換操作が所定の前記手がかり情報と一致する場合に、少なくとも当該変換操作を削除する変換操作削除ステップをさらに有し、
前記手がかり情報抽出ステップは、前記変換操作削除ステップにより削除された変換操作セットから前記手がかり情報を抽出する、
ことを特徴とする請求項15に記載のコンピュータが実行する同一性判定方法。 - 前記変換操作同定ステップは、同一又は非同一と予め判定されていない少なくとも1組のテキスト組である判定対象テキスト組について、前記変換操作セットを同定し、
前記判定対象テキスト組における前記変換操作同定ステップにより同定された変換操作セットに前記手がかり情報抽出ステップにより抽出された手がかり情報を照合して、当該判定対象テキスト組が同一又は非同一と判定する同一性判定ステップをさらに有する、
ことを特徴とする請求項15又は16に記載のコンピュータが実行する同一性判定方法。 - 前記手がかり情報抽出ステップは、
前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出し、
前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項15乃至17のいずれか1項に記載のコンピュータが実行する同一性判定方法。 - 前記変換操作削除ステップは、前記変換操作同定ステップにより同定された変換操作セットに含まれる変換操作が当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する、
ことを特徴とする請求項16に記載のコンピュータが実行する同一性判定方法。 - 前記変換操作削除ステップは、前記同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作が当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報と一致する場合に、当該変換操作セットを削除する、
ことを特徴とする請求項16又は19に記載のコンピュータが実行する同一性判定方法。 - 前記同一性判定ステップは、前記判定対象テキスト組における変換操作セットが一つであり、当該変換操作セットに少なくとも当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報を含む場合に、当該判定対象テキスト組を非同一と判定する、
ことを特徴とする請求項17に記載のコンピュータが実行する同一性判定方法。 - 前記同一性判定ステップは、前記判定対象テキスト組に含まれる変換操作セットの一つについて、当該変換操作セットに含まれる変換操作の全てが当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報に一致する場合に、同一と判定する、
ことを特徴とする請求項17又は21に記載のコンピュータが実行する同一性判定方法。 - 前記判定対象テキスト組における変換操作セットに含まれる変換操作が、前記手がかり情報抽出ステップにより抽出された前記手がかり情報のうち当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する同一情報削除ステップをさらに有し、
前記同一性判定ステップは、前記同一情報削除ステップにより削除された変換操作セットに変換操作が存在しない場合に、同一と判定する、
ことを特徴とする請求項17又は21に記載のコンピュータが実行する同一性判定方法。 - 前記変換操作同定ステップは、前記テキスト組について、最少となる前記変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択する、
ことを特徴とする請求項15乃至23のいずれか1項に記載のコンピュータが実行する同一性判定方法。 - 2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、
前記変換操作同定ステップにより同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出ステップと、
を有する、コンピュータが実行する同一性判定方法。 - 前記手がかり情報抽出ステップは、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項25に記載のコンピュータが実行する同一性判定方法。 - 2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定ステップと、
前記変換操作同定ステップにより同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出ステップと、
を有する、コンピュータが実行する同一性判定方法。 - 前記手がかり情報抽出ステップは、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項27に記載のコンピュータが実行する同一性判定方法。 - 2つのテキストデータの内容が同一又は非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、
前記変換操作同定処理により同定された変換操作セットの数及び変換操作の数を判定し、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作セットから前記手がかり情報を抽出する手がかり情報抽出処理と、
を含む同一性判定処理をコンピュータに実行させる同一性判定プログラム。 - 前記変換操作同定処理により同定された変換操作セットに含まれる変換操作が所定の前記手がかり情報と一致する場合に、少なくとも当該変換操作を削除する変換操作削除処理をさらに含み、
前記手がかり情報抽出処理は、前記変換操作削除処理により削除された変換操作セットから前記手がかり情報を抽出する、
ことを特徴とする請求項29に記載の同一性判定プログラム。 - 前記変換操作同定処理は、同一又は非同一と予め判定されていない少なくとも1組のテキスト組である判定対象テキスト組について、前記変換操作セットを同定し、
前記判定対象テキスト組における前記変換操作同定処理により同定された変換操作セットに前記手がかり情報抽出処理により抽出された手がかり情報を照合して、当該判定対象テキスト組が同一又は非同一と判定する同一性判定処理をさらに含む、
ことを特徴とする請求項29又は30に記載の同一性判定プログラム。 - 前記手がかり情報抽出処理は、
前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出し、
前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項29乃至31のいずれか1項に記載の同一性判定プログラム。 - 前記変換操作削除処理は、前記変換操作同定処理により同定された変換操作セットに含まれる変換操作が当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する、
ことを特徴とする請求項30に記載の同一性判定プログラム。 - 前記変換操作削除処理は、前記同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作が当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報と一致する場合に、当該変換操作セットを削除する、
ことを特徴とする請求項30又は33に記載の同一性判定プログラム。 - 前記同一性判定処理は、前記判定対象テキスト組における変換操作セットが一つであり、当該変換操作セットに少なくとも当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報を含む場合に、当該判定対象テキスト組を非同一と判定する、
ことを特徴とする請求項31に記載の同一性判定プログラム。 - 前記同一性判定処理は、前記判定対象テキスト組に含まれる変換操作セットの一つについて、当該変換操作セットに含まれる変換操作の全てが当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報に一致する場合に、同一と判定する、
ことを特徴とする請求項31又は35に記載の同一性判定プログラム。 - 前記判定対象テキスト組における変換操作セットに含まれる変換操作が、前記手がかり情報抽出処理により抽出された前記手がかり情報のうち当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報と一致する場合に、当該変換操作を削除する同一情報削除処理をさらに含み、
前記同一性判定処理は、前記同一情報削除処理により削除された変換操作セットに変換操作が存在しない場合に、同一と判定する、
ことを特徴とする請求項31又は35に記載の同一性判定プログラム。 - 2つのテキストデータの内容が同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、
前記変換操作同定処理により同定された変換操作セットの数を判定し、当該変換操作セットの数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットの数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出処理と、
を含む同一性判定処理をコンピュータに実行させる同一性判定プログラム。 - 前記手がかり情報抽出処理は、前記同一と予め判定されたテキスト組における変換操作セットの数が1つである場合は、当該変換操作によらなくとも当該テキスト組における2つのテキストデータの内容が同一であることを示す情報である同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項38に記載の同一性判定プログラム。 - 2つのテキストデータの内容が非同一と予め判定された少なくとも1組のテキスト組について、一方のテキストデータを他方のテキストデータに一致させるための変換操作の数が最少となる変換操作の集合である変換操作セットを同定する変換操作同定処理と、
前記変換操作同定処理により同定された変換操作セットの数及び変換操作の数を判定し、当該変換操作セットに含まれる変換操作の数が1つである場合、当該変換操作セットからテキスト組の同一又は非同一の判定に用いる手がかり情報を抽出し、当該変換操作セットに含まれる変換操作の数が複数である場合、当該変換操作セットからは前記手がかり情報を抽出しない、手がかり情報抽出処理と、
を含む同一性判定処理をコンピュータに実行させる同一性判定プログラム。 - 前記手がかり情報抽出処理は、前記非同一と予め判定されたテキスト組における変換操作セットに含まれる変換操作の数が1つである場合は、当該変換操作によらなければ当該テキスト組における2つのテキストデータの内容が非同一であることを示す情報である非同一情報として前記手がかり情報を抽出する、
ことを特徴とする請求項40に記載の同一性判定プログラム。 - 前記変換操作同定手段は、前記判定対象テキスト組について、最少となる前記変換操作セットが複数存在する場合、当該変換操作セットにおける変換操作を含む文字数又は単語数が最少となる変換操作セットを選択する、
ことを特徴とする請求項3、請求項3に従属する請求項4、及び請求項7乃至9のいずれか1項に記載の同一性判定システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008307014A JP5347459B2 (ja) | 2008-12-02 | 2008-12-02 | 同一性判定システム、同一性判定方法及び同一性判定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008307014A JP5347459B2 (ja) | 2008-12-02 | 2008-12-02 | 同一性判定システム、同一性判定方法及び同一性判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010134501A JP2010134501A (ja) | 2010-06-17 |
JP5347459B2 true JP5347459B2 (ja) | 2013-11-20 |
Family
ID=42345774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008307014A Active JP5347459B2 (ja) | 2008-12-02 | 2008-12-02 | 同一性判定システム、同一性判定方法及び同一性判定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5347459B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003323426A (ja) * | 2002-05-08 | 2003-11-14 | Advanced Telecommunication Research Institute International | 換言規則抽出プログラム、換言規則統合プログラム、および翻訳プログラム |
JP4687089B2 (ja) * | 2004-12-08 | 2011-05-25 | 日本電気株式会社 | 重複レコード検出システム、および重複レコード検出プログラム |
JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
JP4915499B2 (ja) * | 2005-12-22 | 2012-04-11 | 日本電気株式会社 | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム |
-
2008
- 2008-12-02 JP JP2008307014A patent/JP5347459B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010134501A (ja) | 2010-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Online segment to segment neural transduction | |
Zhang et al. | Chinese segmentation with a word-based perceptron algorithm | |
Rijhwani et al. | Estimating code-switching on twitter with a novel generalized word-level language detection technique | |
Virpioja et al. | Morfessor 2.0: Python implementation and extensions for Morfessor Baseline | |
Evershed et al. | Correcting noisy OCR: Context beats confusion | |
KR101453937B1 (ko) | Cjk 성명 검출 | |
Qian et al. | Disfluency detection using multi-step stacked learning | |
US20070118351A1 (en) | Apparatus, method and computer program product for translating speech input using example | |
JP6578941B2 (ja) | 含意判定装置、含意判定方法及びプログラム | |
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
JP6599219B2 (ja) | 読み付与装置、読み付与方法、およびプログラム | |
Tensmeyer et al. | Training full-page handwritten text recognition models without annotated line breaks | |
JP2014157409A (ja) | 情報処理装置及び情報処理プログラム | |
CN107148624A (zh) | 预处理文本的方法以及用于执行该方法的预处理系统 | |
Oh et al. | An ensemble of grapheme and phoneme for machine transliteration | |
Marrese-Taylor et al. | An edit-centric approach for Wikipedia article quality assessment | |
US11221856B2 (en) | Joint bootstrapping machine for text analysis | |
JP5347459B2 (ja) | 同一性判定システム、同一性判定方法及び同一性判定プログラム | |
Ruzsics et al. | Neural text normalization with adapted decoding and POS features | |
WO2020132851A1 (en) | Date extractor | |
Banisakher et al. | Improving the identification of the discourse function of news article paragraphs | |
Sproat et al. | Applications of lexicographic semirings to problems in speech and language processing | |
JP2018077604A (ja) | 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置 | |
WO2014049998A1 (ja) | 情報検索システム、情報検索方法およびプログラム | |
JP5450276B2 (ja) | 読み推定装置、読み推定方法、および読み推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5347459 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |