JP2007172315A - 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム - Google Patents

同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム Download PDF

Info

Publication number
JP2007172315A
JP2007172315A JP2005369518A JP2005369518A JP2007172315A JP 2007172315 A JP2007172315 A JP 2007172315A JP 2005369518 A JP2005369518 A JP 2005369518A JP 2005369518 A JP2005369518 A JP 2005369518A JP 2007172315 A JP2007172315 A JP 2007172315A
Authority
JP
Japan
Prior art keywords
synonym
synonyms
dictionary
rule
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005369518A
Other languages
English (en)
Other versions
JP4915499B2 (ja
Inventor
Hisashi Saito
悠 齊藤
Kenji Tateishi
健二 立石
Masaru Kusui
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005369518A priority Critical patent/JP4915499B2/ja
Publication of JP2007172315A publication Critical patent/JP2007172315A/ja
Application granted granted Critical
Publication of JP4915499B2 publication Critical patent/JP4915499B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】同義語抽出ルールを人手で用意することなく、データベースからの同義語の自動生成を可能にする。
【解決手段】共通パターンルール化手段2は、同義語格納部1から供給された複数の同義語グループに共通して現れる部分文字列対を同義語ルールとして抽出する。そして抽出したルールをデータベース3内の単語に適用することにより同義語を自動生する。生成した同義語が同義語格納部1に格納されていなければ、追加格納する。これにより、同義語辞書の登録語彙数を自動的に増やしていくことができる。
【選択図】図1

Description

本発明は同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成用プログラムに関し、特に、複数の同義語に共通する文字列パターンを同義語ルールとして抽出することで自動的に同義語辞書を生成できるシステム、同義語辞書生成方法、および同義語辞書生成プログラムに関する。
同義語辞書とは表記は異なるが意味が同じである単語の組を集めて登録した辞書である。例えば「NEC情報システムズ」と「NIS」は、表記は異なるが同じ企業を表している。このような単語を収集し、登録した辞書である。
同義語辞書は、システムに組み込まれることで文字列の意味的な関連性を与え、システムの性能を上げることができる。同義語辞書を組み込む効果が期待できるシステムの一つとして重複レコード照合システムが挙げられる。重複レコード照合システムとは、データベースに登録されているレコードの中から重複可能性のあるレコードを「重複候補グループ」としてユーザに提示するシステムである。
重複レコード照合作業は、ユーザがシステムから提示された重複候補レコードの重複性を判断していくことで進んでいく。したがって、優れたシステムとは、ユーザがなるべく少ない確認数でなるべく多くの重複レコードが検出できるシステム、ということになる。例えば、「001/NEC情報システムズ/東京都港区芝NECビル6F」「002/NIS/東京都港区芝NECビル6F」の二つのレコードがデータベースにあったとき、同義語辞書に「NEC情報システムズ=NIS」という情報があれば、システムは上記二つのレコードが重複候補であることを検出しユーザに提示できる。同義語辞書を使わずに住所の一致性を手がかりに重複候補として検出しユーザ提示することもできるが、その場合、同じビル内の別会社など住所が一致しているだけで重複ではないレコードが多数候補として検出され、システムの性能を下げてしまう。したがって、同義語辞書はシステムの性能を向上させるのに有効な手段の一つである。
重複レコード照合システムにおいて有効な同義語辞書とは、照合に必要な単語のすべての同義関係が登録されているような辞書である。しかし、完全な同義語辞書を人手で整備するのは多大な労力を要する。特に企業名などの固有表現は新語が多く語彙数も多いため人手によるメンテナンスは困難である。そこで同義語抽出ルールを用意して、データベースから自動的に同義語を抽出する技術の研究がなされている。
従来、この種の同義語抽出システムは、特許文献1に示されるように、人手で同義語を抽出するためのルールを用意してデータベースから同義語を自動的に抽出していた。従来の同義語抽出システムの一例が、特許文献1に記載されている。
この特許文献1に記載された同義語抽出システムは、入力文書内の各文に対して構文解析を行う構文解析手段と、かかる構文解析手段により得られる構文パターンから同義語候補を抽出する同義語候補抽出手段と、この同義語候補抽出手段により得られる同義語候補を格納する同義語候補記憶手段と、この同義語候補記憶手段に格納する前記同義語候補に対し修正/確認/追加を行う修正手段を有する。
同義語候補抽出手段では、構文パターンと同義語関係の対を抽出規則としてあらかじめ格納しておき、その抽出規則と照合することにより同義語候補抽出を行う。同義語候補格納手段では、同義語候補抽出手段によって抽出された同義語候補の中で、同義語辞書と重複しないでかつ、あらかじめ人手で用意しておいた不要語辞書に当てはまらない同義語候補だけを同義語候補記憶手段に格納する。修正手段では、同義語候補記憶手段に格納されている同義語候補を人が修正/確認/追加を行いながら同義語辞書に格納する。
特開平6−266769号公報
かかる背景技術の第1の問題点は、同義語を抽出するためのルールの作成に多大な労力と高度な専門知識を必要とすることである。その理由は、抽出ルールを人手で作成しているためである。抽出ルールには構文解析に基づく構文パターンと同義語関係の対をいくつも用意しなければならない。また、作成した抽出ルールに応じて不要語辞書も人手で作成しなければならない。
かかる背景技術の第2の問題点は、既存の同義語辞書をそのまま重複レコード照合システムに用いると、十分な効果が期待できないことである。その理由は、既存の同義語辞書が照合対象のデータベースに必ずしも適合するわけではないためである。同義語辞書に登録されている語が、データベース内にほとんど出現しない場合は、重複レコード照合システムにおける同義語辞書の効果はあまり期待できない。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、事前に人手で抽出規則を用意することなく、自動的に同義語を抽出できるシステム/方法/プログラムを提供することにある。
本発明の他の目的は、重複レコード照合システムに効果的な同義語辞書を自動的に構築できるシステム/方法/プログラムを提供することにある。
本発明の第1の同義語抽出システムは、既存の複数の同義語に共通する文字列パターンを同義語ルールとして抽出し、そのルールとデータベース内の文字列情報を用いて同義語を自動生成する共通パターンルール化手段(図1の2)を有する。このような構成を採用し、抽出した共通パターンから同義語辞書を自動生成することにより、本発明の上記目的を達成することができる。
本発明の第2の同義語抽出システムは、第1の共通パターンルール化手段(図1の2)の構成に加え、重複レコード照合手段(図3の4)を有する。このような構成を採用し、同義語ルールから生成された同義語辞書を、重複レコード照合システムに適用することにより、本発明の第2の目的を達成することができる。
第1の効果は、既存の辞書にない同義語を自動的に追加した同義語辞書を生成できることである。この結果、人手による登録が大変である同義語辞書の登録語彙数を自動的に増やしていくことができる。
その理由は、既存の同義語から共通して現れるパターンを抽出し、このパターンを同義語抽出ルールとして用いて同義語辞書を生成するためである。
第2の効果は、重複レコード照合システムに有効な同義語辞書を自動的に生成できることである。その理由は、同義語に出現する共通パターンを同義語ルールとして抽出し、同義語ルールと重複レコード照合対象データベースとから同義語を生成して重複レコード照合システムに適用するためである。
(第1の実施の形態)
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施の形態は、情報を記憶する同義語格納部1と、プログラム制御により動作する共通パターンルール化手段2と、データベース3とを含む。
同義語格納部1は、表記が異なるが意味が同じである複数の単語を一つのグループとして記憶してある同義語辞書である。図5は、同義語格納部1において記憶している同義語辞書の一例を示している。図5中、各“Word”には“GroupId”が付与されており、“Word”は単語を表し、“GroupId”はグループ情報を表す。この図5の例では、同じ“GroupId”に属する“Word”が同義語であることを示している。
共通パターンルール化手段2は、同義語格納部1から複数の同義語グループに共通する文字列パターンとその出現頻度を同義語ルールとして抽出する。そして、ある閾値出現頻度以上の同義語ルールをデータベース中の単語に適用して同義語を生成し、生成した同義語が同義語格納部1になければ同義語格納部1へ追加格納することで同義語辞書を作成する。
図5の例で、閾値出現頻度を3とすると、「NEC情報システムズ=NIS」「日達情報システムズ=HIS」と「松上情報システムズ=MIS」という同義語グループが3つ存在する。この場合、共通パターンルール化手段は、この3つの同義語グループに共通に出現する文字列対「情報システムズ」「IS」とその頻度3を(情報システムズ,IS,出現頻度:3)のように同義語ルールとして抽出する。
同義語ルールを抽出した後、閾値出現頻度以上の同義語ルールを用いて、データベース3を検索する。この例では、「情報システムズ」と「IS」の文字列は閾値出現頻度以上であるので、同義語ルールとして抽出する。ここで、データベース3に「東下情報システムズ」という文字列が見つかった場合、上記の同義語ルールを適用し、「情報システムズ」と「IS」が同義語であるから、「東下情報システムズ=東下IS」という同義語を生成する。この結果を同義語格納部1に格納することで同義語辞書がアップデート(生成)される。この例では、「東下情報システムズ=東下IS」という同義語を生成したが、自然言語解析を行うことで「東下」の読みを解析し、そのアルファベット表記の先頭文字を抽出することで、「東下情報システムズ=TIS」という同義語を作成してもよい。この例では、自然言語解析で「東下」が「とうした」と読みができ、そのアルファベット表記「TOUSHITA」の先頭文字「T」を抽出することで「東下情報システムズ=TIS」という新たな同義語が作成できる。
データベース3は同義語抽出の対象となるデータベースである。テキスト情報が格納されたデータベースであれば何でもよく、例えばインターネットなどのネットワークを介して接続されるデータベースであってもよい。この場合、共通パターンルール化手段2には、ネットワーク上に構築されたデータベースにアクセスするための通信手段が必要であることは言うまでもない。
また、上記説明では閾値出現頻度を用い、一定の閾値出現頻度以上出現した文字列を同義語ルールとしているが、閾値出現頻度を用いなくてもよい。この場合、2回以上出現した文字列が同義語ルールとなる。
(動作の説明)
次に、図1、図2及び図6を参照して本実施の形態の全体の動作について詳細に説明する。
同義語格納部1に格納されているすべての単語とそのグループ情報が共通パターンルール化手段2に供給される。共通パターンルール化手段2は、供給された単語の文字列について、複数グループの単語に共通して現れる部分文字列対のパターンを同義語ルールとして抽出する(図2のステップS101)。
図6では、図2のステップS101において共通パターンを抽出する際のアルゴリズムの詳細を示している。グループ分割された単語に対し、あるグループA内の単語の(S211〜S214)最長部分文字列aがA以外のグループB内の単語の部分文字列になっているかを調べる(S215)。
部分文字列になっていれば、さらに、A内他の単語の部分文字列bがB内の他の単語の部分文字列になっているかどうかを調べ(S216)部分文字列であれば(a,b)を共通パターンとして抽出しその出現頻度を数える(S217)。
次に、共通パターンルール化手段2は、抽出した同義語ルールとデータベース3に出現する文字列とのマッチングをとり(S102)、同義語を生成する(S103)。生成した同義語が同義語格納部1に未登録であれば、同義語格納部1に新規同義語として登録する(S104)。例えば、S101で(情報システムズ,IS)という同義語ルールが抽出され、その出現頻度が閾値出現頻度以上であった場合、データベース3に「東下情報システムズ」という文字列があった場合、「東下情報システムズ=東下IS」を同義語として生成する。同義語格納部1に前記同義語が格納されていない場合に、この「東下情報システムズ=東下IS」を追加格納する。追加格納した例を図7に示す。図7では”Word”列に「東下情報システムズ」と「東下IS」が追加され、それぞれ同じ”GroupID”が付与されており、「東下情報システムズ」と「東下IS」が同義語であることを示している。
共通パターンルール化手段2では、文字列パターンとその頻度を同義語ルールとして抽出するので、ある閾値出現頻度以上の頻度のルールのみを使用して同義語を生成すれば、同義語格納部1に追加格納する同義語の精度を上げることができるが、もちろん閾値出現頻度は用いない形態も考えられる。
次に、本実施の形態の効果について説明する。
本実施の形態では、共通パターンルール化手段2で同義語格納部1内の同義語に共通して現れる文字列対を同義語ルールとして抽出し、ルールとデータベースのマッチングを行うことで同義語を新たに生成、格納する。このため同義語抽出ルールをあらかじめ人手で用意しなくても同義語格納部1へ自動的に同義語を追加していくことができ、よって同義語辞書の作成が容易になる。
(第2の実施の形態)
次に、本発明の第2の発明を実施するための最良の形態について図面を参照して詳細に説明する。
図3を参照すると、本発明の第2の発明を実施するための最良の形態は、図1に示された第1の発明を実施するための最良の形態の構成に加え、重複レコード照合手段4を含む点で異なる。
重複レコード照合手段4は、同義語格納部1に格納されている同義語を用いて、データベース3内の文字列の表記を統一したのち、データベース3に含まれるレコード同士の類似度を計算し、ある閾値以上の類似度を持つレコードのグループを重複レコード候補としてユーザに提示する。一般的な重複レコード照合システムは通常、類似度は文字列の距離を基に計算する。図8(a)にデータベース3の一例を示す。図8の例は、名称とその名称に対応した住所が記載されたデータベースの一例である。例えば、図8(a)のデータベース3に含まれる「東下情報システムズ/東京都港区芝浦1−1」「東下IS/東京都港区芝浦1−1」の二つのレコードの類似度は合計33文字中24文字同じなので、24/33=約0.72(約72%)になる。一方、本発明の重複レコード照合手段4では、データベース3内の文字列の表記を同義語格納部1で格納された同義語を用いて表記を統一するので、この例の場合は、「東下情報システムズ」と「東下IS」は同義語と見なすことができるので、図8(b)の様に表記が統一され、二つのレコードの類似度は合計33文字中33文字同じ、つまり100%類似している(データベースのレコード重複している)と判断することができる。本実施の形態の動作を、図面を参照して詳細に説明する。
図4のステップS101〜S104で示される本実施の形態における同義語格納部1、共通パターンルール化手段2、データベース3の動作は、第1の実施の形態の各手段1、2および3の動作と同一のため、説明は省略する。また、本実施の形態では、上記説明した様に、S101〜S104のステップを実行することで、図5に示す同義語格納部1が、図7に示す新しい同義語が格納された同義語格納部1になっているものとする。
重複レコード照合手段4では、同義語格納部1の情報を用いてデータベース3の表記を統一する(T105)。前述の例で言えば、「東下情報システムズ/東京都港区芝浦1−1」「東下IS/東京都港区芝浦1−1」の2つのレコードは、同義語ルールから生成され、同義語格納部1へ追加格納された同義語「東下情報システムズ=東芝IS」を用いて「東下情報システムズ/東京都港区芝浦1−1」「東下情報システムズ/東京都港区芝浦1−1」と表記が統一される。ここで表記が統一されたデータベース3の例を図8(b)に示す。図8(b)は、図8(a)に示すデータベースのレコードが、重複レコード照合手段4によってデータベース3の各レコードの表記を統一した例を示している。
重複レコード照合手段4では、次に表記統一されたデータベース3に含まれる重複レコード候補を検出する(T106)。
これにより、図8(b)のレコード番号002とレコード番号102の2つのレコード文字列が33文字中33文字同じになるので、類似度は33/33=1.0(100%)となる。
その後、重複レコード照合手段4は、類似度が閾値以上のレコードを図示しない表示手段に表示させユーザに提示する。ユーザは該当レコードを確認し、図示しない入力手段などを用いて該当レコードを削除するなどの操作を行う。また、重複レコード照合手段4が、ある閾値以上の類似度を持つレコードを自動的に削除する構成でもかまわない。
また、本実施の形態では、共通パターンルール化手段2と重複レコード照合手段4が参照するデータベースが同一のものと説明したが、それぞれ別のデータベースを参照する構成でもかまわない。
次に、本発明を実施するための最良の形態の効果について説明する。
本発明を実施するための最良の形態では、同義語辞書から抽出した共通パターンと重複レコード照合対象のデータベースを用いて同義語を生成し、同義語辞書に追加する。重複レコード照合は、新たな同義語を追加した後の同義語辞書を用いて行う。これにより、同義語の新規追加がない同義語辞書を用いる場合より多くの重複可能性が高いレコードの類似度を上げることができ、重複レコード候補としてユーザに提示することができる。
以上、本発明の第1の実施の形態と第2の実施の形態を説明したが、本発明はコンピュータソフトウェアとしても実現可能である。
図9は、本発明による同義語抽出システムをインプリメントした情報処理システムの一般的ブロック構成図である。
図9に示す情報処理システムは、プロセッサ100、プログラムメモリ101、記憶媒体102及び103からなる。記憶媒体102,103は、別個の記憶媒体であってもよいし、同一の記憶媒体からなる記憶領域であってもよい。記憶媒体としては、RAMや、ハードディスク等の磁気記憶媒体を用いることができる。
プログラムメモリ101には、上述した共通パターンルール化手段2や、重複レコード照合手段4が行う処理ステップを実行するプログラムが格納されており、このプログラムによってプロセッサ100は動作する。
記憶媒体102,103は、同義語格納部1及びデータベース3として用いられる。
本発明は、同義語辞書の自動構築や自動メンテナンスといった用途に適用できる。また、データベース内から重複なレコードを検出する重複レコード照合システムといった用途にも適用できる。特に、データベース内に存在する表記の異なる語に、一致性があるかどうかを判定するような場合に有効である。
図1は本発明を実施するための最良の一形態の構成を示すブロック図である。 図2は本発明を実施するための最良の一形態の動作を示す流れ図である。 図3は本発明を実施するための最良の一形態の構成を示すブロック図である。 図4は本発明を実施するための最良の一形態の動作を示す流れ図である。 図5は同義語格納部に格納されたデータの一例を示す図である。 図6は共通パターンルール化手段により、共通パターンを抽出するための一動作例を示す流れ図である。 図7は同義語格納部に新規同義語が追加されたデータの一例を示す図である。 図8はデータベースに格納されたデータを重複レコード照合手段によって表記を統一する一例を示す図である。 図9は本発明による同義語抽出システムをインプリメントした情報処理システムの一般的ブロック構成図である。
符号の説明
1 同義語格納部
2 共通パターンルール化手段
3 データベース
4 重複レコード照合手段

Claims (24)

  1. 複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成することを特徴とする同義語辞書生成システム。
  2. 複数の同義語に共通する文字列パターンを抽出して同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を生成することを特徴とする同義語辞書生成システム。
  3. 複数の同義語を辞書として記憶する同義語格納部と、
    複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとしてデータベース内の単語に適用することで同義語を抽出し、同義語辞書を生成する共通パターンルール化手段と、
    を備えたことを特徴とする同義語辞書生成システム。
  4. 複数の同義語を辞書として記憶する同義語格納部と、
    前記同義語格納部に記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとする共通パターンルール化手段と、
    少なくともテキスト情報が格納されたデータベースと、を備え、
    前記共通パターンルール化手段が、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成することを特徴とする同義語辞書生成システム。
  5. 前記共通パターンルール化手段が、抽出した同義語を前記同義語格納部に記憶されている同義語に追加して格納することを特徴とする請求項3または4に記載の同義語辞書生成システム。
  6. 前記共通パターンルール化手段は、共通する文字列パターンを抽出する際に頻度をカウントし、予め定められた閾値頻度以上のものを同義語ルールとすることを特徴とする請求項3から5のいずれか一項に記載の同義語辞書生成システム。
  7. 請求項1〜6のいずれか一項に記載の同義語辞書生成システムによって生成された同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段をさらに備えたことを特徴とする重複レコード照合システム。
  8. 複数の同義語を辞書として記憶する同義語格納部と、
    前記同義語格納部に記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化手段と、
    前記同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段と、を備えることを特徴とする重複レコード照合システム。
  9. 複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成することを特徴とする同義語辞書生成方法。
  10. 複数の同義語に共通する文字列パターンを抽出して同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を生成することを特徴とする同義語辞書生成方法。
  11. 複数の同義語を辞書として記憶する同義語格納ステップと、
    複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとしてデータベース内の単語に適用することで同義語を抽出し、同義語辞書を生成する共通パターンルール化ステップと、
    からなることを特徴とする同義語辞書生成方法。
  12. 複数の同義語を辞書として記憶する同義語格納ステップと、
    前記同義語格納ステップによって記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとする共通パターンルール化ステップと、
    前記共通パターンルール化ステップが、前記同義語ルールを少なくともテキスト情報が格納されたデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成することを特徴とする同義語辞書生成方法。
  13. 前記共通パターンルール化ステップが、抽出した同義語を前記同義語格納ステップによって記憶されている同義語に追加して格納することを特徴とする請求項11または12に記載の同義語辞書生成方法。
  14. 前記共通パターンルール化ステップは、共通する文字列パターンを抽出する際に頻度をカウントし、予め定められた閾値頻度以上のものを同義語ルールとすることを特徴とする請求項11から13のいずれか一項に記載の同義語辞書生成方法。
  15. 請求項9〜14のいずれか一項に記載の同義語辞書生成方法によって生成された同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合ステップをさらに備えたことを特徴とする重複レコード照合方法。
  16. 複数の同義語を辞書として記憶する同義語格納ステップと、
    前記同義語格納ステップにより記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化ステップと、
    前記同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合ステップと、からなる
    ことを特徴とする重複レコード照合方法。
  17. 複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成する機能をコンピュータに実現することを特徴とする同義語辞書生成プログラム。
  18. 複数の同義語に共通する文字列パターンを抽出して同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を生成する機能をコンピュータに実現することを特徴とする同義語辞書生成プログラム。
  19. コンピュータを、
    複数の同義語を辞書として記憶する同義語格納手段と、
    複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとしてデータベース内の単語に適用することで同義語を抽出し、同義語辞書を生成する共通パターンルール化手段と、
    として機能させることを特徴とする同義語辞書生成プログラム。
  20. コンピュータを、
    複数の同義語を辞書として記憶する同義語格納手段と、
    前記同義語格納手段によって記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールを少なくともテキスト情報が格納されたデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化手段と、
    として機能させることを特徴とする同義語辞書生成プログラム。
  21. 前記共通パターンルール化手段が、抽出した同義語を前記同義語格納手段によって記憶されている同義語に追加して格納する機能を実現することを特徴とする請求項19または20に記載の同義語辞書生成プログラム。
  22. 前記共通パターンルール化手段は、共通する文字列パターンを抽出する際に頻度をカウントし、予め定められた閾値頻度以上のものを同義語ルールとする機能を実現することを特徴とする請求項19から21のいずれか一項に記載の同義語辞書生成プログラム。
  23. 請求項17〜22のいずれか一項に記載の同義語辞書生成プログラムによって生成された同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段の機能をさらに実現することを特徴とする重複レコード照合プログラム。
  24. 複数の同義語を辞書として記憶する同義語格納手段と、
    前記同義語格納手段により記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化手段と、
    前記同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段として機能させることを特徴とする重複レコード照合プログラム。
JP2005369518A 2005-12-22 2005-12-22 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム Expired - Fee Related JP4915499B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005369518A JP4915499B2 (ja) 2005-12-22 2005-12-22 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005369518A JP4915499B2 (ja) 2005-12-22 2005-12-22 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム

Publications (2)

Publication Number Publication Date
JP2007172315A true JP2007172315A (ja) 2007-07-05
JP4915499B2 JP4915499B2 (ja) 2012-04-11

Family

ID=38298794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005369518A Expired - Fee Related JP4915499B2 (ja) 2005-12-22 2005-12-22 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム

Country Status (1)

Country Link
JP (1) JP4915499B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134501A (ja) * 2008-12-02 2010-06-17 Nec Corp 同一性判定システム、同一性判定方法及び同一性判定プログラム
JP2014228993A (ja) * 2013-05-21 2014-12-08 日本電信電話株式会社 情報抽出方法、情報抽出装置及び情報抽出プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JPH10207896A (ja) * 1997-01-17 1998-08-07 Nippon Telegr & Teleph Corp <Ntt> 検索用語拡張方法及び装置及び情報検索方法及び装置
JPH10275159A (ja) * 1997-03-31 1998-10-13 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH11110395A (ja) * 1997-09-30 1999-04-23 Toshiba Corp 類似文書検索装置および類似文書検索方法
JPH11184884A (ja) * 1997-12-24 1999-07-09 Ntt Data Corp 同一人判定システムおよび方法
JPH11328205A (ja) * 1998-05-18 1999-11-30 Ricoh Co Ltd 同義語対抽出装置および方法ならびに記憶媒体
JP2003323426A (ja) * 2002-05-08 2003-11-14 Advanced Telecommunication Research Institute International 換言規則抽出プログラム、換言規則統合プログラム、および翻訳プログラム
JP2006251843A (ja) * 2005-03-08 2006-09-21 Advanced Telecommunication Research Institute International 同義語対抽出装置及びそのためのコンピュータプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172966A (ja) * 1989-12-01 1991-07-26 Nippon Telegr & Teleph Corp <Ntt> 類似文書検索装置
JPH06162098A (ja) * 1992-11-24 1994-06-10 Fujitsu Ltd 類義語生成処理方法
JPH10207896A (ja) * 1997-01-17 1998-08-07 Nippon Telegr & Teleph Corp <Ntt> 検索用語拡張方法及び装置及び情報検索方法及び装置
JPH10275159A (ja) * 1997-03-31 1998-10-13 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置
JPH11110395A (ja) * 1997-09-30 1999-04-23 Toshiba Corp 類似文書検索装置および類似文書検索方法
JPH11184884A (ja) * 1997-12-24 1999-07-09 Ntt Data Corp 同一人判定システムおよび方法
JPH11328205A (ja) * 1998-05-18 1999-11-30 Ricoh Co Ltd 同義語対抽出装置および方法ならびに記憶媒体
JP2003323426A (ja) * 2002-05-08 2003-11-14 Advanced Telecommunication Research Institute International 換言規則抽出プログラム、換言規則統合プログラム、および翻訳プログラム
JP2006251843A (ja) * 2005-03-08 2006-09-21 Advanced Telecommunication Research Institute International 同義語対抽出装置及びそのためのコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134501A (ja) * 2008-12-02 2010-06-17 Nec Corp 同一性判定システム、同一性判定方法及び同一性判定プログラム
JP2014228993A (ja) * 2013-05-21 2014-12-08 日本電信電話株式会社 情報抽出方法、情報抽出装置及び情報抽出プログラム

Also Published As

Publication number Publication date
JP4915499B2 (ja) 2012-04-11

Similar Documents

Publication Publication Date Title
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
US9904672B2 (en) Machine-translation based corrections
US20080059146A1 (en) Translation apparatus, translation method and translation program
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
Bellare et al. Learning extractors from unlabeled text using relevant databases
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
US20120284308A1 (en) Statistical spell checker
CN105956053A (zh) 一种基于网络信息的搜索方法及装置
WO2008032780A1 (fr) Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d&#39;appariement de mêmes documents et programme de ceux-ci
JP4237813B2 (ja) 構造化文書管理システム
Varol et al. Hybrid matching algorithm for personal names
JP6476886B2 (ja) キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
CN117875310A (zh) 一种基于前后缀词库与困惑度的垂域文本纠错方法
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
Pandi et al. A novel similarity measure for sequence data
JP4005477B2 (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
KR20190061460A (ko) 신뢰도 기반 질의응답 시스템 및 방법
JP4734400B2 (ja) 文書検索装置およびプログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
Varol et al. Estimation of quality of service in spelling correction using Kullback–Leibler divergence
Varol et al. Pattern and Phonetic Based Street Name Misspelling Correction
JP3725470B2 (ja) 統計的言語モデルを作成するためのコーパス処理装置及び方法並びにプログラム
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120110

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4915499

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees