JP4915499B2 - 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム - Google Patents
同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム Download PDFInfo
- Publication number
- JP4915499B2 JP4915499B2 JP2005369518A JP2005369518A JP4915499B2 JP 4915499 B2 JP4915499 B2 JP 4915499B2 JP 2005369518 A JP2005369518 A JP 2005369518A JP 2005369518 A JP2005369518 A JP 2005369518A JP 4915499 B2 JP4915499 B2 JP 4915499B2
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- character string
- database
- dictionary
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
次に、図1、図2及び図6を参照して本実施の形態の全体の動作について詳細に説明する。
同義語格納部1に格納されているすべての単語とそのグループ情報が共通パターンルール化手段2に供給される。共通パターンルール化手段2は、供給された単語の文字列について、複数グループの単語に共通して現れる部分文字列対のパターンを同義語ルールとして抽出する(図2のステップS101)。
次に、本発明の第2の発明を実施するための最良の形態について図面を参照して詳細に説明する。
2 共通パターンルール化手段
3 データベース
4 重複レコード照合手段
Claims (6)
- 表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶した同義語辞書が格納された同義語格納部と、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶する共通パターンルール化手段と、
少なくともテキスト情報が格納されたデータベースと、を備え、
前記共通パターンルール化手段は、前記データベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する
ことを特徴とする同義語辞書生成システム。 - 表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶した同義語辞書が格納された同義語格納部と、
少なくともテキスト情報が格納された第1のデータベースと、
複数のレコードを持つ第2のデータベースと、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶し、前記第2のデータベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する共通パターンルール化手段と、
前記同義語辞書に記憶されている同義語グループ同義語の文字列対を用いて、前記第2のデータベース内の同義語の表記を統一し、この統一された表記を用いて前記第2のデータベースのレコード間の類似度を求める重複レコード照合手段と
を備えることを特徴とする重複レコード照合システム。 - 表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納されたデータベースとを備える情報処理システムにおいて、
前記情報処理システムは、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶し、
前記データベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する
ことを特徴とする同義語辞書生成方法。 - 表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納された第1のデータベースと、複数のレコードを持つ第2のデータベースとを備える情報処理システムにおいて、
前記情報処理システムは、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶し、
前記第1のデータベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加し、
前記同義語辞書に記憶されている同義語グループ同義語の文字列対を用いて、前記第2のデータベース内の同義語の表記を統一し、この統一された表記を用いて前記第2のデータベースのレコード間の類似度を求める
ことを特徴とする重複レコード照合方法。 - 表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納されたデータベースとを備える情報処理システムにおけるコンピュータのプログラムであって、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶する処理と、
前記データベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する処理と
をコンピュータに実行させることを特徴とするプログラム。 - 表記が異なるが意味が同じである複数の単語を一つの同義語グループとして記憶された同義語格納部と、少なくともテキスト情報が格納された第1のデータベースと、複数のレコードを持つ第2のデータベースとを備える情報処理システムにおけるコンピュータのプログラムであって、
前記同義語辞書に記憶されている同義語グループ間で共通する同義語の文字列対をカウントし、予め定められた閾値以上の頻度のものを抽出し、抽出した文字列対を同義語ルールとして記憶する処理と、
前記第1のデータベースから、前記同義語ルールの文字列対の一方の文字列を一部にもつ文字列を検索し、検索された文字列のうち前記同義語ルールの文字列対の一方の文字列の部分を他方の文字列に置き換えて、前記検索された文字列の同義語を生成し、前記検索された文字列と前記生成した同義語とを、一つの同義語グループとして、前記同義語辞書に追加する処理と、
前記同義語辞書に記憶されている同義語グループ同義語の文字列対を用いて、前記第2のデータベース内の同義語の表記を統一し、この統一された表記を用いて前記第2のデータベースのレコード間の類似度を求める処理と
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005369518A JP4915499B2 (ja) | 2005-12-22 | 2005-12-22 | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005369518A JP4915499B2 (ja) | 2005-12-22 | 2005-12-22 | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007172315A JP2007172315A (ja) | 2007-07-05 |
JP4915499B2 true JP4915499B2 (ja) | 2012-04-11 |
Family
ID=38298794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005369518A Active JP4915499B2 (ja) | 2005-12-22 | 2005-12-22 | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4915499B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5347459B2 (ja) * | 2008-12-02 | 2013-11-20 | 日本電気株式会社 | 同一性判定システム、同一性判定方法及び同一性判定プログラム |
JP6059598B2 (ja) * | 2013-05-21 | 2017-01-11 | 日本電信電話株式会社 | 情報抽出方法、情報抽出装置及び情報抽出プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2742115B2 (ja) * | 1989-12-01 | 1998-04-22 | 日本電信電話株式会社 | 類似文書検索装置 |
JP3025724B2 (ja) * | 1992-11-24 | 2000-03-27 | 富士通株式会社 | 類義語生成処理方法 |
JPH10207896A (ja) * | 1997-01-17 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 検索用語拡張方法及び装置及び情報検索方法及び装置 |
JPH10275159A (ja) * | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JPH11110395A (ja) * | 1997-09-30 | 1999-04-23 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JPH11184884A (ja) * | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
JP3853974B2 (ja) * | 1998-05-18 | 2006-12-06 | 株式会社リコー | 同義語対抽出装置および記憶媒体 |
JP2003323426A (ja) * | 2002-05-08 | 2003-11-14 | Advanced Telecommunication Research Institute International | 換言規則抽出プログラム、換言規則統合プログラム、および翻訳プログラム |
JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
-
2005
- 2005-12-22 JP JP2005369518A patent/JP4915499B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007172315A (ja) | 2007-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8280719B2 (en) | Methods and systems relating to information extraction | |
CN110362824B (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
US20080059146A1 (en) | Translation apparatus, translation method and translation program | |
JP5605583B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
US20120284308A1 (en) | Statistical spell checker | |
Bellare et al. | Learning extractors from unlabeled text using relevant databases | |
Varol et al. | Hybrid matching algorithm for personal names | |
JP6476886B2 (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
Pandi et al. | A novel similarity measure for sequence data | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP5594134B2 (ja) | 文字列検索装置,文字列検索方法および文字列検索プログラム | |
JP2007200252A (ja) | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 | |
Varol et al. | Estimation of quality of service in spelling correction using Kullback–Leibler divergence | |
JP5206296B2 (ja) | 類似文章抽出プログラム、方法、装置 | |
KR20190061460A (ko) | 신뢰도 기반 질의응답 시스템 및 방법 | |
Varol et al. | Pattern and Phonetic Based Street Name Misspelling Correction | |
Can et al. | Clustering morphological paradigms using syntactic categories | |
JP2007058415A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム | |
CN116361517B (zh) | 一种企业字号查重方法、装置、设备和介质 | |
CN113268600B (zh) | 检索名称的错别字纠正方法、装置、电子设备和存储介质 | |
CN112001168B (zh) | 词语纠错方法、装置、电子设备及存储介质 | |
JP5182960B2 (ja) | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120110 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150203 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4915499 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |