JP2007172315A - 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム - Google Patents
同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム Download PDFInfo
- Publication number
- JP2007172315A JP2007172315A JP2005369518A JP2005369518A JP2007172315A JP 2007172315 A JP2007172315 A JP 2007172315A JP 2005369518 A JP2005369518 A JP 2005369518A JP 2005369518 A JP2005369518 A JP 2005369518A JP 2007172315 A JP2007172315 A JP 2007172315A
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- synonyms
- dictionary
- rule
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 17
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000010365 information processing Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】共通パターンルール化手段2は、同義語格納部1から供給された複数の同義語グループに共通して現れる部分文字列対を同義語ルールとして抽出する。そして抽出したルールをデータベース3内の単語に適用することにより同義語を自動生する。生成した同義語が同義語格納部1に格納されていなければ、追加格納する。これにより、同義語辞書の登録語彙数を自動的に増やしていくことができる。
【選択図】図1
Description
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
次に、図1、図2及び図6を参照して本実施の形態の全体の動作について詳細に説明する。
同義語格納部1に格納されているすべての単語とそのグループ情報が共通パターンルール化手段2に供給される。共通パターンルール化手段2は、供給された単語の文字列について、複数グループの単語に共通して現れる部分文字列対のパターンを同義語ルールとして抽出する(図2のステップS101)。
次に、本発明の第2の発明を実施するための最良の形態について図面を参照して詳細に説明する。
2 共通パターンルール化手段
3 データベース
4 重複レコード照合手段
Claims (24)
- 複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成することを特徴とする同義語辞書生成システム。
- 複数の同義語に共通する文字列パターンを抽出して同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を生成することを特徴とする同義語辞書生成システム。
- 複数の同義語を辞書として記憶する同義語格納部と、
複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとしてデータベース内の単語に適用することで同義語を抽出し、同義語辞書を生成する共通パターンルール化手段と、
を備えたことを特徴とする同義語辞書生成システム。 - 複数の同義語を辞書として記憶する同義語格納部と、
前記同義語格納部に記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとする共通パターンルール化手段と、
少なくともテキスト情報が格納されたデータベースと、を備え、
前記共通パターンルール化手段が、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成することを特徴とする同義語辞書生成システム。 - 前記共通パターンルール化手段が、抽出した同義語を前記同義語格納部に記憶されている同義語に追加して格納することを特徴とする請求項3または4に記載の同義語辞書生成システム。
- 前記共通パターンルール化手段は、共通する文字列パターンを抽出する際に頻度をカウントし、予め定められた閾値頻度以上のものを同義語ルールとすることを特徴とする請求項3から5のいずれか一項に記載の同義語辞書生成システム。
- 請求項1〜6のいずれか一項に記載の同義語辞書生成システムによって生成された同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段をさらに備えたことを特徴とする重複レコード照合システム。
- 複数の同義語を辞書として記憶する同義語格納部と、
前記同義語格納部に記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化手段と、
前記同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段と、を備えることを特徴とする重複レコード照合システム。 - 複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成することを特徴とする同義語辞書生成方法。
- 複数の同義語に共通する文字列パターンを抽出して同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を生成することを特徴とする同義語辞書生成方法。
- 複数の同義語を辞書として記憶する同義語格納ステップと、
複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとしてデータベース内の単語に適用することで同義語を抽出し、同義語辞書を生成する共通パターンルール化ステップと、
からなることを特徴とする同義語辞書生成方法。 - 複数の同義語を辞書として記憶する同義語格納ステップと、
前記同義語格納ステップによって記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとする共通パターンルール化ステップと、
前記共通パターンルール化ステップが、前記同義語ルールを少なくともテキスト情報が格納されたデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成することを特徴とする同義語辞書生成方法。 - 前記共通パターンルール化ステップが、抽出した同義語を前記同義語格納ステップによって記憶されている同義語に追加して格納することを特徴とする請求項11または12に記載の同義語辞書生成方法。
- 前記共通パターンルール化ステップは、共通する文字列パターンを抽出する際に頻度をカウントし、予め定められた閾値頻度以上のものを同義語ルールとすることを特徴とする請求項11から13のいずれか一項に記載の同義語辞書生成方法。
- 請求項9〜14のいずれか一項に記載の同義語辞書生成方法によって生成された同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合ステップをさらに備えたことを特徴とする重複レコード照合方法。
- 複数の同義語を辞書として記憶する同義語格納ステップと、
前記同義語格納ステップにより記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化ステップと、
前記同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合ステップと、からなる
ことを特徴とする重複レコード照合方法。 - 複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成する機能をコンピュータに実現することを特徴とする同義語辞書生成プログラム。
- 複数の同義語に共通する文字列パターンを抽出して同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を生成する機能をコンピュータに実現することを特徴とする同義語辞書生成プログラム。
- コンピュータを、
複数の同義語を辞書として記憶する同義語格納手段と、
複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとしてデータベース内の単語に適用することで同義語を抽出し、同義語辞書を生成する共通パターンルール化手段と、
として機能させることを特徴とする同義語辞書生成プログラム。 - コンピュータを、
複数の同義語を辞書として記憶する同義語格納手段と、
前記同義語格納手段によって記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールを少なくともテキスト情報が格納されたデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化手段と、
として機能させることを特徴とする同義語辞書生成プログラム。 - 前記共通パターンルール化手段が、抽出した同義語を前記同義語格納手段によって記憶されている同義語に追加して格納する機能を実現することを特徴とする請求項19または20に記載の同義語辞書生成プログラム。
- 前記共通パターンルール化手段は、共通する文字列パターンを抽出する際に頻度をカウントし、予め定められた閾値頻度以上のものを同義語ルールとする機能を実現することを特徴とする請求項19から21のいずれか一項に記載の同義語辞書生成プログラム。
- 請求項17〜22のいずれか一項に記載の同義語辞書生成プログラムによって生成された同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段の機能をさらに実現することを特徴とする重複レコード照合プログラム。
- 複数の同義語を辞書として記憶する同義語格納手段と、
前記同義語格納手段により記憶された複数の同義語に共通する文字列パターンを抽出し、抽出した文字列パターンを同義語ルールとし、前記同義語ルールをデータベースに適用することによって前記同義語ルールに適合する同義語を抽出し、この抽出された同義語から同義語辞書を作成する共通パターンルール化手段と、
前記同義語辞書を用いて、データベース内の表記を統一し、この統一された表記を用いて該データベースのレコード間の類似度を求める重複レコード照合手段として機能させることを特徴とする重複レコード照合プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005369518A JP4915499B2 (ja) | 2005-12-22 | 2005-12-22 | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005369518A JP4915499B2 (ja) | 2005-12-22 | 2005-12-22 | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007172315A true JP2007172315A (ja) | 2007-07-05 |
JP4915499B2 JP4915499B2 (ja) | 2012-04-11 |
Family
ID=38298794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005369518A Expired - Fee Related JP4915499B2 (ja) | 2005-12-22 | 2005-12-22 | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4915499B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134501A (ja) * | 2008-12-02 | 2010-06-17 | Nec Corp | 同一性判定システム、同一性判定方法及び同一性判定プログラム |
JP2014228993A (ja) * | 2013-05-21 | 2014-12-08 | 日本電信電話株式会社 | 情報抽出方法、情報抽出装置及び情報抽出プログラム |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
JPH10207896A (ja) * | 1997-01-17 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 検索用語拡張方法及び装置及び情報検索方法及び装置 |
JPH10275159A (ja) * | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JPH11110395A (ja) * | 1997-09-30 | 1999-04-23 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JPH11184884A (ja) * | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
JPH11328205A (ja) * | 1998-05-18 | 1999-11-30 | Ricoh Co Ltd | 同義語対抽出装置および方法ならびに記憶媒体 |
JP2003323426A (ja) * | 2002-05-08 | 2003-11-14 | Advanced Telecommunication Research Institute International | 換言規則抽出プログラム、換言規則統合プログラム、および翻訳プログラム |
JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
-
2005
- 2005-12-22 JP JP2005369518A patent/JP4915499B2/ja not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
JPH10207896A (ja) * | 1997-01-17 | 1998-08-07 | Nippon Telegr & Teleph Corp <Ntt> | 検索用語拡張方法及び装置及び情報検索方法及び装置 |
JPH10275159A (ja) * | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JPH11110395A (ja) * | 1997-09-30 | 1999-04-23 | Toshiba Corp | 類似文書検索装置および類似文書検索方法 |
JPH11184884A (ja) * | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
JPH11328205A (ja) * | 1998-05-18 | 1999-11-30 | Ricoh Co Ltd | 同義語対抽出装置および方法ならびに記憶媒体 |
JP2003323426A (ja) * | 2002-05-08 | 2003-11-14 | Advanced Telecommunication Research Institute International | 換言規則抽出プログラム、換言規則統合プログラム、および翻訳プログラム |
JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134501A (ja) * | 2008-12-02 | 2010-06-17 | Nec Corp | 同一性判定システム、同一性判定方法及び同一性判定プログラム |
JP2014228993A (ja) * | 2013-05-21 | 2014-12-08 | 日本電信電話株式会社 | 情報抽出方法、情報抽出装置及び情報抽出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4915499B2 (ja) | 2012-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362824B (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
US9904672B2 (en) | Machine-translation based corrections | |
US20080059146A1 (en) | Translation apparatus, translation method and translation program | |
JP2011018330A (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
Bellare et al. | Learning extractors from unlabeled text using relevant databases | |
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
US20120284308A1 (en) | Statistical spell checker | |
CN105956053A (zh) | 一种基于网络信息的搜索方法及装置 | |
WO2008032780A1 (fr) | Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci | |
JP4237813B2 (ja) | 構造化文書管理システム | |
Varol et al. | Hybrid matching algorithm for personal names | |
JP6476886B2 (ja) | キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
CN117875310A (zh) | 一种基于前后缀词库与困惑度的垂域文本纠错方法 | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
Pandi et al. | A novel similarity measure for sequence data | |
JP4005477B2 (ja) | 固有表現抽出装置及び方法並びに固有表現抽出プログラム | |
JP5594134B2 (ja) | 文字列検索装置,文字列検索方法および文字列検索プログラム | |
KR20190061460A (ko) | 신뢰도 기반 질의응답 시스템 및 방법 | |
JP4734400B2 (ja) | 文書検索装置およびプログラム | |
JP2007200252A (ja) | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 | |
Varol et al. | Estimation of quality of service in spelling correction using Kullback–Leibler divergence | |
Varol et al. | Pattern and Phonetic Based Street Name Misspelling Correction | |
JP3725470B2 (ja) | 統計的言語モデルを作成するためのコーパス処理装置及び方法並びにプログラム | |
JP2007058415A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120110 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150203 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4915499 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |