JP2007233446A - 同義語対抽出装置及び同義語対抽出方法 - Google Patents
同義語対抽出装置及び同義語対抽出方法 Download PDFInfo
- Publication number
- JP2007233446A JP2007233446A JP2006050694A JP2006050694A JP2007233446A JP 2007233446 A JP2007233446 A JP 2007233446A JP 2006050694 A JP2006050694 A JP 2006050694A JP 2006050694 A JP2006050694 A JP 2006050694A JP 2007233446 A JP2007233446 A JP 2007233446A
- Authority
- JP
- Japan
- Prior art keywords
- pair
- synonym
- sentence
- synonym pair
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E60/00—Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02E60/10—Energy storage using batteries
Abstract
【解決手段】本発明の同義語対抽出装置は、同義語を複数含む同意テキストから文単位で文字列を切り出す文区切り処理部102と、単語に品詞情報を付与する形態素解析処理部103と、前記複数の同意テキストから同意文対を作成する同意文対生成部104と、前記同意文対生成部104で生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出部105と、抽出された同義語対候補を編集して同義語対として出力する同義語対出力手段とを備えた。
【選択図】図1
Description
本発明に係る同義語対抽出装置の第1の実施形態を添付図面を参照しながら詳述する。図1は本発明の第1の実施形態に係る同義語対抽出装置の機能的構成を示すブロック図である。
次に、以上の構成の同義語対抽出装置101を用いた同義語対抽出方法について説明する。
2.単語列対の後に存在する所定の条件を満たす単語列が互いに等しく、かつ、
3.単語列対の品詞に関する所定の条件を満たす。
次に、以上の同義語対抽出方法を具体例を用いて説明する。
以上のように、この第1の実施形態にかかる同義語対抽出装置101によれば、二つ以上の同意テキストさえ用意すれば、同義語を多数抽出することができるようになる。さらに、データ処理量を減少させることができるようになる。
次に、本発明の第2実施形態に係る同義語対抽出装置を添付図面を参照しながら詳述する。図5は、本発明の第2の実施形態に係る同義語対抽出装置の機能的構成を示すブロック図である。
2、共通の単語のうち共通の単語以外の単語と一致しない品詞の共通単語は除外する、または、
3.他の単語列対の一部分となる単語列対は除外する。
次に、以上の構成の同義語対抽出装置201を用いた同義語対抽出方法について説明する。
2.単語列対の後に存在する所定の条件を満たす単語列が互いに等しく、かつ、
3.単語列対の品詞に関する所定の条件を満たす。
次に、以上の同義語対抽出方法を具体例を用いて説明する。
以上のように、この第2の実施形態にかかる同義語対抽出装置201によれば、第1の実施の形態の効果の他に、さらに、同意文を同意文対生成部204において類似度が高いものに制限することで、後の処理を行う対象を絞り込むことができ、抽出精度の面と、処理速度の面で向上する。さらに、同義語対選択部206を追加したことにより、同義語対候補から、同義語対としてふさわしくない条件の同義語対候補を除外することができ、同義語の抽出精度が向上する。また、編集部207により、同義語対から不必要な単語を規則により削除でき、必要な部分だけを残すことができるという効果がある。
前記第2実施形態では、同義語対選択部206において、前記同義語対候補抽出部205により抽出された同義語対候補のそれぞれに対し、互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する同意表現の、前記互いに異なる単語列以外の領域のいずれにも存在しないという条件を満たしているものを選択することとしたが、他の条件を用いても良い。
Claims (19)
- 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出装置であって、
前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段と、
前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力手段と
を備えて構成されたことを特徴とする同義語対抽出装置。 - 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出装置であって、
互いに同じ意味を表す同義語を複数含む前記同意テキストから文単位で文字列を切り出す文区切り処理手段と、
前記同意テキストを構成する単語に対応する品詞情報を付与するための形態素解析処理手段と、
前記複数の同意テキストから、同意テキストに含まれる同意文の対からなる同意文対を作成するための同意文対生成手段と、
前記同意文対生成手段によって、相違する前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段と、
前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力手段と
を備えて構成されたことを特徴とする同義語対抽出装置。 - 前記同義語対候補抽出手段は、少なくとも一方の単語列に、1つ以上の自立語を含めて比較することを特徴とする請求項1又は2に記載の同義語対抽出装置。
- 前記同義語対出力手段は、前記同義語対候補揃出手段により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する単語列の、前記互いに異なる単語列以外の所定の領域に存在しないという条件を満たすもののみを選択するための同義語対選択手段を含むことを特徴とする請求項1ないし3のいずれか1項に記載の同義語対抽出装置。
- 前記同義語対出力手段は、前記同義語対選択手段により選択した同義語対候補のうち、所定の編集規則により規定される条件に合うものに対し、その条件により指定される編集処理を実行して同義語対を出力するための編集手段を含むことを特徴とする請求項4に記載の同義語対抽出装置。
- 前記所定の編集規則は所定の単語削除規則を含み、
前記編集手段は、前記同義語対選択手段により選択された同義語対候補のうち、前記単語削除規則のいずれかによって規定される条件に合うものに該当した単語削除規則により指定される処理に従い、
前記同義語対候補のうち少なくとも一方の先頭または末尾に位置する単語または単語列を削除することを特徴とする請求項5に記載の同義語対抽出装置。 - 前記同義語対選択手段は、前記同義語対候補抽出手段により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する同意表現の、前記互いに異なる単語列以外の領域のいずれにも存在しないという条件を満たしているものを選択することを特徴とする請求項4ないし6のいずれか1項に記載の同義語対抽出装置。
- 前記同義語対選択手段は、前記同義語対候補抽出手段により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方に属する同意表現の、前記互いに異なる単語列の前後に隣接する所定長の領域のいずれにも存在しないという条件を満たしているもののみを選択することを特徴とする請求項4ないし6のいずれか1項に記載の同義語対抽出装置。
- 前記同意文対生成手段は、相違する同意テキストから、前記文区切り処理手段により切り出された各文を順番に取り出して対を作成する文対作成手段と、
前記文対作成手段で作成した文対に対し、類似度を計算する文対類似度計算手段と、
前記文対類似度計算手段で計算された所定の類似度を持つ文対を同意文対として出力する同意文対出力手段と、
を含むことを特徴とする請求項2ないし8のいずれか1項に記載の同義語対抽出装置。 - 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出方法であって、
前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出工程と、
前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力工程と
を備えて構成されたことを特徴とする同義語対抽出方法。 - 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出方法であって、
互いに同じ意味を表す同義語を複数含む前記同意テキストから文単位で文字列を切り出す文区切り処理工程と、
前記同意テキストを構成する単語に対応する品詞情報を付与するための形態素解析処理工程と、
前記複数の同意テキストから、同意テキストに含まれる同意文の対からなる同意文対を作成するための同意文対生成工程と、
前記同意文対生成手段によって、相違する前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出工程と、
前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力工程と
を備えて構成されたことを特徴とする同義語対抽出方法。 - 前記同義語対候補抽出工程は、少なくとも一方の単語列に、1つ以上の自立語を含めて比較することを特徴とする請求項10又は11に記載の同義語対抽出方法。
- 前記同義語対出力工程は、前記同義語対候補揃出工程により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する単語列の、前記互いに異なる単語列以外の所定の領域に存在しないという条件を満たすもののみを選択するための同義語対選択工程を含むことを特徴とする請求項10ないし12のいずれか1項に記載の同義語対抽出方法。
- 前記同義語対出力工程は、前記同義語対選択工程により選択した同義語対候補のうち、所定の編集規則により規定される条件に合うものに対し、その条件により指定される編集処理を実行して同義語対を出力するための編集工程を含むことを特徴とする請求項13に記載の同義語対抽出方法。
- 前記所定の編集規則は所定の単語削除規則を含み、
前記編集工程は、前記同義語対選択工程により選択された同義語対候補のうち、前記単語削除規則のいずれかによって規定される条件に合うものに該当した単語削除規則により指定される処理に従い、
前記同義語対候補のうち少なくとも一方の先頭または末尾に位置する単語または単語列を削除することを特徴とする請求項14に記載の同義語対抽出方法。 - 前記同義語対選択工程は、前記同義語対候補抽出工程により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する同意表現の、前記互いに異なる単語列以外の領域のいずれにも存在しないという条件を満たしているものを選択することを特徴とする請求項13ないし15のいずれか1項に記載の同義語対抽出方法。
- 前記同義語対選択工程は、前記同義語対候補抽出工程により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方に属する同意表現の、前記互いに異なる単語列の前後に隣接する所定長の領域のいずれにも存在しないという条件を満たしているもののみを選択することを特徴とする請求項13ないし15のいずれか1項に記載の同義語対抽出方法。
- 前記同意文対生成工程は、相違する同意テキストから、前記文区切り処理工程により切り出された各文を順番に取り出して対を作成する文対作成工程と、
前記文対作成工程で作成した文対に対し、類似度を計算する文対類似度計算工程と、
前記文対類似度計算工程で計算された所定の類似度を持つ文対を同意文対として出力する同意文対出力工程と、
を含むことを特徴とする請求項11ないし17のいずれか1項に記載の同義語対抽出方法。 - 前記各工程及び予め用意しておくデータを、コンピュータが処理し得るコードで記述したことを特徴とする請求項10から18のいずれかに記載の同義語対抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006050694A JP5028823B2 (ja) | 2006-02-27 | 2006-02-27 | 同義語対抽出装置及び同義語対抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006050694A JP5028823B2 (ja) | 2006-02-27 | 2006-02-27 | 同義語対抽出装置及び同義語対抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233446A true JP2007233446A (ja) | 2007-09-13 |
JP5028823B2 JP5028823B2 (ja) | 2012-09-19 |
Family
ID=38554021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006050694A Expired - Fee Related JP5028823B2 (ja) | 2006-02-27 | 2006-02-27 | 同義語対抽出装置及び同義語対抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5028823B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009128968A (ja) * | 2007-11-20 | 2009-06-11 | Fuji Xerox Co Ltd | 表記ゆれ解析装置 |
KR101400412B1 (ko) * | 2012-07-13 | 2014-05-27 | 주식회사 다음커뮤니케이션 | 검색 시스템 및 그의 동의어 생성 방법 |
JP2020030481A (ja) * | 2018-08-20 | 2020-02-27 | 富士通株式会社 | 処理方法、処理プログラムおよび情報処理装置 |
US10671577B2 (en) | 2016-09-23 | 2020-06-02 | International Business Machines Corporation | Merging synonymous entities from multiple structured sources into a dataset |
CN112395867A (zh) * | 2020-11-16 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 同义词挖掘方法、装置、存储介质及计算机设备 |
WO2022044954A1 (en) * | 2020-08-31 | 2022-03-03 | Recruit Co., Ltd. | Systems and methods for unsupervised paraphrase mining |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298371A (ja) * | 1992-04-20 | 1993-11-12 | Ricoh Co Ltd | 検索システム |
JP2005115468A (ja) * | 2003-10-03 | 2005-04-28 | Mitsubishi Electric Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
-
2006
- 2006-02-27 JP JP2006050694A patent/JP5028823B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05298371A (ja) * | 1992-04-20 | 1993-11-12 | Ricoh Co Ltd | 検索システム |
JP2005115468A (ja) * | 2003-10-03 | 2005-04-28 | Mitsubishi Electric Corp | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009128968A (ja) * | 2007-11-20 | 2009-06-11 | Fuji Xerox Co Ltd | 表記ゆれ解析装置 |
KR101400412B1 (ko) * | 2012-07-13 | 2014-05-27 | 주식회사 다음커뮤니케이션 | 검색 시스템 및 그의 동의어 생성 방법 |
US10671577B2 (en) | 2016-09-23 | 2020-06-02 | International Business Machines Corporation | Merging synonymous entities from multiple structured sources into a dataset |
JP2020030481A (ja) * | 2018-08-20 | 2020-02-27 | 富士通株式会社 | 処理方法、処理プログラムおよび情報処理装置 |
JP7243079B2 (ja) | 2018-08-20 | 2023-03-22 | 富士通株式会社 | 処理方法、処理プログラムおよび情報処理装置 |
WO2022044954A1 (en) * | 2020-08-31 | 2022-03-03 | Recruit Co., Ltd. | Systems and methods for unsupervised paraphrase mining |
US11741312B2 (en) | 2020-08-31 | 2023-08-29 | Recruit Co., Ltd. | Systems and methods for unsupervised paraphrase mining |
CN112395867A (zh) * | 2020-11-16 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 同义词挖掘方法、装置、存储介质及计算机设备 |
CN112395867B (zh) * | 2020-11-16 | 2023-08-08 | 中国平安人寿保险股份有限公司 | 同义词挖掘方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5028823B2 (ja) | 2012-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5028823B2 (ja) | 同義語対抽出装置及び同義語対抽出方法 | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
JP3735336B2 (ja) | 文書要約方法及びシステム | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP2004246440A (ja) | 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム | |
JP4856573B2 (ja) | 要約文生成装置及び要約文生成プログラム | |
Ali et al. | Detection of plagiarism in Urdu text documents | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP4793931B2 (ja) | 相互に関係する固有表現の組抽出装置及びその方法 | |
JP2003303194A (ja) | 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体 | |
JP2004334382A (ja) | 構造化文書要約装置、プログラムおよび記録媒体 | |
JP4341077B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
JPH03105465A (ja) | 複合語抽出装置 | |
Adewole et al. | Token Validation in Automatic Corpus Gathering for Yoruba Language | |
KR100434526B1 (ko) | 문맥정보및지역적문서형태를이용한문장추출방법 | |
JP4646078B2 (ja) | 相互に関係する固有表現の組抽出装置及びその方法 | |
Ménard et al. | A French Corpus of Québec’s Parliamentary Debates | |
Kumar et al. | TelStem: An unsupervised telugu stemmer with heuristic improvements and normalized signatures | |
JP4049141B2 (ja) | 文書処理装置、文書処理方法、および、文書処理プログラム | |
JP2009140056A (ja) | 言語知識獲得装置および言語知識獲得プログラム | |
JP2018073298A (ja) | 人工知能装置による手段・方法の自動抽出・作成方法 | |
Mubarak et al. | Lexical and Morphological Statistics of an Arabic POS-Tagged Corpus | |
Saggion | Linguistically Enhanced Text to Sign Gloss Machine Translation | |
CN107526719B (zh) | 一种基于混合特征的中文文档基因提取方法 | |
JP3923829B2 (ja) | メッセージ要約装置、メッセージ要約方法及びコンピュータにメッセージの要約を実行させるためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120529 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120611 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5028823 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |