JP5145288B2 - 類義語辞書構築装置及び方法、コンピュータプログラム - Google Patents
類義語辞書構築装置及び方法、コンピュータプログラム Download PDFInfo
- Publication number
- JP5145288B2 JP5145288B2 JP2009117245A JP2009117245A JP5145288B2 JP 5145288 B2 JP5145288 B2 JP 5145288B2 JP 2009117245 A JP2009117245 A JP 2009117245A JP 2009117245 A JP2009117245 A JP 2009117245A JP 5145288 B2 JP5145288 B2 JP 5145288B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- synonym
- value
- related value
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(1)第1の方法
専門知識を有する者が、人手によって類義語を体系化して構築する。
(2)第2の方法
ベクトル統計量に基づいて類義語を自動抽出して辞書登録する。例えば、文書データの内容を形態素解析して名詞や動詞等の品詞、あるいはそれらの係り受け関係を抽出し、対象となる名詞に対する動詞格との共起ベクトルを求め、ベクトル同士の距離が近いもの同士は類義語関係になるとして、当該共起ベクトルの対象名詞の集合を類義語群として抽出し、これらを辞書登録する。この方法については、特許文献1の記載を参考にすることができる。
(3)第3の方法
特殊記号の前後単語が類義語関係となることに着目して、文書中の特殊記号、例えば丸括弧で囲まれた文字列は、開き丸括弧直前の文字列の類義語となる場合が多いとして、両者を相互に類義語として抽出する。この方法については、特許文献2,3の記載を参考にすることができる。
(1)第1の方法の課題
新規の分野に対する大規模な類義語辞書を構築しようとする場合、多大な時間と労力が必要となる上に、その分野特有の専門用語を抽出できるかどうかは、類義語収集者の知識やスキルに依存するため、一般化できない。
基本的に単語データ間の共起ベクトル間の類似性を判別する統計的手法であるため、高頻度に表れる用語に対する類義語の信頼性は比較的高いものの、低頻度に表れる用語に対する類義語に対する信頼性が低い。
また、市販の汎用的な類義語辞書に記載されるような類義語を自動抽出してもメリットは小さいが、対象テキスト中の頻度が高い用語は、市販の類義語辞書にあることが容易に想像される。加えて、係り受け関係を持つ可能性が高い「文書」と「検索」という単語対と、「文書」と「処理」という単語対が共起性が高いとしても、「検索」と「処理」との間に類義語関係があるとは、いえない場合が多いため、得られる類義語に対する信頼性が低い。
特許文献2では丸括弧に着目し、丸括弧で囲まれた文字列は、開き丸括弧の直前の文字列となることを利用して類義語を抽出しているが、常に類義語関係を有するとは限らないため、開き括弧前後の文字列に関して、類義語とならない排除パターン、例えば括弧内が数式相当である物等に合致するか否かに基づいて類義語かどうかを判定している。この排除パターンルールは、限定した分野では効果が期待できるものの、一般化は難しく、汎用性に乏しいため、新しい分野が創設された場合、既存ルールの修正や新規ルールの作成並びにルール追加による影響の有無を検証する必要がある。そのため、ルールが膨大になるほど多大な労力を必要とする。
本発明の類義語辞書構築装置は、文書データ中において所定規則で出現する文字列ペアを相互の類義語候補として抽出する類義語候補抽出手段と、抽出された文字列ペアについて、一方の文字列に対する他方の文字列の関連性が高くなるほど小さくなるように重み付けされた第1関連値を導出するとともに、前記他方の文字列に対する前記一方の文字列の関連性が高くなるほど小さくなるように重み付けされた第2関連値を導出し、前記第1関連値及び前記第2関連値を当該文字列ペアと関連付けて保持する関連度管理手段と、
前記一方の文字列に対して前記第1関連値が第1閾値以下で、且つ、前記第2関連値が第2閾値以下となる前記他方の文字列を前記一方の文字列の類義語として辞書登録する辞書登録手段と、を備えて成る。
図1は、本実施形態における類義語辞書構築装置の構成図である。この類義度辞書構築装置1は、コンピュータ本体10と、ハードディスク等の外部記憶装置20と、キーボード等から成る入力装置30と、OCRやUSBメモリ等の読み取り機構を備えた文書データ取込装置40と、液晶ディスプレイ等の表示装置40とを備えて構成される。
類義語候補抽出部12は、また、文書DB25に保持されている元文書データに対して品詞テーブル21に基づく形態素解析を行い、文字及び文字列を抽出する。なお、本発明は、文書データから抽出した文字を扱うことに主眼があるので、ここにいう文字には、記号、数値も含まれるものとする。
文字列の抽出は、ルールテーブル22に設定されている文字列ペア抽出ルールに従って行う。例えば、元文書データに存在する文字列のうち、言い換え表現のために用いる特定情報の有無を調べ、存在するときは、その特定情報の前後の文字列を類義語候補を表す文字列として特定する。特定情報は、本実施形態では、開き括弧「(」のような記号を用いる。
関連度を重み付けする処理は、ルールテーブル22に設定された重み付けルールに従い、文字列ペア毎に、一方の文字列から見た他方の文字列の関連度と、他方の文字列から見た一方の文字列の関連度とを定量化することにより行う。
関連度管理部13は、入力装置30を通じて、処理の開始を指定されると、いずれかの文字列と、その文字列とペアになるすべての文字列とを取得し、メモリの一種であるスタックに格納する(ステップS101)。
スタックが1以上の場合は、スタックから検索語とペアになる類義語候補を1つずつ取得し(ステップS102:No,S103)、取得した文字列ペアについて、当該検索語に対する類義語候補の関連度を定量化し、その結果を第1関連値として、類義語候補テーブル24に登録する(ステップS104)。
関連度の定量化に際しては、まず、文字列ペア(検索語に対する類義語候補)の度数を降順にソートする。そして、度数の多い順にランキングされた結果(1位、2位・・・)により、関連度を定量化する。これにより、ランキングの順位が高いほど、つまり、順位を表す数値が小さくなるほど、関連度が高くなるように重み付けられる。この重み付けの結果を第1関連値とする。
そして、当該検索語(「食品」)と各類義語候補との関連度を定量化し、その結果を第2関連値として、文字列ペアと関連付けて類義語候補テーブル24に、登録する(ステップS106)。関連度の定量化については、第1関連値と同様に行う。
以上の処理を、スタックサイズが1未満になるまで(ステップS102:No)繰り返す。
図8を参照し、類義語辞書登録部14は、入力装置30から検索語を1つ取得する(ステップS201)。そして、当該検索語に対するすべての類義語候補と、当該文字列ペアについての第1関連値及び第2関連値を類義語候補テーブル24から読み出してスタックに格納する(ステップS202)。ここでは、図9に例示する内容のうち、検索語「アイスクリーム」に対する7つの類義語候補と、各類義語候補とのペアによる第1関連値及び第2関連値とをスタックに格納するものとする。
スタックが1以上のときは、スタックから、検索語「アイスクリーム」と類義語候補、ペア毎の第1関連値及び第2関連値を1件取得する(ステップS204)。
そして、取得した類義語候補の第1関連値に対して第1閾値以下であるかを判定し、第1閾値を越える場合はスタックサイズの判定に戻る(ステップS205:No)。
この例では、第1関連値が“2”で第2関連値が“3”の「冷菓」、第1関連値が“3”で第2関連値が“5”の「冷凍食品」、第1関連値が“5”で第2関連値が“1”の「氷菓子」の3つが「アイスクリーム」の類義語として決定され、図10に示すように真の類義語ペアとして、類義語辞書26に登録される。
以上の処理を、スタックサイズが1未満になるまで(ステップS203:No)繰り返す。
これにより、類義語辞書26の構築精度が、一方の文字列から見た他方の文字列の関連度のみに基づいて構築する場合に比べて格段に向上した。
本実施形態では、文字列ペアを抽出する場合、言い換え表現を表す特定情報として開き括弧を用いた場合の例を示したが、同じ又は類似の意味合いの文字列に導く他の文字列、例えば「;」、「:」、「=」のような記号を用いても良い。また、言い換え表現を表す特定情報であれば、特定の文字列、例えば「つまり」、「すなわち」、「例えば」、「具体的には」等であっても良い。また、特定の形態素、例えば、名詞と未知語とが連続する文字列ペアを類義語候補として抽出するように定めても良い。
Claims (5)
- 文書データ中において所定規則で出現する文字列ペアを相互の類義語候補として抽出する類義語候補抽出手段と、
抽出された文字列ペアについて、一方の文字列に対する他方の文字列の関連性が高くなるほど小さくなるように重み付けされた第1関連値を導出するとともに、前記他方の文字列に対する前記一方の文字列の関連性が高くなるほど小さくなるように重み付けされた第2関連値を導出し、前記第1関連値及び前記第2関連値を当該文字列ペアと関連付けて保持する関連度管理手段と、
前記一方の文字列に対して前記第1関連値が第1閾値以下で、且つ、前記第2関連値が第2閾値以下となる前記他方の文字列を前記一方の文字列の類義語として辞書登録する辞書登録手段と、を備えて成る、
類義語辞書構築装置。 - 前記関連度管理手段は、前記文書データを含む複数の文書データにおける前記文字列ペアの出現頻度を累積し、その累積値を後順にソートして得たランキング順位により、前記第1関連値及び前記第2関連値を導出する、
請求項1記載の類義語辞書構築装置。 - 前記関連度管理手段は、前記第1関連値及び前記第2関連値を前記文字列ペアと関連付けて更新自在に保持しており、最新の前記第1関連値及び前記第2関連値に基づいて、辞書登録すべき類義語を決定する、
請求項2記載の類義語辞書構築装置。 - メモリにアクセス可能なコンピュータが実行する方法であって、
文書データを取り込み、取り込んだ文書データ中において所定規則で出現する文字列ペアを相互の類義語候補として抽出し、抽出した文字列ペアを前記メモリに保持する段階と、
前記メモリに保持されている前記文字列のペアについて、一方の文字列に対する他方の文字列の関連性が高くなるほど小さくなるように重み付けされた第1関連値を導出するとともに、前記他方の文字列に対する前記一方の文字列の関連性が高くなるほど小さくなるように重み付けされた第2関連値を導出し、前記第1関連値及び前記第2関連値を当該文字列ペアと関連付けて前記メモリに保持する段階と、
前記一方の文字列に対して前記第1関連値が第1閾値以下で、且つ、前記第2関連値が第2閾値以下となる前記他方の文字列を前記一方の文字列の類義語として辞書登録する段階とを含む、
類義語辞書構築方法。 - コンピュータを、文書データ中において所定規則で出現する文字列ペアを相互の類義語候補として抽出する類義語候補抽出手段;
抽出された文字列ペアについて、一方の文字列に対する他方の文字列の関連性が高くなるほど小さくなるように重み付けされた第1関連値を導出するとともに、前記他方の文字列に対する前記一方の文字列の関連性が高くなるほど小さくなるように重み付けされた第2関連値を導出し、前記第1関連値及び前記第2関連値を当該文字列ペアと関連付けて保持する関連度管理手段;及び、
前記一方の文字列に対して前記第1関連値が第1閾値以下で、且つ、前記第2関連値が第2閾値以下となる前記他方の文字列を前記一方の文字列の類義語として辞書登録する辞書登録手段;として機能させる、
類義語辞書構築のためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117245A JP5145288B2 (ja) | 2009-05-14 | 2009-05-14 | 類義語辞書構築装置及び方法、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009117245A JP5145288B2 (ja) | 2009-05-14 | 2009-05-14 | 類義語辞書構築装置及び方法、コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010267047A JP2010267047A (ja) | 2010-11-25 |
JP5145288B2 true JP5145288B2 (ja) | 2013-02-13 |
Family
ID=43363973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009117245A Expired - Fee Related JP5145288B2 (ja) | 2009-05-14 | 2009-05-14 | 類義語辞書構築装置及び方法、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5145288B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5754019B2 (ja) * | 2011-07-11 | 2015-07-22 | 日本電気株式会社 | 同義語抽出システム、方法およびプログラム |
JP5611173B2 (ja) * | 2011-11-10 | 2014-10-22 | 日本電信電話株式会社 | 単語属性推定装置及び方法及びプログラム |
JP6781123B2 (ja) * | 2017-09-07 | 2020-11-04 | 日本電信電話株式会社 | データ処理装置、データ処理方法及びデータ処理プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3350556B2 (ja) * | 1992-04-20 | 2002-11-25 | 株式会社リコー | 検索システム |
JPH09146958A (ja) * | 1995-11-27 | 1997-06-06 | Toshiba Corp | 語彙対応辞書作成装置および語彙対応辞書作成方法 |
JP3853974B2 (ja) * | 1998-05-18 | 2006-12-06 | 株式会社リコー | 同義語対抽出装置および記憶媒体 |
JP4155970B2 (ja) * | 2004-12-10 | 2008-09-24 | 株式会社リコー | 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム |
JP2006190044A (ja) * | 2005-01-05 | 2006-07-20 | Ricoh Co Ltd | 関連文字列生成装置、プログラム、及び記憶媒体 |
-
2009
- 2009-05-14 JP JP2009117245A patent/JP5145288B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010267047A (ja) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
JP2010287020A (ja) | 同義語展開システム及び同義語展開方法 | |
CN111460170A (zh) | 一种词语识别方法、装置、终端设备及存储介质 | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
JP3765801B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
JP2009199302A (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
Kosinov | Evaluation of N-grams Conflation Approach in Text-Based Information Retrieval. | |
JP6555810B2 (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
KR100559472B1 (ko) | 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
CN103034657A (zh) | 文档摘要生成方法和装置 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
CN115964474A (zh) | 一种政策关键词抽取方法、装置、存储介质及电子设备 | |
JP3663878B2 (ja) | 未知語概念推定装置及び未知語概念推定処理プログラムを記録したコンピュータ読みとり可能な記録媒体 | |
JP5254888B2 (ja) | 言語資源情報生成装置、方法、プログラム、および記録媒体 | |
JP2005326952A (ja) | 概念辞書への単語登録方法、装置、およびプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2011081626A (ja) | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム | |
CN111061924A (zh) | 词组提取方法、装置、设备和存储介质 | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP2013182580A (ja) | 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121030 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121126 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5145288 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |