JP2007233446A - 同義語対抽出装置及び同義語対抽出方法 - Google Patents

同義語対抽出装置及び同義語対抽出方法 Download PDF

Info

Publication number
JP2007233446A
JP2007233446A JP2006050694A JP2006050694A JP2007233446A JP 2007233446 A JP2007233446 A JP 2007233446A JP 2006050694 A JP2006050694 A JP 2006050694A JP 2006050694 A JP2006050694 A JP 2006050694A JP 2007233446 A JP2007233446 A JP 2007233446A
Authority
JP
Japan
Prior art keywords
pair
synonym
sentence
synonym pair
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006050694A
Other languages
English (en)
Other versions
JP5028823B2 (ja
Inventor
Keiji Ikada
恵志 伊加田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006050694A priority Critical patent/JP5028823B2/ja
Publication of JP2007233446A publication Critical patent/JP2007233446A/ja
Application granted granted Critical
Publication of JP5028823B2 publication Critical patent/JP5028823B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02E60/10Energy storage using batteries

Abstract

【課題】同義語を多数抽出すると共に、抽出精度及び処理速度の向上を図る。
【解決手段】本発明の同義語対抽出装置は、同義語を複数含む同意テキストから文単位で文字列を切り出す文区切り処理部102と、単語に品詞情報を付与する形態素解析処理部103と、前記複数の同意テキストから同意文対を作成する同意文対生成部104と、前記同意文対生成部104で生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出部105と、抽出された同義語対候補を編集して同義語対として出力する同義語対出力手段とを備えた。
【選択図】図1

Description

本発明は、同じ内容が記載されている複数の文書から同義語対を獲得する同義語対抽出装置及び同義語対抽出方法に関するものである。
発音や表記は異なるが、意味の同じである語のことを同義語と呼ぶ。この同義語は、日本語に限らずさまざまな言語において存在する。
同義語が存在するため、人は、概念や事象、事物を1つの単語だけでなく、異なる単語で書き分けることができる反面、表記上の不一致のため、自然言語処理の効率を低下させるという問題がある。
特に、文書検索、文書分類、機械翻訳、文書要約のような自然言語処理において、この問題は重要である。
例えば、「PCモニター」と「PCディスプレイ」は同義語である。これらが同義語であることが分かれば、文書検索において検索語として「PCモニター」が入力された場合に、「PCディスプレイ」を含む文書も併せて出力することができる。逆に考えると、同義語を考慮しないと、検索漏れが発生して精度が低下する。
日本語に関する同義語の自動獲得に関連する技術としては、特許文献1と非特許文献1とがある。
特許文献1では、文書中の括弧に着目し、丸括弧で囲まれた単語と、その丸括弧直前の単語との間に生じる共起単語の統計量に基づき、同義語対を抽出している。
また、非特許文献1では、「単元語パラレルテキスト」と呼ぶ、単一の言語で書かれた同一内容を記述した2つの文書間において、文書間で共通する単語に挟まれた、異なる単語を同義語対として抽出している。
特開平11−328205号公報 下畑光夫、隅田英一郎:"単言語パラレルテキストからの同義語獲得"言語処理学会第11回年次大会,2005
しかしながら、特許文献1に示す装置では、括弧内に現れる語の同義語しか抽出できないという問題がある。また、あらかじめ、単語間の共起の統計量を用意しておく必要があり、あらかじめ大量のテキストデータを処理しなければならないという問題がある。
また、非特許文献1では、同義語の前後1単語というごく近接の文脈しか考慮しないため、日本語の助詞や助動詞といった、文脈にあまり依存せずに使用される語が共通した単語となる場合、その間に挟まれた語を誤って同義語対として抽出してしまうという問題がある。
本発明は前記問題に鑑みてなされたもので、単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出装置であって、互いに同じ意味を表す同義語を複数含む前記同意テキストから文単位で文字列を切り出す文区切り処理手段と、前記同意テキストを構成する単語に対応する品詞情報を付与するための形態素解析処理手段と、前記複数の同意テキストから、同意テキストに含まれる同意文の対からなる同意文対を作成するための同意文対生成手段と、前記同意文対生成手段によって、相違する前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段と、前記同義語対候補抽出手段によって抽出される同義語対候補のうち、所定の条件を満たすものに対し、所定の規則に従った編集を行って同義語対として出力するための同義語対出力手段とを備えて構成されたことを特徴とする。
二つ以上の同意テキストを用意することで、同義語を多数抽出することができ、抽出精度が向上する。
[第1実施形態]
本発明に係る同義語対抽出装置の第1の実施形態を添付図面を参照しながら詳述する。図1は本発明の第1の実施形態に係る同義語対抽出装置の機能的構成を示すブロック図である。
本実施形態の同義語対抽出装置101は、単一の言語で記述された複数の同意テキスト100を含む文書群から同義語対を抽出するための装置である。同義語対抽出装置101は、文区切り処理部102と、形態素解析処理部103と、同意文対生成部104と、同義語対候補抽出部105と、同義語対出力部108とから構成されている。
前記同意テキスト100は、同じ言語で記述された、同じ内容を含むような文書で、機械可読なものである。
文区切り処理部102は、互いに同じ意味を表す同義語を複数含む前記同意テキスト100から文単位で文字列を切り出す文区切り処理手段である。文区切り処理部102は、句点や文字列などの情報により、複数の文からなる同意テキスト100を各文単位に切り分ける。
形態素解析処理部103は、前記同意テキスト100を構成する単語に対応する品詞情報を付与するための形態素解析処理手段である。形態素解析処理部103は、文書に対して形態素解析し、品詞に関する情報が付与された形態素列(単語列)を出力する。この形態素解析処理部103での形態素解析処理は、周知の技術を用いることができる。周知の形態素解析処理として容易に入手できるプログラムにより実現することができる。
同意文対生成部104は、前記複数の同意テキスト100から、同意テキスト100に含まれる同意文の対からなる同意文対を作成するための同意文対生成手段である。同意文対生成部104は、後に述べる、文対作成部401、文対類似度計算部402及び同意文対出力部403で構成される同意文対生成部204と同じ構成を有している。この同意文対生成部104は、前記文区切り処理部102によって切り分けた文と文とを単純な順列組み合わせで選択し、それぞれの組み合わせで類似度を計算し、あらかじめ定めておいた値以上の類似度を持つものを同意文対として出力する。
同義語対候補抽出部105は、前記同意文対生成部104によって、相違する前記同意テキスト100から生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、前記同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段である。この同義語対候補抽出部105は、前記手段によって、同意テキスト100に含まれる二つの文の単語列を互いに比較し、相互に異なる部分を、その前後の単語を含めて同義語対候補として抽出する。
同義語対出力部108は、前記同義語対候補抽出部105によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力手段である。この同義語対出力部108は、前記同義語対候補抽出部105が出力する同義語対候補のうち、所定の条件を満たすもののみを選択し、出力する処理を行うための同義語対出力手段である。同義語対出力部108は、前記同義語対候補抽出手段105によって抽出される同義語対候補のうち、所定の条件を満たすものに対し、所定の規則に従った編集を行って、同義語対として出力する。
[同義語対抽出方法]
次に、以上の構成の同義語対抽出装置101を用いた同義語対抽出方法について説明する。
まず、文区切り処理工程を行う。同意テキスト100は、文区切り処理部102に入力され、テキストから各文が切り出される。文の切り出しは、例えば、文書中に現れる句点(“。”や“、”など)や改行で判定する。
次に、形態素解析処理工程を行う。前記文区切り処理工程で切り出された文は、各文毎に形態素解析処理部103に入力されて形態素解析され、それぞれ品詞情報が付与された単語列の形で出力される。
そして、この形態素解析処理部103で形態素解析された各文毎に、形態素結果とともに同意文対生成部104に入力される。
次に、同意文対生成工程を行う。同意文対生成部104では、1つの同意テキスト100の各文と、それとは別のもう1つの同意テキスト100の各文とを組み合わせて、同意文対を作成する。組み合わせは、単純な順列組み合わせで行う。
前記同意文対生成部104で生成された同意文対は、同義語対候補抽出部105に入力される。
次に、同義語対候補抽出工程を行う。ここでは、同意文対のそれぞれに対し、同意文対に含まれる同意文同士を互いに比較し、以下の3つの条件を全て充足する、互いに異なる単語列対をその前後に存在する1つ以上の単語を含めて同義語対候補として出力する。
1.単語列対の前に存在する所定の条件を満たす単語列が互いに等しく、
2.単語列対の後に存在する所定の条件を満たす単語列が互いに等しく、かつ、
3.単語列対の品詞に関する所定の条件を満たす。
ここで、前記条件1と2に現れる「所定の条件を満たす単語列」とは、例えば、「3つで構成される」、あるいは、「自立語を1つ含む」などのような条件を満たすように構成された単語列である。また、前記条件1と2で別々の条件を適用しても良い。
また、前記条件3に現れる「品詞に関する所定の条件」とは、例えば、「全て名詞から構成される単語列」、あるいは、「動詞1語からなる単語(列)」など、同義語対として収集する対象に併せて設定される条件のことをいう。
前記同義語対候補抽出部105で抽出された同義語対候補は、同義語対出力部108に入力される。
最後に、同義語対出力工程を行う。同義語対出力部108は、同義語対候補に含まれる共通の単語を削除し、同義語対として出力する。即ち、同義語対出力部108は、前記同義語対候補抽出手段105によって抽出される同義語対候補のうち、所定の条件を満たすものに対し、所定の規則に従った編集を行って、同義語対として出力する。ここでは、前記同義語対候補抽出部105から出力された同義語対候補に対し、その前後の単語列に現れる共通する単語を削除する編集を行って、同義語対として出力する。
[具体例]
次に、以上の同義語対抽出方法を具体例を用いて説明する。
例えば、同意テキストとして、「建築士が構造計算書を偽造したことが発覚した。偽造が行われたのは、東京都内のマンションなどである。」と、「構造計算書を改ざんした建築士が、発覚することをおそれて証拠を処分しようとしたことが捜査した警察の調べで明らかになった。改ざんは1998年頃から行われていたという。」というものを考える。
これが、同義語対抽出装置101に入力され、まず、文区切り処理部102により、1つ目のテキストが「建築士が構造計算書を偽造したことが発覚した。」と「偽造が行われたのは、東京都内のマンションなどである。」の2つの文に、もう1つのテキストが「構造計算書を改ざんした建築士が、発覚することをおそれて証拠を処分しようとしたことが捜査した警察の調べで明らかになった。」と、「改ざんは1998年頃から行われていたという。」の2つの文に切り出される。
次に、切り出された文がそれぞれ、形態素解析処理部103に入力され、形態素解析される。
そして、形態素解析された各文が、同意文対生成部104に入力される。ここで、図2のような単純な順列組み合わせによる4つの同意文対が作成され、出力される。
次に、前記同意文対が同義語対候補抽出部105に入力される。
図3は、同義語対候補抽出部105による同義語対候補の抽出を示す。図3を参照して、例えば同義文対121を互いに比較すると、前記同義語対候補抽出部105が調べる条件を満たす単語列対は2つ存在する。それが、単語列対131、132である。
例えば単語列対131の場合、同義文対121の二つの単語列対のうち、「書/を」という自立語「書」を1つ含んだ単語列が互いに等しく、また、「し」という単語(列)が互いに等しい。そして、その間の単語(列)「偽造」と「改ざん」とは互いに異なっている。従って、「書/を/[偽造]/し」と「書/を/[改ざん]/し」の対が同義語対候補として抽出される。また、単語列対132の場合も前記単語列対131の場合と同様にして、「こと/が/[発覚]/し」と「こと/が/[捜査]/し」の対が同義語対候補として抽出される。抽出された同義語対候補は、同義語対出力部108に入力される。ここで「/」は、単語の区切りを表し、[]で囲まれた部分が互いに異なる単語列を表す。
残りの3つの同意文対に対しても同じ処理が適用される。残りの3つからは同義語対候補は抽出されない。
最後に、同義語対出力部108において、前記同義語対候補抽出部105から出力された同義語対候補に対し、その前後の単語列に現れる共通する単語を削除するという編集処理を行う。図4に削除の例を示す。同義語対候補161の場合、「偽造」と「改ざん」が相違部分であり、その前後の単語列が共通する単語列部分である。その共通する部分を削除して、「偽造」と「改ざん」が同義語対として出力される。
単語列対132も同様に、「発覚」と「捜査」が同義語対として出力される。
[効果]
以上のように、この第1の実施形態にかかる同義語対抽出装置101によれば、二つ以上の同意テキストさえ用意すれば、同義語を多数抽出することができるようになる。さらに、データ処理量を減少させることができるようになる。
また、共通単語として、自立語を少なくとも1つ入れることで、助詞や助動詞のみが共通となることを防ぐことができ、特に日本語テキストに対して適用する場合に、抽出精度が向上する。
[第2実施形態]
次に、本発明の第2実施形態に係る同義語対抽出装置を添付図面を参照しながら詳述する。図5は、本発明の第2の実施形態に係る同義語対抽出装置の機能的構成を示すブロック図である。
本実施形態の同義語対抽出装置201は、単一の言語で記述された複数の同意テキスト200を含む文書群から同義語対を抽出するための装置である。同義語対抽出装置201は、文区切り処理部202と、形態素解析処理部203と、同意文対生成部204と、同義語対候補抽出部205と、同義語対出力部208とから構成されている。
前記同意テキスト200は、第1実施形態の同意テキスト100と同様に、同じ言語で記述された、同じ内容を含むような文書で、機械可読なものである。
文区切り処理部202は、第1実施形態の文区切り処理部102と同様に、互いに同じ意味を表す同義語を複数含む前記同意テキスト200から文単位で文字列を切り出す文区切り処理手段である。文区切り処理部202は、句点や文字列などの情報により、複数の文からなる同意テキスト200を各文単位に切り分ける。
形態素解析処理部203は、第1実施形態の形態素解析処理部103と同様に、前記同意テキスト200を構成する単語に対応する品詞情報を付与するための形態素解析処理手段である。形態素解析処理部203は、文書に対して形態素解析し、品詞に関する情報が付与された形態素列(単語列)を出力する。
同意文対生成部204は、前記複数の同意テキスト200から、同意テキスト200に含まれる同意文の対からなる同意文対を作成するための同意文対生成手段である。同意文対生成部204は、図6に示すように、文対作成部401と、文対類似度計算部402と、同意文対出力部403とで構成され、前記文区切り処理部202によって切り分けた文と文とを単純な順列組み合わせで選択し、それぞれの組み合わせで類似度を計算し、あらかじめ定めておいた値以上の類似度を持つものを同意文対として出力する。
前記文対作成部401は、相違する同意テキスト200から、前記文区切り処理部202により切り出された各文を順番に取り出して対を作成する文対作成手段である。文対作成部401は、同意テキスト200の各文を組み合わせて、文対を作成する。
前記文対類似度計算部402は、前記文対作成部401で作成した文対に対し、類似度を計算する文対類似度計算手段である。文対類似度計算部402は、各文対について類似度を計算する。類似度を計算する手段として、例えば、文献(G.salton,M.McGill,“Introduction to Modern Information Retrieval”,New York ,McGraw−Hill。1983)に記載されているように文書における単語の出現頻度を基に、文間の類似度を計算する方法が知られている。また、単純に、一致する単語数がいくつあるかにより類似度としても良い。
前記同意文対出力部403は、前記文対類似度計算部402で計算された所定の類似度を持つ文対を同意文対として出力する同意文対出力手段である。同意文対出力部403は、所定の値以上の類似度を持つ文対を同意文対として出力する。
同義語対候補抽出部205は、図5に示すように、第1実施形態の同義語対候補抽出部105と同様に、前記同意文対生成部204によって、相違する前記同意テキスト200から生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、前記同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段である。この同義語対候補抽出部205は、前記手段によって、同意テキスト200に含まれる二つの文の単語列を互いに比較し、相互に異なる部分を、その前後の単語を含めて同義語対候補として抽出する。
同義語対出力部208は、前記同義語対候補抽出部205によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力手段である。同義語対出力部208は、同義語対候補抽出部205が出力する同義語対候補のうち、所定の条件を満たすもののみを選択し、出力する処理を行う部分である。同義語対出力部208は、同義語対選択部206及び編集部207を備えている。
同義語対選択部206は、前記同義語対候補抽出部205で出力された同義語対候補のうち、所定の条件を満たすもののみを選択する処理部分である。この所定の条件としては「同義語対候補の一方の単語列の中にある単語が、他方の単語列の外のいずれの領域にも存在しない」こととする。
編集部207は、編集規則群209に記憶された規則を用いて、同義語対選択部206により選択された同義語対候補のそれぞれに対し、その前後の単語列を削除する処理を行う処理部分である。編集部207は、各単語の品詞に基づいて不要な単語を削除する。
編集規則群209に含まれる単語削除規則としては、例えば以下のものがある。
1.共通の単語は一律削除、
2、共通の単語のうち共通の単語以外の単語と一致しない品詞の共通単語は除外する、または、
3.他の単語列対の一部分となる単語列対は除外する。
これらの規則のうち、処理に適切な規則を1つ以上組み合わせて適用する。
[同義語対抽出方法]
次に、以上の構成の同義語対抽出装置201を用いた同義語対抽出方法について説明する。
まず、文区切り処理工程を行う。同意テキスト200は、文区切り処理部202に入力され、テキストから各文が切り出される。文の切り出しは、例えば、文書中に現れる句点(“。”や“、”など)や改行で判定する。
次に、形態素解析処理工程を行う。切り出された各文毎に、形態素解析処理部203に入力され、各文を形態素解析し、それぞれ品詞情報が付与された単語列の形で出力される。なお、形態素解析自体は、上述のように、周知の技術であり、容易に入手できるプログラムにより実現できる。
そして、文毎に、形態素結果とともに同意文対生成部204に入力される。
次いで、同意文対生成工程を行う。ここでは、まず文対作成工程を行う。同意文対生成部204の文対作成部401において、1つの同意テキストの各文と、それとは別のもう1つの同意テキストの各文とを組み合わせて、文対を作成する。組み合わせは、単純な順列組み合わせで行う。
次いで、文対類似度計算工程を行う。文対類似度計算部402において、各文対について類似度を計算する。類似度を計算する手段として、前記文献に記載の文書における単語の出現頻度を基に、文間の類似度を計算する方法や、一致する単語数がいくつあるか等を用いる。
次いで、同意文対出力工程を行う。同意文対出力部403で、所定の値以上(例えば、後述する0.6以上)の類似度を持つ文対を同意文対として出力する。
そして、前記同意文対生成部204の意文対出力部403で出力された同意文対は同義語対候補抽出部205に入力される。
次いで、同義語対候補抽出工程を行う。ここでは、同意文対のそれぞれに対し、同意文対に含まれる同意文同士を互いに比較し、以下の3つの条件を全て充足する、互いに異なる単語列対をその前後に存在する1つ以上の単語を含めて同義語対候補として出力する。
1.単語列対の前に存在する所定の条件を満たす単語列が互いに等しく、
2.単語列対の後に存在する所定の条件を満たす単語列が互いに等しく、かつ、
3.単語列対の品詞に関する所定の条件を満たす。
ここで、前記条件1と2に現れる「所定の条件を満たす単語列」とは、例えば、「3つで構成される」、あるいは、「自立語を1つ含む」などのような条件を満たすように構成された単語列である。また、前記条件1と2で別々のものを適用しても良い。
また、前記条件3に現れる「品詞に関する所定の条件」とは、例えば、「全て名詞から構成される単語列」、あるいは、「動詞1語からなる単語(列)」など、同義語対として収集する対象に併せて設定される条件のことをいう。
前記同義語対候補抽出部205で抽出された同義語対候補は、同義語対出力部208に入力される。
同義語対出力部208では、まず同義語対選択工程を行う。同義語対選択部206は、前記同義語対候補抽出部205で出力された同義語対候補のうち、「同義語対候補の一方の単語列の中にある単語が、他方の単語列の外のいずれの領域にも存在しない」ようなもののみを選択する。
次いで、編集工程を行う。編集部207で編集規則群209に記憶された規則を用いて、同義語対選択部206により選択された同義語対候補のそれぞれに対し、その前後の単語列を削除する処理を行う。二つの単語列から抽出された同義語対候補に含まれる共通の単語には、同義語として不要なものが含まれることが多い。従って、編集部207は、各単語の品詞に基づいて不要な単語を削除する。
最後に、同義語対出力部208で、不要な単語を削除した同義語対を出力する。
[具体例]
次に、以上の同義語対抽出方法を具体例を用いて説明する。
例えば、同意テキストとして、「建築士が構造計算書を偽造したことが発覚した。偽造が行われたのは、東京都内のマンションなどである。」と、「構造計算書を改ざんした建築士が、発覚することをおそれて証拠を処分しようとしたことが捜査した警察の調べで明らかになった。改ざんは1998年頃から行われていたという。」というものを考える。
これが、同義語対抽出装置201に入力され、まず、文区切り処理部202により、1つ目のテキストが「建築士が構造計算書を偽造したことが発覚した。」と「偽造が行われたのは、東京都内のマンションなどである。」の2つの文に、もう1つのテキストが「構造計算書を改ざんした建築士が、発覚することをおそれて証拠を処分しようとしたことが捜査した警察の調べで明らかになった。」と、「改ざんは1998年頃から行われていたという。」の2つの文に切り出される。
次に、切り出された文がそれぞれ、形態素解析処理部203に入力され、形態素解析される。
そして、形態素解析された各文が、同意文対生成部204に入力される。ここでは、まず、文対作成部401で、図8のような単純な順列組み合わせによる4つの文対が作成される。
次に、文対類似度計算部402により、各文対の類似度が計算される。これにより、例えば、図8の(a)が類似度0.7、(b)が類似度0、(c)が類似度0、(d)が類似度0と計算される。
以上の計算値より、同意文対出力部403において、あらかじめ、例えば、「類似度0.6以上の値を持つ文対を同意分対としてする」としておくと、図8の(a)の文対が、同意文対として出力される。
次に、前記同意文対生成部204から出力された同意文対が同義語対候補抽出部205に入力される。
図3は、同義語対候補抽出部205による同義語対候補の抽出を示す。図3を参照して、例えば同義文対121を互いに比較すると、前記同義語対候補抽出部205が調べる条件を満たす単語列対は2つ存在する。それが、単語列対131、132である。例えば単語列対131の場合、同義文対121の二つの単語列対のうち、「書/を」という自立語「書」を1つ含んだ単語列が互いに等しく、また、「し」という単語(列)が互いに等しい。そして、その間の単語(列)「偽造」と「改ざん」とは互いに異なっている。従って、「書/を/[偽造]/し」と「書/を/[改ざん]/し」の対が同義語対候補として抽出される。また、同様に、「こと/が/[発覚]/し」と「こと/が/[捜査]/し」の対が同義語対候補として抽出される。ここで「/」は、単語の区切りを表し、[]で囲まれた部分が互いに異なる単語列を表す。
次に、前記同義語対候補抽出部205で出力された同義語対候補は、同義語対選択部206に入力される。ここで、前記同義語対候補から「同義語対候補の一方の単語列の中にある単語が、他方の単語列の外のいずれの領域にも存在しない」ような対のみを選択する。図7を参照して説明すると、まず同義語対候補142の共通単語列は、「ことが」と「し」である。この二つの単語列を先頭及び末尾とする同義語対候補の単語(列)を図7では四角で囲っており、相違部分151と呼ぶ。
相違部分151に含まれる単語153「発覚」は、他方の相違部分相違部分152に含まれておらず、その外部の単語として存在している。従ってこの同義語対候補142は、同義語対選択部206により削除される。
そして、編集部207は、編集規則群209に記憶された所定の規則を用いて、前記同義語対選択部206から出力された同義語対候補に対し、その前後の単語列の削除処理を行う。図4に削除処理の例を示す。同義語対候補161の場合、「偽造」と「改ざん」が相違部分である。前記編集規則群209の単語削除規則(1)により、共通単語は一律除外するので、「偽造」と「改ざん」が同義語対候補として残される。
最後に、同義語対出力部208において、残った全ての同義語対候補である「偽造」と「改ざん」が同義語対として出力される。
[効果]
以上のように、この第2の実施形態にかかる同義語対抽出装置201によれば、第1の実施の形態の効果の他に、さらに、同意文を同意文対生成部204において類似度が高いものに制限することで、後の処理を行う対象を絞り込むことができ、抽出精度の面と、処理速度の面で向上する。さらに、同義語対選択部206を追加したことにより、同義語対候補から、同義語対としてふさわしくない条件の同義語対候補を除外することができ、同義語の抽出精度が向上する。また、編集部207により、同義語対から不必要な単語を規則により削除でき、必要な部分だけを残すことができるという効果がある。
[変形例]
前記第2実施形態では、同義語対選択部206において、前記同義語対候補抽出部205により抽出された同義語対候補のそれぞれに対し、互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する同意表現の、前記互いに異なる単語列以外の領域のいずれにも存在しないという条件を満たしているものを選択することとしたが、他の条件を用いても良い。
具体的には、前記同義語対選択部206で、前記同義語対候補抽出部205により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方に属する同意表現の、前記互いに異なる単語列の前後に隣接する所定長の領域のいずれにも存在しないという条件を満たしているもののみを選択するようにしても良い。前記互いに異なる単語列の前後に隣接する所定長の領域は、適宜設定する。例えば、異なる単語列の前に2つの単語列、後に1つの単語列とする。なお、他の個数の単語列でもよい。この場合も、前記第2実施形態と同様の作用、効果を奏することができる。
前記各実施形態では、各工程及び予め用意しておくデータの具体的な態様について特に言及しなかったが、コンピュータが処理し得るコードで記述しても、他の態様で記述してもよい。この場合も、前記各実施形態と同様の作用、効果を奏することができる。
また、同義語対抽出装置をコンピュータによって実現するようにしても良い。即ち、同義語対抽出装置を、コンピュータのハードウエアと、そのハードウエアにより実現されるプログラムと、ハードウエアに格納されるデータとによって実現するようにしても良い。具体的には、前記同義語対抽出処理を実現するためのプログラムやその他のデータを格納するハードディスク等の記録手段と、データを処理するCPU等の処理手段と、キーボードやマウス等の入力手段と、処理結果等のデータを表示するモニター等の表示手段等からなるコンピュータシステムによって同義語対抽出装置を実現しても良い。
また、単語の文字列一致の比較で表層形で比較をしていたが、形態素解析で出力される原形を用いて比較をしても良い。
また、コンピュータシステムをネットワーク上に配設して、前記記録手段や処理手段等を複数箇所や一箇所に設けてもよい。ネットワーク上の既存の機能を利用して、同義語対抽出処理機能を組み込んでも良い。
これらの場合も、前記各実施形態と同様の作用、効果を奏することができる。
本発明の第1の実施形態に係る同義語対抽出装置の機能的構成を示すブロック図である。 同意文対生成部での同意文対の生成例を示す模式図である。 同義語対候補抽出部による同義語対候補の抽出例を示す模式図である。 不要単語の削除処理例を示す模式図である。 本発明の第2の実施形態に係る同義語対抽出装置の機能的構成を示すブロック図である。 同意文対生成部の機能的構成を示すブロック図である。 同義語対選択部での同義語対の選択例を示す模式図である。 文対作成部での単純な順列組み合わせによる文対作成例を示す模式図である。
符号の説明
100:同意テキスト、101:同義語対抽出装置、102:文区切り処理部、103:形態素解析処理部、104:同意文対生成部、105:同義語対候補抽出部、108:同義語対出力部、200:同意テキスト、201:同義語対抽出装置、202:文区切り処理部、203:形態素解析処理部、204:同意文対生成部、205:同義語対候補抽出部、206:同義語対選択部、207:編集部、208:同義語対出力部、209:編集規則群、401:文対作成部、402:文対類似度計算部、403:同意文対出力部。

Claims (19)

  1. 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出装置であって、
    前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段と、
    前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力手段と
    を備えて構成されたことを特徴とする同義語対抽出装置。
  2. 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出装置であって、
    互いに同じ意味を表す同義語を複数含む前記同意テキストから文単位で文字列を切り出す文区切り処理手段と、
    前記同意テキストを構成する単語に対応する品詞情報を付与するための形態素解析処理手段と、
    前記複数の同意テキストから、同意テキストに含まれる同意文の対からなる同意文対を作成するための同意文対生成手段と、
    前記同意文対生成手段によって、相違する前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出手段と、
    前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力手段と
    を備えて構成されたことを特徴とする同義語対抽出装置。
  3. 前記同義語対候補抽出手段は、少なくとも一方の単語列に、1つ以上の自立語を含めて比較することを特徴とする請求項1又は2に記載の同義語対抽出装置。
  4. 前記同義語対出力手段は、前記同義語対候補揃出手段により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する単語列の、前記互いに異なる単語列以外の所定の領域に存在しないという条件を満たすもののみを選択するための同義語対選択手段を含むことを特徴とする請求項1ないし3のいずれか1項に記載の同義語対抽出装置。
  5. 前記同義語対出力手段は、前記同義語対選択手段により選択した同義語対候補のうち、所定の編集規則により規定される条件に合うものに対し、その条件により指定される編集処理を実行して同義語対を出力するための編集手段を含むことを特徴とする請求項4に記載の同義語対抽出装置。
  6. 前記所定の編集規則は所定の単語削除規則を含み、
    前記編集手段は、前記同義語対選択手段により選択された同義語対候補のうち、前記単語削除規則のいずれかによって規定される条件に合うものに該当した単語削除規則により指定される処理に従い、
    前記同義語対候補のうち少なくとも一方の先頭または末尾に位置する単語または単語列を削除することを特徴とする請求項5に記載の同義語対抽出装置。
  7. 前記同義語対選択手段は、前記同義語対候補抽出手段により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する同意表現の、前記互いに異なる単語列以外の領域のいずれにも存在しないという条件を満たしているものを選択することを特徴とする請求項4ないし6のいずれか1項に記載の同義語対抽出装置。
  8. 前記同義語対選択手段は、前記同義語対候補抽出手段により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方に属する同意表現の、前記互いに異なる単語列の前後に隣接する所定長の領域のいずれにも存在しないという条件を満たしているもののみを選択することを特徴とする請求項4ないし6のいずれか1項に記載の同義語対抽出装置。
  9. 前記同意文対生成手段は、相違する同意テキストから、前記文区切り処理手段により切り出された各文を順番に取り出して対を作成する文対作成手段と、
    前記文対作成手段で作成した文対に対し、類似度を計算する文対類似度計算手段と、
    前記文対類似度計算手段で計算された所定の類似度を持つ文対を同意文対として出力する同意文対出力手段と、
    を含むことを特徴とする請求項2ないし8のいずれか1項に記載の同義語対抽出装置。
  10. 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出方法であって、
    前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出工程と、
    前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力工程と
    を備えて構成されたことを特徴とする同義語対抽出方法。
  11. 単一の言語で記述された複数の同意テキストを含む文書群から同義語対を抽出するための同義語対抽出方法であって、
    互いに同じ意味を表す同義語を複数含む前記同意テキストから文単位で文字列を切り出す文区切り処理工程と、
    前記同意テキストを構成する単語に対応する品詞情報を付与するための形態素解析処理工程と、
    前記複数の同意テキストから、同意テキストに含まれる同意文の対からなる同意文対を作成するための同意文対生成工程と、
    前記同意文対生成手段によって、相違する前記同意テキストから生成された同意文対を、その同意文対を構成する各単語の文字列と品詞を含めて互いに比較し、同意文対間において共通する複数の単語列と、当該共通する複数の単語列のうちの任意の二つの単語列に挟まれた、同意文対間において互いに異なる単語列からなる単語列対を、同意文対からそれぞれ同義語対候補として抽出するための同義語対候補抽出工程と、
    前記同義語対候補抽出手段によって抽出された同義語対候補を編集して同義語対として出力するための同義語対出力工程と
    を備えて構成されたことを特徴とする同義語対抽出方法。
  12. 前記同義語対候補抽出工程は、少なくとも一方の単語列に、1つ以上の自立語を含めて比較することを特徴とする請求項10又は11に記載の同義語対抽出方法。
  13. 前記同義語対出力工程は、前記同義語対候補揃出工程により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する単語列の、前記互いに異なる単語列以外の所定の領域に存在しないという条件を満たすもののみを選択するための同義語対選択工程を含むことを特徴とする請求項10ないし12のいずれか1項に記載の同義語対抽出方法。
  14. 前記同義語対出力工程は、前記同義語対選択工程により選択した同義語対候補のうち、所定の編集規則により規定される条件に合うものに対し、その条件により指定される編集処理を実行して同義語対を出力するための編集工程を含むことを特徴とする請求項13に記載の同義語対抽出方法。
  15. 前記所定の編集規則は所定の単語削除規則を含み、
    前記編集工程は、前記同義語対選択工程により選択された同義語対候補のうち、前記単語削除規則のいずれかによって規定される条件に合うものに該当した単語削除規則により指定される処理に従い、
    前記同義語対候補のうち少なくとも一方の先頭または末尾に位置する単語または単語列を削除することを特徴とする請求項14に記載の同義語対抽出方法。
  16. 前記同義語対選択工程は、前記同義語対候補抽出工程により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方が属する同意表現の、前記互いに異なる単語列以外の領域のいずれにも存在しないという条件を満たしているものを選択することを特徴とする請求項13ないし15のいずれか1項に記載の同義語対抽出方法。
  17. 前記同義語対選択工程は、前記同義語対候補抽出工程により抽出された同義語対候補のそれぞれに対し、前記互いに異なる単語列のうち、同義語対候補の一方に属する単語が、同義語対候補の他方に属する同意表現の、前記互いに異なる単語列の前後に隣接する所定長の領域のいずれにも存在しないという条件を満たしているもののみを選択することを特徴とする請求項13ないし15のいずれか1項に記載の同義語対抽出方法。
  18. 前記同意文対生成工程は、相違する同意テキストから、前記文区切り処理工程により切り出された各文を順番に取り出して対を作成する文対作成工程と、
    前記文対作成工程で作成した文対に対し、類似度を計算する文対類似度計算工程と、
    前記文対類似度計算工程で計算された所定の類似度を持つ文対を同意文対として出力する同意文対出力工程と、
    を含むことを特徴とする請求項11ないし17のいずれか1項に記載の同義語対抽出方法。
  19. 前記各工程及び予め用意しておくデータを、コンピュータが処理し得るコードで記述したことを特徴とする請求項10から18のいずれかに記載の同義語対抽出方法。
JP2006050694A 2006-02-27 2006-02-27 同義語対抽出装置及び同義語対抽出方法 Expired - Fee Related JP5028823B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006050694A JP5028823B2 (ja) 2006-02-27 2006-02-27 同義語対抽出装置及び同義語対抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006050694A JP5028823B2 (ja) 2006-02-27 2006-02-27 同義語対抽出装置及び同義語対抽出方法

Publications (2)

Publication Number Publication Date
JP2007233446A true JP2007233446A (ja) 2007-09-13
JP5028823B2 JP5028823B2 (ja) 2012-09-19

Family

ID=38554021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006050694A Expired - Fee Related JP5028823B2 (ja) 2006-02-27 2006-02-27 同義語対抽出装置及び同義語対抽出方法

Country Status (1)

Country Link
JP (1) JP5028823B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128968A (ja) * 2007-11-20 2009-06-11 Fuji Xerox Co Ltd 表記ゆれ解析装置
KR101400412B1 (ko) * 2012-07-13 2014-05-27 주식회사 다음커뮤니케이션 검색 시스템 및 그의 동의어 생성 방법
JP2020030481A (ja) * 2018-08-20 2020-02-27 富士通株式会社 処理方法、処理プログラムおよび情報処理装置
US10671577B2 (en) 2016-09-23 2020-06-02 International Business Machines Corporation Merging synonymous entities from multiple structured sources into a dataset
CN112395867A (zh) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
WO2022044954A1 (en) * 2020-08-31 2022-03-03 Recruit Co., Ltd. Systems and methods for unsupervised paraphrase mining

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298371A (ja) * 1992-04-20 1993-11-12 Ricoh Co Ltd 検索システム
JP2005115468A (ja) * 2003-10-03 2005-04-28 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05298371A (ja) * 1992-04-20 1993-11-12 Ricoh Co Ltd 検索システム
JP2005115468A (ja) * 2003-10-03 2005-04-28 Mitsubishi Electric Corp テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128968A (ja) * 2007-11-20 2009-06-11 Fuji Xerox Co Ltd 表記ゆれ解析装置
KR101400412B1 (ko) * 2012-07-13 2014-05-27 주식회사 다음커뮤니케이션 검색 시스템 및 그의 동의어 생성 방법
US10671577B2 (en) 2016-09-23 2020-06-02 International Business Machines Corporation Merging synonymous entities from multiple structured sources into a dataset
JP2020030481A (ja) * 2018-08-20 2020-02-27 富士通株式会社 処理方法、処理プログラムおよび情報処理装置
JP7243079B2 (ja) 2018-08-20 2023-03-22 富士通株式会社 処理方法、処理プログラムおよび情報処理装置
WO2022044954A1 (en) * 2020-08-31 2022-03-03 Recruit Co., Ltd. Systems and methods for unsupervised paraphrase mining
US11741312B2 (en) 2020-08-31 2023-08-29 Recruit Co., Ltd. Systems and methods for unsupervised paraphrase mining
CN112395867A (zh) * 2020-11-16 2021-02-23 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备
CN112395867B (zh) * 2020-11-16 2023-08-08 中国平安人寿保险股份有限公司 同义词挖掘方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
JP5028823B2 (ja) 2012-09-19

Similar Documents

Publication Publication Date Title
JP5028823B2 (ja) 同義語対抽出装置及び同義語対抽出方法
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP3735336B2 (ja) 文書要約方法及びシステム
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
JP2004246440A (ja) 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
Ali et al. Detection of plagiarism in Urdu text documents
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4793931B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JPH03105465A (ja) 複合語抽出装置
Adewole et al. Token Validation in Automatic Corpus Gathering for Yoruba Language
KR100434526B1 (ko) 문맥정보및지역적문서형태를이용한문장추출방법
JP4646078B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
Ménard et al. A French Corpus of Québec’s Parliamentary Debates
Kumar et al. TelStem: An unsupervised telugu stemmer with heuristic improvements and normalized signatures
JP4049141B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JP2009140056A (ja) 言語知識獲得装置および言語知識獲得プログラム
JP2018073298A (ja) 人工知能装置による手段・方法の自動抽出・作成方法
Mubarak et al. Lexical and Morphological Statistics of an Arabic POS-Tagged Corpus
Saggion Linguistically Enhanced Text to Sign Gloss Machine Translation
CN107526719B (zh) 一种基于混合特征的中文文档基因提取方法
JP3923829B2 (ja) メッセージ要約装置、メッセージ要約方法及びコンピュータにメッセージの要約を実行させるためのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120611

R150 Certificate of patent or registration of utility model

Ref document number: 5028823

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees