JP2007079730A - 単語類似判断装置、方法及びプログラム - Google Patents
単語類似判断装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2007079730A JP2007079730A JP2005264318A JP2005264318A JP2007079730A JP 2007079730 A JP2007079730 A JP 2007079730A JP 2005264318 A JP2005264318 A JP 2005264318A JP 2005264318 A JP2005264318 A JP 2005264318A JP 2007079730 A JP2007079730 A JP 2007079730A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- word
- words
- group
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】2単語の類似性を今まで以上に適切に判断する。
【解決手段】本発明は、入力された電子文書内の2単語の類似性を判断するものである。本発明では、電子文書から単語間の係り受け関係の情報を抽出し、抽出された係り受け情報を統計的に処理して類似判断対象の2単語間の第1の類似度を計算する。また、判断対象の2単語の意味情報の一致性を表す第2の類似度と、判断対象の2単語の字句情報の一致性を表す第3の類似度の一方又は両方が該当する非統計類似度を計算する。そして、第1の類似度及び非統計類似度を合成した合成類似度を計算し、合成類似度に基づいて、類似性を判別して所定の処理(例えば分類)を行う。
【選択図】 図1
【解決手段】本発明は、入力された電子文書内の2単語の類似性を判断するものである。本発明では、電子文書から単語間の係り受け関係の情報を抽出し、抽出された係り受け情報を統計的に処理して類似判断対象の2単語間の第1の類似度を計算する。また、判断対象の2単語の意味情報の一致性を表す第2の類似度と、判断対象の2単語の字句情報の一致性を表す第3の類似度の一方又は両方が該当する非統計類似度を計算する。そして、第1の類似度及び非統計類似度を合成した合成類似度を計算し、合成類似度に基づいて、類似性を判別して所定の処理(例えば分類)を行う。
【選択図】 図1
Description
本発明は単語類似判断装置、方法及びプログラムに関し、例えば、電子文書内のキーワードを意味的に近いグループにまとめる装置などに適用し得るものである。
従来、単語を分類する方法として、特許文献1に記載の方法がある。この方法では、単語と単語の特定の文脈における共起頻度を計数する。そして、この共起頻度を入力し、確率モデルの推定問題として、単語の分類を行い、単語分類を出力する。単語の自動分類問題を二つの単語集合の分割の直積上で定義される確率モデルの推定問題として捉え、各単語対の発生確率をクラスタ対の発生確率にそれぞれの単語の条件付き確率を乗じた確率と定義する確率モデルの中から、情報量基準を用いて確率モデルを選択し、ボトムアップ的に二つの単語集合に対して交互にクラスタリングを行い、単語を分類する。
また、非特許文献1に代表される、シソーラス辞書は、単語に意味コードを付与し、階層的にグループ化(分類)したものである。
特開平11−143875号公報
大野晋、浜西正人共著、「角川類語新辞典」、角川書店発行、1981年
しかしながら、特許文献1の記載方法(第1の方法)では、例えば、プリンタ関連の文書において、「プリンタ」、「印刷」、「印字」、「用紙」、「A4」のように、分類(グループ化)する単語が対象となる文書中に統計的に充分な頻度で出現することが必要であり、「ジャム」、「管理者」、「クライアント」などの出現頻度の少ない単語については正しく分類できないという課題があった。
また、単語の意味コードを利用する分類方法(第2の方法)では、「Windows XP」(Windowsは登録商標)や「USB」のような辞書に記載されていない専門的な用語を分類できないという課題がある。また、食品種類の「ジャム」ではなくてプリンタの紙詰まりという意味での「ジャム」や、人(顧客)ではなくてサーバクライアントシステムでの一方のコンピュータという意味での「クライアント」のように、辞書に記載されていても、別の意味で使用する専門的な用語や、「オレンジ」のように複数の意味(食品種類、色)が辞書に記載されている単語を正しく分類できないという課題がある。例えば、プリンタ関連の文書であっても「ジャム」は「オレンジ」と同じグループになり、「クライアント」は「利用者」や「管理者」と同じグループになるという課題があった。
さらに、第1の方法の後に、第2の方法を実行して補完した場合、第1の方法で分類できなかった「管理者」を「利用者」と同じ(人という意味の)グループに分類できるが、「クライアント」と「利用者」が同じグループになる、「ジャム」と「オレンジ」が同じグループになるという問題点は解決されない。
例えば、製品名のリスト、部品のリスト、使用環境のリスト等、既に作成した単語のグループ(分類)を利用したい場合、そのグループを意味辞書として、第1の方法の後に実行される第2の方法により補完することになり、上述した問題点がそのまま残る。
そのため、2単語の類似性を適切に判断できる単語類似判断装置、方法及びプログラムが望まれている。
第1の本発明は、入力された電子文書内の2単語の類似性を判断する単語類似判断装置において、(1)上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出手段と、(2)抽出された係り受け情報を統計的に処理して類似判断対象の2単語間の第1の類似度を計算する第1の類似度計算手段と、(3)判断対象の2単語の意味情報の一致性を表す第2の類似度と、判断対象の2単語の字句情報の一致性を表す第3の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算手段と、(4)上記第1の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算手段と、(5)合成類似度に基づいて、所定の処理を行う類似結果利用手段とを備えることを特徴とする。
第2の本発明は、入力された電子文書内の2単語の類似性を判断する単語類似判断方法において、(1)上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出工程と、(2)抽出された係り受け情報を統計的に処理して類似判断対象の2単語間の第1の類似度を計算する第1の類似度計算工程と、(3)判断対象の2単語の意味情報の一致性を表す第2の類似度と、判断対象の2単語の字句情報の一致性を表す第3の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算工程と、(4)上記第1の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算工程と、(5)合成類似度に基づいて、所定の処理を行う類似結果利用工程とを備えることを特徴とする。
第3の本発明の単語類似判断プログラムは、第2の本発明の単語類似判断方法の工程及び用意しておくデータをコンピュータが処理し得るコードで記述したことを特徴とする。
本発明によれば、係り受け関係に基づいた第1の類似度と、意味情報に基づいた第2の類似度及び又は字句情報に基づいた第3の類似度との合成類似度に基づいて、2単語の類似性を判断するようにしたので、2単語の類似性を今まで以上に適切に判断できる。
(A)第1の実施形態
以下、本発明による単語類似判断装置、方法及びプログラムを、単語分類方法、装置及びプログラムに適用した第1の実施形態を、図面を参照しながら説明する。
以下、本発明による単語類似判断装置、方法及びプログラムを、単語分類方法、装置及びプログラムに適用した第1の実施形態を、図面を参照しながら説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の単語分類装置の機能的構成を示すブロック図である。例えば、第1の実施形態の単語分類装置は、パソコン等の情報処理装置に対し、CD−ROMやフレキシブルディスク等の記録媒体に記録されている単語分類プログラム(データファイルや、データを格納するテーブル等を含む)をインストールしたり、単語分類プログラムをネットワークからダウンロードしてインストールしたりすることで実現されるが、機能的には、図1で表すことができる。なお、単語分類装置の多くの部分を、例えば、ASIC等、専用的なハードウェアとして実現しても良い。
図1は、第1の実施形態の単語分類装置の機能的構成を示すブロック図である。例えば、第1の実施形態の単語分類装置は、パソコン等の情報処理装置に対し、CD−ROMやフレキシブルディスク等の記録媒体に記録されている単語分類プログラム(データファイルや、データを格納するテーブル等を含む)をインストールしたり、単語分類プログラムをネットワークからダウンロードしてインストールしたりすることで実現されるが、機能的には、図1で表すことができる。なお、単語分類装置の多くの部分を、例えば、ASIC等、専用的なハードウェアとして実現しても良い。
図1において、第1の実施形態の単語分類装置10は、制御部1、文書入力部2、係り受け抽出部3、キーワード抽出部4、意味辞書引き部5、意味辞書6、グループ生成部7及びグループ出力部8を有する。
制御部1は、文書入力部2、係り受け出部3、キーワード抽出部4、グループ生成部7、グループ出力部8に接続されており、当該単語分類装置10での単語分類処理の全体の処理を制御するものである。
文書入力部2は、対象となる電子文書(ファイル)を取り込むものである。文書入力部2は、例えば、CD−ROMやフレキシブルディスク等の記録媒体から電子文書を読み込むものであっても良く、OCRなどによって電子文書を取り込むものであっても良く、ネットワークから電子文書を取り込むものであっても良い。また例えば、オペレータが電子文書をキー入力し、それを取り込むものであっても良い。
係り受け抽出部3は、入力された電子文書を解析し、単語と単語、あるいは、助詞を介した単語と単語の係り受け関係を抽出するものである。係り受け抽出部3は、例えば、奈良先端大学院大学で開発された「南瓜」(工藤、松本著、「チャンキングの段階適用による係り受け解析」、情報処理学会第142回自然言語処理研究会、参照)と同等の機能を実行するものである。
キーワード抽出部4は、入力された電子文書内の専門用語としてのキーワードを抽出するものである。キーワード抽出部4は、例えば、東京大学と横浜国立大学が共同で開発した「専用用語自動抽出システム」(湯本、森、中川著、「出現頻度と連接頻度に基づく専門用語抽出」、情報処理学会第145回自然言語処理研究会、参照)と同等の機能を実行するものである。キーワード抽出部4は、制御部1に加えて、意味辞書引き部5に接続されており、意味辞書引き部5による意味辞書6の辞書引きの結果であるキーワードの意味情報も取り込むものである。
意味辞書引き部5は、キーワード抽出部4の依頼により、意味辞書6に対する辞書引きを行ってキーワードの意味情報を取得し、キーワード抽出部4に与えるものである。
意味辞書引き部5は、キーワード抽出部4の依頼により、意味辞書6に対する辞書引きを行ってキーワードの意味情報を取得し、キーワード抽出部4に与えるものである。
意味辞書6は、単語の意味情報を格納したものである。意味辞書6としては、例えば、図2に示すような構成を有するものを適用する。すなわち、各単語に対して、見出し、品詞、意味情報から構成されているものを適用する。ここで、意味情報は、例えば、非特許文献1に代表される意味分類コードと同等のものである。
グループ生成部7は、キーワード抽出部4で抽出されたキーワードを、その意味情報、係り受け情報、字句情報などに基づいて、グループに分類するものである。この第1の実施形態は、グループ生成部7が、分類のために計算する「単語間の類似度」に大きな特徴を有するものであり、動作説明の項で、「単語間の類似度」について詳述する。
グループ出力部8は、グループ生成部7によって生成されたグループの情報を出力するものである。グループ出力部8による出力は、表示出力や印刷出力だけでなく、記憶媒体などへの記憶でも良く、ネットワークを介した他の装置への転送でも良い。また、入力された電子文書に対し、検索に対応するための付加情報として付加した記録であっても良い。
(A−2)第1の実施形態の動作
次に、第1の実施形態の単語分類装置10の動作(単語分類方法)を、フローチャートを参照しながら説明する。
次に、第1の実施形態の単語分類装置10の動作(単語分類方法)を、フローチャートを参照しながら説明する。
ここで、図3は、単語分類装置10の全体動作を示すフローチャートであり、まず、図3を参照して、単語分類装置10の全体動作を説明する。
まず、制御部1の指示により、文書入力部2は、利用者に電子文書ファイルを指定させ、指定された電子文書を読み込む(S100)。
制御部1は、読み込んだ電子文書をキーワード抽出部4に送り、キーワードを抽出することを指示し、キーワード抽出部4は、送られた電子文書からキーワードを抽出して制御部1に返す(S101)。その際、意味辞書引き部5に指示を送り、意味辞書6から意味情報を取得してキーワードに付与する(S102)。
図5は、抽出されたキーワードとその意味情報の例を示す説明図である。図5の例では、「ジャム」に対して食べ物を表す意味情報「0305」が付されており、「用紙ジャム」は一語にまとめられ、意味情報は付与されていない。
次に、制御部1は、キーワード抽出部4で抽出されたキーワードの一覧と電子文書を係り受け抽出部3に送り、係り受けを抽出することを指示し、係り受け抽出部3は、送られたキーワードの一覧をもとに単語を切り出す処理を行い、送られた電子文書を解析し、係り受け単語の組とその出現頻度を制御部1に返す。この第1の実施形態の場合、係り受け単語の組は、「ネットワークに接続する」、「印刷がきれい」のような名詞、助詞、述語の3つ組だけを抽出し、述語に付属する助動詞や助詞は、受身の助動詞「れる」、「られる」以外は抽出しない。
図6は、係り受け抽出部3によって抽出された係り受けとその出現頻度の例を示す説明図である。例えば、係り受け「ジャムになる」の出現頻度は「104」である。
制御部1は、係り受け(出現頻度を含む)の一覧及びキーワード(意味情報を含む)の一覧をグループ生成部7に送り、グループを生成することを指示し、グループ生成部7は、キーワードに関するグループを生成して制御部1に返す(S104)。制御部1は、生成されたグループの情報をグループ出力部8に送り、出力することを指示し、グループ出力部8は、グループ情報を出力し(S105)、一連の処理を終了する。
図4は、グループ生成部7でのグループ生成処理の詳細な流れを示したフローチャートである。
まず、グループ生成部7は、送られた係り受けの一覧をもとに、全ての受け側単語について、述語分解能の計算を行う(S200)。
述語分解能は、助詞+述語によってどれだけ名詞の意味が規定できるかを示す指標であり、多くの種類の名詞と係り受け関係がある助詞+述語ほど、低い値になる。述語分解能は、例えば、プリンタ関連の文書では、「を+する」(+は不存在を含めたオールマイティを表しており、例えば、「を印刷する」、「を接続する」、「をキャンセルする」等が該当する)は、多くの名詞と係り受け関係があるが、「が+点滅する」は「ランプ」等、少数の名詞としか係り受け関係がないことから、「を+する」では名詞の意味をほとんど規定できないが、「が+点滅する」は名詞の意味をかなり規定できることを利用している。述語分解能R(p)は、例えば、以下の式によって計算される。
R(p)=1+log(F(p)/F’(p))/2 …(1)
F’(p)=F0(p)*(1+log(F0(p))) …(2)
(1)式及び(2)式において、logは常用対数、pは助詞+述語(これらをまとめて受け側語句と呼ぶ)、F(p)は受け側語句pを含む係り受けデータの数、F0(p)は受け側語句pに係る係り側語句が受け側語句p以外の受け側語句と係り受け関係にある係り受けデータの数(異なり数という)である。但し、0≦R(p)≦1とし、範囲を越える場合は境界値とする。
F’(p)=F0(p)*(1+log(F0(p))) …(2)
(1)式及び(2)式において、logは常用対数、pは助詞+述語(これらをまとめて受け側語句と呼ぶ)、F(p)は受け側語句pを含む係り受けデータの数、F0(p)は受け側語句pに係る係り側語句が受け側語句p以外の受け側語句と係り受け関係にある係り受けデータの数(異なり数という)である。但し、0≦R(p)≦1とし、範囲を越える場合は境界値とする。
例えば、ある文書で受け側語句「に+なる」を含む係り受けデータの数が6683件、異なり数が1789件の場合、
F’(に+なる)=1789*(1+log(1789))=7607.92
R(に+なる)=(1+log(6683/7607.92))/2=0.472
となる。また例えば、受け側語句「が+点滅する」を含む係り受けデータの数が214件、異なり数が50件の場合、
F’(が+点滅する)=50*(1+log(50))=134.94
R(が+点滅する)=(1+log(214/134.94))/2=0.600
となる。
F’(に+なる)=1789*(1+log(1789))=7607.92
R(に+なる)=(1+log(6683/7607.92))/2=0.472
となる。また例えば、受け側語句「が+点滅する」を含む係り受けデータの数が214件、異なり数が50件の場合、
F’(が+点滅する)=50*(1+log(50))=134.94
R(が+点滅する)=(1+log(214/134.94))/2=0.600
となる。
グループ生成部7は、次に、送られた係り受けの一覧をもとに、全ての係り側語句、受け側語句の組み合わせについて、係り受け強度計算を行う(S201)。
係り受け強度は、係り受け関係の強さを示す指標であり、係り受けデータの頻度が高いほど、また、係り側語句、受け側語句の頻度が小さいほど、係り受け強度は大きな値になる。係り受け強度W(n,p)は、例えば、以下の式によって計算される。
W(n,p)=√(1−exp(−(2*σ(n,p)2)/π)) …(3)
σ(n,p)=(F(n,p)−e(n,p))/√(e(n,p)) …(4)
e(n,p)=F(n)*F(p)/F+α …(5)
(3)式〜(5)式において、nは係り側語句としての名詞、pは受け側語句としての助詞+述語、F(n,p)はnとpを含む係り受けデータの数、F(n)はnを含む係り受けデータの数、F(p)はpを含む係り受けデータの数、Fは全ての係り受けデータの数である。αは補正項の定数である。但し、0≦σ(n,p)、及び、0≦W(n,p)≦1とし、範囲を越える場合は境界値する。
σ(n,p)=(F(n,p)−e(n,p))/√(e(n,p)) …(4)
e(n,p)=F(n)*F(p)/F+α …(5)
(3)式〜(5)式において、nは係り側語句としての名詞、pは受け側語句としての助詞+述語、F(n,p)はnとpを含む係り受けデータの数、F(n)はnを含む係り受けデータの数、F(p)はpを含む係り受けデータの数、Fは全ての係り受けデータの数である。αは補正項の定数である。但し、0≦σ(n,p)、及び、0≦W(n,p)≦1とし、範囲を越える場合は境界値する。
この係り受け強度W(n,p)は、係り側単語及び受け側単語が独立に出現すると仮定した場合の出現頻度予測の累積確率密度分布により実際の出現頻度を正規化したものである。
例えば、「ランプが+点滅する」の係り受けデータの数が51件、「ランプ」を含む係り受けデータの数が271件、「が+点滅する」を含む係り受けデータの数が214件、全ての係り受けデータの数が252634件の場合、αを0.5とすると、
e(ランプ、が+点滅する)=271*214/252634+0.5=0.730
σ(ランプ、が+点滅する)=(51−0.730)/√(0.730)
=58.84
W(ランプ、が+点滅する)=√(1−exp(−(2*58.842)/3.14))
=1.000
となる。また例えば、「文字が+点滅する」が1件、「文字」が837件で、他が同様であれば、
e(文字、が+点滅する)=837*214/252634+0.5=1.209
σ(文字、が+点滅する)=(1−1.209)/√(1.209)=0.0
W(文字が+点滅する)=√(1−exp(−(2*0.02)/3.14))
=0.0
となる。
e(ランプ、が+点滅する)=271*214/252634+0.5=0.730
σ(ランプ、が+点滅する)=(51−0.730)/√(0.730)
=58.84
W(ランプ、が+点滅する)=√(1−exp(−(2*58.842)/3.14))
=1.000
となる。また例えば、「文字が+点滅する」が1件、「文字」が837件で、他が同様であれば、
e(文字、が+点滅する)=837*214/252634+0.5=1.209
σ(文字、が+点滅する)=(1−1.209)/√(1.209)=0.0
W(文字が+点滅する)=√(1−exp(−(2*0.02)/3.14))
=0.0
となる。
グループ生成部7は、次に、全ての係り側語句の組み合わせについて、類似度計算を行う(S202)。
類似度は、単語が意味的に似ているかどうかを示す指標であり、共通する係り受け関係が多いほど、高い値になる。但し、単語の出現データ数に応じて、辞書の意味情報が近いかどうか、及び、文字列レベルの後方一致数を加味する。
単語n1及びn2の類似度S(n1,n2)は、3種類の類似度の和として、以下の(6)式によって計算される。
S(n1,n2)
=S0(n1,n2)+SS(n1,n2)+SL(n1,n2) …(6)
(6)式において、S0(n1,n2)は、電子文書から単語間の係り受けを抽出し統計的に計算した第1の類似度であり、SS(n1,n2)は、意味辞書6の意味情報から計算した第2の類似度、SL(n1,n2)は、単語の字句情報から計算した第3の類似度である。
=S0(n1,n2)+SS(n1,n2)+SL(n1,n2) …(6)
(6)式において、S0(n1,n2)は、電子文書から単語間の係り受けを抽出し統計的に計算した第1の類似度であり、SS(n1,n2)は、意味辞書6の意味情報から計算した第2の類似度、SL(n1,n2)は、単語の字句情報から計算した第3の類似度である。
第1の類似度S0(n1,n2)は、以下の式によって計算され、0〜1の範囲の値である。なお、第1の類似度S0(n1,n2)の範囲が0〜1の範囲になるように、下記の式を用いることにしており、下記の式自体、新しいものである。すなわち、係り受けを抽出して統計的に類似度を計算する計算式は種々存在するが、以下のような式は今までに存在しないものである。このような式を導入したことにより、第2の類似度SS(n1,n2)や第3の類似度SL(n1,n2)と同じオーダーの値となり、(6)式のような積算が可能なものとなっている。
S0(n1,n2)
=(Sim0(n1→n2)+Sim0(n2→n1))/2 …(7)
Sim0(n1→n2)
=Σ{Dim(n1→n2)}(W(n1,p)*R(p)*W(n2,p)*R(p))
/Σ{p}R(p) …(8)
Dim(n1→n2)
=max(Dmin,√(F0(n1)*F0(n2)),√F(n1))…(9)
Dim(n1→n2)は、単語n2に対する単語nの類似度Sim0(n1→n2)の対象ベクトル数であり、3個の値Dmin、√(F0(n1)*F0(n2))及び√F(n1)の最大値としている。Dminは固定値であり、例えば、5とする。F(n1)、F(n2)は単語n1、n2を含む係り受けデータ数、F0(n1)、F0(n2)は単語n1、n2についての異なり数である。なお、(8)式における総和Σは、その直後に記述されている{ }内のパラメータについて計算されるものである。
=(Sim0(n1→n2)+Sim0(n2→n1))/2 …(7)
Sim0(n1→n2)
=Σ{Dim(n1→n2)}(W(n1,p)*R(p)*W(n2,p)*R(p))
/Σ{p}R(p) …(8)
Dim(n1→n2)
=max(Dmin,√(F0(n1)*F0(n2)),√F(n1))…(9)
Dim(n1→n2)は、単語n2に対する単語nの類似度Sim0(n1→n2)の対象ベクトル数であり、3個の値Dmin、√(F0(n1)*F0(n2))及び√F(n1)の最大値としている。Dminは固定値であり、例えば、5とする。F(n1)、F(n2)は単語n1、n2を含む係り受けデータ数、F0(n1)、F0(n2)は単語n1、n2についての異なり数である。なお、(8)式における総和Σは、その直後に記述されている{ }内のパラメータについて計算されるものである。
例えば、図6のような係り受け関係の出現頻度の場合、「ジャム」及び「用紙ジャム」について、おおむね限定された同じ受け側語句をとることが多く、受け側語句の異なり数が少ないので、第1の類似度S0(n1,n2)は0〜1の範囲内で大きめの値になる。
第2の類似度SS(n1,n2)は、2つの単語n1、n2の意味情報の一致、不一致等から求める。
意味情報が、例えば、4桁であって、上位2桁が大分類、3桁目が中分類、最後の桁が小分類の場合、例えば、完全に一致するときには、第2の類似度SS(n1,n2)を0.3にし、3桁目まで一致するときには0.2にし、上位2桁が一致するときには0.1にする。
図5の例であれば、「ジャム」及び「用紙ジャム」は一方に意味情報が付されていないので、第2の類似度SS(n1,n2)は0.0になる。
第3の類似度SL(n1,n2)は、2つの単語n1、n2の文字の後方一致の条件によって求める。
例えば、一方の単語に「お」又は「ご」を付けると完全一致する場合には、第3の類似度SL(n1,n2)を0.5にする。また、後方一致の文字数が3以上の場合には、第3の類似度SL(n1,n2)を一致文字数×0.1とし、一致文字数が2文字の場合には、第3の類似度SL(n1,n2)を0.3にする。但し、一致文字列がカタカナ又はひらがなの場合には、上述して得られた値の半分を第3の類似度SL(n1,n2)とする。
「ジャム」及び「用紙ジャム」は後方3文字が一致し、一致文字列がカタカナであるので、第3の類似度SL(n1,n2)は0.15になる。
以上のようにして、キーワード抽出された単語の2単語ずつの組合せについて、類似度が得られた場合には、グループ生成部7は、グループの生成を行う(S203)。
グループ生成では、既存グループをもとにグループ生成を行う。但し、既存グループがない場合や、既存グループへの追加生成でない方法が選択された場合には、全てのキーワード抽出された単語をそれぞれ、1グループに設定した後、既存グループがある場合と同様な処理を行う。
グループ生成では、以下の式によって表される、グループgのグループスコアSg(g)が適宜利用される。
Sg(g)=0 (1語のグループの場合) …(10−1)
Sg(g)=(Σ{n∈g}Sn(n|g))/C1(g)
(2語以上のグループの場合) …(10−2)
Sn(n|g)=(Σ{m∈g}(n,m))/C2(g) …(11)
これらの式において、C1(g)はグループg内の単語数、C2(g)はグループg内の2個の単語の組合せ数、S(n,m)は単語n、mの上述した類似度である。
Sg(g)=(Σ{n∈g}Sn(n|g))/C1(g)
(2語以上のグループの場合) …(10−2)
Sn(n|g)=(Σ{m∈g}(n,m))/C2(g) …(11)
これらの式において、C1(g)はグループg内の単語数、C2(g)はグループg内の2個の単語の組合せ数、S(n,m)は単語n、mの上述した類似度である。
まず、類似度S(n1,n2)の高い順にソーティングを行い、類似度S(n1,n2)の高い順に、2個の単語n1及びn2を処理対象とする。
処理対象の2個の単語n1及びn2が既に同じグループに割り当てられたものである場合には、なんら処理を行うことなく、次の処理対象に移行する。
2個の単語n1及びn2のグループが異なり、その類似度S(n1,n2)が第1の閾値(例えば、0.5)以上の場合には、グループを統合し、グループスコアSg(g1+g2)を計算し直す。
2個の単語n1及びn2のグループが異なり、その類似度S(n1,n2)が第2の閾値(例えば、0.33)以上の場合には、両方の単語n1、n2共に1語のグループに属しているか判別する。
少なくとも一方が2語のグループに属している場合であれば、仮にグループを統合した場合のグループスコアSg(g1+g2)を計算し、このグループスコアSg(g1+g2)が、Sg(g1)+Sg(g2)以上ならば、グループを統合し、このような大小関係が成立しないならば、グループを統合することなく、次の処理対象に移行する。
両方の単語n1、n2共に1語のグループに属している場合には、構成単語が1語n3の他のグループをも処理対象とし、仮にグループを統合した場合のグループスコアSg(g1+g2+g3)を計算し、このグループスコアSg(g1+g2+g3)が、Sg(g1)+Sg(g2)+Sg(g3)以上ならば、3つのグループを統合し、このような大小関係が成立しないならば、グループを統合することなく、次の処理対象に移行する。
以上のようにして、生成されたグループの情報が、上述したように、グループ出力部8によって出力される。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、文書を解析し、係り受け抽出部3、グループ生成部7を設け、単語間の係り受けを抽出し、それをもとにキーワード間の類似度を統計的に計算することによって、従来の第1の方法と同等の統計的なグループ化を実現し、また、意味辞書6を設け、類似度計算の1つの項として加えたことによって、従来の第2の方法と同等の辞書の意味情報を反映しており、類似度計算の式から、統計的、意味辞書それぞれ単独では分類できない単語であっても、双方の類似度によって分類することが可能な場合があり、より正しいグループ化が期待できる。さらに、字句的な類似度を類似度計算の1つの項として加えたことによって、文字レベルの分類を実現しており、さらに正しいグループ化が期待できる。
以上のように、第1の実施形態によれば、文書を解析し、係り受け抽出部3、グループ生成部7を設け、単語間の係り受けを抽出し、それをもとにキーワード間の類似度を統計的に計算することによって、従来の第1の方法と同等の統計的なグループ化を実現し、また、意味辞書6を設け、類似度計算の1つの項として加えたことによって、従来の第2の方法と同等の辞書の意味情報を反映しており、類似度計算の式から、統計的、意味辞書それぞれ単独では分類できない単語であっても、双方の類似度によって分類することが可能な場合があり、より正しいグループ化が期待できる。さらに、字句的な類似度を類似度計算の1つの項として加えたことによって、文字レベルの分類を実現しており、さらに正しいグループ化が期待できる。
以上のような3種類の観点の類似度判定を逐次に行うのではなく、それら3種類の観点の類似度が統合された類似度S(n1,n2)によって類似度を判定しているので、類似判定処理を効率良く実行することができる。
なお、共通する係り受け関係を反映させた第1の類似度S0(n1,n2)を上述のように、0〜1の範囲の値にしたことにより、意味辞書6の意味情報から計算した第2の類似度SS(n1,n2)や、単語の字句情報から計算した第3の類似度SL(n1,n2)と同様に、類似度S(n1,n2)に含めることができるようになった。
例えば、プリンタ関連での電子文書から作成した単語(キーワード)のグループの一つとして、「色、黒、黄色、シアン、イエロー、マゼンタ、C、M、Y…」のグループがある。このグループで、「黒」、「黄色」、「シアン」等は統計的な計算や意味辞書による意味情報によって同じグループに分類されており、「C」、「M」、「Y」(それぞれ「シアン」「マゼンタ」「イエロー」の略)は統計的な計算のみから同じグループに分類されている。
また例えば、「ジャム」や「用紙ジャム」が同じグループに分類される場合は、統計的な計算と、単語の字句情報とから分類されたことになる。
(B)第2の実施形態
次に、本発明による単語分類方法、装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
次に、本発明による単語分類方法、装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
(B−1)第2の実施形態の構成
図7は、第2の実施形態の単語分類装置10Aの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
図7は、第2の実施形態の単語分類装置10Aの機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一、対応符号を付して示している。
第2の実施形態の単語分類装置10Aは、第1の実施形態の単語分類装置10の構成に加え、グループ入力部9を有している。グループ入力部9は、制御部1に接続されており、既に作成したグループの情報を読み込むものである。グループ入力部9は、例えば、CD−ROMやフレキシブルディスク等の記録媒体からグループの情報を読み込むものであっても良く、OCRなどによってグループの情報を取り込むものであっても良く、ネットワークからグループの情報を取り込むものであっても良い。また例えば、オペレータがグループの情報をキー入力し、それを取り込むものであっても良い。
(B−2)第2の実施形態の動作
以下、第1の実施形態と異なる点を中心にして、第2の実施形態の動作を説明する。
以下、第1の実施形態と異なる点を中心にして、第2の実施形態の動作を説明する。
第2の実施形態の場合、制御部1の指示により、グループ入力部9が、単語のリストを1つのグループとしたグループの情報(グループ毎の単語リスト)を読み込み、制御部1は、読み込んだグループの情報(以下では外部入力グループ情報と呼ぶ)をグループ生成部7に送り、グループ生成部7は、それを保持する。
次に、制御部1の指示により、文書入力部2は利用者に文書ファイルを指定させ、指定された電子文書を読み込む。その後、単語間の類似度計算、及び、その結果をグループ生成部7に送るまでの処理は、第1の実施形態と同様である。
グループ生成部7は、計算によって求めた単語間の類似度S(n1,n2)を、保持している外部入力グループ情報に基づいて、見直す処理を実行する。処理対象の2単語が、同一の外部入力グループに属している場合にはその2単語間の類似度S(n1,n2)を最大値(例えば1.8)に修正する。また、処理対象の2単語が、異なる外部入力グループに属している場合にはその2単語間の類似度S(n1,n2)を最小値(例えば0)に修正する。
このような類似度の修正処理を行った後の処理は、第1の実施形態と同様である。
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加え、以下の効果を奏することができる。
第2の実施形態によれば、第1の実施形態の効果に加え、以下の効果を奏することができる。
第2の実施形態によれば、グループ入力部9を設け、グループ生成部7が、読み込んだグループによって、単語間の類似度を修正することにより、既に作成したグループを継承した上で新たなグループを生成することが可能になるという効果が得られる。
新たなグループを生成する際、既にあるグループ内の単語と新たな単語との類似度は、計算した結果をそのまま利用しているため、既にあるグループに新たな単語が追加される可能性がある。これによって、新語をグループに追加したり、グループとしていくつかの単語を指定してそれを増強させたりすることが可能になるという効果がある。
逆に、既にあるグループ内の単語と新たな単語との類似度を最小値(例えば0)に修正した場合は、既にあるグループは一切変更されない。
(C)他の実施形態
上記各実施形態では、第1〜第3の類似度を加算合成した類似度で単語間の類似を判断するものを示したが、第1及び第2の類似度を加算合成した類似度で単語間の類似を判断するようにしても良く、また、第1及び第3の類似度を加算合成した類似度で単語間の類似を判断するようにしても良い。
上記各実施形態では、第1〜第3の類似度を加算合成した類似度で単語間の類似を判断するものを示したが、第1及び第2の類似度を加算合成した類似度で単語間の類似を判断するようにしても良く、また、第1及び第3の類似度を加算合成した類似度で単語間の類似を判断するようにしても良い。
また、上記各実施形態では、第1〜第3の類似度を単純加算して統合した類似度を得るものを示したが、第1〜第3の類似度を重み付け加算して統合した類似度を得るようにしても良い。
さらに、上記各実施形態では、単語の意味情報を意味辞書の辞書引きによって得るものを示したが、文解析(意味解析)などによって意味情報を付与するようにしても良く、文解析によって意味情報を付与した場合の第2の類似度を、第2の類似度での最大値を付与するようにしても良い。
第1の実施形態では、単語のグループ化の基本的な方法を説明したが、対象文書をコールセンタ等で収集した問い合わせ内容のテキスト全体とし、出現する単語のグループ化をおこなった後、テキスト内の名詞、あるいは、名詞と述語の係り受けについて、グループに分類して統計をとるテキストマイニング装置にも適用可能である。
また、対象文書を複数の文書の文書群とし、各文書を、文書内に出現する単語のグループに分類することにより、文書を内容によって分類する文書分類装置にも応用可能である。その際、グループ内の単語が最も多く出現する1つのグループに分類する方法や、出現する単語に応じて複数のグループに分類する方法などがある。
上記各実施形態では、グループ化のために2単語の類似判断を行う装置を示したが、本発明による単語類似判断は、他の目的、用途のために適用しても良いことは勿論である。
1…制御部、2…文書入力部、3…係り受け抽出部、4…キーワード抽出部、5…意味辞書引き部、6…意味辞書、7…グループ生成部、8…グループ出力部、9…グループ入力部、10、10A…単語分類装置。
Claims (23)
- 入力された電子文書内の2単語の類似性を判断する単語類似判断装置において、
上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出手段と、
抽出された係り受け情報を統計的に処理して類似判断対象の2単語間の第1の類似度を計算する第1の類似度計算手段と、
判断対象の2単語の意味情報の一致性を表す第2の類似度と、判断対象の2単語の字句情報の一致性を表す第3の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算手段と、
上記第1の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算手段と、
合成類似度に基づいて、所定の処理を行う類似結果利用手段と
を備えることを特徴とする単語類似判断装置。 - 上記係り受け抽出手段による抽出対象の係り受け情報は、単語、助詞、述語の並びでなるパターン情報ことを特徴とする請求項1に記載の単語類似判断装置。
- 上記第1の類似度を、類似判断対象の各単語を含む上記パターン情報の助詞及び述語でなる受け側語句の共通性や、受け側語句が類似判断対象外の単語との共起性に基づいて、計算することを特徴とする請求項2に記載の単語類似判断装置。
- 係り側単語及び受け側単語が独立に出現すると仮定した場合の出現頻度予測の累積確率密度分布により実際の上記パターン情報毎の出現頻度を正規化して、上記第1の類似度の計算に利用していることを特徴とする請求項3に記載の単語類似判断装置。
- 第2の類似度を、意味辞書を辞書引きして得た意味情報に基づいて計算することを特徴とする請求項1に記載の単語類似判断装置。
- 第3の類似度を、各単語の最後尾からの文字の一致数をもとに計算することを特徴とする請求項1に記載の単語類似判断装置。
- 上記第1の類似度が0〜1の範囲の値とし、上記第2又は第3の類似度が0.5以下の値とし、上記合成類似度が、第1の類似度と非統計類似度の和であることを特徴とする請求項1に記載の単語類似判断装置。
- 上記類似結果利用手段は、単語のグループ化を行うものであることを特徴とする請求項1に記載の単語類似判断装置。
- 上記類似結果利用手段は、合成類似度が大きい単語のペアから順に、仮に、単語をそのグループに追加したとしたときにグループのスコアが大きくなる場合に、グループに単語を追加することを特徴とする請求項8に記載の単語類似判断装置。
- 上記グループのスコアは、グループ内の各単語間の合成類似度の総和と、グループ内の単語数から計算することを特徴とする請求項9に記載の単語類似判断装置。
- 外部から入力された外部入力グループの情報を取り込んで保持する外部入力グループ情報保持手段と、
類似判断対象の2単語が、同一の外部入力グループに属している場合に、その2単語の合成類似度を最大値に設定し、類似判断対象の2単語が、異なる外部入力グループに属している場合に、その2単語の合成類似度を最小値に設定する外部入力尊重手段と
を有することを特徴とする請求項1に記載の単語類似判断装置。 - 入力された電子文書内の2単語の類似性を判断する単語類似判断方法において、
上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出工程と、
抽出された係り受け情報を統計的に処理して類似判断対象の2単語間の第1の類似度を計算する第1の類似度計算工程と、
判断対象の2単語の意味情報の一致性を表す第2の類似度と、判断対象の2単語の字句情報の一致性を表す第3の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算工程と、
上記第1の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算工程と、
合成類似度に基づいて、所定の処理を行う類似結果利用工程と
を備えることを特徴とする単語類似判断方法。 - 上記係り受け抽出工程による抽出対象の係り受け情報は、単語、助詞、述語の並びでなるパターン情報ことを特徴とする請求項12に記載の単語類似判断方法。
- 上記第1の類似度を、類似判断対象の各単語を含む上記パターン情報の助詞及び述語でなる受け側語句の共通性や、受け側語句が類似判断対象外の単語との共起性に基づいて、計算することを特徴とする請求項13に記載の単語類似判断方法。
- 係り側単語及び受け側単語が独立に出現すると仮定した場合の出現頻度予測の累積確率密度分布により実際の上記パターン情報毎の出現頻度を正規化して、上記第1の類似度の計算に利用していることを特徴とする請求項14に記載の単語類似判断方法。
- 第2の類似度を、意味辞書を辞書引きして得た意味情報に基づいて計算することを特徴とする請求項12に記載の単語類似判断方法。
- 第3の類似度を、各単語の最後尾からの文字の一致数をもとに計算することを特徴とする請求項12に記載の単語類似判断方法。
- 上記第1の類似度が0〜1の範囲の値とし、上記第2又は第3の類似度が0.5以下の値とし、上記合成類似度が、第1の類似度と非統計類似度の和であることを特徴とする請求項12に記載の単語類似判断方法。
- 上記類似結果利用工程は、単語のグループ化を行うものであることを特徴とする請求項12に記載の単語類似判断方法。
- 上記類似結果利用工程は、合成類似度が大きい単語のペアから順に、仮に、単語をそのグループに追加したとしたときにグループのスコアが大きくなる場合に、グループに単語を追加することを特徴とする請求項19に記載の単語類似判断方法。
- 上記グループのスコアは、グループ内の各単語間の合成類似度の総和と、グループ内の単語数から計算することを特徴とする請求項20に記載の単語類似判断方法。
- 外部から入力された外部入力グループの情報を取り込んで保持する外部入力グループ情報保持工程と、
類似判断対象の2単語が、同一の外部入力グループに属している場合に、その2単語の合成類似度を最大値に設定し、類似判断対象の2単語が、異なる外部入力グループに属している場合に、その2単語の合成類似度を最小値に設定する外部入力尊重工程と
を有することを特徴とする請求項12に記載の単語類似判断方法。 - 請求項12〜22のいずれかに記載の単語類似判断方法の工程及び用意しておくデータをコンピュータが処理し得るコードで記述したことを特徴とする単語類似判断プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005264318A JP2007079730A (ja) | 2005-09-12 | 2005-09-12 | 単語類似判断装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005264318A JP2007079730A (ja) | 2005-09-12 | 2005-09-12 | 単語類似判断装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007079730A true JP2007079730A (ja) | 2007-03-29 |
Family
ID=37939995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005264318A Pending JP2007079730A (ja) | 2005-09-12 | 2005-09-12 | 単語類似判断装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007079730A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010035412A1 (ja) * | 2008-09-25 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP2011081626A (ja) * | 2009-10-07 | 2011-04-21 | Kddi R & D Laboratories Inc | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム |
JP2012032957A (ja) * | 2010-07-29 | 2012-02-16 | Fujitsu Ltd | まとめ上げ作業支援装置、方法及びプログラム |
US8676738B2 (en) | 2008-09-03 | 2014-03-18 | Nec Corporation | Relationship detector, relationship detection method, and recording medium |
JP2014119988A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 同義判定装置、同義学習装置、及びプログラム |
KR20210040318A (ko) * | 2020-06-27 | 2021-04-13 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 |
-
2005
- 2005-09-12 JP JP2005264318A patent/JP2007079730A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676738B2 (en) | 2008-09-03 | 2014-03-18 | Nec Corporation | Relationship detector, relationship detection method, and recording medium |
WO2010035412A1 (ja) * | 2008-09-25 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
US8612202B2 (en) | 2008-09-25 | 2013-12-17 | Nec Corporation | Correlation of linguistic expressions in electronic documents with time information |
JP5387577B2 (ja) * | 2008-09-25 | 2014-01-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP2011081626A (ja) * | 2009-10-07 | 2011-04-21 | Kddi R & D Laboratories Inc | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム |
JP2012032957A (ja) * | 2010-07-29 | 2012-02-16 | Fujitsu Ltd | まとめ上げ作業支援装置、方法及びプログラム |
JP2014119988A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 同義判定装置、同義学習装置、及びプログラム |
KR20210040318A (ko) * | 2020-06-27 | 2021-04-13 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 |
JP2021144742A (ja) * | 2020-06-27 | 2021-09-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 類似度処理方法、装置、電子設備、記憶媒体、及びプログラム |
KR102606514B1 (ko) * | 2020-06-27 | 2023-11-29 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8660834B2 (en) | User input classification | |
KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
CN110543639A (zh) | 一种基于预训练Transformer语言模型的英文句子简化算法 | |
WO2018005203A1 (en) | Leveraging information available in a corpus for data parsing and predicting | |
US20130007020A1 (en) | Method and system of extracting concepts and relationships from texts | |
US20180285349A1 (en) | Determination method and determination apparatus | |
YanSong et al. | Joint learning embeddings for Chinese words and their components via ladder structured networks | |
US20150199609A1 (en) | Self-learning system for determining the sentiment conveyed by an input text | |
Choubey et al. | Improving event coreference resolution by modeling correlations between event coreference chains and document topic structures | |
US8909511B2 (en) | Bilingual information retrieval apparatus, translation apparatus, and computer readable medium using evaluation information for translation | |
Ahmed et al. | Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness | |
JP2007079730A (ja) | 単語類似判断装置、方法及びプログラム | |
KR102376489B1 (ko) | 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Steuber et al. | Topic modeling of short texts using anchor words | |
JP5426292B2 (ja) | 意見分類装置およびプログラム | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2004272352A (ja) | 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体 | |
JP2004234051A (ja) | 文章分類装置およびその方法 | |
CN114661892A (zh) | 稿件摘要生成方法和装置、设备及存储介质 | |
JP2000194721A (ja) | 文書群分類装置および文書群分類方法 | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
JP7227705B2 (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
JP3682915B2 (ja) | 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム |