JP2007079730A

JP2007079730A - 単語類似判断装置、方法及びプログラム

Info

Publication number: JP2007079730A
Application number: JP2005264318A
Authority: JP
Inventors: Masaki Matsudaira; 正樹松平; Hiroyuki Onuma; 宏行大沼
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-09-12
Filing date: 2005-09-12
Publication date: 2007-03-29

Abstract

【課題】２単語の類似性を今まで以上に適切に判断する。
【解決手段】本発明は、入力された電子文書内の２単語の類似性を判断するものである。本発明では、電子文書から単語間の係り受け関係の情報を抽出し、抽出された係り受け情報を統計的に処理して類似判断対象の２単語間の第１の類似度を計算する。また、判断対象の２単語の意味情報の一致性を表す第２の類似度と、判断対象の２単語の字句情報の一致性を表す第３の類似度の一方又は両方が該当する非統計類似度を計算する。そして、第１の類似度及び非統計類似度を合成した合成類似度を計算し、合成類似度に基づいて、類似性を判別して所定の処理（例えば分類）を行う。
【選択図】図１

Description

本発明は単語類似判断装置、方法及びプログラムに関し、例えば、電子文書内のキーワードを意味的に近いグループにまとめる装置などに適用し得るものである。

従来、単語を分類する方法として、特許文献１に記載の方法がある。この方法では、単語と単語の特定の文脈における共起頻度を計数する。そして、この共起頻度を入力し、確率モデルの推定問題として、単語の分類を行い、単語分類を出力する。単語の自動分類問題を二つの単語集合の分割の直積上で定義される確率モデルの推定問題として捉え、各単語対の発生確率をクラスタ対の発生確率にそれぞれの単語の条件付き確率を乗じた確率と定義する確率モデルの中から、情報量基準を用いて確率モデルを選択し、ボトムアップ的に二つの単語集合に対して交互にクラスタリングを行い、単語を分類する。

また、非特許文献１に代表される、シソーラス辞書は、単語に意味コードを付与し、階層的にグループ化（分類）したものである。
特開平１１−１４３８７５号公報大野晋、浜西正人共著、「角川類語新辞典」、角川書店発行、１９８１年

しかしながら、特許文献１の記載方法（第１の方法）では、例えば、プリンタ関連の文書において、「プリンタ」、「印刷」、「印字」、「用紙」、「Ａ４」のように、分類（グループ化）する単語が対象となる文書中に統計的に充分な頻度で出現することが必要であり、「ジャム」、「管理者」、「クライアント」などの出現頻度の少ない単語については正しく分類できないという課題があった。

また、単語の意味コードを利用する分類方法（第２の方法）では、「ＷｉｎｄｏｗｓＸＰ」（Ｗｉｎｄｏｗｓは登録商標）や「ＵＳＢ」のような辞書に記載されていない専門的な用語を分類できないという課題がある。また、食品種類の「ジャム」ではなくてプリンタの紙詰まりという意味での「ジャム」や、人（顧客）ではなくてサーバクライアントシステムでの一方のコンピュータという意味での「クライアント」のように、辞書に記載されていても、別の意味で使用する専門的な用語や、「オレンジ」のように複数の意味（食品種類、色）が辞書に記載されている単語を正しく分類できないという課題がある。例えば、プリンタ関連の文書であっても「ジャム」は「オレンジ」と同じグループになり、「クライアント」は「利用者」や「管理者」と同じグループになるという課題があった。

さらに、第１の方法の後に、第２の方法を実行して補完した場合、第１の方法で分類できなかった「管理者」を「利用者」と同じ（人という意味の）グループに分類できるが、「クライアント」と「利用者」が同じグループになる、「ジャム」と「オレンジ」が同じグループになるという問題点は解決されない。

例えば、製品名のリスト、部品のリスト、使用環境のリスト等、既に作成した単語のグループ（分類）を利用したい場合、そのグループを意味辞書として、第１の方法の後に実行される第２の方法により補完することになり、上述した問題点がそのまま残る。

そのため、２単語の類似性を適切に判断できる単語類似判断装置、方法及びプログラムが望まれている。

第１の本発明は、入力された電子文書内の２単語の類似性を判断する単語類似判断装置において、（１）上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出手段と、（２）抽出された係り受け情報を統計的に処理して類似判断対象の２単語間の第１の類似度を計算する第１の類似度計算手段と、（３）判断対象の２単語の意味情報の一致性を表す第２の類似度と、判断対象の２単語の字句情報の一致性を表す第３の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算手段と、（４）上記第１の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算手段と、（５）合成類似度に基づいて、所定の処理を行う類似結果利用手段とを備えることを特徴とする。

第２の本発明は、入力された電子文書内の２単語の類似性を判断する単語類似判断方法において、（１）上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出工程と、（２）抽出された係り受け情報を統計的に処理して類似判断対象の２単語間の第１の類似度を計算する第１の類似度計算工程と、（３）判断対象の２単語の意味情報の一致性を表す第２の類似度と、判断対象の２単語の字句情報の一致性を表す第３の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算工程と、（４）上記第１の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算工程と、（５）合成類似度に基づいて、所定の処理を行う類似結果利用工程とを備えることを特徴とする。

第３の本発明の単語類似判断プログラムは、第２の本発明の単語類似判断方法の工程及び用意しておくデータをコンピュータが処理し得るコードで記述したことを特徴とする。

本発明によれば、係り受け関係に基づいた第１の類似度と、意味情報に基づいた第２の類似度及び又は字句情報に基づいた第３の類似度との合成類似度に基づいて、２単語の類似性を判断するようにしたので、２単語の類似性を今まで以上に適切に判断できる。

（Ａ）第１の実施形態
以下、本発明による単語類似判断装置、方法及びプログラムを、単語分類方法、装置及びプログラムに適用した第１の実施形態を、図面を参照しながら説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の単語分類装置の機能的構成を示すブロック図である。例えば、第１の実施形態の単語分類装置は、パソコン等の情報処理装置に対し、ＣＤ−ＲＯＭやフレキシブルディスク等の記録媒体に記録されている単語分類プログラム（データファイルや、データを格納するテーブル等を含む）をインストールしたり、単語分類プログラムをネットワークからダウンロードしてインストールしたりすることで実現されるが、機能的には、図１で表すことができる。なお、単語分類装置の多くの部分を、例えば、ＡＳＩＣ等、専用的なハードウェアとして実現しても良い。

図１において、第１の実施形態の単語分類装置１０は、制御部１、文書入力部２、係り受け抽出部３、キーワード抽出部４、意味辞書引き部５、意味辞書６、グループ生成部７及びグループ出力部８を有する。

制御部１は、文書入力部２、係り受け出部３、キーワード抽出部４、グループ生成部７、グループ出力部８に接続されており、当該単語分類装置１０での単語分類処理の全体の処理を制御するものである。

文書入力部２は、対象となる電子文書（ファイル）を取り込むものである。文書入力部２は、例えば、ＣＤ−ＲＯＭやフレキシブルディスク等の記録媒体から電子文書を読み込むものであっても良く、ＯＣＲなどによって電子文書を取り込むものであっても良く、ネットワークから電子文書を取り込むものであっても良い。また例えば、オペレータが電子文書をキー入力し、それを取り込むものであっても良い。

係り受け抽出部３は、入力された電子文書を解析し、単語と単語、あるいは、助詞を介した単語と単語の係り受け関係を抽出するものである。係り受け抽出部３は、例えば、奈良先端大学院大学で開発された「南瓜」（工藤、松本著、「チャンキングの段階適用による係り受け解析」、情報処理学会第１４２回自然言語処理研究会、参照）と同等の機能を実行するものである。

キーワード抽出部４は、入力された電子文書内の専門用語としてのキーワードを抽出するものである。キーワード抽出部４は、例えば、東京大学と横浜国立大学が共同で開発した「専用用語自動抽出システム」（湯本、森、中川著、「出現頻度と連接頻度に基づく専門用語抽出」、情報処理学会第１４５回自然言語処理研究会、参照）と同等の機能を実行するものである。キーワード抽出部４は、制御部１に加えて、意味辞書引き部５に接続されており、意味辞書引き部５による意味辞書６の辞書引きの結果であるキーワードの意味情報も取り込むものである。
意味辞書引き部５は、キーワード抽出部４の依頼により、意味辞書６に対する辞書引きを行ってキーワードの意味情報を取得し、キーワード抽出部４に与えるものである。

意味辞書６は、単語の意味情報を格納したものである。意味辞書６としては、例えば、図２に示すような構成を有するものを適用する。すなわち、各単語に対して、見出し、品詞、意味情報から構成されているものを適用する。ここで、意味情報は、例えば、非特許文献１に代表される意味分類コードと同等のものである。

グループ生成部７は、キーワード抽出部４で抽出されたキーワードを、その意味情報、係り受け情報、字句情報などに基づいて、グループに分類するものである。この第１の実施形態は、グループ生成部７が、分類のために計算する「単語間の類似度」に大きな特徴を有するものであり、動作説明の項で、「単語間の類似度」について詳述する。

グループ出力部８は、グループ生成部７によって生成されたグループの情報を出力するものである。グループ出力部８による出力は、表示出力や印刷出力だけでなく、記憶媒体などへの記憶でも良く、ネットワークを介した他の装置への転送でも良い。また、入力された電子文書に対し、検索に対応するための付加情報として付加した記録であっても良い。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の単語分類装置１０の動作（単語分類方法）を、フローチャートを参照しながら説明する。

ここで、図３は、単語分類装置１０の全体動作を示すフローチャートであり、まず、図３を参照して、単語分類装置１０の全体動作を説明する。

まず、制御部１の指示により、文書入力部２は、利用者に電子文書ファイルを指定させ、指定された電子文書を読み込む（Ｓ１００）。

制御部１は、読み込んだ電子文書をキーワード抽出部４に送り、キーワードを抽出することを指示し、キーワード抽出部４は、送られた電子文書からキーワードを抽出して制御部１に返す（Ｓ１０１）。その際、意味辞書引き部５に指示を送り、意味辞書６から意味情報を取得してキーワードに付与する（Ｓ１０２）。

図５は、抽出されたキーワードとその意味情報の例を示す説明図である。図５の例では、「ジャム」に対して食べ物を表す意味情報「０３０５」が付されており、「用紙ジャム」は一語にまとめられ、意味情報は付与されていない。

次に、制御部１は、キーワード抽出部４で抽出されたキーワードの一覧と電子文書を係り受け抽出部３に送り、係り受けを抽出することを指示し、係り受け抽出部３は、送られたキーワードの一覧をもとに単語を切り出す処理を行い、送られた電子文書を解析し、係り受け単語の組とその出現頻度を制御部１に返す。この第１の実施形態の場合、係り受け単語の組は、「ネットワークに接続する」、「印刷がきれい」のような名詞、助詞、述語の３つ組だけを抽出し、述語に付属する助動詞や助詞は、受身の助動詞「れる」、「られる」以外は抽出しない。

図６は、係り受け抽出部３によって抽出された係り受けとその出現頻度の例を示す説明図である。例えば、係り受け「ジャムになる」の出現頻度は「１０４」である。

制御部１は、係り受け（出現頻度を含む）の一覧及びキーワード（意味情報を含む）の一覧をグループ生成部７に送り、グループを生成することを指示し、グループ生成部７は、キーワードに関するグループを生成して制御部１に返す（Ｓ１０４）。制御部１は、生成されたグループの情報をグループ出力部８に送り、出力することを指示し、グループ出力部８は、グループ情報を出力し（Ｓ１０５）、一連の処理を終了する。

図４は、グループ生成部７でのグループ生成処理の詳細な流れを示したフローチャートである。

まず、グループ生成部７は、送られた係り受けの一覧をもとに、全ての受け側単語について、述語分解能の計算を行う（Ｓ２００）。

述語分解能は、助詞＋述語によってどれだけ名詞の意味が規定できるかを示す指標であり、多くの種類の名詞と係り受け関係がある助詞＋述語ほど、低い値になる。述語分解能は、例えば、プリンタ関連の文書では、「を＋する」（＋は不存在を含めたオールマイティを表しており、例えば、「を印刷する」、「を接続する」、「をキャンセルする」等が該当する）は、多くの名詞と係り受け関係があるが、「が＋点滅する」は「ランプ」等、少数の名詞としか係り受け関係がないことから、「を＋する」では名詞の意味をほとんど規定できないが、「が＋点滅する」は名詞の意味をかなり規定できることを利用している。述語分解能Ｒ（ｐ）は、例えば、以下の式によって計算される。

Ｒ（ｐ）＝１＋ｌｏｇ（Ｆ（ｐ）／Ｆ’（ｐ））／２ …（１）
Ｆ’（ｐ）＝Ｆ０（ｐ）＊（１＋ｌｏｇ（Ｆ０（ｐ））） …（２）
（１）式及び（２）式において、ｌｏｇは常用対数、ｐは助詞＋述語（これらをまとめて受け側語句と呼ぶ）、Ｆ（ｐ）は受け側語句ｐを含む係り受けデータの数、Ｆ０（ｐ）は受け側語句ｐに係る係り側語句が受け側語句ｐ以外の受け側語句と係り受け関係にある係り受けデータの数（異なり数という）である。但し、０≦Ｒ（ｐ）≦１とし、範囲を越える場合は境界値とする。

例えば、ある文書で受け側語句「に＋なる」を含む係り受けデータの数が６６８３件、異なり数が１７８９件の場合、
Ｆ’（に＋なる）＝１７８９＊（１＋ｌｏｇ（１７８９））＝７６０７．９２
Ｒ（に＋なる）＝（１＋ｌｏｇ（６６８３／７６０７．９２））／２＝０．４７２
となる。また例えば、受け側語句「が＋点滅する」を含む係り受けデータの数が２１４件、異なり数が５０件の場合、
Ｆ’（が＋点滅する）＝５０＊（１＋ｌｏｇ（５０））＝１３４．９４
Ｒ（が＋点滅する）＝（１＋ｌｏｇ（２１４／１３４．９４））／２＝０．６００
となる。

グループ生成部７は、次に、送られた係り受けの一覧をもとに、全ての係り側語句、受け側語句の組み合わせについて、係り受け強度計算を行う（Ｓ２０１）。

係り受け強度は、係り受け関係の強さを示す指標であり、係り受けデータの頻度が高いほど、また、係り側語句、受け側語句の頻度が小さいほど、係り受け強度は大きな値になる。係り受け強度Ｗ（ｎ，ｐ）は、例えば、以下の式によって計算される。

Ｗ（ｎ，ｐ）＝√（１−ｅｘｐ（−（２＊σ（ｎ，ｐ）^２）／π）） …（３）
σ（ｎ，ｐ）＝（Ｆ（ｎ，ｐ）−ｅ（ｎ，ｐ））／√（ｅ（ｎ，ｐ）） …（４）
ｅ（ｎ，ｐ）＝Ｆ（ｎ）＊Ｆ（ｐ）／Ｆ＋α …（５）
（３）式〜（５）式において、ｎは係り側語句としての名詞、ｐは受け側語句としての助詞＋述語、Ｆ（ｎ，ｐ）はｎとｐを含む係り受けデータの数、Ｆ（ｎ）はｎを含む係り受けデータの数、Ｆ（ｐ）はｐを含む係り受けデータの数、Ｆは全ての係り受けデータの数である。αは補正項の定数である。但し、０≦σ（ｎ，ｐ）、及び、０≦Ｗ（ｎ，ｐ）≦１とし、範囲を越える場合は境界値する。

この係り受け強度Ｗ（ｎ，ｐ）は、係り側単語及び受け側単語が独立に出現すると仮定した場合の出現頻度予測の累積確率密度分布により実際の出現頻度を正規化したものである。

例えば、「ランプが＋点滅する」の係り受けデータの数が５１件、「ランプ」を含む係り受けデータの数が２７１件、「が＋点滅する」を含む係り受けデータの数が２１４件、全ての係り受けデータの数が２５２６３４件の場合、αを０．５とすると、
ｅ（ランプ、が＋点滅する）＝２７１＊２１４／２５２６３４＋０．５＝０．７３０
σ（ランプ、が＋点滅する）＝（５１−０．７３０）／√（０．７３０）
＝５８．８４
Ｗ（ランプ、が＋点滅する）＝√（１−ｅｘｐ（−（２＊５８．８４^２）／３．１４））
＝１．０００
となる。また例えば、「文字が＋点滅する」が１件、「文字」が８３７件で、他が同様であれば、
ｅ（文字、が＋点滅する）＝８３７＊２１４／２５２６３４＋０．５＝１．２０９
σ（文字、が＋点滅する）＝（１−１．２０９）／√（１．２０９）＝０．０
Ｗ（文字が＋点滅する）＝√（１−ｅｘｐ（−（２＊０．０^２）／３．１４））
＝０．０
となる。

グループ生成部７は、次に、全ての係り側語句の組み合わせについて、類似度計算を行う（Ｓ２０２）。

類似度は、単語が意味的に似ているかどうかを示す指標であり、共通する係り受け関係が多いほど、高い値になる。但し、単語の出現データ数に応じて、辞書の意味情報が近いかどうか、及び、文字列レベルの後方一致数を加味する。

単語ｎ１及びｎ２の類似度Ｓ（ｎ１，ｎ２）は、３種類の類似度の和として、以下の（６）式によって計算される。

Ｓ（ｎ１，ｎ２）
＝Ｓ０（ｎ１，ｎ２）＋ＳＳ（ｎ１，ｎ２）＋ＳＬ（ｎ１，ｎ２） …（６）
（６）式において、Ｓ０（ｎ１，ｎ２）は、電子文書から単語間の係り受けを抽出し統計的に計算した第１の類似度であり、ＳＳ（ｎ１，ｎ２）は、意味辞書６の意味情報から計算した第２の類似度、ＳＬ（ｎ１，ｎ２）は、単語の字句情報から計算した第３の類似度である。

第１の類似度Ｓ０（ｎ１，ｎ２）は、以下の式によって計算され、０〜１の範囲の値である。なお、第１の類似度Ｓ０（ｎ１，ｎ２）の範囲が０〜１の範囲になるように、下記の式を用いることにしており、下記の式自体、新しいものである。すなわち、係り受けを抽出して統計的に類似度を計算する計算式は種々存在するが、以下のような式は今までに存在しないものである。このような式を導入したことにより、第２の類似度ＳＳ（ｎ１，ｎ２）や第３の類似度ＳＬ（ｎ１，ｎ２）と同じオーダーの値となり、（６）式のような積算が可能なものとなっている。

Ｓ０（ｎ１，ｎ２）
＝（Ｓｉｍ０（ｎ１→ｎ２）＋Ｓｉｍ０（ｎ２→ｎ１））／２ …（７）
Ｓｉｍ０（ｎ１→ｎ２）
＝Σ｛Ｄｉｍ（ｎ１→ｎ２）｝（Ｗ（ｎ１，ｐ）＊Ｒ（ｐ）＊Ｗ（ｎ２，ｐ）＊Ｒ（ｐ））
／Σ｛ｐ｝Ｒ（ｐ） …（８）
Ｄｉｍ（ｎ１→ｎ２）
＝ｍａｘ（Ｄｍｉｎ，√（Ｆ０（ｎ１）＊Ｆ０（ｎ２）），√Ｆ（ｎ１））…（９）
Ｄｉｍ（ｎ１→ｎ２）は、単語ｎ２に対する単語ｎの類似度Ｓｉｍ０（ｎ１→ｎ２）の対象ベクトル数であり、３個の値Ｄｍｉｎ、√（Ｆ０（ｎ１）＊Ｆ０（ｎ２））及び√Ｆ（ｎ１）の最大値としている。Ｄｍｉｎは固定値であり、例えば、５とする。Ｆ（ｎ１）、Ｆ（ｎ２）は単語ｎ１、ｎ２を含む係り受けデータ数、Ｆ０（ｎ１）、Ｆ０（ｎ２）は単語ｎ１、ｎ２についての異なり数である。なお、（８）式における総和Σは、その直後に記述されている｛｝内のパラメータについて計算されるものである。

例えば、図６のような係り受け関係の出現頻度の場合、「ジャム」及び「用紙ジャム」について、おおむね限定された同じ受け側語句をとることが多く、受け側語句の異なり数が少ないので、第１の類似度Ｓ０（ｎ１，ｎ２）は０〜１の範囲内で大きめの値になる。

第２の類似度ＳＳ（ｎ１，ｎ２）は、２つの単語ｎ１、ｎ２の意味情報の一致、不一致等から求める。

意味情報が、例えば、４桁であって、上位２桁が大分類、３桁目が中分類、最後の桁が小分類の場合、例えば、完全に一致するときには、第２の類似度ＳＳ（ｎ１，ｎ２）を０．３にし、３桁目まで一致するときには０．２にし、上位２桁が一致するときには０．１にする。

図５の例であれば、「ジャム」及び「用紙ジャム」は一方に意味情報が付されていないので、第２の類似度ＳＳ（ｎ１，ｎ２）は０．０になる。

第３の類似度ＳＬ（ｎ１，ｎ２）は、２つの単語ｎ１、ｎ２の文字の後方一致の条件によって求める。

例えば、一方の単語に「お」又は「ご」を付けると完全一致する場合には、第３の類似度ＳＬ（ｎ１，ｎ２）を０．５にする。また、後方一致の文字数が３以上の場合には、第３の類似度ＳＬ（ｎ１，ｎ２）を一致文字数×０．１とし、一致文字数が２文字の場合には、第３の類似度ＳＬ（ｎ１，ｎ２）を０．３にする。但し、一致文字列がカタカナ又はひらがなの場合には、上述して得られた値の半分を第３の類似度ＳＬ（ｎ１，ｎ２）とする。

「ジャム」及び「用紙ジャム」は後方３文字が一致し、一致文字列がカタカナであるので、第３の類似度ＳＬ（ｎ１，ｎ２）は０．１５になる。

以上のようにして、キーワード抽出された単語の２単語ずつの組合せについて、類似度が得られた場合には、グループ生成部７は、グループの生成を行う（Ｓ２０３）。

グループ生成では、既存グループをもとにグループ生成を行う。但し、既存グループがない場合や、既存グループへの追加生成でない方法が選択された場合には、全てのキーワード抽出された単語をそれぞれ、１グループに設定した後、既存グループがある場合と同様な処理を行う。

グループ生成では、以下の式によって表される、グループｇのグループスコアＳｇ（ｇ）が適宜利用される。

Ｓｇ（ｇ）＝０（１語のグループの場合） …（１０−１）
Ｓｇ（ｇ）＝（Σ｛ｎ∈ｇ｝Ｓｎ（ｎ｜ｇ））／Ｃ１（ｇ）
（２語以上のグループの場合） …（１０−２）
Ｓｎ（ｎ｜ｇ）＝（Σ｛ｍ∈ｇ｝（ｎ，ｍ））／Ｃ２（ｇ） …（１１）
これらの式において、Ｃ１（ｇ）はグループｇ内の単語数、Ｃ２（ｇ）はグループｇ内の２個の単語の組合せ数、Ｓ（ｎ，ｍ）は単語ｎ、ｍの上述した類似度である。

まず、類似度Ｓ（ｎ１，ｎ２）の高い順にソーティングを行い、類似度Ｓ（ｎ１，ｎ２）の高い順に、２個の単語ｎ１及びｎ２を処理対象とする。

処理対象の２個の単語ｎ１及びｎ２が既に同じグループに割り当てられたものである場合には、なんら処理を行うことなく、次の処理対象に移行する。

２個の単語ｎ１及びｎ２のグループが異なり、その類似度Ｓ（ｎ１，ｎ２）が第１の閾値（例えば、０．５）以上の場合には、グループを統合し、グループスコアＳｇ（ｇ１＋ｇ２）を計算し直す。

２個の単語ｎ１及びｎ２のグループが異なり、その類似度Ｓ（ｎ１，ｎ２）が第２の閾値（例えば、０．３３）以上の場合には、両方の単語ｎ１、ｎ２共に１語のグループに属しているか判別する。

少なくとも一方が２語のグループに属している場合であれば、仮にグループを統合した場合のグループスコアＳｇ（ｇ１＋ｇ２）を計算し、このグループスコアＳｇ（ｇ１＋ｇ２）が、Ｓｇ（ｇ１）＋Ｓｇ（ｇ２）以上ならば、グループを統合し、このような大小関係が成立しないならば、グループを統合することなく、次の処理対象に移行する。

両方の単語ｎ１、ｎ２共に１語のグループに属している場合には、構成単語が１語ｎ３の他のグループをも処理対象とし、仮にグループを統合した場合のグループスコアＳｇ（ｇ１＋ｇ２＋ｇ３）を計算し、このグループスコアＳｇ（ｇ１＋ｇ２＋ｇ３）が、Ｓｇ（ｇ１）＋Ｓｇ（ｇ２）＋Ｓｇ（ｇ３）以上ならば、３つのグループを統合し、このような大小関係が成立しないならば、グループを統合することなく、次の処理対象に移行する。

以上のようにして、生成されたグループの情報が、上述したように、グループ出力部８によって出力される。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、文書を解析し、係り受け抽出部３、グループ生成部７を設け、単語間の係り受けを抽出し、それをもとにキーワード間の類似度を統計的に計算することによって、従来の第１の方法と同等の統計的なグループ化を実現し、また、意味辞書６を設け、類似度計算の１つの項として加えたことによって、従来の第２の方法と同等の辞書の意味情報を反映しており、類似度計算の式から、統計的、意味辞書それぞれ単独では分類できない単語であっても、双方の類似度によって分類することが可能な場合があり、より正しいグループ化が期待できる。さらに、字句的な類似度を類似度計算の１つの項として加えたことによって、文字レベルの分類を実現しており、さらに正しいグループ化が期待できる。

以上のような３種類の観点の類似度判定を逐次に行うのではなく、それら３種類の観点の類似度が統合された類似度Ｓ（ｎ１，ｎ２）によって類似度を判定しているので、類似判定処理を効率良く実行することができる。

なお、共通する係り受け関係を反映させた第１の類似度Ｓ０（ｎ１，ｎ２）を上述のように、０〜１の範囲の値にしたことにより、意味辞書６の意味情報から計算した第２の類似度ＳＳ（ｎ１，ｎ２）や、単語の字句情報から計算した第３の類似度ＳＬ（ｎ１，ｎ２）と同様に、類似度Ｓ（ｎ１，ｎ２）に含めることができるようになった。

例えば、プリンタ関連での電子文書から作成した単語（キーワード）のグループの一つとして、「色、黒、黄色、シアン、イエロー、マゼンタ、Ｃ、Ｍ、Ｙ…」のグループがある。このグループで、「黒」、「黄色」、「シアン」等は統計的な計算や意味辞書による意味情報によって同じグループに分類されており、「Ｃ」、「Ｍ」、「Ｙ」（それぞれ「シアン」「マゼンタ」「イエロー」の略）は統計的な計算のみから同じグループに分類されている。

また例えば、「ジャム」や「用紙ジャム」が同じグループに分類される場合は、統計的な計算と、単語の字句情報とから分類されたことになる。

（Ｂ）第２の実施形態
次に、本発明による単語分類方法、装置及びプログラムの第２の実施形態を、図面を参照しながら説明する。

（Ｂ−１）第２の実施形態の構成
図７は、第２の実施形態の単語分類装置１０Ａの機能的構成を示すブロック図であり、第１の実施形態に係る図１との同一、対応部分には同一、対応符号を付して示している。

第２の実施形態の単語分類装置１０Ａは、第１の実施形態の単語分類装置１０の構成に加え、グループ入力部９を有している。グループ入力部９は、制御部１に接続されており、既に作成したグループの情報を読み込むものである。グループ入力部９は、例えば、ＣＤ−ＲＯＭやフレキシブルディスク等の記録媒体からグループの情報を読み込むものであっても良く、ＯＣＲなどによってグループの情報を取り込むものであっても良く、ネットワークからグループの情報を取り込むものであっても良い。また例えば、オペレータがグループの情報をキー入力し、それを取り込むものであっても良い。

（Ｂ−２）第２の実施形態の動作
以下、第１の実施形態と異なる点を中心にして、第２の実施形態の動作を説明する。

第２の実施形態の場合、制御部１の指示により、グループ入力部９が、単語のリストを１つのグループとしたグループの情報（グループ毎の単語リスト）を読み込み、制御部１は、読み込んだグループの情報（以下では外部入力グループ情報と呼ぶ）をグループ生成部７に送り、グループ生成部７は、それを保持する。

次に、制御部１の指示により、文書入力部２は利用者に文書ファイルを指定させ、指定された電子文書を読み込む。その後、単語間の類似度計算、及び、その結果をグループ生成部７に送るまでの処理は、第１の実施形態と同様である。

グループ生成部７は、計算によって求めた単語間の類似度Ｓ（ｎ１，ｎ２）を、保持している外部入力グループ情報に基づいて、見直す処理を実行する。処理対象の２単語が、同一の外部入力グループに属している場合にはその２単語間の類似度Ｓ（ｎ１，ｎ２）を最大値（例えば１．８）に修正する。また、処理対象の２単語が、異なる外部入力グループに属している場合にはその２単語間の類似度Ｓ（ｎ１，ｎ２）を最小値（例えば０）に修正する。

このような類似度の修正処理を行った後の処理は、第１の実施形態と同様である。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加え、以下の効果を奏することができる。

第２の実施形態によれば、グループ入力部９を設け、グループ生成部７が、読み込んだグループによって、単語間の類似度を修正することにより、既に作成したグループを継承した上で新たなグループを生成することが可能になるという効果が得られる。

新たなグループを生成する際、既にあるグループ内の単語と新たな単語との類似度は、計算した結果をそのまま利用しているため、既にあるグループに新たな単語が追加される可能性がある。これによって、新語をグループに追加したり、グループとしていくつかの単語を指定してそれを増強させたりすることが可能になるという効果がある。

逆に、既にあるグループ内の単語と新たな単語との類似度を最小値（例えば０）に修正した場合は、既にあるグループは一切変更されない。

（Ｃ）他の実施形態
上記各実施形態では、第１〜第３の類似度を加算合成した類似度で単語間の類似を判断するものを示したが、第１及び第２の類似度を加算合成した類似度で単語間の類似を判断するようにしても良く、また、第１及び第３の類似度を加算合成した類似度で単語間の類似を判断するようにしても良い。

また、上記各実施形態では、第１〜第３の類似度を単純加算して統合した類似度を得るものを示したが、第１〜第３の類似度を重み付け加算して統合した類似度を得るようにしても良い。

さらに、上記各実施形態では、単語の意味情報を意味辞書の辞書引きによって得るものを示したが、文解析（意味解析）などによって意味情報を付与するようにしても良く、文解析によって意味情報を付与した場合の第２の類似度を、第２の類似度での最大値を付与するようにしても良い。

第１の実施形態では、単語のグループ化の基本的な方法を説明したが、対象文書をコールセンタ等で収集した問い合わせ内容のテキスト全体とし、出現する単語のグループ化をおこなった後、テキスト内の名詞、あるいは、名詞と述語の係り受けについて、グループに分類して統計をとるテキストマイニング装置にも適用可能である。

また、対象文書を複数の文書の文書群とし、各文書を、文書内に出現する単語のグループに分類することにより、文書を内容によって分類する文書分類装置にも応用可能である。その際、グループ内の単語が最も多く出現する１つのグループに分類する方法や、出現する単語に応じて複数のグループに分類する方法などがある。

上記各実施形態では、グループ化のために２単語の類似判断を行う装置を示したが、本発明による単語類似判断は、他の目的、用途のために適用しても良いことは勿論である。

第１の実施形態の単語分類装置の機能的構成を示すブロック図である。第１の実施形態の意味辞書６の構成を示す説明図である。第１の実施形態の単語分類装置の全体動作を示すフローチャートである。第１の実施形態のグループ生成処理の詳細を示すフローチャートである。第１の実施形態の抽出されたキーワードとその意味情報の例を示す説明図である。第１の実施形態の抽出された係り受けとその出現頻度の例を示す説明図である。第２の実施形態の単語分類装置の機能的構成を示すブロック図である。

符号の説明

１…制御部、２…文書入力部、３…係り受け抽出部、４…キーワード抽出部、５…意味辞書引き部、６…意味辞書、７…グループ生成部、８…グループ出力部、９…グループ入力部、１０、１０Ａ…単語分類装置。

Claims

入力された電子文書内の２単語の類似性を判断する単語類似判断装置において、
上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出手段と、
抽出された係り受け情報を統計的に処理して類似判断対象の２単語間の第１の類似度を計算する第１の類似度計算手段と、
判断対象の２単語の意味情報の一致性を表す第２の類似度と、判断対象の２単語の字句情報の一致性を表す第３の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算手段と、
上記第１の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算手段と、
合成類似度に基づいて、所定の処理を行う類似結果利用手段と
を備えることを特徴とする単語類似判断装置。
上記係り受け抽出手段による抽出対象の係り受け情報は、単語、助詞、述語の並びでなるパターン情報ことを特徴とする請求項１に記載の単語類似判断装置。
上記第１の類似度を、類似判断対象の各単語を含む上記パターン情報の助詞及び述語でなる受け側語句の共通性や、受け側語句が類似判断対象外の単語との共起性に基づいて、計算することを特徴とする請求項２に記載の単語類似判断装置。
係り側単語及び受け側単語が独立に出現すると仮定した場合の出現頻度予測の累積確率密度分布により実際の上記パターン情報毎の出現頻度を正規化して、上記第１の類似度の計算に利用していることを特徴とする請求項３に記載の単語類似判断装置。
第２の類似度を、意味辞書を辞書引きして得た意味情報に基づいて計算することを特徴とする請求項１に記載の単語類似判断装置。
第３の類似度を、各単語の最後尾からの文字の一致数をもとに計算することを特徴とする請求項１に記載の単語類似判断装置。
上記第１の類似度が０〜１の範囲の値とし、上記第２又は第３の類似度が０．５以下の値とし、上記合成類似度が、第１の類似度と非統計類似度の和であることを特徴とする請求項１に記載の単語類似判断装置。
上記類似結果利用手段は、単語のグループ化を行うものであることを特徴とする請求項１に記載の単語類似判断装置。
上記類似結果利用手段は、合成類似度が大きい単語のペアから順に、仮に、単語をそのグループに追加したとしたときにグループのスコアが大きくなる場合に、グループに単語を追加することを特徴とする請求項８に記載の単語類似判断装置。
上記グループのスコアは、グループ内の各単語間の合成類似度の総和と、グループ内の単語数から計算することを特徴とする請求項９に記載の単語類似判断装置。
外部から入力された外部入力グループの情報を取り込んで保持する外部入力グループ情報保持手段と、
類似判断対象の２単語が、同一の外部入力グループに属している場合に、その２単語の合成類似度を最大値に設定し、類似判断対象の２単語が、異なる外部入力グループに属している場合に、その２単語の合成類似度を最小値に設定する外部入力尊重手段と
を有することを特徴とする請求項１に記載の単語類似判断装置。
入力された電子文書内の２単語の類似性を判断する単語類似判断方法において、
上記電子文書から単語間の係り受け関係の情報を抽出する係り受け抽出工程と、
抽出された係り受け情報を統計的に処理して類似判断対象の２単語間の第１の類似度を計算する第１の類似度計算工程と、
判断対象の２単語の意味情報の一致性を表す第２の類似度と、判断対象の２単語の字句情報の一致性を表す第３の類似度の一方又は両方が該当する非統計類似度を計算する非統計類似度計算工程と、
上記第１の類似度及び上記非統計類似度を合成した合成類似度を計算する合成類似度計算工程と、
合成類似度に基づいて、所定の処理を行う類似結果利用工程と
を備えることを特徴とする単語類似判断方法。
上記係り受け抽出工程による抽出対象の係り受け情報は、単語、助詞、述語の並びでなるパターン情報ことを特徴とする請求項１２に記載の単語類似判断方法。
上記第１の類似度を、類似判断対象の各単語を含む上記パターン情報の助詞及び述語でなる受け側語句の共通性や、受け側語句が類似判断対象外の単語との共起性に基づいて、計算することを特徴とする請求項１３に記載の単語類似判断方法。
係り側単語及び受け側単語が独立に出現すると仮定した場合の出現頻度予測の累積確率密度分布により実際の上記パターン情報毎の出現頻度を正規化して、上記第１の類似度の計算に利用していることを特徴とする請求項１４に記載の単語類似判断方法。
第２の類似度を、意味辞書を辞書引きして得た意味情報に基づいて計算することを特徴とする請求項１２に記載の単語類似判断方法。
第３の類似度を、各単語の最後尾からの文字の一致数をもとに計算することを特徴とする請求項１２に記載の単語類似判断方法。
上記第１の類似度が０〜１の範囲の値とし、上記第２又は第３の類似度が０．５以下の値とし、上記合成類似度が、第１の類似度と非統計類似度の和であることを特徴とする請求項１２に記載の単語類似判断方法。
上記類似結果利用工程は、単語のグループ化を行うものであることを特徴とする請求項１２に記載の単語類似判断方法。
上記類似結果利用工程は、合成類似度が大きい単語のペアから順に、仮に、単語をそのグループに追加したとしたときにグループのスコアが大きくなる場合に、グループに単語を追加することを特徴とする請求項１９に記載の単語類似判断方法。
上記グループのスコアは、グループ内の各単語間の合成類似度の総和と、グループ内の単語数から計算することを特徴とする請求項２０に記載の単語類似判断方法。
外部から入力された外部入力グループの情報を取り込んで保持する外部入力グループ情報保持工程と、
類似判断対象の２単語が、同一の外部入力グループに属している場合に、その２単語の合成類似度を最大値に設定し、類似判断対象の２単語が、異なる外部入力グループに属している場合に、その２単語の合成類似度を最小値に設定する外部入力尊重工程と
を有することを特徴とする請求項１２に記載の単語類似判断方法。
請求項１２〜２２のいずれかに記載の単語類似判断方法の工程及び用意しておくデータをコンピュータが処理し得るコードで記述したことを特徴とする単語類似判断プログラム。