JP4325370B2

JP4325370B2 - 文書関連語彙獲得装置及びプログラム

Info

Publication number: JP4325370B2
Application number: JP2003384092A
Authority: JP
Inventors: 伸章廣嶋; 克年大附; 克人別所; 林　　良彦
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-11-13
Filing date: 2003-11-13
Publication date: 2009-09-02
Anticipated expiration: 2023-11-13
Also published as: JP2005149014A

Description

本発明は、文書関連語彙獲得装置及びプログラムに係り、特に、文書から関連する語彙を獲得するための文書関連語彙獲得装置及びプログラムに関する。

ある文書からそれに関連する文書を獲得する方法や、ある単語の集合からそれに関連する語彙を獲得する方法については従来から研究が行われているが、文書からそれに関連する語彙を獲得する方法についてはあまり研究が行われていない。

文書からそれに関連する語彙を獲得する方法としては、シソーラスを構築する目的で文書中に含まれる関連語を抽出する方法（例えば、特許文献１参照）や、ある文書に関連する文書を検索する目的でその文書中の関連キーワードを抽出する方法（例えば、特許文献２参照）がある。
特開２００３−２５６４４７特開平１１−０２５１０８

しかしながら、上記に示した方法で得られた関連語や関連キーワードは、元の文書に必ず含まれていることが前提となっており、文書内を検索して語彙を抽出しているにすぎず、文書中に出現しない語彙を獲得することはできない。そのため、例えば、ある文書に関連する文書を検索する目的でその文書から語彙を抽出できたとしても、関連する文書中に抽出した語彙が含まれていなければその関連文書を検索することができない。

また、文書を単語に分割して単語の集合を獲得し、単語の集合からそれに関連する語彙を獲得するという方法も考えられるが、単語の集合からそれに関連する語彙を獲得する方法を適用する場合には、その単語の集合は予め特定の分野の正しいキーワードが与えられることが前提となっているだけでなく、獲得できる語彙も特定の分野であることが前提となっているのに対し、文書を単語に分割してできる単語の集合には分野に無関係な単語が含まれていたり、もとの文書に誤りが含まれる場合には単語の集合にも誤りが含まれていたり、文書に複数の分野が関連していたりすることもあり得るため、文書を単語に分割してできる単語の集合をそのまま入力として関連する語彙を獲得する方法を適用することはできない。

本発明は、上記の点に鑑みなされたもので、複数の分野に関連している文書や、音声認識結果のように多少の誤りを含むような文書であっても、その文書から関連する語彙を獲得することができ、さらに、獲得された語彙はもとの文書中に出現しないものを含むような文書関連語彙獲得装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明は、文書から該文書に関連する語彙を獲得する文書関連語彙獲得方法であって、
入力された文書を単語に分割する単語分割ステップ（ステップ１）と、
単語の意味を表現するベクトルが格納されている概念ベースを検索することによって単語分割ステップで得られた各単語に対応するベクトルを取得する単語ベクトル取得ステップ（ステップ２）と、
単語ベクトル取得ステップで得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリングステップ（ステップ３）と、
単語クラスタリングステップで得られた各クラスタをもとに、単語が多く含まれている順に上位Ｑ個（ただし、１以上）以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出ステップ（ステップ４）と、
文書分野ベクトル算出ステップで得られた各文書分野ベクトルと、予め作成しておいた語彙データベース中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出ステップ（ステップ５）と、
語彙関連度算出ステップで得られた関連度をもとに語彙を順位付けする語彙順位付けステップ（ステップ６）と、
語彙順位付けステップで得られた語彙に関する順位をもとに関連語彙を出力する関連語彙出力ステップ（ステップ７）を行う。

また、本発明は、文書分野ベクトル算出ステップ（ステップ４）において、
入力文書が音声認識結果である場合、各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、クラスタに含まれる各単語の単語ベクトルの加重平均によって文書分野ベクトルを求める。

図２は、本発明の原理構成図である。

本発明は、文書から該文書に関連する語彙を獲得する文書関連語彙獲得装置であって、
単語の意味を表現するベクトルが格納されている概念ベース８と、
入力された文書を単語に分割する単語分割手段１と、
概念ベース８を検索することによって単語分割手段１で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段２と、
単語ベクトル取得手段２で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段３と、
単語クラスタリング手段３で得られた各クラスタをもとに、単語が多く含まれている順に上位Ｑ個（ただし、１以上）以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段４と、
文書分野ベクトル算出手段４で得られた各文書分野ベクトルと、予め作成しておいた語彙データベース９の中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出手段５と、
語彙関連度算出手段５で得られた関連度をもとに語彙を順位付けする語彙順位付け手段６と、
語彙順位付け手段６で得られた語彙に関する順位をもとに、関連語彙を出力する関連語彙出力手段７と、を有する。

また、本発明の文書分野ベクトル算出手段４は、
入力文書が音声認識結果である場合、各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、クラスタに含まれる各単語の単語ベクトルの加重平均によって文書分野ベクトルを求める手段を有する。

本発明は、請求項１または２に記載の文書関連語彙獲得装置を構成する各手段としてコンピュータを機能させるための文書関連語彙獲得プログラムである。

本発明は、入力された文書から得られた単語をクラスタリングして分野毎にクラスタを作成し、そのクラスタから文書の属する分野を推定するため、文書から得られた単語の中に誤りを含んでいたり、分野に関係のない単語が存在していたりしても、それらの単語は無視され、正しく分野を推定することができ、その結果適切な関連語彙を獲得することができる。

また、文書が複数の分野に属するような場合でも、複数のクラスタから複数の分野を推定することができる。さらに、予め大量の語彙を用意しておいき、その中から文書の分野に近い語彙を獲得するため、文書中に含まれていない語彙を獲得することができる。このようにして獲得した語彙は、文書検索における関連文書の検索などに役立てることができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における文書関連語彙獲得装置の構成を示す。

同図に示す関連文書語彙獲得装置は、単語分割部１、単語ベクトル取得部２、単語クラスタリング部３、文書分野ベクトル算出部４、語彙関連度算出部５、語彙順位付け部６、関連語彙出力部７、概念ベース８、語彙データベース９から構成される。

単語分割部１は、入力された文書を単語に分割する。

単語ベクトル取得部２は、単語の意味を表現するベクトルが格納されている概念ベース８を検索することによって単語分割部１で得られた各単語に対応するベクトルを取得する。

単語クラスタリング部３は、単語ベクトル取得部２で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する。

文書分野ベクトル算出部４は、単語クラスタリング部３で得られた各クラスタをもとに文書の分野を表す文書分野ベクトルを求める。

語彙関連度算出部５は、文書分野ベクトル算出部４で得られた文書分野ベクトルと、予め作成しておいた語彙データベース９中の各語彙の分野を表す語彙分野ベクトルから、入力された文書と各語彙との間の関連性を示す語彙関連度を求める。

語彙順位付け部６は、語彙関連度算出部５で得られた関連度をもとに語彙を順位付けする。

関連語彙出力部７は、語彙順序付け部６で得られた語彙に関する順位を元に関連語彙を出力する。

図４〜図８は、本発明の一実施の形態における文書関連語彙獲得装置の処理のフローチャートを示す。

図４は、本発明の一実施の形態における全体の処理を示すフローチャートである。

まず、単語分割部１により、文書を単語に分割する（ステップ１００）。次に、単語ベクトル取得部２により、各単語の単語ベクトルを取得する（ステップ２００）。

図５は、本発明の一実施の形態における単語ベクトル取得部の処理のフローチャートである。同図において、Ｎは、単語分割部１で得られた単語の数であり、Ｗは概念ベース８中に存在する単語数を表す。

単語ベクトル取得部２は、単語分割部１で得られた各単語に対し、その単語が概念ベース８中に存在するかどうかを調べ（ステップ２２０）、存在すれば、概念ベース８から単語ベクトルを取得する（ステップ２３０、Ｙｅｓ，ステップ２５０）。存在しなければ（ステップ２３０、Ｎｏ）、その単語を削除する（ステップ２４０）。この処理を全単語について行う（ステップ２６０，２７０，２８０）。

次に、単語クラスタリング部３により、単語のクラスタリングを行う（ステップ３００）。

図６は、本発明の一実施の形態における単語クラスタリング部の処理のフローチャートである。ここで、Ｃ_ＩはＩ番目のクラスタ、Ｉはクラスタ数、Ｐはクラスタリングの終了条件として用いられるクラスタ数の閾値を表す。

単語クラスタリング部３は、単語ベクトル取得部２で得られたＷ個の単語について、それぞれ１単語からなるクラスタを作成する（ステップ３１０）。これらのＷ個のクラスタのうち、距離が最も近い二つのクラスタを求め（ステップ３３０）、この２つのクラスタを１つに併合してＷ−１個のクラスタを作成する（ステップ３４０，３５０）。このようにして二つのクラスタを１つに併合していく処理を、クラスタ数がＰ以下になるまで繰り返す（ステップ３６０）。

次に、文書分野ベクトル算出部４により、文書分野ベクトルの算出を行う（ステップ４００）。

図７は、本発明の一実施の形態における文書分野ベクトル算出部の処理のフローチャートである。ここで、Ｉはクラスタを単語数の多い順に並べたときの番号、Ｑは獲得する文書分野ベクトルの数を表す。

文書分野ベクトル算出部４は、Ｉ番目に単語数の多いクラスタの重心を求め、これをＩ番目の文書分野ベクトルとする（ステップ４２０）。この処理をＱ回繰り返す（ステップ４３０，４４０）。

次に、語彙関連度算出部５により、語彙関連度の算出を行う（ステップ５００）。

図８は、本発明の一実施の形態における語彙関連度算出部の処理のフローチャートである。

語彙関連度算出部５は、語彙データベース９中の全ての語彙について、その語彙の語彙分野ベクトルと文書分野ベクトル算出部４で求めたＱ個の文書分野ベクトルとの距離をそれぞれ求め、最も近い距離を語彙関連度とする（ステップ５２０，５３０）。この処理を全ての語彙について繰り返す。

次に、語彙順位付け部６により、語彙を語彙関連度の大きい順にソートし、語彙に順位を付与する（ステップ６００）。最後に、関連語彙出力部７により、語彙関連度の大きいものから順にＶ個の語彙を関連語彙として出力する（ステップ７００）。

以下では、具体的をあげて本実施の形態を説明する。

入力に誤りがあっても適切な文書関連語彙が獲得できることを示すため、対象とする文書として、図９に示す文書を読み上げた音声を音声認識した結果である図１０に示す文書を入力とする。

まず、単語分割部１により、文書単語に分割する。分割した結果を図１１に示す。

次に、単語ベクトル取得部２が、概念ベース８から各単語の単語ベクトルを取得する。表１に概念ベースの例を示す。

概念ベース８は、ハードディスク等の記憶手段に格納され、単語毎に、ｆ次元の単語ベクトルが付与されている。概念ベース８中の単語は、名詞や動詞、形容詞等の自立語である。概念ベース８における単語ベクトルは、意味的に類似している単語間ほど距離が近く、意味的に類似していない単語間程距離が遠くなるように値が設定されている。概念ベース８の例としては、例えば、特開平６−１０３３１５の『類似性判別装置』や、特開平７−３０２２６５の『類似性判別用データ精錬方法及びこの方法を実施する装置』で開示されているデータベースがある。

図１１に示す単語のうち、概念ベース８中に存在する単語については、単語ベクトルを付与し、存在しない単語については削除する。単語ベクトル取得処理を行った結果、表２の単語の欄に記載された２５個の単語について単語ベクトルが付与され、残りの単語については削除された。ここで、本実施の形態では、「ネットワーク部門」と「営業部門」という２箇所に出現する「部門」を別の単語として扱っているが、これを同一単語として一つにまとめてもよい。

次に、単語クラスタリング部３が、単語のクラスタリングを行う。単語ベクトルが付与された２５個の単語について、それぞれ１単語からなるクラスタを作成する。その結果を表２に示す。

これらの２５個のクラスタのうち、距離が最も近い２つのクラスタを求め、この２つのクラスタを１つに併合して２４個のクラスタを作成する。ここで、距離尺度としては、クラスタ間の類似性を表すものであれば、何を用いても構わないが、ここでは、クラスタに含まれる単語の単語ベクトルの重心間のコサイン距離を距離尺度として用いる。「ＮＴＴ」、「サービス」、「部門」については、それぞれ２回ずつ出現しているが、同じ単語であれば、単語ベクトルも同じであるため、同じ単語を持つクラスタ同士の距離が１となり最も近くなる。ここでは、単語「ＮＴＴ」を持つ６番目と１４番目のクラスタを併合した。その結果を表３に示す。さらに、これらの２４個のクラスタのうち、距離が最も近い２つのクラスタを求め、この２つのクラスタを１つに併合して２３個のクラスタを作成する。このような処理を、クラスタ数が終了条件を満たすまで繰り返す。

本実施の形態では、クラスタ数が初期状態のクラスタ数である２５の半分より小さくなったとき、つまり、この場合はクラスタ数が１２個になったとき終了条件としたが、これに限るものではなく、固定的に１０個を終了条件としたり、初期状態のクラスタ数の３０％を終了条件としてもよい。クラスタ数が１２個となり、クラスタリングが終了したときのクラスタの状態を表４に示す。

次に、文書分野ベクトル算出部４が文書分野ベクトルの算出を行う。本実施の形態では、取得する文書分野ベクトルの数を１とするが、文書が複数の分野を含むような場合には、ここで文書分野ベクトルを複数求めればよい。表４より、最も単語数が多いクラスタは１番目のクラスタであるから、このクラスタから文書分野ベクトルを求める。

クラスタに含まれる各単語の単語ベクトルの重心を文書分野ベクトルとする。本実施の形態では、文書分野ベクトルを求める際に、各単語の単語ベクトルの重みは均等であるとしたが、入力文書が音声認識結果であるような場合には、文書中の各単語に対し、その単語が正しく音声認識されているのかの程度を表す信頼度が付与されているので、クラスタ中の単語の信頼度を重みとした単語ベクトルの重心を文書分野ベクトルとしてもよい。信頼度を重みとすることで、認識誤りの単語がクラスタに含まれていても、一般に、認識誤りとなっている単語は信頼度が小さいため、重みも小さくなり、文書分野ベクトルへ及ぼす影響も小さくなる。よって、認識誤りの単語が文書分野ベクトルに及ぼす悪影響が軽減され、正しく分野を推定することができる。

次に、語彙関連度算出部５が、語彙データベース９から語彙関連度の算出を行う。語彙データベース９は、概念ベースの一種であり、意味的に類似している語彙間ほど距離が近く、意味的に類似していない語彙間ほど距離が遠くなるように語彙分野ベクトルが設定されたものである。語彙データベース９は単語ベクトル取得部２で使用した概念ベース８と整合性がとれているもの、つまり、語彙データベース９中の語彙の語彙分野ベクトルと概念ベース８中の単語の単語ベクトルにおいて、各次元が同じ意味を表しているものであればどのようなものでもよく、単語ベクトル取得部２で使用した概念ベース８そのものでもよいし、概念ベース８を利用して作成されたものでもよい。ここでは、ある語彙の語彙分野ベクトルは、大量の新聞記事などの文書中にその語彙が出現する文に対して文中に出現する単語の単語ベクトルの概念ベース８から求めてその単語ベクトルの重心を文毎の語彙分野ベクトルとし、文毎の語彙分野ベクトルの重心を語彙分野ベクトルとして求めた語彙データベース９を使用する。語彙データベース９中の全ての語彙について、その語彙の語彙分野ベクトルと文書分野ベクトル算出部４で求めた文書分野ベクトルとの距離をそれぞれ求め、最も近い距離を語彙関連度とする。本実施の形態では、文書分野ベクトルは１つであるから、単純に語彙分野ベクトルと文書分野ベクトルとの距離を語彙関連度とすればよい。語彙関連度を求めた結果を表５に示す。

次に、語彙順位付け部６により、語彙を語彙関連度の大きい順にソートし、語彙に順位を付与する。

最後に、関連語語彙出力部７により、語彙関連度の大きいものを関連語彙として出力する。ここでは、上位２０個の語彙を関連語彙として獲得した。

本実施の形態では、順位に従ってそのまま上位のものを関連語彙として獲得したが、ここで、既知の語彙を取り除いてから上位の語彙を獲得しても構わない。獲得された関連語彙を表６に示す。これにより、文書に関連した語彙が獲得されていることがわかる。

また、上記で示した一連の動作をプログラムとして構築し、文書間連語語彙獲得装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段により実行させる、または、ネットワークを介して流通させることも可能である。

また、構築されたプログラムを文書関連語彙獲得装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、コンピュータにインストールして実行させることも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

本発明は、関連文書の検索等に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における文書関連語彙獲得装置の構成図である。本発明の一実施の形態における全体の処理を示すフローチャートである。本発明の一実施の形態における単語ベクトル取得部の処理のフローチャートである。本発明の一実施の形態における単語クラスタリング部の処理のフローチャートである。本発明の一実施の形態における文書分野ベクトル算出部の処理のフローチャートである。本発明の一実施の形態における語彙関連度算出部の処理のフローチャートである。本発明の一実施の形態における入力となる音声認識誤りを含まない文書の例である。本発明の一実施の形態における音声認識誤りを含む文書の例である。本発明の一実施の形態における単語分割を行った結果を示す図である。

符号の説明

１単語分割手段、単語分割部
２単語ベクトル取得手段、単語ベクトル取得部
３単語クラスタリング手段、単語クラスタリング部
４文書分野ベクトル算出手段、文書分野ベクトル算出部
５語彙関連度算出手段、語彙関連度算出部
６語彙順位付け手段、語彙順位付け部
７関連語彙出力手段、関連語彙出力部
８概念ベース
９語彙データベース

Claims

文書から該文書に関連する語彙を獲得する文書関連語彙獲得装置であって、
単語の意味を表現するベクトルが格納されている概念ベースと、
入力された文書を単語に分割する単語分割手段と、
前記概念ベースを検索することによって前記単語分割手段で得られた各単語に対応するベクトルを取得する単語ベクトル取得手段と、
前記単語ベクトル取得手段で得られた各ベクトルをもとに単語のクラスタリングを行い、複数のクラスタを作成する単語クラスタリング手段と、
前記単語クラスタリング手段で得られた各クラスタをもとに、単語が多く含まれている順に上位Ｑ個（ただし、１以上）以内のクラスタを選択し、選択した各クラスタに対して該クラスタに含まれる各単語の単語ベクトルの重心をとることによってクラスタ毎に文書の分野を表す文書分野ベクトルを求める文書分野ベクトル算出手段と、
前記文書分野ベクトル算出手段で得られた各文書分野ベクトルと、予め作成しておいた語彙データベースの中の各語彙の分野を表す語彙分野ベクトルから、ベクトル間の距離をそれぞれ求め、該語彙からみて最も近い距離を、入力された前記文書と該語彙との間の関連性を示す語彙関連度として、各語彙について求める語彙関連度算出手段と、
前記語彙関連度算出手段で得られた関連度をもとに語彙を順位付けする語彙順位付け手段と、
前記語彙順位付け手段で得られた語彙に関する順位をもとに、関連語彙を出力する関連語彙出力手段と、を有することを特徴とする文書関連語彙獲得装置。
前記文書分野ベクトル算出手段は、
前記入力文書が音声認識結果である場合、前記各単語に付与されている、該単語が正しく音声認識されているのかの程度を表す信頼度を重みとして、前記クラスタに含まれる各単語の単語ベクトルの加重平均によって前記文書分野ベクトルを求める
請求項１記載の文書関連語彙獲得装置。
請求項１または２に記載の文書関連語彙獲得装置を構成する各手段としてコンピュータを機能させるための文書関連語彙獲得プログラム。