JP2019086995A

JP2019086995A - 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム

Info

Publication number: JP2019086995A
Application number: JP2017214388A
Authority: JP
Inventors: 博義豊柴; Hiroyoshi TOYOSHIBA
Original assignee: Fronteo Healthcare Inc
Current assignee: Fronteo Healthcare Inc
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2019-06-06
Anticipated expiration: 2037-11-07
Also published as: JP6346367B1; EP3709183A4; EP3709183A1; US11544309B2; US20200285661A1; CN111373386A; WO2019093172A1

Abstract

【課題】類似性の評価精度を従来よりも向上させることができるようにする。【解決手段】ｍ個の文章を解析してｎ個の単語を抽出する単語抽出部１１と、ｍ個の文章およびｎ個の単語をそれぞれｑ次元にベクトル化することにより、ｑ個の軸成分から成るｍ個の文章ベクトルおよびｑ個の軸成分から成るｎ個の単語ベクトルを算出するベクトル算出部１２と、ｍ個の文章ベクトルとｎ個の単語ベクトルとの内積をそれぞれとることにより、ｍ個の文章およびｎ個の単語間の関係性を反映した類似性指標値を算出する指標値算出部１３とを備え、文章から算出された文章ベクトルと、文章内に含まれる単語から算出された単語ベクトルとの内積を計算することによって、どの単語がどの文章に対してどの程度寄与しているのかを内積の値として表した類似性評価値を得ることができるようにする。【選択図】図１

Description

本発明は、類似性指標値算出装置、類似文章検索装置および類似性指標値算出用プログラムに関し、特に、複数の単語を含む文章に関する類似性の指標値を算出する技術および、この指標値を用いて類似検索を行う技術に関するものである。

従来、データベースに蓄積された多数の文章の中から、検索キーとして入力された文章に類似する他の文章を検索する技術が広く使われている。この種の検索技術では、基本的に、各文章について何らかの特徴量を算出し、特徴量が近似する文章を検索するようになされている。特徴量の１つとして、文章ベクトルを算出するようにした技術が知られている（例えば、特許文献１，２参照）。

特許文献１に記載の情報検索装置では、検索回答の文書を解析して自立語の抽出を行い、得られた自立語のうちでベクトル生成用辞書に登録されている自立語に対して単語ベクトルを読み出す。そして、全文章において得られた全ての単語ベクトルから文章の特徴を表す文章ベクトルを得て、文章ベクトル同志を比較することで文章間の距離を求めて、その距離を用いて分類を行う。

特許文献２に記載の対応カテゴリ検索システムは、意味内容が近い日英の文書ペアを検索するものであり、学習データ中に含まれる全ての日本語文書および英語文書に対して形態素解析処理を施し、これによって得られた全ての日本語単語および英語単語に対して、対応する多次元の単語ベクトルを計算する。そして、各文書中に含まれる全単語に対応する単語ベクトルの総和を正規化した（ベクトルの長さを１とした）文書ベクトルを計算し、日本語文書に対応する文書ベクトルと英語文書に対応する文書ベクトルとで最も関連度の高い（内積の値が大きい）日英の文書ペアを検索する。

また、文章や文書をパラグラフ・ベクトルにより評価することについて記述した論文も知られている（例えば、非特許文献１参照）。当該非特許文献１に記載の技術においても、上記特許文献１，２と同様、文章中に含まれる単語について単語ベクトルを算出し、当該単語ベクトルを用いてパラグラフ・ベクトルを算出するようになされている。

特開平７−２９５９９４号公報特開２００２−２５９４４５号公報

"Distributed Representations of Sentences and Documents"by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014

上記特許文献１，２および非特許文献１に記載の技術は何れも、文章の特徴量として文章ベクトルを算出し、文章ベクトルどうしの比較や、文章ベクトルどうしの内積を計算することによって、文章を分類したり、類似の文章を検索したりする仕組みとなっている。

しかしながら、文章ベクトルのみを指標として用いた従来の類似性評価手法では、評価精度を十分に上げることができないという問題があった。文章は複数の単語の組み合わせから成るものであるのに対し、どの単語がどの文章に対してどの程度寄与しているのかが正確に評価されていないからである。

なお、上記特許文献１，２および非特許文献１に記載の文章ベクトルは、何れも単語ベクトルを用いた所定の計算によって算出される。しかしながら、特許文献１には、単語ベクトルから文章ベクトルをどのように求めるかの具体的な方法については記載されていない。特許文献２に記載の技術では、文書中に含まれる全単語に対応する単語ベクトルの総和を正規化して文書ベクトルとしているだけなので、文書内で使われている各単語の単語ベクトルが総和として丸められてしまっている。非特許文献１に記載の技術では、パラグラフ・ベクトルを求める過程で単語ベクトルが使われているが、単語ベクトルそのものは文章や文書を評価する指標としては使われていない。

本発明は、このような問題を解決するために成されたものであり、類似性の評価精度を従来よりも向上させることができるようにすることを目的とする。

上記した課題を解決するために、本発明の類似性指標値算出装置では、ｍ個の文章を解析して当該ｍ個の文章からｎ個の単語を抽出し、ｍ個の文章をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｍ個の文章ベクトルを算出するとともに、ｎ個の単語をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｎ個の単語ベクトルを算出する。そして、ｍ個の文章ベクトルとｎ個の単語ベクトルとの内積をそれぞれとることにより、ｍ個の文章およびｎ個の単語間の関係性を反映した類似性指標値を算出するようにしている。

上記のように構成した本発明によれば、文章から算出された文章ベクトルと、文章内に含まれる単語から算出された単語ベクトルとの内積を計算することによって、文章および単語間の関係性を反映した類似性評価値が算出されるので、どの単語がどの文章に対してどの程度寄与しているのかを内積の値として得ることができる。よって、このようにして得られる本発明の類似性指標値を用いることにより、類似性の評価精度を従来よりも向上させることができる。

本実施形態による類似性指標値算出装置の機能構成例を示すブロック図である。本実施形態による類似検索装置の機能構成例を示すブロック図である。本実施形態による類似検索装置の他の機能構成例を示すブロック図である。本実施形態による類似検索装置の他の機能構成例を示すブロック図である。本実施形態による類似検索装置の他の機能構成例を示すブロック図である。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態による類似性指標値算出装置の機能構成例を示すブロック図である。本実施形態の類似性指標値算出装置１０は、文章に関する文章データを入力し、文章とその中に含まれる単語との関係性を反映した類似性指標値を算出して出力するものである。類似性指標値算出装置１０は、その機能構成として、単語抽出部１１、ベクトル算出部１２および指標値算出部１３を備えて構成されている。ベクトル算出部１２は、より具体的な機能構成として、文章ベクトル算出部１２Ａおよび単語ベクトル算出部１２Ｂを備えている。

上記各機能ブロック１１〜１３は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１１〜１３は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

単語抽出部１１は、ｍ個（ｍは２以上の任意の整数）の文章を解析し、当該ｍ個の文章からｎ個（ｎは２以上の任意の整数）の単語を抽出する。ここで、解析対象とする文章は、１つのセンテンス（句点によって区切られる単位）から成るものであってもよいし、複数のセンテンスから成るものであってもよい。複数のセンテンスから成る文章は、１つの文書に含まれる一部または全部の文章であってもよい。

また、文章の解析としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部１１は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。

なお、ｍ個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部１１は、同じ単語を複数個抽出することはせず、１つのみ抽出する。すなわち、単語抽出部１１が抽出するｎ個の単語とは、ｎ種類の単語という意味である。

ベクトル算出部１２は、ｍ個の文章およびｎ個の単語から、ｍ個の文章ベクトルおよびｎ個の単語ベクトルを算出する。ここで、文章ベクトル算出部１２Ａは、単語抽出部１１による解析対象とされたｍ個の文章をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個（ｑは２以上の任意の整数）の軸成分から成るｍ個の文章ベクトルを算出する。また、単語ベクトル算出部１２Ｂは、単語抽出部１１により抽出されたｎ個の単語をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｎ個の単語ベクトルを算出する。

本実施形態では、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、ｍ個の文章とｎ個の単語とから成る集合Ｓ＝＜ｄ∈Ｄ，ｗ∈Ｗ＞を考える。ここで、各文章ｄ_ｉ（ｉ＝１，２，・・・，ｍ）および各単語ｗ_ｊ（ｊ＝１，２，・・・，ｎ）に対してそれぞれ文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→（以下では、記号“→”はベクトルであることを指すものとする）を関連付ける。そして、任意の単語ｗ_ｊと任意の文章ｄ_ｉに対して、次の式(1)に示す確率Ｐ（ｗ_ｊ｜ｄ_ｉ）を計算する。

なお、この確率Ｐ（ｗ_ｊ｜ｄ_ｉ）は、上述した非特許文献１に開示されている確率ｐに倣って算出することが可能な値である。非特許文献１には、例えば、“the”、“cat”、“sat”という３つの単語があるときに、４つ目の単語として“on”を予測するとあり、その予測確率ｐの算出式が掲載されている。非特許文献１に記載されている確率ｐ（wt｜wt-k,・・・,wt+k）は、複数の単語wt-k,・・・,wt+kから別の１つの単語wtを予測したときの正解確率である。

これに対し、本実施形態で用いる式(1)に示される確率Ｐ（ｗ_ｊ｜ｄ_ｉ）は、ｍ個の文章のうち一の文章ｄ_ｉから、ｎ個の単語のうち一の単語ｗ_ｊが予想される正解確率を表している。１つの文章ｄ_ｉから１つの単語ｗ_ｊを予測するというのは、具体的には、ある文章ｄ_ｉが出現したときに、その中に単語ｗ_ｊが含まれる可能性を予測するということである。

なお、この式(1)は、ｄ_ｉとｗ_ｊについて対称なので、ｎ個の単語のうち一の単語ｗ_ｊから、ｍ個の文章のうち一の文章ｄ_ｉが予想される確率Ｐ（ｄ_ｉ｜ｗ_ｊ）を計算してもよい。１つの単語ｗ_ｊから１つの文章ｄ_ｉを予測するというのは、ある単語ｗ_ｊが出現したときに、それが文章ｄ_ｉの中に含まれる可能性を予測するということである。

式(1)では、ｅを底とし、単語ベクトルｗ→と文章ベクトルｄ→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章ｄ_ｉと単語ｗ_ｊとの組み合わせから計算される指数関数値と、文章ｄ_ｉとｎ個の単語ｗ_ｋ（ｋ＝１，２，・・・，ｎ）との各組み合わせから計算されるｎ個の指数関数値の合計値との比率を、一の文章ｄ_ｉから一の単語ｗ_ｊが予想される正解確率として計算している。

ここで、単語ベクトルｗ_ｊ→と文章ベクトルｄ_ｉ→との内積値は、単語ベクトルｗ_ｊ→を文章ベクトルｄ_ｉ→の方向に投影した場合のスカラ値、つまり、単語ベクトルｗ_ｊ→が有している文章ベクトルｄ_ｉ→の方向の成分値とも言える。これは、単語ｗ_ｊが文章ｄ_ｉに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、ｎ個の単語ｗ_ｋ（ｋ＝１，２，・・・，ｎ）について計算される指数関数値の合計に対する、１つの単語ｗ_ｊについて計算される指数関数値の比率を求めることは、１つの文章ｄ_ｉからｎ個の単語のうち１つの単語ｗ_ｊが予想される正解確率を求めることに相当する。

なお、ここでは、単語ベクトルｗ→と文章ベクトルｄ→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルｗ→と文章ベクトルｄ→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。

次に、ベクトル算出部１２は、次の式(2)に示すように、上記式(1)により算出される確率Ｐ（ｗ_ｊ｜ｄ_ｉ）を全ての集合Ｓについて合計した値Ｌを最大化するような文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出する。すなわち、文章ベクトル算出部１２Ａおよび単語ベクトル算出部１２Ｂは、上記式(1)により算出される確率Ｐ（ｗ_ｊ｜ｄ_ｉ）を、ｍ個の文章とｎ個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Ｌとして、当該目標変数Ｌを最大化する文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出する。

ｍ個の文章とｎ個の単語との全ての組み合わせについて算出した確率Ｐ（ｗ_ｊ｜ｄ_ｉ）の合計値Ｌを最大化するというのは、ある文章ｄ_ｉ（ｉ＝１，２，・・・，ｍ）からある単語ｗ_ｊ（ｊ＝１，２，・・・，ｎ）が予想される正解確率を最大化するということである。つまり、ベクトル算出部１２は、この正解確率が最大化するような文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出するものと言える。

ここで、本実施形態では、上述したように、ベクトル算出部１２は、ｍ個の文章ｄ_ｉをそれぞれｑ次元にベクトル化することにより、ｑ個の軸成分から成るｍ個の文章ベクトルｄ_ｉ→を算出するとともに、ｎ個の単語をそれぞれｑ次元にベクトル化することにより、ｑ個の軸成分から成るｎ個の単語ベクトルｗ_ｊ→を算出する。これは、ｑ個の軸方向を可変として、上述の目標変数Ｌが最大化するような文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出することに相当する。

指標値算出部１３は、ベクトル算出部１２により算出されたｍ個の文章ベクトルｄ_ｉ→とｎ個の単語ベクトルｗ_ｊ→との内積をそれぞれとることにより、ｍ個の文章ｄ_ｉおよびｎ個の単語ｗ_ｊ間の関係性を反映した類似性指標値を算出する。本実施形態では、指標値算出部１３は、次の式(3)に示すように、ｍ個の文章ベクトルｄ_ｉ→の各ｑ個の軸成分（ｄ₁₁〜ｄ_mq）を各要素とする文章行列Ｄと、ｎ個の単語ベクトルｗ_ｊ→の各ｑ個の軸成分（ｗ₁₁〜ｗ_nq）を各要素とする単語行列Ｗとの積をとることにより、ｍ×ｎ個の類似性指標値を各要素とする評価値行列ＤＷを算出する。ここで、Ｗ^ｔは単語行列の転置行列である。

このようにして算出された評価値行列ＤＷの各要素は、どの単語がどの文章に対してどの程度寄与しているのかを表したものと言える。例えば、１行２列の要素ｄｗ₁₂は、単語ｗ₂が文章ｄ₁に対してどの程度寄与しているのかを表した値である。これにより、評価値行列ＤＷの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。これについての詳細は後述する。

次に、以上のように構成した本実施形態による類似性指標値算出装置１０を利用した類似検索装置について説明する。図２は、本実施形態による類似検索装置２０の機能構成例を示すブロック図である。図２に示すように、本実施形態の類似検索装置２０は、図１に示した類似性指標値算出装置１０の他に、記憶媒体として文章データ記憶部２１、機能構成として検索キー指定部２２および類似文章検索部２３を備えて構成されている。

上記各機能ブロック２２〜２３は、ハードウェア、ＤＳＰ、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック２２〜２３は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

文章データ記憶部２１は、類似性指標値算出装置１０により算出された類似性評価値と共にｍ個の文章に関する文章データを記憶する。ここでは、文章データ記憶部２１は、式(3)により算出される評価値行列ＤＷの各要素の値であるｍ×ｎ個の類似性評価値と共に、当該類似性評価値の算出元とされたｍ個の文章に関する文章データを記憶する。

検索キー指定部２２は、文章データ記憶部２１に記憶されているｍ個の文章の中から一の文章を検索キーとして指定する。一の文章の指定は、類似文章の検索を行いたいユーザが、類似検索装置２０が備える操作部（キーボード、マウス、タッチパネルなど）を操作することによって行う。具体的には、文章データ記憶部２１に記憶されている文章の一覧を取得してディスプレイに表示し、その一覧の中からユーザが所望の文章を選択することにより、検索キーとする文章の指定を行う。

なお、検索キー指定部２２は、類似検索装置２０自体が備えることを必須とするものではない。例えば、インターネット等の通信ネットワークに接続されたサーバ装置として類似検索装置２０を構成するとともに、当該通信ネットワークを介して接続された別の端末に検索キー指定部２２を設け、指定内容を示す情報を当該端末から類似検索装置２０に送信するようにしてもよい。

類似文章検索部２３は、検索キー指定部２２により、文章データ記憶部２１に記憶されているｍ個の文章の中から一の文章が検索キーとして指定された場合に、当該一の文章以外のｍ−１個の他の文章を検索対象とし、指定された一の文章に類似する文章をｍ−１個の他の文章の中から検索して抽出する。具体的には、類似文章検索部２３は、一の文章に関するｎ個の類似性指標値を検索キー関連文章指標値群とし、ｍ−１個他の文章に関する各ｎ個の類似性指標値を検索対象関連文章指標値群として、検索キー関連文章指標値群と検索対象関連文章指標値群との類似度を判定する。そして、ｍ−１個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。所定数は、１以上の任意の数とすることが可能である。

ここで、一の文章に関するｎ個の類似性指標値から成る検索キー関連文章指標値群とは、式(3)に示す評価値行列ＤＷを構成する各行のうち、一の文章に関する行に含まれるｎ個の類似性指標値を指す。例えば、一の文章として文章ｄ_１が指定された場合、評価値行列ＤＷの１行目に含まれるｎ個の類似性指標値ｄｗ₁₁〜ｄｗ_1nが、検索キー関連文章指標値群である。

また、他の文章に関するｎ個の類似性指標値から成る検索対象関連文章指標値群とは、他の文章に関する行に含まれるｎ個の類似性指標値を指す。例えば、一の文章として文章ｄ_１が指定された場合、評価値行列ＤＷの１行目以外の各行に含まれる各ｎ個の類似性指標値ｄｗ₂₁〜ｄｗ_2n，ｄｗ₃₁〜ｄｗ_3n，・・・，ｄｗ_m1〜ｄｗ_mnが、検索対象関連文章指標値群である。ここで、評価値行列ＤＷの２行目に含まれるｎ個の類似性指標値ｄｗ₂₁〜ｄｗ_2nが、他の文章ｄ_２に関する検索対象関連文章指標値群である。また、評価値行列ＤＷのｍ行目に含まれるｎ個の類似性指標値ｄｗ_m1〜ｄｗ_mnが、他の文章ｄ_ｍに関する検索対象関連文章指標値群である。

類似文章検索部２３は、一の文章に関する検索キー関連文章指標値群ｄｗ₁₁〜ｄｗ_1nと、他の文章に関するｍ−１個の検索対象関連文章指標値群ｄｗ₂₁〜ｄｗ_2n，ｄｗ₃₁〜ｄｗ_3n，・・・，ｄｗ_m1〜ｄｗ_mnとの類似度をそれぞれ算出し、ｍ−１個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。ここで、類似度の計算には、公知の手法を用いることが可能である。例えば、ユークリッド距離、マハラノビス距離、コサイン距離などの何れかを計算する手法を適用することが可能である。

図２のように構成した類似検索装置２０は、類似性指標値を既に算出済みであるｍ個の文章の中から任意の１つを指定し、指定した文章に類似している他の文章を残りｍ−１個の文章の中から検索するのに有用である。例えば、既発表の論文データがｍ個の文章として文章データ記憶部２１に記憶されている状況において、特定の論文と類似の内容が記載されている他の論文を探したいときなどに有用である。

図３は、本実施形態の類似性指標値算出装置１０を利用した他の類似検索装置３０の機能構成例を示すブロック図である。図３に示すように、他の構成例に係る類似検索装置３０は、図１に示した類似性指標値算出装置１０の他に、記憶媒体として文章データ記憶部３１、機能構成として検索キー取得部３２および類似文章検索部３３を備えて構成されている。

上記各機能ブロック３２〜３３は、ハードウェア、ＤＳＰ、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック３２〜３３は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

文章データ記憶部３１は、類似性指標値算出装置１０により算出された類似性評価値と共に複数の文章データを記憶する。ここでは、文章データ記憶部３１は、式(3)により算出される評価値行列ＤＷの各要素の値である複数の類似性評価値と共に、当該類似性評価値の算出元とされた複数の文章に関する文章データを記憶する。

検索キー取得部３２は、検索キーとして指定された文章データを取得する。ここで取得する文章データは、文章データ記憶部３１に記憶されている複数の文章データとは異なる新たな文章データである。新たな文章データの取得元は、任意である。また、新たな文章データの取得方法も、任意である。例えば、類似検索装置３０に対して通信ネットワークを介して接続された外部の端末、サーバあるいはストレージなどから、類似文章の検索を行いたいユーザが操作部の操作によって指定した文章データを取得する。

類似性指標値算出装置１０は、検索キー取得部３２により一の文章データが取得された場合に、当該検索キー取得部３２により取得された文章データを一の文章（検索キーの文章）とし、文章データ記憶部３１に記憶されている複数の文章データをｍ−１個の他の文章（検索対象の文章）として、式(3)によりｍ×ｎ個の類似性指標値を算出する。

類似性指標値算出装置１０により算出された類似性指標値は、新たな文章データと共に文章データ記憶部３１に記憶される。すなわち、新たな文章データが追加して記憶されるとともに、類似性指標値が更新して記憶される。なお、このようにして文章データ記憶部３１に記憶された複数の文章データ（既存の文章データおよび追加された文章データ）は、検索キー取得部３２により次に新たな文章データが取得された場合に、ｍ−１個の文章データとして利用される（ただし、ｍの値は前回より１つ大きい値である）。

類似文章検索部３３は、類似性指標値算出装置１０により算出されて文章データ記憶部３１に記憶されたｍ×ｎ個の類似性指標値を用いて、検索キー取得部３２により検索キーとして取得された一の文章に類似する文章を、文章データ記憶部３１に記憶されていた既存の文章の中から検索して抽出する。

具体的には、類似文章検索部３３は、検索キー取得部３２により取得された一の文章に関するｎ個の類似性指標値から成る検索キー関連文章指標値群と、文章データ記憶部３１に記憶されていた既存の他の文章に関するｎ個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定する。そして、文章データ記憶部３１に記憶されているｍ−１個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。

ここで、検索キー取得部３２により取得された一の文章をｄ_１、文章データ記憶部３１に記憶されていた既存の他の文章をｄ_２〜ｄ_ｍとした場合、類似性指標値算出装置１０により式(3)に従って算出される評価値行列ＤＷを構成する各行のうち、１行目に含まれるｎ個の類似性指標値ｄｗ₁₁〜ｄｗ_1nが、検索キー関連文章指標値群である。また、評価値行列ＤＷの２行目以降の各行に含まれる各ｎ個の類似性指標値ｄｗ₂₁〜ｄｗ_2n，ｄｗ₃₁〜ｄｗ_3n，・・・，ｄｗ_m1〜ｄｗ_mnが、検索対象関連文章指標値群である。

類似文章検索部３３は、一の文章に関する検索キー関連文章指標値群ｄｗ₁₁〜ｄｗ_1nと、他の文章に関するｍ−１個の検索対象関連文章指標値群ｄｗ₂₁〜ｄｗ_2n，ｄｗ₃₁〜ｄｗ_3n，・・・，ｄｗ_m1〜ｄｗ_mnとの類似度をそれぞれ算出し、ｍ−１個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。

図３のように構成した類似検索装置３０は、類似性指標値を既に算出済みであるｍ−１個の文章の中から、検索キーとして取得した新たな文章に類似している文章を検索するのに有用である。例えば、既発表の論文データがｍ−１個の文章として文章データ記憶部３１に記憶されている状況において、新たに取得した論文と類似の内容が記載されている論文を探したいときなどに有用である。

なお、上記図２の実施形態では、類似検索装置２０が類似性指標値算出装置１０および文章データ記憶部２１を備える構成について説明したが、本発明はこれに限定されない。すなわち、類似性指標値算出装置１０および文章データ記憶部２１を、検索キー指定部２２および類似文章検索部２３を有する類似検索装置とは別の装置として構成してもよい。図４は、その場合の１つの構成例を示す図である。

図４に示すように、類似性指標値算出装置１０および文章データ記憶部２１は、インターネット等の通信ネットワークに接続されたサーバ装置１００に備えられている。サーバ装置１００は、通信部１０１およびデータ提供部１０２を更に備え、通信ネットワークに接続された類似検索装置４０からのデータ取得要求に応じて、文章データ記憶部２１から文章データおよび類似性指標値を読み出して類似検索装置４０に提供する。

類似検索装置４０は、検索キー指定部２２および類似文章検索部２３の他に、通信部４１およびデータ取得部４２を備えている。データ取得部４２は、通信部４１を介してサーバ装置１００にデータ取得要求を送信することにより、サーバ装置１００の文章データ記憶部２１から文章データおよび類似性指標値を取得する。文章データ記憶部２１に記憶されている類似性指標値は、類似性指標値算出装置１０により事前に算出されて記憶されたものである。

データ取得部４２は、検索キー指定部２２により検索キーとして指定された一の文書に関するｎ個の類似性指標値を検索キー関連文章指標値群として取得するとともに、他のｍ−１個の文書に関する各ｎ個の類似性指標値を検索対象関連文章指標値群として取得する。なお、検索キー指定部２２による検索キーの指定は、例えば、類似検索装置４０からサーバ装置１００にアクセスすることにより、文章データ記憶部２１に記憶されている文章の一覧を取得してディスプレイに表示し、その一覧の中からユーザが所望の文章を選択することによって行う。

類似文章検索部２３は、以上のようにして、文章データ記憶部２１に記憶されているｍ個の文章の中から、検索キー指定部２２により何れか一の文章が検索キーとして指定された場合に、データ取得部４２によりサーバ装置１００から取得された類似性指標値を用いて、一の文章に関するｎ個の類似性指標値から成る検索キー関連文章指標値群と、ｍ−１個の他の文章に関する各ｎ個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、ｍ−１個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。

また、上記実施形態では、類似性指標値算出装置１０により算出された評価値行列ＤＷの各行を単位とし、各ｎ個の類似性指標値を文章指標値群として用い、類似の文章を検索する例について説明したが、本発明はこれに限定されない。例えば、類似性指標値算出装置１０により算出された評価値行列ＤＷの各列を単位とし、各ｍ個の類似性指標値を単語指標値群として用い、類似の単語を検索するようにすることも可能である。

図５は、類似の単語を検索するようになされた類似検索装置５０の機能構成例を示すブロック図である。この図５において、図２に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。図５に示すように、類似検索装置５０は、図１に示した類似性指標値算出装置１０の他に、記憶媒体として文章データ記憶部２１、機能構成として検索キー指定部５２および類似単語検索部５３を備えて構成されている。

上記各機能ブロック５２〜５３は、ハードウェア、ＤＳＰ、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック５２〜５３は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

検索キー指定部５２は、文章データ記憶部２１に記憶されている文章データに含まれるｎ個の単語の中から一の単語を検索キーとして指定する。一の単語の指定は、類似単語の検索を行いたいユーザが、類似検索装置５０が備える操作部を操作することによって行う。具体的には、文章データ記憶部２１に記憶されている文章に含まれる単語の一覧を取得してディスプレイに表示し、その一覧の中からユーザが所望の単語を選択することにより、検索キーとする単語の指定を行う。なお、このように単語一覧を表示させるために、ｍ個の文章データとは別にｎ個の単語データを文章データ記憶部２１に記憶させておいてもよい。

なお、検索キー指定部５２は、類似検索装置５０自体が備えることを必須とするものではない。例えば、インターネット等の通信ネットワークに接続されたサーバ装置として類似検索装置５０を構成するとともに、当該通信ネットワークを介して接続された別の端末に検索キー指定部５２を設け、指定内容を示す情報を当該端末から類似検索装置５０に送信するようにしてもよい。

類似単語検索部５３は、検索キー指定部５２により、ｎ個の単語のうち一の単語が検索キーとして指定された場合に、当該一の単語以外のｎ−１個の他の単語を検索対象とし、一の単語に類似する単語をｎ−１個の他の単語の中から検索して抽出する。具体的には、類似単語検索部５３は、一の単語に関するｍ個の類似性指標値を検索キー関連単語指標値群とし、ｎ−１個の他の単語に関する各ｍ個の類似性指標値を検索対象関連単語指標値群として、検索キー関連単語指標値群と検索対象関連単語指標値群との類似度を判定する。そして、ｎ−１個の他の単語の中から、類似度が大きい方から所定数の単語を検索結果として抽出する。

図５のように構成した類似検索装置５０は、類似性指標値を既に算出済みであるｍ個の文章に含まれるｎ個の単語の中から任意の１つを指定し、指定した単語に類似している他の単語を残りｎ−１個の単語の中から検索するのに有用である。ここで言う類似の単語とは、検索キーの単語に対する同義語とか類義語が該当する場合もあるが、そうでない場合もある。本実施形態によれば、その単語がどの文章で使われるかの傾向が似ているものを、類似の単語として検索することが可能である。

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

１０類似性指標値算出装置
１１単語抽出部
１２ベクトル算出部
１２Ａ文章ベクトル算出部
１２Ｂ単語ベクトル算出部
１３指標値算出部
２０，３０，４０，５０類似検索装置
２１，３１文章データ記憶部
２２，５２検索キー指定部
２３，３３類似文章検索部
３２検索キー取得部
４２データ取得部

上記した課題を解決するために、本発明の類似性指標値算出装置では、ｍ個の文章を解析して当該ｍ個の文章からｎ個の単語を抽出し、ｍ個の文章をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｍ個の文章ベクトルを算出するとともに、ｎ個の単語をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｎ個の単語ベクトルを算出する。そして、ｍ個の文章ベクトルとｎ個の単語ベクトルとの内積をそれぞれとることにより、ｍ個の文章およびｎ個の単語間の関係性を反映した類似性指標値を算出するようにしている。ここで、ｎ個の単語のうち一の単語からｍ個の文章のうち一の文章が予想される確率、または、ｍ個の文章のうち一の文章からｎ個の単語のうち一の単語が予想される確率を、ｍ個の文章とｎ個の単語との全ての組み合わせについて算出して合計した値を目標変数とし、当該目標変数を最大化する文章ベクトルおよび単語ベクトルを算出する。

Claims

ｍ個（ｍは２以上の任意の整数）の文章を解析し、当該ｍ個の文章からｎ個（ｎは２以上の任意の整数）の単語を抽出する単語抽出部と、
上記ｍ個の文章をそれぞれ所定のルールに従ってｑ次元（ｑは２以上の任意の整数）にベクトル化することにより、ｑ個の軸成分から成るｍ個の文章ベクトルを算出する文章ベクトル算出部と、
上記ｎ個の単語をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｎ個の単語ベクトルを算出する単語ベクトル算出部と、
上記ｍ個の文章ベクトルと上記ｎ個の単語ベクトルとの内積をそれぞれとることにより、上記ｍ個の文章および上記ｎ個の単語間の関係性を反映した類似性指標値を算出する指標値算出部とを備えたことを特徴とする類似性指標値算出装置。
上記文章ベクトル算出部および上記単語ベクトル算出部は、上記ｎ個の単語のうち一の単語から上記ｍ個の文章のうち一の文章が予想される確率、または、上記ｍ個の文章のうち一の文章から上記ｎ個の単語のうち一の単語が予想される確率を、上記ｍ個の文章と上記ｎ個の単語との全ての組み合わせについて算出して合計した値を目標変数とし、当該目標変数を最大化する文章ベクトルおよび単語ベクトルを算出することを特徴とする請求項１に記載の類似性指標値算出装置。
上記指標値算出部は、上記ｍ個の文章ベクトルの各ｑ個の軸成分を各要素とする文章行列と、上記ｎ個の単語ベクトルの各ｑ個の軸成分を各要素とする単語行列との積をとることにより、ｍ×ｎ個の上記類似性指標値を各要素とする評価値行列を算出することを特徴とする請求項１または２に記載の類似性指標値算出装置。
請求項１〜３の何れか１項に記載の類似性指標値算出装置と、
上記ｍ個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のｍ−１個の他の文章を検索対象とし、上記一の文章に関するｎ個の類似性指標値から成る検索キー関連文章指標値群と、上記ｍ−１個の他の文章に関する各ｎ個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記ｍ−１個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。
上記類似性指標値算出装置により算出された上記類似性評価値と共に上記ｍ個の文章に関する文章データを記憶した文章データ記憶部を更に備え、
上記類似文章検索部は、上記文章データ記憶部に記憶されている上記ｍ個の文章の中から上記一の文章が上記検索キーとして指定された場合に、当該一の文章以外のｍ−１個の他の文章を検索対象とし、上記一の文章に関するｎ個の類似性指標値から成る検索キー関連文章指標値群と、上記ｍ−１個の他の文章に関する各ｎ個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記ｍ−１個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項４に記載の類似検索装置。
上記類似性指標値算出装置により算出された上記類似性評価値と共に複数の文章データを記憶した文章データ記憶部と、
上記検索キーとして指定された文章データを取得する検索キー取得部とを更に備え、
上記類似性指標値算出装置は、上記検索キー取得部により取得された文章データを上記一の文章とし、上記文章データ記憶部に記憶されている文章データを上記ｍ−１個の他の文章として、上記類似性指標値を算出し、
上記類似文章検索部は、上記検索キー取得部により取得された上記一の文章に関するｎ個の類似性指標値から成る検索キー関連文章指標値群と、上記文章データ記憶部に記憶されている上記ｍ−１個の他の文章に関する各ｎ個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記文章データ記憶部に記憶されている上記ｍ−１個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項４に記載の類似検索装置。
請求項１〜３の何れか１項に記載の類似性指標値算出装置により算出された上記類似性評価値と共に上記ｍ個の文章に関する文章データを記憶した文章データ記憶部から上記文章データおよび上記類似性指標値を取得するデータ取得部と、
上記データ取得部により取得されるデータを用いて、上記ｍ個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のｍ−１個の他の文章を検索対象とし、上記一の文章に関するｎ個の類似性指標値から成る検索キー関連文章指標値群と、上記ｍ−１個の他の文章に関する各ｎ個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記ｍ−１個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。
上記ｎ個の単語のうち一の単語を検索キーとして指定した場合に、当該一の単語以外のｎ−１個の他の単語を検索対象とし、上記一の単語に関するｍ個の類似性指標値から成る検索キー関連単語指標値群と、上記ｎ−１個の他の単語に関する各ｍ個の類似性指標値から成る検索対象関連単語指標値群との類似度を判定し、上記ｎ−１個の他の単語の中から上記類似度が大きい方から所定数の単語を検索結果として抽出する類似単語検索部を、上記類似文章検索部に代えてまたは加えて備えたことを特徴とする請求項４〜７の何れか１項に記載の類似検索装置。
ｍ個（ｍは２以上の任意の整数）の文章を解析し、当該ｍ個の文章からｎ個（ｎは２以上の任意の整数）の単語を抽出する単語抽出部手段、
上記ｍ個の文章をそれぞれ所定のルールに従ってｑ次元（ｑは２以上の任意の整数）にベクトル化するとともに、上記ｎ個の単語をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｍ個の文章ベクトルおよびｑ個の軸成分から成るｎ個の単語ベクトルを算出するベクトル算出手段、および
上記ｍ個の文章ベクトルと上記ｎ個の単語ベクトルとの内積をそれぞれとることにより、上記ｍ個の文章および上記ｎ個の単語間の関係性を反映した類似性指標値を算出する指標値算出手段
としてコンピュータを機能させるための類似性指標値算出用プログラム。