JP7487797B2

JP7487797B2 - 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Info

Publication number: JP7487797B2
Application number: JP2022569434A
Authority: JP
Inventors: 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2024-05-21
Anticipated expiration: 2040-12-17
Also published as: JPWO2022130578A1; WO2022130578A1

Description

本発明は、類似度判定プログラム、類似度判定装置、及び、類似度判定方法に関する。

複数文書を単語に分割し、単語の意味を表現するベクトル、及び、各単語の重みを算出して、ベクトル及び重みに基づき、各文書の文書ベクトルを算出することで、文書間の類似度を判定する手法が知られている。

特開２００６－３３１２４５号公報

文書内には様々な情報が記載されているため、文書全体を文書ベクトル化して文書間の類似度を判定すると、部分的に類似した文書間であっても類似度が低いと判定される可能性がある。

１つの側面では、本発明は、部分的に類似した文書間の類似度の判定精度を向上させることを目的の１つとする。

１つの側面では、類似度判定プログラムは、コンピュータに、以下の処理を実行させてよい。前記処理は、第１の文書に含まれる第１の複数の固有表現のそれぞれの位置と前記第１の複数の固有表現のそれぞれの類似度とに基づいて前記第１の複数の固有表現を分類することによって生成された第１の複数のグループを取得する処理を含んでよい。また、前記処理は、第２の文書に含まれる第２の複数の固有表現のそれぞれの位置と前記第２の複数の固有表現のそれぞれの類似度とに基づいて前記第２の複数の固有表現を分類することによって生成された第２の複数のグループを取得する処理を含んでよい。さらに、前記処理は、前記第１の複数のグループと前記第２の複数のグループとの比較に基づいて、前記第１の文書と前記第２の文書との類似度を判定する処理を含んでよい。

１つの側面では、本発明は、部分的に類似した文書間の類似度の判定精度を向上させることができる。

比較例に係る類似度判定システムを説明するための図である。図１に示す類似度判定システムによる化合物類似度の算出例を説明する図である。第１実施形態に係る類似度判定システムを説明するための図である。類似度判定システムの処理の一例を説明するための図である。類似度判定システムの処理の一例を説明するための図である。第１実施形態に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。サーバによる画面出力例を示す図である。サーバの動作例を説明するフローチャートである。サーバの機能を実現するコンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。第２実施形態に係る類似度判定システムを説明するための図である第２実施形態に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。サーバによる画面出力例を示す図である。サーバの文書ＤＢ（Database）構築処理の動作例を説明するフローチャートである。サーバの文書検索処理の動作例を説明するフローチャートである。第２実施形態の第１変形例及び第２変形例に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。サーバによる画面出力例を示す図である。サーバによる画面出力例を示す図である。第２実施例の第１変形例に係るサーバの動作例を説明するフローチャートである。第２変形例に係るサーバの画面出力例を示す図である。第３実施形態に係る類似度判定システムを説明するための図である。第３実施形態に係る類似度判定システムの処理の一例を説明するための図である。第３実施形態に係る類似度判定システムの処理の一例を説明するための図である。第３実施形態に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。サーバの文書ＤＢ構築処理の動作例を説明するフローチャートである。サーバの文書検索処理の動作例を説明するフローチャートである。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕第１実施形態
〔１－１〕比較例
上述したように、文書全体を文書ベクトル化して文書間の類似度を判定すると、部分的に類似した文書間であっても類似度が低いと判定される可能性がある。そこで、比較例として、文書中の固有表現に基づく類似度を判定することで文書間の類似度を判定する場合を説明する。比較例では、文書中の固有表現は、化合物名であるものとし、化合物名を含む化学分野の文書間の類似度を判定する場合を想定する。

図１は、比較例に係る類似度判定システム１００を説明するための図である。図１に示すように、類似度判定システム１００は、クエリ文書（入力文書）の類似度の判定を要求するクエリ１０１と、１以上の比較対象文書を含む文書集合１０２とに基づき、固有表現に基づく類似度を算出する。

例えば、類似度判定システム１００は、複数の文書、すなわち、クエリ１０１に含まれるクエリ文書及び文書集合１０２に含まれる比較対象文書のそれぞれから、固有表現として化合物名を抽出し（処理Ｐ１１０）、文書ごとに化合物リストを生成する。

類似度判定システム１００は、文書ごとの化合物リストを比較することで、クエリ文書と比較対象文書の各々との間の化合物類似度を算出する（処理Ｐ１２０）。化合物類似度としては、例えば、コサイン類似度が挙げられる。

類似度判定システム１００は、算出した化合物類似度に基づくランキング処理を行ない（処理Ｐ１３０）、クエリ文書との類似度が高い比較対象文書を類似度とともにランキング結果１０３として保存する。

図２は、図１に示す類似度判定システム１００による化合物類似度の算出例を説明する図である。図２の例では、処理Ｐ１１０において、リチウムイオン電池に関するクエリ文書及び比較対象文書について、クエリ文書から化合物リストＣｘが生成され、比較対象文書から化合物リストＣｙが生成されたものとする。

以下、化合物類似度の判定対象の文書の組について生成された化合物リストＣｘ及びＣｙを互いに区別しない場合には、単に「化合物リストＣ」と表記する。化合物リストＣは、化合物名と、当該化合物名の文書内での出現数とを含んでよい。なお、図２の例において、化合物リストＣｘ及びＣｙ間で共通する共通化合物を下線太字で示す。

類似度判定システム１００は、化合物リストＣに基づき、下記式（１）の演算により、化合物類似度としてのコサイン類似度を算出する。

上記式（１）において、ｉは、化合物リストＣｘ及びＣｙに含まれる全ての化合物名を特定するためのインデックスであり、Ｃｘ_ｉ及びＣｙ_ｉは、化合物リストＣｘ及びＣｙ内のｉ番目の化合物名の出現数を示す。上記式（１）において、分母は、Ｃｘの化合物の出現数の２乗和の平方根と、Ｃｙの化合物の出現数の２乗和の平方根との和であり、分子は、ＣｘとＣｙとの間の共通化合物の出現数の積の総和である。

ところで、「文書」には、複数の要素についての記載を含む文書、一例として、複数の構成要素を備える装置、システム又は製造方法等について記載された特許文献又は論文等の文書がある。例えば、図２に示すリチウムイオン電池に関する文書には、「正極活物質」、「負極活物質」、「バインダー」、「電解質」、「電解液溶媒」等の、リチウムイオン電池の構成要素のそれぞれの区分（グループ）に関する化合物名が混在して記載されることがある。

このため、クエリ文書に記載された所定の要素に着目して比較対象文書との類似度を判定したい場合であっても、その他の要素、換言すれば調査対象ではない要素についての比較対象文書との差異が、文書間の類似度の判定結果に影響を与える場合がある。

図２の例では、調査対象の要素が「正極活物質」である場合、「LiCoO2」等の「正極活物質」に関する化合物名が文書間で共通して出現する一方、他の要素に関する化合物名が文書間で相違するため、文書間の化合物類似度が低い値として算出される場合がある。

このように、調査対象の要素が文書間で類似する場合であっても、文書間の類似度が低いと判定される場合がある。

〔１－２〕第１実施形態の説明
そこで、第１実施形態に係る類似度判定システム１は、文書に含まれる複数の固有表現のそれぞれを分類して複数のグループを生成し、文書間で、グループどうしの比較を行なうことにより、クエリ文書と比較対象文書との類似度を判定する。

図３は、第１実施形態に係る類似度判定システム１を説明するための図であり、図４及び図５は、類似度判定システム１の処理の一例を説明するための図である。

図３に示すように、第１実施形態に係る類似度判定システム１は、クエリ文書（入力文書）の類似度の判定を要求するクエリ１１と、判定対象となる１以上の比較対象文書を含む文書集合（文書群）１２とに基づき、固有表現に基づく類似度を算出する。

例えば、類似度判定システム１は、比較例と同様に、複数の文書のそれぞれから、固有表現の一例としての化合物名を抽出し（処理Ｐ１）、文書ごとに、固有表現リスト、例えば化合物リストを生成する。

図４及び図５の例では、類似度判定システム１は、クエリ１１に含まれるクエリ文書１１ａ（「文書Ｘ」と表記）から化合物名を抽出して化合物リストＣ_Ｘを生成する。また、類似度判定システム１は、文書集合１２に含まれる比較対象文書１２ａ（「文書Ｙ」と表記）から化合物名を抽出して化合物リストＣ_Ｙを生成する。クエリ文書１１ａは、第１の文書の一例であり、比較対象文書１２ａは、第２の文書の一例である。

第１実施形態では、クエリ文書１１ａ及び比較対象文書１２ａは、リチウムイオン電池に関する文書であるものとする。以下、化合物類似度の判定対象の文書の組について生成された化合物リストＣ_Ｘ及びＣ_Ｙを互いに区別しない場合には、単に「化合物リストＣ」と表記する。

第１実施形態に係る類似度判定システム１は、固有表現リストに基づき、固有表現を分類及びグループ化するクラスタリングを実行する（図３の処理Ｐ２）。クラスタリングの手法としては、例えば、最短距離法等の既存の種々の手法が用いられてよい。

次いで、類似度判定システム１は、クラスタごとの固有表現類似度、例えば化合物類似度を算出する（図３の処理Ｐ３）。固有表現類似度は、例えば、文書間のクラスタのペアごとに算出されてよい。

そして、類似度判定システム１は、固有表現類似度に基づき、クエリ文書１１ａとの類似度に応じて複数の比較対象文書１２ａの各々をランキング付けするランキング処理を行ない（図３の処理Ｐ４）、結果１３を出力する。結果１３は、ランキング結果を含んでもよい。

以下、クラスタリング処理（処理Ｐ２）、固有表現類似度算出処理（処理Ｐ３）、及び、ランキング処理（処理Ｐ４）のそれぞれの一例を説明する。

（クラスタリング処理の一例）
図３の処理Ｐ２において、類似度判定システム１は、固有表現リストに基づき、固有表現リストに含まれる固有表現間の類似度スコアＳを、固有表現のペア（組）ごとに算出してよい。例えば、類似度判定システム１は、固有表現のペアについて、固有表現のそれぞれの位置と、固有表現間の類似度とに基づき類似度スコアＳを算出する。

一例として、固有表現のペアを化合物ｘ_１及びｘ_２と表記した場合、類似度判定システム１は、下記式（２）を用いて類似度スコアＳ（ｘ_１，ｘ_２）を算出してよい。

上記式（２）において、TC（ｘ_１，ｘ_２）は、MACCS KeyのTanimoto係数である。MACCS Keyは、化合物の特徴の表現手法（化合物記述子）の１つであり、Tanimoto係数は、MACCS Keyを用いて化合物間の構造類似度を示す指標の１つであり、固有表現が化合物名である場合の固有表現間の類似度の一例である。また、Distance（ｘ_１，ｘ_２）は、例えば、文書内での固有表現のそれぞれの出現位置の近さを数値化した値であり、一例として、以下の条件に応じた値である。
・化合物ｘ_１及びｘ_２が同一文に出現し、且つ、並列関係にある場合：“1.0”
・化合物ｘ_１及びｘ_２が同一文に出現する場合： “0.8”
・化合物ｘ_１及びｘ_２が同一段落に出現する場合： “0.5”
・上記以外の場合： “0.1”

類似度判定システム１は、化合物リストＣに含まれる複数の化合物名について、化合物名のペア（ｘ_１，ｘ_２）の組み合わせごとに上記式（２）を適用して、各ペア（ｘ_１，ｘ_２）の類似度スコアＳ（ｘ_１，ｘ_２）を算出してよい。

類似度判定システム１は、算出した複数の類似度スコアＳ（ｘ_１，ｘ_２）に対して、例えば最短距離法等の手法を適用して、化合物リストＣに含まれる複数の化合物名を分類してグループ化することで、化合物名のクラスタリングを行なってよい。

図４の例では、類似度判定システム１は、化合物リストＣ_Ｘに対するクラスタリングにより、化合物リストＣ_Ｘ内の化合物名をＮ（Ｎは２以上の整数）個のクラスタ（グループ）に分割し、クラスタごとの化合物リストＣ_Ｘ１～Ｃ_ＸＮを生成する。また、類似度判定システム１は、化合物リストＣ_Ｙに対するクラスタリングにより、化合物リストＣ_Ｙ内の化合物名をＭ（Ｍは２以上の整数）個のクラスタ（グループ）に分割し、クラスタごとの化合物リストＣ_Ｙ１～Ｃ_ＹＭを生成する。

図５の例では、類似度判定システム１は、化合物リストＣ_Ｘ及びＣ_Ｙをそれぞれ４つのクラスタに分類し（Ｎ＝Ｍ＝４）、化合物リストＣ_Ｘ１～Ｃ_Ｘ４及びＣ_Ｙ１～Ｃ_Ｙ４を生成する。このようなクラスタリングにより、結果的に、化合物リストＣ_Ｘ及びＣ_Ｙを、以下のような４つの要素（特性）のクラスタに分類することができる。
・化合物リストＣ_Ｘ１及びＣ_Ｙ１：
「正極活物質」の要素（特性）を有するクラスタ。
・化合物リストＣ_Ｘ２及びＣ_Ｙ２：
「負極活物質」の要素（特性）を有するクラスタ。
・化合物リストＣ_Ｘ３及びＣ_Ｙ３：
「バインダー」の要素（特性）を有するクラスタ。
・化合物リストＣ_Ｘ４及びＣ_Ｙ４：
「電解液溶媒」の要素（特性）を有するクラスタ。

なお、ここまで、構造類似度としてMACCS KeyのTanimoto係数が用いられるものとして説明したが、これに限定されるものではない。例えば、化合物の特徴の表現手法としては、MACCS Key、換言すればMACCSフィンガープリントに限定されるものではなく、例えば、Morganフィンガープリント等の種々の化合物記述子が採用されてもよい。また、化合物間の構造類似度を示す指標としては、Tanimoto係数に限定されるものではなく、例えば、Dice係数等の種々の係数が用いられてもよい。

また、上記式（２）では、類似度判定システム１は、類似度スコアＳ（ｘ_１，ｘ_２）として、固有表現の文書内の出現位置の近さを数値化した値と、固有表現の類似度との積を算出するものとしたが、これに限定されるものではない。

一例として、類似度判定システム１は、下記式（３）を用いて類似度スコアＳ（ｘ_１，ｘ_２）を算出してもよい。

上記式（３）において、Ｗは重みである。Ｗとしては、例えば、固有表現のそれぞれの位置と、固有表現間の類似度とが均等に考慮されるように“0.5”等の値がユーザ等により適宜定義及び設定されてもよい。或いは、Ｗは、検索クエリ及び正解例（正解データ）を含む訓練データに基づく機械学習により、正解例が上位に検索されるような値になるように訓練されたモデルに基づき設定されてもよい。

例えば、化学構造は類似していないが１つの構成要素で同様に用いられる化合物（同一文で併記される可能性が高い）は、上記式（２）を用いると類似度が過少評価される可能性がある。これに対し、上記式（３）のように、固有表現の文書内の出現位置の近さを数値化した値と、固有表現の類似度との重み付き和に基づき類似度スコアを算出することで、化合物の類似度を正当に評価することができる。

以上のように、類似度判定システム１は、クエリ文書１１ａに含まれる第１の複数の化合物名のそれぞれの位置と第１の複数の化合物名のそれぞれの類似度とに基づいて第１の複数の化合物名を分類することで、第１クラスタ群を生成する。また、類似度判定システム１は、比較対象文書１２ａに含まれる第２の複数の化合物名のそれぞれの位置と第２の複数の化合物名のそれぞれの類似度とに基づいて第２の複数の化合物名を分類することで、第２クラスタ群を生成する。第１クラスタ群は、第１の複数のグループの一例であり、第２クラスタ群は、第２の複数のグループの一例である。

（固有表現類似度算出処理の一例）
図３の処理Ｐ３において、例えば、類似度判定システム１は、クエリ文書１１ａから生成した第１クラスタ群内の第１の複数のクラスタと、比較対象文書１２ａから生成した第２クラスタ群内の第２の複数のクラスタとをそれぞれ比較してよい。そして、類似度判定システム１は、第１の複数のクラスタと第２の複数のクラスタとの間の全てのクラスタのペアについて、下記式（４）の演算により、化合物類似度、一例としてコサイン類似度を算出してよい。

上記式（４）において、ａは、１～Ｎの整数であり、ｂは、１～Ｍの整数である。ｉは、化合物リストＣ_Ｘａ及びＣ_Ｙｂに含まれる全ての化合物名を特定するためのインデックスであり、Ｃ_Ｘａｉ及びＣ_Ｙｂｉは、化合物リストＣ_Ｘａ及びＣ_Ｙｂ内のｉ番目の化合物名の出現数を示す。コサイン類似度の算出式は、上記式（１）と同様である。

図４に示す化合物リストＣ_Ｘ及びＣ_Ｙの例では、類似度判定システム１は、化合物リストＣ_Ｘ１、Ｃ_Ｘ２、Ｃ_Ｘ３、・・・Ｃ_ＸＮと、化合物リストＣ_Ｙ１、Ｃ_Ｙ２、Ｃ_Ｙ３、・・・Ｃ_ＹＭとの全てのペア（組み合わせ）について、上記式（４）に従い化合物類似度を算出してよい。

（ランキング処理の一例）
例えば、類似度判定システム１は、ランキング処理において、クエリ文書１１ａと複数の比較対象文書１２ａの各々との間の文書類似度を取得し、文書類似度に基づき、クエリ文書１１ａとの類似度に応じた複数の比較対象文書１２ａのランキングを出力する。

類似度判定システム１は、例えば、下記式（５）に従い、文書Ｘと１つの比較対象文書Ｙとの間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出してよい。

上記式（５）において、ｍａｘは、括弧内の全ての組み合わせのうちの最大の値を採用する関数である。

類似度判定システム１は、上記式（５）に従い、上記式（４）で算出された固有表現類似度のうちの、値が最大となるクラスタのペア（ａ＝１～Ｎ、ｂ＝１～Ｍのいずれかの組み合わせ）を、文書Ｘ及びＹ間の文書類似度Ｓｉｍ（Ｘ，Ｙ）として採用してよい。

図５の例では、類似度判定システム１は、化合物リストＣ_Ｘ１及びＣ_Ｙ１のペア、換言すれば、「正極活物質」のクラスタどうしの化合物類似度が最大であると判定し、当該化合物類似度を文書Ｘ及びＹ間の文書類似度Ｓｉｍ（Ｘ，Ｙ）に決定する。

なお、図４及び図５並びに上記式（５）では、文書Ｘ（クエリ文書１１ａ）と、１つの文書Ｙ（比較対象文書１２ａ）との間の文書類似度を算出する例を示す。類似度判定システム１は、複数の比較対象文書１２ａ、例えば文書Ｙ_１～Ｙ_Ｌ（Ｌは２以上の整数であり、比較対象文書１２ａの文書数）それぞれについて上記処理を行ない、文書類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）を取得してよい。

そして、類似度判定システム１は、例えば、文書類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）が高い文書Ｙから降順に検索対象の全文書Ｙ_１～Ｙ_Ｌをソートし、ソート結果を結果１３として出力してよい。結果１３には、ランク（順位）とともに文書Ｙの識別情報が含まれてよく、各文書Ｙの文書類似度Ｓｉｍ（Ｘ，Ｙ）が含まれてもよい。文書Ｙの識別情報には、文書番号又は文書コード等の識別子及び文書名等の書誌情報、並びに、要約及び所定の部分等の文書Ｙの少なくとも一部の内容、のうちの少なくとも１つを含んでもよい。

なお、類似度判定システム１は、結果１３として、特定の順位であると判定した文書Ｙ、例えば、クエリ文書１１ａとの間で最も文書類似度Ｓｉｍ（Ｘ，Ｙ）の高い文書Ｙの識別情報を出力してもよい。

以上のように、第１実施形態に係る類似度判定システム１によれば、クラスタリング処理により分類したクラスタごとの固有表現類似度に基づき、文書間の類似度を判定することで、部分的に類似した文書間の類似度の判定精度を向上させることができる。

〔１－３〕機能構成例
図６は、第１実施形態に係る類似度判定システム１におけるサーバ２の機能構成例を示すブロック図であり、図７は、サーバ２による画面出力例を示す図である。

サーバ２は、類似度判定装置、情報処理装置、又は、コンピュータの一例である。例えば、サーバ２は、類似度判定システム１において、図示しない端末装置、他のサーバ等との間で、クエリ文書１１ａ及び比較対象文書１２ａの受信、結果１３の送信等の種々の通信を行なってよい。

サーバ２は、例えば、端末装置に対して、アクセスを可能とするための機能を提供してよい。当該機能としては、例えば、端末装置によるアクセスに用いられる、ウェブページ等の画面の生成及び表示制御が挙げられる。例えば、端末装置は、ブラウザ等のアプリケーションを用いてサーバ２にアクセス要求を送信し、サーバ２から受信する画面情報に基づきアプリケーションに表示されるウェブページを介して、サーバ２へのアクセスを行なってよい。例えば、サーバ２は、図７に示すように、クエリを指定するためのクエリ指定画面２１０、及び、判定結果を出力するための判定結果出力画面２４０の画面情報を出力してよい。

類似度判定システム１による上述した類似度判定処理は、サーバ２により実現されてよい。図６に示すように、サーバ２は、例示的に、メモリ部２１、文書入力部２２、類似度算出部２３、及び、類似度出力部２４を備えてよい。メモリ部２１、文書入力部２２、類似度算出部２３、及び、類似度出力部２４は、制御部の一例である。

メモリ部２１は、類似度判定処理に係る種々のデータを記憶する記憶領域を有する。メモリ部２１は、例えば、図３に示すクエリ文書１１ａ、複数の比較対象文書１２ａ、結果１３等の情報を記憶してよい。また、メモリ部２１は、類似度判定処理における中間データとして、図４及び図５に示す文書ごとの化合物リストＣ、類似度スコアＳ、クラスタごとの化合物リストＣ、化合物類似度、文書類似度Ｓｉｍ等の情報を記憶してもよい。

文書入力部２２は、図示しない端末装置又は他のサーバ等のコンピュータから、クエリ文書１１ａ及び比較対象文書１２ａの入力を受け付け、例えばメモリ部２１にＤＢ（Database）として蓄積してもよい。このように、文書入力部２２は、文書のＤＢを構築及び参照可能であってもよい。

また、文書入力部２２は、図示しない端末装置又は他のサーバ等のコンピュータから、類似判定要求に係るクエリ文書１１ａの入力を受け付け、メモリ部２１に格納してよい。クエリ文書１１ａは、例えばクエリ１１に含まれてもよい。

文書入力部２２は、例えば、クエリ１１として、クエリ文書１１ａそのものではなく、クエリ文書１１ａの識別情報、例えば文書番号、文書コード等の情報を受け付けてもよい。この場合、文書入力部２２は、識別情報に基づき、例えばメモリ部２１のＤＢから、類似判定要求に係るクエリ文書１１ａを特定してよい。

例えば、図７に示すように、文書入力部２２は、クエリ指定画面２１０の判定ボタン２１２が押下された際に入力欄２１１に設定されている文書番号を受け付けてよい。

類似度算出部２３は、クエリ文書１１ａ及び比較対象文書１２ａの類似度を算出する。図６に例示するように、類似度算出部２３は、化合物名抽出部２３１、クラスタリング部２３２、及び、文書類似度算出部２３３を備えてよい。

化合物名抽出部２３１は、メモリ部２１に格納されたクエリ文書１１ａ及び比較対象文書１２ａのそれぞれから化合物名を抽出し、化合物リストＣ_Ｘ及びＣ_Ｙを生成する。化合物名抽出部２３１の処理は、図３の処理Ｐ１の一例である。

クラスタリング部２３２は、化合物リストＣ_Ｘ及びＣ_Ｙのそれぞれに含まれる化合物名について類似度スコアＳを算出する。また、クラスタリング部２３２は、類似度スコアＳに基づき化合物名を複数のクラスタに分類して、化合物リストＣ_Ｘ１、Ｃ_Ｘ２、Ｃ_Ｘ３、・・・Ｃ_ＸＮと、化合物リストＣ_Ｙ１、Ｃ_Ｙ２、Ｃ_Ｙ３、・・・Ｃ_ＹＭとを生成する。クラスタリング部２３２の処理は、図３の処理Ｐ２の一例である。

なお、クエリ文書１１ａ及び比較対象文書１２ａの一方又は双方が予めメモリ部２１に格納される場合、クラスタリング部２３２は、各文書について事前にクラスタリング処理を行ない、クラスタごとの化合物リストＣを生成しておいてもよい。一例として、クラスタリング部２３２は、メモリ部２１への文書の登録のタイミングで、登録される各文書についてクラスタリング処理を行なってもよい。

文書類似度算出部２３３は、クラスタごとの化合物リストに基づき、クラスタごとの化合物類似度を算出し、文書内で最も化合物類似度の高いクラスタの化合物類似度を、当該文書の類似度Ｓｉｍ（Ｘ，Ｙ）として算出する。なお、文書類似度算出部２３３は、比較対象文書１２ａが複数（例えばＬ個）存在する場合、比較対象文書１２ａごとの類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）を算出してよい。文書類似度算出部２３３は、算出した類似度Ｓｉｍ（Ｘ，Ｙ）をメモリ部２１に格納してよい。

類似度出力部２４は、類似度算出部２３が算出した類似度Ｓｉｍ（Ｘ，Ｙ）を出力する。なお、類似度出力部２４は、比較対象文書１２ａが複数（例えばＬ個）存在する場合、算出した類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）が高い順に、比較対象文書１２ａ及び類似度Ｓｉｍ（Ｘ，Ｙ）の情報を出力してもよい。

文書類似度算出部２３３及び類似度出力部２４の処理は、図３の処理Ｐ３及びＰ４の一例である。類似度出力部２４による出力には、例えば、図示しない端末装置等のコンピュータへの送信、メモリ部２１等のサーバ２の記憶領域への格納、等が含まれてよい。

例えば、図７に示すように、類似度出力部２４は、判定結果出力画面２４０を出力してもよい。判定結果出力画面２４０には、クエリ文書１１ａの表示領域２４１と、比較対象文書１２ａの少なくとも１つ（図７では３つ）の表示領域２４５ａ～２４５ｃとが含まれてよい。表示領域２４１には、書誌情報及び要約等の表示領域２４２、及び、クエリ文書１１ａの全文を表示する画面に遷移するための全文参照ボタン２４３が含まれてよい。

表示領域２４５ａ～２４５ｃには、書誌情報及び要約等の表示領域２４６ａ～２４６ｃ、全文参照ボタン２４７ａ～２４７ｃ、及び、類似すると判定されたクラスタの化合物リスト２４８ａ～２４８ｃが含まれてよい。なお、表示領域２４５ａ～２４５ｃには、類似度Ｓｉｍ（Ｘ，Ｙ）が表示されてよい。

このように、類似度出力部２４は、化合物リスト２４８ａ～２４８ｃの表示により、クエリ文書１１ａと比較対象文書１２ａとの間の類似度計算の結果、最も類似度が高いと判断されたクラスタに属する固有表現のリストをユーザに提示することができる。

〔１－４〕動作例
図８は、サーバ２の動作例を説明するフローチャートである。図８に示すように、サーバ２は、クエリ文書１１ａに対する処理と、比較対象文書１２ａに対する処理とを互いに異なるタイミングで実施してもよい。

図８に例示するように、文書入力部２２は、クエリ文書１１ａの入力を受け付ける（ステップＳ１）。化合物名抽出部２３１は、クエリ文書１１ａから化合物名を抽出する（ステップＳ２）。クラスタリング部２３２は、抽出した化合物名をクラスタリングする（ステップＳ３）。

また、文書入力部２２は、比較対象文書１２ａの入力を受け付ける（ステップＳ４）。化合物名抽出部２３１は、未選択の比較対象文書１２ａを選択し（ステップＳ５）、選択した比較対象文書１２ａから化合物名を抽出する（ステップＳ６）。クラスタリング部２３２は、抽出した化合物名をクラスタリングする（ステップＳ７）。

文書類似度算出部２３３は、クエリ文書１１ａ及び比較対象文書１２ａの化合物クラスタを比較し、当該文書間の類似度Ｓｉｍを算出し（ステップＳ８）、メモリ部２１に格納する（ステップＳ９）。

文書類似度算出部２３３は、未選択の比較対象文書１２ａがあるか否かを判定し（ステップＳ１０）、あると判定した場合（ステップＳ１０でＹＥＳ）、処理がステップＳ５に移行する。

未選択の比較対象文書１２ａがないと文書類似度算出部２３３が判定した場合（ステップＳ１０でＮＯ）、類似度Ｓｉｍ（Ｘ，Ｙ）が高い順に、比較対象文書１２ａ及びその類似度Ｓｉｍ（Ｘ，Ｙ）を出力し（ステップＳ１１）、処理が終了する。

〔１－５〕ハードウェア構成例
サーバ２は、仮想サーバ（ＶＭ；Virtual Machine）であってもよいし、物理サーバであってもよい。また、サーバ２の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、サーバ２の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

図９は、サーバ２の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。サーバ２の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図９に例示するＨＷ構成を備えてよい。

図９に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、Ｉ／Ｏ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；Integrated Circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

また、記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（類似度判定プログラム）を格納してよい。例えば、サーバ２のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、図６に例示するサーバ２としての機能を実現できる。

図６に示すメモリ部２１は、メモリ１０ｂ及び記憶部１０ｃの一方又は双方の記憶領域により実現されてよい。

ＩＦ部１０ｄは、ネットワークとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ２は、ＩＦ部１０ｄを介して、端末装置及び他のサーバのそれぞれと相互に通信可能に接続されてよい。また、例えば、プログラム１０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

Ｉ／Ｏ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、サーバ２において、Ｉ／Ｏ部１０ｅ及び読取部１０ｆの少なくとも一方は、省略されてもよい。

〔２〕第２実施形態
〔２－１〕第２実施形態の説明
次に、第２実施形態について説明する。第２実施形態では、第１実施形態に係る固有表現に基づく類似度に加えて、単語の意味ベクトルに基づく類似度を用いて、文書間の類似度を判定する手法を説明する。

なお、以下の第２実施形態の説明では、特に言及しない構成、処理又は機能は、既述の第１実施形態に係る構成、処理又は機能と同様であるものとする。

図１０は、第２実施形態に係る類似度判定システム１Ａを説明するための図である。図１０に示すように、第２実施形態に係る類似度判定システム１Ａにおいて、クエリ１１及び文書集合１２に基づく処理Ｐ１～Ｐ３については、第１実施形態と同様である。

図１０に例示するように、類似度判定システム１Ａにおいて、処理Ｐ１～Ｐ３と少なくとも一部の処理が並行又は前後して、処理Ｐ５～Ｐ８が実行されてよい。また、処理Ｐ３及びＰ８の結果に基づき、処理Ｐ９が実行され、結果１４が出力されてよい。以下、処理Ｐ５～Ｐ９について説明する。

例えば、類似度判定システム１Ａは、複数の文書、例えばクエリ文書１１ａ及び複数の比較対象文書１２ａのそれぞれから、例えば形態素解析により単語を抽出する（処理Ｐ５）。

類似度判定システム１Ａは、処理Ｐ５で得られた単語に基づき、複数の文書のそれぞれについて、統計的に単語の重みを算出する（処理Ｐ６）。例えば、類似度判定システム１Ａは、ｔｆ－ｉｄｆ（Term Frequency - Inverse Document Frequency）等の評価手法を用いて、文書内での単語の重要度を重みとして評価してよい。

また、類似度判定システム１Ａは、処理Ｐ６と少なくとも一部の処理が並行又は前後して、処理Ｐ７を実行する。例えば、類似度判定システム１Ａは、処理Ｐ５で得られた単語に基づき、複数の文書のそれぞれについて、単語ベクトルを算出する（処理Ｐ７）。単語ベクトルは、単語埋め込みベクトル又は意味ベクトルと称されてもよい。

例えば、類似度判定システム１Ａは、単語の意味を表現するベクトルが格納されたベクトルデータベースを検索して単語ベクトルを取得してよい。一例として、類似度判定システム１Ａは、訓練済みのモデルに基づき、処理Ｐ５で得られた単語のそれぞれに対応する単語ベクトルを取得してよい。

類似度判定システム１Ａは、文書ごとに、処理Ｐ７で取得した単語ベクトルと、処理Ｐ６で取得した単語の重みとを乗じた結果を文書内の全単語に亘って加算することで文書ベクトルを算出する。そして、類似度判定システム１Ａは、クエリ文書１１ａの文書ベクトル（第１のベクトル）と、比較対象文書１２ａの各々の文書ベクトル（第２のベクトル）との間の類似度を算出する。換言すれば、類似度判定システム１Ａは、単語の意味ベクトルに基づく、クエリ文書１１ａと比較対象文書１２ａとの間のテキスト類似度を算出する（処理Ｐ８）。

例えば、類似度判定システム１Ａは、クエリ文書１１ａと比較対象文書１２ａとについて、下記式（６）の演算により、テキスト類似度、一例としてコサイン類似度を算出してよい。

上記式（６）において、Ｗ_Ｘは、文書Ｘに含まれる単語の分散ベクトルであり、Ｗ_Ｙは、文書Ｙに含まれる単語の分散ベクトルである。

図４に示す化合物リストＣ_Ｘ及びＣ_Ｙの例では、類似度判定システム１Ａは、化合物リストＣ_Ｘ１、Ｃ_Ｘ２、Ｃ_Ｘ３、・・・Ｃ_ＸＮと、化合物リストＣ_Ｙ１、Ｃ_Ｙ２、Ｃ_Ｙ３、・・・Ｃ_ＹＭとの全てのペアについて、上記式（６）に従いテキスト類似度を算出してよい。

そして、類似度判定システム１Ａは、テキスト類似度及び固有表現類似度に基づき、クエリ文書１１ａとの類似度に応じて複数の比較対象文書１２ａの各々をランキング付けするランキング処理を行ない（処理Ｐ９）、結果１４を出力する。結果１４は、ランキング結果を含んでもよい。

例えば、類似度判定システム１Ａは、ランキング処理において、テキスト類似度と固有表現類似度を統合した類似度を算出し、当該類似度に基づき、クエリ文書１１ａとの類似度に応じた複数の比較対象文書１２ａのランキングを出力する。

類似度判定システム１Ａは、例えば、下記式（７）に従い、文書Ｘと１つの比較対象文書Ｙとの間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出してよい。

上記式（７）において、ｍａｘは、括弧内の全ての組み合わせのうちの最大の値を採用する関数である。ｆｃ及びｆｔは、それぞれ、下記式（８）及び（９）に示すように、固有表現類似度及びテキスト類似度である。

類似度判定システム１Ａは、上記式（７）～（９）に従い、上記式（４）で算出された固有表現類似度と、上記（６）で算出されたテキスト類似度に基づいて、文書Ｘ及びＹ間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を取得してよい。

なお、上記式（７）では、文書Ｘ（クエリ文書１１ａ）と、１つの文書Ｙ（比較対象文書１２ａ）との間の文書類似度を算出する例を示す。類似度判定システム１Ａは、第１実施形態と同様に、文書Ｙの数に応じた文書類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）を取得してよい。

そして、類似度判定システム１Ａは、例えば、第１実施形態と同様に、文書類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）が高い文書Ｙから降順に検索対象の全文書Ｙ_１～Ｙ_Ｌをソートすることで、ランキング処理を行なう（処理Ｐ９）。また、類似度判定システム１Ａは、ソート結果を結果１４として出力してよい。結果１４の内容及び出力手法は、第１実施形態に係る結果１３と同様である。

なお、文書類似度Ｓｉｍ（Ｘ，Ｙ）は、上記式（７）に基づき算出されるものとしたが、これに限定されるものではない。例えば、類似度判定システム１Ａは、文書類似度Ｓｉｍ（Ｘ，Ｙ）は、下記式（１０）に従い、文書Ｘと１つの比較対象文書Ｙとの間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を、固有表現似度とテキスト類似度との重み付き和として算出してもよい。

上記式（１０）において、ｗは重みである。ｗとしては、例えば、固有表現類似度とテキスト類似度とが均等に考慮されるように“0.5”等の値がユーザ等により適宜定義及び設定されてもよい。或いは、ｗは、検索クエリ及び正解例（正解データ）を含む訓練データに基づく機械学習により、正解例が上位に検索されるような値になるように訓練されたモデルに基づき設定されてもよい。

以上のように、第２実施形態に係る類似度判定システム１Ａによれば、第１実施形態と同様の効果を奏することができる。また、類似度判定システム１Ａによれば、固有表現類似度に加えて、意味ベクトルに基づく類似度に基づき、文書間の類似度を判定することで、文書間の類似度の判定精度をより向上させることができる。

〔２－２〕機能構成例
図１１は、第２実施形態に係る類似度判定システム１Ａにおけるサーバ３の機能構成例を示すブロック図であり、図１２は、サーバ３による画面出力例を示す図である。

サーバ３は、類似度判定装置、情報処理装置、又は、コンピュータの一例である。例えば、サーバ３は、類似度判定システム１Ａにおいて、図示しない端末装置、他のサーバ等との間で、クエリ文書１１ａ及び比較対象文書１２ａの受信、結果１４の送信等の種々の通信を行なってよい。

サーバ３は、サーバ２と同様に、例えば、端末装置に対して、アクセスを可能とするための機能を提供してよい。例えば、サーバ３は、図１２に示すように、検索クエリを指定するための検索クエリ指定画面３３０、及び、検索結果を出力するための検索結果出力画面３４０の画面情報を出力してよい。

類似度判定システム１Ａによる上述した類似度判定処理は、サーバ３により実現されてよい。図１１に示すように、サーバ３は、例示的に、文書ＤＢ部３１、及び、文書検索部３２を備えてよい。文書ＤＢ部３１、及び、文書検索部３２は、制御部の一例である。なお、サーバ３は、図６に示す文書入力部２２を備えてもよい。

文書ＤＢ部３１は、クエリ文書１１ａ及び比較対象文書１２ａを蓄積し、文書ＤＢを構築する文書ＤＢ構築処理を行なう。

文書検索部３２は、クエリ１１の受け付けに応じて、文書ＤＢ部３１が記憶する情報に基づき、クエリ１１で指定されたクエリ文書１１ａと類似する比較対象文書１２ａを検索する文書検索処理を行なう。文書検索処理は、類似度判定処理を含む処理であり、類似判定処理の利用例（応用例）である。

（文書ＤＢ部３１の説明）
図１１に示すように、文書ＤＢ部３１は、例示的に、文書蓄積部３１１、化合物名抽出部３１２、クラスタリング部３１３、化合物クラスタ蓄積部３１４、文書ベクトル算出部３１５、及び、文書ベクトル蓄積部３１６を備えてよい。

文書蓄積部３１１は、第１実施形態に係るメモリ部２１（図６参照）の一例であり、複数の文書を蓄積する。文書は、クエリ文書１１ａ及び比較対象文書１２ａのいずれとしても用いられ得る文書である。従って、文書蓄積部３１１は、クエリ文書１１ａと、クエリ１１の対象となる複数の比較対象文書１２ａを含む文書集合（文書群）１２とを蓄積するといえる。文書蓄積部３１１は、クエリ１１の受付前に、予め複数の文書を蓄積してよい。なお、文書蓄積部３１１には、第１実施形態に係る文書入力部２２が受け付けた複数の文書が格納されてもよい。

化合物名抽出部３１２は、図６に示す化合物名抽出部２３１の一例であり、文書蓄積部３１１が蓄積する複数の文書の各々から、固有表現の一例としての化合物名を抽出し、文書ごとの化合物リストＣ_Ｘ及びＣ_Ｙを生成する。化合物名抽出部３１２の処理は、図１０の処理Ｐ１の一例である。

クラスタリング部３１３は、図６に示すクラスタリング部２３２の一例である。クラスタリング部３１３は、文書ごとの化合物リストＣ_Ｘ及びＣ_Ｙに基づき、文書ごとに、化合物名の複数の化合物クラスタ、換言すれば、複数の化合物リストＣ_Ｘ１、Ｃ_Ｘ２、Ｃ_Ｘ３、・・・Ｃ_ＸＮ、Ｃ_Ｙ１、Ｃ_Ｙ２、Ｃ_Ｙ３、・・・Ｃ_ＹＭを生成する。クラスタリング部３１３の処理は、図１０の処理Ｐ２の一例である。

化合物クラスタ蓄積部３１４は、図６に示すメモリ部２１の一例であり、クラスタリング部３１３が生成した複数の化合物クラスタ、換言すれば、複数の化合物リストＣ_Ｘ１、Ｃ_Ｘ２、Ｃ_Ｘ３、・・・Ｃ_ＸＮ、Ｃ_Ｙ１、Ｃ_Ｙ２、Ｃ_Ｙ３、・・・Ｃ_ＹＭを蓄積する。

文書ベクトル算出部３１５は、文書蓄積部３１１が蓄積する複数の文書の各々から単語を抽出し、単語に基づき単語の重み及び単語ベクトルを算出して、重み及び単語ベクトルに基づき、複数の文書の各々の文書ベクトルを算出する。文書ベクトル算出部３１５の処理は、図１０の処理Ｐ５～Ｐ７及び処理Ｐ８の少なくとも一部の一例である。

文書ベクトル蓄積部３１６は、図６に示すメモリ部２１の一例であり、文書ベクトル算出部３１５が算出した文書ベクトルを蓄積する。

（文書検索部３２の説明）
図１１に示すように、文書検索部３２は、例示的に、検索クエリ指定部３２１、文書類似度算出部３２２、検索結果生成部３２３、及び、検索結果出力部３２４を備えてよい。

検索クエリ指定部３２１は、図６に示す文書入力部２２の一例であり、図示しない端末装置又は他のサーバ等のコンピュータから、文書検索を要求するクエリ１１（以下、「検索クエリ１１」と表記する場合がある）の入力を受け付ける。

例えば、図１２に示すように、検索クエリ指定部３２１は、検索クエリ指定画面３３０の検索ボタン３３２が押下された際に入力欄３３１に設定されている、クエリ文書１１ａの文書番号を受け付けてよい。

文書類似度算出部３２２は、図６に示す文書類似度算出部２３３の一例である。文書類似度算出部３２２は、化合物クラスタ蓄積部３１４に蓄積された化合物クラスタ、及び、文書ベクトル蓄積部３１６に蓄積された文書ベクトルに基づき、検索クエリ１１で指定されたクエリ文書１１ａと他の文書との間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出する。

例えば、文書類似度算出部３２２は、化合物クラスタ蓄積部３１４に蓄積された化合物クラスタのうちの、クエリ文書１１ａ及び比較対象文書１２ａにそれぞれ対応する化合物クラスタどうしを比較し、化合物類似度を算出してよい。

また、文書類似度算出部３２２は、文書ベクトル蓄積部３１６に蓄積された文書ベクトルのうちの、クエリ文書１１ａ及び比較対象文書１２ａにそれぞれ対応する文書ベクトルどうしを比較し、テキスト類似度を算出してよい。

そして、文書類似度算出部３２２は、化合物類似度及びテキスト類似度に基づき、文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出し、文書類似度Ｓｉｍ（Ｘ，Ｙ）の大きい順に比較対象文書１２ａをソートすることで、ランキングの結果１４を生成してよい。

文書類似度算出部３２２の処理は、図１０の処理Ｐ３、処理Ｐ８の少なくとも一部、及び、処理Ｐ９の一例である。

検索結果生成部３２３は、結果１４に基づき、出力するための検索結果を生成する。例えば、検索結果生成部３２３は、図１２に示す検索結果出力画面３４０を生成してよい。検索結果出力画面３４０は、図７に示す判定結果出力画面２４０における判定結果２４４を検索結果３４４に置き換えたものであってもよい。

図１２に示すように、検索結果出力画面３４０には、クエリ文書１１ａの表示領域３４１と、比較対象文書１２ａの少なくとも１つ（図１２では３つ）の表示領域３４５ａ～３４５ｃとが含まれてよい。表示領域３４１には、クエリ文書１１ａの書誌情報及び要約等の表示領域３４２、及び、クエリ文書１１ａの全文参照ボタン３４３が含まれてよい。

表示領域３４５ａ～３４５ｃには、比較対象文書１２ａの書誌情報及び要約等の表示領域３４６ａ～３４６ｃ、全文参照ボタン３４７ａ～３４７ｃ、及び、類似すると判定されたクラスタの化合物リスト３４８ａ～３４８ｃが含まれてよい。なお、表示領域３４５ａ～３４５ｃには、類似度Ｓｉｍ（Ｘ，Ｙ）が表示されてもよい。

検索結果出力部３２４は、図示しない端末装置又は他のサーバ等のコンピュータに対して、検索結果出力画面３４０を出力する。

〔２－３〕動作例
図１３は、サーバ３の文書ＤＢ構築処理の動作例を説明するフローチャートであり、図１４は、サーバ３の文書検索処理の動作例を説明するフローチャートである。

（文書ＤＢ構築処理の動作例）
図１３に例示するように、文書蓄積部３１１は、未選択の文書を選択し（ステップＳ２１）、文書ＤＢに文書を登録する（ステップＳ２２）。

文書ベクトル算出部３１５は、文書のテキストの文書ベクトルを算出する（ステップＳ２３）。文書ベクトル蓄積部３１６は、算出した文書ベクトルを文書と対応付けて、例えば文書ＤＢ又は文書ベクトルＤＢ等に登録（蓄積）する（ステップＳ２４）。

化合物名抽出部３１２は、文書のテキストから化合物名を抽出する（ステップＳ２５）。クラスタリング部３１３は、抽出した化合物名をクラスタリングする（ステップＳ２６）。化合物クラスタ蓄積部３１４は、化合物クラスタの情報を文書と対応付けて、例えば文書ＤＢ又は化合物クラスタＤＢ等に登録（蓄積）する（ステップＳ２７）。

文書蓄積部３１１は、未選択の文書があるか否かを判定し（ステップＳ２８）、あると判定した場合（ステップＳ２８でＹＥＳ）、処理がステップＳ２１に移行する。文書蓄積部３１１が未選択の文書がないと判定した場合（ステップＳ２８でＮＯ）、処理が終了する。

なお、ステップＳ２３及びＳ２４の処理と、ステップＳ２５～Ｓ２７の処理とを入れ替えてもよいし、これらの処理の少なくとも一部が前後又は並行して実行されてもよい。

（文書検索処理の動作例）
図１４に例示するように、検索クエリ指定部３２１は、検索クエリ指定画面３３０からのクエリ文書１１ａの指定を受け付ける（ステップＳ３１）。

文書類似度算出部３２２は、文書ベクトル蓄積部３１６からクエリ文書１１ａの文書ベクトルを取得し（ステップＳ３２）、化合物クラスタ蓄積部３１４からクエリ文書１１ａの化合物クラスタを取得する（ステップＳ３３）。

文書類似度算出部３２２は、未選択の文書を選択し（ステップＳ３４）、文書ベクトル蓄積部３１６から選択した文書の文書ベクトルを取得し（ステップＳ３５）、化合物クラスタ蓄積部３１４から選択した文書の化合物クラスタを取得する（ステップＳ３６）。

文書類似度算出部３２２は、クエリ文書１１ａ及び選択した文書の文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出する（ステップＳ３７）。

文書類似度算出部３２２は、未選択の文書があるか否かを判定し（ステップＳ３８）、ある場合（ステップＳ３８でＹＥＳ）、処理がステップＳ３４に移行する。文書類似度算出部３２２が未選択の文書がないと判定した場合（ステップＳ３８でＮＯ）、文書類似度算出部３２２は、文書類似度が高い順に所定の個数の文書と、各文書でクエリ文書１１ａとの文書類似度が最も高いクラスタとを抽出する（ステップＳ３９）。

検索結果生成部３２３は、抽出したデータに基づき検索結果を生成し、検索結果出力部３２４が検索結果、例えば検索結果出力画面３４０を出力し（ステップＳ４０）、処理が終了する。

〔２－４〕第１変形例
次に、第２実施形態の第１変形例について説明する。

（機能構成例）
図１５は、第２実施形態の第１変形例及び後述する第２変形例に係る類似度判定システム１Ｂにおけるサーバ４の機能構成例を示すブロック図であり、図１６及び図１７は、サーバ４による画面出力例を示す図である。

第１変形例に係る類似度判定システム１Ｂは、クエリ文書１１ａのクラスタリングの結果であるクラスタを固有表現のリストとしてユーザに提示し、類似度計算に用いるクラスタをユーザに選択させた後に、選択されたクラスタを用いて類似度計算を行なう。これにより、クエリ文書１１ａ内の複数の構成要素のうち、ユーザの意図した構成要素による比較対象文書１２ａの検索を行なうことができ、文書間の類似度の判定精度をより向上させることができる。

図１５に示すように、サーバ４は、例示的に、文書ＤＢ部３１及び文書検索部４２を備えてよい。文書ＤＢ部３１及び文書検索部４２は、制御部の一例である。文書ＤＢ部３１は、図１１に示す文書ＤＢ部３１と同様である。

文書検索部４２は、例示的に、検索クエリ指定部４２１、文書類似度算出部４２２、検索結果生成部４２３、検索結果出力部４２４、化合物クラスタ取得部４２５、クラスタ提示部４２６、及び、クラスタ指定部４２７を備えてよい。

検索クエリ指定部４２１、文書類似度算出部４２２、検索結果生成部４２３及び検索結果出力部４２４は、特に言及しない場合、図１１に示す検索クエリ指定部３２１、文書類似度算出部３２２、検索結果生成部３２３及び検索結果出力部３２４と同様である。

化合物クラスタ取得部４２５は、検索クエリ指定部４２１が受け付けたクエリ文書１１ａの化合物クラスタを化合物クラスタ蓄積部３１４から取得し、クエリ文書１１ａとともにクラスタ提示部４２６に通知する。

クラスタ提示部４２６は、化合物クラスタ取得部４２５から取得したクエリ文書１１ａの化合物クラスタをユーザに提示する。例えば、クラスタ提示部４２６は、図１６に示すクラスタ指定画面４４０を生成し、端末装置又は他のサーバ等のコンピュータに出力する。

図１６に示すように、クラスタ指定画面４４０は、クエリ文書１１ａの表示領域４４１と、当該クエリ文書１１ａに含まれる複数の化合物クラスタを提示する表示領域４４４とを含んでよい。表示領域４４１には、クエリ文書１１ａの書誌情報及び要約等の表示領域４４２、及び、クエリ文書１１ａの全文参照ボタン４４３が含まれてよい。

表示領域４４４には、クエリ文書１１ａの複数のクラスタに対応する複数の化合物リスト４４５と、複数の化合物リスト４４５から類似度計算に用いる化合物クラスタを指定するためのチェックボックス４４６と、検索を実行するための検索ボタン４４７とを含んでよい。

クラスタ指定部４２７は、クラスタ指定画面４４０の検索ボタン４４７が押下された際にチェックボックス４４６が選択されている化合物リスト４４５の情報を、文書類似度算出部４２２に通知する。

文書類似度算出部４２２は、クエリ文書１１ａと、選択した文書との間の文書類似度Ｓｉｍ（Ｘ，Ｙ）の算出の際に用いる化合物クラスタを、クラスタ指定部４２７から指定された化合物リストに制限（限定）する。例えば、文書類似度算出部４２２は、クエリ文書１１ａの複数の化合物クラスタのうちの指定された化合物クラスタに限定し、当該化合物クラスタの化合物リストと、選択した文書の複数の化合物リストとを比較してよい。

検索結果生成部４２３及び検索結果出力部４２４は、文書類似度算出部４２２による結果１４に基づき、図１７に示すような検索結果出力画面４５０を生成及び出力してよい。ここで、クラスタ指定画面４４０において、類似度計算に用いる化合物クラスタが指定されている。このため、検索結果出力画面４５０では、化合物リスト（図１２の化合物リスト３４８ａ～３４８ｃ参照）の表示が省略されてよい。なお、図１２の例と同様に、検索結果出力画面４５０に化合物リストが表示されてもよい。

このように、第１変形例に係るサーバ４によれば、第２実施形態と同様の効果を奏することができるほか、類似度の判定に用いる化合物クラスタを適切な化合物クラスタに限定することができ、文書間の類似度の判定精度をより向上させることができる。また、類似度の判定に用いる化合物クラスタの数を制限できるため、文書検索処理の処理時間を短縮することができる。

（文書検索処理の動作例）
図１８は、サーバ４の文書検索処理の動作例を説明するフローチャートである。以下、サーバ４の文書検索処理のうちの図１４に示す動作例とは異なる処理を説明する。

図１８に例示するように、化合物クラスタ取得部４２５は、化合物クラスタ蓄積部３１４から、クエリ文書１１ａの化合物クラスタ、換言すれば化合物リストを取得する（ステップＳ４１）。

クラスタ提示部４２６は、化合物クラスタ取得部４２５が取得した化合物リストを含むクラスタ指定画面４４０を生成し、ユーザに提示する（ステップＳ４２）。クラスタ指定部４２７は、クラスタ指定画面４４０における化合物クラスタの指定を受け付け（ステップＳ４３）、処理がステップＳ３４に移行する。なお、ステップＳ４１～Ｓ４３の処理は、ステップＳ３２の前、後、又は、並行して実行されてもよい。

文書類似度算出部４２２は、選択した文書の文書ベクトル及び化合物クラスタの取得後、選択した文書の化合物クラスタを、クラスタ指定部４２７が受け付けた指定クラスタに限定する。

そして、文書類似度算出部４２２は、クエリ文書１１ａの化合物リストを、指定クラスタ、換言すれば、指定された化合物リストに限定して、クエリ文書１１ａと選択した文書との間の文書間類似度を算出し（ステップＳ４４）、処理がステップＳ３８に移行する。

文書類似度算出部４２２は、全ての文書について文書類似度の算出が完了すると（ステップＳ３８でＮＯ）、類似度が高い順に、所定の個数の文書を抽出し（ステップＳ４５）、処理がステップＳ４０に移行する。

〔２－５〕第２変形例
次に、第２実施形態の第２変形例について説明する。

第２変形例に係る類似度判定システム１Ｂにおけるサーバ４の機能構成例は、図１５に示す第１変形例と同様である。図１９は、第２変形例に係るサーバ４の画面出力例を示す図である。図１９に示すように、第２変形例では、検索クエリ指定部４２１が、検索クエリ指定画面４６０に、クエリ文書１１ａの文書番号の入力欄４６１及び１以上のキーワード（ここでは化合物名）の入力領域４６２を含める。クラスタ指定部４２７は、検索ボタン４６３が押下された際に入力欄４６１に入力されているクエリ文書１１ａの文書番号及び入力領域４６２に入力されている１以上のキーワードの情報を、文書類似度算出部４２２に通知する。

文書類似度算出部４２２は、指定されたクエリ文書１１ａと比較する文書の化合物クラスタを、クラスタ指定部４２７が受け付けたキーワードを含む（例えば所定回数以上含む）クラスタに限定する。そして、文書類似度算出部４２２は、指定キーワードを含むクラスタ、換言すれば化合物リストに着目して、クエリ文書１１ａと当該文書との間の文書間類似度を算出する。

このように、第２変形例に係るサーバ４によれば、第１変形例と同様の効果を奏することができるほか、ユーザは、特定のクラスタに限定せず、所定のキーワードを含むクラスタを柔軟に指定することができ、利便性が高い。

〔３〕第３実施形態
〔３－１〕第３実施形態の説明
次に、第３実施形態について説明する。第３実施形態では、第２実施形態に係るテキスト類似度の算出処理において、固有表現類似度の算出の過程で得られるクラスタリング結果を利用する手法を説明する。

なお、以下の第３実施形態の説明では、特に言及しない構成、処理又は機能は、既述の第１実施形態及び第２実施形態に係る構成、処理又は機能と同様であるものとする。

図２０は、第３実施形態に係る類似度判定システム１Ｃを説明するための図であり、図２１及び図２２は、類似度判定システム１Ｃの処理の一例を説明するための図である。

図２０に示すように、第３実施形態に係る類似度判定システム１Ｃは、図１０に示す類似度判定システム１Ｂの処理Ｐ８を処理Ｐ１０及びＰ１１に置き換え、処理Ｐ９を処理Ｐ１２に置き換え、処理Ｐ２の処理結果を処理Ｐ１０に渡すものである。以下、処理Ｐ１０～Ｐ１２について説明する。

（部分文書クラスタリング処理；処理Ｐ１０）
類似度判定システム１Ｃは、処理Ｐ１０において、文書ごとに、文書を分割することによって複数の部分文書（部分テキスト）を取得する。部分文書、換言すれば、文書の分割単位としては、例えば、文、段落、章又は節等が挙げられる。以下、部分文書が段落であるものとする。

図２１及び図２２の例では、類似度判定システム１Ｃは、クエリ１１に含まれる文書Ｘを分割して複数の段落Ｐ_Ｘを取得し、文書集合１２に含まれる文書Ｙを分割して複数の段落Ｐ_Ｙを取得する。以下、段落Ｐ_Ｘ及びＰ_Ｙを互いに区別しない場合には、単に「段落Ｐ」と表記する。

類似度判定システム１Ｃは、段落Ｐを、処理Ｐ２で得られる固有表現（例えば化合物）クラスタに基づきクラスタリングすることによって、部分文書クラスタを取得する。例えば、類似度判定システム１Ｃは、固有表現クラスタに含まれる固有表現と、複数の段落Ｐに含まれる固有表現との間の一致度に基づいて、段落Ｐをクラスタリングしてよい。

図２１の例では、類似度判定システム１Ｃは、文書Ｘについて、下記式（１１）に従い、クラスタごとの化合物リストＣ_Ｘ１～Ｃ_ＸＮのそれぞれと、複数の段落Ｐ_Ｘのそれぞれとの一致度に基づき、部分文書クラスタＰ_Ｘ１～Ｐ_ＸＮを生成する。また、類似度判定システム１Ｃは、文書Ｙについて、下記式（１２）に従い、クラスタごとの化合物リストＣ_Ｙ１～Ｃ_ＹＮのそれぞれと、複数の段落Ｐ_Ｙのそれぞれとの一致度ｃｏｓ（Ｃ_ＰＸ，Ｃ_Ｘａ）に基づき、部分文書クラスタＰ_Ｙ１～Ｐ_ＹＮを生成する。

上記式（１１）及び式（１２）において、Ｃ_ＰＸは、段落Ｐ_Ｘに含まれる化合物リストであり、Ｃ_ＰＹは、段落Ｐ_Ｙに含まれる化合物リストである。Ｃ_Ｘａ及びＣ_Ｙｂは、処理Ｐ２で得られる文書Ｘ及びＹの化合物リストである。ａｒｇｍａｘは、括弧内の要素が最大となるときの条件（ここではクラスタ）を抽出する関数である。上記式（１１）及び式（１２）によれば、段落Ｐに含まれる化合物名の各々と、化合物クラスタ内の化合物名の各々との間のコサイン類似度が最大となる、例えば出現数が最多となる要素（化合物クラスタ）に、段落Ｐを振り分けることができる。

図２２の例では、類似度判定システム１Ｃは、段落Ｐ_Ｘ及びＰ_Ｙをそれぞれ４つのクラスタに分類し（Ｎ＝Ｍ＝４）、部分文書クラスタＰ_Ｘ１～Ｐ_Ｘ４及びＰ_Ｙ１～Ｐ_Ｙ４を生成する。このようなクラスタリングにより、結果的に、段落Ｐ_Ｘ及びＰ_Ｙを、以下のような４つの要素（特性）の部分文書クラスタに分類することができる。
・部分文書クラスタＰ_Ｘ１及びＰ_Ｙ１：
「負極活物質」について記載された段落。
・部分文書クラスタＰ_Ｘ２及びＰ_Ｙ２：
「正極活物質」について記載された段落。
・部分文書クラスタＰ_Ｘ３及びＰ_Ｙ３：
「バインダー」について記載された段落。
・部分文書クラスタＰ_Ｘ４及びＰ_Ｙ４：
「電解液溶媒」について記載された段落。

そして、類似度判定システム１Ｃは、部分文書クラスタのそれぞれに含まれる単語に基づいて、複数の部分文書クラスタのそれぞれに対応する複数の部分文書ベクトルを算出する。例えば、類似度判定システム１Ｃは、部分文書クラスタごとに、処理Ｐ７で取得した単語ベクトルと、処理Ｐ６で取得した単語の重みとを乗じた結果を部分文書クラスタ内の全単語に亘って加算することで、部分文書ベクトルを算出してよい。

（テキスト類似度算出処理；処理Ｐ１１）
類似度判定システム１Ｃは、処理Ｐ１１において、クエリ文書１１ａの部分文書ベクトルと、比較対象文書１２ａの各々の部分文書ベクトルとの間の類似度、換言すれば、単語の意味ベクトルに基づく、部分文書クラスタ間のテキスト類似度を算出する。クエリ文書１１ａの部分文書ベクトルは、第１の複数のベクトルの一例であり、比較対象文書１２ａの部分文書ベクトルは、第２の複数のベクトルの一例である。

例えば、類似度判定システム１Ｃは、クエリ文書１１ａの部分文書クラスタと比較対象文書１２ａの部分文書クラスタとについて、下記式（１３）の演算により、テキスト類似度、一例としてコサイン類似度を算出してよい。

上記式（１３）において、ＷＰ_Ｘａは、段落Ｐ_Ｘａに含まれる単語の分散ベクトルであり、ＷＰ_Ｙｂは、段落Ｐ_Ｙｂに含まれる単語の分散ベクトルである。

図２１に示す例では、類似度判定システム１Ｃは、部分文書クラスタＰ_Ｘ１、Ｐ_Ｘ２、Ｐ_Ｘ３、・・・Ｐ_ＸＮと、部分文書クラスタＰ_Ｙ１、Ｐ_Ｙ２、Ｐ_Ｙ３、・・・Ｐ_ＹＭとの全てのペアについて、上記式（１３）に従いテキスト類似度を算出してよい。

（ランキング処理；処理Ｐ１２）
そして、類似度判定システム１Ｃは、テキスト類似度及び固有表現類似度に基づき、クエリ文書１１ａとの類似度に応じて複数の比較対象文書１２ａの各々をランキング付けするランキング処理を行ない（処理Ｐ１２）、結果１４を出力する。

例えば、類似度判定システム１Ｃは、ランキング処理において、テキスト類似度と固有表現類似度を統合した類似度を算出し、当該類似度に基づき、クエリ文書１１ａとの類似度に応じた複数の比較対象文書１２ａのランキングを出力する。

類似度判定システム１Ｃは、例えば、下記式（１４）に従い、文書Ｘと１つの比較対象文書Ｙとの間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出してよい。

上記式（１４）において、ｆｃは前述の（８）式に従った固有表現類似度、ｆｔは上記式（１３）に従ったテキスト類似度である。

なお、上記式（１４）では、文書Ｘ（クエリ文書１１ａ）と、１つの文書Ｙ（比較対象文書１２ａ）との間の文書類似度を算出する例を示す。類似度判定システム１Ｃは、第２実施形態と同様に、文書Ｙの数に応じた文書類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）を取得してよい。

そして、類似度判定システム１Ｃは、例えば、第２実施形態と同様に、文書類似度Ｓｉｍ（Ｘ，Ｙ_１）～Ｓｉｍ（Ｘ，Ｙ_Ｌ）が高い文書Ｙから降順に検索対象の全文書Ｙ_１～Ｙ_Ｌをソートすることで、ランキング処理を行なう。また、類似度判定システム１Ｃは、ソート結果を結果１４として出力してよい。

なお、類似度判定システム１Ｃは、第２実施形態と同様に、下記式（１５）に従い、文書Ｘと１つの比較対象文書Ｙとの間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を、固有表現似度とテキスト類似度との重み付き和として算出してもよい。

以上のように、第３実施形態に係る類似度判定システム１Ｃによれば、第１及び第２実施形態と同様の効果を奏することができる。

また、図２２に示すように、部分文書クラスタどうしの比較を行なうことで、例えば、「正極活物質」についての意味ベクトルが類似しているから文書Ｘ及びＹの類似度が高い、と判断することができる。図２２では、便宜上、意味ベクトル空間を２次元で示すが、実際には数百次元のベクトルとなり得る。第３実施形態によれば、部分文書クラスタどうしの比較により、部分的に類似する文書間の類似度の判定精度を向上させることができる。

〔３－２〕機能構成例
図２３は、第３実施形態に係る類似度判定システム１Ｃにおけるサーバ５の機能構成例を示すブロック図である。サーバ５は、特に言及しない場合、図１１に示すサーバ３、又は、図１５に示すサーバ４と同様であってよい。

類似度判定システム１Ｃによる上述した類似度判定処理は、サーバ５により実現されてよい。図２３に示すように、サーバ５は、例示的に、文書ＤＢ部５１及び文書検索部５２を備えてよい。文書ＤＢ部５１及び文書検索部５２は、制御部の一例である。

文書ＤＢ部５１は、図１１に示す文書ベクトル算出部３１５及び文書ベクトル蓄積部３１６に代えて、文書クラスタベクトル算出部５１５及び文書クラスタベクトル蓄積部５１６を備えてよい。また、文書ＤＢ部５１では、クラスタリング部３１３から文書クラスタベクトル算出部５１５に、クラスタリング結果である化合物クラスタが出力されてよい。

文書検索部５２は、図１１に示す文書類似度算出部３２２に代えて、文書類似度算出部５２２を備えてよい。

（文書ＤＢ部５１の説明）
例えば、文書クラスタベクトル算出部５１５は、クラスタリング部３１３からの化合物クラスタの情報に基づき、部分文書クラスタごとの文書ベクトルを算出してよい。文書クラスタベクトル算出部５１５の処理は、図２０に示す処理Ｐ１０の処理の一例である。

文書クラスタベクトル蓄積部５１６は、文書クラスタベクトル算出部５１５が算出した部分文書クラスタごとの文書ベクトルを蓄積する。

（文書検索部５２の説明）
文書類似度算出部５２２は、クエリ文書１１ａの部分文書ベクトルと、比較対象文書１２ａの各々の部分文書ベクトルとの間の文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出し、文書類似度Ｓｉｍ（Ｘ，Ｙ）から結果１４を生成してよい。文書類似度算出部５２２の処理は、図２０の処理Ｐ３、処理Ｐ１１、及び、処理Ｐ１２の一例である。

なお、第３実施形態に係る文書検索部５２は、図１２、図１６、図１７、図１９等に示す上述した種々の画面を出力してよい。

〔３－３〕動作例
図２４は、サーバ５の文書ＤＢ構築処理の動作例を説明するフローチャートであり、図２５は、サーバ５の文書検索処理の動作例を説明するフローチャートである。

（文書ＤＢ構築処理の動作例）
図２４は、図１３に示すステップＳ２３及びＳ２４を削除し、ステップＳ２７とＳ２８との間にステップＳ５１～Ｓ５４を追加したものである。

図２４に例示するように、文書クラスタベクトル算出部５１５は、文書のテキストを所定単位に分割し（ステップＳ５１）、化合物クラスタ蓄積部３１４が蓄積する化合物クラスタに基づき、各分割単位（段落Ｐ）をクラスタリングする（ステップＳ５２）。

また、文書クラスタベクトル算出部５１５は、各部分文書クラスタの文書ベクトルを算出する（ステップＳ５３）。文書クラスタベクトル蓄積部５１６は、各部分文書クラスタの文書ベクトルを蓄積し（ステップＳ５４）、処理がステップＳ２８に移行する。

（文書検索処理の動作例）
図２５は、図１４に示すステップＳ３２、Ｓ３５、Ｓ３７を、それぞれステップＳ６１、Ｓ６２、ステップＳ６３に置き換えたものである。

文書類似度算出部５２２は、ステップＳ６１において、文書クラスタベクトル蓄積部５１６からクエリ文書１１ａの部分文書クラスタの文書ベクトルを取得する。

文書類似度算出部５２２は、ステップＳ６２において、文書クラスタベクトル蓄積部５１６から選択した文書の部分文書クラスタの文書ベクトルを取得する。

文書類似度算出部５２２は、ステップＳ６３において、ステップＳ６１及びＳ６２でそれぞれ取得した文書ベクトルと、化合物クラスタとに基づき、文書類似度Ｓｉｍ（Ｘ，Ｙ）を算出する。

〔４〕その他
上述した第１～第３実施形態、並びに、第２実施形態の第１及び第２変形例に係る技術は、以下のように変形、変更して実施することができる。

例えば、上述した第１～第３実施形態、並びに、第２実施形態の第１及び第２変形例では、固有表現として、化合物名が用いられる場合を例に挙げて説明したが、これに限定されるものではない。固有表現としては、例えば遺伝子配列（ゲノム）等、自然言語処理において固有表現抽出処理の対象となり得る種々の用語が用いられてもよい。

また、例えば、図６、図１１、図１５、図２０に示すサーバ２～サーバ５のそれぞれが備える機能構成は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。また、第１～第３実施形態、並びに、第２実施形態の第１及び第２変形例を適宜組み合わせて実施してもよい。さらに、サーバ２～サーバ５のそれぞれは、図７、図１２、図１６、図１７、図１９のいずれの画面の画面情報を生成してもよく、画面に応じた機能構成を備えてよい。

さらに、図６、図１１、図１５、図２０に示すサーバ２～サーバ５のそれぞれは、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、メモリ部２１はＤＢサーバ、文書ＤＢ部３１及び５１はアプリケーションサーバ及びＤＢサーバの組み合わせ、文書入力部２２、類似度算出部２３、類似度出力部２４、文書検索部３２、４２及び５２はアプリケーションサーバ及びＷｅｂサーバの組み合わせ、等であってもよい。これらの場合、コンピュータ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、サーバ２～５としての各処理機能を実現してもよい。

また、サーバ３～５のそれぞれは、図９に例示するコンピュータ１０のＨＷ構成を備えてよい。

１、１Ａ～１Ｃ類似度判定システム
１０コンピュータ
１１クエリ
１１ａクエリ文書
１２文書集合
１２ａ比較対象文書
１３、１４結果
２～５サーバ
２１メモリ部
２２文書入力部
２３類似度算出部
２４類似度出力部
２３１、３１２化合物名抽出部
２３２、３１３クラスタリング部
２３３文書類似度算出部
３１、５１文書ＤＢ部
３１１文書蓄積部
３１４化合物クラスタ蓄積部
３１５文書ベクトル算出部
３１６文書ベクトル蓄積部
３２、４２、５２文書検索部
３２１、４２１検索クエリ指定部
３２２、４２２、５２２文書類似度算出部
３２３、４２３検索結果生成部
３２４、４２４検索結果出力部
４２５化合物クラスタ取得部
４２６クラスタ提示部
４２７クラスタ指定部
５１５文書クラスタベクトル算出部
５１６文書クラスタベクトル蓄積部

Claims

第１の文書に含まれる第１の複数の固有表現のそれぞれの位置と前記第１の複数の固有表現のそれぞれの類似度とに基づいて前記第１の複数の固有表現を分類することによって生成された第１の複数のグループを取得し、
第２の文書に含まれる第２の複数の固有表現のそれぞれの位置と前記第２の複数の固有表現のそれぞれの類似度とに基づいて前記第２の複数の固有表現を分類することによって生成された第２の複数のグループを取得し、
前記第１の複数のグループと前記第２の複数のグループとの比較に基づいて、前記第１の文書と前記第２の文書との類似度を判定する、
処理をコンピュータに実行させる、類似度判定プログラム。
前記第１の複数のグループを取得する処理は、前記第１の複数の固有表現の各々の前記第１の文書内の出現位置の近さを数値化した値と、前記第１の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含み、
前記第２の複数のグループを取得する処理は、前記第２の複数の固有表現の各々の前記第２の文書内の出現位置の近さを数値化した値と、前記第２の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含む、
請求項１に記載の類似度判定プログラム。
前記類似度を判定する処理は、前記第１の複数のグループの各々と前記第２の複数のグループの各々との組み合わせの中で、グループの類似度が最大となる組み合わせの前記グループの類似度を、前記第１の文書と前記第２の文書との類似度と判定する処理を含む、
請求項１又は請求項２に記載の類似度判定プログラム。
前記第２の複数のグループのうちの前記グループの類似度が最大となるグループに属する固有表現のリストを含む画面情報を出力する、
処理を前記コンピュータに実行させる、
請求項３に記載の類似度判定プログラム。
前記第１の文書に含まれる単語に基づいて、前記第１の文書に対応する第１のベクトルを算出し、
前記第２の文書に含まれる単語に基づいて、前記第２の文書に対応する第２のベクトルを算出する、
処理を前記コンピュータに実行させ、
前記類似度を判定する処理は、前記第１の複数のグループと前記第２の複数のグループとの比較と、前記第１のベクトルと前記第２のベクトルとの比較とに基づいて、前記第１の文書と前記第２の文書との前記類似度を判定する処理を含む、
請求項１～請求項４のいずれか１項に記載の類似度判定プログラム。
前記第１のベクトルを算出する処理は、前記第１の文書を分割することによって得られた第１の複数の部分文書を前記第１の複数のグループに基づいて分類することによって得られた第１の複数の部分文書グループについて、前記第１の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第１の複数の部分文書グループのそれぞれに対応する第１の複数のベクトルを算出する処理を含み、
前記第２のベクトルを算出する処理は、前記第２の文書を分割することによって得られた第２の複数の部分文書を前記第２の複数のグループに基づいて分類することによって得られた第２の複数の部分文書グループについて、前記第２の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第２の複数の部分文書グループのそれぞれに対応する第２の複数のベクトルを算出する処理を含む、
請求項５に記載の類似度判定プログラム。
前記第１の複数のグループの各々の情報を含む画面情報を出力する、
処理を前記コンピュータに実行させ、
前記類似度を判定する処理は、前記画面情報に応じて選択されたグループと、前記第２の複数のグループとの比較に基づいて、前記第１の文書と前記第２の文書との前記類似度を判定する処理を含む、
請求項１～請求項６のいずれか１項に記載の類似度判定プログラム。
前記類似度を判定する処理は、前記第１の複数のグループのうちの指定されたキーワードを含むグループと、前記第２の複数のグループとの比較に基づいて、前記第１の文書と前記第２の文書との前記類似度を判定する処理を含む、
請求項１～請求項７のいずれか１項に記載の類似度判定プログラム。
第１の文書に含まれる第１の複数の固有表現のそれぞれの位置と前記第１の複数の固有表現のそれぞれの類似度とに基づいて前記第１の複数の固有表現を分類することによって生成された第１の複数のグループを取得し、
第２の文書に含まれる第２の複数の固有表現のそれぞれの位置と前記第２の複数の固有表現のそれぞれの類似度とに基づいて前記第２の複数の固有表現を分類することによって生成された第２の複数のグループを取得し、
前記第１の複数のグループと前記第２の複数のグループとの比較に基づいて、前記第１の文書と前記第２の文書との類似度を判定する、制御部を備える、
類似度判定装置。
第１の文書に含まれる第１の複数の固有表現のそれぞれの位置と前記第１の複数の固有表現のそれぞれの類似度とに基づいて前記第１の複数の固有表現を分類することによって生成された第１の複数のグループを取得し、
第２の文書に含まれる第２の複数の固有表現のそれぞれの位置と前記第２の複数の固有表現のそれぞれの類似度とに基づいて前記第２の複数の固有表現を分類することによって生成された第２の複数のグループを取得し、
前記第１の複数のグループと前記第２の複数のグループとの比較に基づいて、前記第１の文書と前記第２の文書との類似度を判定する、
処理をコンピュータが実行する、類似度判定方法。