JP7487797B2 - 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 - Google Patents

類似度判定プログラム、類似度判定装置、及び、類似度判定方法 Download PDF

Info

Publication number
JP7487797B2
JP7487797B2 JP2022569434A JP2022569434A JP7487797B2 JP 7487797 B2 JP7487797 B2 JP 7487797B2 JP 2022569434 A JP2022569434 A JP 2022569434A JP 2022569434 A JP2022569434 A JP 2022569434A JP 7487797 B2 JP7487797 B2 JP 7487797B2
Authority
JP
Japan
Prior art keywords
document
similarity
groups
compound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022569434A
Other languages
English (en)
Other versions
JPWO2022130578A5 (ja
JPWO2022130578A1 (ja
Inventor
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2022130578A1 publication Critical patent/JPWO2022130578A1/ja
Publication of JPWO2022130578A5 publication Critical patent/JPWO2022130578A5/ja
Application granted granted Critical
Publication of JP7487797B2 publication Critical patent/JP7487797B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、類似度判定プログラム、類似度判定装置、及び、類似度判定方法に関する。
複数文書を単語に分割し、単語の意味を表現するベクトル、及び、各単語の重みを算出して、ベクトル及び重みに基づき、各文書の文書ベクトルを算出することで、文書間の類似度を判定する手法が知られている。
特開2006-331245号公報
文書内には様々な情報が記載されているため、文書全体を文書ベクトル化して文書間の類似度を判定すると、部分的に類似した文書間であっても類似度が低いと判定される可能性がある。
1つの側面では、本発明は、部分的に類似した文書間の類似度の判定精度を向上させることを目的の1つとする。
1つの側面では、類似度判定プログラムは、コンピュータに、以下の処理を実行させてよい。前記処理は、第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得する処理を含んでよい。また、前記処理は、第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得する処理を含んでよい。さらに、前記処理は、前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する処理を含んでよい。
1つの側面では、本発明は、部分的に類似した文書間の類似度の判定精度を向上させることができる。
比較例に係る類似度判定システムを説明するための図である。 図1に示す類似度判定システムによる化合物類似度の算出例を説明する図である。 第1実施形態に係る類似度判定システムを説明するための図である。 類似度判定システムの処理の一例を説明するための図である。 類似度判定システムの処理の一例を説明するための図である。 第1実施形態に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。 サーバによる画面出力例を示す図である。 サーバの動作例を説明するフローチャートである。 サーバの機能を実現するコンピュータのハードウェア(HW)構成例を示すブロック図である。 第2実施形態に係る類似度判定システムを説明するための図である 第2実施形態に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。 サーバによる画面出力例を示す図である。 サーバの文書DB(Database)構築処理の動作例を説明するフローチャートである。 サーバの文書検索処理の動作例を説明するフローチャートである。 第2実施形態の第1変形例及び第2変形例に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。 サーバによる画面出力例を示す図である。 サーバによる画面出力例を示す図である。 第2実施例の第1変形例に係るサーバの動作例を説明するフローチャートである。 第2変形例に係るサーバの画面出力例を示す図である。 第3実施形態に係る類似度判定システムを説明するための図である。 第3実施形態に係る類似度判定システムの処理の一例を説明するための図である。 第3実施形態に係る類似度判定システムの処理の一例を説明するための図である。 第3実施形態に係る類似度判定システムにおけるサーバの機能構成例を示すブロック図である。 サーバの文書DB構築処理の動作例を説明するフローチャートである。 サーバの文書検索処理の動作例を説明するフローチャートである。
以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。
〔1〕第1実施形態
〔1-1〕比較例
上述したように、文書全体を文書ベクトル化して文書間の類似度を判定すると、部分的に類似した文書間であっても類似度が低いと判定される可能性がある。そこで、比較例として、文書中の固有表現に基づく類似度を判定することで文書間の類似度を判定する場合を説明する。比較例では、文書中の固有表現は、化合物名であるものとし、化合物名を含む化学分野の文書間の類似度を判定する場合を想定する。
図1は、比較例に係る類似度判定システム100を説明するための図である。図1に示すように、類似度判定システム100は、クエリ文書(入力文書)の類似度の判定を要求するクエリ101と、1以上の比較対象文書を含む文書集合102とに基づき、固有表現に基づく類似度を算出する。
例えば、類似度判定システム100は、複数の文書、すなわち、クエリ101に含まれるクエリ文書及び文書集合102に含まれる比較対象文書のそれぞれから、固有表現として化合物名を抽出し(処理P110)、文書ごとに化合物リストを生成する。
類似度判定システム100は、文書ごとの化合物リストを比較することで、クエリ文書と比較対象文書の各々との間の化合物類似度を算出する(処理P120)。化合物類似度としては、例えば、コサイン類似度が挙げられる。
類似度判定システム100は、算出した化合物類似度に基づくランキング処理を行ない(処理P130)、クエリ文書との類似度が高い比較対象文書を類似度とともにランキング結果103として保存する。
図2は、図1に示す類似度判定システム100による化合物類似度の算出例を説明する図である。図2の例では、処理P110において、リチウムイオン電池に関するクエリ文書及び比較対象文書について、クエリ文書から化合物リストCxが生成され、比較対象文書から化合物リストCyが生成されたものとする。
以下、化合物類似度の判定対象の文書の組について生成された化合物リストCx及びCyを互いに区別しない場合には、単に「化合物リストC」と表記する。化合物リストCは、化合物名と、当該化合物名の文書内での出現数とを含んでよい。なお、図2の例において、化合物リストCx及びCy間で共通する共通化合物を下線太字で示す。
類似度判定システム100は、化合物リストCに基づき、下記式(1)の演算により、化合物類似度としてのコサイン類似度を算出する。
Figure 0007487797000001
上記式(1)において、iは、化合物リストCx及びCyに含まれる全ての化合物名を特定するためのインデックスであり、Cx及びCyは、化合物リストCx及びCy内のi番目の化合物名の出現数を示す。上記式(1)において、分母は、Cxの化合物の出現数の2乗和の平方根と、Cyの化合物の出現数の2乗和の平方根との和であり、分子は、CxとCyとの間の共通化合物の出現数の積の総和である。
ところで、「文書」には、複数の要素についての記載を含む文書、一例として、複数の構成要素を備える装置、システム又は製造方法等について記載された特許文献又は論文等の文書がある。例えば、図2に示すリチウムイオン電池に関する文書には、「正極活物質」、「負極活物質」、「バインダー」、「電解質」、「電解液溶媒」等の、リチウムイオン電池の構成要素のそれぞれの区分(グループ)に関する化合物名が混在して記載されることがある。
このため、クエリ文書に記載された所定の要素に着目して比較対象文書との類似度を判定したい場合であっても、その他の要素、換言すれば調査対象ではない要素についての比較対象文書との差異が、文書間の類似度の判定結果に影響を与える場合がある。
図2の例では、調査対象の要素が「正極活物質」である場合、「LiCoO2」等の「正極活物質」に関する化合物名が文書間で共通して出現する一方、他の要素に関する化合物名が文書間で相違するため、文書間の化合物類似度が低い値として算出される場合がある。
このように、調査対象の要素が文書間で類似する場合であっても、文書間の類似度が低いと判定される場合がある。
〔1-2〕第1実施形態の説明
そこで、第1実施形態に係る類似度判定システム1は、文書に含まれる複数の固有表現のそれぞれを分類して複数のグループを生成し、文書間で、グループどうしの比較を行なうことにより、クエリ文書と比較対象文書との類似度を判定する。
図3は、第1実施形態に係る類似度判定システム1を説明するための図であり、図4及び図5は、類似度判定システム1の処理の一例を説明するための図である。
図3に示すように、第1実施形態に係る類似度判定システム1は、クエリ文書(入力文書)の類似度の判定を要求するクエリ11と、判定対象となる1以上の比較対象文書を含む文書集合(文書群)12とに基づき、固有表現に基づく類似度を算出する。
例えば、類似度判定システム1は、比較例と同様に、複数の文書のそれぞれから、固有表現の一例としての化合物名を抽出し(処理P1)、文書ごとに、固有表現リスト、例えば化合物リストを生成する。
図4及び図5の例では、類似度判定システム1は、クエリ11に含まれるクエリ文書11a(「文書X」と表記)から化合物名を抽出して化合物リストCを生成する。また、類似度判定システム1は、文書集合12に含まれる比較対象文書12a(「文書Y」と表記)から化合物名を抽出して化合物リストCを生成する。クエリ文書11aは、第1の文書の一例であり、比較対象文書12aは、第2の文書の一例である。
第1実施形態では、クエリ文書11a及び比較対象文書12aは、リチウムイオン電池に関する文書であるものとする。以下、化合物類似度の判定対象の文書の組について生成された化合物リストC及びCを互いに区別しない場合には、単に「化合物リストC」と表記する。
第1実施形態に係る類似度判定システム1は、固有表現リストに基づき、固有表現を分類及びグループ化するクラスタリングを実行する(図3の処理P2)。クラスタリングの手法としては、例えば、最短距離法等の既存の種々の手法が用いられてよい。
次いで、類似度判定システム1は、クラスタごとの固有表現類似度、例えば化合物類似度を算出する(図3の処理P3)。固有表現類似度は、例えば、文書間のクラスタのペアごとに算出されてよい。
そして、類似度判定システム1は、固有表現類似度に基づき、クエリ文書11aとの類似度に応じて複数の比較対象文書12aの各々をランキング付けするランキング処理を行ない(図3の処理P4)、結果13を出力する。結果13は、ランキング結果を含んでもよい。
以下、クラスタリング処理(処理P2)、固有表現類似度算出処理(処理P3)、及び、ランキング処理(処理P4)のそれぞれの一例を説明する。
(クラスタリング処理の一例)
図3の処理P2において、類似度判定システム1は、固有表現リストに基づき、固有表現リストに含まれる固有表現間の類似度スコアSを、固有表現のペア(組)ごとに算出してよい。例えば、類似度判定システム1は、固有表現のペアについて、固有表現のそれぞれの位置と、固有表現間の類似度とに基づき類似度スコアSを算出する。
一例として、固有表現のペアを化合物x及びxと表記した場合、類似度判定システム1は、下記式(2)を用いて類似度スコアS(x,x)を算出してよい。
Figure 0007487797000002
上記式(2)において、TC(x,x)は、MACCS KeyのTanimoto係数である。MACCS Keyは、化合物の特徴の表現手法(化合物記述子)の1つであり、Tanimoto係数は、MACCS Keyを用いて化合物間の構造類似度を示す指標の1つであり、固有表現が化合物名である場合の固有表現間の類似度の一例である。また、Distance(x,x)は、例えば、文書内での固有表現のそれぞれの出現位置の近さを数値化した値であり、一例として、以下の条件に応じた値である。
・化合物x及びxが同一文に出現し、且つ、並列関係にある場合:“1.0”
・化合物x及びxが同一文に出現する場合: “0.8”
・化合物x及びxが同一段落に出現する場合: “0.5”
・上記以外の場合: “0.1”
類似度判定システム1は、化合物リストCに含まれる複数の化合物名について、化合物名のペア(x,x)の組み合わせごとに上記式(2)を適用して、各ペア(x,x)の類似度スコアS(x,x)を算出してよい。
類似度判定システム1は、算出した複数の類似度スコアS(x,x)に対して、例えば最短距離法等の手法を適用して、化合物リストCに含まれる複数の化合物名を分類してグループ化することで、化合物名のクラスタリングを行なってよい。
図4の例では、類似度判定システム1は、化合物リストCに対するクラスタリングにより、化合物リストC内の化合物名をN(Nは2以上の整数)個のクラスタ(グループ)に分割し、クラスタごとの化合物リストCX1~CXNを生成する。また、類似度判定システム1は、化合物リストCに対するクラスタリングにより、化合物リストC内の化合物名をM(Mは2以上の整数)個のクラスタ(グループ)に分割し、クラスタごとの化合物リストCY1~CYMを生成する。
図5の例では、類似度判定システム1は、化合物リストC及びCをそれぞれ4つのクラスタに分類し(N=M=4)、化合物リストCX1~CX4及びCY1~CY4を生成する。このようなクラスタリングにより、結果的に、化合物リストC及びCを、以下のような4つの要素(特性)のクラスタに分類することができる。
・化合物リストCX1及びCY1
「正極活物質」の要素(特性)を有するクラスタ。
・化合物リストCX2及びCY2
「負極活物質」の要素(特性)を有するクラスタ。
・化合物リストCX3及びCY3
「バインダー」の要素(特性)を有するクラスタ。
・化合物リストCX4及びCY4
「電解液溶媒」の要素(特性)を有するクラスタ。
なお、ここまで、構造類似度としてMACCS KeyのTanimoto係数が用いられるものとして説明したが、これに限定されるものではない。例えば、化合物の特徴の表現手法としては、MACCS Key、換言すればMACCSフィンガープリントに限定されるものではなく、例えば、Morganフィンガープリント等の種々の化合物記述子が採用されてもよい。また、化合物間の構造類似度を示す指標としては、Tanimoto係数に限定されるものではなく、例えば、Dice係数等の種々の係数が用いられてもよい。
また、上記式(2)では、類似度判定システム1は、類似度スコアS(x,x)として、固有表現の文書内の出現位置の近さを数値化した値と、固有表現の類似度との積を算出するものとしたが、これに限定されるものではない。
一例として、類似度判定システム1は、下記式(3)を用いて類似度スコアS(x,x)を算出してもよい。
Figure 0007487797000003
上記式(3)において、Wは重みである。Wとしては、例えば、固有表現のそれぞれの位置と、固有表現間の類似度とが均等に考慮されるように“0.5”等の値がユーザ等により適宜定義及び設定されてもよい。或いは、Wは、検索クエリ及び正解例(正解データ)を含む訓練データに基づく機械学習により、正解例が上位に検索されるような値になるように訓練されたモデルに基づき設定されてもよい。
例えば、化学構造は類似していないが1つの構成要素で同様に用いられる化合物(同一文で併記される可能性が高い)は、上記式(2)を用いると類似度が過少評価される可能性がある。これに対し、上記式(3)のように、固有表現の文書内の出現位置の近さを数値化した値と、固有表現の類似度との重み付き和に基づき類似度スコアを算出することで、化合物の類似度を正当に評価することができる。
以上のように、類似度判定システム1は、クエリ文書11aに含まれる第1の複数の化合物名のそれぞれの位置と第1の複数の化合物名のそれぞれの類似度とに基づいて第1の複数の化合物名を分類することで、第1クラスタ群を生成する。また、類似度判定システム1は、比較対象文書12aに含まれる第2の複数の化合物名のそれぞれの位置と第2の複数の化合物名のそれぞれの類似度とに基づいて第2の複数の化合物名を分類することで、第2クラスタ群を生成する。第1クラスタ群は、第1の複数のグループの一例であり、第2クラスタ群は、第2の複数のグループの一例である。
(固有表現類似度算出処理の一例)
図3の処理P3において、例えば、類似度判定システム1は、クエリ文書11aから生成した第1クラスタ群内の第1の複数のクラスタと、比較対象文書12aから生成した第2クラスタ群内の第2の複数のクラスタとをそれぞれ比較してよい。そして、類似度判定システム1は、第1の複数のクラスタと第2の複数のクラスタとの間の全てのクラスタのペアについて、下記式(4)の演算により、化合物類似度、一例としてコサイン類似度を算出してよい。
Figure 0007487797000004
上記式(4)において、aは、1~Nの整数であり、bは、1~Mの整数である。iは、化合物リストCXa及びCYbに含まれる全ての化合物名を特定するためのインデックスであり、CXai及びCYbiは、化合物リストCXa及びCYb内のi番目の化合物名の出現数を示す。コサイン類似度の算出式は、上記式(1)と同様である。
図4に示す化合物リストC及びCの例では、類似度判定システム1は、化合物リストCX1、CX2、CX3、・・・CXNと、化合物リストCY1、CY2、CY3、・・・CYMとの全てのペア(組み合わせ)について、上記式(4)に従い化合物類似度を算出してよい。
(ランキング処理の一例)
例えば、類似度判定システム1は、ランキング処理において、クエリ文書11aと複数の比較対象文書12aの各々との間の文書類似度を取得し、文書類似度に基づき、クエリ文書11aとの類似度に応じた複数の比較対象文書12aのランキングを出力する。
類似度判定システム1は、例えば、下記式(5)に従い、文書Xと1つの比較対象文書Yとの間の文書類似度Sim(X,Y)を算出してよい。
Figure 0007487797000005
上記式(5)において、maxは、括弧内の全ての組み合わせのうちの最大の値を採用する関数である。
類似度判定システム1は、上記式(5)に従い、上記式(4)で算出された固有表現類似度のうちの、値が最大となるクラスタのペア(a=1~N、b=1~Mのいずれかの組み合わせ)を、文書X及びY間の文書類似度Sim(X,Y)として採用してよい。
図5の例では、類似度判定システム1は、化合物リストCX1及びCY1のペア、換言すれば、「正極活物質」のクラスタどうしの化合物類似度が最大であると判定し、当該化合物類似度を文書X及びY間の文書類似度Sim(X,Y)に決定する。
なお、図4及び図5並びに上記式(5)では、文書X(クエリ文書11a)と、1つの文書Y(比較対象文書12a)との間の文書類似度を算出する例を示す。類似度判定システム1は、複数の比較対象文書12a、例えば文書Y~Y(Lは2以上の整数であり、比較対象文書12aの文書数)それぞれについて上記処理を行ない、文書類似度Sim(X,Y)~Sim(X,Y)を取得してよい。
そして、類似度判定システム1は、例えば、文書類似度Sim(X,Y)~Sim(X,Y)が高い文書Yから降順に検索対象の全文書Y~Yをソートし、ソート結果を結果13として出力してよい。結果13には、ランク(順位)とともに文書Yの識別情報が含まれてよく、各文書Yの文書類似度Sim(X,Y)が含まれてもよい。文書Yの識別情報には、文書番号又は文書コード等の識別子及び文書名等の書誌情報、並びに、要約及び所定の部分等の文書Yの少なくとも一部の内容、のうちの少なくとも1つを含んでもよい。
なお、類似度判定システム1は、結果13として、特定の順位であると判定した文書Y、例えば、クエリ文書11aとの間で最も文書類似度Sim(X,Y)の高い文書Yの識別情報を出力してもよい。
以上のように、第1実施形態に係る類似度判定システム1によれば、クラスタリング処理により分類したクラスタごとの固有表現類似度に基づき、文書間の類似度を判定することで、部分的に類似した文書間の類似度の判定精度を向上させることができる。
〔1-3〕機能構成例
図6は、第1実施形態に係る類似度判定システム1におけるサーバ2の機能構成例を示すブロック図であり、図7は、サーバ2による画面出力例を示す図である。
サーバ2は、類似度判定装置、情報処理装置、又は、コンピュータの一例である。例えば、サーバ2は、類似度判定システム1において、図示しない端末装置、他のサーバ等との間で、クエリ文書11a及び比較対象文書12aの受信、結果13の送信等の種々の通信を行なってよい。
サーバ2は、例えば、端末装置に対して、アクセスを可能とするための機能を提供してよい。当該機能としては、例えば、端末装置によるアクセスに用いられる、ウェブページ等の画面の生成及び表示制御が挙げられる。例えば、端末装置は、ブラウザ等のアプリケーションを用いてサーバ2にアクセス要求を送信し、サーバ2から受信する画面情報に基づきアプリケーションに表示されるウェブページを介して、サーバ2へのアクセスを行なってよい。例えば、サーバ2は、図7に示すように、クエリを指定するためのクエリ指定画面210、及び、判定結果を出力するための判定結果出力画面240の画面情報を出力してよい。
類似度判定システム1による上述した類似度判定処理は、サーバ2により実現されてよい。図6に示すように、サーバ2は、例示的に、メモリ部21、文書入力部22、類似度算出部23、及び、類似度出力部24を備えてよい。メモリ部21、文書入力部22、類似度算出部23、及び、類似度出力部24は、制御部の一例である。
メモリ部21は、類似度判定処理に係る種々のデータを記憶する記憶領域を有する。メモリ部21は、例えば、図3に示すクエリ文書11a、複数の比較対象文書12a、結果13等の情報を記憶してよい。また、メモリ部21は、類似度判定処理における中間データとして、図4及び図5に示す文書ごとの化合物リストC、類似度スコアS、クラスタごとの化合物リストC、化合物類似度、文書類似度Sim等の情報を記憶してもよい。
文書入力部22は、図示しない端末装置又は他のサーバ等のコンピュータから、クエリ文書11a及び比較対象文書12aの入力を受け付け、例えばメモリ部21にDB(Database)として蓄積してもよい。このように、文書入力部22は、文書のDBを構築及び参照可能であってもよい。
また、文書入力部22は、図示しない端末装置又は他のサーバ等のコンピュータから、類似判定要求に係るクエリ文書11aの入力を受け付け、メモリ部21に格納してよい。クエリ文書11aは、例えばクエリ11に含まれてもよい。
文書入力部22は、例えば、クエリ11として、クエリ文書11aそのものではなく、クエリ文書11aの識別情報、例えば文書番号、文書コード等の情報を受け付けてもよい。この場合、文書入力部22は、識別情報に基づき、例えばメモリ部21のDBから、類似判定要求に係るクエリ文書11aを特定してよい。
例えば、図7に示すように、文書入力部22は、クエリ指定画面210の判定ボタン212が押下された際に入力欄211に設定されている文書番号を受け付けてよい。
類似度算出部23は、クエリ文書11a及び比較対象文書12aの類似度を算出する。図6に例示するように、類似度算出部23は、化合物名抽出部231、クラスタリング部232、及び、文書類似度算出部233を備えてよい。
化合物名抽出部231は、メモリ部21に格納されたクエリ文書11a及び比較対象文書12aのそれぞれから化合物名を抽出し、化合物リストC及びCを生成する。化合物名抽出部231の処理は、図3の処理P1の一例である。
クラスタリング部232は、化合物リストC及びCのそれぞれに含まれる化合物名について類似度スコアSを算出する。また、クラスタリング部232は、類似度スコアSに基づき化合物名を複数のクラスタに分類して、化合物リストCX1、CX2、CX3、・・・CXNと、化合物リストCY1、CY2、CY3、・・・CYMとを生成する。クラスタリング部232の処理は、図3の処理P2の一例である。
なお、クエリ文書11a及び比較対象文書12aの一方又は双方が予めメモリ部21に格納される場合、クラスタリング部232は、各文書について事前にクラスタリング処理を行ない、クラスタごとの化合物リストCを生成しておいてもよい。一例として、クラスタリング部232は、メモリ部21への文書の登録のタイミングで、登録される各文書についてクラスタリング処理を行なってもよい。
文書類似度算出部233は、クラスタごとの化合物リストに基づき、クラスタごとの化合物類似度を算出し、文書内で最も化合物類似度の高いクラスタの化合物類似度を、当該文書の類似度Sim(X,Y)として算出する。なお、文書類似度算出部233は、比較対象文書12aが複数(例えばL個)存在する場合、比較対象文書12aごとの類似度Sim(X,Y)~Sim(X,Y)を算出してよい。文書類似度算出部233は、算出した類似度Sim(X,Y)をメモリ部21に格納してよい。
類似度出力部24は、類似度算出部23が算出した類似度Sim(X,Y)を出力する。なお、類似度出力部24は、比較対象文書12aが複数(例えばL個)存在する場合、算出した類似度Sim(X,Y)~Sim(X,Y)が高い順に、比較対象文書12a及び類似度Sim(X,Y)の情報を出力してもよい。
文書類似度算出部233及び類似度出力部24の処理は、図3の処理P3及びP4の一例である。類似度出力部24による出力には、例えば、図示しない端末装置等のコンピュータへの送信、メモリ部21等のサーバ2の記憶領域への格納、等が含まれてよい。
例えば、図7に示すように、類似度出力部24は、判定結果出力画面240を出力してもよい。判定結果出力画面240には、クエリ文書11aの表示領域241と、比較対象文書12aの少なくとも1つ(図7では3つ)の表示領域245a~245cとが含まれてよい。表示領域241には、書誌情報及び要約等の表示領域242、及び、クエリ文書11aの全文を表示する画面に遷移するための全文参照ボタン243が含まれてよい。
表示領域245a~245cには、書誌情報及び要約等の表示領域246a~246c、全文参照ボタン247a~247c、及び、類似すると判定されたクラスタの化合物リスト248a~248cが含まれてよい。なお、表示領域245a~245cには、類似度Sim(X,Y)が表示されてよい。
このように、類似度出力部24は、化合物リスト248a~248cの表示により、クエリ文書11aと比較対象文書12aとの間の類似度計算の結果、最も類似度が高いと判断されたクラスタに属する固有表現のリストをユーザに提示することができる。
〔1-4〕動作例
図8は、サーバ2の動作例を説明するフローチャートである。図8に示すように、サーバ2は、クエリ文書11aに対する処理と、比較対象文書12aに対する処理とを互いに異なるタイミングで実施してもよい。
図8に例示するように、文書入力部22は、クエリ文書11aの入力を受け付ける(ステップS1)。化合物名抽出部231は、クエリ文書11aから化合物名を抽出する(ステップS2)。クラスタリング部232は、抽出した化合物名をクラスタリングする(ステップS3)。
また、文書入力部22は、比較対象文書12aの入力を受け付ける(ステップS4)。化合物名抽出部231は、未選択の比較対象文書12aを選択し(ステップS5)、選択した比較対象文書12aから化合物名を抽出する(ステップS6)。クラスタリング部232は、抽出した化合物名をクラスタリングする(ステップS7)。
文書類似度算出部233は、クエリ文書11a及び比較対象文書12aの化合物クラスタを比較し、当該文書間の類似度Simを算出し(ステップS8)、メモリ部21に格納する(ステップS9)。
文書類似度算出部233は、未選択の比較対象文書12aがあるか否かを判定し(ステップS10)、あると判定した場合(ステップS10でYES)、処理がステップS5に移行する。
未選択の比較対象文書12aがないと文書類似度算出部233が判定した場合(ステップS10でNO)、類似度Sim(X,Y)が高い順に、比較対象文書12a及びその類似度Sim(X,Y)を出力し(ステップS11)、処理が終了する。
〔1-5〕ハードウェア構成例
サーバ2は、仮想サーバ(VM;Virtual Machine)であってもよいし、物理サーバであってもよい。また、サーバ2の機能は、1台のコンピュータにより実現されてもよいし、2台以上のコンピュータにより実現されてもよい。さらに、サーバ2の機能のうちの少なくとも一部は、クラウド環境により提供されるHW(Hardware)リソース及びNW(Network)リソースを用いて実現されてもよい。
図9は、サーバ2の機能を実現するコンピュータ10のハードウェア(HW)構成例を示すブロック図である。サーバ2の機能を実現するHWリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図9に例示するHW構成を備えてよい。
図9に示すように、コンピュータ10は、HW構成として、例示的に、プロセッサ10a、メモリ10b、記憶部10c、IF(Interface)部10d、I/O(Input / Output)部10e、及び読取部10fを備えてよい。
プロセッサ10aは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ10aは、コンピュータ10内の各ブロックとバス10iで相互に通信可能に接続されてよい。なお、プロセッサ10aは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。
プロセッサ10aとしては、例えば、CPU、MPU、GPU、APU、DSP、ASIC、FPGA等の集積回路(IC;Integrated Circuit)が挙げられる。なお、プロセッサ10aとして、これらの集積回路の2以上の組み合わせが用いられてもよい。CPUはCentral Processing Unitの略称であり、MPUはMicro Processing Unitの略称である。GPUはGraphics Processing Unitの略称であり、APUはAccelerated Processing Unitの略称である。DSPはDigital Signal Processorの略称であり、ASICはApplication Specific ICの略称であり、FPGAはField-Programmable Gate Arrayの略称である。
メモリ10bは、種々のデータやプログラム等の情報を格納するHWの一例である。メモリ10bとしては、例えばDRAM(Dynamic Random Access Memory)等の揮発性メモリ、及び、PM(Persistent Memory)等の不揮発性メモリ、の一方又は双方が挙げられる。
記憶部10cは、種々のデータやプログラム等の情報を格納するHWの一例である。記憶部10cとしては、HDD(Hard Disk Drive)等の磁気ディスク装置、SSD(Solid State Drive)等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、SCM(Storage Class Memory)、ROM(Read Only Memory)等が挙げられる。
また、記憶部10cは、コンピュータ10の各種機能の全部若しくは一部を実現するプログラム10g(類似度判定プログラム)を格納してよい。例えば、サーバ2のプロセッサ10aは、記憶部10cに格納されたプログラム10gをメモリ10bに展開して実行することにより、図6に例示するサーバ2としての機能を実現できる。
図6に示すメモリ部21は、メモリ10b及び記憶部10cの一方又は双方の記憶領域により実現されてよい。
IF部10dは、ネットワークとの間の接続及び通信の制御等を行なう通信IFの一例である。例えば、IF部10dは、イーサネット(登録商標)等のLAN(Local Area Network)、或いは、FC(Fibre Channel)等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ2は、IF部10dを介して、端末装置及び他のサーバのそれぞれと相互に通信可能に接続されてよい。また、例えば、プログラム10gは、当該通信IFを介して、ネットワークからコンピュータ10にダウンロードされ、記憶部10cに格納されてもよい。
I/O部10eは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。
読取部10fは、記録媒体10hに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部10fは、記録媒体10hを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部10fとしては、例えば、USB(Universal Serial Bus)等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、SDカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体10hにはプログラム10gが格納されてもよく、読取部10fが記録媒体10hからプログラム10gを読み出して記憶部10cに格納してもよい。
記録媒体10hとしては、例示的に、磁気/光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気/光ディスクとしては、例示的に、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスク、HVD(Holographic Versatile Disc)等が挙げられる。フラッシュメモリとしては、例示的に、USBメモリやSDカード等の半導体メモリが挙げられる。
上述したコンピュータ10のHW構成は例示である。従って、コンピュータ10内でのHWの増減(例えば任意のブロックの追加や削除)、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、サーバ2において、I/O部10e及び読取部10fの少なくとも一方は、省略されてもよい。
〔2〕第2実施形態
〔2-1〕第2実施形態の説明
次に、第2実施形態について説明する。第2実施形態では、第1実施形態に係る固有表現に基づく類似度に加えて、単語の意味ベクトルに基づく類似度を用いて、文書間の類似度を判定する手法を説明する。
なお、以下の第2実施形態の説明では、特に言及しない構成、処理又は機能は、既述の第1実施形態に係る構成、処理又は機能と同様であるものとする。
図10は、第2実施形態に係る類似度判定システム1Aを説明するための図である。図10に示すように、第2実施形態に係る類似度判定システム1Aにおいて、クエリ11及び文書集合12に基づく処理P1~P3については、第1実施形態と同様である。
図10に例示するように、類似度判定システム1Aにおいて、処理P1~P3と少なくとも一部の処理が並行又は前後して、処理P5~P8が実行されてよい。また、処理P3及びP8の結果に基づき、処理P9が実行され、結果14が出力されてよい。以下、処理P5~P9について説明する。
例えば、類似度判定システム1Aは、複数の文書、例えばクエリ文書11a及び複数の比較対象文書12aのそれぞれから、例えば形態素解析により単語を抽出する(処理P5)。
類似度判定システム1Aは、処理P5で得られた単語に基づき、複数の文書のそれぞれについて、統計的に単語の重みを算出する(処理P6)。例えば、類似度判定システム1Aは、tf-idf(Term Frequency - Inverse Document Frequency)等の評価手法を用いて、文書内での単語の重要度を重みとして評価してよい。
また、類似度判定システム1Aは、処理P6と少なくとも一部の処理が並行又は前後して、処理P7を実行する。例えば、類似度判定システム1Aは、処理P5で得られた単語に基づき、複数の文書のそれぞれについて、単語ベクトルを算出する(処理P7)。単語ベクトルは、単語埋め込みベクトル又は意味ベクトルと称されてもよい。
例えば、類似度判定システム1Aは、単語の意味を表現するベクトルが格納されたベクトルデータベースを検索して単語ベクトルを取得してよい。一例として、類似度判定システム1Aは、訓練済みのモデルに基づき、処理P5で得られた単語のそれぞれに対応する単語ベクトルを取得してよい。
類似度判定システム1Aは、文書ごとに、処理P7で取得した単語ベクトルと、処理P6で取得した単語の重みとを乗じた結果を文書内の全単語に亘って加算することで文書ベクトルを算出する。そして、類似度判定システム1Aは、クエリ文書11aの文書ベクトル(第1のベクトル)と、比較対象文書12aの各々の文書ベクトル(第2のベクトル)との間の類似度を算出する。換言すれば、類似度判定システム1Aは、単語の意味ベクトルに基づく、クエリ文書11aと比較対象文書12aとの間のテキスト類似度を算出する(処理P8)。
例えば、類似度判定システム1Aは、クエリ文書11aと比較対象文書12aとについて、下記式(6)の演算により、テキスト類似度、一例としてコサイン類似度を算出してよい。
Figure 0007487797000006
上記式(6)において、Wは、文書Xに含まれる単語の分散ベクトルであり、Wは、文書Yに含まれる単語の分散ベクトルである。
図4に示す化合物リストC及びCの例では、類似度判定システム1Aは、化合物リストCX1、CX2、CX3、・・・CXNと、化合物リストCY1、CY2、CY3、・・・CYMとの全てのペアについて、上記式(6)に従いテキスト類似度を算出してよい。
そして、類似度判定システム1Aは、テキスト類似度及び固有表現類似度に基づき、クエリ文書11aとの類似度に応じて複数の比較対象文書12aの各々をランキング付けするランキング処理を行ない(処理P9)、結果14を出力する。結果14は、ランキング結果を含んでもよい。
例えば、類似度判定システム1Aは、ランキング処理において、テキスト類似度と固有表現類似度を統合した類似度を算出し、当該類似度に基づき、クエリ文書11aとの類似度に応じた複数の比較対象文書12aのランキングを出力する。
類似度判定システム1Aは、例えば、下記式(7)に従い、文書Xと1つの比較対象文書Yとの間の文書類似度Sim(X,Y)を算出してよい。
Figure 0007487797000007
上記式(7)において、maxは、括弧内の全ての組み合わせのうちの最大の値を採用する関数である。fc及びftは、それぞれ、下記式(8)及び(9)に示すように、固有表現類似度及びテキスト類似度である。
Figure 0007487797000008
類似度判定システム1Aは、上記式(7)~(9)に従い、上記式(4)で算出された固有表現類似度と、上記(6)で算出されたテキスト類似度に基づいて、文書X及びY間の文書類似度Sim(X,Y)を取得してよい。
なお、上記式(7)では、文書X(クエリ文書11a)と、1つの文書Y(比較対象文書12a)との間の文書類似度を算出する例を示す。類似度判定システム1Aは、第1実施形態と同様に、文書Yの数に応じた文書類似度Sim(X,Y)~Sim(X,Y)を取得してよい。
そして、類似度判定システム1Aは、例えば、第1実施形態と同様に、文書類似度Sim(X,Y)~Sim(X,Y)が高い文書Yから降順に検索対象の全文書Y~Yをソートすることで、ランキング処理を行なう(処理P9)。また、類似度判定システム1Aは、ソート結果を結果14として出力してよい。結果14の内容及び出力手法は、第1実施形態に係る結果13と同様である。
なお、文書類似度Sim(X,Y)は、上記式(7)に基づき算出されるものとしたが、これに限定されるものではない。例えば、類似度判定システム1Aは、文書類似度Sim(X,Y)は、下記式(10)に従い、文書Xと1つの比較対象文書Yとの間の文書類似度Sim(X,Y)を、固有表現似度とテキスト類似度との重み付き和として算出してもよい。
Figure 0007487797000009
上記式(10)において、wは重みである。wとしては、例えば、固有表現類似度とテキスト類似度とが均等に考慮されるように“0.5”等の値がユーザ等により適宜定義及び設定されてもよい。或いは、wは、検索クエリ及び正解例(正解データ)を含む訓練データに基づく機械学習により、正解例が上位に検索されるような値になるように訓練されたモデルに基づき設定されてもよい。
以上のように、第2実施形態に係る類似度判定システム1Aによれば、第1実施形態と同様の効果を奏することができる。また、類似度判定システム1Aによれば、固有表現類似度に加えて、意味ベクトルに基づく類似度に基づき、文書間の類似度を判定することで、文書間の類似度の判定精度をより向上させることができる。
〔2-2〕機能構成例
図11は、第2実施形態に係る類似度判定システム1Aにおけるサーバ3の機能構成例を示すブロック図であり、図12は、サーバ3による画面出力例を示す図である。
サーバ3は、類似度判定装置、情報処理装置、又は、コンピュータの一例である。例えば、サーバ3は、類似度判定システム1Aにおいて、図示しない端末装置、他のサーバ等との間で、クエリ文書11a及び比較対象文書12aの受信、結果14の送信等の種々の通信を行なってよい。
サーバ3は、サーバ2と同様に、例えば、端末装置に対して、アクセスを可能とするための機能を提供してよい。例えば、サーバ3は、図12に示すように、検索クエリを指定するための検索クエリ指定画面330、及び、検索結果を出力するための検索結果出力画面340の画面情報を出力してよい。
類似度判定システム1Aによる上述した類似度判定処理は、サーバ3により実現されてよい。図11に示すように、サーバ3は、例示的に、文書DB部31、及び、文書検索部32を備えてよい。文書DB部31、及び、文書検索部32は、制御部の一例である。なお、サーバ3は、図6に示す文書入力部22を備えてもよい。
文書DB部31は、クエリ文書11a及び比較対象文書12aを蓄積し、文書DBを構築する文書DB構築処理を行なう。
文書検索部32は、クエリ11の受け付けに応じて、文書DB部31が記憶する情報に基づき、クエリ11で指定されたクエリ文書11aと類似する比較対象文書12aを検索する文書検索処理を行なう。文書検索処理は、類似度判定処理を含む処理であり、類似判定処理の利用例(応用例)である。
(文書DB部31の説明)
図11に示すように、文書DB部31は、例示的に、文書蓄積部311、化合物名抽出部312、クラスタリング部313、化合物クラスタ蓄積部314、文書ベクトル算出部315、及び、文書ベクトル蓄積部316を備えてよい。
文書蓄積部311は、第1実施形態に係るメモリ部21(図6参照)の一例であり、複数の文書を蓄積する。文書は、クエリ文書11a及び比較対象文書12aのいずれとしても用いられ得る文書である。従って、文書蓄積部311は、クエリ文書11aと、クエリ11の対象となる複数の比較対象文書12aを含む文書集合(文書群)12とを蓄積するといえる。文書蓄積部311は、クエリ11の受付前に、予め複数の文書を蓄積してよい。なお、文書蓄積部311には、第1実施形態に係る文書入力部22が受け付けた複数の文書が格納されてもよい。
化合物名抽出部312は、図6に示す化合物名抽出部231の一例であり、文書蓄積部311が蓄積する複数の文書の各々から、固有表現の一例としての化合物名を抽出し、文書ごとの化合物リストC及びCを生成する。化合物名抽出部312の処理は、図10の処理P1の一例である。
クラスタリング部313は、図6に示すクラスタリング部232の一例である。クラスタリング部313は、文書ごとの化合物リストC及びCに基づき、文書ごとに、化合物名の複数の化合物クラスタ、換言すれば、複数の化合物リストCX1、CX2、CX3、・・・CXN、CY1、CY2、CY3、・・・CYMを生成する。クラスタリング部313の処理は、図10の処理P2の一例である。
化合物クラスタ蓄積部314は、図6に示すメモリ部21の一例であり、クラスタリング部313が生成した複数の化合物クラスタ、換言すれば、複数の化合物リストCX1、CX2、CX3、・・・CXN、CY1、CY2、CY3、・・・CYMを蓄積する。
文書ベクトル算出部315は、文書蓄積部311が蓄積する複数の文書の各々から単語を抽出し、単語に基づき単語の重み及び単語ベクトルを算出して、重み及び単語ベクトルに基づき、複数の文書の各々の文書ベクトルを算出する。文書ベクトル算出部315の処理は、図10の処理P5~P7及び処理P8の少なくとも一部の一例である。
文書ベクトル蓄積部316は、図6に示すメモリ部21の一例であり、文書ベクトル算出部315が算出した文書ベクトルを蓄積する。
(文書検索部32の説明)
図11に示すように、文書検索部32は、例示的に、検索クエリ指定部321、文書類似度算出部322、検索結果生成部323、及び、検索結果出力部324を備えてよい。
検索クエリ指定部321は、図6に示す文書入力部22の一例であり、図示しない端末装置又は他のサーバ等のコンピュータから、文書検索を要求するクエリ11(以下、「検索クエリ11」と表記する場合がある)の入力を受け付ける。
例えば、図12に示すように、検索クエリ指定部321は、検索クエリ指定画面330の検索ボタン332が押下された際に入力欄331に設定されている、クエリ文書11aの文書番号を受け付けてよい。
文書類似度算出部322は、図6に示す文書類似度算出部233の一例である。文書類似度算出部322は、化合物クラスタ蓄積部314に蓄積された化合物クラスタ、及び、文書ベクトル蓄積部316に蓄積された文書ベクトルに基づき、検索クエリ11で指定されたクエリ文書11aと他の文書との間の文書類似度Sim(X,Y)を算出する。
例えば、文書類似度算出部322は、化合物クラスタ蓄積部314に蓄積された化合物クラスタのうちの、クエリ文書11a及び比較対象文書12aにそれぞれ対応する化合物クラスタどうしを比較し、化合物類似度を算出してよい。
また、文書類似度算出部322は、文書ベクトル蓄積部316に蓄積された文書ベクトルのうちの、クエリ文書11a及び比較対象文書12aにそれぞれ対応する文書ベクトルどうしを比較し、テキスト類似度を算出してよい。
そして、文書類似度算出部322は、化合物類似度及びテキスト類似度に基づき、文書類似度Sim(X,Y)を算出し、文書類似度Sim(X,Y)の大きい順に比較対象文書12aをソートすることで、ランキングの結果14を生成してよい。
文書類似度算出部322の処理は、図10の処理P3、処理P8の少なくとも一部、及び、処理P9の一例である。
検索結果生成部323は、結果14に基づき、出力するための検索結果を生成する。例えば、検索結果生成部323は、図12に示す検索結果出力画面340を生成してよい。検索結果出力画面340は、図7に示す判定結果出力画面240における判定結果244を検索結果344に置き換えたものであってもよい。
図12に示すように、検索結果出力画面340には、クエリ文書11aの表示領域341と、比較対象文書12aの少なくとも1つ(図12では3つ)の表示領域345a~345cとが含まれてよい。表示領域341には、クエリ文書11aの書誌情報及び要約等の表示領域342、及び、クエリ文書11aの全文参照ボタン343が含まれてよい。
表示領域345a~345cには、比較対象文書12aの書誌情報及び要約等の表示領域346a~346c、全文参照ボタン347a~347c、及び、類似すると判定されたクラスタの化合物リスト348a~348cが含まれてよい。なお、表示領域345a~345cには、類似度Sim(X,Y)が表示されてもよい。
検索結果出力部324は、図示しない端末装置又は他のサーバ等のコンピュータに対して、検索結果出力画面340を出力する。
〔2-3〕動作例
図13は、サーバ3の文書DB構築処理の動作例を説明するフローチャートであり、図14は、サーバ3の文書検索処理の動作例を説明するフローチャートである。
(文書DB構築処理の動作例)
図13に例示するように、文書蓄積部311は、未選択の文書を選択し(ステップS21)、文書DBに文書を登録する(ステップS22)。
文書ベクトル算出部315は、文書のテキストの文書ベクトルを算出する(ステップS23)。文書ベクトル蓄積部316は、算出した文書ベクトルを文書と対応付けて、例えば文書DB又は文書ベクトルDB等に登録(蓄積)する(ステップS24)。
化合物名抽出部312は、文書のテキストから化合物名を抽出する(ステップS25)。クラスタリング部313は、抽出した化合物名をクラスタリングする(ステップS26)。化合物クラスタ蓄積部314は、化合物クラスタの情報を文書と対応付けて、例えば文書DB又は化合物クラスタDB等に登録(蓄積)する(ステップS27)。
文書蓄積部311は、未選択の文書があるか否かを判定し(ステップS28)、あると判定した場合(ステップS28でYES)、処理がステップS21に移行する。文書蓄積部311が未選択の文書がないと判定した場合(ステップS28でNO)、処理が終了する。
なお、ステップS23及びS24の処理と、ステップS25~S27の処理とを入れ替えてもよいし、これらの処理の少なくとも一部が前後又は並行して実行されてもよい。
(文書検索処理の動作例)
図14に例示するように、検索クエリ指定部321は、検索クエリ指定画面330からのクエリ文書11aの指定を受け付ける(ステップS31)。
文書類似度算出部322は、文書ベクトル蓄積部316からクエリ文書11aの文書ベクトルを取得し(ステップS32)、化合物クラスタ蓄積部314からクエリ文書11aの化合物クラスタを取得する(ステップS33)。
文書類似度算出部322は、未選択の文書を選択し(ステップS34)、文書ベクトル蓄積部316から選択した文書の文書ベクトルを取得し(ステップS35)、化合物クラスタ蓄積部314から選択した文書の化合物クラスタを取得する(ステップS36)。
文書類似度算出部322は、クエリ文書11a及び選択した文書の文書類似度Sim(X,Y)を算出する(ステップS37)。
文書類似度算出部322は、未選択の文書があるか否かを判定し(ステップS38)、ある場合(ステップS38でYES)、処理がステップS34に移行する。文書類似度算出部322が未選択の文書がないと判定した場合(ステップS38でNO)、文書類似度算出部322は、文書類似度が高い順に所定の個数の文書と、各文書でクエリ文書11aとの文書類似度が最も高いクラスタとを抽出する(ステップS39)。
検索結果生成部323は、抽出したデータに基づき検索結果を生成し、検索結果出力部324が検索結果、例えば検索結果出力画面340を出力し(ステップS40)、処理が終了する。
〔2-4〕第1変形例
次に、第2実施形態の第1変形例について説明する。
(機能構成例)
図15は、第2実施形態の第1変形例及び後述する第2変形例に係る類似度判定システム1Bにおけるサーバ4の機能構成例を示すブロック図であり、図16及び図17は、サーバ4による画面出力例を示す図である。
第1変形例に係る類似度判定システム1Bは、クエリ文書11aのクラスタリングの結果であるクラスタを固有表現のリストとしてユーザに提示し、類似度計算に用いるクラスタをユーザに選択させた後に、選択されたクラスタを用いて類似度計算を行なう。これにより、クエリ文書11a内の複数の構成要素のうち、ユーザの意図した構成要素による比較対象文書12aの検索を行なうことができ、文書間の類似度の判定精度をより向上させることができる。
図15に示すように、サーバ4は、例示的に、文書DB部31及び文書検索部42を備えてよい。文書DB部31及び文書検索部42は、制御部の一例である。文書DB部31は、図11に示す文書DB部31と同様である。
文書検索部42は、例示的に、検索クエリ指定部421、文書類似度算出部422、検索結果生成部423、検索結果出力部424、化合物クラスタ取得部425、クラスタ提示部426、及び、クラスタ指定部427を備えてよい。
検索クエリ指定部421、文書類似度算出部422、検索結果生成部423及び検索結果出力部424は、特に言及しない場合、図11に示す検索クエリ指定部321、文書類似度算出部322、検索結果生成部323及び検索結果出力部324と同様である。
化合物クラスタ取得部425は、検索クエリ指定部421が受け付けたクエリ文書11aの化合物クラスタを化合物クラスタ蓄積部314から取得し、クエリ文書11aとともにクラスタ提示部426に通知する。
クラスタ提示部426は、化合物クラスタ取得部425から取得したクエリ文書11aの化合物クラスタをユーザに提示する。例えば、クラスタ提示部426は、図16に示すクラスタ指定画面440を生成し、端末装置又は他のサーバ等のコンピュータに出力する。
図16に示すように、クラスタ指定画面440は、クエリ文書11aの表示領域441と、当該クエリ文書11aに含まれる複数の化合物クラスタを提示する表示領域444とを含んでよい。表示領域441には、クエリ文書11aの書誌情報及び要約等の表示領域442、及び、クエリ文書11aの全文参照ボタン443が含まれてよい。
表示領域444には、クエリ文書11aの複数のクラスタに対応する複数の化合物リスト445と、複数の化合物リスト445から類似度計算に用いる化合物クラスタを指定するためのチェックボックス446と、検索を実行するための検索ボタン447とを含んでよい。
クラスタ指定部427は、クラスタ指定画面440の検索ボタン447が押下された際にチェックボックス446が選択されている化合物リスト445の情報を、文書類似度算出部422に通知する。
文書類似度算出部422は、クエリ文書11aと、選択した文書との間の文書類似度Sim(X,Y)の算出の際に用いる化合物クラスタを、クラスタ指定部427から指定された化合物リストに制限(限定)する。例えば、文書類似度算出部422は、クエリ文書11aの複数の化合物クラスタのうちの指定された化合物クラスタに限定し、当該化合物クラスタの化合物リストと、選択した文書の複数の化合物リストとを比較してよい。
検索結果生成部423及び検索結果出力部424は、文書類似度算出部422による結果14に基づき、図17に示すような検索結果出力画面450を生成及び出力してよい。ここで、クラスタ指定画面440において、類似度計算に用いる化合物クラスタが指定されている。このため、検索結果出力画面450では、化合物リスト(図12の化合物リスト348a~348c参照)の表示が省略されてよい。なお、図12の例と同様に、検索結果出力画面450に化合物リストが表示されてもよい。
このように、第1変形例に係るサーバ4によれば、第2実施形態と同様の効果を奏することができるほか、類似度の判定に用いる化合物クラスタを適切な化合物クラスタに限定することができ、文書間の類似度の判定精度をより向上させることができる。また、類似度の判定に用いる化合物クラスタの数を制限できるため、文書検索処理の処理時間を短縮することができる。
(文書検索処理の動作例)
図18は、サーバ4の文書検索処理の動作例を説明するフローチャートである。以下、サーバ4の文書検索処理のうちの図14に示す動作例とは異なる処理を説明する。
図18に例示するように、化合物クラスタ取得部425は、化合物クラスタ蓄積部314から、クエリ文書11aの化合物クラスタ、換言すれば化合物リストを取得する(ステップS41)。
クラスタ提示部426は、化合物クラスタ取得部425が取得した化合物リストを含むクラスタ指定画面440を生成し、ユーザに提示する(ステップS42)。クラスタ指定部427は、クラスタ指定画面440における化合物クラスタの指定を受け付け(ステップS43)、処理がステップS34に移行する。なお、ステップS41~S43の処理は、ステップS32の前、後、又は、並行して実行されてもよい。
文書類似度算出部422は、選択した文書の文書ベクトル及び化合物クラスタの取得後、選択した文書の化合物クラスタを、クラスタ指定部427が受け付けた指定クラスタに限定する。
そして、文書類似度算出部422は、クエリ文書11aの化合物リストを、指定クラスタ、換言すれば、指定された化合物リストに限定して、クエリ文書11aと選択した文書との間の文書間類似度を算出し(ステップS44)、処理がステップS38に移行する。
文書類似度算出部422は、全ての文書について文書類似度の算出が完了すると(ステップS38でNO)、類似度が高い順に、所定の個数の文書を抽出し(ステップS45)、処理がステップS40に移行する。
〔2-5〕第2変形例
次に、第2実施形態の第2変形例について説明する。
第2変形例に係る類似度判定システム1Bにおけるサーバ4の機能構成例は、図15に示す第1変形例と同様である。図19は、第2変形例に係るサーバ4の画面出力例を示す図である。図19に示すように、第2変形例では、検索クエリ指定部421が、検索クエリ指定画面460に、クエリ文書11aの文書番号の入力欄461及び1以上のキーワード(ここでは化合物名)の入力領域462を含める。クラスタ指定部427は、検索ボタン463が押下された際に入力欄461に入力されているクエリ文書11aの文書番号及び入力領域462に入力されている1以上のキーワードの情報を、文書類似度算出部422に通知する。
文書類似度算出部422は、指定されたクエリ文書11aと比較する文書の化合物クラスタを、クラスタ指定部427が受け付けたキーワードを含む(例えば所定回数以上含む)クラスタに限定する。そして、文書類似度算出部422は、指定キーワードを含むクラスタ、換言すれば化合物リストに着目して、クエリ文書11aと当該文書との間の文書間類似度を算出する。
このように、第2変形例に係るサーバ4によれば、第1変形例と同様の効果を奏することができるほか、ユーザは、特定のクラスタに限定せず、所定のキーワードを含むクラスタを柔軟に指定することができ、利便性が高い。
〔3〕第3実施形態
〔3-1〕第3実施形態の説明
次に、第3実施形態について説明する。第3実施形態では、第2実施形態に係るテキスト類似度の算出処理において、固有表現類似度の算出の過程で得られるクラスタリング結果を利用する手法を説明する。
なお、以下の第3実施形態の説明では、特に言及しない構成、処理又は機能は、既述の第1実施形態及び第2実施形態に係る構成、処理又は機能と同様であるものとする。
図20は、第3実施形態に係る類似度判定システム1Cを説明するための図であり、図21及び図22は、類似度判定システム1Cの処理の一例を説明するための図である。
図20に示すように、第3実施形態に係る類似度判定システム1Cは、図10に示す類似度判定システム1Bの処理P8を処理P10及びP11に置き換え、処理P9を処理P12に置き換え、処理P2の処理結果を処理P10に渡すものである。以下、処理P10~P12について説明する。
(部分文書クラスタリング処理;処理P10)
類似度判定システム1Cは、処理P10において、文書ごとに、文書を分割することによって複数の部分文書(部分テキスト)を取得する。部分文書、換言すれば、文書の分割単位としては、例えば、文、段落、章又は節等が挙げられる。以下、部分文書が段落であるものとする。
図21及び図22の例では、類似度判定システム1Cは、クエリ11に含まれる文書Xを分割して複数の段落Pを取得し、文書集合12に含まれる文書Yを分割して複数の段落Pを取得する。以下、段落P及びPを互いに区別しない場合には、単に「段落P」と表記する。
類似度判定システム1Cは、段落Pを、処理P2で得られる固有表現(例えば化合物)クラスタに基づきクラスタリングすることによって、部分文書クラスタを取得する。例えば、類似度判定システム1Cは、固有表現クラスタに含まれる固有表現と、複数の段落Pに含まれる固有表現との間の一致度に基づいて、段落Pをクラスタリングしてよい。
図21の例では、類似度判定システム1Cは、文書Xについて、下記式(11)に従い、クラスタごとの化合物リストCX1~CXNのそれぞれと、複数の段落Pのそれぞれとの一致度に基づき、部分文書クラスタPX1~PXNを生成する。また、類似度判定システム1Cは、文書Yについて、下記式(12)に従い、クラスタごとの化合物リストCY1~CYNのそれぞれと、複数の段落Pのそれぞれとの一致度cos(CPX,Xa)に基づき、部分文書クラスタPY1~PYNを生成する。
Figure 0007487797000010
上記式(11)及び式(12)において、CPXは、段落Pに含まれる化合物リストであり、CPYは、段落Pに含まれる化合物リストである。CXa及びCYbは、処理P2で得られる文書X及びYの化合物リストである。argmaxは、括弧内の要素が最大となるときの条件(ここではクラスタ)を抽出する関数である。上記式(11)及び式(12)によれば、段落Pに含まれる化合物名の各々と、化合物クラスタ内の化合物名の各々との間のコサイン類似度が最大となる、例えば出現数が最多となる要素(化合物クラスタ)に、段落Pを振り分けることができる。
図22の例では、類似度判定システム1Cは、段落P及びPをそれぞれ4つのクラスタに分類し(N=M=4)、部分文書クラスタPX1~PX4及びPY1~PY4を生成する。このようなクラスタリングにより、結果的に、段落P及びPを、以下のような4つの要素(特性)の部分文書クラスタに分類することができる。
・部分文書クラスタPX1及びPY1
「負極活物質」について記載された段落。
・部分文書クラスタPX2及びPY2
「正極活物質」について記載された段落。
・部分文書クラスタPX3及びPY3
「バインダー」について記載された段落。
・部分文書クラスタPX4及びPY4
「電解液溶媒」について記載された段落。
そして、類似度判定システム1Cは、部分文書クラスタのそれぞれに含まれる単語に基づいて、複数の部分文書クラスタのそれぞれに対応する複数の部分文書ベクトルを算出する。例えば、類似度判定システム1Cは、部分文書クラスタごとに、処理P7で取得した単語ベクトルと、処理P6で取得した単語の重みとを乗じた結果を部分文書クラスタ内の全単語に亘って加算することで、部分文書ベクトルを算出してよい。
(テキスト類似度算出処理;処理P11)
類似度判定システム1Cは、処理P11において、クエリ文書11aの部分文書ベクトルと、比較対象文書12aの各々の部分文書ベクトルとの間の類似度、換言すれば、単語の意味ベクトルに基づく、部分文書クラスタ間のテキスト類似度を算出する。クエリ文書11aの部分文書ベクトルは、第1の複数のベクトルの一例であり、比較対象文書12aの部分文書ベクトルは、第2の複数のベクトルの一例である。
例えば、類似度判定システム1Cは、クエリ文書11aの部分文書クラスタと比較対象文書12aの部分文書クラスタとについて、下記式(13)の演算により、テキスト類似度、一例としてコサイン類似度を算出してよい。
Figure 0007487797000011
上記式(13)において、WPXaは、段落PXaに含まれる単語の分散ベクトルであり、WPYbは、段落PYbに含まれる単語の分散ベクトルである。
図21に示す例では、類似度判定システム1Cは、部分文書クラスタPX1、PX2、PX3、・・・PXNと、部分文書クラスタPY1、PY2、PY3、・・・PYMとの全てのペアについて、上記式(13)に従いテキスト類似度を算出してよい。
(ランキング処理;処理P12)
そして、類似度判定システム1Cは、テキスト類似度及び固有表現類似度に基づき、クエリ文書11aとの類似度に応じて複数の比較対象文書12aの各々をランキング付けするランキング処理を行ない(処理P12)、結果14を出力する。
例えば、類似度判定システム1Cは、ランキング処理において、テキスト類似度と固有表現類似度を統合した類似度を算出し、当該類似度に基づき、クエリ文書11aとの類似度に応じた複数の比較対象文書12aのランキングを出力する。
類似度判定システム1Cは、例えば、下記式(14)に従い、文書Xと1つの比較対象文書Yとの間の文書類似度Sim(X,Y)を算出してよい。
Figure 0007487797000012
上記式(14)において、fcは前述の(8)式に従った固有表現類似度、ftは上記式(13)に従ったテキスト類似度である。
なお、上記式(14)では、文書X(クエリ文書11a)と、1つの文書Y(比較対象文書12a)との間の文書類似度を算出する例を示す。類似度判定システム1Cは、第2実施形態と同様に、文書Yの数に応じた文書類似度Sim(X,Y)~Sim(X,Y)を取得してよい。
そして、類似度判定システム1Cは、例えば、第2実施形態と同様に、文書類似度Sim(X,Y)~Sim(X,Y)が高い文書Yから降順に検索対象の全文書Y~Yをソートすることで、ランキング処理を行なう。また、類似度判定システム1Cは、ソート結果を結果14として出力してよい。
なお、類似度判定システム1Cは、第2実施形態と同様に、下記式(15)に従い、文書Xと1つの比較対象文書Yとの間の文書類似度Sim(X,Y)を、固有表現似度とテキスト類似度との重み付き和として算出してもよい。
Figure 0007487797000013
以上のように、第3実施形態に係る類似度判定システム1Cによれば、第1及び第2実施形態と同様の効果を奏することができる。
また、図22に示すように、部分文書クラスタどうしの比較を行なうことで、例えば、「正極活物質」についての意味ベクトルが類似しているから文書X及びYの類似度が高い、と判断することができる。図22では、便宜上、意味ベクトル空間を2次元で示すが、実際には数百次元のベクトルとなり得る。第3実施形態によれば、部分文書クラスタどうしの比較により、部分的に類似する文書間の類似度の判定精度を向上させることができる。
〔3-2〕機能構成例
図23は、第3実施形態に係る類似度判定システム1Cにおけるサーバ5の機能構成例を示すブロック図である。サーバ5は、特に言及しない場合、図11に示すサーバ3、又は、図15に示すサーバ4と同様であってよい。
類似度判定システム1Cによる上述した類似度判定処理は、サーバ5により実現されてよい。図23に示すように、サーバ5は、例示的に、文書DB部51及び文書検索部52を備えてよい。文書DB部51及び文書検索部52は、制御部の一例である。
文書DB部51は、図11に示す文書ベクトル算出部315及び文書ベクトル蓄積部316に代えて、文書クラスタベクトル算出部515及び文書クラスタベクトル蓄積部516を備えてよい。また、文書DB部51では、クラスタリング部313から文書クラスタベクトル算出部515に、クラスタリング結果である化合物クラスタが出力されてよい。
文書検索部52は、図11に示す文書類似度算出部322に代えて、文書類似度算出部522を備えてよい。
(文書DB部51の説明)
例えば、文書クラスタベクトル算出部515は、クラスタリング部313からの化合物クラスタの情報に基づき、部分文書クラスタごとの文書ベクトルを算出してよい。文書クラスタベクトル算出部515の処理は、図20に示す処理P10の処理の一例である。
文書クラスタベクトル蓄積部516は、文書クラスタベクトル算出部515が算出した部分文書クラスタごとの文書ベクトルを蓄積する。
(文書検索部52の説明)
文書類似度算出部522は、クエリ文書11aの部分文書ベクトルと、比較対象文書12aの各々の部分文書ベクトルとの間の文書類似度Sim(X,Y)を算出し、文書類似度Sim(X,Y)から結果14を生成してよい。文書類似度算出部522の処理は、図20の処理P3、処理P11、及び、処理P12の一例である。
なお、第3実施形態に係る文書検索部52は、図12、図16、図17、図19等に示す上述した種々の画面を出力してよい。
〔3-3〕動作例
図24は、サーバ5の文書DB構築処理の動作例を説明するフローチャートであり、図25は、サーバ5の文書検索処理の動作例を説明するフローチャートである。
(文書DB構築処理の動作例)
図24は、図13に示すステップS23及びS24を削除し、ステップS27とS28との間にステップS51~S54を追加したものである。
図24に例示するように、文書クラスタベクトル算出部515は、文書のテキストを所定単位に分割し(ステップS51)、化合物クラスタ蓄積部314が蓄積する化合物クラスタに基づき、各分割単位(段落P)をクラスタリングする(ステップS52)。
また、文書クラスタベクトル算出部515は、各部分文書クラスタの文書ベクトルを算出する(ステップS53)。文書クラスタベクトル蓄積部516は、各部分文書クラスタの文書ベクトルを蓄積し(ステップS54)、処理がステップS28に移行する。
(文書検索処理の動作例)
図25は、図14に示すステップS32、S35、S37を、それぞれステップS61、S62、ステップS63に置き換えたものである。
文書類似度算出部522は、ステップS61において、文書クラスタベクトル蓄積部516からクエリ文書11aの部分文書クラスタの文書ベクトルを取得する。
文書類似度算出部522は、ステップS62において、文書クラスタベクトル蓄積部516から選択した文書の部分文書クラスタの文書ベクトルを取得する。
文書類似度算出部522は、ステップS63において、ステップS61及びS62でそれぞれ取得した文書ベクトルと、化合物クラスタとに基づき、文書類似度Sim(X,Y)を算出する。
〔4〕その他
上述した第1~第3実施形態、並びに、第2実施形態の第1及び第2変形例に係る技術は、以下のように変形、変更して実施することができる。
例えば、上述した第1~第3実施形態、並びに、第2実施形態の第1及び第2変形例では、固有表現として、化合物名が用いられる場合を例に挙げて説明したが、これに限定されるものではない。固有表現としては、例えば遺伝子配列(ゲノム)等、自然言語処理において固有表現抽出処理の対象となり得る種々の用語が用いられてもよい。
また、例えば、図6、図11、図15、図20に示すサーバ2~サーバ5のそれぞれが備える機能構成は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。また、第1~第3実施形態、並びに、第2実施形態の第1及び第2変形例を適宜組み合わせて実施してもよい。さらに、サーバ2~サーバ5のそれぞれは、図7、図12、図16、図17、図19のいずれの画面の画面情報を生成してもよく、画面に応じた機能構成を備えてよい。
さらに、図6、図11、図15、図20に示すサーバ2~サーバ5のそれぞれは、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、メモリ部21はDBサーバ、文書DB部31及び51はアプリケーションサーバ及びDBサーバの組み合わせ、文書入力部22、類似度算出部23、類似度出力部24、文書検索部32、42及び52はアプリケーションサーバ及びWebサーバの組み合わせ、等であってもよい。これらの場合、コンピュータ、アプリケーションサーバ及びDBサーバが、ネットワークを介して互いに連携することにより、サーバ2~5としての各処理機能を実現してもよい。
また、サーバ3~5のそれぞれは、図9に例示するコンピュータ10のHW構成を備えてよい。
1、1A~1C 類似度判定システム
10 コンピュータ
11 クエリ
11a クエリ文書
12 文書集合
12a 比較対象文書
13、14 結果
2~5 サーバ
21 メモリ部
22 文書入力部
23 類似度算出部
24 類似度出力部
231、312 化合物名抽出部
232、313 クラスタリング部
233 文書類似度算出部
31、51 文書DB部
311 文書蓄積部
314 化合物クラスタ蓄積部
315 文書ベクトル算出部
316 文書ベクトル蓄積部
32、42、52 文書検索部
321、421 検索クエリ指定部
322、422、522 文書類似度算出部
323、423 検索結果生成部
324、424 検索結果出力部
425 化合物クラスタ取得部
426 クラスタ提示部
427 クラスタ指定部
515 文書クラスタベクトル算出部
516 文書クラスタベクトル蓄積部

Claims (10)

  1. 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
    第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
    前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、
    処理をコンピュータに実行させる、類似度判定プログラム。
  2. 前記第1の複数のグループを取得する処理は、前記第1の複数の固有表現の各々の前記第1の文書内の出現位置の近さを数値化した値と、前記第1の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含み、
    前記第2の複数のグループを取得する処理は、前記第2の複数の固有表現の各々の前記第2の文書内の出現位置の近さを数値化した値と、前記第2の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含む、
    請求項1に記載の類似度判定プログラム。
  3. 前記類似度を判定する処理は、前記第1の複数のグループの各々と前記第2の複数のグループの各々との組み合わせの中で、グループの類似度が最大となる組み合わせの前記グループの類似度を、前記第1の文書と前記第2の文書との類似度と判定する処理を含む、
    請求項1又は請求項2に記載の類似度判定プログラム。
  4. 前記第2の複数のグループのうちの前記グループの類似度が最大となるグループに属する固有表現のリストを含む画面情報を出力する、
    処理を前記コンピュータに実行させる、
    請求項3に記載の類似度判定プログラム。
  5. 前記第1の文書に含まれる単語に基づいて、前記第1の文書に対応する第1のベクトルを算出し、
    前記第2の文書に含まれる単語に基づいて、前記第2の文書に対応する第2のベクトルを算出する、
    処理を前記コンピュータに実行させ、
    前記類似度を判定する処理は、前記第1の複数のグループと前記第2の複数のグループとの比較と、前記第1のベクトルと前記第2のベクトルとの比較とに基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
    請求項1~請求項4のいずれか1項に記載の類似度判定プログラム。
  6. 前記第1のベクトルを算出する処理は、前記第1の文書を分割することによって得られた第1の複数の部分文書を前記第1の複数のグループに基づいて分類することによって得られた第1の複数の部分文書グループについて、前記第1の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第1の複数の部分文書グループのそれぞれに対応する第1の複数のベクトルを算出する処理を含み、
    前記第2のベクトルを算出する処理は、前記第2の文書を分割することによって得られた第2の複数の部分文書を前記第2の複数のグループに基づいて分類することによって得られた第2の複数の部分文書グループについて、前記第2の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第2の複数の部分文書グループのそれぞれに対応する第2の複数のベクトルを算出する処理を含む、
    請求項5に記載の類似度判定プログラム。
  7. 前記第1の複数のグループの各々の情報を含む画面情報を出力する、
    処理を前記コンピュータに実行させ、
    前記類似度を判定する処理は、前記画面情報に応じて選択されたグループと、前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
    請求項1~請求項6のいずれか1項に記載の類似度判定プログラム。
  8. 前記類似度を判定する処理は、前記第1の複数のグループのうちの指定されたキーワードを含むグループと、前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
    請求項1~請求項7のいずれか1項に記載の類似度判定プログラム。
  9. 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
    第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
    前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、制御部を備える、
    類似度判定装置。
  10. 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
    第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
    前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、
    処理をコンピュータが実行する、類似度判定方法。
JP2022569434A 2020-12-17 2020-12-17 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 Active JP7487797B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/047218 WO2022130578A1 (ja) 2020-12-17 2020-12-17 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Publications (3)

Publication Number Publication Date
JPWO2022130578A1 JPWO2022130578A1 (ja) 2022-06-23
JPWO2022130578A5 JPWO2022130578A5 (ja) 2023-06-09
JP7487797B2 true JP7487797B2 (ja) 2024-05-21

Family

ID=82057405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022569434A Active JP7487797B2 (ja) 2020-12-17 2020-12-17 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Country Status (2)

Country Link
JP (1) JP7487797B2 (ja)
WO (1) WO2022130578A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112949A (ja) 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2002259411A (ja) 2001-03-06 2002-09-13 Nec Corp 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
JP2008009671A (ja) 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology データ表示装置、データ表示方法及びデータ表示プログラム
JP2013020431A (ja) 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
JP2016045552A (ja) 2014-08-20 2016-04-04 富士通株式会社 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272680A (ja) * 1998-03-19 1999-10-08 Fujitsu Ltd 文書データ提供装置およびそのプログラム記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112949A (ja) 1998-09-30 2000-04-21 Fuji Xerox Co Ltd 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体
JP2002259411A (ja) 2001-03-06 2002-09-13 Nec Corp 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
JP2008009671A (ja) 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology データ表示装置、データ表示方法及びデータ表示プログラム
JP2013020431A (ja) 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
JP2016045552A (ja) 2014-08-20 2016-04-04 富士通株式会社 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置

Also Published As

Publication number Publication date
JPWO2022130578A1 (ja) 2022-06-23
WO2022130578A1 (ja) 2022-06-23

Similar Documents

Publication Publication Date Title
CN106202124B (zh) 网页分类方法及装置
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
US20230147941A1 (en) Method, apparatus and device used to search for content
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
CN111797245B (zh) 基于知识图谱模型的信息匹配方法及相关装置
KR102046692B1 (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
JP6420268B2 (ja) 画像評価学習装置、画像評価装置、画像検索装置、画像評価学習方法、画像評価方法、画像検索方法、およびプログラム
US11244109B2 (en) Information processing device and information processing method
JP6377917B2 (ja) 画像検索装置及び画像検索プログラム
KR102402466B1 (ko) 키워드 클러스터링을 이용한 문서 요약 방법 및 장치
JP2018124617A (ja) 教師データ収集装置、教師データ収集方法、及びプログラム
WO2022130579A1 (ja) 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
Ullah et al. On the analysis and evaluation of information retrieval models for social book search
JP7487797B2 (ja) 類似度判定プログラム、類似度判定装置、及び、類似度判定方法
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP5414334B2 (ja) 擬似文書検索システム及び擬似文書検索方法
Maiya et al. Exploratory analysis of highly heterogeneous document collections
JP2017068742A (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム
JP2012003333A (ja) 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体
JP2020071678A (ja) 情報処理装置、制御方法、プログラム
El-Hajj et al. An optimal approach for text feature selection
KR102205061B1 (ko) 메타데이터 추천 서비스 제공 방법 및 장치
CN113343105A (zh) 一种关键词页面管理系统、方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240422

R150 Certificate of patent or registration of utility model

Ref document number: 7487797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150