JP2019211808A - 類似性評価装置、その方法、及びプログラム - Google Patents
類似性評価装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP2019211808A JP2019211808A JP2018104292A JP2018104292A JP2019211808A JP 2019211808 A JP2019211808 A JP 2019211808A JP 2018104292 A JP2018104292 A JP 2018104292A JP 2018104292 A JP2018104292 A JP 2018104292A JP 2019211808 A JP2019211808 A JP 2019211808A
- Authority
- JP
- Japan
- Prior art keywords
- text
- word
- distance
- distance score
- injection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【課題】A中の単語とB中の単語の意味が遠くても、A中の単語間の関係性とB中の単語間の関係性が近ければ、A、Bの類似性は高いと評価する類似性評価装置を提供する。【解決手段】類似性評価装置は、単語と該単語の概念を表すベクトルとの対の集合が格納される概念ベースを備え、2つのテキストそれぞれの単語集合で要素数が大きくはない方をXとし、もう一方をYとし、X中の要素をY中の要素に写像する、XからYへの単射φを決定し、単射φのもと、X中の任意の要素対と、その要素対に対応するY中の要素対との距離を算出し、全ての要素対に対する該距離の総和を、単射φの距離スコアとして算出し、全ての単射に対応する全ての距離スコアの最小値を、2つのテキストの距離スコアとする。【選択図】図6
Description
本発明は、2つのテキストA、Bの類似性を評価する類似性評価装置、その方法、及びプログラムに関する。
単語と該単語の概念を表すベクトルとの対の集合である概念ベースとして、非特許文献1や非特許文献2で述べられている手法がある。
これらの手法はいずれもコーパスを入力として単語のベクトルを生成するものであり、意味的に近い単語のベクトルは近くなるような配置となる。生成アルゴリズムは、各単語の概念は、コーパスにおける該単語の周辺単語の出現パターン(周辺分布)によって推定できるという分布仮説をベースにしている。
これらの手法により生成した概念ベースを用いて、テキスト間の類似性を表す距離を算出することができる。任意のテキストに対し、該テキスト中の単語のベクトルを合成する(例えば単語ベクトルの重心をとる)ことにより、該テキストのベクトルを生成する。テキスト間の距離を、対応するテキストベクトル間の距離として算出する。
別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,"単語・意味属性間共起に基づくコーパス概念ベースの生成方式",情報処理学会論文誌, Vol.49, No.12, pp.3997-4006, Dec. 2008.
Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean,"Efficient estimation of word representations in vector space",ICLR, 2013.
2つのテキストA、Bについて、A中の単語とB中の単語の意味が遠いが、A中の単語間の関係性とB中の単語間の関係性が近いため、類似性が高くなるケースがある。すなわち、内容そのものは遠いものの、それぞれのテキスト中の事象間の関係性が類似するため、類似性が高くなるテキストの対が存在する。
例えば図1のテキストA「会社で携帯を失くした。」と、図2の「問題」列の1行目のテキストB「駅で定期を落とした。」について、A中の単語の集合は図3の{会社,携帯,失くす}となり、B中の単語の集合は図4の{駅,定期,落とす}となる。A中の単語とB中の単語の組(例:(会社,駅),(携帯,定期),(失くす,落とす))は意味が遠い。しかし、A中の単語間の関係性とB中の単語間の関係性の組(例:((会社⇔携帯),(駅⇔定期)),((会社⇔失くす),(駅⇔落とす)),((携帯⇔失くす),(定期⇔落とす)))は近い。図2のように、「問題」と「解決策」の組のリストが載っているデータベースに対し、ユーザが直面している問題である「会社で携帯を失くした。」を入力したとき、内容そのものは遠いものの、事象間の関係性が類似する「問題」のテキスト「駅で定期を落とした。」がヒットすれば、対応する「解決策」のテキスト「駅の事務室に問い合わせる。」を取得できる。ユーザは問題である「駅で定期を落とした。」と、それに対する解決策「駅の事務室に問い合わせる。」を参考情報として、自身が直面している問題である「会社で携帯を失くした。」に対しては、「会社の管理室に問い合わせる。」という解決策が考えられると類推することができる。このように、A中の単語とB中の単語の意味が遠くても、A中の単語間の関係性とB中の単語間の関係性が近ければ、AとBの類似性を高く判断することが有用となる。
しかしながら現状はテキストA、Bの類似性を評価するにあたり、A中の単語のベクトルとB中の単語のベクトルとの近さを基準に評価しているため、A中の単語とB中の単語の意味が遠いが、A中の単語間の関係性とB中の単語間の関係性が近い場合、AとBの類似性が高いと評価することができない。
本発明は、上記課題を解決するためのものであり、A中の単語とB中の単語の意味が遠くても、A中の単語間の関係性とB中の単語間の関係性が近ければ、A、Bの類似性は高いと評価する類似性評価装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、類似性評価装置は、単語と該単語の概念を表すベクトルとの対の集合が格納される概念ベースと、テキストを単語分割する単語分割手段と、2つのテキストそれぞれの単語集合で要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}とする単語集合特定手段と、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射φを決定する単射決定手段と、単語Zの概念ベース中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、単射φの距離スコアとして算出する単射距離スコア算出手段と、単射距離スコア算出手段で算出した全ての単射に対応する全ての距離スコアの最小値を、2つのテキストの距離スコアとするテキスト間距離スコア算出手段とを備える。
上記の課題を解決するために、本発明の他の態様によれば、類似性評価装置は、単語と該単語の概念を表すベクトルとの対の集合が格納される概念ベースと、テキストを単語分割する単語分割手段と、クエリテキストの単語集合と、1つ以上の検索対象テキストのそれぞれの単語集合とで、要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}とする単語集合特定手段と、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射φを決定する単射決定手段と、単語Zの概念ベース中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、全ての要素対Xi,Xj(i<j)の数で割った値を単射φの距離スコアとして算出する単射距離スコア算出手段と、単射距離スコア算出手段で算出した検索対象テキストに対する全ての単射に対応する全ての距離スコアの最小値を、クエリテキストと検索対象テキストとの距離スコアとするテキスト間距離スコア算出手段とを備え、テキスト間距離スコア算出手段は、クエリテキストと1つ以上の検索対象テキストのそれぞれとの距離スコアを用いて、評価結果を生成する。
本発明によれば、テキストA中の単語とテキストB中の単語の意味が遠くても、テキストA中の単語間の関係性とテキストB中の単語間の関係性が近ければ、テキストA、Bの類似性は高いと評価することができるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成手段や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
特定の概念ベースには、同一の関係性にある単語対の各単語のベクトルの差ベクトルは、ほぼ同一であるという性質がある。すなわち、単語ZのベクトルをV(Z)としたとき、同一の関係性にある単語対(a、b)と単語対(c、d)に対し、
特定の概念ベースには、同一の関係性にある単語対の各単語のベクトルの差ベクトルは、ほぼ同一であるという性質がある。すなわち、単語ZのベクトルをV(Z)としたとき、同一の関係性にある単語対(a、b)と単語対(c、d)に対し、
が成り立つ。これは単語対(a、b)の関係性をV(b)-V(a)と捉えることができることを意味している。
本発明の処理において、一方のテキストの単語集合{X1,…,Xm}の要素と、もう一方のテキストの単語集合{Y1,…,Yn}の要素との対応付けφは一般に複数ある。
あるφのもとで、単語集合{X1,…,Xm}の要素Xiに対応する単語集合{Y1,…,Yn}の要素をYφ_i(ただし、下付き添え字A_Bは、ABを意味する)とすると、V(Xi)とV(Yφ_i)が遠くても、任意の要素対Xi,Xj(i<j)の関係性と、対応する要素対Yφ_i,Yφ_jの関係性とが近い場合、上記の概念ベースの性質により
が成り立ち、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離は小さくなり、該距離の総和としてのφの距離スコアは小さくなる。したがってφの距離スコアの最小値としてのテキスト間距離スコアも小さくなる。
あるφのもとで、ある要素対Xi,Xj(i<j)の関係性と、対応する要素対Yφ_i,Yφ_jの関係性とが遠い場合、一般に
が成り立たず、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離は大きくなり、該距離の総和としてのφの距離スコアは大きくなる。
したがってφの距離スコアの最小値としてのテキスト間距離スコアが小さければ、最小値の距離スコアをとるφのもとで、任意の要素対Xi,Xj(i<j)の関係性と、対応する要素対Yφ_i,Yφ_jの関係性とが近いことがいえ、テキスト間の類似性が高いと評価することができる。
あるφのもとで、任意の要素対Xi,Xj(i<j)に対し、
が成り立つ場合は、単語ベクトルのリストV(X1),…,V(Xm)を平行移動することにより、単語ベクトルのリストV(Yφ_1),…,V(Yφ_m)にほぼ重ね合わせることができる。
発明が解決しようとする課題で挙げたテキストA、Bの例に対しては、図5のように、A中の単語のベクトルとB中の単語のベクトルは遠い。単射φを、
φ:会社→駅,携帯→定期,失くす→落とす
としたとき、V(携帯)-V(会社)とV(定期)-V(駅)の距離、V(失くす)-V(会社)とV(落とす)-V(駅)の距離、V(失くす)-V(携帯)とV(落とす)-V(定期)の距離が小さく、φの距離スコアが小さくなる。これにより、テキスト間距離スコアが小さくなり、テキストA、Bの類似性が高いと評価することができる。
φ:会社→駅,携帯→定期,失くす→落とす
としたとき、V(携帯)-V(会社)とV(定期)-V(駅)の距離、V(失くす)-V(会社)とV(落とす)-V(駅)の距離、V(失くす)-V(携帯)とV(落とす)-V(定期)の距離が小さく、φの距離スコアが小さくなる。これにより、テキスト間距離スコアが小さくなり、テキストA、Bの類似性が高いと評価することができる。
<第一実施形態>
図6は本実施形態に係る類似性評価装置の構成例である。
図6は本実施形態に係る類似性評価装置の構成例である。
類似性評価装置は、概念ベース106と単語分割手段101と単語集合特定手段102と単射決定手段103と単射距離スコア算出手段104とテキスト間距離スコア算出手段105とを備える。
類似性評価装置は、2つのテキストを入力とし、2つのテキストの類似性を評価し、評価結果を出力する。
類似性評価装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。類似性評価装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。類似性評価装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。類似性評価装置の各処理手段は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。類似性評価装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも類似性評価装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、類似性評価装置の外部に備える構成としてもよい。
以下、各部について説明する。
<概念ベース106>
概念ベース106には、単語と該単語の概念を表すベクトルとの対の集合が格納される。図7は、概念ベース106の例である。概念ベース106は、例えば、非特許文献1や非特許文献2の手法によって生成する。
概念ベース106には、単語と該単語の概念を表すベクトルとの対の集合が格納される。図7は、概念ベース106の例である。概念ベース106は、例えば、非特許文献1や非特許文献2の手法によって生成する。
概念ベース106中の単語に重複するものはない。
各単語のベクトルはp次元ベクトルであり、意味的に近い単語のベクトルは、近くに配置されている。なお、ここでいう「近い」、「遠い」は、ベクトル間の距離(例えばユークリッド距離やその2乗)を意味する。
概念ベース106には名詞、動詞、形容詞等の内容語のみを登録するというようにしてもよいし、さらにそれ以外の品詞の単語も登録するというようにしてもよい。本実施形態では、内容語のみを登録する。概念ベース106において単語を終止形で登録し、概念ベース106を検索する際は、単語の終止形で検索するというようにしてもよいし、全ての活用形を登録し概念ベース106を検索する際はテキスト中に表れた活用形で検索するというようにしてもよい。本実施形態では、終止形で検索する。
図8は、類似性評価装置の処理ルーチンの一例を示す図である。以下、図8の各ステップの処理内容を述べることにより、類似性評価装置の各手段の説明をする。
図8の処理ルーチンは、2つのテキストA、Bを入力として、A、Bの類似性を評価するルーチンである。例として、発明が解決しようとする課題で挙げたテキストA、Bをとる。
<単語分割手段101>
処理対象テキストG決定ステップS11では、単語分割手段101が、入力テキストA、Bを入力とし、入力テキストA、Bの内、未処理のテキストがある場合、未処理のテキストから処理対象とするテキストを決定し、決定したテキストをGとし、S12に移る。未処理のテキストがない場合、S13に移る。
処理対象テキストG決定ステップS11では、単語分割手段101が、入力テキストA、Bを入力とし、入力テキストA、Bの内、未処理のテキストがある場合、未処理のテキストから処理対象とするテキストを決定し、決定したテキストをGとし、S12に移る。未処理のテキストがない場合、S13に移る。
単語分割ステップS12では、単語分割手段101が、テキストGを単語分割し、出力する。具体的には、テキストGを形態素解析し、単語の異なりの集合(テキストGを構成する異なる単語からなる集合であり、テキストGの中で同一の単語が何度用いられていてもこれを1つの要素とする集合)を取得する。ここで単語として、名詞、動詞、形容詞等の内容語のみとしてもよいし、さらにそれ以外の品詞の単語を加えてもよい。本実施形態では、内容語のみとする。また、本実施形態では、活用形を単語の終止形に変換した上で、単語集合の要素とする。処理の終了後、S11に移る。
テキストGが「会社で携帯を失くした。」の場合、単語分割ステップS12の処理結果は、{会社,携帯,失くす}となる。テキストGが「駅で定期を落とした。」の場合、単語分割ステップS12の処理結果は、{駅,定期,落とす}となる。
<単語集合特定手段102>
単語集合特定ステップS13では、単語集合特定手段102が、S12で取得した、2つのテキストそれぞれの単語集合を入力とし、2つのテキストそれぞれの単語集合で要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}として出力する。処理の終了後、S14に移る。
単語集合特定ステップS13では、単語集合特定手段102が、S12で取得した、2つのテキストそれぞれの単語集合を入力とし、2つのテキストそれぞれの単語集合で要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}として出力する。処理の終了後、S14に移る。
S12で取得した単語集合{会社,携帯,失くす}と{駅,定期,落とす}はどちらも要素数が3で同じなので、どちらの単語集合を{X1,…,Xm}としてもよい。ここでは、「X1=会社,X2=携帯,X3=失くす」とし、「Y1=駅,Y2=定期,Y3=落とす」とする。
<単射決定手段103>
単射φ決定ステップS14では、単射決定手段103が、単語集合{X1,…,Xm}、{Y1,…,Yn}を入力とし、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射の内、未処理の単射がある場合、未処理の単射から処理対象とする単射を決定し、決定した単射をφとして出力し、S15に移る。未処理の単射がない場合、S16に移る。
単射φ決定ステップS14では、単射決定手段103が、単語集合{X1,…,Xm}、{Y1,…,Yn}を入力とし、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射の内、未処理の単射がある場合、未処理の単射から処理対象とする単射を決定し、決定した単射をφとして出力し、S15に移る。未処理の単射がない場合、S16に移る。
{X1,X2,X3}から{Y1,Y2,Y3}への単射は、図9のように6個ある。ここでは、図9の1行目の単射「X1→Y1,X2→Y2,X3→Y3」すなわち「会社→駅,携帯→定期,失くす→落とす」を処理対象の単射φとする。
<単射距離スコア算出手段104>
単射距離スコア算出ステップS15では、単射距離スコア算出手段104が、単射決定手段103で処理対象として決定された単射φを入力とし、単語Zの概念ベース106中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}に対応するベクトルV(X1),…,V(Xm)と、{Yφ_1,…,Yφ_m}に対応するベクトルV(Yφ_1),…,V(Yφ_m)を概念ベース106から取り出す。{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、単射φの距離スコアとして算出し、出力する。V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離としては、ユークリッド距離を採用してもよいし、ユークリッド距離の二乗を採用してもよい。処理の終了後、S14に移る。
単射距離スコア算出ステップS15では、単射距離スコア算出手段104が、単射決定手段103で処理対象として決定された単射φを入力とし、単語Zの概念ベース106中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}に対応するベクトルV(X1),…,V(Xm)と、{Yφ_1,…,Yφ_m}に対応するベクトルV(Yφ_1),…,V(Yφ_m)を概念ベース106から取り出す。{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、単射φの距離スコアとして算出し、出力する。V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離としては、ユークリッド距離を採用してもよいし、ユークリッド距離の二乗を採用してもよい。処理の終了後、S14に移る。
単射φ「X1→Y1,X2→Y2,X3→Y3」に対しては、V(X2)-V(X1)とV(Y2)-V(Y1)の距離、V(X3)-V(X1)とV(Y3)-V(Y1)の距離、V(X3)-V(X2)とV(Y3)-V(Y2)の距離を算出し、該距離の総和を、単射φの距離スコアとして算出する。すなわち単射φ「会社→駅,携帯→定期,失くす→落とす」に対しては、V(携帯)-V(会社)とV(定期)-V(駅)の距離、V(失くす)-V(会社)とV(落とす)-V(駅)の距離、V(失くす)-V(携帯)とV(落とす)-V(定期)の距離を算出し、該距離の総和を、単射φの距離スコアとして算出する。各単語ベクトルが図5の配置のとき、単射φの距離スコアは0に近い値となる。
<テキスト間距離スコア算出手段105>
テキスト間距離スコア算出ステップS16では、テキスト間距離スコア算出手段105が、単射距離スコア算出手段104で算出した全ての単射に対応する全ての距離スコア(図9の場合、6個の単射に対応する6個の距離スコア)を入力とし、全ての距離スコアの最小値を、2つのテキストA、Bの距離スコアとして評価し、評価結果を出力する。例えば、(i)距離スコア自体を評価結果として出力してもよいし、(ii)テキストA、Bの距離スコアが、ある閾値以下あるいは未満の場合、テキストA、Bは類似性があるという評価結果を出力し、それ以外の場合には、類似性がないという評価結果を出力してもよい。処理の終了後、図8の処理ルーチンを終了する。
テキスト間距離スコア算出ステップS16では、テキスト間距離スコア算出手段105が、単射距離スコア算出手段104で算出した全ての単射に対応する全ての距離スコア(図9の場合、6個の単射に対応する6個の距離スコア)を入力とし、全ての距離スコアの最小値を、2つのテキストA、Bの距離スコアとして評価し、評価結果を出力する。例えば、(i)距離スコア自体を評価結果として出力してもよいし、(ii)テキストA、Bの距離スコアが、ある閾値以下あるいは未満の場合、テキストA、Bは類似性があるという評価結果を出力し、それ以外の場合には、類似性がないという評価結果を出力してもよい。処理の終了後、図8の処理ルーチンを終了する。
例のテキストA、Bの距離スコアは0に近い値となり、テキストA、Bは類似性があると評価する。
<効果>
以上の構成により、テキストA中の単語とテキストB中の単語の意味が遠くても、テキストA中の単語間の関係性とテキストB中の単語間の関係性が近ければ、テキストA、Bの類似性は高いと評価することができる。
以上の構成により、テキストA中の単語とテキストB中の単語の意味が遠くても、テキストA中の単語間の関係性とテキストB中の単語間の関係性が近ければ、テキストA、Bの類似性は高いと評価することができる。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態と異なる部分を中心に説明する。
図10は類似性評価装置の事前処理ルーチンの一例を示す図であり、図11は類似性評価装置の検索処理ルーチンの一例を示す図である。図10、11は、図2のように、「問題」と「解決策」の組のリストが載っているデータベースが与えられたとき、「問題」列の各行のテキストを検索対象として、図1のような「問題」相当のテキストがクエリとして入力されたとき、該クエリテキストと類似性の高い検索対象テキストを求める処理のルーチンである。類似性の高い検索対象テキストが求まると、該検索対象テキスト及び対応する「解決策」のテキストが返される。図10は、検索対象テキストのリストを入力として行う、検索の事前処理のルーチンであり、図11は、クエリテキストを入力として行う検索処理のルーチンである。
<事前処理>
図10の処理ルーチンを説明する。
図10の処理ルーチンを説明する。
<単語分割手段101>
処理対象テキストH決定ステップS21では、単語分割手段101が、検索対象テキストのリスト(例えば、図2の「問題」のリスト)を入力とし、検索対象テキストの内、未処理の検索対象テキストがある場合、未処理の検索対象テキストから処理対象とする検索対象テキストを決定し、決定した検索対象テキストをHとし、S22に移る。未処理の検索対象テキストがない場合、図10の処理ルーチンを終了する。
処理対象テキストH決定ステップS21では、単語分割手段101が、検索対象テキストのリスト(例えば、図2の「問題」のリスト)を入力とし、検索対象テキストの内、未処理の検索対象テキストがある場合、未処理の検索対象テキストから処理対象とする検索対象テキストを決定し、決定した検索対象テキストをHとし、S22に移る。未処理の検索対象テキストがない場合、図10の処理ルーチンを終了する。
単語分割ステップS22では、単語分割手段101が、S21で決定した検索対象テキストHを単語分割し、検索対象テキストHと対応付けて前述のリストに加える。なお、リストは図示しない記憶部に格納される。処理内容は、図8の単語分割ステップS12における単語分割手段101の処理内容と同じである。処理の終了後、S21に移る。
<検索処理>
図11の処理ルーチンを説明する。
図11の処理ルーチンを説明する。
<単語分割手段101>
単語分割ステップS31では、単語分割手段101が、クエリテキストを入力とし、クエリテキストを単語分割し、出力する。処理内容は、図8の単語分割ステップS12における単語分割手段101の処理内容と同じである。処理の終了後、S32に移る。
単語分割ステップS31では、単語分割手段101が、クエリテキストを入力とし、クエリテキストを単語分割し、出力する。処理内容は、図8の単語分割ステップS12における単語分割手段101の処理内容と同じである。処理の終了後、S32に移る。
<単語集合特定手段102>
処理対象テキストH決定ステップS32では、単語集合特定手段102は、クエリテキストの単語集合を入力とし、図示しない記憶部に格納された検索対象テキストのリストを参照し、検索対象テキストの内、未処理の検索対象テキストがある場合、未処理の検索対象テキストから処理対象とする検索対象テキストを決定し、決定した検索対象テキストをHとし、S33に移る。未処理の検索対象テキストがない場合、S37に移る。
処理対象テキストH決定ステップS32では、単語集合特定手段102は、クエリテキストの単語集合を入力とし、図示しない記憶部に格納された検索対象テキストのリストを参照し、検索対象テキストの内、未処理の検索対象テキストがある場合、未処理の検索対象テキストから処理対象とする検索対象テキストを決定し、決定した検索対象テキストをHとし、S33に移る。未処理の検索対象テキストがない場合、S37に移る。
単語集合特定ステップS33では、単語集合特定手段102が、S22で取得した検索対象テキストHの単語集合を図示しない記憶部から取り出し、検索対象テキストHの単語集合と、S31で取得したクエリテキストの単語集合の内、要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}として出力する。処理の終了後、S34に移る。
<単射決定手段103>
単射φ決定ステップS34では、単射決定手段103が、単語集合{X1,…,Xm}、{Y1,…,Yn}を入力とし、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射の内、未処理の単射がある場合、未処理の単射から処理対象とする単射を決定し、決定した単射をφとして出力し、S35に移る。未処理の単射がない場合、S36に移る。
単射φ決定ステップS34では、単射決定手段103が、単語集合{X1,…,Xm}、{Y1,…,Yn}を入力とし、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射の内、未処理の単射がある場合、未処理の単射から処理対象とする単射を決定し、決定した単射をφとして出力し、S35に移る。未処理の単射がない場合、S36に移る。
<単射距離スコア算出手段104>
単射距離スコア算出ステップS35では、単射距離スコア算出手段104が、単射決定手段103で処理対象として決定された単射φを入力とし、図8の単射距離スコア算出ステップS15における単射距離スコア算出手段104の処理と同じ処理を行う。あるいは、{X1,…,Xm}中の全ての要素対Xi,Xj(i<j)に対するV(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離の総和を、{X1,…,Xm}中の全ての要素対Xi,Xj(i<j)の数で割った値を、単射φの距離スコアとして算出し、出力するというようにしてもよい。これは距離の総和だと、単語集合{X1,…,Xm}の要素数が少ないほど、対応する検索対象テキストのテキスト間距離スコアが小さくなる傾向があるのを是正するための措置である。よって、要素数が大きくはない方の単語集合{X1,…,Xm}の要素数が検索対象テキスト毎に変わらない場合には、第一実施形態の算出方法を採用し、変わる場合には上述の是正措置を採用するとよい。処理の終了後、S34に移る。
単射距離スコア算出ステップS35では、単射距離スコア算出手段104が、単射決定手段103で処理対象として決定された単射φを入力とし、図8の単射距離スコア算出ステップS15における単射距離スコア算出手段104の処理と同じ処理を行う。あるいは、{X1,…,Xm}中の全ての要素対Xi,Xj(i<j)に対するV(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離の総和を、{X1,…,Xm}中の全ての要素対Xi,Xj(i<j)の数で割った値を、単射φの距離スコアとして算出し、出力するというようにしてもよい。これは距離の総和だと、単語集合{X1,…,Xm}の要素数が少ないほど、対応する検索対象テキストのテキスト間距離スコアが小さくなる傾向があるのを是正するための措置である。よって、要素数が大きくはない方の単語集合{X1,…,Xm}の要素数が検索対象テキスト毎に変わらない場合には、第一実施形態の算出方法を採用し、変わる場合には上述の是正措置を採用するとよい。処理の終了後、S34に移る。
<テキスト間距離スコア算出手段105>
テキスト間距離スコア算出ステップS36では、テキスト間距離スコア算出手段105が、単射距離スコア算出手段104で算出した、検索対象テキストHに対する全ての単射に対応する全ての距離スコアを入力とし、全ての距離スコアの最小値を、クエリテキストと検索対象テキストHとの間の距離スコアとして評価する。処理の終了後、S32に移る。
テキスト間距離スコア算出ステップS36では、テキスト間距離スコア算出手段105が、単射距離スコア算出手段104で算出した、検索対象テキストHに対する全ての単射に対応する全ての距離スコアを入力とし、全ての距離スコアの最小値を、クエリテキストと検索対象テキストHとの間の距離スコアとして評価する。処理の終了後、S32に移る。
前述の通り、S32において未処理の検索対象テキストがない場合、S37に移る。評価結果生成ステップS37では、テキスト間距離スコア算出手段105は、クエリテキストと各検索対象テキストとの間の距離スコアをもとに、評価結果を生成し、出力する。評価結果としては、以下のようなものが考えられる。
(1)クエリテキストと全ての検索対象テキストとの間の全ての距離スコアの中で最小の距離スコアをとる検索対象テキストと該距離スコア
(2)ある閾値以下あるいは未満の距離スコアをとる検索対象テキストと該距離スコアの組のリスト
(3)検索対象テキストを、クエリテキストとの距離スコアの昇順にランキングし、該ランキングの順に、並べた検索対象テキストと対応する距離スコアの組のリスト。ここで、評価結果をリスト中の上位何番目かまでの組のリスト、あるいは、距離スコアがある閾値以下あるいは未満の組のリストに限定してもよい。
(1)クエリテキストと全ての検索対象テキストとの間の全ての距離スコアの中で最小の距離スコアをとる検索対象テキストと該距離スコア
(2)ある閾値以下あるいは未満の距離スコアをとる検索対象テキストと該距離スコアの組のリスト
(3)検索対象テキストを、クエリテキストとの距離スコアの昇順にランキングし、該ランキングの順に、並べた検索対象テキストと対応する距離スコアの組のリスト。ここで、評価結果をリスト中の上位何番目かまでの組のリスト、あるいは、距離スコアがある閾値以下あるいは未満の組のリストに限定してもよい。
図2のデータベースを対象として、図1のクエリテキストを入力とした場合、最小のテキスト間距離スコアをとる検索対象テキストとして「駅で定期を落とした。」を出力する。
本実施形態では、上述の通り、評価結果とともに対応する「解決策」のテキストを出力する。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。
<変形例>
なお任意のテキストA、Bの類似性を評価するにあたり、第一実施形態、第二実施形態で説明したテキスト間距離スコアの他に、背景技術で述べたようなテキスト間距離を始めとする、A中の単語のベクトルとB中の単語のベクトルとの距離をベースとするテキスト間距離を算出し、算出した2つの距離を重み付き線形結合した値を最終的なテキスト間距離とし、当該テキスト間距離をもとに類似性を評価するというようにしてもよい。
なお任意のテキストA、Bの類似性を評価するにあたり、第一実施形態、第二実施形態で説明したテキスト間距離スコアの他に、背景技術で述べたようなテキスト間距離を始めとする、A中の単語のベクトルとB中の単語のベクトルとの距離をベースとするテキスト間距離を算出し、算出した2つの距離を重み付き線形結合した値を最終的なテキスト間距離とし、当該テキスト間距離をもとに類似性を評価するというようにしてもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、2つのテキストA、Bについて、A中の単語とB中の単語の意味が遠くても、A中の単語間の関係性とB中の単語間の関係性が近ければ、A、Bの類似性は高いと評価する類似性評価技術に適用可能である。
Claims (5)
- 単語と該単語の概念を表すベクトルとの対の集合が格納される概念ベースと、
テキストを単語分割する単語分割手段と、
2つのテキストそれぞれの単語集合で要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}とする単語集合特定手段と、
{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射φを決定する単射決定手段と、
単語Zの前記概念ベース中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、単射φの距離スコアとして算出する単射距離スコア算出手段と、
単射距離スコア算出手段で算出した全ての単射に対応する全ての距離スコアの最小値を、前記2つのテキストの距離スコアとするテキスト間距離スコア算出手段とを備える、
類似性評価装置。 - 単語と該単語の概念を表すベクトルとの対の集合が格納される概念ベースと、
テキストを単語分割する単語分割手段と、
クエリテキストの単語集合と、1つ以上の検索対象テキストのそれぞれの単語集合とで、要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}とする単語集合特定手段と、
{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射φを決定する単射決定手段と、
単語Zの前記概念ベース中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、全ての要素対Xi,Xj(i<j)の数で割った値を単射φの距離スコアとして算出する単射距離スコア算出手段と、
単射距離スコア算出手段で算出した前記検索対象テキストに対する全ての単射に対応する全ての距離スコアの最小値を、前記クエリテキストと前記検索対象テキストとの距離スコアとするテキスト間距離スコア算出手段とを備え、
前記テキスト間距離スコア算出手段は、前記クエリテキストと1つ以上の前記検索対象テキストのそれぞれとの距離スコアを用いて、評価結果を生成する、
類似性評価装置。 - 概念ベースには単語と該単語の概念を表すベクトルとの対の集合が格納されるものとし、
単語分割手段が、テキストを単語分割する単語分割ステップと、
単語集合特定手段が、2つのテキストそれぞれの単語集合で要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}とする単語集合特定ステップと、
単射決定手段が、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射φを決定する単射決定ステップと、
単射距離スコア算出手段が、単語Zの前記概念ベース中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、単射φの距離スコアとして算出する単射距離スコア算出ステップと、
テキスト間距離スコア算出手段が、単射距離スコア算出ステップで算出した全ての単射に対応する全ての距離スコアの最小値を、前記2つのテキストの距離スコアとするテキスト間距離スコア算出ステップとを備える、
類似性評価方法。 - 概念ベースには単語と該単語の概念を表すベクトルとの対の集合が格納されるものとし、
単語分割手段が、テキストを単語分割する単語分割ステップと、
単語集合特定手段が、クエリテキストの単語集合と、1つ以上の検索対象テキストのそれぞれの単語集合とで、要素数が大きくはない方を{X1,…,Xm}とし、もう一方を{Y1,…,Yn}とする単語集合特定ステップと、
単射決定手段が、{X1,…,Xm}中の要素XiをYφ_iに写像する、{X1,…,Xm}から{Y1,…,Yn}への単射φを決定する単射決定ステップと、
単射距離スコア算出手段が、単語Zの前記概念ベース中の対応するベクトルをV(Z)とするとき、{X1,…,Xm}中の任意の要素対Xi,Xj(i<j)に対し、V(Xj)-V(Xi)とV(Yφ_j)-V(Yφ_i)の距離を算出し、全ての要素対Xi,Xj(i<j)に対する該距離の総和を、全ての要素対Xi,Xj(i<j)の数で割った値を単射φの距離スコアとして算出する単射距離スコア算出ステップと、
テキスト間距離スコア算出手段が、単射距離スコア算出ステップで算出した前記検索対象テキストに対する全ての単射に対応する全ての距離スコアの最小値を、前記クエリテキストと前記検索対象テキストとの距離スコアとするテキスト間距離スコア算出ステップと、
前記テキスト間距離スコア算出手段が、前記クエリテキストと1つ以上の前記検索対象テキストのそれぞれとの距離スコアを用いて、評価結果を生成する評価結果生成ステップとを備える、
類似性評価方法。 - 請求項1または請求項2の類似性評価装置としてコンピュータを機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018104292A JP2019211808A (ja) | 2018-05-31 | 2018-05-31 | 類似性評価装置、その方法、及びプログラム |
PCT/JP2019/019829 WO2019230465A1 (ja) | 2018-05-31 | 2019-05-20 | 類似性評価装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018104292A JP2019211808A (ja) | 2018-05-31 | 2018-05-31 | 類似性評価装置、その方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019211808A true JP2019211808A (ja) | 2019-12-12 |
Family
ID=68696696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018104292A Pending JP2019211808A (ja) | 2018-05-31 | 2018-05-31 | 類似性評価装置、その方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2019211808A (ja) |
WO (1) | WO2019230465A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210084723A (ko) * | 2019-12-27 | 2021-07-08 | 동국대학교 산학협력단 | 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5427119B2 (ja) * | 2010-06-14 | 2014-02-26 | 日本電信電話株式会社 | 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 |
JP6137960B2 (ja) * | 2013-06-21 | 2017-05-31 | 日本放送協会 | コンテンツ検索装置、方法及びプログラム |
-
2018
- 2018-05-31 JP JP2018104292A patent/JP2019211808A/ja active Pending
-
2019
- 2019-05-20 WO PCT/JP2019/019829 patent/WO2019230465A1/ja active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210084723A (ko) * | 2019-12-27 | 2021-07-08 | 동국대학교 산학협력단 | 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법 |
KR102352481B1 (ko) * | 2019-12-27 | 2022-01-18 | 동국대학교 산학협력단 | 기계학습을 기반으로 구축된 형태소 분석기를 이용한 문장 분석 장치 및 그 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2019230465A1 (ja) | 2019-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162695B (zh) | 一种信息推送的方法及设备 | |
CN109766497B (zh) | 排行榜生成方法及装置、存储介质、电子设备 | |
US6915295B2 (en) | Information searching method of profile information, program, recording medium, and apparatus | |
Zhang et al. | Deep representation learning of activity trajectory similarity computation | |
CN111488426A (zh) | 一种查询意图确定方法、装置及处理设备 | |
WO2019118256A1 (en) | Generation of text from structured data | |
CN110737756B (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
CN112765362B (zh) | 基于改进自编码器的知识图谱实体对齐方法及相关设备 | |
CN116089567A (zh) | 一种搜索关键词的推荐方法、装置、设备和存储介质 | |
CN108459965B (zh) | 一种结合用户反馈和代码依赖的软件可追踪生成方法 | |
CN116431837A (zh) | 基于大型语言模型和图网络模型的文档检索方法和装置 | |
CN114090735A (zh) | 一种文本匹配方法、装置、设备及存储介质 | |
CN113505190B (zh) | 地址信息修正方法、装置、计算机设备和存储介质 | |
JP2018124617A (ja) | 教師データ収集装置、教師データ収集方法、及びプログラム | |
CN112925912B (zh) | 文本处理方法、同义文本召回方法及装置 | |
WO2019230465A1 (ja) | 類似性評価装置、その方法、及びプログラム | |
CN111079035B (zh) | 基于动态图谱链接分析的领域搜索排序方法 | |
CN117473056A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN109885812B (zh) | 一种动态添加热词的方法、装置及可读存储介质 | |
JP6555810B2 (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム | |
CN115203378B (zh) | 基于预训练语言模型的检索增强方法、系统及存储介质 | |
CN116383340A (zh) | 信息搜索方法、装置、电子设备和存储介质 | |
CN113312523B (zh) | 字典生成、搜索关键字推荐方法、装置和服务器 | |
JP2020071678A (ja) | 情報処理装置、制御方法、プログラム |