JP2019086995A - 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム - Google Patents

類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム Download PDF

Info

Publication number
JP2019086995A
JP2019086995A JP2017214388A JP2017214388A JP2019086995A JP 2019086995 A JP2019086995 A JP 2019086995A JP 2017214388 A JP2017214388 A JP 2017214388A JP 2017214388 A JP2017214388 A JP 2017214388A JP 2019086995 A JP2019086995 A JP 2019086995A
Authority
JP
Japan
Prior art keywords
sentence
similarity
sentences
index value
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017214388A
Other languages
English (en)
Other versions
JP6346367B1 (ja
Inventor
博義 豊柴
Hiroyoshi TOYOSHIBA
博義 豊柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fronteo Healthcare Inc
Original Assignee
Fronteo Healthcare Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fronteo Healthcare Inc filed Critical Fronteo Healthcare Inc
Priority to JP2017214388A priority Critical patent/JP6346367B1/ja
Application granted granted Critical
Publication of JP6346367B1 publication Critical patent/JP6346367B1/ja
Priority to CN201880071838.6A priority patent/CN111373386A/zh
Priority to EP18876872.5A priority patent/EP3709183A4/en
Priority to US16/759,474 priority patent/US11544309B2/en
Priority to PCT/JP2018/040056 priority patent/WO2019093172A1/ja
Publication of JP2019086995A publication Critical patent/JP2019086995A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】類似性の評価精度を従来よりも向上させることができるようにする。【解決手段】m個の文章を解析してn個の単語を抽出する単語抽出部11と、m個の文章およびn個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルおよびq個の軸成分から成るn個の単語ベクトルを算出するベクトル算出部12と、m個の文章ベクトルとn個の単語ベクトルとの内積をそれぞれとることにより、m個の文章およびn個の単語間の関係性を反映した類似性指標値を算出する指標値算出部13とを備え、文章から算出された文章ベクトルと、文章内に含まれる単語から算出された単語ベクトルとの内積を計算することによって、どの単語がどの文章に対してどの程度寄与しているのかを内積の値として表した類似性評価値を得ることができるようにする。【選択図】図1

Description

本発明は、類似性指標値算出装置、類似文章検索装置および類似性指標値算出用プログラムに関し、特に、複数の単語を含む文章に関する類似性の指標値を算出する技術および、この指標値を用いて類似検索を行う技術に関するものである。
従来、データベースに蓄積された多数の文章の中から、検索キーとして入力された文章に類似する他の文章を検索する技術が広く使われている。この種の検索技術では、基本的に、各文章について何らかの特徴量を算出し、特徴量が近似する文章を検索するようになされている。特徴量の1つとして、文章ベクトルを算出するようにした技術が知られている(例えば、特許文献1,2参照)。
特許文献1に記載の情報検索装置では、検索回答の文書を解析して自立語の抽出を行い、得られた自立語のうちでベクトル生成用辞書に登録されている自立語に対して単語ベクトルを読み出す。そして、全文章において得られた全ての単語ベクトルから文章の特徴を表す文章ベクトルを得て、文章ベクトル同志を比較することで文章間の距離を求めて、その距離を用いて分類を行う。
特許文献2に記載の対応カテゴリ検索システムは、意味内容が近い日英の文書ペアを検索するものであり、学習データ中に含まれる全ての日本語文書および英語文書に対して形態素解析処理を施し、これによって得られた全ての日本語単語および英語単語に対して、対応する多次元の単語ベクトルを計算する。そして、各文書中に含まれる全単語に対応する単語ベクトルの総和を正規化した(ベクトルの長さを1とした)文書ベクトルを計算し、日本語文書に対応する文書ベクトルと英語文書に対応する文書ベクトルとで最も関連度の高い(内積の値が大きい)日英の文書ペアを検索する。
また、文章や文書をパラグラフ・ベクトルにより評価することについて記述した論文も知られている(例えば、非特許文献1参照)。当該非特許文献1に記載の技術においても、上記特許文献1,2と同様、文章中に含まれる単語について単語ベクトルを算出し、当該単語ベクトルを用いてパラグラフ・ベクトルを算出するようになされている。
特開平7−295994号公報 特開2002−259445号公報
"Distributed Representations of Sentences and Documents"by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014
上記特許文献1,2および非特許文献1に記載の技術は何れも、文章の特徴量として文章ベクトルを算出し、文章ベクトルどうしの比較や、文章ベクトルどうしの内積を計算することによって、文章を分類したり、類似の文章を検索したりする仕組みとなっている。
しかしながら、文章ベクトルのみを指標として用いた従来の類似性評価手法では、評価精度を十分に上げることができないという問題があった。文章は複数の単語の組み合わせから成るものであるのに対し、どの単語がどの文章に対してどの程度寄与しているのかが正確に評価されていないからである。
なお、上記特許文献1,2および非特許文献1に記載の文章ベクトルは、何れも単語ベクトルを用いた所定の計算によって算出される。しかしながら、特許文献1には、単語ベクトルから文章ベクトルをどのように求めるかの具体的な方法については記載されていない。特許文献2に記載の技術では、文書中に含まれる全単語に対応する単語ベクトルの総和を正規化して文書ベクトルとしているだけなので、文書内で使われている各単語の単語ベクトルが総和として丸められてしまっている。非特許文献1に記載の技術では、パラグラフ・ベクトルを求める過程で単語ベクトルが使われているが、単語ベクトルそのものは文章や文書を評価する指標としては使われていない。
本発明は、このような問題を解決するために成されたものであり、類似性の評価精度を従来よりも向上させることができるようにすることを目的とする。
上記した課題を解決するために、本発明の類似性指標値算出装置では、m個の文章を解析して当該m個の文章からn個の単語を抽出し、m個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出するとともに、n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。そして、m個の文章ベクトルとn個の単語ベクトルとの内積をそれぞれとることにより、m個の文章およびn個の単語間の関係性を反映した類似性指標値を算出するようにしている。
上記のように構成した本発明によれば、文章から算出された文章ベクトルと、文章内に含まれる単語から算出された単語ベクトルとの内積を計算することによって、文章および単語間の関係性を反映した類似性評価値が算出されるので、どの単語がどの文章に対してどの程度寄与しているのかを内積の値として得ることができる。よって、このようにして得られる本発明の類似性指標値を用いることにより、類似性の評価精度を従来よりも向上させることができる。
本実施形態による類似性指標値算出装置の機能構成例を示すブロック図である。 本実施形態による類似検索装置の機能構成例を示すブロック図である。 本実施形態による類似検索装置の他の機能構成例を示すブロック図である。 本実施形態による類似検索装置の他の機能構成例を示すブロック図である。 本実施形態による類似検索装置の他の機能構成例を示すブロック図である。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態による類似性指標値算出装置の機能構成例を示すブロック図である。本実施形態の類似性指標値算出装置10は、文章に関する文章データを入力し、文章とその中に含まれる単語との関係性を反映した類似性指標値を算出して出力するものである。類似性指標値算出装置10は、その機能構成として、単語抽出部11、ベクトル算出部12および指標値算出部13を備えて構成されている。ベクトル算出部12は、より具体的な機能構成として、文章ベクトル算出部12Aおよび単語ベクトル算出部12Bを備えている。
上記各機能ブロック11〜13は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック11〜13は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
単語抽出部11は、m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する。ここで、解析対象とする文章は、1つのセンテンス(句点によって区切られる単位)から成るものであってもよいし、複数のセンテンスから成るものであってもよい。複数のセンテンスから成る文章は、1つの文書に含まれる一部または全部の文章であってもよい。
また、文章の解析としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部11は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。
なお、m個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部11は、同じ単語を複数個抽出することはせず、1つのみ抽出する。すなわち、単語抽出部11が抽出するn個の単語とは、n種類の単語という意味である。
ベクトル算出部12は、m個の文章およびn個の単語から、m個の文章ベクトルおよびn個の単語ベクトルを算出する。ここで、文章ベクトル算出部12Aは、単語抽出部11による解析対象とされたm個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個(qは2以上の任意の整数)の軸成分から成るm個の文章ベクトルを算出する。また、単語ベクトル算出部12Bは、単語抽出部11により抽出されたn個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。
本実施形態では、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、m個の文章とn個の単語とから成る集合S=<d∈D,w∈W>を考える。ここで、各文章d(i=1,2,・・・,m)および各単語w(j=1,2,・・・,n)に対してそれぞれ文章ベクトルd→および単語ベクトルw→(以下では、記号“→”はベクトルであることを指すものとする)を関連付ける。そして、任意の単語wと任意の文章dに対して、次の式(1)に示す確率P(w|d)を計算する。
なお、この確率P(w|d)は、上述した非特許文献1に開示されている確率pに倣って算出することが可能な値である。非特許文献1には、例えば、“the”、“cat”、“sat”という3つの単語があるときに、4つ目の単語として“on”を予測するとあり、その予測確率pの算出式が掲載されている。非特許文献1に記載されている確率p(wt|wt-k,・・・,wt+k)は、複数の単語wt-k,・・・,wt+kから別の1つの単語wtを予測したときの正解確率である。
これに対し、本実施形態で用いる式(1)に示される確率P(w|d)は、m個の文章のうち一の文章dから、n個の単語のうち一の単語wが予想される正解確率を表している。1つの文章dから1つの単語wを予測するというのは、具体的には、ある文章dが出現したときに、その中に単語wが含まれる可能性を予測するということである。
なお、この式(1)は、dとwについて対称なので、n個の単語のうち一の単語wから、m個の文章のうち一の文章dが予想される確率P(d|w)を計算してもよい。1つの単語wから1つの文章dを予測するというのは、ある単語wが出現したときに、それが文章dの中に含まれる可能性を予測するということである。
式(1)では、eを底とし、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章dと単語wとの組み合わせから計算される指数関数値と、文章dとn個の単語w(k=1,2,・・・,n)との各組み合わせから計算されるn個の指数関数値の合計値との比率を、一の文章dから一の単語wが予想される正解確率として計算している。
ここで、単語ベクトルw→と文章ベクトルd→との内積値は、単語ベクトルw→を文章ベクトルd→の方向に投影した場合のスカラ値、つまり、単語ベクトルw→が有している文章ベクトルd→の方向の成分値とも言える。これは、単語wが文章dに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、n個の単語w(k=1,2,・・・,n)について計算される指数関数値の合計に対する、1つの単語wについて計算される指数関数値の比率を求めることは、1つの文章dからn個の単語のうち1つの単語wが予想される正解確率を求めることに相当する。
なお、ここでは、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルw→と文章ベクトルd→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。
次に、ベクトル算出部12は、次の式(2)に示すように、上記式(1)により算出される確率P(w|d)を全ての集合Sについて合計した値Lを最大化するような文章ベクトルd→および単語ベクトルw→を算出する。すなわち、文章ベクトル算出部12Aおよび単語ベクトル算出部12Bは、上記式(1)により算出される確率P(w|d)を、m個の文章とn個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Lとして、当該目標変数Lを最大化する文章ベクトルd→および単語ベクトルw→を算出する。
m個の文章とn個の単語との全ての組み合わせについて算出した確率P(w|d)の合計値Lを最大化するというのは、ある文章d(i=1,2,・・・,m)からある単語w(j=1,2,・・・,n)が予想される正解確率を最大化するということである。つまり、ベクトル算出部12は、この正解確率が最大化するような文章ベクトルd→および単語ベクトルw→を算出するものと言える。
ここで、本実施形態では、上述したように、ベクトル算出部12は、m個の文章dをそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルd→を算出するとともに、n個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルw→を算出する。これは、q個の軸方向を可変として、上述の目標変数Lが最大化するような文章ベクトルd→および単語ベクトルw→を算出することに相当する。
指標値算出部13は、ベクトル算出部12により算出されたm個の文章ベクトルd→とn個の単語ベクトルw→との内積をそれぞれとることにより、m個の文章dおよびn個の単語w間の関係性を反映した類似性指標値を算出する。本実施形態では、指標値算出部13は、次の式(3)に示すように、m個の文章ベクトルd→の各q個の軸成分(d11〜dmq)を各要素とする文章行列Dと、n個の単語ベクトルw→の各q個の軸成分(w11〜wnq)を各要素とする単語行列Wとの積をとることにより、m×n個の類似性指標値を各要素とする評価値行列DWを算出する。ここで、Wは単語行列の転置行列である。
このようにして算出された評価値行列DWの各要素は、どの単語がどの文章に対してどの程度寄与しているのかを表したものと言える。例えば、1行2列の要素dw12は、単語w2が文章d1に対してどの程度寄与しているのかを表した値である。これにより、評価値行列DWの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。これについての詳細は後述する。
次に、以上のように構成した本実施形態による類似性指標値算出装置10を利用した類似検索装置について説明する。図2は、本実施形態による類似検索装置20の機能構成例を示すブロック図である。図2に示すように、本実施形態の類似検索装置20は、図1に示した類似性指標値算出装置10の他に、記憶媒体として文章データ記憶部21、機能構成として検索キー指定部22および類似文章検索部23を備えて構成されている。
上記各機能ブロック22〜23は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック22〜23は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
文章データ記憶部21は、類似性指標値算出装置10により算出された類似性評価値と共にm個の文章に関する文章データを記憶する。ここでは、文章データ記憶部21は、式(3)により算出される評価値行列DWの各要素の値であるm×n個の類似性評価値と共に、当該類似性評価値の算出元とされたm個の文章に関する文章データを記憶する。
検索キー指定部22は、文章データ記憶部21に記憶されているm個の文章の中から一の文章を検索キーとして指定する。一の文章の指定は、類似文章の検索を行いたいユーザが、類似検索装置20が備える操作部(キーボード、マウス、タッチパネルなど)を操作することによって行う。具体的には、文章データ記憶部21に記憶されている文章の一覧を取得してディスプレイに表示し、その一覧の中からユーザが所望の文章を選択することにより、検索キーとする文章の指定を行う。
なお、検索キー指定部22は、類似検索装置20自体が備えることを必須とするものではない。例えば、インターネット等の通信ネットワークに接続されたサーバ装置として類似検索装置20を構成するとともに、当該通信ネットワークを介して接続された別の端末に検索キー指定部22を設け、指定内容を示す情報を当該端末から類似検索装置20に送信するようにしてもよい。
類似文章検索部23は、検索キー指定部22により、文章データ記憶部21に記憶されているm個の文章の中から一の文章が検索キーとして指定された場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、指定された一の文章に類似する文章をm−1個の他の文章の中から検索して抽出する。具体的には、類似文章検索部23は、一の文章に関するn個の類似性指標値を検索キー関連文章指標値群とし、m−1個他の文章に関する各n個の類似性指標値を検索対象関連文章指標値群として、検索キー関連文章指標値群と検索対象関連文章指標値群との類似度を判定する。そして、m−1個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。所定数は、1以上の任意の数とすることが可能である。
ここで、一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群とは、式(3)に示す評価値行列DWを構成する各行のうち、一の文章に関する行に含まれるn個の類似性指標値を指す。例えば、一の文章として文章dが指定された場合、評価値行列DWの1行目に含まれるn個の類似性指標値dw11〜dw1nが、検索キー関連文章指標値群である。
また、他の文章に関するn個の類似性指標値から成る検索対象関連文章指標値群とは、他の文章に関する行に含まれるn個の類似性指標値を指す。例えば、一の文章として文章dが指定された場合、評価値行列DWの1行目以外の各行に含まれる各n個の類似性指標値dw21〜dw2n,dw31〜dw3n,・・・,dwm1〜dwmnが、検索対象関連文章指標値群である。ここで、評価値行列DWの2行目に含まれるn個の類似性指標値dw21〜dw2nが、他の文章dに関する検索対象関連文章指標値群である。また、評価値行列DWのm行目に含まれるn個の類似性指標値dwm1〜dwmnが、他の文章dに関する検索対象関連文章指標値群である。
類似文章検索部23は、一の文章に関する検索キー関連文章指標値群dw11〜dw1nと、他の文章に関するm−1個の検索対象関連文章指標値群dw21〜dw2n,dw31〜dw3n,・・・,dwm1〜dwmnとの類似度をそれぞれ算出し、m−1個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。ここで、類似度の計算には、公知の手法を用いることが可能である。例えば、ユークリッド距離、マハラノビス距離、コサイン距離などの何れかを計算する手法を適用することが可能である。
図2のように構成した類似検索装置20は、類似性指標値を既に算出済みであるm個の文章の中から任意の1つを指定し、指定した文章に類似している他の文章を残りm−1個の文章の中から検索するのに有用である。例えば、既発表の論文データがm個の文章として文章データ記憶部21に記憶されている状況において、特定の論文と類似の内容が記載されている他の論文を探したいときなどに有用である。
図3は、本実施形態の類似性指標値算出装置10を利用した他の類似検索装置30の機能構成例を示すブロック図である。図3に示すように、他の構成例に係る類似検索装置30は、図1に示した類似性指標値算出装置10の他に、記憶媒体として文章データ記憶部31、機能構成として検索キー取得部32および類似文章検索部33を備えて構成されている。
上記各機能ブロック32〜33は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック32〜33は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
文章データ記憶部31は、類似性指標値算出装置10により算出された類似性評価値と共に複数の文章データを記憶する。ここでは、文章データ記憶部31は、式(3)により算出される評価値行列DWの各要素の値である複数の類似性評価値と共に、当該類似性評価値の算出元とされた複数の文章に関する文章データを記憶する。
検索キー取得部32は、検索キーとして指定された文章データを取得する。ここで取得する文章データは、文章データ記憶部31に記憶されている複数の文章データとは異なる新たな文章データである。新たな文章データの取得元は、任意である。また、新たな文章データの取得方法も、任意である。例えば、類似検索装置30に対して通信ネットワークを介して接続された外部の端末、サーバあるいはストレージなどから、類似文章の検索を行いたいユーザが操作部の操作によって指定した文章データを取得する。
類似性指標値算出装置10は、検索キー取得部32により一の文章データが取得された場合に、当該検索キー取得部32により取得された文章データを一の文章(検索キーの文章)とし、文章データ記憶部31に記憶されている複数の文章データをm−1個の他の文章(検索対象の文章)として、式(3)によりm×n個の類似性指標値を算出する。
類似性指標値算出装置10により算出された類似性指標値は、新たな文章データと共に文章データ記憶部31に記憶される。すなわち、新たな文章データが追加して記憶されるとともに、類似性指標値が更新して記憶される。なお、このようにして文章データ記憶部31に記憶された複数の文章データ(既存の文章データおよび追加された文章データ)は、検索キー取得部32により次に新たな文章データが取得された場合に、m−1個の文章データとして利用される(ただし、mの値は前回より1つ大きい値である)。
類似文章検索部33は、類似性指標値算出装置10により算出されて文章データ記憶部31に記憶されたm×n個の類似性指標値を用いて、検索キー取得部32により検索キーとして取得された一の文章に類似する文章を、文章データ記憶部31に記憶されていた既存の文章の中から検索して抽出する。
具体的には、類似文章検索部33は、検索キー取得部32により取得された一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、文章データ記憶部31に記憶されていた既存の他の文章に関するn個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定する。そして、文章データ記憶部31に記憶されているm−1個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。
ここで、検索キー取得部32により取得された一の文章をd、文章データ記憶部31に記憶されていた既存の他の文章をd〜dとした場合、類似性指標値算出装置10により式(3)に従って算出される評価値行列DWを構成する各行のうち、1行目に含まれるn個の類似性指標値dw11〜dw1nが、検索キー関連文章指標値群である。また、評価値行列DWの2行目以降の各行に含まれる各n個の類似性指標値dw21〜dw2n,dw31〜dw3n,・・・,dwm1〜dwmnが、検索対象関連文章指標値群である。
類似文章検索部33は、一の文章に関する検索キー関連文章指標値群dw11〜dw1nと、他の文章に関するm−1個の検索対象関連文章指標値群dw21〜dw2n,dw31〜dw3n,・・・,dwm1〜dwmnとの類似度をそれぞれ算出し、m−1個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。
図3のように構成した類似検索装置30は、類似性指標値を既に算出済みであるm−1個の文章の中から、検索キーとして取得した新たな文章に類似している文章を検索するのに有用である。例えば、既発表の論文データがm−1個の文章として文章データ記憶部31に記憶されている状況において、新たに取得した論文と類似の内容が記載されている論文を探したいときなどに有用である。
なお、上記図2の実施形態では、類似検索装置20が類似性指標値算出装置10および文章データ記憶部21を備える構成について説明したが、本発明はこれに限定されない。すなわち、類似性指標値算出装置10および文章データ記憶部21を、検索キー指定部22および類似文章検索部23を有する類似検索装置とは別の装置として構成してもよい。図4は、その場合の1つの構成例を示す図である。
図4に示すように、類似性指標値算出装置10および文章データ記憶部21は、インターネット等の通信ネットワークに接続されたサーバ装置100に備えられている。サーバ装置100は、通信部101およびデータ提供部102を更に備え、通信ネットワークに接続された類似検索装置40からのデータ取得要求に応じて、文章データ記憶部21から文章データおよび類似性指標値を読み出して類似検索装置40に提供する。
類似検索装置40は、検索キー指定部22および類似文章検索部23の他に、通信部41およびデータ取得部42を備えている。データ取得部42は、通信部41を介してサーバ装置100にデータ取得要求を送信することにより、サーバ装置100の文章データ記憶部21から文章データおよび類似性指標値を取得する。文章データ記憶部21に記憶されている類似性指標値は、類似性指標値算出装置10により事前に算出されて記憶されたものである。
データ取得部42は、検索キー指定部22により検索キーとして指定された一の文書に関するn個の類似性指標値を検索キー関連文章指標値群として取得するとともに、他のm−1個の文書に関する各n個の類似性指標値を検索対象関連文章指標値群として取得する。なお、検索キー指定部22による検索キーの指定は、例えば、類似検索装置40からサーバ装置100にアクセスすることにより、文章データ記憶部21に記憶されている文章の一覧を取得してディスプレイに表示し、その一覧の中からユーザが所望の文章を選択することによって行う。
類似文章検索部23は、以上のようにして、文章データ記憶部21に記憶されているm個の文章の中から、検索キー指定部22により何れか一の文章が検索キーとして指定された場合に、データ取得部42によりサーバ装置100から取得された類似性指標値を用いて、一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、m−1個の他の文章の中から、類似度が大きい方から所定数の文章を検索結果として抽出する。
また、上記実施形態では、類似性指標値算出装置10により算出された評価値行列DWの各行を単位とし、各n個の類似性指標値を文章指標値群として用い、類似の文章を検索する例について説明したが、本発明はこれに限定されない。例えば、類似性指標値算出装置10により算出された評価値行列DWの各列を単位とし、各m個の類似性指標値を単語指標値群として用い、類似の単語を検索するようにすることも可能である。
図5は、類似の単語を検索するようになされた類似検索装置50の機能構成例を示すブロック図である。この図5において、図2に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。図5に示すように、類似検索装置50は、図1に示した類似性指標値算出装置10の他に、記憶媒体として文章データ記憶部21、機能構成として検索キー指定部52および類似単語検索部53を備えて構成されている。
上記各機能ブロック52〜53は、ハードウェア、DSP、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック52〜53は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
検索キー指定部52は、文章データ記憶部21に記憶されている文章データに含まれるn個の単語の中から一の単語を検索キーとして指定する。一の単語の指定は、類似単語の検索を行いたいユーザが、類似検索装置50が備える操作部を操作することによって行う。具体的には、文章データ記憶部21に記憶されている文章に含まれる単語の一覧を取得してディスプレイに表示し、その一覧の中からユーザが所望の単語を選択することにより、検索キーとする単語の指定を行う。なお、このように単語一覧を表示させるために、m個の文章データとは別にn個の単語データを文章データ記憶部21に記憶させておいてもよい。
なお、検索キー指定部52は、類似検索装置50自体が備えることを必須とするものではない。例えば、インターネット等の通信ネットワークに接続されたサーバ装置として類似検索装置50を構成するとともに、当該通信ネットワークを介して接続された別の端末に検索キー指定部52を設け、指定内容を示す情報を当該端末から類似検索装置50に送信するようにしてもよい。
類似単語検索部53は、検索キー指定部52により、n個の単語のうち一の単語が検索キーとして指定された場合に、当該一の単語以外のn−1個の他の単語を検索対象とし、一の単語に類似する単語をn−1個の他の単語の中から検索して抽出する。具体的には、類似単語検索部53は、一の単語に関するm個の類似性指標値を検索キー関連単語指標値群とし、n−1個の他の単語に関する各m個の類似性指標値を検索対象関連単語指標値群として、検索キー関連単語指標値群と検索対象関連単語指標値群との類似度を判定する。そして、n−1個の他の単語の中から、類似度が大きい方から所定数の単語を検索結果として抽出する。
図5のように構成した類似検索装置50は、類似性指標値を既に算出済みであるm個の文章に含まれるn個の単語の中から任意の1つを指定し、指定した単語に類似している他の単語を残りn−1個の単語の中から検索するのに有用である。ここで言う類似の単語とは、検索キーの単語に対する同義語とか類義語が該当する場合もあるが、そうでない場合もある。本実施形態によれば、その単語がどの文章で使われるかの傾向が似ているものを、類似の単語として検索することが可能である。
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
10 類似性指標値算出装置
11 単語抽出部
12 ベクトル算出部
12A 文章ベクトル算出部
12B 単語ベクトル算出部
13 指標値算出部
20,30,40,50 類似検索装置
21,31 文章データ記憶部
22,52 検索キー指定部
23,33 類似文章検索部
32 検索キー取得部
42 データ取得部
上記した課題を解決するために、本発明の類似性指標値算出装置では、m個の文章を解析して当該m個の文章からn個の単語を抽出し、m個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出するとともに、n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。そして、m個の文章ベクトルとn個の単語ベクトルとの内積をそれぞれとることにより、m個の文章およびn個の単語間の関係性を反映した類似性指標値を算出するようにしている。ここで、n個の単語のうち一の単語からm個の文章のうち一の文章が予想される確率、または、m個の文章のうち一の文章からn個の単語のうち一の単語が予想される確率を、m個の文章とn個の単語との全ての組み合わせについて算出して合計した値を目標変数とし、当該目標変数を最大化する文章ベクトルおよび単語ベクトルを算出する。

Claims (9)

  1. m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部と、
    上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出部と、
    上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出部と、
    上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映した類似性指標値を算出する指標値算出部とを備えたことを特徴とする類似性指標値算出装置。
  2. 上記文章ベクトル算出部および上記単語ベクトル算出部は、上記n個の単語のうち一の単語から上記m個の文章のうち一の文章が予想される確率、または、上記m個の文章のうち一の文章から上記n個の単語のうち一の単語が予想される確率を、上記m個の文章と上記n個の単語との全ての組み合わせについて算出して合計した値を目標変数とし、当該目標変数を最大化する文章ベクトルおよび単語ベクトルを算出することを特徴とする請求項1に記載の類似性指標値算出装置。
  3. 上記指標値算出部は、上記m個の文章ベクトルの各q個の軸成分を各要素とする文章行列と、上記n個の単語ベクトルの各q個の軸成分を各要素とする単語行列との積をとることにより、m×n個の上記類似性指標値を各要素とする評価値行列を算出することを特徴とする請求項1または2に記載の類似性指標値算出装置。
  4. 請求項1〜3の何れか1項に記載の類似性指標値算出装置と、
    上記m個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。
  5. 上記類似性指標値算出装置により算出された上記類似性評価値と共に上記m個の文章に関する文章データを記憶した文章データ記憶部を更に備え、
    上記類似文章検索部は、上記文章データ記憶部に記憶されている上記m個の文章の中から上記一の文章が上記検索キーとして指定された場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項4に記載の類似検索装置。
  6. 上記類似性指標値算出装置により算出された上記類似性評価値と共に複数の文章データを記憶した文章データ記憶部と、
    上記検索キーとして指定された文章データを取得する検索キー取得部とを更に備え、
    上記類似性指標値算出装置は、上記検索キー取得部により取得された文章データを上記一の文章とし、上記文章データ記憶部に記憶されている文章データを上記m−1個の他の文章として、上記類似性指標値を算出し、
    上記類似文章検索部は、上記検索キー取得部により取得された上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記文章データ記憶部に記憶されている上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記文章データ記憶部に記憶されている上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項4に記載の類似検索装置。
  7. 請求項1〜3の何れか1項に記載の類似性指標値算出装置により算出された上記類似性評価値と共に上記m個の文章に関する文章データを記憶した文章データ記憶部から上記文章データおよび上記類似性指標値を取得するデータ取得部と、
    上記データ取得部により取得されるデータを用いて、上記m個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。
  8. 上記n個の単語のうち一の単語を検索キーとして指定した場合に、当該一の単語以外のn−1個の他の単語を検索対象とし、上記一の単語に関するm個の類似性指標値から成る検索キー関連単語指標値群と、上記n−1個の他の単語に関する各m個の類似性指標値から成る検索対象関連単語指標値群との類似度を判定し、上記n−1個の他の単語の中から上記類似度が大きい方から所定数の単語を検索結果として抽出する類似単語検索部を、上記類似文章検索部に代えてまたは加えて備えたことを特徴とする請求項4〜7の何れか1項に記載の類似検索装置。
  9. m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部手段、
    上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化するとともに、上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルおよびq個の軸成分から成るn個の単語ベクトルを算出するベクトル算出手段、および
    上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映した類似性指標値を算出する指標値算出手段
    としてコンピュータを機能させるための類似性指標値算出用プログラム。
JP2017214388A 2017-11-07 2017-11-07 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム Active JP6346367B1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2017214388A JP6346367B1 (ja) 2017-11-07 2017-11-07 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
CN201880071838.6A CN111373386A (zh) 2017-11-07 2018-10-29 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
EP18876872.5A EP3709183A4 (en) 2017-11-07 2018-10-29 SIMILARITY INDEX CALCULATION DEVICE, SIMILARITY RESEARCH DEVICE AND SIMILARITY INDEX CALCULATION PROGRAM
US16/759,474 US11544309B2 (en) 2017-11-07 2018-10-29 Similarity index value computation apparatus, similarity search apparatus, and similarity index value computation program
PCT/JP2018/040056 WO2019093172A1 (ja) 2017-11-07 2018-10-29 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017214388A JP6346367B1 (ja) 2017-11-07 2017-11-07 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム

Publications (2)

Publication Number Publication Date
JP6346367B1 JP6346367B1 (ja) 2018-06-20
JP2019086995A true JP2019086995A (ja) 2019-06-06

Family

ID=62635717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017214388A Active JP6346367B1 (ja) 2017-11-07 2017-11-07 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム

Country Status (5)

Country Link
US (1) US11544309B2 (ja)
EP (1) EP3709183A4 (ja)
JP (1) JP6346367B1 (ja)
CN (1) CN111373386A (ja)
WO (1) WO2019093172A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210151281A (ko) * 2020-06-04 2021-12-14 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7116969B2 (ja) * 2020-06-29 2022-08-12 株式会社Fronteo 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム
CN115587230B (zh) * 2022-09-23 2024-04-12 国网江苏省电力有限公司营销服务中心 结合行业文本和用电负荷的高耗能企业识别方法及系统
KR102628281B1 (ko) * 2023-11-09 2024-01-23 한화시스템(주) 전자지도 전시 성능 향상을 위한 벡터 기반 공간정보 압축 시스템 및 그 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07295994A (ja) 1994-04-22 1995-11-10 Sharp Corp 情報検索装置
JP4013489B2 (ja) 2001-03-02 2007-11-28 富士ゼロックス株式会社 対応カテゴリ検索システムおよび方法
US7133860B2 (en) * 2002-01-23 2006-11-07 Matsushita Electric Industrial Co., Ltd. Device and method for automatically classifying documents using vector analysis
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2005122515A (ja) * 2003-10-17 2005-05-12 Sony Corp 電子機器装置、テキスト間の類似度計算方法、およびプログラム
US7668795B2 (en) * 2004-11-02 2010-02-23 Fuji Xerox Co., Ltd. Data analyzer utilizing the spreading activation theory for stemming processing
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101354703B (zh) * 2007-07-23 2010-11-17 夏普株式会社 文档图像处理装置和文档图像处理方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
US20170161275A1 (en) * 2015-12-08 2017-06-08 Luminoso Technologies, Inc. System and method for incorporating new terms in a term-vector space from a semantic lexicon
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
US11151203B2 (en) * 2017-02-28 2021-10-19 Apple Inc. Interest embedding vectors
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210151281A (ko) * 2020-06-04 2021-12-14 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
KR102535852B1 (ko) 2020-06-04 2023-05-24 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치

Also Published As

Publication number Publication date
CN111373386A (zh) 2020-07-03
US20200285661A1 (en) 2020-09-10
WO2019093172A1 (ja) 2019-05-16
JP6346367B1 (ja) 2018-06-20
US11544309B2 (en) 2023-01-03
EP3709183A4 (en) 2021-09-01
EP3709183A1 (en) 2020-09-16

Similar Documents

Publication Publication Date Title
WO2019093172A1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
JP5078173B2 (ja) 多義性解消方法とそのシステム
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
JP5379138B2 (ja) 領域辞書の作成
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP6915809B2 (ja) 事象予測装置、予測モデル生成装置および事象予測用プログラム
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
US10474958B2 (en) Apparatus, system and method for an adaptive or static machine-learning classifier using prediction by partial matching (PPM) language modeling
US20140358522A1 (en) Information search apparatus and information search method
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP6976537B1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
Al Dakhil et al. Reviews Analysis of Apple Store Applications Using Supervised Machine Learning
JP6502807B2 (ja) 情報抽出装置、情報抽出方法および情報抽出プログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP2007241635A (ja) 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム
JP7386466B1 (ja) データ解析装置およびデータ解析プログラム
JP2015203960A (ja) 部分情報抽出システム
JP5703958B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
US20240013004A1 (en) Automatic data card generation
WO2022003997A1 (ja) パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム
Ramanna et al. Japanese Language Review Mining using Translators, Word Embedding and ML Techniques
Butler et al. Efficient and Accurate Closed-Domain and Open-Domain Long-Form Question Answering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171121

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171121

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180524

R150 Certificate of patent or registration of utility model

Ref document number: 6346367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250