JP7386466B1

JP7386466B1 - データ解析装置およびデータ解析プログラム

Info

Publication number: JP7386466B1
Application number: JP2023539125A
Authority: JP
Inventors: 博義豊柴
Original assignee: Fronteo Inc
Current assignee: Fronteo Inc
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-11-27
Anticipated expiration: 2042-12-20
Also published as: WO2024134784A1; EP4411588A4; KR20240101509A; US20240202438A1; EP4411588A1; US12026461B1; KR102689965B1; JPWO2024134784A1

Abstract

第１のデータ集合および第２のデータ集合からそれぞれ複数の特徴ベクトルを算出することによって第１、第２のベクトル空間を形成するベクトル算出部１，２と、第２のベクトル空間内の特徴ベクトルと同義性を有しない特徴ベクトルを第１のベクトル空間から第２のベクトル空間に写像するベクトル写像部３とを備え、第２のベクトル空間に含まれる複数の特徴ベクトルはそのままに、それらと同義性を有しない特徴ベクトルを第１のベクトル空間から第２のベクトル空間に写像することにより、第２のベクトル空間に元々含まれる特徴ベクトルと第１のベクトル空間から追加された特徴ベクトルとを対象としてデータ解析を行うことができるようにする。

Description

本発明は、データ解析装置およびデータ解析プログラムに関し、特に、ベクトル演算を用いたデータ解析に用いて好適なものである。

従来、パターン認識系、情報検索系、予測処理系、動作制御系などの多くの産業分野において、ベクトル演算を用いたデータ解析が活用されている。この種のデータ解析では、個々のデータの特徴量をベクトルで表現し、当該ベクトルに基づいてパターン認識や情報検索などの処理を実行する。例えば、個々の対象データから生成される特徴ベクトルに基づいて２次元平面上に個々の対象データをプロットし、このようにして生成される２次元マップを利用してデータ解析を行う技術が知られている（例えば、特許文献１参照）。

特許文献１に記載の情報検索装置では、複数の検索対象（例えば、文章）をそれぞれ特徴づける複数の特徴ベクトルに基づく座標情報に基づいて、２次元平面上に複数の検索対象をプロットした２次元マップを生成し、当該２次元マップを画面上に表示させる。これに加え、任意の検索キー情報として入力された検索対象（文章）または関連要素（文章に含まれる単語）を特徴づける特徴ベクトルを特定し、当該特定した特徴ベクトルに基づく座標情報に基づいて、２次元マップ上の該当位置に所定の参照マークを表示させる。そして、画面上に参照マークと共に表示された２次元マップにおいてユーザ操作により指定された領域に含まれるプロットに対応する検索対象を抽出する。

この特許文献１に記載された技術のように、あるデータ集合に含まれる複数のデータから特徴ベクトルを算出する場合、算出される特徴ベクトルは、そのデータ集合の大きさや内容に依存した構成を持つ。例えば、複数の文章で構成されるデータ集合を対象として、各文章に含まれる単語の当該データ集合内での相対的な特徴を単語ベクトルとして算出すると、その単語ベクトルは、当該データ集合に依存した構成を持つことになる。

ここで、第１のデータ集合に含まれる文章内の単語について単語ベクトルを算出する一方、第２のデータ集合に含まれる文章内の単語について単語ベクトルを算出すると、同じ単語であったとしても、第１のデータ集合から算出される単語ベクトルと第２のデータ集合から算出される単語ベクトルとは構成が互いに異なったものとなる。第１のデータ集合に含まれる各文章での単語の使われ方と、第２のデータ集合に含まれる各文章での単語の使われ方とで異なる傾向がみられ、この異なる傾向が単語ベクトルの構成に反映されるからである。

このため、あるデータ集合から算出される複数の特徴ベクトルにより形成されるベクトル空間は、当該データ集合の特徴を反映したものになる。特許文献１に記載の技術では、このように形成されるベクトル空間を２次元マップの形で表現し、当該２次元マップ上でデータ解析を行っている。

また、入力データから算出された特徴ベクトルを、それが属するベクトル空間から別のベクトル空間に写像して新たな特徴ベクトルを生成し、新たな特徴ベクトルを用いてデータ解析を行う技術も知られている（例えば、特許文献２，３参照）。また、計算量を削減しつつも主成分分析の計算精度の低下を抑制することができるようにしたベクトル演算の手法も知られている（例えば、特許文献４参照）。

特許文献２に記載の類似ユーザ発見システムでは、グループ間のリンク関係を示す情報に基づいて、所定のグループを代表する代表グループを抽出し、当該代表グループを用いてグループを近似することにより、グループを基底とする第１のベクトル空間の元（グループに属する個々のユーザに相当）を、代表グループを基底とする第２のベクトル空間に写像する。そして、写像した第２のベクトル空間の元に基づいてユーザ間の類似度を計算する。

特許文献３に記載の認識装置では、入力されたパターンデータから抽出された特徴ベクトルで形成されるベクトル空間内の分布を近似する部分集合について、その集合内の各点が所定の線形空間に写像される非線形変換を行い、この非線形変換後のデータと辞書手段にあらかじめ登録された標準のデータとを比較し、その比較結果をパターン認識の結果として出力する。

特許文献４に記載の分析装置では、標本として与えられたｎ個のｄ次元ベクトルｘ＝｛ｘ₁，ｘ₂，…，ｘ_n｝と、それとは別に取得されたｍ個（ｍ＜ｎ）のｄ次元ベクトルｙ＝｛ｙ₁，ｙ₂，…，ｙ_m｝とを用いて固有値問題を解くことにより、ｄ次元ベクトルｘの特徴を表現するｒ個の固有ベクトルｚ＝｛ｚ₁，ｚ₂，…，ｚ_r｝を算出する。そして、ｒ個の固有ベクトルｚを用いてｄ次元ベクトルｘをｒ次元ベクトルｙに変換する。これにより、ｎ個のｄ次元ベクトルｘを用いたカーネル主成分分析方法と比べて計算量を減少させることができるとともに、ｍ個のｄ次元ベクトルｙのみを用いてカーネル主成分分析を行う場合に比べて、より高い精度で特徴ベクトルｙを算出することができるようにしている。

特許第６９７６５３７号公報特許第５３６４９９６号公報特許第３１６３１８５号公報特開２０１１－２２９１２号公報

上記特許文献１に記載された技術のように、あるデータ集合に含まれる複数のデータから特徴ベクトルを算出してデータ解析を行う場合、その特徴ベクトルが属するベクトル空間を超えてデータ解析を行うことはできない。例えば、ある技術分野の論文を対象としてデータ解析を行う場合、対象とした論文に記述されている文章の範囲を超えてデータ解析を行うことはできない。そのため、その技術分野の論文に書かれている既知の知見についてデータ解析を行うことができるのみである。

これに対し、例えば第１のデータ集合と第２のデータ集合とを合体させてより大きなデータ集合を作り、その大きなデータ集合を対象としてデータ解析を行うようにすれば、データ解析のカバー範囲が一応は広がる。しかしながら、このようにすると、第１のデータ集合のみを対象として特徴ベクトルを算出した場合のベクトル空間の特徴や、第２のデータ集合のみを対象として特徴ベクトルを算出した場合のベクトル空間の特徴が希釈化されてしまい、合体前のベクトル空間の特徴を十分に活かしたデータ解析が難しくなるという問題が生じてしまう。

本発明は、このような問題を解決するために成されたものであり、元のデータ集合から形成されるベクトル空間の特徴を十分に活かしつつ、より広範なデータ集合までカバー範囲を拡張させたデータ解析を行うことができるようにすることを目的とする。

上記した課題を解決するために、本発明では、第１のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第１のベクトル空間を形成するとともに、第２のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第２のベクトル空間を形成する。また、第１のベクトル空間に含まれる特徴ベクトルであって、第２のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って第１のベクトル空間から第２のベクトル空間に写像する。そして、第２のベクトル空間において、第２のベクトル空間内に算出された複数の特徴ベクトルおよび第１のベクトル空間から第２のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うようにしている。

上記のように構成した本発明によれば、第１のデータ集合に含まれる複数のデータおよび第２のデータ集合に含まれる複数のデータからそれぞれ個別に複数の特徴ベクトルを算出することによって第１のベクトル空間と第２のベクトル空間とが形成されるので、第１のベクトル空間と第２のベクトル空間はそれぞれ、第１のデータ集合および第２のデータ集合の特徴をそのまま生かしたものとなっている。また、第２のベクトル空間に含まれる複数の特徴ベクトルはそのままに、それらと同義性を有しない事項の特徴ベクトルが第１のベクトル空間から第２のベクトル空間に写像されることにより、第１のベクトル空間に由来の特徴ベクトルが第２のベクトル空間に追加される。そして、第２のベクトル空間に元々含まれる特徴ベクトルと第１のベクトル空間からの写像により追加された特徴ベクトルとを対象としてデータ解析が行われる。これにより、本発明によれば、第２のデータ集合から形成される元の第２のベクトル空間の特徴を十分に活かしつつ、第２のデータ集合よりも広範なデータ集合までカバー範囲を拡張させたデータ解析を行うことができる。

本実施形態によるデータ解析装置の機能構成例を示すブロック図である。第１のデータ集合と第２のデータ集合との関係性の例を示す図である。第１のベクトル算出部の具体的な機能構成例を示すブロック図である。単語特徴ベクトルの例を示す図である。ベクトル写像部の処理内容を模式的に示す図である。本実施形態によるデータ解析装置の他の機能構成例を示すブロック図である。第２のベクトル算出部の他の機能構成例を示すブロック図である。化学式特徴ベクトルの例を示す図である。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態によるデータ解析装置１０の機能構成例を示すブロック図である。図１に示すように、本実施形態のデータ解析装置１０は、機能構成として、第１のベクトル算出部１、第２のベクトル算出部２、ベクトル写像部３およびデータ解析部４を備えている。また、本実施形態のデータ解析装置１０は、記憶媒体として、第１の特徴ベクトル記憶部１１および第２の特徴ベクトル記憶部１２を備えている。

上記機能ブロック１～４は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック１～４は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。

本実施形態のデータ解析装置１０は、第１のデータベース１０１に記憶されている第１のデータ集合および第２のデータベース１０２に記憶されている第２のデータ集合を用いてデータ解析を行う。第２のデータ集合は、第１のデータ集合とは異なるデータ集合である。例えば、第１のデータ集合は第１の分野のコーパス、第２のデータ集合は第２の分野のコーパスである。コーパスは、自然言語の文章を構造化し大規模に集積したものであり、複数の文章データを含んでいる。

図２は、第１のデータ集合と第２のデータ集合との関係性の例を模式的に示す図である。図２（ａ）は、第１のデータ集合の中に第２のデータ集合が包含される関係性を示している。例えば、第２のデータ集合が特定疾患の分野に関するコーパス、第１のデータ集合が当該特定疾患を含む医療分野全体に関するコーパスといった関係性である。図２（ｂ）は、第１のデータ集合のみに含まれるデータ、第２のデータ集合のみに含まれるデータ、および第１のデータ集合と第２のデータ集合との両方に共通に含まれるデータを有する関係性を示している。例えば、第１のデータ集合が生物医学の分野に関するコーパス、第２のデータ集合が栄養医学の分野に関するコーパスといった関係性である。

第１のベクトル算出部１は、第１のデータベース１０１から第１のデータ集合を取得し、当該第１のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第１所定事項に関する複数の特徴ベクトルを算出することにより、第１のベクトル空間を形成する。ここで、第１のデータ集合が第１の分野のコーパスである場合、第１所定事項は単語であり、第１のベクトル算出部１は、第１の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出する。この単語特徴ベクトルの具体的な算出方法は後述する。

第２のベクトル算出部２は、第２のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、第１所定事項と同じまたは異なる第２所定事項に関する複数の特徴ベクトルを算出することにより、第２のベクトル空間を形成する。ここで、第２のデータ集合が第２の分野のコーパスである場合、第２所定事項も単語であり、第２のベクトル算出部２は、第２の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出する。

ここで、単語特徴ベクトルの算出方法を説明する。図３は、第１のベクトル算出部１の具体的な機能構成例を示すブロック図である。図３に示すように、第１のベクトル算出部１は、具体的な機能構成として、単語抽出部３１、ベクトル算出部３２、指標値算出部３３および単語特徴ベクトル特定部３４を備えて構成されている。ベクトル算出部３２は、より具体的な機能構成として、文章ベクトル算出部３２Ａおよび単語ベクトル算出部３２Ｂを備えている。

なお、第２のベクトル算出部２も、図３と同様の機能構成を有している。図１では第１のベクトル算出部１と第２のベクトル算出部２とを備える構成を示しているが、これに限定されない。例えば、図３に示す構成のベクトル算出部を１つのみ備え、当該１つのベクトル算出部により第１のデータ集合および第２のデータ集合に対する処理を行うようにしてもよい。

単語抽出部３１は、ｍ個（ｍは２以上の任意の整数）の文章を解析し、当該ｍ個の文章からｎ個（ｎは２以上の任意の整数）の単語を抽出する。文章の解析としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部３１は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。

なお、ｍ個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部３１は、同じ単語を複数個抽出することはせず、１つのみ抽出する。すなわち、単語抽出部３１が抽出するｎ個の単語とは、ｎ種類の単語という意味である。

ベクトル算出部３２は、ｍ個の文章およびｎ個の単語から、ｍ個の文章ベクトルおよびｎ個の単語ベクトルを算出する。ここで、文章ベクトル算出部３２Ａは、単語抽出部３１による解析対象とされたｍ個の文章をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個（ｑは２以上の任意の整数）の軸成分から成るｍ個の文章ベクトルを算出する。また、単語ベクトル算出部３２Ｂは、単語抽出部３１により抽出されたｎ個の単語をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｎ個の単語ベクトルを算出する。

本実施形態では、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、ｍ個の文章とｎ個の単語とから成る集合Ｓ＝＜ｄ∈Ｄ，ｗ∈Ｗ＞を考える。ここで、各文章ｄ_ｉ（ｉ＝１，２，・・・，ｍ）および各単語ｗ_ｊ（ｊ＝１，２，・・・，ｎ）に対してそれぞれ文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→（以下では、記号“→”はベクトルであることを指すものとする）を関連付ける。そして、任意の単語ｗ_ｊと任意の文章ｄ_ｉに対して、次の式（１）に示す確率Ｐ（ｗ_ｊ｜ｄ_ｉ）を計算する。

なお、この確率Ｐ（ｗ_ｊ｜ｄ_ｉ）は、公知文献「“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014」に開示されている確率ｐに倣って算出することが可能な値である。この公知文献には、例えば、“the”、“cat”、“sat”という３つの単語があるときに、４つ目の単語として“on”を予測するとあり、その予測確率ｐの算出式が掲載されている。

公知文献に記載されている確率ｐ（wt｜wt-k,・・・,wt+k）は、複数の単語wt-k,・・・,wt+kから別の１つの単語wtを予測したときの正解確率である。これに対し、本実施形態で用いる式（１）に示される確率Ｐ（ｗ_ｊ｜ｄ_ｉ）は、ｍ個の文章のうち一の文章ｄ_ｉから、ｎ個の単語のうち一の単語ｗ_ｊが予想される正解確率を表している。１つの文章ｄ_ｉから１つの単語ｗ_ｊを予測するというのは、具体的には、ある文章ｄ_ｉが出現したときに、その中に単語ｗ_ｊが含まれる可能性を予測するということである。

なお、この式（１）は、ｄ_ｉとｗ_ｊについて対称なので、ｎ個の単語のうち一の単語ｗ_ｊから、ｍ個の文章のうち一の文章ｄ_ｉが予想される確率Ｐ（ｄ_ｉ｜ｗ_ｊ）を計算してもよい。１つの単語ｗ_ｊから１つの文章ｄ_ｉを予測するというのは、ある単語ｗ_ｊが出現したときに、それが文章ｄ_ｉの中に含まれる可能性を予測するということである。

式（１）では、ｅを底とし、単語ベクトルｗ→と文章ベクトルｄ→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章ｄ_ｉと単語ｗ_ｊとの組み合わせから計算される指数関数値と、文章ｄ_ｉとｎ個の単語ｗ_ｋ（ｋ＝１，２，・・・，ｎ）との各組み合わせから計算されるｎ個の指数関数値の合計値との比率を、一の文章ｄ_ｉから一の単語ｗ_ｊが予想される正解確率として計算している。

ここで、単語ベクトルｗ_ｊ→と文章ベクトルｄ_ｉ→との内積値は、単語ベクトルｗ_ｊ→を文章ベクトルｄ_ｉ→の方向に投影した場合のスカラ値、つまり、単語ベクトルｗ_ｊ→が有している文章ベクトルｄ_ｉ→の方向の成分値とも言える。これは、単語ｗ_ｊが文章ｄ_ｉに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、ｎ個の単語ｗ_ｋ（ｋ＝１，２，・・・，ｎ）について計算される指数関数値の合計に対する、１つの単語ｗ_ｊについて計算される指数関数値の比率を求めることは、１つの文章ｄ_ｉからｎ個の単語のうち１つの単語ｗ_ｊが予想される正解確率を求めることに相当する。

なお、ここでは、単語ベクトルｗ→と文章ベクトルｄ→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルｗ→と文章ベクトルｄ→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。

次に、ベクトル算出部３２は、次の式（２）に示すように、式（１）により算出される確率Ｐ（ｗ_ｊ｜ｄ_ｉ）を全ての集合Ｓについて合計した値Ｌを最大化するような文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出する。すなわち、文章ベクトル算出部３２Ａおよび単語ベクトル算出部３２Ｂは、式（１）により算出される確率Ｐ（ｗ_ｊ｜ｄ_ｉ）を、ｍ個の文章とｎ個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Ｌとして、当該目標変数Ｌを最大化する文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出する。

ｍ個の文章とｎ個の単語との全ての組み合わせについて算出した確率Ｐ（ｗ_ｊ｜ｄ_ｉ）の合計値Ｌを最大化するというのは、ある文章ｄ_ｉ（ｉ＝１，２，・・・，ｍ）からある単語ｗ_ｊ（ｊ＝１，２，・・・，ｎ）が予想される正解確率を最大化するということである。つまり、ベクトル算出部３２は、この正解確率が最大化するような文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出するものと言える。

ここで、上述したようにベクトル算出部３２は、ｍ個の文章ｄ_ｉをそれぞれｑ次元にベクトル化することにより、ｑ個の軸成分から成るｍ個の文章ベクトルｄ_ｉ→を算出するとともに、ｎ個の単語をそれぞれｑ次元にベクトル化することにより、ｑ個の軸成分から成るｎ個の単語ベクトルｗ_ｊ→を算出する。これは、ｑ個の軸方向を可変として、上述の目標変数Ｌが最大化するような文章ベクトルｄ_ｉ→および単語ベクトルｗ_ｊ→を算出することに相当する。

指標値算出部３３は、ベクトル算出部３２により算出されたｍ個の文章ベクトルｄ_ｉ→とｎ個の単語ベクトルｗ_ｊ→との内積をそれぞれ計算することにより、ｍ個の文章ｄ_ｉおよびｎ個の単語ｗ_ｊ間の関係性を反映した指標値を算出する。本実施形態では、指標値算出部３３は、次の式（３）に示すように、ｍ個の文章ベクトルｄ_ｉ→の各ｑ個の軸成分（ｄ₁₁～ｄ_mq）を各要素とする文章行列Ｄと、ｎ個の単語ベクトルｗ_ｊ→の各ｑ個の軸成分（ｗ₁₁～ｗ_nq）を各要素とする単語行列Ｗとの積を計算することにより、ｍ×ｎ個の指標値を各要素とする指標値行列ＤＷを算出する。ここで、Ｗ^ｔは単語行列の転置行列である。

このようにして算出された指標値行列ＤＷの各要素は、どの単語がどの文章に対してどの程度寄与しているのか、どの文章がどの単語に対してどの程度寄与しているのかを表したものと言える。例えば、１行２列の要素ｄｗ₁₂は、単語ｗ₂が文章ｄ₁に対してどの程度寄与しているのかを表した値と言え、また、文章ｄ₁が単語ｗ₂に対してどの程度寄与しているのかを表した値と言える。これにより、指標値行列ＤＷの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。

単語特徴ベクトル特定部３４は、指標値算出部３３により算出された指標値行列ＤＷにおいて、ｎ個の単語のそれぞれについて、１つの単語についてｍ個の文章の指標値から成る単語指標値群（指標値行列ＤＷの１つの列に含まれる単語指標値群）を単語特徴ベクトルとして特定する。すなわち、単語特徴ベクトル特定部３４は、図４に示すように、指標値行列ＤＷの各列を構成しているｍ個の文章の指標値から成る単語指標値群を、それぞれのｎ個の単語に対する単語特徴ベクトルとして特定する。

第１のベクトル算出部１が備える単語特徴ベクトル特定部３４は、特定した複数の単語特徴ベクトルを、単語抽出部３１により抽出された単語と関連付けて第１の特徴ベクトル記憶部１１に記憶させる。第１の特徴ベクトル記憶部１１に記憶された複数の単語特徴ベクトルにより、第１のベクトル空間が形成される。また、第２のベクトル算出部２が備える単語特徴ベクトル特定部３４は、特定した複数の単語特徴ベクトルを、単語抽出部３１により抽出された単語と関連付けて第２の特徴ベクトル記憶部１２に記憶させる。第２の特徴ベクトル記憶部１２に記憶された複数の単語特徴ベクトルにより、第２のベクトル空間が形成される。

ベクトル写像部３は、第１のベクトル空間に含まれる特徴ベクトルであって、第２のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトル（以下、これを非同義性の特徴ベクトルという）を、写像ベクトルに従って第１のベクトル空間から第２のベクトル空間に写像する。なお、以下の説明において、第１のベクトル空間に含まれる特徴ベクトルであって、第２のベクトル空間に含まれる特徴ベクトルと同義性を有する事項の特徴ベクトルを同義性の特徴ベクトルという。

第１のデータ集合と第２のデータ集合が各分野のコーパスである場合、すなわち、複数の単語特徴ベクトルによりベクトル空間を形成した場合、ベクトル写像部３は、第１のベクトル空間に含まれる単語特徴ベクトルであって、第２のベクトル空間に含まれる単語特徴ベクトルと同義性を有しない単語の単語特徴ベクトルを、写像ベクトルに従って第１のベクトル空間から第２のベクトル空間に写像する。どの単語とどの単語が同義性を有するかについて、あらかじめ辞書データベースとして定義しておいてもよい。

例えば、第１のベクトル空間に「家族」という単語の単語特徴ベクトルが含まれていて、かつ第２のベクトル空間に「ファミリー」という単語の単語特徴ベクトルが含まれている場合、「家族」と「ファミリー」は同義性を有する単語と言えるので、第１のベクトル空間に含まれる「家族」の単語特徴ベクトルは写像の対象外である。一方、第１のベクトル空間に「母」という単語の単語特徴ベクトルが含まれていて、かつ第２のベクトル空間に「母」、「マザー」またはこれらと同義の単語の単語特徴ベクトルが何れも含まれていない場合は、第１のベクトル空間に含まれる「母」の単語特徴ベクトルは写像の対象とされる。

写像に用いる写像ベクトルは、例えば、第１のベクトル算出部１により算出された複数の特徴ベクトルおよび第２のベクトル算出部２により算出された複数の特徴ベクトルのうち、第１のベクトル空間および第２のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出される固有ベクトルよりなる行列である。上述の例において、第１のベクトル空間に含まれる「家族」の単語特徴ベクトルと、第２のベクトル空間に含まれる「ファミリー」の単語特徴ベクトルは、固有ベクトルを算出する際に使われる。一方、第１のベクトル空間に含まれる「母」の単語特徴ベクトルは、固有ベクトルを算出する際に使われない。

固有ベクトルは、例えば以下のようにして算出することが可能である。すなわち、ベクトル写像部３は、第１のベクトル空間および第２のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルを対象として、第１のベクトル空間に含まれる同義性の特徴ベクトルと第２のベクトル空間に含まれる同義性の特徴ベクトルとを乗算し、当該乗算により得られる行列を特異値分解（singular value decomposition：ＳＶＤ）することによって得られる左右の特異行列を乗算することにより、写像ベクトルを求める。

ここで、写像ベクトルをＷ^＊、第１のベクトル空間に含まれる同義性の特徴ベクトルをＸ＝｛Ｘ_１，Ｘ_２，・・・，Ｘ_ｋ｝（ｋは固有ベクトルの算出に使われる特徴ベクトルの数）、第２のベクトル空間に含まれる同義性の特徴ベクトルをＹ＝｛Ｙ_１，Ｙ_２，・・・，Ｙ_ｋ｝、左特異行列をＵ，右特異行列をＶとすると、写像ベクトルＷ^＊は以下の（式４）により示される。右肩のＴは転置行列であることを示す。
Ｗ^＊＝Ｕ・Ｖ^Ｔ，（Ｕ，ＶはSVD(Ｙ・Ｘ^Ｔ)の左右特異行列）・・・（式４）

すなわち、ベクトル写像部３は、第１のベクトル空間に含まれる同義性の特徴ベクトルＸ（の転置ベクトルＸ^Ｔ）と、第２のベクトル空間に含まれる同義性の特徴ベクトルＹとを乗算し、こうして得られる行列(Ｙ・Ｘ^Ｔ)を、３つの行列Ｕ，Ｓ，Ｖに分解する。行列Ｕは左特異行列で、各列は(Ｙ・Ｘ^Ｔ)＊(Ｙ・Ｘ^Ｔ)^Ｔの固有ベクトルである。行列Ｓは正方行列で、対角行列成分が行列(Ｙ・Ｘ^Ｔ)の特異値を示し、それ以外の値が全て０となっている。行列Ｖは右特異行列で、各行は(Ｙ・Ｘ^Ｔ)^Ｔ＊(Ｙ・Ｘ^Ｔ)の固有ベクトルである。ベクトル写像部３は、以上のようにして分解した３つの行列のうち、左特異行列Ｕと右特異行列Ｖ（の転置行列Ｖ^Ｔ）とを乗算することにより、写像ベクトルＷ^＊を求める。

ベクトル写像部３は、第１のベクトル空間から第２のベクトル空間に写像した特徴ベクトルを、第２の特徴ベクトル記憶部１２に追加して記憶させる。これにより、第２の特徴ベクトル記憶部１２には、第２のベクトル算出部２により算出された特徴ベクトルと、ベクトル写像部３により写像された特徴ベクトルとが記憶される。すなわち、ベクトル写像部３により第１のベクトル空間から写像された特徴ベクトルによって第２のベクトル空間が更新される。

図５は、ベクトル写像部３の処理内容を模式的に示す図である。ここでは、特徴ベクトルの次元数を“３”とし、３次元のベクトル空間を示しているが、特徴ベクトルの次元数は“２”または“３”より大きくてもよい。図５（ａ）は第１のベクトル空間であり、Ｘ_１，Ｘ_２は第１のベクトル空間に含まれる同義性の特徴ベクトル（第２のベクトル空間に含まれるＹ_１，Ｙ_２と同義の特徴ベクトル）、Ａ_１は第１のベクトル空間に含まれる非同義性の特徴ベクトル（第２のベクトル空間に同義の特徴ベクトルが存在しない特徴ベクトル）である。

図５（ｂ）は第２のベクトル空間であり、Ｙ_１，Ｙ_２は第２のベクトル空間に含まれる同義性の特徴ベクトル（第１のベクトル空間に含まれるＸ_１，Ｘ_２と同義の特徴ベクトル）、Ｂ_１は第２のベクトル空間に含まれる非同義性の特徴ベクトル（第１のベクトル空間に同義の特徴ベクトルが存在しない特徴ベクトル）である。また、Ｗ^＊(Ａ_１)は、第１のベクトル空間に含まれる非同義性の特徴ベクトルＡ_１が写像ベクトルＷ^＊によって第２のベクトル空間に写像された特徴ベクトルである。この場合の写像ベクトルＷ^＊は、第１のベクトル空間および第２のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルＸ_１，Ｘ_２，Ｙ_１，Ｙ_２を対象として、上記（式４）により算出される固有ベクトルよりなる行列である。

第１のベクトル空間および第２のベクトル空間の両方に共通する同義性の特徴ベクトルＸ_１，Ｘ_２，Ｙ_１，Ｙ_２に基づいて算出される固有ベクトルは、両方のベクトル空間に共通する特徴を反映したベクトルとなる。そのため、この固有ベクトルを写像ベクトルＷ^＊として用いることにより、第１のベクトル空間に含まれる特徴ベクトルＡ_１は、第２のベクトル空間内の適切な位置に写像されることになる。適切な位置に写像されるとは、第１のベクトル空間の特徴ベクトルＡ_１とこれを第２のベクトル空間に写像した特徴ベクトルＷ^＊(Ａ_１)との関係性が、特徴ベクトルＸ_１とそれと同義性を有する特徴ベクトルＹ_１との関係性、および、特徴ベクトルＸ_２とそれと同義性を有する特徴ベクトルＹ_２との関係性に概ね倣った関係性となるように、特徴ベクトルＡ_１が特徴ベクトルＷ^＊(Ａ_１)に写像されるということである。

データ解析部４は、更新された第２のベクトル空間において、第２のベクトル算出部２により第２のベクトル空間内に算出された複数の特徴ベクトルおよびベクトル写像部３により第１のベクトル空間から第２のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行う。データ解析の内容は任意である。例えば、第２のベクトル空間に含まれる特徴ベクトルどうしの類似度を計算することにより、特徴ベクトル間の関係性を解析することが可能である。例えば、特許文献１に記載されたデータ解析を行うことも可能である。

図５の例で説明すると、データ解析部４は、図５（ｂ）のように更新された第２のベクトル空間において、元々第２のベクトル空間に存在していた特徴ベクトルＹ_１，Ｙ_２，Ｂ_１に加え、第１のベクトル空間から写像された特徴ベクトルＷ^＊(Ａ_１)を含めてデータ解析を行うことができる。これにより、特徴ベクトルＹ_１，Ｙ_２，Ｂ_１間の類似度のみならず、これらと特徴ベクトルＷ^＊(Ａ_１)との類似度も解析することが可能となる。

ここで、特徴ベクトルＹ_１，Ｙ_２，Ｂ_１は元のまま生かされているので、特徴ベクトルＷ^＊(Ａ_１)により更新された第２のベクトル空間は、第２のデータ集合をもとに形成される元の第２のベクトル空間の特徴がそのまま反映されたものとなっている。その上で、第１のベクトル空間から第２のベクトル空間に写像という形で補完された特徴ベクトルＷ^＊(Ａ_１)も対象としてデータ解析を行うことができる。例えば特徴ベクトルが単語特徴ベクトルの場合、特徴ベクトルどうしの類似度をもとに、第２のデータ集合から抽出された単語に加え、第１のデータ集合のみから抽出された単語を含めて単語間の関係性を解析することが可能である。図５（ｂ）に示した例の場合、特徴ベクトルＹ_２，Ｂ_１に対応する単語に対して、第１のベクトル空間から写像された特徴ベクトルＷ^＊(Ａ_１)に対応する単語が近い関係性を有しているという新たな知見を得ることができる。

なお、上記実施形態では、第１のデータ集合および第２のデータ集合が何れもコーパス（文章データの集合）であり、単語特徴ベクトルを算出する例について説明したが、本発明はこれに限定されない。データ集合は、それに含まれる複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した所定事項に関する複数の特徴ベクトルを算出することが可能なものであればよく、文章データ以外のデータ集合を用いることも可能である。

例えば、第１のデータ集合および第２のデータ集合の何れか一方を化合物（分子や遺伝子を含む。以下同様）の単語が含まれる文章データのデータ集合とし、他方を化合物の化学構造を文字列で表した化学式データのデータ集合としてもよい。化学式データとしては、例えば分子の化学構造をＳＭＩＬＥＳ記法で表したデータを用いることが可能である。ＳＭＩＬＥＳ記法とは、化合物中の原子をノード、原子間の結合をエッジと見立て、化学構造を１行の文字列（ＡＳＣＩＩ符号の英数字）で表す方法である。例えば、アフラトキシンＢ_１という分子は、ＳＭＩＬＥＳ記法で「O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5」のように表記される。アフラトキシンＢ_１という分子の単語と、当該分子をＳＭＩＬＥＳ記法で表記した化学式とは同義性を有する。

以下では、第１のデータ集合を文章データのデータ集合とし、第２のデータ集合を化学式データのデータ集合とした場合について説明する。図６は、この場合におけるデータ解析装置１０’の機能構成例を示すブロック図である。この図６において、図１に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。図６に示すデータ解析装置１０’は、図１に示した第２のベクトル算出部２およびベクトル写像部３に代えて、第２のベクトル算出部２’およびベクトル写像部３’を備えている。

図６に示す構成において、第１のベクトル算出部１は、第１のデータ集合に含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出する。第１のベクトル算出部１が備える単語特徴ベクトル特定部３４は、特定した複数の単語特徴ベクトルを、単語抽出部３１により抽出された単語と関連付けて第１の特徴ベクトル記憶部１１に記憶させる。第１の特徴ベクトル記憶部１１に記憶された複数の単語特徴ベクトルにより、第１のベクトル空間が形成される。これの具体的な処理内容は図３で説明した通りである。

第２のベクトル算出部２’は、第２のデータ集合に含まれる複数の化学式データから、複数の化学式と化学式内に含まれる複数の文字列との関係性を反映した複数の化学式特徴ベクトルを算出する。ここで、化学式内に含まれる複数の文字列とは、ＳＭＩＬＥＳ記法のノードやエッジの観点から意味を持つまとまりの文字列の最小単位（自然言語の形態素に相当するようなもの）である。例えば、アフラトキシンＢ_１という分子のＳＭＩＬＥＳ記法「O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5」は、以下のように要素分解され得る。
O,1,C=C,[C@H],([C@H]1O2),c3,c2,cc,(OC),c4,c3,OC,(=O),C5=C4,CCC,(=O),5

この第２のベクトル算出部２’の具体的な処理内容を、図７に基づいて説明する。図７に示すように、第２のベクトル算出部２’は、図３に示した単語抽出部３１、ベクトル算出部３２、指標値算出部３３および単語特徴ベクトル特定部３４に代えて、要素抽出部３１’、ベクトル算出部３２’、指標値算出部３３’および化学式特徴ベクトル特定部３４’を備えている。ベクトル算出部３２’は、文章ベクトル算出部３２Ａおよび単語ベクトル算出部３２Ｂに代えて、化学式ベクトル算出部３２Ａ’および要素ベクトル算出部３２Ｂ’を備えている。

要素抽出部３１’は、ｉ個の化学式を解析し、当該ｉ個の化学式からｊ個の要素（ノードやエッジの観点から意味を持つまとまりの文字列の最小単位）を抽出する。

ベクトル算出部３２’は、ｉ個の化学式およびｊ個の要素から、ｉ個の化学式ベクトルＣ→およびｊ個の要素ベクトルＦ→を算出する。ここで、化学式ベクトル算出部３２Ａ’は、要素抽出部３１’による解析対象とされたｉ個の化学式をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｉ個の化学式ベクトルＣ→を算出する。また、要素ベクトル算出部３２Ｂ’は、要素抽出部３１’により抽出されたｊ個の要素をそれぞれ所定のルールに従ってｑ次元にベクトル化することにより、ｑ個の軸成分から成るｊ個の要素ベクトルＦ→を算出する。

指標値算出部３３’は、ベクトル算出部３２’により算出されたｉ個の化学式ベクトルＣ→とｊ個の要素ベクトルＦ→との内積をそれぞれ計算することにより、ｉ個の化学式およびｊ個の要素間の関係性を反映した指標値行列ＣＦを算出する。

化学式特徴ベクトル特定部３４’は、指標値算出部３３’により算出された指標値行列ＣＦにおいて、ｉ個の化学式のそれぞれについて、１つの化学式についてｊ個の要素の指標値から成る化学式指標値群（指標値行列ＣＦの１つの行に含まれる化学式指標値群）を化学式特徴ベクトルとして特定する。すなわち、化学式特徴ベクトル特定部３４’は、図８に示すように、指標値行列ＣＦの各行を構成しているｊ個の要素の指標値から成る化学式指標値群を、それぞれのｉ個の化学式に対する化学式特徴ベクトルとして特定する。

単語特徴ベクトル特定部３４’は、特定した複数の化学式特徴ベクトルを、第２のベクトル算出部２’に入力された化学式データで示される化学式と関連付けて第２の特徴ベクトル記憶部１２に記憶させる。第２の特徴ベクトル記憶部１２に記憶された複数の化学式特徴ベクトルにより、第２のベクトル空間が形成される。

図６のベクトル写像部３’は、第１のベクトル空間に含まれる単語特徴ベクトルであって、第２のベクトル空間に含まれる化学式特徴ベクトルの化学式と同義性を有しない単語の単語特徴ベクトルを、写像ベクトルＷ^＊に従って第１のベクトル空間から第２のベクトル空間に写像する。ベクトル写像部３’は、第１のベクトル空間から第２のベクトル空間に写像した単語特徴ベクトルを、第２の特徴ベクトル記憶部１２に追加して記憶させる。このような写像を行うと、複数の化学式特徴ベクトルで形成された第２のベクトル空間の中に、当該第２のベクトル空間に属する化学式特徴ベクトルの化学式と同義性を有しない単語の単語特徴ベクトルが第１のベクトル空間から補完される。

なお、ここでは第１のデータ集合を文章データのデータ集合とし、第２のデータ集合を化学式データのデータ集合とする場合について説明したが、これとは逆に、第１のデータ集合を化学式データのデータ集合とし、第２のデータ集合を文章データのデータ集合としてもよい。この場合は、図１に示した第１のベクトル算出部１に代えて第１のベクトル算出部１’を備え、第１のベクトル算出部１’が化学式特徴ベクトルを算出する一方で、第２のベクトル算出部２が単語特徴ベクトルを算出する。

また、ベクトル写像部３’は、第１のベクトル空間に含まれる化学式特徴ベクトルであって、第２のベクトル空間に含まれる単語特徴ベクトルの単語と同義性を有しない化学式の化学式特徴ベクトルを、写像ベクトルに従って第１のベクトル空間から第２のベクトル空間に写像する。このような写像を行うと、複数の単語特徴ベクトルで形成された第２のベクトル空間の中に、当該第２のベクトル空間に属する単語特徴ベクトルの単語と同義性を有しない化合物の化学式特徴ベクトルが第１のベクトル空間から補完される。

以上詳しく説明したように、本実施形態では、第１のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第１のベクトル空間を形成するとともに、第２のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第２のベクトル空間を形成する。また、第１のベクトル空間に含まれる特徴ベクトルであって、第２のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って第１のベクトル空間から第２のベクトル空間に写像する。そして、第２のベクトル空間において、第２のベクトル空間内に算出された複数の特徴ベクトルおよび第１のベクトル空間から第２のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うようにしている。

このように構成した本実施形態によれば、第１のデータ集合に含まれる複数のデータおよび第２のデータ集合に含まれる複数のデータからそれぞれ個別に複数の特徴ベクトルを算出することによって第１のベクトル空間と第２のベクトル空間とが形成されるので、第１のベクトル空間と第２のベクトル空間はそれぞれ、第１のデータ集合および第２のデータ集合の特徴をそのまま生かしたものとなっている。また、第２のベクトル空間に含まれる複数の特徴ベクトルはそのままに、それらと同義性を有しない事項の特徴ベクトルが第１のベクトル空間から第２のベクトル空間に写像されることにより、第１のベクトル空間に由来の特徴ベクトルが第２のベクトル空間に追加される。そして、第２のベクトル空間に元々含まれる特徴ベクトルと第１のベクトル空間からの写像により追加された特徴ベクトルとを対象としてデータ解析が行われる。これにより、本実施形態によれば、第２のデータ集合から形成される元の第２のベクトル空間の特徴を十分に活かしつつ、第２のデータ集合よりも広範なデータ集合までカバー範囲を拡張させたデータ解析を行うことができる。

なお、上記実施形態では、指標値行列を算出し、当該指標値行列から単語特徴ベクトルまたは化学式特徴ベクトルを特定する例について説明したが、本発明はこれに限定されない。例えば、単語ベクトル算出部３２Ｂにより算出された単語ベクトルを単語特徴ベクトルとして用いるようにしてもよい。また、化学式ベクトル算出部３２Ａ’ により算出された化学式ベクトルを化学式特徴ベクトルとして用いるようにしてもよい。その他、上記実施形態で説明した特徴ベクトルの算出方法は一例であり、これに限定されるものではない。

また、上記実施形態では、第１のベクトル空間および第２のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出される固有ベクトルを写像ベクトルとして用いることとし、固有ベクトルを（式４）により算出する例について説明したが、この（式４）は一例であり、これに限定されるものではない。本実施形態は、第１のベクトル空間および第２のベクトル空間の両方から抽出した同義性の特徴ベクトルに基づいて写像ベクトルを算出する点に意義がある。この要件を満たすように算出されるベクトルであれば本実施形態の写像ベクトルとして用いることが可能である。例えば、上記実施形態で説明した固有ベクトルは線形変換の特徴を表す指標の１つであるが、これ以外の線形変換または非線形変換を行うような写像ベクトルであってもよい。

非線形変換の典型的な例として、ニューラルネットワークを組み合わせるなどして構築した深層学習モデルが挙げられる。この場合、同義性を有する第１のベクトル空間の特徴ベクトルＸと第２のベクトル空間の特徴ベクトルとを用いて、特徴ベクトルＸを深層学習モデルへの入力とし、特徴ベクトルＹを深層学習モデルからの出力とするようにしてモデルの学習を行うことにより、非線形の写像モデルを構築することが可能である。ただし、非線形写像はこれに限定されるものではない。

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

１第１のベクトル算出部
２，２’ 第２のベクトル算出部
３，３’ ベクトル写像部
４データ解析部
１０，１０’ データ解析装置
３１単語抽出部
３１’ 要素抽出部
３２，３２’ ベクトル算出部
３２Ａ文章ベクトル算出部
３２Ａ’ 化学式ベクトル算出部
３２Ｂ単語ベクトル算出部
３２Ｂ’ 要素ベクトル算出部
３３，３３’ 指標値算出部
３４単語特徴ベクトル特定部
３４’ 化学式特徴ベクトル特定部

Claims

第１のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第１所定事項に関する複数の特徴ベクトルを算出することにより、第１のベクトル空間を形成する第１のベクトル算出部と、
上記第１のデータ集合とは異なる第２のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、上記第１所定事項と同じまたは異なる第２所定事項に関する複数の特徴ベクトルを算出することにより、第２のベクトル空間を形成する第２のベクトル算出部と、
上記第１のベクトル空間に含まれる特徴ベクトルであって、上記第２のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って上記第１のベクトル空間から上記第２のベクトル空間に写像するベクトル写像部と、
上記第２のベクトル空間において、上記第２のベクトル算出部により上記第２のベクトル空間内に算出された複数の特徴ベクトルおよび上記ベクトル写像部により上記第１のベクトル空間から上記第２のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うデータ解析部とを備え、
上記写像ベクトルは、上記第１のベクトル算出部により算出された複数の特徴ベクトルおよび上記第２のベクトル算出部により算出された複数の特徴ベクトルのうち、上記第１のベクトル空間および上記第２のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出されるベクトルである
ことを特徴とするデータ解析装置。
上記写像ベクトルは、上記第１のベクトル算出部により算出された複数の特徴ベクトルおよび上記第２のベクトル算出部により算出された複数の特徴ベクトルのうち、上記第１のベクトル空間および上記第２のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出される固有ベクトルであることを特徴とする請求項１に記載のデータ解析装置。
上記ベクトル写像部は、上記第１のベクトル空間および上記第２のベクトル空間の両方に共通に含まれる上記同義性の特徴ベクトルを対象として、上記第１のベクトル空間に含まれる上記同義性の特徴ベクトルと上記第２のベクトル空間に含まれる上記同義性の特徴ベクトルとを乗算し、当該乗算により得られる行列を特異値分解することによって得られる左右の特異行列を乗算することにより、上記固有ベクトルを求める
ことを特徴とする請求項２に記載のデータ解析装置。
上記第１のデータ集合は第１の分野のコーパス、上記第１所定事項は単語であり、上記第１のベクトル算出部は、上記第１の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
上記第２のデータ集合は第２の分野のコーパス、上記第２所定事項は単語であり、上記第２のベクトル算出部は、上記第２の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
上記ベクトル写像部は、上記第１のベクトル空間に含まれる単語特徴ベクトルであって、上記第２のベクトル空間に含まれる単語特徴ベクトルと同義性を有しない単語の単語特徴ベクトルを、上記写像ベクトルに従って上記第１のベクトル空間から上記第２のベクトル空間に写像する
ことを特徴とする請求項１～３の何れか１項に記載のデータ解析装置。
上記第１のデータ集合および上記第２のデータ集合の何れか一方が化合物の単語が含まれる文章データのデータ集合であり、他方が化合物の化学構造を文字列で表した化学式データのデータ集合であり、
上記第１のベクトル算出部および上記第２のベクトル算出部の何れか一方は、複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
上記第１のベクトル算出部および上記第２のベクトル算出部の何れか他方は、複数の化学式データから、複数の化学式と化学式内に含まれる複数の文字列との関係性を反映した複数の化学式特徴ベクトルを算出し、
上記ベクトル写像部は、上記第１のベクトル空間に含まれる単語特徴ベクトルであって、上記第２のベクトル空間に含まれる化学式特徴ベクトルの化学式と同義性を有しない単語の単語特徴ベクトルを、上記写像ベクトルに従って上記第１のベクトル空間から上記第２のベクトル空間に写像し、あるいは、上記第１のベクトル空間に含まれる化学式特徴ベクトルであって、上記第２のベクトル空間に含まれる単語特徴ベクトルの単語と同義性を有しない化学式の化学式特徴ベクトルを、上記写像ベクトルに従って上記第１のベクトル空間から上記第２のベクトル空間に写像する
ことを特徴とする請求項１～３の何れか１項に記載のデータ解析装置。
第１のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第１所定事項に関する複数の特徴ベクトルを算出することにより、第１のベクトル空間を形成する第１のベクトル算出手段、
上記第１のデータ集合とは異なる第２のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、上記第１所定事項と同じまたは異なる第２所定事項に関する複数の特徴ベクトルを算出することにより、第２のベクトル空間を形成する第２のベクトル算出手段、
上記第１のベクトル空間に含まれる特徴ベクトルであって、上記第２のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って上記第１のベクトル空間から上記第２のベクトル空間に写像するベクトル写像手段、および
上記第２のベクトル空間において、上記第２のベクトル算出手段により上記第２のベクトル空間内に算出された複数の特徴ベクトルおよび上記ベクトル写像手段により上記第１のベクトル空間から上記第２のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うデータ解析手段
としてコンピュータを機能させ、
上記写像ベクトルは、上記第１のベクトル算出手段により算出された複数の特徴ベクトルおよび上記第２のベクトル算出手段により算出された複数の特徴ベクトルのうち、上記第１のベクトル空間および上記第２のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出されるベクトルである
データ解析プログラム。