JP7386466B1 - データ解析装置およびデータ解析プログラム - Google Patents

データ解析装置およびデータ解析プログラム Download PDF

Info

Publication number
JP7386466B1
JP7386466B1 JP2023539125A JP2023539125A JP7386466B1 JP 7386466 B1 JP7386466 B1 JP 7386466B1 JP 2023539125 A JP2023539125 A JP 2023539125A JP 2023539125 A JP2023539125 A JP 2023539125A JP 7386466 B1 JP7386466 B1 JP 7386466B1
Authority
JP
Japan
Prior art keywords
vector
data
vector space
feature vectors
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023539125A
Other languages
English (en)
Inventor
博義 豊柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fronteo Inc
Original Assignee
Fronteo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fronteo Inc filed Critical Fronteo Inc
Application granted granted Critical
Publication of JP7386466B1 publication Critical patent/JP7386466B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

第1のデータ集合および第2のデータ集合からそれぞれ複数の特徴ベクトルを算出することによって第1、第2のベクトル空間を形成するベクトル算出部1,2と、第2のベクトル空間内の特徴ベクトルと同義性を有しない特徴ベクトルを第1のベクトル空間から第2のベクトル空間に写像するベクトル写像部3とを備え、第2のベクトル空間に含まれる複数の特徴ベクトルはそのままに、それらと同義性を有しない特徴ベクトルを第1のベクトル空間から第2のベクトル空間に写像することにより、第2のベクトル空間に元々含まれる特徴ベクトルと第1のベクトル空間から追加された特徴ベクトルとを対象としてデータ解析を行うことができるようにする。

Description

本発明は、データ解析装置およびデータ解析プログラムに関し、特に、ベクトル演算を用いたデータ解析に用いて好適なものである。
従来、パターン認識系、情報検索系、予測処理系、動作制御系などの多くの産業分野において、ベクトル演算を用いたデータ解析が活用されている。この種のデータ解析では、個々のデータの特徴量をベクトルで表現し、当該ベクトルに基づいてパターン認識や情報検索などの処理を実行する。例えば、個々の対象データから生成される特徴ベクトルに基づいて2次元平面上に個々の対象データをプロットし、このようにして生成される2次元マップを利用してデータ解析を行う技術が知られている(例えば、特許文献1参照)。
特許文献1に記載の情報検索装置では、複数の検索対象(例えば、文章)をそれぞれ特徴づける複数の特徴ベクトルに基づく座標情報に基づいて、2次元平面上に複数の検索対象をプロットした2次元マップを生成し、当該2次元マップを画面上に表示させる。これに加え、任意の検索キー情報として入力された検索対象(文章)または関連要素(文章に含まれる単語)を特徴づける特徴ベクトルを特定し、当該特定した特徴ベクトルに基づく座標情報に基づいて、2次元マップ上の該当位置に所定の参照マークを表示させる。そして、画面上に参照マークと共に表示された2次元マップにおいてユーザ操作により指定された領域に含まれるプロットに対応する検索対象を抽出する。
この特許文献1に記載された技術のように、あるデータ集合に含まれる複数のデータから特徴ベクトルを算出する場合、算出される特徴ベクトルは、そのデータ集合の大きさや内容に依存した構成を持つ。例えば、複数の文章で構成されるデータ集合を対象として、各文章に含まれる単語の当該データ集合内での相対的な特徴を単語ベクトルとして算出すると、その単語ベクトルは、当該データ集合に依存した構成を持つことになる。
ここで、第1のデータ集合に含まれる文章内の単語について単語ベクトルを算出する一方、第2のデータ集合に含まれる文章内の単語について単語ベクトルを算出すると、同じ単語であったとしても、第1のデータ集合から算出される単語ベクトルと第2のデータ集合から算出される単語ベクトルとは構成が互いに異なったものとなる。第1のデータ集合に含まれる各文章での単語の使われ方と、第2のデータ集合に含まれる各文章での単語の使われ方とで異なる傾向がみられ、この異なる傾向が単語ベクトルの構成に反映されるからである。
このため、あるデータ集合から算出される複数の特徴ベクトルにより形成されるベクトル空間は、当該データ集合の特徴を反映したものになる。特許文献1に記載の技術では、このように形成されるベクトル空間を2次元マップの形で表現し、当該2次元マップ上でデータ解析を行っている。
また、入力データから算出された特徴ベクトルを、それが属するベクトル空間から別のベクトル空間に写像して新たな特徴ベクトルを生成し、新たな特徴ベクトルを用いてデータ解析を行う技術も知られている(例えば、特許文献2,3参照)。また、計算量を削減しつつも主成分分析の計算精度の低下を抑制することができるようにしたベクトル演算の手法も知られている(例えば、特許文献4参照)。
特許文献2に記載の類似ユーザ発見システムでは、グループ間のリンク関係を示す情報に基づいて、所定のグループを代表する代表グループを抽出し、当該代表グループを用いてグループを近似することにより、グループを基底とする第1のベクトル空間の元(グループに属する個々のユーザに相当)を、代表グループを基底とする第2のベクトル空間に写像する。そして、写像した第2のベクトル空間の元に基づいてユーザ間の類似度を計算する。
特許文献3に記載の認識装置では、入力されたパターンデータから抽出された特徴ベクトルで形成されるベクトル空間内の分布を近似する部分集合について、その集合内の各点が所定の線形空間に写像される非線形変換を行い、この非線形変換後のデータと辞書手段にあらかじめ登録された標準のデータとを比較し、その比較結果をパターン認識の結果として出力する。
特許文献4に記載の分析装置では、標本として与えられたn個のd次元ベクトルx={x1,x2,…,xn}と、それとは別に取得されたm個(m<n)のd次元ベクトルy={y1,y2,…,ym}とを用いて固有値問題を解くことにより、d次元ベクトルxの特徴を表現するr個の固有ベクトルz={z1,z2,…,zr}を算出する。そして、r個の固有ベクトルzを用いてd次元ベクトルxをr次元ベクトルyに変換する。これにより、n個のd次元ベクトルxを用いたカーネル主成分分析方法と比べて計算量を減少させることができるとともに、m個のd次元ベクトルyのみを用いてカーネル主成分分析を行う場合に比べて、より高い精度で特徴ベクトルyを算出することができるようにしている。
特許第6976537号公報 特許第5364996号公報 特許第3163185号公報 特開2011-22912号公報
上記特許文献1に記載された技術のように、あるデータ集合に含まれる複数のデータから特徴ベクトルを算出してデータ解析を行う場合、その特徴ベクトルが属するベクトル空間を超えてデータ解析を行うことはできない。例えば、ある技術分野の論文を対象としてデータ解析を行う場合、対象とした論文に記述されている文章の範囲を超えてデータ解析を行うことはできない。そのため、その技術分野の論文に書かれている既知の知見についてデータ解析を行うことができるのみである。
これに対し、例えば第1のデータ集合と第2のデータ集合とを合体させてより大きなデータ集合を作り、その大きなデータ集合を対象としてデータ解析を行うようにすれば、データ解析のカバー範囲が一応は広がる。しかしながら、このようにすると、第1のデータ集合のみを対象として特徴ベクトルを算出した場合のベクトル空間の特徴や、第2のデータ集合のみを対象として特徴ベクトルを算出した場合のベクトル空間の特徴が希釈化されてしまい、合体前のベクトル空間の特徴を十分に活かしたデータ解析が難しくなるという問題が生じてしまう。
本発明は、このような問題を解決するために成されたものであり、元のデータ集合から形成されるベクトル空間の特徴を十分に活かしつつ、より広範なデータ集合までカバー範囲を拡張させたデータ解析を行うことができるようにすることを目的とする。
上記した課題を解決するために、本発明では、第1のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第1のベクトル空間を形成するとともに、第2のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第2のベクトル空間を形成する。また、第1のベクトル空間に含まれる特徴ベクトルであって、第2のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って第1のベクトル空間から第2のベクトル空間に写像する。そして、第2のベクトル空間において、第2のベクトル空間内に算出された複数の特徴ベクトルおよび第1のベクトル空間から第2のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うようにしている。
上記のように構成した本発明によれば、第1のデータ集合に含まれる複数のデータおよび第2のデータ集合に含まれる複数のデータからそれぞれ個別に複数の特徴ベクトルを算出することによって第1のベクトル空間と第2のベクトル空間とが形成されるので、第1のベクトル空間と第2のベクトル空間はそれぞれ、第1のデータ集合および第2のデータ集合の特徴をそのまま生かしたものとなっている。また、第2のベクトル空間に含まれる複数の特徴ベクトルはそのままに、それらと同義性を有しない事項の特徴ベクトルが第1のベクトル空間から第2のベクトル空間に写像されることにより、第1のベクトル空間に由来の特徴ベクトルが第2のベクトル空間に追加される。そして、第2のベクトル空間に元々含まれる特徴ベクトルと第1のベクトル空間からの写像により追加された特徴ベクトルとを対象としてデータ解析が行われる。これにより、本発明によれば、第2のデータ集合から形成される元の第2のベクトル空間の特徴を十分に活かしつつ、第2のデータ集合よりも広範なデータ集合までカバー範囲を拡張させたデータ解析を行うことができる。
本実施形態によるデータ解析装置の機能構成例を示すブロック図である。 第1のデータ集合と第2のデータ集合との関係性の例を示す図である。 第1のベクトル算出部の具体的な機能構成例を示すブロック図である。 単語特徴ベクトルの例を示す図である。 ベクトル写像部の処理内容を模式的に示す図である。 本実施形態によるデータ解析装置の他の機能構成例を示すブロック図である。 第2のベクトル算出部の他の機能構成例を示すブロック図である。 化学式特徴ベクトルの例を示す図である。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態によるデータ解析装置10の機能構成例を示すブロック図である。図1に示すように、本実施形態のデータ解析装置10は、機能構成として、第1のベクトル算出部1、第2のベクトル算出部2、ベクトル写像部3およびデータ解析部4を備えている。また、本実施形態のデータ解析装置10は、記憶媒体として、第1の特徴ベクトル記憶部11および第2の特徴ベクトル記憶部12を備えている。
上記機能ブロック1~4は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記機能ブロック1~4は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記憶媒体に記憶されたプログラムが動作することによって実現される。
本実施形態のデータ解析装置10は、第1のデータベース101に記憶されている第1のデータ集合および第2のデータベース102に記憶されている第2のデータ集合を用いてデータ解析を行う。第2のデータ集合は、第1のデータ集合とは異なるデータ集合である。例えば、第1のデータ集合は第1の分野のコーパス、第2のデータ集合は第2の分野のコーパスである。コーパスは、自然言語の文章を構造化し大規模に集積したものであり、複数の文章データを含んでいる。
図2は、第1のデータ集合と第2のデータ集合との関係性の例を模式的に示す図である。図2(a)は、第1のデータ集合の中に第2のデータ集合が包含される関係性を示している。例えば、第2のデータ集合が特定疾患の分野に関するコーパス、第1のデータ集合が当該特定疾患を含む医療分野全体に関するコーパスといった関係性である。図2(b)は、第1のデータ集合のみに含まれるデータ、第2のデータ集合のみに含まれるデータ、および第1のデータ集合と第2のデータ集合との両方に共通に含まれるデータを有する関係性を示している。例えば、第1のデータ集合が生物医学の分野に関するコーパス、第2のデータ集合が栄養医学の分野に関するコーパスといった関係性である。
第1のベクトル算出部1は、第1のデータベース101から第1のデータ集合を取得し、当該第1のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第1所定事項に関する複数の特徴ベクトルを算出することにより、第1のベクトル空間を形成する。ここで、第1のデータ集合が第1の分野のコーパスである場合、第1所定事項は単語であり、第1のベクトル算出部1は、第1の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出する。この単語特徴ベクトルの具体的な算出方法は後述する。
第2のベクトル算出部2は、第2のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、第1所定事項と同じまたは異なる第2所定事項に関する複数の特徴ベクトルを算出することにより、第2のベクトル空間を形成する。ここで、第2のデータ集合が第2の分野のコーパスである場合、第2所定事項も単語であり、第2のベクトル算出部2は、第2の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出する。
ここで、単語特徴ベクトルの算出方法を説明する。図3は、第1のベクトル算出部1の具体的な機能構成例を示すブロック図である。図3に示すように、第1のベクトル算出部1は、具体的な機能構成として、単語抽出部31、ベクトル算出部32、指標値算出部33および単語特徴ベクトル特定部34を備えて構成されている。ベクトル算出部32は、より具体的な機能構成として、文章ベクトル算出部32Aおよび単語ベクトル算出部32Bを備えている。
なお、第2のベクトル算出部2も、図3と同様の機能構成を有している。図1では第1のベクトル算出部1と第2のベクトル算出部2とを備える構成を示しているが、これに限定されない。例えば、図3に示す構成のベクトル算出部を1つのみ備え、当該1つのベクトル算出部により第1のデータ集合および第2のデータ集合に対する処理を行うようにしてもよい。
単語抽出部31は、m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する。文章の解析としては、例えば、公知の形態素解析を用いることが可能である。ここで、単語抽出部31は、形態素解析によって分割される全ての品詞の形態素を単語として抽出するようにしてもよいし、特定の品詞の形態素のみを単語として抽出するようにしてもよい。
なお、m個の文章の中には、同じ単語が複数含まれていることがある。この場合、単語抽出部31は、同じ単語を複数個抽出することはせず、1つのみ抽出する。すなわち、単語抽出部31が抽出するn個の単語とは、n種類の単語という意味である。
ベクトル算出部32は、m個の文章およびn個の単語から、m個の文章ベクトルおよびn個の単語ベクトルを算出する。ここで、文章ベクトル算出部32Aは、単語抽出部31による解析対象とされたm個の文章をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個(qは2以上の任意の整数)の軸成分から成るm個の文章ベクトルを算出する。また、単語ベクトル算出部32Bは、単語抽出部31により抽出されたn個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する。
本実施形態では、一例として、以下のようにして文章ベクトルおよび単語ベクトルを算出する。今、m個の文章とn個の単語とから成る集合S=<d∈D,w∈W>を考える。ここで、各文章d(i=1,2,・・・,m)および各単語w(j=1,2,・・・,n)に対してそれぞれ文章ベクトルd→および単語ベクトルw→(以下では、記号“→”はベクトルであることを指すものとする)を関連付ける。そして、任意の単語wと任意の文章dに対して、次の式(1)に示す確率P(w|d)を計算する。
Figure 0007386466000001
なお、この確率P(w|d)は、公知文献「“Distributed Representations of Sentences and Documents”by Quoc Le and Tomas Mikolov, Google Inc, Proceedings of the 31st International Conference on Machine Learning Held in Bejing, China on 22-24 June 2014」に開示されている確率pに倣って算出することが可能な値である。この公知文献には、例えば、“the”、“cat”、“sat”という3つの単語があるときに、4つ目の単語として“on”を予測するとあり、その予測確率pの算出式が掲載されている。
公知文献に記載されている確率p(wt|wt-k,・・・,wt+k)は、複数の単語wt-k,・・・,wt+kから別の1つの単語wtを予測したときの正解確率である。これに対し、本実施形態で用いる式(1)に示される確率P(w|d)は、m個の文章のうち一の文章dから、n個の単語のうち一の単語wが予想される正解確率を表している。1つの文章dから1つの単語wを予測するというのは、具体的には、ある文章dが出現したときに、その中に単語wが含まれる可能性を予測するということである。
なお、この式(1)は、dとwについて対称なので、n個の単語のうち一の単語wから、m個の文章のうち一の文章dが予想される確率P(d|w)を計算してもよい。1つの単語wから1つの文章dを予測するというのは、ある単語wが出現したときに、それが文章dの中に含まれる可能性を予測するということである。
式(1)では、eを底とし、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる。そして、予測対象とする文章dと単語wとの組み合わせから計算される指数関数値と、文章dとn個の単語w(k=1,2,・・・,n)との各組み合わせから計算されるn個の指数関数値の合計値との比率を、一の文章dから一の単語wが予想される正解確率として計算している。
ここで、単語ベクトルw→と文章ベクトルd→との内積値は、単語ベクトルw→を文章ベクトルd→の方向に投影した場合のスカラ値、つまり、単語ベクトルw→が有している文章ベクトルd→の方向の成分値とも言える。これは、単語wが文章dに寄与している程度を表していると考えることができる。したがって、このような内積を利用して計算される指数関数値を用いて、n個の単語w(k=1,2,・・・,n)について計算される指数関数値の合計に対する、1つの単語wについて計算される指数関数値の比率を求めることは、1つの文章dからn個の単語のうち1つの単語wが予想される正解確率を求めることに相当する。
なお、ここでは、単語ベクトルw→と文章ベクトルd→との内積値を指数とする指数関数値を用いる計算例を示したが、指数関数値を用いることを必須とするものではない。単語ベクトルw→と文章ベクトルd→との内積値を利用した計算式であればよく、例えば、内積値そのものの比率により確率を求めるようにしてもよい。
次に、ベクトル算出部32は、次の式(2)に示すように、式(1)により算出される確率P(w|d)を全ての集合Sについて合計した値Lを最大化するような文章ベクトルd→および単語ベクトルw→を算出する。すなわち、文章ベクトル算出部32Aおよび単語ベクトル算出部32Bは、式(1)により算出される確率P(w|d)を、m個の文章とn個の単語との全ての組み合わせについて算出し、それらを合計した値を目標変数Lとして、当該目標変数Lを最大化する文章ベクトルd→および単語ベクトルw→を算出する。
Figure 0007386466000002
m個の文章とn個の単語との全ての組み合わせについて算出した確率P(w|d)の合計値Lを最大化するというのは、ある文章d(i=1,2,・・・,m)からある単語w(j=1,2,・・・,n)が予想される正解確率を最大化するということである。つまり、ベクトル算出部32は、この正解確率が最大化するような文章ベクトルd→および単語ベクトルw→を算出するものと言える。
ここで、上述したようにベクトル算出部32は、m個の文章dをそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルd→を算出するとともに、n個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルw→を算出する。これは、q個の軸方向を可変として、上述の目標変数Lが最大化するような文章ベクトルd→および単語ベクトルw→を算出することに相当する。
指標値算出部33は、ベクトル算出部32により算出されたm個の文章ベクトルd→とn個の単語ベクトルw→との内積をそれぞれ計算することにより、m個の文章dおよびn個の単語w間の関係性を反映した指標値を算出する。本実施形態では、指標値算出部33は、次の式(3)に示すように、m個の文章ベクトルd→の各q個の軸成分(d11~dmq)を各要素とする文章行列Dと、n個の単語ベクトルw→の各q個の軸成分(w11~wnq)を各要素とする単語行列Wとの積を計算することにより、m×n個の指標値を各要素とする指標値行列DWを算出する。ここで、Wは単語行列の転置行列である。
Figure 0007386466000003
このようにして算出された指標値行列DWの各要素は、どの単語がどの文章に対してどの程度寄与しているのか、どの文章がどの単語に対してどの程度寄与しているのかを表したものと言える。例えば、1行2列の要素dw12は、単語w2が文章d1に対してどの程度寄与しているのかを表した値と言え、また、文章d1が単語w2に対してどの程度寄与しているのかを表した値と言える。これにより、指標値行列DWの各行は文章の類似性を評価するものとして用いることが可能であり、各列は単語の類似性を評価するものとして用いることが可能である。
単語特徴ベクトル特定部34は、指標値算出部33により算出された指標値行列DWにおいて、n個の単語のそれぞれについて、1つの単語についてm個の文章の指標値から成る単語指標値群(指標値行列DWの1つの列に含まれる単語指標値群)を単語特徴ベクトルとして特定する。すなわち、単語特徴ベクトル特定部34は、図4に示すように、指標値行列DWの各列を構成しているm個の文章の指標値から成る単語指標値群を、それぞれのn個の単語に対する単語特徴ベクトルとして特定する。
第1のベクトル算出部1が備える単語特徴ベクトル特定部34は、特定した複数の単語特徴ベクトルを、単語抽出部31により抽出された単語と関連付けて第1の特徴ベクトル記憶部11に記憶させる。第1の特徴ベクトル記憶部11に記憶された複数の単語特徴ベクトルにより、第1のベクトル空間が形成される。また、第2のベクトル算出部2が備える単語特徴ベクトル特定部34は、特定した複数の単語特徴ベクトルを、単語抽出部31により抽出された単語と関連付けて第2の特徴ベクトル記憶部12に記憶させる。第2の特徴ベクトル記憶部12に記憶された複数の単語特徴ベクトルにより、第2のベクトル空間が形成される。
ベクトル写像部3は、第1のベクトル空間に含まれる特徴ベクトルであって、第2のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトル(以下、これを非同義性の特徴ベクトルという)を、写像ベクトルに従って第1のベクトル空間から第2のベクトル空間に写像する。なお、以下の説明において、第1のベクトル空間に含まれる特徴ベクトルであって、第2のベクトル空間に含まれる特徴ベクトルと同義性を有する事項の特徴ベクトルを同義性の特徴ベクトルという。
第1のデータ集合と第2のデータ集合が各分野のコーパスである場合、すなわち、複数の単語特徴ベクトルによりベクトル空間を形成した場合、ベクトル写像部3は、第1のベクトル空間に含まれる単語特徴ベクトルであって、第2のベクトル空間に含まれる単語特徴ベクトルと同義性を有しない単語の単語特徴ベクトルを、写像ベクトルに従って第1のベクトル空間から第2のベクトル空間に写像する。どの単語とどの単語が同義性を有するかについて、あらかじめ辞書データベースとして定義しておいてもよい。
例えば、第1のベクトル空間に「家族」という単語の単語特徴ベクトルが含まれていて、かつ第2のベクトル空間に「ファミリー」という単語の単語特徴ベクトルが含まれている場合、「家族」と「ファミリー」は同義性を有する単語と言えるので、第1のベクトル空間に含まれる「家族」の単語特徴ベクトルは写像の対象外である。一方、第1のベクトル空間に「母」という単語の単語特徴ベクトルが含まれていて、かつ第2のベクトル空間に「母」、「マザー」またはこれらと同義の単語の単語特徴ベクトルが何れも含まれていない場合は、第1のベクトル空間に含まれる「母」の単語特徴ベクトルは写像の対象とされる。
写像に用いる写像ベクトルは、例えば、第1のベクトル算出部1により算出された複数の特徴ベクトルおよび第2のベクトル算出部2により算出された複数の特徴ベクトルのうち、第1のベクトル空間および第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出される固有ベクトルよりなる行列である。上述の例において、第1のベクトル空間に含まれる「家族」の単語特徴ベクトルと、第2のベクトル空間に含まれる「ファミリー」の単語特徴ベクトルは、固有ベクトルを算出する際に使われる。一方、第1のベクトル空間に含まれる「母」の単語特徴ベクトルは、固有ベクトルを算出する際に使われない。
固有ベクトルは、例えば以下のようにして算出することが可能である。すなわち、ベクトル写像部3は、第1のベクトル空間および第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルを対象として、第1のベクトル空間に含まれる同義性の特徴ベクトルと第2のベクトル空間に含まれる同義性の特徴ベクトルとを乗算し、当該乗算により得られる行列を特異値分解(singular value decomposition:SVD)することによって得られる左右の特異行列を乗算することにより、写像ベクトルを求める。
ここで、写像ベクトルをW、第1のベクトル空間に含まれる同義性の特徴ベクトルをX={X,X,・・・,X}(kは固有ベクトルの算出に使われる特徴ベクトルの数)、第2のベクトル空間に含まれる同義性の特徴ベクトルをY={Y,Y,・・・,Y}、左特異行列をU,右特異行列をVとすると、写像ベクトルWは以下の(式4)により示される。右肩のTは転置行列であることを示す。
=U・V,(U,VはSVD(Y・X)の左右特異行列) ・・・(式4)
すなわち、ベクトル写像部3は、第1のベクトル空間に含まれる同義性の特徴ベクトルX(の転置ベクトルX)と、第2のベクトル空間に含まれる同義性の特徴ベクトルYとを乗算し、こうして得られる行列(Y・X)を、3つの行列U,S,Vに分解する。行列Uは左特異行列で、各列は(Y・X)*(Y・X)の固有ベクトルである。行列Sは正方行列で、対角行列成分が行列(Y・X)の特異値を示し、それ以外の値が全て0となっている。行列Vは右特異行列で、各行は(Y・X)*(Y・X)の固有ベクトルである。ベクトル写像部3は、以上のようにして分解した3つの行列のうち、左特異行列Uと右特異行列V(の転置行列V)とを乗算することにより、写像ベクトルWを求める。
ベクトル写像部3は、第1のベクトル空間から第2のベクトル空間に写像した特徴ベクトルを、第2の特徴ベクトル記憶部12に追加して記憶させる。これにより、第2の特徴ベクトル記憶部12には、第2のベクトル算出部2により算出された特徴ベクトルと、ベクトル写像部3により写像された特徴ベクトルとが記憶される。すなわち、ベクトル写像部3により第1のベクトル空間から写像された特徴ベクトルによって第2のベクトル空間が更新される。
図5は、ベクトル写像部3の処理内容を模式的に示す図である。ここでは、特徴ベクトルの次元数を“3”とし、3次元のベクトル空間を示しているが、特徴ベクトルの次元数は“2”または“3”より大きくてもよい。図5(a)は第1のベクトル空間であり、X,Xは第1のベクトル空間に含まれる同義性の特徴ベクトル(第2のベクトル空間に含まれるY,Yと同義の特徴ベクトル)、Aは第1のベクトル空間に含まれる非同義性の特徴ベクトル(第2のベクトル空間に同義の特徴ベクトルが存在しない特徴ベクトル)である。
図5(b)は第2のベクトル空間であり、Y,Yは第2のベクトル空間に含まれる同義性の特徴ベクトル(第1のベクトル空間に含まれるX,Xと同義の特徴ベクトル)、Bは第2のベクトル空間に含まれる非同義性の特徴ベクトル(第1のベクトル空間に同義の特徴ベクトルが存在しない特徴ベクトル)である。また、W(A)は、第1のベクトル空間に含まれる非同義性の特徴ベクトルAが写像ベクトルWによって第2のベクトル空間に写像された特徴ベクトルである。この場合の写像ベクトルWは、第1のベクトル空間および第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルX,X,Y,Yを対象として、上記(式4)により算出される固有ベクトルよりなる行列である。
第1のベクトル空間および第2のベクトル空間の両方に共通する同義性の特徴ベクトルX,X,Y,Yに基づいて算出される固有ベクトルは、両方のベクトル空間に共通する特徴を反映したベクトルとなる。そのため、この固有ベクトルを写像ベクトルWとして用いることにより、第1のベクトル空間に含まれる特徴ベクトルAは、第2のベクトル空間内の適切な位置に写像されることになる。適切な位置に写像されるとは、第1のベクトル空間の特徴ベクトルAとこれを第2のベクトル空間に写像した特徴ベクトルW(A)との関係性が、特徴ベクトルXとそれと同義性を有する特徴ベクトルYとの関係性、および、特徴ベクトルXとそれと同義性を有する特徴ベクトルYとの関係性に概ね倣った関係性となるように、特徴ベクトルAが特徴ベクトルW(A)に写像されるということである。
データ解析部4は、更新された第2のベクトル空間において、第2のベクトル算出部2により第2のベクトル空間内に算出された複数の特徴ベクトルおよびベクトル写像部3により第1のベクトル空間から第2のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行う。データ解析の内容は任意である。例えば、第2のベクトル空間に含まれる特徴ベクトルどうしの類似度を計算することにより、特徴ベクトル間の関係性を解析することが可能である。例えば、特許文献1に記載されたデータ解析を行うことも可能である。
図5の例で説明すると、データ解析部4は、図5(b)のように更新された第2のベクトル空間において、元々第2のベクトル空間に存在していた特徴ベクトルY,Y,Bに加え、第1のベクトル空間から写像された特徴ベクトルW(A)を含めてデータ解析を行うことができる。これにより、特徴ベクトルY,Y,B間の類似度のみならず、これらと特徴ベクトルW(A)との類似度も解析することが可能となる。
ここで、特徴ベクトルY,Y,Bは元のまま生かされているので、特徴ベクトルW(A)により更新された第2のベクトル空間は、第2のデータ集合をもとに形成される元の第2のベクトル空間の特徴がそのまま反映されたものとなっている。その上で、第1のベクトル空間から第2のベクトル空間に写像という形で補完された特徴ベクトルW(A)も対象としてデータ解析を行うことができる。例えば特徴ベクトルが単語特徴ベクトルの場合、特徴ベクトルどうしの類似度をもとに、第2のデータ集合から抽出された単語に加え、第1のデータ集合のみから抽出された単語を含めて単語間の関係性を解析することが可能である。図5(b)に示した例の場合、特徴ベクトルY,Bに対応する単語に対して、第1のベクトル空間から写像された特徴ベクトルW(A)に対応する単語が近い関係性を有しているという新たな知見を得ることができる。
なお、上記実施形態では、第1のデータ集合および第2のデータ集合が何れもコーパス(文章データの集合)であり、単語特徴ベクトルを算出する例について説明したが、本発明はこれに限定されない。データ集合は、それに含まれる複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した所定事項に関する複数の特徴ベクトルを算出することが可能なものであればよく、文章データ以外のデータ集合を用いることも可能である。
例えば、第1のデータ集合および第2のデータ集合の何れか一方を化合物(分子や遺伝子を含む。以下同様)の単語が含まれる文章データのデータ集合とし、他方を化合物の化学構造を文字列で表した化学式データのデータ集合としてもよい。化学式データとしては、例えば分子の化学構造をSMILES記法で表したデータを用いることが可能である。SMILES記法とは、化合物中の原子をノード、原子間の結合をエッジと見立て、化学構造を1行の文字列(ASCII符号の英数字)で表す方法である。例えば、アフラトキシンB という分子は、SMILES記法で「O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5」のように表記される。アフラトキシンB という分子の単語と、当該分子をSMILES記法で表記した化学式とは同義性を有する。
以下では、第1のデータ集合を文章データのデータ集合とし、第2のデータ集合を化学式データのデータ集合とした場合について説明する。図6は、この場合におけるデータ解析装置10’の機能構成例を示すブロック図である。この図6において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。図6に示すデータ解析装置10’は、図1に示した第2のベクトル算出部2およびベクトル写像部3に代えて、第2のベクトル算出部2’およびベクトル写像部3’を備えている。
図6に示す構成において、第1のベクトル算出部1は、第1のデータ集合に含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出する。第1のベクトル算出部1が備える単語特徴ベクトル特定部34は、特定した複数の単語特徴ベクトルを、単語抽出部31により抽出された単語と関連付けて第1の特徴ベクトル記憶部11に記憶させる。第1の特徴ベクトル記憶部11に記憶された複数の単語特徴ベクトルにより、第1のベクトル空間が形成される。これの具体的な処理内容は図3で説明した通りである。
第2のベクトル算出部2’は、第2のデータ集合に含まれる複数の化学式データから、複数の化学式と化学式内に含まれる複数の文字列との関係性を反映した複数の化学式特徴ベクトルを算出する。ここで、化学式内に含まれる複数の文字列とは、SMILES記法のノードやエッジの観点から意味を持つまとまりの文字列の最小単位(自然言語の形態素に相当するようなもの)である。例えば、アフラトキシンBという分子のSMILES記法「O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5」は、以下のように要素分解され得る。
O,1,C=C,[C@H],([C@H]1O2),c3,c2,cc,(OC),c4,c3,OC,(=O),C5=C4,CCC,(=O),5
この第2のベクトル算出部2’の具体的な処理内容を、図7に基づいて説明する。図7に示すように、第2のベクトル算出部2’は、図3に示した単語抽出部31、ベクトル算出部32、指標値算出部33および単語特徴ベクトル特定部34に代えて、要素抽出部31’、ベクトル算出部32’、指標値算出部33’および化学式特徴ベクトル特定部34’を備えている。ベクトル算出部32’は、文章ベクトル算出部32Aおよび単語ベクトル算出部32Bに代えて、化学式ベクトル算出部32A’および要素ベクトル算出部32B’を備えている。
要素抽出部31’は、i個の化学式を解析し、当該i個の化学式からj個の要素(ノードやエッジの観点から意味を持つまとまりの文字列の最小単位)を抽出する。
ベクトル算出部32’は、i個の化学式およびj個の要素から、i個の化学式ベクトルC→およびj個の要素ベクトルF→を算出する。ここで、化学式ベクトル算出部32A’は、要素抽出部31’による解析対象とされたi個の化学式をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るi個の化学式ベクトルC→を算出する。また、要素ベクトル算出部32B’は、要素抽出部31’により抽出されたj個の要素をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るj個の要素ベクトルF→を算出する。
指標値算出部33’は、ベクトル算出部32’により算出されたi個の化学式ベクトルC→とj個の要素ベクトルF→との内積をそれぞれ計算することにより、i個の化学式およびj個の要素間の関係性を反映した指標値行列CFを算出する。
化学式特徴ベクトル特定部34’は、指標値算出部33’により算出された指標値行列CFにおいて、i個の化学式のそれぞれについて、1つの化学式についてj個の要素の指標値から成る化学式指標値群(指標値行列CFの1つの行に含まれる化学式指標値群)を化学式特徴ベクトルとして特定する。すなわち、化学式特徴ベクトル特定部34’は、図8に示すように、指標値行列CFの各行を構成しているj個の要素の指標値から成る化学式指標値群を、それぞれのi個の化学式に対する化学式特徴ベクトルとして特定する。
単語特徴ベクトル特定部34’は、特定した複数の化学式特徴ベクトルを、第2のベクトル算出部2’に入力された化学式データで示される化学式と関連付けて第2の特徴ベクトル記憶部12に記憶させる。第2の特徴ベクトル記憶部12に記憶された複数の化学式特徴ベクトルにより、第2のベクトル空間が形成される。
図6のベクトル写像部3’は、第1のベクトル空間に含まれる単語特徴ベクトルであって、第2のベクトル空間に含まれる化学式特徴ベクトルの化学式と同義性を有しない単語の単語特徴ベクトルを、写像ベクトルWに従って第1のベクトル空間から第2のベクトル空間に写像する。ベクトル写像部3’は、第1のベクトル空間から第2のベクトル空間に写像した単語特徴ベクトルを、第2の特徴ベクトル記憶部12に追加して記憶させる。このような写像を行うと、複数の化学式特徴ベクトルで形成された第2のベクトル空間の中に、当該第2のベクトル空間に属する化学式特徴ベクトルの化学式と同義性を有しない単語の単語特徴ベクトルが第1のベクトル空間から補完される。
なお、ここでは第1のデータ集合を文章データのデータ集合とし、第2のデータ集合を化学式データのデータ集合とする場合について説明したが、これとは逆に、第1のデータ集合を化学式データのデータ集合とし、第2のデータ集合を文章データのデータ集合としてもよい。この場合は、図1に示した第1のベクトル算出部1に代えて第1のベクトル算出部1’を備え、第1のベクトル算出部1’が化学式特徴ベクトルを算出する一方で、第2のベクトル算出部2が単語特徴ベクトルを算出する。
また、ベクトル写像部3’は、第1のベクトル空間に含まれる化学式特徴ベクトルであって、第2のベクトル空間に含まれる単語特徴ベクトルの単語と同義性を有しない化学式の化学式特徴ベクトルを、写像ベクトルに従って第1のベクトル空間から第2のベクトル空間に写像する。このような写像を行うと、複数の単語特徴ベクトルで形成された第2のベクトル空間の中に、当該第2のベクトル空間に属する単語特徴ベクトルの単語と同義性を有しない化合物の化学式特徴ベクトルが第1のベクトル空間から補完される。
以上詳しく説明したように、本実施形態では、第1のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第1のベクトル空間を形成するとともに、第2のデータ集合に含まれる複数のデータから複数の特徴ベクトルを算出することによって第2のベクトル空間を形成する。また、第1のベクトル空間に含まれる特徴ベクトルであって、第2のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って第1のベクトル空間から第2のベクトル空間に写像する。そして、第2のベクトル空間において、第2のベクトル空間内に算出された複数の特徴ベクトルおよび第1のベクトル空間から第2のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うようにしている。
このように構成した本実施形態によれば、第1のデータ集合に含まれる複数のデータおよび第2のデータ集合に含まれる複数のデータからそれぞれ個別に複数の特徴ベクトルを算出することによって第1のベクトル空間と第2のベクトル空間とが形成されるので、第1のベクトル空間と第2のベクトル空間はそれぞれ、第1のデータ集合および第2のデータ集合の特徴をそのまま生かしたものとなっている。また、第2のベクトル空間に含まれる複数の特徴ベクトルはそのままに、それらと同義性を有しない事項の特徴ベクトルが第1のベクトル空間から第2のベクトル空間に写像されることにより、第1のベクトル空間に由来の特徴ベクトルが第2のベクトル空間に追加される。そして、第2のベクトル空間に元々含まれる特徴ベクトルと第1のベクトル空間からの写像により追加された特徴ベクトルとを対象としてデータ解析が行われる。これにより、本実施形態によれば、第2のデータ集合から形成される元の第2のベクトル空間の特徴を十分に活かしつつ、第2のデータ集合よりも広範なデータ集合までカバー範囲を拡張させたデータ解析を行うことができる。
なお、上記実施形態では、指標値行列を算出し、当該指標値行列から単語特徴ベクトルまたは化学式特徴ベクトルを特定する例について説明したが、本発明はこれに限定されない。例えば、単語ベクトル算出部32Bにより算出された単語ベクトルを単語特徴ベクトルとして用いるようにしてもよい。また、化学式ベクトル算出部32A’ により算出された化学式ベクトルを化学式特徴ベクトルとして用いるようにしてもよい。その他、上記実施形態で説明した特徴ベクトルの算出方法は一例であり、これに限定されるものではない。
また、上記実施形態では、第1のベクトル空間および第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出される固有ベクトルを写像ベクトルとして用いることとし、固有ベクトルを(式4)により算出する例について説明したが、この(式4)は一例であり、これに限定されるものではない。本実施形態は、第1のベクトル空間および第2のベクトル空間の両方から抽出した同義性の特徴ベクトルに基づいて写像ベクトルを算出する点に意義がある。この要件を満たすように算出されるベクトルであれば本実施形態の写像ベクトルとして用いることが可能である。例えば、上記実施形態で説明した固有ベクトルは線形変換の特徴を表す指標の1つであるが、これ以外の線形変換または非線形変換を行うような写像ベクトルであってもよい。
非線形変換の典型的な例として、ニューラルネットワークを組み合わせるなどして構築した深層学習モデルが挙げられる。この場合、同義性を有する第1のベクトル空間の特徴ベクトルXと第2のベクトル空間の特徴ベクトルとを用いて、特徴ベクトルXを深層学習モデルへの入力とし、特徴ベクトルYを深層学習モデルからの出力とするようにしてモデルの学習を行うことにより、非線形の写像モデルを構築することが可能である。ただし、非線形写像はこれに限定されるものではない。
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
1 第1のベクトル算出部
2,2’ 第2のベクトル算出部
3,3’ ベクトル写像部
4 データ解析部
10,10’ データ解析装置
31 単語抽出部
31’ 要素抽出部
32,32’ ベクトル算出部
32A 文章ベクトル算出部
32A’ 化学式ベクトル算出部
32B 単語ベクトル算出部
32B’ 要素ベクトル算出部
33,33’ 指標値算出部
34 単語特徴ベクトル特定部
34’ 化学式特徴ベクトル特定部

Claims (6)

  1. 第1のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第1所定事項に関する複数の特徴ベクトルを算出することにより、第1のベクトル空間を形成する第1のベクトル算出部と、
    上記第1のデータ集合とは異なる第2のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、上記第1所定事項と同じまたは異なる第2所定事項に関する複数の特徴ベクトルを算出することにより、第2のベクトル空間を形成する第2のベクトル算出部と、
    上記第1のベクトル空間に含まれる特徴ベクトルであって、上記第2のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像するベクトル写像部と、
    上記第2のベクトル空間において、上記第2のベクトル算出部により上記第2のベクトル空間内に算出された複数の特徴ベクトルおよび上記ベクトル写像部により上記第1のベクトル空間から上記第2のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うデータ解析部とを備え
    上記写像ベクトルは、上記第1のベクトル算出部により算出された複数の特徴ベクトルおよび上記第2のベクトル算出部により算出された複数の特徴ベクトルのうち、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出されるベクトルである
    ことを特徴とするデータ解析装置。
  2. 上記写像ベクトルは、上記第1のベクトル算出部により算出された複数の特徴ベクトルおよび上記第2のベクトル算出部により算出された複数の特徴ベクトルのうち、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出される固有ベクトルであることを特徴とする請求項1に記載のデータ解析装置。
  3. 上記ベクトル写像部は、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる上記同義性の特徴ベクトルを対象として、上記第1のベクトル空間に含まれる上記同義性の特徴ベクトルと上記第2のベクトル空間に含まれる上記同義性の特徴ベクトルとを乗算し、当該乗算により得られる行列を特異値分解することによって得られる左右の特異行列を乗算することにより、上記固有ベクトルを求める
    ことを特徴とする請求項2に記載のデータ解析装置。
  4. 上記第1のデータ集合は第1の分野のコーパス、上記第1所定事項は単語であり、上記第1のベクトル算出部は、上記第1の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
    上記第2のデータ集合は第2の分野のコーパス、上記第2所定事項は単語であり、上記第2のベクトル算出部は、上記第2の分野のコーパスに含まれる複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
    上記ベクトル写像部は、上記第1のベクトル空間に含まれる単語特徴ベクトルであって、上記第2のベクトル空間に含まれる単語特徴ベクトルと同義性を有しない単語の単語特徴ベクトルを、上記写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像する
    ことを特徴とする請求項1~3の何れか1項に記載のデータ解析装置。
  5. 上記第1のデータ集合および上記第2のデータ集合の何れか一方が化合物の単語が含まれる文章データのデータ集合であり、他方が化合物の化学構造を文字列で表した化学式データのデータ集合であり、
    上記第1のベクトル算出部および上記第2のベクトル算出部の何れか一方は、複数の文章データから、複数の文章と文章内に含まれる複数の単語との関係性を反映した複数の単語特徴ベクトルを算出し、
    上記第1のベクトル算出部および上記第2のベクトル算出部の何れか他方は、複数の化学式データから、複数の化学式と化学式内に含まれる複数の文字列との関係性を反映した複数の化学式特徴ベクトルを算出し、
    上記ベクトル写像部は、上記第1のベクトル空間に含まれる単語特徴ベクトルであって、上記第2のベクトル空間に含まれる化学式特徴ベクトルの化学式と同義性を有しない単語の単語特徴ベクトルを、上記写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像し、あるいは、上記第1のベクトル空間に含まれる化学式特徴ベクトルであって、上記第2のベクトル空間に含まれる単語特徴ベクトルの単語と同義性を有しない化学式の化学式特徴ベクトルを、上記写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像する
    ことを特徴とする請求項1~3の何れか1項に記載のデータ解析装置。
  6. 第1のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した第1所定事項に関する複数の特徴ベクトルを算出することにより、第1のベクトル空間を形成する第1のベクトル算出手段、
    上記第1のデータ集合とは異なる第2のデータ集合に含まれる複数のデータから、当該複数のデータとデータ内に含まれる複数の所定要素との関係性を反映した複数の特徴ベクトルであって、上記第1所定事項と同じまたは異なる第2所定事項に関する複数の特徴ベクトルを算出することにより、第2のベクトル空間を形成する第2のベクトル算出手段、
    上記第1のベクトル空間に含まれる特徴ベクトルであって、上記第2のベクトル空間に含まれる特徴ベクトルと同義性を有しない事項の特徴ベクトルを、写像ベクトルに従って上記第1のベクトル空間から上記第2のベクトル空間に写像するベクトル写像手段、および
    上記第2のベクトル空間において、上記第2のベクトル算出手段により上記第2のベクトル空間内に算出された複数の特徴ベクトルおよび上記ベクトル写像手段により上記第1のベクトル空間から上記第2のベクトル空間に写像された特徴ベクトルを対象としてデータ解析を行うデータ解析手段
    としてコンピュータを機能させ
    上記写像ベクトルは、上記第1のベクトル算出手段により算出された複数の特徴ベクトルおよび上記第2のベクトル算出手段により算出された複数の特徴ベクトルのうち、上記第1のベクトル空間および上記第2のベクトル空間の両方に共通に含まれる同義性の特徴ベクトルから算出されるベクトルである
    データ解析プログラム。
JP2023539125A 2022-12-20 2022-12-20 データ解析装置およびデータ解析プログラム Active JP7386466B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/046938 WO2024134784A1 (ja) 2022-12-20 2022-12-20 データ解析装置およびデータ解析プログラム

Publications (1)

Publication Number Publication Date
JP7386466B1 true JP7386466B1 (ja) 2023-11-27

Family

ID=88917939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023539125A Active JP7386466B1 (ja) 2022-12-20 2022-12-20 データ解析装置およびデータ解析プログラム

Country Status (5)

Country Link
US (1) US12026461B1 (ja)
EP (1) EP4411588A4 (ja)
JP (1) JP7386466B1 (ja)
KR (1) KR102689965B1 (ja)
WO (1) WO2024134784A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059077A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP2020098646A (ja) * 2015-06-19 2020-06-25 株式会社Preferred Networks クロスドメイン時系列データ変換装置、方法、およびシステム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5364996U (ja) 1976-11-04 1978-05-31
JP3163185B2 (ja) * 1992-11-27 2001-05-08 株式会社東芝 パターン認識装置およびパターン認識方法
US6408321B1 (en) * 1999-03-24 2002-06-18 International Business Machines Corporation Method and apparatus for mapping components of descriptor vectors to a space that discriminates between groups
JP2006119714A (ja) * 2004-10-19 2006-05-11 Nippon Telegr & Teleph Corp <Ntt> 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体
JP5364996B2 (ja) 2007-12-17 2013-12-11 日本電気株式会社 類似ユーザ発見システム、類似ユーザ発見方法および類似ユーザ発見プログラム
US8359282B2 (en) 2009-01-12 2013-01-22 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions
JP2011022912A (ja) 2009-07-17 2011-02-03 Institute Of Physical & Chemical Research カーネル主成分分析方法、カーネル主成分分析装置、カーネル主成分分析プログラム
JP4877374B2 (ja) * 2009-09-02 2012-02-15 株式会社豊田中央研究所 画像処理装置及びプログラム
JP3163185U (ja) 2010-07-22 2010-09-30 株式会社グリーン・ライティング 宝飾品ショーケース
US8700580B1 (en) * 2011-04-29 2014-04-15 Google Inc. Moderation of user-generated content
JP6915809B2 (ja) * 2018-05-02 2021-08-04 株式会社Fronteo 事象予測装置、予測モデル生成装置および事象予測用プログラム
US11704552B2 (en) * 2018-10-29 2023-07-18 Microsoft Technology Licensing, Llc Task detection in communications using domain adaptation
US11393560B2 (en) * 2018-11-13 2022-07-19 Recursion Pharmaceuticals, Inc. Systems and methods for high throughput compound library creation
US20200192973A1 (en) * 2018-12-17 2020-06-18 Sap Se Classification of non-time series data
US11321312B2 (en) * 2019-01-14 2022-05-03 ALEX—Alternative Experts, LLC Vector-based contextual text searching
JP6976537B1 (ja) * 2020-10-08 2021-12-08 株式会社Fronteo 情報検索装置、情報検索方法および情報検索用プログラム
CN113299346B (zh) * 2021-04-01 2022-03-29 腾讯科技(深圳)有限公司 分类模型训练和分类方法、装置、计算机设备和存储介质
US20230082663A1 (en) * 2021-08-31 2023-03-16 Jio Platforms Limited Automated system and method for hyper parameter tuning and retrofitting formulation
US20230385541A1 (en) * 2022-05-29 2023-11-30 One AI, Inc. Method and system for producing unified natural language processing objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020098646A (ja) * 2015-06-19 2020-06-25 株式会社Preferred Networks クロスドメイン時系列データ変換装置、方法、およびシステム
JP2017059077A (ja) * 2015-09-18 2017-03-23 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム

Also Published As

Publication number Publication date
EP4411588A1 (en) 2024-08-07
WO2024134784A1 (ja) 2024-06-27
US20240202438A1 (en) 2024-06-20
KR20240101509A (ko) 2024-07-02
EP4411588A4 (en) 2024-08-07
US12026461B1 (en) 2024-07-02
KR102689965B1 (ko) 2024-07-29

Similar Documents

Publication Publication Date Title
US10984344B2 (en) Document classifying device
US10783451B2 (en) Ensemble machine learning for structured and unstructured data
JP2020500371A (ja) 意味的検索のための装置および方法
KR20130056207A (ko) 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
KR20200013130A (ko) 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치
JP2006301920A (ja) 文書分類プログラム、文書分類方法および文書分類装置
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
WO2019093172A1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
JP7116969B2 (ja) 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム
JP7386466B1 (ja) データ解析装置およびデータ解析プログラム
Liu et al. Extracting biomedical events from pairs of text entities
JP6976537B1 (ja) 情報検索装置、情報検索方法および情報検索用プログラム
WO2015159702A1 (ja) 部分情報抽出システム
Mohemad et al. Ontological-based information extraction of construction tender documents
Laouar et al. Large-scale similarity search with Optimal Transport
Rana et al. Concept extraction from ambiguous text document using k-means
WO2024180608A1 (ja) データ抽出装置、データ抽出方法及びプログラム
JP2019211884A (ja) 情報検索システム
Anand et al. Integrating and querying similar tables from PDF documents using deep learning
WO2022185442A1 (ja) 情報解析装置、情報解析方法および情報解析用プログラム
CN115114412B (zh) 文档中的信息检索方法及电子设备、存储介质
JPH11154160A (ja) データ検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230626

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230815

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231102

R150 Certificate of patent or registration of utility model

Ref document number: 7386466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150