JP6942028B2 - 比較装置、比較方法および比較プログラム - Google Patents

比較装置、比較方法および比較プログラム Download PDF

Info

Publication number
JP6942028B2
JP6942028B2 JP2017204653A JP2017204653A JP6942028B2 JP 6942028 B2 JP6942028 B2 JP 6942028B2 JP 2017204653 A JP2017204653 A JP 2017204653A JP 2017204653 A JP2017204653 A JP 2017204653A JP 6942028 B2 JP6942028 B2 JP 6942028B2
Authority
JP
Japan
Prior art keywords
field
vector
comparison
comparison device
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017204653A
Other languages
English (en)
Other versions
JP2019079198A (ja
Inventor
祐 宮崎
祐 宮崎
隼人 小林
隼人 小林
晃平 菅原
晃平 菅原
正樹 野口
正樹 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2017204653A priority Critical patent/JP6942028B2/ja
Publication of JP2019079198A publication Critical patent/JP2019079198A/ja
Application granted granted Critical
Publication of JP6942028B2 publication Critical patent/JP6942028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、比較装置、比較方法および比較プログラムに関する。
従来、様々な情報が有する特徴をベクトル等の多次元量に変換し、多次元量同士を比較することで、情報同士の類似度を判定する技術が知られている。このような技術の一例として、画像情報を所定の空間上におけるベクトルと見做し、ベクトル同士の比較結果に基づいて、画像情報の分類を行う技術が知られている。
特開2009−211693号公報
しかしながら、上記の従来技術では、分野間の比較精度の向上が難しい。
例えば、第1分野に属する複数の情報と第2分野に属する複数の情報とを比較することで、第1分野と第2分野との類似性を判断するといった手法が考えられる。しかしながら、上述した技術では、情報同士を比較しているに過ぎないため、分野間の類似性を精度よく比較しているとは言えない場合がある。
本願は、上記に鑑みてなされたものであって、分野間の比較精度を向上させることを目的とする。
本願に係る比較装置は、指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換部と、前記共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較部とを有することを特徴とする。
実施形態の一態様によれば、分野間の比較精度を向上させることができる。
図1は、実施形態に係る比較装置が実行する比較処理の一例を示す図である。 図2は、実施形態に係る比較装置の構成例を示す図である。 図3は、実施形態に係るベクトル空間データベースに登録される情報の一例を示す図である。 図4は、実施形態に係る比較装置が設定する係数の一例を説明する図である。 図5は、実施形態に係る比較処理の流れの一例を説明するフローチャートである。 図6は、ハードウェア構成の一例を示す図である。
以下に、本願に係る比較装置、比較方法および比較プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る比較装置、比較方法および比較プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1.比較装置の一例〕
まず、図1を用いて、比較装置が実行する比較処理の一例について説明する。図1は、実施形態に係る比較装置が実行する比較処理の一例を示す図である。図1では、比較装置10は、以下に説明する比較処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
より具体的には、比較装置10は、インターネット等の所定のネットワークN(例えば、図2参照)を介して、任意の利用者が使用する情報処理装置100、200と通信可能である。例えば、比較装置10は、情報処理装置100との間で、複数の単語(以下、「単語群」と記載する場合がある。)を含む文章の送受信を行う。また、比較装置10は、比較対象となる分野の指定や、後述する固定単語の指定等を情報処理装置200から受付ける。
なお、情報処理装置100、200は、スマートフォンやタブレット等のスマートデバイス、デスクトップPC(Personal Computer)やノートPC等、サーバ装置等の情報処理装置により実現されるものとする。
〔1−1.情報処理装置が実行する比較処理について〕
ここで、比較装置10は、情報処理装置200から指定された分野(以下、「指定分野」と記載する場合がある。)の比較を行い、比較結果に基づいて、指定分野が類似するか否かを判定する。例えば、比較装置10は、w2v(word2vec)やs2v(sentence2vec)等、単語や文章をベクトル(多次元量)に変換し、変換後のベクトルを用いて入力された文章に対応する応答を出力する。より具体的な例を挙げると、比較装置10は、情報処理装置100から受付けた文章を分野ごとに選別する。そして、比較装置10は、ある分野に属する文章から、形態素解析等の技術を用いて単語群を抽出し、抽出した単語をベクトルに変換する。すなわち、比較装置10は、分野ごとに異なるベクトル空間を生成する。
ここで、単語同士の類似性を比較するための、同じベクトル空間上におけるベクトル同士の内積を用いる技術が考えられる。しかしながら、このような方法では、分野そのものが類似するか否かを判定することができない。また、各分野に属する単語を同じベクトル空間上におけるベクトルに変換し、各ベクトルの類似性に基づいて、分野同士が類似するか否かを判断する手法が考えられる。しかしながら、このような方法では、比較対象となる分野に属する単語同士を比較しているに過ぎず、分野そのものが有する概念を比較しているとは言えない。
そこで、比較装置10は、以下の比較処理を実行する。まず、比較装置10は、指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する。そして、比較装置10は、共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する。例えば、比較装置10は、共通基底ベクトルをカーネル関数によって作成する。すなわち、比較装置10は、分散表現空間を再生核ヒルベルト空間に変換する。
例えば、比較装置10は、再生核ヒルベルト空間を用いて、指定分野に属する情報に基づいた有限次元ベクトル空間(単語ベクトル空間)であって、カーネル関数によって、指定分野を示す有限次元ベクトル空間を無限次元ベクトル空間(関数空間)に変換する。そして、比較装置10は、無限次元ベクトルの比較結果に基づいて、指定分野同士を比較する。
例えば、比較装置10は、あらかじめ各分野に属する情報のベクトルに基づいて、各分野に属する情報を示す有限次元ベクトル空間(単語ベクトルによる分散表現空間)を生成する。そして、比較装置10は、指定分野に属する情報を示す有限次元ベクトルを無限次元ベクトルに変換(関数)する。より具体的には、比較装置10は、各分野に属する情報のベクトルを示す離散的な関数を生成しておき、指定分野に属する情報のベクトルを無限次元化する。例えば、比較装置10は、指定分野に属する情報のベクトルを、所定のカーネル関数(例えば、カーネルトリック)を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定分野の無限次元ベクトルとする。
〔1−2.比較処理の概念について〕
以下、数式を用いて、比較装置10が実行する比較処理の概念について説明する。例えば、比較装置10は、医療、物理学、料理等、様々な分野に関連する文章をその分野に属する文章として取得する。より具体的な例を挙げると、比較装置10は、医療関連の論文や特許公報等を医療分野に関連する文章として取得し、レシピや料理の歴史を示す論文等を料理に関連する文章として取得する。そして、比較装置10は、各文章から単語を抽出し、抽出した単語の相対的な関連性に基づいて、単語をベクトル化する。すなわち、比較装置10は、各分野ごとに異なる単語ベクトル空間を生成する。なお、このようなベクトル化については、w2v等の任意のベクトル化技術が採用可能である。
ここで、ある1つの分野と対応する単語ベクトル空間(分散表現空間)における単語ベクトルを、離散ベクトルxを入力とする関数自体がすでに連続であるので、離散値xを固定した関数を汎関数を利用して求めることで、離散ベクトルxの無限次元化(連続化)をすることができる。
ここで、ベクトルxを固定ベクトルとした場合について関数f(x)の汎関数Fは、以下の式(1)を満たすこととなる。
Figure 0006942028
このような汎関数Fは、ベクトルxを固定ベクトルとすることで関数fを入力とし、関数f(x)と同じ結果を示す関数であると見做すことができる。ここで、関数f(・)がある分野に属する情報を示すことを考えると、このような汎関数Fは、関数f(・)と対応する分野に属する情報をさらに抽象化した情報であると見做すことができる。このため、汎関数Fは、対応する分野の概念の指標となりえる。そこで、比較装置10は、汎関数の入力となるf(・)を対応する分野を示す関数であると見做し、指定分野のf(・)を比較することで、指定分野の類似性を判断する。
ここで、無限次元ベクトルから値を作り出すためには、無限次元ベクトル間の内積空間を用いることとなる。そこで、比較装置10は、ある分野に属する情報のベクトルxを無限次元ベクトルに変換することで、固定ベクトルxのの無限次元ベクトル化(すなわち、連続化(関数化))を図る。例えば、比較装置10は、所定のカーネル関数を用いて、ベクトルxを無限次元ベクトル化する。
例えば、比較装置10は、ある分野に属する情報を示す関数f(x)を、以下の式(2)に従って変換する。すなわち、比較装置10は、リースの表現定理を用いて、関数f(x)を関数fとカーネル関数k(・、x)の内積として表す。ここで、k(・、x)は、式(3)で定義されるカーネル関数である。
Figure 0006942028
ここで、カーネル関数式(3)は、2つの入力ベクトルをカーネル関数として再帰的に用い、カーネル関数によって変換される2つの入力ベクトルの無限次元ベクトル同士の内積から値を求めるための関数である。
Figure 0006942028
ここで、ある分野に属する各ベクトルxをカーネル関数を用いて無限次元ベクトル化した場合、その分野と対応する関数fは、各無限次元ベクトルk(・、x)を基底とするベクトルの合成ベクトルと見做すことができる。一方、比較対象となる複数の分野、すなわち、複数の指定分野のそれぞれに同じ単語のベクトルが含まれる場合、各指定分野をその単語の無限次元化ベクトルにより表すことで、各指定分野を同じ基底ベクトルによる合成ベクトルへと変換することができる。
そこで、比較装置10は、指定された分野に属する情報のうち指定された情報のベクトルを、所定のカーネル関数を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。ここで、分野ごとの基底ベクトルを実現するため、比較装置10は、指定分野と単語との組ごとに異なる係数が積算されたベクトルであって、カーネル関数により無限次元化されたベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。そして、比較装置10は、指定分野と対応する合成ベクトル同士の内積の値に基づいて、指定分野が類似するか否かを判定する。
例えば、比較装置10は、第1指定分野の無限次元ベクトルと、第2指定分野の無限次元ベクトルとの内積(コサイン積)を算出する。そして、比較装置10は、算出した内積の値を第1指定分野と第2指定分野との類似度の指標とし、第1指定分野と第2指定分野とが類似するか否かを判定する。例えば、比較装置10は、算出した内積の値が所定の閾値を超える場合は、第1指定分野と第2指定分野とが類似すると判定する。そして、比較装置10は、判定結果を出力する。
すなわち、比較装置10は、ベクトルを無限次元化することで、離散的な対応関数f(x)を連続的な関数へと変換し、変換後の関数の汎関数同士を比較することで、分野そのものが有する概念同士の比較を実現する。換言すると、比較装置10は、再生核ヒルベルト空間を用いることで、ある分野に属する情報の離散的な分散表現を連続値に変換し、変換した連続値を関数と見做してその汎関数を用いることで、その分野に属する分散表現の分散表現、すなわち、その分野の抽象表現を取得する。そして、比較装置10は、取得した抽象表現同士を比較するので、分野間の比較精度を向上させることができる。
〔1−3.比較処理の一例について〕
以下、図1を用いて、比較装置10が実行する比較処理の一例について説明する。例えば、比較装置10は、情報処理装置100から学習データを受付ける(ステップS1)。このような学習データには、各分野に属する文献等の文章が含まれる。このような場合、比較装置10は、単語を所定の次元数でベクトル化し、各分野ごとのベクトル空間を学習する(ステップS2)。例えば、比較装置10は、w2v等の各種ベクトル化技術を用いて、単語#1や単語#2等をベクトル#1やベクトル#2へと変換する。ここで、比較装置10は、分野と単語の組ごとにベクトルを生成する。例えば、比較装置10は、第1分野の文章に含まれている単語#1と、第2分野の文章に含まれている単語#2とをそれぞれ異なる単語として学習する。
続いて、比較装置10は、情報処理装置200から、指定分野と固定単語とを受付ける(ステップS3)。より具体的には、比較装置10は、比較対象となる複数の分野と、複数の固定単語との指定を受付ける。ここで、固定単語とは、関数を汎関数へと変換する際に固定するベクトルと対応する単語である。このような場合、比較装置10は、再生核ヒルベルト空間を用いて、指定分野のベクトルを無限次元ベクトルに変換し、無限次元ベクトルを基底とする合成ベクトルであって、指定分野と対応する合成ベクトル同士の内積に基づいて、指定分野の類似性を比較する。
まず、比較装置10は、固定単語のベクトルを指定分野ごとに特定する(ステップS4)。例えば、比較装置10は、単語#1が固定単語である場合、第1指定分野における単語#1のベクトルxと、第2指定分野における単語#1のベクトルxとを特定する。そして、比較装置10は、カーネル関数を用いて、各ベクトルxを無限次元ベクトルに変換する(ステップS5)。例えば、比較装置10は、各分野と単語との組合せごとに異なる係数を設定しておく。そして、比較装置10は、カーネル関数と、第1指定分野と対応する係数とを用いて、第1指定分野における各固定単語のベクトルを無限次元ベクトルに変換し、変換後の無限次元ベクトルの和を、その第1指定分野の対応関数の無限次元ベクトルとする。また、例えば、比較装置10は、カーネル関数と、第2指定分野と対応する係数とを用いて、第2指定分野における各固定単語のベクトルを無限次元ベクトルに変換し、変換後の無限次元ベクトルの和を、その第2指定分野の対応関数の無限次元ベクトルとする。
そして、比較装置10は、無限次元ベクトル同士の内積に基づいて、指定分野の類似度を算出する(ステップS6)。例えば、比較装置10は、第1指定分野と第2指定分野との比較を行う再、単語t、s、wが固定単語として指定された場合、単語tと第1指定分野との組に対応する係数α、単語tと第2指定分野との組に対応する係数α、単語sと第1指定分野との組に対応する係数β、単語sと第2指定分野との組に対応する係数β、単語wと第1指定分野との組に対応する係数γ、および単語wと第2指定分野との組に対応する係数γを設定する。
また、比較装置10は、第1指定分野における単語tの無限次元ベクトルと係数αとの積であるαk(・、t)、第1指定分野における単語sの無限次元ベクトルと係数βとの積であるβk(・、s)、および第1指定分野における単語wの無限次元ベクトルと係数γとの積であるγk(・、w)の和を、第1指定分野と対応する無限次元ベクトルfとする。また、比較装置10は、第2指定分野における単語tの無限次元ベクトルと係数αとの積であるαk(・、t)、第2指定分野における単語sの無限次元ベクトルと係数βとの積であるβk(・、s)、および第2指定分野における単語wの無限次元ベクトルと係数γとの積であるγk(・、w)の和を、第2指定分野と対応する無限次元ベクトルfとする。
そして、比較装置10は、無限次元ベクトルfと無限次元ベクトルfとの内積を算出し、算出した内積の値に基づいて、指定分野の類似度を判定する。その後、比較装置10は、比較結果を情報処理装置200へと提供する(ステップS7)。
〔1−4.比較処理のバリエーションについて〕
ここで、比較装置10は、無限次元ベクトル同士の内積に基づいて、指定分野の類似度を判定するのであれば、任意の処理を実行して良い。例えば、比較装置10は、無限次元ベクトル同士のコサイン積の値そのものを、類似度として採用してもよい。また、比較装置10は、類似度を示す数値を比較結果として提供してもよい。また、比較装置10は、類似度が所定の閾値を超えるか否かに基づいて、指定分野が類似するか否かを判定し、判定結果を比較結果として出力してもよい。
また、比較装置10は、任意の数の指定分野の指定を受付けてよく、任意の数の固定単語の指定を受付けてよい。また、比較装置10は、固定単語の指定を受付けずともよい。例えば、比較装置10は、各指定分野に共通して属する単語を特定し、特定した単語の中から所定の数の単語を固定単語としてランダムに選択してもよい。
なお、上述した比較処理は、ベクトル化することができる情報、すなわち、多次元量に変換することができる情報であれば、任意の情報の分野の比較について適用可能である。例えば、比較装置10は、静止画像、動画像、音声が有する特徴量を情報として採用することで、静止画像、動画像、音声が属する分野同士の比較を実現してもよい。また、比較装置10は、ニュース等の各種コンテンツが有する特徴量を情報として採用することで、各種コンテンツが属する分野同士の比較を行ってもよい。また、比較装置10は、利用者の属性(例えば、デモグラフィック属性やサイコグラフィック属性)に基づいて各利用者を示すベクトルを生成し、生成したベクトルを用いて、上述した比較処理を実行することで、利用者が属する分野(例えば、趣味趣向に応じたクラスタ等)同士の比較を行ってもよい。
〔2.比較装置の構成〕
以下、上記した比較処理を実現する比較装置10が有する機能構成の一例について説明する。図2は、実施形態に係る比較装置の構成例を示す図である。図2に示すように、比較装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、情報処理装置100、200との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、ベクトル空間データベース31を記憶する。
ベクトル空間データベース31には、各情報のベクトルが登録されている。例えば、図3は、実施形態に係るベクトル空間データベースに登録される情報の一例を示す図である。図3に示す例では、ベクトル空間データベース31には、「カテゴリID(Identifier)」、「カテゴリ」、「単語」、「単語ベクトル」等といった項目を有する情報が登録される。
ここで、「カテゴリID」とは、単語が属する分野を識別する識別子である。また、「カテゴリ」とは、単語が属する分野を示す情報である。また、「単語」とは、対応付けられたカテゴリIDが示す分野に属する単語である。また、「単語ベクトル」とは、対応付けられた単語のベクトルである。
例えば、図3に示す例では、カテゴリID「ID#1」、カテゴリ「カテゴリ#1」、対応関数「対応関数#1」、単語「単語#1−1」、および単語ベクトル「ベクトル#1−1」が対応付けて登録されている。このような情報は、カテゴリID「ID#1」が示す分野が「カテゴリ#1」である旨を示す。また、このような情報は、単語「単語#1−1」が「カテゴリ#1」に属しており、この単語のベクトルが「ベクトル#1−1」である旨を示す。
なお、図3に示す例では、「カテゴリ#1」、「単語#1−1」、「ベクトル#1−1」といった概念的な値について記載したが、実際には、カテゴリを示す文字列、対応関数、単語となる文字列、およびベクトルが登録されることとなる。また、例えば、ベクトル空間データベース31には、各ベクトルをカーネル関数により無限次元化した無限次元ベクトルが登録されていてもよい。
図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、比較装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部40は、生成部41、変換部42、比較部43、および出力部44を有する。生成部41は、所定の分野に属する情報のベクトルに基づいて、その分野に属する情報を示す関数を生成する。また、生成部41は、所定の分野に属する情報のベクトルを示す離散的な関数を生成する。
例えば、生成部41は、情報処理装置100から学習データとして各分野に属する文献を取得すると、形態素解析等の技術を用いて文献から単語を抽出し、抽出した単語をw2v等の技術を用いてベクトル化する。そして、生成部41は、その文献が属する分野と対応付けて抽出した単語とベクトルとをベクトル空間データベース31に登録する。
変換部42は、再生核ヒルベルト空間を用いて、各分野ごとに、その分野に属する各単語のベクトルを係数を乗算した共通基底ベクトルで表現する対応関数(係数ベクトル:共通基底の座標で表現されたベクトル)として生成する。例えば、変換部42は、指定分野に属する情報のベクトル(単語ベクトル)を無限次元ベクトルに変換する。より具体的には、変換部42は、指定分野に属する情報のベクトル(固定単語のベクトル)をベクトル空間データベース31から読み出す。
そして、変換部42は、指定分野に属する情報のベクトル、すなわち、固定単語のベクトルを、所定のカーネル関数を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定分野の無限次元ベクトルとする。より具体的には、変換部42は、指定された分野に属する情報のうち指定された情報のベクトルを、所定のカーネル関数を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。ここで、変換部42は、無限次元化したベクトルに対して、分野と単語との組ごとに異なる係数が積算されたベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。
ここで、図4は、実施形態に係る比較装置が設定する係数の一例を説明する図である。なお、図4に示す例では、固定単語と各分野と対応する関数を概念的に説明するため、各単語のベクトルを横軸に取り、各分野と対応する関数を概念的に投影した。また、図4に示す例では、第1分野と対応する関数fを実線で、第2分野と対応する関数fを長点線で、第3分野fと対応する関数を短点線で概念的に記載した。
このような図において、単語tを固定した場合、分野に依存しない抽象的な単語tの分散表現(すなわち、抽象表現)は、図4中Fで示す一点破線に対応する。また、単語sを固定した場合、分野に依存しない抽象的な単語2の分散表現(すなわち、抽象表現)は、図4中Fで示す一点破線に対応する。このような単語tおよび単語sの抽象表現は、各分野の関数となる無限次元ベクトルの基底ベクトルとなる。そこで、比較装置10は、単語tや単語sの抽象表現の線形結合として、各指定分野の関数を学習する。
例えば、図4中Fで示す一点破線と、関数fとの交点は、以下の式(4)で示すことができ、図4中Fで示す一点破線と、関数fとの交点は、以下の式(5)で示すことができる。すなわち、図4中Fで示す一点破線と、任意の関数fとの交点は、以下の式(6)で示すことができる。
Figure 0006942028
Figure 0006942028
Figure 0006942028
同様に、図4中Fで示す一点破線と、関数fとの交点は、以下の式(7)で示すことができる。
Figure 0006942028
このような基底ベクトルの和で各分野の関数を示した場合、各分野の概念を示す無限次元ベクトルを得ることができる。この結果、比較装置10は、各分野の概念を示す無限次元ベクトル同士の内積を用いて、各分野の概念同士が類似するか否かを判定することができる。
図2に戻り、説明を続ける。比較部43は、無限次元ベクトルの比較結果に基づいて、指定された分野同士を比較する。例えば、比較部43は、変換部42から各指定分野と対応する無限次元ベクトルを受付ける。すなわち、比較部43は、各指定分野の概念を示す関数と対応する無限次元ベクトルを受付ける。このような場合、比較部43は、各指定分野の無限次元ベクトル同士の内積の値を算出し、算出した内積の値に基づいて、指定分野が類似するか否かを判定する。
出力部44は、比較結果を出力する。例えば、出力部44は、比較部43による比較結果を受付けると、受付けた比較結果を情報処理装置200へと出力する。
〔3.比較装置が実行する処理の流れの一例〕
次に、図5を用いて、比較装置10が実行する比較処理の流れの一例について説明する。図5は、実施形態に係る比較処理の流れの一例を説明するフローチャートである。例えば、比較装置10は、単語をベクトル化し(ステップS101)、各分野の対応関数を学習する(ステップS102)。続いて、比較装置10は、指定分野と固定単語の指定を受付けたか否かを判定し(ステップS103)、受付けていない場合は(ステップS103:No)、受付けるまで待機する。一方、比較装置10は、指定分野と固定単語の指定を受付けた場合は(ステップS103:Yes)、固定単語をベクトル化し(ステップS104)、カーネル関数を用いて、対応関数を無限次元ベクトル化する(ステップS105)。そして、比較装置10は、無限次元ベクトルの内積に基づいて、比較対象分野を比較し(ステップS106)、比較結果を提供して(ステップS107)、処理を終了する。
〔4.変形例〕
上記では、比較装置10による比較処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、比較装置10が実行する比較処理のバリエーションについて説明する。
〔4−1.装置構成〕
上述した例では、比較装置10は、比較装置10内で比較処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、比較装置10は、指定分野や固定単語の指定を受付けるフロントエンドサーバと比較処理を行うバックエンドサーバが協調して動作することにより、実現されてもよい。例えば、比較装置10は、生成部41、変換部42、比較部43を有するフロントエンドサーバと、出力部44を有するバックエンドサーバにより実現されてもよい。また、比較装置10は、ベクトル空間データベース31を外部のストレージサーバに記憶させてもよい。
〔4−2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔5.プログラム〕
また、上述してきた実施形態に係る比較装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が比較装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、モデル)を実行することにより、制御部40の機能を実現する。
〔6.効果〕
上述したように、比較装置10は、指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する。そして、比較装置10は、共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する。また、比較装置10は、共通基底ベクトルをカーネル関数によって作成する。
このように、比較装置10は、分散表現空間を再生核ヒルベルト空間に変換する。例えば、再生核ヒルベルト空間を用いて、指定された分野に属する情報に基づいた関数であって、その分野を示す関数を無限次元ベクトルに変換する。そして、比較装置10は、無限次元ベクトルの比較結果に基づいて、指定された分野同士を比較する。この結果、比較装置10は、指定分野そのものが有する概念同士を比較することができるので、分野同士の比較精度を向上させることができる。
また、上述した処理の結果、比較装置10は、指定分野に属する情報の分散表現の抽象表現、すなわち、指定分野の抽象表現を用いて、指定分野同士を比較することができるので、分野そのものの比較を実現することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
10 比較装置
20 通信部
30 記憶部
31 ベクトル空間データベース
40 制御部
41 生成部
42 変換部
43 比較部
44 出力部
100、200 情報処理装置

Claims (5)

  1. 指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換部と、
    前記分野共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較部と
    を有することを特徴とする比較装置。
  2. 前記変換部は、前記分野共通基底ベクトルをカーネル関数によって作成する
    ことを特徴とする請求項1に記載の比較装置。
  3. 前記変換部は、前記分散表現空間を再生核ヒルベルト空間に変換する
    ことを特徴とする請求項2に記載の比較装置。
  4. 比較装置が実行する比較方法であって、
    指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換工程と、
    前記分野共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較工程と
    を含むことを特徴とする比較方法。
  5. 指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換手順と、
    前記分野共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較手順と
    をコンピュータに実行させるための比較プログラム。
JP2017204653A 2017-10-23 2017-10-23 比較装置、比較方法および比較プログラム Active JP6942028B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017204653A JP6942028B2 (ja) 2017-10-23 2017-10-23 比較装置、比較方法および比較プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017204653A JP6942028B2 (ja) 2017-10-23 2017-10-23 比較装置、比較方法および比較プログラム

Publications (2)

Publication Number Publication Date
JP2019079198A JP2019079198A (ja) 2019-05-23
JP6942028B2 true JP6942028B2 (ja) 2021-09-29

Family

ID=66627952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017204653A Active JP6942028B2 (ja) 2017-10-23 2017-10-23 比較装置、比較方法および比較プログラム

Country Status (1)

Country Link
JP (1) JP6942028B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム

Also Published As

Publication number Publication date
JP2019079198A (ja) 2019-05-23

Similar Documents

Publication Publication Date Title
US11521110B2 (en) Learning apparatus, learning method, and non-transitory computer readable storage medium
JP6537340B2 (ja) 要約生成装置、要約生成方法、及び要約生成プログラム
US11055338B2 (en) Dynamic facet tree generation
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
JP7032233B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6321845B1 (ja) 付与装置、付与方法および付与プログラム
US11061943B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
JP7354014B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7058556B2 (ja) 判定装置、判定方法、および判定プログラム
Rad et al. Radial basis functions approach on optimal control problems: a numerical investigation
JP6775366B2 (ja) 選択装置、および選択方法
JP6942028B2 (ja) 比較装置、比較方法および比較プログラム
JP6963988B2 (ja) 提供装置、提供方法および提供プログラム
US11055345B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
JP6400037B2 (ja) 判定装置、および判定方法
JP6680655B2 (ja) 学習装置および学習方法
JP7071213B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6680656B2 (ja) 判定装置および判定方法
JP6756648B2 (ja) 生成装置、生成方法および生成プログラム
JP2019021210A (ja) 特定装置および特定方法
JP2018156332A (ja) 生成装置、生成方法および生成プログラム
Tofighi et al. Stability analysis of three-dimensional (3-D) systems using a wave advanced model (WAM)
US10664517B2 (en) Constructing, evaluating, and improving a search string for retrieving images indicating item use
JP2020004054A (ja) 出力装置、出力方法および出力プログラム
JP2020149664A (ja) 処理装置、処理方法及び処理プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210907

R150 Certificate of patent or registration of utility model

Ref document number: 6942028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250