JP2020086692A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2020086692A
JP2020086692A JP2018217030A JP2018217030A JP2020086692A JP 2020086692 A JP2020086692 A JP 2020086692A JP 2018217030 A JP2018217030 A JP 2018217030A JP 2018217030 A JP2018217030 A JP 2018217030A JP 2020086692 A JP2020086692 A JP 2020086692A
Authority
JP
Japan
Prior art keywords
expression
data
information processing
region
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018217030A
Other languages
English (en)
Inventor
伊藤 聡
Satoshi Ito
聡 伊藤
小坂谷 達夫
Tatsuo Kosakaya
達夫 小坂谷
悠太 白川
Yuta Shirakawa
悠太 白川
進 窪田
Susumu Kubota
進 窪田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018217030A priority Critical patent/JP2020086692A/ja
Priority to US16/548,113 priority patent/US20200159743A1/en
Publication of JP2020086692A publication Critical patent/JP2020086692A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】データの多義性を考慮して、異なるモダリティに属するデータの類似度を算出できるようにする。【解決手段】実施形態の情報処理装置は、第1入力部と第2入力部と第1変換部と第2変換部と算出部とを備える。第1入力部は、第1のモダリティに属する第1のデータの入力を受け付ける。第2入力部は、前記第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付ける。第1変換部は、前記第1のデータを、D(Dは自然数)次元ベクトル空間内の点又は第1の領域を表す第1の表現に変換する。第2変換部は、前記第2のデータを、前記D次元ベクトル空間内の第2の領域を表す第2の表現に変換する。算出部は、前記第1の表現と前記第2の表現とを用いて、前記第1のデータと前記第2のデータとの間の類似度を算出する。【選択図】図1

Description

本発明の実施形態は情報処理装置、情報処理方法及びプログラムに関する。
テキストを入力して画像を検索する、あるいは画像を入力してテキストを検索するといったように、あるモダリティのデータを入力として、異なるモダリティのデータを検索するクロスモーダル検索が従来から知られている。高精度なクロスモーダル検索を行うためには、何らかの手段で、互いに異なるモダリティに属するデータ間の類似度を適切に算出することが重要である。
しかしながら、従来の技術では、各モダリティのデータを共通空間上の1点に埋め込んで類似度を算出していた。そのため、従来の技術では、データの多義性を考慮して、異なるモダリティに属するデータの類似度を算出することができなかった。
特開2016−134175号公報
L.Wang,Y.Li,J.Huang and S.Lazebnik,Learning Two−Branch Neural Networks for Image−Text matching,PAMI,2018.(DOI:10.1109/TPAMI.2018.2797921)
本発明が解決しようとする課題は、データの多義性を考慮して、異なるモダリティに属するデータの類似度を算出することができる情報処理装置、情報処理方法及びプログラムを提供することである。
実施形態の情報処理装置は、第1入力部と第2入力部と第1変換部と第2変換部と算出部とを備える。第1入力部は、第1のモダリティに属する第1のデータの入力を受け付ける。第2入力部は、前記第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付ける。第1変換部は、前記第1のデータを、D(Dは自然数)次元ベクトル空間内の点又は第1の領域を表す第1の表現に変換する。第2変換部は、前記第2のデータを、前記D次元ベクトル空間内の第2の領域を表す第2の表現に変換する。算出部は、前記第1の表現と前記第2の表現とを用いて、前記第1のデータと前記第2のデータとの間の類似度を算出する。
実施形態の情報処理装置の機能構成の例を示す図。 従来の類似度算出方法の例を示す図。 実施形態の類似度算出方法の例を示す図。 実施形態の領域同士の距離dの例を示す図。 実施形態の点と領域との距離dの例を示す図。 実施形態の点と領域との距離dの例を示す図。 実施形態の情報処理方法の例を示すフローチャート。 実施形態の情報処理装置のハードウェア構成の例を示す図。
以下に添付図面を参照して、情報処理装置、情報処理方法及びプログラムの実施形態を詳細に説明する。
[機能構成の例]
図1は実施形態の情報処理装置10の機能構成の例を示す図である。実施形態の情報処理装置10は、第1入力部11と、第2入力部12と、第1変換部13と、第2変換部14と、算出部15とを備える。
第1入力部11は、第1のモダリティに属する第1のデータの入力を受け付ける。ここで、モダリティとは、ある種の情報(あるいは、その情報を表現するための形式)のことである。具体的には、モダリティは、例えば視覚情報、音声情報、環境音情報、言語情報(テキスト)、動き情報、生体情報、及び、センサ情報等である。視覚情報は、例えば静止画及び動画等である。動き情報は、モーションキャプチャデータ、及び、画像のオプティカルフロー等である。生体情報は、例えば脈拍等である。センサ情報は、例えば触覚情報、匂い情報、及び、機械の状態を表す情報等である。
第1のモダリティは、上述の任意の1つのモダリティを指す。第1のデータの形式は、第1のモダリティの種類によって変わるが、基本的にはテンソルデータである。例えば、グレイスケールの静止画は、2次元テンソルデータで表現できる。また例えば、グレイスケールの動画は、3次元テンソルデータで表現できる。また例えば、音声情報及び環境音情報は、1次元テンソルデータで表現できる。
他のモダリティに関しても同様にテンソルデータで表現できる。モダリティをテンソルデータで表現する方法について、言語情報(テキスト)を具体例にして補足する。テキストデータの例は、例えば“A bird is flying over the sea.”である。もちろん、“A bird is flying over the sea.”はテンソルデータではないので、テンソルデータへ変換する手段が必要となる。この変換には、一般によく知られたWord2Vecモデル及びSentence2Vec(あるいはDoc2Vecモデル)等を用いることができる。
Word2Vecモデルは、単語をベクトル表現に変換するモデルである。Sentence2Vecは、文章をベクトル表現に変換するモデルである。
なお、第1入力部11は、第1のデータの入力をテンソルデータとして受け付けてもよい。また、第1のデータがテキストデータ等の場合には、第1入力部11が、第1のデータをテンソルデータに変換してもよい。
第2入力部12は、第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付ける。例えば、第1のモダリティが静止画であれば、第2のモダリティは静止画以外のモダリティの何れかである(例えば、テキストデータ)。
第1変換部13は、第1のデータを、D(Dは自然数)次元ベクトル空間内の点又は第1の領域を表す第1の表現Xに変換する。D次元ベクトル空間は、例えばユークリッド空間である。実施形態の説明では、D次元ベクトル空間がユークリッド空間である場合について説明する。
第1の表現Xが点を表す場合、第1の表現Xは下記式(1)により表される。
Figure 2020086692
ここでTは、ベクトルの転置を示す。また、Rは、D次元ユークリッド空間を示す。
次に、第1の表現Xが領域を表す場合について説明する。実施形態では、第1の表現Xが領域を表す場合、D次元ユークリッド空間内の領域として表される。
領域による表現では、点による表現と異なり、パラメトリックに表現可能な様々なモデルを用いることができる。領域による表現は、例えば超平面、超多面体、超球、及び、これらの補集合等である。また例えば、領域による表現は、K本(KはDより小さい自然数)の基底で張られるK次元部分空間でもよい。また例えば、領域による表現は、超平面によって区分された領域でもよく、これは下記式(2)により表現される。
Figure 2020086692
ここで、θ及びbは超平面を定めるパラメータである。さらに、領域による表現は、前述した領域による表現を複数用意し、それらを和集合あるいは積集合として組み合わせることにより表されてもよい。組み合わされる領域は、同一種類のモデルでも異なる種類のモデルでもよい。具体的には、例えば3個の超平面の積集合でもよいし、超多面体及び超球の和集合でもよい。
また、第1のデータから第1の表現Xへの変換には、ニューラルネットワークモデルの一種であるエンコーダモデルを用いればよい。例えば、上述の式(2)の領域表現を用いる場合であれば、(θ,b)の合計D+1個のパラメータを出力するエンコーダモデルを用いればよい。また、K次元部分空間を領域表現として用いる場合であれば、K×D個のパラメータを出力するエンコーダモデルを用いればよい。
一方、第2変換部14では、第2のデータを、D次元ベクトル空間内の第2の領域を表す第2の表現Yに変換する。実施形態の説明では、D次元ベクトル空間は、D次元ユークリッド空間である。第2の領域の説明については、第1の領域の説明と同様なので省略する。
ここで、領域による表現の利点について、例を用いて説明する。
図2は従来の類似度算出方法の例を示す図である。図2は、各モダリティのデータを共通空間上の1点に埋め込んで類似度が算出される場合の例を示す。図2の例では、第1のモダリティが静止画21及び22であり、第2のモダリティがテキスト31〜33である。
静止画21は、第1の表現Xに対応する。静止画22は、第1の表現Xに対応する。テキスト31は、第2の表現Yに対応する。テキスト32は、第2の表現Yに対応する。テキスト33は、第2の表現Yに対応する。図2の例では、第1の表現X及びX、並びに、第2の表現Y〜Yは、3次元ユークリッド空間により表された共通空間上の点である。
静止画21に含まれる鳥の羽の色は、黒いが、静止画22に含まれる鳥の羽の色は黒ではない。したがって、テキスト31は、静止画21及び22の両方に対応する。一方、テキスト32及び33は、静止画21に対応するが、静止画22には対応しない。対応するペアの類似度を高くし、かつ、対応しないペアの類似度は低くすることは、従来の点による表現では難しい。具体的には、図2のような例では、例えば点同士の距離に応じて類似度を定める場合、対応するペアの類似度を高くし、かつ、対応しないペアの類似度は低くなるようにすることが難しい。
図3は実施形態の類似度算出方法の例を示す図である。図3は、第2変換部14が、テキスト31〜33を点による表現ではなく、領域による表現に変換した場合の例を示す。
静止画21は、第1の表現Xに対応する。静止画22は、第1の表現Xに対応する。テキスト31は、第2の表現Yに対応する。テキスト32は、第2の表現Yに対応する。テキスト33は、第2の表現Yに対応する。図3の例では、第1の表現X及びXは、3次元ユークリッド空間により表された共通空間上の点である。一方、第2の表現Y〜Yは、3次元ユークリッド空間により表された共通空間上の領域である。
第2の表現Y〜Yを領域により表現した場合には、上述の図2で説明した対応関係を満たしていることが確認できる。すなわち、テキスト31を表す第2の表現Yは、点により表された第1の表現X及びXを含むため、静止画21及び22の両方に対応する。一方、テキスト32を表す第2の表現Yは、点により表された第1の表現Xを含むため、静止画21に対応するが、点により表された第1の表現Xを含まないため、静止画22に対応しない。テキスト33を表す第2の表現Yについても、テキスト32を表す第2の表現Yと同様である。
図3の例に示すような性質を満たす点表現及び領域表現は、例えば前述のエンコーダモデルを、機械学習を用いて最適化することで得られる。すなわち、類似度を高くしたい第1のデータと第2のデータとのペアについて、類似度が高くなるようにエンコーダモデルのパラメータを最適化する。さらに同時に、類似度を低くしたいペアについては、類似度が低くなるように最適化することを行ってもよい。最適化には、確率的勾配法などが利用できる。
図1に戻り、算出部15は、第1の表現Xと第2の表現Yとを用いて、第1のデータと第2のデータとの間の類似度sを算出する。類似度sは、例えば第1の表現Xと第2の表現Yとの間の距離dが大きいほど単調非増加する値である。距離dに関して単調非増加する値は、最も単純にはs=−dであるが、もちろんこれ以外にも無数に存在する。なお、単調非増加は、d<d’ならば、s(d)≧s(d’)であることを示す。ここで、s(d)は、dに基づいて定められる類似度を示し、s(d’)は、d’に基づいて定められる類似度を示す。
第1の表現Xと第2の表現Yとが領域により表現されている場合、距離dは、次式(3)で表される。
Figure 2020086692
なお、|x|は、xのL2ノルムを表す。
図4Aは実施形態の領域同士の距離dの例を示す図である。図4Aの例は、上述の数式(3)による距離dを示す。
第1の表現Xが点による表現され、第2の表現Yが領域により表現される場合、点を表すベクトルをxとすれば、上述の数式(3)は次式(4)の通り簡単になる。
Figure 2020086692
図4Bは実施形態の点と領域との距離dの例を示す図である。図4Bの例は、上述の数式(4)による距離dを示す。
上述の数式(3)及び(4)から分かるように、距離dは、第1の表現Xが第2の表現Yに含まれる場合は0となるため、従来の場合(図2参照)に比べて距離が0となる確率が格段に高い。図4A及びBの距離dに応じた類似度を用いてクロスモーダル検索を行うと、距離0(すなわち類似度が最高)のサンプルが複数存在した場合、検索結果の順位に差が付けられないことになる。距離0のサンプルであれば、どれが検索結果として得られてもよいという場合はこのままでよいが、検索結果を順位付けしたい場合は、対策が必要である。この対策に関して、第1の表現Xが点表現である場合と、領域表現である場合とに分けて、述べる。
<第1の表現Xが点表現である場合>
まず、第1の表現Xが点の場合、第2の表現Yである領域の外側から前記点への距離dを、下記数式(5)により定義する。
Figure 2020086692
ここで、Vは、D次元ユークリッド空間全体を表す。
図5は実施形態の点と領域との距離dの例を示す図である。図5の例は、上述の数式(5)による距離dを示す。
上述の数式(4)及び(5)から明らかなように、距離d及びdの何れか片方は0となることに注意する。さらに、下記数式(6)により距離dを定める。
Figure 2020086692
距離dは、距離dが0となる場合においても距離dによって0以外の値となり得る。したがって、距離dが大きいほど単調非増加する値を類似度sとして用いることで、前述の検索結果の順位付けの問題を解決できる。この場合における類似度sは、第1の表現Xと第2の表現Yとの間の距離dが大きいほど単調非増加し、かつ、第2の表現Yである領域の外側から第1の表現Xである点への距離dが大きいほど単調非減少する値となっていることに注意する。
<第1の表現Xが領域表現である場合>
次に、第1の表現Xが領域表現の場合について述べる。この場合、第1の表現X(第1の領域X)と、第2の表現Y(第2の領域Y)との重なり度合いrを考える。例えば、重なり度合いrとして下記数式(7)を用いることができる。
Figure 2020086692
ここで、|A|は集合Aの体積を表す。
また例えば、重なり度合いrとして、数式(7)の分母を無くした下記数式(8)を用いてもよい。
Figure 2020086692
また例えば、重なり度合いrとして、上述の数式(5)をxに関して最大化する下記数式(9)を用いてもよい。
Figure 2020086692
そして、第1の表現Xが領域表現の場合は、上述の数式(6)と同様にして、下記数式(10)により距離dを定める。
Figure 2020086692
距離dは、距離dが0となる場合においても重なり度合いrによって0以外の値となり得る。したがって、距離dが大きいほど単調非増加する値を類似度sとして用いることで、前述の検索結果の順位付けの問題を解決できる。この場合における類似度sは、第1の表現Xと第2の表現Yとの間の距離dが大きいほど単調非増加し、かつ、第1の表現X(第1の領域X)と第2の表現Y(第2の領域Y)との重なり度合いrが大きいほど単調非減少する値となっていることに注意する。
[情報処理方法の例]
図6は実施形態の情報処理方法の例を示すフローチャートである。はじめに、第1入力部11が、第1のモダリティに属する第1のデータの入力を受け付ける(ステップ101)。次に、第2入力部12が、第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付ける(ステップ102)。
次に、第1変換部13が、第1のデータを第1の表現Xに変換する(ステップ103)。次に、第2変換部14が、第2のデータを第2の表現Yに変換する(ステップ104)。
次に、算出部15が、第1の表現Xと第2の表現Yとを用いて、第1のデータと第2のデータとの間の類似度を算出する(ステップ105)。
以上、説明したように、実施形態の情報処理装置10では、第1入力部11が、第1のモダリティに属する第1のデータの入力を受け付ける。第2入力部12が、第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付ける。第1変換部13が、第1のデータを、D(Dは自然数)次元ベクトル空間内の点又は第1の領域を表す第1の表現Xに変換する。第2変換部14が、第2のデータを、D次元ベクトル空間内の第2の領域を表す第2の表現Yに変換する。そして、算出部15が、第1の表現Xと第2の表現Yとを用いて、第1のデータと第2のデータとの間の類似度sを算出する。
これにより実施形態の情報処理装置10によれば、データの多義性を考慮して、異なるモダリティに属するデータの類似度を算出することができる。具体的には、異なる2つのモダリティのデータのうち少なくとも一方を領域表現に変換して、共通空間(D次元ベクトル空間)上に埋め込むことにより、データに多義性がある場合においても、適切な類似度算出が可能となる。
最後に、実施形態の情報処理装置10のハードウェア構成の例について説明する。
[ハードウェア構成の例]
図7は実施形態の情報処理装置10のハードウェア構成の例を示す図である。
実施形態の情報処理装置10は、制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306を備える。制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305及び通信装置306は、バス310を介して接続されている。
制御装置301は、補助記憶装置303から主記憶装置302に読み出されたプログラムを実行する。主記憶装置302は、ROM(Read Only Memory)、及び、RAM(Random Access Memory)等のメモリである。補助記憶装置303は、HDD(Hard Disk Drive)、及び、メモリカード等である。
表示装置304は表示情報を表示する。表示装置304は、例えば液晶ディスプレイ等である。入力装置305は、情報処理装置10を操作するためのインタフェースである。入力装置305は、例えばキーボードやマウス等である。情報処理装置10がスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置304及び入力装置305は、例えばタッチパネルである。通信装置306は、他の装置と通信するためのインタフェースである。
実施形態の情報処理装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、メモリカード、CD−R及びDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
また実施形態の情報処理装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また実施形態の情報処理装置10で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
また実施形態の情報処理装置10のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
実施形態の情報処理装置10で実行されるプログラムは、上述の機能ブロックのうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置301が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置302上にロードされる。すなわち上記各機能ブロックは主記憶装置302上に生成される。
なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。
また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
また実施形態の情報処理装置10の動作形態は任意でよい。実施形態の情報処理装置10を、例えばネットワーク上のクラウドシステムとして動作させてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 情報処理装置
11 第1入力部
12 第2入力部
13 第1変換部
14 第2変換部
15 算出部
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
310 バス

Claims (15)

  1. 第1のモダリティに属する第1のデータの入力を受け付ける第1入力部と、
    前記第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付ける第2入力部と、
    前記第1のデータを、D(Dは自然数)次元ベクトル空間内の点又は第1の領域を表す第1の表現に変換する第1変換部と、
    前記第2のデータを、前記D次元ベクトル空間内の第2の領域を表す第2の表現に変換する第2変換部と、
    前記第1の表現と前記第2の表現とを用いて、前記第1のデータと前記第2のデータとの間の類似度を算出する算出部と、
    を備える情報処理装置。
  2. 前記第1及び第2の領域のそれぞれは、前記D次元ベクトル空間上の少なくとも1つ以上の超平面によって区分された領域、及び、前記D次元ベクトル空間のK(KはDより小さい自然数)次元部分空間の少なくとも一方である、
    請求項1に記載の情報処理装置。
  3. 前記類似度は、前記第1の表現と前記第2の表現との間の距離が大きいほど、単調非増加する値である、
    請求項1又は2に記載の情報処理装置。
  4. 前記類似度は、前記第1の表現が点の場合、前記第2の領域の外側と、前記点との距離が大きいほど、単調非減少する値である、
    請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記類似度は、前記第1の表現が第1の領域の場合、前記第1の領域と前記第2の領域との重なり度合いが大きいほど、単調非減少する値である、
    請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記D次元ベクトル空間は、ユークリッド空間である、
    請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記第1及び第2のモダリティのそれぞれは、視覚情報、音声情報、環境音情報、言語情報、動き情報、生体情報又はセンサ情報である、
    請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 第1のモダリティに属する第1のデータの入力を受け付けるステップと、
    前記第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付けるステップと、
    前記第1のデータを、D(Dは自然数)次元ベクトル空間内の点又は第1の領域を表す第1の表現に変換するステップと、
    前記第2のデータを、前記D次元ベクトル空間内の第2の領域を表す第2の表現に変換するステップと、
    前記第1の表現と前記第2の表現とを用いて、前記第1のデータと前記第2のデータとの間の類似度を算出するステップと、
    を含む情報処理方法。
  9. 前記第1及び第2の領域のそれぞれは、前記D次元ベクトル空間上の少なくとも1つ以上の超平面によって区分された領域、及び、前記D次元ベクトル空間のK(KはDより小さい自然数)次元部分空間の少なくとも一方である、
    請求項8に記載の情報処理方法。
  10. 前記類似度は、前記第1の表現と前記第2の表現との間の距離が大きいほど、単調非増加する値である、
    請求項8又は9に記載の情報処理方法。
  11. 前記類似度は、前記第1の表現が点の場合、前記第2の領域の外側と、前記点との距離が大きいほど、単調非減少する値である、
    請求項8乃至10のいずれか1項に記載の情報処理方法。
  12. 前記類似度は、前記第1の表現が第1の領域の場合、前記第1の領域と前記第2の領域との重なり度合いが大きいほど、単調非減少する値である、
    請求項8乃至11のいずれか1項に記載の情報処理方法。
  13. 前記D次元ベクトル空間は、ユークリッド空間である、
    請求項8乃至12のいずれか1項に記載の情報処理方法。
  14. 前記第1及び第2のモダリティのそれぞれは、視覚情報、音声情報、環境音情報、言語情報、動き情報、生体情報又はセンサ情報である、
    請求項8乃至13のいずれか1項に記載の情報処理方法。
  15. コンピュータを、
    第1のモダリティに属する第1のデータの入力を受け付ける第1入力部と、
    前記第1のモダリティとは異なる第2のモダリティに属する第2のデータの入力を受け付ける第2入力部と、
    前記第1のデータを、D(Dは自然数)次元ベクトル空間内の点又は第1の領域を表す第1の表現に変換する第1変換部と、
    前記第2のデータを、前記D次元ベクトル空間内の第2の領域を表す第2の表現に変換する第2変換部と、
    前記第1の表現と前記第2の表現とを用いて、前記第1のデータと前記第2のデータとの間の類似度を算出する算出部、
    として機能させるためのプログラム。
JP2018217030A 2018-11-20 2018-11-20 情報処理装置、情報処理方法及びプログラム Pending JP2020086692A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018217030A JP2020086692A (ja) 2018-11-20 2018-11-20 情報処理装置、情報処理方法及びプログラム
US16/548,113 US20200159743A1 (en) 2018-11-20 2019-08-22 Information processing device, information processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018217030A JP2020086692A (ja) 2018-11-20 2018-11-20 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2020086692A true JP2020086692A (ja) 2020-06-04

Family

ID=70728311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018217030A Pending JP2020086692A (ja) 2018-11-20 2018-11-20 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
US (1) US20200159743A1 (ja)
JP (1) JP2020086692A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334110A (ja) * 2001-05-11 2002-11-22 Nippon Telegr & Teleph Corp <Ntt> 類似検索方法,類似検索装置および類似検索用プログラム
US9367763B1 (en) * 2015-01-12 2016-06-14 Xerox Corporation Privacy-preserving text to image matching
JP2016134175A (ja) * 2015-01-21 2016-07-25 ゼロックス コーポレイションXerox Corporation ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
JP2017102600A (ja) * 2015-11-30 2017-06-08 日本電信電話株式会社 ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
JP2017207947A (ja) * 2016-05-19 2017-11-24 株式会社 ディー・エヌ・エー 対象物の類似度判定のためのプログラム、システム、及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002334110A (ja) * 2001-05-11 2002-11-22 Nippon Telegr & Teleph Corp <Ntt> 類似検索方法,類似検索装置および類似検索用プログラム
US9367763B1 (en) * 2015-01-12 2016-06-14 Xerox Corporation Privacy-preserving text to image matching
JP2016134175A (ja) * 2015-01-21 2016-07-25 ゼロックス コーポレイションXerox Corporation ワイルドカードを用いてテキスト−画像クエリを実施するための方法およびシステム
JP2017102600A (ja) * 2015-11-30 2017-06-08 日本電信電話株式会社 ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
JP2017207947A (ja) * 2016-05-19 2017-11-24 株式会社 ディー・エヌ・エー 対象物の類似度判定のためのプログラム、システム、及び方法

Also Published As

Publication number Publication date
US20200159743A1 (en) 2020-05-21

Similar Documents

Publication Publication Date Title
JP7193252B2 (ja) 画像の領域のキャプション付加
CN107066464B (zh) 语义自然语言向量空间
EP3549069B1 (en) Neural network data entry system
US11379736B2 (en) Machine comprehension of unstructured text
GB2547068B (en) Semantic natural language vector space
AU2020279921B2 (en) Representative document hierarchy generation
US11481605B2 (en) 2D document extractor
AU2019200270A1 (en) Concept mask: large-scale segmentation from semantic concepts
EP3596666A1 (en) Multi-task multi-modal machine learning model
CN110795525B (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
US20210406266A1 (en) Computerized information extraction from tables
CN107729313A (zh) 基于深度神经网络的多音字读音的判别方法和装置
US10528649B2 (en) Recognizing unseen fonts based on visual similarity
US11880648B2 (en) Automatic semantic labeling of form fields with limited annotations
CN112085041A (zh) 神经网络的训练方法、训练装置和电子设备
CN117501283A (zh) 文本到问答模型系统
JPWO2019187696A1 (ja) ベクトル化装置、言語処理方法及びプログラム
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
US20230230406A1 (en) Facilitating identification of fillable regions in a form
JP2020086692A (ja) 情報処理装置、情報処理方法及びプログラム
US20220366133A1 (en) Training a Model in a Data-Scarce Environment Using Added Parameter Information
CN116997908A (zh) 用于分类类型任务的连续学习神经网络系统训练
CN112883188A (zh) 一种情感分类方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220104