JP2020511719A - 多数のデータ・コーパスからのコグニティブ・インテリジェンス・クエリの作成 - Google Patents

多数のデータ・コーパスからのコグニティブ・インテリジェンス・クエリの作成 Download PDF

Info

Publication number
JP2020511719A
JP2020511719A JP2019550226A JP2019550226A JP2020511719A JP 2020511719 A JP2020511719 A JP 2020511719A JP 2019550226 A JP2019550226 A JP 2019550226A JP 2019550226 A JP2019550226 A JP 2019550226A JP 2020511719 A JP2020511719 A JP 2020511719A
Authority
JP
Japan
Prior art keywords
word vectors
relational database
text
tokens
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019550226A
Other languages
English (en)
Other versions
JP6902106B2 (ja
Inventor
ボードウェカー、ラジェシュ
シュミュエリ、オデッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020511719A publication Critical patent/JP2020511719A/ja
Application granted granted Critical
Publication of JP6902106B2 publication Critical patent/JP6902106B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】多数のデータ・タイプを含むリレーショナル・データベースを適合させるための、コンピュータ実施方法、コグニティブ・インテリジェンス・システム、およびコンピュータ・プログラム製品を提供する。【解決手段】リレーショナル・データベース内の非テキスト・トークンは、テキスト形式に変換される。テキストは、リレーショナル・データベース内のトークンの関係に基づいて生成される。テキストのための事前トレーニングされた単語ベクトルのセットが、外部データベースから取得される。事前トレーニングされた単語ベクトルのセットは、リレーショナル・データベースと外部データベースとの両方に共通のトークンのために初期化される。事前トレーニングされたベクトルのセットは、構造化照会言語(SQL)クエリとして表現されたコグニティブ・インテリジェンス・クエリを作成するために使用される。リレーショナル・データベースのコンテンツは、リレーショナル・データベースと外部データベースとの両方に共通のトークンのための事前トレーニングされた単語ベクトルのセットを初期化しながらトレーニングに使用される。単語ベクトルの第1のセットは、パラメータを介して制御される更新によって不変または可変であり得る。【選択図】図2

Description

本発明は、一般に検索クエリ(search query)に関し、より詳細には、データベースの検索クエリで使用するために、多数のデータ・コーパスから単語ベクトル(word vector)を作成することに関する。
大量の情報が、リレーショナル・データベース内に潜在的に残っている。たとえば、数値、画像、日付などの異なるタイプのデータを含むデータベース列は、列間(inter-column)および列内(intra-column)の関係の形で重要な潜在情報を有する。さらに、リレーショナル・データ・モデルでは、多くの列間または列内の関係が無視される。さらに、従来の構造化照会言語(SQL)クエリは、基礎となる関係の全体像を欠いているため、データベース関係によってまとめて生成された意味関係(semantic relationship)を抽出して活用することはできない。
本発明は、多数のデータ・タイプを含むリレーショナル・データベースを適合させるためのコグニティブ・インテリジェンス・システム等を提供することを目的とする。
様々な実施形態において、多数のデータ・タイプを含むリレーショナル・データベースを適合させるためのコグニティブ・インテリジェンス・システム(cognitive intelligence system)、コンピュータ・プログラム製品、およびコンピュータ実施方法が開示される。本発明のコンピュータ実施方法の実施形態は、リレーショナル・データベース内の非テキスト・トークンをテキスト形式に変換することと、リレーショナル・データベース内のトークンの関係に基づいてテキストを生成することと、テキストに基づいて事前トレーニングされた単語ベクトルのセットを取得することと、リレーショナル・データベースと外部データベースとの両方に共通のトークンのために事前トレーニングされた単語ベクトルのセットを初期化することと、構造化照会言語(SQL)クエリとして表現されるコグニティブ・インテリジェンス・クエリを作成するために事前トレーニングされたベクトルのセットを使用することとを含む。
添付の図面中、同様の参照番号は、別々の図を通して同一または機能的に類似の要素を指し、以下の詳細な説明とともに本明細書に組み込まれてその一部を形成し、様々な実施形態をさらに例示し、本発明にしたがう様々な原理および利点すべてを説明するために役立つ。
本発明の実施形態による動作環境の一例を例示するブロック図である。 本発明の実施形態による例示的なプロセスを図示する図である。 本発明の実施形態による図2のプロセスの例示的状態を図示する図である。 本発明の実施形態による、第1のリレーショナル・ビューを使用した例示的な顧客分析クエリ(customer analytics query)を図示する図である。 本発明の実施形態による、第2のリレーショナル・ビューを使用した別の例示的な顧客分析クエリを図示する図である。 本発明の一実施形態による、SQLコグニティブ・インテリジェンス(CI)クエリの例を図示する図である。 本発明の実施形態による例示的なCIリレーショナル・システムを図示する図である。
本発明のいくつかの実施形態は、コグニティブ学習を使用してリレーショナル・データベース内のクエリに対する応答を容易にする。たとえば、いくつかのコンピュータ実施方法の実施形態は、リレーショナル・データベースが、標準的なSQLクエリおよび新たなクラスのSQLベースのクエリであるコグニティブ・インテリジェンス(CI)クエリを使用して、意味論的文脈上の類似性を捉え、利用することを可能にする。
概要として、特定の会社の従業員についての情報を含むデータベースのような所与のリレーショナル・データベースについて、典型的なSQLクエリは、クエリとの一致がある場合にのみ結果を返す。たとえば、クエリが、給与、役職などの従業員Aの情報が必要な場合は、従業員Aがいる場合にのみ回答が返される。しかし、本発明によれば、CIクエリを使用して、データベースに埋め込まれた各単語の関係を調べることによって、回答が返され得る。従来のSQLの目的では、名前、年齢、性別、役職などの属性は独立しており、この情報はクエリによって利用されない。
本発明のいくつかの実施形態は、潜在情報を抽出するために、自然言語処理(NLP)からの教師なし機械学習技術である単語埋め込みを使用する。開示された技術は、多次元オンライン分析処理(MOLAP)、Java(R)Script Object Notation(JSON)、拡張マークアップ言語(XML)、カンマ区切り値(CSV)ファイル、スプレッド・シートなどの他のデータ・モデルにも適用可能であり得る。
単語埋め込みでは、d次元ベクトル空間が固定される。テキスト・コーパス(たとえば、文書の集合)内の各単語は、実数の次元dベクトルに関連付けられている。ベクトルへの単語の割り当ては、ベクトルが、単語の意味を符号化できるようにする必要がある。理想的には、2つの単語が密接に関連している(すなわち、類似の意味を有する)場合、それらのベクトルは、同じ方向を向くべきである。言い換えれば、それらのベクトル間の余弦距離(cosine distance)は比較的大きくなければならない。密接に関連した単語とは、テキスト・コーパス内で頻繁にともに現れる(appear together)単語を意味する。ともに現れるとは、近接近を意味する。逆に、単語が無関係の場合、それらのベクトル間の余弦距離は比較的小さくあるべきである。近さの計算のいくつかの改良点は、近さを重み付ける、または文法規則を考慮する、あるいはその両方である。
過去数十年にわたって、word2vecまたはGIoVeなどの自然言語での単語のベクトル表現を計算するためのいくつかの方法が導入されてきた。最近では、word2vecが、生成されたベクトルが、単語の構文上の(syntactic)性質と意味上の(semantic)性質を捉えたものとして注目を集めている。これらのベクトル表現は、単語の意味的な近さと同様に、単語および構文(たとえば、現在−過去、単数−複数)の近さを捉えているように思われる。word2vecで生成されたベクトルの1つの用途は、ベクトル代数計算を使って、王は男性のためのように、女性のためのものは?(答え:女王)のような類推問題を解決することにあった。
ベクトルは、データベース自体について学習することによって、または外部テキストを使用することによって、またはベクトル・ソースを使用することによって生成され得る。リレーショナル・データベースのコンテキストでは、ベクトルを生成する1つの手法は、データベースから生成されたトークン・シーケンスに単語埋め込み方法を適用することであり、各行は文に対応し、関係は文書に対応する。したがって、ベクトルは、データの二重表示、すなわち、リレーショナルおよび(意味のある)テキストを可能にする。次いで、単語埋め込みは、単語の関連付けおよび共起に関して潜在的意味情報を抽出し、それを単語ベクトルに符号化することができる。したがって、ベクトルは、行(文)内の最初の属性間および属性内の関係を捉えてから、文書全体でこれらの関係を集約して、集合的な意味関係を計算する。次いで、符号化された意味情報は、データベースに問い合わせる際に使用され得る。本発明のいくつかの実施形態は、単語埋め込み技術および機能を、従来のデータベース・システムに統合する。
図1は、本発明の実施形態による動作環境100の一例を例示するブロック図である。動作環境100は、本発明の実施形態にしたがって、コグニティブ・インテリジェンス・クエリとともに使用するために多数のデータ・タイプを含むリレーショナル・データベース106を適応させるコグニティブ・データ管理システムとして動作する。図示されるように、構造化照会システム内のコグニティブ・インテリジェンス・クエリ102は、機械学習モデル104を使用して、リレーショナル・テーブルなどの中の構造化データ・ソース106に関する構造化照会言語(SQL)クエリに回答する。クエリに対する応答は、構造化結果108として返され、これもまたリレーショナル・テーブルの形式を採ることができる。機械学習モデル104は、照会されているソース、すなわち構造化データ・ソース106から、WIKIPEDIA(TM)などの外部データ・ソース110から事前トレーニングされたものから、または106のテキスト・コーパスおよび外部ソースからのテキストから構築され得る。
単語ベクトルによって可能にされるコグニティブ能力を用いてシステム100を強化するための例示的なステップが、図2を参照して説明される。これは、図3に図示されるプロセスの例示的な状態を参照してさらに説明されるであろう。
図2は、本発明の実施形態による例示的なプロセスを図示する。以下により詳細に説明される図3は、図2のプロセスの例示的状態を図示する。
以下の例への導入および概要(のみ)として、リレーショナル・データベースのフィールドは、たとえば会社の従業員に関する情報で埋められていると仮定する(たとえば、図3、302参照)。そして、各フィールドのトークン、つまりコンテンツは、データベースの行と列の配置によって関連付けられる。トークンは、文字列、文字列のセットまたはシーケンス、数値、画像または画像のセット(たとえば、ビデオ)、時系列、または日付、緯度および経度などの他のSQLタイプであり得る。さらに(この例のみを目的として)、非見出し行は、特定の従業員に適用可能な情報を含み、各列は、各従業員について同じタイプの情報を含む(たとえば、図3、302、従業員番号(empNum)、名(firstName)、姓(lastName)など参照)と仮定される。
図2に戻ると、ステップ202において、データベース関係から、意味のあるデータが生成/抽出される。リレーショナル・データベース内の関連情報は、従来のSelect、Project、およびJoin演算子を使用して生成された、基礎となる関係のビューによって決定され得る。データベース・ビューを使用すると、データベース・トークンから意味のあるテキストを生成できる。
どの行または列をテキスト化する(すなわち、一連のトークンにする)かは、標準的なリレーショナル演算を使用してビューを定義することによって制御され得る。単語(すなわち、トークン)の意味は、そのネイバーによって推測され得る。ネイバーの文脈は、単語の全体的な意味に寄与する。データベース・トークンの意味は、その行内の他のトークンから決定でき、行の列は、そのビューのスキーマによって決定できる。
たとえば、意味のあるデータを抽出し、マッピング、たとえばリレーショナル行を文に変換することによってモデルを作成することができる(図3、302、304参照)。データベース内のすべてのトークン発生が、モデルの構築に使用される訳ではないように、他のビューを定義することもできる。意味のあるテキスト・モデルの目的の1つは、列を跨ったトークン(単語、項目)間及び列内のトークン間の関係を捉えることである。
ステップ204において、テキスト内のすべての単語(トークン、項目)のための単語ベクトルを生成するために機械学習が使用される。たとえば、アルゴリズムは、意味のあるテキスト内のすべての単語について(オプションで、見出し語を除いて)単語ベクトル表現を計算することができる。いくつかの実施形態では、外部情報源(またはコーパス)もモデル・トレーニングに使用することができる(たとえば、図3、306を参照)。結果として得られる単語の低次元(たとえば、次元=200)の意味表現、すなわち「単語ベクトル」のセットは、それぞれ1つの単語(トークン)を表すことができる。この例では、「単語」が「トークン」の同義語として使用されているが、すべてのトークンが自然言語の意味で有効な単語であるとは限らない。トークンは、文字列、文字列のセットまたはシーケンス、数値、画像または画像のセット(たとえば、ビデオ)、時系列、または日付、緯度および経度などの他のSQLタイプであり得る。単語ベクトルは、リレーショナル・テーブルまたはデータベースから潜在的な属性間/属性内関係を捉え、マルチ・モーダル・リレーショナル・データの統一された表現を提供する。2つの単語は、それらの単語ベクトルが距離メトリック(たとえば、余弦距離)に基づいてベクトル空間内で接近している場合、意味的に類似している(すなわち、類似の意味を有する)と見なすことができる。
ステップ206において、単語ベクトルは、クエリで使用するために記憶される。いくつかの実施形態では、単語ベクトルは、意味のあるテキスト内の各トークンのためのベクトルを含む。ステップ208において、他のテキスト・ソースから生成されたベクトル(たとえば、ステップ204および図3、306を参照)は、オプションで、単独でまたはデータベース・テキスタイル化テキストとともに使用され得る。
ステップ210において、コグニティブ・インテリジェンス(CI)クエリが、データベース関係結果を生成するために使用される。いくつかの実施形態において、CIクエリは、標準的なSQLを使用して表現され得る。いくつかの実施形態は、ユーザ定義関数(UDF)として、ベクトル空間内の単語ベクトルを使用して、CIクエリを可能にする。ステップ210が完了すると、プロセスは終了する。
図3は、本発明の実施形態にしたがって、図2のプロセスの例示的状態を図示する。図示するように、リレーショナル・データベース302内のトークンは、意味のあるテキスト文304に変換される。たとえば、リレーショナル・データベース302の最初の(非見出し)行は、「empNum 119 名 ジョン 姓 スミス 給与 95 所属 マルチメディア 職務 「マネージャ、マルチメディア、エンタテイメント」 評価 「対人スキル良好、時間にルーズ、改善必要」」に変換することができる。意味のあるテキスト文304は、任意の、オプションの外部コーパス306とともに、機械学習204を使用して単語ベクトル308に変換される。ベクトル_ジョン(0,・・・,199)、ベクトル_マルチメディア(0,・・・,199)などの結果として得られる単語ベクトル308は、リレーショナル・データベース310を対象とした拡張SQLクエリ210によって使用され、従来のSQLクエリを使用して、以前は使用できなかった拡張結果を提供する。いくつかの実施形態では、拡張SQLクエリ210は、たとえば外部データベースからの事前計算されたベクトル208の1つまたは複数の集合を反映することができる。
図4は、本発明の実施形態による、第1のリレーショナル・ビューを使用した例示的な顧客分析クエリを示す。図5は、本発明の実施形態による、第2のリレーショナル・ビューを使用した別の例示的な顧客分析クエリを示す。
図4および図5を参照すると、リレーショナル・データベース402が小売店での顧客の購入に関する情報を提供する例が提供されている。図4において、ビューは、データベース402内のすべての非見出しトークン発生を含むテキストを生成する。したがって、ベクトルはトークンごとに作成される。類似の顧客を識別するためのクエリは、各顧客(すなわち、custA,custB,custC,custD)の単語ベクトルを調べる。そのため、custDの場合、関連行(タプル)404は「custD 9/16 ウォルマート ニューヨーク 文房具 「クレヨン、ホルダ」 25」となる。ベクトル空間では、両方ともクレヨンを含む文房具を購入したため、custDの単語ベクトルは、custBの単語ベクトルにより類似している。同様に、custAの単語ベクトルは、両方ともバナナを含む生鮮食品(fresh produce)を購入しているため、custCの単語ベクトルにより類似している。
図5では、モデルが「custID、日付、住所、および金額」に、トークンのみを使用するようにビューが変更されている。custDの行(タプル)502が、「custD 9/16 ニューヨーク 25」に変更された。単語ベクトルは、このビューからテキスト化されたテキスト上に生成される。この場合、類似の顧客を識別するためのクエリは、どちらもニューヨークで9/16に同じ金額で商品を購入しているので、custAは、custDにより類似していると判定するだろう。同様に、どちらの商品も10/16に同じ金額で購入されたため、custBは、custCにより類似している。したがって、使用されるビューまたはモデルによっては、同じクエリのために異なる結果が返される可能性があることに注意されたい。
多数のデータ・タイプのためのサポート
テキストおよび基本的な数値に加えて、CIクエリは、SQLタイプ(たとえば、日付)、および、画像、ビデオ、時系列、緯度および経度、化学構造などのような他の非SQLタイプのためにサポートされる。
実際のクエリ実行戦略(actual query execution strategy)については、2つのアプローチ、単一モデルとアンサンブル(ensemble)とがある。単一モデルアプローチでは、多数のデータ・タイプが、テキストに変換され、単一の単語埋め込みモデルが、すべてのトークンから生成される。アンサンブル・アプローチの場合、異なるデータ・タイプ(たとえば、緯度/経度、画像または時系列)のために、2つ以上の埋め込みモデルまたはクラスタリング戦略(後述)が使用される。デフォルトのクラスタリング・アプローチまたはユーザ提供の類似性関数を使用することができる。結果は、モデルまたはクラスタリング・グループごとに計算され、最終結果は、多数の結果セットをマージして計算される。最終結果は、各クラスタリング・グループの結果を表す行セット間の共通部分を発見することによってマージされる。デフォルトのクラスタリング・アプローチは、K−Meansなどの従来のクラスタリング・アルゴリズムを使用できる。あるいは、緯度および経度フィールドのために空間的類似性関数を使用するなど、特別なタイプのための特殊化された類似性関数を使用してもよい。
数値のためのサポート
数値トークンに意味のあるテキストを提供するための3つのアプローチがある。まず、数値は単純に「column heading_number」形式の型付き文字列に変換される。たとえば、年次日付の列では、2016は「Year_2016」となる。この時点から、プロセスは、リレーショナル・データベース情報を、意味のあるテキストに変換するために上述のように継続する。
第2の手法は、ユーザ制御分類を使用する。たとえば、数値は、低、中、高などの範囲に変換される。ユーザは、範囲内の値を定義する。列内の数値が「column heading_range」形式の文字列になるような範囲を使用して新たなトークンが作成される。したがって、食品中のチョコレートの割合に関する数値を有するリレーショナル・データベースでは、75%が「chocolate_high」になり、18%が「chocolate_low」になる。
第3のアプローチは、ユーザ制御クラスタリングを使用する。データをクラスタ化するために、任意の従来のクラスタ化アルゴリズム(たとえば、K−means、階層的クラスタ化など)を使用することができる。リレーショナル・データベースの列における各数値は、その番号を含むクラスタのIDに置き換えられる。たとえば、売上金額を表す数値を有するリレーショナル・データベースでは、実際の金額は、クラスタIDに変換され、「sales_clusterID」として表される。したがって、5000である実際のトークン値は、「sales_272」として表され、ここで、272は、5000を含むクラスタのクラスタIDである。
画像のためのサポート
画像をテキストに変換するために4つの異なる手法、画像タグ付け(imagetagging)、画像分類、バイナリ比較、またはユーザ指定の類似度関数を使用することができる。各アプローチは、単一モデル、または、アプローチのうちの1つまたは複数が、組み合わせて使用されるアンサンブル・クエリ実行戦略の両方で使用され得る。BABYTALK(TM)またはALCHEMY TAGGER(TM)などの画像タグ付け装置を使用して、画像がタグに変換され得る。これらのテキスト・タグは、埋め込みモデルを生成するために使用され得る。あるいは、画像をクラスタに分類するために、ニューラル・ネットワーク分類モデルが使用され得る。画像は、それらの対応するクラスタ識別子と置き換えられ、埋め込みモデルは、クラスタ情報を使用して構築される。第3のアプローチは単に、バイナリ画像ファイルの類似性を比較することである。この場合、各バイナリ画像についてビットごとの比較が行われ、その結果が、バイナリ類似度尺度を使用して比較される。最後に、ユーザ指定の類似度関数を使用して、画像が、テキストへ変換され得る。BABYTALK(TM)またはALCHEMY TAGGER(TM)などの既存のアプローチが、画像をテキストに変換するために使用され得る。画像がテキストに変換されると、CIクエリを開発するために、上記の方法が使用され得る。
多数のデータ・コーパスからの単語ベクトルの作成
外部で生成された単語ベクトルは、概説する少なくとも4つの手法で利用され得る(当業者には他の可能性も明らかになるであろう)。(1)グーグル・ニュースの単語ベクトル集合によって生成されるもののような外部の事前トレーニングされたベクトルは、新たなモデルを開発する必要なしに、リレーショナル・データベース・コンテンツ上で使用され得る。(2)あるいは、データベース・コンテンツは、外部ソース・ベクトルに共通のトークンのためのベクトルを初期化しながらトレーニングされる。すなわち、共通トークンは、ソース・データベースと外部データベースとの両方に現れる。一般的な単語ベクトルは、学習率(learning rate)または最大変化などのパラメータを介して制御される更新によって不変または可変であり得る。(3)さらに別のオプションは以下の通りである。それぞれが次元D(i)、i=1,・・・,kを有するk個の異なる外部ソースが与えられると、次元D=D(1)+・・・+D(k)のベクトルが合成される。最初のD(1)エントリは、最初のソースのD(1)エントリから初期化され、次のD(2)エントリは、2番目のソースのD(2)エントリから初期化されるという具合に、次に来る各j番目の部分は、対応するj番目のソースで初期化される。個々のソースのためのエントリは重み付けされることができ、たとえば、より古い情報は、より信頼できると見なされ得るので、より高い重み付け値が、より古い情報に与えられ、より低い重み付け値が、より新しい情報に与えられ得る。(4)最後に、第3の手法(3)によって生成されたベクトルを使用して、第2の手法(2)が適用され得る。
さらに、データベース内の個々の列、たとえばlast_nameを暗号化することができる。暗号化されている一般的な単語は、別の単語としても扱われるため、匿名化と同時により多くの情報が提供される。
類似性UDF
2組のベクトルを比較するとき、スカラ類似性値を出力するために、類似性UDFが使用され得る。任意のベクトル対間の類似度は、余弦アルゴリズムと最大ノルム・アルゴリズムを使用して決定されるが、最大ノルムは、個々のベクトル・エントリの寄与に対する感度が高い。結果をランク付けするために、正確な距離が必要とされ得る。一対のベクトル間の距離と、多数の平均距離値とを計算して、全体の類似度値を決定する。
全体的な類似度の計算中に、単語の相対的な順序が保存されているか無視されているので、順序の認識が問題となる可能性がある。場合によっては、順序を意識した類似性が重要である。加えて、n個のベクトルのペアワイズ距離計算のための正確なO(n^2)計算は、計算上高価である。実際には、サンプル実装は良好に機能する。ただし、GPUまたはSIMD加速は、大規模なベクトル・セットのために必要であり得る。大規模なデータ・セットの場合は、LSHと正確な計算との組合せが必要である。
CIクエリの例:世界食料事実データベース
世界食料事実データベース(WFFD)は、Kaggleからのオープン・ソース・データ・セットである。それは、様々な国からの食品に関する情報を記憶している。WFFDはテキスト・フィールドと数値フィールドとの両方が豊富である。約50MBのテキストが含まれ、65,000行および150列を超える。列は、成分、カテゴリ、栄養素などの情報を含んでいる。
CIクエリ用のWFFDを準備するために、栄養素が、グループ(ビタミン、アミノ酸など)に区分されている。数値は、K−meansを使用してクラスタにグループ化され、word2Vecモデルは、200次元を使用してトレーニングされている。類似性クエリは、成分(テキスト)、栄養素(テキスト)、および国(テキスト)のために実行された。単一モデルとアンサンブル・アプローチとの両方が使用された。WFFD内の数値フィールドは、表1に示されている。
Figure 2020511719
WFFDに問合せするためのSQL CIクエリの例が、図6に示されている。SQLは、同様の成分と同様の栄養素を有する同様の国にある項目を要求する。従来のリレーショナル演算602が、国と成分のクエリのための値の一致および比較のために使用される一方、新たなコグニティブUDF 604(すなわち、proximityAvgMergedData)が栄養素間の類似性を発見するために使用されることに留意されたい。さらに、値が特定のしきい値を超える場合はproximityAvgMergedData UDFを使用して類似性が検出され、特定のしきい値を下回る場合は非類似性が検出されることに留意されたい。
類似の国々において類似の成分および類似の栄養素を有する製品の結果を表2に示す。たとえば、ケロッグのSpecial K originalは、米国のMarket PantryのCrispy Flakes with Red Berries Cerealに類似している。
Figure 2020511719
異なる国々において類似の成分および類似の栄養素を有する製品の結果が表3に示される。たとえば、米国のNutella−Ferreroは、仏国のNutella−750gに類似している。
Figure 2020511719
コグニティブ・インテリジェンス・クエリの使用ケース
CIクエリは、購買パターン(たとえば、購入項目、頻度、費やされた金額など)に基づいて類似の顧客を発見するための顧客分析など、いくつかの小売ケースにおいて使用され得る。加えて、CIクエリは、所与の商品と似ているが、成分、価格、栄養価などの機能が異なる代替商品を提案するための機能ベースの代替商品のために使用され得、従来のマーケット・バスケットの推奨よりも、よりインテリジェントな推奨が可能となる。CIクエリはまた、現在販売されている関連項目または類似項目の売上げに基づいて、導入されている新たな項目の売上げを予測するために外部データを使用する高度な売上予測に使用され得る。CIクエリはまた、たとえばソーシャル・メディア、リコール通知などからの入力を使用して、外部データを使用して過去の売上データを分析するためにも使用され得る。意味論的関連付けは、「パン:ヌテッラ::チップ:?」、回答は、ある地域では「サルサ」、別の地域では「グアカモーレ」のような関係を決定するために、類推クエリによって実行され得る。
健康管理分野でも、CIクエリは、様々な用途において使用され得る。たとえば、CIクエリは、連邦薬物局(FDA)ウェブサイトからの処方ラベル情報(たとえば、成分、副作用など)を使用して薬物−薬物相互作用の判定に役立ち、有害な薬物反応を同定することができる。患者類似性分析も、マルチ・モーダルCIクエリを使用して判定され得る。たとえば、潜在的に類似の投薬量を有する異なるブランド名(たとえば、ADVIL(TM)、MOTRIN(TM))を有する類似の薬物を服用している患者が同定され得る。また、X線または磁気共鳴映像法(MRI)スキャンなどの異なるスキャンを受けたが、同様の薬物療法を受けている患者は、テキスト、数値、および画像データのための単一のCIクエリを使用して同定され得る。心電図(ECG)は異なるが、類似の薬物療法を受けている患者は、テキスト、数値、および時系列データのための単一のCIクエリを使用して同定され得る。CIクエリは、食品を与えられた場合に、似たような成分で砂糖が少ない代替食品を発見するなど、栄養に関するアドバイスを提供するためにも使用され得る。リコール通知が患者に影響を与えたこと、または類似の薬の購入が確認されたことなど、外部データを使用して予測を提供することができる。
CIクエリは、情報技術(IT)インシデント・チケット分析など、他の分野でも使用され、類似のチケット・パターン(たとえば、チケットのタイプ、解決ステータス、問題の原因など)を有するアカウントを発見することができる。金融分野(たとえば、消費者向け銀行業務、投資顧問など)では、CIクエリを使用して、類似のトランザクションを有する顧客を発見し、所与の投資戦略のための類似の投資計画を識別し、または所与の顧客のためのトランザクションにおける異常を検出することができる。保険業界では、CIクエリは、テキストおよび画像特徴を使用して、類似または非類似の請求を識別するため、または患者プロファイル(たとえば、症状、診断など)を分析することによって、リスク・プロファイルを評価するために使用され得る。モノのインターネット(IoT)の場合、CIクエリは、類似のエネルギ・パターンを有する世帯またはホテルの部屋を発見することを支援し得る。人事(HR)管理では、CIクエリを使用して、類似したスキルを有し、類似または異なる雇用履歴を持つ従業員を発見することができる。CIクエリは、顧客ケア、意味論的ウェブ、ログ分析、スマート・シティなどの他の業界でも使用され得る。これらは、本発明の実施形態を用いたCIクエリの多くの用途のうちのほんのいくつかにすぎない。
コグニティブ・インテリジェンス・サーバ
図7を参照して、本発明の実施形態で利用され得る情報処理システム700を例示するブロック図が図示されている。情報処理システム702は、本発明の1つまたは複数の実施形態を実施するように構成された適切に構成された処理システム(たとえば、コグニティブ・データ管理システム100)に基づいている。本発明の実施形態における情報処理システム702として、任意の適切に構成された処理システムが使用され得る。情報処理システム702の構成要素は、1つまたは複数のプロセッサまたは処理ユニット704、システム・メモリ706、およびシステム・メモリ706を含む様々なシステム構成要素をプロセッサ704に結合するバス708を含むことができるが、それらに限定されない。
バス708は、メモリ・バスまたはメモリ・コントローラ、周辺バス、加速グラフィック・ポート、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のうちの1つまたは複数を表す。限定ではなく例として、そのようなアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ・エレクトロニクス規格協会(VESA)ローカル・バス、および周辺機器相互接続(PCI)バスを含む。
図7には図示されていないが、メイン・メモリ706は、図1に図示される構造化データ・ソース106、コグニティブ・インテリジェンス・クエリ102、機械学習モデル104、および構造化結果108を含み得る。これらの構成要素のうちの1つまたは複数は、プロセッサ704内に存在するか、または別個のハードウェア構成要素であり得る。メイン・メモリ706は、ランダム・アクセス・メモリ(RAM)710、またはキャッシュ・メモリ712、あるいはその両方などの揮発性メモリの形態のコンピュータ・システム可読媒体も含むことができる。情報処理システム702はさらに、他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ・システム記憶媒体を含むことができる。ほんの一例として、記憶システム714は、1つまたは複数のソリッド・ステート・ディスク、または磁気媒体(典型的には「ハード・ドライブ」と呼ばれる)、あるいはその両方などの非リムーバブルまたはリムーバブルな不揮発性媒体から読み書きするために提供され得る。リムーバブルな不揮発性磁気ディスク(たとえば「フロッピー(R)ディスク」)との間で読み書きするための磁気ディスク・ドライブ、およびCD−ROM、DVD−ROM、または他の光学媒体のようなリムーバブルな不揮発性光ディスクとの間で読み書きするための光ディスク・ドライブが提供され得る。そのような場合には、各々は、1つまたは複数のデータ媒体インターフェースによってバス708に接続することができる。メモリ706は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセットを有する少なくとも1つのプログラム製品を含むことができる。
プログラム・モジュール718のセットを有するプログラム/ユーティリティ716は、例として、限定ではなく、メモリ706に、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データとして記憶され得る。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、あるいはそれらの何らかの組合せのそれぞれは、ネットワーキング環境の実装を含み得る。プログラム・モジュール718は、一般に、本発明の実施形態の機能、または方法、あるいはその両方を実行する。
情報処理システム702はまた、1つまたは複数の外部デバイス720(キーボード、ポインティング・デバイス、ディスプレイ722など)、ユーザが情報処理システム702と対話することを可能にする1つまたは複数のデバイス、またはコンピュータ・システム/サーバ702、あるいはその両方が1つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(たとえば、ネットワーク・カード、モデムなど)と通信することができる。そのような通信は、I/Oインターフェース724を介して生じ得る。それでもなお、情報処理システム702は、ネットワーク・アダプタ726を介して、ローカル・エリア・ネットワーク(LAN)、一般的な広域ネットワーク(WAN)、または公衆ネットワーク(たとえば、インターネット)、あるいはその組合せのような1つまたは複数のネットワークと通信することができる。図示されるように、ネットワーク・アダプタ726は、バス708を介して、情報処理システム702の他の構成要素と通信する。他のハードウェア、またはソフトウェア構成要素、あるいはその両方もまた、情報処理システム702とともに使用され得る。例は、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、データ・アーカイブ・ストレージ・システムを含むが、これらに限定されない。図示されていないが、追加のグラフィック処理ユニット(GPU)が、バス708の近傍にあり、コプロセッサとして機能し得る。
非限定的な実施形態
当業者に理解されるように、本発明の態様は、システム、方法、またはコンピュータ・プログラム製品として具現化され得る。したがって、本発明の態様は、全体がハードウェアの実施形態、全体がソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、または、本明細書では「回路」、「モジュール」、または「システム」と呼ばれ得るソフトウェアおよびハードウェアの態様を組み合わせた実施形態の形式を採用し得る。
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(または複数の媒体)を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持し記憶することができる有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、またはこれらの任意の適切な組合せであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読出専用メモリ(ROM)、消去可能プログラマブル読出専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読出専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリー・スティック、フロッピー(R)・ディスク、パンチ・カードのような機械的に符号化されたデバイス、または記録された命令を有する溝の隆起構造、および上記の任意の適切な組合せを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を伝播する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、または、ワイヤを介して送信される電気信号などの一時的な信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング/処理デバイスへ、または、たとえばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、ワイヤレスネットワーク、あるいはその組合せのようなネットワークを介して、外部コンピュータまたは外部記憶デバイスへダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイア・ウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備え得る。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用の構成データ、または、Smalltalk(R)、C++などのようなオブジェクト指向プログラミング言語や、「C」プログラミング言語または類似のプログラミング言語のような手続型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードまたはオブジェクト・コードのいずれかであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上、部分的にユーザのコンピュータ上、独立型ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上および部分的にリモート・コンピュータ上で、または全体的にリモート・コンピュータまたはサーバ上で実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続することができるか、または(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに接続することができる。いくつかの実施形態では、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、電子回路をパーソナル化するためにコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行し得る。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図、またはブロック図、あるいはその両方を参照して本明細書で説明される。フローチャート図、またはブロック図、あるいはその両方の各ブロック、ならびにフローチャート図、またはブロック図、あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることを理解されよう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供され、これによって、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行する命令が、フローチャート、またはブロック図ブロックまたは複数のブロック、あるいはその組合せで指定された機能/動作を実施するための手段を作成できる機械を製造できるようになる。これらのコンピュータ可読プログラム命令は、特定の方式で機能するようにコンピュータ・プログラム可能データ処理装置、または他のデバイス、あるいはその両方に命令することができるコンピュータ可読記憶媒体に記憶され得、これによって、記憶された命令を有するコンピュータ読出可能な記憶媒体が、フローチャート、またはブロック図ブロックまたは複数のブロック、あるいはその組合せで指定された機能/動作の態様を実施する命令を含む製造物品を備えられるようになる。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ実施プロセスを生成するためにコンピュータ、他のプログラム可能な装置、または他のデバイス上において、一連の動作ステップを実行させ、これによって、コンピュータ、他のプログラム可能な装置、または他のデバイス上で実行される命令が、フローチャート、またはブロック図ブロックまたは多数のブロック、あるいはその組合せで指定された機能/動作を実行できるようになる。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施のアーキテクチャ、機能、および動作を例示している。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を備えたモジュール、セグメント、または命令の一部を表し得る。いくつかの代替実装形態では、ブロックに示されている機能は、図に示されている順序とは異なる順序で生じ得る。たとえば、連続して図示されている2つのブロックは、実際には、実質的に同時に実行されてもよく、または関連する機能に応じて、しばしば逆の順序で実行されてもよい。ブロック図、またはフローチャート図の各ブロック、あるいはその両方、およびブロック図、またはフローチャート図、あるいはその両方におけるブロックの組合せは、指定された機能または動作を実行する専用ハードウェア・ベースのシステムによって実施され得るか、または、専用ハードウェアとコンピュータ命令の組合せを実行し得ることにも留意されたい。
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本明細書で使用されるとき、単数形「a」、「an」、および「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図されている。本明細書で使用されるとき、「備える」、または「備えている」、あるいはその両方の用語は、述べられた特徴、完全体、ステップ、動作、要素、または構成要素、あるいはその組合せの存在を特定するが、1つまたは複数の他の特徴、完全体、ステップ、動作、要素、構成要素、またはそれらのグループ、あるいはその組合せの存在または追加を排除しないことがさらに理解されるだろう。
本発明の説明は、例示および説明の目的で提示されているが、網羅的であること、または開示された形態での本発明に限定されることを意図するものではない。本発明の範囲および思想から逸脱することなく、多くの変更および変形が当業者には明らかであろう。本実施形態は、本発明の原理および実際の応用を最もよく説明するため、そして企図される特定の用途に適するように様々な変更を加えた様々な実施形態について当業者が本発明を理解できるようにするために選択および説明された。
100 動作環境
102 コグニティブ・インテリジェンス・クエリ
104 機械学習モデル
106 構造化データ・ソース
108 構造化結果
110 外部データ・ソース

Claims (21)

  1. 多数のデータ・タイプを含むリレーショナル・データベースを適合させるためのコンピュータ実施方法であって、
    前記リレーショナル・データベース内の非テキスト・トークンをテキスト形式に変換することと、
    前記リレーショナル・データベース内のトークンの関係に基づいてテキストを生成することと、
    事前トレーニングされた単語ベクトルのセットを取得することと、
    前記リレーショナル・データベースと外部データベースとの両方に共通のトークンのために、事前トレーニングされた単語ベクトルの前記セットを初期化することと、
    構造化照会言語(SQL)クエリとして表現されるコグニティブ・インテリジェンス・クエリを作成するために事前トレーニングされたベクトルの前記セットを使用することと
    を含む、コンピュータ実施方法。
  2. 事前トレーニングされた単語ベクトルの前記セットを使用して、前記コグニティブ・インテリジェンス・クエリを、前記リレーショナル・データベースに適用することをさらに含む、請求項1に記載のコンピュータ実施方法。
  3. 前記リレーショナル・データベースと前記外部データベースとの両方に共通のトークンのための事前トレーニングされた単語ベクトルの前記セットを初期化しながら、前記リレーショナル・データベースのコンテンツについてトレーニングすることをさらに含む、請求項1に記載のコンピュータ実施方法。
  4. 事前トレーニングされた単語ベクトルの前記セットは不変である、請求項1に記載のコンピュータ実施方法。
  5. 事前トレーニングされた単語ベクトルの前記セットは、パラメータを介して制御される更新によって可変である、請求項1に記載のコンピュータ実施方法。
  6. 複数の外部データベースからのテキストに基づいて、予備単語ベクトルの複数のセットを取得して、事前トレーニングされた単語ベクトルの前記セットを形成することと、
    前記リレーショナル・データベースと、対応する外部データベースとの両方に共通のトークンのための予備単語ベクトルの各セットを初期化しながら、前記リレーショナル・データベースのコンテンツについてトレーニングすることと
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  7. 予備単語ベクトルの各セットを使用して生成されたクエリ結果に、重み付け値を適用することをさらに含む、請求項6に記載のコンピュータ実施方法。
  8. 予備単語ベクトルの各セットを使用して生成されたクエリ結果のための前記重み付け値は、互いに異なる、請求項7に記載のコンピュータ実施方法。
  9. 前記重み付け値は、予備単語ベクトルの対応するセットの古さにしたがって変動する、請求項8に記載のコンピュータ実施方法。
  10. 前記テキスト内のトークンに対して単一の単語埋め込みモデルを適用することによって、前記テキストに基づいて単語ベクトルのセットを生成することと、
    単語ベクトルの前記セットを、事前トレーニングされた単語ベクトルの前記セットとマージして、単語ベクトルの包括的なセットを形成することと、
    単語ベクトルの前記包括的なセットを使用して、前記コグニティブ・インテリジェンス・クエリを、前記リレーショナル・データベースに適用することと
    をさらに含む、請求項1に記載のコンピュータ実施方法。
  11. コグニティブ・インテリジェンス・システムであって、
    コンピュータ命令を記憶したメモリと、
    前記メモリと動作可能に結合されプロセッサと
    を備え、前記プロセッサは、
    リレーショナル・データベース内の非テキスト・トークンを、テキスト形式に変換し、
    前記リレーショナル・データベース内のトークンの関係に基づいてテキストを生成し、
    事前トレーニングされた単語ベクトルのセットを取得し、
    前記リレーショナル・データベースと外部データベースとの両方に共通のトークンのために事前トレーニングされた単語ベクトルの前記セットを初期化し、
    構造化照会言語(SQL)クエリとして表現されたコグニティブ・インテリジェンス・クエリを作成するために、事前トレーニングされたベクトルの前記セットを使用する、コグニティブ・インテリジェンス・システム。
  12. 前記リレーショナル・データベースと前記外部データベースとの両方に共通のトークンのための単語ベクトルの第1のセットを初期化しながら、前記プロセッサはさらに、前記リレーショナル・データベースのコンテンツについてトレーニングする、請求項11に記載のコグニティブ・インテリジェンス・システム。
  13. 前記プロセッサはさらに、
    複数の外部データベースからのテキストに基づいて、予備単語ベクトルの複数のセットを取得して、事前トレーニングされた単語ベクトルの前記セットを形成し、
    前記リレーショナル・データベースと、対応する外部データベースとの両方に共通のトークンのための予備単語ベクトルの各セットを初期化しながら、前記リレーショナル・データベースのコンテンツについてトレーニングする、請求項11に記載のコグニティブ・インテリジェンス・システム。
  14. 前記プロセッサはさらに、予備単語ベクトルの各セットを使用して生成されたクエリ結果に、重み付け値を適用する、請求項13に記載のコグニティブ・インテリジェンス・システム。
  15. 予備単語ベクトルの各セットを使用して生成されたクエリ結果のための前記重み付け値は、互いに異なる、請求項14に記載のコグニティブ・インテリジェンス・システム。
  16. 前記プロセッサはさらに、
    前記テキスト内のトークンに対して単一の単語埋め込みモデルを適用することによって、前記テキストに基づいて単語ベクトルのセットを生成し、
    単語ベクトルの前記セットを、事前トレーニングされた単語ベクトルの前記セットとマージして、単語ベクトルの包括的なセットを形成し、
    単語ベクトルの前記包括的なセットを使用して、前記コグニティブ・インテリジェンス・クエリを、前記リレーショナル・データベースに適用する、請求項14に記載のコグニティブ・インテリジェンス・システム。
  17. 多数のデータ・タイプを含むリレーショナル・データベースを適合させるためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、前記プログラム命令は、処理回路によって実行可能であり、前記処理回路に対して、
    前記リレーショナル・データベース内の非テキスト・トークンをテキスト形式に変換させ、
    前記リレーショナル・データベース内のトークンの関係に基づいてテキストを生成させ、
    事前トレーニングされた単語ベクトルのセットを取得させ、
    前記リレーショナル・データベースと外部データベースとの両方に共通のトークンのために、事前トレーニングされた単語ベクトルの前記セットを初期化させ、
    構造化照会言語(SQL)クエリとして表現されるコグニティブ・インテリジェンス・クエリを作成するために事前トレーニングされたベクトルの前記セットを使用させる、コンピュータ・プログラム製品。
  18. プロセッサに対して、前記リレーショナル・データベースと前記外部データベースとの両方に共通のトークンのための単語ベクトルの第1のセットを初期化しながら、前記リレーショナル・データベースのコンテンツをトレーニングさせるプログラム命令をさらに備えた、請求項17に記載のコンピュータ・プログラム製品。
  19. プロセッサに対して、
    複数の外部データベースから、前記テキストのための予備単語ベクトルの複数のセットを取得して、事前トレーニングされた単語ベクトルの前記セットを形成させ、
    前記リレーショナル・データベースと、対応する外部データベースとの両方に共通のトークンのための予備単語ベクトルの各セットを初期化しながら、前記リレーショナル・データベースのコンテンツについてトレーニングさせる
    プログラム命令をさらに備えた、請求項17に記載のコンピュータ・プログラム製品。
  20. プロセッサに対して、
    前記テキスト内のトークンに対して単一の単語埋め込みモデルを適用することによって、前記テキストに基づいて単語ベクトルのセットを生成させ、
    単語ベクトルの前記セットを、事前トレーニングされた単語ベクトルの前記セットとマージして、単語ベクトルの包括的なセットを形成させ、
    単語ベクトルの前記包括的なセットを使用して、前記コグニティブ・インテリジェンス・クエリを、前記リレーショナル・データベースに適用させる
    プログラム命令をさらに備えた、請求項17に記載のコンピュータ・プログラム製品。
  21. コンピュータ・プログラムであって、前記プログラムがコンピュータで実行されたとき、請求項1ないし10のいずれかに記載の方法を実行するように適合されたプログラムコード手段を備えたコンピュータ・プログラム。
JP2019550226A 2017-03-20 2017-12-12 多数のデータ・コーパスからのコグニティブ・インテリジェンス・クエリの作成 Active JP6902106B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/463,053 2017-03-20
US15/463,053 US10984030B2 (en) 2017-03-20 2017-03-20 Creating cognitive intelligence queries from multiple data corpuses
PCT/IB2017/057817 WO2018172840A1 (en) 2017-03-20 2017-12-12 Creating cognitive intelligence queries from multiple data corpuses

Publications (2)

Publication Number Publication Date
JP2020511719A true JP2020511719A (ja) 2020-04-16
JP6902106B2 JP6902106B2 (ja) 2021-07-14

Family

ID=63519517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019550226A Active JP6902106B2 (ja) 2017-03-20 2017-12-12 多数のデータ・コーパスからのコグニティブ・インテリジェンス・クエリの作成

Country Status (5)

Country Link
US (1) US10984030B2 (ja)
JP (1) JP6902106B2 (ja)
CN (1) CN110383263B (ja)
GB (1) GB2574359A (ja)
WO (1) WO2018172840A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817509B2 (en) * 2017-03-16 2020-10-27 Massachusetts Institute Of Technology System and method for semantic mapping of natural language input to database entries via convolutional neural networks
JP7204431B2 (ja) * 2018-11-08 2023-01-16 株式会社野村総合研究所 単語ベクトルリスト生成装置
US11410031B2 (en) 2018-11-29 2022-08-09 International Business Machines Corporation Dynamic updating of a word embedding model
US10664527B1 (en) * 2019-01-18 2020-05-26 PolyAI Limited Response retrieval system and method
US11275769B2 (en) * 2019-03-28 2022-03-15 Ncr Corporation Data-driven classifier
US20210019296A1 (en) * 2019-07-19 2021-01-21 Surescripts, Llc System and method for data de-duplication and augmentation
CN110941717B (zh) * 2019-11-22 2023-08-11 深圳马可孛罗科技有限公司 客票规则解析方法、装置、电子设备及计算机可读介质
US11762894B2 (en) * 2021-11-29 2023-09-19 International Business Machines Corporation Event management in computer system
CN116401336B (zh) * 2023-03-31 2024-03-29 华院计算技术(上海)股份有限公司 认知智能查询方法及装置、计算机可读存储介质、终端

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548749A (en) 1993-10-29 1996-08-20 Wall Data Incorporated Semantic orbject modeling system for creating relational database schemas
US5657259A (en) 1994-01-21 1997-08-12 Object Technology Licensing Corp. Number formatting framework
CA2253744C (en) * 1998-11-10 2004-08-24 Joint Technology Corporation Indexing databases for efficient relational querying
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6507846B1 (en) * 1999-11-09 2003-01-14 Joint Technology Corporation Indexing databases for efficient relational querying
SG96597A1 (en) * 2000-02-17 2003-06-16 Ibm Archiving and retrieval method and apparatus
US6829606B2 (en) * 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
US20040064449A1 (en) * 2002-07-18 2004-04-01 Ripley John R. Remote scoring and aggregating similarity search engine for use with relational databases
US8447743B2 (en) * 2004-08-17 2013-05-21 International Business Machines Corporation Techniques for processing database queries including user-defined functions
US8190555B2 (en) 2009-01-30 2012-05-29 Hewlett-Packard Development Company, L.P. Method and system for collecting and distributing user-created content within a data-warehouse-based computational system
US20140164036A1 (en) 2012-12-10 2014-06-12 Fluor Technologies Corporation Program Sentiment Analysis, Systems and Methods
US9268823B2 (en) 2013-05-10 2016-02-23 International Business Machines Corporation Partial match derivation using text analysis
US9405794B2 (en) 2013-07-17 2016-08-02 Thoughtspot, Inc. Information retrieval system
US20150026153A1 (en) 2013-07-17 2015-01-22 Thoughtspot, Inc. Search engine for information retrieval system
US9684709B2 (en) * 2013-12-14 2017-06-20 Microsoft Technology Licensing, Llc Building features and indexing for knowledge-based matching
US20150293946A1 (en) 2014-04-09 2015-10-15 City University Of Hong Kong Cross model datum access with semantic preservation for universal database
US9489598B2 (en) * 2014-08-26 2016-11-08 Qualcomm Incorporated Systems and methods for object classification, object detection and memory management
WO2016048321A1 (en) * 2014-09-25 2016-03-31 Hewlett-Packard Development Company, L.P. Personalized learning based on functional summarization
US10380144B2 (en) * 2015-06-16 2019-08-13 Business Objects Software, Ltd. Business intelligence (BI) query and answering using full text search and keyword semantics
US9720905B2 (en) 2015-06-22 2017-08-01 International Business Machines Corporation Augmented text search with syntactic information
CN105045852A (zh) * 2015-07-06 2015-11-11 华东师范大学 一种教学资源的全文搜索引擎系统
US20170053023A1 (en) * 2015-08-17 2017-02-23 Critical Informatics, Inc. System to organize search and display unstructured data
US9984116B2 (en) * 2015-08-28 2018-05-29 International Business Machines Corporation Automated management of natural language queries in enterprise business intelligence analytics
US20170060993A1 (en) * 2015-09-01 2017-03-02 Skytree, Inc. Creating a Training Data Set Based on Unlabeled Textual Data
US10896377B2 (en) 2015-09-10 2021-01-19 International Business Machines Corporation Categorizing concept terms for game-based training in cognitive computing systems
US10489393B1 (en) * 2016-03-30 2019-11-26 Amazon Technologies, Inc. Quasi-semantic question answering
US11461801B2 (en) * 2018-03-02 2022-10-04 Adobe Inc. Detecting and resolving semantic misalignments between digital messages and external digital content
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space
US11244205B2 (en) * 2019-03-29 2022-02-08 Microsoft Technology Licensing, Llc Generating multi modal image representation for an image

Also Published As

Publication number Publication date
GB2574359A (en) 2019-12-04
CN110383263A (zh) 2019-10-25
US20180267976A1 (en) 2018-09-20
GB201914637D0 (en) 2019-11-27
JP6902106B2 (ja) 2021-07-14
US10984030B2 (en) 2021-04-20
WO2018172840A1 (en) 2018-09-27
CN110383263B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
JP6902106B2 (ja) 多数のデータ・コーパスからのコグニティブ・インテリジェンス・クエリの作成
Lindstedt Structural topic modeling for social scientists: A brief case study with social movement studies literature, 2005–2017
US11080273B2 (en) Image support for cognitive intelligence queries
US11847113B2 (en) Method and system for supporting inductive reasoning queries over multi-modal data from relational databases
Delen Real-world data mining: applied business analytics and decision making
Villarroel Ordenes et al. From words to pixels: text and image mining methods for service research
US11182414B2 (en) Search queries of multi-datatype databases
Quinto Next-generation machine learning with spark: Covers XGBoost, LightGBM, Spark NLP, distributed deep learning with keras, and more
US20210390609A1 (en) System and method for e-commerce recommendations
Cambria et al. Sentic API: a common-sense based API for concept-level sentiment analysis
Leydesdorff In search of epistemic networks
Desarkar et al. Big-data analytics, machine learning algorithms and scalable/parallel/distributed algorithms
Zheng et al. A document level neural model integrated domain knowledge for chemical-induced disease relations
US11100100B2 (en) Numeric data type support for cognitive intelligence queries
Poornima et al. A journey from big data towards prescriptive analytics
Aydoğan et al. TRSAv1: a new benchmark dataset for classifying user reviews on Turkish e-commerce websites
Balakrishnan et al. Sentiment and emotion analyses for Malaysian mobile digital payment applications
Anoop et al. Extracting conceptual relationships and inducing concept lattices from unstructured text
Yafooz et al. Interactive Big Data Visualization Model Based on Hot Issues (Online News Articles)
Arnold et al. Free-form multi-modal multimedia retrieval (4MR)
Prathyusha et al. Normalization Methods for Multiple Sources of Data
Osinska A qualitative–quantitative study of science mapping by different algorithms: The Polish journals landscape
Cambria et al. A common-sense based api for concept-level sentiment analysis
Liu et al. A new feature selection method for text categorization of customer reviews
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210618

R150 Certificate of patent or registration of utility model

Ref document number: 6902106

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150