JP7136752B2 - 受信したデータ入力に基づいて過少データに関連するデータを生成する方法、デバイス、および非一時的コンピュータ可読媒体 - Google Patents

受信したデータ入力に基づいて過少データに関連するデータを生成する方法、デバイス、および非一時的コンピュータ可読媒体 Download PDF

Info

Publication number
JP7136752B2
JP7136752B2 JP2019143484A JP2019143484A JP7136752B2 JP 7136752 B2 JP7136752 B2 JP 7136752B2 JP 2019143484 A JP2019143484 A JP 2019143484A JP 2019143484 A JP2019143484 A JP 2019143484A JP 7136752 B2 JP7136752 B2 JP 7136752B2
Authority
JP
Japan
Prior art keywords
data
topic
knowledge graph
topics
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019143484A
Other languages
English (en)
Other versions
JP2020057365A (ja
Inventor
リキュウ,フレディ
ファイザル ザマン,エムディー
Original Assignee
アクセンチュア グローバル ソリューションズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アクセンチュア グローバル ソリューションズ リミテッド filed Critical アクセンチュア グローバル ソリューションズ リミテッド
Publication of JP2020057365A publication Critical patent/JP2020057365A/ja
Application granted granted Critical
Publication of JP7136752B2 publication Critical patent/JP7136752B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本開示は、全般的に、過少データに関連するデータを受信されたデータ入力に基づき生成するデバイスおよび方法に関する。
知識グラフは、特定のカテゴリ、プロパティを、または或るドメインのクラス、トピック、データおよび/もしくはエンティティの間の関係を、表現、指定および/または定義するために使用され得る。知識グラフは、或るドメインのクラス、トピック、データおよび/またはエンティティを表現するノードと、或るドメインのクラス、トピック、データおよび/またはエンティティ間の関係を表現するノードをリンクするエッジとを含み得る。知識グラフは、分類システム、機械学習、コンピュータ処理および/または同様のものにおいて使用され得る。
一部の実装によれば、方法は、データ入力を受信するステップ、データ入力のオブジェクトに関連するドメイン知識グラフを受信するステップ、ドメイン知識グラフに基づきデータ入力の中の複数のトピックを識別するステップ、複数のトピックのうちの第1セットのトピックの充足したデータのセットを判断するステップ、複数のトピックのうちの第2セットのトピックの過少のデータのセットを判断するステップ、複数のトピックのうちの各トピックのスコアを計算するステップ、複数のトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断するステップ、複数のトピックのうちの第1トピックが第2セットのトピックのうちの1つのトピックであると判断するステップ、第1トピックに基づきトピック固有知識グラフを選択するステップ、トピック固有知識グラフに関してデータ入力のオブジェクトを識別するステップ、トピック固有知識グラフに基づきデータ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別するステップ、データ入力に類似したデータタイプの表現データを代表オブジェクトに基づき生成するステップおよび/または表現データに関連するアクションを実行するステップを含んでもよい。
上記の方法の一部の可能な実装によれば、本方法は、データ入力のオブジェクトと、知識グラフデータ構造のオブジェクトとを比較することにより、データ入力のオブジェクトを識別するステップをさらに含んでもよく、知識グラフデータ構造は、ドメイン知識グラフを含む。
上記の方法の一部の可能な実装によれば、第2セットのトピックの過少のデータのセットを判断するステップは、第2セットのトピックの過少のデータのセットが、第1セットのトピックの充足したデータのセットと比べて過少であると判断するステップを含んでもよい。
上記の方法の一部の可能な実装によれば、第2セットのトピックの過少のデータのセットを判断するステップは、第2セットのトピックの過少のデータのセットが、複数のトピックと比べて過少であると判断するステップを含んでもよい。
上記の方法の一部の可能な実装によれば、表現データを生成するステップは、トピック固有知識グラフに基づき、データ入力のオブジェクトに代表オブジェクトをマッピングするステップと、表現データを生成するために、代表オブジェクトのうちの少なくとも1つを、データ入力のオブジェクトのうちの少なくとも1つと置き換えるステップとを含んでもよい。
上記の方法の一部の可能な実装によれば、データ入力の代表オブジェクトをマッピングするステップは、データ入力のオブジェクトの編成構造を識別するステップと、データ入力のオブジェクトそれぞれの特性を識別するステップと、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングするステップとを含んでもよい。
上記の方法の一部の可能な実装によれば、アクションを実行するステップは、表現データに基づき表現知識グラフを生成するステップを含んでもよく、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。
上記の方法の一部の可能な実装によれば、データ入力は、テキストデータまたは画像データのうちの少なくとも1つを含んでもよい。
上記の方法の一部の可能な実装によれば、本方法は、トピック固有知識グラフを埋め込み空間に変換するステップをさらに含んでもよく、データ入力のオブジェクトは、埋め込み空間において識別され、代表オブジェクトは、埋め込み空間において識別される。
上記の方法の一部の可能な実装によれば、充足したデータのセットは、代表的な学習手法を使用して判断されてもよい。
上記の方法の一部の可能な実装によれば、過少のデータのセットは、代表的な学習手法を使用して判断されてもよい。
上記の方法の一部の可能な実装によれば、スコアは、代表的な学習手法を使用して計算されてもよい。
一部の実装によれば、デバイスは、1つ以上のメモリと、1つ以上のメモリに通信結合された1つ以上のプロセッサであって、データ入力を受信すること、データ入力の中の複数のトピックを識別すること、複数のトピックのうちの第1セットのトピックの過少のデータのセットを、第1セットのトピックに関連する複数の知識グラフに基づき判断すること、代表的な学習手法に基づき、第1セットのトピックのうちの各トピックのスコアを計算すること、第1セットのトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断すること、第1トピックに基づきトピック固有知識グラフを選択すること、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別すること、過少のデータのセットと、複数のトピックのうちの第2セットのトピックに関連するデータのセットとのバランスをとるために、データ入力に類似した表現データを代表オブジェクトに基づき生成すること、ならびに表現データに関連するアクションを実行することをする、1つ以上のプロセッサと、を含んでもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサは、過少のデータのセットを判断するとき、過少のデータのセットが、第2セットのトピックに関連するデータのセットと比べて過少であると判断することをしてもよい。
上記のデバイスの一部の可能な実装によれば、スコアは、第1セットのトピックの各トピックと、代表的な学習手法を用いて取得されたドメイン知識グラフとの間の類似度の程度を示してもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサは、データ入力のオブジェクトに類似した代表オブジェクトを識別するとき、代表オブジェクトの特性、オブジェクトの特性およびトピック固有知識グラフ内での代表オブジェクトの位置に基づき、代表オブジェクトをデータ入力のオブジェクトにマッピングしてもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサは、表現データを生成するとき、データ入力のオブジェクトの編成構造を識別することと、データ入力のオブジェクトそれぞれの特性を識別することと、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングすることと、表現データを生成するために、代表オブジェクトのうちの少なくとも1つをデータ入力のオブジェクトのうちの少なくとも1つと置き換えることとをしてもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサはさらに、データ入力のオブジェクトを識別するために、ドメイン知識グラフに基づきデータ入力を符号化してもよい。
上記のデバイスの一部の可能な実装によれば、1つ以上のプロセッサは、アクションを実行するとき、表現データに基づき表現知識グラフを生成することであって、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む、表現知識グラフを生成することと、知識グラフデータ構造に表現知識グラフを格納することであって、知識グラフデータ構造は、複数の知識グラフおよびトピック固有知識グラフを格納する、表現知識グラフを格納することとをしてもよい。
一部の実装によれば、非一時的コンピュータ可読媒体は、命令を格納してもよく、命令は、1つ以上のプロセッサにより実行されると1つ以上のプロセッサに、データ入力を受信することと、データ入力の複数のトピックのうちの第1セットのトピックの充足したデータのセットを、複数のトピックのドメイン知識グラフに基づき判断することと、代表的な学習手法に基づき、複数のトピックのうちの第2セットのトピックの過少のデータのセットを判断することであって、過少のデータのセットは、充足したデータのセットと比べて過少である、過少のデータのセットを判断することと、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算することと、複数のトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断することと、複数のトピックのうちの第1トピックが第2セットのトピックのうちの1つであると判断することと、第1トピックが第2セットのトピックのうちの1つであることに基づきトピック固有知識グラフを選択することと、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別することと、トピック固有知識グラフおよびドメイン知識グラフに従って、代表オブジェクトのうちの1つをデータ入力の対応するオブジェクトと置き換えることにより、データ入力に類似した表現データを代表オブジェクトに基づき生成することと、表現データに基づき表現知識グラフを生成することであって、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む、表現知識グラフを生成することと、表現知識グラフを知識グラフデータ構造に格納することであって、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する、表現知識グラフを格納することとをさせる。
本願明細書に記載される例示の実装の図である。 本願明細書に記載される例示の実装の図である。 本願明細書に記載される例示の実装の図である。 本願明細書に記載される例示の実装の図である。 本願明細書に記載されるシステムおよび/または方法が実装され得る例示の環境の図である。 図2の1つ以上のデバイスの例示のコンポーネントの図である。 過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。 過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。 過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。 過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。
以下の例示の実装の詳細な説明は、添付の図面を参照する。異なる図面にある同じ参照番号は、同じまたは類似の要素を特定することがある。
データ(例えばテキストデータ、画像データ、ビデオデータ、オーディオデータおよび/または同様のもの)内のオブジェクト認識は、データ内のオブジェクトを識別するために使用される参照用のデータセットに依存し得る。データ内の認識され得る一部のオブジェクトは、単語、フレーズ、文章、トピック、人、場所、音、アクションおよび/または同様のものを含み得る。システムは、構造化されていないデータ(例えばテキスト、画像、ビデオ、オーディオおよび/または同様のものを含むストリームおよび/または文書)を受信して、構造化されていないデータの中のオブジェクトを認識して、構造化されていないデータの中の認識されたオブジェクトを分析して、構造化されていないデータのトピック(例えば人、場所、物、事象および/または同様のもの)に関連する構造化されたデータ(例えばレポート、分類および/または同様のもの)を生成し得る。
場合によっては、一部の参照用のデータセットは、オブジェクトを正しく検出し、且つ/または1つ以上のトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを、1つ以上の領域(例えば類似したオブジェクトのグループ)において含まないかもしれない。例として、同じトピックに言及するために使用され得る異なるフレーズは、複数あり得る。別の例として、同じトピック(例えば同じ人、場所または物)を含む異なる画像は、複数あり得る。したがって、特定のトピックに関連するデータ入力が受信されるが、そのトピックのデータセットが他のデータセットと比べて過少である(且つ/または存在しない)場合、トピックが正しく識別される確率は低下する。結果として、テキスト分析、音声認識、画像認識および/または同様のものを使用する1つ以上のシステム(例えば機械学習システム、データ分類システムおよび/または同様のもの)は、データ入力に関連するトピックを正しく検出および/または分析できないかもしれない。
一部の実装は、本願明細書に記載されるように、データ生成プラットフォームが、過少データセットと、参照用のデータ構造の他のデータセットとのバランスをとることを可能にしてもよい。例として、一部の実装において、データ入力が受信されてもよく、データ入力のオブジェクトからデータ入力に関連する複数のトピックを識別でき、複数のトピックのうちの過少トピックのバランスをとることができる。一部の実装において、類似のオブジェクト(例えば意味的に類似しているオブジェクト)および/または類似のデータのセット(例えば意味的に類似のデータのデータセット)を識別して、類似のオブジェクトから過少トピックに関連する例を生成することにより、(例えば他のトピックと比べて)過少トピックのバランスをとることができる。一部の実装において、1つ以上の知識グラフが使用および/または生成されて、過少データセットが識別され、且つ/または過少データセットに関するデータセットが生成されてもよい。このように、データ生成プラットフォームは、1つ以上の過少データセットを識別して過少データセットに関連するデータ(例えば類似のデータ、敵対的データおよび/または同様のもの)を生成し、過少データセット内のデータの量を増大させ、ひいては、以前は過少であったデータセットのトピック1つ以上を識別する能力を、増大した量のデータを使用して向上させてもよい。
このように、本願明細書に記載される一部の実装は、他の場合であれば構造化されていないデータの中のトピックを従前の手法を使用して処理または識別しようと試行して消費されるであろうプロセッサリソースおよび/またはメモリリソースを、節約し得る。さらに、本願明細書に記載された一部の実装は、データ入力のトピックの過少データセットを使用した結果として不正確であったオブジェクト検出および/またはデータ分析を修正することに関連するプロセッサリソースおよび/またはメモリリソースを、節約することができる。このようにして、データ入力を分析するためのプロセスの異なるいくつかの段階が自動化され、これにより、プロセスから人間の主観性および無駄が除去されるかもしれず、さらに、プロセスのスピードおよび効率性が改善され、コンピューティングリソース(例えばプロセッサリソース、メモリリソースおよび/または同様のもの)が節約されるかもしれない。さらに、本願明細書に記載された実装は、以前は実行されなかった、または以前は人間の主観的な直感もしくは入力を使用して実行されていたタスクまたは役割を実行するために、コンピュータによる的確なプロセスを使用する。例として、現在、データ入力および/または1つ以上の知識グラフを使用してデータ入力のトピックに対応する過少データセットのデータを生成する手法は存在しない。最後に、過少トピックに関連する特定のトピックを用いて代表データを生成するプロセスを自動化することで、他の場合であれば後のデータ入力の中のトピックを検出しようと試行するのに浪費されることになるコンピューティングリソース(例えばプロセッサリソース、メモリリソースおよび/または同様のもの)ならびに生成された代表データなしでトピックを正しく検出できないことにより浪費されることになるユーザデバイスのコンピューティングリソースが節約される。
図1A~図1Dは、本願明細書に記載される例示の実装100の図である。例示の実装100において、過少データセットに関連するデータが、受信されたデータ入力を使用して生成されてもよい。例示の実装100は、過少データセットの表現データを生成するように構成されたデータ生成プラットフォームに関連してもよく、さらに/またはそれを用いて実装されてもよい。本願明細書にさらに記載されるように、例示の実装100において、受信されたデータ入力は、データ入力のトピックを識別するために知識グラフを使用して分析されてもよく、各トピックは、トピックの1つ以上が(例えば互いに比べて、且つ/またはトピックを含むデータ構造と比べて)過少であるかどうかを判断するために分析され、さらに、データ入力の識別されたオブジェクトに関連する知識グラフを使用して過少トピックについてデータが生成される。したがって、例示の実装100において、データ入力に基づき過少データセットを識別でき、データ入力およびデータ入力のオブジェクトに関連する知識グラフを使用して過少データセットについてデータを生成できる。したがって、1つ以上の目的(例えば機械学習、データ分類および/または同様のもの)のために、増大した数のデータセットをデータ構造内に含めて、データ入力に関連する情報の識別における精度向上を可能にすることができる。
図1Aに、参照番号105により示されているように、意味表現分析器がデータ入力を受信する。図1Aに示されているように、意味表現分析器は、本願明細書に記載されるように、過少データセットに関連するデータを生成するように構成されたプラットフォーム(例えばデータ生成プラットフォーム)の一部であってもよい。
一部の実装において、データ入力は、テキストデータ、画像データ、オーディオデータ、ビデオデータおよび/または同様のものであってもよい。データ入力は、1つ以上のソース(例えばコンピューティングデバイス、ユーザインターフェース、マイクロフォン、画像捕捉デバイス、センサデバイス、ネットワークデバイスおよび/または同様のもの)から受信されてもよい。一部の実装において、意味表現分析器を含むデータ生成プラットフォームは、データ入力を受信するために1つ以上のソースを監視するように構成されてもよい。例として、データ生成プラットフォームは、数百のソース、数千のソース、数百万のソースを同時に監視するように構成される場合もあり、その結果、人間が本願明細書に記載されるようにリアルタイムでデータ入力を受信、処理および/または分析することは不可能であると考えられる。したがって、データ生成プラットフォームは、過少データセットのバランスをとって、受信されたデータ入力を正しく認識、分析、分類および/または利用するために使用可能なトピック、主題および/または同様のもののデータ構造(例えばデータベース、テーブル、グラフおよび/または同様のもの)を構築してもよい。さらに、または代わりに、データ生成プラットフォームは、1つ以上のソースからデータ入力を受信するためにサブスクライブしてもよい。
図のように、データ入力はテキスト入力(「私は5才未満の自分の男の子に昼食を食べさせた(I fed my under 5 year old boy lunch)」)である。一部の実装において、データ入力は、異なるタイプのデータから(例えば音声テキスト化を使用してオーディオデータから、光学文字認識を使用して画像データからおよび/または同様に)変換されてもよく、且つ/または変換済みのものであってもよい。
図1Aに、参照番号110によりさらに示されているように、意味表現分析器は、ドメイン知識グラフを取得して、データ入力に関連するトピックを識別する。ドメイン知識グラフは、特定のドメインの既知のまたは記録されたトピックの知識グラフを含んでもよく、各トピックは、ドメイン知識グラフ上のノードであり、トピック間のエッジ(リンク)は、個々のトピック間の関係に対応する。ドメイン知識グラフは、知識グラフデータ構造に格納されてもよい。知識グラフデータ構造は、ドメイン知識グラフを格納できるデータベース、テーブル、インデックス、タスクグラフおよび/または同様のものを含んでもよい。
一部の実装において、意味表現分析器は、代表的な学習手法(例えば特徴学習および/または機械学習)を使用して、データ入力に関連するトピックをデータ入力の中の識別されたオブジェクトに基づき識別してもよい。代表的な学習手法を使用して、意味表現分析器は、受信されたデータ入力をパースし、データ入力のオブジェクトを識別してもよい。例として、意味表現分析器は、テキストデータを単語および/もしくはフレーズに分割し、画像データを画像の識別された特徴もしくはオブジェクトに分割し、オーディオデータを特定の音もしくはオーディオ信号に分割し、さらに/または同様のことをしてもよい。したがって、意味表現分析器は、受信されたデータ入力を単語(またはオブジェクト):私(I)、食べさせた(fed)、自分の(my)、未満の(under)、5、年(year)、古い(old)、男の子(boy)、昼食(lunch)にパースしてもよい。よって、パースされたデータ入力から、意味表現分析器は知識グラフデータ構造を参照し、パースされたデータの任意のオブジェクト(またはオブジェクトの組み合わせ)が知識グラフデータ構造のトピックの中に含まれ、且つ/またはそれに関連するかどうかを識別してもよい。
一部の実装によれば、データ入力は、データ入力のオブジェクトを識別するために符号化されてもよい。例として、ベクトルが、データ入力のオブジェクトについて生成されてもよい。意味表現分析器は、ドメイン知識グラフに基づきデータ入力のベクトルを生成してもよい。例として、テキストデータについて、データ入力の単語またはフレーズがドメイン知識グラフの中の単語またはフレーズと一致すれば、ドメイン知識グラフの中の単語の対応する値(例えば2進数により表現される)を、符号化されたデータ入力において使用できる。したがって、意味表現分析器は、データ入力を符号化して、1および0のベクトルを生成してもよい。よって、ベクトルは、本願明細書に記載された実装によるデータ入力の処理および/または分析を単純化するために使用できる2進数とされてもよく、それによって、データ生成プラットフォームのコンピューティングリソースが節約される。
図1Aには、データ入力「私は5才未満の自分の男の子に昼食を食べさせた(I fed my under 5 year old boy lunch)」に関連するドメイン知識グラフの一部分が示されている。ドメイン知識グラフは、示されているもの以外のノードを多数(例えば数百、数千、数百万、数十億またはそれ以上)含んでもよい。例示の実装100では、ドメイン知識グラフから、家族ノード、子どもノード、育児ノードおよび昼食ノードが、データ入力に関連する該当トピックとして示されている。図のように、子どもノードは、家族ノードに関連し(例えば子どもは家族の一員であるかもしれないから)、子どもノードは家族ノードおよび育児ノードにリンクされ(例えば育児は子どもを育てることを伴うから)、育児ノードは子どもノードおよび昼食ノードにリンクされる(例えば育児は昼食を提供することを伴うから)。
意味表現分析器は、データ入力のオブジェクトおよび/またはトピックと、ドメイン知識グラフのトピックとの間の類似度を判断するために、トピックスコア計算器にデータ入力を提供または転送してもよい。例示のトピックスコア計算器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに/またはそれに関連してもよい。
図1Bに、参照番号115により示されているように、トピックスコア計算器は、ドメイン知識グラフに基づきデータ入力に関するスコアを計算する。トピックスコア計算器は、データ入力およびドメイン知識グラフを使用して、知識グラフデータ構造のトピックについてスコアを計算し、参照用のデータ構造のトピックがデータ入力に関連する信頼度を特定してもよい。
トピックスコア計算器は、任意の適切なスコアリング手法を使用して、ドメイン知識グラフのトピックがデータ入力のトピックに関係するかどうかを判断してもよい。例として、トピックスコア計算器は、代表的な学習手法(例えば意味的類似度手法)を使用して、ドメイン知識グラフのトピックがデータ入力のトピックと同じであるか、または類似しているかを判断してもよい。一部の実装において、トピックスコア計算器は、データ入力のトピックがドメイン知識グラフのトピックと同じであるか、または意味的に類似している(例えばドメイン知識グラフによれば同義語である)ことに基づき、データ入力のトピックがドメイン知識グラフのトピックに対応すると判断してもよい。一部の実装において、トピックが同じ、類似している、および/または無関係である(または異なる)かどうかは、データ入力の中の識別されたトピックと、ドメイン知識グラフの中のトピックとの間の距離に依存してもよい。したがって、ドメイン知識グラフのトピックのトピックスコアは、データ入力およびドメイン知識グラフのトピック間のエッジの数に対応してもよい。一部の実装において、ドメイン知識グラフのトピックと、ドメイン知識グラフ内でのデータ入力の識別されたトピックとの間の距離に対応する値が、結合、重み付けおよび/または同様のことをされて、ドメイン知識グラフの当該トピックのトピックスコアが判断されてもよい。
一部の実装において、トピックスコアは、ドメイン知識グラフのすべてのトピックについて計算されてもよい。さらに、または代わりに、ドメイン知識グラフのトピックと、データ入力のトピックとの間の距離に基づき、閾値数のトピックスコアが閾値数のドメイン知識グラフトピックについて計算されてもよい。例として、ドメイン知識グラフのトピックが、データ入力の中の識別された任意のトピックから閾値数を超えるエッジ(例えば3つのエッジ、4つのエッジ、5つのエッジおよび/または同様)離れている場合、ドメイン知識グラフの当該トピックについてトピックスコアは計算されなくてもよく、これによりデータ生成プラットフォームのコンピューティングリソースが節約される。
例として、トピックスコア計算器は、「1.0」のスコアが同じトピックを示し、「0.0」のスコアが無関係のトピックを示すように、相対的なスコアリング手法および/または重み付きのスコアリング手法を使用してもよい。図1Bの例において示されているように、子どもは(例えばデータ入力の中の「5才未満の男の子」(under 5 year old boy)に基づき)0.9のスコアであってもよく、多目的情報は(例えば、データ入力の中の「私(I)」および「自分の(my)」などの一般的な単語が含まれるがデータ入力のトピックでないことに基づき)0.2のスコアであってもよく、政治は(例えば「家族」に幾分関係するがデータ入力のトピックには関係しないことに基づき)0.1のスコアであってもよく、育児は(例えば「5才未満の自分の男の子(my under 5 year old boy)」に基づき)0.8のスコアであってもよい。
トピックスコア計算器は、データ入力に関連するどのトピックが(例えば互いに比べて、および/またはドメイン知識グラフのトピックと比べて)過少であるかを識別し得るクラスバランス識別器に、ドメイン知識グラフのトピックに関連するスコアを提供してもよい。例示のクラスバランス識別器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに/またはそれに関連してもよい。一部の実装において、トピックスコア計算器は、特定の閾値を満たす(例えば「0.0」より大きい)トピックのトピックスコアのみクラスバランス識別器に提供してもよい。その結果、トピックスコア計算器は、他の場合であれば特定の閾値未満のスコアとなるトピックのデータを処理するために使用されるかもしれないコンピューティングリソースを節約し得る。
図1Bに、参照番号120によりさらに示されているように、クラスバランス識別器は、知識グラフデータ構造の中のトピックの表現度を識別する。本願明細書で使用されるトピックの表現度は、受信される、利用可能な、且つ/または特定のトピックに関連する、データの量に基づき判断されてもよい。一部の実装において、クラスバランス識別器は、特定のトピックのドメイン知識グラフに含まれるデータの量に基づき、トピックの表現度を判断してもよい。したがって、クラスバランス識別器は、トピックが過少であるかどうかを、その特定のトピックに関連するドメイン知識グラフの中のノードおよび/またはエッジの量に基づき判断してもよい。
一部の実装では、代表的な学習手法が使用されて、(トピックに関連する)データのセットが別のデータのセットと比べて過少であるかどうかが判断されてもよい。例として、クラスバランス識別器は、データ入力のトピックおよび/またはデータ入力に関係するトピック(例えばデータ入力のトピックの特定のエッジ距離以内の当該トピック)を相互に比較してもよい。したがって、クラスバランス識別器は、代表的な学習手法を使用して、どのトピック(および対応するデータのセット)が、別のトピックと比べて、且つ/または他の複数のトピックと比べて過少であるかを識別してもよい。
図1Bの例に示されているように、クラスバランス識別器は、育児トピックが、多目的情報(GenPrpとして示されている)、政治および子どもトピックと比べて過少であると判断してもよい。例として、クラスバランス識別器は、育児トピックが、多目的情報、政治および子どもトピックのうち1つ以上の、閾値パーセンテージ(またはそれ未満の)量のデータに関連すると判断してもよい。したがって、過少トピックは、過少データに関連するデータの量が、充足トピックのデータの量の閾値パーセンテージ(例えば10%未満、20%未満、30%未満および/または同様)を満たすことに基づき、充足トピックと比べて過少であるとされてもよい。
クラスバランス識別器は、どのトピックがデータ入力に関連する表現データを生成することによりバランスをとられるべきか判断するために、過少トピックを表現閾値分析器に提供してもよい。表現閾値分析器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに/またはそれに関連してもよい。
図1Cに、参照番号125により示されているように、表現閾値分析器は、過少トピックをトピックスコアに基づきフィルタリングして、対処される過少データセットがデータ入力のトピックに関連することを確実にしてもよい。例として、(トピックスコアにより表現されるとおり)過少トピックがデータ入力に関係しないトピックに関連すると表現閾値分析器が判断した場合、データ生成プラットフォームは(例えばトピックがデータ入力に関係しないことが理由で)当該トピックの表現データをデータ入力を使用して正しく生成できないかもしれないので、表現閾値分析器は、その過少トピックを無視してもよい。
図1Cに示されているように、過少クラス(データのセット)の育児に対するトピックスコアは、0.8である。0.8の閾値スコアを仮定すると、表現閾値分析器は、この過少クラスに関連するデータが生成されることを可能にしてもよい。他方、育児のトピックスコアが0.8未満であった場合(または政治などの別のトピックが過少トピックであると判断された場合)、表現閾値分析器は、育児についてデータが生成されることを可能にしなくてもよく、データ生成プラットフォームは、別のデータ入力の処理および/または分析に移行してもよい。したがって、表現閾値分析器は、他の場合であればデータ入力に関連しないトピックについて表現データを生成しようと試行するのに使用されるかもしれないリソースを、節約し得る。
表現閾値分析器は、表現データ生成器に、フィルタリングされた単数または複数の過少クラスを提供してもよい。表現データ生成器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに/またはそれに関連してもよい。一部の実装において、表現データ生成器は、データ入力からの情報を使用して表現データを生成しようと試行しても正しい表現データが生成されないかもしれないので、データ入力に関連しないクラスではなく、データ入力に関連する過少クラスの表現データを生成してもよい。したがって、データ入力に関連しないトピックについてデータ入力を使用して表現データを生成しようと試行することは、プロセッサリソースおよび/またはメモリリソースの浪費となるであろう。
図1Cに、参照番号130によりさらに示されているように、表現データ生成器は、データ入力のトピックに関連するトピック固有知識グラフを取得する。例として、或るトピックのトピック固有知識グラフは、閾値エッジ距離以内(例えばエッジ2つ以内、エッジ3つ以内および/または同様)の他のノードいくつかにリンクされているノードとしてそのトピックを備えた知識グラフを含んでもよい。トピック固有知識グラフは、トピック(中央ノード)から関係トピック(例えばドメイン知識グラフにより示される関係ノード)へのエッジを含んでもよく、関係トピックは、トピックからエッジ1つの距離を有してもよい。一部の実装において、さらなる関係トピック(例えば中央ノードからエッジ1つより大きな距離を有してもよい)が取得および/または使用されて、過少クラスに関連する表現データが生成されてもよい。
例示の実装100に示されているように、昼食に関連するトピック固有知識グラフが識別され、さらに/または埋め込まれる。トピック固有知識グラフにより示されているように、昼食は食事に関係する。食事は夕食、朝食および食べ物に関係する。食べ物は食事および食べ物のタイプに関係し、食べ物のタイプは有機および加工に関係する。データ入力の残りのトピック(例えば育児、子どもおよび/または家族)の、同様のトピック固有知識グラフが取得されて、育児の表現データを生成できる。その結果、本願明細書に記載されるように、表現データ生成器は、トピック固有知識グラフを使用して、過少クラスに関連する表現データを生成してもよい。
一部の実装によれば、トピック固有知識グラフの埋め込みプロセスは、ドメイン知識グラフから実行されてもよい。例として、知識グラフが処理されて、ノード間のエッジ(関係)のタイプ(例えば、ノードAがノードBと同じであるかどうか、ノードAがノードBのサブセットであるかどうか、ノードAがノードBを含むかどうか、ノードAがノードBに関係するかどうか、ノードAが以前にノードBに関連したかどうかおよび/または同様のもの)が識別されてもよい。例として、表現データ生成器は、食べ物と食事との間のエッジが、食べ物は食事「の間に使用される」(food “is used during” a meal)ことを示すと判断してもよい。さらに、表現データ生成器は、昼食が食事「である(is a)」、夕食が食事「である(is a)」、朝食が食事「である(is a)」などと判断してもよい。さらに、表現データ生成器は、エッジのタイプに基づきオブジェクトの特性を判断してもよい。例として、表現データ生成器は、ノードおよび/またはエッジが文章の主語および/または述語である可能性があるかどうかを判断してもよい。例として、昼食のトピック固有知識グラフは、「食べ物は食事の間に使用される(food is used during a meal)」と示してもよい。そのような事例において、「食べ物(food)」は主語であり、「の間に使用される(is used during)」は述語であり、「食事(meal)」は目的語である。埋め込みプロセスは、データ入力に従ったトピック固有グラフから、主語、述語および/または文章オブジェクトをグループ化してもよい(例えば、データ入力の編成構造と同様に)。
図1Dに、参照番号135により示されているように、表現データ生成器は、知識グラフおよびデータ入力に基づき、データ入力の過少トピックの表現データを生成する。一部の実装によれば、表現データ生成器は、受信されたデータ入力と同様または類似のデータを生成してもよい。さらに、または代わりに、表現データ生成器は、受信されたデータ入力に対し敵対的な、且つ/または逆のデータを生成してもよい(例えば敵対的な、且つ/または逆のデータが過少であると判断された場合)。
一部の実装によれば、表現データ生成器は、データ入力のオブジェクトと閾値レベルの類似度を有する、トピック固有知識グラフの中の代表オブジェクトを識別してもよい。例として、類似度の閾値レベルは、トピック固有知識グラフにおける、代表オブジェクトと、データ入力のオブジェクトとの間のエッジ距離に対応してもよい。表現データ生成器は、代表オブジェクトをデータ入力のオブジェクトにマッピングしてもよい。例として、表現データ生成器は、データ入力の識別されたオブジェクトの特性を識別してもよい。例として、テキストデータでは、表現データ生成器はオブジェクトに関連する品詞(例えば名詞、動詞、形容詞、副詞、前置詞および/または同様のもの)を識別してもよく、画像データでは、表現データ生成器は画像の中で識別されるオブジェクトの特徴(例えば色、陰影、タイプおよび/または同様のもの)を識別してもよい。したがって、図1Dの例を参照すると、表現データ生成器は、昼食および子ども(「5才未満の男の子(under 5 boy)」から)が名詞であり、食べさせた(fed)が動詞であると識別してもよい。表現データ生成器は、データ入力の編成構造に基づき、名詞をトピック固有知識グラフの埋め込みにマッピングしてもよい。テキストの場合、編成構造は、テキストの文章構造、テキストのフォーマット、画像のレイアウトおよび/または同様のものに対応してもよい。
表現データを生成するために、表現データ生成器は、代表オブジェクトのうちの少なくとも1つを、データ入力のオブジェクトのうちの少なくとも1つと置き換えてもよい。例として、表現データ生成器は、主語であるデータ入力のトピックを、同じく主語であるトピック固有知識グラフに(および/またはトピック固有知識グラフの埋め込みに)あるトピックに置換してもよい。表現データ生成器は、トピック固有知識グラフにおけるデータ入力のオブジェクトから代表オブジェクトのエッジ距離に基づき、対応する代表オブジェクトをデータ入力のオブジェクトと置き換えてもよい。したがって、図1Dの例に示されているように、表現データ生成器は、データ入力「私は5才未満の自分の男の子に昼食を食べさせた(I fed my under 5 year old boy lunch)」に基づき、テキストデータ「私は12才未満の自分の息子に食べ物を提供した(I provided food to my under 12 son)」を生成してもよい。図1Dの例において、に提供した(provided to)は、育児のトピック固有知識グラフから獲得され、食べ物(food)は、昼食のトピック固有知識グラフから獲得され、12才未満(under 12)は、子どものトピック固有知識グラフから獲得され、息子(son)は、家族のトピック固有知識グラフから獲得される。結果的に、そのようなフレーズおよび/またはフレーズに関連する対応する知識グラフを出力でき、さらに/または知識グラフデータ構造内に格納できる。したがって、フレーズ「私は12才未満の自分の息子に食べ物を提供した」が表現データ生成器に関連するシステム(例えば分類システム、オブジェクト認識システムおよび/または同様のもの)により後に受信された場合、システムは、フレーズが育児に関連すると正しく識別および/または判断することができる。
一部の実装によれば、表現データ生成器は、生成された表現データに基づき表現知識グラフを生成してもよい。例として、表現データ生成器は、食べ物を提供すること(providing food)に関連する新たなトピックを含む育児の表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、他の1つ以上のトピック固有知識グラフに基づく新たなトピックを形成してもよい。よって、フレーズ「に食べ物を提供した」(provided food to)を含む後のデータ入力が受信された場合、システムは、後のデータ入力が、図1Dのデータ入力に類似して、育児に関連し、且つ/または食べさせることに関連し得ると識別できてもよい。表現データ生成器は、表現知識グラフを知識グラフデータ構造に格納してもよい。例として、表現データ生成器は、表現知識グラフを含むようにドメイン知識グラフを更新し、さらに/または(例えば知識グラフデータ構造の他のトピック固有知識グラフとともに)トピック固有知識グラフとして表現知識グラフを格納してもよい。よって、表現知識グラフは、後に受信されるデータ入力のトピック1つ以上を識別および/または分析するために使用されてもよい。
一部の実装によれば、表現データ生成器は、過少のデータのセットのバランスがとられるまで、過少のデータのセットのデータを反復して生成してもよい。よって、後に受信されるトピックのセットについては、この表現データは充足したデータのセットに含まれ得る。さらに、または代わりに、表現データ生成器は、閾値量の表現データ(または閾値数のセットのデータ)を生成して、過少のデータのセットに関連するデータの量を増大させてもよい。
したがって、本願明細書に記載されるように、表現データ生成器は、データ入力に関連する表現データを生成し得る。その結果、1つ以上のシステムは、データ入力を受信すると、生成された表現データを、機械学習(例えば機械学習モデルを訓練するため、機械学習モデルをテストするためおよび/または同様のことのため)、分類(例えば分類システムを訓練するため、分類システムをテストするためおよび/または同様のことのため)および/または同様のものにおいて使用してもよい。生成された表現データは、サンプルの量、データおよび/または知識グラフのサイズを増大させてデータ入力の中のオブジェクトの識別における精度を増大させ、且つ/またはデータの中のオブジェクトの誤った識別に関連するエラーを事実上防止し得る。よって、本願明細書に記載された一部の実装は、他の場合であればデータ入力に関連するオブジェクトおよび/またはトピックを不適切に識別することに浪費されるかもしれないプロセッサリソースおよび/またはメモリリソースを節約し得る。
上記に示したとおり、図1A~図1Dは、単に例として提供されている。他の例が可能であり、図1A~図1Dに関して記載されたものとは異なってもよい。
図2は、本願明細書に記載されるシステムおよび/または方法が実装され得る例示の環境200の図である。図2に示されているように、環境200は、ユーザデバイス205、データ生成プラットフォーム210、コンピューティングリソース215、クラウドコンピューティング環境220およびネットワーク230を含んでもよい。環境200のデバイスは、有線接続、無線接続または有線接続と無線接続との組み合わせを介して相互に接続してもよい。
ユーザデバイス205は、過少データに関連するデータを受信されたデータ入力に基づき生成することに関連する情報を、受信、生成、格納、処理および/または提供できる1つ以上のデバイスを含む。例としてユーザデバイス205は、携帯電話(例えばスマートフォン、無線電話など)、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、ゲーム用デバイス、ウェアラブル通信デバイス(例えばスマート腕時計、スマート眼鏡など)または類似のタイプのデバイスなどの通信および/またはコンピューティングデバイスを含んでもよい。
データ生成プラットフォーム210は、過少データに関連するデータを受信されたデータ入力に基づき生成することに関連する情報を、受信、生成、格納、処理および/または提供できる1つ以上のデバイスを含む。一部の実装によれば、データ生成プラットフォーム210は、図1A~図1Dの例示の実装100の知識グラフデータ構造、意味表現分析器、トピックスコア計算器、クラスバランス識別器、表現閾値分析器、表現データ生成器またはデータ生成プラットフォームのうちの1つ以上に関連しても、さらに/またはそれを含んでもよい。よって、データ生成プラットフォーム210は、入力を受信して入力の中のオブジェクトを識別することができ、オブジェクトのクラス1つ以上が過少であると判断して、その特定のクラスの表現を増大させるためそのクラスについて提供するデータおよび/またはデータサンプルを生成してもよい。
一部の実装において、データ生成プラットフォーム210は、参照用のデータのセットおよび/または参照用の知識グラフに基づきデータ入力を分析してデータ入力を処理することができるシステム(例えば機械学習システム、分類システム、データ分析システムおよび/または同様のもの)内に含まれてもよい。したがって、一部の実装において、受信されたデータ入力に関連するデータセットが過少であるとデータ生成プラットフォーム210が判断すると、データ生成プラットフォーム210は、本願明細書に記載されたプロセスの1つ以上を実行してそのデータセットの表現データを生成してもよい。
データ生成プラットフォーム210は、サーバデバイスまたはサーバデバイスのグループを含んでもよい。一部の実装において、データ生成プラットフォーム210は、クラウドコンピューティング環境220においてホストされてもよい。特に、本願明細書に記載される実装は、データ生成プラットフォーム210がクラウドコンピューティング環境220においてホストされるものとして記載するが、一部の実装では、データ生成プラットフォーム210はクラウドベースでなくてもよく、または部分的にクラウドベースであってもよい。
クラウドコンピューティング環境220は、コンピュータ処理をサービスとして提供する環境を含み、それによって共有リソース、サービスなどがユーザデバイス205および/またはクラウドコンピューティング環境と通信する他の任意のデバイスに提供され得る。クラウドコンピューティング環境220は、サービスを提供するシステムおよび/またはデバイスの物理的な位置および構成についてエンドユーザの知識を要求しない演算、ソフトウェア、データアクセス、ストレージおよび/または他のサービスを提供してもよい。図のように、クラウドコンピューティング環境220は、データ生成プラットフォームおよびコンピューティングリソース215を含んでもよい。
コンピューティングリソース215は、1つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイスまたは別のタイプの演算および/もしくは通信デバイスを含む。一部の実装において、コンピューティングリソース215はデータ生成プラットフォームをホストしてもよい。クラウドリソースは、コンピューティングリソース215において実行される演算インスタンス、コンピューティングリソース215に設けられるストレージデバイス、コンピューティングリソース215により提供されるデータ転送デバイスなどを含んでもよい。一部の実装において、コンピューティングリソース215は、有線接続、無線接続または有線接続と無線接続との組み合わせを介して他のコンピューティングリソース215と通信してもよい。
図2にさらに示されているように、コンピューティングリソース215は、1つ以上のアプリケーション(「APP(application)」)215-1、1つ以上の仮想マシン(「VM(virtual machine)」)215-2、仮想化ストレージ(「VS(virtualized storage)」)215-3、1つ以上のハイパーバイザ(「HYP(hypervisor)」)215-4または同様のものなどのクラウドリソースのグループを含んでもよい。
アプリケーション215-1は、ユーザデバイス205に提供されても、またはユーザデバイス205によりアクセスされてもよい1つ以上のソフトウェアアプリケーションを含む。アプリケーション215-1は、ユーザデバイス205上でソフトウェアアプリケーションをインストールして実行する必要性をなくしてもよい。例として、アプリケーション215-1は、データ生成プラットフォームに関連するソフトウェアおよび/またはクラウドコンピューティング環境220を介して提供可能な他の任意のソフトウェアを含んでもよい。一部の実装において、1つのアプリケーション215-1は、仮想マシン215-2を介して他の1つ以上のアプリケーション215-1との間で情報を送受信してもよい。
仮想マシン215-2は、物理マシンのようにプログラムを実行するマシン(例えばコンピュータ)のソフトウェア実装を含む。仮想マシン215-2は、用途、および仮想マシン215-2の任意の実マシンとの類似の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであってもよい。システム仮想マシンは、完全なオペレーティングシステム(「OS(operating system)」)の実行をサポートする完全なシステムプラットフォームを提供してもよい。プロセス仮想マシンは、単一のプログラムを実行してもよく、単一のプロセスをサポートしてもよい。一部の実装において、仮想マシン215-2は、ユーザ(例えばユーザデバイス205)の代わりに実行してもよく、さらにデータ管理、同期化または長期データ転送など、クラウドコンピューティング環境220のインフラストラクチャの管理をしてもよい。
仮想化ストレージ215-3は、コンピューティングリソース215のストレージシステムまたはデバイス内で仮想化手法を使用する1つ以上のストレージシステムおよび/または1つ以上のデバイスを含む。一部の実装において、ストレージシステムの文脈の中で、仮想化のタイプはブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージからの論理ストレージの抽象化(または分離)を指してもよく、その結果、物理ストレージまたはヘテロジニアス構造と無関係にストレージシステムがアクセスされ得る。この分離は、ストレージシステムの管理者がエンドユーザに対しどのようにストレージを管理するかの点で、柔軟性を管理者に認め得る。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に格納される場所との間の依存関係をなくしてもよい。これは、ストレージ使用の最適化、サーバコンソリデーションおよび/または無停止ファイルマイグレーションの実行を可能にしてもよい。
ハイパーバイザ215-4は、複数のオペレーティングシステム(例えば「ゲストオペレーティングシステム」)がコンピューティングリソース215などのホストコンピュータ上で同時に実行できるようにするハードウェア仮想化手法を提供する。ハイパーバイザ215-4は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示してもよく、ゲストオペレーティングシステムの実行を管理してもよい。様々なオペレーティングシステムの複数のインスタンスが、仮想化ハードウェアリソースを共有してもよい。
ネットワーク230は、1つ以上の有線ネットワークおよび/または無線ネットワークを含む。例として、ネットワーク230は、セルラネットワーク(例えばロングタームエボリューション(LTE:long-term evolution)ネットワーク、符号分割多元接続(CDMA:code division multiple access)ネットワーク、3Gネットワーク、4Gネットワーク、5Gネットワーク、別のタイプの次世代ネットワークなど)、公衆陸上モバイルネットワーク(PLMN:public land mobile network)、ローカルエリアネットワーク(LAN:local area network)、ワイドエリアネットワーク(WAN:wide area network)、メトロポリタンエリアネットワーク(MAN:metropolitan area network)、電話網(例えば公衆交換電話網(PSTN:Public Switched Telephone Network))、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワーク、クラウドコンピューティングネットワークもしくは同様のもの、および/またはこれらもしくはその他のタイプのネットワークの組み合わせを含んでもよい。
図2に示されたデバイスおよびネットワークの数および配置は、例として示されている。実際には、図2に示されたものに比べて、追加のデバイスおよび/またはネットワーク、より少数のデバイスおよび/またはネットワーク、異なるデバイスおよび/またはネットワークあるいは別様に配置されたデバイスおよび/またはネットワークがあってもよい。さらに、図2に示されている2つ以上のデバイスが単一のデバイス内に実装されてもよく、または、図2に示されている単一のデバイスが複数の分散型デバイスとして実装されてもよい。さらに、または代わりに、環境200のデバイスのセット(例えば1つ以上のデバイス)が、環境200のデバイスの別のセットにより実行されるものとして記載されている1つ以上の機能を実行してもよい。
図3は、デバイス300の例示のコンポーネントの図である。デバイス300は、ユーザデバイス205、データ生成プラットフォーム210および/またはコンピューティングリソース215に対応してもよい。一部の実装において、ユーザデバイス205、データ生成プラットフォーム210および/またはコンピューティングリソース215は、1つ以上のデバイス300および/またはデバイス300の1つ以上のコンポーネントを含んでもよい。図3に示されているように、デバイス300は、バス310、プロセッサ320、メモリ330、ストレージコンポーネント340、入力コンポーネント350、出力コンポーネント360および通信インターフェース370を含んでもよい。
バス310は、デバイス300のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ320は、ハードウェア、ファームウェアまたはハードウェアとソフトウェアとの組み合わせにおいて実装される。プロセッサ320は、中央処理ユニット(CPU:central processing unit)、グラフィックス処理ユニット(GPU:graphics processing unit)、アクセラレーテッド処理ユニット(APU:accelerated processing unit)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP:digital signal processor)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)、特定用途向け集積回路(ASIC:application-specific integrated circuit)または別のタイプの処理コンポーネントである。一部の実装において、プロセッサ320は、機能を実行するようにプログラム可能な1つ以上のプロセッサを含む。メモリ330は、プロセッサ320により使用される情報および/または命令を格納するランダムアクセスメモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read only memory)および/または別のタイプの動的もしくは静的ストレージデバイス(例えばフラッシュメモリ、磁気メモリおよび/または光学メモリ)を含む。
ストレージコンポーネント340は、デバイス300の動作および使用に関係する情報および/またはソフトウェアを格納する。例として、ストレージコンポーネント340は、ハードディスク(例えば磁気ディスク、光学ディスク、光磁気ディスクおよび/またはソリッドステートディスク)、コンパクトディスク(CD:compact disc)、デジタル多用途ディスク(DVD:digital versatile disc)、フロッピーディスク、カートリッジ、磁気テープおよび/または別のタイプの非一時的コンピュータ可読媒体を、対応するドライブとともに含んでもよい。
入力コンポーネント350は、デバイス300が、ユーザ入力(例えばタッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチおよび/またはマイクロフォン)などを介して情報を受信することを可能にするコンポーネントを含む。さらに、または代わりに、入力コンポーネント350は、情報を感知するセンサ(例えばグローバルポジショニングシステム(GPS:global positioning system)コンポーネント、加速度計、ジャイロスコープおよび/またはアクチュエータ)を含んでもよい。出力コンポーネント360は、デバイス300からの出力情報を提供するコンポーネントを含む(例えばディスプレイ、スピーカおよび/または1つ以上の発光ダイオード(LED:light-emitting diode))。
通信インターフェース370は、デバイス300が有線接続、無線接続または有線接続と無線接続との組み合わせなどを介して他のデバイスと通信することを可能にする、トランシーバのようなコンポーネント(例えばトランシーバならびに/または別々の受信機および送信機)を含む。通信インターフェース370は、デバイス300が、別のデバイスから情報を受信し、さらに/または別のデバイスに情報を提供することを可能にしてもよい。例として、通信インターフェース370は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数(RF:radio frequency)インターフェース、ユニバーサルシリアルバス(USB:universal serial bus)インターフェース、Wi-Fiインターフェース、セルラネットワークインターフェースまたは同様のものを含んでもよい。
デバイス300は、本願明細書に記載される1つ以上のプロセスを実行してもよい。デバイス300は、メモリ330および/またはストレージコンポーネント340などの非一時的コンピュータ可読媒体により格納されたソフトウェア命令をプロセッサ320が実行するのに基づきこれらのプロセスを実行してもよい。本願明細書において、コンピュータ可読媒体は非一時的なメモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間または複数の物理ストレージデバイスにまたがったメモリ空間を含む。
ソフトウェア命令は、メモリ330および/またはストレージコンポーネント340に別のコンピュータ可読媒体から、または通信インターフェース370を介して別のデバイスから読み込まれてもよい。メモリ330および/またはストレージコンポーネント340に格納されたソフトウェア命令は、実行されると本願明細書に記載された1つ以上のプロセスをプロセッサ320に実行させてもよい。さらに、または代わりに、本願明細書に記載の1つ以上のプロセスを実行するために、配線による回路構成がソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用されてもよい。したがって、本願明細書に記載された実装は、ハードウェア回路構成とソフトウェアとのいかなる特定の組み合わせにも限定されない。
図3に示されたコンポーネントの数および配置は、例として示されている。実際には、デバイス300は、図3に示されたものと比べて、追加のコンポーネント、より少数のコンポーネント、異なるコンポーネントまたは別様に配置されたコンポーネントを含んでもよい。さらに、または代わりに、デバイス300のコンポーネントのセット(例えば1つ以上のコンポーネント)が、デバイス300のコンポーネントの別のセットにより実行されるものとして記載されている1つ以上の機能を実行してもよい。
図4は、過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセス400のフローチャートである。一部の実装において、図4の1つ以上のプロセスブロックは、データ生成プラットフォーム(例えばデータ生成プラットフォーム210)により実行されてもよい。一部の実装において、図4の1つ以上のプロセスブロックは、ユーザデバイス(例えばユーザデバイス205)など、データ生成プラットフォーム(例えばデータ生成プラットフォーム210)とは別個であるかまたはそれを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。
図4に示されているように、プロセス400は、データ入力を受信することを含んでもよい(ブロック405)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、入力コンポーネント350、通信インターフェース370および/または同様のものを使用する)は、データ入力を受信してもよい。
図4にさらに示されているように、プロセス400は、データ入力のオブジェクトに関連するドメイン知識グラフを受信することを含んでもよい(ブロック410)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、入力コンポーネント350、通信インターフェース370および/または同様のものを使用する)は、データ入力のオブジェクトに関連するドメイン知識グラフを受信してもよい。
図4にさらに示されているように、プロセス400は、ドメイン知識グラフに基づきデータ入力の中の複数のトピックを識別することを含んでもよい(ブロック415)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、ドメイン知識グラフに基づきデータ入力の中の複数のトピックを識別してもよい。
図4にさらに示されているように、プロセス400は、代表的な学習手法に基づき、複数のトピックのうちの第1セットのトピックの充足したデータのセットを判断することを含んでもよい(ブロック420)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、および/または同様のものを使用する)は、代表的な学習手法に基づき、複数のトピックのうちの第1セットのトピックの充足したデータのセットを判断してもよい。
図4にさらに示されているように、プロセス400は、代表的な学習手法に基づき、複数のトピックのうちの第2セットのトピックの過少のデータのセットを判断することを含んでもよい(ブロック425)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、代表的な学習手法に基づき、複数のトピックのうちの第2セットのトピックの過少のデータのセットを判断してもよい。
図4にさらに示されているように、プロセス400は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算することを含んでもよい(ブロック430)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算してもよい。
図4にさらに示されているように、プロセス400は、複数のトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断することを含んでもよい(ブロック435)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、複数のトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断してもよい。
図4にさらに示されているように、プロセス400は、複数のトピックのうちの第1トピックが第2セットのトピックのうちの1つのトピックであると判断することを含んでもよい(ブロック440)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、複数のトピックのうちの第1トピックが第2セットのトピックのうちの1つのトピックであると判断してもよい。
図4にさらに示されているように、プロセス400は、第1トピックに基づきトピック固有知識グラフを選択することを含んでもよい(ブロック445)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、第1トピックに基づきトピック固有知識グラフを選択してもよい。
図4にさらに示されているように、プロセス400は、トピック固有知識グラフに基づきデータ入力のオブジェクトを識別することを含んでもよい(ブロック450)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、トピック固有知識グラフに基づきデータ入力のオブジェクト、でもよい。
図4にさらに示されているように、プロセス400は、トピック固有知識グラフに基づきデータ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別することを含んでもよい(ブロック455)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、トピック固有知識グラフに基づきデータ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別してもよい。
図4にさらに示されているように、プロセス400は、データ入力に類似したデータタイプの表現データを代表オブジェクトに基づき生成することを含んでもよい(ブロック460)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)、代表オブジェクトに基づきデータ入力と類似したデータタイプの表現データ。
図4にさらに示されているように、プロセス400は、表現データに関連するアクションを実行することを含んでもよい(ブロック465)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、ストレージコンポーネント340、通信インターフェース370および/または同様のものを使用する)は、表現データに関連するアクションを実行してもよい。
プロセス400は、後述される、および/または本願明細書の他の箇所に記載された他の1つ以上のプロセスに関連して記載される、任意の単一の実装または実装の任意の組み合わせなど、追加の実装を含んでもよい。
一部の実装において、データ生成プラットフォームは、データ入力のオブジェクトと、知識グラフデータ構造のオブジェクトとを比較することにより、データ入力のオブジェクトを識別してもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフを含む。一部の実装において、データ生成プラットフォームは、第2セットのトピックの過少のデータのセットを判断するとき、第2セットのトピックの過少のデータのセットが、第1セットのトピックの充足したデータのセットと比べて過少であると判断してもよい。一部の実装において、データ生成プラットフォームは、第2セットのトピックの過少のデータのセットを判断するとき、第2セットのトピックの過少のデータのセットが、複数のトピックと比べて過少であると判断してもよい。
一部の実装において、データ生成プラットフォームは、表現データを生成するとき、トピック固有知識グラフに基づき代表オブジェクトをデータ入力のオブジェクトにマッピングして、表現データを生成するために代表オブジェクトのうちの少なくとも1つをデータ入力のオブジェクトのうちの少なくとも1つと置き換えてもよい。一部の実装において、データ生成プラットフォームは、データ入力の代表オブジェクトをマッピングするとき、データ入力のオブジェクトの編成構造を識別して、データ入力のオブジェクトそれぞれの特性を識別して、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングしてもよい。
一部の実装において、データ生成プラットフォームは、アクションを実行するとき、表現データに基づき表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。一部の実装において、データ生成プラットフォームは、表現知識グラフを知識グラフデータ構造に格納してもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する。
一部の実装において、データ入力は、テキストデータまたは画像データのうちの少なくとも1つを含んでもよい。一部の実装において、データ生成プラットフォームは、トピック固有知識グラフを埋め込み空間に変換してもよい。一部の実装において、データ入力のオブジェクトは埋め込み空間において識別され、代表オブジェクトは埋め込み空間において識別される。
一部の実装において、充足したデータのセットは、代表的な学習手法を使用して判断される。一部の実装において、過少のデータのセットは、代表的な学習手法を使用して判断される。一部の実装において、スコアは、代表的な学習手法を使用して計算される。
図4はプロセス400の例示のブロックを示すが、一部の実装においてプロセス400は、図4に示されたものに比べて追加のブロック、より少数のブロック、異なるブロックまたは別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス400のブロックのうちの2つ以上が並列実行されてもよい。
図5は、過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセス500のフローチャートである。一部の実装において、図5の1つ以上のプロセスブロックは、データ生成プラットフォーム(例えばデータ生成プラットフォーム210)により実行されてもよい。一部の実装において、図5の1つ以上のプロセスブロックは、ユーザデバイス(例えばユーザデバイス205)など、データ生成プラットフォーム(例えばデータ生成プラットフォーム210)とは別個であるかまたはそれを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。
図5に示されているように、プロセス500は、データ入力を受信することを含んでもよい(ブロック505)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、入力コンポーネント350、通信インターフェース370および/または同様のものを使用する)は、データ入力を受信してもよい。
図5にさらに示されているように、プロセス500は、データ入力の中の複数のトピックを識別することを含んでもよい(ブロック510)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、データ入力の中の複数のトピックを識別してもよい。
図5にさらに示されているように、プロセス500は、複数のトピックのうちの第1セットのトピックの過少のデータのセットを、トピックのセットに関連する複数の知識グラフに基づき判断することを含んでもよい(ブロック515)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、複数のトピックのうちの第1セットのトピックの過少のデータのセットを、トピックのセットに関連する複数の知識グラフに基づき判断してもよい。
図5にさらに示されているように、プロセス500は、代表的な学習手法に基づき、第1セットのトピックのうちの各トピックのスコアを計算することを含んでもよい(ブロック520)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、代表的な学習手法に基づき、第1セットのトピックのうちの各トピックのスコアを計算してもよい。
図5にさらに示されているように、プロセス500は、第1セットのトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断することを含んでもよい(ブロック525)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、第1セットのトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断してもよい。
図5にさらに示されているように、プロセス500は、第1トピックに基づきトピック固有知識グラフを選択することを含んでもよい(ブロック530)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、第1トピックに基づきトピック固有知識グラフを選択してもよい。
図5にさらに示されているように、プロセス500は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別することを含んでもよい(ブロック535)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別してもよい。
図5にさらに示されているように、プロセス500は、過少のデータのセットと、複数のトピックのうちの第2セットのトピックに関連するデータのセットとのバランスをとるために、データ入力に類似した表現データを代表オブジェクトに基づき生成することを含んでもよい(ブロック540)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、過少のデータのセットと、複数のトピックのうちの第2セットのトピックに関連するデータのセットとのバランスをとるために、データ入力に類似した表現データを代表オブジェクトに基づき生成してもよい。
図5にさらに示されているように、プロセス500は、表現データに関連するアクションを実行することを含んでもよい(ブロック545)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、出力コンポーネント360、通信インターフェース370および/または同様のものを使用する)は、表現データに関連するアクションを実行してもよい。
プロセス500は、後述される、および/または本願明細書の他の箇所に記載された他の1つ以上のプロセスに関連して記載される、任意の単一の実装または実装の任意の組み合わせなど、追加の実装を含んでもよい。
一部の実装において、データ生成プラットフォームは、過少のデータのセットを判断するとき、過少のデータのセットが第2セットのトピックに関連するデータのセットと比べて過少であると判断してもよい。一部の実装において、スコアは、第1セットのトピックの各トピックと、代表的な学習手法を用いて取得されたドメイン知識グラフとの間の類似度の程度を示す。一部の実装において、データ生成プラットフォームは、データ入力のオブジェクトに類似した代表オブジェクトを識別するとき、代表オブジェクトの特性、オブジェクトの特性およびトピック固有知識グラフ内での代表オブジェクトの位置に基づき、代表オブジェクトをデータ入力のオブジェクトにマッピングしてもよい。
一部の実装において、データ生成プラットフォームは、表現データを生成するとき、データ入力のオブジェクトの編成構造を識別することと、データ入力のオブジェクトそれぞれの特性を識別することと、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングすることと、表現データを生成するために、代表オブジェクトのうちの少なくとも1つをデータ入力のオブジェクトのうちの少なくとも1つと置き換えることとをしてもよい。
一部の実装において、データ生成プラットフォームは、データ入力のオブジェクトを識別するために、ドメイン知識グラフに基づきデータ入力を符号化してもよい。一部の実装において、データ生成プラットフォームは、アクションを実行するとき、表現データに基づき表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。一部の実装において、データ生成プラットフォームは、アクションを実行するとき、表現知識グラフを知識グラフデータ構造に格納してもよい。一部の実装において、知識グラフデータ構造は、複数の知識グラフおよびトピック固有知識グラフを格納する。
図5はプロセス400の例示のブロックを示すが、一部の実装においてプロセス500は、図5に示されたものに比べて追加のブロック、より少数のブロック、異なるブロックまたは別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス500のブロックのうちの2つ以上が並列実行されてもよい。
図6Aおよび図6Bは、過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセス600のフローチャートを含む。一部の実装において、図6Aおよび図6Bの1つ以上のプロセスブロックは、データ生成プラットフォーム(例えばデータ生成プラットフォーム210)により実行されてもよい。一部の実装において、図6Aおよび図6Bの1つ以上のプロセスブロックは、ユーザデバイス(例えばユーザデバイス205)など、データ生成プラットフォーム(例えばデータ生成プラットフォーム210)とは別個であるかまたはそれを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。
図6Aに示されているように、プロセス600は、データ入力を受信することを含んでもよい(ブロック605)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、入力コンポーネント350、通信インターフェース370および/または同様のものを使用する)は、データ入力を受信してもよい。
図6Aにさらに示されているように、プロセス600は、複数のトピックのうちの第1セットのトピックの充足したデータのセットを、複数のトピックのドメイン知識グラフに基づき判断することを含んでもよい(ブロック610)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、複数のトピックのうちの第1セットのトピックの充足したデータのセットを、複数のトピックのドメイン知識グラフに基づき判断してもよい。
図6Aにさらに示されているように、プロセス600は、代表的な学習手法に基づき、複数のトピックのうちの第2セットのトピックの過少のデータのセットを判断することを含んでもよく、過少のデータのセットは、充足したデータのセットと比べて過少である(ブロック615)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、代表的な学習手法に基づき、複数のトピックのうちの第2セットのトピックの過少のデータのセットを判断してもよい。一部の実装において、過少のデータのセットは、充足したデータのセットと比べて過少である。
図6Aにさらに示されているように、プロセス600は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算することを含んでもよい(ブロック620)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算してもよい。
図6Aにさらに示されているように、プロセス600は、複数のトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断することを含んでもよい(ブロック625)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、複数のトピックのうちの第1トピックのスコアが閾値スコアを満たすと判断してもよい。
図6Aにさらに示されているように、プロセス600は、複数のトピックのうちの第1トピックが第2セットのトピックのうちの1つであると判断することを含んでもよい(ブロック630)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、複数のトピックのうちの第1トピックが第2セットのトピックのうちの1つであると判断してもよい。
図6Bにさらに示されているように、プロセス600は、第1トピックが第2セットのトピックのうちの1つであることに基づきトピック固有知識グラフを選択することを含んでもよい(ブロック635)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、第1トピックが第2セットのトピックのうちの1つであることに基づきトピック固有知識グラフを選択してもよい。
図6Bにさらに示されているように、プロセス600は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別することを含んでもよい(ブロック640)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別してもよい。
図6Bにさらに示されているように、プロセス600は、トピック固有知識グラフおよびドメイン知識グラフに従って、代表オブジェクトのうちの1つをデータ入力の対応するオブジェクトと置き換えることにより、データ入力に類似した表現データを代表オブジェクトに基づき生成することを含んでもよい(ブロック645)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、トピック固有知識グラフおよびドメイン知識グラフに従って、代表オブジェクトのうちの1つをデータ入力の対応するオブジェクトと置き換えることにより、データ入力に類似した表現データを代表オブジェクトに基づき生成してもよい。
図6Bにさらに示されているように、プロセス600は、表現データに基づき表現知識グラフを生成することを含んでもよく、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む(ブロック650)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330および/または同様のものを使用する)は、表現データに基づき表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。
図6Bにさらに示されているように、プロセス600は、表現知識グラフを知識グラフデータ構造に格納することを含んでもよく、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する(ブロック655)。例として、上述のように、データ生成プラットフォーム(例えばコンピューティングリソース215、プロセッサ320、メモリ330、ストレージコンポーネント340および/または同様のものを使用する)は、知識グラフデータ構造に表現知識グラフを格納してもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する。
プロセス600は、後述される、および/または本願明細書の他の箇所に記載された他の1つ以上のプロセスに関連して記載される、任意の単一の実装または実装の任意の組み合わせなど、追加の実装を含んでもよい。
一部の実装において、データ生成プラットフォームは、データ入力の複数のトピックを識別し、複数のトピックに基づくドメイン知識グラフを取得してもよい。一部の実装において、過少のデータのセットは、知識グラフデータ構造に含まれる過少のデータのセットに関連するデータの量が、充足したデータのセットの量の閾値パーセンテージを満たすことに基づき、充足したデータのセットと比べて過少である。
一部の実装において、データ生成プラットフォームは、表現を生成するとき、データ入力のオブジェクトの編成構造を識別して、データ入力のオブジェクトそれぞれの特性を識別して、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングしてもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する。一部の実装において、スコアは、第1セットのトピックの各トピックと、ドメイン知識グラフとの間の類似度の程度を示す。一部の実装において、ドメイン知識グラフは、代表的な学習手法を用いて取得される。
図6Aおよび図6Bはプロセス600の例示のブロックを示すが、一部の実装においてプロセス600は、図6Aおよび図6Bに示されたものに比べて追加のブロック、より少数のブロック、異なるブロックまたは別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス600のブロックのうちの2つ以上が並列実行されてもよい。
本願明細書に記載されるように、データ生成プラットフォーム210は、特定のトピックに関連する過少データセットのデータを生成するために使用されてもよい。データ生成プラットフォーム210は、ドメイン知識グラフに基づきデータ入力の中のトピックを識別し、データ入力のどのトピックが過少であるかを判断し、過少トピックに関連するデータをデータ入力を使用して生成してもよい。したがって、本願明細書に記載された一部の実装は、他の場合であれば過少のデータのセットを有するトピックを処理または識別しようと試行して消費されるかもしれないプロセッサリソースおよび/またはメモリリソースを節約し得る。さらに、本願明細書に記載された一部の実装は、過少データセットを使用した結果として不正確であった過少トピックに関連する検出および/または分析を修正することに関連するプロセッサリソースおよび/またはメモリリソースを、節約することができる。
前述の開示は、例示および説明を提供するが、網羅的であることも、実装を開示された厳密な形態に限定することも意図していない。上記の開示を考慮して変更および変形が可能であり、または実装の実施から習得されるかもしれない。
本願明細書で使用されるとき、コンポーネントという用語は、ハードウェア、ファームウェアおよび/またはハードウェアとソフトウェアとの組み合わせとして広く解釈されるよう意図される。
一部の実装は、閾値に関連して本願明細書に記載されている。本願明細書で使用されるとき、閾値を満たすとは、値が閾値より大きいこと、閾値を超えること、閾値より高いこと、閾値以上であること、閾値未満であること、閾値より少ないこと、閾値より低いこと、閾値以下であること、閾値と等しいこと、または同様のことを指すことができる。
当然のことながら、本願明細書に記載されたシステムおよび/または方法は、異なる形態のハードウェア、ファームウェアまたはハードウェアとソフトウェアとの組み合わせに実装され得る。これらのシステムおよび/または方法を実装するために使用される実際の専用制御ハードウェアまたはソフトウェアコードは、実装を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本願明細書に記載されたが、当然のことながら、ソフトウェアおよびハードウェアを、本願明細書の記載に基づくシステムおよび/または方法を実装するよう設計できる。
特徴の特定の組み合わせが特許請求の範囲に記載され且つ/または明細書で開示されるが、これらの組み合わせは可能な実装の開示を限定することを意図されたものではない。実際には、これらの特徴の多くが、具体的に特許請求の範囲に記載および/または明細書に開示されなかった形で組み合わされてもよい。下記に列挙される各従属クレームは、1つのみのクレームに直接従属するかもしれないが、考えられる実装の開示は、クレームセットの中の他のすべてのクレームと組み合わせた各従属クレームを含む。
本願明細書で使用されるいずれの要素、動作または命令も、重要または必須とは、そのように明示的に記載されない限りは解釈されてはならない。さらに、本願明細書で使用されるとき、冠詞「或る(aおよびan)」は、1つ以上の項目を含むよう意図され、「1つ以上の(one or more)」と交換可能なように使用され得る。さらに、本願明細書で使用されるとき、「セット(set)」という用語は、1つ以上の項目(例えば関係する項目、無関係の項目、関係する項目と無関係の項目との組み合わせなど)を含むよう意図され、「1つ以上の(one or more)」と交換可能なように使用され得る。1つのみの項目が意図される場合、「1つの(one)」という用語または同様の文言が使用される。さらに、本願明細書で使用されるとき、「有する(has、have、having)」という用語または同様のものは、非限定的な用語であるものと意図される。さらに、「基づく(based on)」というフレーズは、別段の記載が明示的にされない限り、「少なくとも部分的に基づく(based,at least in part,on)」を意味するよう意図される。

Claims (13)

  1. 1つ以上のメモリと、前記1つ以上のメモリに通信結合された1つ以上のプロセッサを含むデバイスを使用する方法であって、
    前記デバイスによってデータ入力を受信するステップと、
    前記デバイスによって、前記データ入力のオブジェクトに関連するドメイン知識グラフを受信するステップと、
    前記デバイスによって、前記ドメイン知識グラフに基づき前記データ入力の中の複数のトピックを識別するステップと、
    前記デバイスによって、前記複数のトピックのうちの第1セットのトピックの充足したデータのセットを、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断するステップであって、前記充足したデータのセットは、オブジェクトを正しく検出し、且つ/または前記第1セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含むことを特徴とする、前記充足したデータのセットを判断するステップと、
    前記デバイスによって、前記複数のトピックのうちの第2セットのトピックの過少のデータのセットを、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断するステップであって、前記過少のデータのセットは、オブジェクトを正しく検出し、且つ/または前記第2セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含まないことを特徴とする、前記過少のデータのセットを判断するステップと、
    前記デバイスによって、前記データ入力のうちの識別されたトピックと前記ドメイン知識グラフの中の第1トピックとの間の距離を判断するステップと、
    前記デバイスによって、前記距離に基づき前記第1トピックのスコアを計算するステップと、
    前記デバイスによって、前記第1トピックの前記スコアが閾値スコアを満たすと判断するステップと、
    前記デバイスによって、且つ前記第1トピックの前記スコアが前記閾値スコアを満たすと判断することに基づき、前記複数のトピックのうちの前記第1トピックが前記第2セットのトピックのうちの1つのトピックであると判断するステップと、
    前記デバイスによって、前記第1トピックが前記第2セットのトピックのうちの1つであることに基づきトピック固有知識グラフを選択するステップと、
    前記デバイスによって、前記データ入力の文章構造および前記トピック固有知識グラフに基づき前記データ入力のオブジェクトを識別するステップと、
    前記デバイスによって、前記トピック固有知識グラフに基づき前記データ入力の前記オブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別するステップであって、前記代表オブジェクトの特性、前記オブジェクトの特性、および前記トピック固有知識グラフ内の前記代表オブジェクトの位置に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングするステップを含む、識別するステップと、
    前記デバイスによって、且つ前記代表オブジェクトに基づき、前記データ入力の前記オブジェクトに類似した品詞の表現データであり且つ前記過少のデータのセットに関連するデータの量を増大させるものである表現データを生成するステップであって、前記品詞は名詞、動詞、形容詞、副詞、もしくは前置詞であり、該表現データを生成するステップは、
    前記データ入力の前記オブジェクトの編成構造を識別するステップと、
    前記データ入力の前記オブジェクトそれぞれの特性を識別するステップと、
    前記トピック固有知識グラフに従って、前記編成構造および前記オブジェクトそれぞれの前記特性に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングするステップと、
    前記トピック固有知識グラフ内の前記データ入力の前記オブジェクトからの前記代表オブジェクトのエッジ距離に基づき、前記代表オブジェクトのうちの1つを前記データ入力の対応するオブジェクトと置き換えるステップと、
    を含む表現データを生成するステップと、
    前記デバイスによって、前記表現データに関連するアクションを実行するステップと、
    を含む方法。
  2. 前記方法は、
    前記データ入力の前記オブジェクトと、知識グラフデータ構造のオブジェクトとを比較することにより、前記データ入力の前記オブジェクトを識別するステップ
    をさらに含み、
    前記知識グラフデータ構造は、前記ドメイン知識グラフを含む、
    請求項1に記載の方法。
  3. 前記第2セットのトピックの前記過少のデータのセットを判断するステップは、
    前記第2セットのトピックの前記過少のデータのセットが、前記第1セットのトピックの前記充足したデータのセットと比べて過少であると判断するステップ
    を含む、請求項1に記載の方法。
  4. 前記第2セットのトピックの前記過少のデータのセットを判断するステップは、
    前記第2セットのトピックの前記過少のデータのセットが、前記複数のトピックと比べて過少であると判断するステップ
    を含む、請求項1に記載の方法。
  5. 前記アクションを実行するステップは、
    前記表現データに基づき表現知識グラフを生成するステップ
    を含み、
    前記表現知識グラフは、前記過少のデータのセットに関連する新たなトピックを含む、請求項1に記載の方法。
  6. 前記方法は、
    前記トピック固有知識グラフを埋め込み空間に変換するステップ
    をさらに含み、
    前記データ入力の前記オブジェクトは、前記埋め込み空間において識別され、前記代表オブジェクトは、前記埋め込み空間において識別される、請求項1に記載の方法。
  7. 前記スコアは、代表的な学習手法を使用して計算される、請求項1に記載の方法。
  8. 1つ以上のメモリと、
    前記1つ以上のメモリに通信結合された1つ以上のプロセッサであって、
    データ入力を受信すること、
    前記データ入力の中の複数のトピックを識別すること、
    前記複数のトピックのうちの第1セットのトピックの過少のデータのセットを、前記第1セットのトピックに関連する複数の知識グラフに基づき、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断することであって、前記過少のデータのセットは、オブジェクトを正しく検出し、且つ/または前記第1セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含まないことを特徴とする、前記過少のデータのセットを判断すること、
    前記データ入力の識別されたトピックとドメイン知識グラフ中の第1トピックとの間の距離を判断すること、
    前記距離に基づき、前記第1トピックのスコアを計算すること、
    前記第1トピックの前記スコアが閾値スコアを満たすと判断すること、
    前記第1トピックに基づきトピック固有知識グラフを選択すること、
    前記データ入力の文章構造に基づき、前記データ入力のオブジェクトを識別すること、
    前記トピック固有知識グラフに基づき前記データ入力のオブジェクトに類似した代表オブジェクトを識別することであって、前記代表オブジェクトを識別する際に前記1つ以上のプロセッサが、
    前記代表オブジェクトの特性、前記オブジェクトの特性、および前記トピック固有知識グラフ内の前記代表オブジェクトの位置に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすること、
    前記代表オブジェクトに基づき、前記過少のデータのセットと、前記複数のトピックのうちの第2セットのトピックに関連するデータのセットとのバランスをとり且つ前記過少のデータのセットに関連するデータの量を増大させるために、前記データ入力の前記オブジェクトに類似した品詞の表現データを生成することであって、前記品詞は名詞、動詞、形容詞、副詞、もしくは前置詞であり、該表現データを生成することは、前記表現データを生成する際に前記1つ以上のプロセッサが、
    前記データ入力の前記オブジェクトの編成構造を識別すること、
    前記データ入力の前記オブジェクトそれぞれの特性を識別すること、
    前記トピック固有知識グラフに従って、前記編成構造および前記複数のオブジェクトそれぞれの前記特性に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすること、
    前記トピック固有知識グラフ内の前記データ入力の前記オブジェクトからの前記代表オブジェクトのエッジ距離に基づき、前記代表オブジェクトのうちの1つを前記データ入力の対応するオブジェクトと置き換えること、
    を含む表現データを生成すること、ならびに
    前記表現データに関連するアクションを実行すること、
    をする、前記1つ以上のプロセッサと、
    を含むデバイス。
  9. 前記1つ以上のプロセッサは、前記過少のデータのセットを判断するとき、
    前記過少のデータのセットが、前記第2セットのトピックに関連する前記データのセットと比べて過少であると判断すること
    をする、請求項8に記載のデバイス。
  10. 前記スコアは、前記第1セットのトピックの各トピックと、前記ドメイン知識グラフとの間の類似度の程度を示す、請求項8に記載のデバイス。
  11. 前記1つ以上のプロセッサはさらに、
    前記データ入力の前記オブジェクトを識別するために、ドメイン知識グラフに基づき前記データ入力を符号化する、請求項8に記載のデバイス。
  12. 前記1つ以上のプロセッサは、前記アクションを実行するとき、
    前記表現データに基づき表現知識グラフを生成することであって、
    前記表現知識グラフは、前記過少のデータのセットに関連する新たなトピックを含む、
    前記表現知識グラフを前記生成することと、
    知識グラフデータ構造に前記表現知識グラフを格納することであって、
    前記知識グラフデータ構造は、前記複数の知識グラフおよび前記トピック固有知識グラフを格納する、
    前記表現知識グラフを前記格納することと、
    をする、請求項8に記載のデバイス。
  13. 命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、
    1つ以上の命令
    を含み、前記1つ以上の命令は、1つ以上のプロセッサにより実行されると前記1つ以上のプロセッサに、
    データ入力を受信することと、
    前記データ入力の複数のトピックのうちの第1セットのトピックの充足したデータのセットを、前記複数のトピックのドメイン知識グラフに基づき、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断することであって、前記充足したデータのセットは、オブジェクトを正しく検出し、且つ/または前記第1セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含むことを特徴とする、前記充足したデータのセットを判断することと、
    前記複数のトピックのうちの第2セットのトピックの過少のデータのセットを、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断することであって、前記過少のデータのセットは、前記充足したデータのセットと比べて過少であり、前記過少のデータのセットは、オブジェクトを正しく検出し、且つ/または前記第2セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含まないことを特徴とする、前記過少のデータのセットを判断することと、
    前記データ入力の或る識別されたトピックとドメイン知識グラフ中の第1トピックとの間の距離を判断することと、
    前記距離に基づき、前記第1トピックのスコアを計算することと、
    前記第1トピックの前記スコアが閾値スコアを満たすと判断することと、
    前記第1トピックの前記スコアが前記閾値スコアを満たすと判断することに基づき、前記複数のトピックのうちの前記第1トピックが前記第2セットのトピックのうちの1つであると判断することと、
    前記第1トピックが前記第2セットのトピックのうちの1つであることに基づきトピック固有知識グラフを選択することと、
    前記トピック固有知識グラフに基づき前記データ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別することであって、前記1つ以上の命令は前記1つ以上のプロセッサに、前記代表オブジェクトの特性、前記オブジェクトの特性、および前記トピック固有知識グラフ内の前記代表オブジェクトの位置に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすることをさせる、代表オブジェクトを識別することと、
    前記代表オブジェクトに基づき、前記データ入力の前記オブジェクトに類似した品詞の表現データであり且つ前記過少のデータのセットに関連するデータの量を増大させるものである表現データを生成することであって、前記品詞は名詞、動詞、形容詞、副詞、もしくは前置詞であり、該表現データを生成することは、
    前記データ入力の前記オブジェクトの編成構造を識別することと、
    前記データ入力の前記オブジェクトそれぞれの特性を識別することと、
    前記トピック固有知識グラフに従って、前記編成構造および前記オブジェクトそれぞれの前記特性に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすることと、
    前記トピック固有知識グラフ内の前記データ入力の前記オブジェクトからの前記代表オブジェクトのエッジ距離に基づき、前記代表オブジェクトのうちの1つを前記データ入力の対応するオブジェクトと置き換えることを含む、表現データを生成することと、
    前記表現データに基づき表現知識グラフを生成することであって、
    前記表現知識グラフは、前記過少のデータのセットに関連する新たなトピックを含む、
    前記表現知識グラフを前記生成することと、
    前記表現知識グラフを知識グラフデータ構造に格納することであって、
    前記知識グラフデータ構造は、前記ドメイン知識グラフおよび前記トピック固有知識グラフを格納する、
    前記表現知識グラフを格納することと、
    をさせる、非一時的コンピュータ可読媒体。
JP2019143484A 2018-08-09 2019-08-05 受信したデータ入力に基づいて過少データに関連するデータを生成する方法、デバイス、および非一時的コンピュータ可読媒体 Active JP7136752B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/059,399 2018-08-09
US16/059,399 US10915820B2 (en) 2018-08-09 2018-08-09 Generating data associated with underrepresented data based on a received data input

Publications (2)

Publication Number Publication Date
JP2020057365A JP2020057365A (ja) 2020-04-09
JP7136752B2 true JP7136752B2 (ja) 2022-09-13

Family

ID=67658557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019143484A Active JP7136752B2 (ja) 2018-08-09 2019-08-05 受信したデータ入力に基づいて過少データに関連するデータを生成する方法、デバイス、および非一時的コンピュータ可読媒体

Country Status (4)

Country Link
US (1) US10915820B2 (ja)
EP (1) EP3608796A1 (ja)
JP (1) JP7136752B2 (ja)
CN (1) CN110825878B (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10805686B2 (en) * 2018-08-30 2020-10-13 Rovi Guides, Inc. Systems and methods for generating a media-based result to an ambiguous query
KR102863490B1 (ko) * 2018-10-30 2025-09-24 삼성전자주식회사 지식 그래프에 기초하여 데이터베이스들을 통합하는 시스템 및 방법
US11386126B1 (en) * 2019-06-28 2022-07-12 Veeva Systems Inc. System and method for linking data records from different databases
US20210065054A1 (en) * 2019-09-03 2021-03-04 Koninklijke Philips N.V. Prioritizing tasks of domain experts for machine learning model training
US11410644B2 (en) 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model
EP3822825A1 (de) * 2019-11-12 2021-05-19 Robert Bosch GmbH Vorrichtung und verfahren zum maschinenlernen
US12339868B2 (en) * 2020-05-11 2025-06-24 Microsoft Technology Licensing, Llc Descriptive insight generation and presentation system
CN111641621B (zh) * 2020-05-21 2022-05-20 杭州安恒信息技术股份有限公司 物联网安全事件识别方法、装置和计算机设备
DE102020216188A1 (de) * 2020-12-17 2022-06-23 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren eines Klassifizierers
US20220327419A1 (en) * 2021-04-10 2022-10-13 At&T Intellectual Property I, L.P. Increasing inclusivity in machine learning outputs
CN115146075B (zh) * 2022-07-11 2023-03-10 中科雨辰科技有限公司 一种获取知识图谱的数据处理系统
KR102603767B1 (ko) * 2023-08-30 2023-11-17 주식회사 인텔렉투스 지식 그래프 자동 생성 방법 및 시스템
WO2025150160A1 (ja) * 2024-01-11 2025-07-17 株式会社Nttドコモ 装置および方法
US12367425B1 (en) 2024-01-12 2025-07-22 THIA ST Co. Copilot customization with data producer(s)
US12367426B1 (en) 2024-01-12 2025-07-22 THIA ST Co. Customization of machine learning tools with occupation training
US20250231934A1 (en) * 2024-01-12 2025-07-17 Eduworks Corporation Copilot implementation: matching application programming interface (api) queries to received input
US12536045B2 (en) 2024-01-12 2026-01-27 THIA ST Co. Distribution of tasks among microservices in a copilot

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017536601A (ja) 2014-09-26 2017-12-07 オラクル・インターナショナル・コーポレイション 知識ソースを用いた類似性分析およびデータ強化の技術

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610011B2 (en) * 2004-09-19 2009-10-27 Adam Albrett Providing alternative programming on a radio in response to user input
US8442321B1 (en) * 2011-09-14 2013-05-14 Google Inc. Object recognition in images
US8543576B1 (en) * 2012-05-23 2013-09-24 Google Inc. Classification of clustered documents based on similarity scores
KR102131099B1 (ko) * 2014-02-13 2020-08-05 삼성전자 주식회사 지식 그래프에 기초한 사용자 인터페이스 요소의 동적 수정 방법
US20180253650A9 (en) * 2014-08-06 2018-09-06 Prysm, Inc. Knowledge To User Mapping in Knowledge Automation System
US10885089B2 (en) * 2015-08-21 2021-01-05 Cortical.Io Ag Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents
US9817893B2 (en) * 2015-02-18 2017-11-14 Adobe Systems Incorporated Tracking changes in user-generated textual content on social media computing platforms
US20160314184A1 (en) * 2015-04-27 2016-10-27 Google Inc. Classifying documents by cluster
US10503786B2 (en) * 2015-06-16 2019-12-10 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
US10140327B2 (en) * 2015-08-24 2018-11-27 Palantir Technologies Inc. Feature clustering of users, user correlation database access, and user interface generation system
US20170293698A1 (en) * 2016-04-12 2017-10-12 International Business Machines Corporation Exploring a topic for discussion through controlled navigation of a knowledge graph
US10699227B2 (en) * 2016-06-17 2020-06-30 Accenture Global Solutions Limited Workforce strategy insights
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
US10423652B2 (en) 2016-08-08 2019-09-24 Baidu Usa Llc Knowledge graph entity reconciler
US20180069937A1 (en) * 2016-09-02 2018-03-08 VeriHelp, Inc. Event correlation and association using a graph database
US10552468B2 (en) * 2016-11-01 2020-02-04 Quid, Inc. Topic predictions based on natural language processing of large corpora
US10496713B2 (en) * 2017-02-01 2019-12-03 Google Llc Gain adjustment component for computer network routing infrastructure
US20180225372A1 (en) 2017-02-03 2018-08-09 Accenture Global Solutions Limited User classification based on multimodal information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017536601A (ja) 2014-09-26 2017-12-07 オラクル・インターナショナル・コーポレイション 知識ソースを用いた類似性分析およびデータ強化の技術

Also Published As

Publication number Publication date
JP2020057365A (ja) 2020-04-09
CN110825878A (zh) 2020-02-21
US20200050946A1 (en) 2020-02-13
EP3608796A1 (en) 2020-02-12
US10915820B2 (en) 2021-02-09
CN110825878B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
JP7136752B2 (ja) 受信したデータ入力に基づいて過少データに関連するデータを生成する方法、デバイス、および非一時的コンピュータ可読媒体
US11361243B2 (en) Recommending machine learning techniques, features, and feature relevance scores
US11087088B2 (en) Automated and optimal encoding of text data features for machine learning models
KR102794506B1 (ko) 자연어 질문에 대해 검색 증강 생성(rag) 활용을 기초로 챗봇 서비스를 제공하는 시스템
US10157226B1 (en) Predicting links in knowledge graphs using ontological knowledge
US11921764B2 (en) Utilizing artificial intelligence models to manage and extract knowledge for an application or a system
US10339420B1 (en) Entity recognition using multiple data streams to supplement missing information associated with an entity
EP3358472A1 (en) User classification based on multimodal information
EP3401805A1 (en) Analyzing multimedia content using knowledge graph embeddings
JP7242889B2 (ja) 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム
US9875301B2 (en) Learning multimedia semantics from large-scale unstructured data
AU2015203818B2 (en) Providing contextual information associated with a source document using information from external reference documents
US20180114136A1 (en) Trend identification using multiple data sources and machine learning techniques
US20190236135A1 (en) Cross-lingual text classification
AU2019200437A1 (en) A method to build an enterprise-specific knowledge graph
CN113711204B (zh) 用于医疗知识问答系统的接近度信息检索的增强方法
CA2997986C (en) Scoring mechanism for discovery of extremist content
CN113924560B (zh) 利用半监督深度学习理解对医学人工智能系统的查询意图
AU2019201149A1 (en) Item to vector based categorization
AU2016204573A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
WO2022177630A1 (en) Dialogue model training based on reference-free discriminators
KR102823037B1 (ko) Advanced RAG 기반 생성형 AI를 활용한 챗봇 서비스 제공 시스템 및 제공 방법
US20250013824A1 (en) Safeconv: explaining and correcting conversational unsafe behavior
NZ741001A (en) Scoring mechanism for discovery of extremist content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20191205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200825

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210125

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210225

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20211223

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20211223

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220310

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220314

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220620

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220901

R150 Certificate of patent or registration of utility model

Ref document number: 7136752

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250