JP7136752B2

JP7136752B2 - 受信したデータ入力に基づいて過少データに関連するデータを生成する方法、デバイス、および非一時的コンピュータ可読媒体

Info

Publication number: JP7136752B2
Application number: JP2019143484A
Authority: JP
Inventors: リキュウ，フレディ; ファイザルザマン，エムディー
Original assignee: アクセンチュアグローバルソリューションズリミテッド
Priority date: 2018-08-09
Filing date: 2019-08-05
Publication date: 2022-09-13
Anticipated expiration: 2039-08-05
Also published as: JP2020057365A; CN110825878A; US20200050946A1; EP3608796A1; US10915820B2; CN110825878B

Description

本開示は、全般的に、過少データに関連するデータを受信されたデータ入力に基づき生成するデバイスおよび方法に関する。

知識グラフは、特定のカテゴリ、プロパティを、または或るドメインのクラス、トピック、データおよび／もしくはエンティティの間の関係を、表現、指定および／または定義するために使用され得る。知識グラフは、或るドメインのクラス、トピック、データおよび／またはエンティティを表現するノードと、或るドメインのクラス、トピック、データおよび／またはエンティティ間の関係を表現するノードをリンクするエッジとを含み得る。知識グラフは、分類システム、機械学習、コンピュータ処理および／または同様のものにおいて使用され得る。

一部の実装によれば、方法は、データ入力を受信するステップ、データ入力のオブジェクトに関連するドメイン知識グラフを受信するステップ、ドメイン知識グラフに基づきデータ入力の中の複数のトピックを識別するステップ、複数のトピックのうちの第１セットのトピックの充足したデータのセットを判断するステップ、複数のトピックのうちの第２セットのトピックの過少のデータのセットを判断するステップ、複数のトピックのうちの各トピックのスコアを計算するステップ、複数のトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断するステップ、複数のトピックのうちの第１トピックが第２セットのトピックのうちの１つのトピックであると判断するステップ、第１トピックに基づきトピック固有知識グラフを選択するステップ、トピック固有知識グラフに関してデータ入力のオブジェクトを識別するステップ、トピック固有知識グラフに基づきデータ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別するステップ、データ入力に類似したデータタイプの表現データを代表オブジェクトに基づき生成するステップおよび／または表現データに関連するアクションを実行するステップを含んでもよい。

上記の方法の一部の可能な実装によれば、本方法は、データ入力のオブジェクトと、知識グラフデータ構造のオブジェクトとを比較することにより、データ入力のオブジェクトを識別するステップをさらに含んでもよく、知識グラフデータ構造は、ドメイン知識グラフを含む。

上記の方法の一部の可能な実装によれば、第２セットのトピックの過少のデータのセットを判断するステップは、第２セットのトピックの過少のデータのセットが、第１セットのトピックの充足したデータのセットと比べて過少であると判断するステップを含んでもよい。

上記の方法の一部の可能な実装によれば、第２セットのトピックの過少のデータのセットを判断するステップは、第２セットのトピックの過少のデータのセットが、複数のトピックと比べて過少であると判断するステップを含んでもよい。

上記の方法の一部の可能な実装によれば、表現データを生成するステップは、トピック固有知識グラフに基づき、データ入力のオブジェクトに代表オブジェクトをマッピングするステップと、表現データを生成するために、代表オブジェクトのうちの少なくとも１つを、データ入力のオブジェクトのうちの少なくとも１つと置き換えるステップとを含んでもよい。

上記の方法の一部の可能な実装によれば、データ入力の代表オブジェクトをマッピングするステップは、データ入力のオブジェクトの編成構造を識別するステップと、データ入力のオブジェクトそれぞれの特性を識別するステップと、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングするステップとを含んでもよい。

上記の方法の一部の可能な実装によれば、アクションを実行するステップは、表現データに基づき表現知識グラフを生成するステップを含んでもよく、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。

上記の方法の一部の可能な実装によれば、データ入力は、テキストデータまたは画像データのうちの少なくとも１つを含んでもよい。

上記の方法の一部の可能な実装によれば、本方法は、トピック固有知識グラフを埋め込み空間に変換するステップをさらに含んでもよく、データ入力のオブジェクトは、埋め込み空間において識別され、代表オブジェクトは、埋め込み空間において識別される。

上記の方法の一部の可能な実装によれば、充足したデータのセットは、代表的な学習手法を使用して判断されてもよい。

上記の方法の一部の可能な実装によれば、過少のデータのセットは、代表的な学習手法を使用して判断されてもよい。

上記の方法の一部の可能な実装によれば、スコアは、代表的な学習手法を使用して計算されてもよい。

一部の実装によれば、デバイスは、１つ以上のメモリと、１つ以上のメモリに通信結合された１つ以上のプロセッサであって、データ入力を受信すること、データ入力の中の複数のトピックを識別すること、複数のトピックのうちの第１セットのトピックの過少のデータのセットを、第１セットのトピックに関連する複数の知識グラフに基づき判断すること、代表的な学習手法に基づき、第１セットのトピックのうちの各トピックのスコアを計算すること、第１セットのトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断すること、第１トピックに基づきトピック固有知識グラフを選択すること、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別すること、過少のデータのセットと、複数のトピックのうちの第２セットのトピックに関連するデータのセットとのバランスをとるために、データ入力に類似した表現データを代表オブジェクトに基づき生成すること、ならびに表現データに関連するアクションを実行することをする、１つ以上のプロセッサと、を含んでもよい。

上記のデバイスの一部の可能な実装によれば、１つ以上のプロセッサは、過少のデータのセットを判断するとき、過少のデータのセットが、第２セットのトピックに関連するデータのセットと比べて過少であると判断することをしてもよい。

上記のデバイスの一部の可能な実装によれば、スコアは、第１セットのトピックの各トピックと、代表的な学習手法を用いて取得されたドメイン知識グラフとの間の類似度の程度を示してもよい。

上記のデバイスの一部の可能な実装によれば、１つ以上のプロセッサは、データ入力のオブジェクトに類似した代表オブジェクトを識別するとき、代表オブジェクトの特性、オブジェクトの特性およびトピック固有知識グラフ内での代表オブジェクトの位置に基づき、代表オブジェクトをデータ入力のオブジェクトにマッピングしてもよい。

上記のデバイスの一部の可能な実装によれば、１つ以上のプロセッサは、表現データを生成するとき、データ入力のオブジェクトの編成構造を識別することと、データ入力のオブジェクトそれぞれの特性を識別することと、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングすることと、表現データを生成するために、代表オブジェクトのうちの少なくとも１つをデータ入力のオブジェクトのうちの少なくとも１つと置き換えることとをしてもよい。

上記のデバイスの一部の可能な実装によれば、１つ以上のプロセッサはさらに、データ入力のオブジェクトを識別するために、ドメイン知識グラフに基づきデータ入力を符号化してもよい。

上記のデバイスの一部の可能な実装によれば、１つ以上のプロセッサは、アクションを実行するとき、表現データに基づき表現知識グラフを生成することであって、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む、表現知識グラフを生成することと、知識グラフデータ構造に表現知識グラフを格納することであって、知識グラフデータ構造は、複数の知識グラフおよびトピック固有知識グラフを格納する、表現知識グラフを格納することとをしてもよい。

一部の実装によれば、非一時的コンピュータ可読媒体は、命令を格納してもよく、命令は、１つ以上のプロセッサにより実行されると１つ以上のプロセッサに、データ入力を受信することと、データ入力の複数のトピックのうちの第１セットのトピックの充足したデータのセットを、複数のトピックのドメイン知識グラフに基づき判断することと、代表的な学習手法に基づき、複数のトピックのうちの第２セットのトピックの過少のデータのセットを判断することであって、過少のデータのセットは、充足したデータのセットと比べて過少である、過少のデータのセットを判断することと、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算することと、複数のトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断することと、複数のトピックのうちの第１トピックが第２セットのトピックのうちの１つであると判断することと、第１トピックが第２セットのトピックのうちの１つであることに基づきトピック固有知識グラフを選択することと、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別することと、トピック固有知識グラフおよびドメイン知識グラフに従って、代表オブジェクトのうちの１つをデータ入力の対応するオブジェクトと置き換えることにより、データ入力に類似した表現データを代表オブジェクトに基づき生成することと、表現データに基づき表現知識グラフを生成することであって、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む、表現知識グラフを生成することと、表現知識グラフを知識グラフデータ構造に格納することであって、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する、表現知識グラフを格納することとをさせる。

本願明細書に記載される例示の実装の図である。本願明細書に記載される例示の実装の図である。本願明細書に記載される例示の実装の図である。本願明細書に記載される例示の実装の図である。本願明細書に記載されるシステムおよび／または方法が実装され得る例示の環境の図である。図２の１つ以上のデバイスの例示のコンポーネントの図である。過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセスのフローチャートである。

以下の例示の実装の詳細な説明は、添付の図面を参照する。異なる図面にある同じ参照番号は、同じまたは類似の要素を特定することがある。

データ（例えばテキストデータ、画像データ、ビデオデータ、オーディオデータおよび／または同様のもの）内のオブジェクト認識は、データ内のオブジェクトを識別するために使用される参照用のデータセットに依存し得る。データ内の認識され得る一部のオブジェクトは、単語、フレーズ、文章、トピック、人、場所、音、アクションおよび／または同様のものを含み得る。システムは、構造化されていないデータ（例えばテキスト、画像、ビデオ、オーディオおよび／または同様のものを含むストリームおよび／または文書）を受信して、構造化されていないデータの中のオブジェクトを認識して、構造化されていないデータの中の認識されたオブジェクトを分析して、構造化されていないデータのトピック（例えば人、場所、物、事象および／または同様のもの）に関連する構造化されたデータ（例えばレポート、分類および／または同様のもの）を生成し得る。

場合によっては、一部の参照用のデータセットは、オブジェクトを正しく検出し、且つ／または１つ以上のトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを、１つ以上の領域（例えば類似したオブジェクトのグループ）において含まないかもしれない。例として、同じトピックに言及するために使用され得る異なるフレーズは、複数あり得る。別の例として、同じトピック（例えば同じ人、場所または物）を含む異なる画像は、複数あり得る。したがって、特定のトピックに関連するデータ入力が受信されるが、そのトピックのデータセットが他のデータセットと比べて過少である（且つ／または存在しない）場合、トピックが正しく識別される確率は低下する。結果として、テキスト分析、音声認識、画像認識および／または同様のものを使用する１つ以上のシステム（例えば機械学習システム、データ分類システムおよび／または同様のもの）は、データ入力に関連するトピックを正しく検出および／または分析できないかもしれない。

一部の実装は、本願明細書に記載されるように、データ生成プラットフォームが、過少データセットと、参照用のデータ構造の他のデータセットとのバランスをとることを可能にしてもよい。例として、一部の実装において、データ入力が受信されてもよく、データ入力のオブジェクトからデータ入力に関連する複数のトピックを識別でき、複数のトピックのうちの過少トピックのバランスをとることができる。一部の実装において、類似のオブジェクト（例えば意味的に類似しているオブジェクト）および／または類似のデータのセット（例えば意味的に類似のデータのデータセット）を識別して、類似のオブジェクトから過少トピックに関連する例を生成することにより、（例えば他のトピックと比べて）過少トピックのバランスをとることができる。一部の実装において、１つ以上の知識グラフが使用および／または生成されて、過少データセットが識別され、且つ／または過少データセットに関するデータセットが生成されてもよい。このように、データ生成プラットフォームは、１つ以上の過少データセットを識別して過少データセットに関連するデータ（例えば類似のデータ、敵対的データおよび／または同様のもの）を生成し、過少データセット内のデータの量を増大させ、ひいては、以前は過少であったデータセットのトピック１つ以上を識別する能力を、増大した量のデータを使用して向上させてもよい。

このように、本願明細書に記載される一部の実装は、他の場合であれば構造化されていないデータの中のトピックを従前の手法を使用して処理または識別しようと試行して消費されるであろうプロセッサリソースおよび／またはメモリリソースを、節約し得る。さらに、本願明細書に記載された一部の実装は、データ入力のトピックの過少データセットを使用した結果として不正確であったオブジェクト検出および／またはデータ分析を修正することに関連するプロセッサリソースおよび／またはメモリリソースを、節約することができる。このようにして、データ入力を分析するためのプロセスの異なるいくつかの段階が自動化され、これにより、プロセスから人間の主観性および無駄が除去されるかもしれず、さらに、プロセスのスピードおよび効率性が改善され、コンピューティングリソース（例えばプロセッサリソース、メモリリソースおよび／または同様のもの）が節約されるかもしれない。さらに、本願明細書に記載された実装は、以前は実行されなかった、または以前は人間の主観的な直感もしくは入力を使用して実行されていたタスクまたは役割を実行するために、コンピュータによる的確なプロセスを使用する。例として、現在、データ入力および／または１つ以上の知識グラフを使用してデータ入力のトピックに対応する過少データセットのデータを生成する手法は存在しない。最後に、過少トピックに関連する特定のトピックを用いて代表データを生成するプロセスを自動化することで、他の場合であれば後のデータ入力の中のトピックを検出しようと試行するのに浪費されることになるコンピューティングリソース（例えばプロセッサリソース、メモリリソースおよび／または同様のもの）ならびに生成された代表データなしでトピックを正しく検出できないことにより浪費されることになるユーザデバイスのコンピューティングリソースが節約される。

図１Ａ～図１Ｄは、本願明細書に記載される例示の実装１００の図である。例示の実装１００において、過少データセットに関連するデータが、受信されたデータ入力を使用して生成されてもよい。例示の実装１００は、過少データセットの表現データを生成するように構成されたデータ生成プラットフォームに関連してもよく、さらに／またはそれを用いて実装されてもよい。本願明細書にさらに記載されるように、例示の実装１００において、受信されたデータ入力は、データ入力のトピックを識別するために知識グラフを使用して分析されてもよく、各トピックは、トピックの１つ以上が（例えば互いに比べて、且つ／またはトピックを含むデータ構造と比べて）過少であるかどうかを判断するために分析され、さらに、データ入力の識別されたオブジェクトに関連する知識グラフを使用して過少トピックについてデータが生成される。したがって、例示の実装１００において、データ入力に基づき過少データセットを識別でき、データ入力およびデータ入力のオブジェクトに関連する知識グラフを使用して過少データセットについてデータを生成できる。したがって、１つ以上の目的（例えば機械学習、データ分類および／または同様のもの）のために、増大した数のデータセットをデータ構造内に含めて、データ入力に関連する情報の識別における精度向上を可能にすることができる。

図１Ａに、参照番号１０５により示されているように、意味表現分析器がデータ入力を受信する。図１Ａに示されているように、意味表現分析器は、本願明細書に記載されるように、過少データセットに関連するデータを生成するように構成されたプラットフォーム（例えばデータ生成プラットフォーム）の一部であってもよい。

一部の実装において、データ入力は、テキストデータ、画像データ、オーディオデータ、ビデオデータおよび／または同様のものであってもよい。データ入力は、１つ以上のソース（例えばコンピューティングデバイス、ユーザインターフェース、マイクロフォン、画像捕捉デバイス、センサデバイス、ネットワークデバイスおよび／または同様のもの）から受信されてもよい。一部の実装において、意味表現分析器を含むデータ生成プラットフォームは、データ入力を受信するために１つ以上のソースを監視するように構成されてもよい。例として、データ生成プラットフォームは、数百のソース、数千のソース、数百万のソースを同時に監視するように構成される場合もあり、その結果、人間が本願明細書に記載されるようにリアルタイムでデータ入力を受信、処理および／または分析することは不可能であると考えられる。したがって、データ生成プラットフォームは、過少データセットのバランスをとって、受信されたデータ入力を正しく認識、分析、分類および／または利用するために使用可能なトピック、主題および／または同様のもののデータ構造（例えばデータベース、テーブル、グラフおよび／または同様のもの）を構築してもよい。さらに、または代わりに、データ生成プラットフォームは、１つ以上のソースからデータ入力を受信するためにサブスクライブしてもよい。

図のように、データ入力はテキスト入力（「私は５才未満の自分の男の子に昼食を食べさせた（Ｉｆｅｄｍｙｕｎｄｅｒ５ｙｅａｒｏｌｄｂｏｙｌｕｎｃｈ）」）である。一部の実装において、データ入力は、異なるタイプのデータから（例えば音声テキスト化を使用してオーディオデータから、光学文字認識を使用して画像データからおよび／または同様に）変換されてもよく、且つ／または変換済みのものであってもよい。

図１Ａに、参照番号１１０によりさらに示されているように、意味表現分析器は、ドメイン知識グラフを取得して、データ入力に関連するトピックを識別する。ドメイン知識グラフは、特定のドメインの既知のまたは記録されたトピックの知識グラフを含んでもよく、各トピックは、ドメイン知識グラフ上のノードであり、トピック間のエッジ（リンク）は、個々のトピック間の関係に対応する。ドメイン知識グラフは、知識グラフデータ構造に格納されてもよい。知識グラフデータ構造は、ドメイン知識グラフを格納できるデータベース、テーブル、インデックス、タスクグラフおよび／または同様のものを含んでもよい。

一部の実装において、意味表現分析器は、代表的な学習手法（例えば特徴学習および／または機械学習）を使用して、データ入力に関連するトピックをデータ入力の中の識別されたオブジェクトに基づき識別してもよい。代表的な学習手法を使用して、意味表現分析器は、受信されたデータ入力をパースし、データ入力のオブジェクトを識別してもよい。例として、意味表現分析器は、テキストデータを単語および／もしくはフレーズに分割し、画像データを画像の識別された特徴もしくはオブジェクトに分割し、オーディオデータを特定の音もしくはオーディオ信号に分割し、さらに／または同様のことをしてもよい。したがって、意味表現分析器は、受信されたデータ入力を単語（またはオブジェクト）：私（Ｉ）、食べさせた（ｆｅｄ）、自分の（ｍｙ）、未満の（ｕｎｄｅｒ）、５、年（ｙｅａｒ）、古い（ｏｌｄ）、男の子（ｂｏｙ）、昼食（ｌｕｎｃｈ）にパースしてもよい。よって、パースされたデータ入力から、意味表現分析器は知識グラフデータ構造を参照し、パースされたデータの任意のオブジェクト（またはオブジェクトの組み合わせ）が知識グラフデータ構造のトピックの中に含まれ、且つ／またはそれに関連するかどうかを識別してもよい。

一部の実装によれば、データ入力は、データ入力のオブジェクトを識別するために符号化されてもよい。例として、ベクトルが、データ入力のオブジェクトについて生成されてもよい。意味表現分析器は、ドメイン知識グラフに基づきデータ入力のベクトルを生成してもよい。例として、テキストデータについて、データ入力の単語またはフレーズがドメイン知識グラフの中の単語またはフレーズと一致すれば、ドメイン知識グラフの中の単語の対応する値（例えば２進数により表現される）を、符号化されたデータ入力において使用できる。したがって、意味表現分析器は、データ入力を符号化して、１および０のベクトルを生成してもよい。よって、ベクトルは、本願明細書に記載された実装によるデータ入力の処理および／または分析を単純化するために使用できる２進数とされてもよく、それによって、データ生成プラットフォームのコンピューティングリソースが節約される。

図１Ａには、データ入力「私は５才未満の自分の男の子に昼食を食べさせた（Ｉｆｅｄｍｙｕｎｄｅｒ５ｙｅａｒｏｌｄｂｏｙｌｕｎｃｈ）」に関連するドメイン知識グラフの一部分が示されている。ドメイン知識グラフは、示されているもの以外のノードを多数（例えば数百、数千、数百万、数十億またはそれ以上）含んでもよい。例示の実装１００では、ドメイン知識グラフから、家族ノード、子どもノード、育児ノードおよび昼食ノードが、データ入力に関連する該当トピックとして示されている。図のように、子どもノードは、家族ノードに関連し（例えば子どもは家族の一員であるかもしれないから）、子どもノードは家族ノードおよび育児ノードにリンクされ（例えば育児は子どもを育てることを伴うから）、育児ノードは子どもノードおよび昼食ノードにリンクされる（例えば育児は昼食を提供することを伴うから）。

意味表現分析器は、データ入力のオブジェクトおよび／またはトピックと、ドメイン知識グラフのトピックとの間の類似度を判断するために、トピックスコア計算器にデータ入力を提供または転送してもよい。例示のトピックスコア計算器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに／またはそれに関連してもよい。

図１Ｂに、参照番号１１５により示されているように、トピックスコア計算器は、ドメイン知識グラフに基づきデータ入力に関するスコアを計算する。トピックスコア計算器は、データ入力およびドメイン知識グラフを使用して、知識グラフデータ構造のトピックについてスコアを計算し、参照用のデータ構造のトピックがデータ入力に関連する信頼度を特定してもよい。

トピックスコア計算器は、任意の適切なスコアリング手法を使用して、ドメイン知識グラフのトピックがデータ入力のトピックに関係するかどうかを判断してもよい。例として、トピックスコア計算器は、代表的な学習手法（例えば意味的類似度手法）を使用して、ドメイン知識グラフのトピックがデータ入力のトピックと同じであるか、または類似しているかを判断してもよい。一部の実装において、トピックスコア計算器は、データ入力のトピックがドメイン知識グラフのトピックと同じであるか、または意味的に類似している（例えばドメイン知識グラフによれば同義語である）ことに基づき、データ入力のトピックがドメイン知識グラフのトピックに対応すると判断してもよい。一部の実装において、トピックが同じ、類似している、および／または無関係である（または異なる）かどうかは、データ入力の中の識別されたトピックと、ドメイン知識グラフの中のトピックとの間の距離に依存してもよい。したがって、ドメイン知識グラフのトピックのトピックスコアは、データ入力およびドメイン知識グラフのトピック間のエッジの数に対応してもよい。一部の実装において、ドメイン知識グラフのトピックと、ドメイン知識グラフ内でのデータ入力の識別されたトピックとの間の距離に対応する値が、結合、重み付けおよび／または同様のことをされて、ドメイン知識グラフの当該トピックのトピックスコアが判断されてもよい。

一部の実装において、トピックスコアは、ドメイン知識グラフのすべてのトピックについて計算されてもよい。さらに、または代わりに、ドメイン知識グラフのトピックと、データ入力のトピックとの間の距離に基づき、閾値数のトピックスコアが閾値数のドメイン知識グラフトピックについて計算されてもよい。例として、ドメイン知識グラフのトピックが、データ入力の中の識別された任意のトピックから閾値数を超えるエッジ（例えば３つのエッジ、４つのエッジ、５つのエッジおよび／または同様）離れている場合、ドメイン知識グラフの当該トピックについてトピックスコアは計算されなくてもよく、これによりデータ生成プラットフォームのコンピューティングリソースが節約される。

例として、トピックスコア計算器は、「１．０」のスコアが同じトピックを示し、「０．０」のスコアが無関係のトピックを示すように、相対的なスコアリング手法および／または重み付きのスコアリング手法を使用してもよい。図１Ｂの例において示されているように、子どもは（例えばデータ入力の中の「５才未満の男の子」（ｕｎｄｅｒ５ｙｅａｒｏｌｄｂｏｙ）に基づき）０．９のスコアであってもよく、多目的情報は（例えば、データ入力の中の「私（Ｉ）」および「自分の（ｍｙ）」などの一般的な単語が含まれるがデータ入力のトピックでないことに基づき）０．２のスコアであってもよく、政治は（例えば「家族」に幾分関係するがデータ入力のトピックには関係しないことに基づき）０．１のスコアであってもよく、育児は（例えば「５才未満の自分の男の子（ｍｙｕｎｄｅｒ５ｙｅａｒｏｌｄｂｏｙ）」に基づき）０．８のスコアであってもよい。

トピックスコア計算器は、データ入力に関連するどのトピックが（例えば互いに比べて、および／またはドメイン知識グラフのトピックと比べて）過少であるかを識別し得るクラスバランス識別器に、ドメイン知識グラフのトピックに関連するスコアを提供してもよい。例示のクラスバランス識別器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに／またはそれに関連してもよい。一部の実装において、トピックスコア計算器は、特定の閾値を満たす（例えば「０．０」より大きい）トピックのトピックスコアのみクラスバランス識別器に提供してもよい。その結果、トピックスコア計算器は、他の場合であれば特定の閾値未満のスコアとなるトピックのデータを処理するために使用されるかもしれないコンピューティングリソースを節約し得る。

図１Ｂに、参照番号１２０によりさらに示されているように、クラスバランス識別器は、知識グラフデータ構造の中のトピックの表現度を識別する。本願明細書で使用されるトピックの表現度は、受信される、利用可能な、且つ／または特定のトピックに関連する、データの量に基づき判断されてもよい。一部の実装において、クラスバランス識別器は、特定のトピックのドメイン知識グラフに含まれるデータの量に基づき、トピックの表現度を判断してもよい。したがって、クラスバランス識別器は、トピックが過少であるかどうかを、その特定のトピックに関連するドメイン知識グラフの中のノードおよび／またはエッジの量に基づき判断してもよい。

一部の実装では、代表的な学習手法が使用されて、（トピックに関連する）データのセットが別のデータのセットと比べて過少であるかどうかが判断されてもよい。例として、クラスバランス識別器は、データ入力のトピックおよび／またはデータ入力に関係するトピック（例えばデータ入力のトピックの特定のエッジ距離以内の当該トピック）を相互に比較してもよい。したがって、クラスバランス識別器は、代表的な学習手法を使用して、どのトピック（および対応するデータのセット）が、別のトピックと比べて、且つ／または他の複数のトピックと比べて過少であるかを識別してもよい。

図１Ｂの例に示されているように、クラスバランス識別器は、育児トピックが、多目的情報（ＧｅｎＰｒｐとして示されている）、政治および子どもトピックと比べて過少であると判断してもよい。例として、クラスバランス識別器は、育児トピックが、多目的情報、政治および子どもトピックのうち１つ以上の、閾値パーセンテージ（またはそれ未満の）量のデータに関連すると判断してもよい。したがって、過少トピックは、過少データに関連するデータの量が、充足トピックのデータの量の閾値パーセンテージ（例えば１０％未満、２０％未満、３０％未満および／または同様）を満たすことに基づき、充足トピックと比べて過少であるとされてもよい。

クラスバランス識別器は、どのトピックがデータ入力に関連する表現データを生成することによりバランスをとられるべきか判断するために、過少トピックを表現閾値分析器に提供してもよい。表現閾値分析器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに／またはそれに関連してもよい。

図１Ｃに、参照番号１２５により示されているように、表現閾値分析器は、過少トピックをトピックスコアに基づきフィルタリングして、対処される過少データセットがデータ入力のトピックに関連することを確実にしてもよい。例として、（トピックスコアにより表現されるとおり）過少トピックがデータ入力に関係しないトピックに関連すると表現閾値分析器が判断した場合、データ生成プラットフォームは（例えばトピックがデータ入力に関係しないことが理由で）当該トピックの表現データをデータ入力を使用して正しく生成できないかもしれないので、表現閾値分析器は、その過少トピックを無視してもよい。

図１Ｃに示されているように、過少クラス（データのセット）の育児に対するトピックスコアは、０．８である。０．８の閾値スコアを仮定すると、表現閾値分析器は、この過少クラスに関連するデータが生成されることを可能にしてもよい。他方、育児のトピックスコアが０．８未満であった場合（または政治などの別のトピックが過少トピックであると判断された場合）、表現閾値分析器は、育児についてデータが生成されることを可能にしなくてもよく、データ生成プラットフォームは、別のデータ入力の処理および／または分析に移行してもよい。したがって、表現閾値分析器は、他の場合であればデータ入力に関連しないトピックについて表現データを生成しようと試行するのに使用されるかもしれないリソースを、節約し得る。

表現閾値分析器は、表現データ生成器に、フィルタリングされた単数または複数の過少クラスを提供してもよい。表現データ生成器は、本願明細書に記載される、データ生成プラットフォームの一部であっても、さらに／またはそれに関連してもよい。一部の実装において、表現データ生成器は、データ入力からの情報を使用して表現データを生成しようと試行しても正しい表現データが生成されないかもしれないので、データ入力に関連しないクラスではなく、データ入力に関連する過少クラスの表現データを生成してもよい。したがって、データ入力に関連しないトピックについてデータ入力を使用して表現データを生成しようと試行することは、プロセッサリソースおよび／またはメモリリソースの浪費となるであろう。

図１Ｃに、参照番号１３０によりさらに示されているように、表現データ生成器は、データ入力のトピックに関連するトピック固有知識グラフを取得する。例として、或るトピックのトピック固有知識グラフは、閾値エッジ距離以内（例えばエッジ２つ以内、エッジ３つ以内および／または同様）の他のノードいくつかにリンクされているノードとしてそのトピックを備えた知識グラフを含んでもよい。トピック固有知識グラフは、トピック（中央ノード）から関係トピック（例えばドメイン知識グラフにより示される関係ノード）へのエッジを含んでもよく、関係トピックは、トピックからエッジ１つの距離を有してもよい。一部の実装において、さらなる関係トピック（例えば中央ノードからエッジ１つより大きな距離を有してもよい）が取得および／または使用されて、過少クラスに関連する表現データが生成されてもよい。

例示の実装１００に示されているように、昼食に関連するトピック固有知識グラフが識別され、さらに／または埋め込まれる。トピック固有知識グラフにより示されているように、昼食は食事に関係する。食事は夕食、朝食および食べ物に関係する。食べ物は食事および食べ物のタイプに関係し、食べ物のタイプは有機および加工に関係する。データ入力の残りのトピック（例えば育児、子どもおよび／または家族）の、同様のトピック固有知識グラフが取得されて、育児の表現データを生成できる。その結果、本願明細書に記載されるように、表現データ生成器は、トピック固有知識グラフを使用して、過少クラスに関連する表現データを生成してもよい。

一部の実装によれば、トピック固有知識グラフの埋め込みプロセスは、ドメイン知識グラフから実行されてもよい。例として、知識グラフが処理されて、ノード間のエッジ（関係）のタイプ（例えば、ノードＡがノードＢと同じであるかどうか、ノードＡがノードＢのサブセットであるかどうか、ノードＡがノードＢを含むかどうか、ノードＡがノードＢに関係するかどうか、ノードＡが以前にノードＢに関連したかどうかおよび／または同様のもの）が識別されてもよい。例として、表現データ生成器は、食べ物と食事との間のエッジが、食べ物は食事「の間に使用される」（ｆｏｏｄ “ｉｓｕｓｅｄｄｕｒｉｎｇ” ａｍｅａｌ）ことを示すと判断してもよい。さらに、表現データ生成器は、昼食が食事「である（ｉｓａ）」、夕食が食事「である（ｉｓａ）」、朝食が食事「である（ｉｓａ）」などと判断してもよい。さらに、表現データ生成器は、エッジのタイプに基づきオブジェクトの特性を判断してもよい。例として、表現データ生成器は、ノードおよび／またはエッジが文章の主語および／または述語である可能性があるかどうかを判断してもよい。例として、昼食のトピック固有知識グラフは、「食べ物は食事の間に使用される（ｆｏｏｄｉｓｕｓｅｄｄｕｒｉｎｇａｍｅａｌ）」と示してもよい。そのような事例において、「食べ物（ｆｏｏｄ）」は主語であり、「の間に使用される（ｉｓｕｓｅｄｄｕｒｉｎｇ）」は述語であり、「食事（ｍｅａｌ）」は目的語である。埋め込みプロセスは、データ入力に従ったトピック固有グラフから、主語、述語および／または文章オブジェクトをグループ化してもよい（例えば、データ入力の編成構造と同様に）。

図１Ｄに、参照番号１３５により示されているように、表現データ生成器は、知識グラフおよびデータ入力に基づき、データ入力の過少トピックの表現データを生成する。一部の実装によれば、表現データ生成器は、受信されたデータ入力と同様または類似のデータを生成してもよい。さらに、または代わりに、表現データ生成器は、受信されたデータ入力に対し敵対的な、且つ／または逆のデータを生成してもよい（例えば敵対的な、且つ／または逆のデータが過少であると判断された場合）。

一部の実装によれば、表現データ生成器は、データ入力のオブジェクトと閾値レベルの類似度を有する、トピック固有知識グラフの中の代表オブジェクトを識別してもよい。例として、類似度の閾値レベルは、トピック固有知識グラフにおける、代表オブジェクトと、データ入力のオブジェクトとの間のエッジ距離に対応してもよい。表現データ生成器は、代表オブジェクトをデータ入力のオブジェクトにマッピングしてもよい。例として、表現データ生成器は、データ入力の識別されたオブジェクトの特性を識別してもよい。例として、テキストデータでは、表現データ生成器はオブジェクトに関連する品詞（例えば名詞、動詞、形容詞、副詞、前置詞および／または同様のもの）を識別してもよく、画像データでは、表現データ生成器は画像の中で識別されるオブジェクトの特徴（例えば色、陰影、タイプおよび／または同様のもの）を識別してもよい。したがって、図１Ｄの例を参照すると、表現データ生成器は、昼食および子ども（「５才未満の男の子（ｕｎｄｅｒ５ｂｏｙ）」から）が名詞であり、食べさせた（ｆｅｄ）が動詞であると識別してもよい。表現データ生成器は、データ入力の編成構造に基づき、名詞をトピック固有知識グラフの埋め込みにマッピングしてもよい。テキストの場合、編成構造は、テキストの文章構造、テキストのフォーマット、画像のレイアウトおよび／または同様のものに対応してもよい。

表現データを生成するために、表現データ生成器は、代表オブジェクトのうちの少なくとも１つを、データ入力のオブジェクトのうちの少なくとも１つと置き換えてもよい。例として、表現データ生成器は、主語であるデータ入力のトピックを、同じく主語であるトピック固有知識グラフに（および／またはトピック固有知識グラフの埋め込みに）あるトピックに置換してもよい。表現データ生成器は、トピック固有知識グラフにおけるデータ入力のオブジェクトから代表オブジェクトのエッジ距離に基づき、対応する代表オブジェクトをデータ入力のオブジェクトと置き換えてもよい。したがって、図１Ｄの例に示されているように、表現データ生成器は、データ入力「私は５才未満の自分の男の子に昼食を食べさせた（Ｉｆｅｄｍｙｕｎｄｅｒ５ｙｅａｒｏｌｄｂｏｙｌｕｎｃｈ）」に基づき、テキストデータ「私は１２才未満の自分の息子に食べ物を提供した（Ｉｐｒｏｖｉｄｅｄｆｏｏｄｔｏｍｙｕｎｄｅｒ１２ｓｏｎ）」を生成してもよい。図１Ｄの例において、に提供した（ｐｒｏｖｉｄｅｄｔｏ）は、育児のトピック固有知識グラフから獲得され、食べ物（ｆｏｏｄ）は、昼食のトピック固有知識グラフから獲得され、１２才未満（ｕｎｄｅｒ１２）は、子どものトピック固有知識グラフから獲得され、息子（ｓｏｎ）は、家族のトピック固有知識グラフから獲得される。結果的に、そのようなフレーズおよび／またはフレーズに関連する対応する知識グラフを出力でき、さらに／または知識グラフデータ構造内に格納できる。したがって、フレーズ「私は１２才未満の自分の息子に食べ物を提供した」が表現データ生成器に関連するシステム（例えば分類システム、オブジェクト認識システムおよび／または同様のもの）により後に受信された場合、システムは、フレーズが育児に関連すると正しく識別および／または判断することができる。

一部の実装によれば、表現データ生成器は、生成された表現データに基づき表現知識グラフを生成してもよい。例として、表現データ生成器は、食べ物を提供すること（ｐｒｏｖｉｄｉｎｇｆｏｏｄ）に関連する新たなトピックを含む育児の表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、他の１つ以上のトピック固有知識グラフに基づく新たなトピックを形成してもよい。よって、フレーズ「に食べ物を提供した」（ｐｒｏｖｉｄｅｄｆｏｏｄｔｏ）を含む後のデータ入力が受信された場合、システムは、後のデータ入力が、図１Ｄのデータ入力に類似して、育児に関連し、且つ／または食べさせることに関連し得ると識別できてもよい。表現データ生成器は、表現知識グラフを知識グラフデータ構造に格納してもよい。例として、表現データ生成器は、表現知識グラフを含むようにドメイン知識グラフを更新し、さらに／または（例えば知識グラフデータ構造の他のトピック固有知識グラフとともに）トピック固有知識グラフとして表現知識グラフを格納してもよい。よって、表現知識グラフは、後に受信されるデータ入力のトピック１つ以上を識別および／または分析するために使用されてもよい。

一部の実装によれば、表現データ生成器は、過少のデータのセットのバランスがとられるまで、過少のデータのセットのデータを反復して生成してもよい。よって、後に受信されるトピックのセットについては、この表現データは充足したデータのセットに含まれ得る。さらに、または代わりに、表現データ生成器は、閾値量の表現データ（または閾値数のセットのデータ）を生成して、過少のデータのセットに関連するデータの量を増大させてもよい。

したがって、本願明細書に記載されるように、表現データ生成器は、データ入力に関連する表現データを生成し得る。その結果、１つ以上のシステムは、データ入力を受信すると、生成された表現データを、機械学習（例えば機械学習モデルを訓練するため、機械学習モデルをテストするためおよび／または同様のことのため）、分類（例えば分類システムを訓練するため、分類システムをテストするためおよび／または同様のことのため）および／または同様のものにおいて使用してもよい。生成された表現データは、サンプルの量、データおよび／または知識グラフのサイズを増大させてデータ入力の中のオブジェクトの識別における精度を増大させ、且つ／またはデータの中のオブジェクトの誤った識別に関連するエラーを事実上防止し得る。よって、本願明細書に記載された一部の実装は、他の場合であればデータ入力に関連するオブジェクトおよび／またはトピックを不適切に識別することに浪費されるかもしれないプロセッサリソースおよび／またはメモリリソースを節約し得る。

上記に示したとおり、図１Ａ～図１Ｄは、単に例として提供されている。他の例が可能であり、図１Ａ～図１Ｄに関して記載されたものとは異なってもよい。

図２は、本願明細書に記載されるシステムおよび／または方法が実装され得る例示の環境２００の図である。図２に示されているように、環境２００は、ユーザデバイス２０５、データ生成プラットフォーム２１０、コンピューティングリソース２１５、クラウドコンピューティング環境２２０およびネットワーク２３０を含んでもよい。環境２００のデバイスは、有線接続、無線接続または有線接続と無線接続との組み合わせを介して相互に接続してもよい。

ユーザデバイス２０５は、過少データに関連するデータを受信されたデータ入力に基づき生成することに関連する情報を、受信、生成、格納、処理および／または提供できる１つ以上のデバイスを含む。例としてユーザデバイス２０５は、携帯電話（例えばスマートフォン、無線電話など）、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、ゲーム用デバイス、ウェアラブル通信デバイス（例えばスマート腕時計、スマート眼鏡など）または類似のタイプのデバイスなどの通信および／またはコンピューティングデバイスを含んでもよい。

データ生成プラットフォーム２１０は、過少データに関連するデータを受信されたデータ入力に基づき生成することに関連する情報を、受信、生成、格納、処理および／または提供できる１つ以上のデバイスを含む。一部の実装によれば、データ生成プラットフォーム２１０は、図１Ａ～図１Ｄの例示の実装１００の知識グラフデータ構造、意味表現分析器、トピックスコア計算器、クラスバランス識別器、表現閾値分析器、表現データ生成器またはデータ生成プラットフォームのうちの１つ以上に関連しても、さらに／またはそれを含んでもよい。よって、データ生成プラットフォーム２１０は、入力を受信して入力の中のオブジェクトを識別することができ、オブジェクトのクラス１つ以上が過少であると判断して、その特定のクラスの表現を増大させるためそのクラスについて提供するデータおよび／またはデータサンプルを生成してもよい。

一部の実装において、データ生成プラットフォーム２１０は、参照用のデータのセットおよび／または参照用の知識グラフに基づきデータ入力を分析してデータ入力を処理することができるシステム（例えば機械学習システム、分類システム、データ分析システムおよび／または同様のもの）内に含まれてもよい。したがって、一部の実装において、受信されたデータ入力に関連するデータセットが過少であるとデータ生成プラットフォーム２１０が判断すると、データ生成プラットフォーム２１０は、本願明細書に記載されたプロセスの１つ以上を実行してそのデータセットの表現データを生成してもよい。

データ生成プラットフォーム２１０は、サーバデバイスまたはサーバデバイスのグループを含んでもよい。一部の実装において、データ生成プラットフォーム２１０は、クラウドコンピューティング環境２２０においてホストされてもよい。特に、本願明細書に記載される実装は、データ生成プラットフォーム２１０がクラウドコンピューティング環境２２０においてホストされるものとして記載するが、一部の実装では、データ生成プラットフォーム２１０はクラウドベースでなくてもよく、または部分的にクラウドベースであってもよい。

クラウドコンピューティング環境２２０は、コンピュータ処理をサービスとして提供する環境を含み、それによって共有リソース、サービスなどがユーザデバイス２０５および／またはクラウドコンピューティング環境と通信する他の任意のデバイスに提供され得る。クラウドコンピューティング環境２２０は、サービスを提供するシステムおよび／またはデバイスの物理的な位置および構成についてエンドユーザの知識を要求しない演算、ソフトウェア、データアクセス、ストレージおよび／または他のサービスを提供してもよい。図のように、クラウドコンピューティング環境２２０は、データ生成プラットフォームおよびコンピューティングリソース２１５を含んでもよい。

コンピューティングリソース２１５は、１つ以上のパーソナルコンピュータ、ワークステーションコンピュータ、サーバデバイスまたは別のタイプの演算および／もしくは通信デバイスを含む。一部の実装において、コンピューティングリソース２１５はデータ生成プラットフォームをホストしてもよい。クラウドリソースは、コンピューティングリソース２１５において実行される演算インスタンス、コンピューティングリソース２１５に設けられるストレージデバイス、コンピューティングリソース２１５により提供されるデータ転送デバイスなどを含んでもよい。一部の実装において、コンピューティングリソース２１５は、有線接続、無線接続または有線接続と無線接続との組み合わせを介して他のコンピューティングリソース２１５と通信してもよい。

図２にさらに示されているように、コンピューティングリソース２１５は、１つ以上のアプリケーション（「ＡＰＰ（ａｐｐｌｉｃａｔｉｏｎ）」）２１５－１、１つ以上の仮想マシン（「ＶＭ（ｖｉｒｔｕａｌｍａｃｈｉｎｅ）」）２１５－２、仮想化ストレージ（「ＶＳ（ｖｉｒｔｕａｌｉｚｅｄｓｔｏｒａｇｅ）」）２１５－３、１つ以上のハイパーバイザ（「ＨＹＰ（ｈｙｐｅｒｖｉｓｏｒ）」）２１５－４または同様のものなどのクラウドリソースのグループを含んでもよい。

アプリケーション２１５－１は、ユーザデバイス２０５に提供されても、またはユーザデバイス２０５によりアクセスされてもよい１つ以上のソフトウェアアプリケーションを含む。アプリケーション２１５－１は、ユーザデバイス２０５上でソフトウェアアプリケーションをインストールして実行する必要性をなくしてもよい。例として、アプリケーション２１５－１は、データ生成プラットフォームに関連するソフトウェアおよび／またはクラウドコンピューティング環境２２０を介して提供可能な他の任意のソフトウェアを含んでもよい。一部の実装において、１つのアプリケーション２１５－１は、仮想マシン２１５－２を介して他の１つ以上のアプリケーション２１５－１との間で情報を送受信してもよい。

仮想マシン２１５－２は、物理マシンのようにプログラムを実行するマシン（例えばコンピュータ）のソフトウェア実装を含む。仮想マシン２１５－２は、用途、および仮想マシン２１５－２の任意の実マシンとの類似の程度に応じて、システム仮想マシンまたはプロセス仮想マシンのいずれかであってもよい。システム仮想マシンは、完全なオペレーティングシステム（「ＯＳ（ｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）」）の実行をサポートする完全なシステムプラットフォームを提供してもよい。プロセス仮想マシンは、単一のプログラムを実行してもよく、単一のプロセスをサポートしてもよい。一部の実装において、仮想マシン２１５－２は、ユーザ（例えばユーザデバイス２０５）の代わりに実行してもよく、さらにデータ管理、同期化または長期データ転送など、クラウドコンピューティング環境２２０のインフラストラクチャの管理をしてもよい。

仮想化ストレージ２１５－３は、コンピューティングリソース２１５のストレージシステムまたはデバイス内で仮想化手法を使用する１つ以上のストレージシステムおよび／または１つ以上のデバイスを含む。一部の実装において、ストレージシステムの文脈の中で、仮想化のタイプはブロック仮想化およびファイル仮想化を含んでもよい。ブロック仮想化は、物理ストレージからの論理ストレージの抽象化（または分離）を指してもよく、その結果、物理ストレージまたはヘテロジニアス構造と無関係にストレージシステムがアクセスされ得る。この分離は、ストレージシステムの管理者がエンドユーザに対しどのようにストレージを管理するかの点で、柔軟性を管理者に認め得る。ファイル仮想化は、ファイルレベルでアクセスされるデータと、ファイルが物理的に格納される場所との間の依存関係をなくしてもよい。これは、ストレージ使用の最適化、サーバコンソリデーションおよび／または無停止ファイルマイグレーションの実行を可能にしてもよい。

ハイパーバイザ２１５－４は、複数のオペレーティングシステム（例えば「ゲストオペレーティングシステム」）がコンピューティングリソース２１５などのホストコンピュータ上で同時に実行できるようにするハードウェア仮想化手法を提供する。ハイパーバイザ２１５－４は、ゲストオペレーティングシステムに仮想オペレーティングプラットフォームを提示してもよく、ゲストオペレーティングシステムの実行を管理してもよい。様々なオペレーティングシステムの複数のインスタンスが、仮想化ハードウェアリソースを共有してもよい。

ネットワーク２３０は、１つ以上の有線ネットワークおよび／または無線ネットワークを含む。例として、ネットワーク２３０は、セルラネットワーク（例えばロングタームエボリューション（ＬＴＥ：ｌｏｎｇ－ｔｅｒｍｅｖｏｌｕｔｉｏｎ）ネットワーク、符号分割多元接続（ＣＤＭＡ：ｃｏｄｅｄｉｖｉｓｉｏｎｍｕｌｔｉｐｌｅａｃｃｅｓｓ）ネットワーク、３Ｇネットワーク、４Ｇネットワーク、５Ｇネットワーク、別のタイプの次世代ネットワークなど）、公衆陸上モバイルネットワーク（ＰＬＭＮ：ｐｕｂｌｉｃｌａｎｄｍｏｂｉｌｅｎｅｔｗｏｒｋ）、ローカルエリアネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ワイドエリアネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、メトロポリタンエリアネットワーク（ＭＡＮ：ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、電話網（例えば公衆交換電話網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバベースのネットワーク、クラウドコンピューティングネットワークもしくは同様のもの、および／またはこれらもしくはその他のタイプのネットワークの組み合わせを含んでもよい。

図２に示されたデバイスおよびネットワークの数および配置は、例として示されている。実際には、図２に示されたものに比べて、追加のデバイスおよび／またはネットワーク、より少数のデバイスおよび／またはネットワーク、異なるデバイスおよび／またはネットワークあるいは別様に配置されたデバイスおよび／またはネットワークがあってもよい。さらに、図２に示されている２つ以上のデバイスが単一のデバイス内に実装されてもよく、または、図２に示されている単一のデバイスが複数の分散型デバイスとして実装されてもよい。さらに、または代わりに、環境２００のデバイスのセット（例えば１つ以上のデバイス）が、環境２００のデバイスの別のセットにより実行されるものとして記載されている１つ以上の機能を実行してもよい。

図３は、デバイス３００の例示のコンポーネントの図である。デバイス３００は、ユーザデバイス２０５、データ生成プラットフォーム２１０および／またはコンピューティングリソース２１５に対応してもよい。一部の実装において、ユーザデバイス２０５、データ生成プラットフォーム２１０および／またはコンピューティングリソース２１５は、１つ以上のデバイス３００および／またはデバイス３００の１つ以上のコンポーネントを含んでもよい。図３に示されているように、デバイス３００は、バス３１０、プロセッサ３２０、メモリ３３０、ストレージコンポーネント３４０、入力コンポーネント３５０、出力コンポーネント３６０および通信インターフェース３７０を含んでもよい。

バス３１０は、デバイス３００のコンポーネント間の通信を可能にするコンポーネントを含む。プロセッサ３２０は、ハードウェア、ファームウェアまたはハードウェアとソフトウェアとの組み合わせにおいて実装される。プロセッサ３２０は、中央処理ユニット（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、グラフィックス処理ユニット（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、アクセラレーテッド処理ユニット（ＡＰＵ：ａｃｃｅｌｅｒａｔｅｄｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）または別のタイプの処理コンポーネントである。一部の実装において、プロセッサ３２０は、機能を実行するようにプログラム可能な１つ以上のプロセッサを含む。メモリ３３０は、プロセッサ３２０により使用される情報および／または命令を格納するランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）および／または別のタイプの動的もしくは静的ストレージデバイス（例えばフラッシュメモリ、磁気メモリおよび／または光学メモリ）を含む。

ストレージコンポーネント３４０は、デバイス３００の動作および使用に関係する情報および／またはソフトウェアを格納する。例として、ストレージコンポーネント３４０は、ハードディスク（例えば磁気ディスク、光学ディスク、光磁気ディスクおよび／またはソリッドステートディスク）、コンパクトディスク（ＣＤ：ｃｏｍｐａｃｔｄｉｓｃ）、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ）、フロッピーディスク、カートリッジ、磁気テープおよび／または別のタイプの非一時的コンピュータ可読媒体を、対応するドライブとともに含んでもよい。

入力コンポーネント３５０は、デバイス３００が、ユーザ入力（例えばタッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチおよび／またはマイクロフォン）などを介して情報を受信することを可能にするコンポーネントを含む。さらに、または代わりに、入力コンポーネント３５０は、情報を感知するセンサ（例えばグローバルポジショニングシステム（ＧＰＳ：ｇｌｏｂａｌｐｏｓｉｔｉｏｎｉｎｇｓｙｓｔｅｍ）コンポーネント、加速度計、ジャイロスコープおよび／またはアクチュエータ）を含んでもよい。出力コンポーネント３６０は、デバイス３００からの出力情報を提供するコンポーネントを含む（例えばディスプレイ、スピーカおよび／または１つ以上の発光ダイオード（ＬＥＤ：ｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ））。

通信インターフェース３７０は、デバイス３００が有線接続、無線接続または有線接続と無線接続との組み合わせなどを介して他のデバイスと通信することを可能にする、トランシーバのようなコンポーネント（例えばトランシーバならびに／または別々の受信機および送信機）を含む。通信インターフェース３７０は、デバイス３００が、別のデバイスから情報を受信し、さらに／または別のデバイスに情報を提供することを可能にしてもよい。例として、通信インターフェース３７０は、イーサネットインターフェース、光インターフェース、同軸インターフェース、赤外線インターフェース、無線周波数（ＲＦ：ｒａｄｉｏｆｒｅｑｕｅｎｃｙ）インターフェース、ユニバーサルシリアルバス（ＵＳＢ：ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）インターフェース、Ｗｉ－Ｆｉインターフェース、セルラネットワークインターフェースまたは同様のものを含んでもよい。

デバイス３００は、本願明細書に記載される１つ以上のプロセスを実行してもよい。デバイス３００は、メモリ３３０および／またはストレージコンポーネント３４０などの非一時的コンピュータ可読媒体により格納されたソフトウェア命令をプロセッサ３２０が実行するのに基づきこれらのプロセスを実行してもよい。本願明細書において、コンピュータ可読媒体は非一時的なメモリデバイスと定義される。メモリデバイスは、単一の物理ストレージデバイス内のメモリ空間または複数の物理ストレージデバイスにまたがったメモリ空間を含む。

ソフトウェア命令は、メモリ３３０および／またはストレージコンポーネント３４０に別のコンピュータ可読媒体から、または通信インターフェース３７０を介して別のデバイスから読み込まれてもよい。メモリ３３０および／またはストレージコンポーネント３４０に格納されたソフトウェア命令は、実行されると本願明細書に記載された１つ以上のプロセスをプロセッサ３２０に実行させてもよい。さらに、または代わりに、本願明細書に記載の１つ以上のプロセスを実行するために、配線による回路構成がソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用されてもよい。したがって、本願明細書に記載された実装は、ハードウェア回路構成とソフトウェアとのいかなる特定の組み合わせにも限定されない。

図３に示されたコンポーネントの数および配置は、例として示されている。実際には、デバイス３００は、図３に示されたものと比べて、追加のコンポーネント、より少数のコンポーネント、異なるコンポーネントまたは別様に配置されたコンポーネントを含んでもよい。さらに、または代わりに、デバイス３００のコンポーネントのセット（例えば１つ以上のコンポーネント）が、デバイス３００のコンポーネントの別のセットにより実行されるものとして記載されている１つ以上の機能を実行してもよい。

図４は、過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセス４００のフローチャートである。一部の実装において、図４の１つ以上のプロセスブロックは、データ生成プラットフォーム（例えばデータ生成プラットフォーム２１０）により実行されてもよい。一部の実装において、図４の１つ以上のプロセスブロックは、ユーザデバイス（例えばユーザデバイス２０５）など、データ生成プラットフォーム（例えばデータ生成プラットフォーム２１０）とは別個であるかまたはそれを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。

図４に示されているように、プロセス４００は、データ入力を受信することを含んでもよい（ブロック４０５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、入力コンポーネント３５０、通信インターフェース３７０および／または同様のものを使用する）は、データ入力を受信してもよい。

図４にさらに示されているように、プロセス４００は、データ入力のオブジェクトに関連するドメイン知識グラフを受信することを含んでもよい（ブロック４１０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、入力コンポーネント３５０、通信インターフェース３７０および／または同様のものを使用する）は、データ入力のオブジェクトに関連するドメイン知識グラフを受信してもよい。

図４にさらに示されているように、プロセス４００は、ドメイン知識グラフに基づきデータ入力の中の複数のトピックを識別することを含んでもよい（ブロック４１５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、ドメイン知識グラフに基づきデータ入力の中の複数のトピックを識別してもよい。

図４にさらに示されているように、プロセス４００は、代表的な学習手法に基づき、複数のトピックのうちの第１セットのトピックの充足したデータのセットを判断することを含んでもよい（ブロック４２０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、および／または同様のものを使用する）は、代表的な学習手法に基づき、複数のトピックのうちの第１セットのトピックの充足したデータのセットを判断してもよい。

図４にさらに示されているように、プロセス４００は、代表的な学習手法に基づき、複数のトピックのうちの第２セットのトピックの過少のデータのセットを判断することを含んでもよい（ブロック４２５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、代表的な学習手法に基づき、複数のトピックのうちの第２セットのトピックの過少のデータのセットを判断してもよい。

図４にさらに示されているように、プロセス４００は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算することを含んでもよい（ブロック４３０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算してもよい。

図４にさらに示されているように、プロセス４００は、複数のトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断することを含んでもよい（ブロック４３５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、複数のトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断してもよい。

図４にさらに示されているように、プロセス４００は、複数のトピックのうちの第１トピックが第２セットのトピックのうちの１つのトピックであると判断することを含んでもよい（ブロック４４０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、複数のトピックのうちの第１トピックが第２セットのトピックのうちの１つのトピックであると判断してもよい。

図４にさらに示されているように、プロセス４００は、第１トピックに基づきトピック固有知識グラフを選択することを含んでもよい（ブロック４４５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、第１トピックに基づきトピック固有知識グラフを選択してもよい。

図４にさらに示されているように、プロセス４００は、トピック固有知識グラフに基づきデータ入力のオブジェクトを識別することを含んでもよい（ブロック４５０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、トピック固有知識グラフに基づきデータ入力のオブジェクト、でもよい。

図４にさらに示されているように、プロセス４００は、トピック固有知識グラフに基づきデータ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別することを含んでもよい（ブロック４５５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、トピック固有知識グラフに基づきデータ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別してもよい。

図４にさらに示されているように、プロセス４００は、データ入力に類似したデータタイプの表現データを代表オブジェクトに基づき生成することを含んでもよい（ブロック４６０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）、代表オブジェクトに基づきデータ入力と類似したデータタイプの表現データ。

図４にさらに示されているように、プロセス４００は、表現データに関連するアクションを実行することを含んでもよい（ブロック４６５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、ストレージコンポーネント３４０、通信インターフェース３７０および／または同様のものを使用する）は、表現データに関連するアクションを実行してもよい。

プロセス４００は、後述される、および／または本願明細書の他の箇所に記載された他の１つ以上のプロセスに関連して記載される、任意の単一の実装または実装の任意の組み合わせなど、追加の実装を含んでもよい。

一部の実装において、データ生成プラットフォームは、データ入力のオブジェクトと、知識グラフデータ構造のオブジェクトとを比較することにより、データ入力のオブジェクトを識別してもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフを含む。一部の実装において、データ生成プラットフォームは、第２セットのトピックの過少のデータのセットを判断するとき、第２セットのトピックの過少のデータのセットが、第１セットのトピックの充足したデータのセットと比べて過少であると判断してもよい。一部の実装において、データ生成プラットフォームは、第２セットのトピックの過少のデータのセットを判断するとき、第２セットのトピックの過少のデータのセットが、複数のトピックと比べて過少であると判断してもよい。

一部の実装において、データ生成プラットフォームは、表現データを生成するとき、トピック固有知識グラフに基づき代表オブジェクトをデータ入力のオブジェクトにマッピングして、表現データを生成するために代表オブジェクトのうちの少なくとも１つをデータ入力のオブジェクトのうちの少なくとも１つと置き換えてもよい。一部の実装において、データ生成プラットフォームは、データ入力の代表オブジェクトをマッピングするとき、データ入力のオブジェクトの編成構造を識別して、データ入力のオブジェクトそれぞれの特性を識別して、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングしてもよい。

一部の実装において、データ生成プラットフォームは、アクションを実行するとき、表現データに基づき表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。一部の実装において、データ生成プラットフォームは、表現知識グラフを知識グラフデータ構造に格納してもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する。

一部の実装において、データ入力は、テキストデータまたは画像データのうちの少なくとも１つを含んでもよい。一部の実装において、データ生成プラットフォームは、トピック固有知識グラフを埋め込み空間に変換してもよい。一部の実装において、データ入力のオブジェクトは埋め込み空間において識別され、代表オブジェクトは埋め込み空間において識別される。

一部の実装において、充足したデータのセットは、代表的な学習手法を使用して判断される。一部の実装において、過少のデータのセットは、代表的な学習手法を使用して判断される。一部の実装において、スコアは、代表的な学習手法を使用して計算される。

図４はプロセス４００の例示のブロックを示すが、一部の実装においてプロセス４００は、図４に示されたものに比べて追加のブロック、より少数のブロック、異なるブロックまたは別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス４００のブロックのうちの２つ以上が並列実行されてもよい。

図５は、過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセス５００のフローチャートである。一部の実装において、図５の１つ以上のプロセスブロックは、データ生成プラットフォーム（例えばデータ生成プラットフォーム２１０）により実行されてもよい。一部の実装において、図５の１つ以上のプロセスブロックは、ユーザデバイス（例えばユーザデバイス２０５）など、データ生成プラットフォーム（例えばデータ生成プラットフォーム２１０）とは別個であるかまたはそれを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。

図５に示されているように、プロセス５００は、データ入力を受信することを含んでもよい（ブロック５０５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、入力コンポーネント３５０、通信インターフェース３７０および／または同様のものを使用する）は、データ入力を受信してもよい。

図５にさらに示されているように、プロセス５００は、データ入力の中の複数のトピックを識別することを含んでもよい（ブロック５１０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、データ入力の中の複数のトピックを識別してもよい。

図５にさらに示されているように、プロセス５００は、複数のトピックのうちの第１セットのトピックの過少のデータのセットを、トピックのセットに関連する複数の知識グラフに基づき判断することを含んでもよい（ブロック５１５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、複数のトピックのうちの第１セットのトピックの過少のデータのセットを、トピックのセットに関連する複数の知識グラフに基づき判断してもよい。

図５にさらに示されているように、プロセス５００は、代表的な学習手法に基づき、第１セットのトピックのうちの各トピックのスコアを計算することを含んでもよい（ブロック５２０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、代表的な学習手法に基づき、第１セットのトピックのうちの各トピックのスコアを計算してもよい。

図５にさらに示されているように、プロセス５００は、第１セットのトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断することを含んでもよい（ブロック５２５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、第１セットのトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断してもよい。

図５にさらに示されているように、プロセス５００は、第１トピックに基づきトピック固有知識グラフを選択することを含んでもよい（ブロック５３０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、第１トピックに基づきトピック固有知識グラフを選択してもよい。

図５にさらに示されているように、プロセス５００は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別することを含んでもよい（ブロック５３５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別してもよい。

図５にさらに示されているように、プロセス５００は、過少のデータのセットと、複数のトピックのうちの第２セットのトピックに関連するデータのセットとのバランスをとるために、データ入力に類似した表現データを代表オブジェクトに基づき生成することを含んでもよい（ブロック５４０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、過少のデータのセットと、複数のトピックのうちの第２セットのトピックに関連するデータのセットとのバランスをとるために、データ入力に類似した表現データを代表オブジェクトに基づき生成してもよい。

図５にさらに示されているように、プロセス５００は、表現データに関連するアクションを実行することを含んでもよい（ブロック５４５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、出力コンポーネント３６０、通信インターフェース３７０および／または同様のものを使用する）は、表現データに関連するアクションを実行してもよい。

プロセス５００は、後述される、および／または本願明細書の他の箇所に記載された他の１つ以上のプロセスに関連して記載される、任意の単一の実装または実装の任意の組み合わせなど、追加の実装を含んでもよい。

一部の実装において、データ生成プラットフォームは、過少のデータのセットを判断するとき、過少のデータのセットが第２セットのトピックに関連するデータのセットと比べて過少であると判断してもよい。一部の実装において、スコアは、第１セットのトピックの各トピックと、代表的な学習手法を用いて取得されたドメイン知識グラフとの間の類似度の程度を示す。一部の実装において、データ生成プラットフォームは、データ入力のオブジェクトに類似した代表オブジェクトを識別するとき、代表オブジェクトの特性、オブジェクトの特性およびトピック固有知識グラフ内での代表オブジェクトの位置に基づき、代表オブジェクトをデータ入力のオブジェクトにマッピングしてもよい。

一部の実装において、データ生成プラットフォームは、表現データを生成するとき、データ入力のオブジェクトの編成構造を識別することと、データ入力のオブジェクトそれぞれの特性を識別することと、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングすることと、表現データを生成するために、代表オブジェクトのうちの少なくとも１つをデータ入力のオブジェクトのうちの少なくとも１つと置き換えることとをしてもよい。

一部の実装において、データ生成プラットフォームは、データ入力のオブジェクトを識別するために、ドメイン知識グラフに基づきデータ入力を符号化してもよい。一部の実装において、データ生成プラットフォームは、アクションを実行するとき、表現データに基づき表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。一部の実装において、データ生成プラットフォームは、アクションを実行するとき、表現知識グラフを知識グラフデータ構造に格納してもよい。一部の実装において、知識グラフデータ構造は、複数の知識グラフおよびトピック固有知識グラフを格納する。

図５はプロセス４００の例示のブロックを示すが、一部の実装においてプロセス５００は、図５に示されたものに比べて追加のブロック、より少数のブロック、異なるブロックまたは別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス５００のブロックのうちの２つ以上が並列実行されてもよい。

図６Ａおよび図６Ｂは、過少データに関連するデータを受信されたデータ入力に基づき生成する例示のプロセス６００のフローチャートを含む。一部の実装において、図６Ａおよび図６Ｂの１つ以上のプロセスブロックは、データ生成プラットフォーム（例えばデータ生成プラットフォーム２１０）により実行されてもよい。一部の実装において、図６Ａおよび図６Ｂの１つ以上のプロセスブロックは、ユーザデバイス（例えばユーザデバイス２０５）など、データ生成プラットフォーム（例えばデータ生成プラットフォーム２１０）とは別個であるかまたはそれを含む、別のデバイスまたはデバイスのグループにより実行されてもよい。

図６Ａに示されているように、プロセス６００は、データ入力を受信することを含んでもよい（ブロック６０５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、入力コンポーネント３５０、通信インターフェース３７０および／または同様のものを使用する）は、データ入力を受信してもよい。

図６Ａにさらに示されているように、プロセス６００は、複数のトピックのうちの第１セットのトピックの充足したデータのセットを、複数のトピックのドメイン知識グラフに基づき判断することを含んでもよい（ブロック６１０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、複数のトピックのうちの第１セットのトピックの充足したデータのセットを、複数のトピックのドメイン知識グラフに基づき判断してもよい。

図６Ａにさらに示されているように、プロセス６００は、代表的な学習手法に基づき、複数のトピックのうちの第２セットのトピックの過少のデータのセットを判断することを含んでもよく、過少のデータのセットは、充足したデータのセットと比べて過少である（ブロック６１５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、代表的な学習手法に基づき、複数のトピックのうちの第２セットのトピックの過少のデータのセットを判断してもよい。一部の実装において、過少のデータのセットは、充足したデータのセットと比べて過少である。

図６Ａにさらに示されているように、プロセス６００は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算することを含んでもよい（ブロック６２０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、代表的な学習手法に基づき、複数のトピックのうちの各トピックのスコアを計算してもよい。

図６Ａにさらに示されているように、プロセス６００は、複数のトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断することを含んでもよい（ブロック６２５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、複数のトピックのうちの第１トピックのスコアが閾値スコアを満たすと判断してもよい。

図６Ａにさらに示されているように、プロセス６００は、複数のトピックのうちの第１トピックが第２セットのトピックのうちの１つであると判断することを含んでもよい（ブロック６３０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、複数のトピックのうちの第１トピックが第２セットのトピックのうちの１つであると判断してもよい。

図６Ｂにさらに示されているように、プロセス６００は、第１トピックが第２セットのトピックのうちの１つであることに基づきトピック固有知識グラフを選択することを含んでもよい（ブロック６３５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、第１トピックが第２セットのトピックのうちの１つであることに基づきトピック固有知識グラフを選択してもよい。

図６Ｂにさらに示されているように、プロセス６００は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別することを含んでもよい（ブロック６４０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、トピック固有知識グラフに基づきデータ入力のオブジェクトに類似した代表オブジェクトを識別してもよい。

図６Ｂにさらに示されているように、プロセス６００は、トピック固有知識グラフおよびドメイン知識グラフに従って、代表オブジェクトのうちの１つをデータ入力の対応するオブジェクトと置き換えることにより、データ入力に類似した表現データを代表オブジェクトに基づき生成することを含んでもよい（ブロック６４５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、トピック固有知識グラフおよびドメイン知識グラフに従って、代表オブジェクトのうちの１つをデータ入力の対応するオブジェクトと置き換えることにより、データ入力に類似した表現データを代表オブジェクトに基づき生成してもよい。

図６Ｂにさらに示されているように、プロセス６００は、表現データに基づき表現知識グラフを生成することを含んでもよく、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む（ブロック６５０）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０および／または同様のものを使用する）は、表現データに基づき表現知識グラフを生成してもよい。一部の実装において、表現知識グラフは、過少のデータのセットに関連する新たなトピックを含む。

図６Ｂにさらに示されているように、プロセス６００は、表現知識グラフを知識グラフデータ構造に格納することを含んでもよく、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する（ブロック６５５）。例として、上述のように、データ生成プラットフォーム（例えばコンピューティングリソース２１５、プロセッサ３２０、メモリ３３０、ストレージコンポーネント３４０および／または同様のものを使用する）は、知識グラフデータ構造に表現知識グラフを格納してもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する。

プロセス６００は、後述される、および／または本願明細書の他の箇所に記載された他の１つ以上のプロセスに関連して記載される、任意の単一の実装または実装の任意の組み合わせなど、追加の実装を含んでもよい。

一部の実装において、データ生成プラットフォームは、データ入力の複数のトピックを識別し、複数のトピックに基づくドメイン知識グラフを取得してもよい。一部の実装において、過少のデータのセットは、知識グラフデータ構造に含まれる過少のデータのセットに関連するデータの量が、充足したデータのセットの量の閾値パーセンテージを満たすことに基づき、充足したデータのセットと比べて過少である。

一部の実装において、データ生成プラットフォームは、表現を生成するとき、データ入力のオブジェクトの編成構造を識別して、データ入力のオブジェクトそれぞれの特性を識別して、トピック固有知識グラフに従って、編成構造およびオブジェクトそれぞれの特性に基づき、データ入力のオブジェクトに代表オブジェクトをマッピングしてもよい。一部の実装において、知識グラフデータ構造は、ドメイン知識グラフおよびトピック固有知識グラフを格納する。一部の実装において、スコアは、第１セットのトピックの各トピックと、ドメイン知識グラフとの間の類似度の程度を示す。一部の実装において、ドメイン知識グラフは、代表的な学習手法を用いて取得される。

図６Ａおよび図６Ｂはプロセス６００の例示のブロックを示すが、一部の実装においてプロセス６００は、図６Ａおよび図６Ｂに示されたものに比べて追加のブロック、より少数のブロック、異なるブロックまたは別様に配置されたブロックを含んでもよい。さらに、または代わりに、プロセス６００のブロックのうちの２つ以上が並列実行されてもよい。

本願明細書に記載されるように、データ生成プラットフォーム２１０は、特定のトピックに関連する過少データセットのデータを生成するために使用されてもよい。データ生成プラットフォーム２１０は、ドメイン知識グラフに基づきデータ入力の中のトピックを識別し、データ入力のどのトピックが過少であるかを判断し、過少トピックに関連するデータをデータ入力を使用して生成してもよい。したがって、本願明細書に記載された一部の実装は、他の場合であれば過少のデータのセットを有するトピックを処理または識別しようと試行して消費されるかもしれないプロセッサリソースおよび／またはメモリリソースを節約し得る。さらに、本願明細書に記載された一部の実装は、過少データセットを使用した結果として不正確であった過少トピックに関連する検出および／または分析を修正することに関連するプロセッサリソースおよび／またはメモリリソースを、節約することができる。

前述の開示は、例示および説明を提供するが、網羅的であることも、実装を開示された厳密な形態に限定することも意図していない。上記の開示を考慮して変更および変形が可能であり、または実装の実施から習得されるかもしれない。

本願明細書で使用されるとき、コンポーネントという用語は、ハードウェア、ファームウェアおよび／またはハードウェアとソフトウェアとの組み合わせとして広く解釈されるよう意図される。

一部の実装は、閾値に関連して本願明細書に記載されている。本願明細書で使用されるとき、閾値を満たすとは、値が閾値より大きいこと、閾値を超えること、閾値より高いこと、閾値以上であること、閾値未満であること、閾値より少ないこと、閾値より低いこと、閾値以下であること、閾値と等しいこと、または同様のことを指すことができる。

当然のことながら、本願明細書に記載されたシステムおよび／または方法は、異なる形態のハードウェア、ファームウェアまたはハードウェアとソフトウェアとの組み合わせに実装され得る。これらのシステムおよび／または方法を実装するために使用される実際の専用制御ハードウェアまたはソフトウェアコードは、実装を限定するものではない。したがって、システムおよび／または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本願明細書に記載されたが、当然のことながら、ソフトウェアおよびハードウェアを、本願明細書の記載に基づくシステムおよび／または方法を実装するよう設計できる。

特徴の特定の組み合わせが特許請求の範囲に記載され且つ／または明細書で開示されるが、これらの組み合わせは可能な実装の開示を限定することを意図されたものではない。実際には、これらの特徴の多くが、具体的に特許請求の範囲に記載および／または明細書に開示されなかった形で組み合わされてもよい。下記に列挙される各従属クレームは、１つのみのクレームに直接従属するかもしれないが、考えられる実装の開示は、クレームセットの中の他のすべてのクレームと組み合わせた各従属クレームを含む。

本願明細書で使用されるいずれの要素、動作または命令も、重要または必須とは、そのように明示的に記載されない限りは解釈されてはならない。さらに、本願明細書で使用されるとき、冠詞「或る（ａおよびａｎ）」は、１つ以上の項目を含むよう意図され、「１つ以上の（ｏｎｅｏｒｍｏｒｅ）」と交換可能なように使用され得る。さらに、本願明細書で使用されるとき、「セット（ｓｅｔ）」という用語は、１つ以上の項目（例えば関係する項目、無関係の項目、関係する項目と無関係の項目との組み合わせなど）を含むよう意図され、「１つ以上の（ｏｎｅｏｒｍｏｒｅ）」と交換可能なように使用され得る。１つのみの項目が意図される場合、「１つの（ｏｎｅ）」という用語または同様の文言が使用される。さらに、本願明細書で使用されるとき、「有する（ｈａｓ、ｈａｖｅ、ｈａｖｉｎｇ）」という用語または同様のものは、非限定的な用語であるものと意図される。さらに、「基づく（ｂａｓｅｄｏｎ）」というフレーズは、別段の記載が明示的にされない限り、「少なくとも部分的に基づく（ｂａｓｅｄ，ａｔｌｅａｓｔｉｎｐａｒｔ，ｏｎ）」を意味するよう意図される。

Claims

１つ以上のメモリと、前記１つ以上のメモリに通信結合された１つ以上のプロセッサを含むデバイスを使用する方法であって、
前記デバイスによってデータ入力を受信するステップと、
前記デバイスによって、前記データ入力のオブジェクトに関連するドメイン知識グラフを受信するステップと、
前記デバイスによって、前記ドメイン知識グラフに基づき前記データ入力の中の複数のトピックを識別するステップと、
前記デバイスによって、前記複数のトピックのうちの第１セットのトピックの充足したデータのセットを、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断するステップであって、前記充足したデータのセットは、オブジェクトを正しく検出し、且つ／または前記第１セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含むことを特徴とする、前記充足したデータのセットを判断するステップと、
前記デバイスによって、前記複数のトピックのうちの第２セットのトピックの過少のデータのセットを、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断するステップであって、前記過少のデータのセットは、オブジェクトを正しく検出し、且つ／または前記第２セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含まないことを特徴とする、前記過少のデータのセットを判断するステップと、
前記デバイスによって、前記データ入力のうちの識別されたトピックと前記ドメイン知識グラフの中の第１トピックとの間の距離を判断するステップと、
前記デバイスによって、前記距離に基づき前記第１トピックのスコアを計算するステップと、
前記デバイスによって、前記第１トピックの前記スコアが閾値スコアを満たすと判断するステップと、
前記デバイスによって、且つ前記第１トピックの前記スコアが前記閾値スコアを満たすと判断することに基づき、前記複数のトピックのうちの前記第１トピックが前記第２セットのトピックのうちの１つのトピックであると判断するステップと、
前記デバイスによって、前記第１トピックが前記第２セットのトピックのうちの１つであることに基づきトピック固有知識グラフを選択するステップと、
前記デバイスによって、前記データ入力の文章構造および前記トピック固有知識グラフに基づき前記データ入力のオブジェクトを識別するステップと、
前記デバイスによって、前記トピック固有知識グラフに基づき前記データ入力の前記オブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別するステップであって、前記代表オブジェクトの特性、前記オブジェクトの特性、および前記トピック固有知識グラフ内の前記代表オブジェクトの位置に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングするステップを含む、識別するステップと、
前記デバイスによって、且つ前記代表オブジェクトに基づき、前記データ入力の前記オブジェクトに類似した品詞の表現データであり且つ前記過少のデータのセットに関連するデータの量を増大させるものである表現データを生成するステップであって、前記品詞は名詞、動詞、形容詞、副詞、もしくは前置詞であり、該表現データを生成するステップは、
前記データ入力の前記オブジェクトの編成構造を識別するステップと、
前記データ入力の前記オブジェクトそれぞれの特性を識別するステップと、
前記トピック固有知識グラフに従って、前記編成構造および前記オブジェクトそれぞれの前記特性に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングするステップと、
前記トピック固有知識グラフ内の前記データ入力の前記オブジェクトからの前記代表オブジェクトのエッジ距離に基づき、前記代表オブジェクトのうちの１つを前記データ入力の対応するオブジェクトと置き換えるステップと、
を含む表現データを生成するステップと、
前記デバイスによって、前記表現データに関連するアクションを実行するステップと、
を含む方法。
前記方法は、
前記データ入力の前記オブジェクトと、知識グラフデータ構造のオブジェクトとを比較することにより、前記データ入力の前記オブジェクトを識別するステップ
をさらに含み、
前記知識グラフデータ構造は、前記ドメイン知識グラフを含む、
請求項１に記載の方法。
前記第２セットのトピックの前記過少のデータのセットを判断するステップは、
前記第２セットのトピックの前記過少のデータのセットが、前記第１セットのトピックの前記充足したデータのセットと比べて過少であると判断するステップ
を含む、請求項１に記載の方法。
前記第２セットのトピックの前記過少のデータのセットを判断するステップは、
前記第２セットのトピックの前記過少のデータのセットが、前記複数のトピックと比べて過少であると判断するステップ
を含む、請求項１に記載の方法。
前記アクションを実行するステップは、
前記表現データに基づき表現知識グラフを生成するステップ
を含み、
前記表現知識グラフは、前記過少のデータのセットに関連する新たなトピックを含む、請求項１に記載の方法。
前記方法は、
前記トピック固有知識グラフを埋め込み空間に変換するステップ
をさらに含み、
前記データ入力の前記オブジェクトは、前記埋め込み空間において識別され、前記代表オブジェクトは、前記埋め込み空間において識別される、請求項１に記載の方法。
前記スコアは、代表的な学習手法を使用して計算される、請求項１に記載の方法。
１つ以上のメモリと、
前記１つ以上のメモリに通信結合された１つ以上のプロセッサであって、
データ入力を受信すること、
前記データ入力の中の複数のトピックを識別すること、
前記複数のトピックのうちの第１セットのトピックの過少のデータのセットを、前記第１セットのトピックに関連する複数の知識グラフに基づき、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断することであって、前記過少のデータのセットは、オブジェクトを正しく検出し、且つ／または前記第１セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含まないことを特徴とする、前記過少のデータのセットを判断すること、
前記データ入力の識別されたトピックとドメイン知識グラフ中の第１トピックとの間の距離を判断すること、
前記距離に基づき、前記第１トピックのスコアを計算すること、
前記第１トピックの前記スコアが閾値スコアを満たすと判断すること、
前記第１トピックに基づきトピック固有知識グラフを選択すること、
前記データ入力の文章構造に基づき、前記データ入力のオブジェクトを識別すること、
前記トピック固有知識グラフに基づき前記データ入力のオブジェクトに類似した代表オブジェクトを識別することであって、前記代表オブジェクトを識別する際に前記１つ以上のプロセッサが、
前記代表オブジェクトの特性、前記オブジェクトの特性、および前記トピック固有知識グラフ内の前記代表オブジェクトの位置に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすること、
前記代表オブジェクトに基づき、前記過少のデータのセットと、前記複数のトピックのうちの第２セットのトピックに関連するデータのセットとのバランスをとり且つ前記過少のデータのセットに関連するデータの量を増大させるために、前記データ入力の前記オブジェクトに類似した品詞の表現データを生成することであって、前記品詞は名詞、動詞、形容詞、副詞、もしくは前置詞であり、該表現データを生成することは、前記表現データを生成する際に前記１つ以上のプロセッサが、
前記データ入力の前記オブジェクトの編成構造を識別すること、
前記データ入力の前記オブジェクトそれぞれの特性を識別すること、
前記トピック固有知識グラフに従って、前記編成構造および前記複数のオブジェクトそれぞれの前記特性に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすること、
前記トピック固有知識グラフ内の前記データ入力の前記オブジェクトからの前記代表オブジェクトのエッジ距離に基づき、前記代表オブジェクトのうちの１つを前記データ入力の対応するオブジェクトと置き換えること、
を含む表現データを生成すること、ならびに
前記表現データに関連するアクションを実行すること、
をする、前記１つ以上のプロセッサと、
を含むデバイス。
前記１つ以上のプロセッサは、前記過少のデータのセットを判断するとき、
前記過少のデータのセットが、前記第２セットのトピックに関連する前記データのセットと比べて過少であると判断すること
をする、請求項８に記載のデバイス。
前記スコアは、前記第１セットのトピックの各トピックと、前記ドメイン知識グラフとの間の類似度の程度を示す、請求項８に記載のデバイス。
前記１つ以上のプロセッサはさらに、
前記データ入力の前記オブジェクトを識別するために、ドメイン知識グラフに基づき前記データ入力を符号化する、請求項８に記載のデバイス。
前記１つ以上のプロセッサは、前記アクションを実行するとき、
前記表現データに基づき表現知識グラフを生成することであって、
前記表現知識グラフは、前記過少のデータのセットに関連する新たなトピックを含む、
前記表現知識グラフを前記生成することと、
知識グラフデータ構造に前記表現知識グラフを格納することであって、
前記知識グラフデータ構造は、前記複数の知識グラフおよび前記トピック固有知識グラフを格納する、
前記表現知識グラフを前記格納することと、
をする、請求項８に記載のデバイス。
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、
１つ以上の命令
を含み、前記１つ以上の命令は、１つ以上のプロセッサにより実行されると前記１つ以上のプロセッサに、
データ入力を受信することと、
前記データ入力の複数のトピックのうちの第１セットのトピックの充足したデータのセットを、前記複数のトピックのドメイン知識グラフに基づき、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断することであって、前記充足したデータのセットは、オブジェクトを正しく検出し、且つ／または前記第１セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含むことを特徴とする、前記充足したデータのセットを判断することと、
前記複数のトピックのうちの第２セットのトピックの過少のデータのセットを、機械学習を使用して且つ該データのセットに含まれるデータの量に基づいて判断することであって、前記過少のデータのセットは、前記充足したデータのセットと比べて過少であり、前記過少のデータのセットは、オブジェクトを正しく検出し、且つ／または前記第２セットのトピックに関連する識別されたオブジェクトから意味のある情報を判断するのに適した量のデータを含まないことを特徴とする、前記過少のデータのセットを判断することと、
前記データ入力の或る識別されたトピックとドメイン知識グラフ中の第１トピックとの間の距離を判断することと、
前記距離に基づき、前記第１トピックのスコアを計算することと、
前記第１トピックの前記スコアが閾値スコアを満たすと判断することと、
前記第１トピックの前記スコアが前記閾値スコアを満たすと判断することに基づき、前記複数のトピックのうちの前記第１トピックが前記第２セットのトピックのうちの１つであると判断することと、
前記第１トピックが前記第２セットのトピックのうちの１つであることに基づきトピック固有知識グラフを選択することと、
前記トピック固有知識グラフに基づき前記データ入力のオブジェクトと閾値レベルの類似度を有する代表オブジェクトを識別することであって、前記１つ以上の命令は前記１つ以上のプロセッサに、前記代表オブジェクトの特性、前記オブジェクトの特性、および前記トピック固有知識グラフ内の前記代表オブジェクトの位置に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすることをさせる、代表オブジェクトを識別することと、
前記代表オブジェクトに基づき、前記データ入力の前記オブジェクトに類似した品詞の表現データであり且つ前記過少のデータのセットに関連するデータの量を増大させるものである表現データを生成することであって、前記品詞は名詞、動詞、形容詞、副詞、もしくは前置詞であり、該表現データを生成することは、
前記データ入力の前記オブジェクトの編成構造を識別することと、
前記データ入力の前記オブジェクトそれぞれの特性を識別することと、
前記トピック固有知識グラフに従って、前記編成構造および前記オブジェクトそれぞれの前記特性に基づき、前記データ入力の前記オブジェクトに前記代表オブジェクトをマッピングすることと、
前記トピック固有知識グラフ内の前記データ入力の前記オブジェクトからの前記代表オブジェクトのエッジ距離に基づき、前記代表オブジェクトのうちの１つを前記データ入力の対応するオブジェクトと置き換えることを含む、表現データを生成することと、
前記表現データに基づき表現知識グラフを生成することであって、
前記表現知識グラフは、前記過少のデータのセットに関連する新たなトピックを含む、
前記表現知識グラフを前記生成することと、
前記表現知識グラフを知識グラフデータ構造に格納することであって、
前記知識グラフデータ構造は、前記ドメイン知識グラフおよび前記トピック固有知識グラフを格納する、
前記表現知識グラフを格納することと、
をさせる、非一時的コンピュータ可読媒体。