JP2022529178A

JP2022529178A - 人工知能推奨モデルの特徴処理方法、装置、電子機器、及びコンピュータプログラム

Info

Publication number: JP2022529178A
Application number: JP2021561988A
Authority: JP
Inventors: ▲亞▼霏 ▲張▼; 俊▲ウェイ▼ ▲鐘▼; ▲鋒▼ 夏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-29
Filing date: 2020-07-21
Publication date: 2022-06-17
Anticipated expiration: 2040-07-21
Also published as: WO2021036589A1; CN110516815A; US20220020064A1; JP7206419B2

Abstract

本願は、人工知能推奨モデルの特徴処理方法、装置、電子機器、及び記憶媒体を提供する。人工知能推奨モデルの特徴処理方法は、入力データを取得し、前記入力データのデータ構造を統一的なインスタンス構造に変換するステップと、人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定するステップと、前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得するステップと、前記人工知能推奨モデルに対応する特徴群識別子と、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築するステップと、を含む。

Description

本願は、２０１９年８月２９日に中国特許庁に提出された、出願番号が第２０１９１０８１０１０５．６号であり、発明の名称が「人工知能推奨モデルの特徴処理方法、装置、及び電子機器」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。

本願は、人工知能の技術に関し、特に人工知能推奨モデルの特徴処理方法、装置、電子機器、及び記憶媒体に関する。

人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピュータ、又はデジタルコンピュータにより制御される機械を用いて、人間の知能のシミュレーション、延長や拡張をし、環境を感知し、知識を取得し、知識を用いて最適な結果を取得する理論、方法、技術、及び応用システムである。機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）は、分野を横断した学際的な学科であり、人工知能のコアであり、コンピュータに知能を持たせる根本的な手段であり、様々な分野にわたって適用されている。

機械学習に依存して構築される人工知能推奨モデル、例えば広告推奨モデルは、使用過程において訓練及び適用の２つの側面に関する。関連技術で提供される構成では、通常、オフラインの場合、ログに保存された訓練データから特徴を抽出して、モデルを訓練し、訓練済みのモデルをオンラインのモデルサービスにプッシュし、次に、オンラインの測定対象のデータから特徴を抽出して、モデルサービスに入力することにより、推奨結果を取得する。上記の構成では、オフラインとオンラインの過程が分離しており、オフラインの特徴抽出過程とオンラインの特徴抽出過程とに潜在的な差異が存在する可能性があり、その結果、同じ内容のデータについては、オフラインの場合とオンラインの場合、抽出された特徴が一貫しない可能性があり、特徴の強い一貫性が悪い。

本願で提供される各種の実施例に基づき、人工知能推奨モデルの特徴処理方法、装置、電子機器、及び記憶媒体を提供する。

本願の実施例の構成は、以下のように実現される。

本願の実施例では、電子機器が実行する、人工知能推奨モデルの特徴処理方法を提供する。前記方法は、
入力データを取得し、前記入力データのデータ構造を統一的なインスタンス構造に変換するステップと、
人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定するステップと、
前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得するステップと、
前記人工知能推奨モデルに対応する特徴群識別子と、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築するステップと、を含む。

本願の実施例では、人工知能推奨モデルの特徴処理装置を提供する。前記装置は、
入力データを取得し、前記入力データのデータ構造を統一的なインスタンス構造に変換する変換モジュールと、
人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定する関数決定モジュールと、
前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得する特徴抽出モジュールと、
前記人工知能推奨モデルに対応する特徴群識別子と、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築する構築モジュールと、を含む。

本願の実施例では、メモリとプロセッサとを備える電子機器を提供する。前記メモリには、コンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、前記プロセッサに上記の人工知能推奨モデルの特徴処理方法を実行させる。

本願の実施例では、コンピュータ読み取り可能な命令を記憶した１つ又は複数の不揮発性記憶媒体を提供する。前記コンピュータ読み取り可能な命令は、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに上記の人工知能推奨モデルの特徴処理方法を実行させる。

本願の１つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本願の他の特徴、目的及び利点は、明細書、図面及び特許請求の範囲から明らかになる。

本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。

関連技術で提供される特徴抽出方式の構成の模式図である。本願の実施例で提供される人工知能推奨モデルの特徴処理システムの任意選択的な構成の模式図である。本願の実施例で提供されるサーバの任意選択的な構成の模式図である。本願の実施例で提供される人工知能推奨モデルの特徴処理方法の任意選択的なフローの模式図である。本願の実施例で提供される人工知能推奨モデルの特徴処理方法の他の任意選択的なフローの模式図である。本願の実施例で提供される、人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定するフローの模式図である。本願の実施例で提供される、特徴抽出関数に基づいて変換後の入力データに対して特徴抽出処理を行うことにより、入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得するフローの模式図である。本願の実施例で提供される、特徴群識別子、特徴識別子、及び特徴値に基づいて、人工知能推奨モデルのインスタンスを構築するフローの模式図である。本願の実施例で提供される特徴抽出アーキテクチャの比較模式図である。本願の実施例で提供される特徴抽出フレームワークの任意選択的な構成の模式図である。

本願の目的、構成、及びメリットをより明確にするために、以下、図面を参照しながら、本願をさらに詳しく説明する。説明する実施例は、本願を制限するものとしてはならない。当業者が創造的な労働をせずに得る全ての他の実施例は、本願の保護範囲に属する。

以下の説明に記載の「いくつかの実施例」は、全ての可能な実施例の部分集合を記述するものである。ただし、理解できるものとして、「いくつかの実施例」は、全ての可能な実施例の同じ部分集合又は異なる部分集合であってもよく、且つ矛盾しない限り、互いに組み合わせることができる。

以下の説明に記載の用語「第１／第２／第３」は、類似した対象を区別するものに過ぎず、対象に対する特定の順序を表すものではない。理解できるものとして、「第１／第２／第３」は、可能な場合、特定の順序又は優先順位を交換してもよい。これにより、ここで説明される本願の実施例は、ここで図示又は説明されるもの以外の順序で実施されることが可能になる。

別に定義しない限り、本明細書で使用される全ての技術的用語及び科学的用語は、当業者が通常理解する意味と同じである。本明細書で使用される用語は、本願の実施例を説明することのみを目的としており、本願を制限することを意図するものではない。

本願の実施例をさらに詳細に説明するに先立って、本願の実施例に係る名詞及び用語を説明する。本願の実施例に係る名詞及び用語は、以下の解釈を適用する。

１）インスタンス（ｉｎｓｔａｎｃｅ）：実例（ｅｘａｍｐｌｅ）とも呼ばれ、人工知能推奨モデルに入力されて、対応するタスクを実行することに用いられる。通常、１つのインスタンスはいくつかの特徴群を含み、１つの特徴群はいくつかの特徴を含む、１つの特徴は特徴識別子と特徴値とを含む。

２）特徴群：特徴ドメインとも呼ばれる。１つの特徴群は、少なくとも１つの特徴を含み、且つ含まれる特徴には、通常、相関関係がある。また、各々の特徴群は１つの特徴群識別子に対応しており、特徴群識別子はｇｉｄと略称されてもよい。

３）特徴識別子：特徴群識別子の次のレベルにある特徴識別子である。特徴識別子はｆｉｄと略称されてもよい。１つのグローバル特徴を表すには、＜ｇｉｄ，ｆｉｄ＞の結合が必要となる。特徴識別子は、特徴群識別子から独立して存在することができない。

４）特徴値：特徴の意味を示すためのものである。実際の適用シナリオによって、特徴値は、２値（即ち、０又は１）を取ってもよく、連続したものとしてもよい。特徴値は、浮動小数点数で表され、ｆｖａｌｕｅと略称されてもよい。

５）原子的特徴：分割不可な最小の特徴を指す。原子的特徴の特徴群識別子は、原子的特徴群識別子と呼ばれ、ａｇｉｄと略称される。原子的特徴の特徴識別子は、原子的特徴識別子と呼ばれ、ａｆｉｄと略称される。原子的特徴の特徴値は、原子的特徴値と呼ばれ、ａｆｖａｌｕｅと略称される。例を挙げると、あるインスタンスが「ユーザ年齢：２０：１」である場合、ここでのユーザ年齢は原子的特徴群識別子であり、２０は原子的特徴識別子であり、１は原子的特徴値である。原子的特徴値は、数値１の意味が「正しい」であり、数値０の意味が「間違う」であるとすれば、このインスタンスにおいて、ユーザ年齢が２０であるという結果は正しい。

６）組み合わせ特徴：任意個の原子的特徴を組み合わせた新特徴である。組み合わせ特徴の特徴群識別子は、組み合わせ特徴群識別子と呼ばれ、ｃｇｉｄと略称される。組み合わせ特徴の特徴識別子は、組み合わせ特徴識別子と呼ばれ、ｃｆｉｄと略称される。組み合わせ特徴の特徴値は、組み合わせ特徴値と呼ばれ、ｃｆｖａｌｕｅと略称される。例を挙げると、あるインスタンスが「ユーザ年齢＿ユーザ性別：２０＿女：１」である場合、ここでのユーザ年齢＿ユーザ性別は組み合わせ特徴群識別子であり、２０＿女は組み合わせ特徴識別子、１は原子的特徴値であり、原子的特徴値は、数値１の意味が「正しい」であり、数値０の意味が「間違う」であるとすれば、このインスタンスにおいて、ユーザ年齢が２０であり、ユーザ性別が女であるという結果は正しい。

７）データ構造：コンピュータがデータを記憶・組織する方式であり、例えば、互いに１種又は複数種の特定関係を持つデータ要素の集合である。

発明者らは、本願を実施する過程において、広告や推奨などの業務では、通常、人工知能推奨モデルを用いて関連データを処理することを見出した。業務に係るリコールやソートなどのアルゴリズムタスクは、そのデータフローが通常、図１に示すとおりである。即ち、オフラインの場合、データログからオフラインの訓練データを抽出し、この訓練データがオフラインデータ構造を有し、次に、オフライン特徴フレームワークによって、訓練データに対して特徴抽出処理を行い、訓練データにおける特徴を抽出し、モデル訓練を行い、例えば、図１のモデルａ、モデルｂ、及びモデルｃを訓練し、次に、訓練済みのモデルをオンラインのモデルサービスにプッシュする。オンラインの場合、オンライン特徴フレームワークによって、オンラインデータ構造を有する測定対象のデータ、例えば図１に示すユーザプロファイル、ドキュメントインデックス、及びコンテクストデータに対して特徴抽出を行い、抽出した特徴をモデルサービスに入力し、モデルサービスにおけるモデル処理後に返信した結果を取得して、それに対応する業務操作を実行する。ここでの特徴フレームワーク部分は、オフライン特徴フレームワークとオンライン特徴フレームワークとに潜在的な不一貫が存在する可能性がある。例えば、業務者は、業務の要求に基づいて、オフライン特徴フレームワークにおけるある特徴の抽出方式を更新しているが、新たな抽出方式をオンライン特徴フレームワークに同期していない。これにより、内容が同じであるが、データ構造が異なるデータは、オフライン特徴フレームワークとオンライン特徴フレームワークにより抽出されると、取得される特徴が一貫しなく、人工知能推奨モデルの適用へ悪影響を与える。

本願の実施例では、特徴の強い一貫性を高め、特徴抽出の効率性及び柔軟性を高めることができる人工知能推奨モデルの特徴処理方法、装置、電子機器、及び記憶媒体を提供する。以下、本願の実施例で提供される電子機器の例示的な適用を説明する。

本願の実施例で提供される人工知能推奨モデルの特徴処理システム１００の任意選択的なアーキテクチャの模式図である図２を参照する。人工知能推奨モデルをサポートする特徴処理の適用を実現するために、端末機器４００（端末機器４００－１及び端末機器４００－２が例示的に示されている）は、ネットワーク３００を介してサーバ２００に接続される。ネットワーク３００は、ワイドエリアネットワーク又はローカルエリアネットワークであってもよく、両者の組み合わせであってもよい。また、サーバ２００とデータベース５００には、通信接続が存在する。

端末機器４００は、グラフィックインタフェース４１０（グラフィックインタフェース４１０－１及びグラフィックインタフェース４１０－２が例示的に示されている）に業務アプリケーションを表示し、ユーザによる業務アプリケーションへの操作に応答して、オンラインの測定対象のデータを生成し、測定対象のデータをサーバ２００に送信する。サーバ２００は、端末機器４００の測定対象のデータを取得し、測定対象のデータのデータ構造を統一的なインスタンス構造に変換し、人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定し、特徴抽出関数に基づいて、変換後の測定対象のデータに対して特徴抽出処理を行うことにより、測定対象のデータにおける特徴群識別子、特徴識別子、及び特徴値を取得し、測定対象のデータにおける特徴群識別子、特徴識別子、及び特徴値に基づいて、測定対象のインスタンスを構築し、人工知能推奨モデルによって、測定対象のインスタンスに対して予測処理を行うことにより、推奨結果を取得し、推奨結果を端末機器４００に送信する。端末機器４００は、グラフィックインタフェース４１０の業務アプリケーションに推奨結果を表示する。図２には、広告Ａ、広告Ｂ、及び広告Ｃが例示的に示されている。

これに加えて、サーバ２００は、データベース５００の訓練データを取得し、訓練データのデータ構造を統一的なインスタンス構造に変換し、人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定し、特徴抽出関数に基づいて、変換後の訓練データに対して特徴抽出処理を行うことにより、訓練データにおける特徴群識別子、特徴識別子、及び特徴値を取得し、訓練データにおける特徴群識別子、特徴識別子、及び特徴値に基づいて、訓練インスタンスを構築し、訓練インスタンスに基づいて人工知能推奨モデルを訓練する。

以下、引き続いて、本願の実施例で提供される電子機器の例示的な適用を説明する。電子機器は、ノートコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、セットトップボックス、モバイル機器（例えば、携帯電話、ポータブル音楽プレーヤー、パーソナル・デジタル・アシスタント、専用メッセージ機器、ポータブルゲーム機器）などの各種タイプの端末機器として実施されてもよいし、サーバとして実施されてもよい。以下、電子機器がサーバである場合を例として説明する。

本願の実施例で提供されるサーバ２００（例えば、図２に示すサーバ２００であってもよい）のアーキテクチャの模式図である図３を参照する。図３に示すサーバ２００は、少なくとも１つのプロセッサ２１０、メモリ２５０、少なくとも１つのネットワークインタフェース２２０、及びユーザインタフェース２３０を含む。サーバ２００の各コンポーネントは、バスシステム２４０を介して結合されている。理解できるように、バスシステム２４０は、これらのコンポーネント同士の接続通信を実現する。バスシステム２４０は、データバスを含むに加えて、電源バス、制御バス、及び状態信号バスを含む。ただし、説明の明瞭さから、図３において、各種のバスをバスシステム２４０として示している。

プロセッサ２１０は、信号処理能力を有する集積回路チップ、例えば、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、或いは、他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。これらのうち、汎用プロセッサは、マイクロプロセッサや一般的な任意のプロセッサなどとしてもよい。

ユーザインタフェース２３０は、メディアコンテンツを表現できるようにする１つ又は複数の出力装置２３１を含む。１つ又は複数の出力装置２３１は、１つ又は複数のスピーカー、及び／又は、１つ又は複数のビジュアルディスプレイを含む。ユーザインタフェース２３０は、１つ又は複数の入力装置２３２をさらに含む。入力装置２３２は、ユーザの入力に役立つユーザインタフェース部材、例えば、キーボード、マウス、マイクロフォン、タッチディスプレイ、カメラ、他の入力ボタンやコントロールを含む。

メモリ２５０は、取り外し可能なもの、取り外し不可なもの、又はこれらの組み合わせであってもよい。例示的なハードウェア機器には、ソリッドステートメモリ、ハードディスクドライブ、光ディスクドライブなどが含まれる。メモリ２５０は、任意選択的に、物理位置がプロセッサ２１０から遠い１つ又は複数の記憶機器を含む。

メモリ２５０は、揮発性メモリ又は不揮発性メモリを含み、揮発性メモリと不揮発性メモリの両方を含んでもよい。不揮発性メモリは読み出し専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）であってもよく、揮発性メモリはランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよい。本願の実施例に記載のメモリ２５０は、適切なタイプの任意のメモリを含むことを意図している。該コンピュータ機器の不揮発性記憶媒体は、オペレーティングシステムやコンピュータ読み取り可能な命令を記憶することができる。該コンピュータ読み取り可能な命令は、実行されると、プロセッサに人工知能推奨モデルの特徴処理方法を実行させることが可能である。該揮発性メモリも、コンピュータ読み取り可能な命令を記憶することができる。該コンピュータ読み取り可能な命令は、プロセッサによって実行されると、プロセッサに人工知能推奨モデルの特徴処理方法を実行させることが可能である。

いくつかの実施例において、メモリ２５０は、各種の操作をサポートするためにデータを記憶することができる。これらのデータの例として、プログラム、モジュールやデータ構造、或いはこれらの部分集合又は超集合が含まれる。以下、例示的に説明する。

オペレーティングシステム２５１は、各種の基本的なシステムサービスを処理し、ハードウェア関連タスクを実行するためのシステムプログラム、例えば、フレームワーク層、コアライブラリ層、ドライバ層などを含み、各種の基礎業務を実現し、ハードウェアに基づくタスクを処理する。

ネットワーク通信モジュール２５２は、１つ又は複数の（有線又は無線）ネットワークインタフェース２２０を介して、他のコンピューティングデバイスに到達するためのものである。例示的なネットワークインタフェース２２０として、ブルートゥース(登録商標)、無線互換性認証（ＷｉＦｉ）やユニバーサルシリアルバス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などが含まれる。

表現モジュール２５３は、１つ又は複数のユーザインタフェース２３０に関連する出力装置２３１（例えば、ディスプレイ、スピーカーなど）を介して、情報を表現できるようにする（例えば、周辺機器を操作して、コンテンツ及び情報を表示するためのユーザインタフェース）。

入力処理モジュール２５４は、１つ又は複数の入力装置２３２のうちの１つからの１つ又は複数のユーザ入力又はインタラクションを検出し、検出した入力又はインタラクションを翻訳する。

いくつかの実施例において、本願の実施例で提供される人工知能推奨モデルの特徴処理装置は、ソフトウェア方式で実現されてもよい。図３は、メモリ２５０に記憶された人工知能推奨モデルの特徴処理装置２５５を示している。この人工知能推奨モデルの特徴処理装置２５５は、プログラムやプラグインなどの形式のソフトウェアであってもよく、ソフトウェアモジュールとして、変換モジュール２５５１、関数決定モジュール２５５２、特徴抽出モジュール２５５３、及び構築モジュール２５５４を含む。これらのモジュールは、ロジック的なものであるため、実現される機能に応じて、任意に組み合わせたり、さらに分割したりすることが可能である。

以下では、各モジュールの機能を説明する。

他のいくつかの実施例において、本願の実施例で提供される人工知能推奨モデルの特徴処理装置は、ハードウェア方式で実現されてもよい。一例として、本願の実施例で提供される人工知能推奨モデルの特徴処理装置は、ハードウェア復号プロセッサ形式のプロセッサであってもよく、本願の実施例で提供される人工知能推奨モデルの特徴処理方法を実現するようにプログラミングされる。例えば、ハードウェア復号プロセッサ形式のプロセッサとしては、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ：ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又は他の電子素子が採用されてもよい。

本願の実施例で提供される人工知能推奨モデルの特徴処理方法は、上記のサーバによって実行されてもよいし、端末機器（例えば、図２に示す端末機器４００－１及び端末機器４００－２であってもよい）によって実行されてもよく、又はサーバと端末機器が共同で実行してもよい。

以下、上述した電子機器の例示的な適用及び構成を参照しながら、電子機器において、組み入れられた人工知能推奨モデルの特徴処理装置によって人工知能推奨モデルの特徴処理方法を実現する過程を説明する。

本願の実施例で提供される人工知能推奨モデルの特徴処理方法の任意選択的なフローの模式図である図４Ａを参照する。図４Ａに示すステップを参照して説明する。

ステップ１０１では、入力データを取得し、前記入力データのデータ構造を統一的なインスタンス構造に変換する。

ここで、入力データは、測定対象のデータ、又は訓練データであってもよい。例えば、人工知能推奨モデルが広告推奨モデルである場合、測定対象のデータは、ユーザプロファイルデータ、例えば、ユーザ年齢や性別などであってもよく、訓練データは、ユーザプロファイルデータ、及び広告に対するユーザのクリックデータ（例えば、クリック又は未クリック）を含んでもよい。素早く予測してフィードバックすることを可能にするために、測定対象のデータは、通常、オンラインで取得される。訓練データは、通常、ログに記憶される。実際の適用シナリオでは、記憶を容易にするために、ログにおけるデータのデータ構造とオンラインのデータ構造には通常違いがある。このため、本願の実施例では、入力データのデータ構造を統一的なインスタンス構造に変換することにより、データ構造間の差異を克服し、異なる種類の入力データにおけるフィールドの意味の一貫性を確保する。ここで、統一的なインスタンス構造は、クロス言語データフォーマットであり、ｐｒｏｔｏｂｕｆフォーマット、ｆｌａｔｂｕｆｆｅｒｓフォーマット、ｔｈｒｉｆｔフォーマット、ａｖｒｏフォーマット、及びｍｓｇｐａｃｋフォーマットを含むが、これらに限定されない。変換する際に、まず、使用するクロス言語データフォーマットを決定し、次に、それに対応するフォーマットのツールキットを呼び出し、入力データのデータ構造をこのクロス言語データフォーマットに変換する。変換が完了すると、それに対応するフォーマットのファイルが生成され、このファイルには、該クロス言語データフォーマットで記述される入力データが含まれる。

ステップ１０２では、人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定する。

本願の実施例は、人工知能推奨モデルの種類を限定しない。例えば、人工知能推奨モデルは、線形回帰、サポートベクターマシン、又はニューラルネットワークを用いた推奨モデルであってもよい。本ステップでは、人工知能推奨モデルの設定に対応する特徴群識別子を決定する。該特徴群識別子は、原子的特徴群識別子及び／又は組み合わせ特徴群識別子を含み、実際の適用シナリオに応じて決定される。同じ業務タイプに適用する人工知能推奨モデルは、必要なデータに一定の共通性が存在する。このため、業務タイプごとに、それに対応する特徴群識別子を設定しておき、本ステップでは、人工知能推奨モデルの業務タイプに基づいて、それに対応する設定済みの特徴群識別子を決定するようにしてもよい。例えば、業務タイプは、ゲーム推奨、化粧品推奨、及びテレビドラマ推奨を含む。業務タイプごとに、それに対応する特徴群識別子を設定し、人工知能推奨モデルがゲーム推奨に適用されると決定した場合、ゲーム推奨タイプに対応する特徴群識別子を決定する。人工知能推奨モデルに対応する特徴群識別子を決定するとともに、人工知能推奨モデルに対応する特徴抽出関数を決定する。該特徴抽出関数は、予め設定されるものであり、且つ各々の特徴抽出関数は、１つの原子的特徴群識別子に対応している。特徴抽出関数は、変換後の入力データを解析することにより、原子的特徴群識別子と、原子的特徴群識別子に対応する原子的特徴識別子及び原子的特徴値とを取得するためのものである。特徴抽出関数を設定する際に、例えば、原子的特徴群識別子が「ユーザ年齢」であれば、原子抽出関数に「ユーザ年齢」のフィールドを設定する。このように、原子抽出関数を実行することにより、変換後の入力データから、「ユーザ年齢」である原子的特徴群識別子と、該原子的特徴群識別子に関連する原子的特徴識別子及び原子的特徴値を識別できる。

ステップ１０３では、前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得する。

特徴抽出関数で特徴抽出処理を行うと、変換後の入力データにおける原子的特徴群識別子、原子的特徴識別子、及び原子的特徴値が取得される。もちろん、変換後の入力データには、ある原子的特徴群識別子が含まれない場合、該原子的特徴群識別子に対応する特徴抽出関数で入力データを処理すると、取得された結果はヌルである。説明すべきものとして、決定された特徴抽出関数が少なくとも２つである場合、各特徴抽出関数に基づいて、変換後の入力データに対して特徴抽出処理を行う。

ステップ１０４では、人工知能推奨モデルに対応する特徴群識別子と、入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築する。

＜特徴群識別子：特徴識別子：特徴値＞のトリプルに基づいて、人工知能推奨モデルに入力するための人工知能推奨モデルのインスタンスを構築する。各々の特徴群識別子は、１つの単独したインスタンスに対応している。例えば、原子的特徴群識別子「ユーザ年齢」の場合、構築されたインスタンスは「ユーザ年齢：２０：１」である。説明すべきものとして、ステップ１０３では、原子的特徴群識別子、原子的特徴識別子、及び原子的特徴値だけが取得されるため、人工知能推奨モデルが組み合わせ特徴にも対応する場合、原子的特徴識別子及び原子的特徴値をさらに組み合わせる必要があり、具体的な内容について後述する。

本願の実施例における図４Ａの上記の例示的な実施から分かるように、本願の実施例では、統一的なインスタンス構造を基に、人工知能推奨モデルに対応する特徴抽出関数を利用して、入力データに対して特徴抽出を行うことにより、所望のインスタンスを取得する。本願の実施例では、予測データと訓練データとの間のデータ構造の差異が隠され、特徴の強い一貫性が確保され、特徴抽出の柔軟性や効率性が向上する。

いくつかの実施例では、図４Ｂを参照する。図４Ｂは、本願の実施例で提供される人工知能推奨モデルの特徴処理方法の任意選択的なフローの模式図である。図４Ａを基に、ステップ１０４の後、ステップ１０５では、前記入力データが訓練データである場合、前記インスタンスに基づいて前記人工知能推奨モデルを訓練してもよい。

例を挙げると、人工知能推奨モデルは広告推奨モデルであり、入力データに基づいて構築されたインスタンスは「ユーザ年齢＿ユーザ性別＿広告：２０＿女＿広告Ａ：１」である。ここで、入力データは訓練データであり、特徴値「１」は、該ユーザが広告Ａをクリックしたことを表す。このような場合、訓練する際に、ユーザ年齢「２０」及びユーザ性別「女」を入力パラメータとして人工知能推奨モデルに入力し、人工知能推奨モデルの出力パラメータとインスタンスの特徴値「１」との間の差異に基づいて、人工知能推奨モデルのパラメータを調整し、これにより、後で新たなインスタンス従って訓練するときに、人工知能推奨モデルの出力パラメータとインスタンスの特徴値との間の差異を減少させ、即ち、人工知能推奨モデルによる予測の正確度を高める。例えば、人工知能推奨モデルが、ニューラルネットワークを用いた推奨モデルである場合、出力パラメータとインスタンスの特徴値「１」との間の差異に基づいて、バックプロパゲーションを行うことにより、ニューラルネットワークの各層の重みパラメータを調整する。

いくつかの実施例において、前記インスタンスに基づいて前記人工知能推奨モデルを訓練する上記ステップは、以下のような方式によって実現されてもよい。即ち、前記人工知能推奨モデルのコピーを作成し、前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練する。

ここでは、モデル訓練とモデル予測の過程を分離してもよい。具体的には、人工知能推奨モデルのコピーを作成し、訓練データに対応するインスタンスに基づいて、人工知能推奨モデルのコピーを訓練する。上記の方式によれば、人工知能推奨モデルが２つのタイプのインスタンスを同時に処理することに起因する処理過程の混乱を回避する。

いくつかの実施例において、前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練する前記ステップの前に、前記インスタンスに基づいて前記人工知能推奨モデルのコピーの第１正確率を決定するステップをさらに含む。

ここでは、正確率のメカニズムを設定して、人工知能推奨モデルの更新タイミングを決定してもよい。まず、インスタンスに基づいて人工知能推奨モデルのコピーの第１正確率を決定する。例えば、インスタンスは、１００個のサブインスタンスを含む。ここで、サブインスタンスとは、＜特徴群識別子：特徴識別子：特徴値＞のような形式のトリプルを指す。各サブインスタンスの入力パラメータを人工知能推奨モデルのコピーに入力すると、インスタンスにおける７０個のサブインスタンスについては、人工知能推奨モデルのコピーの出力パラメータがサブインスタンスの特徴値に合致し、残りの３０個のサブインスタンスについては、出力パラメータが特徴値に合致しない場合、第１正確率が７０％であると決定できる。

前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練する前記ステップの後、新たな訓練データに対応するインスタンスに基づいて、訓練後の前記人工知能推奨モデルのコピーの第２正確率を決定するステップと、前記第２正確率が前記第１正確率を超える場合、訓練後の前記人工知能推奨モデルのコピーに基づいて、前記人工知能推奨モデルを更新するステップとをさらに含む。

人工知能推奨モデルのコピーの訓練が完了すると、新たな訓練データを取得し、インスタンスを構築する。同様に、新たに構築されたインスタンスに基づいて、訓練後の人工知能推奨モデルのコピーの第２正確率を決定する。第２正確率が第１正確率を超える場合、訓練後の人工知能推奨モデルのコピーに基づいて、人工知能推奨モデルを更新し（ここでの人工知能推奨モデルは、測定対象のデータに対応するインスタンスを処理するためのものである）、第２正確率が第１正確率を超えない場合、新たに構築されたインスタンスに基づいて、人工知能推奨モデルのコピーを訓練し続けてもよい。上記の方式によれば、予測用の人工知能推奨モデルの正確率が確保され、訓練データの品質低下による正確率の低減が回避される。

いくつかの実施例において、訓練後の前記人工知能推奨モデルのコピーに基づいて、前記人工知能推奨モデルを更新する上記ステップは、以下のような方式によって実現されてもよい。即ち、訓練データの生成率を取得し、前記生成率が生成率閾値よりも低い場合、訓練後の前記人工知能推奨モデルのコピーに基づいて、前記人工知能推奨モデルを更新する。

例えば、特定の間隔ごとに、新たに取得された訓練データの数を１回統計する。生成率が所定の生成率閾値よりも低い場合、例えば、生成率が１分あたり１０個であるが、生成率閾値が１分あたり１１個である場合、訓練後の人工知能推奨モデルのコピーに基づいて、人工知能推奨モデルを更新する。上記の方式によって人工知能推奨モデルの更新を実行すると、モデルの更新に起因する業務遅延を低減させる。

いくつかの実施例において、前記インスタンスに基づいて前記人工知能推奨モデルを訓練する前記ステップの前に、特徴調整識別子と、それに対応する調整値とを取得するステップと、前記インスタンスにおいて、前記特徴調整識別子に合致する各群の特徴群識別子、特徴識別子、及び特徴値を調整対象のサブインスタンスとして決定するステップと、前記調整対象のサブインスタンスの重み値を前記調整値に更新するステップとをさらに含み、前記特徴調整識別子は、特徴群識別子と、特徴群識別子及び特徴識別子とのうちの１種である。

例えば、業務の軽重に応じて、特徴調整識別子及び調整値を設定する。ユーザ業務はユーザ年齢が２０であるユーザに注目している場合、特徴群識別子及び特徴識別子を含む特徴調整識別子が具体的に＜ユーザ年齢：２０＞であり、それに対応する調整値が２であるように設定する。インスタンスには、＜特徴群識別子：特徴識別子：特徴値＞のトリプルが含まれている。理解しやすくするために、該トリプルをサブインスタンスと名づける。サブインスタンスの特徴値には、０と１の値がある。これらのうち、０は、対応するユーザが広告Ａをクリックしたことを表し、１は、対応するユーザが広告Ｂをクリックしたことを表す。また、サブインスタンスの重み値（ｓａｍｐｌｅ＿ｗｅｉｇｈｔ）は、デフォルトで１である。このような場合、特徴調整識別子に基づいて、インスタンスにおける、＜ユーザ年齢：２０＞が含まれているサブインスタンスを調整対象のサブインスタンスとして決定し（特徴値を問わず）、調整対象のサブインスタンスの総インスタンスにおける割合を高めるために、調整対象のサブインスタンスの重み値を２に更新する。上記の方式によれば、モデルの訓練の柔軟性が向上し、実際の適用シナリオに応じて各種のサブインスタンスの割合を調整することが可能になる。

ステップ１０６では、前記入力データが測定対象のデータである場合、前記人工知能推奨モデルによって前記インスタンスに対して予測処理を行うことにより、推奨結果を取得する。

同様に、上記の例を挙げると、特徴抽出によって、入力データに基づいて構築されたインスタンスである「ユーザ年齢＿ユーザ性別：２０＿女：１」が取得される。ここで、入力データは測定対象のデータであり、特徴値「１」は、インスタンスのデータが正しいデータであることを表す。このような場合、予測する際に、インスタンスのユーザ年齢「２０」及びユーザ性別「女」を入力パラメータとして人工知能推奨モデルに入力し、人工知能推奨モデルの出力パラメータを、該ユーザが広告Ａをクリックする確率とする。これにより、業務ロジックによって、該ユーザへ広告Ａを推奨するか否かを決定し、対応する推奨結果を取得する。例えば、確率が７０％を超える場合、広告Ａを推奨すると決定し、確率が７０％を超えない場合、広告Ａを推奨しないと決定する。

本願の実施例における図４Ｂの上記の例示的な実施から分かるように、本願の実施例では、訓練データに対応するインスタンスを訓練インスタンスとして、人工知能推奨モデルを訓練し、測定対象のデータに対応するインスタンスを測定対象のインスタンスとして、人工知能推奨モデルに入力し、推奨結果を取得する。これにより、異なる種類の入力データに対するターゲティング性が向上する。

いくつかの実施例では、図４Ｃを参照する。図４Ｃは、本願の実施例で提供される、人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定するフローの模式図である。図４Ａを基に、ステップ１０２は、ステップ２０１～ステップ２０６によって実現されてもよい。各ステップを参照して説明する。

ステップ２０１では、原子的特徴登録情報と、組み合わせ特徴登録情報とを取得し、前記原子的特徴登録情報には、登録済みの原子的特徴群識別子と、それに対応する特徴抽出関数とが含まれ、前記組み合わせ特徴登録情報には、登録済みの組み合わせ特徴群識別子と、それに対応する少なくとも２つの原子的特徴群識別子が含まれる。

本ステップにおいて、原子的特徴登録情報及び組み合わせ特徴登録情報は、人工知能推奨モデルに限定されるものではなく、グローバルな登録情報である。これらのうち、原子的特徴登録情報には、登録済みの原子的特徴群識別子と、それに対応する特徴抽出関数とが含まれ、組み合わせ特徴登録情報には、登録済みの組み合わせ特徴群識別子と、それに対応する少なくとも２つの原子的特徴群識別子が含まれる。例えば、組み合わせ特徴登録情報には、組み合わせ特徴群識別子である「ユーザ年齢＿ユーザ性別」と、それに対応する２つの原子的特徴群識別子である「ユーザ年齢」「ユーザ性別」とが含まれる。

ステップ２０２では、人工知能推奨モデルに対応する特徴群識別子集合を取得し、前記特徴群識別子集合を走査する。

取得された特徴群識別子集合は、ステップ２０１の登録情報と異なる。該特徴群識別子集合は、グローバルなものではなく、インスタンスの構築要素としての特徴群識別子のみを含む。インスタンスとは、人工知能推奨モデルに対応するインスタンスを指す。特徴群識別子集合には、少なくとも１つの特徴群識別子が含まれる。特徴群識別子集合を取得した後、それに対して走査操作を実行する。

ステップ２０３では、走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記原子的特徴登録情報における、前記特徴群識別子に対応する特徴抽出関数を特徴抽出関数チェーンに追加する。

１つの特徴群識別子が走査されるたびに、該特徴群識別子と、原子的特徴登録情報における原子的特徴群識別子とを１つずつマッチングし、特徴群識別子と、原子的特徴登録情報における原子的特徴群識別子とが同じであるか否かを判断し、同じである場合、特徴群識別子が原子的特徴登録情報とマッチングすると決定し、原子的特徴登録情報における、該特徴群識別子対応する特徴抽出関数を所定の特徴抽出関数チェーンに追加する。説明すべきものとして、ここでの特徴抽出関数チェーンとは、特徴抽出関数の集合を指すものであり、ある特定の記憶構造を指すものではない。

ステップ２０４では、走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記組み合わせ特徴登録情報における、前記特徴群識別子に対応するターゲット原子的特徴群識別子を決定する。

走査される特徴群識別子が、原子的特徴登録情報におけるいずれの原子的特徴群識別子ともマッチングしない場合、該特徴群識別子と、組み合わせ特徴登録情報における各組み合わせ特徴群識別子とを１つずつマッチングし、特徴群識別子と、組み合わせ特徴登録情報における組み合わせ特徴群識別子とが同じであるか否かを判断し、同じである場合、組み合わせ特徴登録情報における、該特徴群識別子に対応する全てのターゲット原子的特徴群識別子を決定する。走査される特徴群識別子が、原子的特徴登録情報とマッチングしなくて、且つ組み合わせ特徴登録情報とマッチングしない場合、処理をしない。

ステップ２０５では、前記原子的特徴登録情報において、前記ターゲット原子的特徴群識別子に対応するターゲット特徴抽出関数を決定する。

決定されたターゲット原子的特徴群識別子ごとに、原子的特徴登録情報において、それに対応するターゲット特徴抽出関数を決定する。

ステップ２０６では、前記ターゲット特徴抽出関数が前記特徴抽出関数チェーンに存在しない場合、前記ターゲット特徴抽出関数を前記特徴抽出関数チェーンに追加する。

決定されたターゲット特徴抽出関数が特徴抽出関数チェーンに存在する場合、処理をせず、決定されたターゲット特徴抽出関数が特徴抽出関数チェーンに存在しない場合、ターゲット特徴抽出関数を特徴抽出関数チェーンに追加する。

理解しやすくするために、例を挙げて説明する。特徴抽出関数をｆａで表し、特徴抽出関数チェーンをｆａ＿ｃｈａｉｎで表し、取得された原子的特徴登録情報には、「ａｇｉｄ１－ｆａ１」及び「ａｇｉｄ２－ｆａ２」が含まれ（「ａｇｉｄ１－ｆａ１」は、原子的特徴群識別子ａｇｉｄ１と、それに対応する特徴抽出関数ｆａ１とを表す）、取得された組み合わせ特徴登録情報には、「ｃｇｉｄ１－（ａｇｉｄ１，ａｇｉｄ２）」が含まれ、特徴群識別子集合には、特徴群識別子ａｇｉｄ１及びｃｇｉｄ１が含まれる場合、番号の形式でｆａ＿ｃｈａｉｎの構築過程を説明する。

（１）特徴群識別子集合において特徴群識別子ａｇｉｄ１が走査され、ａｇｉｄ１が原子的特徴登録情報とマッチングすると決定されると、原子的特徴登録情報における、ａｇｉｄ１に対応するｆａ１をｆａ＿ｃｈａｉｎに追加する。

（２）特徴群識別子集合において特徴群識別子ｃｇｉｄ１が走査され、ｃｇｉｄ１が原子的特徴登録情報とマッチングしないと決定され、次に、ｃｇｉｄ１が組み合わせ特徴登録情報とマッチングすると決定されると、組み合わせ特徴登録情報における、ｃｇｉｄ１に対応する２つの原子的特徴群識別子ａｇｉｄ１及びａｇｉｄ２を取得する。ａｇｉｄ１については、原子的特徴登録情報における、それに対応するｆａ１がｆａ＿ｃｈａｉｎに追加されているため、処理をせず、ａｇｉｄ２については、原子的特徴登録情報における、それに対応するｆａ２がｆａ＿ｃｈａｉｎに存在しないため、ｆａ２をｆａ＿ｃｈａｉｎに追加する。

（３）特徴群識別子集合における全ての特徴群識別子の走査が完了すると、ｆａ＿ｃｈａｉｎを出力する。

いくつかの実施例では、図４Ｄを参照する。図４Ｄは、本願の実施例で提供される、前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得するフローの模式図である。図４Ａ及び図４Ｃを基に、ステップ１０３は、ステップ２０７～ステップ２０８によって実現されてもよい。各ステップを参照して説明する。

ステップ２０７では、前記特徴抽出関数チェーンを走査する。

特徴抽出関数チェーンに基づいて、変換後の前記入力データに対して特徴抽出処理を行う。まず、特徴抽出関数チェーンを走査する。

ステップ２０８では、走査される特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける原子的特徴群識別子、原子的特徴識別子、及び原子的特徴値を取得する。

走査が完了するまで、走査される各特徴抽出関数に基づいて、変換後の入力データに対して特徴抽出処理を行う。ここで、特徴抽出関数によって、入力データにおける、該関数に対応する原子的特徴群識別子、並びに、原子的特徴群識別子に関連する原子的特徴識別子及び原子的特徴値しか識別できない。

いくつかの実施例では、図４Ｅを参照する。図４Ｅは、本願の実施例で提供される、前記特徴群識別子、特徴識別子、及び特徴値に基づいて、前記人工知能推奨モデルのインスタンスを構築するフローの模式図である。図４Ａ、図４Ｃ、及び図４Ｄを基に、ステップ１０４は、ステップ２０９～ステップ２１４によって実現されてもよい。各ステップを参照して説明する。

ステップ２０９では、前記特徴群識別子集合を走査する。

人工知能推奨モデルのインスタンスを構築する際に、同様に特徴群識別子集合を走査する。

ステップ２１０では、走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の原子的特徴群識別子として決定し、前記追加対象の原子的特徴群識別子と、それに対応する原子的特徴識別子及び原子的特徴値とをインスタンスに追加する。

走査される特徴群識別子が原子的特徴登録情報におけるある原子的特徴群識別子と同じである場合、該特徴群識別子を原子的特徴群識別子として決定し、該原子的特徴群識別子と、それに対応する原子的特徴識別子及び原子的特徴値（ステップ２０８によって決定されるもの）をインスタンスに追加する。

ステップ２１１では、走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記特徴群識別子を組み合わせ特徴群識別子として決定する。

走査される特徴群識別子が、原子的特徴登録情報におけるいずれの原子的特徴群識別子とも異なり、且つ組み合わせ特徴登録情報におけるある組み合わせ特徴群識別子と同じである場合、該特徴群識別子を追加対象の組み合わせ特徴群識別子として決定する。

ステップ２１２では、前記組み合わせ特徴登録情報における、前記追加対象の組み合わせ特徴群識別子に対応する少なくとも２つの追加対象の原子的特徴群識別子を決定し、前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子及び原子的特徴値を決定する。

説明の便宜上、例えば、走査される特徴群識別子がｃｇｉｄ１であり、組み合わせ特徴登録情報における、ｃｇｉｄ１に対応する原子的特徴群識別子がａｇｉｄ１及びａｇｉｄ２を含む場合、ステップ２０８の特徴抽出結果に基づいて、ａｇｉｄ１に対応する原子的特徴識別子ａｆｉｄ１及び原子的特徴値ａｆｖａｌｕｅ１、並びに、ａｇｉｄ２に対応する原子的特徴識別子ａｆｉｄ２及び原子的特徴値ａｆｖａｌｕｅ２を決定する。

ステップ２１３では、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子を組み合わせ処理することにより、組み合わせ特徴識別子を取得し、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値を組み合わせ処理することにより、組み合わせ特徴値を取得する。

例えば、ａｆｉｄ１とａｆｉｄ２を組み合わせ処理することにより、組み合わせ特徴識別子ｃｆｉｄ１を取得し、ａｆｖａｌｕｅ１とａｆｖａｌｕｅ２を組み合わせ処理することにより、組み合わせ特徴値ｃｆｖａｌｕｅ１を取得する。

いくつかの実施例において、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子を組み合わせ処理することにより、組み合わせ特徴識別子を取得する上記ステップは、以下のような方式によって実現されてもよい。即ち、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子に対して第１組み合わせ操作を実行することにより、組み合わせ特徴識別子を取得する。ここで、前記第１組み合わせ操作には、ハッシュ操作、ビット論理和操作、ビット論理積操作、ビット排他的論理和操作の少なくとも１つが含まれる。

実際の適用シナリオによって、異なる第１組み合わせ操作を用いて、少なくとも２つの原子的特徴識別子（例えば、上記のａｆｉｄ１とａｆｉｄ２）を組み合わせ処理することにより、組み合わせ特徴識別子（例えば、上記のｃｆｉｄ１）を取得してもよい。第１組み合わせ操作は、ハッシュ操作、ビット論理和操作、ビット論理積操作、及びビット排他的論理和操作を含むが、これらに限定されない。

いくつかの実施例において、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値を組み合わせ処理することにより、組み合わせ特徴値を取得する上記ステップは、以下のような方式によって実現されてもよい。即ち、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値に対して第２組み合わせ操作を実行することにより、組み合わせ特徴値を取得する。ここで、前記第２組み合わせ操作には、乗算操作、加算操作の少なくとも１つが含まれる。

実際の適用シナリオによって、異なる第２組み合わせ操作を用いて、少なくとも２つの原子的特徴値（例えば、上記のａｆｖａｌｕｅ１とａｆｖａｌｕｅ２）を組み合わせ処理することにより、組み合わせ特徴値（例えば、上記ｃｆｖａｌｕｅ１）を取得してもよい。第２組み合わせ操作は、乗算操作、加算操作を含むが、これらに限定されない。

ステップ２１４では、前記追加対象の組み合わせ特徴群識別子、前記組み合わせ特徴識別子、及び前記組み合わせ特徴値を前記インスタンスに追加する。

組み合わせ処理によって組み合わせ特徴識別子及び組み合わせ特徴値を取得した後、＜組み合わせ特徴群識別子：組み合わせ特徴識別子：組み合わせ特徴値＞（例えば、＜ｃｇｉｄ１：ｃｆｉｄ１：ｃｆｖａｌｕｅ１＞）のようなトリプルの形式で、それらをインスタンスに追加する。

本願の実施例における図４Ｃの上記の例示的な実施から分かるように、本願の実施例では、登録情報を取得し、人工知能推奨モデルの特徴群識別子集合に基づいて、対応する特徴抽出関数を決定することにより、人工知能推奨モデルに関連するインスタンスの生成が実現され、特徴抽出の柔軟性及び拡張性が向上し、即ち、異なる特徴群識別子集合に基づいて、入力データにおける関連特徴を決定することができる。

本願の実施例で提供される特徴抽出アーキテクチャの比較模式図である図５を参照する。図５の左図は、関連技術で提供される特徴抽出アーキテクチャである。ここで、オフラインの訓練データに対しては、オフライン特徴フレームワークを用いて特徴抽出を行い、抽出された特徴に基づいてモデルを訓練する。オンラインの測定対象のデータに対しては、オンライン特徴フレームワークを用いて特徴抽出を行い、モデルに基づいて、抽出された特徴を処理することにより、結果を取得する。図５の右図は、本願の実施例の特徴処理方法を適用した特徴抽出アーキテクチャである。ここで、オフラインの訓練データであっても、オンラインの測定対象のデータであっても、統一的な特徴フレームワークを用いて抽出を行うことで、フレームワーク間の差異に起因する抽出された特徴が一貫しないことが回避される。

本願の実施例で提供される特徴抽出フレームワークの構成の模式図である図６を参照する。データ構造適応層と、原子的特徴管理層と、組み合わせ特徴管理層と、モデル設定層と、特徴抽出層とを含む。理解しやすくするために、以下、底から上へと、擬似コードを参照して、各層の機能を一々述べる。

特徴フレームワークの第１層であるデータ構造適応層は、異なる種類の入力データのデータ構造に適応して、それらを統一的なインスタンス構造に変換することにより、フィールドの意味の一貫性を確保する。この統一的なインスタンス構造は、汎用のクロス言語データフォーマットとして定義されてもよく、ｐｒｏｔｏｂｕｆ、ｆｌａｔｂｕｆｆｅｒｓ、ｔｈｒｉｆｔ、ａｖｒｏ、及びｍｓｇｐａｃｋを含むが、これらに限定されない。具体的には、対応するクロス言語データフォーマットのツールキットを呼び出して、入力データを処理することにより、データ構造を変換してもよい。

原子的特徴管理層は、原子的特徴登録情報を記憶する。説明の便宜上、原子的特徴登録情報をｆａ＿ｒｕｌｅで表す。ｆａ＿ｒｕｌｅには、いくつかの原子的特徴群識別子ａｇｉｄと、各ａｇｉｄとはマッピング関係がある特徴抽出関数ｆａとが含まれる。ここで、ｆａは、統一的なインスタンス構造を用いたデータを処理し、対応するａｇｉｄと、ａｆｉｄからａｆｖａｌｕｅへのマッピングとを出力するためのものである。ｆａは、実際の適用シナリオに応じて予め設定され、それに対応するａｇｉｄとマッピング関係が確立されてもよい。

組み合わせ特徴管理層は、組み合わせ特徴登録情報を記憶する。説明の便宜上、組み合わせ特徴登録情報をｆｃ＿ｒｕｌｅで表す。ｆｃ＿ｒｕｌｅには、組み合わせ特徴群識別子ｃｇｉｄと、ｃｇｉｄとはマッピング関係がある少なくとも２つのａｇｉｄとが含まれる。説明すべきものとして、データ構造適応層、原子的特徴管理層、及び組み合わせ特徴管理層は、全て「登録」段階に属する。即ち、異なる種類の人工知能推奨モデルに適用される特徴抽出フレームワークは、いずれも統一的なデータ構造適応層、原子的特徴管理層、及び組み合わせ特徴管理層を使用することができる。

「設定」段階については、人工知能推奨モデル自体に関連する設定である。

モデル設定層では、予め登録しておいたｆａ＿ｒｕｌｅ及びｆｃ＿ｒｕｌｅを基に、いくつかの原子的特徴及び／又はいくつかの組み合わせ特徴を選択して、モデル設定として特徴フレームワークに追加する。選択の根拠は、人工知能推奨モデルに対応する特徴群識別子集合（ｍｏｄｅｌ＿ｒｕｌｅと略称）である。特徴フレームワークにおいて、登録済みの原子的特徴及び組み合わせ特徴を参照して、１組のｆａチェーン、即ち、ｆａ＿ｃｈａｉｎを生成する。該ｆａ＿ｃｈａｉｎは、後続の特徴抽出に用いられる。生成過程における擬似コードフローは、以下のとおりである。
関数：ｆａ＿ｃｈａｉｎの生成
入力：特徴群識別子集合ｍｏｄｅｌ＿ｒｕｌｅ（ｍｏｄｅｌ＿ｒｕｌｅは、ｇｉｄの集合である）
入力：原子的特徴登録情報ｆａ＿ｒｕｌｅ（ｆａ＿ｒｕｌｅには、ａｇｉｄからｆａへのマッピングが含まれる）
入力：組み合わせ特徴登録情報ｆｃ＿ｒｕｌｅ（ｆｃ＿ｒｕｌｅには、ｃｇｉｄから「ａｇｉｄ集合」へのマッピングが含まれる）
出力：ｆａチェーンｆａ＿ｃｈａｉｎ

ｆａ＿ｃｈａｉｎを初期化し、
ｍｏｄｅｌ＿ｒｕｌｅにおけるｇｉｄごとに、
ｇｉｄがｆａ＿ｒｕｌｅにおけるａｇｉｄである場合、
ｆａ＿ｒｕｌｅにおいて、該ｇｉｄとマッピングがあるｆａ、即ち、ｆａ＿ｒｕｌｅ［ｇｉｄ］を決定し、ｆａ＿ｒｕｌｅ［ｇｉｄ］をｆａ＿ｃｈａｉｎに挿入し、
ｇｉｄが、ｆａ＿ｒｕｌｅにおけるａｇｉｄではなく、ｆｃ＿ｒｕｌｅにおけるｃｇｉｄである場合、
ｆｃ＿ｒｕｌｅにおいて、該ｇｉｄとマッピングがある「ａｇｉｄ集合」、即ち、ｆｃ＿ｒｕｌｅ［ｇｉｄ］を決定し、ｆｃ＿ｒｕｌｅ［ｇｉｄ］におけるａｇｉｄごとに、
ａｇｉｄとマッピングがあるｆａ、即ち、ｆａ＿ｒｕｌｅ［ａｇｉｄ］がｆａ＿ｃｈａｉｎに存在しない場合、
ｆａ＿ｒｕｌｅ［ａｇｉｄ］をｆａ＿ｃｈａｉｎに挿入し、
ｆａ＿ｃｈａｉｎを出力する。

特徴抽出層は、特徴抽出フレームワークのコア層であり、インスタンスの形式で、入力データに存在する一連の特徴を出力する。擬似コードは、以下のとおりである。
関数：インスタンスｉｎｓｔａｎｃｅの取得
入力：ｍｏｄｅｌ＿ｒｕｌｅ、ｆａ＿ｒｕｌｅ、ｆｃ＿ｒｕｌｅ、及びｆａ＿ｃｈａｉｎ
入力：オンラインの測定対象のデータ、又はオフラインの訓練データ（ｓで表す）
出力：１つのインスタンスｉｎｓｔａｎｃｅ

ｉｎｓｔａｎｃｅを初期化し、
ｓを、統一的なインスタンス構造を有するデータｕに変換し、
マッピング配列ｍａｐを初期化し、
ｆａ＿ｃｈａｉｎにおけるｆａごとに、
ｆａに基づいて、ｕに対して特徴抽出処理を行うことにより、ａｇｉｄと、ａｆｉｄからａｆｖａｌｕｅへのマッピング（ａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐで表す）とを取得し、
ｍａｐ［ａｇｉｄ］＝ａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐのようにし、即ち、ａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐをｍａｐ［ａｇｉｄ］の値とし、
ｍｏｄｅｌ＿ｒｕｌｅにおけるｇｉｄごとに、
ｇｉｄがｆａ＿ｒｕｌｅにおけるａｇｉｄである場合、
ｉｎｓｔａｎｃｅ［ｇｉｄ］＝ｍａｐ［ｇｉｄ］のようにし、即ち、このｇｉｄとａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐとの間の対応関係をインスタンスに記憶し、
ｇｉｄが、ｆａ＿ｒｕｌｅにおけるａｇｉｄではなく、ｆｃ＿ｒｕｌｅにおけるｃｇｉｄである場合、
組み合わせマッピング配列ｃｒｏｓｓ＿ｍａｐを初期化し、
ｆｃ＿ｒｕｌｅにおいて、該ｇｉｄとマッピングがある「ａｇｉｄ集合」、即ち、ｆｃ＿ｒｕｌｅ［ｇｉｄ］を決定し、ｆｃ＿ｒｕｌｅ［ｇｉｄ］におけるａｇｉｄごとに、
ｃｒｏｓｓ＿ｍａｐ［ａｇｉｄ］＝ｍａｐ［ａｇｉｄ］のようにし、
ｉｎｓｔａｎｃｅ［ｇｉｄ］＝ｆｃ（ｃｒｏｓｓ＿ｍａｐ）のようにし、即ち、組み合わせ特徴をｉｎｓｔａｎｃｅに追加し（ｆｃは特徴組み合わせ関数である）、
ｉｎｓｔａｎｃｅを出力する。

ここで、特徴組み合わせ関数ｆｃの擬似コードは、以下のとおりである。
関数：ｆｃ
入力：ｃｒｏｓｓ＿ｍａｐ（ａｇｉｄから「ａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐ」へのマッピングを含む）
出力：ｃｆｉｄからｃｆｖａｌｕｅへのマッピング（ｃｆｉｄ＿ｃｆｖａｌｕｅ＿ｍａｐで表す）

ｃｒｏｓｓ＿ｍａｐにおける全てのａｇｉｄを順次にａｇｉｄ＿１、ａｇｉｄ＿２、…、ａｇｉｄ＿ｎで表し（ｎは１よりも大きい整数）、それに対応する「ａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐ」を順次にａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐ＿１、ａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐ＿２、…、ａｆｉｄ＿ａｆｖａｌｕｅ＿ｍａｐ＿ｎで表し、
ｃｆｉｄ＿ｃｆｖａｌｕｅ＿ｍａｐを初期化し、
ａｆｉｄ＿１、ａｆｉｄ＿２、…、ａｆｉｄ＿ｎに対して第１組み合わせ操作を実行することにより（第１組み合わせ操作は、ハッシュ操作、ビット論理和操作、ビット論理積操作、ビット排他的論理和操作を含むが、これらに限定されない）、ｃｆｉｄを取得し、
ａｆｖａｌｕｅ＿１、ａｆｖａｌｕｅ＿２、…、ａｆｖａｌｕｅ＿ｎに対して第２組み合わせ操作を実行することにより（第２組み合わせ操作は、乗算操作、加算操作を含むが、これらに限定されない）、ｃｆｖａｌｕｅを取得し、
ｃｆｉｄ＿ｃｆｖａｌｕｅ＿ｍａｐ［ｃｆｉｄ］＝ｃｆｖａｌｕｅのようにし、即ち、ｃｆｉｄとｃｆｖａｌｕｅとの間のマッピング関係を確立し、
ｃｆｉｄ＿ｃｆｖａｌｕｅ＿ｍａｐを出力する。

上記の統一的な特徴フレームワークによれば、人工知能推奨モデルに対応する特徴群識別子集合に基づいて、変換後の入力データから特徴を抽出して、インスタンスを構成することができる。これにより、モデル訓練又はモデル予測のタスクが実行され、特徴の強い一貫性が向上し、２つのフレームワークを用いることに起因する抽出された特徴の差異が克服される。

以下、引き続いて、本願の実施例で提供される人工知能推奨モデルの特徴処理装置２５５がソフトウェアモジュールとして実施された例示的な構成を説明する。いくつかの実施例において、図３に示すように、メモリ２５０に記憶された人工知能推奨モデルの特徴処理装置２５５のソフトウェアモジュールは、
入力データを取得し、前記入力データのデータ構造を統一的なインスタンス構造に変換する変換モジュール２５５１と、
人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定する関数決定モジュール２５５２と、
前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得する特徴抽出モジュール２５５３と、
前記人工知能推奨モデルに対応する特徴群識別子と、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築する構築モジュール２５５４と、を含んでもよい。

いくつかの実施例において、関数決定モジュール２５５２は、さらに、原子的特徴登録情報と、組み合わせ特徴登録情報とを取得し、人工知能推奨モデルに対応する特徴群識別子集合を取得し、前記特徴群識別子集合を走査し、走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記原子的特徴登録情報における、前記特徴群識別子に対応する特徴抽出関数を特徴抽出関数チェーンに追加し、前記原子的特徴登録情報には、登録済みの原子的特徴群識別子と、それに対応する特徴抽出関数とが含まれ、前記組み合わせ特徴登録情報には、登録済みの組み合わせ特徴群識別子と、それに対応する少なくとも２つの原子的特徴群識別子が含まれる。

いくつかの実施例において、関数決定モジュール２５５２は、さらに、走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記組み合わせ特徴登録情報における、前記特徴群識別子に対応するターゲット原子的特徴群識別子を決定し、前記原子的特徴登録情報において、前記ターゲット原子的特徴群識別子に対応するターゲット特徴抽出関数を決定し、前記ターゲット特徴抽出関数が前記特徴抽出関数チェーンに存在しない場合、前記ターゲット特徴抽出関数を前記特徴抽出関数チェーンに追加する。

いくつかの実施例において、特徴抽出モジュール２５５３は、さらに、前記特徴抽出関数チェーンを走査し、走査される特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける原子的特徴群識別子、原子的特徴識別子、及び原子的特徴値を取得する。

いくつかの実施例において、構築モジュール２５５４は、さらに、前記特徴群識別子集合を走査し、走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の原子的特徴群識別子として決定し、前記追加対象の原子的特徴群識別子と、それに対応する原子的特徴識別子及び原子的特徴値とをインスタンスに追加する。

いくつかの実施例において、構築モジュール２５５４は、さらに、走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の組み合わせ特徴群識別子として決定し、前記組み合わせ特徴登録情報における、前記追加対象の組み合わせ特徴群識別子に対応する少なくとも２つの追加対象の原子的特徴群識別子を決定し、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子及び原子的特徴値を決定し、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子を組み合わせ処理することにより、組み合わせ特徴識別子を取得し、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値を組み合わせ処理することにより、組み合わせ特徴値を取得し、前記追加対象の組み合わせ特徴群識別子、前記組み合わせ特徴識別子、及び前記組み合わせ特徴値を前記インスタンスに追加する。

いくつかの実施例において、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子を組み合わせ処理することにより、組み合わせ特徴識別子を取得することは、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子に対して第１組み合わせ操作を実行することにより、組み合わせ特徴識別子を取得することを含み、前記第１組み合わせ操作には、ハッシュ操作、ビット論理和操作、ビット論理積操作、ビット排他的論理和操作の少なくとも１つが含まれ、
少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値を組み合わせ処理することにより、組み合わせ特徴値を取得することは、少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値に対して第２組み合わせ操作を実行することにより、組み合わせ特徴値を取得することを含み、前記第２組み合わせ操作には、乗算操作、加算操作の少なくとも１つが含まれる。

いくつかの実施例において、人工知能推奨モデルの特徴処理装置２５５は、前記入力データが訓練データである場合、前記インスタンスに基づいて前記人工知能推奨モデルを訓練する訓練モジュールと、前記入力データが測定対象のデータである場合、前記人工知能推奨モデルによって前記インスタンスに対して予測処理を行うことにより、推奨結果を取得する予測モジュールと、をさらに含む。

本願の実施例では、メモリとプロセッサとを備える電子機器を提供する。メモリには、コンピュータ読み取り可能な命令が記憶され、コンピュータ読み取り可能な命令は、プロセッサによって実行されると、プロセッサに上記の人工知能推奨モデルの特徴処理方法を実行させる。

本願の実施例では、コンピュータ読み取り可能な命令を記憶した記憶媒体を提供する。この記憶媒体には、コンピュータ読み取り可能な命令が記憶され、コンピュータ読み取り可能な命令は、プロセッサによって実行されると、本願の実施例で提供される人工知能推奨モデルの特徴処理方法、例えば、図４Ａ及び図４Ｂに示す人工知能推奨モデルの特徴処理方法をプロセッサに実行させる。

いくつかの実施例において、記憶媒体は、ＦＲＡＭ(登録商標)、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、磁気表面メモリ、光ディスク、又はＣＤ－ＲＯＭなどのメモリであってもよく、上記のメモリのうちの１つ又は任意の組み合わせを含む各種の機器であってもよい。

いくつかの実施例において、コンピュータ読み取り可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト、又はコードの形式を採用して、任意の形式のプログラミング言語（コンパイル言語又はインタプリタ言語、或いは、宣言型言語又は手続き型言語を含む）でプログラミングされてもよく、独立したプログラムとして配置されたり、モジュール、コンポーネント、サブルーチン、又はコンピューティング環境に適用可能な他のユニットとして配置されたりする場合を含めて、任意の形式で配置されてもよい。

一例として、コンピュータ読み取り可能な命令は、ファイルシステムにおけるファイルに対応してもよいが、必ずしも、ファイルシステムにおけるファイルに対応するわけではなく、他のプログラム又はデータを保存するファイルの一部に記憶されてもよく、例えば、ハイパーテキストマークアップ言語（ＨＴＭＬ：ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ドキュメントの１つ又は複数のスクリプトに記憶されたり、検討するプログラムの単一のファイルに記憶されたり、複数のコラボレーションファイル（例えば、１つ又は複数のモジュール、サブプログラム、又はコード部分を記憶するファイル）に記憶されたりしてもよい。

一例として、コンピュータ読み取り可能な命令は、１つのコンピューティングデバイスで実行されたり、１つの場所にある複数のコンピューティングデバイスで実行されたり、複数の場所に分散されて通信ネットワークを介して互いに接続される複数のコンピューティングデバイスで実行されたりするように配置されてもよい。

本願の実施例では、コンピュータプログラム製品又はコンピュータプログラムを提供する。このコンピュータプログラム製品又はコンピュータプログラムには、コンピュータ命令が含まれ、該コンピュータ命令がコンピュータ読み取り可能な記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ読み取り可能な記憶媒体から、該コンピュータ命令を読み取る。プロセッサは、該コンピュータ命令を実行すると、該コンピュータ機器に上記の各方法の実施例のステップを実行させる。

理解すべきものとして、本願の各実施例における各ステップは、必ずしもステップ番号で示される順序に従って順次実行されるとは限らない。本明細書で明確に説明されない限り、これらのステップの実行順序には、厳しい制限がない。これらのステップは、他の順序で実行されてもよい。また、各実施例における少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよい。これらのサブステップ又は段階は、必ずしも同一の時刻に実行完了するとは限らず、異なる時刻に実行されてもよい。これらのサブステップ又は段階の実行順序も、必ずしも順次に実行するとは限らず、他のステップ、或いは、他のステップのサブステップ又は段階の少なくとも一部と代わる代わる又は交代で実行されてもよい。

上記のように、本願の実施例によれば、異なるソースからの入力データのデータ構造の差異が克服され、特徴抽出関数によって入力データを統一的に処理することにより、特徴抽出の柔軟性及び効率性が向上し、インスタンスにおける特徴の強い一貫性が確保され、大規模かつまばらな広告又は推奨業務のシナリオでは、インスタンス生成効果が良好である。ここでは、「大規模」とは、特徴の数が大きく、規模が億以上になり得ることを指し、「まばら」とは、各々のインスタンスに一部の特徴群の特徴の一部しか含まれず、規模が百又は千になり得ることを指す。

上記は、本願の実施例に過ぎず、本願の保護範囲を限定するものではない。本願の精神および範囲内で行われる種々の修正、均等置換え、及び改善などは全て本願の保護範囲内に含まれるべきである。

当業者であれば理解できるように、上記の実施例における方法のフローの全部又は一部は、コンピュータプログラムを介して関連のハードウェアに指示することにより実行されてもよい。前記プログラムは、不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このプログラムが実行されると、上記のような各方法の実施例のフローが実行される。ここで、本願で提供される各実施例に使用されるメモリ、ストレージ、データベース、又は他の媒体へのいかなる引用でも、不揮発性メモリ及び／又は揮発性メモリを含んでもよい。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含んでもよい。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）、又は外部キャッシュを含んでもよい。限定ではなく説明として、ＲＡＭは、例えば、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンスドＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクリンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、ダイレクト・ラムバス（Ｒａｍｂｕｓ）ＲＡＭ（ＲＤＲＡＭ）、ダイレクト・ラムバス・ダイナミックＲＡＭ（ＤＲＤＲＡＭ）、及びラムバス・ダイナミックＲＡＭ（ＲＤＲＡＭ）などの多くの形態で利用可能である。

１００人工知能推奨モデルの特徴処理システム
２００サーバ
３００ネットワーク
４００－１端末機器
４００－２端末機器
４１０－１グラフィックインタフェース
４１０－２グラフィックインタフェース
５００データベース
２１０プロセッサ
２２０ネットワークインタフェース
２３０ユーザインタフェース
２３１出力装置
２３２入力装置
２４０バスシステム
２５０メモリ
２５１オペレーティングシステム
２５２ネットワーク通信モジュール
２５３表現モジュール
２５４入力処理モジュール
２５５人工知能推奨モデルの特徴処理装置
２５５１変換モジュール
２５５２関数決定モジュール
２５５３特徴抽出モジュール
２５５４構築モジュール

１）インスタンス（ｉｎｓｔａｎｃｅ）：実例（ｅｘａｍｐｌｅ）やサンプル（ｓａｍｐｌｅ）とも呼ばれ、人工知能推奨モデルに入力されて、対応するタスクを実行することに用いられる。通常、１つのインスタンスはいくつかの特徴群を含み、１つの特徴群はいくつかの特徴を含む、１つの特徴は特徴識別子と特徴値とを含む。

６）組み合わせ特徴：任意個の原子的特徴を組み合わせた新特徴である。組み合わせ特徴の特徴群識別子は、組み合わせ特徴群識別子と呼ばれ、ｃｇｉｄと略称される。組み合わせ特徴の特徴識別子は、組み合わせ特徴識別子と呼ばれ、ｃｆｉｄと略称される。組み合わせ特徴の特徴値は、組み合わせ特徴値と呼ばれ、ｃｆｖａｌｕｅと略称される。例を挙げると、あるインスタンスが「ユーザ年齢＿ユーザ性別：２０＿女：１」である場合、ここでのユーザ年齢＿ユーザ性別は組み合わせ特徴群識別子であり、２０＿女は組み合わせ特徴識別子、１は組み合わせ特徴値であり、組み合わせ特徴値は、数値１の意味が「正しい」であり、数値０の意味が「間違う」であるとすれば、このインスタンスにおいて、ユーザ年齢が２０であり、ユーザ性別が女であるという結果は正しい。

本願の実施例は、人工知能推奨モデルの種類を限定しない。例えば、人工知能推奨モデルは、線形回帰、サポートベクターマシン、又はニューラルネットワークを用いた推奨モデルであってもよい。本ステップでは、人工知能推奨モデルの設定に対応する特徴群識別子を決定する。該特徴群識別子は、原子的特徴群識別子及び／又は組み合わせ特徴群識別子を含み、実際の適用シナリオに応じて決定される。同じ業務タイプに適用する人工知能推奨モデルは、必要なデータに一定の共通性が存在する。このため、業務タイプごとに、それに対応する特徴群識別子を設定しておき、本ステップでは、人工知能推奨モデルの業務タイプに基づいて、それに対応する設定済みの特徴群識別子を決定するようにしてもよい。例えば、業務タイプは、ゲーム推奨、化粧品推奨、及びテレビドラマ推奨を含む。業務タイプごとに、それに対応する特徴群識別子を設定し、人工知能推奨モデルがゲーム推奨に適用されると決定した場合、ゲーム推奨タイプに対応する特徴群識別子を決定する。人工知能推奨モデルに対応する特徴群識別子を決定するとともに、人工知能推奨モデルに対応する特徴抽出関数を決定する。該特徴抽出関数は、予め設定されるものであり、且つ各々の特徴抽出関数は、１つの原子的特徴群識別子に対応している。特徴抽出関数は、変換後の入力データを解析することにより、原子的特徴群識別子と、原子的特徴群識別子に対応する原子的特徴識別子及び原子的特徴値とを取得するためのものである。特徴抽出関数を設定する際に、例えば、原子的特徴群識別子が「ユーザ年齢」であれば、特徴抽出関数に「ユーザ年齢」のフィールドを設定する。このように、特徴抽出関数を実行することにより、変換後の入力データから、「ユーザ年齢」である原子的特徴群識別子と、該原子的特徴群識別子に関連する原子的特徴識別子及び原子的特徴値を識別できる。

いくつかの実施例において、前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練する前記ステップの前に、上記方法は、前記インスタンスに基づいて前記人工知能推奨モデルのコピーの第１正確率を決定するステップをさらに含む。

前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練する前記ステップの後、上記方法は、新たな訓練データに対応するインスタンスに基づいて、訓練後の前記人工知能推奨モデルのコピーの第２正確率を決定するステップと、前記第２正確率が前記第１正確率を超える場合、訓練後の前記人工知能推奨モデルのコピーに基づいて、前記人工知能推奨モデルを更新するステップとをさらに含む。

いくつかの実施例において、前記インスタンスに基づいて前記人工知能推奨モデルを訓練する前記ステップの前に、上記方法は、特徴調整識別子と、それに対応する調整値とを取得するステップと、前記インスタンスにおいて、前記特徴調整識別子に合致する各群の特徴群識別子、特徴識別子、及び特徴値を調整対象のサブインスタンスとして決定するステップと、前記調整対象のサブインスタンスの重み値を前記調整値に更新するステップとをさらに含み、前記特徴調整識別子は、特徴群識別子と、特徴群識別子及び特徴識別子とのうちの１種である。

ステップ２１１では、走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の組み合わせ特徴群識別子として決定する。

本願の実施例で提供される特徴抽出フレームワークの構成の模式図である図６を参照する。このフレームワークは、データ構造適応層と、原子的特徴管理層と、組み合わせ特徴管理層と、モデル設定層と、特徴抽出層とを含む。理解しやすくするために、以下、底から上へと、擬似コードを参照して、各層の機能を一々述べる。

本願の実施例では、コンピュータ読み取り可能な命令を記憶した記憶媒体を提供する。コンピュータ読み取り可能な命令は、プロセッサによって実行されると、本願の実施例で提供される人工知能推奨モデルの特徴処理方法、例えば、図４Ａ及び図４Ｂに示す人工知能推奨モデルの特徴処理方法をプロセッサに実行させる。

Claims

電子機器が実行する、人工知能推奨モデルの特徴処理方法であって、
入力データを取得し、前記入力データのデータ構造を統一的なインスタンス構造に変換するステップと、
人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定するステップと、
前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得するステップと、
前記人工知能推奨モデルに対応する特徴群識別子と、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築するステップと、
を含む特徴処理方法。
人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定する前記ステップは、
原子的特徴登録情報と、組み合わせ特徴登録情報とを取得するステップであって、前記原子的特徴登録情報には、登録済みの原子的特徴群識別子と、それに対応する特徴抽出関数とが含まれ、前記組み合わせ特徴登録情報には、登録済みの組み合わせ特徴群識別子と、それに対応する少なくとも２つの原子的特徴群識別子が含まれる、ステップと、
人工知能推奨モデルに対応する特徴群識別子集合を取得し、前記特徴群識別子集合を走査するステップと、
走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記原子的特徴登録情報における、前記特徴群識別子に対応する特徴抽出関数を特徴抽出関数チェーンに追加するステップと、を含む、
ことを特徴とする請求項１に記載の特徴処理方法。
走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記組み合わせ特徴登録情報における、前記特徴群識別子に対応するターゲット原子的特徴群識別子を決定するステップと、
前記原子的特徴登録情報において、前記ターゲット原子的特徴群識別子に対応するターゲット特徴抽出関数を決定するステップと、
前記ターゲット特徴抽出関数が前記特徴抽出関数チェーンに存在しない場合、前記ターゲット特徴抽出関数を前記特徴抽出関数チェーンに追加するステップと、
をさらに含むことを特徴とする請求項２に記載の特徴処理方法。
前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得する前記ステップは、
前記特徴抽出関数チェーンを走査するステップと、
走査される特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける原子的特徴群識別子、原子的特徴識別子、及び原子的特徴値を取得するステップと、を含む、
ことを特徴とする請求項２に記載の特徴処理方法。
前記人工知能推奨モデルに対応する特徴群識別子と、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築する前記ステップは、
前記特徴群識別子集合を走査するステップと、
走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の原子的特徴群識別子として決定し、前記追加対象の原子的特徴群識別子と、それに対応する原子的特徴識別子及び原子的特徴値とをインスタンスに追加するステップと、を含む、
ことを特徴とする請求項４に記載の特徴処理方法。
走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の組み合わせ特徴群識別子として決定するステップと、
前記組み合わせ特徴登録情報における、前記追加対象の組み合わせ特徴群識別子に対応する少なくとも２つの追加対象の原子的特徴群識別子を決定し、前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子及び原子的特徴値を決定するステップと、
前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子を組み合わせ処理することにより、組み合わせ特徴識別子を取得し、前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値を組み合わせ処理することにより、組み合わせ特徴値を取得するステップと、
前記追加対象の組み合わせ特徴群識別子、前記組み合わせ特徴識別子、及び前記組み合わせ特徴値を前記インスタンスに追加するステップと、をさらに含む、
ことを特徴とする請求項５に記載の特徴処理方法。
前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子を組み合わせ処理することにより、組み合わせ特徴識別子を取得する前記ステップは、
前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子に対して第１組み合わせ操作を実行することにより、組み合わせ特徴識別子を取得するステップであって、前記第１組み合わせ操作には、ハッシュ操作、ビット論理和操作、ビット論理積操作、ビット排他的論理和操作の少なくとも１つが含まれる、ステップを含み、
前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値を組み合わせ処理することにより、組み合わせ特徴値を取得する前記ステップは、
前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値に対して第２組み合わせ操作を実行することにより、組み合わせ特徴値を取得するステップであって、前記第２組み合わせ操作には、乗算操作、加算操作の少なくとも１つが含まれる、ステップを含む、
ことを特徴とする請求項６に記載の特徴処理方法。
前記入力データが訓練データである場合、前記インスタンスに基づいて前記人工知能推奨モデルを訓練するステップと、
前記入力データが測定対象のデータである場合、前記人工知能推奨モデルによって前記インスタンスに対して予測処理を行うことにより、推奨結果を取得するステップと、をさらに含む、
ことを特徴とする請求項１乃至７のいずれか１項に記載の特徴処理方法。
前記インスタンスに基づいて前記人工知能推奨モデルを訓練する前記ステップは、
前記人工知能推奨モデルのコピーを作成するステップと、
前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練するステップと、を含む、
ことを特徴とする請求項８に記載の特徴処理方法。
前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練する前記ステップの前に、
前記インスタンスに基づいて前記人工知能推奨モデルのコピーの第１正確率を決定するステップをさらに含み、
前記インスタンスに基づいて前記人工知能推奨モデルのコピーを訓練する前記ステップの後、
新たな訓練データに対応するインスタンスに基づいて、訓練後の前記人工知能推奨モデルのコピーの第２正確率を決定するステップと、
前記第２正確率が前記第１正確率を超える場合、訓練後の前記人工知能推奨モデルのコピーに基づいて、前記人工知能推奨モデルを更新するステップと、をさらに含む、
ことを特徴とする請求項９に記載の特徴処理方法。
訓練後の前記人工知能推奨モデルのコピーに基づいて、前記人工知能推奨モデルを更新する前記ステップは、
訓練データの生成率を取得するステップと、
前記生成率が生成率閾値よりも低い場合、訓練後の前記人工知能推奨モデルのコピーに基づいて、前記人工知能推奨モデルを更新するステップと、を含む、
ことを特徴とする請求項１０に記載の特徴処理方法。
前記インスタンスに基づいて前記人工知能推奨モデルを訓練する前記ステップの前に、
特徴調整識別子と、それに対応する調整値とを取得するステップと、
前記インスタンスにおいて、前記特徴調整識別子に合致する各群の特徴群識別子、特徴識別子、及び特徴値を調整対象のサブインスタンスとして決定するステップと、
前記調整対象のサブインスタンスの重み値を前記調整値に更新するステップと、をさらに含み、
前記特徴調整識別子は、特徴群識別子と、特徴群識別子及び特徴識別子とのうちの１種である、
ことを特徴とする請求項８に記載の特徴処理方法。
人工知能推奨モデルの特徴処理装置であって、
入力データを取得し、前記入力データのデータ構造を統一的なインスタンス構造に変換する変換モジュールと、
人工知能推奨モデルに対応する特徴群識別子及び特徴抽出関数を決定する関数決定モジュールと、
前記特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値を取得する特徴抽出モジュールと、
前記人工知能推奨モデルに対応する特徴群識別子と、前記入力データにおける特徴群識別子、特徴識別子、及び特徴値とに基づいて、前記人工知能推奨モデルのインスタンスを構築する構築モジュールと、
を含む特徴処理装置。
前記関数決定モジュールは、さらに、原子的特徴登録情報と、組み合わせ特徴登録情報とを取得し、人工知能推奨モデルに対応する特徴群識別子集合を取得し、前記特徴群識別子集合を走査し、走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記原子的特徴登録情報における、前記特徴群識別子に対応する特徴抽出関数を特徴抽出関数チェーンに追加し、前記原子的特徴登録情報には、登録済みの原子的特徴群識別子と、それに対応する特徴抽出関数とが含まれ、前記組み合わせ特徴登録情報には、登録済みの組み合わせ特徴群識別子と、それに対応する少なくとも２つの原子的特徴群識別子が含まれる、
ことを特徴とする請求項１３に記載の特徴処理装置。
前記関数決定モジュールは、さらに、走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記組み合わせ特徴登録情報における、前記特徴群識別子に対応するターゲット原子的特徴群識別子を決定し、前記原子的特徴登録情報において、前記ターゲット原子的特徴群識別子に対応するターゲット特徴抽出関数を決定し、前記ターゲット特徴抽出関数が前記特徴抽出関数チェーンに存在しない場合、前記ターゲット特徴抽出関数を前記特徴抽出関数チェーンに追加する、
ことを特徴とする請求項１４に記載の特徴処理装置。
前記特徴抽出モジュールは、さらに、前記特徴抽出関数チェーンを走査し、走査される特徴抽出関数に基づいて、変換後の前記入力データに対して特徴抽出処理を行うことにより、前記入力データにおける原子的特徴群識別子、原子的特徴識別子、及び原子的特徴値を取得する、
ことを特徴とする請求項１３に記載の特徴処理装置。
前記構築モジュールは、さらに、前記特徴群識別子集合を走査し、走査される特徴群識別子が前記原子的特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の原子的特徴群識別子として決定し、前記追加対象の原子的特徴群識別子と、それに対応する原子的特徴識別子及び原子的特徴値とをインスタンスに追加する、
ことを特徴とする請求項１６に記載の特徴処理装置。
前記構築モジュールは、さらに、走査される特徴群識別子が、前記原子的特徴登録情報とマッチングしなくて、且つ前記組み合わせ特徴登録情報とマッチングする場合、前記特徴群識別子を追加対象の組み合わせ特徴群識別子として決定し、前記組み合わせ特徴登録情報における、前記追加対象の組み合わせ特徴群識別子に対応する少なくとも２つの追加対象の原子的特徴群識別子を決定し、前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子及び原子的特徴値を決定し、前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴識別子を組み合わせ処理することにより、組み合わせ特徴識別子を取得し、前記少なくとも２つの追加対象の原子的特徴群識別子に対応する原子的特徴値を組み合わせ処理することにより、組み合わせ特徴値を取得し、前記追加対象の組み合わせ特徴群識別子、前記組み合わせ特徴識別子、及び前記組み合わせ特徴値を前記インスタンスに追加する、
ことを特徴とする請求項１７に記載の特徴処理装置。
メモリとプロセッサとを備える電子機器であって、前記メモリには、コンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、前記プロセッサに前記請求項１乃至１２のいずれか１項に記載の方法を実行させる電子機器。
コンピュータ読み取り可能な命令を記憶した１つ又は複数の不揮発性記憶媒体であって、前記コンピュータ読み取り可能な命令は、１つ又は複数のプロセッサによって実行されると、１つ又は複数のプロセッサに前記請求項１乃至１２のいずれか１項に記載の方法を実行させる記憶媒体。