JP7475956B2

JP7475956B2 - 推論方法、機械学習推論システム及びコンピュータプログラム

Info

Publication number: JP7475956B2
Application number: JP2020085252A
Authority: JP
Inventors: ハリエットンヤンチャマオチャロ; 泰隆河野; 聡一高重
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2024-04-30
Anticipated expiration: 2040-05-14
Also published as: JP2021179840A

Description

本発明は、推論方法、機械学習推論システム及びコンピュータプログラムに関する。

稼働中の機械学習システムはますます増えている。しかしながら、機械学習システムは、モデル更新を必要とするデータの変化に起因して、予測システムに障害を有することがある。機械学習推論システムにおけるエラーの原因には、データドリフトに起因するモデルの劣化、デプロイメント中の誤りなどが含まれる。エラーの原因を特定し、再訓練するのに長時間を要することがある。その間に、システムは利用できなくなることがある。このような場合、機械学習システムにおいて連続的な可用性および信頼性を確保する必要がある。これは、履歴的に成功した推論結果のキャッシュを利用することによって行うことができる。

従来のＷｅｂおよびデータベースシステムのキャッシュでは、データベースのクエリまたはｗｅｂ要求は静的であり、期待される応答は元のデータベースまたはｗｅｂサーバにすでに存在する。Least Recently UsedまたはLeast Frequently Usedなどのキャッシュ（置換）アルゴリズムは、推論要求および応答が動的であるため、機械学習システムでは機能することができない。時々、推論要求が以前になかったために、キャッシュされた結果では完全一致する検索ができない場合がある。代替案は、特徴ベクトル空間の近傍を探索することである。

本技術に関連する従来技術として、特許文献１に開示されたものがある。特許文献１に開示された技術では、システムは応答キャッシュ内の要求への応答をキャッシュするために使用される一連の属性を受け取り、要求への応答に関連する自然言語テキストのコーパスを分析して、１つ以上の属性に関連する値の範囲を識別する。システムは１つ以上の属性に関連付けられた値の特定された範囲に基づいて複数のキャッシングバケットを生成し、複数のキャッシングバケット内の各キャッシングバケットについて、対応するキャッシュキーを生成する。返答は、返答がメンバーであるキャッシュバケットに対応するキャッシュキーに関連付けられて返答キャッシュに保存される。リクエストは、その後、キャッシュされたレスポンスをレスポンスキャッシュから取得することによって処理される。

米国特許第９８８６３９０号明細書

特許文献１に開示されたような機械学習推論システムでは、直接ヒットがない場合に、キャッシングおよび適切な応答を返すための規則を開発者が静的に定義しなければならない場合がある。ただし、機械学習推論システムでは、これらの属性を静的に定義することはできない。

本発明は上記の課題に鑑みてなされたもので、信頼性及び可用性を改善することが可能な推論方法、機械学習推論システム及びコンピュータプログラムを提供することにある。

上記課題を解決すべく、本発明の一つの観点に従う推論方法は、プロセッサ及びメモリを有する機械学習推論システムにより実施される推論方法であって、プロセッサは、クライアント装置から推論要求を受け入れ、推論要求を機械学習モデルに提示してこの機械学習モデルから推論結果を受け入れ、推論結果を検証し、検証の結果が肯定的であれば推論結果をクライアントに提示し、検証の結果が否定的であれば、キャッシュされかつ既に検証された推論要求と推論結果との組から少なくとも一つの代替的な推論結果をクライアントに提示し、代替的な推論結果を提示するときに、機械学習トレーニングシステムから、機械学習モデルによる推論処理の際に用いられるそれぞれの特徴の特徴重要度情報を検索し、キャッシュされかつ既に検証された推論要求と推論結果との組を生成する際に用いられた特徴の重み付け値を算出し、特徴の重み付け値に基づいて、クライアント装置から受け入れた推論要求に含まれる特徴とキャッシュされた推論要求に含まれる特徴との類似度を算出し、類似度に基づいて、クライアント装置から受け入れた推論要求に最も類似するキャッシュされた推論要求を決定し、キャッシュされた推論要求と推論結果との複数の組から、最も類似する推論要求に対応する代替的な推論結果を決定する。

本発明によれば、信頼性及び可用性を改善することが可能な推論方法、機械学習推論システム及びコンピュータプログラムを実現することができる。

実施形態に係る機械学習推論システムの概略構成を示すブロック図である。実施形態に係る機械学習推論システムの概略ハードウェア構成を示す図である。実施形態に係る機械学習推論システムの推論スーパーバイザサーバの概略構成を示すブロック図である。実施形態に係る機械学習推論システムの代替結果生成サーバの概略構成を示すブロック図である。実施形態に係る機械学習推論システムのＳＬＡ（Service Level Agreement：サービス品質保証）検証テーブルの一例を示す図である。実施形態に係る機械学習推論システムのドメイン制約テーブルの一例を示す図である。実施形態に係る機械学習推論システムの推論結果テーブルの一例を示す図である。実施形態に係る機械学習推論システムの特徴重み値テーブルの一例を示す図である。実施形態に係る機械学習推論システムのキャッシュクラスタテーブルの一例を示す図である。実施形態に係る機械学習推論システムの推論処理フローの一例を示すフローチャートである。実施形態に係る機械学習推論システムのＳＬＡ検証処理フローの一例を示すフローチャートである。実施形態に係る機械学習推論システムのドメイン制約検証処理フローの一例を示すフローチャートである。実施形態に係る機械学習推論システムの代替結果生成処理フローの一例を示すフローチャートである。実施形態に係る機械学習推論システムの重み値算出処理フローの一例を示すフローチャートである。実施形態に係る機械学習推論システムのキャッシュクラスタ作成処理フローの一例を示すフローチャートである。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。

また、以下の説明では、情報の一例として「ｘｘｘデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ｘｘｘデータ」を「ｘｘｘテーブル」と言うことができる。さらに、「ｘｘｘデータ」を単に「ｘｘｘ」と言うこともある。そして、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしても良い。

なお、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（Central Processing Unit））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又は通信インターフェースデバイス（例えばポート）を用いながら行うため、処理の主語がプログラムとされても良い。プログラムを主語として説明された処理は、プロセッサ或いはそのプロセッサを有する計算機が行う処理としても良い。

本実施例の機械学習推論システムは、一例として下記のような構成を有してもよい。

すなわち、本実施例の機械学習推論システムでは、重み付け特徴クラスタリングを用いた機械学習推論システムにおけるキャッシングに対する動的アプローチを採用した。最近の応答が記憶され、次に、重み付けされたクラスタリングが規則的な間隔で実行される。重み値は、機械学習トレーニングシステムから得られた解析的特徴情報を使用して計算される。本実施例の機械学習推論システムは、別の機械学習モデルを作成することではなく、むしろ、機械学習推論システムにおけるエラーが固定されるまで時間的に解を提供するための信頼できるフォールバック方法を作成することである。新しい推論要求を受信すると、最も近いクラスタに割り当てられ、そのクラスタから集約値が返される。クラスタからの総計値を使用することは、以前の結果には何ら存在しない可能性がある正確な一致を見つけようとするのではなく、バイアスの機会を減らす。

より詳細には、本実施例の機械学習推論システムは、推論結果の信頼性を検証するためにドメイン制約検証部およびＳＬＡ検証部を使用する推論スーパーバイザからなる機械学習推論システムにおける信頼性および可用性を改善するためのシステムおよび方法と、機械学習推論結果の検証が失敗の際に、代替結果生成部が成功した推論結果を使用することによって許容可能な代替結果を生成し、返すための方法が提供される。

代替結果の生成は、機械学習トレーニングシステムから動的に得られた特徴重要度情報から計算された重み値を使用して成功した推論結果に対して重み付けクラスタリングを実行し、クラスタ化された推論要求と推論結果とを関連するキャッシュクラスタに保存する。事前に計算された特徴重み付けを使用する類似度ベースのクラスタ算出によって受信した推論要求を最も近いキャッシュクラスタに割り当て、それに続いて割り当てられたキャッシュクラスタからすべての結果を読み取り、そのキャッシュクラスタから集約結果を計算し、この集約結果を許容可能な代替結果として返す。

以下に、機械学習推論システムにおける信頼性および可用性を改善する推論方法、機械学習推論システム、および他の構成要素の実施形態が提示される。

図１は、実施形態に係る機械学習推論システムの概略構成を示すブロック図である。

図１において、クライアント１００は推論要求を機械学習推論システム２１０に送信し、推論結果を取得する。クライアント１００の一例は、スマートフォンアプリを利用してタクシーを呼び出すユーザであり、このアプリは、ユーザが支払うことが予想されるタクシー料金の額を推論結果として返す。推論要求は、ユーザの現在位置、目的地、要求時刻などの情報を含むことができる。この情報は、一連の機能としてアプリによってコード化され、ＡＰＩ１１０などのモデルＡＰＩへの推論要求として送信される。

一般的な機械学習推論システムでは、ＡＰＩへの推論要求コールはモデルのゲートウェイまたはロードバランサへの要求コールとすることができ、次いで、ゲートウェイまたはロードバランサは推論要求を機械学習モデル１４０に転送する。この実施形態では、ＡＰＩへのコールは推論スーパーバイザ１２０によって受信される。推論スーパーバイザ１２０は、クライアント１００に代わって、機械学習モデルＡＰＩ１３０を介して機械学習モデル１４０に要求を転送する。

一般的な機械学習推論システムでは推論結果が受信されると、推論結果はクライアント１００に返送される前に有効性についてチェックされない。本実施形態では、推論結果が推論スーパーバイザ１２０によって受信されると、ドメイン制約検証部１２４によって妥当性が検証される。例えば、タクシーを呼び出すアプリによる料金見積もり要求の場合、推論結果は負の値であってはならない。さらに同じ例を使用すると、料金は、ドメイン知識記憶部１０４に記憶された位置または他のそのようなドメイン制約に応じて、課せられた最大値を有することができる。

ドメイン知識記憶部１０４は、特定の機械学習モデル１４０のためのドメイン制約に関する情報を含む。このドメイン知識記憶部１０４は、機械学習開発サイクルの初期段階中にドメインの専門家によって作成することができる。

推論結果がドメイン制約の検証チェックに合格した場合、推論結果はクライアント１００に送信され、検証が失敗した場合、推論スーパーバイザ１２０は、代替結果生成部１６０を呼び出して、受け入れ可能な代替的な推論結果を生成する。

クライアント１００が推論結果を受信すると、そのフィードバックをフィードバックプロセッサ１０２によって収集し、処理することができる。そして、この情報を使用して、ドメイン知識記憶部１０４内の知識を改善することができる。

いくつかの実施形態ではクライアント１００がフィードバックを直接要求されてもよく、またはクライアント１００のフィードバックが間接的に評価されてもよい。例えば、タクシー呼び出しアプリのユーザは、アプリを評価することで推論サービスにどれだけ満足しているかを直接問われることができるかもしれないし、これは、アプリをどれだけ頻繁に使用しているかによって間接的に測定することができるかもしれない。

クライアント１００が機械学習推論システム２１０に推論要求を送信するとき、クライアント１００は応答（推論結果）を得るまでにしばらく待たなければならないことがある。この実施形態では、ＳＬＡ検証部１２２を使用して、この待機時間を特定の機械学習モデル１４０のＳＬＡと照合する。待機時間が長すぎる場合、ＳＬＡの検証は失敗する。このような場合、クライアント１００を無期限に待たせる代わりに、本実施形態では、推論スーパーバイザ１２０が代替結果生成部１６０を呼び出して、受け入れ可能な代替結果（推論結果）を生成する。

成功した推論結果、すなわち、推論スーパーバイザ１２０による検証チェックに合格した推論結果は、成功した推論要求および推論結果記憶部１０６に保存される。検証チェックは、機械学習推論システム２１０の信頼性を保証する。

代替結果生成部１６０は、成功した推論要求および推論結果を記憶部１０６から定期的にフェッチし、それらの特徴に基づいてこれらの結果のキャッシュクラスタ１７０を作成する。

クラスタリングの際には、全ての特徴が同じ重要度を有するわけではないので、本実施形態では重み付きクラスタリングを行う。例えば、タクシー呼び出しアプリにおける料金見積もりの場合、距離特徴は、要求のタイミングよりも重要であり得る。この特徴重要度情報は、例えば、機械学習モデルトレーニングシステム１５０から自動的かつ動的に取得される。特徴重要度情報は、特徴エントロピーまたは連続性などの情報を含む。

機械学習モデルトレーニングシステム１５０は、データ科学者が機械学習モデルを訓練し、いったん機械学習モデルが許容可能な性能品質を達成したら、それらを稼働する決定を下す機械学習推論システム２１０の一部である。機械学習モデル１４０は、稼働中の機械学習モデルである。この実施形態では、機械学習モデルを稼働すると、機械学習の特徴重要度情報が代替結果生成部１６０に送られるようにトリガされる。

代替結果生成部１６０は、代替結果に対する推論スーパーバイザ１２０からの推論要求を受信すると、キャッシュクラスタ１７０からその推論要求に対する最も近いクラスタを計算し、次いでその特定のクラスタから集約結果をフェッチし、これを受け入れ可能な代替要求として返す。タクシー呼び出しアプリの例では、集計結果がそのクラスタからの平均料金とすることができる。機械学習推論結果が分類結果である場合、集約結果は、そのクラスタからのモードとすることができる。これは、機械学習推論システムを常に動作させ続け、したがって、可用性を改善する。

図２は、実施形態に係る機械学習推論システム２１０の概略ハードウェア構成を示す図である。

図２に示されるサーバは、各種情報処理が可能な装置、一例としてコンピュータ等の情報処理装置である。情報処理装置は、演算素子（プロセッサ）、記憶媒体を有し、さらに、必要に応じて通信インタフェース、マウス、キーボード等の入力部、ディスプレイ等の画面部を有する。

演算素子は、例えばＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field-Programmable Gate Array）等である。記憶媒体は、例えばＨＤＤ（Hard Disk Drive）などの磁気記憶媒体、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＳＳＤ（Solid State Drive）などの半導体記憶媒体等を有する。また、ＤＶＤ（Digital Versatile Disk）等の光ディスク及び光ディスクドライブの組み合わせも記憶媒体として用いられる。その他、磁気テープメディアなどの公知の記憶媒体も記憶媒体として用いられる。

記憶媒体には、ファームウェアなどのプログラムが格納されている。サーバの動作開始時（例えば電源投入時）にファームウェア等のプログラムをこの記憶媒体から読み出して実行し、サーバの全体制御を行う。また、記憶媒体には、プログラム以外にも、サーバの各処理に必要なデータ等が格納されている。

なお、本実施例のサーバは、複数の情報処理装置が通信ネットワークを介して通信可能に構成された、いわゆるクラウドにより構成されてもよい。

クライアント機器２００は、ネットワーク３００を介して機械学習推論システム２１０に推論要求を送信するクライアントアプリケーションである。クライアント機器２００は例えば、デスクトップコンピュータ、携帯電話、タブレット、またはコンピュータサーバなどの装置を含むことができる。ネットワーク３００は例えば、公衆インターネットであっても、ローカルエリアネットワークであってもよい。

クライアント機器２００は、ネットワーク３００を介して推論スーパーバイザサーバ５００にそれらの推論要求を送信する。推論スーパーバイザサーバ５００は実際の物理サーバであってもよく、またはオンプレミスまたはクラウド上の異なるサーバ内の仮想マシンまたはコンテナとして実行されてもよい。

機械学習推論システム２１０は、仮想プライベートクラウド内でホストされ、クライアント機器２００および公衆インターネットから論理的に分離され、ネットワーク３００を介してクライアント機器２００と対話するシステムであってもよい。この機械学習推論システム２１０内のコンポーネントは、信頼されたネットワークを介して、物理的または論理的に公開から分離して、メッセージを介して互いに通信する。

推論スーパーバイザサーバ５００は推論要求を機械学習モデルサーバ２２０に転送し、機械学習モデルサーバ２２０では、実際に稼働中の機械学習モデルがホストされる。推論スーパーバイザサーバ５００は、ＳＬＡ検証プログラムおよびドメイン制約検証プログラムをホストする。推論スーパーバイザサーバ５００は物理サーバであってもよいし、いくつかの仮想サーバであってもよく、または、いくつかの実施形態ではコンテナサービスとしてホストされてもよい

機械学習モデルサーバ２２０は稼働中の機械学習モデルをホストし、モデルが推論を計算するのに必要なメモリ、プロセッサなどのコンピューティングリソースを提供する。機械学習モデルサーバ２２０は物理サーバであってもよいし、いくつかの仮想サーバであってもよく、またはいくつかの実施形態ではコンテナサービスとしてホストされてもよい。機械学習モデルサーバ２２０は、推論結果を推論スーパーバイザサーバ５００に送り返す。

機械学習モデルトレーニングサーバ２３０は、メモリ、プロセッサ等のような計算リソースと、データサイエンティストが機械学習モデルを訓練するために必要なプラットフォームとを提供する。機械学習モデルトレーニングサーバ２３０は物理サーバであってもよいし、サーバであってもよいし、いくつかの仮想サーバであってもよく、またはいくつかの実施形態ではコンテナサービスとしてホストされてもよい。機械学習モデルトレーニングサーバ２３０は、稼働の準備ができたモデルを機械学習モデルサーバ２２０にデプロイする。同時に、機械学習モデルトレーニングサーバ２３０は、本番環境にデプロイされた機械学習モデルの特徴に関する分析情報を代替結果生成サーバ８００に送信する。

成功した推論要求および対応する推論結果はデータ記憶部２０４に格納される。データ記憶部２０４は機械学習推論システム２１０内の別個のストレージサーバとして実装されてもよく、または推論スーパーバイザサーバ５００のストレージ内にローカルに実装されてもよく、またはネットワーク３００などの信頼できるネットワークを介してアクセス可能な他の場所に実装されてもよい。

成功した推論要求および対応する推論結果を格納することに加えて、データ記憶部２０４は推論スーパーバイザサーバ５００に必要とされるドメイン制約知識を格納することもできる。さらに、機械学習トレーニングデータなどの他の関連データを機械学習推論システム２１０内に格納することもできる。

また、本実施例では、クライアント機器２００からのフィードバックを収集することができ、これはドメイン制約知識を更新するために使用することができる形式でフィードバック処理サーバ２０２によって処理される。

代替結果生成サーバ８００は、データ記憶部２０４に記憶された成功した推論要求からの代替結果を生成するために必要な、メモリ、プロセッサ、キャッシュメモリ、記憶装置などの計算リソースを提供する。代替結果生成サーバ８００は、物理サーバ、またはいくつかの仮想サーバであってもよく、またはコンテナサービスとしてホストされてもよい。代替結果生成サーバ８００は機械学習モデルが本番環境にデプロイされる度に、機械学習モデルトレーニングサーバ２３０から特徴重要情報を取得する。

図３は、実施形態に係る機械学習推論システム２１０の推論スーパーバイザサーバ５００の概略構成を示すブロック図である。

メモリ５０２は、ＲＡＭのようなコンピュータメモリであってもよい。メモリ５０２は、ＳＬＡ検証プログラム６００およびドメイン制約検証プログラム７００を含むプログラムまたはコードをホストする。メモリ５０２には、ＳＬＡ検証テーブル５１０およびドメイン制約テーブル５１２も含まれる。

推論スーパーバイザサーバ５００は、プロセッサまたはプロセッサ群５３０Ａ、５３０Ｂ、…、５３０Ｎを有する完全なコンピュータシステムである。メモリ５０２内のプログラムは、これらのプロセッサによって実行される。推論スーパーバイザサーバ５００内のコンポーネントは、バス、Ｉ／Ｏインタフェース、ネットワークカードインタフェースなどのインタフェース５２０を介して通信する。推論スーパーバイザサーバ５００は、また、プログラムおよびデータの永続的記憶のためのディスク記憶装置であり得る記憶媒体５１６を有する。

図４は、実施形態に係る機械学習推論システム２１０の代替結果生成サーバ８００の概略構成を示すブロック図である。

メモリ８０２は、ＲＡＭのようなコンピュータメモリであってもよい。メモリ８０２は、代替結果生成プログラム１０００、重み値計算プログラム２０００およびキャッシュクラスタ作成プログラム３０００を含むプログラムまたはコードをホストする。これらのプログラムは、後に詳細に説明される。

代替結果生成サーバ８００は、プロセッサまたはプロセッサ群８２２Ａ、８２２Ｂ、…、８２２Ｎを有する完全なコンピュータシステムである。メモリ８０２内のプログラムは、これらのプロセッサによって実行される。代替結果生成サーバ８００内のコンポーネントは、バス、Ｉ／Ｏインタフェース、ネットワークカードインタフェースなどのインタフェース８２０を介して通信する。サーバはまた、キャッシュクラスタ８４２Ａ、８４２Ｂ...８４２Ｎのための高速記憶アクセスを提供する記憶媒体８４０を有する。記憶媒体８４０は、キャッシュメモリまたはＲＡＭなどの高速アクセスメモリによって実現することができる。キャッシュクラスタ８４２は、成功した推論要求および推論結果の対応するクラスタを記憶する。メモリ８０２は、推論結果テーブル８１０、特徴重み値テーブル８１２、およびキャッシュクラスタテーブル８１４を格納する。

図５は、実施形態に係る機械学習推論システム２１０のＳＬＡ検証テーブル５１０の一例を示す図である。

一般的に、機械学習推論システムにデプロイされる各モデルについて、機械学習モデルが推論結果を返すための最大許容遅延を指定するＳＬＡが存在する。多くのアプローチでは、多くのシステムがＳＬＡに違反しないように、垂直方向または水平方向にスケールアップを実施する。本実施形態では、ＳＬＡを超える場合、機械学習推論システム２１０はコストを節約することができる近似代替結果を単に返す。ＳＬＡ検証テーブル５１０は、モデルの例とそのＳＬＡ時間（秒単位）を示している。例えば、タクシー呼び出しアプリの場合、ＳＬＡは機械学習モデル１４０が推論結果、すなわち、クライアントが支払うことが予想される料金を返すべき５秒以内であってもよい。

図６は、実施形態に係る機械学習推論システム２１０のドメイン制約テーブル５１２の一例を示す図である。

機械学習推論システム２１０にデプロイされた各モデルについて、その制約は、ドメイン制約テーブル５１２に格納される。タクシー呼び出しアプリの例では、返却された料金は否定されてはならない。最大値についても、他の制約を設定することができる。例えば、機械学習モデルＭｏｄｅｌ００３は、１，０００の最小許容値および１０，０００の最大許容値を有する。ドメイン制約テーブル５１２には、ドメインに応じて、他の制約がある場合もある。

図７は、実施形態に係る機械学習推論システム２１０の推論結果テーブル８１０の一例を示す図である。

推論結果テーブル８１０内の情報は、成功した推論要求および推論結果記憶部１０６から得られる。推論結果テーブル８１０は、例えば、推論ＩＤ、特徴、メタデータ（オプション）および推論結果のためのフィールドを有する。キャッシュクラスタ作成プログラム３０００は、キャッシュクラスタを作成する際にこのテーブルを利用する。

図８は、実施形態に係る機械学習推論システム２１０の特徴重み値テーブル８１２の一例を示す図である。

稼働中の各機械学習モデル１４０について、特徴および対応する重みが特徴重み値テーブル８１２に保存される。重み値計算プログラム２０００は、機械学習モデルトレーニングシステム１５０から取得した特徴重要度情報に基づいて特徴重み値を算出する。キャッシュクラスタ作成プログラム３０００は、特徴重み値テーブル８１２内の重み値を利用して、適切な重み付きクラスタリングアルゴリズムを使用してクラスタを作成する前に、推論結果テーブル８１０内の推論要求の特徴の重み値を計算する。その後、クラスタは適切なキャッシュクラスタ１７０に書き出され、キャッシュクラスタテーブル８１４が適切に更新される。

図９は、実施形態に係る機械学習推論システム２１０のキャッシュクラスタテーブル８１４の一例を示す図である。

成功した推論要求の各クラスタおよびキャッシュクラスタ１７０内の結果について、対応するクラスタ重心がキャッシュクラスタテーブル８１４に保存される。このキャッシュクラスタテーブル８１４は、特徴およびメタデータ（オプション）、ならびにクラスタＩＤを有する。このテーブルは、キャッシュクラスタ作成プログラム３０００によって更新される。

代替結果生成プログラム１０００は、代替結果の要求を受信すると、推論要求の重み付けされた特徴をキャッシュクラスタテーブル８１４内のクラスタ重心と比較して、最も近い重心ＩＤを見つける。次に、キャッシュクラスタ１７０から適切なクラスタ内のすべての結果を読み取り、集約結果を計算して、この結果を返す。

図１０は、実施形態に係る機械学習推論システム２１０の推論処理フロー４００の一例を示すフローチャートである。

推論ＡＰＩプログラム５０４は、クライアント１００から推論要求を受信する（４１０）。推論要求は、メタデータを含むヘッダと、要求のフィーチャーベクトルおよび要求に対応する必要がある機械学習モデルＩＤを含む本文を持つＨＴＴＰ要求に含まれる場合がある。

複数の機械学習モデルが存在する場合、推論ＡＰＩプログラム５０４は、推論要求を適切な機械学習モデルＡＰＩ１３０にマッピングする。推論ＡＰＩプログラム５０４はＳＬＡ検証プログラム６００を呼び出し、推論要求および適切な機械学習モデルＡＰＩ１３０をパラメータとして渡す（４２０）。次に、ＳＬＡ検証プログラム６００は推論要求を機械学習モデルＡＰＩ１３０に非同期的に転送し、次に、ＳＬＡが違反されているか否かを確認するために待機し、ＳＬＡ検証の結果を返す。ステップ４２０で行われるＳＬＡ検証処理フローの詳細については、図１１を参照して後に詳述する。

結果チェックステップ４３０で、ＳＬＡ検証の結果がチェックされる。真の場合、すなわち、ＳＬＡ違反が検出されなかったときには、推論結果がステップ４４０において、ドメイン制約検証プログラム７００に転送される。ステップ４４０で、ドメイン制約検証プログラム７００は推論結果をドメイン制約で検証し、真または偽を返す。ドメイン制約検証処理フローの詳細については、図１２を参照して後に詳述する。

結果チェックステップ４５０では、ドメイン制約検証プログラム７００の結果がチェックされる。それが真であれば、制約違反が検出されなかったので、推論要求および推論結果は、成功した推論要求および推論結果記憶部１０６に格納される。推論結果は、次いで、最終ステップ４８０において、クライアントに送り返される。

結果チェック４３０または４５０が偽である場合、代替結果生成プログラム１０００が呼び出され（４６０）、許容可能な代替結果が生成される。代替結果生成処理フローの詳細については、図１３を参照して後に詳述する。代替結果は、次いで、最終ステップ４８０において、クライアントに送り返される。代替結果生成プログラム１０００によって送り返される推論結果は近似結果であり、実際の機械学習推論結果ではないことを示すいくつかのエラー情報と、推論要求を後で再試行するオプションとを含むことができる。さらに、この情報は検証失敗の原因、ＳＬＡ検証失敗またはドメイン制約失敗のいずれかを含むことができ、さらに、違反された厳密な制約の方法など、より詳細を提供することができる。

（多すぎる）検証失敗があった場合、機械学習推論システム２１０の管理者にはこれらの失敗を修正するために適切なアクションをとることができるように、これらのエラーが通知される。そのようなアクションは、機械学習モデル１４０の再訓練、ドメイン知識記憶部１０４の更新などを含む。

図１１は、実施形態に係る機械学習推論システム２１０のＳＬＡ検証処理フロー６００の一例を示すフローチャートである。

ＳＬＡ検証プログラム６００はステップ６１０において推論要求およびモデルＡＰＩを受信し、ステップ６２０において、ＳＬＡ検証プログラム６００は、この推論要求を適切な機械学習モデルＡＰＩ１３０に非同期的に転送する。ステップ６３０において、プログラムはＳＬＡ検証テーブル５１０からＳＬＡ_ＴＩＭＥ（秒）値を取得し、この値をカウントダウン値として使用し、次のステップ６４０においてカウントダウンタイマーを開始する。

次に、ＳＬＡ検証プログラム６００は、機械学習モデル１４０からの推論結果を待つ。推論結果が到着する前にタイマーが切れた場合、ＳＬＡ妥当性検査は失敗し（ＳＬＡ違反が発生したことを意味する）、ＳＬＡ検証プログラム６００は妥当性検査のためにＦＡＬＳＥを戻し（６６０）、終了する。カウントダウンが終了する前に推論結果が返された場合、ＳＬＡ検証は合格し、ＳＬＡ検証プログラム６００はＴＲＵＥを返し、推論結果も返して（６７０）終了する。

図１２は、実施形態に係る機械学習推論システム２１０のドメイン制約検証処理フロー７００の一例を示すフローチャートである。

ドメイン制約検証プログラム７００は、ステップ７１０において、推論結果をチェックする要求を受信する。要求には、モデルＩＤと推論結果が含まれる。次のステップ７２０では、ドメイン制約検証プログラム７００が、その特定のモデルＩＤに対するドメイン制約テーブル５１２から対応するドメイン制約（すなわち、MIN_ALLOWED_VALUE、MAX_ALLOWED_VALUEおよび他の制約）を読み出す。ステップ７３０において、ドメイン制約検証プログラム７００は、推論結果を、ステップ７２０において検索されたドメイン制約に対してチェックする。ステップ７４０で、ドメイン制約検査のいずれかが失敗した場合（すなわち、ドメイン制約違反が発生した場合）、検証失敗があり、プログラムはＦＡＬＳＥを返して（７６０）終了する。すべてのドメイン制約チェックに合格すると、プログラムはＴＲＵＥを返して（７５０）終了する。

図１３は、実施形態に係る機械学習推論システム２１０の代替結果生成処理フロー１０００の一例を示すフローチャートである。

代替結果生成プログラム１０００は、ステップ４１０と同様に、クライアント１００によって最初に送信された推論要求をステップ１０１０で受信する。推論要求は、メタデータを含むヘッダと、要求のフィーチャーベクトルおよび要求に対応する必要がある機械学習モデルＩＤを含む本文を持つＨＴＴＰ要求に含まれる場合がある。

オプションとして、ステップ１０１２において、代替結果生成プログラム１０００は、要求を行ったブラウザ、要求が行われた時間など、ＨＴＴＰ要求ヘッダからメタデータを抽出する。アルゴリズムは密接に関連する推論要求を１つのクラスタにグループ化するので、この情報は履歴推論要求のクラスタを作成するときに有用であり得る。例えば、タクシー呼び出しアプリケーションでは、データポイントとしての場所や要求のタイミングのようなメタデータは、機械学習モデル１４０を生成するためにのみ考慮される情報である特徴からのデータポイントに加えて、より適切なクラスタを形成する際に有用である。
次のステップ１０２０は、推論要求から特徴ベクトルを抽出することである。特徴ベクトルは、特徴ＩＤおよび特徴値を有するＪＳＯＮファイル、またはキー値ペアを有する辞書の形態であってもよい。
ステップ１０３０において、代替結果生成プログラム１０００はモデルＩＤおよび特徴ＩＤに対応する特徴重み値（すなわち、重み値）を特徴重み値テーブル８１２から得る。

ステップ１０４０において、推論要求に含まれる全ての特徴に対する重み付け特徴量が計算される。

ステップ１０５０は類似性計算機であり、推論要求に対する重み付けされた特徴量は、キャッシュクラスタテーブル８１４内のクラスタ重心と比較されて、最も近い重心を見つける。この距離は、特徴データのタイプおよび領域のための適切な類似性計算アルゴリズムを使用して計算することができる。たとえば、特徴がストリングである場合、編集距離を使用して距離を決定できる。類似性尺度の別の例は、実数に対するユークリッド距離である。最も近いクラスタ重心が識別されると、対応するクラスタＩＤがキャッシュクラスタテーブル８１４から取得される。

ステップ１０６０は結果集約部であり、ステップ１０５０で得られたクラスタＩＤ内のクラスタ内のすべての推論結果を読み取り、次に集約結果を返す。値の予測の場合、総合結果は平均とすることができる。機械学習推論モデルが分類結果を返す場合、集約結果はキャッシュクラスタの多数決（モード）クラスとすることができる。

最後のステップ１０７０で、代替結果生成プログラム１０００は集約結果を返し、終了する。

図１４は、実施形態に係る機械学習推論システム２１０の重み値算出処理フロー２０００の一例を示すフローチャートである。

重み値計算プログラム２０００は、機械学習モデル１４０が機械学習モデルトレーニングシステム１５０によってデプロイされて稼働されるときにトリガされる。第１のステップ２０１０において、重み値計算プログラム２０００はモデルＩＤと共に、機械学習モデルトレーニングシステム１５０による機械学習モデル１４０のデプロイメント成功の通知を受信する。

ステップ２０２０において、重み値計算プログラム２０００は、機械学習モデルトレーニングシステム１５０から特徴重要度情報を取得する。そのような情報の例には、特徴エントロピー、特徴連続性、トレーニングフェーズ中に試され、テストされたアルゴリズムによって特徴がどのくらいの頻度で使用されるか等が含まれる。例えば、いくつかの特徴はトレーニング中にいくつかのアルゴリズムによって使用され、一方、いくつかの特徴は多くのアルゴリズムによってドロップされる。この情報はしばしば使用されるそのような特徴が機械学習モデルによってより重要であると考えられる可能性が高いことを意味し、したがって、そのような特徴は後に重み付けクラスタリングを実行するときにより大きな重みを有するべきである。特徴の連続性とは、対象となる結果に対して個々の特徴をプロットすると、連続したグラフが得られることである。ただし、特徴によっては明確な関連性はない。連続的な特徴は、重み付けクラスタリングにおいて、非連続的な特徴よりも有益であり得る。決定木アルゴリズムによって計算される特徴エントロピーのような他の特徴情報は、特徴の重みに影響を及ぼす際に直接重要である。

ステップ２０３０では、重み値計算プログラム２０００が前のステップ２０２０で取得した特徴重要度情報から特徴重み値を算出する。特徴重み値は、特徴エントロピー、特徴連続性、およびトレーニングに使用されるアルゴリズムによって特徴がどのくらい頻繁に使用されるかといった、すべての特徴重要度情報の関数である。特徴重み値を計算するための正確な公式は、領域に応じて変わり得る。一例では、特徴が０．８（ｍｉｎ０、ｍａｘｉｍｕｍ１）のエントロピー、０．６（ｍｉｎ０、ｍａｘｉｍｕｍ１）の特徴連続性値、および試みられた４つのアルゴリズムのうちの３つにおける使用頻度、したがって０．７５を有することができる。例示的な公式は３つすべての平均を使用することによってこの情報を組み合わせ、したがって、特徴の重みは（０．８＋０．６＋０．７５）を３で割ることになる。他の例では、異なる特徴情報が特徴のそれぞれについて適切な重みをもたらすために、異なるように計算されてもよい。

ステップ２０４０において、特徴重み値テーブル８１２は、ステップ２０３０で計算された特徴重み値で更新され、重み値計算プログラム２０００は終了する。

図１５は、実施形態に係る機械学習推論システム２１０のキャッシュクラスタ作成処理フロー３０００の一例を示すフローチャートである。キャッシュクラスタ作成プログラム３０００は、キャッシュクラスタ１７０を定期的に更新するために使用される。

ステップ３０１０において、キャッシュクラスタ作成処理フロー３０００は定期的に、成功した推論要求及び推論結果記憶部１０６から成功した推論要求および推論結果を取り出す。検索の頻度は、アプリケーションドメイン、推論要求の量、およびそれらがバッチ要求であるかストリーム要求であるかに依存する。例えば、大量のストリーム要求を処理するタクシー呼び出しアプリケーションである場合、キャッシュクラスタ作成プログラム３０００は、時間単位で実行することができる。別の例では機械学習推論システム２１０が１日に１回発生するストック予測のためのバッチ要求を処理する場合、キャッシュクラスタ作成プログラム３０００は１日に１回実行され得る。

次のステップ３０１０は任意に実行され、このステップでは、メタデータが記憶部１０６から抽出され、推論結果テーブル８１０に保存される。ステップ３０２０では、特徴および推論も推論結果テーブル８１０に保存される。

ステップ３０４０において、特徴に対応する重み値が特徴重み値テーブル８１２から得られる。

ステップ３０５０において、適切な重み付けクラスタリングアルゴリズムが選択され、重み付けされた特徴および任意選択でメタデータを使用して、推論結果テーブル８１０内に推論のクラスタを作成する。重み付きクラスタリングアルゴリズムの一例は、重み付きＫ平均法（K-means）アルゴリズムである。

所与のデータセットＹについて、Ｋ平均は、クラスタＳ＝｛Ｓ１，Ｓ２、...、ＳＫ}のばらばらの集合、ならびに各クラスタＳｋ∈Ｓの重心ｃｋを出力する。重心ｃｋは、すべてのｙｉ｀Ｓｋまでの距離の最小合計を有するように設定され、ｃｋを、しばしばプロトタイプと呼ばれるＳｋの良好な一般的表現にする。Ｋ平均は、エンティティ間のクラスタ内距離の合計ｙｉ∈Ｙとそれぞれの重心ｃｋ∈Ｃとを反復的に最小化することによって、所与のデータセットＹを分割する。

クラスタが作成され、各推論要求にクラスタが割り当てられると、ステップ３０６０で各推論要求が対応するキャッシュクラスタ１７０に書き出される。

ステップ３０７０で、クラスタ重心および対応するキャッシュクラスタＩＤの特徴でキャッシュクラスタテーブル８１４が更新され、キャッシュクラスタ作成プログラム３０００が終了する。

従って、本実施例によれば、信頼性及び可用性を改善することが可能な推論方法、機械学習推論システム及びコンピュータプログラムを実現することができる。

なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（Solid State Drive）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラムまたはスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段またはＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００…クライアント、１０２…フィードバックプロセッサ、１０４…ドメイン知識記憶部、１０６…記憶部、１２０…推論スーパーバイザ、１２２…ＳＬＡ検証部、１２４…ドメイン制約検証部、１４０…機械学習モデル、１５０…機械学習モデルトレーニングシステム、１６０…代替結果生成部、１７０…キャッシュクラスタ、２００…クライアント機器、２０２…フィードバック処理サーバ、２０４…データ記憶部、２１０…機械学習推論システム、２２０…機械学習モデルサーバ、２３０…機械学習モデルトレーニングサーバ、５００…推論スーパーバイザサーバ、５１０…ＳＬＡ検証テーブル、５１２…ドメイン制約テーブル、６００…ＳＬＡ検証プログラム、７００…ドメイン制約検証プログラム、８００…代替結果生成サーバ、８１０…推論結果テーブル、８１２…特徴重み値テーブル、８１４…キャッシュクラスタテーブル、８４２…キャッシュクラスタ、１０００…代替結果生成プログラム、２０００…重み値計算プログラム、３０００…キャッシュクラスタ作成プログラム

Claims

プロセッサ及びメモリを有する機械学習推論システムにより実施される推論方法であって、
前記プロセッサは、
クライアント装置から推論要求を受け入れ、
前記推論要求を機械学習モデルに提示してこの機械学習モデルから推論結果を受け入れ、
前記推論結果を検証し、前記検証の結果が肯定的であれば前記推論結果を前記クライアント装置に提示し、前記検証の結果が否定的であれば、キャッシュされかつ既に検証された前記推論要求と前記推論結果との組から少なくとも一つの代替的な前記推論結果を前記クライアント装置に提示し、
前記代替的な前記推論結果を提示するときに、
機械学習トレーニングシステムから、前記機械学習モデルによる推論処理の際に用いられるそれぞれの特徴の特徴重要度情報を検索し、
キャッシュされかつ既に検証された前記推論要求と前記推論結果との組を生成する際に用いられた前記特徴の重み付け値を算出し、
前記特徴の前記重み付け値に基づいて、前記クライアント装置から受け入れた前記推論要求に含まれる前記特徴とキャッシュされた前記推論要求に含まれる前記特徴との類似度を算出し、
前記類似度に基づいて、前記クライアント装置から受け入れた前記推論要求に最も類似するキャッシュされた前記推論要求を決定し、
キャッシュされた前記推論要求と前記推論結果との複数の組から、前記最も類似する前記推論要求に対応する前記代替的な前記推論結果を決定する
推論方法。
前記類似度の算出は、キャッシュされた前記推論結果のクラスタを生成することで、前記特徴の前記重み付け値を用いて前記キャッシュされた前記推論要求の前記特徴を重み付けクラスタリングすることにより行うことを特徴とする請求項１に記載の推論方法。
前記重み付けクラスタリングは、
前記推論要求からメタデータを抽出し、
クラスタリングアルゴリズムに含まれるデータ点の前記メタデータと前記クラスタリングアルゴリズムにより前記データ点として用いられている重み付けされた前記特徴とを用いて前記推論要求の重み付けクラスタリングを行う
ことを特徴とする請求項２に記載の推論方法。
前記代替的な前記推論結果を前記クライアント装置に提示する際に適切なエラーメッセージを返信し、
前記代替的な前記推論結果には、この代替的な前記推論結果は近似的結果であり実際の前記機械学習モデルによる結果でないという前記エラーメッセージと、後に推論要求を再試行するオプションとが含まれ、
さらに、前記エラーメッセージには、前記検証が否定的である理由が含まれ、
前記検証が否定的であるときは前記検証が否定的になったことを是正できるように通知を行う
ことを特徴とする請求項１に記載の推論方法。
前記推論要求を行った前記クライアント装置から、直接的または間接的に、前記クライアント装置が前記推論結果に満足しているとの評価と、前記推論結果を得るまでの時間に満足していることを含むフィードバックを受け入れ、
前記フィードバックを、最適なサービス品質保証（Service Level Agreement）を得るために要約統計量（Summary Statistics）を用いて算出し、
前記フィードバックを、ドメインに対する最適な許容結果を見つけるために解析し、
そして、算出・解析された前記フィードバックを、前記推論結果を検証するために前記ドメインの制約及び前記サービス品質保証を更新するために用いる
ことを特徴とする請求項１に記載の推論方法。
プロセッサ及びメモリを有する機械学習推論システムであって、
前記プロセッサは、
クライアント装置から推論要求を受け入れ、
前記推論要求を機械学習モデルに提示してこの機械学習モデルから推論結果を受け入れ、
前記推論結果を検証し、前記検証の結果が肯定的であれば前記推論結果を前記クライアント装置に提示し、前記検証の結果が否定的であれば、キャッシュされかつ既に検証された前記推論要求と前記推論結果との組から少なくとも一つの代替的な前記推論結果を前記クライアント装置に提示し、
前記代替的な前記推論結果を提示するときに、
機械学習トレーニングシステムから、前記機械学習モデルによる推論処理の際に用いられるそれぞれの特徴の特徴重要度情報を検索し、
キャッシュされかつ既に検証された前記推論要求と前記推論結果との組を生成する際に用いられた前記特徴の重み付け値を算出し、
前記特徴の前記重み付け値に基づいて、前記クライアント装置から受け入れた前記推論要求に含まれる前記特徴とキャッシュされた前記推論要求に含まれる前記特徴との類似度を算出し、
前記類似度に基づいて、前記クライアント装置から受け入れた前記推論要求に最も類似するキャッシュされた前記推論要求を決定し、
キャッシュされた前記推論要求と前記推論結果との複数の組から、前記最も類似する前記推論要求に対応する前記代替的な前記推論結果を決定する
機械学習推論システム。
プロセッサ及びメモリを有するコンピュータにより実行されるコンピュータプログラムであって、
前記コンピュータプログラムは、前記コンピュータに、
クライアント装置から推論要求を受け入れさせ、
前記推論要求を機械学習モデルに提示してこの機械学習モデルから推論結果を受け入れさせ、
前記推論結果を検証し、前記検証の結果が肯定的であれば前記推論結果を前記クライアント装置に提示させ、前記検証の結果が否定的であれば、キャッシュされかつ既に検証された前記推論要求と前記推論結果との組から少なくとも一つの代替的な前記推論結果を前記クライアント装置に提示させ、
前記代替的な前記推論結果を提示させるときに、
機械学習トレーニングシステムから、前記機械学習モデルによる推論処理の際に用いられるそれぞれの特徴の特徴重要度情報を検索させ、
キャッシュされかつ既に検証された前記推論要求と前記推論結果との組を生成する際に用いられた前記特徴の重み付け値を算出させ、
前記特徴の前記重み付け値に基づいて、前記クライアント装置から受け入れた前記推論要求に含まれる前記特徴とキャッシュされた前記推論要求に含まれる前記特徴との類似度を算出させ、
前記類似度に基づいて、前記クライアント装置から受け入れた前記推論要求に最も類似するキャッシュされた前記推論要求を決定させ、
キャッシュされた前記推論要求と前記推論結果との複数の組から、前記最も類似する前記推論要求に対応する前記代替的な前記推論結果を決定させる
コンピュータプログラム。