JP7161560B2

JP7161560B2 - 人工知能開発プラットフォームの管理方法及び装置、媒体

Info

Publication number: JP7161560B2
Application number: JP2021045551A
Authority: JP
Inventors: ゼングクスイオング・ユアン; エン・シイ; ヨンカン・シエ; ミンレン・フウ; ゼンユウ・チェン; ゼンファン・チュウ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2021-03-19
Publication date: 2022-10-26
Anticipated expiration: 2041-03-19
Also published as: EP3817339A2; EP3817339A3; CN111782185A; KR20210034558A; US11455173B2; KR102556186B1; EP3817339B1; US20210211361A1; JP2021121921A; CN111782185B

Description

本開示は、人工知能技術分野に関し、特に人工知能開発プラットフォームの管理方法及び装置、媒体に関する。

様々な業界で人工知能(ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ、略称は「ＡＩ」である)技術が用いられる中、ＡＩ技術能力を有する企業は、ＡＩ開発プラットフォームによりユーザにカスタマイズモデルの自動展開やサービスソリューションを提供している。大規模のＡＩモデルサービスは、ＡＩ開発プラットフォームのモデル展開とオンライン推論に課題をもたらしている。

本開示の一態様によれば、人工知能開発プラットフォームの管理方法であって、前記人工知能開発プラットフォームには、複数のモデルサービスのインスタンスが展開され、且つ各モデルサービスは、１つまたは複数のインスタンスを有し、前記管理方法は、少なくとも１つのモデルサービスの呼び出し情報を取得することと、前記呼び出し情報に基づき、前記少なくとも１つのモデルサービスのアクティブレベルを決定することと、決定されたアクティブレベルが第１条件を満たすことにレスポンスし、少なくとも前記少なくとも１つのモデルサービスの全てのインスタンスを削除することとを含むことを特徴とする管理方法を提供する。

本開示の他の態様によれば、１つ又は複数のインスタンスを有する複数のモデルサービスのインスタンスが展開されているように構成されるクラウドサーバーと、少なくとも１つのモデルサービスの呼び出し情報を取得するように構成される呼び出し情報収集モジュールと、前記呼び出し情報に基づき、前記少なくとも１つのモデルサービスのアクティブレベルを決定するように構成される検出モジュールと、決定されたアクティブレベルが第１条件を満たすことにレスポンスし、少なくとも前記少なくとも１つのモデルサービスの全てのインスタンスを削除するように構成される実行モジュールとを含むことを特徴とする人工知能開発プラットフォームシステムを提供する。

本開示の他の態様によれば、プロセッサと、プログラムを格納するメモリとを備え、前記プログラムは、命令を含み、前記命令は、前記プロセッサにより実行される時に、前記プロセッサに上記の管理方法を実行させることを特徴とする電子装置を提供する。

本開示の他の態様によれば、プログラムが格納されるコンピュータ可読記憶媒体であって、前記プログラムが命令を含み、前記命令は、電子装置のプロセッサにより実行される時に、前記電子装置に上記の管理方法を実行させることを特徴とするコンピュータ可読記憶媒体を提供する。

本開示の他の態様によれば、コンピュータ可読記憶媒体に格納されるコンピュータプログラムであって、前記コンピュータプログラムが命令を含み、前記命令は、少なくとも一つのプロセッサにより実行される時に、上記の管理方法を実現させるコンピュータプログラムを提供する。

図面は、実施例を例示的に示し、明細書の一部を構成し、明細書の文字記述とともに実施例の例示的実施例を説明するために使用される。示された実施例は、例示のみを目的としており、請求項の範囲を限定するものではない。全ての図面において、同様の符号は、類似しているが必ずしも同様ではない要素を示す。
例示的実施例に係る人工知能開発プラットフォームの管理方法を示すフローチャートである。例示的実施例に係る少なくともモデルサービスの全てのインスタンスを削除することを示すフローチャートである。例示的実施例に係る人工知能開発プラットフォームの管理方法を示すフローチャートである。例示的実施例に係る人工知能開発プラットフォームシステムを示す概略構成ブロック図である。例示的実施例に利用可能な例示的コンピューティング装置を示す構成ブロック図である。

本開示において、別段の記載がない限り、様々な要素を説明するための「第１」、「第２」等の用語は、これらの要素の位置関係、時系列関係、または重要性の関係を修飾することを意図するものではなく、１つの要素を別の要素から区別するために使用される。いくつかの例では、第１の要素および第２の要素は、当該要素の同じインスタンスを意味し得、場合によっては、文脈の記述に基づいて、それらは異なるインスタンスを意味し得る。

本開示の様々な前記例の説明で使用される用語は、特定の例を説明することのみを目的としており、限定することを意図していない。文脈が明示的に示さない限り、要素の数が意図的に制限されていなければ、当該要素は１つまたは複数であってもよい。さらに、本開示で使用される「および／または」という用語は、記載された項目のいずれか１つおよびすべての可能な組み合わせを包含する。

ＡＩ開発プラットフォームについて、ＡＩモデル、特に深層学習モデルのネットワーク構造は非常に複雑であり、１つのモデルサービスインスタンスを展開するのに必要なメモリ容量は膨大（ＧＢレベル）である。ＡＩ開発プラットフォームは、非常に多い数のモデルサービスをサポートしなければならず、大量のメモリリソースを提供する必要があり、装置にかかるコストが高く、且つ長時間大量のモデルサービスを呼び出せない場合があり、リソースの利用率が低い。そして、大量のサービスアクセスは、ＡＩ開発プラットフォームのアクセス層に負担をかけ、例えば、大量のトラフィックルーティングのルール配置、頻繁的なルーティングルールの変更は、アクセス層の機能問題を引き起こしやすく、それにより、オンライン推論サービスの全体的な機能低下をもたらす。

関連技術において、大規模のＡＩモデルサービスに起因する上記の問題を解決するために、以下のような２種類の手段がある。

１種目：マルチクラスタ方法に基づいて、１つの大規模クラスタを複数の中規模クラスタに分割し、階層的なルーティングルールを作成することで、個々のクラスタのルーティング負荷を軽減する。

２種目：Ｓｅｒｖｅｒｌｅｓｓ（サーバーレス）方法に基づいて、トラフィックの特性に応じてサービスインスタンスの数を自動的に調整する。

しかし、１種目の方法では、大規模のモデルがメモリリソースを占有するという問題を根本的に解決することはできず、拡張には依然として大量のマシンリソースを必要とする。そして、クラスタ間連携の問題をもたらし、ネットワークトポロジーが複雑であり、ネットワークの問題で複数のクラスタ間で状態がずれやすくなる。２種目の方法では、ＡＩ開発プラットフォーム上に任意のモデルサービスインスタンスを展開せず、トラフィック特性に応じてサービスインスタンスの数を自動的に調整するが、ＡＩモデルサービスの初期化にかかる時間が長く、複雑なモデルでは分単位のレベルになることもある。そのため、Ｓｅｒｖｅｒｌｅｓｓ方法では、トラフィックを保持して転送することによる自動ウェイクアップのメカニズムが機能せず、オンライン推論要求がタイムアウトになりやすい。Ｓｅｒｖｅｒｌｅｓｓ方法では、サービスグリッドフレームワークも導入する必要があり、ストックサービスの移行作業は煩雑であり、プラットフォームの改造コストが増加する。そのため、ＡＩモデルサービスに起因する上記の問題点を解決するための効果的な技術が必要となる。

そこで、本開示は、人工知能開発プラットフォームの管理方法を提供し、モデルサービスの呼び出し情報を取得し、呼び出し情報に基づいてモデルサービスのアクティブレベルを決定する。決定されたモデルサービスのアクティブレベルが第１条件を満たすことにレスポンスし、モデルサービスが開発プラットフォームに展開した全てのインスタンスを削除し、機器ＣＰＵ及びメモリ等のリソースを解放するポリシールールを設定することができる。これによって、リソース利用率を向上させ、ＡＩ開発プラットフォームに対するマシンリソース要件を減らすことができる。そして、モデルサービスの呼び出しアクティブレベルに基づいてモデルサービスインスタンスを削除することで、Ｓｅｒｖｅｒｌｅｓｓ自動ウェイクアップのメカニズムではオンライン推論要求のタイムアウトが発生しやすいという問題を克服でき、サービスグリッドのフレームワークを導入する必要がなく、ＡＩ開発プラットフォームの低コストでの改造が可能となる。

本開示において、モデルサービスのモデル推論トラフィックを受信することにレスポンスして、モデルサービスの１つのインスタンスによりオンライン推論を実行する。モデルサービスの呼び出し情報は、実際にはモデルサービスの全てのインスタンスの呼び出し情報である。

以下、図面を参照しながら本開示の人工知能開発プラットフォームの管理方法を更に説明する。

ＡＩ開発プラットフォームは、ユーザに自動化展開（Ａｕｔｏｍａｔｉｏｎｄｅｐｌｏｙｍｅｎｔ）やサービスソリューションを提供する。ＡＩ開発プラットフォームには、複数のモデルサービスのインスタンスが展開されていてもよい。モデルサービスインスタンスは、モデルサービスのモデル推論トラフィックを受信することにレスポンスしてオンライン推論を実行し、特定の功能、例えば、画像分類、物体検出、テキスト認識、音声認識、自然言語処理等を実現する。各モデルサービスは、１つ又は複数のインスタンスを有していてもよく、各インスタンスは、当該モデルサービスのコピーであり、前記１つ又は複数のインスタンスは、オンライン推論を実行して同じ機能を実現することができる。ユーザは、各々の実際の需要に応じてモデルサービスインスタンスの展開数を選択することができる。

なお、別段の記載がない限り、本開示におけるモデルサービスは、ともにユーザがＡＩ開発プラットフォームにインスタンスのモデルを展開して特定の機能を実現可能なものを指す。ユーザは、自分がＡＩ開発プラットフォームに展開したモデルサービスインスタンスを呼び出してもよく、他のユーザがＡＩ開発プラットフォームに展開したモデルサービスインスタンスを呼び出してもよい。

図１は、例示的実施例に係る人工知能開発プラットフォームの管理方法を示すフローチャートである。図１に示すように、前記管理方法は、少なくとも１つのモデルサービスの呼び出し情報を取得するステップＳ１０１、前記呼び出し情報に基づき、前記少なくとも１つのモデルサービスのアクティブレベルを決定するステップＳ１０２、及び決定されたアクティブレベルが第１条件を満たすことにレスポンスし、少なくとも前記少なくとも１つのモデルサービスの全てのインスタンスステップを削除するＳ１０３を含むことができる。これによってマシンリソースの利用率を向上させる。

いくつかの実施例によれば、ＡＩプラットフォームに展開された全てのストックモデルサービスのアクティブレベルを決定し、アクティブレベルが前記第１条件を満たす少なくとも１つのモデルサービスに対してその全てのインスタンスの削除を実行することができる。

前記呼び出し情報は、例えばモデルサービスの作成時間と、最近の呼び出し時間、所定の時間窓内の呼び出しの回数、所定の時間窓内の呼び出し時間の分布のうちの少なくとも１つの情報と、を含むことができる。これによって、前記呼び出し情報に基づいてモデルサービスのアクティブレベル（即ち、呼び出しアクティブレベル）を決定することができる。

いくつかの実施例によれば、モデルサービスのアクティブレベルをアクティブ及びローアクティブの２つのレベルに分けることができるが、これに限定されない。この場合、決定されたアクティブレベルがローアクティブレベルであることにレスポンスして、少なくとも前記少なくとも１つのモデルサービスの全てのインスタンスを削除する。

いくつかの例示的実施例において、モデルサービスの呼び出し情報に基づき、当該モデルサービスが最近安定した呼び出しを有すると決定された場合、当該モデルサービスが第１条件を満たしていないと決定し、当該モデルサービスのインスタンスが削除されないことで、当該モデルサービスのオンライン推論要求の適時性を保証することができる。当該モデルサービスが最近呼び出されていないが、長期的な時間スケール（例えば、モデルサービスの作成時間から現在の時間までの時間スケール）において安定した呼び出しを有すると決定された場合、当該モデルサービスが第１条件を満たしていると決定し、当該モデルサービスの全てのインスタンスを削除する。

いくつかの実施例によれば、インスタンスが削除された少なくとも１つのモデルサービスについて、インスタンスが削除された前記少なくとも１つのモデルサービスが所定の時間内に呼び出されていないと決定されたことにレスポンスして、前記少なくとも１つのモデルサービスの前記プラットフォームアクセス層におけるルーティング構成を削除することができる。即ち、インスタンスが削除されたモデルサービスついて、所定の時間窓内に呼び出されているかどうかをさらに判断し、呼び出されている場合には、インスタンスが削除されたモデルサービスについて、対応するルーティングルールを更に削除する。これによって、トラフィックルーティングルールの構成及び頻繁なルーティングルールの変更によるプラットフォームアクセス層への負担を軽減することができ、オンライン推論サービスの機能を向上させる。

上記のポリシールールでは、呼び出し情報に基づいてモデルサービスが最近呼び出されているか、且つ安定した呼び出しを有するかを決定することにより、モデルサービスをアクティブサービスとローアクティブサービスに分ける。モデルサービスのアクティブレベルがローアクティブレベル（即ち、第１条件を満たす）であると決定されたことにレスポンスし、モデルサービスの全てのインスタンスを削除する。その後、インスタンスが削除されたモデルサービスが所定の時間窓内に呼び出されているかを決定し、呼び出されている場合、インスタンスが削除されたモデルサービスに対応するルーティングルールを継続して削除する。これによって、リソース利用率を向上させるができるとともに、過剰のルーティングルールが業務サービスにもたらす機能低下を軽減する。

なお、他のポリシールールに従って上記の第１条件とは異なるものを設定し、モデルサービスのアクティブレベルが設定された第１条件を満たすと決定したことにレスポンスし、少なくともモデルサービスの全てのインスタンスを削除することもできる。例えば、呼び出し情報に基づいてモデルサービスをアクティブサービス、ローアクティブサービス及び非アクティブサービスに分けることができる。モデルサービスのアクティブレベルがアクティブであると決定したことにレスポンスし、モデルサービスのインスタンスの削除を実行しない。モデルサービスのアクティブレベルがローアクティブであると決定したことにレスポンスし、モデルサービスの全てのインスタンスのみを削除する。モデルサービスのアクティブレベルが非アクティブであると決定したことにレスポンスし、モデルサービスの全てのインスタンス及びルーティングルールを削除する。即ち、前記第１条件は、更に異なるサブ条件を含んでもよく、異なるサブ条件に基づいて少なくともモデルサービスの全ての実施例の削除を実行する。本例示的実施例において、アクティブサービスは、例えばモデルサービスの作成時間から現在の時間までの時間スケールにおいていずれも安定した呼び出しを有するサービスであってもよく、ローアクティブサービスは、例えば最近呼び出されていないが、比較的長い時間窓内に安定した呼び出しを有するサービスであってもよく、非アクティブサービスは、例えば比較的長い時間窓内に呼び出しされていないサービスであってもよい。

いくつかの実施例によれば、図２に示すように、前記少なくとも前記少なくとも１つのモデルサービスの全てのインスタンスを削除するステップＳ１０３は、前記少なくとも１つのモデルサービスが前記人工知能開発プラットフォームのクラスタ内に存在するかどうかを決定するステップＳ１０３１、及び前記少なくとも１つのモデルサービスが前記クラスタ内に存在すると決定したことにレスポンスし、前記少なくとも１つのモデルサービスのバックエンドをトラフィック引受モジュールに切り替えるステップＳ１０３２を含むことができる。ここで、前記トラフィック引受モジュールは、インスタンスが削除されたモデルサービスのモデル推論トラフィックを受信するために用いられる。これによって、モデルサービスがＡＩ開発プラットフォームに展開した全てのインスタンス（即ち、全てのコピー）のみを削除することができ、モデルサービス自体を削除することなく、後続にモデルサービスのインスタンスの展開の復元を容易にする。

ユーザがＡＩ開発プラットフォームモデルサービスを作成した後、モデルサービスを独自のストレージシステム（例えばクラウドストレージシステム）に格納することができ、且つオンライン推論を実行するためにユーザのニーズに応じて一定数のインスタンスを展開することができる。

いくつかの実施例によれば、ステップＳ１０３は、更に、前記少なくとも１つのモデルサービスの生データ情報を前記クラスタ内に格納し続けるステップＳ１０３３を含むステップＳ１０３３を含むことができる。ここで、前記生データ情報は、少なくとも前記少なくとも１つのモデルサービスが、インスタンスが削除される前に前記開発プラットフォームに展開したインスタンスの第１数を含む。これによって、インスタンスが削除されたモデルサービスが呼び出される時に、モデルサービスの全てのインスタンスを復元することができ、ユーザのオンライン推論要求に影響を与えない。

前記生データ情報は、例えば、更に、インスタンスが削除されたモデルサービスが必要とするコンピューティングリソース（例えば、プロセッサの種類とモデル）を含むことができ、これによって削除されたモデルサービスの全てのインスタンスを復元した後に、モデルサービスのオンライン推論機能を保証することができる。

前記人工知能開発プラットフォームは、単一クラスタであってもよいが、これに限定されない。これによって、後続にモデルサービスのインスタンスの展開を復元できるように、モデルサービスのインスタンスが削除された後にも、モデルサービスの生データ情報が前記クラスタに存在し、且つ前記クラスタに格納され続けることを保証することができる。

ＡＩ開発プラットフォームが単一クラスタである場合、モデルサービスの全てのインスタンスが削除されたことにレスポンスし、インスタンスが削除されたモデルサービスのバックエンドをトラフィック引受モジュールに切り替えることを直接実行することができ、前記トラフィック引受モジュールは、インスタンスが削除されたモデルサービスのモデル推論トラフィックを受信することに用いられる。

いくつかの実施例によれば、図３に示すように、前記管理方法は、更に、前記トラフィック引受モジュールがインスタンスが削除された前記少なくとも１つのモデルサービスのモデル推論トラフィックを受信したことにレスポンスし、前記少なくとも１つのモデルサービスに対するウェイクアップ操作をトリガーするステップＳ１０４を含むことができる。前記ウェイクアップ操作は、前記第１数のインスタンスが全部の起動が完成されるまでに、前記人工知能開発プラットフォームにおいて前記少なくとも１つのモデルサービスの前記第１数のインスタンスを復元し、且つ復元されたインスタンスの状態をポーリングすること、及び前記少なくとも１つのモデルサービスのバックエンドを復元された第１数のインスタンスに切り替え戻すこととを含むことができる。これによって、ユーザがインスタンスが削除されたモデルサービスを呼び出す時に、ＡＩ開発プラットフォームにおいてモデルサービスの全てのインスタンスを復元し、オンライン推論を実行する。そして、後続の当該モデルサービスの呼び出しを容易にし、当該モデルサービスのオンライン推論要求が遅延する問題を回避するように、削除されたモデルサービスの全てのインスタンスを復元した後に、モデルサービスのバックエンドをモデルサービスのインスタンスに切り替え戻す。

前記少なくとも１つのモデルサービスの前記プラットフォームアクセス層におけるルーティング構成が削除された場合、前記ウェイクアップ操作は、更に、前記少なくとも１つのモデルサービスに対応するルーティングルールを再構成することを含むことができる。これによって、アクセス層がインスタンスが復元された前記少なくとも１つのモデルサービスのモデル推論トラフィックを受信した時に、ルーティングルールに基づいてユーザとモデルサービスインスタンスとの接続を確立することができる。

１つの例示的実施例において、前記トラフィック引受モジュールは、複数のインスタンスを有することができ、且つ前記トラフィック引受モジュールの複数のインスタンス中の第１インスタンスが先ずインスタンスが削除された前記少なくとも１つのモデルサービスのモデル推論トラフィックを受信した時に、前記第１インスタンスが分散ロックリソースを取得して前記ウェイクアップ操作をトリガーする。前記第１インスタンスが前記分散ロックリソースを保持している時に、前記トラフィック引受モジュールの複数のインスタンス中の他のインスタンスが前記ウェイクアップ操作をトリガーすることを防止することができる。このように、分散ロックリソースを設けることで、インスタンスが削除されたモデルサービスを重複してウェイクアップすることを回避し、マシンリソースの無駄な使用を回避することができる。

本開示の技術手段は、モデルサービスの呼び出し情報に基づいてモデルサービスの呼び出しのアクティブレベルを決定し、ポリシールールを設定することにより、モデルサービスのアクティブレベルが所定の第１条件を満たすことにレスポンスし、少なくともモデルサービスの全てのインスタンスを削除することで、マシンリソースの利用効率を向上させ、プラットフォームに対するマシンリソース要件を減らすことができ、オンライン推論の機能を向上させることもできる。

上記のように、モデルサービスが呼び出されるアクティブレベルを表現できる呼び出し情報は、モデルサービスの作成時間と、モデルサービスにおける最近の呼び出し時間、所定の時間窓内の呼び出しの回数、所定の時間窓内の呼び出し時点の分布のうちの少なくとも１つの情報とを含むことができる。これによって、前記呼び出し情報に基づいてモデルサービスの呼び出しのアクティブレベルを決定することができる。

即ち、前記少なくとも１つのモデルサービスの呼び出し情報を取得するステップＳ１０１は、前記少なくとも１つのモデルサービスの作成時間を取得することと、前記少なくとも１つのモデルサービスにおける最近の呼び出し時間、所定の時間窓内の呼び出しの回数、所定の時間窓内の呼び出し時点の分布のうちの少なくとも１つの情報を取得することとを含むことができる。

いくつかの実施例によれば、前記少なくとも１つのモデルサービスの全てのインスタンスに関連するトラフィックログを分析することで、前記少なくとも１つのモデルサービスにおける最近の呼び出し時間、所定の時間窓内の呼び出しの回数及び所定の時間窓内の呼び出し時点の分布のうちの少なくとも１つの情報を取得する。例えば、プラットフォームアクセス層により前記少なくとも１つのモデルサービスの全てのインスタンスに関連するトラフィックログを取得し、トラフィックログを分析することにより前記少なくとも１つのモデルサービスの前記情報を取得することができる。前記少なくとも１つのモデルサービスの全てのインスタンスに関連するトラフィックログを取得することを定期的に実行することができ、例えば、当日に前日の前記少なくとも１つのモデルサービスの全てのインスタンスに関連するトラフィックログを取得する。プラットフォームアクセス層の全てのインスタンスのトラフィックログを集約し、ログ中の各推論トラフィック要求を解析し、各モデルサービスの呼び出し情報を取得することができる。プラットフォームアクセス層のトラフィックログによりＡＩ開発プラットフォームの全てのストックモデルサービスの全てのインスタンスの呼び出し情報を取得することができ、トラフィックログを解析することにより各ストックモデルサービスの呼び出し情報を取得し、呼び出し情報に基づいて各ストックモデルサービスの呼び出しアクティブレベルを決定することができる。

本開示の他の態様によれば、更に、人工知能開発プラットフォームシステムを提供する。図４に示すように、人工知能開発プラットフォームシステム１００は、複数のモデルサービスのインスタンスが展開され、且つ各モデルサービスが１つ又は複数のインスタンスを有するように構成されるクラウドサーバー１００１と、少なくとも１つのモデルサービスの呼び出し情報を取得するように構成される呼び出し情報収集モジュール１０１と、前記呼び出し情報に基づき、前記少なくとも１つのモデルサービスのアクティブレベルを確定するように構成される検出モジュール１０２と、決定されたアクティブレベルが第１条件を満たすことにレスポンスし、少なくとも前記少なくとも１つのモデルサービスの全てのインスタンスを削除するように構成される実行モジュール１０３とを含むことができる。これによって、マシンリソースの利用率を向上させる。

いくつかの実施例によれば、呼び出し情報収集モジュール１０１は、前記少なくとも１つのモデルサービスの作成時間を取得することと、前記少なくとも１つのモデルサービスの全てのインスタンスに関連するトラフィックログを分析することで、前記少なくとも１つのモデルサービスにおける最近の呼び出し時間、所定の時間窓内の呼び出しの回数及び所定の時間窓内の呼び出し時点の分布のうちの少なくとも１つの情報を取得することとを行うように構成することができる。なお、前記呼び出し情報は、更に、前記少なくとも１つのモデルサービスの呼び出しのアクティブレベルを表現できれば、その他の情報を含んでもよく、これに限定されない。

いくつかの実施例によれば、実行モジュール１０３は、更に、インスタンスが削除された前記少なくとも１つのモデルサービスが所定の時間内に呼び出されていると決定したことにレスポンスし、前記少なくとも１つのモデルサービスのプラットフォームアクセス層１０５におけるルーティング構成を削除するように構成されてもよい。これによって、トラフィックルーティングルール構成及び頻繁的なルーティングルールの変更によるプラットフォームアクセス層への負担を軽減することができ、オンライン推論サービスの機能を向上させる。

いくつかの実施例によれば、人工知能開発プラットフォームシステム１００は、更に、トラフィック引受モジュール１０４を含んでもよく、且つ決定されたアクティブレベルが第１条件を満たすことにレスポンスし、モジュール１０３は、更に、前記少なくとも１つのモデルサービスが前記人工知能開発プラットフォームシステムのクラスタ内に存在するかを決定することと、前記少なくとも１つのモデルサービスが前記クラスタ内に存在すると決定したことにレスポンスし、前記少なくとも１つのモデルサービスのバックエンドをトラフィック引受モジュール１０４に切り替えることとを行うように構成されてもよく、トラフィック引受モジュール１０４は、インスタンスが削除されたモデルサービスのモデル推論トラフィックを受信する。

いくつかの実施例によれば、実行モジュール１０３は、更に、前記少なくとも１つのモデルサービスの生データ情報を前記クラスタ内に格納し続けるように構成されてもよく、前記生データ情報は、インスタンスが削除された前に、前記少なくとも１つのモデルサービスがクラウドサーバー１００１に展開したインスタンスの第１数を少なくとも含む。これによって、インスタンスが削除されたモデルサービスが呼び出される時に、モデルサービスの全てのインスタンスを復元することができ、ユーザのオンライン推論要求に影響を与えない。

前記人工知能開発プラットフォームシステムは、単一クラスタであってもよいが、これに限定されない。これによって、モデルサービスのインスタンスを削除した後に、後続にモデルサービスのインスタンスの展開の復元を容易にするように、モデルサービスの生データ情報が前記クラスタ内に存在し、且つ継続して前記クラスタ内に格納され続けることを保証することができる。

いくつかの実施例によれば、人工知能開発プラットフォームシステム１００は、更に、サービスウェイクアップモジュール１０６を含んでもよく、サービスウェイクアップモジュール１０６は、トラフィック引受モジュール１０４がインスタンスが削除された前記少なくとも１つのモデルサービスのモデル推論トラフィックを受信したことにレスポンスし、前記第１数のインスタンスが全部の起動を完成するまでに、クラウドサーバー１００１において前記少なくとも１つのモデルサービスの前記第１数のインスタンスを復元し、且つ復元されたインスタンスの状態をポーリングすることと、前記少なくとも１つのモデルサービスのバックエンドを復元された第１数のインスタンスに切り替え戻すこととを行うように構成することができる。これによって、ユーザがインスタンスが削除されたモデルサービスを呼び出す時に、ＡＩ開発プラットフォームシステムのクラウドサーバーにおいてモデルサービスの全てのインスタンスを復元し、オンライン推論を実行する。そして、削除されたモデルサービスの全てのインスタンスを復元した後に、後続の当該モデルサービスの呼び出しを容易にするために、モデルサービスのバックエンドをモデルサービスのインスタンスに切り替え戻し、当該モデルサービスのオンライン推論要求が遅延する問題の発生を回避する。

前記少なくとも１つのモデルサービスの前記プラットフォームアクセス層におけるルーティング構成が削除された場合、サービスウェイクアップモジュール１０６は、更に、前記少なくとも１つのモデルサービスに対応するルーティングルールを再構成するように構成されてもよい。これによって、アクセス層が前記少なくとも１つのモデルサービスのモデル推論トラフィックを受信した時に、ルーティングルールに基づいてユーザとモデルサービスインスタンスとの接続を確立することができる。

１つの例示的実施例において、トラフィック引受モジュール１０４は、複数のインスタンスを含んでもよく、且つトラフィック引受モジュール１０４の複数のインスタンス中の第１インスタンスが先ずインスタンスが削除された前記少なくとも１つのモデルサービスのモデル推論トラフィックを受信した時に、前記第１インスタンス分散ロックリソースを取得して前記ウェイクアップ操作をトリガーし、前記第１インスタンスが前記分散ロックリソースを保持いている時に、前記トラフィック引受モジュールの複数のインスタンス中の他のインスタンスが前記ウェイクアップ操作をトリガーすることを防止することができる。これによって、分散ロックリソースを設けることで、インスタンスが削除されたモデルサービスを重複してウェイクアップすることを回避し、マシンリソースの無駄な使用を回避することができる。

本開示の他の態様によれば、更に、プロセッサ、プログラムを格納するメモリを備え、前記プログラムは、命令を含み、前記命令は、前記プロセッサにより実行される時に、前記プロセッサに上記の管理方法を実行させる電子装置を提供する。

本開示の他の態様によれば、更に、プログラムを格納するコンピュータ読み取り可能な記憶媒体を提供し、前記プログラムは、命令を含み、前記命令は、電子装置のプロセッサによって実行される時に、前記電子装置に上記の管理方法を実行させる。

図５に示すように、コンピューティング装置２０００は、本開示の各態様に利用可能なハードウェア装置（電子装置）の例である。コンピューティング装置２０００は、処理及び／又はコンピューティングを実行するように構成されたいずれの機械であってもよく、ワークステーション、サーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、パーソナルデジタルアシスタント、ロボット、スマートフォン、車載コンピュータ又はこれらのいずれの組み合わせであってもよいが、これらに限定されない。上記の管理方法の全部又は少なくとも一部は、コンピューティング装置２０００又はそれに類似する装置又はシステムにより実行することができる。

コンピューティング装置２０００は、（１つ又は複数のインターフェースを介して）バス２００２に接続され又はバス２００２と通信する素子を含んでもよい。例えば、コンピューティング装置２０００は、バス２００２、１つ又は複数のプロセッサ２００４、１つ又は複数の入力装置２００６及び１つ又は複数の出力装置２００８を含んでもよい。１つ又は複数のプロセッサ２００４は、いずれのタイプのプロセッサであってもよく、且つ１つ又は複数の汎用プロセッサ及び／又は１つ又は複数の専用プロセッサ（例えば特殊処理チップ）を含んでもよいが、これに限定されない。入力装置２００６は、コンピューティング装置２０００に情報を入力可能ないずれのタイプの装置であってもよく、且つマウス、キーボード、タッチスクリーン、マイクロフォン及び／又はリモコンを含んでもよいが、これらに限定されない。出力装置２００８は、情報を提示可能ないずれのタイプの装置であってもよく、且つディスプレイ、スピーカー、ビデオ／オーディオ出力端末、バイブレータ及び／又はプリンタを含んでもよいが、これらに限定されない。コンピューティング装置２０００は、更に、非一時的メモリ装置２０１０を含んでもよく、又は非一時的メモリ装置２０１０に接続されてもよく、非一時的メモリ装置は、非一時的あってもよく、且つデータの格納を実現するいずれのメモリ装置であってもよく、且つディスクドライブ、光学メモリ装置、ソリッドステートメモリ、フロッピィディスク、フレキシブルディスク、ハードディスク、テープ又はその他のいずれの磁気媒体、光ディスク又はその他のいずれの光学媒体、ＲＯＭ（読み出し専用メモリ）、ＲＡＭ（ランダムアクセスメモリ）、キャッシュメモリ及び／又はその他のいずれのメモリチップ又はカートリッジ、及び／又はコンピュータがデータ、命令及び／又はコードを読み取り可能なその他のいずれの媒体を含んでもよいが、これらに限定されない。非一時的メモリ装置２０１０は、インターフェースから取り外し可能であってもよい。非一時的メモリ装置２０１０は、上記の方法及びステップを実現するためのデータ／プログラム（命令を含む）／コードを有していてもよい。コンピューティング装置２０００は、更に、通信装置２０１２を含んでもよい。通信装置２０１２は、外部装置及び／又はネットワークと通信可能ないずれのタイプの装置又はシステムであってもよく、且つモデム、ネットワークカード、赤外線通信装置、無線通信装置及び／又はチップセットを含んでもよく、例えばブルートゥース（登録商標）装置、１３０２.１１装置、ＷｉＦｉ装置、ＷｉＭａｘ装置、セルラー通信装置及び／又は類似物であるが、これらに限定されない。

コンピューティング装置２０００は、更に、ワーキングメモリ２０１４を含んでもよく、当該プワーキングメモリ２０１４は、プロセッサ２００４の動作に有用なプログラム（命令を含む）及び／又はデータを格納可能ないずれのタイプのワーキングメモリでもよく、且つランダムアクセスメモリ及び／又は読み出し専用メモリを含むが、これらに限定されない。

ソフトウェア要素（プログラム）は、ワーキングメモリ２０１４に配置されてもよく、オペレーティングシステム２０１６、１つ又は複数のアプリケーションプログラム２０１８、ドライバープログラム及び／又はその他のデータ及びコードを含んでもよいが、これらに限定されない。上記の方法及びステップを実行するための命令は、１つ又は複数のアプリケーションプログラム２０１８に含まれていてもよく、且つ上記の管理方法は、プロセッサ２００４が１つ又は複数のアプリケーションプログラム２０１８の命令を読み取りして実行することによって実現することができる。より具体的に、上記の管理方法において、ステップＳ１０１～ステップＳ１０３は、例えば、プロセッサ２００４に、ステップＳ１０１～ステップＳ１０３の命令を有するアプリケーションプログラム２０１８を実行させることによって実現することができる。更に、上記の管理方法のその他のステップは、例えば、プロセッサ２００４に、対応するステップを実行するための命令を有するアプリケーションプログラム２０１８を実行させることによって実現することができる。ソフトウェア要素（プログラム）の命令の実行可能コードまたはソースコードは、非一時的なコンピュータ可読媒体（例えば、上記のメモリ装置２０１０）に格納されてもよく、且つ実行時にワーキングメモリ２０１４に（コンパイル及び／又はインストールされる可能性がある）格納されてもよい。ソフトウェア要素（プログラム）の命令の実行可能コードまたはソースコードは、リモートでダウンロードすることができる。

なお、具体的な要件に応じて様々な変更をすることができる。例えば、カスタムハードウェア、及び／又はハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語又はこれらのいずれの組み合わせを用いることで特定の素子を実現することができる。例えば、開示された方法及び装置の一部又は全部は、本開示の論理及びアルゴリズムを利用して、アセンブリ言語又はハードウェアアプログラミング言語（例えば、ＶＥＲＩＬＯＧ、ＶＨＤＬ、Ｃ++）でハードウェア（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）及び／又はプログラマブルロジックアレイ（ＰＬＡ）を含むプログラマブル論理回路）をプログラミングすることによって実現することができる。

なお、前記方法は、サーバ－クライアントモードにより実現することができる。例えば、クライアントは、ユーザが入力したデータを受信して前記データをサーバに送信することができる。クライアントは、ユーザが入力したデータを受信し、前記方法の一部の処理を行い、処理によって得られたデータをサーバに送信してもよい。サーバは、クライアントからのデータを受信し、前記方法又は前記方法の別の部分を実行し、実行結果をクライアントにフィードバックするようにしてもよい。クライアントは、サーバから方法の実行結果を受信し、例えば出力装置によりユーザに表示してもよい。

なお、コンピューティング装置２０００の構成要素は、ネットワークに分散されていてもよい。例えば、１つのプロセッサを用いていくつかの処理を実行し、同時に当該１つのプロセッサから離れた他のプロセッサにより他の処理を実行してもよい。コンピューティング装置２０００の他の構成要素も同じように分散されていてもよい。このように、コンピューティング装置２０００は、複数の場所で処理を実行する分散コンピューティングシステムと解釈してもよい。

本開示の実施例または例を添付の図面を参照して説明したが、上記の方法、システム、およびデバイスは、単なる例示的な実施例または例であり、本発明の範囲は、これらの実施例または例によって限定されるものではなく、登録された請求項及びそれに相当する範囲によって限定されるものである。実施例または例における様々な要素は、省略または同等の要素によって置き換え可能である。さらに、各ステップは、本開示に記載されている順序とは異なる順序で実行されてもよい。さらに、実施例または例における様々な要素は、様々な方法で組み合わせることができる。技術が進化するにつれて、本明細書に記載されている多くの要素を本開示の後に現れる同等の要素に置き換え可能である。

Claims

人工知能（ＡＩ）開発プラットフォームの管理方法であって、
前記ＡＩ開発プラットフォームには、複数のＡＩモデルサービスのインスタンスが展開され、且つ各ＡＩモデルサービスは、１つまたは複数のインスタンスを有し、前記管理方法は、
少なくとも１つのＡＩモデルサービスの全てのインスタンスの呼び出し情報を取得することと、
前記呼び出し情報に基づき、前記少なくとも１つのＡＩモデルサービスの呼び出しアクティブレベルを決定することと、
決定された呼び出しアクティブレベルが第１条件を満たすことにレスポンスし、前記ＡＩ開発プラットフォームのアクセス層における前記少なくとも１つのＡＩモデルサービスのルーティング構成を削除することなく、少なくとも前記少なくとも１つのＡＩモデルサービスの全てのインスタンスを削除することとを含む、ことを特徴とする管理方法。
インスタンスが削除された前記少なくとも１つのＡＩモデルサービスが所定の時間内に呼び出されていないと決定されたことにレスポンスし、前記ＡＩ開発プラットフォームのアクセス層における前記少なくとも１つのＡＩモデルサービスのルーティング構成を削除することを更に含む、ことを特徴とする請求項１に記載の管理方法。
少なくとも前記少なくとも１つのＡＩモデルサービスの全てのインスタンスを削除することは、
前記少なくとも１つのＡＩモデルサービスが前記人工知能開発プラットフォームのクラスタ内に存在しているかを決定することと、
前記少なくとも１つのＡＩモデルサービスが前記クラスタ内に存在すると決定したことにレスポンスし、前記少なくとも１つのＡＩモデルサービスのバックエンドをトラフィック引受モジュールに切り替えることとを含み、
前記トラフィック引受モジュールは、インスタンスが削除されたＡＩモデルサービスのモデル推論トラフィックを受信する、ことを特徴とする請求項２に記載の管理方法。
少なくとも前記少なくとも１つのＡＩモデルサービスの全てのインスタンスを削除することは、更に、
前記少なくとも１つのＡＩモデルサービスの生データ情報を前記クラスタ内に格納し続けることを含み、
前記生データ情報は、インスタンスが削除される前に、前記少なくとも１つのＡＩモデルサービスが前記人工知能開発プラットフォームに展開したインスタンスの第１数を含むことを特徴とする請求項３に記載の管理方法。
前記トラフィック引受モジュールが、インスタンスが削除された前記少なくとも１つのＡＩモデルサービスのモデル推論トラフィックを受信したことにレスポンスし、前記少なくとも１つのＡＩモデルサービスのウェイクアップ操作をトリガーし、前記ウェイクアップ操作は、
前記第１数のインスタンスの全部の起動を完成するまでに、前記人工知能開発プラットフォームにおいて前記少なくとも１つのＡＩモデルサービスの前記第１数のインスタンスを復元し、且つ復元されたインスタンスの状態をポーリングすることと、
前記少なくとも１つのＡＩモデルサービスのバックエンドを復元された第１数のインスタンスに切り替え戻すこととを更に含む、ことを特徴とする請求項４に記載の管理方法。
前記ＡＩ開発プラットフォームのアクセス層における前記少なくとも１つのＡＩモデルサービスのルーティング構成が削除された場合、前記ウェイクアップ操作は、更に、
前記少なくとも１つのＡＩモデルサービスに対応するルーティングルールを再構成することを含む、ことを特徴とする請求項５に記載の管理方法。
前記トラフィック引受モジュールは、複数のインスタンスを有し、
前記トラフィック引受モジュールの複数のインスタンス中の第１インスタンスが先ずインスタンスが削除された前記少なくとも１つのＡＩモデルサービスのモデル推論トラフィックを受信した時に、前記第１インスタンスは分散ロックリソースを取得して前記ウェイクアップ操作をトリガーし、
前記第１インスタンスが前記分散ロックリソースを保持している時に、前記トラフィック引受モジュールの複数のインスタンス中の他のインスタンスが前記ウェイクアップ操作をトリガーすることを防止することができる、ことを特徴とする請求項５又は６に記載の管理方法。
前記少なくとも１つのＡＩモデルサービスの呼び出し情報を取得することは、
前記少なくとも１つのＡＩモデルサービスの作成時間を取得することと、
前記少なくとも１つのＡＩモデルサービスの全てのインスタンスに関連するトラフィックログを分析することで、前記少なくとも１つのＡＩモデルサービスにおける最近の呼び出し時間、所定の時間窓内の呼び出しの回数、所定の時間窓内の呼び出し時点の分布のうちの少なくとも１つの情報を取得することとを含む、ことを特徴とする請求項１に記載の管理方法。
前記人工知能開発プラットフォームは、単一クラスタである、ことを特徴とする請求項１の管理方法。
人工知能（ＡＩ）開発プラットフォームシステムであって、
１つ又は複数のインスタンスを有する複数のＡＩモデルサービスのインスタンスが展開されているように構成されるクラウドサーバーと、
少なくとも１つのＡＩモデルサービスの全てのインスタンスの呼び出し情報を取得するように構成される呼び出し情報収集モジュールと、
前記呼び出し情報に基づき、前記少なくとも１つのＡＩモデルサービスの呼び出しアクティブレベルを決定するように構成される検出モジュールと、
決定された呼び出しアクティブレベルが第１条件を満たすことにレスポンスし、前記ＡＩ開発プラットフォームのアクセス層における前記少なくとも１つのＡＩモデルサービスのルーティング構成を削除することなく、少なくとも前記少なくとも１つのＡＩモデルサービスの全てのインスタンスを削除するように構成される実行モジュールとを含む、ことを特徴とする人工知能開発プラットフォームシステム。
前記実行モジュールは、更に、インスタンスが削除された前記少なくとも１つのＡＩモデルサービスが所定の時間内に呼び出されていないと決定されたことにレスポンスし、前記ＡＩ開発プラットフォームのアクセス層における前記少なくとも１つのＡＩモデルサービスのルーティング構成を削除するように構成される、ことを特徴とする請求項１０に記載の人工知能開発プラットフォームシステム。
前記人工知能開発プラットフォームシステムは、更に、トラフィック引受モジュールを含み、且つ、
決定されたアクティブレベルが第１条件を満たすことにレスポンスし、前記実行モジュールは、更に、
前記少なくとも１つのＡＩモデルサービスが前記人工知能開発プラットフォームシステムのクラスタ内に存在するかを決定し、
前記少なくとも１つのＡＩモデルサービスが前記クラスタ内に存在すると決定されたことにレスポンスし、前記少なくとも１つのＡＩモデルサービスのバックエンドを前記トラフィック引受モジュールに切り替えるように構成され、
前記トラフィック引受モジュールは、インスタンスが削除されたＡＩモデルサービスのモデル推論トラフィックを受信する、ことを特徴と請求項１１に記載の人工知能開発プラットフォームシステム。
前記実行モジュールは、更に、
前記少なくとも１つのＡＩモデルサービスの生データ情報を前記クラスタ内に格納し続けるように構成され、
前記生データ情報は、前記少なくとも１つのＡＩモデルサービスのインスタンスが削除される前に前記クラウドサーバーに展開したインスタンスの第１数を少なくとも含む、ことを特徴とする請求項１２に記載の人工知能開発プラットフォームシステム。
前記人工知能開発プラットフォームシステムは、更に、サービスウェイクアップモジュールを含み、
前記サービスウェイクアップモジュールは、
前記トラフィック引受モジュールがインスタンスが削除された前記少なくとも１つのＡＩモデルサービスのモデル推論トラフィックを受信したことにレスポンスし、前記第１数のインスタンスの全部の起動を完成するまでに、前記クラウドサーバーにおいて前記少なくとも１つのＡＩモデルサービスの前記第１数のインスタンスを復元し、且つ復元されたインスタンスの状態をポーリングし、
前記少なくとも１つのＡＩモデルサービスのバックエンドを復元された第１数のインスタンスに切り替え戻すように構成される、ことを特徴とする請求項１３に記載の人工知能開発プラットフォームシステム。
前記ＡＩ開発プラットフォームのアクセス層における前記少なくとも１つのＡＩモデルサービスのルーティング構成が削除された場合、前記サービスウェイクアップモジュールは、更に、前記少なくとも１つのＡＩモデルサービスに対応するルーティングルールを再構成するように構成される、ことを特徴とする請求項１４に記載の人工知能開発プラットフォームシステム。
前記トラフィック引受モジュールは、複数のインスタンスを有し、
前記トラフィック引受モジュールの複数のインスタンス中の第１インスタンスが先ずインスタンスが削除された前記少なくとも１つのＡＩモデルサービスのモデル推論トラフィックを受信した時に、前記第１インスタンスは分散ロックリソースを取得してウェイクアップ操作をトリガーし、
前記第１インスタンスが前記分散ロックリソースを保持している時に、前記トラフィック引受モジュールの複数のインスタンス中の他のインスタンスが前記ウェイクアップ操作をトリガーすることを防止することができる、ことを特徴とする請求項１４又は１５に記載の人工知能開発プラットフォームシステム。
前記呼び出し情報収集モジュールは、前記少なくとも１つのＡＩモデルサービスの作成時間を取得し、前記少なくとも１つのＡＩモデルサービスの全てのインスタンスに関連するトラフィックログを分析することで、前記少なくとも１つのＡＩモデルサービスにおける最近の呼び出し時間、所定の時間窓内の呼び出しの回数、所定の時間窓内の呼び出し時点の分布のうちの少なくとも１つの情報を取得するように構成される、ことを特徴とする請求項１０に記載の人工知能開発プラットフォームシステム。
プロセッサと、プログラムを格納するメモリとを備え、
前記プログラムは、命令を含み、前記命令は、前記プロセッサにより実行される時に、前記プロセッサに請求項１～９のいずれか１項に記載の管理方法を実行させる、ことを特徴とする電子装置。
プログラムが格納されるコンピュータ可読記憶媒体であって、前記プログラムが、命令を含み、
前記命令は、電子装置のプロセッサにより実行される時に、前記電子装置に、請求項１～９のいずれか１項に記載の管理方法を実行させる、ことを特徴とするコンピュータ可読記憶媒体。
コンピュータ可読記憶媒体に格納されるコンピュータプログラムであって、前記コンピュータプログラムが命令を含み、
前記命令は、少なくとも一つのプロセッサにより実行される時に、請求項１～９のいずれか１項に記載の管理方法を実現させる、ことを特徴とするコンピュータプログラム。