JP2019528502A - パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイス - Google Patents

パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイス Download PDF

Info

Publication number
JP2019528502A
JP2019528502A JP2018566575A JP2018566575A JP2019528502A JP 2019528502 A JP2019528502 A JP 2019528502A JP 2018566575 A JP2018566575 A JP 2018566575A JP 2018566575 A JP2018566575 A JP 2018566575A JP 2019528502 A JP2019528502 A JP 2019528502A
Authority
JP
Japan
Prior art keywords
algorithm
model
terminal device
universal model
universal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018566575A
Other languages
English (en)
Other versions
JP6806412B2 (ja
Inventor
ワン、シヨン
ジアン、ホンルイ
カオ、フアジュン
Original Assignee
ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ホアウェイ・テクノロジーズ・カンパニー・リミテッド filed Critical ホアウェイ・テクノロジーズ・カンパニー・リミテッド
Publication of JP2019528502A publication Critical patent/JP2019528502A/ja
Application granted granted Critical
Publication of JP6806412B2 publication Critical patent/JP6806412B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Stored Programmes (AREA)

Abstract

本発明の実施形態は、パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイスに関する。端末デバイスは、サーバにより供給されたユニバーサルモデルを受信する。ユニバーサルモデルは、元の特徴パラメータを含み、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、モデル最適化条件が満たされた場合、第1のトレーニングアルゴリズムを用いることにより元の特徴パラメータを補正して、新しい特徴パラメータを取得し、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する。つまり、本発明において、端末デバイスはさらに、収集したローカルサンプルに従って、サーバから受信したユニバーサルモデルを最適化して、パターン認識に適用可能な相対的にパーソナライズされたモデルを取得する。従って、ユーザエクスペリエンスが改善されるのみならず、サーバがユニバーサルモデルを最適化する場合に存在するサーバの大演算量という課題も解決される。

Description

本発明は、コンピュータ技術の分野に関し、特に、パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイスに関する。
既存の端末デバイス(例えば、スマートフォン、(Smart Phone、SP))は通常、汎用演算ユニットを用いることにより、様々なアルゴリズム命令を実行する。汎用演算ユニットは通常、高度縮小命令セットコンピュータ(Reduced Instruction Set Computer、RISC)マシン(Advanced RISC Machines、ARM)システムアーキテクチャ、例えば、中央処理ユニット(Central Processing Unit、CPU)を用いる。このシステムアーキテクチャでは、複数のスレッドを用いてアルゴリズム命令が同時に実行された場合、消費電力が極めて高くなる。これは、バッテリ充電式の端末デバイスにとって許容できないことである。単一のスレッドを用いてアルゴリズム命令が実行された場合、処理能力は、大演算量の要件を満たし得ない。例えば、音声認識およびコンピュータビジョンなどの分野では、パターン認識に適用可能なモデルのトレーニングプロセス(例えば、音響モデルのトレーニング)において、極めて大きい演算量が必要である。しかしながら、端末デバイスの消費電力が限定されるので、または大演算量の要件が満たされ得ないので、モデルトレーニングは通常、従来技術ではクラウドにおいて実行され、次に、音声、画像、ビデオ等を認識するために、モデルが端末デバイスへプッシュされる。
しかしながら、パターン認識に適用可能なモデルがクラウドにおいてトレーニングされる場合、トレーニングは通常、少なくとも1つの端末デバイスによりアップロードされたサンプル(例えば、音声ファイル、顔画像またはビデオファイル)に従って実行されるので、取得されるモデルは汎用的である。例えば、音声認識が実行される場合、全てのユーザの音声がモデルを用いて認識され得、特定のユーザの音声については、認識は実行されない。つまり、モデルは、パーソナライズされた特徴を有さない。しかしながら、ユーザは、端末デバイスがユーザの音声のみを認識し得、別のユーザの音声を認識しないか、または十分に認識し得ないことを想定している。つまり、ユーザは、相対的にパーソナライズされたモデルをトレーニングすることを望んでいる。従って、パターン認識に適用可能なモデルを最適化するという要件が課される。
本発明の実施形態は、相対的にパーソナライズされたモデルを取得し、サーバの演算量を低減するようにパターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイスを提供する。
第1の態様によれば、パターン認識に適用可能なモデルを最適化するための方法が提供される。方法は、端末デバイスが、サーバにより供給されたユニバーサルモデルを受信する段階であって、ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得され、ユニバーサルモデルは、元の特徴パラメータを含む、段階と、ユニバーサルモデルを用いてターゲット情報を認識し、複数のローカルサンプルを収集する段階と、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである第1のトレーニングアルゴリズムとに従って、新しい特徴パラメータを取得する段階と、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する段階とを含む。
ユニバーサルモデルを用いることによりターゲット情報を認識する処理において相対的にパーソナライズされたモデルを取得するために、端末デバイスは、ローカルサンプルを収集し続け得る。ローカルサンプルは、ユニバーサルモデルを最適化する処理において端末デバイスにより用いられるので、端末デバイスは、ローカルサンプルを収集した後、ローカルサンプルをローカルにのみ記憶し、ローカルサンプルをサーバにアップロードする必要はない。従って、端末デバイスがサンプルをサーバにアップロードするために消費するトラフィックが節約され得る。加えて、ユニバーサルモデルは、サーバにより、少なくとも1つの端末デバイスによりアップロードされた数億個のサンプルまたは数十億個のサンプルに従って取得されるので、ユニバーサルモデルを用いることにより情報を認識する確度は、相対的に高い。次に、ユニバーサルモデルは、相対的にパーソナライズされたモデルを取得するために最適化される。従って、端末デバイスの演算量が低減され得るのみならず、特定のユーザの情報を認識する確度も改善され得る。
任意選択の実装形態において、モデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含み得る。
任意選択の実装形態において、第1のトレーニングアルゴリズムは、隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズムのうちの1または複数を含み得る。
第2の態様によれば、パターン認識に適用可能なモデルを最適化するための装置が提供される。装置は、前述の方法における端末デバイスの動作を実装する機能を有する。機能は、ハードウェアを用いることにより実装され得るか、または、対応するソフトウェアをハードウェアが実装することにより実装され得る。ハードウェアまたはソフトウェアは、前述の機能に対応する1または複数のモジュールを含む。
第3の態様によれば、端末デバイスが提供される。端末デバイスは、送受信機と、処理回路とを含む。送受信機は、サーバにより供給されたユニバーサルモデルを受信するように構成される。ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得される。ユニバーサルモデルは、元の特徴パラメータを含む。処理回路は、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである第1のトレーニングアルゴリズムとに従って、新しい特徴パラメータを取得し、かつ、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される。
さらに別の態様によれば、コンピュータ記憶媒体が提供される。コンピュータ記憶媒体は、前述の端末デバイスにより用いられるコンピュータソフトウェア命令を記憶するように構成される。コンピュータソフトウェア命令は、前述の態様を実行するよう設計されたプログラムを含む。
本発明の実施形態は、パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイスを提供する。端末デバイスは、サーバにより供給されたユニバーサルモデルを受信する。ユニバーサルモデルは、元の特徴パラメータを含み、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、モデル最適化条件が満たされた場合、第1のトレーニングアルゴリズムを用いることにより元の特徴パラメータを補正して、新しい特徴パラメータを取得し、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する。つまり、本発明において、端末デバイスはさらに、収集したローカルサンプルに従って、サーバから受信したユニバーサルモデルを最適化して、パターン認識に適用可能な相対的にパーソナライズされたモデルを取得する。従って、ユーザエクスペリエンスが改善されるのみならず、サーバがユニバーサルモデルを最適化する場合に存在する、サーバの大演算量という課題も解決される。
本発明によるネットワークの概略構造図である。
本発明の実施形態によるパターン認識に適用可能なモデルを最適化する方法のフローチャートである。
本発明による第1のトレーニングアルゴリズムのトレーニングプロセスの概略図である。
本発明の別の実施形態によるパターン認識に適用可能なモデルを最適化するための装置の概略図である。
本発明のさらに別の実施形態による端末デバイスの概略図である。
以下では、添付図面および実施形態を参照して、本発明の技術的解決手段をさらに詳細に説明する。
本発明の実施形態によるパターン認識に適用可能なモデルを最適化するための方法が、図1に示されるネットワークトポロジの構造図に適用される。図1において、サーバが端末デバイスとのデータ通信を実行し得る。具体的には、サーバは、少なくとも1つの端末デバイスによりアップロードされたサンプルを受信し得る。サンプルは、音声ファイル、画像ファイルおよびビデオファイルを含むが、それらに限定されない。例えば、端末デバイスは、以下の態様で音声ファイルを収集し得る。端末デバイスは、ユーザが通話中である場合に端末デバイスのソフトウェアを記録することにより記録される音声ファイルを収集し得、ユーザがインスタントメッセージソフトウェアを用いることにより音声チャットを行っている場合に端末デバイスにより記録される音声ファイルを収集し得るか、または、ユーザの音声信号が受信され得る別のシナリオにおいて記録される音声ファイルを収集し得る。別の例では、端末デバイスは、以下の態様で画像ファイルおよびビデオを収集し得る。端末デバイスは、ユーザが写真またはビデオを撮るか、または、端末デバイスがアプリケーションソフトウェア(例えば、Weibo、WeChatのモーメンツおよびQzone)等から画像ファイルまたはビデオを取得し得る場合に端末デバイスにより記録される画像ファイルまたはビデオを収集し得る。代替的に、サーバは、サンプルを収集し得る。
図1において、サーバは、少なくとも1つの端末デバイスにより送信された十分なサンプル(例えば、数億個または数十億個のサンプル)を受信した後にまず、サンプルを前処理し(サンプルに対する前処理は、分類処理、アノテーション情報の追加などの処理を含み得る)、次に、サンプルに従ってユニバーサルモデルを取得する。具体的には、ユニバーサルモデルは、サンプルに従ってトレーニングアルゴリズムをトレーニングすることにより取得され得る。サンプルが本明細書における音声ファイルである場合、取得されたユニバーサルモデルは、音声認識アルゴリズムであり得、ユニバーサルモデルは、音声情報(または音声信号と称される)を認識するために用いられ得る。 サンプルが画像ファイルである場合、取得されたユニバーサルモデルは、画像認識モデルであり得、ユニバーサルモデルは、画像情報を認識するために用いられ得る。代替的に、サンプルがビデオファイルである場合、取得されたユニバーサルモデルは、ビデオ認識モデルであり得、ユニバーサルモデルは、ビデオ情報を認識するために用いられ得る。
トレーニングアルゴリズムは、隠れマルコフモデル(Hidden Markov Model、HMM)、トレーニングアルゴリズム、前向きアルゴリズム(Forward Algorithm)、ビタビアルゴリズム(Viterbi Algorithm)、前向き後ろ向きアルゴリズム(Forward−Backward Algorithm)、期待値最大化(Expectation Maximization、EM)アルゴリズム、ディープニューラルネットワーク(Deep Neural Network、DNN)、学習アルゴリズム、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、学習アルゴリズムおよび再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)学習アルゴリズムを含むが、それらに限定されない。加えて、取得されたユニバーサルモデルは、1または複数の元の特徴パラメータ含み得る。一例において、ユニバーサルモデルは、音声認識アルゴリズムであり、元の特徴パラメータは、音声パラメータであるか、または音響モデルパラメータと称され、元の特徴パラメータは、メル周波数ケプストラム係数(Mel Frequency Coefficient、MFCC)パラメータおよびピッチ周波数パラメータを含み得るが、それらに限定されない。一例において、ユニバーサルモデルは、画像認識モデルであり。元の特徴パラメータは、画像パラメータであるか(または画像モデルパラメータと称され)、元の特徴パラメータは、色、テクスチャおよび形状などのパラメータを含み得るが、それらに限定されない。
図1における端末デバイスは、専用デジタル信号プロセッサ(Digital Signal Process、DSP)チップまたはニューラル処理ユニット(Neural Processing Unit、NPU)チップを有し得、チップは、ニューラルネットワークの大演算量要件を満たし得る。代替的に、本発明における端末デバイスは、大量のデータを演算する能力(例えば、行列の乗算または加算を実装する演算能力)を有する。端末デバイスは、携帯電話、モバイルコンピュータ、タブレットコンピュータ、携帯情報端末(Personal Digital Assistant、PDA)、メディアプレーヤ、スマートテレビ、スマートウォッチ、スマートグラスまたはスマートバンドを含むが、それらに限定されない。
概して、各端末デバイスは、1人の固定ユーザにより用いられる、つまり、各端末デバイスは、1人の特定のユーザに対応し得ることが理解され得る。従って、端末デバイスにより収集されるサンプルは通常、特定のユーザの個人的な特徴に関連する。しかしながら、サーバが、少なくとも1つの端末デバイスによりアップロードされたサンプルに従ってユニバーサルモデルを取得する場合、ユニバーサルモデルは、全てのユーザの情報(音声情報、画像情報およびビデオ情報を含む)を認識し得る。つまり、ユニバーサルモデルは、相対的に良好な汎用性を有する。しかしながら、ユニバーサルモデルが端末デバイスに供給され、端末デバイスがユニバーサルモデルを用いて対応する特定のユーザの情報を認識する場合、ユニバーサルモデルを用いることにより特定のユーザの情報を認識する回数および特定のユーザの情報を認識している期間に拘らず、特定のユーザの情報の認識確度は、改善され得ない。つまり、サーバにより取得されるユニバーサルモデルは、パーソナライズされた特徴を有していない。しかしながら、ユーザエクスペリエンスを改善するために、端末デバイスが特定のユーザの情報を認識する確度を改善することが通常は期待され、端末デバイスは、別のユーザの情報を認識し得ない。従って、サーバにより供給されるユニバーサルモデルは、最適化される必要がある。
図2は、本発明の実施形態による、パターン認識に適用可能なモデルを最適化するための方法のフローチャートである。方法は、端末デバイスにより実行され得る。図2に示されるように、方法は、具体的には、以下の段階を含み得る。
段階210:端末デバイスが、サーバにより供給されたユニバーサルモデルを受信する。
上述のように、ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得される。ユニバーサルモデルは、1または複数の元の特徴パラメータを含み得る。一例において、複数の元の特徴パラメータが存在する場合、複数の元の特徴パラメータは、管理を容易にするために、第1行列に記憶され得る。
段階220:ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集する。
本明細書において、ターゲット情報は、音声情報、画像情報およびビデオ情報を含むが、それらに限定されない。具体的には、本明細書におけるユニバーサルモデルが音声認識アルゴリズムである場合、ユーザにより入力される音声情報は、音声情報に対応するテキストを取得するために、音声認識アルゴリズムを用いることにより認識され得る。本明細書におけるユニバーサルモデルが画像認識モデルである場合、画像情報は、画像認識モデルを用いることにより認識され得。本明細書における画像情報は、顔画像とオブジェクトを含む画像とを含むが、それらに限定されない。本明細書におけるユニバーサルモデルがビデオ認識モデルである場合、ビデオ情報は、ビデオ認識モデルを用いることにより認識され得、本明細書におけるビデオ情報は、画像情報を含む。
ユニバーサルモデルを用いることによりターゲット情報を認識する処理において相対的にパーソナライズされたモデルを取得するために、端末デバイスは、ローカルサンプルを収集し続け得ることに留意すべきである。ローカルサンプルは、ユニバーサルモデルを最適化する処理において端末デバイスにより用いられるので、端末デバイスは、ローカルサンプルを収集した後、ローカルサンプルをローカルにのみ記憶し、ローカルサンプルをサーバにアップロードする必要はない。従って、端末デバイスがサンプルをサーバにアップロードするために消費するトラフィックが節約され得る。ローカルサンプルは、音声ファイル、画像ファイルおよびビデオファイルを含み得るが、それらに限定されない。
段階230:モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得する。第1のトレーニングアルゴリズムは、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである。
本明細書におけるモデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含み得る。
例えば、ローカルサンプルの数が予め設定された数に達していることは、収集された音声ファイル、画像ファイルまたはビデオファイルの数が5000個を超えているということであり得る。例えば、現在時刻が予め設定された時刻に達していることは、現在時刻が12:00P.M.を超えているということであり得る。例えば、端末デバイスが予め設定された状態であることは、端末デバイスが充電状態であるか、または待機状態であるということであり得る。例えば、端末デバイスの属性値が予め設定された閾値に達していることは、端末デバイスのバッテリレベルが80%を超えているか、または端末デバイスの温度が25度よりも低いということであり得る。
加えて、第1のトレーニングアルゴリズムは、サーバによりユニバーサルモデルを取得するために用いられるトレーニングアルゴリズムと一致し得る。例えば、サーバがディープラーニングアルゴリズムおよびサンプルに従ってユニバーサルモデルを取得する場合、端末デバイスは、ディープラーニングアルゴリズムに従って、ユニバーサルモデルにおける元の特徴パラメータも補正し得る。
例えば、第1のトレーニングアルゴリズムがディープラーニングアルゴリズムである場合、ユニバーサルモデルにおける元の特徴パラメータを補正するための方法が、図3に示され得る。図3において、ディープラーニングアルゴリズムは、入力層、隠れ層および出力層という3つの層を含む。入力層は、入力データを入力するために用いられる。本明細書における入力データは、元の特徴パラメータおよびローカルサンプルを含む。入力層は、「○」(ノードと称される)という1つの列を含み得、各ノードは、1個の入力データを入力するように構成される。例えば、元の特徴パラメータがa, a,…aであり、n≧1である。つまり、n個の元の特徴パラメータが存在し、n個の元の特徴パラメータおよびローカルサンプルは、ディープラーニングアルゴリズムの入力層で入力され得る。隠れ層は、入力層で入力されたn個の元の特徴パラメータをローカルサンプルに従って補正するために用いられる。補正は具体的には、入力データへの対応する演算を実行することにより実装される。図3において、隠れ層におけるk番目の列の各ノードは、入力データに対するk番目の演算が実行された後に取得された結果を示すために用いられている。任意の列の各ノードは、任意の列の前の列の全てのノードの線形結合に従って決定され、例えば、隠れ層における第1列の各ノードは、入力データに対する初回の演算が実行された後に取得された、対応する結果を示す。隠れ層における第1列のj番目のノードがy2jと示され得、y2jの演算式が
であり得ると仮定する。x1iは入力データのi番目の部分を示し、ωおよびbは経験値に従って設定され得、fは自律的に選択され得る。出力層は、演算後に取得された入力データを出力するために用いられ、出力層は、「○」という1つの列を含み得、各ノードは、演算後に取得された1個の入力データを出力するように、例えば、1個の新しい特徴パラメータを出力するように構成される。出力された全ての新しい特徴パラメータがb, b,…bであり得ると仮定する。m≧n、つまり、新しい特徴パラメータの数は、元の特徴パラメータの数よりも大きいか、または等しい。一例において、出力層で出力された新しい特徴パラメータは、第2行列に記録され得る。
元の特徴パラメータを補正するために端末デバイスにより用いられるトレーニングアルゴリズムは、ユニバーサルモデルを取得するためにサーバにより用いられるトレーニングアルゴリズムと一致するが、端末デバイスにより収集されるローカルサンプルの数が数千個のみであるのに対し、少なくとも1つの端末デバイスによりアップロードされ、サーバにより受信されるサンプルの数は数億個または数十億個なので、サーバの演算量は、端末デバイスの演算量よりもはるかに大きいことが理解され得る。
加えて、図3において、入力層で入力されたサンプルは、ローカルサンプルである。例えば、音声認識アルゴリズムにおける元の特徴パラメータが補正される場合、入力層で入力されたローカルサンプルは、端末デバイスに対応する特定のユーザの音声ファイルであり、別のユーザの音声ファイルは入力されない。従って、出力層で出力された新しい特徴パラメータは、パーソナライズされた特徴を有する、つまり、特定のユーザの音声情報は、新しい特徴パラメータに従ってユニバーサルモデルが最適化された後、より良好に認識され得、別のユーザの音声情報は、認識され得ないか、または十分に認識され得ない。別の例では、画像認識モデルにおける元の特徴パラメータが補正される場合、入力層で入力されたローカルサンプルは、特定のユーザの顔画像であり得、別のユーザの顔画像は入力されない。従って、出力層で出力された新しい特徴パラメータは、パーソナライズされた特徴を有する、つまり、特定のユーザの画像情報は、ユニバーサルモデルが新しい特徴パラメータに従って最適化された後、より良好に認識され得る。
加えて、端末デバイスは、HMMトレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、EMアルゴリズム、DNN学習アルゴリズム、CNN学習アルゴリズムまたはRNN学習アルゴリズムに従って、ユニバーサルモデルにおける元の特徴パラメータをさらに補正し得る。
本発明における相対的に高い精度のパーソナライズされたモデルを取得するために、つまり、特定のユーザの情報を認識する確度を改善するために、ユニバーサルモデルは、新しい特徴パラメータに従って最適化され得る。
段階240:第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する。
相対的に高い精度のパーソナライズされたモデルを取得するために、サーバから受信されたユニバーサルモデルは、最適化され得る。本明細書における第2のトレーニングアルゴリズムは、ベイズ統計モデリングアルゴリズムおよびベクトルマシンモデリングアルゴリズムを含み得るが、それらに限定されない。
上述のように、ユニバーサルモデルにおける元の特徴パラメータは、第1行列に記憶され得、取得された新しい特徴パラメータは、第2行列に記憶され得る。一例において、第1行列は、3000次元(つまり、n=3000)の行列であり得、第2行列は、9000次元(つまり、m=9000)の行列であり得る。第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化する処理は具体的には、以下のことを含み得る。第1行列および第2行列は、ターゲット行列を取得するために加算または乗算される。ターゲット行列は、最適化されたユニバーサルモデルにおける特徴パラメータを含む。ユニバーサルモデルにおける元の特徴パラメータは、次に、最適化されたユニバーサルモデルにおける特徴パラメータで置換される。従って、最適化されたユニバーサルモデルが取得され得る。第1行列および第2行列が加算または乗算される前は、第1行列および第2行列が異なる数の次元を有するので、2つの行列の次元の数は、「0」を追加することにより均一化され得ることが理解され得る。前述の例において、第1行列は、「0」を追加することにより9000次元の行列へ展開され得、次に、第1行列および第2行列は、加算または乗算される。
当然ながら、実際の応用中、2つの行列の次元の数は、代替的に、別の方式で均一化され得る。これは、本願において限定されない。例えば、MATLABでは、「非数値」を加算する方式が用いられ得る。「非数値」は、実際の意味を有しない値を示すために用いられる。具体的には、MATLABにおいて「非数値」が処理される場合、「非数値」はスキップされ、処理は実行されない。
当然ながら、例は、前述の記載において、ユニバーサルモデルを最適化する方式を説明するためにのみ用いられており、本発明に限定を課さない。ユニバーサルモデルを最適化する方式は、用いられる第2のトレーニングアルゴリズムに従って決定され得、本発明において列挙されない。
段階210から段階230は、ユニバーサルモデルを一度に最適化する処理に過ぎず、当業者であれば、段階210から段階230を継続的に繰り返し実行し得る、つまり、特定のユーザの情報を認識する確度は、特定のユーザのパーソナライズされた情報をユニバーサルモデルと継続的に組み合わせることにより改善され得ることに留意すべきである。
結論として、本発明における端末デバイスは、まず、サーバにより供給されたユニバーサルモデルを受信し、次に、ユニバーサルモデルを最適化して、相対的にパーソナライズされたモデルを取得する。本明細書において、ユニバーサルモデルは、サーバにより、少なくとも1つの端末デバイスによりアップロードされた数億個のサンプルまたは数十億個のサンプルに従って取得されるので、ユニバーサルモデルを用いることにより情報を認識する確度は、相対的に高い。従って、端末デバイスの演算量が低減され得るのみならず、特定のユーザの情報を認識する確度も改善され得る。
パターン認識に適用可能なモデルを最適化するための方法に対応して、本願の実施形態は、パターン認識に適用可能なモデルを最適化するための装置をさらに提供する。図4に示されるように、装置は、受信ユニット401と、処理ユニット402と、取得ユニット403と、最適化ユニット404とを含む。
受信ユニット401は、サーバにより供給されたユニバーサルモデルを受信するように構成される。ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得され、ユニバーサルモデルは、元の特徴パラメータを含む。
処理ユニット402は、受信ユニット401により受信されたユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集するように構成される。
取得ユニット403は、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得するように構成される。第1のトレーニングアルゴリズムは、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである。
モデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含む。
加えて、第1のトレーニングアルゴリズムは、隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズムのうちの1または複数を含む。
最適化ユニット404は、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される。
本発明の本実施形態において提供される、パターン認識に適用可能なモデルを最適化するための装置によれば、受信ユニット401は、サーバにより供給されたユニバーサルモデルを受信し、処理ユニット402は、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、取得ユニット403は、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得し、最適化ユニット404は、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する。従って、ユーザエクスペリエンスが改善されるのみならず、サーバがユニバーサルモデルを最適化する場合に存在する、サーバの大演算量という課題も解決される。
パターン認識に適用可能なモデルを最適化するための方法に対応して、本願の実施形態は、端末デバイスをさらに提供する。図5に示されるように、端末デバイスは、送受信機510と処理回路520とを含み、任意でメモリ530をさらに含み得る。処理回路520は、プロセッサ521と、無線周波数回路522と、ベースバンド523とを含み得る。
プロセッサ521は、NPU、専用DSP、NPUおよびハードウェアチップの組み合わせ、または専用DSPおよびハードウェアチップの組み合わせを含み得る。NPUまたは専用DSPは、演算能力を提供し、例えば、行列の乗算処理または加算処理を実装し得る。加えて、ハードウェアチップは、特定用途向け集積回路(英語:application−specific integrated circuit、ASIC)、プログラマブル論理デバイス(英語:programmable logic device、PLD)またはそれらの組み合わせであり得る。PLDは、複雑プログラマブル論理デバイス(英語:complex programmable logic device、CPLD)、フィールドプログラマブルゲートアレイ(英語:field−programmable gate array、FPGA)、ジェネリックアレイロジック(英語:generic array logic、GAL)またはそれらの任意の組み合わせであり得る。加えて、プロセッサ521は、グラフィック処理ユニット(Graphics Processing Unit、GPU)をさらに含み得る。
メモリ530は、揮発性メモリ(英語:volatile memory)、例えば、ランダムアクセスメモリ(英語:random−access memory、RAM)を含み得る。メモリ530は、不揮発性メモリ(英語:non−volatile memory)、例えば、リードオンリメモリ(英語:read−only memory、ROM)、フラッシュメモリ(英語:flash memory)、ハードディスクドライブ(英語:hard disk drive、HDD)またはソリッドステートドライブ(英語:solid−state drive、SSD)をさらに含み得る。」メモリ530は、前述のメモリの組み合わせをさらに含み得る。
送受信機510は、サーバにより供給されたユニバーサルモデルを受信するように構成される。ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得され、ユニバーサルモデルは、元の特徴パラメータを含む。
処理回路520は、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集するように構成される。
処理回路520はさらに、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得するように構成される。第1のトレーニングアルゴリズムは、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである。
モデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含む。
加えて、第1のトレーニングアルゴリズムは、隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズムのうちの1または複数を含む。
処理回路520はさらに、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される。
本発明の本実施形態において提供されるモデルのための端末デバイスは、まず、サーバにより供給されたユニバーサルモデルを受信し、次に、ユニバーサルモデルを最適化して、相対的にパーソナライズされたモデルを取得する。本明細書において、ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされた数億個のサンプルまたは数十億個のサンプルに従って、サーバにより取得されるので、ユニバーサルモデルを用いることにより情報を認識する確度は、相対的に高い。従って、端末デバイスの演算量が低減され得るのみならず、特定のユーザの認識情報の確度も改善され得る。
当業者であれば、本明細書において開示される実施形態において説明される例と組み合わせて、ユニットおよびアルゴリズムの段階は、電子ハードウェア、コンピュータソフトウェアまたはそれらの組み合わせにより実装され得ることをさらに認識し得る。ハードウェアとソフトウェアとの間の互換性を明確に説明するために、前述の記載では概して、各例の構成および段階を機能に従って説明している。機能がハードウェアにより実行されるか、またはソフトウェアにより実行されるかは、技術的解決手段の特定の用途および設計上の制約条件に依存する。当業者であれば、異なる方法を用いて、特定の用途毎に、説明された機能を実装し得るが、実装形態が本発明の範囲を越えるものとみなされるべきではない。
本明細書において開示される実施形態において説明される方法またはアルゴリズムの段階は、ハードウェア、プロセッサにより実行されるソフトウェアモジュールまたはそれらの組み合わせにより実装され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、メモリ、リードオンリメモリ(ROM)、電気的プログラマブルROM、電気的消去可能プログラマブルROM、レジスタ、ハードディスク、リムーバブルディスク、CD−ROMまたは当技術分野において知られている任意の他の形式の記憶媒体に存在し得る。
前述の具体的な実装形態において、本発明の目的、技術的解決手段および利益がさらに詳細に説明されている。前述の説明は、本発明の具体的な実装形態に過ぎず、本発明の保護範囲を制限することは意図されていないことを理解されたい。本発明の趣旨および原理から逸脱することなく、あらゆる修正、同等の置換、または改良が、本発明の保護範囲に含まれるはずである。
本発明は、コンピュータ技術の分野に関し、特に、パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイスに関する。
既存の端末デバイス(例えば、スマートフォン、(Smart Phone、SP))は通常、汎用演算ユニットを用いることにより、様々なアルゴリズム命令を実行する。汎用演算ユニットは通常、高度縮小命令セットコンピュータ(Reduced Instruction Set Computer、RISC)マシン(Advanced RISC Machines、ARM)システムアーキテクチャ、例えば、中央処理ユニット(Central Processing Unit、CPU)を用いる。このシステムアーキテクチャでは、複数のスレッドを用いてアルゴリズム命令が同時に実行された場合、消費電力が極めて高くなる。これは、バッテリ充電式の端末デバイスにとって許容できないことである。単一のスレッドを用いてアルゴリズム命令が実行された場合、処理能力は、大演算量の要件を満たし得ない。例えば、音声認識およびコンピュータビジョンなどの分野では、パターン認識に適用可能なモデルのトレーニングプロセス(例えば、音響モデルのトレーニング)において、極めて大きい演算量が必要である。しかしながら、端末デバイスの消費電力が限定されるので、または大演算量の要件が満たされ得ないので、モデルトレーニングは通常、従来技術ではクラウドにおいて実行され、次に、音声、画像、ビデオ等を認識するために、モデルが端末デバイスへプッシュされる。
しかしながら、パターン認識に適用可能なモデルがクラウドにおいてトレーニングされる場合、トレーニングは通常、少なくとも1つの端末デバイスによりアップロードされたサンプル(例えば、音声ファイル、顔画像またはビデオファイル)に従って実行されるので、取得されるモデルは汎用的である。例えば、音声認識が実行される場合、全てのユーザの音声がモデルを用いて認識され得、特定のユーザの音声については、認識は実行されない。つまり、モデルは、パーソナライズされた特徴を有さない。しかしながら、ユーザは、端末デバイスがユーザの音声のみを認識し得、別のユーザの音声を認識しないか、または十分に認識し得ないことを想定している。つまり、ユーザは、相対的にパーソナライズされたモデルをトレーニングすることを望んでいる。従って、パターン認識に適用可能なモデルを最適化するという要件が課される。
本発明の実施形態は、相対的にパーソナライズされたモデルを取得し、サーバの演算量を低減するようにパターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイスを提供する。
第1の態様によれば、パターン認識に適用可能なモデルを最適化するための方法が提供される。方法は、端末デバイスが、サーバにより供給されたユニバーサルモデルを受信する段階であって、ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得され、ユニバーサルモデルは、元の特徴パラメータを含む、段階と、ユニバーサルモデルを用いてターゲット情報を認識し、複数のローカルサンプルを収集する段階と、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである第1のトレーニングアルゴリズムとに従って、新しい特徴パラメータを取得する段階と、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する段階とを含む。
ユニバーサルモデルを用いることによりターゲット情報を認識する処理において相対的にパーソナライズされたモデルを取得するために、端末デバイスは、ローカルサンプルを収集し続け得る。ローカルサンプルは、ユニバーサルモデルを最適化する処理において端末デバイスにより用いられるので、端末デバイスは、ローカルサンプルを収集した後、ローカルサンプルをローカルにのみ記憶し、ローカルサンプルをサーバにアップロードする必要はない。従って、端末デバイスがサンプルをサーバにアップロードするために消費するトラフィックが節約され得る。加えて、ユニバーサルモデルは、サーバにより、少なくとも1つの端末デバイスによりアップロードされた数億個のサンプルまたは数十億個のサンプルに従って取得されるので、ユニバーサルモデルを用いることにより情報を認識する確度は、相対的に高い。次に、ユニバーサルモデルは、相対的にパーソナライズされたモデルを取得するために最適化される。従って、端末デバイスの演算量が低減され得るのみならず、特定のユーザの情報を認識する確度も改善され得る。
任意選択の実装形態において、モデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含み得る。
任意選択の実装形態において、第1のトレーニングアルゴリズムは、隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズムのうちの1または複数を含み得る。
第2の態様によれば、パターン認識に適用可能なモデルを最適化するための装置が提供される。装置は、前述の方法における端末デバイスの動作を実装する機能を有する。機能は、ハードウェアを用いることにより実装され得るか、または、対応するソフトウェアをハードウェアが実装することにより実装され得る。ハードウェアまたはソフトウェアは、前述の機能に対応する1または複数のモジュールを含む。
第3の態様によれば、端末デバイスが提供される。端末デバイスは、送受信機と、処理回路とを含む。送受信機は、サーバにより供給されたユニバーサルモデルを受信するように構成される。ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得される。ユニバーサルモデルは、元の特徴パラメータを含む。処理回路は、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである第1のトレーニングアルゴリズムとに従って、新しい特徴パラメータを取得し、かつ、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される。
さらに別の態様によれば、コンピュータ記憶媒体が提供される。コンピュータ記憶媒体は、前述の端末デバイスにより用いられるコンピュータソフトウェア命令を記憶するように構成される。コンピュータソフトウェア命令は、前述の態様を実行するよう設計されたプログラムを含む。
本発明の実施形態は、パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイスを提供する。端末デバイスは、サーバにより供給されたユニバーサルモデルを受信する。ユニバーサルモデルは、元の特徴パラメータを含み、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、モデル最適化条件が満たされた場合、第1のトレーニングアルゴリズムを用いることにより元の特徴パラメータを補正して、新しい特徴パラメータを取得し、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する。つまり、本発明において、端末デバイスはさらに、収集したローカルサンプルに従って、サーバから受信したユニバーサルモデルを最適化して、パターン認識に適用可能な相対的にパーソナライズされたモデルを取得する。従って、ユーザエクスペリエンスが改善されるのみならず、サーバがユニバーサルモデルを最適化する場合に存在する、サーバの大演算量という課題も解決される。
本発明によるネットワークの概略構造図である。
本発明の実施形態によるパターン認識に適用可能なモデルを最適化する方法のフローチャートである。
本発明による第1のトレーニングアルゴリズムのトレーニングプロセスの概略図である。
本発明の別の実施形態によるパターン認識に適用可能なモデルを最適化するための装置の概略図である。
本発明のさらに別の実施形態による端末デバイスの概略図である。
以下では、添付図面および実施形態を参照して、本発明の技術的解決手段をさらに詳細に説明する。
本発明の実施形態によるパターン認識に適用可能なモデルを最適化するための方法が、図1に示されるネットワークトポロジの構造図に適用される。図1において、サーバが端末デバイスとのデータ通信を実行し得る。具体的には、サーバは、少なくとも1つの端末デバイスによりアップロードされたサンプルを受信し得る。サンプルは、音声ファイル、画像ファイルおよびビデオファイルを含むが、それらに限定されない。例えば、端末デバイスは、以下の態様で音声ファイルを収集し得る。端末デバイスは、ユーザが通話中である場合に端末デバイスのソフトウェアを記録することにより記録される音声ファイルを収集し得、ユーザがインスタントメッセージソフトウェアを用いることにより音声チャットを行っている場合に端末デバイスにより記録される音声ファイルを収集し得るか、または、ユーザの音声信号が受信され得る別のシナリオにおいて記録される音声ファイルを収集し得る。別の例では、端末デバイスは、以下の態様で画像ファイルおよびビデオを収集し得る。端末デバイスは、ユーザが写真またはビデオを撮るか、または、端末デバイスがアプリケーションソフトウェア(例えば、Weibo、WeChatのモーメンツおよびQzone)等から画像ファイルまたはビデオを取得し得る場合に端末デバイスにより記録される画像ファイルまたはビデオを収集し得る。代替的に、サーバは、サンプルを収集し得る。
図1において、サーバは、少なくとも1つの端末デバイスにより送信された十分なサンプル(例えば、数億個または数十億個のサンプル)を受信した後にまず、サンプルを前処理し(サンプルに対する前処理は、分類処理、アノテーション情報の追加などの処理を含み得る)、次に、サンプルに従ってユニバーサルモデルを取得する。具体的には、ユニバーサルモデルは、サンプルに従ってトレーニングアルゴリズムをトレーニングすることにより取得され得る。サンプルが本明細書における音声ファイルである場合、取得されたユニバーサルモデルは、音声認識アルゴリズムであり得、ユニバーサルモデルは、音声情報(または音声信号と称される)を認識するために用いられ得る。 サンプルが画像ファイルである場合、取得されたユニバーサルモデルは、画像認識モデルであり得、ユニバーサルモデルは、画像情報を認識するために用いられ得る。代替的に、サンプルがビデオファイルである場合、取得されたユニバーサルモデルは、ビデオ認識モデルであり得、ユニバーサルモデルは、ビデオ情報を認識するために用いられ得る。
トレーニングアルゴリズムは、隠れマルコフモデル(Hidden Markov Model、HMM)、トレーニングアルゴリズム、前向きアルゴリズム(Forward Algorithm)、ビタビアルゴリズム(Viterbi Algorithm)、前向き後ろ向きアルゴリズム(Forward−Backward Algorithm)、期待値最大化(Expectation Maximization、EM)アルゴリズム、ディープニューラルネットワーク(Deep Neural Network、DNN)、学習アルゴリズム、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、学習アルゴリズムおよび再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)学習アルゴリズムを含むが、それらに限定されない。加えて、取得されたユニバーサルモデルは、1または複数の元の特徴パラメータ含み得る。一例において、ユニバーサルモデルは、音声認識アルゴリズムであり、元の特徴パラメータは、音声パラメータであるか、または音響モデルパラメータと称され、元の特徴パラメータは、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)パラメータおよびピッチ周波数パラメータを含み得るが、それらに限定されない。一例において、ユニバーサルモデルは、画像認識モデルであり。元の特徴パラメータは、画像パラメータであるか(または画像モデルパラメータと称され)、元の特徴パラメータは、色、テクスチャおよび形状などのパラメータを含み得るが、それらに限定されない。
図1における端末デバイスは、専用デジタル信号プロセッサ(Digital Signal Processor、DSP)チップまたはニューラル処理ユニット(Neural Processing Unit、NPU)チップを有し得、チップは、ニューラルネットワークの大演算量要件を満たし得る。代替的に、本発明における端末デバイスは、大量のデータを演算する能力(例えば、行列の乗算または加算を実装する演算能力)を有する。端末デバイスは、携帯電話、モバイルコンピュータ、タブレットコンピュータ、携帯情報端末(Personal Digital Assistant、PDA)、メディアプレーヤ、スマートテレビ、スマートウォッチ、スマートグラスまたはスマートバンドを含むが、それらに限定されない。
概して、各端末デバイスは、1人の固定ユーザにより用いられる、つまり、各端末デバイスは、1人の特定のユーザに対応し得ることが理解され得る。従って、端末デバイスにより収集されるサンプルは通常、特定のユーザの個人的な特徴に関連する。しかしながら、サーバが、少なくとも1つの端末デバイスによりアップロードされたサンプルに従ってユニバーサルモデルを取得する場合、ユニバーサルモデルは、全てのユーザの情報(音声情報、画像情報およびビデオ情報を含む)を認識し得る。つまり、ユニバーサルモデルは、相対的に良好な汎用性を有する。しかしながら、ユニバーサルモデルが端末デバイスに供給され、端末デバイスがユニバーサルモデルを用いて対応する特定のユーザの情報を認識する場合、ユニバーサルモデルを用いることにより特定のユーザの情報を認識する回数および特定のユーザの情報を認識している期間に拘らず、特定のユーザの情報の認識確度は、改善され得ない。つまり、サーバにより取得されるユニバーサルモデルは、パーソナライズされた特徴を有していない。しかしながら、ユーザエクスペリエンスを改善するために、端末デバイスが特定のユーザの情報を認識する確度を改善することが通常は期待され、端末デバイスは、別のユーザの情報を認識し得ない。従って、サーバにより供給されるユニバーサルモデルは、最適化される必要がある。
図2は、本発明の実施形態による、パターン認識に適用可能なモデルを最適化するための方法のフローチャートである。方法は、端末デバイスにより実行され得る。図2に示されるように、方法は、具体的には、以下の段階を含み得る。
段階210:端末デバイスが、サーバにより供給されたユニバーサルモデルを受信する。
上述のように、ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得される。ユニバーサルモデルは、1または複数の元の特徴パラメータを含み得る。一例において、複数の元の特徴パラメータが存在する場合、複数の元の特徴パラメータは、管理を容易にするために、第1行列に記憶され得る。
段階220:ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集する。
本明細書において、ターゲット情報は、音声情報、画像情報およびビデオ情報を含むが、それらに限定されない。具体的には、本明細書におけるユニバーサルモデルが音声認識アルゴリズムである場合、ユーザにより入力される音声情報は、音声情報に対応するテキストを取得するために、音声認識アルゴリズムを用いることにより認識され得る。本明細書におけるユニバーサルモデルが画像認識モデルである場合、画像情報は、画像認識モデルを用いることにより認識され得。本明細書における画像情報は、顔画像とオブジェクトを含む画像とを含むが、それらに限定されない。本明細書におけるユニバーサルモデルがビデオ認識モデルである場合、ビデオ情報は、ビデオ認識モデルを用いることにより認識され得、本明細書におけるビデオ情報は、画像情報を含む。
ユニバーサルモデルを用いることによりターゲット情報を認識する処理において相対的にパーソナライズされたモデルを取得するために、端末デバイスは、ローカルサンプルを収集し続け得ることに留意すべきである。ローカルサンプルは、ユニバーサルモデルを最適化する処理において端末デバイスにより用いられるので、端末デバイスは、ローカルサンプルを収集した後、ローカルサンプルをローカルにのみ記憶し、ローカルサンプルをサーバにアップロードする必要はない。従って、端末デバイスがサンプルをサーバにアップロードするために消費するトラフィックが節約され得る。ローカルサンプルは、音声ファイル、画像ファイルおよびビデオファイルを含み得るが、それらに限定されない。
段階230:モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得する。第1のトレーニングアルゴリズムは、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである。
本明細書におけるモデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含み得る。
例えば、ローカルサンプルの数が予め設定された数に達していることは、収集された音声ファイル、画像ファイルまたはビデオファイルの数が5000個を超えているということであり得る。例えば、現在時刻が予め設定された時刻に達していることは、現在時刻が12:00P.M.を超えているということであり得る。例えば、端末デバイスが予め設定された状態であることは、端末デバイスが充電状態であるか、または待機状態であるということであり得る。例えば、端末デバイスの属性値が予め設定された閾値に達していることは、端末デバイスのバッテリレベルが80%を超えているか、または端末デバイスの温度が25度よりも低いということであり得る。
加えて、第1のトレーニングアルゴリズムは、サーバによりユニバーサルモデルを取得するために用いられるトレーニングアルゴリズムと一致し得る。例えば、サーバがディープラーニングアルゴリズムおよびサンプルに従ってユニバーサルモデルを取得する場合、端末デバイスは、ディープラーニングアルゴリズムに従って、ユニバーサルモデルにおける元の特徴パラメータも補正し得る。
例えば、第1のトレーニングアルゴリズムがディープラーニングアルゴリズムである場合、ユニバーサルモデルにおける元の特徴パラメータを補正するための方法が、図3に示され得る。図3において、ディープラーニングアルゴリズムは、入力層、隠れ層および出力層という3つの層を含む。入力層は、入力データを入力するために用いられる。本明細書における入力データは、元の特徴パラメータおよびローカルサンプルを含む。入力層は、「○」(ノードと称される)という1つの列を含み得、各ノードは、1個の入力データを入力するように構成される。例えば、元の特徴パラメータがa, a,…aであり、n≧1である。つまり、n個の元の特徴パラメータが存在し、n個の元の特徴パラメータおよびローカルサンプルは、ディープラーニングアルゴリズムの入力層で入力され得る。隠れ層は、入力層で入力されたn個の元の特徴パラメータをローカルサンプルに従って補正するために用いられる。補正は具体的には、入力データへの対応する演算を実行することにより実装される。図3において、隠れ層におけるk番目の列の各ノードは、入力データに対するk番目の演算が実行された後に取得された結果を示すために用いられている。任意の列の各ノードは、任意の列の前の列の全てのノードの線形結合に従って決定され、例えば、隠れ層における第1列の各ノードは、入力データに対する初回の演算が実行された後に取得された、対応する結果を示す。隠れ層における第1列のj番目のノードがy2jと示され得、y2jの演算式が
であり得ると仮定する。x1iは入力データのi番目の部分を示し、ωおよびbは経験値に従って設定され得、fは自律的に選択され得る。出力層は、演算後に取得された入力データを出力するために用いられ、出力層は、「○」という1つの列を含み得、各ノードは、演算後に取得された1個の入力データを出力するように、例えば、1個の新しい特徴パラメータを出力するように構成される。出力された全ての新しい特徴パラメータがb, b,…bであり得ると仮定する。m≧n、つまり、新しい特徴パラメータの数は、元の特徴パラメータの数よりも大きいか、または等しい。一例において、出力層で出力された新しい特徴パラメータは、第2行列に記録され得る。
元の特徴パラメータを補正するために端末デバイスにより用いられるトレーニングアルゴリズムは、ユニバーサルモデルを取得するためにサーバにより用いられるトレーニングアルゴリズムと一致するが、端末デバイスにより収集されるローカルサンプルの数が数千個のみであるのに対し、少なくとも1つの端末デバイスによりアップロードされ、サーバにより受信されるサンプルの数は数億個または数十億個なので、サーバの演算量は、端末デバイスの演算量よりもはるかに大きいことが理解され得る。
加えて、図3において、入力層で入力されたサンプルは、ローカルサンプルである。例えば、音声認識アルゴリズムにおける元の特徴パラメータが補正される場合、入力層で入力されたローカルサンプルは、端末デバイスに対応する特定のユーザの音声ファイルであり、別のユーザの音声ファイルは入力されない。従って、出力層で出力された新しい特徴パラメータは、パーソナライズされた特徴を有する、つまり、特定のユーザの音声情報は、新しい特徴パラメータに従ってユニバーサルモデルが最適化された後、より良好に認識され得、別のユーザの音声情報は、認識され得ないか、または十分に認識され得ない。別の例では、画像認識モデルにおける元の特徴パラメータが補正される場合、入力層で入力されたローカルサンプルは、特定のユーザの顔画像であり得、別のユーザの顔画像は入力されない。従って、出力層で出力された新しい特徴パラメータは、パーソナライズされた特徴を有する、つまり、特定のユーザの画像情報は、ユニバーサルモデルが新しい特徴パラメータに従って最適化された後、より良好に認識され得る。
加えて、端末デバイスは、HMMトレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、EMアルゴリズム、DNN学習アルゴリズム、CNN学習アルゴリズムまたはRNN学習アルゴリズムに従って、ユニバーサルモデルにおける元の特徴パラメータをさらに補正し得る。
本発明における相対的に高い精度のパーソナライズされたモデルを取得するために、つまり、特定のユーザの情報を認識する確度を改善するために、ユニバーサルモデルは、新しい特徴パラメータに従って最適化され得る。
段階240:第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する。
相対的に高い精度のパーソナライズされたモデルを取得するために、サーバから受信されたユニバーサルモデルは、最適化され得る。本明細書における第2のトレーニングアルゴリズムは、ベイズ統計モデリングアルゴリズムおよびベクトルマシンモデリングアルゴリズムを含み得るが、それらに限定されない。
上述のように、ユニバーサルモデルにおける元の特徴パラメータは、第1行列に記憶され得、取得された新しい特徴パラメータは、第2行列に記憶され得る。一例において、第1行列は、3000次元(つまり、n=3000)の行列であり得、第2行列は、9000次元(つまり、m=9000)の行列であり得る。第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化する処理は具体的には、以下のことを含み得る。第1行列および第2行列は、ターゲット行列を取得するために加算または乗算される。ターゲット行列は、最適化されたユニバーサルモデルにおける特徴パラメータを含む。ユニバーサルモデルにおける元の特徴パラメータは、次に、最適化されたユニバーサルモデルにおける特徴パラメータで置換される。従って、最適化されたユニバーサルモデルが取得され得る。第1行列および第2行列が加算または乗算される前は、第1行列および第2行列が異なる数の次元を有するので、2つの行列の次元の数は、「0」を追加することにより均一化され得ることが理解され得る。前述の例において、第1行列は、「0」を追加することにより9000次元の行列へ展開され得、次に、第1行列および第2行列は、加算または乗算される。
当然ながら、実際の応用中、2つの行列の次元の数は、代替的に、別の方式で均一化され得る。これは、本願において限定されない。例えば、MATLABでは、「非数値」を加算する方式が用いられ得る。「非数値」は、実際の意味を有しない値を示すために用いられる。具体的には、MATLABにおいて「非数値」が処理される場合、「非数値」はスキップされ、処理は実行されない。
当然ながら、例は、前述の記載において、ユニバーサルモデルを最適化する方式を説明するためにのみ用いられており、本発明に限定を課さない。ユニバーサルモデルを最適化する方式は、用いられる第2のトレーニングアルゴリズムに従って決定され得、本発明において列挙されない。
段階210から段階230は、ユニバーサルモデルを一度に最適化する処理に過ぎず、当業者であれば、段階210から段階230を継続的に繰り返し実行し得る、つまり、特定のユーザの情報を認識する確度は、特定のユーザのパーソナライズされた情報をユニバーサルモデルと継続的に組み合わせることにより改善され得ることに留意すべきである。
結論として、本発明における端末デバイスは、まず、サーバにより供給されたユニバーサルモデルを受信し、次に、ユニバーサルモデルを最適化して、相対的にパーソナライズされたモデルを取得する。本明細書において、ユニバーサルモデルは、サーバにより、少なくとも1つの端末デバイスによりアップロードされた数億個のサンプルまたは数十億個のサンプルに従って取得されるので、ユニバーサルモデルを用いることにより情報を認識する確度は、相対的に高い。従って、端末デバイスの演算量が低減され得るのみならず、特定のユーザの情報を認識する確度も改善され得る。
パターン認識に適用可能なモデルを最適化するための方法に対応して、本願の実施形態は、パターン認識に適用可能なモデルを最適化するための装置をさらに提供する。図4に示されるように、装置は、受信ユニット401と、処理ユニット402と、取得ユニット403と、最適化ユニット404とを含む。
受信ユニット401は、サーバにより供給されたユニバーサルモデルを受信するように構成される。ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得され、ユニバーサルモデルは、元の特徴パラメータを含む。
処理ユニット402は、受信ユニット401により受信されたユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集するように構成される。
取得ユニット403は、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得するように構成される。第1のトレーニングアルゴリズムは、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである。
モデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含む。
加えて、第1のトレーニングアルゴリズムは、隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズムのうちの1または複数を含む。
最適化ユニット404は、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される。
本発明の本実施形態において提供される、パターン認識に適用可能なモデルを最適化するための装置によれば、受信ユニット401は、サーバにより供給されたユニバーサルモデルを受信し、処理ユニット402は、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、取得ユニット403は、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得し、最適化ユニット404は、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する。従って、ユーザエクスペリエンスが改善されるのみならず、サーバがユニバーサルモデルを最適化する場合に存在する、サーバの大演算量という課題も解決される。
パターン認識に適用可能なモデルを最適化するための方法に対応して、本願の実施形態は、端末デバイスをさらに提供する。図5に示されるように、端末デバイスは、送受信機510と処理回路520とを含み、任意でメモリ530をさらに含み得る。処理回路520は、プロセッサ521と、無線周波数回路522と、ベースバンド523とを含み得る。
プロセッサ521は、NPU、専用DSP、NPUおよびハードウェアチップの組み合わせ、または専用DSPおよびハードウェアチップの組み合わせを含み得る。NPUまたは専用DSPは、演算能力を提供し、例えば、行列の乗算処理または加算処理を実装し得る。加えて、ハードウェアチップは、特定用途向け集積回路(英語:application−specific integrated circuit、ASIC)、プログラマブル論理デバイス(英語:programmable logic device、PLD)またはそれらの組み合わせであり得る。PLDは、複雑プログラマブル論理デバイス(英語:complex programmable logic device、CPLD)、フィールドプログラマブルゲートアレイ(英語:field−programmable gate array、FPGA)、ジェネリックアレイロジック(英語:generic array logic、GAL)またはそれらの任意の組み合わせであり得る。加えて、プロセッサ521は、グラフィック処理ユニット(Graphics Processing Unit、GPU)をさらに含み得る。
メモリ530は、揮発性メモリ(英語:volatile memory)、例えば、ランダムアクセスメモリ(英語:random−access memory、RAM)を含み得る。メモリ530は、不揮発性メモリ(英語:non−volatile memory)、例えば、リードオンリメモリ(英語:read−only memory、ROM)、フラッシュメモリ(英語:flash memory)、ハードディスクドライブ(英語:hard disk drive、HDD)またはソリッドステートドライブ(英語:solid−state drive、SSD)をさらに含み得る。」メモリ530は、前述のメモリの組み合わせをさらに含み得る。
送受信機510は、サーバにより供給されたユニバーサルモデルを受信するように構成される。ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、サーバにより取得され、ユニバーサルモデルは、元の特徴パラメータを含む。
処理回路520は、ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集するように構成される。
処理回路520はさらに、モデル最適化条件が満たされた場合、複数のローカルサンプルと、元の特徴パラメータと、第1のトレーニングアルゴリズムとに従って新しい特徴パラメータを取得するように構成される。第1のトレーニングアルゴリズムは、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである。
モデル最適化条件は、ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していることのうちの1または複数を含む。
加えて、第1のトレーニングアルゴリズムは、隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズムのうちの1または複数を含む。
処理回路520はさらに、第2のトレーニングアルゴリズムおよび新しい特徴パラメータに従ってユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される。
本発明の本実施形態において提供されるモデルのための端末デバイスは、まず、サーバにより供給されたユニバーサルモデルを受信し、次に、ユニバーサルモデルを最適化して、相対的にパーソナライズされたモデルを取得する。本明細書において、ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされた数億個のサンプルまたは数十億個のサンプルに従って、サーバにより取得されるので、ユニバーサルモデルを用いることにより情報を認識する確度は、相対的に高い。従って、端末デバイスの演算量が低減され得るのみならず、特定のユーザの認識情報の確度も改善され得る。
当業者であれば、本明細書において開示される実施形態において説明される例と組み合わせて、ユニットおよびアルゴリズムの段階は、電子ハードウェア、コンピュータソフトウェアまたはそれらの組み合わせにより実装され得ることをさらに認識し得る。ハードウェアとソフトウェアとの間の互換性を明確に説明するために、前述の記載では概して、各例の構成および段階を機能に従って説明している。機能がハードウェアにより実行されるか、またはソフトウェアにより実行されるかは、技術的解決手段の特定の用途および設計上の制約条件に依存する。当業者であれば、異なる方法を用いて、特定の用途毎に、説明された機能を実装し得るが、実装形態が本発明の範囲を越えるものとみなされるべきではない。
本明細書において開示される実施形態において説明される方法またはアルゴリズムの段階は、ハードウェア、プロセッサにより実行されるソフトウェアモジュールまたはそれらの組み合わせにより実装され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、メモリ、リードオンリメモリ(ROM)、電気的プログラマブルROM、電気的消去可能プログラマブルROM、レジスタ、ハードディスク、リムーバブルディスク、CD−ROMまたは当技術分野において知られている任意の他の形式の記憶媒体に存在し得る。
前述の具体的な実装形態において、本発明の目的、技術的解決手段および利益がさらに詳細に説明されている。前述の説明は、本発明の具体的な実装形態に過ぎず、本発明の保護範囲を制限することは意図されていないことを理解されたい。本発明の趣旨および原理から逸脱することなく、あらゆる修正、同等の置換、または改良が、本発明の保護範囲に含まれるはずである。

Claims (10)

  1. 端末デバイスが、サーバにより供給されたユニバーサルモデルを受信する段階であって、前記ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、前記サーバにより取得され、前記ユニバーサルモデルは、元の特徴パラメータを含む、段階(S210)と、
    前記ユニバーサルモデルを用いてターゲット情報を認識し、複数のローカルサンプルを収集する段階(S220)と、
    モデル最適化条件が満たされた場合、前記複数のローカルサンプルと、前記元の特徴パラメータと、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである第1のトレーニングアルゴリズムとに従って、新しい特徴パラメータを取得する段階(S230)と、
    第2のトレーニングアルゴリズムおよび前記新しい特徴パラメータに従って前記ユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得する段階(S240)と
    を備える、パターン認識に適用可能なモデルを最適化するための方法。
  2. 前記モデル最適化条件は、
    ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、前記端末デバイスが予め設定された状態であること、または前記端末デバイスの属性値が予め設定された閾値に達していること
    のうちの1または複数を含む、
    請求項1に記載の方法。
  3. 前記第1のトレーニングアルゴリズムは、
    隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズム
    のうちの1または複数を含む、
    請求項1または2に記載の方法。
  4. 受信ユニットと、処理ユニットと、取得ユニットと、最適化ユニットとを備え、
    前記受信ユニット(401)は、サーバにより供給されたユニバーサルモデルを受信するように構成され、前記ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、前記サーバにより取得され、前記ユニバーサルモデルは、元の特徴パラメータを含み、
    前記処理ユニット(402)は、前記受信ユニットにより受信された前記ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集するように構成され、
    前記取得ユニット(403)は、モデル最適化条件が満たされた場合、前記複数のローカルサンプルと、前記元の特徴パラメータと、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである第1のトレーニングアルゴリズムとに従って、新しい特徴パラメータを取得するように構成され、
    前記最適化ユニット(404)は、第2のトレーニングアルゴリズムおよび前記新しい特徴パラメータに従って前記ユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される、
    パターン認識に適用可能なモデルを最適化するための装置。
  5. 前記モデル最適化条件は、
    ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、端末デバイスが予め設定された状態であること、または端末デバイスの属性値が予め設定された閾値に達していること
    のうちの1または複数を含む、
    請求項4に記載の装置。
  6. 前記第1のトレーニングアルゴリズムは、
    隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズム
    のうちの1または複数を含む、
    請求項4または5に記載の装置。
  7. 送受信機(510)と、処理回路(520)とを備え、
    前記送受信機(510)は、サーバにより供給されたユニバーサルモデルを受信するように構成され、前記ユニバーサルモデルは、少なくとも1つの端末デバイスによりアップロードされたサンプルに従って、前記サーバにより取得され、前記ユニバーサルモデルは、元の特徴パラメータを含み、
    前記処理回路(520)は、
    前記ユニバーサルモデルを用いることによりターゲット情報を認識し、複数のローカルサンプルを収集し、
    モデル最適化条件が満たされた場合、前記複数のローカルサンプルと、前記元の特徴パラメータと、ローカルサンプルに従って元の特徴パラメータを補正して新しい特徴パラメータを取得するために用いられる機械学習アルゴリズムである第1のトレーニングアルゴリズムとに従って、新しい特徴パラメータを取得し、かつ、
    第2のトレーニングアルゴリズムおよび前記新しい特徴パラメータに従って前記ユニバーサルモデルを最適化して、最適化されたユニバーサルモデルを取得するように構成される、
    端末デバイス。
  8. 前記モデル最適化条件は、
    ローカルサンプルの数が予め設定された数に達していること、現在時刻が予め設定された時刻に達していること、前記端末デバイスが予め設定された状態であること、または前記端末デバイスの属性値が予め設定された閾値に達していること
    のうちの1または複数を含む、
    請求項7に記載の端末デバイス。
  9. 前記第1のトレーニングアルゴリズムは、
    隠れマルコフモデルHMM、トレーニングアルゴリズム、前向きアルゴリズム、ビタビアルゴリズム、前向き後ろ向きアルゴリズム、期待値最大化EMアルゴリズム、ディープニューラルネットワークDNNアルゴリズム、畳み込みニューラルネットワークCNNアルゴリズムまたは再帰型ニューラルネットワークRNNアルゴリズム
    のうちの1または複数を含む、
    請求項7または8に記載の端末デバイス。
  10. 前記処理回路は、ニューラル処理ユニットNPUまたは専用デジタル信号プロセッサDSPを有する、
    請求項7から9のいずれか一項に記載の端末デバイス。
JP2018566575A 2016-06-23 2017-06-21 パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイス Active JP6806412B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610472755.0A CN107545889B (zh) 2016-06-23 2016-06-23 适用于模式识别的模型的优化方法、装置及终端设备
CN201610472755.0 2016-06-23
PCT/CN2017/089417 WO2017219991A1 (zh) 2016-06-23 2017-06-21 适用于模式识别的模型的优化方法、装置及终端设备

Publications (2)

Publication Number Publication Date
JP2019528502A true JP2019528502A (ja) 2019-10-10
JP6806412B2 JP6806412B2 (ja) 2021-01-06

Family

ID=60784235

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018566575A Active JP6806412B2 (ja) 2016-06-23 2017-06-21 パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイス

Country Status (7)

Country Link
US (1) US10825447B2 (ja)
EP (1) EP3460792B1 (ja)
JP (1) JP6806412B2 (ja)
CN (1) CN107545889B (ja)
BR (1) BR112018076645A2 (ja)
MY (1) MY193115A (ja)
WO (1) WO2017219991A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020144775A (ja) * 2019-03-08 2020-09-10 トヨタ自動車株式会社 モデル集約装置及びモデル集約システム

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11437032B2 (en) * 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
US11450319B2 (en) * 2017-09-29 2022-09-20 Cambricon (Xi'an) Semiconductor Co., Ltd. Image processing apparatus and method
WO2019062931A1 (zh) * 2017-09-29 2019-04-04 上海寒武纪信息科技有限公司 图像处理装置及方法
US11620130B2 (en) 2018-02-13 2023-04-04 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
EP3640863B1 (en) 2018-02-13 2021-10-27 Shanghai Cambricon Information Technology Co., Ltd Computation device and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
CN116991225A (zh) 2018-02-14 2023-11-03 上海寒武纪信息科技有限公司 处理器的控制装置、方法及设备
CN108682416B (zh) * 2018-04-11 2021-01-01 深圳市卓翼科技股份有限公司 本地自适应语音训练方法和系统
EP3752962A1 (en) 2018-05-07 2020-12-23 Google LLC Application development platform and software development kits that provide comprehensive machine learning services
EP3624020A4 (en) 2018-05-18 2021-05-05 Shanghai Cambricon Information Technology Co., Ltd CALCULATION PROCEDURES AND RELATED PRODUCTS
CN108446687B (zh) * 2018-05-28 2022-02-01 唯思电子商务(深圳)有限公司 一种基于移动端和后台互联的自适应人脸视觉认证方法
CN108833784B (zh) * 2018-06-26 2021-01-29 Oppo(重庆)智能科技有限公司 一种自适应构图方法、移动终端及计算机可读存储介质
JP7053891B2 (ja) 2018-06-27 2022-04-12 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッド オンチップコードのブレークポイントによるデバッグ方法、オンチッププロセッサ及びブレークポイントによるチップデバッグシステム
JP6867518B2 (ja) 2018-08-28 2021-04-28 カンブリコン テクノロジーズ コーポレイション リミティド データ前処理方法、装置、コンピュータ機器及び記憶媒体
US11703939B2 (en) 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
CN111276138B (zh) * 2018-12-05 2023-07-18 北京嘀嘀无限科技发展有限公司 一种语音唤醒系统中处理语音信号的方法及装置
CN111415653B (zh) * 2018-12-18 2023-08-01 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
CN109683938B (zh) * 2018-12-26 2022-08-02 思必驰科技股份有限公司 用于移动终端的声纹模型升级方法和装置
CN111383638A (zh) 2018-12-28 2020-07-07 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
WO2020172829A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种神经网络模型处理方法及装置
US11847554B2 (en) 2019-04-18 2023-12-19 Cambricon Technologies Corporation Limited Data processing method and related products
CN111832739B (zh) 2019-04-18 2024-01-09 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品
CN111862945A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
CN111859977A (zh) * 2019-06-06 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语义分析方法、装置、电子设备及存储介质
US11676029B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
CN112085189B (zh) 2019-06-12 2024-03-29 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
US11599799B1 (en) * 2019-09-17 2023-03-07 Rockwell Collins, Inc. Digital signal processing with neural networks
CN112907309A (zh) * 2019-11-19 2021-06-04 阿里巴巴集团控股有限公司 模型更新方法、资源推荐方法、装置、设备及系统
CN111241745A (zh) * 2020-01-09 2020-06-05 深圳前海微众银行股份有限公司 逐步模型选择方法、设备及可读存储介质
CN111404833B (zh) * 2020-02-28 2022-04-12 华为技术有限公司 一种数据流类型识别模型更新方法及相关设备
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
CN111522570B (zh) * 2020-06-19 2023-09-05 杭州海康威视数字技术股份有限公司 目标库更新方法、装置、电子设备及机器可读存储介质
CN112070086B (zh) * 2020-09-09 2024-05-07 平安科技(深圳)有限公司 文本识别系统的优化方法、计算机设备及存储介质
CN112735381B (zh) * 2020-12-29 2022-09-27 四川虹微技术有限公司 一种模型更新方法及装置
CN112820302B (zh) * 2021-01-28 2024-04-12 Oppo广东移动通信有限公司 声纹识别方法、装置、电子设备和可读存储介质
CN112992174A (zh) * 2021-02-03 2021-06-18 深圳壹秘科技有限公司 一种语音分析方法及其语音记录装置
CN113780737A (zh) * 2021-08-10 2021-12-10 武汉飞恩微电子有限公司 基于机器学习的作业调度优化方法、装置、设备及介质
CN115600177B (zh) * 2022-10-09 2024-04-16 北京金和网络股份有限公司 一种身份认证的方法、装置、存储介质及电子设备
CN115938353B (zh) * 2022-11-24 2023-06-27 北京数美时代科技有限公司 语音样本分布式采样方法、系统、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002331723A (ja) * 2001-05-08 2002-11-19 Canon Inc 画像処理装置、画像処理システム、画像処理装置の制御方法、記録媒体、及び制御プログラム
WO2014096506A1 (en) * 2012-12-21 2014-06-26 Nokia Corporation Method, apparatus, and computer program product for personalizing speech recognition
US20150170053A1 (en) * 2013-12-13 2015-06-18 Microsoft Corporation Personalized machine learning models
JP2015132877A (ja) * 2014-01-09 2015-07-23 株式会社Nttドコモ 動作認識システム及び動作認識方法
WO2016032777A1 (en) * 2014-08-26 2016-03-03 Google Inc. Localized learning from a global model

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
WO2006137246A1 (ja) * 2005-06-21 2006-12-28 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
US9111540B2 (en) 2009-06-09 2015-08-18 Microsoft Technology Licensing, Llc Local and remote aggregation of feedback data for speech recognition
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
US9208777B2 (en) 2013-01-25 2015-12-08 Microsoft Technology Licensing, Llc Feature space transformation for personalization using generalized i-vector clustering
US9582716B2 (en) * 2013-09-09 2017-02-28 Delta ID Inc. Apparatuses and methods for iris based biometric recognition
CN103632667B (zh) 2013-11-25 2017-08-04 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
EP2990999A1 (en) * 2014-08-29 2016-03-02 Accenture Global Services Limited A machine-learning system to optimise the performance of a biometric system
CN105096941B (zh) 2015-09-02 2017-10-31 百度在线网络技术(北京)有限公司 语音识别方法以及装置
CN105206258B (zh) 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
CN105489221B (zh) * 2015-12-02 2019-06-14 北京云知声信息技术有限公司 一种语音识别方法及装置
US20180358003A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Methods and apparatus for improving speech communication and speech interface quality using neural networks
KR101936188B1 (ko) * 2017-07-12 2019-01-08 이민정 개체 판별 방법 및 장치
CN108830211A (zh) * 2018-06-11 2018-11-16 厦门中控智慧信息技术有限公司 基于深度学习的人脸识别方法及相关产品
US11144748B2 (en) * 2018-12-07 2021-10-12 IOT Technology, LLC. Classification system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002331723A (ja) * 2001-05-08 2002-11-19 Canon Inc 画像処理装置、画像処理システム、画像処理装置の制御方法、記録媒体、及び制御プログラム
WO2014096506A1 (en) * 2012-12-21 2014-06-26 Nokia Corporation Method, apparatus, and computer program product for personalizing speech recognition
US20150170053A1 (en) * 2013-12-13 2015-06-18 Microsoft Corporation Personalized machine learning models
JP2015132877A (ja) * 2014-01-09 2015-07-23 株式会社Nttドコモ 動作認識システム及び動作認識方法
WO2016032777A1 (en) * 2014-08-26 2016-03-03 Google Inc. Localized learning from a global model

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020144775A (ja) * 2019-03-08 2020-09-10 トヨタ自動車株式会社 モデル集約装置及びモデル集約システム

Also Published As

Publication number Publication date
US20190228762A1 (en) 2019-07-25
EP3460792B1 (en) 2021-10-27
EP3460792A1 (en) 2019-03-27
EP3460792A4 (en) 2019-06-12
WO2017219991A1 (zh) 2017-12-28
MY193115A (en) 2022-09-26
CN107545889B (zh) 2020-10-23
JP6806412B2 (ja) 2021-01-06
BR112018076645A2 (pt) 2019-03-26
CN107545889A (zh) 2018-01-05
US10825447B2 (en) 2020-11-03

Similar Documents

Publication Publication Date Title
JP6806412B2 (ja) パターン認識に適用可能なモデルを最適化するための方法および装置ならびに端末デバイス
US10963783B2 (en) Technologies for optimized machine learning training
JP6741357B2 (ja) マルチ関連ラベルを生成する方法及びシステム
US11307864B2 (en) Data processing apparatus and method
US10552737B2 (en) Artificial neural network class-based pruning
WO2018133761A1 (zh) 一种人机对话的方法和装置
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
KR20170125720A (ko) 심층 신경망 기반의 인식 장치, 트레이닝 장치, 및 이들의 방법
CN109961041B (zh) 一种视频识别方法、装置及存储介质
WO2022121180A1 (zh) 模型的训练方法、装置、语音转换方法、设备及存储介质
CN112687266B (zh) 语音识别方法、装置、计算机设备和存储介质
US11967150B2 (en) Parallel video processing systems
CN111639766A (zh) 样本数据的生成方法以及装置
CN113743277A (zh) 一种短视频分类方法及系统、设备和存储介质
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN117173269A (zh) 一种人脸图像生成方法、装置、电子设备和存储介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN112446461A (zh) 一种神经网络模型训练方法及装置
CN114037772A (zh) 一种图像生成器的训练方法、图像生成方法及装置
CN112232360A (zh) 图像检索模型优化方法、图像检索方法、装置及存储介质
CN112561050A (zh) 一种神经网络模型训练方法及装置
CN112906724A (zh) 一种图像处理装置、方法、介质及系统
CN112784575B (zh) 语句的处理方法及装置
CN115170809B (zh) 图像分割模型训练、图像分割方法、装置、设备及介质
CN117669738B (zh) 引擎更新方法、处理方法、装置、设备、介质及机器人

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201201

R150 Certificate of patent or registration of utility model

Ref document number: 6806412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150