本発明は、画像処理分野に関し、特に、画像処理装置及び方法に関する。
ユーザーは、写真を撮った後、より良い画像効果を示すために、コンピュータにおけるPSソフトウェア又は携帯電話におけるレタッチソフトウェアによって画像処理を行うことがある。
しかし、コンピュータにおけるPSソフトウェアや携帯電話におけるレタッチソフトウェアを利用して画像処理を行う前に、ユーザーはソフトウェアの使用方法を習得する必要があり、且つソフトウェアの使用方法を習得した後に、命令を手動で入力してコンピュータや携帯電話を制御してレタッチ操作を行う必要がある。ユーザーにとって、このような方式は時間がかかるだけでなく、ユーザーの経験も悪かった。
本発明の実施例は、音声を入力すると画像を処理できる機能を実現し、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させる画像処理装置及び方法を提供することを目的とする。
第1の態様として、本発明の実施例は、
音声信号と処理対象画像を受信するための受信モジュールと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備える画像処理装置を提供する。
また、好ましい一実施例において、前記変換モジュールは、具体的に、
音声認識技術によって前記音声信号をテキスト情報に変換し、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記変換モジュールは、さらに具体的に、
音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記画像処理装置は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュールをさらに備える。
また、好ましい一実施例において、前記処理モジュールは、具体的に、
予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得し、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、好ましい一実施例において、前記処理モジュールは、さらに具体的に、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、好ましい一実施例において、前記変換モジュールは、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するために用いられる。
また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モジュールの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記変換モジュールは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記画像処理装置は、
音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュールをさらに備える。
また、好ましい一実施例において、前記処理モジュールは、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられる。
また、好ましい一実施例において、前記処理モジュールによる前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記処理モジュールによる前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記処理モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記訓練モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
第2の態様として、本発明の実施例は、
音声信号及び処理対象画像を受信するステップと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するステップと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップと、を含む画像処理方法を提供する。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記処理対象画像の処理対象領域を取得するステップは、
前記画像処理命令における語義領域の粒度に基づいて、前記処理対象画像を、粒度の同じM個の領域に分割するステップと、
前記画像処理命令に応じて、前記M個の領域から前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理するステップは、
予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記音声命令変換モジュールに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
本発明の実施例の技術手段において、画像処理装置の受信モジュールは音声信号と処理対象画像を取得し、画像処理装置の変換モジュールは目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換し、画像処理装置の処理モジュールは前記画像処理命令と前記目標音声命令変換モデルに従って前記目標領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
第3の態様として、本発明の実施例は、
ユーザーの入力した音声信号を収集するための音声収集装置と、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するための命令変換装置と、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための画像処理機と、を備える画像処理装置を提供する。
また、好ましい一実施例において、前記命令変換装置は、
前記音声認識技術によって音声信号をテキスト情報に変換するための第1の音声認識装置と、
自然言語処理技術と前記目標音声命令変換モデルによってテキスト情報を前記画像処理命令に変換するための音声テキスト変換装置と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第1の画像認識装置と、を備える。
また、好ましい一実施例において、前記命令変換装置は、
前記音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するための第2の音声認識装置と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第2の画像認識装置と、を備える。
また、好ましい一実施例において、前記画像処理装置は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するためのメモリをさらに備える。
また、好ましい一実施例において、その特徴として、前記画像処理機は、
予め設定された時間ウィンドウ内で前記メモリからM(Mは1より大きい整数)個の画像処理命令を取得するための命令取得モジュールと、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理モジュールと、を備える。
また、好ましい一実施例において、前記処理モジュールは、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理する。
また、好ましい一実施例において、前記命令変換装置は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するために用いられる。
また、好ましい一実施例において、前記命令変換装置による前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記命令変換装置による前記音声命令変換モデルの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記命令変換装置は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記画像処理装置は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置をさらに備える。
また、好ましい一実施例において、前記画像処理機は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられる。
また、好ましい一実施例において、前記画像処理機による前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理機による前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理機は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記訓練装置は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
第4の態様として、本発明の実施例は、
ユーザーの入力した音声信号を収集するステップと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するステップと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップと、を含む画像処理方法を提供する。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、
予め設定された時間ウィンドウ内で前記メモリからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
第5の態様として、本発明の実施例は、本発明の実施例の第3の態様の前記画像処理装置を備える画像処理チップも提供する。
また、好ましい一実施例において、上記チップは、メインチップと、連携チップとを備え、
上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
第6の態様として、本発明の実施例は、本発明の実施例の第5の態様に記載の画像処理チップを備えるチップパッケージ構造を提供する。
第7の態様として、本発明の実施例は、本発明の実施例の第6の態様に記載のチップパッケージ構造を備えるボードカードを提供する。
第8の態様として、本発明の実施例は、本発明の実施例の第7の態様に記載のボードカードを備える電子機器を提供する。
なお、本発明の実施例の技術手段において、音声収集装置はユーザーの入力した音声信号を収集し、命令変換装置は目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、画像処理機は前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
第9の態様として、本発明の実施例は、
音声信号と処理対象画像を入力するための入出力手段と、
前記音声信号と前記処理対象画像を記憶するための記憶手段と、
前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するための画像処理手段と、を備え、
前記入出力手段は、前記処理後の画像を出力するためにも用いられる画像処理装置を提供する。
また、好ましい一実施例において、前記記憶手段は、ニューロン記憶手段と、重みキャッシュ手段とを備え、前記画像処理手段のニューラルネットワーク演算手段は、ニューラルネットワーク演算サブ手段を備え、
前記ニューロン記憶手段が前記音声信号と前記処理対象画像を記憶するために用いられ、且つ、前記重みキャッシュ手段が目標音声命令変換モデルと目標画像処理モデルを記憶するために用いられる場合、前記ニューラルネットワーク演算サブ手段は前記目標音声命令変換モデルに従って前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、
前記ニューラルネットワーク演算サブ手段は、前記目標画像処理モデルと前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、
前記ニューラルネットワーク演算サブ手段は、前記処理後の画像を前記ニューロン記憶手段に記憶するためにも用いられる。
また、好ましい一実施例において、前記記憶手段は汎用データキャッシュ手段を備え、前記画像処理手段のニューラルネットワーク演算手段は汎用演算サブ手段を備え、
前記汎用データキャッシュ手段が前記音声信号と前記処理対象画像を受信するために用いられる場合、前記汎用演算サブ手段は前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、
前記汎用演算サブ手段は、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、
前記汎用演算サブ手段は、前記処理後の画像を前記汎用データ記憶手段に記憶するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、具体的に、
音声認識技術に基づいて前記音声信号をテキスト情報に変換し、
自然言語処理技術と前記目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、具体的に、
音声認識技術、語義理解技術及び前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記汎用演算サブ手段は、具体的に、
音声認識技術に基づいて前記音声信号をテキスト情報に変換し、
自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記汎用演算サブ手段は、具体的に、
音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記ニューロン記憶手段は、前記目標領域と前記画像処理命令を記憶するために用いられる。
また、好ましい一実施例において、前記汎用データキャッシュ手段は前記目標領域と前記画像処理命令を記憶するために用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得し、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するために用いられる。
また、好ましい一実施例において、前記汎用演算サブ手段は、
予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得し、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するために用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記画像処理装置の画像処理手段は、
ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段と、
前記ニューラルネットワーク演算命令を前記ニューラルネットワーク演算サブ手段に伝送し、前記汎用演算命令を前記汎用演算サブ手段に伝送するための命令処理手段と、をさらに備える。
第10の態様として、本発明の実施例は、
音声信号と処理対象画像を入力するステップと、
前記音声信号と前記処理対象画像を記憶するステップと、
前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するステップと、
前記処理後の画像を出力するステップと、を含む画像処理方法を提供する。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップの後に、前記方法は、
前記画像処理命令と前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、
予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令と目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、
予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行うステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
第11の態様として、本発明の実施例は、本発明の実施例の第1の態様の前記画像処理装置を備える画像処理チップも提供している。
また、好ましい一実施例において、上記チップは、メインチップと、連携チップとを備え、
上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
第12の態様として、本発明の実施例は、本発明の実施例の第11の態様に記載の画像処理チップを備えるチップパッケージ構造を提供する。
第13の態様として、本発明の実施例は、本発明の実施例の第12の態様に記載のチップパッケージ構造を備えるボードカードを提供する。
第14の態様として、本発明の実施例は、本発明の実施例の第13の態様に記載のボードカードを備える電子機器を提供する。
なお、本発明の実施例の技術手段において、入出力手段は音声信号と処理対象画像を入力し、記憶手段は前記音声信号と前記処理対象画像を記憶し、画像処理手段は前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶し、前記入出力手段は前記処理後の画像を出力することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
以下では、本発明の実施例又は従来技術における技術案をより明らかに説明するために、実施例又は従来技術の記述に使用する必要がある図面について簡単に説明する。なお、以下の説明における図面は単に本発明の一部の実施例に過ぎず、当業者にとって、これらの図面に基づいて創造的な活動をしない前提で他の図面を得ることができることは言うまでもない。
本発明の実施例が提供する画像処理装置の構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供するチップの構造模式図である。
本発明の実施例が提供する他のチップの構造模式図である。
本発明の実施例が提供する画像処理方法のフローチャートである。
本発明の実施例が提供する画像処理装置の構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する電子機器の構造模式図である。
本発明の実施例が提供する画像処理方法のフローチャートである。
本発明の実施例が提供する画像処理装置の構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する電子機器の構造模式図である。
本発明の実施例が提供する画像処理方法のフローチャートである。
以下に、それぞれを詳細に説明する。
本発明の明細書、特許請求の範囲及び前記図面における「第1」、「第2」、「第3」及び「第4」等の用語は異なる相手を区別するために使用され、特定の順序を説明することを意図しない。また、用語「含む」、「有する」及びそれらのいずれか変更は、非排他的に含むことを意図している。例えば、一連のステップ又は手段を含む過程、方法、システム、製品又は機器は、列挙されたステップ又は手段に限定されず、列挙していないステップ又は手段を選択的に含むか、或いは、これらの過程、方法、製品又は機器に固有の他のステップ又は手段を選択的に含むことができる。
本明細書で言及している「実施例」は、実施例と併せて説明する特定の特徴、構造又は特性が本発明の少なくとも一つの実施例に含まれ得ることを意味する。明細書の様々な箇所で出現する当該短句は、必ずしも同じ実施例を指しているわけではなく、他の実施例と相互排除する独立又は候補の実施例でもない。当業者であれば、本明細書に記載の実施例が他の実施例と組み合わせることができることを明示的及び暗黙的に理解するであろう。
第1の態様として、本発明の実施例が提供する画像処理装置の構造模式図である図1に示すように、当該画像処理装置100は、
音声信号と処理対象画像を受信するための受信モジュール101を備える。
好ましくは、上記画像処理装置100は、前処理モジュールをさらに備え、上記受信モジュール101が上記音声信号を受信した後、上記前処理モジュールは当該音声信号に対して騒音低減処理を実行する。
好ましくは、受信モジュール101は、オーディオ収集手段を備え、当該オーディオ収集手段は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集機器であってもよい。
具体的に、上記受信装置101は、上記音声信号を受信する時、環境声音信号も受信する。上記前処理モジュールは、上記環境声音信号に応じて上記音声信号に対して騒音低減処理を実行する。当該環境声音信号は上記音声信号にとって騒音である。
さらに、上記オーディオ収集手段は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。
好ましくは、1つの可能な実施例において、上記画像処理装置は、第1の記憶モジュールと第2の記憶モジュールとをさらに備える。上記受信装置が上記音声信号と上記処理対象画像を受信した後、上記画像処理装置は上記音声信号と上記処理対象画像を第1の記憶モジュールと第2の記憶モジュールにそれぞれ記憶する。
好ましくは、上記第1の記憶モジュールと上記第2の記憶モジュールは、同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。
変換モジュール102は、目標音声命令変換モデルに基づいて前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するために用いられる。
好ましくは、上記変換モジュール102は、音声認識技術、自然言語処理技術及び画像認識技術に基づいて前記音声信号を画像処理命令と目標領域に変換する前に、上記変換モジュールは上記第1の記憶モジュールから上記音声処理信号を取得する。
そのうち、前記変換モジュール102は、
音声認識技術によって前記音声信号をテキスト情報に変換するための第1の音声認識手段1021と、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するための語義理解手段1022と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第1の画像認識手段1023と、を備える。
さらに、上記変換モジュール102は、上記画像処理命令における語義領域の粒度を取得するための取得手段1026をさらに備える。
例を挙げて上記語義領域を説明すると、上記画像処理装置100が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。
具体的に、本発明で使用される音声認識技術は、人工ニューラルネットワーク(Artificial Neural Network;ANN)、隠れマルコフモデル(Hidden Markov Model;HMM)等のモデルを含むが、これらに限定されない。上記第1の音声認識手段は、上記音声認識技術に基づいて上記音声信号を処理してもよい。上記自然言語処理技術は、統計的機械学習や、ANN等の方法を利用することを含むが、これらに限定されない。上記語義理解手段は、上記自然言語処理技術に基づいて語義情報を抽出することができる。上記画像認識技術は、エッジ検出に基づく方法、閾値分割方法、領域成長及び分水嶺(watershed)アルゴリズム、階調積分投影(Gray−level Integration Projection)曲線分析、テンプレートマッチング、変形可能テンプレート、ハフ(Hough)変換、スネーク(Snake)演算子、Gaborウェーブレット変換に基づく弾性マップマッチング技術や、アクティブ形状モデル及びアクティブ外観モデル等の方法等のアルゴリズムを含むが、これらに限定されない。上記画像認識手段は、上記画像認識技術に基づいて上記処理対象画像を異なる領域に分割することができる。
また、好ましい一実施例において、上記音声認識手段1021は上記音声認識技術によって上記音声信号をテキスト情報に変換し、当該テキスト情報を上記第1の記憶モジュールに保存する。上記語義理解手段1022は上記第1の記憶モジュールから上記テキスト情報を取得し、自然言語処理技術と上記目標音声命令変換モデルによって当該テキスト情報を画像処理命令に変換し、画像処理命令を上記第1の記憶モジュールに保存する。上記第1の画像認識手段1023は上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得し、上記分割結果と上記目標領域を上記第2の記憶モジュールに記憶する。
また、好ましい一実施例において、上記変換モジュール102は、
音声認識技術、自然言語処理技術と前記目標音声命令変換モデルに基づいて上記音声信号を直接に上記画像処理命令に変換し、当該画像処理命令を第1の記憶モジュールに保存するための音声認識手段1025と、
上記画像処理命令における上記処理対象画像を操作する語義領域の粒度に基づいて、当該処理対象画像を当該語義領域の粒度に従って分割し、上記処理対象画像を処理する領域である目標領域を取得し、分割後の結果及び上記目標領域を第2の記憶モジュールに記憶する第2の画像認識手段1026と、を備えてもよい。
好ましくは、上記受信モジュール101が上記音声信号と上記処理対象画像を受信する前に、上記変換モジュール102が音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。
また、上記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記変換モジュール102がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記変換モジュールと異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記変換モジュール102が上記目標音声命令変換モデルを使用する必要がある場合、当該変換モジュール102は上記クラウドサーバから当該目標音声命令変換モデルを取得する。
好ましくは、上記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記変換モジュール102が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記変換モジュール102が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置100は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュール105をさらに備える。
一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記変換モジュール102又は訓練モジュール105が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に1つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記変換モジュール102又は訓練モジュール105はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記変換モジュール102又は訓練モジュール105は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。
前記画像処理装置100は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュール104をさらに備える。
また、好ましい一実施例において、上記記憶モジュール104は、上記第1の記憶モジュール及び第2の記憶モジュールと同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。
処理モジュール103は、前記画像処理命令と目標画像処理モデルに基づいて前記処理対象画像を処理するためのものである。
また、前記処理モジュール103は、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するための取得手段1031と、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理手段1032と、をさらに備える。
好ましくは、前記処理手段1032は、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記取得手段1031は上記記憶モジュール104からM個の画像処理命令を取得した後、上記処理手段1032は上記M個の画像処理命令について2つずつ比較し、当該M個の画像処理命令のうち同じ機能を有する命令を削除して、N個の画像処理命令を取得する。上記処理手段1032は上記N個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。
一例として、上記処理手段1032は上記M個の画像処理命令について2つずつ比較する。画像処理命令Aと画像処理命令Bとが同じである場合、上記処理手段1032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、画像処理命令Aと画像処理命令Bとが異なる場合、上記処理手段1032は上記画像処理命令Aと上記画像処理命令Bの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Aと上記画像処理命令Bの機能が同じであることを確定し、上記処理手段1032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記処理手段1032は上記画像処理命令A及びBの機能が異なることを確定する。当該画像処理命令A及びBは上記M個の処理命令のうちの任意の2つである。
具体的に、上記処理モジュール103に対し、その入力と出力はいずれも画像である。上記処理モジュール103のANNや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体(例えば美脚、豊胸)、顔の変更、顔の美化、オブジェクトの変更(猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等)、背景の変更(後の森を畑に置き換え)、遮蔽物除去(例えば片目が顔に遮られると、再度に目を再構成する)、スタイルの変換(1秒でゴッホ画風へ変更)、位置姿勢の変換(例えば立っている状態から座る状態に変更、顔の正面から側面への変更)、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。
好ましくは、上記受信モジュール101が上記音声信号と上記処理対象画像を受信する前に、上記処理モジュール103は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。
また、上記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記処理モジュール103がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記変換モジュールと異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記処理モジュール103が上記目標画像処理モデルを使用する必要がある場合、当該処理モジュール103は上記クラウドサーバから当該目標画像処理モデルを取得する。
好ましくは、上記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記処理モジュール103が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記処理モジュール103が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置100は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュール105をさらに備える。
一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記処理モジュール103又は訓練モジュール105が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎にいつの目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記処理モジュール103又は訓練モジュール105はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記処理モジュール103又は訓練モジュール105は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。
また、好ましい一実施例において、前記画像処理装置100の変換モジュール102は、変換モジュール102における音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するために用いることができる。また、前記画像処理装置100の処理モジュール103は、処理モジュール103における画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するために用いることができる。
また、好ましい一実施例において、前記画像処理装置100は、変換モジュール102における音声命令変換モデルと処理モジュール103における画像処理モデルに対してそれぞれ自己適応訓練を行って、目標音声命令変換モデルと目標画像処理モデルを取得するための訓練モジュール105をさらに備える。
上記訓練モジュール105は、監督される方法又は監督されない方法によって上記音声命令変換モデル又は上記画像処理モデルにおける構造とパラメータを調整して、当該音声命令変換モデル又は画像処理モデルの性能を向上し、最終に目標音声命令変換モデル又は目標画像処理モデルを取得することができる。
本実施例において、画像処理装置100はモジュール化されている。本明細書における「モジュール」は、特定用途向け集積回路(application−specific integrated circuit;ASIC)、1つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び/又は他の上記機能を提供することができるデバイスを指してもよい。また、以上の受信モジュール101、変換モジュール102、処理モジュール103、記憶モジュール104、及び訓練モジュール105は、図5、図6、図7に示す人工ニューラルネットワークチップによって実現することができる。
好ましくは、上記画像処理装置100の変換モジュール102又は処理モジュール103の処理手段1032は人工ニューラルネットワークチップである。即ち、上記変換モジュール102と上記処理モジュール103の処理手段1032は独立した2枚の人工ニューラルネットワークチップであり、その構造はそれぞれ図5及び図6に示す通りである。
本装置において、変換モジュール102と処理モジュール103は、直列に実行されてもよく、ソフトウェアパイプラインの形態で実行されてもよい。即ち、処理モジュール103が前の画像を処理する時、変換モジュール102は次の画像を処理することができる。そうすると、ハードウェアのスループットを向上し、画像処理効率を向上することができる。
図5を参照すると、図5は人工ニューラルネットワークチップの構造ブロック模式図である。図5に示すように、当該チップは、制御手段510と、記憶手段520と、入出力手段530とを備える。
また、上記制御手段510は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段511を備える。
一実施形態において、命令キャッシュ手段511は並べ替えキャッシュであってもよい。
命令処理手段512は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段519に供給するためのものである。上記命令処理手段512は、命令キャッシュ手段から命令を取得するための命令取得モジュール513と、取得した命令を復号するための復号モジュール514と、復号後の命令について順に記憶するための命令キューモジュール515と、を備える。
スカラレジスタモジュール516は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール517は、上記命令処理手段512によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段518に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段519に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段519に与える。
記憶キュー手段518は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段518内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段519は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段520は、ニューロンキャッシュ手段521と重みキャッシュ手段522とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段521と重みキャッシュ手段522に記憶されている。
入出力手段530は、音声信号を入力し、画像処理命令を出力するためのものである。
一実施形態において、記憶手段520はスクラッチパッドメモリであってもよく、入出力手段530はIO直接メモリアクセスモジュールであってもよい。
具体的に、上記チップ500、即ち上記処理モジュール102が音声信号を画像処理命令に変換することは、具体的に以下のステップを含む。
ステップ501では、命令取得モジュール513が命令キャッシュ手段511から1つの音声認識用の演算命令を取り出し、演算命令を復号モジュール514に送る。
ステップ502では、復号モジュール514が演算命令を復号し、復号後の命令を命令キュー手段515に送る。
ステップ503では、スカラレジスタモジュール516から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ504では、命令が処理依存関係モジュール517に送られ、処理依存関係モジュール517は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段519に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段518で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段519に送信する。
ステップ505では、ニューラルネットワーク演算手段519が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段520から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップ506では、ニューラルネットワーク演算手段519が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段520に書き戻しする。
図6を参照すると、図6は他の人工ニューラルネットワークチップの構造ブロック模式図である。図6に示すように、当該チップは、制御手段610と、記憶手段620と、入出力手段630とを備える。
また、上記制御手段610は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段611を備える。
一実施形態において、命令キャッシュ手段611は並べ替えキャッシュであってもよい。
命令処理手段612は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段619に与えるためのものである。また、上記命令処理手段612は、命令キャッシュ手段から命令を取得するための命令取得モジュール613と、取得した命令を復号するための復号モジュール614と、復号後の命令について順に記憶するための命令キューモジュール615と、を備える。
スカラレジスタモジュール616は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール617は、上記命令処理手段612によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段618に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段619に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段619に与える。
記憶キュー手段618は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段618内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段619は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段620は、ニューロンキャッシュ手段621と重みキャッシュ手段622とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段621と重みキャッシュ手段622に記憶されている。
入出力手段630は、画像処理命令と処理対象画像を入力し、処理後の画像を出力するためのものである。
一実施形態において、記憶手段620はスクラッチパッドメモリであってもよく、入出力手段630はIO直接メモリアクセスモジュールであってもよい。
上記チップ、即ち上記処理モジュール103の処理手段1032が行う画像処理は、具体的に以下のようなステップを含む。
ステップ601では、命令取得モジュール613が命令キャッシュ手段611から1つの変換モジュールの生成した画像処理の命令を取り出し、演算命令を復号モジュール614に送る。
ステップ602では、復号モジュール614が演算命令を復号し、復号後の命令を命令キュー手段815に送信する。
ステップ603では、スカラレジスタモジュール616から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ604では、命令が処理依存関係モジュール617に送られ、処理依存関係モジュール617は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段619に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段618で待ちする必要があり、その後に前記命令に対応するマイクロ命令をニューラルネットワーク演算手段619に送信する。
ステップ605では、ニューラルネットワーク演算手段619が前記命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段620から処理対象画像や、画像処理モデルデータ等を含む必要なデータを取り出す。
ステップ606では、ニューラルネットワーク演算手段619が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、処理結果を記憶手段620に書き戻しする。
なお、上記変換モジュール102と上記処理モジュール103の処理手段1032はいずれも人工ニューラルネットワークチップ又は汎用処理チップであってもよい。或いは、上記変換モジュール102と上記処理モジュール103の処理手段1032のうち、一方が人工ニューラルネットワークチップであり、他方が汎用処理チップであってもよい。
好ましくは、上記画像処理装置は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
なお、本発明の実施例の技術案において、受信モジュールが音声信号と処理対象画像を受信して取得し、変換モジュールが目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像に対する処理対象領域に変換し、処理モジュールが前記画像処理命令と目標画像処理モデルに従って前記処理対象画像の処理領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
第2の態様として、本発明の実施例は、音声信号と処理対象画像を受信するための受信モジュールと、目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備える画像処理装置をさらに提供する。
また、前記変換モジュールは、具体的に、音声認識技術によって前記音声信号をテキスト情報に変換し、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、前記変換モジュールは、さらに具体的に、音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、前記画像処理装置は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュールをさらに備える。
また、前記処理モジュールは、具体的に、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、前記処理モジュールは、さらに具体的に、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、前記変換モジュールは、音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得する。
また、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練は監督されるか、又は監督されない。
また、前記変換モジュールは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、前記画像処理装置は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュールをさらに備える。
また、前記処理モジュールは、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得する。
また、前記処理モジュールによる前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、前記処理モジュールによる前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。
また、前記処理モジュールは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、前記予測画像及びその対応する目標画像の相関係数を確定し、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、前記訓練モジュールは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、前記予測画像及びその対応する目標画像の相関係数を確定し、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
なお、上記画像処理装置の実現過程は、図1に示す実施例の具体的な実現過程を参照することができ、ここではさらに詳しく説明しない。
第3の態様において、本発明の実施例は画像処理方法を提供する。図7に示すように、当該方法は、画像処理装置が音声信号と処理対象画像を受信するステップS701と、前記画像処理装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するステップS702と、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術によって前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
ステップS703は、前記画像処理装置が前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップである。
また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記音声命令変換モジュールに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
なお、図7に示す方法の各ステップの具体的な実現過程は、上記画像処理装置の具体的な実現過程を参照すればよい。よって、ここではさらに説明しない。
本発明の実施例はコンピュータ記憶媒体も提供している。当該コンピュータ記憶媒体はプログラムを記憶することができる。当該プログラムは、実行時に上記した方法実施例に記載の上記のいずれか画像処理方法の一部又は全部のステップを含む。
図8を参照すると、図8は本発明の実施例が提供する画像処理装置の構造模式図である。図8に示すように、当該画像処理装置800は、ユーザーが入力した音声信号を収集するための音声収集装置801を備える。
好ましくは、上記画像処理装置800は、騒音フィルタをさらに備える。上記音声収集装置801が上記音声信号を収集した後、上記騒音フィルタは当該音声信号に対して騒音低減処理を行う。
好ましくは、当該音声収集装置は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集装置であってもよい。
具体的に、上記音声収集装置801は、上記音声信号を受信する時、環境声音信号も受信する。上記騒音フィルタは、上記環境声音信号に基づいて上記音声信号に騒音低減処理を行う。当該環境声音信号は、上記音声信号にとっては騒音である。
さらに、上記オーディオ収集装置801は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。
好ましくは、1つの可能な実施例において、上記画像処理装置は第1のメモリをさらに備える。上記音声収集装置が上記音声信号を収集した後、上記画像処理装置は上記音声信号を第1のメモリに記憶する。
命令変換装置802は、目標音声命令変換モデルに基づいて前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するために用いられる。
好ましくは、上記命令変換装置802は、音声認識技術、自然言語処理技術及び画像認識技術に基づいて前記音声信号を画像処理命令と目標領域に変換する前に、上記命令変換装置802は上記第1のメモリから上記音声信号を取得する。
また、前記命令変換装置802は、音声認識技術によって前記音声信号をテキスト情報に変換するための第1の音声認識装置8021と、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するための音声テキスト変換装置8022と、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第1の画像認識装置8023と、を備える。
さらに、上記命令変換装置802は、上記画像処理命令における語義領域の粒度を取得するための取得モジュール8026をさらに備える。
例を挙げて上記語義領域を説明すると、上記画像処理装置800が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。
具体的に、本発明で使用される音声認識技術は、人工ニューラルネットワーク(Artificial Neural Network;ANN)、隠れマルコフモデル(Hidden Markov Model;HMM)等のモデルを含むが、これらに限定されない。上記第1の音声認識手段は、上記音声認識技術に基づいて上記音声信号を処理してもよい。上記自然言語処理技術は、統計的機械学習や、ANN等の方法を利用することを含むが、これらに限定されない。上記語義理解手段は、上記自然言語処理技術に基づいて語義情報を抽出することができる。上記画像認識技術は、エッジ検出に基づく方法、閾値分割方法、領域成長及び分水嶺(watershed)アルゴリズム、階調積分投影(Gray−level Integration Projection)曲線分析、テンプレートマッチング、変形可能テンプレート、ハフ(Hough)変換、スネーク(Snake)演算子、Gaborウェーブレット変換に基づく弾性マップマッチング技術や、アクティブ形状モデル及びアクティブ外観モデル等の方法等のアルゴリズムを含むが、これらに限定されない。上記画像認識手段は、上記画像認識技術に基づいて上記処理対象画像を異なる領域に分割することができる。
また、好ましい一実施例において、上記第1の音声認識装置8021は上記音声認識技術によって上記音声信号をテキスト情報に変換し、当該テキスト情報を上記第1のメモリに保存する。上記音声テキスト変換装置8022は上記第1のメモリから上記テキスト情報を取得し、自然言語処理技術と上記目標音声命令変換モデルによって当該テキスト情報を画像処理命令に変換し、上記画像処理命令を上記第1のメモリに保存する。上記第1の画像認識装置8023は上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得し、上記分割結果と上記目標領域を上記第2のメモリに記憶する。
また、好ましい一実施例において、上記命令変換装置802は、音声認識技術、自然言語処理技術及び上記目標音声命令変換モデルに基づいて上記音声信号を直接に上記画像処理命令に変換し、当該画像処理命令を第1のメモリに保存するための第2の音声認識装置8025と、上記画像処理命令における上記処理対象画像を操作する語義領域の粒度に基づいて、当該処理対象画像を当該語義領域の粒度に従って分割し、上記処理対象画像を処理する領域である目標領域を取得し、分割後の結果及び上記目標領域を第2のメモリに記憶するための第2の画像認識装置8026と、を備えてもよい。
好ましくは、上記音声収集装置801が上記音声信号と上記処理対象画像を受信する前に、上記命令変換装置802が音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。
また、上記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記命令変換装置802がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記命令変換装置802と異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記命令変換装置802が上記目標音声命令変換モデルを使用する必要がある場合、当該命令変換装置802は上記クラウドサーバから当該目標音声命令変換モデルを取得する。
好ましくは、上記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記命令変換装置802が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記命令変換装置802が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置800は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置805をさらに備える。
一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記命令変換装置802又は訓練装置805が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に1つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記命令変換装置802又は訓練装置805はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記命令変換装置802又は訓練装置805は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。
前記画像処理装置800は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するためのメモリ804をさらに備える。
また、好ましい一実施例において、上記メモリ804は、上記第1の記憶モジュール及び第2の記憶モジュールと同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。
画像処理機803は、前記画像処理命令と目標画像処理モデルに基づいて前記処理対象画像を処理するためのものである。
また、前記画像処理機803は、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するための命令取得モジュール8031と、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理モジュール8032と、を備える。
好ましくは、前記処理モジュール8032は、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記取得手段8031は上記記憶モジュール804からM個の画像処理命令を取得した後、上記処理モジュール8032は上記M個の画像処理命令について2つずつ比較し、当該M個の画像処理命令のうち同じ機能を有する命令を削除して、N個の画像処理命令を取得する。上記処理モジュール8032は上記N個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。
一例として、上記処理モジュール8032は上記M個の画像処理命令について2つずつ比較する。画像処理命令Aと画像処理命令Bとが同じである場合、上記処理モジュール8032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、画像処理命令Aと画像処理命令Bとが異なる場合、上記処理モジュール8032は上記画像処理命令Aと上記画像処理命令Bの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Aと上記画像処理命令Bの機能が同じであることを確定し、上記処理モジュール8032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記処理モジュール8032は上記画像処理命令A及びBの機能が異なることを確定する。当該画像処理命令A及びBは上記N個の処理命令のうちの任意の2つである。
具体的に、上記画像処理機803に対し、その入力と出力はいずれも画像である。上記画像処理機803のANNや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体(例えば美脚、豊胸)、顔の変更、顔の美化、オブジェクトの変更(猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等)、背景の変更(後の森を畑に置き換え)、遮蔽物除去(例えば片目が顔に遮られると、再度に目を再構成する)、スタイルの変換(1秒でゴッホ画風へ変更)、位置姿勢の変換(例えば立っている状態から座る状態に変更、顔の正面から側面への変更)、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。
好ましくは、上記音声収集装置801が上記音声信号を受信する前に、上記画像処理機803は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。
また、上記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記画像処理機803がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練はオンラインで行われることは、具体的に、上記画像処理機803と異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記画像処理機803が上記目標画像処理モデルを使用する必要がある場合、当該画像処理機803は上記クラウドサーバから当該目標画像処理モデルを取得する。
好ましくは、上記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記画像処理機803が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記画像処理機803が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置800は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置805をさらに備える。
一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記画像処理機803又は訓練装置805が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に1枚の目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記画像処理機803又は訓練装置805はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記画像処理機803又は訓練装置805は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。
また、好ましい一実施例において、前記画像処理装置800の命令変換装置802は、命令変換装置802における音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するために用いることができる。前記画像処理装置800の画像処理機803は、画像処理機803における画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するために用いることができる。
また、好ましい一実施例において、前記画像処理装置800は、命令変換装置802における音声命令変換モデルと画像処理機803における画像処理モデルに対してそれぞれ自己適応訓練を行って、目標音声命令変換モデルと目標画像処理モデルを取得するための訓練装置805をさらに備える。
上記訓練装置805は、監督される方法又は監督されない方法によって上記音声命令変換モデル又は上記画像処理モデルにおける構造とパラメータを調整して、当該音声命令変換モデル又は画像処理モデルの性能を向上し、最終に目標音声命令変換モデル又は目標画像処理モデルを取得することができる。
本実施例において、画像処理装置800はモジュール化されている。本明細書における「モジュール」は、特定用途向け集積回路(application−specific integrated circuit;ASIC)、1つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び/又は他の上記機能を提供することができるデバイスを指してもよい。また、以上の音声収集装置801、命令変換装置802、画像処理機803、記憶モジュール804、及び訓練装置805は、図5、図6、図12、図8に示す人工ニューラルネットワークチップによって実現することができる。
好ましくは、上記画像処理装置800の命令変換装置802又は画像処理機803の処理モジュール8032は、人工ニューラルネットワークチップである。即ち、上記命令変換装置802と上記画像処理機803の処理モジュール8032は独立した2枚の人工ニューラルネットワークチップであり、その構造はそれぞれ図5及び図6に示す通りである。
本装置において、命令変換装置802と画像処理機803は、直列に実行されてもよく、ソフトウェアパイプラインの形態で実行されてもよい。即ち、画像処理機803が前の画像を処理する時、命令変換装置802は次の画像を処理することができる。そうすると、ハードウェアのスループットを向上し、画像処理効率を向上することができる。
図5を参照すると、図5は人工ニューラルネットワークチップの構造ブロック模式図である。図5に示すように、当該チップは、制御手段510と、記憶手段520と、入出力手段530とを備える。
また、上記制御手段510は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段511を備える。
一実施形態において、命令キャッシュ手段511は並べ替えキャッシュであってもよい。
命令処理手段512は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段519に供給するためのものである。上記命令処理手段512は、命令キャッシュ手段から命令を取得するための命令取得モジュール513と、取得した命令を復号するための復号モジュール514と、復号後の命令について順に記憶するための命令キューモジュール515と、を備える。
スカラレジスタモジュール516は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール517は、上記命令処理手段512によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段518に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段519に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段519に与える。
記憶キュー手段518は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段518内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段519は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段520は、ニューロンキャッシュ手段521と重みキャッシュ手段522とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段521と重みキャッシュ手段522に記憶されている。
入出力手段530は、音声信号を入力し、画像処理命令を出力するためのものである。
一実施形態において、記憶手段520はスクラッチパッドメモリであってもよく、入出力手段530はIO直接メモリアクセスモジュールであってもよい。
具体的に、上記チップ500、即ち上記命令変換装置102が音声信号を画像処理命令に変換することは、具体的に以下のステップを含む。
ステップ501では、命令取得モジュール513が命令キャッシュ手段511から1つの音声認識用の演算命令を取り出し、演算命令を復号モジュール514に送る。
ステップ502では、復号モジュール514が演算命令を復号し、復号後の命令を命令キュー手段515に送る。
ステップ503では、スカラレジスタモジュール516から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ504では、命令が処理依存関係モジュール517に送られ、処理依存関係モジュール517は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段519に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段518で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段519に送信する。
ステップ505では、ニューラルネットワーク演算手段519が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段520から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップ506では、ニューラルネットワーク演算手段519が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段520に書き戻しする。
なお、上記記憶手段520は図5に示すチップのキャッシュ・オン・チップ手段である。
図6を参照すると、図6は他の人工ニューラルネットワークチップの構造ブロック模式図である。図6に示すように、当該チップは、制御手段610と、記憶手段620と、入出力手段630とを備える。
また、上記制御手段610は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段611を備える。
一実施形態において、命令キャッシュ手段611は並べ替えキャッシュであってもよい。
命令処理手段612は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段619に与えるためのものである。また、上記命令処理手段612は、命令キャッシュ手段から命令を取得するための命令取得モジュール613と、取得した命令を復号するための復号モジュール614と、復号後の命令について順に記憶するための命令キューモジュール615と、を備える。
スカラレジスタモジュール616は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール617は、上記命令処理手段612によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段618に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段619に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段619に与える。
記憶キュー手段618は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段618内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段619は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段620は、ニューロンキャッシュ手段621と重みキャッシュ手段622とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段621と重みキャッシュ手段622に記憶されている。
入出力手段630は、画像処理命令と処理対象画像を入力し、処理後の画像を出力するためのものである。
一実施形態において、記憶手段620はスクラッチパッドメモリであってもよく、入出力手段630はIO直接メモリアクセスモジュールであってもよい。
上記チップ、即ち上記画像処理機103の処理モジュール1032が行う画像処理は、具体的に以下のようなステップを含む。
ステップ601では、命令取得モジュール613が命令キャッシュ手段611から1つの命令変換装置の生成した画像処理の命令を取り出し、演算命令を復号モジュール614に送る。
ステップ602では、復号モジュール614が演算命令を復号し、復号後の命令を命令キュー手段815に送信する。
ステップ603では、スカラレジスタモジュール616から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ604では、命令が処理依存関係モジュール617に送られ、処理依存関係モジュール617は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段619に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段618で待ちする必要があり、その後に前記命令に対応するマイクロ命令をニューラルネットワーク演算手段619に送信する。
ステップ605では、ニューラルネットワーク演算手段619が前記命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段620から処理対象画像や、画像処理モデルデータ等を含む必要なデータを取り出す。
ステップ606では、ニューラルネットワーク演算手段619が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、処理結果を記憶手段620に書き戻しする。
なお、上記記憶手段620は図6に示すチップのキャッシュ・オン・チップ手段である。
なお、上記命令変換装置102と上記画像処理機103の処理モジュール1032はいずれも人工ニューラルネットワークチップ又は汎用処理チップであってもよい。或いは、上記命令変換装置102と上記画像処理機103の処理モジュール1032のうち、一方が人工ニューラルネットワークチップであり、他方が汎用処理チップであってもよい。
好ましくは、上記画像処理装置は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
なお、本発明の実施例の技術案において、音声収集装置がユーザーの入力した音声信号を取得し、命令変換装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像に対する処理対象領域に変換し、画像処理機が前記画像処理命令と目標画像処理モデルに従って前記処理対象画像の処理領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
また、好ましい一実施例において、画像処理チップは上記の図8に示す画像処理装置を備える。
また、上記チップは、メインチップと連携チップとを備え、上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
また、上記連携チップは、上記の図5及び図6に示すチップを備える。
好ましくは、上記画像処理チップは、ビデオカメラ、携帯電話、コンピュータ、ノートブック、タブレット又は他の画像処理装置に用いることができる。
また、好ましい一実施例において、本発明の実施例は、上記の画像処理チップを備えるチップパッケージ構造を提供する。
また、好ましい一実施例において、本発明の実施例は、上記のチップパッケージ構造を備えるボードカードを提供する。
また、好ましい一実施例において、本発明の実施例は、上記のボードカードを備える電子機器を提供する。
1つの可能な実施例では、本発明の実施例が他の電子機器を提供している。当該電子機器は、上記ボードカード、対話型インタフェース、制御手段、及び音声収集装置を含んでいる。
図8に示すように、音声収集装置は音声を受信し、音声と処理対象画像を入力データとしてボードカードの内部のチップに伝えるために用いられる。
好ましくは、上記画像処理チップは、人工ニューラルネットワーク処理チップであってもよい。
好ましくは、音声収集装置は、マイクロフォン又はマルチアレイマイクロフォンであってもよい。
また、ボードカードの内部のチップは図5及び図6に示すものと同じ実施例を含み、対応する出力データ(即ち処理後の画像)を取得し、対話型インタフェースに伝送するためのものである。
また、対話型インタフェースは上記チップ(人工ニューラルネットワークプロセッサーと見なすことができる)の出力データを受信し、適切な形式のフィードバック情報に変換してユーザーに表示させる。
また、制御手段はユーザーの操作又は命令を受信し、画像処理装置全体の動作を制御する。
好ましくは、上記電子機器は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
図13を参照すると、図13は本発明の実施例が提供する画像処理方法のフローチャートである。図13に示すように、当該方法は次のようなステップを含む。
S1301では、画像処理装置がユーザーの入力した音声信号を収集する。
S1302では、前記画像処理装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換する。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術によって前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
S1303では、前記画像処理装置が前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理する。
また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオフラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
なお、図13に示す方法の各ステップの具体的実現過程は上記画像処理装置の具体的実現過程を参照してもよい。ここではさらに詳しく説明しない。
図14を参照すると、図14は本発明の実施例が提供する画像処理装置の構造模式図である。図14に示すように、当該画像処理装置は、音声信号と処理対象画像を入力するための入出力手段130を備えている。
好ましくは、上記画像処理装置は、騒音フィルタをさらに備え、上記入出力手段130が上記音声信号を取得した後、上記騒音フィルタは当該音声信号に対して騒音低減処理を行う。
好ましくは、当該入出力手段130は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集装置であってもよい。
具体的に、上記入出力手段130は、上記音声信号を取得する時、環境声音信号も取得する。上記騒音フィルタは、上記環境声音信号に応じて上記音声信号に対して騒音低減処理を実行する。当該環境声音信号は上記音声信号の騒音であると見なしてもよい。
さらに、上記入出力手段130は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。
記憶手段120は、前記音声信号と前記処理対象画像を記憶するためのものである。
画像処理手段110は、前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に従って前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するためのものである。
好ましくは、前記記憶手段120は、ニューロン記憶手段121と、重みキャッシュ手段122とを備え、前記画像処理手段110のニューラルネットワーク演算手段113は、ニューラルネットワーク演算サブ手段1131を備え、前記ニューロン記憶手段121が前記音声信号と前記処理対象画像を記憶するために用いられ、且つ、前記重みキャッシュ手段122が目標音声命令変換モデルと目標画像処理モデルを記憶するために用いられる場合、前記ニューラルネットワーク演算サブ手段1131は、前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、前記ニューラルネットワーク演算サブ手段1131は、前記目標画像処理モデルと前記画像処理命令に従って前記目標領域を処理して、処理後の画像を取得するためにも用いられ、前記処理後の画像を前記ニューロン記憶手段に記憶するためにも用いられる。
さらに、前記ニューラルネットワーク演算サブ手段1131は、具体的に、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然言語処理技術と前記目標音声命令変換モデルに従って前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記ニューラルネットワーク演算サブ手段1131は、具体的に、音声認識技術、語義理解技術及び前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記ニューロン記憶手段121は、前記目標領域と前記画像処理命令を記憶するために用いられる。
具体的に、前記ニューラルネットワーク演算サブ手段1131は、予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するために用いられる。
具体的に、上記記憶手段120のニューロン記憶手段121が上記音声信号と上記処理対象画像を記憶し、且つ、上記重みキャッシュ手段122が上記目標音声命令変換モデルを記憶する時、上記ニューラルネットワーク演算サブ手段1131は、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然音声処理技術と上記目標音声命令変換モデルに基づいて上記テキスト情報を画像処理命令に変換し、当該画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域する取得するか、又は、上記ニューラルネットワーク演算サブ手段1131は、音声認識技術、語義理解技術及び上記目標音声命令変換モデルに基づいて上記音声信号を画像処理命令に変換し、上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得する。
さらに、上記ニューラルネットワーク演算サブ手段1131は、上記画像処理命令と上記目標領域を上記ニューロンキャッシュ手段121に記憶する。上記ニューラルネットワーク演算サブ手段1131は、上記重みキャッシュ手段122から上記目標音声命令変換モデルを取得し、予め設定された時間ウィンドウ内で上記ニューロン記憶手段121からM個の画像処理命令と目標領域を取得し、上記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N個の画像処理命令を取得する。上記ニューラルネットワーク演算サブ手段1131は、上記N個の画像処理命令と上記目標画像処理モデルに基づいて上記目標領域を処理して、処理後の画像を取得する。
好ましくは、前記記憶手段は汎用データキャッシュ手段を備え、前記画像処理手段のニューラルネットワーク演算手段は汎用演算サブ手段を備え、前記汎用データキャッシュ手段が前記音声信号と前記処理対象画像を受信するために用いられる場合、前記汎用演算サブ手段は前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、前記汎用演算サブ手段は、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、前記汎用演算サブ手段は、前記処理後の画像を前記汎用データ記憶手段に記憶するためにも用いられる。
さらに、前記汎用演算サブ手段は、具体的に、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記汎用演算サブ手段は、具体的に、音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記汎用データキャッシュ手段は前記目標領域と前記画像処理命令を記憶するために用いられる。
具体的に、前記汎用演算サブ手段は、予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するために用いられる。
具体的に、上記記憶手段120の汎用データキャッシュ手段123が上記音声信号と上記処理対象画像を記憶する時、上記汎用演算サブ手段1132は、音声認識技術に基づいて上記音声信号をテキスト情報に変換し、自然言語処理技術に基づいて上記テキスト情報を画像処理命令に変換し、上記画像処理命令の語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割して、上記目標領域を取得するか、又は、上記汎用演算サブ手段1132は、音声認識技術と語義理解技術に基づいて上記音声信号を上記画像処理命令に変換し、当該画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割して、上記目標領域を取得する。
さらに、上記汎用演算サブ手段1132は上記画像処理命令と上記目標領域を上記汎用データキャッシュ手段123に記憶する。上記汎用演算サブ手段1132は上記汎用データキャッシュ手段から上記目標領域を取得し、予め設定された時間ウィンドウ内で上記汎用データキャッシュ手段からM個の画像処理命令を取得し、当該M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N個の画像処理命令を取得し、当該N個の画像処理命令に応じて上記目標領域を処理して、処理後の画像を取得する。
具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記ニューラルネットワーク演算サブ手段1131は上記ニューロン記憶手段121からM個の画像処理命令を取得するか、又は、上記汎用演算サブ手段1132は上記汎用データキャッシュ手段からM個の画像処理命令を取得した後、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記M個の画像処理命令について2つずつ比較し、当該M個の画像処理命令のうち同じ機能を有する命令を削除して、N個の画像処理命令を取得する。上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記N個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。
一例として、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記M個の画像処理命令について2つずつ比較する。画像処理命令Aと画像処理命令Bとが同じである場合、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、画像処理命令Aと画像処理命令Bとが異なる場合、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令Aと上記画像処理命令Bの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Aと上記画像処理命令Bの機能が同じであることを確定し、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令A及びBの機能が異なることを確定する。当該画像処理命令A及びBは上記N個の処理命令のうちの任意の2つである。
前記入出力手段104は、前記処理後の画像を出力するためにも用いられる。
また、上記画像処理手段は、上記音声信号に応じて上記処理対象画像を処理して、処理後の画像を取得した後、上記入出力手段によって当該処理後の画像を出力する。
例を挙げて上記語義領域を説明すると、上記画像処理装置が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。
具体的に、本発明で使用される音声認識技術は、人工ニューラルネットワーク(Artificial Neural Network;ANN)、隠れマルコフモデル(Hidden Markov Model;HMM)等のモデルを含むが、これらに限定されない。上記第1の音声認識手段は、上記音声認識技術に基づいて上記音声信号を処理してもよい。上記自然言語処理技術は、統計的機械学習や、ANN等の方法を利用することを含むが、これらに限定されない。上記語義理解手段は、上記自然言語処理技術に基づいて語義情報を抽出することができる。上記画像認識技術は、エッジ検出に基づく方法、閾値分割方法、領域成長及び分水嶺(watershed)アルゴリズム、階調積分投影(Gray−level Integration Projection)曲線分析、テンプレートマッチング、変形可能テンプレート、ハフ(Hough)変換、スネーク(Snake)演算子、Gaborウェーブレット変換に基づく弾性マップマッチング技術や、アクティブ形状モデル及びアクティブ外観モデル等の方法等のアルゴリズムを含むが、これらに限定されない。上記画像認識手段は、上記画像認識技術に基づいて上記処理対象画像を異なる領域に分割することができる。
好ましくは、上記入出力手段130が上記音声信号と上記処理対象画像を取得する前に、上記ニューラルネットワーク演算サブ手段1131は音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。
また、音声命令変換モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段1131がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、ニューラルネットワーク演算サブ手段1131と異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記ニューラルネットワーク演算サブ手段1131が上記目標音声命令変換モデルを使用する必要がある場合、当該ニューラルネットワーク演算サブ手段1131は上記クラウドサーバから当該目標音声命令変換モデルを取得する。
好ましくは、音声命令変換モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練は監督されるか、又は監督されない。
具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記ニューラルネットワーク演算サブ手段1131が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。
一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を取得することである。命令毎に1つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記ニューラルネットワーク演算サブ手段1131はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記ニューラルネットワーク演算サブ手段1131は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。
具体的に、上記画像処理手段110に対し、その入力と出力はいずれも画像である。上記画像103のANNや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体(例えば美脚、豊胸)、顔の変更、顔の美化、オブジェクトの変更(猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等)、背景の変更(後の森を畑に置き換え)、遮蔽物除去(例えば片目が顔に遮られると、再度に目を再構成する)、スタイルの変換(1秒でゴッホ画風へ変更)、位置姿勢の変換(例えば立っている状態から座る状態に変更、顔の正面から側面への変更)、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。
好ましくは、上記ニューラルネットワーク演算サブ手段1131が上記音声信号を受信する前に、当該ニューラルネットワーク演算サブ手段1131は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。
また、画像処理モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段1131がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段1131と異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記ニューラルネットワーク演算サブ手段1131が上記目標画像処理モデルを使用する必要がある場合、当該ニューラルネットワーク演算サブ手段1131は上記クラウドサーバから当該目標画像処理モデルを取得する。
好ましくは、画像処理モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練は監督されるか、又は監督されない。
具体的に、上記画像処理モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記ニューラルネットワーク演算サブ手段1131が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化し、前記目標画像処理モデルを取得することである。
一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を取得することである。命令毎に1枚の目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記ニューラルネットワーク演算サブ手段1131はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記ニューラルネットワーク演算サブ手段1131は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。
また、上記画像処理装置の画像処理手段110は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段111と、前記ニューラルネットワーク演算命令を前記ニューラルネットワーク演算サブ手段に伝送し、前記汎用演算命令を前記汎用演算サブ手段に伝送するための命令処理手段112と、をさらに備える。
なお、上記画像処理装置の画像処理手段113におけるニューラルネットワーク演算サブ手段1131が、画像処理操作や、上記画像処理モデルと上記音声命令変換モデルに対して自己適応訓練を行う過程において、上記命令処理手段112は上記命令キャッシュ手段111からニューラルネットワーク演算命令を取得し、上記ニューラルネットワーク演算サブ手段1131に伝送して、当該ニューラルネットワーク演算サブ手段1131を駆動する。上記汎用演算サブ手段1132が画像処理操作を行う過程において、上記命令処理手段112は上記命令キャッシュ手段111から汎用演算命令を取得して上記汎用演算サブ手段1132に伝送して、当該汎用演算サブ手段1132を駆動する。
本実施例において、上記画像処理装置は手段の形式で現れる。本明細書における「手段」は、特定用途向け集積回路(application−specific integrated circuit;ASIC)、1つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び/又は他の上記機能を提供することができるデバイスを指してもよい。
なお、本発明の実施例の技術案において、入出力手段は音声信号と処理対象画像を入力し、記憶手段は前記音声信号と前記処理対象画像を記憶し、画像処理手段は前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶し、前記入出力手段は前記処理後の画像を出力することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
図15を参照すると、図15は本発明の実施例が提供する他の画像処理装置の構造ブロック模式図である。図15に示すように、当該チップは、画像処理手段210と、記憶手段220と、入出力手段230とを備えている。
また、上記画像処理手段210は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段211を備える。
一実施形態において、上記命令キャッシュ手段211は並べ替えキャッシュであってもよい。
命令処理手段212は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段213に供給するためのものである。上記命令処理手段212は、命令キャッシュ手段から命令を取得するための命令取得モジュール214と、取得した命令を復号するための復号モジュール215と、復号後の命令について順に記憶するための命令キューモジュール216と、を備える。
スカラレジスタモジュール217は、ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール218は、上記命令処理手段212によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段219に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段213に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段213に与える。
記憶キュー手段219は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段219内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段213は、命令処理モジュール又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段220は、ニューロンキャッシュ手段521と重みキャッシュ手段522とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段221と重みキャッシュ手段222に記憶されている。
入出力手段230は、音声信号を入力し、画像処理命令を出力するためのものである。
一実施形態において、記憶手段220はスクラッチパッドメモリであってもよく、入出力手段230はIO直接メモリアクセスモジュールであってもよい。
具体的に、上記画像処理装置のニューラルネットワーク演算サブ手段が音声信号を画像処理命令に変換することは、具体的に次のようなステップを含む。
ステップAでは、命令取得モジュール214が命令キャッシュ手段211から1つの音声認識用のニューラルネットワーク演算命令を取り出し、演算命令を復号モジュール215に送る。
ステップBでは、復号モジュール215が演算命令を復号し、復号後の命令を命令キュー手段216に送る。
ステップCでは、スカラレジスタモジュール217から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップDでは、命令が処理依存関係モジュール218に送られ、当該処理依存関係モジュール218は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段213に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段219で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段213に送信する。
ステップEでは、ニューラルネットワーク演算サブ手段2131が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段220から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップFでは、ニューラルネットワーク演算サブ手段2131が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段220のニューロン記憶手段221に書き戻しする。
具体的に、上記画像処理装置の汎用演算サブ手段が音声信号を画像処理命令に変換することは、具体的に次のようなステップを含む。
ステップA’では、命令取得モジュール214が命令キャッシュ手段211から1つの音声認識用の汎用演算命令を取り出し、演算命令を復号モジュール215に送る。
ステップB’では、復号モジュール215が演算命令を復号し、復号後の命令を命令キュー手段216に送る。
ステップC’では、スカラレジスタモジュール217から前記命令に対応する汎用演算コマンドコードと汎用演算オペランドを取得する。
ステップD’では、命令が処理依存関係モジュール218に送られ、当該処理依存関係モジュール218は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段213に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段219で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段213に送信する。
ステップE’では、汎用演算サブ手段2132が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段220から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップF’では、汎用演算サブ手段2132が前記命令に対応する汎用演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段220の汎用データキャッシュ手段223に書き戻しする。
なお、画像処理過程において、上記ニューラルネットワーク演算サブ手段213のニューラルネットワーク演算サブ手段2131と汎用演算サブ手段2132、上記記憶手段220のニューロン記憶手段221、重みキャッシュ手段222と汎用データキャッシュ手段223と上記入出力手段230の具体的な操作過程は、図14に示す実施例の関連説明を参照することができ、ここではさらに説明しない。
なお、上記記憶手段220は図15に示す画像処理装置のキャッシュ・オン・チップ手段である。
好ましくは、上記画像処理装置は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
また、好ましい一実施例において、画像処理チップは上記した図14に示す画像処理装置を備えている。
また、上記チップは、メインチップと、連携チップとを備え、上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは、上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
好ましくは、上記画像処理チップは、ビデオカメラ、携帯電話、コンピュータ、ノートブック、タブレット又は他の画像処理装置に用いることができる。
また、好ましい一実施例において、本発明の実施例はチップパッケージ構造を提供しており、当該チップパッケージ構造は上記画像処理チップを備えている。
また、好ましい一実施例において、本発明の実施例はボードカードを提供しており、当該ボードカードは上記チップパッケージ構造を備えている。
また、好ましい一実施例において、本発明の実施例は電子機器を提供しており、当該電子機器は上記ボードカードを備えている。
また、好ましい一実施例において、本発明の実施例は他の電子機器を提供しており、当該電子機器は上記ボードカード、対話型インタフェース、制御手段と音声収集装置を備えている。
図16に示すように、上記音声収集装置は音声を受信し、音声と処理対象画像を入力データとしてボードカードの内部の画像処理チップに伝えるために用いられる。
好ましくは、上記画像処理チップは人工ニューラルネットワーク処理チップであってもよい。
好ましくは、音声収集装置はマイクロフォン又はマルチアレイマイクロフォンであってもよい。
また、ボードカードの内部のチップは図14及び図15に示すものと同じ実施例を含み、対応する出力データ(即ち処理後の画像)を取得し、対話型インタフェースに伝送するためのものである。
また、対話型インタフェースは上記チップ(人工ニューラルネットワークプロセッサーと見なすことができる)の出力データを受信し、適切な形式のフィードバック情報に変換してユーザーに表示させる。
また、画像処理手段はユーザーの操作又は命令を受信し、画像処理装置全体の動作を制御する。
好ましくは、上記電子機器は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
図17を参照すると、図17は本発明の実施例が提供する画像処理方法のフローチャートである。図17に示すように、当該方法は次のようなステップを含む。
S1701では、画像処理装置が音声信号と処理対象画像を入力する。
S1702では、画像処理装置が前記音声信号と前記処理対象画像を記憶する。
S1703では、画像処理装置が前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶する。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップの後に、前記方法は、前記画像処理命令と前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得するステップと、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令と目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
S1704では、画像処理装置が前記処理後の画像を出力する。
また、好ましい一実施例において、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行うステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
なお、図17に示す方法の各ステップの具体的な実現過程は上記画像処理装置の具体的な実現過程を参照することができ、ここではさらに説明しない。
なお、前記の各方法実施例について、簡単に説明するために、それらを一連の動作の組み合わせとして記述したが、当業者であれば、本発明が説明された動作順序によって限定されないことを理解すべきである。それは、本発明によれば、幾つかのステップは他の順序で、又は同時に実行され得るからである。さらに、当業者であれば、明細書に説明された実施例はいずれも好ましい実施例であり、係る動作及びモジュールは必ずしも本発明にとって必要なものではないことを理解すべきである。
上記実施例において、各実施例に対する説明はいずれもそれぞれの重点があり、ある実施例で詳しく説明しない部分は、他の実施例の関連説明を参照することができる。
本願で提供される幾つかの実施例において、開示された装置は、他の形態によって実現されてもよいことを理解すべきである。例えば、以上に説明された装置実施例は単に例示的なものである。例えば前記手段の分割は、単に論理的な機能分割であり、実際実現する場合に別の分割形態を採用してもよい。例えば複数の手段又はモジュールは組み合わせてもよく、他のシステムに統合してもよく、一部の特徴を無視するか、又は実行しなくてもよい。一方、表れ又は検討している構成要素同士の結合又は直接結合又は通信接続は、幾つかのインターフェース、装置又は手段を介した間接的結合又は通信接続であってもよく、電気的又は他の形式であってもよい。
前記した別々の構成要素として説明された手段は、物理的に分離されてもされなくてもよい。手段として現れた部材も物理手段でもそうでなくてもよい。即ち、一箇所に位置してもよく、複数のネットワーク手段に分布されてもよい。なお、実際の必要に応じてその中の一部又は全部手段を選んで本実施例の技術案の目的を実現することができる。
また、本発明の各実施例における各機能手段は、1つの処理手段に統合されてもよく、各手段が物理的に独立して存在してもよく、1つの手段に2又は2以上の手段を統合してもよい。上記の統合した手段は、ハードウェアで実現されてもよく、ソフトウェア機能手段で実現されてもよい。
前記統合した手段は、ソフトウェア機能手段で実現され、且つ独立の製品として販売又は使用される場合、コンピュータ読み取り可能なメモリに記憶してもよい。このような理解に基づいて、本発明の技術案は実質的に、又は従来技術に対して貢献した部分又は当該技術案の全部又は一部をソフトウェア製品の形で具体化することができる。当該コンピュータソフトウェア製品はメモリに記憶され、1台のコンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイス等であり得る)に本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための複数の命令を含まれる。また、前記のメモリは、Uディスク、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク、磁気ディスク又は光ディスク等の様々なプログラムコードを記憶可能な媒体を含む。
以上より、本発明の実施例を詳細に説明し、具体的な例にて本発明の原理及び実施形態を説明したが、以上の実施例の説明は単に本発明の方法及びその核心構想の理解に寄与するためのものである。同時に、当業者であれば、本発明の構想によって、具体的な実施形態及び応用範囲で変更することができる。よって、本明細書の内容を本発明の制限であると理解してはならない。
本発明は、画像処理分野に関し、特に、画像処理装置及び方法に関する。
ユーザーは、写真を撮った後、より良い画像効果を示すために、コンピュータにおけるPSソフトウェア又は携帯電話におけるレタッチソフトウェアによって画像処理を行うことがある。
しかし、コンピュータにおけるPSソフトウェアや携帯電話におけるレタッチソフトウェアを利用して画像処理を行う前に、ユーザーはソフトウェアの使用方法を習得する必要があり、且つソフトウェアの使用方法を習得した後に、命令を手動で入力してコンピュータや携帯電話を制御してレタッチ操作を行う必要がある。ユーザーにとって、このような方式は時間がかかるだけでなく、ユーザーの経験も悪かった。
本発明の実施例は、音声を入力すると画像を処理できる機能を実現し、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させる画像処理装置及び方法を提供することを目的とする。
第1の態様として、本発明の実施例は、
音声信号と処理対象画像を受信するための受信モジュールと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備える画像処理装置を提供する。
また、好ましい一実施例において、前記変換モジュールは、具体的に、
音声認識技術によって前記音声信号をテキスト情報に変換し、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記変換モジュールは、さらに具体的に、
音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記画像処理装置は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュールをさらに備える。
また、好ましい一実施例において、前記処理モジュールは、具体的に、
予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得し、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、好ましい一実施例において、前記処理モジュールは、さらに具体的に、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、好ましい一実施例において、前記変換モジュールは、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するために用いられる。
また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モジュールの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記変換モジュールは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記画像処理装置は、
音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュールをさらに備える。
また、好ましい一実施例において、前記処理モジュールは、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられる。
また、好ましい一実施例において、前記処理モジュールによる前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記処理モジュールによる前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記処理モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記訓練モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
第2の態様として、本発明の実施例は、
音声信号及び処理対象画像を受信するステップと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するステップと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップと、を含む画像処理方法を提供する。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記処理対象画像の処理対象領域を取得するステップは、
前記画像処理命令における語義領域の粒度に基づいて、前記処理対象画像を、粒度の同じM個の領域に分割するステップと、
前記画像処理命令に応じて、前記M個の領域から前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理するステップは、
予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記音声命令変換モジュールに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
本発明の実施例の技術手段において、画像処理装置の受信モジュールは音声信号と処理対象画像を取得し、画像処理装置の変換モジュールは目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換し、画像処理装置の処理モジュールは前記画像処理命令と前記目標音声命令変換モデルに従って前記目標領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
第3の態様として、本発明の実施例は、
ユーザーの入力した音声信号を収集するための音声収集装置と、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するための命令変換装置と、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための画像処理機と、を備える画像処理装置を提供する。
また、好ましい一実施例において、前記命令変換装置は、
前記音声認識技術によって音声信号をテキスト情報に変換するための第1の音声認識装置と、
自然言語処理技術と前記目標音声命令変換モデルによってテキスト情報を前記画像処理命令に変換するための音声テキスト変換装置と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第1の画像認識装置と、を備える。
また、好ましい一実施例において、前記命令変換装置は、
前記音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するための第2の音声認識装置と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第2の画像認識装置と、を備える。
また、好ましい一実施例において、前記画像処理装置は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するためのメモリをさらに備える。
また、好ましい一実施例において、その特徴として、前記画像処理機は、
予め設定された時間ウィンドウ内で前記メモリからM(Mは1より大きい整数)個の画像処理命令を取得するための命令取得モジュールと、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理モジュールと、を備える。
また、好ましい一実施例において、前記処理モジュールは、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理する。
また、好ましい一実施例において、前記命令変換装置は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するために用いられる。
また、好ましい一実施例において、前記命令変換装置による前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記命令変換装置による前記音声命令変換モデルの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記命令変換装置は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記画像処理装置は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置をさらに備える。
また、好ましい一実施例において、前記画像処理機は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられる。
また、好ましい一実施例において、前記画像処理機による前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理機による前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理機は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記訓練装置は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
第4の態様として、本発明の実施例は、
ユーザーの入力した音声信号を収集するステップと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するステップと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップと、を含む画像処理方法を提供する。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、
予め設定された時間ウィンドウ内で前記メモリからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
第5の態様として、本発明の実施例は、本発明の実施例の第3の態様の前記画像処理装置を備える画像処理チップも提供する。
また、好ましい一実施例において、上記チップは、メインチップと、連携チップとを備え、
上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
第6の態様として、本発明の実施例は、本発明の実施例の第5の態様に記載の画像処理チップを備えるチップパッケージ構造を提供する。
第7の態様として、本発明の実施例は、本発明の実施例の第6の態様に記載のチップパッケージ構造を備えるボードカードを提供する。
第8の態様として、本発明の実施例は、本発明の実施例の第7の態様に記載のボードカードを備える電子機器を提供する。
なお、本発明の実施例の技術手段において、音声収集装置はユーザーの入力した音声信号を収集し、命令変換装置は目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、画像処理機は前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
第9の態様として、本発明の実施例は、
音声信号と処理対象画像を入力するための入出力手段と、
前記音声信号と前記処理対象画像を記憶するための記憶手段と、
前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するための画像処理手段と、を備え、
前記入出力手段は、前記処理後の画像を出力するためにも用いられる画像処理装置を提供する。
また、好ましい一実施例において、前記記憶手段は、ニューロン記憶手段と、重みキャッシュ手段とを備え、前記画像処理手段のニューラルネットワーク演算手段は、ニューラルネットワーク演算サブ手段を備え、
前記ニューロン記憶手段が前記音声信号と前記処理対象画像を記憶するために用いられ、且つ、前記重みキャッシュ手段が目標音声命令変換モデルと目標画像処理モデルを記憶するために用いられる場合、前記ニューラルネットワーク演算サブ手段は前記目標音声命令変換モデルに従って前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、
前記ニューラルネットワーク演算サブ手段は、前記目標画像処理モデルと前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、
前記ニューラルネットワーク演算サブ手段は、前記処理後の画像を前記ニューロン記憶手段に記憶するためにも用いられる。
また、好ましい一実施例において、前記記憶手段は汎用データキャッシュ手段を備え、前記画像処理手段のニューラルネットワーク演算手段は汎用演算サブ手段を備え、
前記汎用データキャッシュ手段が前記音声信号と前記処理対象画像を受信するために用いられる場合、前記汎用演算サブ手段は前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、
前記汎用演算サブ手段は、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、
前記汎用演算サブ手段は、前記処理後の画像を前記汎用データ記憶手段に記憶するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、具体的に、
音声認識技術に基づいて前記音声信号をテキスト情報に変換し、
自然言語処理技術と前記目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、具体的に、
音声認識技術、語義理解技術及び前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記汎用演算サブ手段は、具体的に、
音声認識技術に基づいて前記音声信号をテキスト情報に変換し、
自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記汎用演算サブ手段は、具体的に、
音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、好ましい一実施例において、前記ニューロン記憶手段は、前記目標領域と前記画像処理命令を記憶するために用いられる。
また、好ましい一実施例において、前記汎用データキャッシュ手段は前記目標領域と前記画像処理命令を記憶するために用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得し、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するために用いられる。
また、好ましい一実施例において、前記汎用演算サブ手段は、
予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得し、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、
前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するために用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、好ましい一実施例において、前記画像処理装置の画像処理手段は、
ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段と、
前記ニューラルネットワーク演算命令を前記ニューラルネットワーク演算サブ手段に伝送し、前記汎用演算命令を前記汎用演算サブ手段に伝送するための命令処理手段と、をさらに備える。
第10の態様として、本発明の実施例は、
音声信号と処理対象画像を入力するステップと、
前記音声信号と前記処理対象画像を記憶するステップと、
前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するステップと、
前記処理後の画像を出力するステップと、を含む画像処理方法を提供する。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップの後に、前記方法は、
前記画像処理命令と前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、
予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令と目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、
予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得するステップと、
前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、
前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行うステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
第11の態様として、本発明の実施例は、本発明の実施例の第1の態様の前記画像処理装置を備える画像処理チップも提供している。
また、好ましい一実施例において、上記チップは、メインチップと、連携チップとを備え、
上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
第12の態様として、本発明の実施例は、本発明の実施例の第11の態様に記載の画像処理チップを備えるチップパッケージ構造を提供する。
第13の態様として、本発明の実施例は、本発明の実施例の第12の態様に記載のチップパッケージ構造を備えるボードカードを提供する。
第14の態様として、本発明の実施例は、本発明の実施例の第13の態様に記載のボードカードを備える電子機器を提供する。
なお、本発明の実施例の技術手段において、入出力手段は音声信号と処理対象画像を入力し、記憶手段は前記音声信号と前記処理対象画像を記憶し、画像処理手段は前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶し、前記入出力手段は前記処理後の画像を出力することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
以下では、本発明の実施例又は従来技術における技術案をより明らかに説明するために、実施例又は従来技術の記述に使用する必要がある図面について簡単に説明する。なお、以下の説明における図面は単に本発明の一部の実施例に過ぎず、当業者にとって、これらの図面に基づいて創造的な活動をしない前提で他の図面を得ることができることは言うまでもない。
本発明の実施例が提供する画像処理装置の構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供するチップの構造模式図である。
本発明の実施例が提供する他のチップの構造模式図である。
本発明の実施例が提供する画像処理方法のフローチャートである。
本発明の実施例が提供する画像処理装置の構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する電子機器の構造模式図である。
本発明の実施例が提供する画像処理方法のフローチャートである。
本発明の実施例が提供する画像処理装置の構造模式図である。
本発明の実施例が提供する他の画像処理装置の部分構造模式図である。
本発明の実施例が提供する電子機器の構造模式図である。
本発明の実施例が提供する画像処理方法のフローチャートである。
以下に、それぞれを詳細に説明する。
本発明の明細書、特許請求の範囲及び前記図面における「第1」、「第2」、「第3」及び「第4」等の用語は異なる相手を区別するために使用され、特定の順序を説明することを意図しない。また、用語「含む」、「有する」及びそれらのいずれか変更は、非排他的に含むことを意図している。例えば、一連のステップ又は手段を含む過程、方法、システム、製品又は機器は、列挙されたステップ又は手段に限定されず、列挙していないステップ又は手段を選択的に含むか、或いは、これらの過程、方法、製品又は機器に固有の他のステップ又は手段を選択的に含むことができる。
本明細書で言及している「実施例」は、実施例と併せて説明する特定の特徴、構造又は特性が本発明の少なくとも一つの実施例に含まれ得ることを意味する。明細書の様々な箇所で出現する当該短句は、必ずしも同じ実施例を指しているわけではなく、他の実施例と相互排除する独立又は候補の実施例でもない。当業者であれば、本明細書に記載の実施例が他の実施例と組み合わせることができることを明示的及び暗黙的に理解するであろう。
第1の態様として、本発明の実施例が提供する画像処理装置の構造模式図である図1に示すように、当該画像処理装置100は、
音声信号と処理対象画像を受信するための受信モジュール101を備える。
好ましくは、上記画像処理装置100は、前処理モジュールをさらに備え、上記受信モジュール101が上記音声信号を受信した後、上記前処理モジュールは当該音声信号に対して騒音低減処理を実行する。
好ましくは、受信モジュール101は、オーディオ収集手段を備え、当該オーディオ収集手段は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集機器であってもよい。
具体的に、上記受信装置101は、上記音声信号を受信する時、環境声音信号も受信する。上記前処理モジュールは、上記環境声音信号に応じて上記音声信号に対して騒音低減処理を実行する。当該環境声音信号は上記音声信号にとって騒音である。
さらに、上記オーディオ収集手段は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。
好ましくは、1つの可能な実施例において、上記画像処理装置は、第1の記憶モジュールと第2の記憶モジュールとをさらに備える。上記受信装置が上記音声信号と上記処理対象画像を受信した後、上記画像処理装置は上記音声信号と上記処理対象画像を第1の記憶モジュールと第2の記憶モジュールにそれぞれ記憶する。
好ましくは、上記第1の記憶モジュールと上記第2の記憶モジュールは、同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。
変換モジュール102は、目標音声命令変換モデルに基づいて前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するために用いられる。
好ましくは、上記変換モジュール102は、音声認識技術、自然言語処理技術及び画像認識技術に基づいて前記音声信号を画像処理命令と目標領域に変換する前に、上記変換モジュールは上記第1の記憶モジュールから上記音声処理信号を取得する。
そのうち、前記変換モジュール102は、
音声認識技術によって前記音声信号をテキスト情報に変換するための第1の音声認識手段1021と、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するための語義理解手段1022と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第1の画像認識手段1023と、を備える。
さらに、上記変換モジュール102は、上記画像処理命令における語義領域の粒度を取得するための取得手段1026をさらに備える。
例を挙げて上記語義領域を説明すると、上記画像処理装置100が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。
具体的に、本発明で使用される音声認識技術は、人工ニューラルネットワーク(Artificial Neural Network;ANN)、隠れマルコフモデル(Hidden Markov Model;HMM)等のモデルを含むが、これらに限定されない。上記第1の音声認識手段は、上記音声認識技術に基づいて上記音声信号を処理してもよい。上記自然言語処理技術は、統計的機械学習や、ANN等の方法を利用することを含むが、これらに限定されない。上記語義理解手段は、上記自然言語処理技術に基づいて語義情報を抽出することができる。上記画像認識技術は、エッジ検出に基づく方法、閾値分割方法、領域成長及び分水嶺(watershed)アルゴリズム、階調積分投影(Gray−level Integration Projection)曲線分析、テンプレートマッチング、変形可能テンプレート、ハフ(Hough)変換、スネーク(Snake)演算子、Gaborウェーブレット変換に基づく弾性マップマッチング技術や、アクティブ形状モデル及びアクティブ外観モデル等の方法等のアルゴリズムを含むが、これらに限定されない。上記画像認識手段は、上記画像認識技術に基づいて上記処理対象画像を異なる領域に分割することができる。
また、好ましい一実施例において、上記音声認識手段1021は上記音声認識技術によって上記音声信号をテキスト情報に変換し、当該テキスト情報を上記第1の記憶モジュールに保存する。上記語義理解手段1022は上記第1の記憶モジュールから上記テキスト情報を取得し、自然言語処理技術と上記目標音声命令変換モデルによって当該テキスト情報を画像処理命令に変換し、画像処理命令を上記第1の記憶モジュールに保存する。上記第1の画像認識手段1023は上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得し、上記分割結果と上記目標領域を上記第2の記憶モジュールに記憶する。
また、好ましい一実施例において、上記変換モジュール102は、
音声認識技術、自然言語処理技術と前記目標音声命令変換モデルに基づいて上記音声信号を直接に上記画像処理命令に変換し、当該画像処理命令を第1の記憶モジュールに保存するための音声認識手段1025と、
上記画像処理命令における上記処理対象画像を操作する語義領域の粒度に基づいて、当該処理対象画像を当該語義領域の粒度に従って分割し、上記処理対象画像を処理する領域である目標領域を取得し、分割後の結果及び上記目標領域を第2の記憶モジュールに記憶する第2の画像認識手段1026と、を備えてもよい。
好ましくは、上記受信モジュール101が上記音声信号と上記処理対象画像を受信する前に、上記変換モジュール102が音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。
また、上記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記変換モジュール102がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記変換モジュールと異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記変換モジュール102が上記目標音声命令変換モデルを使用する必要がある場合、当該変換モジュール102は上記クラウドサーバから当該目標音声命令変換モデルを取得する。
好ましくは、上記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記変換モジュール102が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記変換モジュール102が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置100は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュール105をさらに備える。
一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記変換モジュール102又は訓練モジュール105が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に1つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記変換モジュール102又は訓練モジュール105はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記変換モジュール102又は訓練モジュール105は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。
前記画像処理装置100は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュール104をさらに備える。
また、好ましい一実施例において、上記記憶モジュール104は、上記第1の記憶モジュール及び第2の記憶モジュールと同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。
処理モジュール103は、前記画像処理命令と目標画像処理モデルに基づいて前記処理対象画像を処理するためのものである。
また、前記処理モジュール103は、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するための取得手段1031と、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理手段1032と、をさらに備える。
好ましくは、前記処理手段1032は、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記取得手段1031は上記記憶モジュール104からM個の画像処理命令を取得した後、上記処理手段1032は上記M個の画像処理命令について2つずつ比較し、当該M個の画像処理命令のうち同じ機能を有する命令を削除して、N個の画像処理命令を取得する。上記処理手段1032は上記N個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。
一例として、上記処理手段1032は上記M個の画像処理命令について2つずつ比較する。画像処理命令Aと画像処理命令Bとが同じである場合、上記処理手段1032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、画像処理命令Aと画像処理命令Bとが異なる場合、上記処理手段1032は上記画像処理命令Aと上記画像処理命令Bの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Aと上記画像処理命令Bの機能が同じであることを確定し、上記処理手段1032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記処理手段1032は上記画像処理命令A及びBの機能が異なることを確定する。当該画像処理命令A及びBは上記M個の処理命令のうちの任意の2つである。
具体的に、上記処理モジュール103に対し、その入力と出力はいずれも画像である。上記処理モジュール103のANNや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体(例えば美脚、豊胸)、顔の変更、顔の美化、オブジェクトの変更(猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等)、背景の変更(後の森を畑に置き換え)、遮蔽物除去(例えば片目が顔に遮られると、再度に目を再構成する)、スタイルの変換(1秒でゴッホ画風へ変更)、位置姿勢の変換(例えば立っている状態から座る状態に変更、顔の正面から側面への変更)、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。
好ましくは、上記受信モジュール101が上記音声信号と上記処理対象画像を受信する前に、上記処理モジュール103は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。
また、上記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記処理モジュール103がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記変換モジュールと異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記処理モジュール103が上記目標画像処理モデルを使用する必要がある場合、当該処理モジュール103は上記クラウドサーバから当該目標画像処理モデルを取得する。
好ましくは、上記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記処理モジュール103が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記処理モジュール103が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置100は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュール105をさらに備える。
一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記処理モジュール103又は訓練モジュール105が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎にいつの目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記処理モジュール103又は訓練モジュール105はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記処理モジュール103又は訓練モジュール105は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。
また、好ましい一実施例において、前記画像処理装置100の変換モジュール102は、変換モジュール102における音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するために用いることができる。また、前記画像処理装置100の処理モジュール103は、処理モジュール103における画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するために用いることができる。
また、好ましい一実施例において、前記画像処理装置100は、変換モジュール102における音声命令変換モデルと処理モジュール103における画像処理モデルに対してそれぞれ自己適応訓練を行って、目標音声命令変換モデルと目標画像処理モデルを取得するための訓練モジュール105をさらに備える。
上記訓練モジュール105は、監督される方法又は監督されない方法によって上記音声命令変換モデル又は上記画像処理モデルにおける構造とパラメータを調整して、当該音声命令変換モデル又は画像処理モデルの性能を向上し、最終に目標音声命令変換モデル又は目標画像処理モデルを取得することができる。
本実施例において、画像処理装置100はモジュール化されている。本明細書における「モジュール」は、特定用途向け集積回路(application−specific integrated circuit;ASIC)、1つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び/又は他の上記機能を提供することができるデバイスを指してもよい。また、以上の受信モジュール101、変換モジュール102、処理モジュール103、記憶モジュール104、及び訓練モジュール105は、図5、図6、図7に示す人工ニューラルネットワークチップによって実現することができる。
好ましくは、上記画像処理装置100の変換モジュール102又は処理モジュール103の処理手段1032は人工ニューラルネットワークチップである。即ち、上記変換モジュール102と上記処理モジュール103の処理手段1032は独立した2枚の人工ニューラルネットワークチップであり、その構造はそれぞれ図5及び図6に示す通りである。
本装置において、変換モジュール102と処理モジュール103は、直列に実行されてもよく、ソフトウェアパイプラインの形態で実行されてもよい。即ち、処理モジュール103が前の画像を処理する時、変換モジュール102は次の画像を処理することができる。そうすると、ハードウェアのスループットを向上し、画像処理効率を向上することができる。
図5を参照すると、図5は人工ニューラルネットワークチップの構造ブロック模式図である。図5に示すように、当該チップは、制御手段510と、記憶手段520と、入出力手段530とを備える。
また、上記制御手段510は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段511を備える。
一実施形態において、命令キャッシュ手段511は並べ替えキャッシュであってもよい。
命令処理手段512は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段519に供給するためのものである。上記命令処理手段512は、命令キャッシュ手段から命令を取得するための命令取得モジュール513と、取得した命令を復号するための復号モジュール514と、復号後の命令について順に記憶するための命令キューモジュール515と、を備える。
スカラレジスタモジュール516は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール517は、上記命令処理手段512によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段518に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段519に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段519に与える。
記憶キュー手段518は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段518内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段519は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段520は、ニューロンキャッシュ手段521と重みキャッシュ手段522とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段521と重みキャッシュ手段522に記憶されている。
入出力手段530は、音声信号を入力し、画像処理命令を出力するためのものである。
一実施形態において、記憶手段520はスクラッチパッドメモリであってもよく、入出力手段530はIO直接メモリアクセスモジュールであってもよい。
具体的に、上記チップ500、即ち上記処理モジュール102が音声信号を画像処理命令に変換することは、具体的に以下のステップを含む。
ステップ501では、命令取得モジュール513が命令キャッシュ手段511から1つの音声認識用の演算命令を取り出し、演算命令を復号モジュール514に送る。
ステップ502では、復号モジュール514が演算命令を復号し、復号後の命令を命令キュー手段515に送る。
ステップ503では、スカラレジスタモジュール516から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ504では、命令が処理依存関係モジュール517に送られ、処理依存関係モジュール517は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段519に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段518で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段519に送信する。
ステップ505では、ニューラルネットワーク演算手段519が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段520から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップ506では、ニューラルネットワーク演算手段519が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段520に書き戻しする。
図6を参照すると、図6は他の人工ニューラルネットワークチップの構造ブロック模式図である。図6に示すように、当該チップは、制御手段610と、記憶手段620と、入出力手段630とを備える。
また、上記制御手段610は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段611を備える。
一実施形態において、命令キャッシュ手段611は並べ替えキャッシュであってもよい。
命令処理手段612は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段619に与えるためのものである。また、上記命令処理手段612は、命令キャッシュ手段から命令を取得するための命令取得モジュール613と、取得した命令を復号するための復号モジュール614と、復号後の命令について順に記憶するための命令キューモジュール615と、を備える。
スカラレジスタモジュール616は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール617は、上記命令処理手段612によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段618に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段619に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段619に与える。
記憶キュー手段618は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段618内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段619は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段620は、ニューロンキャッシュ手段621と重みキャッシュ手段622とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段621と重みキャッシュ手段622に記憶されている。
入出力手段630は、画像処理命令と処理対象画像を入力し、処理後の画像を出力するためのものである。
一実施形態において、記憶手段620はスクラッチパッドメモリであってもよく、入出力手段630はIO直接メモリアクセスモジュールであってもよい。
上記チップ、即ち上記処理モジュール103の処理手段1032が行う画像処理は、具体的に以下のようなステップを含む。
ステップ601では、命令取得モジュール613が命令キャッシュ手段611から1つの変換モジュールの生成した画像処理の命令を取り出し、演算命令を復号モジュール614に送る。
ステップ602では、復号モジュール614が演算命令を復号し、復号後の命令を命令キュー手段815に送信する。
ステップ603では、スカラレジスタモジュール616から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ604では、命令が処理依存関係モジュール617に送られ、処理依存関係モジュール617は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段619に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段618で待ちする必要があり、その後に前記命令に対応するマイクロ命令をニューラルネットワーク演算手段619に送信する。
ステップ605では、ニューラルネットワーク演算手段619が前記命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段620から処理対象画像や、画像処理モデルデータ等を含む必要なデータを取り出す。
ステップ606では、ニューラルネットワーク演算手段619が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、処理結果を記憶手段620に書き戻しする。
なお、上記変換モジュール102と上記処理モジュール103の処理手段1032はいずれも人工ニューラルネットワークチップ又は汎用処理チップであってもよい。或いは、上記変換モジュール102と上記処理モジュール103の処理手段1032のうち、一方が人工ニューラルネットワークチップであり、他方が汎用処理チップであってもよい。
好ましくは、上記画像処理装置は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
なお、本発明の実施例の技術案において、受信モジュールが音声信号と処理対象画像を受信して取得し、変換モジュールが目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像に対する処理対象領域に変換し、処理モジュールが前記画像処理命令と目標画像処理モデルに従って前記処理対象画像の処理領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
第2の態様として、本発明の実施例は、音声信号と処理対象画像を受信するための受信モジュールと、目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備える画像処理装置をさらに提供する。
また、前記変換モジュールは、具体的に、音声認識技術によって前記音声信号をテキスト情報に変換し、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、前記変換モジュールは、さらに具体的に、音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
また、前記画像処理装置は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュールをさらに備える。
また、前記処理モジュールは、具体的に、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、前記処理モジュールは、さらに具体的に、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
また、前記変換モジュールは、音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得する。
また、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練は監督されるか、又は監督されない。
また、前記変換モジュールは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。
また、前記画像処理装置は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュールをさらに備える。
また、前記処理モジュールは、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得する。
また、前記処理モジュールによる前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。
また、前記処理モジュールによる前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。
また、前記処理モジュールは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、前記予測画像及びその対応する目標画像の相関係数を確定し、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
また、前記訓練モジュールは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、前記予測画像及びその対応する目標画像の相関係数を確定し、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。
なお、上記画像処理装置の実現過程は、図1に示す実施例の具体的な実現過程を参照することができ、ここではさらに詳しく説明しない。
第3の態様において、本発明の実施例は画像処理方法を提供する。図7に示すように、当該方法は、画像処理装置が音声信号と処理対象画像を受信するステップS701と、前記画像処理装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するステップS702と、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術によって前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
ステップS703は、前記画像処理装置が前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップである。
また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記音声命令変換モジュールに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
なお、図7に示す方法の各ステップの具体的な実現過程は、上記画像処理装置の具体的な実現過程を参照すればよい。よって、ここではさらに説明しない。
本発明の実施例はコンピュータ記憶媒体も提供している。当該コンピュータ記憶媒体はプログラムを記憶することができる。当該プログラムは、実行時に上記した方法実施例に記載の上記のいずれか画像処理方法の一部又は全部のステップを含む。
図8を参照すると、図8は本発明の実施例が提供する画像処理装置の構造模式図である。図8に示すように、当該画像処理装置800は、ユーザーが入力した音声信号を収集するための音声収集装置801を備える。
好ましくは、上記画像処理装置800は、騒音フィルタをさらに備える。上記音声収集装置801が上記音声信号を収集した後、上記騒音フィルタは当該音声信号に対して騒音低減処理を行う。
好ましくは、当該音声収集装置は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集装置であってもよい。
具体的に、上記音声収集装置801は、上記音声信号を受信する時、環境声音信号も受信する。上記騒音フィルタは、上記環境声音信号に基づいて上記音声信号に騒音低減処理を行う。当該環境声音信号は、上記音声信号にとっては騒音である。
さらに、上記オーディオ収集装置801は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。
好ましくは、1つの可能な実施例において、上記画像処理装置は第1のメモリをさらに備える。上記音声収集装置が上記音声信号を収集した後、上記画像処理装置は上記音声信号を第1のメモリに記憶する。
命令変換装置802は、目標音声命令変換モデルに基づいて前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するために用いられる。
好ましくは、上記命令変換装置802は、音声認識技術、自然言語処理技術及び画像認識技術に基づいて前記音声信号を画像処理命令と目標領域に変換する前に、上記命令変換装置802は上記第1のメモリから上記音声信号を取得する。
また、前記命令変換装置802は、音声認識技術によって前記音声信号をテキスト情報に変換するための第1の音声認識装置8021と、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するための音声テキスト変換装置8022と、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第1の画像認識装置8023と、を備える。
さらに、上記命令変換装置802は、上記画像処理命令における語義領域の粒度を取得するための取得モジュール8026をさらに備える。
例を挙げて上記語義領域を説明すると、上記画像処理装置800が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。
具体的に、本発明で使用される音声認識技術は、人工ニューラルネットワーク(Artificial Neural Network;ANN)、隠れマルコフモデル(Hidden Markov Model;HMM)等のモデルを含むが、これらに限定されない。上記第1の音声認識手段は、上記音声認識技術に基づいて上記音声信号を処理してもよい。上記自然言語処理技術は、統計的機械学習や、ANN等の方法を利用することを含むが、これらに限定されない。上記語義理解手段は、上記自然言語処理技術に基づいて語義情報を抽出することができる。上記画像認識技術は、エッジ検出に基づく方法、閾値分割方法、領域成長及び分水嶺(watershed)アルゴリズム、階調積分投影(Gray−level Integration Projection)曲線分析、テンプレートマッチング、変形可能テンプレート、ハフ(Hough)変換、スネーク(Snake)演算子、Gaborウェーブレット変換に基づく弾性マップマッチング技術や、アクティブ形状モデル及びアクティブ外観モデル等の方法等のアルゴリズムを含むが、これらに限定されない。上記画像認識手段は、上記画像認識技術に基づいて上記処理対象画像を異なる領域に分割することができる。
また、好ましい一実施例において、上記第1の音声認識装置8021は上記音声認識技術によって上記音声信号をテキスト情報に変換し、当該テキスト情報を上記第1のメモリに保存する。上記音声テキスト変換装置8022は上記第1のメモリから上記テキスト情報を取得し、自然言語処理技術と上記目標音声命令変換モデルによって当該テキスト情報を画像処理命令に変換し、上記画像処理命令を上記第1のメモリに保存する。上記第1の画像認識装置8023は上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得し、上記分割結果と上記目標領域を上記第2のメモリに記憶する。
また、好ましい一実施例において、上記命令変換装置802は、音声認識技術、自然言語処理技術及び上記目標音声命令変換モデルに基づいて上記音声信号を直接に上記画像処理命令に変換し、当該画像処理命令を第1のメモリに保存するための第2の音声認識装置8025と、上記画像処理命令における上記処理対象画像を操作する語義領域の粒度に基づいて、当該処理対象画像を当該語義領域の粒度に従って分割し、上記処理対象画像を処理する領域である目標領域を取得し、分割後の結果及び上記目標領域を第2のメモリに記憶するための第2の画像認識装置8026と、を備えてもよい。
好ましくは、上記音声収集装置801が上記音声信号と上記処理対象画像を受信する前に、上記命令変換装置802が音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。
また、上記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記命令変換装置802がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記命令変換装置802と異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記命令変換装置802が上記目標音声命令変換モデルを使用する必要がある場合、当該命令変換装置802は上記クラウドサーバから当該目標音声命令変換モデルを取得する。
好ましくは、上記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記命令変換装置802が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記命令変換装置802が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置800は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置805をさらに備える。
一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記命令変換装置802又は訓練装置805が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に1つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記命令変換装置802又は訓練装置805はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記命令変換装置802又は訓練装置805は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。
前記画像処理装置800は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するためのメモリ804をさらに備える。
また、好ましい一実施例において、上記メモリ804は、上記第1の記憶モジュール及び第2の記憶モジュールと同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。
画像処理機803は、前記画像処理命令と目標画像処理モデルに基づいて前記処理対象画像を処理するためのものである。
また、前記画像処理機803は、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するための命令取得モジュール8031と、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理モジュール8032と、を備える。
好ましくは、前記処理モジュール8032は、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。
具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記取得手段8031は上記記憶モジュール804からM個の画像処理命令を取得した後、上記処理モジュール8032は上記M個の画像処理命令について2つずつ比較し、当該M個の画像処理命令のうち同じ機能を有する命令を削除して、N個の画像処理命令を取得する。上記処理モジュール8032は上記N個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。
一例として、上記処理モジュール8032は上記M個の画像処理命令について2つずつ比較する。画像処理命令Aと画像処理命令Bとが同じである場合、上記処理モジュール8032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、画像処理命令Aと画像処理命令Bとが異なる場合、上記処理モジュール8032は上記画像処理命令Aと上記画像処理命令Bの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Aと上記画像処理命令Bの機能が同じであることを確定し、上記処理モジュール8032は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記処理モジュール8032は上記画像処理命令A及びBの機能が異なることを確定する。当該画像処理命令A及びBは上記N個の処理命令のうちの任意の2つである。
具体的に、上記画像処理機803に対し、その入力と出力はいずれも画像である。上記画像処理機803のANNや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体(例えば美脚、豊胸)、顔の変更、顔の美化、オブジェクトの変更(猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等)、背景の変更(後の森を畑に置き換え)、遮蔽物除去(例えば片目が顔に遮られると、再度に目を再構成する)、スタイルの変換(1秒でゴッホ画風へ変更)、位置姿勢の変換(例えば立っている状態から座る状態に変更、顔の正面から側面への変更)、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。
好ましくは、上記音声収集装置801が上記音声信号を受信する前に、上記画像処理機803は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。
また、上記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記画像処理機803がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練はオンラインで行われることは、具体的に、上記画像処理機803と異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記画像処理機803が上記目標画像処理モデルを使用する必要がある場合、当該画像処理機803は上記クラウドサーバから当該目標画像処理モデルを取得する。
好ましくは、上記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
具体的に、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記画像処理機803が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記画像処理機803が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得することである。
また、好ましい一実施例において、上記画像処理装置800は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置805をさらに備える。
一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記画像処理機803又は訓練装置805が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に1枚の目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記画像処理機803又は訓練装置805はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記画像処理機803又は訓練装置805は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。
また、好ましい一実施例において、前記画像処理装置800の命令変換装置802は、命令変換装置802における音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するために用いることができる。前記画像処理装置800の画像処理機803は、画像処理機803における画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するために用いることができる。
また、好ましい一実施例において、前記画像処理装置800は、命令変換装置802における音声命令変換モデルと画像処理機803における画像処理モデルに対してそれぞれ自己適応訓練を行って、目標音声命令変換モデルと目標画像処理モデルを取得するための訓練装置805をさらに備える。
上記訓練装置805は、監督される方法又は監督されない方法によって上記音声命令変換モデル又は上記画像処理モデルにおける構造とパラメータを調整して、当該音声命令変換モデル又は画像処理モデルの性能を向上し、最終に目標音声命令変換モデル又は目標画像処理モデルを取得することができる。
本実施例において、画像処理装置800はモジュール化されている。本明細書における「モジュール」は、特定用途向け集積回路(application−specific integrated circuit;ASIC)、1つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び/又は他の上記機能を提供することができるデバイスを指してもよい。また、以上の音声収集装置801、命令変換装置802、画像処理機803、記憶モジュール804、及び訓練装置805は、図5、図6、図12、図8に示す人工ニューラルネットワークチップによって実現することができる。
好ましくは、上記画像処理装置800の命令変換装置802又は画像処理機803の処理モジュール8032は、人工ニューラルネットワークチップである。即ち、上記命令変換装置802と上記画像処理機803の処理モジュール8032は独立した2枚の人工ニューラルネットワークチップであり、その構造はそれぞれ図5及び図6に示す通りである。
本装置において、命令変換装置802と画像処理機803は、直列に実行されてもよく、ソフトウェアパイプラインの形態で実行されてもよい。即ち、画像処理機803が前の画像を処理する時、命令変換装置802は次の画像を処理することができる。そうすると、ハードウェアのスループットを向上し、画像処理効率を向上することができる。
図5を参照すると、図5は人工ニューラルネットワークチップの構造ブロック模式図である。図5に示すように、当該チップは、制御手段510と、記憶手段520と、入出力手段530とを備える。
また、上記制御手段510は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段511を備える。
一実施形態において、命令キャッシュ手段511は並べ替えキャッシュであってもよい。
命令処理手段512は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段519に供給するためのものである。上記命令処理手段512は、命令キャッシュ手段から命令を取得するための命令取得モジュール513と、取得した命令を復号するための復号モジュール514と、復号後の命令について順に記憶するための命令キューモジュール515と、を備える。
スカラレジスタモジュール516は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール517は、上記命令処理手段512によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段518に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段519に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段519に与える。
記憶キュー手段518は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段518内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段519は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段520は、ニューロンキャッシュ手段521と重みキャッシュ手段522とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段521と重みキャッシュ手段522に記憶されている。
入出力手段530は、音声信号を入力し、画像処理命令を出力するためのものである。
一実施形態において、記憶手段520はスクラッチパッドメモリであってもよく、入出力手段530はIO直接メモリアクセスモジュールであってもよい。
具体的に、上記チップ500、即ち上記命令変換装置102が音声信号を画像処理命令に変換することは、具体的に以下のステップを含む。
ステップ501では、命令取得モジュール513が命令キャッシュ手段511から1つの音声認識用の演算命令を取り出し、演算命令を復号モジュール514に送る。
ステップ502では、復号モジュール514が演算命令を復号し、復号後の命令を命令キュー手段515に送る。
ステップ503では、スカラレジスタモジュール516から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ504では、命令が処理依存関係モジュール517に送られ、処理依存関係モジュール517は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段519に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段518で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段519に送信する。
ステップ505では、ニューラルネットワーク演算手段519が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段520から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップ506では、ニューラルネットワーク演算手段519が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段520に書き戻しする。
なお、上記記憶手段520は図5に示すチップのキャッシュ・オン・チップ手段である。
図6を参照すると、図6は他の人工ニューラルネットワークチップの構造ブロック模式図である。図6に示すように、当該チップは、制御手段610と、記憶手段620と、入出力手段630とを備える。
また、上記制御手段610は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段611を備える。
一実施形態において、命令キャッシュ手段611は並べ替えキャッシュであってもよい。
命令処理手段612は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段619に与えるためのものである。また、上記命令処理手段612は、命令キャッシュ手段から命令を取得するための命令取得モジュール613と、取得した命令を復号するための復号モジュール614と、復号後の命令について順に記憶するための命令キューモジュール615と、を備える。
スカラレジスタモジュール616は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール617は、上記命令処理手段612によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段618に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段619に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段619に与える。
記憶キュー手段618は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段618内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段619は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段620は、ニューロンキャッシュ手段621と重みキャッシュ手段622とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段621と重みキャッシュ手段622に記憶されている。
入出力手段630は、画像処理命令と処理対象画像を入力し、処理後の画像を出力するためのものである。
一実施形態において、記憶手段620はスクラッチパッドメモリであってもよく、入出力手段630はIO直接メモリアクセスモジュールであってもよい。
上記チップ、即ち上記画像処理機103の処理モジュール1032が行う画像処理は、具体的に以下のようなステップを含む。
ステップ601では、命令取得モジュール613が命令キャッシュ手段611から1つの命令変換装置の生成した画像処理の命令を取り出し、演算命令を復号モジュール614に送る。
ステップ602では、復号モジュール614が演算命令を復号し、復号後の命令を命令キュー手段815に送信する。
ステップ603では、スカラレジスタモジュール616から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップ604では、命令が処理依存関係モジュール617に送られ、処理依存関係モジュール617は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段619に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段618で待ちする必要があり、その後に前記命令に対応するマイクロ命令をニューラルネットワーク演算手段619に送信する。
ステップ605では、ニューラルネットワーク演算手段619が前記命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段620から処理対象画像や、画像処理モデルデータ等を含む必要なデータを取り出す。
ステップ606では、ニューラルネットワーク演算手段619が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、処理結果を記憶手段620に書き戻しする。
なお、上記記憶手段620は図6に示すチップのキャッシュ・オン・チップ手段である。
なお、上記命令変換装置102と上記画像処理機103の処理モジュール1032はいずれも人工ニューラルネットワークチップ又は汎用処理チップであってもよい。或いは、上記命令変換装置102と上記画像処理機103の処理モジュール1032のうち、一方が人工ニューラルネットワークチップであり、他方が汎用処理チップであってもよい。
好ましくは、上記画像処理装置は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
なお、本発明の実施例の技術案において、音声収集装置がユーザーの入力した音声信号を取得し、命令変換装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像に対する処理対象領域に変換し、画像処理機が前記画像処理命令と目標画像処理モデルに従って前記処理対象画像の処理領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
また、好ましい一実施例において、画像処理チップは上記の図8に示す画像処理装置を備える。
また、上記チップは、メインチップと連携チップとを備え、上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
また、上記連携チップは、上記の図5及び図6に示すチップを備える。
好ましくは、上記画像処理チップは、ビデオカメラ、携帯電話、コンピュータ、ノートブック、タブレット又は他の画像処理装置に用いることができる。
また、好ましい一実施例において、本発明の実施例は、上記の画像処理チップを備えるチップパッケージ構造を提供する。
また、好ましい一実施例において、本発明の実施例は、上記のチップパッケージ構造を備えるボードカードを提供する。
また、好ましい一実施例において、本発明の実施例は、上記のボードカードを備える電子機器を提供する。
1つの可能な実施例では、本発明の実施例が他の電子機器を提供している。当該電子機器は、上記ボードカード、対話型インタフェース、制御手段、及び音声収集装置を含んでいる。
図8に示すように、音声収集装置は音声を受信し、音声と処理対象画像を入力データとしてボードカードの内部のチップに伝えるために用いられる。
好ましくは、上記画像処理チップは、人工ニューラルネットワーク処理チップであってもよい。
好ましくは、音声収集装置は、マイクロフォン又はマルチアレイマイクロフォンであってもよい。
また、ボードカードの内部のチップは図5及び図6に示すものと同じ実施例を含み、対応する出力データ(即ち処理後の画像)を取得し、対話型インタフェースに伝送するためのものである。
また、対話型インタフェースは上記チップ(人工ニューラルネットワークプロセッサーと見なすことができる)の出力データを受信し、適切な形式のフィードバック情報に変換してユーザーに表示させる。
また、制御手段はユーザーの操作又は命令を受信し、画像処理装置全体の動作を制御する。
好ましくは、上記電子機器は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
図13を参照すると、図13は本発明の実施例が提供する画像処理方法のフローチャートである。図13に示すように、当該方法は次のようなステップを含む。
S1301では、画像処理装置がユーザーの入力した音声信号を収集する。
S1302では、前記画像処理装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換する。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術によって前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。
S1303では、前記画像処理装置が前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理する。
また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、予め設定された時間ウィンドウ内で前記記憶モジュールからM(Mは1より大きい整数)個の画像処理命令を取得するステップと、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記M個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
なお、図13に示す方法の各ステップの具体的実現過程は上記画像処理装置の具体的実現過程を参照してもよい。ここではさらに詳しく説明しない。
図14を参照すると、図14は本発明の実施例が提供する画像処理装置の構造模式図である。図14に示すように、当該画像処理装置は、音声信号と処理対象画像を入力するための入出力手段130を備えている。
好ましくは、上記画像処理装置は、騒音フィルタをさらに備え、上記入出力手段130が上記音声信号を取得した後、上記騒音フィルタは当該音声信号に対して騒音低減処理を行う。
好ましくは、当該入出力手段130は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集装置であってもよい。
具体的に、上記入出力手段130は、上記音声信号を取得する時、環境声音信号も取得する。上記騒音フィルタは、上記環境声音信号に応じて上記音声信号に対して騒音低減処理を実行する。当該環境声音信号は上記音声信号の騒音であると見なしてもよい。
さらに、上記入出力手段130は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。
記憶手段120は、前記音声信号と前記処理対象画像を記憶するためのものである。
画像処理手段110は、前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に従って前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するためのものである。
好ましくは、前記記憶手段120は、ニューロン記憶手段121と、重みキャッシュ手段122とを備え、前記画像処理手段110のニューラルネットワーク演算手段113は、ニューラルネットワーク演算サブ手段1131を備え、前記ニューロン記憶手段121が前記音声信号と前記処理対象画像を記憶するために用いられ、且つ、前記重みキャッシュ手段122が目標音声命令変換モデルと目標画像処理モデルを記憶するために用いられる場合、前記ニューラルネットワーク演算サブ手段1131は、前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、前記ニューラルネットワーク演算サブ手段1131は、前記目標画像処理モデルと前記画像処理命令に従って前記目標領域を処理して、処理後の画像を取得するためにも用いられ、前記処理後の画像を前記ニューロン記憶手段に記憶するためにも用いられる。
さらに、前記ニューラルネットワーク演算サブ手段1131は、具体的に、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然言語処理技術と前記目標音声命令変換モデルに従って前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記ニューラルネットワーク演算サブ手段1131は、具体的に、音声認識技術、語義理解技術及び前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記ニューロン記憶手段121は、前記目標領域と前記画像処理命令を記憶するために用いられる。
具体的に、前記ニューラルネットワーク演算サブ手段1131は、予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するために用いられる。
具体的に、上記記憶手段120のニューロン記憶手段121が上記音声信号と上記処理対象画像を記憶し、且つ、上記重みキャッシュ手段122が上記目標音声命令変換モデルを記憶する時、上記ニューラルネットワーク演算サブ手段1131は、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然音声処理技術と上記目標音声命令変換モデルに基づいて上記テキスト情報を画像処理命令に変換し、当該画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域する取得するか、又は、上記ニューラルネットワーク演算サブ手段1131は、音声認識技術、語義理解技術及び上記目標音声命令変換モデルに基づいて上記音声信号を画像処理命令に変換し、上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得する。
さらに、上記ニューラルネットワーク演算サブ手段1131は、上記画像処理命令と上記目標領域を上記ニューロンキャッシュ手段121に記憶する。上記ニューラルネットワーク演算サブ手段1131は、上記重みキャッシュ手段122から上記目標音声命令変換モデルを取得し、予め設定された時間ウィンドウ内で上記ニューロン記憶手段121からM個の画像処理命令と目標領域を取得し、上記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N個の画像処理命令を取得する。上記ニューラルネットワーク演算サブ手段1131は、上記N個の画像処理命令と上記目標画像処理モデルに基づいて上記目標領域を処理して、処理後の画像を取得する。
好ましくは、前記記憶手段は汎用データキャッシュ手段を備え、前記画像処理手段のニューラルネットワーク演算手段は汎用演算サブ手段を備え、前記汎用データキャッシュ手段が前記音声信号と前記処理対象画像を受信するために用いられる場合、前記汎用演算サブ手段は前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、前記汎用演算サブ手段は、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、前記汎用演算サブ手段は、前記処理後の画像を前記汎用データ記憶手段に記憶するためにも用いられる。
さらに、前記汎用演算サブ手段は、具体的に、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記汎用演算サブ手段は、具体的に、音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。
さらに、前記汎用データキャッシュ手段は前記目標領域と前記画像処理命令を記憶するために用いられる。
具体的に、前記汎用演算サブ手段は、予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得し、前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するために用いられる。
具体的に、上記記憶手段120の汎用データキャッシュ手段123が上記音声信号と上記処理対象画像を記憶する時、上記汎用演算サブ手段1132は、音声認識技術に基づいて上記音声信号をテキスト情報に変換し、自然言語処理技術に基づいて上記テキスト情報を画像処理命令に変換し、上記画像処理命令の語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割して、上記目標領域を取得するか、又は、上記汎用演算サブ手段1132は、音声認識技術と語義理解技術に基づいて上記音声信号を上記画像処理命令に変換し、当該画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割して、上記目標領域を取得する。
さらに、上記汎用演算サブ手段1132は上記画像処理命令と上記目標領域を上記汎用データキャッシュ手段123に記憶する。上記汎用演算サブ手段1132は上記汎用データキャッシュ手段から上記目標領域を取得し、予め設定された時間ウィンドウ内で上記汎用データキャッシュ手段からM個の画像処理命令を取得し、当該M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N個の画像処理命令を取得し、当該N個の画像処理命令に応じて上記目標領域を処理して、処理後の画像を取得する。
具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記ニューラルネットワーク演算サブ手段1131は上記ニューロン記憶手段121からM個の画像処理命令を取得するか、又は、上記汎用演算サブ手段1132は上記汎用データキャッシュ手段からM個の画像処理命令を取得した後、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記M個の画像処理命令について2つずつ比較し、当該M個の画像処理命令のうち同じ機能を有する命令を削除して、N個の画像処理命令を取得する。上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記N個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。
一例として、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記M個の画像処理命令について2つずつ比較する。画像処理命令Aと画像処理命令Bとが同じである場合、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、画像処理命令Aと画像処理命令Bとが異なる場合、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令Aと上記画像処理命令Bの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Aと上記画像処理命令Bの機能が同じであることを確定し、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令A及びBのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記ニューラルネットワーク演算サブ手段1131又は上記汎用演算サブ手段1132は上記画像処理命令A及びBの機能が異なることを確定する。当該画像処理命令A及びBは上記N個の処理命令のうちの任意の2つである。
前記入出力手段104は、前記処理後の画像を出力するためにも用いられる。
また、上記画像処理手段は、上記音声信号に応じて上記処理対象画像を処理して、処理後の画像を取得した後、上記入出力手段によって当該処理後の画像を出力する。
例を挙げて上記語義領域を説明すると、上記画像処理装置が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。
具体的に、本発明で使用される音声認識技術は、人工ニューラルネットワーク(Artificial Neural Network;ANN)、隠れマルコフモデル(Hidden Markov Model;HMM)等のモデルを含むが、これらに限定されない。上記第1の音声認識手段は、上記音声認識技術に基づいて上記音声信号を処理してもよい。上記自然言語処理技術は、統計的機械学習や、ANN等の方法を利用することを含むが、これらに限定されない。上記語義理解手段は、上記自然言語処理技術に基づいて語義情報を抽出することができる。上記画像認識技術は、エッジ検出に基づく方法、閾値分割方法、領域成長及び分水嶺(watershed)アルゴリズム、階調積分投影(Gray−level Integration Projection)曲線分析、テンプレートマッチング、変形可能テンプレート、ハフ(Hough)変換、スネーク(Snake)演算子、Gaborウェーブレット変換に基づく弾性マップマッチング技術や、アクティブ形状モデル及びアクティブ外観モデル等の方法等のアルゴリズムを含むが、これらに限定されない。上記画像認識手段は、上記画像認識技術に基づいて上記処理対象画像を異なる領域に分割することができる。
好ましくは、上記入出力手段130が上記音声信号と上記処理対象画像を取得する前に、上記ニューラルネットワーク演算サブ手段1131は音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。
また、音声命令変換モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段1131がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、ニューラルネットワーク演算サブ手段1131と異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記ニューラルネットワーク演算サブ手段1131が上記目標音声命令変換モデルを使用する必要がある場合、当該ニューラルネットワーク演算サブ手段1131は上記クラウドサーバから当該目標音声命令変換モデルを取得する。
好ましくは、音声命令変換モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練は監督されるか、又は監督されない。
具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記ニューラルネットワーク演算サブ手段1131が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。
一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を取得することである。命令毎に1つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記ニューラルネットワーク演算サブ手段1131はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記ニューラルネットワーク演算サブ手段1131は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。
具体的に、上記画像処理手段110に対し、その入力と出力はいずれも画像である。上記画像103のANNや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体(例えば美脚、豊胸)、顔の変更、顔の美化、オブジェクトの変更(猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等)、背景の変更(後の森を畑に置き換え)、遮蔽物除去(例えば片目が顔に遮られると、再度に目を再構成する)、スタイルの変換(1秒でゴッホ画風へ変更)、位置姿勢の変換(例えば立っている状態から座る状態に変更、顔の正面から側面への変更)、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。
好ましくは、上記ニューラルネットワーク演算サブ手段1131が上記音声信号を受信する前に、当該ニューラルネットワーク演算サブ手段1131は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。
また、画像処理モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練はオフライン又はオンラインで行われる。
具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段1131がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段1131と異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記ニューラルネットワーク演算サブ手段1131が上記目標画像処理モデルを使用する必要がある場合、当該ニューラルネットワーク演算サブ手段1131は上記クラウドサーバから当該目標画像処理モデルを取得する。
好ましくは、画像処理モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練は監督されるか、又は監督されない。
具体的に、上記画像処理モデルに対する上記ニューラルネットワーク演算サブ手段1131の自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記ニューラルネットワーク演算サブ手段1131が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化し、前記目標画像処理モデルを取得することである。
一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段1131が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を取得することである。命令毎に1枚の目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記ニューラルネットワーク演算サブ手段1131はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記ニューラルネットワーク演算サブ手段1131は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ(重みや、オフセット等)を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。
また、上記画像処理装置の画像処理手段110は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段111と、前記ニューラルネットワーク演算命令を前記ニューラルネットワーク演算サブ手段に伝送し、前記汎用演算命令を前記汎用演算サブ手段に伝送するための命令処理手段112と、をさらに備える。
なお、上記画像処理装置の画像処理手段113におけるニューラルネットワーク演算サブ手段1131が、画像処理操作や、上記画像処理モデルと上記音声命令変換モデルに対して自己適応訓練を行う過程において、上記命令処理手段112は上記命令キャッシュ手段111からニューラルネットワーク演算命令を取得し、上記ニューラルネットワーク演算サブ手段1131に伝送して、当該ニューラルネットワーク演算サブ手段1131を駆動する。上記汎用演算サブ手段1132が画像処理操作を行う過程において、上記命令処理手段112は上記命令キャッシュ手段111から汎用演算命令を取得して上記汎用演算サブ手段1132に伝送して、当該汎用演算サブ手段1132を駆動する。
本実施例において、上記画像処理装置は手段の形式で現れる。本明細書における「手段」は、特定用途向け集積回路(application−specific integrated circuit;ASIC)、1つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び/又は他の上記機能を提供することができるデバイスを指してもよい。
なお、本発明の実施例の技術案において、入出力手段は音声信号と処理対象画像を入力し、記憶手段は前記音声信号と前記処理対象画像を記憶し、画像処理手段は前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶し、前記入出力手段は前記処理後の画像を出力することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。
図15を参照すると、図15は本発明の実施例が提供する他の画像処理装置の構造ブロック模式図である。図15に示すように、当該チップは、画像処理手段210と、記憶手段220と、入出力手段230とを備えている。
また、上記画像処理手段210は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段211を備える。
一実施形態において、上記命令キャッシュ手段211は並べ替えキャッシュであってもよい。
命令処理手段212は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段213に供給するためのものである。上記命令処理手段212は、命令キャッシュ手段から命令を取得するための命令取得モジュール214と、取得した命令を復号するための復号モジュール215と、復号後の命令について順に記憶するための命令キューモジュール216と、を備える。
スカラレジスタモジュール217は、ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。
処理依存関係モジュール218は、上記命令処理手段212によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段219に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段213に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段213に与える。
記憶キュー手段219は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する2つの命令を記憶するためのものである。
具体的に、上記連続する2つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する2つの命令は依存がなくなるまで上記記憶キュー手段219内で待たなければならない。そうしないと、当該連続する2つの命令を上記ニューラルネットワーク演算手段に与えることができない。
ニューラルネットワーク演算手段213は、命令処理モジュール又は記憶キュー手段から伝送される命令を処理するためのものである。
記憶手段220は、ニューロンキャッシュ手段521と重みキャッシュ手段522とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段221と重みキャッシュ手段222に記憶されている。
入出力手段230は、音声信号を入力し、画像処理命令を出力するためのものである。
一実施形態において、記憶手段220はスクラッチパッドメモリであってもよく、入出力手段230はIO直接メモリアクセスモジュールであってもよい。
具体的に、上記画像処理装置のニューラルネットワーク演算サブ手段が音声信号を画像処理命令に変換することは、具体的に次のようなステップを含む。
ステップAでは、命令取得モジュール214が命令キャッシュ手段211から1つの音声認識用のニューラルネットワーク演算命令を取り出し、演算命令を復号モジュール215に送る。
ステップBでは、復号モジュール215が演算命令を復号し、復号後の命令を命令キュー手段216に送る。
ステップCでは、スカラレジスタモジュール217から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。
ステップDでは、命令が処理依存関係モジュール218に送られ、当該処理依存関係モジュール218は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段213に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段219で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段213に送信する。
ステップEでは、ニューラルネットワーク演算サブ手段2131が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段220から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップFでは、ニューラルネットワーク演算サブ手段2131が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段220のニューロン記憶手段221に書き戻しする。
具体的に、上記画像処理装置の汎用演算サブ手段が音声信号を画像処理命令に変換することは、具体的に次のようなステップを含む。
ステップA’では、命令取得モジュール214が命令キャッシュ手段211から1つの音声認識用の汎用演算命令を取り出し、演算命令を復号モジュール215に送る。
ステップB’では、復号モジュール215が演算命令を復号し、復号後の命令を命令キュー手段216に送る。
ステップC’では、スカラレジスタモジュール217から前記命令に対応する汎用演算コマンドコードと汎用演算オペランドを取得する。
ステップD’では、命令が処理依存関係モジュール218に送られ、当該処理依存関係モジュール218は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段213に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段219で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段213に送信する。
ステップE’では、汎用演算サブ手段2132が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段220から音声命令変換モデルデータ等を含む必要なデータを取り出す。
ステップF’では、汎用演算サブ手段2132が前記命令に対応する汎用演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段220の汎用データキャッシュ手段223に書き戻しする。
なお、画像処理過程において、上記ニューラルネットワーク演算サブ手段213のニューラルネットワーク演算サブ手段2131と汎用演算サブ手段2132、上記記憶手段220のニューロン記憶手段221、重みキャッシュ手段222と汎用データキャッシュ手段223と上記入出力手段230の具体的な操作過程は、図14に示す実施例の関連説明を参照することができ、ここではさらに説明しない。
なお、上記記憶手段220は図15に示す画像処理装置のキャッシュ・オン・チップ手段である。
好ましくは、上記画像処理装置は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
また、好ましい一実施例において、画像処理チップは上記した図14に示す画像処理装置を備えている。
また、上記チップは、メインチップと、連携チップとを備え、上記連携チップは、本発明の実施例の第1の態様に記載の装置を備え、上記メインチップは、上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。
好ましくは、上記画像処理チップは、ビデオカメラ、携帯電話、コンピュータ、ノートブック、タブレット又は他の画像処理装置に用いることができる。
また、好ましい一実施例において、本発明の実施例はチップパッケージ構造を提供しており、当該チップパッケージ構造は上記画像処理チップを備えている。
また、好ましい一実施例において、本発明の実施例はボードカードを提供しており、当該ボードカードは上記チップパッケージ構造を備えている。
また、好ましい一実施例において、本発明の実施例は電子機器を提供しており、当該電子機器は上記ボードカードを備えている。
また、好ましい一実施例において、本発明の実施例は他の電子機器を提供しており、当該電子機器は上記ボードカード、対話型インタフェース、制御手段と音声収集装置を備えている。
図16に示すように、上記音声収集装置は音声を受信し、音声と処理対象画像を入力データとしてボードカードの内部の画像処理チップに伝えるために用いられる。
好ましくは、上記画像処理チップは人工ニューラルネットワーク処理チップであってもよい。
好ましくは、音声収集装置はマイクロフォン又はマルチアレイマイクロフォンであってもよい。
また、ボードカードの内部のチップは図14及び図15に示すものと同じ実施例を含み、対応する出力データ(即ち処理後の画像)を取得し、対話型インタフェースに伝送するためのものである。
また、対話型インタフェースは上記チップ(人工ニューラルネットワークプロセッサーと見なすことができる)の出力データを受信し、適切な形式のフィードバック情報に変換してユーザーに表示させる。
また、画像処理手段はユーザーの操作又は命令を受信し、画像処理装置全体の動作を制御する。
好ましくは、上記電子機器は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。
図17を参照すると、図17は本発明の実施例が提供する画像処理方法のフローチャートである。図17に示すように、当該方法は次のようなステップを含む。
S1701では、画像処理装置が音声信号と処理対象画像を入力する。
S1702では、画像処理装置が前記音声信号と前記処理対象画像を記憶する。
S1703では、画像処理装置が前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶する。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。
また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップの後に、前記方法は、前記画像処理命令と前記目標領域を記憶するステップをさらに含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、予め設定された時間ウィンドウ内で前記ニューロン記憶手段からM(Mは1より大きい整数)個の画像処理命令を取得するステップと、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令と目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からM(Mは1より大きい整数)個の画像処理命令を取得し、前記M個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、N(Nは前記Mよりも小さい整数)個の画像処理命令を取得するステップと、前記N個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。
S1704では、画像処理装置が前記処理後の画像を出力する。
また、好ましい一実施例において、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。
また、好ましい一実施例において、前記方法は、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。
また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。
また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行うステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。
なお、図17に示す方法の各ステップの具体的な実現過程は上記画像処理装置の具体的な実現過程を参照することができ、ここではさらに説明しない。
なお、前記の各方法実施例について、簡単に説明するために、それらを一連の動作の組み合わせとして記述したが、当業者であれば、本発明が説明された動作順序によって限定されないことを理解すべきである。それは、本発明によれば、幾つかのステップは他の順序で、又は同時に実行され得るからである。さらに、当業者であれば、明細書に説明された実施例はいずれも好ましい実施例であり、係る動作及びモジュールは必ずしも本発明にとって必要なものではないことを理解すべきである。
上記実施例において、各実施例に対する説明はいずれもそれぞれの重点があり、ある実施例で詳しく説明しない部分は、他の実施例の関連説明を参照することができる。
本願で提供される幾つかの実施例において、開示された装置は、他の形態によって実現されてもよいことを理解すべきである。例えば、以上に説明された装置実施例は単に例示的なものである。例えば前記手段の分割は、単に論理的な機能分割であり、実際実現する場合に別の分割形態を採用してもよい。例えば複数の手段又はモジュールは組み合わせてもよく、他のシステムに統合してもよく、一部の特徴を無視するか、又は実行しなくてもよい。一方、表れ又は検討している構成要素同士の結合又は直接結合又は通信接続は、幾つかのインターフェース、装置又は手段を介した間接的結合又は通信接続であってもよく、電気的又は他の形式であってもよい。
前記した別々の構成要素として説明された手段は、物理的に分離されてもされなくてもよい。手段として現れた部材も物理手段でもそうでなくてもよい。即ち、一箇所に位置してもよく、複数のネットワーク手段に分布されてもよい。なお、実際の必要に応じてその中の一部又は全部手段を選んで本実施例の技術案の目的を実現することができる。
また、本発明の各実施例における各機能手段は、1つの処理手段に統合されてもよく、各手段が物理的に独立して存在してもよく、1つの手段に2又は2以上の手段を統合してもよい。上記の統合した手段は、ハードウェアで実現されてもよく、ソフトウェア機能手段で実現されてもよい。
前記統合した手段は、ソフトウェア機能手段で実現され、且つ独立の製品として販売又は使用される場合、コンピュータ読み取り可能なメモリに記憶してもよい。このような理解に基づいて、本発明の技術案は実質的に、又は従来技術に対して貢献した部分又は当該技術案の全部又は一部をソフトウェア製品の形で具体化することができる。当該コンピュータソフトウェア製品はメモリに記憶され、1台のコンピュータデバイス(パーソナルコンピュータ、サーバ又はネットワークデバイス等であり得る)に本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための複数の命令を含まれる。また、前記のメモリは、Uディスク、読み取り専用メモリ(ROM、Read−Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、リムーバブルハードディスク、磁気ディスク又は光ディスク等の様々なプログラムコードを記憶可能な媒体を含む。
以上より、本発明の実施例を詳細に説明し、具体的な例にて本発明の原理及び実施形態を説明したが、以上の実施例の説明は単に本発明の方法及びその核心構想の理解に寄与するためのものである。同時に、当業者であれば、本発明の構想によって、具体的な実施形態及び応用範囲で変更することができる。よって、本明細書の内容を本発明の制限であると理解してはならない。