JP2020519923A

JP2020519923A - 画像処理装置及び方法

Info

Publication number: JP2020519923A
Application number: JP2019556201A
Authority: JP
Inventors: ティエンシチェン; シュアイフ; シァオビンチェン
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2018-09-29
Publication date: 2020-07-02
Anticipated expiration: 2038-09-29
Also published as: KR20190128658A; EP3667488B1; EP3667488A1; WO2019062931A1; US20200168227A1; JP6893968B2; KR20200049705A; JP6810232B2; KR102380494B1; EP3667487B1; KR20200049704A; JP2020064638A; JP2020067665A; EP3627499B1; JP6810283B2; EP3667487A1; KR102379954B1; US11532307B2; EP3627499A1; KR102317958B1

Abstract

本発明に開示された画像処理装置は、音声信号と処理対象画像を受信するための受信モジュールと、目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備える。本発明によれば、音声を入力すると画像を処理できる機能を実現し、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させることができる。【選択図】図１

Description

本発明は、画像処理分野に関し、特に、画像処理装置及び方法に関する。

ユーザーは、写真を撮った後、より良い画像効果を示すために、コンピュータにおけるＰＳソフトウェア又は携帯電話におけるレタッチソフトウェアによって画像処理を行うことがある。

しかし、コンピュータにおけるＰＳソフトウェアや携帯電話におけるレタッチソフトウェアを利用して画像処理を行う前に、ユーザーはソフトウェアの使用方法を習得する必要があり、且つソフトウェアの使用方法を習得した後に、命令を手動で入力してコンピュータや携帯電話を制御してレタッチ操作を行う必要がある。ユーザーにとって、このような方式は時間がかかるだけでなく、ユーザーの経験も悪かった。

本発明の実施例は、音声を入力すると画像を処理できる機能を実現し、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させる画像処理装置及び方法を提供することを目的とする。

第１の態様として、本発明の実施例は、
音声信号と処理対象画像を受信するための受信モジュールと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備える画像処理装置を提供する。

また、好ましい一実施例において、前記変換モジュールは、具体的に、
音声認識技術によって前記音声信号をテキスト情報に変換し、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、好ましい一実施例において、前記変換モジュールは、さらに具体的に、
音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、好ましい一実施例において、前記画像処理装置は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュールをさらに備える。

また、好ましい一実施例において、前記処理モジュールは、具体的に、
予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、
前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。

また、好ましい一実施例において、前記処理モジュールは、さらに具体的に、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、
前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。

また、好ましい一実施例において、前記変換モジュールは、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するために用いられる。

また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。

また、好ましい一実施例において、前記変換モジュールによる前記音声命令変換モジュールの自己適応訓練は監督されるか、又は監督されない。

また、好ましい一実施例において、前記変換モジュールは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記画像処理装置は、
音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュールをさらに備える。

また、好ましい一実施例において、前記処理モジュールは、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられる。

また、好ましい一実施例において、前記処理モジュールによる前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。

また、好ましい一実施例において、前記処理モジュールによる前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。

また、好ましい一実施例において、前記処理モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記訓練モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。

第２の態様として、本発明の実施例は、
音声信号及び処理対象画像を受信するステップと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するステップと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップと、を含む画像処理方法を提供する。

また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記処理対象画像の処理対象領域を取得するステップは、
前記画像処理命令における語義領域の粒度に基づいて、前記処理対象画像を、粒度の同じＭ個の領域に分割するステップと、
前記画像処理命令に応じて、前記Ｍ個の領域から前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記方法は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。

また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理するステップは、
予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得するステップと、
前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。

また、好ましい一実施例において、前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得するステップと、
前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。

また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオフラインで行われる。

また、好ましい一実施例において、前記音声命令変換モジュールに対する自己適応訓練は監督されるか、又は監督されない。

また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオフラインで行われる。

また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。

また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。

本発明の実施例の技術手段において、画像処理装置の受信モジュールは音声信号と処理対象画像を取得し、画像処理装置の変換モジュールは目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換し、画像処理装置の処理モジュールは前記画像処理命令と前記目標音声命令変換モデルに従って前記目標領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。

第３の態様として、本発明の実施例は、
ユーザーの入力した音声信号を収集するための音声収集装置と、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するための命令変換装置と、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための画像処理機と、を備える画像処理装置を提供する。

また、好ましい一実施例において、前記命令変換装置は、
前記音声認識技術によって音声信号をテキスト情報に変換するための第１の音声認識装置と、
自然言語処理技術と前記目標音声命令変換モデルによってテキスト情報を前記画像処理命令に変換するための音声テキスト変換装置と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第１の画像認識装置と、を備える。

また、好ましい一実施例において、前記命令変換装置は、
前記音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するための第２の音声認識装置と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第２の画像認識装置と、を備える。

また、好ましい一実施例において、前記画像処理装置は、
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するためのメモリをさらに備える。

また、好ましい一実施例において、その特徴として、前記画像処理機は、
予め設定された時間ウィンドウ内で前記メモリからＭ（Ｍは１より大きい整数）個の画像処理命令を取得するための命令取得モジュールと、
前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理モジュールと、を備える。

また、好ましい一実施例において、前記処理モジュールは、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、
前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理する。

また、好ましい一実施例において、前記命令変換装置は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するために用いられる。

また、好ましい一実施例において、前記命令変換装置による前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。

また、好ましい一実施例において、前記命令変換装置による前記音声命令変換モデルの自己適応訓練は監督されるか、又は監督されない。

また、好ましい一実施例において、前記命令変換装置は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記画像処理装置は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置をさらに備える。

また、好ましい一実施例において、前記画像処理機は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられる。

また、好ましい一実施例において、前記画像処理機による前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。

また、好ましい一実施例において、前記画像処理機による前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。

また、好ましい一実施例において、前記画像処理機は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記訓練装置は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。

第４の態様として、本発明の実施例は、
ユーザーの入力した音声信号を収集するステップと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するステップと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップと、を含む画像処理方法を提供する。

また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、
予め設定された時間ウィンドウ内で前記メモリからＭ（Ｍは１より大きい整数）個の画像処理命令を取得するステップと、
前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。

また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。

また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。

第５の態様として、本発明の実施例は、本発明の実施例の第３の態様の前記画像処理装置を備える画像処理チップも提供する。

また、好ましい一実施例において、上記チップは、メインチップと、連携チップとを備え、
上記連携チップは、本発明の実施例の第１の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。

第６の態様として、本発明の実施例は、本発明の実施例の第５の態様に記載の画像処理チップを備えるチップパッケージ構造を提供する。

第７の態様として、本発明の実施例は、本発明の実施例の第６の態様に記載のチップパッケージ構造を備えるボードカードを提供する。

第８の態様として、本発明の実施例は、本発明の実施例の第７の態様に記載のボードカードを備える電子機器を提供する。

なお、本発明の実施例の技術手段において、音声収集装置はユーザーの入力した音声信号を収集し、命令変換装置は目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、画像処理機は前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。

第９の態様として、本発明の実施例は、
音声信号と処理対象画像を入力するための入出力手段と、
前記音声信号と前記処理対象画像を記憶するための記憶手段と、
前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するための画像処理手段と、を備え、
前記入出力手段は、前記処理後の画像を出力するためにも用いられる画像処理装置を提供する。

また、好ましい一実施例において、前記記憶手段は、ニューロン記憶手段と、重みキャッシュ手段とを備え、前記画像処理手段のニューラルネットワーク演算手段は、ニューラルネットワーク演算サブ手段を備え、
前記ニューロン記憶手段が前記音声信号と前記処理対象画像を記憶するために用いられ、且つ、前記重みキャッシュ手段が目標音声命令変換モデルと目標画像処理モデルを記憶するために用いられる場合、前記ニューラルネットワーク演算サブ手段は前記目標音声命令変換モデルに従って前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、
前記ニューラルネットワーク演算サブ手段は、前記目標画像処理モデルと前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、
前記ニューラルネットワーク演算サブ手段は、前記処理後の画像を前記ニューロン記憶手段に記憶するためにも用いられる。

また、好ましい一実施例において、前記記憶手段は汎用データキャッシュ手段を備え、前記画像処理手段のニューラルネットワーク演算手段は汎用演算サブ手段を備え、
前記汎用データキャッシュ手段が前記音声信号と前記処理対象画像を受信するために用いられる場合、前記汎用演算サブ手段は前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、
前記汎用演算サブ手段は、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、
前記汎用演算サブ手段は、前記処理後の画像を前記汎用データ記憶手段に記憶するためにも用いられる。

また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、具体的に、
音声認識技術に基づいて前記音声信号をテキスト情報に変換し、
自然言語処理技術と前記目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、具体的に、
音声認識技術、語義理解技術及び前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、好ましい一実施例において、前記汎用演算サブ手段は、具体的に、
音声認識技術に基づいて前記音声信号をテキスト情報に変換し、
自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、好ましい一実施例において、前記汎用演算サブ手段は、具体的に、
音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、好ましい一実施例において、前記ニューロン記憶手段は、前記目標領域と前記画像処理命令を記憶するために用いられる。

また、好ましい一実施例において、前記汎用データキャッシュ手段は前記目標領域と前記画像処理命令を記憶するために用いられる。

また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
予め設定された時間ウィンドウ内で前記ニューロン記憶手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、
前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するために用いられる。

また、好ましい一実施例において、前記汎用演算サブ手段は、
予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、
前記Ｎ個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するために用いられる。

また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記ニューラルネットワーク演算サブ手段は、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。

また、好ましい一実施例において、前記画像処理装置の画像処理手段は、
ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段と、
前記ニューラルネットワーク演算命令を前記ニューラルネットワーク演算サブ手段に伝送し、前記汎用演算命令を前記汎用演算サブ手段に伝送するための命令処理手段と、をさらに備える。

第１０の態様として、本発明の実施例は、
音声信号と処理対象画像を入力するステップと、
前記音声信号と前記処理対象画像を記憶するステップと、
前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するステップと、
前記処理後の画像を出力するステップと、を含む画像処理方法を提供する。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップの後に、前記方法は、
前記画像処理命令と前記目標領域を記憶するステップをさらに含む。

また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、
予め設定された時間ウィンドウ内で前記ニューロン記憶手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得するステップと、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得するステップと、
前記Ｎ個の画像処理命令と目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。

また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、
予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得するステップと、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得するステップと、
前記Ｎ個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。

また、好ましい一実施例において、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記方法は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行うステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。

第１１の態様として、本発明の実施例は、本発明の実施例の第１の態様の前記画像処理装置を備える画像処理チップも提供している。

第１２の態様として、本発明の実施例は、本発明の実施例の第１１の態様に記載の画像処理チップを備えるチップパッケージ構造を提供する。

第１３の態様として、本発明の実施例は、本発明の実施例の第１２の態様に記載のチップパッケージ構造を備えるボードカードを提供する。

第１４の態様として、本発明の実施例は、本発明の実施例の第１３の態様に記載のボードカードを備える電子機器を提供する。

なお、本発明の実施例の技術手段において、入出力手段は音声信号と処理対象画像を入力し、記憶手段は前記音声信号と前記処理対象画像を記憶し、画像処理手段は前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶し、前記入出力手段は前記処理後の画像を出力することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。

以下では、本発明の実施例又は従来技術における技術案をより明らかに説明するために、実施例又は従来技術の記述に使用する必要がある図面について簡単に説明する。なお、以下の説明における図面は単に本発明の一部の実施例に過ぎず、当業者にとって、これらの図面に基づいて創造的な活動をしない前提で他の図面を得ることができることは言うまでもない。
本発明の実施例が提供する画像処理装置の構造模式図である。本発明の実施例が提供する他の画像処理装置の部分構造模式図である。本発明の実施例が提供する他の画像処理装置の部分構造模式図である。本発明の実施例が提供する他の画像処理装置の部分構造模式図である。本発明の実施例が提供するチップの構造模式図である。本発明の実施例が提供する他のチップの構造模式図である。本発明の実施例が提供する画像処理方法のフローチャートである。本発明の実施例が提供する画像処理装置の構造模式図である。本発明の実施例が提供する他の画像処理装置の部分構造模式図である。本発明の実施例が提供する他の画像処理装置の部分構造模式図である。本発明の実施例が提供する他の画像処理装置の部分構造模式図である。本発明の実施例が提供する電子機器の構造模式図である。本発明の実施例が提供する画像処理方法のフローチャートである。本発明の実施例が提供する画像処理装置の構造模式図である。本発明の実施例が提供する他の画像処理装置の部分構造模式図である。本発明の実施例が提供する電子機器の構造模式図である。本発明の実施例が提供する画像処理方法のフローチャートである。

以下に、それぞれを詳細に説明する。

本発明の明細書、特許請求の範囲及び前記図面における「第１」、「第２」、「第３」及び「第４」等の用語は異なる相手を区別するために使用され、特定の順序を説明することを意図しない。また、用語「含む」、「有する」及びそれらのいずれか変更は、非排他的に含むことを意図している。例えば、一連のステップ又は手段を含む過程、方法、システム、製品又は機器は、列挙されたステップ又は手段に限定されず、列挙していないステップ又は手段を選択的に含むか、或いは、これらの過程、方法、製品又は機器に固有の他のステップ又は手段を選択的に含むことができる。

本明細書で言及している「実施例」は、実施例と併せて説明する特定の特徴、構造又は特性が本発明の少なくとも一つの実施例に含まれ得ることを意味する。明細書の様々な箇所で出現する当該短句は、必ずしも同じ実施例を指しているわけではなく、他の実施例と相互排除する独立又は候補の実施例でもない。当業者であれば、本明細書に記載の実施例が他の実施例と組み合わせることができることを明示的及び暗黙的に理解するであろう。

第１の態様として、本発明の実施例が提供する画像処理装置の構造模式図である図１に示すように、当該画像処理装置１００は、
音声信号と処理対象画像を受信するための受信モジュール１０１を備える。

好ましくは、上記画像処理装置１００は、前処理モジュールをさらに備え、上記受信モジュール１０１が上記音声信号を受信した後、上記前処理モジュールは当該音声信号に対して騒音低減処理を実行する。

好ましくは、受信モジュール１０１は、オーディオ収集手段を備え、当該オーディオ収集手段は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集機器であってもよい。

具体的に、上記受信装置１０１は、上記音声信号を受信する時、環境声音信号も受信する。上記前処理モジュールは、上記環境声音信号に応じて上記音声信号に対して騒音低減処理を実行する。当該環境声音信号は上記音声信号にとって騒音である。

さらに、上記オーディオ収集手段は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。

好ましくは、１つの可能な実施例において、上記画像処理装置は、第１の記憶モジュールと第２の記憶モジュールとをさらに備える。上記受信装置が上記音声信号と上記処理対象画像を受信した後、上記画像処理装置は上記音声信号と上記処理対象画像を第１の記憶モジュールと第２の記憶モジュールにそれぞれ記憶する。

好ましくは、上記第１の記憶モジュールと上記第２の記憶モジュールは、同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。

変換モジュール１０２は、目標音声命令変換モデルに基づいて前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するために用いられる。

好ましくは、上記変換モジュール１０２は、音声認識技術、自然言語処理技術及び画像認識技術に基づいて前記音声信号を画像処理命令と目標領域に変換する前に、上記変換モジュールは上記第１の記憶モジュールから上記音声処理信号を取得する。

そのうち、前記変換モジュール１０２は、
音声認識技術によって前記音声信号をテキスト情報に変換するための第１の音声認識手段１０２１と、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するための語義理解手段１０２２と、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第１の画像認識手段１０２３と、を備える。

さらに、上記変換モジュール１０２は、上記画像処理命令における語義領域の粒度を取得するための取得手段１０２６をさらに備える。

例を挙げて上記語義領域を説明すると、上記画像処理装置１００が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。

具体的に、本発明で使用される音声認識技術は、人工ニューラルネットワーク（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＡＮＮ）、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）等のモデルを含むが、これらに限定されない。上記第１の音声認識手段は、上記音声認識技術に基づいて上記音声信号を処理してもよい。上記自然言語処理技術は、統計的機械学習や、ＡＮＮ等の方法を利用することを含むが、これらに限定されない。上記語義理解手段は、上記自然言語処理技術に基づいて語義情報を抽出することができる。上記画像認識技術は、エッジ検出に基づく方法、閾値分割方法、領域成長及び分水嶺（ｗａｔｅｒｓｈｅｄ）アルゴリズム、階調積分投影（Ｇｒａｙ−ｌｅｖｅｌＩｎｔｅｇｒａｔｉｏｎＰｒｏｊｅｃｔｉｏｎ）曲線分析、テンプレートマッチング、変形可能テンプレート、ハフ（Ｈｏｕｇｈ）変換、スネーク（Ｓｎａｋｅ）演算子、Ｇａｂｏｒウェーブレット変換に基づく弾性マップマッチング技術や、アクティブ形状モデル及びアクティブ外観モデル等の方法等のアルゴリズムを含むが、これらに限定されない。上記画像認識手段は、上記画像認識技術に基づいて上記処理対象画像を異なる領域に分割することができる。

また、好ましい一実施例において、上記音声認識手段１０２１は上記音声認識技術によって上記音声信号をテキスト情報に変換し、当該テキスト情報を上記第１の記憶モジュールに保存する。上記語義理解手段１０２２は上記第１の記憶モジュールから上記テキスト情報を取得し、自然言語処理技術と上記目標音声命令変換モデルによって当該テキスト情報を画像処理命令に変換し、画像処理命令を上記第１の記憶モジュールに保存する。上記第１の画像認識手段１０２３は上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得し、上記分割結果と上記目標領域を上記第２の記憶モジュールに記憶する。

また、好ましい一実施例において、上記変換モジュール１０２は、
音声認識技術、自然言語処理技術と前記目標音声命令変換モデルに基づいて上記音声信号を直接に上記画像処理命令に変換し、当該画像処理命令を第１の記憶モジュールに保存するための音声認識手段１０２５と、
上記画像処理命令における上記処理対象画像を操作する語義領域の粒度に基づいて、当該処理対象画像を当該語義領域の粒度に従って分割し、上記処理対象画像を処理する領域である目標領域を取得し、分割後の結果及び上記目標領域を第２の記憶モジュールに記憶する第２の画像認識手段１０２６と、を備えてもよい。

好ましくは、上記受信モジュール１０１が上記音声信号と上記処理対象画像を受信する前に、上記変換モジュール１０２が音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。

また、上記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。

具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記変換モジュール１０２がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記変換モジュールと異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記変換モジュール１０２が上記目標音声命令変換モデルを使用する必要がある場合、当該変換モジュール１０２は上記クラウドサーバから当該目標音声命令変換モデルを取得する。

好ましくは、上記音声命令変換モデルに対する自己適応訓練は監督されるか、又は監督されない。

具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記変換モジュール１０２が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記変換モジュール１０２が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。

また、好ましい一実施例において、上記画像処理装置１００は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュール１０５をさらに備える。

一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記変換モジュール１０２又は訓練モジュール１０５が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に１つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記変換モジュール１０２又は訓練モジュール１０５はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記変換モジュール１０２又は訓練モジュール１０５は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ（重みや、オフセット等）を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。

前記画像処理装置１００は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュール１０４をさらに備える。

また、好ましい一実施例において、上記記憶モジュール１０４は、上記第１の記憶モジュール及び第２の記憶モジュールと同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。

処理モジュール１０３は、前記画像処理命令と目標画像処理モデルに基づいて前記処理対象画像を処理するためのものである。

また、前記処理モジュール１０３は、予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得するための取得手段１０３１と、前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理手段１０３２と、をさらに備える。

好ましくは、前記処理手段１０３２は、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。

具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記取得手段１０３１は上記記憶モジュール１０４からＭ個の画像処理命令を取得した後、上記処理手段１０３２は上記Ｍ個の画像処理命令について２つずつ比較し、当該Ｍ個の画像処理命令のうち同じ機能を有する命令を削除して、Ｎ個の画像処理命令を取得する。上記処理手段１０３２は上記Ｎ個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。

一例として、上記処理手段１０３２は上記Ｍ個の画像処理命令について２つずつ比較する。画像処理命令Ａと画像処理命令Ｂとが同じである場合、上記処理手段１０３２は上記画像処理命令Ａ及びＢのうち最大のオーバーヘッドを削除し、画像処理命令Ａと画像処理命令Ｂとが異なる場合、上記処理手段１０３２は上記画像処理命令Ａと上記画像処理命令Ｂの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Ａと上記画像処理命令Ｂの機能が同じであることを確定し、上記処理手段１０３２は上記画像処理命令Ａ及びＢのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記処理手段１０３２は上記画像処理命令Ａ及びＢの機能が異なることを確定する。当該画像処理命令Ａ及びＢは上記Ｍ個の処理命令のうちの任意の２つである。

具体的に、上記処理モジュール１０３に対し、その入力と出力はいずれも画像である。上記処理モジュール１０３のＡＮＮや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体（例えば美脚、豊胸）、顔の変更、顔の美化、オブジェクトの変更（猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等）、背景の変更（後の森を畑に置き換え）、遮蔽物除去（例えば片目が顔に遮られると、再度に目を再構成する）、スタイルの変換（１秒でゴッホ画風へ変更）、位置姿勢の変換（例えば立っている状態から座る状態に変更、顔の正面から側面への変更）、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。

好ましくは、上記受信モジュール１０１が上記音声信号と上記処理対象画像を受信する前に、上記処理モジュール１０３は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。

また、上記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。

具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記処理モジュール１０３がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記変換モジュールと異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記処理モジュール１０３が上記目標画像処理モデルを使用する必要がある場合、当該処理モジュール１０３は上記クラウドサーバから当該目標画像処理モデルを取得する。

好ましくは、上記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されない。

具体的に、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記処理モジュール１０３が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記処理モジュール１０３が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得することである。

一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記処理モジュール１０３又は訓練モジュール１０５が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎にいつの目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記処理モジュール１０３又は訓練モジュール１０５はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記処理モジュール１０３又は訓練モジュール１０５は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ（重みや、オフセット等）を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。

また、好ましい一実施例において、前記画像処理装置１００の変換モジュール１０２は、変換モジュール１０２における音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するために用いることができる。また、前記画像処理装置１００の処理モジュール１０３は、処理モジュール１０３における画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するために用いることができる。

また、好ましい一実施例において、前記画像処理装置１００は、変換モジュール１０２における音声命令変換モデルと処理モジュール１０３における画像処理モデルに対してそれぞれ自己適応訓練を行って、目標音声命令変換モデルと目標画像処理モデルを取得するための訓練モジュール１０５をさらに備える。

上記訓練モジュール１０５は、監督される方法又は監督されない方法によって上記音声命令変換モデル又は上記画像処理モデルにおける構造とパラメータを調整して、当該音声命令変換モデル又は画像処理モデルの性能を向上し、最終に目標音声命令変換モデル又は目標画像処理モデルを取得することができる。

本実施例において、画像処理装置１００はモジュール化されている。本明細書における「モジュール」は、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ；ＡＳＩＣ）、１つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び／又は他の上記機能を提供することができるデバイスを指してもよい。また、以上の受信モジュール１０１、変換モジュール１０２、処理モジュール１０３、記憶モジュール１０４、及び訓練モジュール１０５は、図５、図６、図７に示す人工ニューラルネットワークチップによって実現することができる。

好ましくは、上記画像処理装置１００の変換モジュール１０２又は処理モジュール１０３の処理手段１０３２は人工ニューラルネットワークチップである。即ち、上記変換モジュール１０２と上記処理モジュール１０３の処理手段１０３２は独立した２枚の人工ニューラルネットワークチップであり、その構造はそれぞれ図５及び図６に示す通りである。

本装置において、変換モジュール１０２と処理モジュール１０３は、直列に実行されてもよく、ソフトウェアパイプラインの形態で実行されてもよい。即ち、処理モジュール１０３が前の画像を処理する時、変換モジュール１０２は次の画像を処理することができる。そうすると、ハードウェアのスループットを向上し、画像処理効率を向上することができる。

図５を参照すると、図５は人工ニューラルネットワークチップの構造ブロック模式図である。図５に示すように、当該チップは、制御手段５１０と、記憶手段５２０と、入出力手段５３０とを備える。

また、上記制御手段５１０は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段５１１を備える。

一実施形態において、命令キャッシュ手段５１１は並べ替えキャッシュであってもよい。

命令処理手段５１２は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段５１９に供給するためのものである。上記命令処理手段５１２は、命令キャッシュ手段から命令を取得するための命令取得モジュール５１３と、取得した命令を復号するための復号モジュール５１４と、復号後の命令について順に記憶するための命令キューモジュール５１５と、を備える。

スカラレジスタモジュール５１６は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。

処理依存関係モジュール５１７は、上記命令処理手段５１２によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段５１８に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段５１９に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段５１９に与える。

記憶キュー手段５１８は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する２つの命令を記憶するためのものである。

具体的に、上記連続する２つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する２つの命令は依存がなくなるまで上記記憶キュー手段５１８内で待たなければならない。そうしないと、当該連続する２つの命令を上記ニューラルネットワーク演算手段に与えることができない。

ニューラルネットワーク演算手段５１９は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。

記憶手段５２０は、ニューロンキャッシュ手段５２１と重みキャッシュ手段５２２とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段５２１と重みキャッシュ手段５２２に記憶されている。

入出力手段５３０は、音声信号を入力し、画像処理命令を出力するためのものである。

一実施形態において、記憶手段５２０はスクラッチパッドメモリであってもよく、入出力手段５３０はＩＯ直接メモリアクセスモジュールであってもよい。

具体的に、上記チップ５００、即ち上記処理モジュール１０２が音声信号を画像処理命令に変換することは、具体的に以下のステップを含む。

ステップ５０１では、命令取得モジュール５１３が命令キャッシュ手段５１１から１つの音声認識用の演算命令を取り出し、演算命令を復号モジュール５１４に送る。

ステップ５０２では、復号モジュール５１４が演算命令を復号し、復号後の命令を命令キュー手段５１５に送る。

ステップ５０３では、スカラレジスタモジュール５１６から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。

ステップ５０４では、命令が処理依存関係モジュール５１７に送られ、処理依存関係モジュール５１７は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段５１９に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段５１８で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段５１９に送信する。

ステップ５０５では、ニューラルネットワーク演算手段５１９が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段５２０から音声命令変換モデルデータ等を含む必要なデータを取り出す。

ステップ５０６では、ニューラルネットワーク演算手段５１９が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段５２０に書き戻しする。

図６を参照すると、図６は他の人工ニューラルネットワークチップの構造ブロック模式図である。図６に示すように、当該チップは、制御手段６１０と、記憶手段６２０と、入出力手段６３０とを備える。

また、上記制御手段６１０は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段６１１を備える。

一実施形態において、命令キャッシュ手段６１１は並べ替えキャッシュであってもよい。

命令処理手段６１２は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段６１９に与えるためのものである。また、上記命令処理手段６１２は、命令キャッシュ手段から命令を取得するための命令取得モジュール６１３と、取得した命令を復号するための復号モジュール６１４と、復号後の命令について順に記憶するための命令キューモジュール６１５と、を備える。

スカラレジスタモジュール６１６は、上記命令に対応するコマンドコードとオペランドを記憶するためのものである。ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。

処理依存関係モジュール６１７は、上記命令処理手段６１２によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段６１８に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段６１９に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段６１９に与える。

記憶キュー手段６１８は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する２つの命令を記憶するためのものである。

具体的に、上記連続する２つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する２つの命令は依存がなくなるまで上記記憶キュー手段６１８内で待たなければならない。そうしないと、当該連続する２つの命令を上記ニューラルネットワーク演算手段に与えることができない。

ニューラルネットワーク演算手段６１９は、命令処理手段又は記憶キュー手段から伝送される命令を処理するためのものである。

記憶手段６２０は、ニューロンキャッシュ手段６２１と重みキャッシュ手段６２２とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段６２１と重みキャッシュ手段６２２に記憶されている。

入出力手段６３０は、画像処理命令と処理対象画像を入力し、処理後の画像を出力するためのものである。

一実施形態において、記憶手段６２０はスクラッチパッドメモリであってもよく、入出力手段６３０はＩＯ直接メモリアクセスモジュールであってもよい。

上記チップ、即ち上記処理モジュール１０３の処理手段１０３２が行う画像処理は、具体的に以下のようなステップを含む。

ステップ６０１では、命令取得モジュール６１３が命令キャッシュ手段６１１から１つの変換モジュールの生成した画像処理の命令を取り出し、演算命令を復号モジュール６１４に送る。

ステップ６０２では、復号モジュール６１４が演算命令を復号し、復号後の命令を命令キュー手段８１５に送信する。

ステップ６０３では、スカラレジスタモジュール６１６から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。

ステップ６０４では、命令が処理依存関係モジュール６１７に送られ、処理依存関係モジュール６１７は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段６１９に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段６１８で待ちする必要があり、その後に前記命令に対応するマイクロ命令をニューラルネットワーク演算手段６１９に送信する。

ステップ６０５では、ニューラルネットワーク演算手段６１９が前記命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段６２０から処理対象画像や、画像処理モデルデータ等を含む必要なデータを取り出す。

ステップ６０６では、ニューラルネットワーク演算手段６１９が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、処理結果を記憶手段６２０に書き戻しする。

なお、上記変換モジュール１０２と上記処理モジュール１０３の処理手段１０３２はいずれも人工ニューラルネットワークチップ又は汎用処理チップであってもよい。或いは、上記変換モジュール１０２と上記処理モジュール１０３の処理手段１０３２のうち、一方が人工ニューラルネットワークチップであり、他方が汎用処理チップであってもよい。

好ましくは、上記画像処理装置は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。

なお、本発明の実施例の技術案において、受信モジュールが音声信号と処理対象画像を受信して取得し、変換モジュールが目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像に対する処理対象領域に変換し、処理モジュールが前記画像処理命令と目標画像処理モデルに従って前記処理対象画像の処理領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。

第２の態様として、本発明の実施例は、音声信号と処理対象画像を受信するための受信モジュールと、目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備える画像処理装置をさらに提供する。

また、前記変換モジュールは、具体的に、音声認識技術によって前記音声信号をテキスト情報に変換し、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、前記変換モジュールは、さらに具体的に、音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

また、前記画像処理装置は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュールをさらに備える。

また、前記処理モジュールは、具体的に、予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。

また、前記処理モジュールは、さらに具体的に、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ個の画像処理命令を取得し、前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。

また、前記変換モジュールは、音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得する。

また、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われる。

また、前記変換モジュールによる前記音声命令変換モデルの自己適応訓練は監督されるか、又は監督されない。

また、前記変換モジュールは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられる。

また、前記画像処理装置は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュールをさらに備える。

また、前記処理モジュールは、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得する。

また、前記処理モジュールによる前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われる。

また、前記処理モジュールによる前記画像処理モデルの自己適応訓練は監督されるか、又は監督されない。

また、前記処理モジュールは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、前記予測画像及びその対応する目標画像の相関係数を確定し、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。

また、前記訓練モジュールは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、前記予測画像及びその対応する目標画像の相関係数を確定し、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられる。

なお、上記画像処理装置の実現過程は、図１に示す実施例の具体的な実現過程を参照することができ、ここではさらに詳しく説明しない。

第３の態様において、本発明の実施例は画像処理方法を提供する。図７に示すように、当該方法は、画像処理装置が音声信号と処理対象画像を受信するステップＳ７０１と、前記画像処理装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するステップＳ７０２と、を含む。

また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術によって前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記方法は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含む。

ステップＳ７０３は、前記画像処理装置が前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップである。

また、好ましい一実施例において、前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得するステップと、前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。

また、好ましい一実施例において、前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得するステップと、前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含む。

また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号と処理対象画像を受信するステップの前に、前記方法は、画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。

なお、図７に示す方法の各ステップの具体的な実現過程は、上記画像処理装置の具体的な実現過程を参照すればよい。よって、ここではさらに説明しない。

本発明の実施例はコンピュータ記憶媒体も提供している。当該コンピュータ記憶媒体はプログラムを記憶することができる。当該プログラムは、実行時に上記した方法実施例に記載の上記のいずれか画像処理方法の一部又は全部のステップを含む。

図８を参照すると、図８は本発明の実施例が提供する画像処理装置の構造模式図である。図８に示すように、当該画像処理装置８００は、ユーザーが入力した音声信号を収集するための音声収集装置８０１を備える。

好ましくは、上記画像処理装置８００は、騒音フィルタをさらに備える。上記音声収集装置８０１が上記音声信号を収集した後、上記騒音フィルタは当該音声信号に対して騒音低減処理を行う。

好ましくは、当該音声収集装置は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集装置であってもよい。

具体的に、上記音声収集装置８０１は、上記音声信号を受信する時、環境声音信号も受信する。上記騒音フィルタは、上記環境声音信号に基づいて上記音声信号に騒音低減処理を行う。当該環境声音信号は、上記音声信号にとっては騒音である。

さらに、上記オーディオ収集装置８０１は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。

好ましくは、１つの可能な実施例において、上記画像処理装置は第１のメモリをさらに備える。上記音声収集装置が上記音声信号を収集した後、上記画像処理装置は上記音声信号を第１のメモリに記憶する。

命令変換装置８０２は、目標音声命令変換モデルに基づいて前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換するために用いられる。

好ましくは、上記命令変換装置８０２は、音声認識技術、自然言語処理技術及び画像認識技術に基づいて前記音声信号を画像処理命令と目標領域に変換する前に、上記命令変換装置８０２は上記第１のメモリから上記音声信号を取得する。

また、前記命令変換装置８０２は、音声認識技術によって前記音声信号をテキスト情報に変換するための第１の音声認識装置８０２１と、自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するための音声テキスト変換装置８０２２と、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するための第１の画像認識装置８０２３と、を備える。

さらに、上記命令変換装置８０２は、上記画像処理命令における語義領域の粒度を取得するための取得モジュール８０２６をさらに備える。

例を挙げて上記語義領域を説明すると、上記画像処理装置８００が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。

また、好ましい一実施例において、上記第１の音声認識装置８０２１は上記音声認識技術によって上記音声信号をテキスト情報に変換し、当該テキスト情報を上記第１のメモリに保存する。上記音声テキスト変換装置８０２２は上記第１のメモリから上記テキスト情報を取得し、自然言語処理技術と上記目標音声命令変換モデルによって当該テキスト情報を画像処理命令に変換し、上記画像処理命令を上記第１のメモリに保存する。上記第１の画像認識装置８０２３は上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得し、上記分割結果と上記目標領域を上記第２のメモリに記憶する。

また、好ましい一実施例において、上記命令変換装置８０２は、音声認識技術、自然言語処理技術及び上記目標音声命令変換モデルに基づいて上記音声信号を直接に上記画像処理命令に変換し、当該画像処理命令を第１のメモリに保存するための第２の音声認識装置８０２５と、上記画像処理命令における上記処理対象画像を操作する語義領域の粒度に基づいて、当該処理対象画像を当該語義領域の粒度に従って分割し、上記処理対象画像を処理する領域である目標領域を取得し、分割後の結果及び上記目標領域を第２のメモリに記憶するための第２の画像認識装置８０２６と、を備えてもよい。

好ましくは、上記音声収集装置８０１が上記音声信号と上記処理対象画像を受信する前に、上記命令変換装置８０２が音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。

具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記命令変換装置８０２がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記命令変換装置８０２と異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記命令変換装置８０２が上記目標音声命令変換モデルを使用する必要がある場合、当該命令変換装置８０２は上記クラウドサーバから当該目標音声命令変換モデルを取得する。

具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記命令変換装置８０２が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記命令変換装置８０２が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。

また、好ましい一実施例において、上記画像処理装置８００は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練装置８０５をさらに備える。

一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記命令変換装置８０２又は訓練装置８０５が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に１つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記命令変換装置８０２又は訓練装置８０５はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記命令変換装置８０２又は訓練装置８０５は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ（重みや、オフセット等）を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。

前記画像処理装置８００は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するためのメモリ８０４をさらに備える。

また、好ましい一実施例において、上記メモリ８０４は、上記第１の記憶モジュール及び第２の記憶モジュールと同一の記憶モジュールであってもよく、異なる記憶モジュールであってもよい。

画像処理機８０３は、前記画像処理命令と目標画像処理モデルに基づいて前記処理対象画像を処理するためのものである。

また、前記画像処理機８０３は、予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得するための命令取得モジュール８０３１と、前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するための処理モジュール８０３２と、を備える。

好ましくは、前記処理モジュール８０３２は、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられる。

具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記取得手段８０３１は上記記憶モジュール８０４からＭ個の画像処理命令を取得した後、上記処理モジュール８０３２は上記Ｍ個の画像処理命令について２つずつ比較し、当該Ｍ個の画像処理命令のうち同じ機能を有する命令を削除して、Ｎ個の画像処理命令を取得する。上記処理モジュール８０３２は上記Ｎ個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。

一例として、上記処理モジュール８０３２は上記Ｍ個の画像処理命令について２つずつ比較する。画像処理命令Ａと画像処理命令Ｂとが同じである場合、上記処理モジュール８０３２は上記画像処理命令Ａ及びＢのうち最大のオーバーヘッドを削除し、画像処理命令Ａと画像処理命令Ｂとが異なる場合、上記処理モジュール８０３２は上記画像処理命令Ａと上記画像処理命令Ｂの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Ａと上記画像処理命令Ｂの機能が同じであることを確定し、上記処理モジュール８０３２は上記画像処理命令Ａ及びＢのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記処理モジュール８０３２は上記画像処理命令Ａ及びＢの機能が異なることを確定する。当該画像処理命令Ａ及びＢは上記Ｎ個の処理命令のうちの任意の２つである。

具体的に、上記画像処理機８０３に対し、その入力と出力はいずれも画像である。上記画像処理機８０３のＡＮＮや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体（例えば美脚、豊胸）、顔の変更、顔の美化、オブジェクトの変更（猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等）、背景の変更（後の森を畑に置き換え）、遮蔽物除去（例えば片目が顔に遮られると、再度に目を再構成する）、スタイルの変換（１秒でゴッホ画風へ変更）、位置姿勢の変換（例えば立っている状態から座る状態に変更、顔の正面から側面への変更）、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。

好ましくは、上記音声収集装置８０１が上記音声信号を受信する前に、上記画像処理機８０３は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。

具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記画像処理機８０３がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練はオンラインで行われることは、具体的に、上記画像処理機８０３と異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記画像処理機８０３が上記目標画像処理モデルを使用する必要がある場合、当該画像処理機８０３は上記クラウドサーバから当該目標画像処理モデルを取得する。

具体的に、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記画像処理機８０３が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記画像処理機８０３が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得することである。

一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記画像処理機８０３又は訓練装置８０５が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を受信することである。命令毎に１枚の目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記画像処理機８０３又は訓練装置８０５はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記画像処理機８０３又は訓練装置８０５は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ（重みや、オフセット等）を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。

また、好ましい一実施例において、前記画像処理装置８００の命令変換装置８０２は、命令変換装置８０２における音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得するために用いることができる。前記画像処理装置８００の画像処理機８０３は、画像処理機８０３における画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得するために用いることができる。

また、好ましい一実施例において、前記画像処理装置８００は、命令変換装置８０２における音声命令変換モデルと画像処理機８０３における画像処理モデルに対してそれぞれ自己適応訓練を行って、目標音声命令変換モデルと目標画像処理モデルを取得するための訓練装置８０５をさらに備える。

上記訓練装置８０５は、監督される方法又は監督されない方法によって上記音声命令変換モデル又は上記画像処理モデルにおける構造とパラメータを調整して、当該音声命令変換モデル又は画像処理モデルの性能を向上し、最終に目標音声命令変換モデル又は目標画像処理モデルを取得することができる。

本実施例において、画像処理装置８００はモジュール化されている。本明細書における「モジュール」は、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ；ＡＳＩＣ）、１つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び／又は他の上記機能を提供することができるデバイスを指してもよい。また、以上の音声収集装置８０１、命令変換装置８０２、画像処理機８０３、記憶モジュール８０４、及び訓練装置８０５は、図５、図６、図１２、図８に示す人工ニューラルネットワークチップによって実現することができる。

好ましくは、上記画像処理装置８００の命令変換装置８０２又は画像処理機８０３の処理モジュール８０３２は、人工ニューラルネットワークチップである。即ち、上記命令変換装置８０２と上記画像処理機８０３の処理モジュール８０３２は独立した２枚の人工ニューラルネットワークチップであり、その構造はそれぞれ図５及び図６に示す通りである。

本装置において、命令変換装置８０２と画像処理機８０３は、直列に実行されてもよく、ソフトウェアパイプラインの形態で実行されてもよい。即ち、画像処理機８０３が前の画像を処理する時、命令変換装置８０２は次の画像を処理することができる。そうすると、ハードウェアのスループットを向上し、画像処理効率を向上することができる。

具体的に、上記チップ５００、即ち上記命令変換装置１０２が音声信号を画像処理命令に変換することは、具体的に以下のステップを含む。

なお、上記記憶手段５２０は図５に示すチップのキャッシュ・オン・チップ手段である。

上記チップ、即ち上記画像処理機１０３の処理モジュール１０３２が行う画像処理は、具体的に以下のようなステップを含む。

ステップ６０１では、命令取得モジュール６１３が命令キャッシュ手段６１１から１つの命令変換装置の生成した画像処理の命令を取り出し、演算命令を復号モジュール６１４に送る。

なお、上記記憶手段６２０は図６に示すチップのキャッシュ・オン・チップ手段である。

なお、上記命令変換装置１０２と上記画像処理機１０３の処理モジュール１０３２はいずれも人工ニューラルネットワークチップ又は汎用処理チップであってもよい。或いは、上記命令変換装置１０２と上記画像処理機１０３の処理モジュール１０３２のうち、一方が人工ニューラルネットワークチップであり、他方が汎用処理チップであってもよい。

なお、本発明の実施例の技術案において、音声収集装置がユーザーの入力した音声信号を取得し、命令変換装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像に対する処理対象領域に変換し、画像処理機が前記画像処理命令と目標画像処理モデルに従って前記処理対象画像の処理領域を処理することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。

また、好ましい一実施例において、画像処理チップは上記の図８に示す画像処理装置を備える。

また、上記チップは、メインチップと連携チップとを備え、上記連携チップは、本発明の実施例の第１の態様に記載の装置を備え、上記メインチップは上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。

また、上記連携チップは、上記の図５及び図６に示すチップを備える。

好ましくは、上記画像処理チップは、ビデオカメラ、携帯電話、コンピュータ、ノートブック、タブレット又は他の画像処理装置に用いることができる。

また、好ましい一実施例において、本発明の実施例は、上記の画像処理チップを備えるチップパッケージ構造を提供する。

また、好ましい一実施例において、本発明の実施例は、上記のチップパッケージ構造を備えるボードカードを提供する。

また、好ましい一実施例において、本発明の実施例は、上記のボードカードを備える電子機器を提供する。

１つの可能な実施例では、本発明の実施例が他の電子機器を提供している。当該電子機器は、上記ボードカード、対話型インタフェース、制御手段、及び音声収集装置を含んでいる。

図８に示すように、音声収集装置は音声を受信し、音声と処理対象画像を入力データとしてボードカードの内部のチップに伝えるために用いられる。

好ましくは、上記画像処理チップは、人工ニューラルネットワーク処理チップであってもよい。

好ましくは、音声収集装置は、マイクロフォン又はマルチアレイマイクロフォンであってもよい。

また、ボードカードの内部のチップは図５及び図６に示すものと同じ実施例を含み、対応する出力データ（即ち処理後の画像）を取得し、対話型インタフェースに伝送するためのものである。

また、対話型インタフェースは上記チップ（人工ニューラルネットワークプロセッサーと見なすことができる）の出力データを受信し、適切な形式のフィードバック情報に変換してユーザーに表示させる。

また、制御手段はユーザーの操作又は命令を受信し、画像処理装置全体の動作を制御する。

好ましくは、上記電子機器は、データ処理装置、ロボット、コンピュータ、タブレット、スマート端末、携帯電話、クラウドサーバ、カメラ、ビデオカメラ、プロジェクタ、腕時計、イヤホン、携帯メモリ又はウェアラブル装置であってもよい。

図１３を参照すると、図１３は本発明の実施例が提供する画像処理方法のフローチャートである。図１３に示すように、当該方法は次のようなステップを含む。

Ｓ１３０１では、画像処理装置がユーザーの入力した音声信号を収集する。

Ｓ１３０２では、前記画像処理装置が目標音声命令変換モデルに従って前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換する。

Ｓ１３０３では、前記画像処理装置が前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理する。

なお、図１３に示す方法の各ステップの具体的実現過程は上記画像処理装置の具体的実現過程を参照してもよい。ここではさらに詳しく説明しない。

図１４を参照すると、図１４は本発明の実施例が提供する画像処理装置の構造模式図である。図１４に示すように、当該画像処理装置は、音声信号と処理対象画像を入力するための入出力手段１３０を備えている。

好ましくは、上記画像処理装置は、騒音フィルタをさらに備え、上記入出力手段１３０が上記音声信号を取得した後、上記騒音フィルタは当該音声信号に対して騒音低減処理を行う。

好ましくは、当該入出力手段１３０は、音声センサ、マイクロフォン、ピックアップや、他のオーディオ収集装置であってもよい。

具体的に、上記入出力手段１３０は、上記音声信号を取得する時、環境声音信号も取得する。上記騒音フィルタは、上記環境声音信号に応じて上記音声信号に対して騒音低減処理を実行する。当該環境声音信号は上記音声信号の騒音であると見なしてもよい。

さらに、上記入出力手段１３０は、上記音声信号と上記環境声音信号の収集に用いるだけでなく、騒音低減処理も実現するペアマイクロフォンアレイを含んでもよい。

記憶手段１２０は、前記音声信号と前記処理対象画像を記憶するためのものである。

画像処理手段１１０は、前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に従って前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶するためのものである。

好ましくは、前記記憶手段１２０は、ニューロン記憶手段１２１と、重みキャッシュ手段１２２とを備え、前記画像処理手段１１０のニューラルネットワーク演算手段１１３は、ニューラルネットワーク演算サブ手段１１３１を備え、前記ニューロン記憶手段１２１が前記音声信号と前記処理対象画像を記憶するために用いられ、且つ、前記重みキャッシュ手段１２２が目標音声命令変換モデルと目標画像処理モデルを記憶するために用いられる場合、前記ニューラルネットワーク演算サブ手段１１３１は、前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、前記ニューラルネットワーク演算サブ手段１１３１は、前記目標画像処理モデルと前記画像処理命令に従って前記目標領域を処理して、処理後の画像を取得するためにも用いられ、前記処理後の画像を前記ニューロン記憶手段に記憶するためにも用いられる。

さらに、前記ニューラルネットワーク演算サブ手段１１３１は、具体的に、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然言語処理技術と前記目標音声命令変換モデルに従って前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

さらに、前記ニューラルネットワーク演算サブ手段１１３１は、具体的に、音声認識技術、語義理解技術及び前記目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

さらに、前記ニューロン記憶手段１２１は、前記目標領域と前記画像処理命令を記憶するために用いられる。

具体的に、前記ニューラルネットワーク演算サブ手段１１３１は、予め設定された時間ウィンドウ内で前記ニューロン記憶手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するために用いられる。

具体的に、上記記憶手段１２０のニューロン記憶手段１２１が上記音声信号と上記処理対象画像を記憶し、且つ、上記重みキャッシュ手段１２２が上記目標音声命令変換モデルを記憶する時、上記ニューラルネットワーク演算サブ手段１１３１は、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然音声処理技術と上記目標音声命令変換モデルに基づいて上記テキスト情報を画像処理命令に変換し、当該画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域する取得するか、又は、上記ニューラルネットワーク演算サブ手段１１３１は、音声認識技術、語義理解技術及び上記目標音声命令変換モデルに基づいて上記音声信号を画像処理命令に変換し、上記画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割し、上記目標領域を取得する。

さらに、上記ニューラルネットワーク演算サブ手段１１３１は、上記画像処理命令と上記目標領域を上記ニューロンキャッシュ手段１２１に記憶する。上記ニューラルネットワーク演算サブ手段１１３１は、上記重みキャッシュ手段１２２から上記目標音声命令変換モデルを取得し、予め設定された時間ウィンドウ内で上記ニューロン記憶手段１２１からＭ個の画像処理命令と目標領域を取得し、上記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ個の画像処理命令を取得する。上記ニューラルネットワーク演算サブ手段１１３１は、上記Ｎ個の画像処理命令と上記目標画像処理モデルに基づいて上記目標領域を処理して、処理後の画像を取得する。

好ましくは、前記記憶手段は汎用データキャッシュ手段を備え、前記画像処理手段のニューラルネットワーク演算手段は汎用演算サブ手段を備え、前記汎用データキャッシュ手段が前記音声信号と前記処理対象画像を受信するために用いられる場合、前記汎用演算サブ手段は前記音声信号を前記画像処理命令と前記目標領域に変換するために用いられ、前記汎用演算サブ手段は、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するためにも用いられ、前記汎用演算サブ手段は、前記処理後の画像を前記汎用データ記憶手段に記憶するためにも用いられる。

さらに、前記汎用演算サブ手段は、具体的に、音声認識技術に基づいて前記音声信号をテキスト情報に変換し、自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

さらに、前記汎用演算サブ手段は、具体的に、音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換し、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられる。

さらに、前記汎用データキャッシュ手段は前記目標領域と前記画像処理命令を記憶するために用いられる。

具体的に、前記汎用演算サブ手段は、予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得し、前記Ｎ個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するために用いられる。

具体的に、上記記憶手段１２０の汎用データキャッシュ手段１２３が上記音声信号と上記処理対象画像を記憶する時、上記汎用演算サブ手段１１３２は、音声認識技術に基づいて上記音声信号をテキスト情報に変換し、自然言語処理技術に基づいて上記テキスト情報を画像処理命令に変換し、上記画像処理命令の語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割して、上記目標領域を取得するか、又は、上記汎用演算サブ手段１１３２は、音声認識技術と語義理解技術に基づいて上記音声信号を上記画像処理命令に変換し、当該画像処理命令における語義領域の粒度と画像認識技術に基づいて上記処理対象画像を領域分割して、上記目標領域を取得する。

さらに、上記汎用演算サブ手段１１３２は上記画像処理命令と上記目標領域を上記汎用データキャッシュ手段１２３に記憶する。上記汎用演算サブ手段１１３２は上記汎用データキャッシュ手段から上記目標領域を取得し、予め設定された時間ウィンドウ内で上記汎用データキャッシュ手段からＭ個の画像処理命令を取得し、当該Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ個の画像処理命令を取得し、当該Ｎ個の画像処理命令に応じて上記目標領域を処理して、処理後の画像を取得する。

具体的に、上記予め設定された時間ウィンドウは、予め設定された時間長であると理解してもよい。予め設定された時間長内で上記ニューラルネットワーク演算サブ手段１１３１は上記ニューロン記憶手段１２１からＭ個の画像処理命令を取得するか、又は、上記汎用演算サブ手段１１３２は上記汎用データキャッシュ手段からＭ個の画像処理命令を取得した後、上記ニューラルネットワーク演算サブ手段１１３１又は上記汎用演算サブ手段１１３２は上記Ｍ個の画像処理命令について２つずつ比較し、当該Ｍ個の画像処理命令のうち同じ機能を有する命令を削除して、Ｎ個の画像処理命令を取得する。上記ニューラルネットワーク演算サブ手段１１３１又は上記汎用演算サブ手段１１３２は上記Ｎ個の処理命令と上記目標画像処理モデルに基づいて上記処理対象画像を処理する。

一例として、上記ニューラルネットワーク演算サブ手段１１３１又は上記汎用演算サブ手段１１３２は上記Ｍ個の画像処理命令について２つずつ比較する。画像処理命令Ａと画像処理命令Ｂとが同じである場合、上記ニューラルネットワーク演算サブ手段１１３１又は上記汎用演算サブ手段１１３２は上記画像処理命令Ａ及びＢのうち最大のオーバーヘッドを削除し、画像処理命令Ａと画像処理命令Ｂとが異なる場合、上記ニューラルネットワーク演算サブ手段１１３１又は上記汎用演算サブ手段１１３２は上記画像処理命令Ａと上記画像処理命令Ｂの類似度係数を取得する。当該類似度係数が類似度閾値よりも大きい時、上記画像処理命令Ａと上記画像処理命令Ｂの機能が同じであることを確定し、上記ニューラルネットワーク演算サブ手段１１３１又は上記汎用演算サブ手段１１３２は上記画像処理命令Ａ及びＢのうち最大のオーバーヘッドを削除し、上記類似度係数が上記類似度閾値よりも小さい時、上記ニューラルネットワーク演算サブ手段１１３１又は上記汎用演算サブ手段１１３２は上記画像処理命令Ａ及びＢの機能が異なることを確定する。当該画像処理命令Ａ及びＢは上記Ｎ個の処理命令のうちの任意の２つである。

前記入出力手段１０４は、前記処理後の画像を出力するためにも用いられる。

また、上記画像処理手段は、上記音声信号に応じて上記処理対象画像を処理して、処理後の画像を取得した後、上記入出力手段によって当該処理後の画像を出力する。

例を挙げて上記語義領域を説明すると、上記画像処理装置が音声信号に応じて上記目標領域が顔領域であると確定した場合、上記語義領域は上記処理対象画像における顔領域であり、上記画像処理装置は顔を粒度として、上記処理対象画像における複数の顔領域を取得する。上記目標領域が背景である場合、上記画像処理装置は上記処理対象画像を背景領域と非背景領域に分割し、上記目標領域が赤色領域である場合、上記画像処理装置は上記処理対象画像を色に従って異なる色の領域に分割する。

好ましくは、上記入出力手段１３０が上記音声信号と上記処理対象画像を取得する前に、上記ニューラルネットワーク演算サブ手段１１３１は音声命令変換モデルに対して自己適応訓練を行って、上記目標音声命令変換モデルを取得する。

また、音声命令変換モデルに対する上記ニューラルネットワーク演算サブ手段１１３１の自己適応訓練はオフライン又はオンラインで行われる。

具体的に、上記音声命令変換モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段１１３１がそのハードウェアを基で上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記音声命令変換モデルに対する自己適応訓練がオンラインで行われることは、具体的に、ニューラルネットワーク演算サブ手段１１３１と異なるクラウドサーバが上記音声命令変換モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記ニューラルネットワーク演算サブ手段１１３１が上記目標音声命令変換モデルを使用する必要がある場合、当該ニューラルネットワーク演算サブ手段１１３１は上記クラウドサーバから当該目標音声命令変換モデルを取得する。

好ましくは、音声命令変換モデルに対する上記ニューラルネットワーク演算サブ手段１１３１の自己適応訓練は監督されるか、又は監督されない。

具体的に、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段１１３１が音声命令変換モデルに基づいて上記音声信号を予測命令に変換し、その後に、上記予測命令及びその対応する命令セットの相関係数を確定し、当該命令セットは手動で音声信号に従って取得される命令のセットであり、上記ニューラルネットワーク演算サブ手段１１３１が前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得することである。

一例として、上記音声命令変換モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段１１３１が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を取得することである。命令毎に１つの命令セットが対応する。自己適応訓練用の入力した音声信号にとって、対応する命令セットは既知のものであり、上記ニューラルネットワーク演算サブ手段１１３１はこれらの音声信号を音声命令変換モデルの入力データとして、出力後の予測命令を取得する。上記ニューラルネットワーク演算サブ手段１１３１は、上記予測命令及びその対応する命令セットの相関係数を算出し、上記音声命令変換モデルにおけるパラメータ（重みや、オフセット等）を適応的に更新して、上記音声命令変換モデルの性能を向上し、さらに上記目標音声命令変換モデルを取得する。

具体的に、上記画像処理手段１１０に対し、その入力と出力はいずれも画像である。上記画像１０３のＡＮＮや従来のコンピュータビジョン方法に限られない方法によって上記処理対象画像に対して行う処理は、美体（例えば美脚、豊胸）、顔の変更、顔の美化、オブジェクトの変更（猫と犬の交換、シマウマの馬への変更、リンゴとオレンジの交換等）、背景の変更（後の森を畑に置き換え）、遮蔽物除去（例えば片目が顔に遮られると、再度に目を再構成する）、スタイルの変換（１秒でゴッホ画風へ変更）、位置姿勢の変換（例えば立っている状態から座る状態に変更、顔の正面から側面への変更）、油絵以外のものが油絵に変更、画像背景の色の変更や、画像中のオブジェクト場所の季節の背景の変更等を含むが、これらに限定されない。

好ましくは、上記ニューラルネットワーク演算サブ手段１１３１が上記音声信号を受信する前に、当該ニューラルネットワーク演算サブ手段１１３１は画像処理モデルに対して自己適応訓練を行って、上記目標画像処理モデルを取得する。

また、画像処理モデルに対する上記ニューラルネットワーク演算サブ手段１１３１の自己適応訓練はオフライン又はオンラインで行われる。

具体的に、上記画像処理モデルに対する自己適応訓練がオフラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段１１３１がそのハードウェアを基で上記画像処理モデルに対して自己適応訓練を行って、目標音声命令変換モデルを取得することである。上記画像処理モデルに対する自己適応訓練がオンラインで行われることは、具体的に、上記ニューラルネットワーク演算サブ手段１１３１と異なるクラウドサーバが上記画像処理モデルに対して自己適応訓練を行って、目標画像処理モデルを取得することである。上記ニューラルネットワーク演算サブ手段１１３１が上記目標画像処理モデルを使用する必要がある場合、当該ニューラルネットワーク演算サブ手段１１３１は上記クラウドサーバから当該目標画像処理モデルを取得する。

好ましくは、画像処理モデルに対する上記ニューラルネットワーク演算サブ手段１１３１の自己適応訓練は監督されるか、又は監督されない。

具体的に、上記画像処理モデルに対する上記ニューラルネットワーク演算サブ手段１１３１の自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段１１３１が画像処理モデルに基づいて上記音声信号を予測画像に変換し、その後に、上記予測画像及びその対応する目標画像の相関係数を確定し、当該目標は手動で音声信号に従って処理対象画像を処理することで得られる画像であり、上記ニューラルネットワーク演算サブ手段１１３１が前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化し、前記目標画像処理モデルを取得することである。

一例として、上記画像処理モデルに対する自己適応訓練が監督されることは、具体的に、上記ニューラルネットワーク演算サブ手段１１３１が、画像の色の変更や、画像の回転等の関連命令を含む音声信号を取得することである。命令毎に１枚の目標画像が対応する。自己適応訓練用の入力した音声信号にとって、対応する目標画像は既知のものであり、上記ニューラルネットワーク演算サブ手段１１３１はこれらの音声信号を画像処理モデルの入力データとして、出力後の予測画像を取得する。上記ニューラルネットワーク演算サブ手段１１３１は、上記予測画像及びその対応する目標画像の相関係数を算出し、上記画像処理モデルにおけるパラメータ（重みや、オフセット等）を適応的に更新して、上記画像処理モデルの性能を向上し、さらに上記目標画像処理モデルを取得する。

また、上記画像処理装置の画像処理手段１１０は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段１１１と、前記ニューラルネットワーク演算命令を前記ニューラルネットワーク演算サブ手段に伝送し、前記汎用演算命令を前記汎用演算サブ手段に伝送するための命令処理手段１１２と、をさらに備える。

なお、上記画像処理装置の画像処理手段１１３におけるニューラルネットワーク演算サブ手段１１３１が、画像処理操作や、上記画像処理モデルと上記音声命令変換モデルに対して自己適応訓練を行う過程において、上記命令処理手段１１２は上記命令キャッシュ手段１１１からニューラルネットワーク演算命令を取得し、上記ニューラルネットワーク演算サブ手段１１３１に伝送して、当該ニューラルネットワーク演算サブ手段１１３１を駆動する。上記汎用演算サブ手段１１３２が画像処理操作を行う過程において、上記命令処理手段１１２は上記命令キャッシュ手段１１１から汎用演算命令を取得して上記汎用演算サブ手段１１３２に伝送して、当該汎用演算サブ手段１１３２を駆動する。

本実施例において、上記画像処理装置は手段の形式で現れる。本明細書における「手段」は、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ；ＡＳＩＣ）、１つ又は複数のソフトウェア又はファームウェアプログラムを実行するプロセッサー及びメモリ、集積論理回路、及び／又は他の上記機能を提供することができるデバイスを指してもよい。

なお、本発明の実施例の技術案において、入出力手段は音声信号と処理対象画像を入力し、記憶手段は前記音声信号と前記処理対象画像を記憶し、画像処理手段は前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶し、前記入出力手段は前記処理後の画像を出力することができることが分かる。従来の画像処理技術と比べると、本発明は、音声によって画像処理を行うので、画像処理前にユーザーが画像処理ソフトウェアを学習する時間を省き、ユーザーの経験を向上させている。

図１５を参照すると、図１５は本発明の実施例が提供する他の画像処理装置の構造ブロック模式図である。図１５に示すように、当該チップは、画像処理手段２１０と、記憶手段２２０と、入出力手段２３０とを備えている。

また、上記画像処理手段２１０は、ニューラルネットワーク演算命令と汎用演算命令を含む実行されるべき命令を記憶するための命令キャッシュ手段２１１を備える。

一実施形態において、上記命令キャッシュ手段２１１は並べ替えキャッシュであってもよい。

命令処理手段２１２は、命令キャッシュ手段からニューラルネットワーク演算命令又は汎用演算命令を取得し、当該命令を処理して上記ニューラルネットワーク演算手段２１３に供給するためのものである。上記命令処理手段２１２は、命令キャッシュ手段から命令を取得するための命令取得モジュール２１４と、取得した命令を復号するための復号モジュール２１５と、復号後の命令について順に記憶するための命令キューモジュール２１６と、を備える。

スカラレジスタモジュール２１７は、ニューラルネットワーク演算命令に対応するニューラルネットワーク演算コマンドコードとオペランド、及び汎用演算命令に対応する汎用演算コマンドコードとオペランドを含んでいる。

処理依存関係モジュール２１８は、上記命令処理手段２１２によって送信された命令及びその対応するコマンドコードとオペランドを判断するためのものであり、当該命令と前の命令とが同じデータにアクセスするかどうかを判断し、同じデータにアクセスすると、当該命令を記憶キュー手段２１９に記憶し、前の命令の実行が完了した後に、記憶キュー手段における当該命令を上記ニューラルネットワーク演算手段２１３に与える。同じデータにアクセスしないと、当該命令を直接に上記ニューラルネットワーク演算手段２１３に与える。

記憶キュー手段２１９は、命令が記憶手段にアクセスする時、同じ記憶スペースにアクセスする連続する２つの命令を記憶するためのものである。

具体的に、上記連続する２つの命令の実行結果の正確性を保証するために、現在の命令が前の命令のデータに依存することが検出された場合、当該連続する２つの命令は依存がなくなるまで上記記憶キュー手段２１９内で待たなければならない。そうしないと、当該連続する２つの命令を上記ニューラルネットワーク演算手段に与えることができない。

ニューラルネットワーク演算手段２１３は、命令処理モジュール又は記憶キュー手段から伝送される命令を処理するためのものである。

記憶手段２２０は、ニューロンキャッシュ手段５２１と重みキャッシュ手段５２２とを備え、ニューラルネットワークデータモデルは上記ニューロンキャッシュ手段２２１と重みキャッシュ手段２２２に記憶されている。

入出力手段２３０は、音声信号を入力し、画像処理命令を出力するためのものである。

一実施形態において、記憶手段２２０はスクラッチパッドメモリであってもよく、入出力手段２３０はＩＯ直接メモリアクセスモジュールであってもよい。

具体的に、上記画像処理装置のニューラルネットワーク演算サブ手段が音声信号を画像処理命令に変換することは、具体的に次のようなステップを含む。

ステップＡでは、命令取得モジュール２１４が命令キャッシュ手段２１１から１つの音声認識用のニューラルネットワーク演算命令を取り出し、演算命令を復号モジュール２１５に送る。

ステップＢでは、復号モジュール２１５が演算命令を復号し、復号後の命令を命令キュー手段２１６に送る。

ステップＣでは、スカラレジスタモジュール２１７から前記命令に対応するニューラルネットワーク演算コマンドコードとニューラルネットワーク演算オペランドを取得する。

ステップＤでは、命令が処理依存関係モジュール２１８に送られ、当該処理依存関係モジュール２１８は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段２１３に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段２１９で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段２１３に送信する。

ステップＥでは、ニューラルネットワーク演算サブ手段２１３１が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段２２０から音声命令変換モデルデータ等を含む必要なデータを取り出す。

ステップＦでは、ニューラルネットワーク演算サブ手段２１３１が前記命令に対応するニューラルネットワーク演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段２２０のニューロン記憶手段２２１に書き戻しする。

具体的に、上記画像処理装置の汎用演算サブ手段が音声信号を画像処理命令に変換することは、具体的に次のようなステップを含む。

ステップＡ’では、命令取得モジュール２１４が命令キャッシュ手段２１１から１つの音声認識用の汎用演算命令を取り出し、演算命令を復号モジュール２１５に送る。

ステップＢ’では、復号モジュール２１５が演算命令を復号し、復号後の命令を命令キュー手段２１６に送る。

ステップＣ’では、スカラレジスタモジュール２１７から前記命令に対応する汎用演算コマンドコードと汎用演算オペランドを取得する。

ステップＤ’では、命令が処理依存関係モジュール２１８に送られ、当該処理依存関係モジュール２１８は命令に対応するコマンドコードとオペランドに対して判断を行い、命令と前の実行完了ではない命令とがデータ上で依存関係が存在するかどうかを判断し、存在しないと、前記命令を直接にニューラルネットワーク演算手段２１３に送り、存在すると、命令は前の実行完了ではない命令とデータ上でもはや依存関係が存在しないまで記憶キュー手段２１９で待ちする必要があり、その後に前記命令をニューラルネットワーク演算手段２１３に送信する。

ステップＥ’では、汎用演算サブ手段２１３２が命令に対応するコマンドコードとオペランドに従って必要なデータのアドレスとサイズを確定し、記憶手段２２０から音声命令変換モデルデータ等を含む必要なデータを取り出す。

ステップＦ’では、汎用演算サブ手段２１３２が前記命令に対応する汎用演算を実行し、対応する処理を終了し、画像処理命令を取得し、画像処理命令を記憶手段２２０の汎用データキャッシュ手段２２３に書き戻しする。

なお、画像処理過程において、上記ニューラルネットワーク演算サブ手段２１３のニューラルネットワーク演算サブ手段２１３１と汎用演算サブ手段２１３２、上記記憶手段２２０のニューロン記憶手段２２１、重みキャッシュ手段２２２と汎用データキャッシュ手段２２３と上記入出力手段２３０の具体的な操作過程は、図１４に示す実施例の関連説明を参照することができ、ここではさらに説明しない。

なお、上記記憶手段２２０は図１５に示す画像処理装置のキャッシュ・オン・チップ手段である。

また、好ましい一実施例において、画像処理チップは上記した図１４に示す画像処理装置を備えている。

また、上記チップは、メインチップと、連携チップとを備え、上記連携チップは、本発明の実施例の第１の態様に記載の装置を備え、上記メインチップは、上記連携チップに起動信号を与え、処理対象画像と画像処理命令が上記連携チップに伝送されるように制御するためのものである。

また、好ましい一実施例において、本発明の実施例はチップパッケージ構造を提供しており、当該チップパッケージ構造は上記画像処理チップを備えている。

また、好ましい一実施例において、本発明の実施例はボードカードを提供しており、当該ボードカードは上記チップパッケージ構造を備えている。

また、好ましい一実施例において、本発明の実施例は電子機器を提供しており、当該電子機器は上記ボードカードを備えている。

また、好ましい一実施例において、本発明の実施例は他の電子機器を提供しており、当該電子機器は上記ボードカード、対話型インタフェース、制御手段と音声収集装置を備えている。

図１６に示すように、上記音声収集装置は音声を受信し、音声と処理対象画像を入力データとしてボードカードの内部の画像処理チップに伝えるために用いられる。

好ましくは、上記画像処理チップは人工ニューラルネットワーク処理チップであってもよい。

好ましくは、音声収集装置はマイクロフォン又はマルチアレイマイクロフォンであってもよい。

また、ボードカードの内部のチップは図１４及び図１５に示すものと同じ実施例を含み、対応する出力データ（即ち処理後の画像）を取得し、対話型インタフェースに伝送するためのものである。

また、画像処理手段はユーザーの操作又は命令を受信し、画像処理装置全体の動作を制御する。

図１７を参照すると、図１７は本発明の実施例が提供する画像処理方法のフローチャートである。図１７に示すように、当該方法は次のようなステップを含む。

Ｓ１７０１では、画像処理装置が音声信号と処理対象画像を入力する。

Ｓ１７０２では、画像処理装置が前記音声信号と前記処理対象画像を記憶する。

Ｓ１７０３では、画像処理装置が前記音声信号を画像処理命令と処理対象画像の処理領域である目標領域に変換し、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得し、前記処理対象画像を前記記憶手段に記憶する。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、自然言語処理技術と目標音声命令変換モデルに基づいて前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術、語義理解技術及び目標音声命令変換モデルに基づいて前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術に基づいて前記音声信号をテキスト情報に変換するステップと、自然言語処理技術に基づいて前記テキスト情報を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップは、音声認識技術と語義理解技術に基づいて前記音声信号を前記画像処理命令に変換するステップと、前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含む。

また、好ましい一実施例において、前記音声信号を画像処理命令と目標領域に変換するステップの後に、前記方法は、前記画像処理命令と前記目標領域を記憶するステップをさらに含む。

また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、予め設定された時間ウィンドウ内で前記ニューロン記憶手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得するステップと、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得するステップと、前記Ｎ個の画像処理命令と目標画像処理モデルに基づいて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。

また、好ましい一実施例において、前記画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップは、予め設定された時間ウィンドウ内で前記汎用データキャッシュ手段からＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得するステップと、前記Ｎ個の画像処理命令に応じて前記目標領域を処理して、処理後の画像を取得するステップと、を含む。

Ｓ１７０４では、画像処理装置が前記処理後の画像を出力する。

また、好ましい一実施例において、前記方法は、音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記音声命令変換モデルに対する自己適応訓練はオフライン又はオンラインで行われる。

また、好ましい一実施例において、前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、前記予測命令及びその対応する命令セットの相関係数を確定するステップと、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含む。

また、好ましい一実施例において、前記方法は、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含む。

また、好ましい一実施例において、前記画像処理モデルに対する自己適応訓練はオフライン又はオンラインで行われる。

また、好ましい一実施例において、前記画像処理モデルに対して自己適応訓練を行うステップは、前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、前記予測画像及びその対応する目標画像の相関係数を確定するステップと、前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含む。

なお、図１７に示す方法の各ステップの具体的な実現過程は上記画像処理装置の具体的な実現過程を参照することができ、ここではさらに説明しない。

なお、前記の各方法実施例について、簡単に説明するために、それらを一連の動作の組み合わせとして記述したが、当業者であれば、本発明が説明された動作順序によって限定されないことを理解すべきである。それは、本発明によれば、幾つかのステップは他の順序で、又は同時に実行され得るからである。さらに、当業者であれば、明細書に説明された実施例はいずれも好ましい実施例であり、係る動作及びモジュールは必ずしも本発明にとって必要なものではないことを理解すべきである。

上記実施例において、各実施例に対する説明はいずれもそれぞれの重点があり、ある実施例で詳しく説明しない部分は、他の実施例の関連説明を参照することができる。

本願で提供される幾つかの実施例において、開示された装置は、他の形態によって実現されてもよいことを理解すべきである。例えば、以上に説明された装置実施例は単に例示的なものである。例えば前記手段の分割は、単に論理的な機能分割であり、実際実現する場合に別の分割形態を採用してもよい。例えば複数の手段又はモジュールは組み合わせてもよく、他のシステムに統合してもよく、一部の特徴を無視するか、又は実行しなくてもよい。一方、表れ又は検討している構成要素同士の結合又は直接結合又は通信接続は、幾つかのインターフェース、装置又は手段を介した間接的結合又は通信接続であってもよく、電気的又は他の形式であってもよい。

前記した別々の構成要素として説明された手段は、物理的に分離されてもされなくてもよい。手段として現れた部材も物理手段でもそうでなくてもよい。即ち、一箇所に位置してもよく、複数のネットワーク手段に分布されてもよい。なお、実際の必要に応じてその中の一部又は全部手段を選んで本実施例の技術案の目的を実現することができる。

また、本発明の各実施例における各機能手段は、１つの処理手段に統合されてもよく、各手段が物理的に独立して存在してもよく、１つの手段に２又は２以上の手段を統合してもよい。上記の統合した手段は、ハードウェアで実現されてもよく、ソフトウェア機能手段で実現されてもよい。

前記統合した手段は、ソフトウェア機能手段で実現され、且つ独立の製品として販売又は使用される場合、コンピュータ読み取り可能なメモリに記憶してもよい。このような理解に基づいて、本発明の技術案は実質的に、又は従来技術に対して貢献した部分又は当該技術案の全部又は一部をソフトウェア製品の形で具体化することができる。当該コンピュータソフトウェア製品はメモリに記憶され、１台のコンピュータデバイス（パーソナルコンピュータ、サーバ又はネットワークデバイス等であり得る）に本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための複数の命令を含まれる。また、前記のメモリは、Ｕディスク、読み取り専用メモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リムーバブルハードディスク、磁気ディスク又は光ディスク等の様々なプログラムコードを記憶可能な媒体を含む。

以上より、本発明の実施例を詳細に説明し、具体的な例にて本発明の原理及び実施形態を説明したが、以上の実施例の説明は単に本発明の方法及びその核心構想の理解に寄与するためのものである。同時に、当業者であれば、本発明の構想によって、具体的な実施形態及び応用範囲で変更することができる。よって、本明細書の内容を本発明の制限であると理解してはならない。

以下に、それぞれを詳細に説明する。

Claims

音声信号と処理対象画像を受信するための受信モジュールと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するための変換モジュールと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するための処理モジュールと、を備えることを特徴とする画像処理装置。
前記変換モジュールは、具体的に、
音声認識技術によって前記音声信号をテキスト情報に変換し、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられることを特徴とする請求項１に記載の画像処理装置。
前記変換モジュールは、さらに具体的に、
音声認識技術、語義理解技術及び前記目標音声命令変換モデルによって前記音声信号を前記画像処理命令に変換し、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するために用いられることを特徴とする請求項１に記載の画像処理装置。
前記画像処理装置は、前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するための記憶モジュールをさらに備えることを特徴とする請求項１乃至３のいずれか一項に記載の画像処理装置。
前記処理モジュールは、具体的に、
予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得し、
前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられることを特徴とする請求項４に記載の画像処理装置。
前記処理モジュールは、さらに具体的に、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ個の画像処理命令を取得し、
前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するために用いられることを特徴とする請求項５に記載の画像処理装置。
前記変換モジュールは、音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するために用いられることを特徴とする請求項１に記載の画像処理装置。
前記変換モジュールによる前記音声命令変換モデルの自己適応訓練はオフライン又はオンラインで行われることを特徴とする請求項７に記載の画像処理装置。
前記変換モジュールによる前記音声命令変換モジュールの自己適応訓練は監督されるか、又は監督されないことを特徴とする請求項７又は８に記載の画像処理装置。
前記変換モジュールは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定し、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するためにも用いられることを特徴とする請求項７に記載の画像処理装置。
前記画像処理装置は、前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、前記予測命令及びその対応する命令セットの相関係数を確定し、前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するための訓練モジュールをさらに備えることを特徴とする請求項１に記載の画像処理装置。
前記処理モジュールは、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられることを特徴とする請求項１に記載の画像処理装置。
前記処理モジュールによる前記画像処理モデルの自己適応訓練はオフライン又はオンラインで行われることを特徴とする請求項１２に記載の画像処理装置。
前記処理モジュールによる前記画像処理モデルの自己適応訓練は監督されるか、又は監督されないことを特徴とする請求項１２又は１３に記載の画像処理装置。
前記処理モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられることを特徴とする請求項１２に記載の画像処理装置。
前記訓練モジュールは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するためにも用いられることを特徴とする請求項１に記載の画像処理装置。
前記音声信号と処理対象画像を受信する前に、前記画像処理装置は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するためにも用いられることを特徴とする請求項１に記載の画像処理装置。
前記音声命令変換モデルに対する自己適応訓練はオフライン又はオフラインで行われることを特徴とする請求項１７に記載の画像処理装置。
前記音声命令変換モジュールに対する自己適応訓練は監督されるか、又は監督されないことを特徴とする請求項１７又は１８に記載の画像処理装置。
前記画像処理装置は、具体的に、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換し、
前記予測命令及びその対応する命令セットの相関係数を確定しと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するために用いられることを特徴とする請求項１７に記載の画像処理装置。
前記画像処理装置は、画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するために用いられることを特徴とする請求項１に記載の画像処理装置。
前記画像処理モデルに対する自己適応訓練はオフライン又はオフラインで行われることを特徴とする請求項２１に記載の画像処理装置。
前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されないことを特徴とする請求項２１又は２２に記載の画像処理装置。
前記画像処理装置は、具体的に、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得し、
前記予測画像及びその対応する目標画像の相関係数を確定し、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するために用いられることを特徴とする請求項２１に記載の画像処理装置。
音声信号及び処理対象画像を受信するステップと、
目標音声命令変換モデルに従って前記音声信号を画像処理命令と前記処理対象画像の処理領域である目標領域に変換するステップと、
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップと、を含むことを特徴とする画像処理方法。
前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術によって前記音声信号をテキスト情報に変換するステップと、
自然言語処理技術と前記目標音声命令変換モデルによって前記テキスト情報を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含むことを特徴とする請求項２５に記載の画像処理方法。
前記目標音声命令変換モデルに従って前記音声信号を画像処理命令と目標領域に変換するステップは、
音声認識技術、語義理解技術及び前記音声命令変換モデルによって前記音声信号を前記画像処理命令に変換するステップと、
前記画像処理命令における語義領域の粒度と画像認識技術に基づいて前記処理対象画像を領域分割し、前記目標領域を取得するステップと、を含むことを特徴とする請求項２５に記載の画像処理方法。
前記テキスト情報又は前記画像処理命令又は前記目標領域を記憶するステップをさらに含むことを特徴とする請求項２５乃至２７のいずれか一項に記載の画像処理方法。
前記画像処理命令と目標画像処理モデルに従って前記目標領域を処理するステップは、
予め設定された時間ウィンドウ内で前記記憶モジュールからＭ（Ｍは１より大きい整数）個の画像処理命令を取得するステップと、
前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含むことを特徴とする請求項２５に記載の画像処理方法。
前記Ｍ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップは、
前記Ｍ個の画像処理命令のうち同じ機能を有する画像処理命令を削除して、Ｎ（Ｎは前記Ｍよりも小さい整数）個の画像処理命令を取得するステップと、
前記Ｎ個の画像処理命令と前記目標画像処理モデルに基づいて前記目標領域を処理するステップと、を含むことを特徴とする請求項２９に記載の画像処理方法。
前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップをさらに含むことを特徴とする請求項２５に記載の画像処理方法。
前記音声命令変換モデルに対する自己適応訓練はオフライン又はオフラインで行われることを特徴とする請求項３１に記載の画像処理方法。
前記音声命令変換モジュールに対する自己適応訓練は監督されるか、又は監督されないことを特徴とする請求項３１又は３２に記載の画像処理方法。
前記音声命令変換モデルに対して自己適応訓練を行って、前記目標音声命令変換モデルを取得するステップは、
前記音声命令変換モデルに基づいて前記音声信号を予測命令に変換するステップと、
前記予測命令及びその対応する命令セットの相関係数を確定するステップと、
前記予測命令及びその対応する命令セットの相関係数に従って前記音声命令変換モデルを最適化して、前記目標音声命令変換モデルを取得するステップと、を含むことを特徴とする請求項３１に記載の画像処理方法。
前記音声信号と処理対象画像を受信するステップの前に、前記方法は、
画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップをさらに含むことを特徴とする請求項２５に記載の画像処理方法。
前記画像処理モデルに対する自己適応訓練はオフライン又はオフラインで行われることを特徴とする請求項３５に記載の画像処理方法。
前記画像処理モデルに対する自己適応訓練は監督されるか、又は監督されないことを特徴とする請求項３５又は３６に記載の画像処理方法。
前記画像処理モデルに対して自己適応訓練を行って、前記目標画像処理モデルを取得するステップは、
前記処理対象画像に対する前記画像処理モデルの処理によって予測画像を取得するステップと、
前記予測画像及びその対応する目標画像の相関係数を確定するステップと、
前記予測画像及びその対応する目標画像の相関係数に従って前記画像処理モデルを最適化して、前記目標画像処理モデルを取得するステップと、を含むことを特徴とする請求項３５に記載の画像処理方法。