JP7210830B2

JP7210830B2 - 音声処理システム、音声処理方法、電子デバイス及び可読記憶媒体

Info

Publication number: JP7210830B2
Application number: JP2021091224A
Authority: JP
Inventors: ティアン、チャオ; ジア、レイ; ヤン、シアオピン; ウェン、ジュンフイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2021-05-31
Publication date: 2023-01-24
Anticipated expiration: 2041-05-31
Also published as: US20220093084A1; CN112259071A; KR20220040378A; EP3971712A1; JP2022051669A

Description

本発明は、データ処理技術分野に関し、特に音声処理技術分野における音声処理システム、音声処理方法、電子デバイス及び可読記憶媒体に関する。

音声処理、特にオフライン音声認識/オフライン音声合成/音声語義統合/語義信頼性/音声ウェイクアップなどを含むオフライン音声処理は、今後の発展傾向となる。従来技術におけるオフライン音声処理システムは、通常、ARM方式又はARM+ニューラルネットワークプロセッサ方式を採用している。しかし、前記のチップスキーム自体には、機能や計算力に制約があるため、前記両スキームに基づくオフライン音声処理システムでは、高性能なオフライン音声処理を実現することができない。

本出願に技術的課題を解決するために採用される技術案は、ニューラルネットワークプロセッサNPUとRISC-Vプロセッサとを含む音声処理システムを提供することにある。ここで、前記RISC-Vプロセッサは、予め定義されたNPUコマンドを含み、前記RISC-Vプロセッサは、前記NPUが対応するニューラルネットワークコンピューティングを実行するように、前記NPUに前記NPUコマンドを送信し、前記NPUは、メモリユニットと計算ユニットとを含み、前記メモリユニットは、複数のストレージグループを含み、前記計算ユニットは、受信されたNPUコマンドに従って、メイン計算、特殊計算、補助計算、複合コマンドセットCISC制御のうちの一つを実行する。

本出願に技術的課題を解決するために採用される技術案は、処理待ち音声データを取得し、前記処理待ち音声データを音声処理システムへの入力データとし、前記音声処理システムにより前記入力データを処理して出力結果を得、前記出力結果を前記処理対象音声データの音声処理結果とする、ことを含む音声処理方法を提供することにある。

少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、前記音声処理システムとを備え、前記メモリに前記少なくとも一つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサに前記方法を実行させる電子デバイスを提供する。

コンピュータに前記方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

前記出願の一実施形態は、音声処理タスクのオフライン処理効率を向上させることができる利点または有益な効果を有する。RISC-Vプロセッサにおける予め定義されたNPUコマンド及びNPUにおけるメモリユニットと計算ユニットとの間のアーキテクチャ設計に基づく技術的手段を採用したため、従来技術における技術的問題を克服し、音声処理タスクに対するオフライン処理効率を向上させる技術的効果を実現した。

前記の選択可能な方法が有する他の効果は、以下で具体的な実施形態と合わせて説明する。

図面は、本出願をより良く理解するためのものであり、本出願を限定しない。ここで、
本出願の第1の実施形態に係る模式図である。本出願の第2の実施形態に係る模式図である。本出願の第3の実施形態に係る模式図である。本出願の第4の実施形態に係る模式図である。本出願の実施形態を実現するための電子デバイスのブロック図である。

以下、図面に基づいて、本出願の例示的な実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図1は、本出願の第1の実施形態に係る模式図である。図1に示されたように、本実施形態の音声処理システムは、ニューラルネットワークプロセッサNPUおよびRISC-Vプロセッサを備える。

ここで、前記RISC-Vプロセッサは、予め定義されたNPUコマンドを含み、前記RISC-Vプロセッサは、前記NPUが対応するニューラルネットワークコンピューティングを実行するように、前記NPUに前記NPUコマンドを送信する。

前記NPUは、メモリユニットと計算ユニットとを含み、前記メモリユニットは、複数のストレージグループを含み、前記計算ユニットは、受信されたNPUコマンドに従って、メイン計算、特殊計算、補助計算、複合コマンドセットCISC制御のうちの一つを実行する。

本実施形態の音声処理システムは、ニューラルネットワークプロセッサ（NPU、Neural-network Processing Unit）に基づいて、RISC-Vプロセッサにおける予め定義されたNPUコマンドとNPUにおけるメモリユニットと計算ユニットの間のアーキテクチャ設計により、音声処理モデルにおけるニューラルネットワークコンピューティングをオフラインで高速かつ正確に実現することができ、オフライン音声処理タスクに対する処理効率を向上させることができる。

本実施形態におけるRISC-Vプロセッサは、特にニューラルネットワーク演算に対して予め定義されたNPUコマンドを含むRISC-V（縮小コマンドセット原理に基づくオープンソースコマンドセットアーキテクチャ）に基づくプロセッサである。

本実施形態のRISC-Vプロセッサに含まれる予め定義されたNPUコマンドは、基底ベクトル演算コマンドに加えて、ニューラルネットワークコンピューティングの高速化に特化したコマンドを含む。現在にNPUで使用されているコマンドはすべて共通であり、ニューラルネットワークコンピューティング、特に音声処理ネットワーク用に特別に設計されたコマンドが存在しないため、従来技術におけるNPUがニューラルネットワークコンピューティングを実行する際に非常に複雑な計算プロセスを必要とし、オフライン音声処理を行う際のNPUの計算力が低くなる。

ここで、本実施形態において予め定義されたNPUコマンドに関連する基底ベクトル演算コマンドは、ベクトル論理演算コマンド（例えばAND、OR、NOT、XOR）、ベクトル関係演算コマンド（例えばGE、GT、LE、LT、NE、EQ）、ベクトル算数演算コマンド（例えばADD、SUB、MUL）を含む。

本実施形態において予め定義されたNPUコマンドのうちニューラルネットワークコンピューティングの高速化に特化したコマンドは、ニューラルネットワークにおけるsoftmax層におけるベクトル加算計算のために用いられる、補助計算コマンドであるベクトル加算コマンド(SUM)と、ニューラルネットワークにおけるプール化操作のために用いられるプール化コマンド(POOLING)と、完全接続ネットワーク、RNNネットワークなどに関連する行列演算におけるベクトル間のドット積計算のために用いられる、メイン計算コマンドである第1ドット積計算コマンド（DOT_PORD）と、アテンションモデルに関連する行列演算におけるベクトルと行列との間のドット積計算のために用いられる、メイン計算コマンドである第2ドット積計算コマンド(ATTEN)と、アクティブ関数などの超越関数の計算を実現するために用いられる、特殊計算コマンドであるベクトル超越関数コマンド（ACT、SIN、COS、EXP、LOG、SQRT、RSQRT、RECIPROCAL）と、ベクトルのロードのために用いられるベクトルアクセスコマンド(VLOAD)と、ベクトルの記憶のために用いられるベクトル記憶コマンド(VSTORE)と、最大値、最小値、最大N個の値、およびそれらの位置を検索するために用いられるベクトル検索コマンド（MAX、MIN、TOPK）と、ネスティング可能であり、二重ループを実現するために用いられるフロー制御コマンド（LOOP_START、LOOP_END）と、NPUが特定の計算、例えばベクトルと行列との乗算又はsoftmaxの計算をハードウェアに引き継がせるために用いられ、CISC制御コマンドであるCISC（Complex Instruction Set Computing、複合コマンドセット）コマンドと、スカラーの浮動小数点の計算を実現するために用いられるスカラー浮動小数点コマンド(FPALU)と、データフォーマット変換コマンド（IMG2COL、Matrix_TRANS）とを含む。ここで、TOPKはWaveRNNにおける特定のコマンドであり、IMG2COLコマンドは畳み込みのデータ変換、すなわち、畳み込みの入力データを行列に変換するために用いられ、Matrix_TRANSは入力行列またはパラメータ行列の転置操作に用いられる。

理解すべきなのは、超越関数にはRELU6、RELU、SIGMOIDとTANHなどの関数が含まれており、SIGMODとTANHについては、ベクトル超越関数コマンドACTは、ルックアップテーブル法を用いて多階微分多項式近似（テイラー式）を行って計算を実現し、RELU6とRELUについては、ベクトル超越関数コマンドACTは線形計算の方法を用いて計算を行い、SIN/COS/EXP/LOG/SQRT/RSQRT/RECIPROCALなどの超越関数については、CORDICアルゴリズムを用いて計算を行い、浮動小数点の形で計算過程を実現する。

すなわち、本実施形態は、ニューラルネットワーク、特に音声処理のニューラルネットワークに対して、ニューラルネットワークの計算のためにコマンドセットを特別に設計し、コマンドセットの冗長性を回避し、ニューラルネットワークの計算効率を向上させる。

本実施形態のRISC-Vプロセッサは、コマンドセットから予め定義されたNPUコマンドを取得した後に、取得されたNPUコマンドをNPUに送信してNPUに受信されたNPUコマンドに従って対応する計算操作を実行させる。

本実施形態のNPUは、RISC-Vプロセッサとの接続に加えて、DMA（Direct Memory Access、ダイレクトメモリアクセス）インタフェースを介して外部バスとインタラクションを行うことにより、外部DDRにおけるデータをロードすることが可能である。

本実施形態のNPUのメモリユニットにおける複数のストレージグループは、ニューラルネットワークのモデルパラメータデータと、ニューラルネットワークのモデル計算過程で生成される中間データとをそれぞれ記憶する。

本実施形態では、NPUのメモリユニットのメモリリソースをグループ化メカニズムにより複数のストレージグループに分割することにより、NPUがストレージグループの一つにアクセスしている間にDMAがストレージグループの他の一つにアクセスできるようにしたため、データロードとデータ計算の並列実行を実現し、NPUの処理効率を向上させる。

理解すべきなのは、本実施形態におけるNPUは、RISC-Vプロセッサが送信するVLOADコマンドに従ってデータロードを行ったり、VSTOREコマンドに従ってデータ記憶を行ったりすることができる。

異なる音声処理に対応するニューラルネットワークは計算を行う際に計算量が異なるため、本実施形態では、音声処理に使用するニューラルネットワークに応じてメモリユニットのメモリサイズを予め決定しておく必要があり、即ち本実施形態では、サポートされる異なる音声処理ネットワークを動作させる場合に、NPUにおける全てのメモリユニットに高い実行効率を確保するために、NPUのメモリユニットのメモリサイズがカスタマイズされる。ここで、本実施形態においてNPUがサポートするネットワークは、音声認識ネットワーク、音声合成ネットワーク、音声語義統合ネットワーク、語義信頼性ネットワーク、および音声ウェイクアップネットワークなどを含む。

本実施形態におけるメモリユニットは、メモリサイズを決定する際に、メモリユニットが異なるニューラルネットワークの動作をサポートできることを確保するために、サポートされるニューラルネットワークのコア層のサイズよりも大きいメモリユニットの初期メモリサイズを設定し、初期メモリサイズにおけるメモリユニットに対応する、読取頻度、読取速度等のような動作情報を決定し、決定された動作情報が予め設定された要件を満たしていない場合に初期メモリサイズを調整するというサイクルを、決定された動作情報が予め設定された要件を満たすまで行い、初期メモリサイズの調整結果をメモリユニットのメモリサイズとする、という選択可能な実現方式を採用することができる。

ここで、本実施形態におけるニューラルネットワークのコア層は、ニューラルネットワークの主要な計算を実行する層であり、例えばWaveRNNネットワークにおけるRNN層である。本実施形態では、前記の方法によりNPUにおけるメモリユニットのメモリサイズを決定することにより、NPUが異なるニューラルネットワークを実行する場合に、メモリユニットのいずれも高い実行効率を有し、NPUの実行効率をさらに向上させる。

本実施形態における計算ユニットは、受信されたNPUコマンドに従って、メイン計算、特殊計算、補助計算、およびCISC制御のうちの一つを実行する。

例えば、本実施形態の計算ユニットは、第1ドット積計算コマンドまたは第2ドット積計算コマンドに従ってメイン計算を行い、超越関数コマンドに従って特殊計算を行い、CISCコマンドに従ってCISC制御を行い、ベクトル加算コマンドに従って補助計算を行うことができる。

本実施形態におけるNPUの計算ユニットがメイン計算を行う際に、行列×行列または行列×ベクトルの操作によりニューラルネットワークコンピューティングを完成するという選択可能な実現方式を採用することができる。本実施形態におけるニューラルネットワークコンピューティングには複素数計算、畳み込み計算などが含まれる。本実施形態では、前記のメイン計算方式により、ニューラルネットワークに係る複素数計算や畳み込み計算などを実数のベクトルに変換して加減乗除を行うことができ、NPUにおけるハードウェア設計を簡略化することができる。

音声認識、語義信頼性などの音声処理に精度の要求があるため、直接に行列の乗算や行列とベクトルの乗算を用いて幾つかのニューラルネットワークコンピューティングを行うと、計算精度が低下する。そこで、本実施形態では、行列およびベクトルのデータフォーマットを変換することにより、計算精度を向上させる。

したがって、本実施形態のNPUがメイン計算を行う際に、入力データのデータフォーマットを半精度の浮動小数点形式に変換し、ニューラルネットワークのモデルパラメータデータのデータフォーマットをint8形式に変換し、半精度にint8を掛けた計算方式を用いて、入力データとモデルパラメータデータのメイン計算を行う、という選択可能な実現方式を採用することができる。ここで、intは整数型変数を定義する識別子であり、int8は8ビットの符号付き整数を示す。

アテンションモデルや複素数畳み込みモデルを用いたニューラルネットワークでは、より精度の高い計算方式を用いてアテンション計算や複素数畳み込み計算を実現する必要がある。このため、本実施形態におけるNPUの計算ユニットはメイン計算を行う際に、ニューラルネットワークで使用されるモデルがプリセットモデルであることに応じて、入力データとモデルパラメータデータとのデータフォーマットを半精度の浮動小数点形式に変換し、半精度と半精度とを乗算する計算方式を用いて入力データとモデルパラメータデータとのメイン計算を行うことを採用しても良い。

すなわち、本実施形態では、行列やベクトルのデータフォーマットをさらに変換し、データフォーマットが変換されたデータに応じて対応する行列操作を行うことにより、ニューラルネットワークコンピューティングの精度と効率を向上させることができる。

本実施形態の計算ユニットは、データフォーマット変換コマンド（例えば、IMG2COLまたはMatrix_TRANS）に従ってデータフォーマットの変換を行い、第1ドット積計算コマンド（DOT_PROD）または第2ドット積計算コマンド(ATTEN)に従ってメイン計算を行うことができる。

本実施形態におけるNPUの計算ユニットは、特殊計算を行う場合に、受信されたNPUコマンドがベクトル超越関数コマンド（例えば、ACT、SIN、COSなど）であることに応じて超越関数の関数タイプを決定し、決定された関数タイプに対応する計算方法を用いて超越関数の特殊計算を行う、という選択可能な実現方式を採用することができる。

なお、本実施形態における計算ユニットは、CORDIC（Coordinate Rotation Digital Compute、座標回転デジタル計算方式）アルゴリズムを用いて、SIN、COS、EXP、LOG、SQRT等の関数の計算を実現し、ルックアップテーブル法を使用してSIGMOID、TANHなどのアクティブ関数の計算を実現し、線形計算の方法を用いてRELU、RELU6などのアクティブ関数の計算を実現することができる。

本実施形態におけるNPUの計算ユニットは、補助計算を行う際に、畳み込みネットワークを完全接続ネットワークに変換することを行う。畳み込みネットワークの入力データを行列に変換し、変換された行列に基づいて完全接続計算を行って補助計算を完了する、という選択可能な実現方式を採用することができる。

ここで、本実施形態の計算ユニットは、データフォーマット変換コマンド（Matrix_TRANS）に従って行列変換を完了した後に、ベクトル加算コマンド(SUM)に従って行列の完全接続計算を完了することができる。

本実施形態におけるNPUの計算ユニットは、CISC制御を行う際に、受信されたNPUコマンドがCISCコマンドであることに応答して、入力データとモデルパラメータデータとを特別に設計されたハードウェアに入力し、ハードウェアから返信された出力データを取得し、CISC制御を完了する、という選択可能な実現方式を採用することができる。つまり、計算ユニットがCISC制御を行う際に、NPU自身が計算を行うことではなく、対応するハードウェアが計算を行う。

NPUは入力されるデータに一定の制限を有するため、NPUにおける計算ユニットの計算効率をさらに向上させるために、本実施形態は、NPUにデータを入力する前に、入力されたデータを整列処理し、整列されたデータをNPUに入力することをさらに含むことができる。

理解すべきなのは、本実施形態におけるNPUは、メモリユニットから読み出されたデータをキャッシュするためのレジスタユニットをさらに含むことができる。

前記の技術方案によれば、予め定義されたNPUコマンド及びNPUにおけるメモリユニット及び計算ユニットのアーキテクチャ設計により、NPUによるオフライン音声処理システムによりオフライン音声処理タスクを正確かつ高速に完了し、計算効率及び計算精度を向上させることができる。

図2は、本出願の第2の実施形態により提供される模式図である。

図2は、本出願により提供された電子デバイスの構成の模式図を示した。本実施形態の電子デバイスは、PC、クラウドデバイス、モバイルデバイス、スマートスピーカーなどであって良い。モバイルデバイスは、例えば、携帯電話、タブレット、PDA、ウェアラブルデバイス、車載デバイスなど様々なオペレーティングシステム、タッチパネルおよび/または表示パネルを有するハードウェアデバイスであってよい。

図2に示されたように、当該電子デバイスは、本出願に記載された実施形態で提案された音声処理システムを含むことができる。

図3は、本出願の第3の実施形態に係る模式図である。図3に示されたように、本実施形態における音声処理方法は、具体的には、以下のステップを含むことができる。

S301において、処理待ち音声データを取得する。

S302において、前記処理待ち音声データを音声処理システムの入力データとし、前記音声処理システムにより前記入力データに対してニューラルネットワークコンピューティングを行って出力結果を得る。

S303において、前記出力結果を前記処理待ち音声データの音声処理結果とする。

本実施形態で使用される音声処理システムは、例えば音声認識ネットワーク、音声合成ネットワーク、音声語義統合ネットワーク、音声信頼性ネットワーク、および音声ウェイクアップネットワークなどのような異なる音声処理に対するニューラルネットワークをサポートすることができる。このため、本実施形態では、処理待ち音声データに対して異なる種類の音声処理を行うことができ、得られる音声処理結果は、音声認識結果、音声合成結果、音声語義統合結果、音声信頼性結果、音声ウェイクアップ結果等であって良い。

音声処理システムは、RISC-Vプロセッサに予め定義されたNPUコマンドと、NPUにおけるメモリユニットと計算ユニットとの間のアーキテクチャ設計により、音声処理タスクに係わるニューラルネットワークコンピューティングを高速かつ正確に処理することが実現されたため、本実施形態により提供された音声処理方法によれば、オフライン音声処理の正確度と効率を向上させることができる。

具体的には、本実施形態のS302は、音声処理システムにより入力データに対してニューラルネットワークコンピューティングを実行して出力結果を得る場合に、音声処理システムにおけるニューラルネットワークプロセッサNPUがRISC-Vプロセッサから送信されたNPUコマンドに従って、入力データに対して受信されたNPUコマンドに対応するニューラルネットワークコンピューティングを実行し、得られた計算結果を出力結果とする、という選択可能な実現方式を採用することができる。ここで、本実施形態において入力データに対してニューラルネットワークコンピューティングを行って計算結果を得る過程は、ニューラルネットワークモデルにより入力データを処理して出力結果を得る過程である。

理解すべきなのは、本実施形態で使用される音声処理システムのRISC-Vプロセッサは、入力データのニューラルネットワークコンピューティングがすべて完了するまで、NPUコマンドをNPUに一度に一つ送信しても良く、RISC-VプロセッサからNPUに一度に全てのNPUコマンドを送信してもよい。

本実施形態に係るニューラルネットワークコンピューティングは、入力データに対するメイン計算、特殊計算、補助計算、および複合コマンドセットCISC制御のうちの少なくとも一つを含む。各ニューラルネットワークコンピューティングの具体的な方式は前記で説明されたため、ここでは詳しく説明しない。

図4は、本出願の第4の実施形態に係る模式図である。図4に示されたように、左側は、コントローラおよび予め定義されたNPUコマンドを含むRAMを備えるRISC-Vプロセッサである。コントローラは、RTOS（Real Time Operating System、リアルタイムオペレーティングシステム）オペレーティングシステムをサポートしており、RAMから取得されたNPUコマンドをデコードしてNPUに送信するために用いられる。右側はNPUである。NPUは、DMAインタフェースを介してシステムバスに接続され、外部からの入力データなどを取得し、受け取ったNPUコマンドに従ってニューラルネットワークコンピューティングを行うものであって、メモリユニットと、レジスタユニットと、計算ユニットとを備える。レジスタユニットは、メモリユニットから取得されたデータを保存することにより、計算ユニットが随時対応するデータを取得できるようにし、計算効率を向上させた。メモリユニットは、データロードとデータ計算を並行して実行できるように、複数のストレージグループに分割してモデルパラメータデータとモデル計算の中間データをそれぞれ保持する。計算ユニットは、受信されたNPUコマンドに従って、メイン計算、特殊計算、補助計算、CISC制御のいずれかを実現するために使用され、メイン計算および特殊計算は、レジスタユニットを介してデータを取得し、補助計算は、メモリユニットを介して直接にデータを取得することができる。

図5は、本出願の実施形態を実現するための例示的な電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本出願の実現を限定することが意図されない。

図5に示すように、この電子デバイスは、一つ又は複数のプロセッサ501、メモリ502、及び各構成要素に接続するための高速インタフェース及び低速インタフェースを含むインタフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インタフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図5において、一つのプロセッサ501を例とする。

メモリ502は、本出願で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願の各実施形態の機能を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本出願の非一時的コンピュータ可読記憶媒体は、本願の実施形態の機能をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本出願の実施形態の機能に対応するプログラムコマンド/ユニットを記憶するために用いられる。プロセッサ501は、メモリ502に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、本出願の実施形態の機能を実現する。

メモリ502は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は当該電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ502は、プロセッサ501に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

電子デバイスは、更に、入力装置503と出力装置504とを備えても良い。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の手段により接続されても良く、図5においてバスによる接続を例とする。

入力装置503は、入力された数字又はキャラクタ情報を受信し、当該電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。サーバは、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれるクラウドサーバであって良く、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホストとVPSサービス（「Virtual Private Server」、或いは「VPS」と略称する）において管理が難しく、ビジネスの拡張性が低いという欠点を解決した。

本出願の実施形態の技術案によれば、RISC-Vプロセッサに予め定義されたNPUコマンドと、NPUにおけるメモリユニットと計算ユニットとの間のアーキテクチャ設計により、音声処理モデルに関連するニューラルネットワークコンピューティングをオフラインで高速かつ正確に実現し、オフライン音声処理タスクの処理効率を向上させることができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本出願に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本出願で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本出願の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本出願の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本出願の保護範囲内に含まれるべきである。

Claims

ニューラルネットワークプロセッサ（ＮＰＵ）およびＲＩＳＣ－Ｖプロセッサを備える音声処理システムであって、
前記ＲＩＳＣ－Ｖプロセッサは、予め定義されたＮＰＵコマンドを含み、前記ＲＩＳＣ－Ｖプロセッサは、前記ＮＰＵが対応するニューラルネットワークコンピューティングを実行するように、前記ＮＰＵに前記ＮＰＵコマンドを送信し、
前記ＮＰＵコマンドは、行列演算におけるベクトル間のドット積計算を行う且つメイン計算である第１ドット積計算のコマンドと、行列演算におけるベクトルと行列との間のドット積計算を行う且つメイン計算である第２ドット積計算のコマンドと、超越関数計算を行う且つ特殊計算であるベクトル超越関数計算のコマンドと、ニューラルネットワークにおけるベクトル加算計算を行う且つ補助計算であるベクトル加算のコマンドと、ＮＰＵが特定の計算をハードウェアに引き継がせる複合コマンドセットＣＩＳＣ制御のコマンドと、を含み、
前記ＮＰＵは、メモリユニットと計算ユニットとを備え、前記メモリユニットは、複数のストレージグループを含み、前記計算ユニットは、受信されたＮＰＵコマンドに従って、前記メイン計算、前記特殊計算、前記補助計算、前記複合コマンドセットＣＩＳＣ制御のうちの何れか一つを実行する、システム。
前記予め定義されたＮＰＵコマンドは、基礎ベクトル演算コマンドをさらに含む、請求項１に記載のシステム。
前記メモリユニットに含まれる複数のストレージグループは、ニューラルネットワークのモデルパラメータデータと、ニューラルネットワークのモデル計算過程で生成される中間データとをそれぞれ記憶する、請求項１または２に記載のシステム。
前記メモリユニットのメモリサイズは、
前記メモリユニットの初期メモリサイズを設定し、
初期メモリサイズにおける前記メモリユニットに対応する動作情報を決定し、
前記動作情報が予め設定された要件を満たしていない場合に、前記初期メモリサイズを調整する、というサイクルを、決定された動作情報が予め設定された要件を満たすまで行い、前記初期メモリサイズの調整結果を前記メモリユニットのメモリサイズとする、ことにより決定される、請求項１から３のいずれか一項に記載のシステム。
前記計算ユニットは、行列×行列または行列×ベクトルの操作により、ニューラルネットワークコンピューティングを完成する、請求項１から４のいずれか一項に記載のシステム。
前記計算ユニットは、
受信されたＮＰＵコマンドがメイン計算コマンドであることに応じて、入力データのデータフォーマットを半精度の浮動小数点形式に変換し、ニューラルネットワークのモデルパラメータデータのデータフォーマットを８ビットの符号付き整数ｉｎｔ８形式に変換し、
半精度とｉｎｔ８を乗算した計算方式により入力データのメイン計算を完成する、請求項１から５のいずれか一項に記載のシステム。
前記計算ユニットは、
受信されたＮＰＵコマンドがメイン計算コマンドであることに応じて、ニューラルネットワークで使用されるモデルが予め設定されたモデルである場合に、入力データとモデルパラメータデータとのデータフォーマットを半精度の浮動小数点形式に変換し、
半精度と半精度を乗算した計算方式により入力データのメイン計算を完成する、請求項１から５のいずれか一項に記載のシステム。
前記計算ユニットは、
受信されたＮＰＵコマンドが特殊計算コマンドであることに応じて、超越関数の関数タイプを特定し、
前記関数タイプに応じた計算方法により、入力データの特殊計算を完成する、請求項１から７のいずれか一項に記載のシステム。
前記計算ユニットは、
受信されたＮＰＵコマンドが補助計算コマンドであることに応じて、畳み込みネットワークの入力データを行列に変換し、
変換された行列に基づいて完全接続計算を行い、入力データの補助計算を完成する、請求項１から８のいずれか一項に記載のシステム。
前記計算ユニットは、
受信されたＮＰＵコマンドがＣＩＳＣ制御コマンドであることに応じて、入力データおよびモデルパラメータデータを特別に設計されたハードウェアに入力し、
ハードウェアから返信された出力データを取得し、入力データのＣＩＳＣ制御を完成する、請求項１から９のいずれか一項に記載のシステム。
音声処理方法であって、
処理待ち音声データを取得し、
前記処理待ち音声データを音声処理システムの入力データとし、前記音声処理システムにより前記入力データに対してニューラルネットワークコンピューティングを行って出力結果を得、
前記出力結果を前記処理待ち音声データの音声処理結果とする、ことを含み、
前記音声処理システムは、請求項１～１０の何れか１項に記載の音声処理システムである、方法。
前記音声処理システムにより前記入力データに対してニューラルネットワークコンピューティングを行って出力結果を得ることは、
前記音声処理システムにおけるニューラルネットワークプロセッサＮＰＵは、ＲＩＳＣ－Ｖプロセッサから送信されたＮＰＵコマンドに従って、前記入力データに対して前記ＮＰＵコマンドに対応するニューラルネットワークコンピューティングを行い、
得られた計算結果を前記出力結果とする、ことを含む請求項１１に記載の方法。
前記入力データに対して前記ＮＰＵコマンドに対応する前記ニューラルネットワークコンピューティングを行うことは、
前記入力データに対してメイン計算、特殊計算、補助計算、および複合コマンドセットＣＩＳＣ制御のうちの少なくとも一つを実行する、ことを含む請求項１２に記載の方法。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、
請求項１～１０のいずれか１項に記載の音声処理システムと、を備え、
前記メモリに前記少なくとも一つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサに請求項１１～１３のいずれか１項に記載の方法を実行させる、電子デバイス。
コンピュータに請求項１１～１３のいずれか１項に記載の方法を実行させるためのコンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１１～１３のいずれか１項に記載の方法を実行させるためのコンピュータプログラム。