JP7471213B2

JP7471213B2 - 音声チップおよび電子機器

Info

Publication number: JP7471213B2
Application number: JP2020216077A
Authority: JP
Inventors: シャオピンヤン，; チャオティアン，
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2020-02-13
Filing date: 2020-12-25
Publication date: 2024-04-19
Anticipated expiration: 2040-12-25
Also published as: US11735179B2; KR20210103415A; EP3866162A2; US20210256973A1; KR102601902B1; JP2021128332A; EP3866162A3; CN111292716A

Description

本出願の実施例は、データ処理技術分野に関し、特に、音声技術に関する。具体的に、本出願の実施例は、音声チップおよび電子機器を提案する。

現在、インテリジェント音声製品に適用される音声チップは、ＣＰＵと、オーデイオエンジンと、周辺機器と、を主に含む。その原理は、周辺機器により音声信号を収集し、オーデイオエンジンが収集された音声信号を前処理し、ＣＰＵが前処理された音声信号をリモートサーバに送信し、リモートサーバが認識及び応答し、ＣＰＵが応答音声を受信し、周辺機器を制御して応答音声をユーザに放送することである。

上記方法は、音声認識機能が完全にリモートサーバに依存するので、オフライン場面ではアプリケーションをサポートできないという欠陥を有する。

本出願の実施例は、インテリジェント音声製品がオフライン場面において、アプリケーションをサポートできるようにする音声チップおよび電子機器を提案する。

本出願の実施例は、音声チップを提案し、当該チップは、第１の処理モジュールと、第２の処理モジュールと、第３の処理モジュールと、を含み、前記第１の処理モジュールは、オペレーティングシステを実行し、及びチップ内の前記第１の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、前記第２の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記第３の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成される。

本出願の実施例の技術案によれば、音声チップに第２の処理モジュールを増設することにより、音声モデルに基づいて入力音声又は入力テキストに対して音声とテキストとの相互変換を行う。そして、第１の処理モジュールが交換結果に基づいてユーザに応答することにより、当該音声チップを利用するインテリジェント音声製品に、オフライン場面でアプリケーションをサポートさせる。

本出願の実施例は、第２の処理モジュールによって実現されたテキストから音声への変換に基づいて、音声チップはテキストを音声に交換することに関連するアプリケーションを実現することができる。

前記第２の処理モジュールは、第２のプロセッサと内部メモリとを含み、前記第２のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記内部メモリは、前記第２の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成される。

当該技術特徴に基づいて、本出願の実施例は、チップに内部メモリを増設することにより、音声モデルの実行過程中のデータを記憶して、音声モデルの実行を補助し、音声モデルの実行効率を向上させる。

前記第２の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定する。前記モデルデータは、前記第１の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得する。

当該技術特徴に基づいて、本出願の実施例は、第１の処理モジュールによりペリフェラルインタフェースを介して外部ストレージデバイスからモデルデータを取得し、第２の処理モジュールを介して、取得されたモデルデータに基づいて音声モデルの構成情報を設定することによって、前記音声モデルの初期化を実現する。モデルデータを修正することにより、音声モデルのアップデートを実現することもできる。

前記チップは、第２の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含む。

当該技術特徴に基づいて、本出願の実施例は、チップに外部記憶モジュールを増設することで、モデルデータの記憶を実現し、さらにはモデルデータのロードを実現する。

前記第２のプロセッサは組み込み型ニューラルネットワークプロセッサである。

前記第３の処理モジュールは、入力音声に対してデジタル信号処理を行い、前記第３の処理モジュールは、処理された音声信号又は音声特徴データを前記第２の処理モジュールに送信し、前記第２の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、前記第１の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックする。

当該技術特徴に基づいて、本出願の実施例は、第１の処理モジュールと、第２の処理モジュールと、第３の処理モジュールとのインタラクションにより、インテリジェント音声製品にオフライン場面でのアプリケーションをサポートさせる。

前記チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、前記音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、前記電源管理ユニットは、ユーザ音声を検出した場合に、前記第３の処理モジュールに電力を供給し、前記第３の処理モジュールが前記ユーザ音声に対してウェイクアップワード検出を行い、前記ユーザ音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第３の処理モジュール以外の他のモジュールに電力を供給するように構成される。

当該技術特徴に基づいて、本出願の実施例は、ウェイクアップされていない時に電源モジュール内の音声検出ユニットにだけ電力を供給し、電源モジュール以外の他のモジュールへの電力供給を停止し、ユーザ音声を検出した後に第３の処理モジュールに電力を供給して、ウェイクアップワード検出を行うことで、チップの待機状態の時の消費電力をさらに削減することができる。

前記チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び／又は表示するように構成される画像処理モジュールをさらに含む。

当該技術特徴に基づいて、本出願の実施例は、音声チップに画像処理モジュールを増設することにより、画像に関連する機能の拡張を実現する。

前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、前記画像取得ユニットは、画像を取得するように構成され、前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第１の処理モジュールが前記第２の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、前記画像表示ユニットは、取得された画像及び／又は認識されたテキストを表示するように構成される。

当該技術特徴に基づいて、本出願の実施例は、画像処理ユニットにより画像のテキストの認識を実現し、第１の処理モジュールが第２の処理モジュールを制御して認識されたテキストに対して音声変換を行うことにより、テキストを音声に交換するアプリケーションを実現する。

前記第１の処理モジュールはマルチコア中央演算処理装置を含み、前記第３の処理モジュールはデジタルシグナルプロセッサを含む。

本出願の実施例は、本出願の実施例における任意の前記音声チップを含む電子機器を提案する。
本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、本出願の実施例における任意の前記音声チップが実行される。

図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の第１の実施例によって提供される音声チップの概略構成図である。本出願の第２の実施例によって提供される音声チップの概略構成図である。本出願の第３の実施例によって提供される音声チップの概略構成図である。本出願の第４の実施例によって提供される音声チップの概略構成図である。本出願の第５の実施例によって提供される音声チップの概略構成図である。本出願の第６の実施例によって提供される電子機器の概略構成図である。本出願の第７の実施例によって提供される電子機器のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにここでには本出願の実施例の様々な詳細事項を含むが、それらは単なる例示と見なされる。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔のため、以下の説明では、周知の機能及び構造の説明を省略する。

（第１の実施例）
図１は本出願の第１の実施例によって提供される音声チップの概略構成図である。本実施例は、オフライン場面に音声処理を行うことに適用することができる。図１を参照すると、本出願の実施例により提供される音声チップは、第１の処理モジュールと、第２の処理モジュールと、第３の処理モジュールと、を含み、前記第１の処理モジュールは、オペレーティングシステを実行し、及びチップ内の前記第１の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、前記第２の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記第３の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成される。

音声モデルは、音声とテキストとの相互変換を行う任意のモデルである。典型的には、音声モデルはニューラルネットワークモデルである。

上記３つのモジュールに基づいて、オフライン場面をサポートする様々なアプリケーションを実現することができる。典型的には、オフライン場面でのアプリケーションを実現するインタラクションプロセスは以下のように説明されてもよい。
前記第３の処理モジュールは、入力音声に対してデジタル信号処理を行い、前記第３の処理モジュールは、処理された音声信号又は音声特徴データを前記第２の処理モジュールに送信し、前記第２の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、前記第１の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックする。

選択可能に、本実施例は前記第１の処理モジュール、第２の処理モジュール、第３の処理モジュールに含まれるデバイスを限定しない。

典型的には、前記第１の処理モジュールは少なくとも１つのマルチコア中央演算処理装置を含み、前記第３の処理モジュールは少なくとも１つのデジタルシグナルプロセッサを含む。

具体的には、前記チップは、周辺機器モジュールと、オーデイオエンジンモジュールと、を含み、前記周辺機器モジュールは、チップのクロックと、リセットと、ペリフェラルインタフェースとを提供するように構成され、前記オーデイオエンジンモジュールは、前記周辺機器モジュールに接続され、オーデイオインターフェースの通信プロトコル処理と、信号フィルタリングと、データ圧縮と、データ解凍処理とをするように構成される。

本出願の実施例の技術案によれば、音声チップに第２の処理モジュールを増設することにより、音声モデルに基づいて入力音声又は入力テキストに対して音声とテキストとの相互変換を行い、第１の処理モジュールが交換結果に基づいてユーザに応答することにより、当該音声チップを利用するインテリジェント音声製品がオフライン場面でのアプリケーションをサポートする。

本出願の実施例では、第２の処理モジュールによって実現されたテキストから音声への変換に基づいて、音声チップは、テキストを音声に交換することに関連するアプリケーションを実現できる。

（第２の実施例）
図２は本出願の第２の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図２を参照すると、本実施例が提供する音声チップの第２の処理モジュールは、第２のプロセッサと、内部メモリとを含み、前記第２のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記内部メモリは、前記第２の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成される。

選択可能に、第２のプロセッサは、音声モデルに基づいて音声とテキストとの相互変換を行う任意のプロセッサである。

典型的には、第２のプロセッサは組み込み型ニューラルネットワークプロセッサである。

第２のプロセッサを音声チップに適応させるために、音声モデルに基づいて音声とテキストとの相互変換を行う前に、音声モデルに関連するアルゴリズムを最適化する必要がある。

具体的な最適化のプロセスは、アルゴリズムに関連するデータタイプを浮動小数点型から整数型に調整して、計算量を削減することを含む。

第２の処理モジュール内の音声モデルに基づいて音声とテキストとの相互変換を行う前に、前記第２の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定し、前記モデルデータは、前記第１の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得するステップを含む。

具体的には、上記構成情報はモデルタイプと、モデルのハイパーパラメータと、を含む。

当該技術特徴に基づいて、本出願の実施例は、第１の処理モジュールによりペリフェラルインタフェースを介して外部ストレージデバイスからモデルデータを取得し、第２の処理モジュールを介して、取得されたモデルデータに基づいて音声モデルの構成情報を設定することによって、前記音声モデルの初期化を実現する。モデルデータを修正することにより、音声モデルのアップデートを実現することもできる。モデルタイプの決定により異なる種類のモデルの選択を実現することができる。

モデルタイプの記憶を実現し、モデルタイプのロードをさらに実現するために、前記チップは、第２の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含む。

本出願の実施例の技術案によれば、チップに内部メモリを増設することにより、音声モデルの実行過程中のデータを記憶して、音声モデルの実行を補助し、音声モデルの実行効率を向上させる。

（第３の実施例）
図３は本出願の第３の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図３を参照すると、本実施例が提供する音声チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、前記音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、前記電源管理ユニットは、ユーザ音声を検出した場合に、前記第３の処理モジュールに電力を供給し、前記第３の処理モジュールが前記ユーザ音声に対してウェイクアップワード検出を行い、前記ユーザ音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第３の処理モジュール以外の他のモジュールに電力を供給するように構成される。

本出願の実施例の技術案によれば、ウェイクアップしない時には電源モジュール内の音声検出ユニットにのみ電力を供給し、電源モジュール以外の他のモジュールへの電力供給を停止し、ユーザ音声を検出した後に第３の処理モジュールに電力を供給して、ウェイクアップワード検出を行うことにより、チップの待機状態の時の消費電力をさらに削減することができる。

（第４の実施例）
図４は本出願の第４の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図４を参照し、本実施例が提供する音声チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び／又は表示するように構成される画像処理モジュールをさらに含む。

具体的には、前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、前記画像取得ユニットは、画像を取得するように構成され、前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第１の処理モジュールが前記第２の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、前記画像表示ユニットは、取得された画像及び／又は認識されたテキストを表示するように構成される。

当該技術特徴に基づいて、本出願の実施例は、画像処理ユニットにより画像のテキストの認識を実現し、第１の処理モジュールが第２の処理モジュールを制御して認識されたテキストに対して音声変換を行うことにより、テキストを音声に交換することに関連するアプリケーションを実現する。

本出願の実施例の技術案によれば、音声チップに画像処理モジュールを増設することにより、画像に関連する機能の拡張を実現する。

（第５の実施例）
図５は本出願の第５の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図５を参照し、本実施例が提供する音声チップは、電源モジュールと、周辺機器モジュールと、第１の処理モジュールと、第２の処理モジュールと、第３の処理モジュールと、外部記憶モジュールと、オーデイオエンジンモジュールと、ダイレクトメモリアクセスモジュールと、画像処理モジュールと、を含む。

前記電源モジュールは、前記電源モジュール以外の他のモジュールの電源のオンとオフを制御するように構成され、当該モジュールは、音声検出ユニットと、電源管理ユニットと、を含む。音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、電源管理ユニットは、ユーザ音声を検出した場合に、第３の処理モジュールをオンにして、第３の処理モジュールがユーザ音声にウェイクアップワードが含まれるか否かを検出し、ウェイクアップワードが含まれる場合に、電源モジュール及び第３の処理モジュール以外の他のモジュールに電力を供給して、チップをウェイクアップ状態にさせ、ウェイクアップワードが含まれない場合に、引き続き電源モジュール及び第３の処理モジュール以外の他のモジュールに対して停電処理を行うように構成される。周辺機器モジュールは、チップのクロックと、リセットと、ペリフェラルインタフェースとを提供し、通電した後ペリフェラルインタフェースを介してユーザの入力音声を収集するように構成される。第１の処理モジュールは、周辺機器モジュールに接続され、通電した後、オフライン状態と検出された場合に、音声モジュールにモデルデータをロードし、ロードデータに基づいて音声モデルを初期化するように第２の処理モジュールに通知し、第３の処理モジュールが入力音声に対してデジタル信号処理を行う。処理された音声信号又は音声特徴データを第２の処理モジュールに送信し、第２の処理モジュールが、音声モデルに基づいて入力音声を認識し、第１の処理モジュールは、認識結果に基づいて応答し、応答結果を周辺機器によりユーザにフィードバックし、第２の処理モジュールは、第１の処理モジュールに接続され、処理されたユーザ音声を認識するように構成される。第２の処理モジュールは、組み込み型ニューラルネットワークプロセッサと内部メモリとを含み、組み込み型ニューラルネットワークプロセッサは、訓練された音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、内部メモリは、組み込み型ニューラルネットワークモジュールに接続され、モデルの実行過程中のデータを記憶するように構成される。第３の処理モジュールは、電源モジュール及び第１の処理モジュールに接続され、ユーザ音声に対してウェイクアップワード検出を行い、入力音声に対してデジタル信号処理を行うように構成される。外部記憶モジュールは、第１の処理モジュール、第２の処理モジュール、および第３の処理モジュールに接続され、音声モデルのロードデータと、第１の処理モジュールと、第２の処理モジュールと、第３の処理モジュールの間の一時的な交換データとを記憶するように構成される。オーデイオエンジンモジュールは、周辺機器モジュールに接続され、オーデイオインターフェースの通信プロトコル処理をするように構成され、ダイレクトメモリアクセスモジュールは、異なる速度のハードウェアデバイスが第１の処理モジュールの大量の割り込み負荷に依存せずに通信することを許可するように構成され、画像処理モジュールは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び／又は表示するように構成される。画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、画像取得ユニットは、画像を取得するように構成され、画像処理ユニットは、取得された画像に対してテキスト認識を行い、第１の処理モジュールが第２の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、画像表示ユニットは、取得された画像及び／又は認識されたテキストを表示するように構成される。

典型的には、第１の処理モジュールはマルチコア中央演算処理装置を含み、マルチコア中央演算処理装置はＡＲＭＡ５３ＭＰ、ＲＩＳＣＶ６４ビットマルチコアＣＰＵを含むことができるが、これらに限定されない。

第３の処理モジュールはデジタルシグナルプロセッサを含み、例えば、ＨＩＦＩ４／５ＤＳＰコアを含む。

本出願の実施例によって提供される音声チップは、以下のような４つの主流音声適用シーンを構築できる。
オンラインインテリジェント音声の低コスト、低消費電力、複数適用のシーン：第３の処理モジュールに電力を供給し、第１の処理モジュール、第２の処理モジュール、外部記憶モジュール、および画像処理モジュールに対して部分的又は完全な停電を行うことにより、様々な適用シーンを生成し、人工知能のモノのインターネットのインテリジェント音声製品アプリケーションに特に適用され、同時に、非常に低い消費電力は、バッテリー機器に適し、例えば、バッテリー駆動のスマートスピーカ及びモバイル音声製品などがある。

オンラインインテリジェント音声製品アプリケーション：第１の処理モジュール及び第３の処理モジュールに電力を供給し、第２の処理モジュール、外部記憶モジュール、および画像処理モジュールに対して部分的又は完全な停電を行う。第２の処理モジュールと、外部記憶モジュールと、画像処理モジュールとがチップ全体で最も電力を消費する部分であるため、現在の適用シーンは、そのようなアプリケーションの全体的な電力消費を節約し、同時に、実現されたオンライン音声ウェイクアップ認識の全体的な品質を向上させる。全体的なコストは、既存のデュアルチップの音声ソリューションよりも優れている。

オフラインインテリジェント音声製品アプリケーション：第１の処理モジュール、第２の処理モジュール、及び第３の処理モジュールに電力を供給し、画像処理モジュールに対して部分的な停電を行う。オフライン音声機能では、ローカルチップがオンラインクラウドサーバの部分の機能を実行又は置き換えることができる必要があるため、第２の処理モジュールの計算能力を最適化する必要があり、最新の音声モデルなどを記憶するためのより大きな外部記憶モジュールが必要とされる。

フル機能の音声製品アプリケーション：チップ内の全てのモジュールに電力を供給して、全てのオンライン及びオフラインの音声機能をサポートする。例えば、音声ウェイクアップ、音声認識、テキストおよび音声放送（ＴＴＳ）、及び低遅延のオフライン音声インタラクティブコントロール。このようなシナリオには、テキストおよび画像を組み合わせて、音声ベースの製品アプリケーションをより豊富にする適用シーンも含む。

本出願の実施例は、第１の処理モジュール、第２の処理モジュール、および第３の処理モジュールの異種マルチコアメインアーキテクチャと、動的に構成可能なモジュールデザインの組み合わせとを採用することにより、音声チップが上記４つの主流音声適用シーンを実現することができるという技術的利点を有する。

このアーキテクチャスキームに基づくチップ製品は、オンラインインテリジェント音声機能を適切にサポートすることができるだけでなく、様々なオフラインインテリジェント音声アプリケーションをサポートすることもできる。

第２の処理モジュールに基づいて、テキストを音声に交換するアプリケーションを実現する。

画像処理モジュールを増設することにより、インテリジェント音声に基づく画像とテキストのアプリケーションを拡張することができる。

音声検出ユニット及び電源管理ユニットの設計により、独立した電源管理が実現され、全体の待機電力消費がさらに削減される。

図６は本出願の第６の実施例によって提供される電子機器の概略構成図である。本出願の実施例に係る電子機器は、ＰＣ、クラウドデバイス、モバイルデバイス、インテリジェントスピーカなどであってもよく、モバイルデバイスは、例えば、携帯電話、タブレット、携帯情報端末、ウェアラブルデバイス、車載機器など、様々なオペレーティングシステム、タッチスクリーンおよび／またはディスプレイを有するハードウェアデバイスであってもよい。

図６に示すように、当該電子機器は、本出願の前述した実施例により提案された音声チップを含むことができる。

前述した音声チップの実施例に対する解釈や説明は、当該実施例の電子機器にも適用され、ここでは説明を省略する。本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声チップが実行される。

図７は、本出願の実施形態の実現に適する例示的電子機器のブロック図を示す。図７に示される電子機器１２は、単なる一例であり、本出願の実施例の機能および使用範囲について一切限定しない。

電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、任意の車載デバイスを表すことができ、携帯情報端末、携帯電話、インテリジェントフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実施例の実現を制限することを意図しない。

図７に示すように、当該電子機器は、１つ又は複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報を表示するためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、必要な操作の一部を提供することができる（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムなど）。図７では、１つのプロセッサ７０１を例とする。

メモリ７０２は、本出願の実施例により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、前記少なくとも１つのプロセッサが本出願の各実施例の機能を実行するように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願の各実施例の機能を実行させるためのコンピュータ命令を記憶する。

メモリ７０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の各実施例の機能に対応するプログラム命令／モジュール、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ７０１は、メモリ７０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち本出願の各実施例の機能を実現する。

メモリ７０２は、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。メモリ７０２は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ７０２は、プロセッサ７０１に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ブロックチェーンネットワーク、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

電子機器は、入力装置７０３と出力装置７０４とをさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、及び出力装置７０４は、バス又は他の方式を介して接続することができ、図７では、バスによる接続を例とする。

入力装置７０３は、入力された数字又は文字情報を受信することができ、及び電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置７０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

上記に示される様々なモジュール、ユニット及びデバイスを組み合わせ、追加、又は削除することができることを理解されたい。本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願に対する保護範囲の限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

第１の処理モジュールと、第２の処理モジュールと、第３の処理モジュールと、を含む音声チップであって、
前記第１の処理モジュールは、オペレーティングシステムを実行し、及びチップ内の前記第１の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、
前記第２の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、
前記第３の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成され、
前記チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、
前記音声検出ユニットは、前記音声チップの待機時に入力音声の有無をリアルタイムに検出するように構成され、
前記電源管理ユニットは、入力音声を検出した場合に、前記第３の処理モジュールに電力を供給し、前記第３の処理モジュールが前記入力音声に対してウェイクアップワード検出を行い、前記入力音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第３の処理モジュール以外の他のモジュールに電力を供給するように構成され、
前記第２の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定し、
前記モデルデータは、前記第１の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得し、前記構成情報が、モデルタイプと、モデルのハイパーパラメータと、を含むことを特徴とする、音声チップ。
前記第２の処理モジュールは、第２のプロセッサと内部メモリとを含み、
前記第２のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、
前記内部メモリは、前記第２の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成されることを特徴とする、請求項１に記載のチップ。
前記チップは、第２の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含むことを特徴とする、請求項１に記載のチップ。
前記第２のプロセッサは組み込み型ニューラルネットワークプロセッサであることを特徴とする、請求項２に記載のチップ。
前記第３の処理モジュールは、入力音声に対してデジタル信号処理を行い、
前記第３の処理モジュールは、処理された音声信号又は音声特徴データを前記第２の処理モジュールに送信し、前記第２の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、
前記第１の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックすることを特徴とする、請求項１に記載のチップ。
前記チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び／又は表示するように構成される画像処理モジュールをさらに含むことを特徴とする、請求項１に記載のチップ。
前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、
前記画像取得ユニットは、画像を取得するように構成され、
前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第１の処理モジュールが前記第２の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、
前記画像表示ユニットは、取得された画像及び／又は認識されたテキストを表示するように構成されることを特徴とする、請求項６に記載のチップ。
前記第１の処理モジュールはマルチコア中央演算処理装置を含み、
前記第３の処理モジュールはデジタルシグナルプロセッサを含むことを特徴とする、請求項１に記載のチップ。
請求項１から８のいずれかに記載の音声チップを含むことを特徴とする、電子機器。
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項１から８のいずれかに記載の音声チップが実行されることを特徴とする、コンピュータプログラム。