JP7471213B2 - 音声チップおよび電子機器 - Google Patents

音声チップおよび電子機器 Download PDF

Info

Publication number
JP7471213B2
JP7471213B2 JP2020216077A JP2020216077A JP7471213B2 JP 7471213 B2 JP7471213 B2 JP 7471213B2 JP 2020216077 A JP2020216077 A JP 2020216077A JP 2020216077 A JP2020216077 A JP 2020216077A JP 7471213 B2 JP7471213 B2 JP 7471213B2
Authority
JP
Japan
Prior art keywords
processing module
voice
chip
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020216077A
Other languages
English (en)
Other versions
JP2021128332A (ja
Inventor
シャオピン ヤン,
チャオ ティアン,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021128332A publication Critical patent/JP2021128332A/ja
Application granted granted Critical
Publication of JP7471213B2 publication Critical patent/JP7471213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)

Description

本出願の実施例は、データ処理技術分野に関し、特に、音声技術に関する。具体的に、本出願の実施例は、音声チップおよび電子機器を提案する。
現在、インテリジェント音声製品に適用される音声チップは、CPUと、オーデイオエンジンと、周辺機器と、を主に含む。その原理は、周辺機器により音声信号を収集し、オーデイオエンジンが収集された音声信号を前処理し、CPUが前処理された音声信号をリモートサーバに送信し、リモートサーバが認識及び応答し、CPUが応答音声を受信し、周辺機器を制御して応答音声をユーザに放送することである。
上記方法は、音声認識機能が完全にリモートサーバに依存するので、オフライン場面ではアプリケーションをサポートできないという欠陥を有する。
本出願の実施例は、インテリジェント音声製品がオフライン場面において、アプリケーションをサポートできるようにする音声チップおよび電子機器を提案する。
本出願の実施例は、音声チップを提案し、当該チップは、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、を含み、前記第1の処理モジュールは、オペレーティングシステを実行し、及びチップ内の前記第1の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、前記第2の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成される。
本出願の実施例の技術案によれば、音声チップに第2の処理モジュールを増設することにより、音声モデルに基づいて入力音声又は入力テキストに対して音声とテキストとの相互変換を行う。そして、第1の処理モジュールが交換結果に基づいてユーザに応答することにより、当該音声チップを利用するインテリジェント音声製品に、オフライン場面でアプリケーションをサポートさせる。
本出願の実施例は、第2の処理モジュールによって実現されたテキストから音声への変換に基づいて、音声チップはテキストを音声に交換することに関連するアプリケーションを実現することができる。
前記第2の処理モジュールは、第2のプロセッサと内部メモリとを含み、前記第2のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記内部メモリは、前記第2の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成される。
当該技術特徴に基づいて、本出願の実施例は、チップに内部メモリを増設することにより、音声モデルの実行過程中のデータを記憶して、音声モデルの実行を補助し、音声モデルの実行効率を向上させる。
前記第2の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定する。前記モデルデータは、前記第1の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得する。
当該技術特徴に基づいて、本出願の実施例は、第1の処理モジュールによりペリフェラルインタフェースを介して外部ストレージデバイスからモデルデータを取得し、第2の処理モジュールを介して、取得されたモデルデータに基づいて音声モデルの構成情報を設定することによって、前記音声モデルの初期化を実現する。モデルデータを修正することにより、音声モデルのアップデートを実現することもできる。
前記チップは、第2の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含む。
当該技術特徴に基づいて、本出願の実施例は、チップに外部記憶モジュールを増設することで、モデルデータの記憶を実現し、さらにはモデルデータのロードを実現する。
前記第2のプロセッサは組み込み型ニューラルネットワークプロセッサである。
前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行い、前記第3の処理モジュールは、処理された音声信号又は音声特徴データを前記第2の処理モジュールに送信し、前記第2の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、前記第1の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックする。
当該技術特徴に基づいて、本出願の実施例は、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールとのインタラクションにより、インテリジェント音声製品にオフライン場面でのアプリケーションをサポートさせる。
前記チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、前記音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、前記電源管理ユニットは、ユーザ音声を検出した場合に、前記第3の処理モジュールに電力を供給し、前記第3の処理モジュールが前記ユーザ音声に対してウェイクアップワード検出を行い、前記ユーザ音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第3の処理モジュール以外の他のモジュールに電力を供給するように構成される。
当該技術特徴に基づいて、本出願の実施例は、ウェイクアップされていない時に電源モジュール内の音声検出ユニットにだけ電力を供給し、電源モジュール以外の他のモジュールへの電力供給を停止し、ユーザ音声を検出した後に第3の処理モジュールに電力を供給して、ウェイクアップワード検出を行うことで、チップの待機状態の時の消費電力をさらに削減することができる。
前記チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される画像処理モジュールをさらに含む。
当該技術特徴に基づいて、本出願の実施例は、音声チップに画像処理モジュールを増設することにより、画像に関連する機能の拡張を実現する。
前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、前記画像取得ユニットは、画像を取得するように構成され、前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第1の処理モジュールが前記第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、前記画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成される。
当該技術特徴に基づいて、本出願の実施例は、画像処理ユニットにより画像のテキストの認識を実現し、第1の処理モジュールが第2の処理モジュールを制御して認識されたテキストに対して音声変換を行うことにより、テキストを音声に交換するアプリケーションを実現する。
前記第1の処理モジュールはマルチコア中央演算処理装置を含み、前記第3の処理モジュールはデジタルシグナルプロセッサを含む。
本出願の実施例は、本出願の実施例における任意の前記音声チップを含む電子機器を提案する。
本出願の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、本出願の実施例における任意の前記音声チップが実行される。
図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の第1の実施例によって提供される音声チップの概略構成図である。 本出願の第2の実施例によって提供される音声チップの概略構成図である。 本出願の第3の実施例によって提供される音声チップの概略構成図である。 本出願の第4の実施例によって提供される音声チップの概略構成図である。 本出願の第5の実施例によって提供される音声チップの概略構成図である。 本出願の第6の実施例によって提供される電子機器の概略構成図である。 本出願の第7の実施例によって提供される電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにここでには本出願の実施例の様々な詳細事項を含むが、それらは単なる例示と見なされる。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔のため、以下の説明では、周知の機能及び構造の説明を省略する。
(第1の実施例)
図1は本出願の第1の実施例によって提供される音声チップの概略構成図である。本実施例は、オフライン場面に音声処理を行うことに適用することができる。図1を参照すると、本出願の実施例により提供される音声チップは、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、を含み、前記第1の処理モジュールは、オペレーティングシステを実行し、及びチップ内の前記第1の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、前記第2の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成される。
音声モデルは、音声とテキストとの相互変換を行う任意のモデルである。典型的には、音声モデルはニューラルネットワークモデルである。
上記3つのモジュールに基づいて、オフライン場面をサポートする様々なアプリケーションを実現することができる。典型的には、オフライン場面でのアプリケーションを実現するインタラクションプロセスは以下のように説明されてもよい。
前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行い、前記第3の処理モジュールは、処理された音声信号又は音声特徴データを前記第2の処理モジュールに送信し、前記第2の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、前記第1の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックする。
選択可能に、本実施例は前記第1の処理モジュール、第2の処理モジュール、第3の処理モジュールに含まれるデバイスを限定しない。
典型的には、前記第1の処理モジュールは少なくとも1つのマルチコア中央演算処理装置を含み、前記第3の処理モジュールは少なくとも1つのデジタルシグナルプロセッサを含む。
具体的には、前記チップは、周辺機器モジュールと、オーデイオエンジンモジュールと、を含み、前記周辺機器モジュールは、チップのクロックと、リセットと、ペリフェラルインタフェースとを提供するように構成され、前記オーデイオエンジンモジュールは、前記周辺機器モジュールに接続され、オーデイオインターフェースの通信プロトコル処理と、信号フィルタリングと、データ圧縮と、データ解凍処理とをするように構成される。
本出願の実施例の技術案によれば、音声チップに第2の処理モジュールを増設することにより、音声モデルに基づいて入力音声又は入力テキストに対して音声とテキストとの相互変換を行い、第1の処理モジュールが交換結果に基づいてユーザに応答することにより、当該音声チップを利用するインテリジェント音声製品がオフライン場面でのアプリケーションをサポートする。
本出願の実施例では、第2の処理モジュールによって実現されたテキストから音声への変換に基づいて、音声チップは、テキストを音声に交換することに関連するアプリケーションを実現できる。
(第2の実施例)
図2は本出願の第2の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図2を参照すると、本実施例が提供する音声チップの第2の処理モジュールは、第2のプロセッサと、内部メモリとを含み、前記第2のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、前記内部メモリは、前記第2の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成される。
選択可能に、第2のプロセッサは、音声モデルに基づいて音声とテキストとの相互変換を行う任意のプロセッサである。
典型的には、第2のプロセッサは組み込み型ニューラルネットワークプロセッサである。
第2のプロセッサを音声チップに適応させるために、音声モデルに基づいて音声とテキストとの相互変換を行う前に、音声モデルに関連するアルゴリズムを最適化する必要がある。
具体的な最適化のプロセスは、アルゴリズムに関連するデータタイプを浮動小数点型から整数型に調整して、計算量を削減することを含む。
第2の処理モジュール内の音声モデルに基づいて音声とテキストとの相互変換を行う前に、前記第2の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定し、前記モデルデータは、前記第1の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得するステップを含む。
具体的には、上記構成情報はモデルタイプと、モデルのハイパーパラメータと、を含む。
当該技術特徴に基づいて、本出願の実施例は、第1の処理モジュールによりペリフェラルインタフェースを介して外部ストレージデバイスからモデルデータを取得し、第2の処理モジュールを介して、取得されたモデルデータに基づいて音声モデルの構成情報を設定することによって、前記音声モデルの初期化を実現する。モデルデータを修正することにより、音声モデルのアップデートを実現することもできる。モデルタイプの決定により異なる種類のモデルの選択を実現することができる。
モデルタイプの記憶を実現し、モデルタイプのロードをさらに実現するために、前記チップは、第2の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含む。
本出願の実施例の技術案によれば、チップに内部メモリを増設することにより、音声モデルの実行過程中のデータを記憶して、音声モデルの実行を補助し、音声モデルの実行効率を向上させる。
(第3の実施例)
図3は本出願の第3の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図3を参照すると、本実施例が提供する音声チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、前記音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、前記電源管理ユニットは、ユーザ音声を検出した場合に、前記第3の処理モジュールに電力を供給し、前記第3の処理モジュールが前記ユーザ音声に対してウェイクアップワード検出を行い、前記ユーザ音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第3の処理モジュール以外の他のモジュールに電力を供給するように構成される。
本出願の実施例の技術案によれば、ウェイクアップしない時には電源モジュール内の音声検出ユニットにのみ電力を供給し、電源モジュール以外の他のモジュールへの電力供給を停止し、ユーザ音声を検出した後に第3の処理モジュールに電力を供給して、ウェイクアップワード検出を行うことにより、チップの待機状態の時の消費電力をさらに削減することができる。
(第4の実施例)
図4は本出願の第4の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図4を参照し、本実施例が提供する音声チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される画像処理モジュールをさらに含む。
具体的には、前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、前記画像取得ユニットは、画像を取得するように構成され、前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第1の処理モジュールが前記第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、前記画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成される。
当該技術特徴に基づいて、本出願の実施例は、画像処理ユニットにより画像のテキストの認識を実現し、第1の処理モジュールが第2の処理モジュールを制御して認識されたテキストに対して音声変換を行うことにより、テキストを音声に交換することに関連するアプリケーションを実現する。
本出願の実施例の技術案によれば、音声チップに画像処理モジュールを増設することにより、画像に関連する機能の拡張を実現する。
(第5の実施例)
図5は本出願の第5の実施例によって提供される音声チップの概略構成図である。本実施例は、上記実施例を基に提供される選択可能な一案である。図5を参照し、本実施例が提供する音声チップは、電源モジュールと、周辺機器モジュールと、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、外部記憶モジュールと、オーデイオエンジンモジュールと、ダイレクトメモリアクセスモジュールと、画像処理モジュールと、を含む。
前記電源モジュールは、前記電源モジュール以外の他のモジュールの電源のオンとオフを制御するように構成され、当該モジュールは、音声検出ユニットと、電源管理ユニットと、を含む。音声検出ユニットは、リアルタイムにユーザ音声を検出するように構成され、電源管理ユニットは、ユーザ音声を検出した場合に、第3の処理モジュールをオンにして、第3の処理モジュールがユーザ音声にウェイクアップワードが含まれるか否かを検出し、ウェイクアップワードが含まれる場合に、電源モジュール及び第3の処理モジュール以外の他のモジュールに電力を供給して、チップをウェイクアップ状態にさせ、ウェイクアップワードが含まれない場合に、引き続き電源モジュール及び第3の処理モジュール以外の他のモジュールに対して停電処理を行うように構成される。周辺機器モジュールは、チップのクロックと、リセットと、ペリフェラルインタフェースとを提供し、通電した後ペリフェラルインタフェースを介してユーザの入力音声を収集するように構成される。第1の処理モジュールは、周辺機器モジュールに接続され、通電した後、オフライン状態と検出された場合に、音声モジュールにモデルデータをロードし、ロードデータに基づいて音声モデルを初期化するように第2の処理モジュールに通知し、第3の処理モジュールが入力音声に対してデジタル信号処理を行う。処理された音声信号又は音声特徴データを第2の処理モジュールに送信し、第2の処理モジュールが、音声モデルに基づいて入力音声を認識し、第1の処理モジュールは、認識結果に基づいて応答し、応答結果を周辺機器によりユーザにフィードバックし、第2の処理モジュールは、第1の処理モジュールに接続され、処理されたユーザ音声を認識するように構成される。第2の処理モジュールは、組み込み型ニューラルネットワークプロセッサと内部メモリとを含み、組み込み型ニューラルネットワークプロセッサは、訓練された音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、内部メモリは、組み込み型ニューラルネットワークモジュールに接続され、モデルの実行過程中のデータを記憶するように構成される。第3の処理モジュールは、電源モジュール及び第1の処理モジュールに接続され、ユーザ音声に対してウェイクアップワード検出を行い、入力音声に対してデジタル信号処理を行うように構成される。外部記憶モジュールは、第1の処理モジュール、第2の処理モジュール、および第3の処理モジュールに接続され、音声モデルのロードデータと、第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールの間の一時的な交換データとを記憶するように構成される。オーデイオエンジンモジュールは、周辺機器モジュールに接続され、オーデイオインターフェースの通信プロトコル処理をするように構成され、ダイレクトメモリアクセスモジュールは、異なる速度のハードウェアデバイスが第1の処理モジュールの大量の割り込み負荷に依存せずに通信することを許可するように構成され、画像処理モジュールは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される。画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、画像取得ユニットは、画像を取得するように構成され、画像処理ユニットは、取得された画像に対してテキスト認識を行い、第1の処理モジュールが第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成される。
典型的には、第1の処理モジュールはマルチコア中央演算処理装置を含み、マルチコア中央演算処理装置はARM A53 MP、RISCV 64ビットマルチコアCPUを含むことができるが、これらに限定されない。
第3の処理モジュールはデジタルシグナルプロセッサを含み、例えば、HIFI4/5DSPコアを含む。
本出願の実施例によって提供される音声チップは、以下のような4つの主流音声適用シーンを構築できる。
オンラインインテリジェント音声の低コスト、低消費電力、複数適用のシーン:第3の処理モジュールに電力を供給し、第1の処理モジュール、第2の処理モジュール、外部記憶モジュール、および画像処理モジュールに対して部分的又は完全な停電を行うことにより、様々な適用シーンを生成し、人工知能のモノのインターネットのインテリジェント音声製品アプリケーションに特に適用され、同時に、非常に低い消費電力は、バッテリー機器に適し、例えば、バッテリー駆動のスマートスピーカ及びモバイル音声製品などがある。
オンラインインテリジェント音声製品アプリケーション:第1の処理モジュール及び第3の処理モジュールに電力を供給し、第2の処理モジュール、外部記憶モジュール、および画像処理モジュールに対して部分的又は完全な停電を行う。第2の処理モジュールと、外部記憶モジュールと、画像処理モジュールとがチップ全体で最も電力を消費する部分であるため、現在の適用シーンは、そのようなアプリケーションの全体的な電力消費を節約し、同時に、実現されたオンライン音声ウェイクアップ認識の全体的な品質を向上させる。全体的なコストは、既存のデュアルチップの音声ソリューションよりも優れている。
オフラインインテリジェント音声製品アプリケーション:第1の処理モジュール、第2の処理モジュール、及び第3の処理モジュールに電力を供給し、画像処理モジュールに対して部分的な停電を行う。オフライン音声機能では、ローカルチップがオンラインクラウドサーバの部分の機能を実行又は置き換えることができる必要があるため、第2の処理モジュールの計算能力を最適化する必要があり、最新の音声モデルなどを記憶するためのより大きな外部記憶モジュールが必要とされる。
フル機能の音声製品アプリケーション:チップ内の全てのモジュールに電力を供給して、全てのオンライン及びオフラインの音声機能をサポートする。例えば、音声ウェイクアップ、音声認識、テキストおよび音声放送(TTS)、及び低遅延のオフライン音声インタラクティブコントロール。このようなシナリオには、テキストおよび画像を組み合わせて、音声ベースの製品アプリケーションをより豊富にする適用シーンも含む。
本出願の実施例は、第1の処理モジュール、第2の処理モジュール、および第3の処理モジュールの異種マルチコアメインアーキテクチャと、動的に構成可能なモジュールデザインの組み合わせとを採用することにより、音声チップが上記4つの主流音声適用シーンを実現することができるという技術的利点を有する。
このアーキテクチャスキームに基づくチップ製品は、オンラインインテリジェント音声機能を適切にサポートすることができるだけでなく、様々なオフラインインテリジェント音声アプリケーションをサポートすることもできる。
第2の処理モジュールに基づいて、テキストを音声に交換するアプリケーションを実現する。
画像処理モジュールを増設することにより、インテリジェント音声に基づく画像とテキストのアプリケーションを拡張することができる。
音声検出ユニット及び電源管理ユニットの設計により、独立した電源管理が実現され、全体の待機電力消費がさらに削減される。
図6は本出願の第6の実施例によって提供される電子機器の概略構成図である。本出願の実施例に係る電子機器は、PC、クラウドデバイス、モバイルデバイス、インテリジェントスピーカなどであってもよく、モバイルデバイスは、例えば、携帯電話、タブレット、携帯情報端末、ウェアラブルデバイス、車載機器など、様々なオペレーティングシステム、タッチスクリーンおよび/またはディスプレイを有するハードウェアデバイスであってもよい。
図6に示すように、当該電子機器は、本出願の前述した実施例により提案された音声チップを含むことができる。
前述した音声チップの実施例に対する解釈や説明は、当該実施例の電子機器にも適用され、ここでは説明を省略する。本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声チップが実行される。
図7は、本出願の実施形態の実現に適する例示的電子機器のブロック図を示す。図7に示される電子機器12は、単なる一例であり、本出願の実施例の機能および使用範囲について一切限定しない。
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、任意の車載デバイスを表すことができ、携帯情報端末、携帯電話、インテリジェントフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実施例の実現を制限することを意図しない。
図7に示すように、当該電子機器は、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報を表示するためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、必要な操作の一部を提供することができる(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムなど)。図7では、1つのプロセッサ701を例とする。
メモリ702は、本出願の実施例により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、前記少なくとも1つのプロセッサが本出願の各実施例の機能を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本出願の各実施例の機能を実行させるためのコンピュータ命令を記憶する。
メモリ702は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の各実施例の機能に対応するプログラム命令/モジュール、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ701は、メモリ702に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち本出願の各実施例の機能を実現する。
メモリ702は、プログラム記憶領域とデータ記憶領域とを含むことができ、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、電子機器の使用によって作成されたデータなどを記憶することができる。メモリ702は、高速ランダム存取メモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ブロックチェーンネットワーク、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
電子機器は、入力装置703と出力装置704とをさらに含むことができる。プロセッサ701、メモリ702、入力装置703、及び出力装置704は、バス又は他の方式を介して接続することができ、図7では、バスによる接続を例とする。
入力装置703は、入力された数字又は文字情報を受信することができ、及び電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
上記に示される様々なモジュール、ユニット及びデバイスを組み合わせ、追加、又は削除することができることを理解されたい。本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願に対する保護範囲の限定するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (10)

  1. 第1の処理モジュールと、第2の処理モジュールと、第3の処理モジュールと、を含む音声チップであって
    前記第1の処理モジュールは、オペレーティングシステムを実行し、及びチップ内の前記第1の処理モジュール以外の他のモジュールに対してデータスケジューリングを行うように構成され、
    前記第2の処理モジュールは、音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、
    前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行うように構成され、
    前記チップの電源モジュールは、音声検出ユニットと、電源管理ユニットと、を含み、
    前記音声検出ユニットは、前記音声チップの待機時に入力音声の有無リアルタイムに検出するように構成され、
    前記電源管理ユニットは、入力音声を検出した場合に、前記第3の処理モジュールに電力を供給し、前記第3の処理モジュールが前記入力音声に対してウェイクアップワード検出を行い、前記入力音声にウェイクアップワードが含まれる場合に、電源モジュール及び前記第3の処理モジュール以外の他のモジュールに電力を供給するように構成され、
    前記第2の処理モジュールは、前記音声モデルを初期化するように、モデルデータに基づいて前記音声モデルの構成情報を設定し、
    前記モデルデータは、前記第1の処理モジュールがペリフェラルインタフェースを介して外部ストレージデバイスから取得し、前記構成情報が、モデルタイプと、モデルのハイパーパラメータと、を含むことを特徴とする、音声チップ。
  2. 前記第2の処理モジュールは、第2のプロセッサと内部メモリとを含み、
    前記第2のプロセッサは、前記音声モデルに基づいて音声とテキストとの相互変換を行うように構成され、
    前記内部メモリは、前記第2の処理モジュールに接続され、前記音声モデルの実行過程中のデータを記憶するように構成されることを特徴とする、請求項1に記載のチップ。
  3. 前記チップは、第2の処理モジュールに接続され、前記モデルデータを記憶するように構成される外部記憶モジュールをさらに含むことを特徴とする、請求項1に記載のチップ。
  4. 前記第2のプロセッサは組み込み型ニューラルネットワークプロセッサであることを特徴とする、請求項2に記載のチップ。
  5. 前記第3の処理モジュールは、入力音声に対してデジタル信号処理を行い、
    前記第3の処理モジュールは、処理された音声信号又は音声特徴データを前記第2の処理モジュールに送信し、前記第2の処理モジュールが、前記音声モデルに基づいて、入力音声を認識し、
    前記第1の処理モジュールは、認識結果に基づいて、ペリフェラルインタフェースを介して外部ストレージデバイスから応答結果を取得し、応答結果をユーザにフィードバックすることを特徴とする、請求項1に記載のチップ。
  6. 前記チップは、収集された画像を処理して、画像内のテキスト情報をユーザに放送及び/又は表示するように構成される画像処理モジュールをさらに含むことを特徴とする、請求項1に記載のチップ。
  7. 前記画像処理モジュールは、画像取得ユニットと、画像処理ユニットと、画像表示ユニットと、を含み、
    前記画像取得ユニットは、画像を取得するように構成され、
    前記画像処理ユニットは、取得された画像に対してテキスト認識を行い、前記第1の処理モジュールが前記第2の処理モジュールを制御して認識されたテキストに対して音声変換を行い、周辺機器により変換された音声をユーザに放送するように構成され、
    前記画像表示ユニットは、取得された画像及び/又は認識されたテキストを表示するように構成されることを特徴とする、請求項6に記載のチップ。
  8. 前記第1の処理モジュールはマルチコア中央演算処理装置を含み、
    前記第3の処理モジュールはデジタルシグナルプロセッサを含むことを特徴とする、請求項1に記載のチップ。
  9. 請求項1から8のいずれかに記載の音声チップを含むことを特徴とする、電子機器。
  10. コンピュータプログラムであって、
    前記コンピュータプログラムにおける命令が実行された場合に、請求項1から8のいずれかに記載の音声チップが実行されることを特徴とする、コンピュータプログラム。
JP2020216077A 2020-02-13 2020-12-25 音声チップおよび電子機器 Active JP7471213B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010090986.1A CN111292716A (zh) 2020-02-13 2020-02-13 语音芯片和电子设备
CN202010090986.1 2020-02-13

Publications (2)

Publication Number Publication Date
JP2021128332A JP2021128332A (ja) 2021-09-02
JP7471213B2 true JP7471213B2 (ja) 2024-04-19

Family

ID=71028470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020216077A Active JP7471213B2 (ja) 2020-02-13 2020-12-25 音声チップおよび電子機器

Country Status (5)

Country Link
US (1) US11735179B2 (ja)
EP (1) EP3866162A3 (ja)
JP (1) JP7471213B2 (ja)
KR (1) KR102601902B1 (ja)
CN (1) CN111292716A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259071A (zh) * 2020-09-22 2021-01-22 北京百度网讯科技有限公司 语音处理系统、语音处理方法、电子设备和可读存储介质
CN113205818B (zh) * 2021-05-24 2023-04-18 网易有道信息技术(北京)有限公司 用于优化语音识别过程的方法、设备和存储介质
CN113674744A (zh) * 2021-08-20 2021-11-19 天津讯飞极智科技有限公司 语音转写方法、装置、拾音转写设备与存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129412A (ja) 2006-11-22 2008-06-05 Seiko Epson Corp 半導体集積回路装置、電子機器
JP3188999U (ja) 2013-10-29 2014-02-20 有限会社オフィス結アジア 音声出力システム
JP2018189984A (ja) 2013-06-19 2018-11-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び、音声対話エージェントサーバ
JP2020008635A (ja) 2018-07-04 2020-01-16 株式会社日立製作所 音声対話システム、音声対話装置および音声対話方法
JP2020013034A (ja) 2018-07-19 2020-01-23 株式会社日立製作所 音声認識装置及び音声認識方法
JP2020514171A (ja) 2017-02-20 2020-05-21 ジャーマン オート ラボズ ガル ゲーエムベーハーGerman Auto Labs Gal Gmbh 自動車運転者の支援のための方法及び装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3188999B2 (ja) 1995-06-20 2001-07-16 株式会社巴コーポレーション 溶融亜鉛めっき構造物の高力ボルト摩擦接合面処理剤
JPH10319991A (ja) 1997-05-20 1998-12-04 Sony Corp 電子機器の音声認識起動方法及び装置
US7561932B1 (en) * 2003-08-19 2009-07-14 Nvidia Corporation System and method for processing multi-channel audio
AT510122B1 (de) * 2003-12-22 2012-11-15 Cochlear Ltd Hörprothesensystem
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
WO2008010071A2 (en) * 2006-07-18 2008-01-24 Psitek (Proprietary) Limited Information retrieval and delivery system and components
CN101115245A (zh) * 2006-07-25 2008-01-30 陈修志 具有语音识别及翻译功能的移动终端
CN201839449U (zh) * 2010-10-27 2011-05-18 恩极网络无锡有限公司 一种移动智能终端扩展身体网络的装置
CN104053089B (zh) * 2013-03-11 2017-11-07 联想(北京)有限公司 一种音频插头引脚的确定方法、音频接口及电子设备
CN104184911B (zh) * 2013-05-27 2019-04-23 深圳市潮流网络技术有限公司 一种实现蓝牙模式电话会议的装置及通讯方法
KR102169692B1 (ko) * 2014-07-08 2020-10-26 삼성전자주식회사 멀티-코어 프로세서를 포함하는 시스템 온 칩 및 그것의 동적 전력 관리 방법
US10152968B1 (en) * 2015-06-26 2018-12-11 Iconics, Inc. Systems and methods for speech-based monitoring and/or control of automation devices
US9736318B2 (en) * 2015-09-16 2017-08-15 International Business Machines Corporation Adaptive voice-text transmission
KR101772156B1 (ko) * 2016-07-22 2017-09-12 이풍우 음성 인식 하드웨어 모듈
EP3461016A4 (en) * 2016-08-09 2019-06-12 Huawei Technologies Co., Ltd. SYSTEM ON CHIP AND PROCESSING DEVICE
CN106341549A (zh) * 2016-10-14 2017-01-18 努比亚技术有限公司 一种移动终端有声阅读装置及方法
US10037767B1 (en) * 2017-02-01 2018-07-31 Wipro Limited Integrated system and a method of identifying and learning emotions in conversation utterances
KR20190101630A (ko) * 2018-02-23 2019-09-02 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
CN110399212A (zh) * 2018-04-25 2019-11-01 北京京东尚科信息技术有限公司 任务请求处理方法、装置、电子设备及计算机可读介质
CN108710596A (zh) * 2018-05-10 2018-10-26 中国人民解放军空军工程大学 一种基于dsp和fpga多协处理卡的桌面超算硬件平台
KR20190130376A (ko) * 2018-05-14 2019-11-22 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
CN108877799A (zh) * 2018-08-09 2018-11-23 珠海格力电器股份有限公司 一种语音控制装置及方法
US10815915B2 (en) * 2018-09-06 2020-10-27 Exmark Manufacturing Company, Inc. Systems and methods for determining an engine cool-down period and grounds maintenance vehicles incorporating same
US11089670B2 (en) * 2018-10-03 2021-08-10 Varex Imaging Corporation Multiple head linear accelerator system
US11679268B2 (en) * 2018-10-05 2023-06-20 Medtronic, Inc. Multi-tier prediction of cardiac tachyarrythmia
CN111352192B (zh) * 2018-12-20 2021-08-10 青岛海信宽带多媒体技术有限公司 一种光模块
CN110012527B (zh) * 2019-03-05 2022-04-26 青岛海信传媒网络技术有限公司 唤醒方法及电子设备
US11100920B2 (en) * 2019-03-25 2021-08-24 Mitsubishi Electric Research Laboratories, Inc. System and method for end-to-end speech recognition with triggered attention
US11373044B2 (en) * 2019-04-12 2022-06-28 Asapp, Inc. Maintaining machine language model state across communications channels
CN110233807B (zh) * 2019-05-08 2022-07-15 合肥杰发科技有限公司 一种低压差分信号发送器以及数据传输设备
CN112292660B (zh) * 2019-05-13 2022-05-31 华为技术有限公司 一种调度存储器中数据的方法、数据调度设备及系统
US10819849B1 (en) * 2019-10-10 2020-10-27 Motorola Solutions Inc. Device, system and method for address validation
US11671173B2 (en) * 2021-02-05 2023-06-06 Sumitomo Electric Industries, Ltd. Optical transceiver and method for controlling optical transceiver

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129412A (ja) 2006-11-22 2008-06-05 Seiko Epson Corp 半導体集積回路装置、電子機器
JP2018189984A (ja) 2013-06-19 2018-11-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声対話方法、及び、音声対話エージェントサーバ
JP3188999U (ja) 2013-10-29 2014-02-20 有限会社オフィス結アジア 音声出力システム
JP2020514171A (ja) 2017-02-20 2020-05-21 ジャーマン オート ラボズ ガル ゲーエムベーハーGerman Auto Labs Gal Gmbh 自動車運転者の支援のための方法及び装置
JP2020008635A (ja) 2018-07-04 2020-01-16 株式会社日立製作所 音声対話システム、音声対話装置および音声対話方法
JP2020013034A (ja) 2018-07-19 2020-01-23 株式会社日立製作所 音声認識装置及び音声認識方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"An Ultra-Low Power Binarized Convolutional Neural Network-Based Speech Recognition Processor With On-Chip Self-Learning",米国,IEEE,2019年10月09日,Volume 66,4648-4661,[オンライン],[検索日 2022.1.24],インターネット:<URL:https://ieeexplore.ieee.org/document/8863422>
SPIの基本を学ぶ,Analog Dialogue,米国,ANALOG DEVICES,2019年,Volume 52 Number 3,p56-p61,[オンライン],[検索日 2023.3.16],インターネット:<URL:https://www.analog.com/media/jp/analogue-dailogue/volume-52/number-3/volume52-number3_jp.pdf>
THE MICROSOFT 2017 CONVERSATIONAL SPEECH RECOGNITION SYSTEM,MICROSOFT TECHNICALREPORT MSR-TR-2017-39,米国,MICROSOFT AI AND RESEARCH,2017年08月24日,[オンライン],[検索日 2023.3.16],インターネット:<URL:https://arxiv.org/abs/1708.06073>

Also Published As

Publication number Publication date
US11735179B2 (en) 2023-08-22
KR20210103415A (ko) 2021-08-23
EP3866162A2 (en) 2021-08-18
US20210256973A1 (en) 2021-08-19
KR102601902B1 (ko) 2023-11-14
JP2021128332A (ja) 2021-09-02
EP3866162A3 (en) 2021-11-24
CN111292716A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
JP7471213B2 (ja) 音声チップおよび電子機器
US11782492B2 (en) Techniques to enable communication between a processor and voltage regulator
KR101770932B1 (ko) 모바일 디바이스용 상시 연결형 오디오 제어
US8607080B2 (en) Optimizing voltage on a power plane using a host control unit to control a networked voltage regulation module array
KR20120096858A (ko) 모바일 디바이스의 어플리케이션 프로세서의 원격 시동
US9401141B2 (en) Computer system having voice-control function and voice-control method
US10761579B2 (en) Supercapacitor-based power supply protection for multi-node systems
TWI574148B (zh) 嵌入式控制器及其省電控制方法
CN114879829B (zh) 功耗管理方法、装置、电子设备、图形处理器及存储介质
CN102193765A (zh) 计算机、显卡、显示设备及显示信息更新的方法
US9430028B2 (en) Systems and method for providing hierarchical computing in wearable processing units
US10289188B2 (en) Processor having concurrent core and fabric exit from a low power state
KR102325453B1 (ko) 반도체 장치의 동작 방법
JP7133055B2 (ja) 信号処理方法、装置、電子機器及びコンピュータプログラム製品
US20230289074A1 (en) Single interface-driven dynamic memory/storage capacity expander for large memory resource pooling
US11921564B2 (en) Saving and restoring configuration and status information with reduced latency
US20220199072A1 (en) Voice wake-up device and method of controlling same
CN114661804A (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN114649000A (zh) 语音唤醒装置及其控制方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220425

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230110

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230117

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230124

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230324

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230328

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240409

R150 Certificate of patent or registration of utility model

Ref document number: 7471213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150