JP2021110945A - スマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体 - Google Patents

スマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体 Download PDF

Info

Publication number
JP2021110945A
JP2021110945A JP2020218366A JP2020218366A JP2021110945A JP 2021110945 A JP2021110945 A JP 2021110945A JP 2020218366 A JP2020218366 A JP 2020218366A JP 2020218366 A JP2020218366 A JP 2020218366A JP 2021110945 A JP2021110945 A JP 2021110945A
Authority
JP
Japan
Prior art keywords
chip
voice
communication
algorithm
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020218366A
Other languages
English (en)
Inventor
レイ・ジェン
Lei Geng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021110945A publication Critical patent/JP2021110945A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections

Abstract

【課題】低コスト、低消費電力、長寿命であることに加え、ユーザー体験を向上させることができるスマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体を提供する。【解決手段】スマートオーディオ装置において、複数の音声アルゴリズムモジュールが設置されたフロントチップ10と、フロントチップに信号接続され、ユーザ要求に従ってマルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出すためのマスターチップ20と、を備える。【選択図】図2

Description

本願の実施例はコンピュータ技術分野、特にスマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体に関するものである。
音声認識技術が発展するにつれて、より多くのスマートハードウェア装置が音声インタラクション機能を備えているが、音声インタラクションの品質はフロントエンドオーディオ信号のノイズ低減処理と密接に関連している。一般的なノイズ低減処理方法は2つあり、1つ目は、デジタル信号プロセッサ(DSP)または専用集積回路(ASIC)のように、フロントエンドオーディオデジタル信号処理チップによってノイズを低減するという方法、2つ目は、マスターチップ上でソフトウェア処理によりノイズを低減するという方法である。これら2つのノイズ低減処理方法はいずれにおいても異なる程度の不備が存在する。
本願の実施例では、スマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体を提供する。
第1の態様において、本願の実施例では、
複数の音声アルゴリズムモジュールが設置されたフロントチップと、
前記フロントチップに信号接続され、ユーザ要求に従ってマルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出すためのマスターチップと、を備える スマートオーディオ装置を提供する。
ある実施例では、前記音声アルゴリズムモジュールは、
前記ユーザ要求に従って、前記マスターチップを起動するための音声起動アルゴリズムモジュールと、
フロントエンド信号をノイズ低減処理するためのフロントエンド信号処理モジュールと、を備える。
ある実施例では、前記フロントエンド信号処理モジュールは、
フロントエンド音声信号をノイズ低減処理し、音声認識エンジン信号を取得するための音声認識フロントエンド信号処理モジュールと、
フロントエンド通信信号をノイズ低減処理し、通信アプリケーション信号を取得するための通信フロントエンド信号処理モジュールと、を備える。
ある実施例では、前記マスターチップは、
音声信号を認識処理するための音声認識モジュールおよび/または、
その他の通信モジュールと通信するための通信アプリケーションモジュールと、を備える。
ある実施例では、前記装置は、
前記フロントチップと前記マスターチップの信号を伝送するための通信インタフェースをさらに備える。
ある実施例では、前記通信インターフェースは、汎用I/Oインターフェース、集積回路バスインターフェースおよびシリアルペリフェラルインターフェースのうちの少なくとも1つを含む。
ある実施例では、前記装置は、
前記フロントチップに信号接続され、音声情報を受信してそれを前記フロントチップに伝送するためのマイクロフォンをさらに備える。
ある実施例では、前記フロントチップは、
前記音声アルゴリズムモジュールに信号接続され、受信した前記音声情報にエコー除去処理を行うためのエコー除去モジュールをさらに含む。
第2の態様において、本願の実施例では、
ユーザ要求に従ってマルチスレッド方式でフロントチップ内の異なる音声アルゴリズムを呼び出すステップを含むオーディオ装置の呼び出し方法を提供する。
ある実施例では、ユーザ要求に従ってマルチスレッド方式でフロントチップ内の異なる音声アルゴリズムを呼び出す前記ステップは、
前記ユーザ要求である起動要求を受信する起動要求受信ステップと、
前記起動要求に応答して動作モードに移行するステップと、
前記フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信して、フロントチップを前記音声認識フロントエンド信号処理アルゴリズムモードに切り替えるステップと、を含む。
ある実施例では、音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信する前記ステップの後に、さらに、
ユーザ要求である通信要求を受信する通信要求受信ステップと、
前記通信要求に応答して、前記フロントチップ内の前記通信フロントエンド信号処理アルゴリズムの呼び出しを送信するステップと、を含む。
ある実施例では、通信終了後に、
前記フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信して、フロントチップを前記音声認識フロントエンド信号処理アルゴリズムモードに切り替えるステップをさらに含む。
ある実施例において、音声インタラクションがない場合、前記フロントチップ内の音声起動アルゴリズムを呼び出すコマンドを送信し、前記フロントチップを音声起動アルゴリズムモードに切り替える。
第3の態様において、本願の実施例では、
1つ以上のプロセッサと、
1つ以上のプログラムが記憶され、前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行される時に、前記1つ以上のプロセッサに上記のいずれかのオーディオ装置の呼び出し方法を実現させるメモリと、
前記プロセッサとメモリとの間に接続され、前記プロセッサとメモリの情報インタラクションを実現するように配置される、1つ以上のI/Oインターフェースと、を備える電子デバイスを提供する。
第4の態様において、本願の実施例では、コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行される時に、上記のいずれかのオーディオ装置の呼び出し方法を実現するコンピュータ可読媒体を提供する。
第5の態様において、本願の実施例では、コンピュータプログラムを備え、前記コンピュータプログラムがプロセッサによって実行される時に、上記のいずれかのオーディオ装置の呼び出し方法を実現するコンピュータプログラム製品を提供する。
本願の実施例が提供するスマートオーディオ装置は、フロントチップ内に複数の音声アルゴリズムモジュールを設置し、マスターチップがユーザ要求に従ってマルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出すため、音声起動アルゴリズムはフロントチップ内に設置することができ、低演算量、低コストのマスターチップでアプリケーションニーズを満たすことができ、マスターチップのコスト削減につながり、さらにはスマートオーディオ装置の総コストの削減につながる。また、マスターチップは、必要に応じて運行周波数を調整し、マスターチップの消費電力を低減し、使用寿命を延ばすことができる。このほか、マルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出し、スマートオーディオ装置の柔軟性を高め、ユーザーの異なるニーズを満たすことで、ユーザー体験を向上させている。
図面は、本願の実施例をさらに理解するために提供されるものであり、明細書の一部を構成し、本願の実施例とともに本願を解釈するために用いられるものであって、本願を制限するものではない。図面を参照して詳細な実施の形態について説明することにより、上記およびその他の特徴および利点が当業者にとってより自明になるであろう。
図1は本願の実施例に係るスマートオーディオ装置の構造模式図である。 図2は本願の実施例に係るスマートオーディオ装置の構造模式図である。 図3は本願の実施例が提供するオーディオ装置の呼び出し方法のフローチャートである。 図4は本願の実施例が提供するオーディオ装置の呼び出し方法のフローチャートである。 図5は本願の実施例が提供する電子デバイスの構成ブロック図である。
当業者が本発明の技術案をよりよく理解できるように、以下に、図面を組み合わせて、本発明が提供するスマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体について詳細に説明する。
以下では図面を参照しながら例示的な実施例をより十分に説明するが、当該例示的な実施例は異なる形式で体現することもでき、本明細書に記載された実施例に限定されると解釈してはならない。逆に、これらの実施例を提供する目的は、本願を詳らかにかつ完全にし、当業者に本願の範囲を十分に理解させることにある。
矛盾しない状況下において、本願の各実施例および実施例における各特徴を互いに組み合わせることができる。
本明細書で使用する、「および/または」のような用語は、1つ以上の関連する列挙対象の任意およびすべての組み合わせを含む。
本明細書で使用する用語は、特定の実施例を説明するためだけに使用され、本願を制限することは意図していない。本明細書で使用する、単数形式の「1つ」および「当該」のような用語も、前後の文のほかで明確に指摘しない限り、複数の形式を含むことを意図する。また、本明細書で「含む」および/または「……からなる」という用語を使用する場合、前記特徴、全体、ステップ、操作、要素および/またはコンポーネントが存在することを指すが、1つ以上のその他の特徴、全体、ステップ、操作、要素、コンポーネントおよび/またはそのグループが存在すること、あるいは追加することは除外されない。
別途限定しない限り、本明細書で用いられるすべての用語(技術および科学用語を含む)の意味は、当業者が一般的に理解する意味と同じである。また、一般辞書にて限定されるような用語は、それが関連技術および本願の背景における意味と一致する意味を有すると解釈されるべきであり、本明細書で明確に限定しない限り、理想化または過度の形式上の意味を有すると解釈されないということも合わせて理解されたい。
本願の実施例は、オーディオフロントチップに対してシングルスレッド動作方式を用い、即ち、オーディオフロントチップに電源投入した後に1つのモードで動作しており、動作周波数を最適化するために、バックエンドの実際のアプリケーション(たとえば、音声認識、通信アプリケーションおよび音声起動など)に従って動作方法を調整することはできないため、スマートハードウェアデバイス全体の電力消費が高いという状況を招く。また、オーディオフロントチップはシングルスレッド動作であるため、バックエンドの通信アプリケーションに対して音声起動アルゴリズムを調整することができず、ユーザ体験が劣る。
第1の態様において、本願の実施例はスマートオーディオ装置を提供する。図1は本願の実施例に係るスマートオーディオ装置の構造模式図である。図1を参照すれば分かるように、スマートオーディオ装置は以下の内容を含む。
複数の音声アルゴリズムモジュールが設置されるフロントチップ10であって、各種音声アルゴリズムモジュールが1つの音声アルゴリズムモードに対応する。
フロントチップ10に信号接続され、ユーザ要求に従ってマルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出すためのマスターチップ20。
そのうち、ユーザ要求は音声起動要求、音声認識要求および通信要求を含むが、これらに限定されない。
ある実施例において、フロントチップ10とマスターチップ20とは、通信インターフェース30を介して信号接続される。そのうち、通信インターフェースは、汎用I/Oインターフェース、集積回路バス(Inter-Integrated Circuit、I2C)、インターフェースとシリアルペリフェラルインターフェース(Serial Peripheral Interface、SPI)のうちの少なくとも1つを含むが、これらに限定されない。ある実施例において、フロントチップ10とマスターチップ20は、通信インターフェース30を介して、制御信号、リセット信号、端末起動信号、アルゴリズム処理後のオーディオ信号の伝送を実現することができる。
ある実施例において、スマートオーディオ装置に電源投入した後、フロントチップ10は音声起動モードにあり、マスターチップ20は待機モードにある。
図2は本願の実施例に係るスマートオーディオ装置の構造模式図である。図2に示すように、フロントチップ10内に設置された音声アルゴリズムモジュールは、音声起動アルゴリズムモジュール11と、音声認識フロントエンド信号処理モジュール12と、通信フロントエンド信号処理モジュール13とを含み、音声起動アルゴリズムモジュール11は、ユーザ要求に応じてマスターチップ20を起動する。例えば、マスターチップ20が待機モードにある時、音声起動アルゴリズムモジュール11は、ユーザの起動要求に従ってマスターチップ20を起動させ、マスターチップ20を動作モードに移行させる。音声認識フロントエンド信号処理モジュール12は、フロントエンド音声信号をノイズ低減処理し、音声認識エンジン信号を得る。通信フロントエンド信号処理モジュール13は、フロントエンド通信信号をノイズ低減処理し、通信アプリケーション信号を取得する。
フロントエンド信号処理モジュール13は、フロントエンド信号をノイズ低減処理するためのものである。そのうち、フロントエンド信号は、フロントチップ10が受信した信号である。ある実施例において、フロントエンド信号は、フロントエンド音声信号、フロントエンド通信信号などであってよい。フロントエンド信号処理モジュール12、13は、フロントエンド信号をノイズ低減処理した後、通信インターフェースを介してマスターチップ20に伝送する。
マスターチップ20は、音声信号を認識処理するための音声認識モジュール21と通信アプリケーションモジュール22とを含む。音声認識モジュール21は、音声認識エンジン信号に応答して起動し、入力された音声信号を認識処理する。例えば、音声認識モジュール21は、ユーザ要求を確定するために、文字、単語、短文または長文を認識することができる。通信アプリケーションモジュール22は、その他の通信モジュールと通信するためのものである。通信アプリケーションモジュール22は、通信アプリケーション信号の起動に応答して、その他の通信モジュールと通信する。そのうち、その他の通信モジュールは、他のスマートオーディオ装置であってもよいし、携帯電話、IPADなどの通信を有するモジュールであってもよい。
なお、マスターチップ20の処理能力がユーザ要求を満たすに至らない場合、マスターチップ20は、さらに、音声信号を演算能力のより強いクラウドサーバに送信して、クラウドサーバにより音声信号の認識を行うことができる。
スマートオーディオ装置は、フロントチップ10に信号接続され、音声情報を受信してそれをフロントチップ10に伝送するためのマイクロフォン40をさらに備える。ある実施例において、マイクロフォン40は、複数のマイクロフォンがフロントチップ10に接続されたマイクロフォンアレイを採用する。ある実施例において、マイクロフォン40とフロントチップ10との間には、マイクロフォン40で得られたアナログ信号をデジタル信号に変換するためのアナログデジタル変換50が設けられている。
ある実施例において、フロントチップ10は、音声アクティブ検出(Voice Activity Detection,VAD)モジュール14およびエコー除去モジュール15を含む。そのうち、音声アクティブ検出モジュール14は、アナログデジタル変換50と音声起動アルゴリズムモジュール11との間に信号接続され、音声信号の流れから長時間のミュート期間を認識して削除する。エコー除去モジュール15は、アナログデジタル変換50とフロントエンド信号処理モジュールとの間に信号接続され、受信した音声情報をエコー除去処理するために用いられる。
ある実施例において、スマートオーディオ装置は、マスターチップ20に信号接続され、マスターチップ20から出力された音声信号を増幅し、増幅した音声信号をスピーカ70に入力する電力増幅モジュール60およびスピーカ70をさらに含む。スピーカ70は、増幅した音声信号を再生するために使用される。
ある実施例において、フロントチップ10は電力増幅モジュール60の音声信号を収集し、当該音声信号はフロントチップ10のエコーを除去する基準信号とすることができる。
本願の実施例が提供するスマートオーディオ装置は、フロントチップ内に複数の音声アルゴリズムモジュールを設置し、マスターチップがユーザ要求に従ってマルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出すため、音声起動アルゴリズムはフロントチップ内に設置することができ、低演算量、低コストのマスターチップでアプリケーションニーズを満たすことができ、マスターチップのコスト削減につながり、さらにはスマートオーディオ装置の総コストの削減につながる。また、マスターチップは、必要に応じて運行周波数を調整し、マスターチップの消費電力を低減し、使用寿命を延ばすことができる。このほか、マルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出し、スマートオーディオ装置の柔軟性を高め、ユーザーの異なるニーズを満たすことで、ユーザー体験を向上させている。
第2の態様において、本願の実施例はオーディオ装置の呼び出し方法を提供する。本願の実施例のオーディオ装置の呼び出し方法は、ユーザ要求に従ってマルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出す。
図3は本願の実施例が提供するオーディオ装置の呼び出し方法のフローチャートである。図3を参照すれば分かるように、オーディオ装置の呼び出し方法は以下のステップを含む。
301、起動要求を受信する。
ある実施例において、スマートオーディオ装置に電源投入した後、フロントエンドチップは音声起動モードにあり、音声活動検出モジュールと音声起動アルゴリズムモジュールは起動情報を得ることができる。フロントエンドチップが起動要求を得た時、当該起動要求をマスターチップに送信し、例えば、汎用I/Oインターフェースを介してマスターチップに起動要求を送信することができる。
302、起動要求に応答し動作モードに移行する。
ある実施例において、スマートオーディオ装置に電源投入した後、マスターチップは待機モードにある。マスターチップが起動要求を受信すると動作モードに移行する。
303、フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信する。
フロントチップはマルチスレッド動作方式であるため、マスターチップが動作モードに移行すると、フロントチップに音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信して、フロントチップを音声起動アルゴリズムモードから音声認識フロントエンド信号処理アルゴリズムモードに切り替えることができる。音声認識フロントエンド信号処理アルゴリズムは、音声信号をエコー除去処理することができ、エコー除去後の音声情報はマスターチップの音声認識モジュールに送信され、音声認識モジュールによって音声情報を認識する。
ある実施例において、マスターチップフロントチップは、I2CバスインターフェースまたはSPIインターフェースを介してフロントチップに音声認識フロントエンド信号処理アルゴリズムを起動するコマンドを送信する。
図4は本願の実施例が提供するオーディオ装置の呼び出し方法のフローチャートである。図4を参照すれば分かるように、オーディオ装置の呼び出し方法は以下のステップを含む。
401、起動要求を受信する。
402、起動要求に応答して動作モードに移行する。
403、フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信する。
なお、ステップ401からステップ403は、ステップ301からステップ303と同じであり、ここでは説明を省略する。
404、通信要求を受信する。
マスターチップがフロントチップから伝送された音声情報を受信した後、音声情報を認識して、音声インタラクションを行うことができる。
405、通信要求に応答してフロントチップ内の通信フロントエンド信号処理アルゴリズムの呼び出しを送信する。
音声コマンドが通信を要求するコマンドであるとマスターチップが認識すると、I2CバスインターフェースまたはSPIインターフェースを介してフロントチップに通信フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信することができる。フロントチップは、通信フロントエンド信号処理アルゴリズムを呼び出すコマンドを受信した後、アルゴリズムモードを通信フロントエンド信号処理アルゴリズムに切り替える。
フロントチップは、通信フロントエンド信号処理アルゴリズムを介して音声情報をエコー除去処理して、エコー除去処理後の音声情報をマスターチップの通信アプリケーションモジュールに送信し、通信アプリケーションモジュールを介して、その他の通信モジュールとの通信を実現する。
ある実施例において、オーディオ装置の呼び出し方法は以下のステップをさらに含む。
406、フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信し、フロントチップを音声認識フロントエンド信号処理アルゴリズムモードに切り替える。
通信が終了すると、マスターチップは、再びI2CバスインターフェースまたはSPIインターフェースを介して、フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドをフロントチップに送信し、フロントチップを再度音声認識フロントエンド信号処理アルゴリズムモードに切り替えて、音声インタラクションを行う。
407、音声インタラクションがない場合、フロントチップ内の音声起動アルゴリズムを呼び出すコマンドを送信する。
ある実施例において、予め設定された時間帯に音声インタラクションがない場合、マスターチップはI2CバスインターフェースまたはSPIインターフェースを介して音声起動アルゴリズムを呼び出すコマンドをフロントチップに送信し、フロントチップを再度音声起動モードにする。同時に、マスターチップは低消費電力の待機モードに切り替わる。
本願の実施例が提供するオーディオ装置の呼び出し方法は、マスターチップがユーザ要求に従ってフロントチップ内の異なる音声アルゴリズムを呼び出すものであり、マルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出すため、音声呼び出しアルゴリズムはフロントチップ内に設置することができ、低演算量、低コストのマスターチップでアプリケーションニーズを満たすことができ、マスターチップのコスト削減につながり、さらには、スマートオーディオ装置の総コストの削減につながる。また、マスターチップは、必要に応じて運行周波数を調整し、マスターチップの消費電力を低減し、使用寿命を延ばすことができる。このほか、マルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出し、スマートオーディオ装置の柔軟性を高め、ユーザーの異なるニーズを満たすことで、ユーザー体験を向上させている。
第3の態様において、図5を参照すれば分かるように、本願実施例は、
1つ以上のプロセッサ501と、
1つ以上のプログラムが記憶され、1つ以上のプログラムが1つ以上のプロセッサによって実行される時に、1つ以上のプロセッサに上記のいずれかのオーディオ装置の呼び出し方法を実現させるメモリ502と、
プロセッサとメモリとの間に接続され、プロセッサとメモリの情報インタラクションを実現するように配置される、1つ以上のI/Oインターフェース503と、を備える電子デバイスを提供する。
そのうち、プロセッサ501は、中央プロセッサ(CPU)などを含むが、これらに限定されない、データ処理能力を有するデバイスであり、メモリ502は、ランダムアクセスメモリ(RAM、より具体的にはSDRAM、DDRなど)、リードオンリーメモリ(ROM)、帯電消去可能プログラマブルリードオンリーメモリ(EEPROM(登録商標))、フラッシュメモリ(FLASH(登録商標))を含むが、これらに限定されない、データ記憶能力を有するデバイスであり、I/Oインターフェース(読み書きインターフェース)503は、プロセッサ501とメモリ502との間に接続され、プロセッサ501とメモリ502との情報インタラクションを実現することができ、データバス(Bus)などを含むが、これらに限定されない。
ある実施例において、プロセッサ501、メモリ502およびI/Oインターフェース503は、バス504を介して互いに接続され、さらに電子装置のその他のコンポーネントと接続される。
第4の態様において、本願実施例は、コンピュータプログラムが記憶され、プログラムがプロセッサによって実行される時に、上記のいずれかのオーディオ装置の呼び出し方法を実現するコンピュータ可読媒体を提供する。
当業者であれば、上記で公開された方法のすべてまたはいくつかのステップ、システム、装置内の機能モジュール/ユニットは、ソフトウェア、ファームウェア、ハードウェアおよびその適切な組み合わせとして実施されてもよいと理解できる。ハードウェアの実施の形態において、上記の説明で言及した機能モジュール/ユニット間の区分は、必ずしも物理的コンポーネントの区分に対応しているわけではない。例えば、1つの物理的コンポーネントは、複数の機能を有することができ、または、1つの機能またはステップは、いくつかの物理的コンポーネントによって連携して実行することができる。いくつかの物理的コンポーネントまたはすべての物理的コンポーネントは、中央プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサのようなプロセッサによって実行されるソフトウェアとして実施されてもよく、またはハードウェアとして実施されてもよく、あるいは専用集積回路のような集積回路として実施されてもよい。このようなソフトウェアは、コンピュータ可読媒体に配置することができ、コンピュータ可読媒体は、コンピュータ記憶媒体(または非一時的媒体)および通信媒体(または一時的媒体)を含んでよい。当業者に知られているように、用語としてのコンピュータ記憶媒体は、情報(例えば、コンピュータ可読コマンド、データ構造、プログラムモジュールまたはその他のデータ)を記憶するための任意の方法または技術で実施される揮発性および不揮発性、リムーバブル媒体および非リムーバブル媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD-ROM、デジタル多機能ディスク(DVD)またはその他の光ディスクメモリ、磁気カセット、磁気テープ、磁気ディスクメモリまたはその他の磁気記憶装置、あるいは所望の情報を記憶するために使用され、かつコンピュータによってアクセスすることのできるその他の任意の媒体を含むが、これらに限定されない。このほか、当業者に知られているように、通信媒体は通常、コンピュータ可読コマンド、データ構造、プログラムモジュールまたは搬送波またはその他の伝送機構のような変調データ信号におけるその他のデータを含むほか、任意の情報伝達媒体を含むことができる。
第5の態様において、本願実施例は、コンピュータプログラムを備え、プログラムがプロセッサによって実行される時に、上記のいずれかのオーディオ装置の呼び出し方法を実現するコンピュータプログラム製品を提供する。
本願が公開する方法を実施するためのプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせを用いて作成することができる。これらのプログラムコードは、プロセッサまたはコントローラによってプログラムコードが実行されると、フローチャートおよび/またはブロック図に規定された機能/動作が実行されるように、汎用コンピュータ、専用コンピュータまたはその他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてよい。プログラムコードは完全にマシン上で、部分的にマシン上で実行することができ、独立したソフトウェアパッケージとして部分的にマシン上で実行され、且つ部分的にリモートマシン上で実行され、あるいは完全にリモートマシンまたはサーバ上で実行される。
本明細書では例示的な実施例を公開し、また具体的な用語を採用しているが、これらは一般的な例証的な意味としてのみ使用され、限定する目的では使用されない。ある実施例において、特に指摘されていない限り、特定の実施例に関連して説明された特徴、特性、および/または要素を単独で使用してもよく、または他の実施例に関連して説明された特徴、特性、および/または要素の組み合わせとして使用してもよいということは当業者にとって明らかである。よって、当業者は、添付の請求項によって明らかにされた本願の範囲から逸脱することなく、様々な形態および細部において変更が可能であると理解するであろう。

Claims (15)

  1. 複数の音声アルゴリズムモジュールが設置されたフロントチップと、
    前記フロントチップに信号接続され、ユーザ要求に従ってマルチスレッド方式でフロントチップ内の音声アルゴリズムモジュールを呼び出すためのマスターチップと、を備える、
    スマートオーディオ装置。
  2. 前記音声アルゴリズムモジュールは、
    前記ユーザ要求に従って、前記マスターチップを起動するための音声起動アルゴリズムモジュールと、
    フロントエンド音声信号をノイズ低減処理し、音声認識エンジン信号を取得するための音声認識フロントエンド信号処理モジュールと、
    フロントエンド通信信号をノイズ低減処理し、通信アプリケーション信号を取得するための通信フロントエンド信号処理モジュールと、を備える、
    請求項1に記載の装置。
  3. 前記マスターチップは、
    音声信号を認識処理するための音声認識モジュールと、
    その他の通信モジュールと通信するための通信アプリケーションモジュールと、を備える、
    請求項1に記載の装置。
  4. 前記装置は、
    前記フロントチップと前記マスターチップの信号を伝送するための通信インタフェースをさらに備える、
    請求項1に記載の装置。
  5. 前記通信インターフェースは、汎用I/Oインターフェース、集積回路バスインターフェースおよびシリアルペリフェラルインターフェースのうちの少なくとも1つを含む、
    請求項4に記載の装置。
  6. 前記装置は、
    前記フロントチップに信号接続され、音声情報を受信してそれを前記フロントチップに伝送するためのマイクロフォンをさらに備える、
    請求項1に記載の装置。
  7. 前記フロントチップは、
    前記音声アルゴリズムモジュールに信号接続され、受信した前記音声情報にエコー除去処理を行うためのエコー除去モジュールをさらに含む、
    請求項1〜6のいずれか一項に記載の装置。
  8. ユーザ要求に従ってマルチスレッド方式でフロントチップ内の異なる音声アルゴリズムを呼び出すステップを含む、
    オーディオ装置の呼び出し方法。
  9. ユーザ要求に従ってマルチスレッド方式でフロントチップ内の異なる音声アルゴリズムを呼び出す前記ステップは、
    前記ユーザ要求である起動要求を受信する起動要求受信ステップと、
    前記起動要求に応答して動作モードに移行するステップと、
    前記フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信して、フロントチップを前記音声認識フロントエンド信号処理アルゴリズムモードに切り替えるステップと、を含む、
    請求項8に記載の方法。
  10. 音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信する前記ステップの後に、さらに、
    ユーザ要求である通信要求を受信する通信要求受信ステップと、
    前記通信要求に応答して、前記フロントチップ内の前記通信フロントエンド信号処理アルゴリズムの呼び出しを送信するステップと、を含む、
    請求項9に記載の方法。
  11. 通信終了後に、
    前記フロントチップ内の音声認識フロントエンド信号処理アルゴリズムを呼び出すコマンドを送信して、フロントチップを前記音声認識フロントエンド信号処理アルゴリズムモードに切り替えるステップをさらに含む、
    請求項10に記載の方法。
  12. 音声インタラクションがない場合、前記フロントチップ内の音声起動アルゴリズムを呼び出すコマンドを送信し、前記フロントチップを音声起動アルゴリズムモードに切り替える、
    請求項11に記載の方法。
  13. 1つ以上のプロセッサと、
    1つ以上のプログラムが記憶され、前記1つ以上のプログラムが1つ以上のプロセッサによって実行される時に、前記1つ以上のプロセッサに請求項8〜12のいずれか一項に記載の方法を実現させるメモリと、
    前記プロセッサとメモリとの間に接続され、前記プロセッサとメモリの情報インタラクションを実現するように配置される、1つ以上のI/Oインターフェースと、を備える、
    電子デバイス。
  14. コンピュータプログラムが記憶され、前記プログラムがプロセッサによって実行される時に、請求項8〜12のいずれか一項に記載の方法を実現する、
    コンピュータ可読媒体。
  15. コンピュータプログラムを備え、前記コンピュータプログラムがプロセッサによって実行される時に、請求項8〜12のいずれか一項に記載の方法を実現する、
    コンピュータプログラム製品。
JP2020218366A 2020-01-03 2020-12-28 スマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体 Pending JP2021110945A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010007936.2 2020-01-03
CN202010007936.2A CN111145752B (zh) 2020-01-03 2020-01-03 智能音频装置、方法、电子设备及计算机可读介质

Publications (1)

Publication Number Publication Date
JP2021110945A true JP2021110945A (ja) 2021-08-02

Family

ID=70523616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020218366A Pending JP2021110945A (ja) 2020-01-03 2020-12-28 スマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体

Country Status (5)

Country Link
US (1) US20210210093A1 (ja)
EP (1) EP3846162A1 (ja)
JP (1) JP2021110945A (ja)
KR (1) KR20210087880A (ja)
CN (1) CN111145752B (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132285A (ja) * 2000-10-02 2002-05-09 Xybernaut Corp 連続音声処理と指令・制御音声処理のための統合dspを備えたコンピュータ母板アーキテクチャ
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
WO2019015435A1 (zh) * 2017-07-19 2019-01-24 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7933295B2 (en) * 1999-04-13 2011-04-26 Broadcom Corporation Cable modem with voice processing capability
CN1174374C (zh) * 1999-06-30 2004-11-03 国际商业机器公司 并发进行语音识别、说话者分段和分类的方法
KR101529918B1 (ko) * 2008-09-10 2015-06-18 엘지전자 주식회사 다중 스레드를 이용한 음성 인식 장치 및 그 방법
US9224404B2 (en) * 2013-01-28 2015-12-29 2236008 Ontario Inc. Dynamic audio processing parameters with automatic speech recognition
CN105575395A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 语音唤醒方法及装置、终端及其处理方法
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10540970B2 (en) * 2017-12-12 2020-01-21 Amazon Technologies, Inc. Architectures and topologies for vehicle-based, voice-controlled devices
US10838954B1 (en) * 2017-12-14 2020-11-17 Amazon Technologies, Inc. Identifying user content
CN108538305A (zh) * 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
US11315556B2 (en) * 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
KR20220008401A (ko) * 2019-06-07 2022-01-21 엘지전자 주식회사 엣지 컴퓨팅 디바이스에서 음성 인식 방법
KR20210009596A (ko) * 2019-07-17 2021-01-27 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
US20220328039A1 (en) * 2019-09-04 2022-10-13 Telepathy Labs, Inc. Speech recognition systems and methods
US11823659B2 (en) * 2019-12-11 2023-11-21 Amazon Technologies, Inc. Speech recognition through disambiguation feedback

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132285A (ja) * 2000-10-02 2002-05-09 Xybernaut Corp 連続音声処理と指令・制御音声処理のための統合dspを備えたコンピュータ母板アーキテクチャ
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
WO2019015435A1 (zh) * 2017-07-19 2019-01-24 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质

Also Published As

Publication number Publication date
CN111145752A (zh) 2020-05-12
CN111145752B (zh) 2022-08-02
EP3846162A1 (en) 2021-07-07
US20210210093A1 (en) 2021-07-08
KR20210087880A (ko) 2021-07-13

Similar Documents

Publication Publication Date Title
US11074924B2 (en) Speech recognition method, device, apparatus and computer-readable storage medium
JP7354110B2 (ja) オーディオ処理システム及び方法
US9613626B2 (en) Audio device for recognizing key phrases and method thereof
US11662974B2 (en) Mechanism for retrieval of previously captured audio
US10431211B2 (en) Directional processing of far-field audio
EP4060658A1 (en) Voice wake-up method, apparatus, and system
JP2019159305A (ja) ファーフィールド音声機能の実現方法、設備、システム及び記憶媒体
CN107464565B (zh) 一种远场语音唤醒方法及设备
US11587560B2 (en) Voice interaction method, device, apparatus and server
US11638078B2 (en) Microphone device and system comprising the microphone device
CN110968353A (zh) 中央处理器的唤醒方法、装置、语音处理器以及用户设备
US11488606B2 (en) Audio system with digital microphone
JP2021110945A (ja) スマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体
EP3851952A2 (en) Signal processing method, signal processing device, and electronic device
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
CN111383632B (zh) 电子设备
US20190051300A1 (en) Loudspeaker system
CN113744732A (zh) 设备唤醒相关方法、装置及故事机
CN111210820B (zh) 机器人的控制方法、装置、电子设备以及存储介质
CN111028832B (zh) 麦克风静音模式控制方法、装置及存储介质和电子设备
US11627395B2 (en) Apparatus and methods for cancelling the noise of a speaker for speech recognition
CN117174078A (zh) 语音信号的处理方法、装置、设备及计算机可读存储介质
CN116935844A (zh) 一种识别语音的方法及终端设备
KR20150072094A (ko) 마이크로폰 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220816

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230314