JP2021096482A - 信号処理方法、装置、電子機器及びコンピュータプログラム製品 - Google Patents

信号処理方法、装置、電子機器及びコンピュータプログラム製品 Download PDF

Info

Publication number
JP2021096482A
JP2021096482A JP2021036166A JP2021036166A JP2021096482A JP 2021096482 A JP2021096482 A JP 2021096482A JP 2021036166 A JP2021036166 A JP 2021036166A JP 2021036166 A JP2021036166 A JP 2021036166A JP 2021096482 A JP2021096482 A JP 2021096482A
Authority
JP
Japan
Prior art keywords
signal processing
algorithm
operation mode
signal
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021036166A
Other languages
English (en)
Other versions
JP7133055B2 (ja
Inventor
雷 耿
Lei Geng
雷 耿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021096482A publication Critical patent/JP2021096482A/ja
Application granted granted Critical
Publication of JP7133055B2 publication Critical patent/JP7133055B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3293Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

【課題】ターゲット動作モードに対応するターゲット信号処理アルゴリズムを切り替えて処理を行うことができ、動作モードの変更に適応でき、信号処理アルゴリズムの選択の柔軟性を高め、音声処理効果を向上させる信号処理方法、装置、電子機器及びコンピュータプログラム製品を提供する。【解決手段】信号処理方法は、第1の入力オーディオ信号と、第1の入力オーディオ信号に対応する第1の動作モードとを取得し、デジタル信号処理チップに統合されている複数の信号処理アルゴリズムのうち、第1の動作モードとマッチングする第1の信号処理アルゴリズムにより第1の入力オーディオ信号を処理し、第1のターゲット信号を出力する。【選択図】図1

Description

本願は、コンピュータ技術における信号処理の技術分野に関し、特に信号処理方法、装置、電子機器及びコンピュータプログラム製品に関する。
近年、音声識別技術の成熟に伴い、音声インタラクション機能を備えた電子機器が増えている。音声インタラクション機能は、フロントエンドオーディオ信号処理アルゴリズムからのサポートを必要とする。
現在の電子機器は、各動作モードで固定された信号処理アルゴリズムを使用し、入力されたオーディオ信号を処理するため、オーディオ信号の処理効果が悪くなりやすい。
本願は、オーディオ信号の処理効果が悪いという問題を解決するための、信号処理方法、装置及び電子機器を提供する。
第1の態様では、本願の実施例は、第1の入力オーディオ信号と、前記第1の入力オーディオ信号に対応する第1の動作モードとを取得することと、デジタル信号処理チップにおける第1の信号処理アルゴリズムにより前記第1の入力オーディオ信号を処理し、第1のターゲット信号を出力することであって、前記デジタル信号処理チップには複数の信号処理アルゴリズムが統合されており、前記第1の信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記第1の動作モードとマッチングするアルゴリズムであることとを含む信号処理方法を提供する。
本実施例の信号処理方法では、デジタル信号処理チップに複数の信号処理アルゴリズムが統合されているため、第1の入力オーディオ信号と第1の動作モードとが取得された後、複数の信号処理アルゴリズムのうち、第1の動作モードとマッチングする第1の信号処理アルゴリズムを使用して第1の入力オーディオを処理することができる。このように、異なる動作モードで異なる信号処理アルゴリズムを使用して入力オーディオ信号を処理することができ、それによってオーディオ信号の処理効果を向上させることができる。
オプションとして、第1のターゲット信号を出力した後、前記デジタル信号処理チップによって切り替え命令を受信し、前記切り替え命令に対応するターゲット動作モードを取得することであって、前記切り替え命令は、メインプロセッサが前記第1のターゲット信号を受信した後、前記第1のターゲット信号に基づいてターゲット動作モードを確定して前記ターゲット動作モードに切り替える場合に送信する命令であることと、第2の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおけるターゲット信号処理アルゴリズムにより第2の入力オーディオ信号を処理し、第2のターゲット信号を出力することであって、前記ターゲット信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記ターゲット動作モードとマッチングするアルゴリズムであることとをさらに含む。
即ち、本実施例では、ターゲット動作モードに対応するターゲット信号処理アルゴリズムを切り替えて処理を行うことができ、動作モードの変更に適応でき、信号処理アルゴリズムの選択の柔軟性を高め、音声処理効果を向上させることができる。
オプションとして、第1のターゲット信号を出力した後、前記第1の動作モードが音声識別動作モードである場合、プリセット時間長内にオーディオ信号が受信されないと、メインプロセッサによって前記第1の動作モードを待機動作モードに切り替えることと、第3の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオを処理し、前記待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオからプリセットウェイクアップワードが検出された場合、ウェイクアップ信号を前記メインプロセッサに出力することであって、ウェイクアップ信号は、前記メインプロセッサが前記ウェイクアップ信号に基づいて待機動作モードを音声識別動作モードに切り替えるためのものであり、待機音声ウェイクアップアルゴリズムは複数の信号処理アルゴリズムのうち、待機動作モードとマッチングするアルゴリズムであることとをさらに含む。
このようにして、消費電力を削減できるだけでなく、待機音声ウェイクアップアルゴリズムにより、第3の入力オーディオにプリセットウェイクアップワードがあるか否かを検出でき、待機音声ウェイクアップアルゴリズムにより、第3の入力オーディオからプリセットウェイクアップワードが検出された場合、ウェイクアップ信号をメインプロセッサに出力すると、メインプロセッサをウェイクアップでき、メインプロセッサは、ウェイクアップされた後、音声識別動作モードになり、後で音声インタラクションを行うことができる。即ち、ユーザとメインプロセッサとの音声インタラクションなどが実現され得る。
オプションとして、前記複数の信号処理アルゴリズムは、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム及び通信ノイズ低減アルゴリズムを含む。
このようにして、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム及び通信ノイズ低減アルゴリズムのうち、第1の動作モードとマッチングするアルゴリズムを使用して信号処理を行い、それにより、第1の動作モードに適応でき、オーディオ信号の処理効果を向上させることができる。
第2の態様では、本願の1つの実施例は、第1の入力オーディオ信号と、前記第1の入力オーディオ信号に対応する第1の動作モードとを取得するための第1の取得モジュールと、デジタル信号処理チップにおける第1の信号処理アルゴリズムにより前記第1の入力オーディオ信号を処理し、第1のターゲット信号を出力するための第1の処理モジュールであって、前記デジタル信号処理チップには複数の信号処理アルゴリズムが統合されており、前記第1の信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記第1の動作モードとマッチングするアルゴリズムである第1の処理モジュールとを含む信号処理装置を提供する。
オプションとして、装置は、前記デジタル信号処理チップによって切り替え命令を受信し、前記切り替え命令に対応するターゲット動作モードを取得するための第1の受信モジュールであって、前記切り替え命令は、メインプロセッサが前記第1のターゲット信号を受信した後、前記第1のターゲット信号に基づいてターゲット動作モードを確定して前記ターゲット動作モードに切り替える場合に送信する命令である第1の受信モジュールと、第2の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおけるターゲット信号処理アルゴリズムにより第2の入力オーディオ信号を処理し、第2のターゲット信号を出力するための第2の処理モジュールであって、前記ターゲット信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記ターゲット動作モードとマッチングするアルゴリズムである第2の処理モジュールとをさらに含む。
オプションとして、装置は、前記第1の動作モードが音声識別動作モードである場合、プリセット時間長内にオーディオ信号が受信されないと、メインプロセッサによって前記第1の動作モードを待機動作モードに切り替えるための切り替えモジュールと、第3の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオを処理し、前記待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオからプリセットウェイクアップワードが検出された場合、ウェイクアップ信号を前記メインプロセッサに出力するための第3の処理モジュールであって、ウェイクアップ信号は、前記メインプロセッサが前記ウェイクアップ信号に基づいて待機動作モードを音声識別動作モードに切り替えるためのものであり、待機音声ウェイクアップアルゴリズムは複数の信号処理アルゴリズムのうち、待機動作モードとマッチングするアルゴリズムである第3の処理モジュールとをさらに含む。
オプションとして、前記複数の信号処理アルゴリズムは、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム、及び通信ノイズ低減アルゴリズムを含む。
第3の態様では、本願の1つの実施例は、少なくとも1つのプロセッサ、及び前記少なくとも1つのプロセッサに通信可能に接続されたメモリを含み、前記少なくとも1つのプロセッサにより実行されると、本願の各実施例による方法を前記少なくとも1つのプロセッサに実行させる、前記少なくとも1つのプロセッサによって実行可能な命令が前記メモリに記憶されている、電子機器をさらに提供する。
第4の態様では、本願の1つの実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、本願の各実施例による方法を前記コンピュータに実行させる、非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
図面は、本技術案をより理解しやすくするためであり、本願を制限するものではない。
本願の1つの実施例による信号処理方法のフローチャートである。 本願の1つの実施例による信号処理方法の原理図である。 本願の1つの実施例による待機音声ウェイクアップアルゴリズムのブロック図である。 本願の1つの実施例による音声ノイズ低減アルゴリズムのブロック図である。 本願の1つの実施例による通信ノイズ低減アルゴリズムのブロック図である。 本願の1つの実施例による信号処理装置の構造図である。 本願の実施例による信号処理方法を実現するための電子機器のブロック図である。
以下では、図面を参照しながら本願の例示的な実施例を説明するが、この説明には、理解を容易にするために本願の実施例の様々な詳細が含まれるが、これらは単なる例示であると考えるべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここで記載される実施例に様々な変更及び修正を加えることができる。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために説明を省略する。
図1に示すように、本願の実施例によれば、本願は、信号処理方法を提供し、この信号処理方法は、ステップS101とステップS102を含む。
ステップS101、第1の入力オーディオ信号と、第1の入力オーディオ信号に対応する第1の動作モードとを取得する。
信号処理方法は、接続されているデジタル信号処理チップ及びメインプロセッサを含むことができる電子機器に適用できる。まず、当該第1の入力オーディオ信号は、デジタル信号、即ち、収集された、ユーザによって入力されたアナログオーディオ信号に対してアナログ−デジタル変換を実行して得られるオーディオ信号であってもよい。第1の入力オーディオ信号は、デジタル信号処理チップに入力されてもよく、即ち、第1の入力オーディオ信号は、デジタル信号処理チップによって取得されてもよい。また、第1の入力オーディオ信号に対応する第1の動作モードを取得することもでき、メインプロセッサは、異なる動作モードで動作することができ、当該第1の動作モードは、第1の入力オーディオ信号が取得されたときのメインプロセッサの動作モードとして理解されてもよい。例えば、メインプロセッサは、待機動作モード、音声識別動作モード、通信動作モードのいずれかで動作することができ、第1の動作モードは、待機動作モード(即ち、メインプロセッサは、電源が投入されており、ウェイクアップされて動作状態になることを待っている状態)、音声識別動作モード(音声インタラクションを行う動作状態として理解されてもよい)及び通信動作モード(通信を行っている動作状態として理解されてもよい)のいずれかの動作モードであってもよい。メインプロセッサは、命令の形でその動作モードをデジタル信号処理チップに通知することができる。
ステップS102、デジタル信号処理チップにおける第1の信号処理アルゴリズムにより第1の入力オーディオ信号を処理し、第1のターゲット信号を出力する。
デジタル信号処理チップには複数の信号処理アルゴリズムが統合されている。第1の信号処理アルゴリズムは、複数の信号処理アルゴリズムのうち、第1の動作モードとマッチングするアルゴリズムである。
即ち、デジタル信号処理チップに複数の信号処理アルゴリズムが統合されているため、第1の入力オーディオ信号及び第1の動作モードが取得された後、デジタル信号処理チップのうち、第1の動作モードとマッチングする第1の信号処理アルゴリズムにより第1の入力オーディオ信号を処理することができる。使用される第1の信号処理アルゴリズムが第1の動作モードによって異なることが理解できるため、異なる動作モードで異なる信号処理アルゴリズムを使用して入力オーディオ信号を処理することができ、それによって、オーディオ信号の処理効果を向上させることができる。なお、デジタル信号処理チップにより第1のターゲット信号をメインプロセッサに出力することができ、メインプロセッサは、第1のターゲット信号を受信した後、第1のターゲット信号及び現在の第1の動作モードに基づいて対応する動作を実行する。例えば、第1の動作モードが音声識別動作モードである場合、メインプロセッサは、第1のターゲット信号を受信した後、第1のターゲット信号に基づいて、対応する応答信号を出力することができる。例えば、第1の入力オーディオ信号が音楽の再生を制御するために使用される信号である場合、メインプロセッサは、第1のターゲット信号を受信した後、音楽を再生できる。複数の信号処理アルゴリズムのファームウェアがフラッシュメモリに記憶されてもよく、デジタル信号処理チップは、電源が投入されると、複数の信号処理アルゴリズムのファームウェアをフラッシュメモリから速くロードすることができる。
本実施例の信号処理方法では、デジタル信号処理チップに複数の信号処理アルゴリズムが統合されているため、第1の入力オーディオ信号及び第1の動作モードが取得された後、複数の信号処理アルゴリズムのうち、第1の動作モードとマッチングする第1の信号処理アルゴリズムを使用して第1の入力オーディオを処理することができる。このように、異なる動作モードで異なる信号処理アルゴリズムを使用して入力オーディオ信号を処理することができるので、それにより、オーディオ信号の処理効果を向上させることができる。
1つの実施例では、第1のターゲット信号を出力した後、デジタル信号処理チップによって切り替え命令を受信し、切り替え命令に対応するターゲット動作モードを取得するステップであって、切り替え命令は、メインプロセッサが第1のターゲット信号を受信した後、第1のターゲット信号に基づいてターゲット動作モードを確定してターゲット動作モードに切り替える場合に送信する命令であるステップと、第2の入力オーディオ信号が受信された場合、デジタル信号処理チップにおけるターゲット信号処理アルゴリズムにより第2の入力オーディオ信号を処理し、第2のターゲット信号を出力するステップであって、ターゲット信号処理アルゴリズムは複数の信号処理アルゴリズムのうち、ターゲット動作モードとマッチングするアルゴリズムであるステップとをさらに含む。
第1のターゲット信号がデジタル信号処理チップによってメインプロセッサに出力されると、メインプロセッサは、第1のターゲット信号に基づいてターゲット動作モードを確定する。現在の第1の動作モードがターゲット動作モードと異なると、ターゲット動作モードに切り替え、かつデジタル信号処理チップに切り替え命令を送信し、デジタル信号処理チップにより切り替え命令に従って対応するターゲット動作モードを取得する。この場合、後に第2の入力オーディオ信号が受信されると、デジタル信号処理チップは、複数の信号処理アルゴリズムのうち、ターゲット動作モードとマッチングするターゲット信号処理アルゴリズムを使用して、第2の入力オーディオ信号を処理し、第2のターゲット信号を出力する。例えば、第1の動作モードが音声識別動作モードである場合、デジタル信号処理チップは、第1のターゲット信号処理アルゴリズムを使用して第1の入力オーディオ信号を処理し、第1のターゲット信号をメインプロセッサに出力する。例えば、Aとの音声通話又はBへの通話などの第1の入力オーディオ信号は、ノイズが含まれている可能性があるので、ノイズ低減処理が行われた後、メインプロセッサに出力される。メインプロセッサは、第1のターゲット信号を受信した後、第1のターゲット信号に基づいて、ターゲット動作モードが通信動作モードであると確定できる場合には、通信動作モードに切り替えることができ、通信動作モードへの切り替え命令をデジタル信号処理チップに送信する。デジタル信号処理チップは、この切り替え命令を受信すると、メインプロセッサが現在通信モードにあると理解し、後に第2の入力オーディオ信号が受信された場合、通信動作モードに対応する信号処理アルゴリズムにより第2の入力オーディオ信号を処理し、第2のターゲット信号をメインプロセッサに出力することができる。なお、切り替え命令にはターゲット動作モードに対応するターゲット信号処理アルゴリズムに対応するアルゴリズムパラメータが含まれてもよく、例えば、ターゲット信号処理アルゴリズムが信号増幅サブアルゴリズム及びエコーキャンセルサブアルゴリズムを含む場合、アルゴリズムパラメータは、増幅パラメータ及びエコーキャンセルサブアルゴリズムに対応するアルゴリズムパラメータなどを含むことができる。
即ち、本実施例では、ターゲット動作モードに対応するターゲット信号処理アルゴリズムを切り替えて処理を行うことができ、動作モードの変更に適応でき、信号処理アルゴリズムの選択の柔軟性を高め、オーディオ処理効果を向上させることができる。
1つの実施例では、第1のターゲット信号を出力した後、第1の動作モードが音声識別動作モードである場合、プリセット時間長内にオーディオ信号が受信されないと、メインプロセッサによって第1の動作モードを待機動作モードに切り替えるステップと、第3の入力オーディオ信号が受信された場合、デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより第3の入力オーディオを処理し、待機音声ウェイクアップアルゴリズムにより第3の入力オーディオからプリセットウェイクアップワードが検出された場合、ウェイクアップ信号をメインプロセッサに出力するステップであって、ウェイクアップ信号は、メインプロセッサがウェイクアップ信号に基づいて待機動作モードを音声識別動作モードに切り替えるためのものであり、待機音声ウェイクアップアルゴリズムは複数の信号処理アルゴリズムのうち、待機動作モードとマッチングするアルゴリズムであるステップとをさらに含む。
第1の動作モードが音声識別動作モードである場合、消費電力を減少するために、プリセット時間長内にオーディオ信号が受信されないと、メインプロセッサによって第1の動作モードを待機動作モードに切り替える。後で第3の入力オーディオ信号が受信されると、デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより第3の入力オーディオを処理し、このようにして、使用された信号処理アルゴリズムが待機動作モードに適応するようにする。デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより第3の入力オーディオを処理し、即ち、待機音声ウェイクアップアルゴリズムにより第3の入力オーディオ信号を検出し、第3の入力オーディオからプリセットウェイクアップワードが検出されると、ウェイクアップ信号をメインプロセッサに出力する。メインプロセッサは、ウェイクアップ信号を受信すると、待機動作モードを音声識別モードに切り替え、このようにして、ウェイクアップが実現される。
このようにして、消費電力を削減できるだけでなく、待機音声ウェイクアップアルゴリズムにより、第3の入力オーディオにプリセットウェイクアップワードがあるか否かを検出でき、待機音声ウェイクアップアルゴリズムにより、第3の入力オーディオからプリセットウェイクアップワードが検出された場合には、ウェイクアップ信号をメインプロセッサに出力することで、メインプロセッサをウェイクアップでき、メインプロセッサは、ウェイクアップされた後音声識別動作モードになり、後に音声インタラクションを行うことができる。即ち、ユーザとメインプロセッサとの音声インタラクションなどが実現される。
1つの実施例では、前記複数の信号処理アルゴリズムは、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム、及び通信ノイズ低減アルゴリズムを含む。待機音声ウェイクアップアルゴリズムは、待機動作モードに対応し、音声ノイズ低減アルゴリズムは、ノイズ低減アルゴリズムであり、ここでは限定されず、音声識別動作モードに対応する。通信ノイズ低減アルゴリズムは、同様にノイズ低減アルゴリズムであり、ここでは限定されず、ノイズ低減アルゴリズムとは異なり、通信ノイズ低減アルゴリズムは通信動作モードに対応する。このようにして、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム及び通信ノイズ低減アルゴリズムのうち、第1の動作モードとマッチングするアルゴリズムを使用して信号処理を行う。このようにして、第1の動作モードに適応できるようになり、オーディオ信号の処理効果を向上させることができる。
以下、1つの具体的な実施例で上記方法のプロセスを説明する。当該方法は、接続されているデジタル信号処理チップとメインプロセッサとを含む電子機器に適用される。電子機器は、マイクアレイとアナログ−デジタル変換回路とをさらに含み、アナログ−デジタル変換回路は、マイクアレイとデジタル信号処理チップの間に接続され、入力されたアナログオーディオ信号をマイクアレイから取得し、デジタルオーディオ信号(例えば、第1の入力オーディオ信号など)に変換してから、デジタル信号処理チップに出力する。図2に示すように、デジタル信号処理チップは、オーディオデジタル信号処理チップ、即ち図2のDSPである。
オーディオデジタル信号処理チップのファームウェアには、モジュール化されたフロントエンド信号アルゴリズム(複数の信号処理アルゴリズム)が統合されている。複数の信号処理アルゴリズムが異なり、スマートハードウェア、即ち電子機器に電源が投入された後、メインプロセッサは、待機動作モードになり、デジタル信号処理チップは、アルゴリズムファームウェアをロードした後、デフォルトのウェイクアップ待ちモードになる。即ち、複数の信号処理アルゴリズムのうち待機音声ウェイクアップアルゴリズムが使用されており、アナログ−デジタル変換回路の出力が待機音声ウェイクアップアルゴリズムの入力として使用される。ユーザから入力されたアナログ音声信号が、マイクアレイを介して取得され、アナログ−デジタル変換回路に出力し、アナログ−デジタル変換回路がアナログ音声信号に対してアナログ−デジタル変換を行って、入力オーディオ信号が取得される。アナログ−デジタル変換回路の出力が待機音声ウェイクアップアルゴリズムの入力であるため、待機音声ウェイクアップアルゴリズムが入力オーディオ信号に基づいて検出することが理解されよう。図3に示すように、待機音声ウェイクアップアルゴリズムには、音声検出アルゴリズムとウェイクアップアルゴリズムが含まれてもよく、音声検出アルゴリズムにより、入力オーディオ信号にユーザの音声である人間の音が含まれているか否かを検出し、含まれていると検出した場合、ウェイクアップアルゴリズムにより入力オーディオ信号に対してウェイクアップワード検出を行い、入力オーディオからプリセットウェイクアップワード(又は、XX、XXのウェイクアップワードなどのプリセットキーワードと呼ばれる)を検出した場合、ウェイクアップ信号がメインプロセッサに出力される。メインプロセッサは、ウェイクアップ信号を受信すると、待機動作モードを音声識別動作モードに切り替える。このように、ウェイクアップが実現される。
なお、プリセットウェイクアップワードが検出された場合、デジタル信号処理チップは、GPIOインタフェース(汎用入出力インタフェース)をトリガーしてウェイクアップして、トリガーレベル信号(即ち対応するウェイクアップ信号)をメインプロセッサに出力させ、メインプロセッサチップが起動して通常の動作モードに入るようにする。本実施例では、メインプロセッサチップは、音声識別動作モードに入ることができ、メインプロセッサチップは、音声識別動作モードに入ると、I2C(シンプルな双方向2線式同期シリアルバス)、シリアルポート、USB(汎用シリアルバス)やSPI(シリアル周辺インタフェース)などのインタフェースを介して、デジタル信号処理チップのレジスタを設定するためにデジタル信号処理チップに命令を送信して、アナログ−デジタル変換回路の出力を音声識別動作モードの音声ノイズ低減アルゴリズムの入力とし、ファームウェアにおけるモジュール化された複数の信号処理アルゴリズムのうち、音声識別動作モードの音声ノイズ低減アルゴリズムのアルゴリズムパラメータを設定する。音声ノイズ低減アルゴリズムは様々であり、ここでは限定されない。例えば、音声ノイズ低減アルゴリズムのブロック図である図4に示すように、音声ノイズ低減アルゴリズムは、第1の等化アルゴリズムモジュール、第2の等化アルゴリズムモジュール、第1のエコーキャンセルアルゴリズムモジュール(スピーカー例えばホーンに対するループバックAEC(エコーキャンセル)信号を別に入力する必要があり、ループバックAEC信号はパワーアンプ処理モジュールで処理してから、第3のエコーキャンセルアルゴリズムに入力され得る)、第1の非線形処理アルゴリズムモジュール、第2のエコーキャンセルアルゴリズムモジュール(第1のエコーキャンセルアルゴリズムモジュールと同様に、スピーカー例えばホーンに対するループバックAEC信号を別に入力する必要があり、ループバックAEC信号はパワーアンプ処理モジュールで処理してから、第3のエコーキャンセルアルゴリズムに再入力され得る)、第2の非線形処理アルゴリズムモジュール、ビームフォーミングアルゴリズムモジュール、ブラインドソース分離アルゴリズムモジュール、第1の残響除去アルゴリズムモジュール、第3の非線形処理モジュール、第1の動的範囲制御アルゴリズムモジュール、第1の信号増幅アルゴリズムモジュール、第1の音声検出アルゴリズムモジュール、及び第1の音声ウェイクアップアルゴリズムモジュールを含み、各モジュールの接続関係は、図4に示され、第1の信号増幅アルゴリズムモジュールで出力されたターゲット信号はメインプロセッサの音声識別エンジンに出力される。上記音声ノイズ低減アルゴリズムにより、オーディオ信号に対するノイズ低減を実現することができる。
デジタル信号処理チップは、当該命令を受信した後、対応するターゲット動作モード、即ち音声識別動作モードを取得することができる。音声識別モードでは、後でアナログ−デジタル変換回路から入力オーディオ信号を受信すると、音声インタラクションを行い、音声ノイズ低減アルゴリズムにより、後で受信された入力オーディオ信号に対してノイズ処理を行ってからメインプロセッサに出力し、メインプロセッサが応答する。これにより、音声インタラクションが実現される。
メインプロセッサは、音声識別動作モードに入ってから、後に受信する入力オーディオ信号に対して、ターゲット動作モードを確定することもできる。例えば、ユーザから入力されたオーディオ信号を識別し、通信する必要がある場合(例えばオーディオ信号に「Aへ電話をかける」が含まれている場合)には、メインプロセッサは、I2C、シリアルポート、USBやSPIなどのインタフェースを介して命令を送信して、デジタル信号処理チップのレジスタを設定し、ファームウェアにおけるモジュール化されたフロントエンドの複数の信号処理アルゴリズムのうちの通信ノイズ低減アルゴリズムのパラメータを設定する。通信アプリケーションが終了すると、メインプロセッサチップは、I2C、シリアルポート、USBやSPIなどのインタフェースを介して命令を送信し、デジタル信号処理チップのレジスタを設定し、アナログ−デジタル変換回路の出力を通信動作モードの通信ノイズ低減アルゴリズムの入力として、ファームウェアにおけるモジュール化された複数の信号処理アルゴリズムのうちの通信動作モードの通信ノイズ低減アルゴリズムのパラメータを設定する。通信ノイズ低減アルゴリズムは様々であり、ここでは限定されない。例えば、通信ノイズ低減アルゴリズムのブロック図である図5に示すように、通信ノイズ低減アルゴリズムは、第3の等化アルゴリズムモジュール、第4の等化アルゴリズムモジュール、加算アルゴリズムモジュール、第3のエコーキャンセルアルゴリズム(スピーカー例えばホーンに対するループバックAEC信号を別に入力する必要があり、ループバックAEC信号はパワーアンプ処理モジュールで処理してから、第3のエコーキャンセルアルゴリズムモジュールに再入力される)、第4の非線形処理アルゴリズムモジュール、ノイズ抑制アルゴリズムモジュール、第2の残響除去アルゴリズムモジュール、第5の非線形処理モジュール、コンフォートノイズ生成アルゴリズムモジュール、第2の動的範囲制御アルゴリズムモジュール、第2の信号増幅アルゴリズム、及び第2の音声検出アルゴリズムを含む。各モジュールの接続関係は、図5に示されており、第2の信号増幅アルゴリズムモジュールで出力されたターゲット信号は、メインプロセッサにおける通信アプリケーションに出力される。上記通信ノイズ低減アルゴリズムにより、オーディオ信号に対するノイズ低減を実現することができる。
音声識別動作モードに入った後、設定されたプリセット時間長(たとえば5分間)内に音声インタラクションがなく、即ち、オーディオ信号が受信されていない場合には、メイン処理チップは、待機動作モード、即ち低消費電力になる。また、待機になる前に、I2C、シリアルポート、USB又はSPIなどのインタフェースを介して命令を送信し、デジタル信号処理チップのレジスタを設定し、ファームウェアにおけるモジュール化されたフロントエンドの複数の信号処理アルゴリズムのうち低周波・低電力のウェイクアップ待ちモードでの音声ウェイクアップアルゴリズムのアルゴリズムパラメータを設定する。
本願の実施例では、オーディオデジタル信号処理チップは、様々な製品アプリケーションでより柔軟に使用され、各アプリケーションで最高のユーザエクスペリエンスを得ることができる。本願の実施例の技術案を使用することにより、電子機器の平均電力消費を低減し、電子機器の耐用年数を延長することができる。また、異なるアプリケーション(異なる適用シナリオに対応)に対してファームウェア全体をアップグレードする必要がないため、ファームウェアアップグレードの回数が減り、さらにFlash(一定の数の消去及び書き込み回数がある)メモリの耐用年数が長くなる。
図6を参照すると、本願の1つの実施例は、信号処理装置600を提供する。この装置は、第1の入力オーディオ信号と、前記第1の入力オーディオ信号に対応する第1の動作モードとを取得するための第1の取得モジュール601と、デジタル信号処理チップにおける第1の信号処理アルゴリズムにより前記第1の入力オーディオ信号を処理し、第1のターゲット信号を出力するための第1の処理モジュール602であって、前記デジタル信号処理チップには複数の信号処理アルゴリズムが統合されており、前記第1の信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記第1の動作モードとマッチングするアルゴリズムである第1の処理モジュール602とを含む。
1つの実施例において、装置は、前記デジタル信号処理チップによって切り替え命令を受信し、前記切り替え命令に対応するターゲット動作モードを取得するための第1の受信モジュールであって、前記切り替え命令は、メインプロセッサが前記第1のターゲット信号を受信した後、前記第1のターゲット信号に基づいてターゲット動作モードを確定して前記ターゲット動作モードに切り替える場合に送信する命令である第1の受信モジュールと、第2の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおけるターゲット信号処理アルゴリズムにより第2の入力オーディオ信号を処理し、第2のターゲット信号を出力するための第2の処理モジュールであって、前記ターゲット信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記ターゲット動作モードとマッチングするアルゴリズムである第2の処理モジュールとをさらに含む。
1つの実施例において、装置は、前記第1の動作モードが音声識別動作モードである場合、プリセット時間長内にオーディオ信号が受信されないと、前記メインプロセッサによって前記第1の動作モードを待機動作モードに切り替えるための切り替えモジュールと、第3の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオを処理し、前記待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオからプリセットウェイクアップワードが検出された場合、ウェイクアップ信号をメインプロセッサに出力するための第3の処理モジュールであって、ウェイクアップ信号は、前記メインプロセッサが前記ウェイクアップ信号に基づいて待機動作モードを音声識別動作モードに切り替えるためのものであり、待機音声ウェイクアップアルゴリズムは複数の信号処理アルゴリズムのうち待機動作モードとマッチングするアルゴリズムである第3の処理モジュールとをさらに含む。
1つの実施例では、前記複数の信号処理アルゴリズムは、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム、及び通信ノイズ低減アルゴリズムを含む。
上記の各実施例の信号処理装置は、上記の各実施例の信号処理方法を実現するための装置であり、技術的特徴が対応し、技術的効果が対応するため、ここでは詳しく説明しない。
本願の実施例によれば、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図7には、本願の実施例による信号処理方法の電子機器のブロック図が示されている。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器、及びその他の類似のコンピューティング装置など、様々な形式の移動装置を示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本願の実現を制限する意図はない。
図7に示すように、この電子機器は、1つ又は複数のプロセッサ701、メモリ702、及び高速インタフェースと低速インタフェースを含む、様々なコンポーネントを接続するためのインタフェースを含む。各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ、又は必要に応じて他の方式で取り付けられ得る。プロセッサは電子機器内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力/出力装置(たとえば、インタフェースに結合された表示機器など)にGUIのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び/又は複数のバスを、必要に応じて、複数のメモリ使用することができる。同様に、複数の電子機器を接続することができ、各機器は必要な操作の一部(たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)を提供する。図7では、1つのプロセッサ701の場合が例示されている。
メモリ702は、本願の非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、本願の信号処理方法を前記少なくとも1つの前記プロセッサに実行させるように、少なくとも1つのプロセッサによって実行可能な命令を格納している。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願の信号処理方法をコンピュータに実行させるためのコンピュータ命令を格納している。
非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ702は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本願の実施例における信号処理方法に対応するプログラム命令/モジュール(たとえば、図6に示す第1の取得モジュール610、第1の処理モジュール602)を格納することができる。プロセッサ701は、メモリ702に格納された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例における信号処理方法を実現する。
メモリ702は、プログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域は、オペレーティングシステム、及び少なくとも1つの機能に必要なアプリケーションプログラムを格納し、データ記憶領域は、キーボードに表示される電子機器の使用に従って作成されたデータなどを格納する。メモリ702は、高速ランダムアクセスメモリを含み、たとえば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ702は、プロセッサ701に対して遠隔的に設置されるメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介してキーボードに表示される電子機器に接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
信号処理方法を実現する電子機器は、入力装置703及び出力装置704をさらに含んでもよい。プロセッサ701、メモリ702、入力装置703及び出力装置704はバス又はその他の方式で接続してもよく、図7には、バスによる接続が例示されている。
入力装置703は、入力される数字又はキャラクター情報を受信すること、キーボードに表示される電子機器、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインタ、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。出力装置704は、表示機器、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含む。この表示機器は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであり得る。
ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASMC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈される。このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)には、プログラム可能なプロセッサの機械命令が含まれ、プロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械語を用いてこれらのコンピューティングプログラムを実施できる。たとえば、本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサの任意のコンピュータプログラム製品、機器、及び/又は装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック機器(PLD))に提供するものを指し、機械読み取り可能な信号としての機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令及び/又はデータを提供するために使用される任意の信号を指す。
ユーザと対話するように、ここで説明するシステム及び技術をコンピュータで実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(たとえば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
ここで説明するシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェース又はWEBブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのWEBブラウザーを介してここで説明するシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して互いに会話するのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント−サーバの関係を持つコンピュータプログラムによって生成される。
本願の実施例の技術案によれば、デジタル信号処理チップに複数の信号処理アルゴリズムが統合されているため、第1の入力オーディオ信号と第1の動作モードが取得された後、複数の信号処理アルゴリズムのうち、第1の動作モードとマッチングする第1の信号処理アルゴリズムを使用して第1の入力オーディオを処理することができる。それにより、異なる動作モードで異なる信号処理アルゴリズムを使用して入力オーディオ信号を処理することができる。それにより、オーディオ信号の処理効果を向上させることができる。
上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本願に記載の各ステップは、本願開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順序で実施してもよく、本明細書では、それについて限定しない。
上記特定の実施形態は、本願の特許範囲を制限するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本願の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本願の特許範囲に含まれるものとする。

Claims (11)

  1. 第1の入力オーディオ信号と、前記第1の入力オーディオ信号に対応する第1の動作モードとを取得することと、
    デジタル信号処理チップにおける第1の信号処理アルゴリズムにより前記第1の入力オーディオ信号を処理し、第1のターゲット信号を出力することであって、前記デジタル信号処理チップには複数の信号処理アルゴリズムが統合されており、前記第1の信号処理アルゴリズムは、前記複数の信号処理アルゴリズムのうち、前記第1の動作モードとマッチングするアルゴリズムであることと、を含むことを特徴とする、信号処理方法。
  2. 第1のターゲット信号を出力した後、
    前記デジタル信号処理チップによって切り替え命令を受信し、前記切り替え命令に対応するターゲット動作モードを取得することであって、前記切り替え命令は、メインプロセッサが前記第1のターゲット信号を受信した後、前記第1のターゲット信号に基づいてターゲット動作モードを確定して前記ターゲット動作モードに切り替える場合に送信する命令であることと、
    第2の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおけるターゲット信号処理アルゴリズムにより第2の入力オーディオ信号を処理し、第2のターゲット信号を出力することであって、前記ターゲット信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記ターゲット動作モードとマッチングするアルゴリズムであることと、をさらに含むことを特徴とする、請求項1に記載の方法。
  3. 第1のターゲット信号を出力した後、
    前記第1の動作モードが音声識別動作モードである場合、プリセット時間長内にオーディオ信号が受信されない場合に、メインプロセッサによって前記第1の動作モードを待機動作モードに切り替えることと、
    第3の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオを処理し、前記待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオからプリセットウェイクアップワードが検出された場合、ウェイクアップ信号を前記メインプロセッサに出力することであって、ウェイクアップ信号は、前記メインプロセッサが前記ウェイクアップ信号に基づいて待機動作モードを音声識別動作モードに切り替えるためのものであり、待機音声ウェイクアップアルゴリズムは複数の信号処理アルゴリズムのうち待機動作モードとマッチングするアルゴリズムであることと、をさらに含むことを特徴とする、請求項1又は2に記載の方法。
  4. 前記複数の信号処理アルゴリズムは、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム及び通信ノイズ低減アルゴリズムを含むことを特徴とする、請求項1に記載の方法。
  5. 第1の入力オーディオ信号と、前記第1の入力オーディオ信号に対応する第1の動作モードとを取得するための第1の取得モジュールと、
    デジタル信号処理チップにおける第1の信号処理アルゴリズムにより前記第1の入力オーディオ信号を処理し、第1のターゲット信号を出力するための第1の処理モジュールであって、前記デジタル信号処理チップには複数の信号処理アルゴリズムが統合されており、前記第1の信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記第1の動作モードとマッチングするアルゴリズムである第1の処理モジュールと、を含むことを特徴とする、信号処理装置。
  6. 前記デジタル信号処理チップによって切り替え命令を受信し、前記切り替え命令に対応するターゲット動作モードを取得するための第1の受信モジュールであって、前記切り替え命令は、メインプロセッサが前記第1のターゲット信号を受信した後、前記第1のターゲット信号に基づいてターゲット動作モードを確定して前記ターゲット動作モードに切り替える場合に送信する命令である第1の受信モジュールと、
    第2の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおけるターゲット信号処理アルゴリズムにより第2の入力オーディオ信号を処理し、第2のターゲット信号を出力するための第2の処理モジュールであって、前記ターゲット信号処理アルゴリズムは前記複数の信号処理アルゴリズムのうち、前記ターゲット動作モードとマッチングするアルゴリズムである第2の処理モジュールと、をさらに含むことを特徴とする、請求項5に記載の装置。
  7. 前記第1の動作モードが音声識別動作モードである場合、プリセット時間長内にオーディオ信号が受信されないと、メインプロセッサによって前記第1の動作モードを待機動作モードに切り替えるための切り替えモジュールと、
    第3の入力オーディオ信号が受信された場合、前記デジタル信号処理チップにおける待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオを処理し、前記待機音声ウェイクアップアルゴリズムにより前記第3の入力オーディオからプリセットウェイクアップワードが検出された場合、ウェイクアップ信号を前記メインプロセッサに出力するための第3の処理モジュールであって、ウェイクアップ信号は、前記メインプロセッサが前記ウェイクアップ信号に基づいて待機動作モードを音声識別動作モードに切り替えるためのものであり、待機音声ウェイクアップアルゴリズムは複数の信号処理アルゴリズムのうち、待機動作モードとマッチングするアルゴリズムである第3の処理モジュールと、をさらに含むことを特徴とする、請求項5又は6に記載の装置。
  8. 前記複数の信号処理アルゴリズムは、待機音声ウェイクアップアルゴリズム、音声ノイズ低減アルゴリズム、及び通信ノイズ低減アルゴリズムを含むことを特徴とする、請求項5に記載の装置。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    該メモリには、前記少なくとも1つのプロセッサにより実行されると、請求項1から4のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されていることを特徴とする、電子機器。
  10. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、請求項1から4のいずれか1項に記載の方法を前記コンピュータに実行させることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
  11. プロセッサによって実行されると、請求項1から4のいずれか1項に記載の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品。
JP2021036166A 2020-03-12 2021-03-08 信号処理方法、装置、電子機器及びコンピュータプログラム製品 Active JP7133055B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010169610.X 2020-03-12
CN202010169610.XA CN111369999B (zh) 2020-03-12 2020-03-12 一种信号处理方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
JP2021096482A true JP2021096482A (ja) 2021-06-24
JP7133055B2 JP7133055B2 (ja) 2022-09-07

Family

ID=71210483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021036166A Active JP7133055B2 (ja) 2020-03-12 2021-03-08 信号処理方法、装置、電子機器及びコンピュータプログラム製品

Country Status (5)

Country Link
US (1) US20210201894A1 (ja)
EP (1) EP3851952A3 (ja)
JP (1) JP7133055B2 (ja)
KR (1) KR20210035110A (ja)
CN (1) CN111369999B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023149015A1 (ja) * 2022-02-03 2023-08-10 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581956A (zh) * 2020-12-04 2021-03-30 海能达通信股份有限公司 一种双模终端的语音识别方法及双模终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180033428A1 (en) * 2016-07-29 2018-02-01 Qualcomm Incorporated Far-field audio processing

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
CN101483683A (zh) * 2008-01-08 2009-07-15 宏达国际电子股份有限公司 手持装置及其语音识别方法
US8477960B2 (en) * 2009-06-04 2013-07-02 Wavrydr, L.L.C. System for allowing selective listening on multiple televisions
CN103871409B (zh) * 2012-12-17 2018-01-23 联想(北京)有限公司 一种语音识别的方法、信息处理的方法及电子设备
US20150365762A1 (en) * 2012-11-24 2015-12-17 Polycom, Inc. Acoustic perimeter for reducing noise transmitted by a communication device in an open-plan environment
KR102179811B1 (ko) * 2012-12-03 2020-11-17 엘지전자 주식회사 포터블 디바이스 및 음성 인식 서비스 제공 방법
US10395651B2 (en) * 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US20180317019A1 (en) * 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9445209B2 (en) * 2013-07-11 2016-09-13 Intel Corporation Mechanism and apparatus for seamless voice wake and speaker verification
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
WO2015094369A1 (en) * 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
CN104952457B (zh) * 2015-06-24 2018-08-17 深圳市微纳集成电路与系统应用研究院 一种用于数字助听和语音增强处理的装置和方法
CN105338459A (zh) * 2015-11-06 2016-02-17 歌尔声学股份有限公司 一种mems麦克风及其信号处理方法
CN105812573A (zh) * 2016-04-28 2016-07-27 努比亚技术有限公司 一种语音处理方法及移动终端
US20180224923A1 (en) * 2017-02-08 2018-08-09 Intel Corporation Low power key phrase detection
CN108806673B (zh) * 2017-05-04 2021-01-15 北京猎户星空科技有限公司 一种智能设备控制方法、装置及智能设备
CN107277672B (zh) * 2017-06-07 2020-01-10 福州瑞芯微电子股份有限公司 一种支持唤醒模式自动切换的方法和装置
CN107360327B (zh) * 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
US10966023B2 (en) * 2017-08-01 2021-03-30 Signify Holding B.V. Lighting system with remote microphone
CN108105944A (zh) * 2017-12-21 2018-06-01 佛山市中格威电子有限公司 一种用于空调器控制及具有语音反馈的语音交互系统
KR20190101865A (ko) * 2018-02-23 2019-09-02 삼성전자주식회사 세탁 기기 및 그의 제어 방법
CN108538305A (zh) * 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN108665895B (zh) * 2018-05-03 2021-05-25 百度在线网络技术(北京)有限公司 用于处理信息的方法、装置和系统
CN110071700A (zh) * 2019-04-23 2019-07-30 深圳锐越微技术有限公司 支持语言唤醒的音频adc转换器及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180033428A1 (en) * 2016-07-29 2018-02-01 Qualcomm Incorporated Far-field audio processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023149015A1 (ja) * 2022-02-03 2023-08-10 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム

Also Published As

Publication number Publication date
EP3851952A2 (en) 2021-07-21
EP3851952A3 (en) 2021-08-25
US20210201894A1 (en) 2021-07-01
CN111369999A (zh) 2020-07-03
KR20210035110A (ko) 2021-03-31
CN111369999B (zh) 2024-05-14
JP7133055B2 (ja) 2022-09-07

Similar Documents

Publication Publication Date Title
KR20200027554A (ko) 음성 인식 방법 및 장치, 그리고 저장 매체
JP7258932B2 (ja) 車載多音域に基づくノイズ低減方法、装置、電子機器及び記憶媒体
JP7133055B2 (ja) 信号処理方法、装置、電子機器及びコンピュータプログラム製品
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP2021196599A (ja) 情報を出力するための方法および装置
US11348583B2 (en) Data processing method and apparatus for intelligent device, and storage medium
JP7471213B2 (ja) 音声チップおよび電子機器
CN105430564B (zh) 移动设备
CN110853644B (zh) 语音唤醒方法、装置、设备及存储介质
CN111145751A (zh) 音频信号处理方法、装置以及电子设备
KR102554916B1 (ko) 음성 인터렉션 방법, 음성 인터렉션 기기 및 전자 기기
CN112822001A (zh) 电子设备的控制方法和电子设备
US20220199072A1 (en) Voice wake-up device and method of controlling same
CN111383632B (zh) 电子设备
US20240118862A1 (en) Computer system and processing method thereof of sound signal
EP2728461A2 (en) Audio processing device
CN114237545B (zh) 一种音频输入方法、装置、电子设备及存储介质
US20230418549A1 (en) Control method of microphone and electronic apparatus
EP3799038A1 (en) Speech control method and device, electronic device, and readable storage medium
CN117376777A (zh) 麦克风的控制方法及电子装置
TW202416731A (zh) 電腦系統及其聲音訊號的處理方法
EP3340031B1 (en) Motion detection circuits, and associated methods
CN116192845A (zh) 设备处理方法、装置、电子设备和存储介质
CN111785297A (zh) 一种语音激励控制方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220826

R150 Certificate of patent or registration of utility model

Ref document number: 7133055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150