JP2022127584A - 音声処理方法、装置、電子機器および読み取り可能な記憶媒体 - Google Patents

音声処理方法、装置、電子機器および読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2022127584A
JP2022127584A JP2022008378A JP2022008378A JP2022127584A JP 2022127584 A JP2022127584 A JP 2022127584A JP 2022008378 A JP2022008378 A JP 2022008378A JP 2022008378 A JP2022008378 A JP 2022008378A JP 2022127584 A JP2022127584 A JP 2022127584A
Authority
JP
Japan
Prior art keywords
audio signal
audio
processing
processing method
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022008378A
Other languages
English (en)
Inventor
リ、ジンラン
Jingran Li
ワン、リウフェン
Liufeng Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022127584A publication Critical patent/JP2022127584A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Figure 2022127584000001
【課題】音声処理方法、装置、電子機器及び読み取り可能な記憶媒体を提供する
【解決手段】方法は、第1のオーディオ信号を収集するステップと、予め設定されたアルゴリズムを使用して前記第1のオーディオ信号を処理し、第2のオーディオ信号を取得するステップと、前記第1の機器が前記第2のオーディオ信号を音声処理するように、前記第2のオーディオ信号を第1の機器に送信するステップと、を含む。
【効果】第1の機器に外部接続された音声処理機器を介してオーディオ信号の収集を行い、第1の機器自体でオーディオ信号の収集を行う必要がなく音声処理を実現することができ、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器の音声処理効率を向上させる。
【選択図】図1

Description

本出願は、データ処理技術の分野に関し、特に、音声処理技術の分野に関する。音声処理方法、装置、電子機器および読み取り可能な記憶媒体を提供する。
スマートフォン、タブレットコンピュータなどの現在の端末機器は、すべて、内蔵のマイクロフォンを介してオーディオ信号を収集する。端末機器の内蔵のマイクロフォンは、集音距離が限られており、他のノイズの干渉を受けやすくなる。
本出願は、端末機器が音声処理を行う時のステップを簡略化し、端末機器の音声処理の効率を向上させるための音声処理方法、装置、電子機器および読み取り可能な記憶媒体を提供する。
本出願の第1の態様によれば、音声処理方法を提供し、音声処理方法は、第1のオーディオ信号を収集するステップと、予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得するステップと、第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信するステップと、を含む。
本出願の第2の態様によれば、音声処理装置を提供し、音声処理装置は、第1のオーディオ信号を収集するための収集ユニットと、予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得するための処理ユニットと、第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信するための送信ユニットと、を含む。
本出願の第3の態様によれば、電子機器を提供し、電子機器は、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶されており、命令が少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサが方法を実行する。
本出願の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに方法を実行させる。
本出願の第5の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラム製品は、コンピュータプログラムを含み、コンピュータプログラムがプロセッサによって実行される時に方法を実現する。
上記の技術案から分かるように、第1の機器に外部接続された音声処理機器を介してオーディオ信号の収集を行い、第1の機器自体でオーディオ信号の収集を行う必要がなく音声処理を実現することができ、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器の音声処理効率を向上させる。
本明細書で説明された内容は、本出願の実施例のキーまたは重要な特徴を特定することを意図しておらず、本出願の範囲を制限するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本出願の第1の実施例による概略図である。 本出願の第2の実施例による概略図である。 本出願の第3の実施例による概略図である。 本出願の第4の実施例による概略図である。 本出願の実施例の音声処理方法を実現するための電子機器のブロック図である。
以下、図面に基づいて、本出願の例示な実施例を表現する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。類似として、簡明のために、以下の表現では、よく知られた機能と構造の表現は省略される。
図1は本出願の第1の実施例による概略図である。図1に示すように、本実施例の音声処理方法は音声処理機器で実行され、具体的には、以下のようなステップを含むことができる。
S101、第1のオーディオ信号を収集する。
S102、予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得する。
S103、第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信する。
本実施例の音声処理方法の実行主体は、第1の機器に接続された音声処理機器であり、当該音声処理機器は、収集された第1のオーディオ信号に基づいて第2のオーディオ信号を取得した後、当該第2のオーディオ信号をそれに接続された第1の機器に送信して、第1の機器が受信された第2のオーディオ信号を音声処理するようにすることによって、第1の機器自体でオーディオ信号の収集を行う必要がなく音声処理を実現することができ、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器の音声処理効率を向上させる。
本実施例の第1の機器は、スマートフォン、パーソナルコンピュータ、スマートスピーカー、スマート家電、車載デバイスなどのスマートデバイスであってもよく、すなわち、本実施例は、スマートデバイスおよびそれに外部接続された音声処理機器を介して音声処理を実現する。
本実施例の音声処理機器は、S101を実行して第1のオーディオ信号を収集する前に、第1の機器との間の通信接続を確立することをさらに含み、確立された通信接続は、有線接続であってもよく、例えば、3.5mmの4セグメントのオーディオケーブルを介して音声処理機器を第1の機器に接続し、無線接続であってもよく、例えば、ブルートゥース(登録商標)またはWiFiを介して音声処理機器を第1の機器に接続する。
本実施例の音声処理機器は、自体のスイッチを介してオンまたはオフを行うことができ、音声処理機器がオン状態にある前またはオン状態にあった後、第1の機器との間の有線接続または無線接続を確立し、第1のオーディオ信号を収集する。
本実施例の音声処理機器は、第1の機器との通信接続を確立した後、第1のオーディオ信号とする機器周辺のオーディオ信号の収集をすぐ開始することができる。音声処理機器は第1の機器に外部接続されているため、音声処理機器は第1の機器から遠く離れた位置に配置されて、第1の機器のファーフィールドオーディオ収集を実現することができる。
また、本実施例の音声処理機器は、S101を実行して第1のオーディオ信号を収集する時、使用できる選択可能な実施形態は、第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始し、当該録音命令は、第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される。
本実施例の第1の機器によって開かれる予め設定されたアプリケーションは、録音アプリケーション、翻訳アプリケーション、および音声認識アプリケーションなどのうちの一つであってもよく、第1の機器が音声処理機器によって収集されたオーディオ信号に対する録音、翻訳、認識などの異なる音声処理を実現することを理解することができる。
したがって、本実施例の音声処理機器は、特定のシナリオでのみオーディオ信号の収集を開始することを実現することができ、第1の機器がオーディオ信号を取得する必要がない時に誤った収集によって引き起こされるリソースの浪費を回避し、音声処理機器がオーディオ信号を収集する時の精度を向上させる。
本実施例の音声処理機器は、S101を実行して第1のオーディオ信号を収集した後、S102を実行して予め設定されたアルゴリズムを使用して収集された第1のオーディオ信号を処理し、処理後の第2のオーディオ信号を取得する。
本実施例の音声処理機器でS102を実行するために使用される予め設定されたアルゴリズムは、エコー消去アルゴリズム、ビームフォーミングアルゴリズム、音源定位アルゴリズム、固定ビーム利得方法アルゴリズム、固定ビームノイズ抑制アルゴリズム、残響除去アルゴリズムなどのアルゴリズムのうちの少なくとも一つを含むが、これらに限定されない。
つまり、本実施例の音声処理機器は、第1のオーディオ信号を収集して取得した後も、一連の信号処理アルゴリズムによって当該第1のオーディオ信号を処理し、高い信号対雑音比、高精細度を有する第2のオーディオ信号を取得し、第1の機器自体が受信されたオーディオ信号を処理する必要があるステップを回避し、第1の機器が音声処理を行う効率を向上させることができる。
また、本実施例の音声処理機器は、S102を実行して第2のオーディオ信号を取得した後、さらに、取得された第2のオーディオ信号に対してデジタルからアナログへの変換を行って、第2のオーディオ信号のフォーマットをデジタル信号からアナログ信号に変換した後に第1の機器に送信することができる。
本実施例の音声処理機器は、S102を実行して第2のオーディオ信号を取得した後、S103を実行して取得された第2のオーディオ信号を第1の機器に送信して、第1の機器が受信された第2のオーディオ信号に基づいて対応する音声処理を行うようにする。
本実施例の第1の機器が第2のオーディオ信号に基づいて行われる音声処理は、録音、翻訳、認識のうちの一つなどの固定タイプの音声処理であってもよい。
また、本実施例の第1の機器が第2のオーディオ信号に基づいて行われる音声処理は、第1の機器によって開かれるアプリケーションに対応することもでき、第1の機器が録音アプリケーションを開いた場合、第1の機器は受信された第2のオーディオ信号を記憶し、第1の機器が翻訳アプリケーションを開いた場合、第1の機器は受信された第2のオーディオ信号を翻訳して翻訳結果を取得し、第1の機器が認識アプリケーションを開いた場合、第1の機器は受信された第2のオーディオ信号を認識して認識結果を取得する。
本実施例の音声処理機器は、第1の機器によって送信された制御命令を受信し、当該制御命令に音声処理機器を制御して集音を行うための角度範囲が含まれ、当該制御命令は、ユーザが第1の機器を介して送信し、受信された制御命令に基づいて集音方向を調整し、すなわち、制御命令に含まれる角度範囲に基づいてマイクロフォンアレイの集音方向を調整することを含むこともできる。
例えば、音声処理機器のマイクロフォンアレイは、全方向360°方向の集音を行うことができ、第1の機器によって送信された制御命令に含まれる角度範囲が0°~180°である場合、音声処理機器は、マイクロフォンアレイを制御して前方に位置し、時計回りの方向0°~180°範囲内の音のみを収集する。
つまり、本実施例の音声処理機器は、第1の機器によって送信された制御命令に基づいて集音方向を調整することもでき、音声処理機器の指向性集音を実現し、他の方向におけるノイズ干渉を回避し、収集された第1のオーディオ信号の精度をさらに向上させる。
本実施例で提供される上記の方法により、第1の機器に外部接続された音声処理機器でオーディオ信号の収集を行うことを実現することにより、第1の機器が音声処理を行う時のステップを簡略化し、第1の機器が音声処理を行う効率を向上させる。
図2は本出願の第2の実施例による概略図である。図2に示すように、本実施例の音声処理機器によって実行される音声処理方法は、さらに、以下のようなステップを含むことができる。
S201、第1の機器によって送信された第3のオーディオ信号を受信する。
S202、第3のオーディオ信号を第2の機器に送信して再生する。
つまり、本実施例の音声処理機器が第1の機器との通信接続を確立した上で、第2の機器との通信接続を確立することもでき、第1の機器によって送信されたオーディオ信号を第2の機器に送信して再生を行う目的を実現することができる。
本実施例の第2の機器は、スマートスピーカー、スマート家電などの端末機器であってもよく、音声処理機器はS202を実行して第3のオーディオ信号を第2の機器に送信する前に、第2の機器との間の通信接続を確立するステップをさらに含み、確立された通信接続は、有線接続であってもよく、無線接続であってもよく、本出願は通信接続の方式に対して限定されない。
本実施例の音声処理機器はS201を実行して第1の機器によって送信された第3のオーディオ信号を受信した後に、当該第3のオーディオ信号に基づいて収集されたオーディオ信号に対してエコー消去処理を行うこともでき、音声処理機器によって収集されたオーディオ信号の精度を向上させることができる。
また、本実施例の音声処理機器はS202を実行して第3のオーディオ信号を第2の機器に送信する前に、第3のオーディオ信号を変換することもでき、すなわち、第3のオーディオ信号のフォーマットをアナログ信号からデジタル信号に変換し、変換後のオーディオ信号を第2の機器に送信することができる。
図3は本出願の第3の実施例による概略図である。図3は本実施例の音声処理機器300のアーキテクチャ図を示す。図3に示すように、本実施例の音声処理機器300は、電源モジュール301、マイクロフォンアレイモジュール302、信号処理モジュール303、変換モジュール304、およびインターフェースモジュール305を含み、
その中の電源モジュール301は充電器、充電可能なリチウム電池、および電圧変換チップを含み、ユーザは電源モジュールのスイッチによって音声処理機器のオンまたはオフを実現することができ、マイクロフォンアレイモジュール302は複数のデジタル/アナログマイクロフォンを含み、それは全方向360°方向のオーディオ信号の収集を行うことができ、信号処理モジュール303は信号プロセッサとフラッシュメモリを含み、フラッシュメモリは予め設定されたアルゴリズムを記憶し、信号プロセッサは記憶された予め設定されたアルゴリズムに基づいて収集されたオーディオ信号を処理し、変換モジュール304はデジタルからアナログへの変換器とアナログからデジタルへの変換器を含み、デジタルからアナログへの変換器は、オーディオ信号をアナログ信号に変換するために用いられ、アナログからデジタルへの変換器は、オーディオ信号をデジタル信号に変換するために用いられ、インターフェースモジュール305は、充電インターフェース、録音インターフェース、および再生インターフェースを含み、録音インターフェースは第1の機器に接続され、再生インターフェースは第2の機器に接続される。
図4は本出願の第4の実施例による概略図である。図4に示すように、本実施例の音声処理機器にある音声処理装置400は、
第1のオーディオ信号を収集するための収集ユニット401と、
予め設定されたアルゴリズムを使用して第1のオーディオ信号を処理し、第2のオーディオ信号を取得するための処理ユニット402と、
第1の機器が第2のオーディオ信号を音声処理するように、第2のオーディオ信号を第1の機器に送信するための送信ユニット403と、を含む。
本実施例の収集ユニット401は、第1のオーディオ信号を収集する前に、第1の機器との間の通信接続を確立することをさらに含み、確立された通信接続は、有線接続であってもよく、無線接続であってもよい。
本実施例の収集ユニット401は、第1の機器と通信接続を確立した後、すぐ、機器周辺のオーディオ信号を第1のオーディオ信号として収集することを開始することができる。音声処理機器は第1の機器に外部接続されているため、音声処理機器は第1の機器から遠く離れた位置に配置されて、第1の機器のファーフィールドオーディオ収集を実現することができる。
また、本実施例の収集ユニット401は、第1のオーディオ信号を収集する時、使用できる選択可能な実施形態は、第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始し、当該録音命令は、第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される。
したがって、本実施例の収集ユニット401は、特定のシナリオでのみオーディオ信号の収集を開始することを実現することができ、第1の機器がオーディオ信号を取得する必要がない時に誤った収集によって引き起こされるリソースの浪費を回避し、音声処理機器がオーディオ信号を収集する時の精度を向上させる。
本実施例の音声処理機器は、収集ユニット401で第1のオーディオ信号を収集した後、処理ユニット402で予め設定されたアルゴリズムを使用して収集された第1のオーディオ信号を処理し、処理後の第2のオーディオ信号を取得する。
本実施例の処理ユニット402によって使用される予め設定されたアルゴリズムは、エコー消去アルゴリズム、ビームフォーミングアルゴリズム、音源定位アルゴリズム、固定ビーム利得方法アルゴリズム、固定ビームノイズ抑制アルゴリズム、残響除去アルゴリズムなどのアルゴリズムのうちの少なくとも一つを含むが、これらに限定されない。
つまり、本実施例の音声処理機器は、第1のオーディオ信号を収集して取得した後、さらに、処理ユニット402で一連の信号処理アルゴリズムによって当該第1のオーディオ信号を処理し、高い信号対雑音比、高精細度を有する第2のオーディオ信号を取得し、第1の機器自体が受信されたオーディオ信号を処理する必要があるステップを回避し、第1の機器が音声処理を行う効率を向上させることができる。
また、本実施例の処理ユニット402は、第2のオーディオ信号を取得した後、さらに、取得された第2のオーディオ信号に対してデジタルからアナログへの変換を行って、第2のオーディオ信号のフォーマットをデジタル信号からアナログ信号に変換した後に第1の機器に送信することができる。
本実施例の音声処理機器は、処理ユニット402で第2のオーディオ信号を取得した後、送信ユニット403で取得された第2のオーディオ信号を第1の機器に送信して、第1の機器が受信された第2のオーディオ信号に基づいて対応する音声処理を行うようにする。
本実施例の音声処理機器にある音声処理装置400は、調整ユニット404を含むこともでき、調整ユニット404は、第1の機器によって送信された制御命令を受信し、当該制御命令には音声処理機器を制御して集音を行う時の角度範囲が含まれ、当該制御命令は、ユーザが第1の機器を介して送信し、受信された制御命令に基づいて集音方向を調整し、すなわち、制御命令に含まれる角度範囲に基づいてマイクロフォンアレイの集音方向を調整することを実行するために用いられる。
つまり、本実施例の音声処理機器は、さらに、第1の機器によって送信された制御命令に基づいて調整ユニット404で集音方向を調整し、音声処理機器の指向性集音を実現し、他の方向におけるノイズ干渉を回避し、収集された第1のオーディオ信号の精度をさらに向上させることができる。
本実施例の音声処理機器にある音声処理装置400は、再生ユニット405を含むこともでき、再生ユニット405は、第1の機器によって送信された第3のオーディオ信号を受信し、第3のオーディオ信号を第2の機器に送信して再生することを実行するために用いられる。
つまり、本実施例の音声処理機器が第1の機器との通信接続を確立した上で、さらに、再生ユニット405と第2の機器が通信接続を確立することによって、第1の機器によって送信されたオーディオ信号を第2の機器に送信して再生を行う目的を実現することができる。
本実施例の再生ユニット405は、第1の機器によって送信された第3のオーディオ信号を受信した後、さらに、当該第3のオーディオ信号に基づいて収集されたオーディオ信号に対してエコー消去処理を行うこともでき、音声処理機器によって収集されたオーディオ信号の精度を向上させることができる。
また、本実施例の再生ユニット405は、第3のオーディオ信号を第2の機器に送信する前に、第3のオーディオ信号を変換することもでき、すなわち、第3のオーディオ信号のフォーマットをアナログ信号からデジタル信号に変換し、変換後のオーディオ信号を第2の機器に送信することができる。
本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラム製品をさらに提供する。
図5に示すように、本出願の実施例の音声処理方法を実現するための電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図5に示すように、機器500はコンピューティングユニット501を含み、コンピューティングユニット501は、読み取り専用メモリ(ROM)502に記憶されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM503には、機器500が動作するに必要な様々なプログラムとデータも記憶することができる。コンピューティングユニット501、ROM 502、およびRAM503は、バス504を介してお互いに接続される。入出力(I/O)インターフェース505もバス504に接続される。
機器500内の複数のコンポーネントは、I/Oインターフェース505に接続されており、キーボード、マウスなどの入力ユニット506と、様々なタイプのディスプレイ、スピーカなどの出力ユニット507と、ディスク、光ディスクなどの記憶ユニット508と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509と、を含む。通信ユニット509は、機器500が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
コンピューティングユニット501は、様々な処理とコンピューティング能力を備える汎用および/または専用の処理コンポーネントである。コンピューティングユニット501のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)コンピューティングチップ、様々な機械学習モデルアルゴリズムを実行するコンピューティングユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。コンピューティングユニット501は、音声処理方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、音声処理方法は、記憶ユニット508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM502および/または通信ユニット509を介して機器500にロードおよび/またはインストールされる。コンピュータプログラムがRAM503にロードされてコンピューティングユニット501によって実行される場合、上記の音声処理方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、コンピューティングユニット501は、他の任意の適切な方式(例えば、ファームウェアによって)を介して音声処理方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本出願の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本出願の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims (11)

  1. 音声処理方法であって、
    第1のオーディオ信号を収集するステップと、
    予め設定されたアルゴリズムを使用して前記第1のオーディオ信号を処理し、第2のオーディオ信号を取得するステップと、
    第1の機器が前記第2のオーディオ信号を音声処理するように、前記第2のオーディオ信号を前記第1の機器に送信するステップと、を含む、
    音声処理方法。
  2. 前記第1のオーディオ信号を収集するステップは、
    前記第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始するステップを含み、
    前記録音命令は、前記第1の機器によって前記第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される、
    請求項1に記載の音声処理方法。
  3. 前記第1の機器によって送信された制御命令を受信するステップであって、前記制御命令には集音の角度範囲が含まれるステップと、
    前記制御命令に含まれる前記角度範囲に基づいて、集音方向を調整するステップと、をさらに含む、
    請求項1または2に記載の音声処理方法。
  4. 前記第1の機器によって送信された第3のオーディオ信号を受信するステップと、
    前記第3のオーディオ信号を第2の機器に送信して再生するステップと、をさらに含む、
    請求項1から3のいずれか一項に記載の音声処理方法。
  5. 音声処理装置であって、
    第1のオーディオ信号を収集するための収集ユニットと、
    予め設定されたアルゴリズムを使用して前記第1のオーディオ信号を処理し、第2のオーディオ信号を取得するための処理ユニットと、
    第1の機器が前記第2のオーディオ信号を音声処理するように、前記第2のオーディオ信号を前記第1の機器に送信するための送信ユニットと、を含む、
    音声処理装置。
  6. 前記収集ユニットが第1のオーディオ信号を収集する時、具体的に、
    前記第1の機器によって送信された録音命令を受信した後、第1のオーディオ信号の収集を開始することを実行し、
    前記録音命令は、前記第1の機器によって前記第1の機器が予め設定されたアプリケーションを開いたことを検出した時に音声処理機器に送信される、
    請求項5に記載の音声処理装置。
  7. 調整ユニットをさらに含み、
    前記調整ユニットは、
    前記第1の機器によって送信された制御命令を受信し、前記制御命令には集音の角度範囲が含まれ、
    前記制御命令に含まれる前記角度範囲に基づいて、集音方向を調整することを実行するために用いられる、
    請求項5または6に記載の音声処理装置。
  8. 再生ユニットをさらに含み、
    前記再生ユニットは、
    前記第1の機器によって送信された第3のオーディオ信号を受信し、
    前記第3のオーディオ信号を第2の機器に送信して再生することを実行するために用いられる、
    請求項5から7のいずれか一項に記載の音声処理装置。
  9. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1から4のいずれか一項に記載の音声処理方法を実行する、
    電子機器。
  10. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1から4のいずれか一項に記載の音声処理方法を実行させる、
    コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。
  11. プロセッサによって実行される時に請求項1から4のいずれか一項に記載の音声処理方法を実現する、
    コンピュータプログラム。
JP2022008378A 2021-02-19 2022-01-24 音声処理方法、装置、電子機器および読み取り可能な記憶媒体 Pending JP2022127584A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110195343.8A CN113031901B (zh) 2021-02-19 2021-02-19 语音处理方法、装置、电子设备以及可读存储介质
CN202110195343.8 2021-02-19

Publications (1)

Publication Number Publication Date
JP2022127584A true JP2022127584A (ja) 2022-08-31

Family

ID=76461436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022008378A Pending JP2022127584A (ja) 2021-02-19 2022-01-24 音声処理方法、装置、電子機器および読み取り可能な記憶媒体

Country Status (5)

Country Link
US (1) US11659325B2 (ja)
EP (1) EP4047470B1 (ja)
JP (1) JP2022127584A (ja)
KR (1) KR20220118904A (ja)
CN (1) CN113031901B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113726936B (zh) * 2021-08-30 2023-10-24 联想(北京)有限公司 一种音频数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336232A (ja) * 2006-06-15 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音プログラム、記録媒体
JP2020112692A (ja) * 2019-01-11 2020-07-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 方法、制御装置、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9071900B2 (en) * 2012-08-20 2015-06-30 Nokia Technologies Oy Multi-channel recording
KR20140127508A (ko) * 2013-04-25 2014-11-04 삼성전자주식회사 음성처리장치 및 음성처리방법
EP2840807A1 (en) * 2013-08-19 2015-02-25 Oticon A/s External microphone array and hearing aid using it
US9167333B2 (en) * 2013-10-18 2015-10-20 Plantronics, Inc. Headset dictation mode
CN105718236A (zh) * 2014-12-02 2016-06-29 中兴通讯股份有限公司 一种录音装置和方法
JP2017107482A (ja) 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN105653233B (zh) * 2015-12-30 2019-06-04 芜湖美智空调设备有限公司 关联语音信号与控制指令的方法及控制终端
CN107680593A (zh) * 2017-10-13 2018-02-09 歌尔股份有限公司 一种智能设备的语音增强方法及装置
CN109286875B (zh) * 2018-09-29 2021-01-01 百度在线网络技术(北京)有限公司 用于定向拾音的方法、装置、电子设备和存储介质
CN109462794B (zh) * 2018-12-11 2021-02-12 Oppo广东移动通信有限公司 智能音箱及用于智能音箱的语音交互方法
CN109817206A (zh) * 2018-12-20 2019-05-28 航天信息股份有限公司 一种用于自动终端设备的语音交互装置及方法
CN112349282A (zh) * 2019-08-09 2021-02-09 北京声智科技有限公司 语音控制系统、语音处理方法及外部设备
CN111724805A (zh) * 2020-06-29 2020-09-29 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN111986669A (zh) * 2020-08-20 2020-11-24 北京声智科技有限公司 信息处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336232A (ja) * 2006-06-15 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> 特定方向収音装置、特定方向収音プログラム、記録媒体
JP2020112692A (ja) * 2019-01-11 2020-07-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 方法、制御装置、及びプログラム

Also Published As

Publication number Publication date
EP4047470B1 (en) 2024-01-31
CN113031901B (zh) 2023-01-17
KR20220118904A (ko) 2022-08-26
US11659325B2 (en) 2023-05-23
CN113031901A (zh) 2021-06-25
US20220272442A1 (en) 2022-08-25
EP4047470A1 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
JP6713035B2 (ja) ファーフィールド音声機能の実現方法、設備、システム、記憶媒体及びプログラム
US10431211B2 (en) Directional processing of far-field audio
US10728656B1 (en) Audio device and audio processing method
CN109543198A (zh) 翻译方法、装置、系统及存储介质
CN107240396A (zh) 说话人自适应方法、装置、设备及存储介质
EP3635533B1 (en) Electronic apparatus for processing user utterance for controlling an external electronic apparatus and controlling method thereof
JP2022127584A (ja) 音声処理方法、装置、電子機器および読み取り可能な記憶媒体
US20200293460A1 (en) Electronic device for controlling external conversion device
CN113014978A (zh) 提高电视远场语音激活率的方法、计算机设备、存储介质
CN112243182B (zh) 拾音电路、方法及装置
CN113810814B (zh) 耳机模式切换的控制方法及装置、电子设备和存储介质
CN213547829U (zh) 麦克风的电路结构及终端
CN108235185A (zh) 音源输入客户端设备、遥控器,以及播放音乐的系统
CN211089936U (zh) 一种控制电路、充电电路、耳机及充电线
KR20220125026A (ko) 오디오 처리 방법 및 이를 포함하는 전자 장치
CN113721753A (zh) 功率放大器控制方法及装置、存储介质和电子设备
WO2021104085A1 (zh) 语音交互控制器、系统以及机器人
KR20220016552A (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
JP2021110945A (ja) スマートオーディオ装置、方法、電子デバイスおよびコンピュータ可読媒体
CN110956951A (zh) 一种语音增强采集配件、方法、系统、设备及存储介质
EP3544312B1 (en) Electronic device mainboard with audio processing function
WO2024016793A1 (zh) 语音信号的处理方法、装置、设备及计算机可读存储介质
KR20220118224A (ko) 오디오 데이터 처리 방법 및 이를 지원하는 전자 장치
CN116137150A (zh) 物联网设备控制方法、装置、存储介质、电子设备及系统
KR20230018833A (ko) 전자 장치 및 무선 오디오 장치의 연결 전환을 제공하는 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230519

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230919