CN111630876A - 音频设备和音频处理方法 - Google Patents

音频设备和音频处理方法 Download PDF

Info

Publication number
CN111630876A
CN111630876A CN202080001036.5A CN202080001036A CN111630876A CN 111630876 A CN111630876 A CN 111630876A CN 202080001036 A CN202080001036 A CN 202080001036A CN 111630876 A CN111630876 A CN 111630876A
Authority
CN
China
Prior art keywords
audio
computing terminal
audio device
microphones
microcontroller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080001036.5A
Other languages
English (en)
Other versions
CN111630876B (zh
Inventor
周超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wonderland Artificial Intelligence Co ltd
Original Assignee
Shenzhen Wonderland Artificial Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wonderland Artificial Intelligence Co ltd filed Critical Shenzhen Wonderland Artificial Intelligence Co ltd
Publication of CN111630876A publication Critical patent/CN111630876A/zh
Application granted granted Critical
Publication of CN111630876B publication Critical patent/CN111630876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/09Applications of special connectors, e.g. USB, XLR, in loudspeakers, microphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开提供了一种基于充电器电线的音频设备和音频处理方法。该音频设备包括:至少两个麦克风,其被配置为收集音频信号;以及微控制器,其用于处理该至少两个麦克风采集的音频信号,以产生一个数据流;当音频设备连接至计算终端时,将该数据流发送至计算终端,并由该计算终端对该数据流进一步处理以执行动作。该至少两个麦克风中的每一个均分别连接到微控制器。

Description

音频设备和音频处理方法
技术领域
本公开涉及智能硬件技术领域,尤其涉及一种音频设备及基于该音频设备的音频处理方法。
背景技术
在车辆驾驶期间进行人机交互是一个重要的技术问题。如今,通过同时扮演两个不同角色而成为这种交互的网关,手机之类的便携式电子设备变得越来越流行:借助各种导航应用程序下载的在线地图和实时交通数据库,它可以充当驾驶员的导航助手,同时仍然是供同一驾驶员访问IM应用程序的访问点,在该IM应用程序中,他/她与通信对方进行交流沟通。这种用法长期存在的问题是,驾驶员在道路上驾车需要精神高度集中,而与手机的交互吸引了驾驶员的注意力,所以当驾驶员需要根据其在IM应用程序上的通信来调整导航目的地/选择时,这种冲突会更加严重。结果,大多数驾驶员需要在驾驶或等待绿灯时手动操作手机的和/或有此类经验,这带来很大的安全风险。尽管许多国家/地区已经制定了禁止此类行为的法律,但是由于其固有的需求,这种行为很难被完全避免,有时甚至会导致严重的事故。
在这个问题上,当前已经提出了各种方案来减少或免除驾驶员在手机上的手动操作,其中大多数方案包括提供语音控制功能。现有的解决方案主要分为两种。第一种解决方案是在车辆中嵌入支持大屏幕显示和语音命令(例如,特斯拉汽车中的大屏幕)的硬件,以减少用户对手机的手动操作。然而,这样的配置往往不能提供像驾驶员自己的手机那样多的各种功能和便利,所以这并不能解决根本问题。第二种解决方案是提供支持语音识别(例如,由科大讯飞(iFlytek)制造的飞鱼车载语音助手)的独立设备,以允许对手机或汽车的某些操作进行语音控制。然而,由于需要用于语音识别的嵌入式高性能处理器和/或通信模块,对其成本仍然需要多作考虑,并且独立设备需要专用电源为其自身供电,而这种电源在车辆中并不总是可得的。
此外,除了驾驶场景之外,在其他情况下,用户还希望通过语音命令来控制手机或设备,和/或通过处理后的音频文件或由语音识别所生成的文本来记录人类对话者的语音或对话,例如,在厨房做饭时,双手忙不开来无法对手机进行操作等。
本申请所公开的方法和系统旨在解决上述一个或多个问题以及其他问题。
发明内容
本公开的一方面提供了一种音频设备。该音频设备包括:至少两个麦克风和一个微控制器,其中麦克风配置为收集音频信号。该至少两个麦克风中的每一个分别连接到微控制器。该微控制器被配置为处理由至少两个麦克风收集的音频信号以产生一个数据流。当所述音频设备连接至计算终端时,将该数据流发送至计算终端,由该计算终端对数据流作进一步处理以执行动作。
本公开的另一方面提供了一种音频处理方法。该方法包括:将音频设备连接至计算终端,该音频设备与至少两个麦克风集成;获取由音频设备中的至少两个麦克风收集到的音频信号;音频设备对该音频信号进行编码以生成一个数据流;以及将该数据流发送至计算终端,由该计算终端对数据流进行译码并处理以执行动作。
本公开的另一方面提供了一种音频系统。该音频系统包括音频设备和计算终端。音频设备包括至少两个麦克风和一个微控制器,其中麦克风配置为收集音频信号。该至少两个麦克风中的每一个分别连接至微控制器。该微控制器配置为处理由至少两个麦克风收集到的音频信号以产生一个数据流。以及当音频设备连接至计算终端时,将数据流发送至计算终端。该计算终端被配置为对数据流进行译码并重构音频信号,执行一个或多个多输入音频处理方案以获得一个或多个增强音频信号,并基于对该增强音频信号的语音识别结果来执行动作。
本领域技术人员可以根据本公开的说明书、权利要求书和附图来理解本公开的其他方面。
附图说明
以下附图是根据各种公开的实施方式的仅用于说明目的的示例,并且无意于限制本公开的范围。
图1示出了与某些所公开实施例结合的示例性操作环境;
图2示出了根据所公开实施例的示例性计算机系统的框图;
图3-1示出了根据所公开实施例的示例性音频设备的框图;
图3-2示出了根据所公开实施例的示例性音频设备的电路示意图;
图4-1示出了根据所公开实施例的示例性充电线的示意性前视图;
图4-2示出了根据所公开实施例的另一示例性充电线的示意性轮廓图;
图4-3示出了根据所公开实施例的另一示例性充电线的示意性轮廓图;
图4-4示出了根据所公开实施例的另一示例性充电线的示意性前视图;
图4-5示出了根据所公开实施例的另一示例性充电线的示意性前视图;
图5示出了根据所公开实施例的示例性音频处理方法的流程图;
图6示出了根据所公开实施例的用于处理来自麦克风的音频信号的示例性过程的流程图;
图7示出了根据所公开实施例的另一示例性音频处理方法的流程图;
图8示出了根据所公开实施例的另一示例性音频处理方法的流程图;
图9示出了根据所公开实施例的示例性音频处理系统的架构图;
图10示出了现有技术的音频设备的架构图;
图11示出了根据所公开实施例的示例性音频设备的架构图;
图12示出了根据所公开实施例的示例性音频设备的应用场景;
图13示出了根据所公开实施例的示例性音频设备的另一种应用场景;
图14示出了根据所公开实施例的示例性手机支架的示意图;以及
图15示出了根据所公开实施例的示例性会议音频设备的示意图。
具体实施方式
现在将详细参考在附图中示出的本发明的示例性实施例。在下文中,将参照附图描述与根据本公开示出的实施例。在所有附图中,将尽可能使用相同的附图标记指代相同或相似的部件。显然,所描述的实施例是本发明的一些但不是全部实施例。基于所公开的实施例,本领域普通技术人员可以得出与本发明相一致的其他实施例,所有这些实施例均在本发明的范围内。
本公开提供了一种交互式解决方案,其满足以下要求:1)通过语音控制完全访问手机,其中用户不需要手动操作手机,甚至不需要看手机,并且可以完成(例如,驾驶期间)所需的操作,例如导航、播放音乐、社交通讯等;以及2)成本足够低,同时可以满足基于语音识别的人机交互需求。另外,所公开的交互式解决方案还提供了便利的充电功能,以充电线的形式解决了手机因长时间操作而导致的高功耗的潜在问题;和/或用于在车辆中固定手机的固定方案(参见图4-1至图4-5、图14呈现的示例性实施例),该固定方案为在车内采用手机支架的形式。
因此,本公开提供了一种可促进对计算终端的全语音/免提控制的硬件设备(即音频设备)和基于该音频设备的音频处理方法。所公开的设备和方法可以实现以下功能:1)提供手机充电功能;2)支持稳定、清晰地采集中场或远场语音信号(例如在车内空间);3)支持计算终端的全语音控制,以完成以下操作:a)通过语音输入、编辑和发送文本,将好友发送的消息转换为语音信号并回放该语音信号,支持社交应用程序上的消息回复/聊天功能;b)通过语音控制导航软件,以进行目的地搜索、路线选择和导航操作;c)通过语音控制启动媒体应用程序并播放音乐或其他媒体;d)启动支持基于意图(intent-base)启动的其他应用程序,并完成由该意图标识的功能;以及4)要求硬件成本低。在一些实施例中,可以在计算终端上完成语音信号处理,而语音识别和语音合成服务则可以在云服务器上完成,并且唯一的额外硬件为集成有多个麦克风的音频设备。
本文所公开的音频设备包括多个(至少两个)麦克风以收集音频信号并基于所收集的音频信号输出数字数据流。与单个麦克风收集的音频信号相比,这可以将多种处理方案应用于多个麦克风收集的音频信号,以产生更好的音频/语音识别性能,例如波束形成、AEC(Automatic Echo Cancellatio,自动回声消除)、语音源跟踪、识别和分离源声音、远场噪声消减、声源追踪等。本文所使用的多输入音频处理方案指的是用于处理由多个麦克风收集的音频信号的处理技术或算法。
本文所公开的音频设备中包括的至少两个麦克风位于音频设备上的预定位置。在一些实施例中,麦克风之间的几何关系是机械固定的,并且因此可以在多输入音频处理方案中利用该几何关系,以通过评估由相同声源产生并由不同麦克风接收的音频信号的时间差,来确定声源的特性(例如,麦克风与声源之间的方向和距离)。在这种情况下,这些具有固定几何关系的麦克风通常称为麦克风点阵或麦克风阵列。在一些实施例中,除了专用于捕获语音信号的麦克风阵列或单个麦克风之外,还有一个或多个额外的麦克风,其与其他(一个或多个)麦克风具有或不具有固定的几何关系,但面向可能的噪声源以收集比其他(一个或多个)麦克风(例如,背向或远离噪声源的麦克风)包含更多噪声的音频源。多输入音频处理方案可以包括将由这些额外的麦克风收集的音频信号用作参考信号,以减少由专用于捕获语音信号的麦克风或麦克风阵列收集的音频信号中的噪声。
考虑到声音在大气中的传播速度(即340m/s)和麦克风阵列的空间尺度(例如,麦克风阵列中两个麦克风之间的距离可能在厘米范围内),因此由相同声源产生并由不同麦克风接收的音频信号的时间差处于微秒范围内。即,多输入音频处理算法需要足够精确以检测微秒范围内的时间差。因此,可以理解到,这样的多输入音频处理方案对处理能力和成本都要求较高。
在诸如智能扬声器或降噪耳机之类的现有流行技术中,至少一个具有高处理能力的微控制器被嵌入到设有麦克风阵列的同一设备中。图10示出了现有技术的音频设备的结构图。如图10所示,在现有技术中,由任何麦克风收集的音频信号可以经由不超过微秒范围的延迟的通讯被该微控制器芯片所接收。该微控制器芯片可以连接到数字信号处理器(DSP)或其他强大的CPU,其能够在本地使用多输入音频处理方案来处理由多个麦克风所收集的音频信号。这种微控制器具有强大的计算能力,或者需要专门执行(例如,一个处理线程使用100%的计算能力)多输入音频处理方案,这对设备的硬件成本、功耗和散热的都设置了一个下限。在实现相同的音频处理性能的同时,本领域中已经进行了许多努力来降低这一硬件成本和功耗的下限。
本文所公开的音频设备通过将对高计算能力的需求从本地转移到与音频设备连接的计算终端上,使得该音频设备本身不需要嵌入具有高计算能力的微控制器,从而对现有技术中硬件成本高和功耗高的问题给出了一个解决方案。所公开的音频设备还提供了充电功能,以减少不必要和复杂的配件和电线。
图11示出了根据所公开实施例的示例性音频设备的结构图。如图11所示,所公开的音频设备中的本地微控制器被配置为对由麦克风收集的音频信号进行编码。但是,用于实现多输入音频处理方案的实体未部署在本地的音频设备中。音频设备的微控制器被配置为对由麦克风收集的音频信号进行数字编码以生成一个数据流。对音频信号进行编码的该数据流可以基于通信协议,实时地或不实时地被传输到计算终端,以进行进一步的解码和处理。自收集音频信号的时间起一定的通信延迟之后,该数据流可以由计算终端处理。该通信延迟可以是稳定的或不稳定的,并且可以处于毫秒的范围内,小于一秒或数秒。该数据流可以使用计算终端上的一个或多个多输入音频处理方案实时地或以很小的延迟对其进行解码和分析。数据流还以特定的方式编码,以确保计算终端解码的数据可以提供准确的时间差信息(即,由相同声源产生并由不同麦克风接收的音频信号的时间差)而无论通信期间是否发生信息丢失。此外,如果连接到电源或嵌入电源,则所公开的音频设备还可以为计算终端充电。计算终端与音频设备之间的连接可以是有线连接或无线连接,例如USB连接、Wi-Fi连接和/或蓝牙连接。当使用有线连接时,设备连接器端口可以包括待连接或插入到计算终端上的兼容接口中的物理接口。当使用无线连接时,设备连接器端口和/或微控制器可包括支持一个或多个无线数据传输协议的无线通信电路。在一些实施例中,设备连接器端口和/或微控制器可以支持一个或多个无线充电协议。
本文所公开的音频设备的技术优点包括:消除了内嵌高性能处理器的需求、消除了在处理所收集的音频信号时排它性占用处理器被的需求,以及具有高成本的独立音频设备和复杂的硬件可以转变成配件级别的设备。由于以手机、平板电脑和笔记本电脑为代表的消费电子产品在当今很盛行,因此很容易找到这种配件级音频设备的主机计算终端并且在该计算终端上部署音频处理方案,而不会给终端客户增加额外的硬件成本。与现有技术中独立音频设备中本地部署的处理器相比,由主机计算终端提供的计算能力可以更高,并提供能够在同一数据上并行地执行至少一个多输入音频处理方案的附加功能。在一些实施例中,所公开的音频设备可以实现某些不消耗高计算能力的预处理方案,例如对单个源音频信号的自动增益控制、放大和/或降噪。图1描绘了根据各种公开的实施例的并入了示例性方法和计算终端的示例性环境100。如图1所示,环境100可以包括计算终端/客户端106和音频设备108。当音频设备108将计算终端106与电源110连接时,可以通过音频设备108对计算终端106充电。进一步地,音频设备108集成有至少两个麦克风,并且由该至少两个麦克风收集的音频信号通过音频设备108传输到计算终端106。在一些实施例中,音频设备108可以是充电器电线、充电器适配器或充电座。
在一些实施例中,环境可以进一步包括服务器104和通信网络102。服务器104和计算终端106可以通过通信网络102耦合以用于信息交换,例如,语音信号处理、语音信号生成、在社交应用程序上聊天等。尽管在环境100中仅示出了一个计算终端106和一个服务器104,但是也可以包括任何数量的终端106或服务器104,并且还可以包括其他设备。
通信网络102可以包括为服务器104和计算终端106之间、或多个服务器104之间、或多个计算终端106之间提供网络连接的任何适当类型的通信网络。例如,通信网络102可以包括互联网、或其他有线或无线类型的计算机网络或电信网络。
如本文所使用的终端或计算终端,其指代具有某些计算能力的任何适当的用户终端,例如,个人计算机(PC)、工作站计算机、手持式计算设备(例如平板电脑)、移动终端(例如手机或智能电话)或其他任何用户方计算设备。
如本文中所使用的服务器,其指被配置为提供某些服务器功能(例如,语音数据分析和识别、网络数据存储、社交网络服务维护以及数据库管理)的一个或多个服务器计算机。服务器还可以包括一个或多个处理器以并行地执行计算机程序。
服务器104和计算终端106可以在任何适当的计算平台上实现。图2示出了能够实现服务器104和/或计算终端106的示例性计算系统200的框图。如图2所示,示例性计算机系统200可以包括处理器202、存储介质204、监视器206、通信模块208、数据库210、外围设备212以及将这些设备耦合在一起的一个或多个总线214。其中某些设备可以省略,并且可以包括其他设备。
处理器202可以包括任何适当的一个或多个处理器。此外,处理器202可以包括用于多线程或并行处理的多个芯。存储介质204可以包括存储器模块,例如,只读存储器(ROM)、随机存取存储器(RAM)和闪存模块、以及大容量存储器(例如CD-ROM、U盘、可移动硬盘等)。当由处理器202执行时,该存储介质204可以存储用于实现各种过程(例如,获得和处理语音信号、播放音乐、运行导航应用等)的计算机程序。
监视器206可以包括用于在计算系统200中显示内容的显示设备。外围设备212可以包括I/O设备,例如供用户输入信息的键盘和鼠标、用于输出信息的音频输出设备(例如扬声器)、充电端口、USB端口等。外围设备还可以包括某些传感器,例如重力传感器、加速度传感器和其他类型的传感器。
此外,通信模块208可以包括用于经由通信网络102建立连接的网络设备,或者经由有线或无线连接(例如Wi-Fi、蓝牙、蜂窝网络)与其他外部设备建立连接的网络设备。数据库210可以包括一个或多个数据库,用于存储某些数据并用于对存储的数据执行某些操作,例如,基于存储的参考信号处理语音信号、基于存储的模板合成语音消息等。
在操作中,计算终端106可以从音频设备108接收包含音频信号的数据流。计算终端106可以被配置为为相关动作和操作相应地提供结构和功能。更具体地,计算终端106可以分析来自音频设备的数据流,并且基于音频信号的分析结果(例如,根据与服务器104的通信)来执行相关动作。
图3-1示出了根据所公开实施例的示例性音频设备的框图。如图3-1所示,示例性音频设备300包括:多个音频采集模块301、微控制器306、设备连接器端口308和电源连接器端口310。音频设备300可以是示例性环境100中的音频设备108。示例性音频设备也可以是图11所示的音频设备。在示例性实施例中,音频设备300支持通用串行总线(USB)连接。例如,音频设备300可以是USB充电器电线、USB充电器适配器或USB充电座。音频设备300可以支持一个或多个USB版本,例如USB 2.0、USB 3.0、USB 3.1等。
设备连接器端口308是用于连接音频设备108和计算终端106的接口。设备连接器端口308可以是与计算终端106兼容的任何类型的接口,例如B型插头、Mini-B型插头、Micro-B型插头、B型快充插头、Type-C型插头、闪电连接器等。在某些实施例中,设备连接器端口308可以支持有线地与计算终端106连接。微控制器306可以基于标准有线数据传输协议(例如,USB数据传输协议)通过设备连接器端口308将数据发送至计算终端106发送或从计算终端106接收数据。在一些实施例中,设备连接器端口308可以支持与计算终端106的无线连接。例如,设备连接器端口308可以包括支持标准无线通信协议(例如Wi-Fi通信协议或蓝牙通信协议)的无线连接电路。
电源连接器端口310是用于连接音频设备108和电源110的接口。电源连接器端口310可以是与电源110兼容的任何类型的接口,例如点烟器插头、A型插头、Mini-A型插头、Micro-A型插头、Type-C型插头等。在一些实施例中,电源110可以是嵌入音频设备300中的组件(例如,可充电电池或移动电源)或与音频设备300电连接的外部电源。在一些实施例中,电源连接器端口310可以支持音频设备和电源110之间的有线连接。音频设备300可以基于诸如USB充电协议的标准充电协议,通过与电源110的有线连接来充电。此外,音频设备300(例如,微控制器306)允许计算终端106通过音频设备(例如,通过电源连接器端口310和设备连接器端口308)由电源110进行充电。在一些实施例中,电源连接器端口310可以支持与电源110的无线连接。例如,电源连接器端口310可以包括支持标准无线充电协议的无线连接电路。
此外,同一音频设备300的设备连接器端口308和电源连接器端口310彼此兼容,并且它们包括用于传输电力和数据的匹配引脚,每对匹配引脚通过内部导线直接或间接地通过微控制器306连接。
当设备连接器端口308连接到计算终端106,并且电源连接器端口310连接到电源110时,音频设备300被配置为将电力从电源110传递到计算终端106,即为计算终端106充电。在一些实施例中,音频设备300可以包括一根或多根电线,该一根或多根电线被配置为通过微控制器306直接或间接地将电源连接器端口310与设备连接器端口308连接。当通过电源连接器端口310接收来自电源110的充电电流时,音频设备可以通过设备连接器端口308(例如,通过电线和/或基于来自微控制器306的控制信号)将充电电流传递到计算终端106。在一些实施例中,电源连接器端口310、微控制器306和设备连接器端口308可以被配置为支持无线充电方案,以方便电源110对计算终端106进行无线充电。此外,多个音频采集模块301由电源110供电。在一些实施例中,设备连接器端口308可以插入适配器,并通过适配器连接到计算终端106。在一些实施例中,当设备连接器端口连接至计算终端106,并且电源连接器端口310未连接至电源110时,多个音频采集模块301和微控制器306可以由计算终端106供电。
多个音频采集模块301被配置成收集来自周围环境的音频信号,并将所收集的音频信号发送到微控制器306。如图3-1所示,该多个音频采集模块可以包括第一音频采集模块302和第二音频采集模块304。尽管仅示出两个音频采集模块,但是音频采集模块的总数量不受限制。每个音频采集模块包括一个麦克风,如模拟麦克风和/或数字麦克风。在一些实施例中,音频采集模块可以进一步包括放大器和/或模数转换器(ADC)。可选地,放大器和/或ADC可被包括在微控制器306中。在一些实施例中,多个音频采集模块301中的一个或多个可以是微机电系统(micro-electro-mechanical systems,MEMS)麦克风。在一些实施例中,音频采集模块301中的一些或所有组件可以被集成在同一片印刷电路板(PCB)中作为微控制器306。可选地,多个音频采集模块301中的一个或多个可以被配置在与微控制器306不同的位置,并且通过电线连接到微控制器306。
微控制器306被配置为接收来自包括在音频设备中的所有音频采集模块301(例如,第一音频采集模块302和第二音频采集模块304)的音频信号,处理所收集的音频信号以生成数据流,并将该数据流发送到计算终端106(例如,通过设备连接器端口308),以使计算终端106基于该数据流执行相应的操作。
在一些实施例中,微控制器是能够接受多个通道的模拟信号并在多个通道并行地执行输入信号的数字采样的编码解码器芯片。该数字采样可以包括用于模拟信号的模拟-数字转换和/或脉冲密度调制(pulse-density modulation,PDM)。每个麦克风(即每个音频采集模块)均配备有单独的采样端口,该采样端口独立且与其他(一个或多个)采样端口并行运行。每个麦克风的数字采样率是相同的。也就是说,每个麦克风在对应的采样端口处连接到相同的单个微控制器306,并且该微控制器306被配置为使用相同的时钟信号以相同速率对来自每个麦克风的音频信号进行采样。例如,当采样率是16kHz并且音频设备总共包括四个麦克风时,微控制器306可以在每个采样周期(例如,1/16毫秒)获得四个数字数据点。
在一些实施例中,微控制器306被配置为以替代方式对来自至少两个麦克风的采样数据进行编码以生成数据流。具体地,假设音频设备中包括的麦克风的总数表示为n,紧接在对m个连续采样周期(即m个数据点)中从第i个麦克风采样的音频数据进行编码之后,对来自第(i+1)个麦克风的相同m个连续采样周期采样的音频数据进行编码,其中i为1到n-1的整数,m为正整数,例如3。此外,在对从第n个麦克风采样的音频数据进行编码之后(即,当i等于n时),将第一麦克风从之后的m个连续采样周期中采样的音频数据进行编码。例如,音频设备包括4个麦克风(即,n=4),并且编码方案可替代地以每3个连续采样周期(即,m=3)对来自4个麦克风的采样数据点进行编码。在任何采样周期中,从四个麦克风采样的数据点可以表示为At、Bt、Ct和Dt,其中t是采样周期的序列号。编码的数据流可以包括:A0A1A2B0B1B2C0C1C2D0D1D2A3A4A5B3B4B5C3C4C5D3D4D5A6A7A8B6B7B8......。在另一个示例中,如果连续采样周期数为1(即,m=1),则编码的数据流包括:A0B0C0D0A1B1C1D1A2B2C2D2A3B3C3D3A4B4C4D4......
此外,每个数据点(例如,A0或B0)的特定编码格式不受限制。每个数据点可以是8位数据、16位数据、或者具有其他固定位大小(例如为PCM(脉冲编码调制)数据)。在一些实施例中,微控制器306可以使用压缩方案将多个数据点压缩为一个数据封包。例如,音频设备包括4个麦克风,编码方案是每隔3个连续采样周期对来自4个麦克风的采样数据点进行编码。每个封包可包括来自一个麦克风的三个连续采样数据,例如A0A1A2或B0B1B2。这些封包可以使用适合于相应数据点的任何压缩方案来压缩。不同封包的压缩方案不一定相同。压缩A0A1A2的封包的大小可以与压缩B0B1B2的封包的大小不同。进一步地,封包使用类似交错的方式被编码到数据流中。可以在每个封包的开始和/或结束处添加特定标记,以将同一封包中的数据点与编码数据流中的其他数据点分开。例如,在每个封包的末尾添加逗号。该编码得到数据流可以包括:A0A1A2,B0B1B2,C0C1C2,D0D1D2,A3A4A5,B3B4B5,C3C4C5,D3D4D5……。
在一些实施例中,基于固定频率的相同时钟信号,在同一编译码器中的对应采样端口/接口处同步地采样所有麦克风收集的音频信号。根据采样周期,以上述替换/交错方式对采样的数字数据进行严格地编码。这样的配置可以确保即使在通信期间存在通信延迟或分包丢失的情况,也可以基于音频信号的多个采样时间序列来对编码数据流进行译码,以恢复音频信号的多个通道的精确对齐。精度可以达到微秒的范围。这样的精度和准确性水平使得计算终端106能够实现一种或多种多输入音频处理方案,诸如确定(一个或多个)声源的特性(例如,方向和/或距离)、基于该特性增强来自期望声源的信号、基于该特性减弱来自噪声源的信号等。
本文所公开的编码方案的优点包括,数据流可以被以某种形式打包以进行异步通信(例如USB数据传输)。当通信发生拥塞、延迟甚至偶发的数据包丢失时,译码后的数据流仍可以根据音频信号的采样时间序列恢复音频信号的多个通道的精确对齐,并且多输入音频处理方案的性能并不明显受到影响。使用前面的编码示例,编码的数据流包括:A0B0C0D0A1B1C1D1A2B2C2D2A3B3C3D3A4B4C4D4。可以将编码的数据流以与相同采样周期相对应的数据点为单位将其打包成数据包。也就是说,对于四个麦克风,将At、Bt、Ct和Dt视为一个单元。每个数据包可包括两个单元的数据点。假设在通信期间丢失了用于描述其中两个单元的数据包A2B2C2D2A3B3C3D3,则译码后的数据流仍可以使用其余数据包:A0B0C0D0A1B1C1D1A4B4C4D4来对齐四个通道而不会影响不同数据包之间的相对时间序列。如果采样的音频信号是分开发送的并且未在所公开的交错编码方案中进行编码,则计算终端106将不能根据音频数据点的采样时间序列恢复其精确的对齐。
在一些实施例中,数据流可以包括由微控制器306直接将来自所收集的音频信号转换/编码而成的数字化信号。例如,微控制器306可以被配置为通过使用特定的编码策略对由每个音频采集模块收集的每个音频信号进行编码来生成数据流,以保存关于特定麦克风的信息,该特定麦克风的信息在每个音频数据点收集,并确保由不同麦克风同时创建的音频数据点可以准确地重新创建,而不会破坏或不匹配由不同麦克风收集的音频信号的原始时间序列。基于该数据流,计算终端106可以重建由不同麦克风在同步时间帧中收集的音频信号。
在一些实施例中,微控制器306可以被配置为对来自音频采集模块的音频信号执行预设的信号处理方案,以产生处理后的信号,并将处理后的信号编码为数据流。例如,微控制器306可以使用差分放大器或其他预处理技术来处理来自所述音频采集模块302和304的音频信号,以产生数据流。例如,第一音频采集模块302收集的第一音频信号主要包括周围环境中的人类语音,第二音频采集模块304收集的第二音频信号主要包括周围环境中的背景声音。也就是说,微控制器306可以被配置为从第一音频信号中减去第二音频信号,从而有意义的语音信号可以被放大并且更加可被区分。由微控制器306生成的数据流可以包括相减和放大的信号。因此,计算终端106可以分析数据流并执行相应的动作。不消耗太多计算能力或不需要排他处理的其他预处理技术也可以被实现,例如自动增益控制或信号放大。
在一些实施例中,微控制器306被配置为使用USB数据传输协议将数据流发送到计算终端106。音频设备300可以被配置为支持标准USB数据传输协议和标准USB充电方案。在一些实施例中,微控制器306可以是数字信号处理器(DSP)和/或音频编译码器芯片(Codec)。
在一些实施例中,当音频设备连接到电源时,第一麦克风(第一音频采集模块302)的耗电、第二麦克风(第二音频采集模块306)的耗电和微控制器306的耗电均由电源提供;当音频设备连接至计算终端并与电源断开时,第一麦克风、第二麦克风和微控制器的耗电由计算终端(例如,计算终端106)提供。
在一些实施例中,音频设备300可以进一步包括一个或多个指示灯,其被配置为(例如,通过发出不同颜色的光)表明音频设备300的当前状态。音频设备300的状态可以是以下一项或多项:由电源110供电、由计算终端106供电以及当前正在收集音频信号。
图3-2示出了支持USB连接的示例性音频设备的电路示意图。可以理解,USB连接是本公开的图3-1所示的音频设备的说明性示例。只要通信协议和相应的硬件接口满足预设的带宽下限并且不会出现规则的传输拥塞,任何其他适当的有线或无线通信协议都可以使用相同的原理来实现,例如串行端口连接协议、I2S(IC间声音)协议、SPI(串行外围接口)、蓝牙低功耗通信协议等。
如图3-2所示,设备连接器端口308可以连接到(例如,插入)计算终端(例如,智能收集、笔记本电脑、平板电脑)的兼容USB端口。微控制器306连接到所有音频采集模块并且对来自音频采集模块的音频信号进行编码以产生数据流。数据流通过设备连接器端口308中的USB数据链路引脚(例如D+引脚和D-引脚)传输到计算终端。
微控制器306包括直流(DC)功率检测引脚,其被配置为探测是否有电源的可用(例如,基于在该引脚处的采样电压信号)。具体地,设备连接器端口308的Vbus引脚通过二极管D1连接至电源连接器端口310的DC输入引脚。二极管D1的阴极连接到设备连接器端口308的Vbus引脚,二极管D1的阳极连接到电源连接器端口310的DC输入引脚。微控制器306的Vcc引脚直接连接到设备连接器端口308的Vbus引脚。DC输入引脚连接到第一电阻器R1的第一端子。第一电阻器R1的第二端子连接到微控制器306的DC电力检测引脚,并且还连接到第二电阻器R2的第一端子。第二电阻器R2的第二端子以及微控制器306的接地引脚、设备连接器端口308和电源连接器310均接地。音频设备可以由电源110通过电源连接器端口310充电,也可以由计算终端通过设备连接器端口308充电。音频设备的实际充电模式由微控制器306根据在直流电源检测引脚上采样的电压信号确定。从计算终端106的角度来看,计算终端106可以使用其自身的电力对音频设备进行充电,或者可以从电源110接收由音频设备传输的充电电流。计算终端106的充电模式可以根据在设备连接器端口308的(一个或多个)标准充电协议链接引脚上传递的信号进行调整或控制。基于不同的USB类型(例如ID引脚、CC1引脚和CC2引脚等),(一个或多个)标准充电协议链接引脚可能会有所不同。设备连接器端口308可以根据支持的USB连接类型包含一个或多个充电协议链接引脚。
在操作中,当电源110连接到电源连接器端口310时,在DC电力检测引脚上采样的电压较高。基于高电平电压信号,微控制器306可以确定电源可用,通过(一个或多个)充电协议链接引脚与计算终端106通信,并且允许来自电源110的充电电流通过设备连接器端口308的Vbus引脚传送到计算终端106。此外,音频设备300中组件的耗电由电源110提供。当电源110正在供应电力时,该二极管D1可以防止从计算终端到音频设备的反向电流。当电源110未连接至电源连接器端口310时,在DC电力检测引脚处采样的电压低。基于低电平电压信号,微控制器306可以确定电源不可用,通过(一个或多个)充电协议链接引脚与计算终端106通信,并促进计算终端106通过设备连接器端口308的Vbus引脚向整个音频设备提供电力供应。
这种配置的技术优势包括:从电力供应的角度来看,配件音频设备300和计算终端106可以被视为一个整体。当外部电源不可用时,它们都消耗计算终端106的电池电力,并且当外部电源可用时,它们都可被充电。也就是说,这两个设备(即,计算终端106和音频设备300)仅占用来自外部电源的单个电源端口/接口。这为用户提供了便利,特别是在电源端口总数有限的情况下(例如在汽车中)。
在一些实施例中,音频设备300可以进一步包括可选的音频输出端口309。该音频输出端口309可以是与诸如3.5mm电线之类的标准音频电线兼容的标准音频插孔,从而音频设备300可以通过音频电线和音频输出端口309连接到音频输出设备(例如,一个或多个嵌入式或外部扬声器)。可替换地,音频输出端口309可以包括带有标准音频插孔连接器的音频电线。该标准音频插孔连接器直接插入外部音频输出设备(例如,外部扬声器)的辅助输入设备。微控制器306可以可选地包括连接至音频输出端口309的一个或多个辅助输出引脚(例如,用于左声道和右声道的两个引脚)。当音频设备300连接到计算终端106并且当音频输出设备连接到音频输出端口309时,微控制器306被配置为通过(例如,在D+和D-引脚上的)设备连接器端口308接收从计算终端106发送来的音频数据,并通过音频输出端口309将音频数据发送到(一个或多个)外部扬声器。在某些实施例中,音频输出端口309物理上位于与电源连接器端口310相同的一端。这样的配置对于没有音频插孔但仍需要充电并同时连接到外部音频输出设备的智能手机是很有用的。这样的配置对于在汽车或电话会议中使用的音频设备也是特别有用的。两种应用场景都要求以足够大的音量播放从计算终端106输出的音频,以使(一个或多个)人类用户能够听到。如果没有上述的配置中,嵌入在计算终端106中的(一个或多个)本机扬声器将播放声音,并且这些声音将干扰由多个麦克风301收集的音频信号。由于音频设备108经常被插入到计算终端106作为配件或扩展坞,前者的多个麦克风中有一些会在物理上靠近后者的(一个或多个)扬声器。结果,这些麦克风中的一些可能会受到计算终端106的(一个或多个扬声器)所播放的音频的严重干扰或甚至渗透。通过将要播放的内容定向到诸如(一个或多个)外部扬声器的音频输出设备,例如汽车音响系统中的那些,可以解决上述干扰和渗透的问题,并且可以更好地区分来自所需音频输出设备的音频信号。因为通过多输入音频处理方案来衰减/抑制或去除从计算终端106输出的音频,该音频是从外部音频输出设备播放并且从所有周围角度传到音频设备108的音频/环境噪声。
图4-1至图4-5示出了根据所公开实施例的示例性充电器电线的示意图。如图4-1至图4-5所示,所公开的音频设备300可以是充电器电线,其看起来与标准USB充电器电线基本相同。该充电器电线可以包括用于(例如,通过设备连接器端口308)连接到计算终端106的第一端和用于(例如,通过电源连接器端口310)连接到电源108的第二端。在一些实施例中,容纳微控制器306的PCB可以被配置在充电器电线的第一端。可选地,可以将该PCB配置在充电器电线的第二端。
此外,多个音频采集模块301,例如第一音频采集模块302和第二音频采集模块304被配置在充电器电线上的不同位置。在一个示例中,如图4-1所示,第一音频采集模块302(即,第一麦克风)位于充电器电线的第一端的靠近于设备连接器端口308处,其更靠近计算终端106,并且第二音频采集模块304(即,第二麦克风)位于充电器电线的第二端的靠近于电源连接器端口310处,其更靠近电源110。在一些实施例中,来自第一麦克风的音频信号可被视为来自所需的声源(例如,来自计算终端106的用户的语音信号)并经过增强以进行进一步分析,并且来自第二麦克风的音频信号可被认为来自周围环境,并且用作参考信号以减少来自第一麦克风的音频信号中的噪声。在另一个示例中,如图4-2所示的轮廓图,第一音频采集模块302面向充电器电线的第一端的前侧,并且第二音频采集模块304面向充电器电线的第一端的后侧。此外,对应于第一音频采集模块302的麦克风开口和对应于第二音频采集模块304的麦克风开口可以布置在对称的位置处。可替代地,两个麦克风开口可以被布置在第一端的非对称位置处。这两个麦克风形成麦克风阵列,并且来自两个麦克风的音频信号可以被计算终端106用于进一步处理。在另一个示例中,如图4-3的轮廓图所示,除了配置在充电器电线的第一端的相对侧(例如,在设备连接器端口308附近)的两个麦克风之外,还可以在充电器电线的第二端的前侧(例如,靠近电源连接器端口310)设置第三麦克风。由于该电线结构,第三麦克风与第一和第二麦克风不具有固定的几何关系。在一些实施例中,来自第一和第二麦克风(即,麦克风阵列)的音频信号可以被认为是来自期望的声源(例如,来自计算终端106附近的(一个或多个)人类对话者的语音信号),并且将其增强以进一步分析,以及可以将来自第三麦克风的音频信号视为在周围环境使用的音频,并且将其用作参考信号以减少来自第一麦克风的音频信号中的噪声。在另一个示例中,如图4-4的前视图所示,第一音频采集模块302和第二音频采集模块304均位于设备连接器端口308上的充电器电线的前侧。可以理解的是,第一音频采集模块302和第二音频采集模块304均可以位于电源连接器端口310上的充电器电线的同一侧。在另一个示例中,如图4-5所示,可以在充电器电线的同一端的相同前侧布置四个麦克风。该四个麦克风可以被布置为位于相同的垂直轴上并且彼此具有均匀的间隔。
在另一实施例中,可以根据安装结构(例如,用于手机的汽车支架或手机支架)来使用所公开的音频设备(例如,充电器电线)。例如,图14示出了根据所公开实施例的示例性手机支架的示意图。麦克风阵列可以嵌入在图14所示的安装结构中,而额外的麦克风则嵌入到音频设备的电源连接器310中的另一端,该电源连接器310(例如,通过适配器)连接到USB插座或汽车点烟器插座。这样一来,麦克风阵列可以为计算终端提供足够的多输入音频源,以跟踪并增强(甚至来自远场)人声,并且额外的麦克风可以拾取背景声音。这样的配置可以通过语音控制来支持移动手机的免提操作。此外,音频设备支持标准的USB数据传输协议,该协议使得可以将充电功率/电流和音频数据从麦克风传递到移动手机。此外,可以将电源适配器插入汽车点烟器或壁装电源插座,并将输入电压转换为用于USB通信的标准电压(例如5V)。移动手机与安装结构可以一起被放置在用于收集来自用户的语音输入的任何所需位置,例如汽车的控制台面板、厨房桌子、办公桌等。
基于所公开的硬件设备,当用户在计算终端106附近讲话时,用户的语音和背景声音被收集并经由所公开的音频设备发送到终端。该计算终端106可以实现远场语音信号处理技术,以处理音频信号、去除噪声并恢复用户的清晰的语音信号。计算终端106可以进一步分析用户的语音信号,并使用语音唤醒技术,以确认它是否是用于在计算终端106上执行操作的语音指令。如果确认该语音信号是语音指令,则计算终端106可以对随后收集的语音信号执行实时语音识别,以确定用户的意图。当识别到用户打算输入文本时,语音识别技术用于将语音信号转换为文本内容,并在用户通过消息传递应用程序或社交网络服务(SNS)应用程序聊天时执行相应的发送操作。当识别出用户的意图是更高层次的意图时,可以使用自然语言处理技术来识别该意图,并调用相应的应用程序以执行预期的操作(例如,导航、播放音乐等)。
如先前所解释的,多个麦克风的位置(例如,不同麦克风之间的位置关系、麦克风与诸如人类对话者之类的声源之间的位置关系)可能会影响由相同声源产生并由不同麦克风接收的相同音频内容的实际时间戳。例如,距声源较近的麦克风可能比距声源较远的麦克风稍早接收相同的音频内容,从而产生时间差。许多多输入音频处理方案正在利用这种时间差来定位声源、增强所需的音频内容和/或减少不需要的音频内容(例如噪声)。
在基于麦克风阵列的多输入音频处理方案的应用中,连接麦克风阵列中的两个麦克风的音孔(也称为声学开口或声音捕获孔)的轴具有中心作用。基本上,多输入音频处理方案可根据表示同一声源并被两个麦克风接收的信号之间的时间差来推导声源相对于轴的方向:由位于轴一端的声源产生的音频信号对应于最大时间差(正极端值),而位于轴另一端的声源产生的音频信号对应于最小时间差(负极端值);以及与位于轴法线平面上的声源产生的音频信号对应的时间差等于0。根据类似的原理,在多输入音频处理方案中使用的算法可以通过评估从正极端值到负极端值的时间差来区分相对于轴的不同角度的声源。当在麦克风阵列中至少有三个非共线排列的麦克风时,可以使用不止一个这样的轴来定位声源。然后,该算法可以得出不同声源的特定空间方向角度和距离,并对音频信号执行进一步的处理,例如从这些声源中区分/分离音频信号、增强某些声源的音频信号、抑制或消除来自某些声源的音频信号、跟踪来自特定声源的音频信号等。
在麦克风阵列仅包括两个麦克风的情况下,基于时间差的多输入音频处理方案可以准确地区分沿轴或轴附近的两个方向(例如,正面和背面)的声源。位于这些地方的声源的特征在于,与由声源产生的音频信号相对应的时间差接近于正或负极端值。因此,在使用双麦克风阵列的技术方案中,如果可以预先确定目标声源的大致方位,则可以大大提高方案的性能。在一些实施例中,当(一个或多个)目标声源的大致方向是已知的并且音频设备可以被调节或约束时,使得连接两个麦克风的音孔的轴线朝向该(一个或多个)目标声源(例如,用户可以手动调整音频设备,或者音频设备的机械设计可以促进或导致这种朝向定向)。图13和图12所示的两个实施例将在下面描述以说明其应用场景,其中用户可以手动调节两个麦克风阵列,或者通过特定的机械设计将两个麦克风阵列定向到适当的朝向,从而以最小的成本实现所需的音频处理性能。
图13示出了根据所公开实施例的示例性音频设备的一种应用场景。图13所示的音频设备包括两个麦克风,该两个麦克风的放置方式使得连接两个麦克风的音孔的轴严格垂直于其USB连接器(例如,类似于图4-2中所示的音频设备)的平面。当用户将音频设备108连接到智能手机106时,由于市场上几乎所有智能手机的设计都是手机的USB连接器端口的平面始终与手机的显示屏(例如监视器206)平行,因此从机械上讲,可以保证在音频设备上连接两个麦克风的音孔的轴严格平行于智能手机显示屏的法线轴,并向下距显示屏的中心约为10cm(根据屏幕显示内容的通常方向)。在使用智能手机时,用户可能有很大的机会从接近其法线轴的方向观看显示屏,从而用户的眼睛处于与屏幕法线轴成角度θa的圆锥范围内。因此,计算终端可以安全地假设声源(用户的嘴巴)的位置距眼睛向下大约10厘米,其位置靠近连接音频设备上两个麦克风的音孔的轴(例如,待增强的声源在与距轴线的角度θb相对应的圆锥范围内)。基于实际应用,角度θa和θb在多输入音频处理方案中是可被调整的参数。如前面所述,麦克风阵列的这种几何布局提供了执行多输入音频处理方案(例如波束形成)的理想方案。也就是说,通过所公开实施例的机械设计,待增强的声源在方向上几乎是固定的,计算终端可以容易地执行音频处理方案以维持待增强的声源,同时衰减来自所有其他来源的声音,包括环境噪声和手机用户以外的人类对话者的声音。对于在行车驾驶(仅增强驾驶员(作为导航设备的智能手机用户)的声音)或者在嘈杂的街道的面对面翻译(同样将智能手机用作翻译设备的用户及他的交谈者(位于该用户的智能手机的对面))等场景中,该优点对于音频设备的良好性能是至关重要的。
图12示出了根据所公开实施例的示例性音频设备的另一应用场景。当两个人类在嘈杂的环境中进行对话时,他们可能会放置一个包括有两个麦克风的音频设备在他们之间,如图12所示。连接两个麦克风的音孔的轴可以是水平的,也可以通过手动调整使其倾斜任何适当的角度,以使该轴大致指向两个人类对话者的嘴部。环境噪声可能源自音频设备周围的任何随机方向。这种应用场景在日常对话中尤为常见。如前文所述,麦克风阵列的这种几何布局提供了执行多输入音频处理方案(例如波束形成)的理想方案。
本文所公开的音频处理系统在需要记录和/或识别一个以上主要声源的这种应用场景中尤其有用。
例如,计算终端在重构来自两个麦克风的音频信号之后,可以同时执行两个多输入音频处理方案。第一多输入音频处理方案可以集中于增强来自第一人类对话者的语音信号。即,可以保留在以第一麦克风的音孔处为顶点的直圆锥(其轴线与母线之间的夹角为θ1)范围内的声音,并且该范围之外的声音可以被过滤掉。第二多输入音频处理方案可以集中于增强来自第二人类对话者的语音信号。即,可以保留在以第二麦克风的音孔处为顶点的直圆锥(其轴线与母线之间的夹角为θ2)的范围内的声音,并且该范围之外的声音被滤除。角度θ1和θ2是可以在基于实际应用的多输入音频处理方案中调整的参数。在一些实施例中,可以在本文中应用波束形成技术以选择性地将声音保持在一定范围内并且滤除该范围之外的声音。由于两个人类对话者的嘴巴都位于连接两个麦克风的两个音孔的轴上,因此,来自两个麦克风的音频信号之间的最大时间差发生在从第一人类对话者和第二人类对话者沿轴传播的声音(例如,从重构信号获得的最明显的时间差是18ms)。在对应于第一人类对话者的直圆锥范围内的声音具有第一相应的时间差范围(例如,从15ms到18ms)。类似地,在对应于第二人类对话者的直圆锥范围内的声音具有第二相应的时间差范围(例如,从-15ms到-18ms)。可以将类似的噪声消除或滤声过程应用于重构的音频信号以获得与第二人类对话者相对应的第二增强信号。在一些实施例中,环境噪声(例如,大约0ms的时间差的对应范围)可以被进一步减小或消除。这样的配置可以清楚地区分两个人类对话者发出的声音,即使两个人类对话者同时打断对方的讲话也是如此。计算终端可以对第一增强信号和第二增强信号执行语音识别,以确定对应的文本或用户命令。这在诸如记录对话和机器翻译之类的应用场景中特别有用。
在一些实施例中,计算终端可以被配置为基于重构的音频信号对来自正面方向的声音执行上述噪声消除方案(例如,增强第一麦克风面向的范围内的信号并减少来自其他方向的信号),以获得增强信号并使用该增强信号执行语音识别。在其他一些实施例中,计算终端可以被配置为对来自背面方向的声音执行上述噪声消除方案(例如,增强第二麦克风面向的范围内的信号并减少来自其他方向的信号)以获得增强信号并使用该增强信号执行语音识别。在其他一些实施例中,计算终端可以被配置为基于应用场景或用户设置同时或轮流针对来自正向和背向的声音分别执行上述噪声消除方案,并且使用(一个或多个)增强信号来执行语音识别。
当如本公开中所实现的那样由计算终端执行功耗处理时,与使用自己的计算资源的独立音频设备(该独立音频设备通常只能一次执行一种多输入音频处理方案)相比,所公开的音频处理系统(即所公开的配件级音频设备和通常配备有多核CPU的计算终端的组合)的计算能力要高得多,并允许同时并行地执行多种多输入音频处理方案(例如,通过并行运行多个线程)。如以上示例所述,在一个相同的多输入音频数据上并行地应用不同的多输入音频处理方案,这在各种使用场景中可以实现非常有用的功能,例如:在公共咖啡厅中接收电话会议请求时,用户想加入通话而不会引入周围的所有环境噪音;在开放空间办公室与远方通讯员进行一对一的联机会议时,希望降低语音音量以最大程度地减少对其他同事的影响,并在可能的情况下自动生成文本文件形式的会议记录;当两个人别无选择,只能在不可避免的周围噪音环境中的公共场所进行认真的讨论时,他们可能仍然希望在谈话中留下文字备忘录。在以上所有情况下,对于技术解决方案而言,至关重要的是获得包含每个人类对话者的语音的一个或多个音频流,其中环境噪声和来自所有其他人类对话者的语音被衰减。
图15示出了根据所公开实施例的示例性会议音频设备的示意图。如图15所示,音频设备108可以被连接到计算终端106以用于电话会议或需要记录一个或多个人类对话者的语音或对话(例如,并将音频记录转换为文本)的其他场景情况。多个音频获取模块301(例如,音频设备的麦克风阵列组件)可以根据预设的几何图案放置,以促进(一个或多个)多输入音频处理方案获得每个对话者的增强语音的独特音频流,同时降低噪声,实现良好的语音识别性能。同时,音频设备可以包括连接到(一个或多个)嵌入式或外部扬声器的音频输出端口309,因此,来自远处的(一个或多个)参与者的声音(如果有的话)可以被本地人类对话者听到。与具有高成本和庞大结构的独立电话会议设备相比,用户可以仅将所公开的音频设备108连接到计算终端106并实现类似的功能。
本公开提供了一种基于音频设备的音频处理方法。图5示出了根据所公开实施例的示例性音频处理方法的流程图。该方法可以由音频设备300、计算终端106(例如,通过执行与音频设备300兼容的已安装软件应用程序)和服务器104中的一个或多个来实施。该软件应用程序可以由音频设备的制造商开发。或者,音频设备的制造商可以为第三方开发人员提供SDK库,以将音频设备的功能嵌入到与语音识别相关的第三方应用程序中。如图5所示,该方法可以包括以下步骤。
音频设备连接到计算终端(S502)。音频设备(例如,音频设备300)与至少两个麦克风集成在一起。音频设备被配置为当音频设备的一端连接至计算终端时,将由至少两个麦克风收集的音频信号传递至计算终端。
当连接了音频设备时,与音频设备兼容的应用程序可以激活计算终端的语音控制模式。即,基于从音频设备发送的音频信号,应用程序连续监视和分析来自用户的语音指令。在一些实施例中,可以在连接音频设备时启动应用程序。可替代地,应用程序的监视过程可以周期性地检测音频设备是否被连接。此外,在一些实施例中,在音频设备连接到计算终端之后,该应用程序可以在计算终端的后台运行,并且当需要报告传入的通知和/或检测到唤醒词并确认时,会将应用程序调用到前台。
获取由音频设备的至少两个麦克风收集的音频信号(例如,由音频设备的微控制器同步采样)(S504)。在一些实施例中,第一音频信号(即,由第一麦克风收集的音频信号)和第二音频信号(即,由第二麦克风收集的音频信号)被同时收集,并且在同一时间段分别在其周围反射声音。此外,可以实时地收集该两个音频信号。另外,音频设备的每个麦克风可以连续地监视周围的声音。当(由第一麦克风和/或第二麦克风收集的)声音的振幅达到预设阈值时,标记开始时间;当声音的幅度在预设时间段内(例如1秒)低于预设阈值时,标记结束时间。第一麦克风从开始时间到结束时间收集的数据被确定为第一音频信号,第二麦克风从开始时间到结束时间收集的数据被确定为第二音频信号。在一些实施例中,一条音频信号对应于用户说出的短语或句子。在一些实施例中,一条音频信号对应于具有预定持续时间的时间段。
在一些实施例中,音频设备可以在所收集的音频信号上执行一些预处理技术,例如放大第一阶段信号、消除第一阶段噪声等。
音频设备对音频信号进行编码以产生一个数据流(S506)。例如,使用交错编码方案对来自至少两个麦克风的音频信号进行编码以生成数据流。该数据流被配置为由计算终端用于在同步时间帧中重建由至少两个麦克风收集的音频信号。换句话说,计算终端可以对该数据流进行译码并重建音频信号,并且编码方案使计算终端能够重建反映精确的同步时间序列的音频信号。例如,可以在相同的第一采样时间将由音频设备的不同麦克风收集的第一数据点精确地对准在重构信号中。在具有相同间隔的第一数据点之后,由音频设备的不同麦克风在比第一采样时间晚的相同第二采样时间处采集的第二数据点肯定地出现在重构信号中。
此外,由计算终端处理重构的音频信号执行相应的动作。例如,计算终端可以分析/处理重构的音频信号(例如,对重构的信号执行至少一种多输入音频处理方案)以获得一个或多个增强的语音信号,例如放大第二阶段信号放大、消除第二阶段噪声等。计算终端可以进一步识别唤醒语音命令或对增强信号执行语音识别,基于该增强信号检测用户意图,并基于检测结果执行动作。换句话说,可以通过使用集成在音频设备中的麦克风所收集的音频信号,并由计算终端对该音频信号进行分析/处理,实现对该计算终端的语音控制。
在一些实施例中,音频设备可以与电源连接。音频设备被配置为将来自电源的电力通过音频设备提供给计算终端。另外,音频设备本身的电力供应也从电源接收并获得。电源可以是音频设备的嵌入式组件,也可以是电连接到音频设备的外部电源。在一些实施例中,音频设备可以确定电源未连接到音频设备,并且从计算终端接收电力供应。即,当电源不可用时,音频设备通过使用来自计算终端的电力来充电及维持其运行。在一些实施例中,音频设备支持标准USB充电协议,以基于电源的可用性来实现上述充电方案。音频设备还支持标准USB数据传输协议,以将数据流传输到计算终端。
图6示出了根据所公开实施例的用于处理来自麦克风的音频信号的示例性过程的流程图。具体地,在计算终端对数据流进行译码并重建来自至少两个麦克风的音频信号之后。步骤S508进一步可以包括:计算终端通过执行多输入音频处理方案获得增强语音信号(S5082)。在一些实施例中,可以并行地执行多个不同的多输入音频处理方案,并且每种多输入音频处理方案可以产生一个相应的增强信号。
例如,可以通过放大差分信号来获得增强的语音信号,该差分信号是通过从代表期望声源的第一音频信号中减去代表周围环境声源或不想要的人类对话者的第二音频信号而获得的。第一音频信号可以是由第一麦克风收集的语音输入,其中该第一麦克风定位于离计算终端(例如,在音频设备的设备连接端口处)的用户更近的位置,并且主要包括人类语音的信息;第二音频信号可以是由第二麦克风收集的背景声音,该第二麦克风定位于离用户较远的位置(例如,在音频设备的电源连接端口处)。因此,通过从第一信号减去第二信号以获得差分信号,可以减少或去除背景噪声,并且通过放大差分信号,可以进一步增强从用户输入的语音。可以在第一音频信号和第二音频信号上使用任何适当的信号处理技术以获得增强的语音信号。
在一个实施例中,设定第一麦克风比第二麦克风更靠近用户。换句话说,默认情况下,来自音频设备的一个指定麦克风(例如,第一音频采集模块302的麦克风)的音频信号被视为语音输入,来自另一个指定麦克风(例如,第二音频采集模块304的麦克风)的音频信号被视为背景声音。在另一实施例中,可以对两个音频信号进行预处理和/或比较,以识别哪个是语音输入以及哪个是背景声音。具体地,在一个示例中,具有大于某个阈值的音量的音频信号被认为是语音信号。在另一示例中,具有较高信噪比或具有较高信息内容/熵的音频信号被视为语音信号。
在一些实施例中,计算终端的(一个或多个)麦克风可以用于收集周围的声音并根据由音频设备的麦克风收集的音频信号来获得增强信号。例如,可以将由音频设备的麦克风收集的音频信号视为语音输入(例如,用作第一音频信号和第二信号);以及计算终端的(一个或多个)麦克风所收集的(一个或多个)音频信号可以被认为是背景声音(例如,用作第三音频信号等)。因此,基于来自计算终端的麦克风和音频设备的麦克风的输入,可以应用差分放大器来获得增强的语音信号。
步骤S508进一步包括:基于增强后的语音信号进行语音识别或语音唤醒检测,使得计算终端基于语音识别或语音唤醒检测的结果执行动作(S5084)。具体地,取决于增强语音信号的内容、在计算终端上执行的先前动作和/或计算终端的当前状态,各种动作可由该计算终端执行。例如,当计算终端处于空闲状态时,可以确定增强语音信号是否包括语音唤醒词;并且当计算终端期望用户输入时(例如,在通过语音唤醒词唤醒计算终端之后,在计算终端将传入消息转换为音频消息并播放音频消息之后,或需要用户输入的任何其他情况),则可以对增强的语音信号执行语音识别以获得相应的文本。语音识别可以由计算终端离线进行,也可以与云服务器配合进行。另外,语音识别的结果可以进一步用于计算终端上的语音编辑、用户意图识别和/或其他语音控制操作。
在一些实施例中,本文所公开的方法可以进一步包括:将音频设备连接至电源,以及通过音频设备利用由电源提供的电力来对计算终端充电。即,音频设备被配置为当一端连接到计算终端而另一端连接到电源时,将充电电力/电流从电源传递到计算终端。
应当注意,在一些实施例中,音频设备300的一端不需要连接到电源110以实现音频处理方法。只要音频设备300连接到计算终端106,就可以利用由电源110或计算终端106提供的电力来收集音频信号并将其发送到计算终端106以进行进一步处理。
图7示出了根据所公开实施例的另一示例性音频处理方法的流程图。如图7所示的音频处理方法描述了所公开的音频设备和音频处理方法的典型实施场景。当计算终端接收到传入通知时,触发该场景(S702)。
具体地,传入通知可以是计算终端的通知栏中的推送消息,也可以是安装在计算终端上的特定应用程序接收到的消息。推送消息可以是SMS消息、电子邮件消息、即时消息、来自SNS应用程序的新闻流等。传入通知可以被配置为呈现与应用程序有关的更新信息,并请求启动该应用程序以执行关于该更新信息的进一步动作。在一些实施例中,用户可以在与音频设备兼容的应用程序中预选择他/她想要获得语音更新的一个或多个应用程序。例如,用户可以选择接收消息传递应用程序、天气应用程序和SNS应用程序的语音更新,并忽略来自其他应用程序(例如游戏应用程序、新闻应用程序等)的通知。因此,所公开的方法可以进一步包括:确定传入通知是对应于预选的应用程序之一还是属于预选的应用程序类型之一;如果输入的通知对应于预选的应用之一,则执行步骤S704;如果没有,则等待下一个传入通知或语音唤醒词。
计算终端生成与所接收的传入通知相对应的语音消息(S704)。具体地,计算终端可以标识传入通知的基本信息,例如对应的应用程序名称、发件人名称等。当传入通知包括文本时,计算终端可以将文本转换为语音信号;当传入通知包括音频数据时,可以将音频数据直接用于构成语音消息。语音消息可以通过包括以下各项中的至少一项来组成:传入通知的基本信息、传入通知的内容或询问用户是否答复该消息的消息。例如,语音消息可以是“玛丽在Instagram上发布了一张照片,标题为:令人惊叹的日落”,或者是“您收到约翰在Facebook上说的消息:您好,您想回复吗”。此外,计算终端上的文本到语音的API可以用于基于传入的通知来合成语音消息。
进一步地,计算终端播放语音消息(S706)。该语音消息可以由计算终端的内置扬声器或连接到计算终端的外部扬声器/耳机(例如,蓝牙扬声器)播放。
计算终端获得关于是否响应传入通知的用户决定(S708)。在一个实施例中,关于是否响应传入通知的问题可以被包括在语音消息中,并且随后的音频信号可以被收集和分析以确定用户是否选择答复(例如,通过执行步骤S502-S508)或确定回复消息的内容(例如,通过执行步骤S502-S508)。在另一个实施例中,语音消息可以不包括问题,并且计算终端通过直接分析随后的音频信号来获得用户决定和/或回复消息。当用户选择响应传入的通知时(例如,当从后续音频信号获得的增强语音信号被识别为“是”或“回复”时,或者在计算终端完成播放语音消息后的5秒钟内接收到后续音频信号时),处理进入步骤S710。当用户选择不响应传入通知时(例如,当从后续音频信号获得的增强语音信号被识别为“否”时,或者在播放语音消息后未检测到音频信号时),处理进入步骤S702。在一些实施例中,计算终端可以合成并播放另一语音消息,该另一语音消息确认用户决定,例如“好的,请说出回复消息”或“好的,不回复消息”。此外,当用户确认响应传入通知时,计算终端可以在相应的应用程序中启动消息回复界面(例如,文本输入模式)。
在用户选择响应传入通知之后,获得来自音频设备的第一麦克风的第一音频信号和来自音频设备的第二麦克风的第二音频信号(S710)。可以以与步骤S504相似的方式执行步骤S710。此外,获得基于第一音频信号和第二音频信号的增强语音信号(S712)。可以以与步骤S5082类似的方式执行步骤S712。
在增强的语音信号上执行语音识别以获得回复消息(S714)。语音识别可以在计算终端上本地执行,也可以在云服务器上远程执行。任何适当的语音识别技术都可以用于检测与增强语音信号相对应的文本。
进一步地,计算终端请求用户确定所识别的回复消息是否需要编辑(S716)。例如,计算终端可以将所识别的回复消息的文本转换为语音信号,并且播放该语音信号以请求用户确认。例如,语音信号可以是“您说‘10分钟后到达’,是否正确”,或“您说‘10分钟后到达’,您要编辑消息还是发送消息”。在播放语音信号/语音消息之后收集的音频信号可以被获取并分析(例如,通过执行步骤S502-S508),以确定用户对回复消息的选择。当计算终端确定回复消息需要编辑时(例如,当用户答复“不正确”或“编辑消息”时),处理进入步骤S718。当计算终端确定准备好发送回复消息时(例如,当用户答复“正确”或“发送消息”时),处理进入步骤S720。
计算终端对识别出的回复消息执行语音编辑(S718)。具体地,在计算终端确认用户语音编辑意图后收集的音频信号可以被获取并分析(例如,通过执行步骤S502-S508),以确定语音编辑指令。该语音编辑指令可以包括:使用语音添加文本、删除文本或修改/替换文本。这样,用户可以通过语音控制对回复消息进行免提编辑。可以根据语音编辑指令来更新回复消息。当用户确认发送确认的回复消息时,计算终端可以发送回复消息(S720),从而完成通过语音控制处理传入通知的过程。
在各个实施例中,除了报告传入信息(例如,步骤S704)之外,每当请求用户选择/决定时(例如确定是否响应(例如步骤S708)确认语音识别的结果(例如步骤S716)),都可以实现语音合成(例如,文本到语音转换)。此外,取决于使用场景和用户偏好,当计算终端播放合成声音时,还可以在计算终端上显示用于语音合成的文本。
图8示出了根据所公开实施例的另一示例性音频处理方法的流程图。如图8所示描述了所公开的音频设备和音频处理方法的另一典型实施方案。
在将公开的音频设备连接到计算终端之后,获得来自音频设备的第一麦克风的第一音频信号和来自音频设备的第二麦克风的第二音频信号(S802)。具体地,可以在计算终端处于空闲状态时和/或当计算终端不期望基于先前的语音控制动作得到的用户响应时,可以执行步骤802。可以与步骤S504相似的方式执行步骤S802。此外,获得基于第一音频信号和第二音频信号的增强语音信号(S804)。该步骤S804可以与步骤S5082类似的方式执行。
计算终端检测增强语音信号是否包括语音唤醒词(S806)。如果增强语音信号包括唤醒词,则处理进入步骤S808,否则,处理进入步骤S802。
唤醒词可以被预先配置并记录在计算终端上的第一应用程序中。例如,唤醒词可以是用户选择的任何短语,例如“hello KIKA”或“ok KIKA”。在一些实施例中,可以配置多个唤醒词,并且当检测到多个唤醒词中的任何一个时,计算终端可以相应地响应。此外,多个唤醒词可以触发计算终端并基于预设配置做出相同或不同的动作。例如,“hello KIKA”或“ok KIKA”都可以触发计算终端以期望基于后续音频信号的下一个操作指令;以及“okphone dialer”可以触发计算终端启动电话拨号界面,并基于后续的音频信号以期望联系人姓名或电话号码。
当建立唤醒词时,计算终端可以请求用户多次读取唤醒词并且将语音输入记录为参考信号(例如,训练数据)。在配置了唤醒词之后,可以基于从参考信号中提取的特征和语音唤醒词的特征,获得用于唤醒词检测的第一训练模型和用于唤醒词确认的第二训练模型。所提取的特征可以是基于听觉的(梅尔频率倒谱系数、感知线性预测等)和/或基于发音的特征。训练模型可以基于人工神经网络来建立。因此,计算终端可以基于训练模型来确定增强语音信号是否包括唤醒词语。
如果增强语音信号包括唤醒词,则计算终端可以将与音频设备兼容的应用程序置于前台,和/或播放特定声音以确认成功识别了唤醒词,并随后期望来自用户的语音输入。
进一步地,基于在唤醒词之后接收到的音频信号来执行语音识别以获得用户命令(S808)。具体地,在唤醒词之后收集的信号可以被获取和分析(例如,通过执行步骤S502-S508),从而相应地确定用户命令。换句话说,在用户说出唤醒词并成功唤醒计算终端之后,随后的语音输入反映了要在计算终端上执行的期望操作。
计算终端确定用户命令是否包括意图(S810)。如果用户命令包括意图,则处理进入步骤S812,否则,处理进入步骤S816。具体地,用户命令可以是与能操作前台应用程序的操作相对应的语音命令(即,用户命令不包括意图),诸如编写消息、拨打电话等。可替代地,用户命令可以是用于启动除前台应用程序之外的特定应用程序的语音命令(即,用户命令包括意图)。换句话说,意图指的是可以通过描述用户想要执行的动作(诸如“播放音乐”、“查看地图”或“拍照”)来允许计算终端在另一个应用程序中开始活动。在一些实施例中,意图可以不指定要启动的应用程序名称,而是指定动作,并提供有关执行该动作的应用程序的一些数据。
可以分析用户命令以确定是否包括意图。具体地,将前台应用程序能够执行的操作与用户命令进行比较,以确定是否存在与用户命令匹配的操作。如果找到匹配操作,则处理进入步骤S816,否则,处理进入步骤S812。
当确定用户命令包括意图时,计算终端可以进一步根据用户命令来识别意图(S812)。具体地,可以利用自然语言处理技术来识别包含在用户命令中的用户意图。用户意图可以包括在计算终端上启动所识别的应用程序。所识别的应用程序与唤醒词触发的前台应用程序不同。在一些实施例中,用户意图可以进一步包括要在所识别的应用程序中执行的特定活动/操作。
基于所识别的意图启动应用程序(S814)。在一些实施例中,计算终端可以进一步基于所识别的意图在启动的应用程序中执行操作/活动。
当确定用户命令不包括意图时,计算终端可以进一步根据用户命令在前台应用程序中执行操作(S816)。例如,用户命令中指定的操作是撰写和发送消息。因此,可以执行语音编辑以获得消息。可以与步骤S718类似的方式执行步骤S816。此外,可以实现语音控制交互以选择用于接收消息的联系人。在用户编写并确认了消息之后,计算终端可以将消息发送到所选联系人(S818)。
图9示出了与根据所公开的实施例的示例性音频处理系统的结构图。如图9所示,系统900可以包括:信号收集模块902、信号处理模块904、语音唤醒模块906、语音识别模块908、语音编辑模块910、语音合成模块912以及意图处理模块914。其中的某些组件可以省略,并且也可以包括其他组件。
具体地,信号收集模块902可以被配置为执行语音信号收集。根据所公开的在不同位置处集成有至少两个麦克风的音频设备300,从该音频设备300获得来自至少两个麦克风的音频信号(例如,第一音频信号和第二音频信号)。在一些实施例中,可以将计算终端106设置为USB主机,并且将两个麦克风(例如,第一音频获取模块302和第二音频获取模块304)设置为USB外围设备。由麦克风收集的音频信号通过标准USB数据传输协议实时地或不实时地传输到计算终端106,从而实现远场语音信号的收集。
信号处理模块904可以被配置为执行远场语音信号处理。在接收到由麦克风收集的音频信号之后,音频设备300的微控制器306可以将音频信号编码为数据流以将其发送到计算终端106,并且可选地在编码之前对音频信号实施预处理。计算终端106可以对数据流进行译码、重构音频信号并执行(一个或多个)多输入音频处理方案以获得增强的信号。在一些实施例中,可以使用差分放大器,从第一音频信号中减去第二音频信号,进一步放大所得的信号,从而获得用户的清晰和增强的语音信号。
语音唤醒模块906可以被配置为检测用户是否说出唤醒词并执行相应的动作。具体地,可以进一步处理和分析来自信号处理模块904的增强语音信号,诸如从语音信号中提取声学特征。所需的声学特征类型可以是独特的,并且可以反映人类的听觉特征,例如MFCC(梅尔频率倒谱系数)。所提取的声学特征用于基于第一训练的声学网络模型(例如,经过训练以在多个唤醒词中对与语音信号相对应的候选唤醒词进行分类的人工神经网络模型)以进行唤醒词检测。如果具有最佳分数的路径包含唤醒词,则确定检测到唤醒词。此外,所提取的声学特征被用于基于用于唤醒词确认的第二训练的声学网络模型(例如,经过训练用于验证特定的唤醒词)以确认唤醒词。如果最终确认分数大于或等于预设阈值,则确认检测到的唤醒词是正确的,并且基于该唤醒词成功唤醒计算终端106。在唤醒计算终端106之后,信号收集模块902可以继续收集音频信号,该音频信号可以包含来自用户的进一步的语音命令。
语音识别模块908可以被配置为通过执行语音识别来分析增强的语音信号并获得包括在语音信号中的文本内容。在一些实施例中,计算终端106可以将语音信号上传到云服务器,以从语音信号中识别相应的文本。通过执行此过程,可以大大提高语音识别的准确性。当计算终端106与云服务器的连接不良时,计算终端106可以利用离线语音识别译码器进行粗略语音识别。来自语音识别模块908的结果可以用于语音唤醒模块906、语音编辑模块910和/或意图处理模块914。
语音编辑模块910可以被配置为基于来自用户的语音指令(例如,由语音识别模块908识别的语音指令)来编辑文本。在语音识别过程之后,由于语音识别的可能错误或人类对话者的自愿编辑需求,可能需要编辑一些识别的文本。语音编辑模块910支持通过语音的文本编辑,包括:识别文本中待编辑的位置以及各种语音编辑指令(例如:删除、添加、替换等),以实现基于语音的完整文本编辑。
语音合成模块912可以被配置为基于所提供的内容来生成语音消息。在汽车驾驶环境中使用手机的常见操作类型是检查SNS应用程序中朋友或关注者发送的消息。在这种情况下,计算终端106可以提供语音合成服务(例如,文本到语音服务),并且读取接收到的文本消息(例如,通过读取推送到通知栏的消息),将文本消息转换为音频消息,并自动播放音频消息。此外,计算终端106允许用户通过语音控制直接回复消息。即,可以将播放音频消息后的语音输入转换为文本,以回复接收到的消息。此外,还支持回复消息的语音编辑,从而可以回复用户满意的文本消息。
意图处理模块914可以被配置为执行意图识别并且基于所识别的意图来启动应用程序。在从语音识别获得文本之后,计算终端106进一步确定文本的内容是否包含特定的意图(用户意图),例如,打开导航应用、在导航地图中选择路线、在地图应用程序中搜索目的地、播放音乐等。计算终端106可利用自然语言处理技术来理解所识别文本的内容、识别包含在文本中的用户意图、并根据特定意图在计算终端106上启动应用程序(例如导航软件、媒体软件等),以实现与语音信号相对应的功能。
具体地,计算终端106可以安装有与所公开的音频设备兼容的软件应用程序。该应用程序可以包括程序模块902-914,并且当被计算终端106的处理器执行时,可以实现模块902-914的功能。该应用程序完全通过语音支持人机交互,并且与计算终端上的其他应用程序(例如,消息传递应用程序、社交应用程序、导航应用程序)和功能进行交互,以完成由用户语音输入指示的所需操作。
根据各种功能,与公开的音频设备兼容的应用程序可以进一步维护数据库,该数据库存储与语音控制有关的信息,例如用于在终端上触发用户发起操作的唤醒词、当报告传入通知时或当为用户提供选择/确认的选项时用于指定格式的报告模板、用于触发特定预设操作(例如,语音编辑指令)的语音命令、用户首选项、用于语音识别的训练模型等。
本公开提供了一种音频系统,其包括所公开的音频设备108和计算终端106。该音频系统可以实现先前实施例中描述的一些或全部功能。该音频设备包括至少两个配置为收集音频信号的麦克风和微控制器。该至少两个麦克风中的每一个分别连接到微控制器。微控制器被配置为处理由至少两个麦克风收集的音频信号以产生一个数据流,并当音频设备连接至计算终端时,将数据流发送至计算终端。计算终端被配置为将该数据流译码并重构音频信号,执行一个或多个多输入音频处理方案以获得一个或多个增强音频信号,并基于增强音频信号的语音识别结果执行动作。
通过实施本文公开的音频设备和音频处理方法,可以实现几个优点。1)计算终端在被充电时可以完全由语音命令控制,这释放了用户的手,甚至释放了用户的眼睛,从而消除了由手动操作计算终端引起的安全风险(例如,在驾驶时);2)与大屏幕控制台或现有技术中的外部汽车辅助设备相比,语音控制的硬件设备成本大大降低;3)计算终端的语音控制不仅支持启动基于意图的常用应用程序(例如导航、音乐等),还支持基于语音的社交软件聊天。
如本文所公开,所公开的方法和移动终端可以通过其他方式来实现。如以上根据各种实施例所描绘的移动终端仅是示例性的。例如,可以基于逻辑功能来划分所公开的模块/单元。在实际实现中,可以使用其他划分方法。例如,可以将多个模块或单元组合或集成到另一个系统中,或者可以省略或不执行某些特性,等等。
当如上所述的集成模块/单元以(一个或多个)软件功能单元的形式实现并且被出售或用作独立产品时,集成单元可以被存储在计算机可读存储介质中。因此,本公开的基本技术方案的全部或部分可以(一种或多种)软件产品的形式反映。该(一种或多种)计算机软件产品可以被存储在存储介质中,该存储介质可以包括多个指令,以使得计算设备(例如,移动终端、个人计算机、服务器、网络设备等)能够执行根据本公开的各个实施例所公开的全部或部分步骤。该存储介质可以包括用于存储编程代码的各种介质,包括例如U盘、便携式硬盘、ROM、RAM、磁盘、光盘等。
本文所公开的实施例仅是示例。本领域普通技术人员将理解,可以包括合适的软件和/或硬件(例如,通用硬件平台)并将其用于执行所公开的方法。例如,所公开的实施例可以仅通过硬件来实现,或者可替换地可以仅通过软件或硬件和软件的组合来实现。该软件可以存储在存储介质中。该软件可以包括合适的命令,以使任何客户端设备(例如,包括数码相机、智能终端、服务器或网络设备等)能够实现所公开的实施例。
通过考虑本文公开的发明的说明书和实践,本公开的其他实施方案对本领域技术人员而言将是显而易见的。说明书和示例仅仅旨在示例性说明,本发明的真实范围和精神由权利要求书指示。

Claims (20)

1.一种音频设备,包括:
至少两个麦克风,配置为收集音频信号;以及
一个微控制器,配置为:处理所述至少两个麦克风收集的音频信号,以产生一个数据流;当所述音频设备连接至计算终端时,将所述数据流发送至所述计算终端,并且由所述计算终端对所述数据流进行处理以执行动作;
其中,所述至少两个麦克风中的每一个分别连接到所述微控制器。
2.根据权利要求1所述的音频设备,还包括:
与所述计算终端兼容的设备连接器端口,
其中,所述微控制器连接到所述设备连接器端口,以及
所述微控制器配置为通过所述设备连接器端口将数据流发送到计算终端。
3.根据权利要求2所述的音频设备,还包括:
一个电源连接器端口,配置为所述音频设备和电源之间的接口;
其中,所述微控制器配置为检测电源是否被连接,并且当确定电源被连接时,允许通过所述电源连接器端口接收的、来自电源的充电电流经由所述设备连接器端口被传递到计算终端。
4.根据权利要求3所述的音频设备,其中:
所述电源是所述音频设备的组件或与所述音频设备电连接的外部电源。
5.根据权利要求3所述的音频设备,其中:
当所述音频设备通过电源连接器端口连接至电源时,所述至少两个麦克风和微控制器的电力由电源提供;
当所述音频设备连接至计算终端并与电源断开时,所述至少两个麦克风和微控制器的电力由计算终端提供。
6.根据权利要求5所述的音频设备,还包括:
一个指示灯,配置为指示所述音频设备的当前状态,以及
所述当前状态选自以下各项中的至少一项:由计算终端供电、由电源供电以及正在收集音频信号。
7.根据权利要求3所述的音频设备,其中:
所述设备连接器端口设置在音频设备的第一端,所述电源连接器端口设置在音频设备的第二端;
所述至少两个麦克风包括第一麦克风和第二麦克风;
所述第一麦克风位于音频设备上容纳设备连接器端口的第一端;以及
所述第二麦克风位于音频设备上容纳电源连接器端口的第二端。
8.根据权利要求3所述的音频设备,其中:
所述至少两个麦克风包括第一麦克风和第二麦克风;
所述第一麦克风和所述第二麦克风位于音频设备的第一端;以及
所述第二麦克风位于与所述第一麦克风相同的表面或相反的表面。
9.根据权利要求1所述的音频设备,其中,所述微控制器配置为通过以下方式生成数据流:
使用交错编码方案对所述至少两个麦克风收集的每个音频信号进行编码,其中,数据流配置为由计算终端用于在同步时间帧中重建所述至少两个麦克风收集的音频信号。
10.根据权利要求9所述的音频设备,其中,所述微控制器配置为:
在生成数据流之前,对所述至少两个麦克风采集的音频信号进行信号预处理方案,以产生预处理信号;以及
将预处理后的信号编码为一个数据流。
11.根据权利要求1所述的音频设备,其中:
所述微控制器配置为使用标准通信协议将由所述音频设备的至少两个麦克风收集的音频信号发送至所述计算终端,以及
所述标准通信协议是通用串行总线(USB)数据传输协议、Wi-Fi通信协议或蓝牙通信协议。
12.根据权利要求1所述的音频设备,其中:
所述音频设备是充电器电线、充电器适配器、手机支架、或充电扩展坞。
13.根据权利要求2所述的音频设备,还包括:
与音频输出设备兼容的音频输出端口,
其中,所述音频输出端口与微控制器相连,以及
所述微控制器配置为通过所述设备连接器端口从计算终端接收音频数据,并将所述音频数据发送到所述音频输出设备以通过音频输出端口309进行播放。
14.一种音频处理方法,包括:
将音频设备连接至计算终端,所述音频设备与至少两个麦克风集成在一起;
获取所述音频设备的至少两个麦克风收集的音频信号;
所述音频设备对所述音频信号进行编码以生成一个数据流;以及
向计算终端发送所述数据流,所述计算终端对数据流进行译码和处理以执行动作。
15.根据权利要求14所述的方法,还包括:
将所述音频设备与电源连接;
通过所述音频设备从电源向计算终端供电;以及
所述音频设备从电源接收电力供应。
16.根据权利要求15所述的方法,其中,所述电源是所述音频设备的组件,或是与所述音频设备电连接的外部电源。
17.根据权利要求所述15所述的方法,还包括:
确定电源未连接到音频设备;以及
响应于确定未连接电源,所述音频设备从计算终端接收电力供应。
18.根据权利要求14所述的方法,还包括:
使用标准通信协议将数据流发送到计算终端,以及
所述标准通信协议是通用串行总线(USB)数据传输协议、Wi-Fi通信协议或蓝牙通信协议。
19.根据权利要求15所述的方法,还包括:
使用交错编码方案对所述至少两个麦克风收集的每个音频信号进行译码以产生数据流,其中,数据流配置为由计算终端用于在同步时间帧中重建所述至少两个麦克风收集的音频信号。
20.一种音频系统,包括:
音频设备和计算终端,
其中:
所述音频设备包括至少两个配置为收集音频信号的麦克风,以及微控制器;
所述至少两个麦克风中的每一个分别连接到微控制器;
所述微控制器配置为处理所述至少两个麦克风采集的音频信号,以产生一个数据流;
当所述音频设备连接至计算终端时,将数据流发送至计算终端;以及
所述计算终端配置为:
对所述数据流进行译码并重建来自所述至少两个麦克风的音频信号;
执行一个或多个多输入音频处理方案以获得一个或多个增强音频信号,每个多输入音频处理方案对应于一个或多个增强音频信号之一;以及
基于所述一个或多个增强音频信号中的至少一个的语音识别结果执行操作。
CN202080001036.5A 2019-01-07 2020-01-06 音频设备和音频处理方法 Active CN111630876B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/241,942 2019-01-07
US16/241,942 US10728656B1 (en) 2019-01-07 2019-01-07 Audio device and audio processing method
PCT/CN2020/070425 WO2020143566A1 (en) 2019-01-07 2020-01-06 Audio device and audio processing method

Publications (2)

Publication Number Publication Date
CN111630876A true CN111630876A (zh) 2020-09-04
CN111630876B CN111630876B (zh) 2021-08-13

Family

ID=71404592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080001036.5A Active CN111630876B (zh) 2019-01-07 2020-01-06 音频设备和音频处理方法

Country Status (3)

Country Link
US (1) US10728656B1 (zh)
CN (1) CN111630876B (zh)
WO (1) WO2020143566A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188341A (zh) * 2020-09-24 2021-01-05 江苏紫米电子技术有限公司 一种耳机唤醒方法、装置、耳机及介质
CN113518258A (zh) * 2021-05-14 2021-10-19 北京天籁传音数字技术有限公司 一种低延迟全场景音频实现方法、装置和电子设备
US20220293100A1 (en) * 2019-09-04 2022-09-15 Ai Speech Co., Ltd. Full-duplex voice dialogue method

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3857544B1 (en) * 2019-12-04 2022-06-29 Google LLC Speaker awareness using speaker dependent speech model(s)
WO2021146661A2 (en) * 2020-01-17 2021-07-22 Syntiant Systems and methods for generating wake signals from known users
US11605392B2 (en) * 2020-03-16 2023-03-14 Google Llc Automatic gain control based on machine learning level estimation of the desired signal
JP7465700B2 (ja) * 2020-03-27 2024-04-11 株式会社デンソーテン 車載装置および車載装置における音声処理方法
CN111640426A (zh) * 2020-06-10 2020-09-08 北京百度网讯科技有限公司 用于输出信息的方法和装置
US11915716B2 (en) * 2020-07-16 2024-02-27 International Business Machines Corporation Audio modifying conferencing system
CN112261530A (zh) * 2020-09-09 2021-01-22 深圳市奋达科技股份有限公司 一种tws耳机防丢方法、tws耳机及计算机可读存储介质
US20220366904A1 (en) * 2021-04-21 2022-11-17 Meta Platforms, Inc. Active Listening for Assistant Systems
US11861315B2 (en) 2021-04-21 2024-01-02 Meta Platforms, Inc. Continuous learning for natural-language understanding models for assistant systems
TWI780726B (zh) * 2021-05-24 2022-10-11 香港商睿克科技有限公司 具自適應近距收音的微機電麥克風系統及其運作方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620196A (zh) * 2003-09-02 2005-05-25 索尼株式会社 扩音设备和扩音方法
CN202794508U (zh) * 2012-09-07 2013-03-13 南京理工大学 应用于救援的基于麦克风阵列的语音定位装置
US20150063580A1 (en) * 2013-08-28 2015-03-05 Mstar Semiconductor, Inc. Controller for audio device and associated operation method
CN106356074A (zh) * 2015-07-16 2017-01-25 中华映管股份有限公司 声音信号处理方法
CN107889001A (zh) * 2017-09-29 2018-04-06 恒玄科技(上海)有限公司 可扩展麦克风阵列及其建立方法
CN108260051A (zh) * 2018-01-15 2018-07-06 深圳前海黑鲸科技有限公司 语音遥控系统、便携式传输设备及智能设备
CN108322859A (zh) * 2018-02-05 2018-07-24 北京百度网讯科技有限公司 用于回声消除的设备、方法和计算机可读存储介质
CN108859992A (zh) * 2018-06-29 2018-11-23 上海与德通讯技术有限公司 智能车载支架
CN109089330A (zh) * 2018-08-23 2018-12-25 维沃移动通信有限公司 一种音频数据传输方法及终端

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030081935A1 (en) * 2001-10-30 2003-05-01 Kirmuss Charles Bruno Storage of mobile video recorder content
TWI350708B (en) * 2007-06-26 2011-10-11 Wolo Mfg Corp Computer controlled amplifier and speaker system with power conservation feature
JP5493611B2 (ja) * 2009-09-09 2014-05-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US8515094B2 (en) * 2010-10-12 2013-08-20 Hewlett-Packard Development Company, L.P. Distributed signal processing systems and methods
US9344793B2 (en) * 2013-02-11 2016-05-17 Symphonic Audio Technologies Corp. Audio apparatus and methods
US9148717B2 (en) * 2014-02-21 2015-09-29 Alpha Audiotronics, Inc. Earbud charging case
US10492000B2 (en) * 2016-04-08 2019-11-26 Google Llc Cylindrical microphone array for efficient recording of 3D sound fields
US10860289B2 (en) * 2017-08-04 2020-12-08 Answer Anything, Llc Flexible voice-based information retrieval system for virtual assistant
US10237646B1 (en) * 2017-08-30 2019-03-19 Shao-Chieh Ting Travel real-time voice translation microphone for mobile phone
US10679617B2 (en) * 2017-12-06 2020-06-09 Synaptics Incorporated Voice enhancement in audio signals through modified generalized eigenvalue beamformer

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620196A (zh) * 2003-09-02 2005-05-25 索尼株式会社 扩音设备和扩音方法
CN202794508U (zh) * 2012-09-07 2013-03-13 南京理工大学 应用于救援的基于麦克风阵列的语音定位装置
US20150063580A1 (en) * 2013-08-28 2015-03-05 Mstar Semiconductor, Inc. Controller for audio device and associated operation method
CN106356074A (zh) * 2015-07-16 2017-01-25 中华映管股份有限公司 声音信号处理方法
CN107889001A (zh) * 2017-09-29 2018-04-06 恒玄科技(上海)有限公司 可扩展麦克风阵列及其建立方法
CN108260051A (zh) * 2018-01-15 2018-07-06 深圳前海黑鲸科技有限公司 语音遥控系统、便携式传输设备及智能设备
CN108322859A (zh) * 2018-02-05 2018-07-24 北京百度网讯科技有限公司 用于回声消除的设备、方法和计算机可读存储介质
CN108859992A (zh) * 2018-06-29 2018-11-23 上海与德通讯技术有限公司 智能车载支架
CN109089330A (zh) * 2018-08-23 2018-12-25 维沃移动通信有限公司 一种音频数据传输方法及终端

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220293100A1 (en) * 2019-09-04 2022-09-15 Ai Speech Co., Ltd. Full-duplex voice dialogue method
CN112188341A (zh) * 2020-09-24 2021-01-05 江苏紫米电子技术有限公司 一种耳机唤醒方法、装置、耳机及介质
CN112188341B (zh) * 2020-09-24 2024-03-12 江苏紫米电子技术有限公司 一种耳机唤醒方法、装置、耳机及介质
CN113518258A (zh) * 2021-05-14 2021-10-19 北京天籁传音数字技术有限公司 一种低延迟全场景音频实现方法、装置和电子设备

Also Published As

Publication number Publication date
CN111630876B (zh) 2021-08-13
WO2020143566A1 (en) 2020-07-16
US20200221223A1 (en) 2020-07-09
US10728656B1 (en) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111630876B (zh) 音频设备和音频处理方法
US11315555B2 (en) Terminal holder and far-field voice interaction system
US20180069815A1 (en) Application-based messaging system using headphones
US10893365B2 (en) Method for processing voice in electronic device and electronic device
CN109360549B (zh) 一种数据处理方法、穿戴设备和用于数据处理的装置
CN112806067B (zh) 语音切换方法、电子设备及系统
US10951987B1 (en) In-vehicle passenger phone stand
US11650790B2 (en) Centrally controlling communication at a venue
WO2021244056A1 (zh) 一种数据处理方法、装置和可读介质
WO2014137341A1 (en) Method for training an automatic speech recognition system
CN111601215A (zh) 一种基于场景的关键信息提醒方法、系统及装置
US11355135B1 (en) Phone stand using a plurality of microphones
US11580954B2 (en) Systems and methods of handling speech audio stream interruptions
CN105632497A (zh) 一种语音输出方法、语音输出系统
CN104851423A (zh) 一种声音信息处理方法及装置
CN111028837B (zh) 语音会话方法、语音识别系统及计算机存储介质
CN113707151A (zh) 语音转写方法、装置、录音设备、系统与存储介质
CN113299309A (zh) 语音翻译方法及装置、计算机可读介质和电子设备
CN116962919A (zh) 拾音方法、拾音系统及电子设备
CN115051991A (zh) 音频处理方法、装置、存储介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant