CN105793922B - 用于多路径音频处理的设备、方法和计算机可读介质 - Google Patents
用于多路径音频处理的设备、方法和计算机可读介质 Download PDFInfo
- Publication number
- CN105793922B CN105793922B CN201480065907.4A CN201480065907A CN105793922B CN 105793922 B CN105793922 B CN 105793922B CN 201480065907 A CN201480065907 A CN 201480065907A CN 105793922 B CN105793922 B CN 105793922B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- audio
- listening
- processing path
- uplink
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000005236 sound signal Effects 0.000 claims abstract description 307
- 230000009977 dual effect Effects 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims description 86
- 230000006835 compression Effects 0.000 claims description 31
- 238000007906 compression Methods 0.000 claims description 31
- 239000004065 semiconductor Substances 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims 6
- 230000037431 insertion Effects 0.000 claims 6
- 230000000903 blocking effect Effects 0.000 claims 2
- 230000015654 memory Effects 0.000 description 37
- 238000004891 communication Methods 0.000 description 22
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 230000001629 suppression Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
在一些实施方式中,用于提供双上行链路处理路径的设备可以包括人类收听(HL)输入处理单元,该人类收听(HL)输入处理单元配置为经由第一上行链路处理路径接收音频流并且对该音频流进行预处理以创建适合人类收听的第一音频信号;机器收听(ML)输入处理单元,该机器收听(ML)输入处理单元配置为经由第二上行链路处理路径接收音频流并且对该音频流进行预处理以创建适合机器收听的第二音频信号;以及网络接口单元,该网络接口单元配置为经由第一上行链路处理路径将第一音频信号传送至远程服务器,并且经由第二上行链路处理路径将第二音频信号传送至远程服务器。
Description
相关申请的交叉引用
本申请要求2013年12月3日提交的标题为“MULTI-PATH AUDIO PROCESSING”的美国非临时专利申请第14/095,181号的优先权并且是该案的延续,其公开以引用的方式全部并入本文。
技术领域
本描述涉及一种多路视频处理,并且具体涉及一种具有双信号路径的计算设备,该双信号路径经调谐供人类收听和机器收听。
背景技术
人可以通过多种不同的方式以音频信息与计算设备交互。在一些示例中,人可以向计算设备提供语音命令,使得计算设备可以采取由语音命令指定的适当动作。同样,计算设备可以接收来自用户的语音并且将该语音翻译成文本。可以将这些类型的音频信号视作用于机器收听的音频信号。例如,语音至文本转换器和/或语音命令解释器可以接收音频信号,并且处理音频信号以便根据音频信号创建文本或者机器指令。
在其它示例中,人可以出于与另一个人通信的目的,向计算设备提供音频信息。例如,用户可以参与与另一个人的电话通话、语音聊天、视频会议等。如此,计算设备可以传送音频信号,该音频信号通过网络捕获接收到的语音,使得另一个人可以收听语音信号。可以将这些类型的音频信号视作供人类收听的音频信号。
然而,在处理或者传送音频信号之前,例如,计算设备可以对音频信号执行预处理以消除音频信号的不期望的分量,诸如噪音。通常,音频信号的预处理包括降噪、噪声抑制、回声消除等。然而,用于预处理音频信号的算法通常表示在对处理后来供人类收听的音频信号而最优调谐的算法与针对机器收听而调谐的算法之间的折衷,这使得不是针对任何最终使用而优化算法。
发明内容
在一些实施方式中,一种用于提供双上行链路处理路径的设备可以包括:人类收听(HL)输入处理单元,该人类收听(HL)输入处理单元配置为经由第一上行链路处理路径接收音频流并且对该音频流进行预处理以创建适合人类收听的第一音频信号;机器收听(ML)输入处理单元,该机器收听(ML)输入处理单元配置为经由第二上行链路处理路径接收音频流并且对该音频流进行预处理以创建适合机器收听的第二音频信号;以及网络接口单元,该网络接口单元配置为经由第一上行链路处理路径将第一音频信号传送至远程服务器,并且经由第二上行链路处理路径将第二音频信号传送至远程服务器。
在一些实施方式中,在传送第二音频信号的同时传送第一音频信号。HL输入处理单元可以包括HL压缩单元,该压缩单元配置为压缩音频流以创建具有非线性范围的第一音频信号;以及ML输入处理单元可以包括ML压缩单元,该ML压缩单元配置为压缩语音流以创建具有线性范围的第二音频信号。HL输入处理单元可以包括HL噪声单元,该HL噪声单元配置为将至少一个人为成分插入到第一音频信号;以及ML输入处理单元可以包括ML噪声单元,该ML噪声单元配置为不将该至少一个人为成分插入到第二音频信号。同样,该设备包括至少一个麦克风,该麦克风配置为接收音频流,并且将音频流提供至HL输入处理单元和ML输入处理单元。
在一些实施方式中,一种用于提供双预处理路径的方法可以包括:通过设备,经由第一上行链路处理路径对音频流进行预处理以创建适合于人类收听的第一音频信号;通过设备,经由第二上行链路处理路径对音频流进行预处理以创建适合于机器收听的第二音频信号;以及通过设备,经由第一上行链路处理路径将第一音频信号传送至远程服务器以及经由第二上行链路处理路径将第二音频信号传送至远程服务器。
在一些实施方式中,在传送第二音频信号的同时传送第一音频信号。对音频流进行预处理以创建适合人类收听的第一音频信号可以包括压缩音频流,以创建具有非线性范围的第一音频信号,以及对音频流进行预处理以创建适合机器收听的第二音频信号包括压缩音频流,以创建具有线性范围的第二音频信号。对音频流进行预处理以创建适合人类收听的第一音频信号进一步可以包括将至少一个人为成分插入到第一音频信号,以及对音频流进行预处理以创建适合机器收听的第二音频信号进一步包括不将该至少一个人为成分插入到第二音频信号。
在一些实施方式中,一种存储指令的非暂时性计算机可读介质,当指令由至少一个半导体处理器执行时,该指令配置为:经由第一上行链路处理路径对音频流进行预处理以创建适合人类收听的第一音频信号,经由第二上行链路处理路径对音频流进行预处理以创建适合机器收听的第二音频信号,经由第一上行链路处理路径传送第一音频信号,以及经由第二上行链路处理路径传送第二音频信号。
在一些实施方式中,在传送第二音频信号的同时传送第一音频信号。对音频流进行预处理以创建适合人类收听的第一音频信号的指令可以包括压缩音频流以创建具有非线性范围的第一音频信号的指令,以及对音频流进行预处理以创建适合机器收听的第二音频信号的指令可以包括压缩音频流以创建具有线性范围的第二音频信号的指令。对音频流进行预处理以创建适合人类收听的第一音频信号的指令可以进一步包括将至少一个人为成分插入到第一音频信号的指令,以及对音频流进行预处理以创建适合机器收听的第二音频信号的指令可以进一步包括不将该至少一个人为成分插入到第二音频信号的指令。
在一些实施方式中,一种服务器可以包括:至少一个半导体服务器、和存储指令的非暂时性计算机可读介质,当指令由该至少一个半导体处理器执行时,该指令配置为实施网络接口单元,该网络接口单元配置为经由第一上行链路处理路径从设备接收第一音频信号,并且经由第二上行链路处理路径从该设备接收第二音频信号,其中,第一音频信号已经被预处理以适合人类收听,并且第二音频信号已经被预处理以适合机器收听。人类收听组件包括:语音应用,该语音应用配置为处理并且提供用于人类用户收听的第一音频信号;以及机器收听组件配置为对第二语音信号执行机器处理。
在一些实施方式中,机器收听组件可以包括语音至文本转换器,该语音至文转换器配置为将第二音频信号转换成文本。机器收听组件可以包括语音命令解释器,该语音命令解释器配置为将第二音频信号转换成用于由设备执行至少一个动作的机器命令。语音命令解释器可以配置为:当语音应用处于运行状态时,转换第二音频信号。可以在接收第二音频信号的同时接收第一音频信号。
在一些实施方式中,一种用于双上行链路处理路径的方法可以包括:经由第一上行链路处理路径从设备接收第一音频信号,并且经由第二上行链路处理路径从设备接收第二音频信号,其中,第一音频信号已经被预处理以适合人类收听,并且第二音频信号已经被预处理以适合机器收听;处理用于人类用户收听的第一音频信号;以及对第二音频信号执行机器处理。
在一些实施方式中,机器处理可以包括:当活动地处理第一音频信号时,将第二音频信号转换成用于由设备执行至少一个动作的机器命令。
在下面的附图和描述中阐述了一种或者多种实施方式的细节。其它特征将通过描述、附图和权利要求书变得显而易见。
附图说明
图1A图示了一种用于提供双预处理路径以创建适合人类收听的第一音频信号和创建适合机器收听的第二音频信号的系统。
图1B图示了具有HL输入处理单元和ML输入处理单元的双预处理路径的更详细的视图。
图2图示了一种用于提供对音频流的双预处理的系统。
图3图示了一种用于提供对音频流的双预处理的系统。
图4图示了描绘了图1至图3的系统的示例操作的流程图。
图5是示出了可以用于实施图1至图3的系统的示例或者代表性设备以及关联元件的框图。
具体实施方式
本文描述了用于提供双并行上行链路信号路径的系统和技术,使得设备可以处理和上传第一音频信号并且可以处理和上传第二音频信号,该第一音频信号经由第一上行链路处理路径被特别调谐以供人类收听;该第二音频信号经由第二上行链路处理路径被特别调谐以供机器收听。例如,在一个或者多个麦克风捕获到音频数据之后,可以在上行链路处理路径内,预处理待上传至远程服务器以便进一步处理的音频数据。通常,上行链路音频处理包括:预处理(例如,噪声抑制技术)和应用压缩技术、以及准备通过网络传输的音频信号。如下面进一步描述的,该系统和技术可以对音频信号执行上行链路预处理,使得该信号适合人类收听,并且可以同时经由单独的上行链路处理路径对音频信号执行上行链路处理,使得该信号适合机器收听。然后,可以经由各自的上行链路处理路径,将这些音频信号上传或传送至远程服务器以进行进一步的人类和机器处理。
该系统和技术可以使用第一算法来执行上行链路预处理并且使用第二算法来对音频流进行上行链路预处理,该第一算法经特别调谐供机器收听,该第二算法经特别调谐供人类收听。然后,可以将这些预处理后的音频信号压缩,然后将其上传至远程服务器以进行机器和/或人类处理。例如,当预处理用于人类收听的音频信号时,该设备可以通过将人为成分插入到音频信号内使得其被适当地被调谐以供人类收听的方式,来应用压缩和噪声抑制技术。然而,这些人为成分可以使得机器收听相对更难。例如,已经被适当调谐仅供人类收听的音频信号可能不是很适合机器收听。因此,结合处理用于人类收听的音频信号,该设备也可以通过使得音频信号被适当地调谐以供机器收听的方式,来应用单独的压缩和噪声抑制技术。因此,该设备可以产生适合人类收听的第一音频信号和适合机器收听的第二音频信号。
通过这种方式,可以避免在机器收听和人类收听之间折衷的上行链路预处理音频信号的传统技术。因此,改善了供机器收听和人类收听两者的音频信号的质量。进一步地,当人类说话者正在供人类收听的另一应用上交谈时,这种双路径架构允许机器收听组件继续捕获语音命令。参照附图,进一步解释了这些特征和其它特征。
图1图示了根据实施例的用于提供双上行链路处理路径102以创建和通信适合人类收听的第一上行链路音频信号并且创建和通信适合机器收听的第二音频信号的系统100。在一个普遍的方面中,双上行链路处理路径102可以包括具有人类收听(HL)输入处理单元104的第一上行链路处理路径;以及具有机器收听(ML)输入处理单元106的第二上行链路处理路径。例如,双上行链路处理路径102包括两个单独的和并行的上行链路处理路径。上行链路处理路径中的一个上行链路处理路径可以包括HL输入处理单元104,并且另一上行链路处理路径可以包括ML输入处理单元106。
系统100也可以包括至少一个半导体处理器108、非暂时性计算机可读介质110、人类收听(HL)组件112和机器收听(ML)组件114。如后文中进一步解释的,可以将双上行链路处理路径102视作用于处理产生的信号并且然后将其通信至具有HL组件112和ML组件114的远程服务器的两个单独的上行链路处理路径。
非暂时性计算机可读介质110包括指令,当该指令由该至少一个半导体处理器108执行时,该指令配置为实施系统100的组件和/或功能。进一步地,系统100可以包括本领域的普通技术人员所熟知的其它组件或者单元。
非暂时性计算机可读介质110可以包括:一个或者多个非易失性存储器,包括:举例说明,半导体存储器设备,例如,EPROM、EEPROM和闪存设备;磁盘,例如,内置硬盘或者可移动盘、磁光盘;以及CD ROM和DVD-ROM盘。该至少一个半导体处理器108可以包括:任何类型的通用计算电路或者专用逻辑电路,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。同样,可以将半导体处理器108视作是配置为耦合至衬底的处理器。
HL组件112可以包括使用用于人类收听的音频信号的一个或者多个组件。HL组件112可以包括:软件或者硬件(或者两者的组合),该软件或者硬件经由另一设备将音频流的语音中继至另一用户,以供人类收听。HL组件112可以包括通过网络经由另一设备向另一人类用户提供音频流的语音的任何类型的应用、模块、单元、组件或者电路。在一些示例中,HL组件112可以包括:语音应用113,该语音应用113通过网络接收并且提供用于人类用户收听的音频信号。音频设备113可以是用于在电话、音频/视频电话会议上交谈/收听的任何类型的程序、或者通常是用于经由网络将音频信号传送至另一个人/自另一个人接收音频信号的任何类型的应用。在一些示例中,网络可以是任何类型的无线或者计算机网络,诸如3G、4G、LTE、Wi-Fi、互联网、和/或内联网。
HL组件114可以包括:使用用于机器收听的音频信号的一个或者多个组件。ML组件114可以是软件或者硬件(或者两者的组合),该软件或者硬件从音频流提取有意义的信息。换言之,例如,ML组件114可以接收和解释用于进一步的设备处理的音频流,该进一步的设备处理诸如为用于语音至文本转换和/或语音命令解释的语音识别。
通常,ML组件114可以包括能够收听并且处理用于机器处理的(例如,不是供人类收听的)音频信号的任何类型的应用、模块、单元、组件或者电路,该任何类型的应用、模块、单元、组件或者电路。在一些示例中,ML组件114可以包括语音至文本转换器115和/或语音命令解释器117。语音至文本转换器115可以接收包含语音的音频信号,并且然后将语音转换成文本。语音命令解释器117可以接收包含语音命令的音频信号,并且然后生成指导设备执行一个或者多个动作的一个或者多个机器命令。在一个具体的示例中,语音命令解释器117可以接收来自人类用户的向另一个人发送电子邮件的语音命令,其中语音命令解释器117通过生成打开指向具体的人的电子邮件应用的用于设备的机器指令,对语音命令作出响应。然而,语音命令解释器117可以接收并且解释任何类型的语音命令,该命令指向范围广泛的待由设备执行的动作。在一些实施例中,ML组件114和HL组件114可以是驻留在接收并且进一步处理上行链路音频数据的一个或者多个远程服务器上的组件或者应用。
在一些实施例中,系统100的组件,诸如双上行链路处理路径102、至少一个半导体处理器108、非暂时性计算机可读介质110、HL组件112和ML组件114,可以具体实现在单个设备内或者分布在联网环境内的多个设备中。该多个设备可以包括用户操作设备、诸如托管一个或者多个HL组件112和/或ML组件114的服务器的网络元件、以及在联网环境内连接的其它用户操作设备。
在一些示例中,诸如电话、智能电话、个人计算机、平板计算机、膝上型计算机或者笔记本计算机、游戏设备、或者能够连接至联网环境的轻薄型客户终端的用户操作设备可以包括双上行链路处理路径102。同样,可以在设备上本地提供HL组件112和ML组件114。在其它示例中,HL组件112和ML组件114可以托管在远离用户操作设备的一个或者多个服务器上。例如,用户操作设备可以包括双上行链路处理路径102,但是可以在一个或者多个远程服务器上提供ML组件114和/或HL组件112中的一个或者多个。如此,用户操作设备可以上传第一音频信号和/或第二音频信号中的一个或者多个,以便由托管在一个或者多个服务器上的ML组件114和/或HL组件112进行处理。在一些示例中,用户操作设备将第一预处理后的音频信号和第二预处理后的音频信号两者上传至一个或者多个服务器以进行进一步处理。
在一个具体的示例中,用户操作设备可以将适合机器收听的第二音频信号上传至语音至文本转换器115,并且此后通过网络从远程服务器接收转换后的文本。同样,用户操作设备可以将适合机器收听的第二音频信号上传至语音命令解释器117,并且此后接收机器命令以执行请求的动作。
在其它示例中,在远离用户操作设备的接收音频流的一个或者多个服务器内,可以包括HL输入处理单元104和ML输入处理单元106。例如,服务器可以经由上行链路通信路径接收来自用户操作设备的(预处理之前的)原始音频流,预处理该音频流以创建第一音频信号和第二音频信号,并且然后将适当的信号提供至位于用户操作设备或者服务器本身上的适当的HL组件112和/或ML组件114。
参照图1A,双上行链路处理路径102可以提供用于上行链路处理的适合人类收听的预处理路径和适合机器收听的单独的预处理路径。在一些实施例中,双上行链路处理路径102可以是并行处理路径,使得设备可以大约同时处理和传送第一音频信号和第二音频信号。
HL输入处理单元104和ML输入处理单元106中的每一个都可以接收音频流。在这种背景下,音频流可以表示在应用预处理之前的音频信息。音频流可以表示来自相同源或者多个源(例如,位于用户操作设备上的一个或者多个麦克风)的一个或者多个音频流。在这种背景下,音频流可以包括语音分量、和诸如背景噪声或者键盘敲击的噪声分量。可以以数字或者模拟的格式在电学上表示音频流,并且下面的预处理步骤可以发生在任何域中。预处理的一些示例可以包括有源噪声控制(ANC)、有源降噪(ANR)、声学回声消除器(AES)、声学回声抑制器(AES)、声学噪声消除器(ANC)和/或噪声抑制器(NS)等。
HL输入处理单元104可以包括任何类型的预处理算法,诸如ANC、ANR、AES、ANC和/或NS。然而,HL输入处理单元104的预处理算法特别适合人类收听或者被调谐以供人类收听。例如,HL输入处理单元104可以预处理音频流以创建适合人类收听的第一音频信号。可以将第一音频信号视作已经由HL输入处理单元104预处理的一个或者多个音频信号。如此,第一音频信号可以特别适合于在HL组件112内使用或者被调谐以用于HL组件112内。参照图1B,进一步解释了被特别调谐以用于人类收听或者适合人类收听的预处理算法的细节。
ML输入处理单元106可以包括任何类型的预处理算法,诸如ANC、ANR、AES、ANC和/或NS。然而,与应用在HL输入处理单元104中的预处理算法不同,ML输入处理单元106的预处理算法特别适合机器收听或者被调谐以供机器收听。例如,ML输入处理单元106可以预处理相同的音频流以创建适合机器收听的第二音频信号。可以将第二音频信号视作已经由ML输入处理单元106预处理的一个或者多个音频信号。如此,第二音频信号特别适合于在ML组件114内使用或者被调谐以用于ML组件114内。参照图1B,进一步解释了被特别调谐以用于机器收听或者适合机器类收听的预处理算法的细节。
参照图1A,HL输入处理单元104可以将第一音频信号提供至HL组件112,并且ML输入处理单元106可以将第二音频信号提供至ML组件114。在一些示例中,用户操作设备可以上传第一音频信号和第二音频信号,使得服务器的HL组件112和ML组件114能够接收和处理第一音频信号和第二音频信号。在这种背景下,系统100可以应用任何类型的编码/压缩技术或者信号处理,以使第一/第二信号适应系统100的联网环境所要求的适当的传输协议。
如上所述,在一个实施例中,ML组件114可以包括语音命令解释器117,以及HL组件112可以包括语音应用113。当用户正活动地使用语音应用113时,系统100的双上行链路处理路径102可以许可语音命令解释器117捕获语音信号。例如,用户可能正使用语音应用113与另一用户通信。当语音应用113处于运行状态时,语音命令解释器117可以解释已经被特别调谐以供机器收听的一个或者多个第二音频信号。换言之,当语音命令解释器117可以解释已经被调谐以供机器收听的一个或者多个第二音频信号时,语音应用113可以处理已经被调谐以供人类收听的一个或者多个第一音频信号。注意,使用的语音应用113和语音命令解释器117只是示例,其中,当通过ML组件114处理第二音频信号时,双上行链路处理路径102可以许可HL组件112处理第一音频信号。
图1B图示了根据实施例的具有HL输入处理单元104和ML输入处理单元106的双上行链路处理路径102的更详细的视图。如上所述,HL输入处理单元104和HL输入处理单元106中的每一个都可以接收表示来自用户的音频信息的音频流。HL输入处理单元104可以应用预处理技术,该预处理技术对音频流进行调谐以供人类收听,从而创建了第一语音信号。在单独的但是并行的上行链路路径中,ML输入处理单元106可以应用预处理技术,该预处理技术对音频流进行调谐以供机器收听,从而创建了第二音频信号。第二音频信号是与第一音频信号不同的音频信号。例如,第二音频信号可以表示与第一音频信号相同的音频内容,但是,第二音频信号特别适合机器收听或者被调谐供以机器收听,而第一音频信号特别适合人类收听或者被调谐以供人类收听。在应用单独的预处理算法之后,可以压缩第一上行链路音频信号和第二上行链路音频信号并且为传输至远程服务器做准备。
HL输入处理单元104可以包括人类收听(HL)压缩单元116和人类收听(HL)噪声单元118。ML输入处理单元106可以包括机器收听(ML)压缩单元120和机器收听(ML)噪声单元122。换言之,HL输入处理单元104和ML输入处理单元106可以包括相似的组件,但是这些组件中的每一个都被特别调谐以供机器收听或者以供人类收听。例如,HL输入处理单元104和ML输入处理单元106可以通过不同的方式应用压缩技术,并且通过不同的方式应用噪声消除、降噪和/或噪声抑制技术,使得针对机器收听或者人类收听对音频流进行优化。
关于压缩技术,HL压缩单元116可以压缩音频流以创建具有非线性范围的第一音频信号,使得第一音频信号能够包括轻柔信号分量和响亮信号分量。在其它实施例中,第一音频信号可以具有线性范围和非线性范围。在其他实施例中,第一音频信号可以不具有线性范围。例如,HL压缩单元116可以压缩音频流以创建第一音频信号,其中,第一音频信号的至少一部分包括非线性范围,使得可以减少在响亮声音与轻柔声音之间的差异,并且可以控制音频流的平均声音电平。
通常,线性范围可以是符合某个固定增益的输入/输出信号比的范围。在线性的非限制性示例中,1V的第一输入信号可以产生2V的第一输出信号,以及2V的第二输入信号可以产生4V的第二输出信号—这将符合2的增益。在非线性的非限制性示例中,1V的第一输入信号可以产生2V的第一输出信号,以及2V的第二输入信号可以产生3V的第二输出信号——这是非线性的,因为增益在第一输入信号与第二输入信号之间变化。
在一些实施方式中,HL压缩单元116可以依赖于输入电平包括线性增益段和非线性增益段。在非限制性示例中,对于1V-2V的电压范围,HL压缩单元116可以应用2x的增益。对于2V-3V的电压范围,HL压缩单元116可以应用1.5x的增益。对于3V-4V的电压范围,HL压缩单元116可以应用1x的增益。对于4V-5V的电压范围,HL压缩单元116可以应用0.5V的增益。在电压范围内,可以将其视作是线性的,但是在1V-5V的差异范围之间,可以将其视作是非线性的。
人类收听者可以得益于非线性,因为非线性可以减少在响亮声音与轻柔声音之间的差异,并且许可控制对音频流的平均声音电平。与此相反,机器收听算法可能无法很好地忍受非线性。例如,当机器收听器正在处理声音时,当存在声音中的某个线性范围时,机器收听器往往更好地执行。
在一些实施方式中,ML压缩单元120可以压缩音频流以创建具有线性范围的第二音频信号。例如,人类收听者不要求音频信号中的线性,以适当地听到语音。如此,HL压缩单元116的压缩算法可以允许轻柔分量和响亮分量以相似的响度发出声音。与此相反,机器收听器通常需要某个线性范围。例如,在一个具体的示例中,ML组件114可能需要信号电平之间的30dB的线性区域,以进行适当地操作。如此,ML压缩单元120可以比在HL压缩单元116中更强烈地应用压缩。
关于噪声消除、降噪和/或噪声抑制技术,HL噪声单元118可以允许、许可或者引入一个或者多个人为成分至第一音频信号中。例如,人类收听者通常能够忍受由噪声抑制技术或者噪声消除技术引入的人为成分。在一些示例中,人为成分可以是可以发生在处理期间的数字素材的片段。在一些示例中,人为成分可以包括嘶嘶声、滴答声、爆裂声、间断、信号电平剧降、啾啾声、和/或言语的末尾或开端的截断等。例如,在嘈杂的环境中,可以对算法进行活动地调谐以消除背景噪声,而同时将可感知的但可接受的人为成分引入至第一音频信号。与此相反,机器收听器则不太能忍受这些人为成分中的一些。如此,ML噪声单元122可以引入人为成分,但是对噪声算法有区别地进行调谐,以不将人为成分引入至第二音频信号,使得将中断机器识别算法。
在进一步示例中,背景信号电平(例如,周围、环境声音)可以根据这个人正在说话或者没有说话来改变声音电平。在这种示例中,HL噪声单元118可以许可信号电平改变,因为这对于人类收听者是可接受的。然而,ML噪声单元122可以将背景信号电平调谐为相对恒定。例如,机器收听器可以忍受一些背景噪声,但是它们不太能忍受信号电平的突然改变。
此外,当带宽减少时,噪声会更加明显。例如,出于许多不同的原因,音频流的带宽可能被减少。在具体示例中,可以将带宽从8kHz减少至4kHz。然而,实施例包含任何水平的带宽下降。人类收听者能够适应带宽的下降。然而,当音频流的带宽下降时,例如,下降至4kHz,机器收听器的识别精确度可能会降低。如此,当音频流的带宽降低时,HL噪声单元118可以应用与ML噪声单元122的噪声算法响应不同的噪声算法响应。
图2图示了根据实施例的用于提供对音频流的双预处理的系统200。系统200可以包括:设备201、服务器230、和一个或者多个其它设备250。设备201、服务器230和设备250可以经由一个或者多个网络以众所周知的方式彼此交换音频信息。
在一些实施例中,服务器230可以托管一个或者多个ML组件232、一个或者多个HL组件234、和网络接口单元233。网络接口单元233可以配置为经由第一上行链路处理路径217接收适合人类收听的第一音频信号,以及经由第二上行链路处理路径219接收适合机器收听的第二音频信号。然后,网络接口单元233可以将任何对应的解压缩技术应用至第一音频流和第二音频流。如上所述,ML组件232可以表示设计用于识别来自人类用户的语音并且执行诸如语音至文本转换或者语音命令解释的某些类型的机器处理的组件。ML组件232可以是包括语音至文本转换器115和语音命令解释器117的ML组件114。HL组件234可以表示将音频信号提供至人类用户的组件,诸如图1A的语音应用113。同样,服务器230包括其它组件,诸如一个或者多个处理器(例如,图1A的至少一个半导体处理器108)和存储可执行指令的非暂时性计算机可读介质(例如,图1A的非暂时性计算机可读介质110),该可执行指令配置为实施服务器230的功能和组件。
设备201可以包括电话、智能电话、个人计算机、平板计算机、膝上型计算机或者笔记本计算机、游戏设备、或者能够连接至网络的轻薄型客户终端。设备201可以包括一个或者多个麦克风203、HL输入处理单元204、ML输入处理单元206、和网络接口单元215。虽然图2中没有具体示出,但是设备201可以包括HL组件和ML组件,诸如上面参照图1所述的HL组件112和ML组件114。同样,设备201可以包括其它组件,诸如一个或者多个处理器(例如,图1A的至少一个半导体处理器108)和存储可执行指令的非暂时性计算机可读介质(例如,图1A的非暂时性计算机可读介质110),该可执行指令配置为实施设备201的功能和组件。
同样,设备201可以包括操作系统,该操作系统配置为将一种或者多种服务提供至应用(包括任何本地HL组件和/或ML组件),并且管理或者充当应用与设备201的各种硬件组件之间的媒介。
麦克风203可以接收并处理来自人类用户的语音,并且将音频流提供至HL输入处理单元204和ML输入处理单元206。音频流可以表示来自麦克风203的一个或者多个语音信号。如果麦克风203包括多个麦克风,那么音频流可以包括来自多个麦克风的一系列语音音频流。同样,例如,设备201可以包括用于接收音频输入的其它组件,诸如摄像系统或者耳机。应该理解,以上只是一些示例性示例,所公开的主题不限于此。
HL输入处理单元204和ML输入处理单元206是与图1A和1B的HL输入处理单元104和ML输入处理单元106相同的组件。例如,HL输入处理单元204可以包括在第一上行链路处理路径217内,以及ML输入处理单元206可以包括在第二上行链路处理路径219内。如上所述,在上行链路处理期间,HL输入处理单元204可以配置为对音频流进行预处理以创建适合人类收听的第一音频信号,以及ML输入处理单元206可以配置为对相同的音频流进行预处理以创建适合机器收听的第二音频信号。在图2的示例中,在设备201上使用双处理路径本地执行对音频流的预处理。
在一些实施例中,设备201可以包括网络接口单元215,该网络接口215配置为准备用于传输至服务器230的第一音频信号和第二音频信号。网络接口单元215可以允许设备101成为通信网络的一部分,并且其经由通信网络进行通信。Wi-Fi协议的示例可以包括但不限于,电气和电子工程师协会(IEEE)802.11g、IEEE 802.11n等。蜂窝协议的示例可以包括但不限于,IEEE 820.16m(又名高级无线城域网(MAN))、高级长期演进(LTE)、增强数据速率的GSM(全球移动通信系统)演进(EDGE)、演进型高速分组接入(HSPA+)等。有线协议的示例可以包括但不限于,IEEE 802.3(又名以太网)、光纤通道、电力线通信(例如,Homeplug、IEEE1901等),等等。应该理解,以上只是一些示例性示例,所公开的主题不限于此。
网络接口单元215可以配置为与服务器230和/或设备250建立通信信道以交换信息。网络接口单元215可以配置为将第一音频信号和第二音频信号经由其各自的上行链路处理路径上传至服务器230以进行进一步处理。例如,网络接口单元215可以配置为经由第一上行链路处理路径217上传第一音频信号,以及经由第二上行链路处理路径219上传第二音频信号。
服务器230可以包括计算设备,诸如,例如,平板计算机、台式计算机、工作站、刀片式服务器、服务器和其它适当的计算机等,或者虚拟机或其虚拟计算设备。在各个实施例中,服务器230可以包括各种硬件组件或者软件组件,该硬件组件或者软件组件与关于设备201所描述的硬件组件和软件组件(例如,处理器、存储器、操作系统等)相似或者类同。
服务器230可以配置为经由上行链路处理路径217、219接收第一音频信号和/或第二音频信号。一旦在服务器230处接收到音频信号,服务器230可以将适当的音频信号引向适当的组件。例如,服务器230可以将第二音频信号提供至ML组件232,其中,ML组件232可以配置为对第二音频信号进行处理(例如,语音至文本转换、设计为供机器收听的语音命令解释)。作为响应,依赖于ML组件232的背景,服务器230可以经由下行通信链路将适当的信息传送回设备201。例如,如果ML组件232被具体实现为语音至文本转换器115,那么服务器230可以返回与第二音频信号的语音对应的机译文本。如果ML组件232被具体实现为语音命令解释器117,那么服务器230可以返回与由设备201执行的第二音频信号对应的适当的机器命令。
相似地,网络接口单元215可以经由第一上行链路处理路径217通过网络将适合人类收听的第一音频信号提供至位于服务器230上的HL组件234。同样,可以在设备201上本地提供HL组件234。在这种情况下,如果HL组件被具体实现为语音应用113,那么语音应用113可以通过网络将供人类用户收听的第一音频信号提供至服务器230和/或设备250。
在一些示例中,系统200的双预处理路径可以通过将被特别调谐以供人类收听的音频信号提供至HL组件234并且将被特别调谐以供机器收听的音频信号提供至ML组件232的方式,许可ML组件232捕获用于机器收听的音频信号,而同时用户正在使用HL组件234。例如,当用户正对着麦克风203说话时,系统200的双预处理路径可以接收音频流。如上所述,HL输入处理单元204可以生成适合人类收听的第一音频信号,以及ML输入处理单元206可以生成适合机器收听的第二音频信号。如果HL组件234处于运行状态,则HL组件234经由网络向另一用户提供这些第一音频信号。如果ML组件232处于运行状态,则ML组件232可以解释第二音频信号。如此,当ML组件232和HL组件234都处于运行状态时,系统200的双预处理路径可以许可由HL组件234处理第一音频信号,以及由ML组件232处理第二音频信号(可以发生在不同的时间点)。
图3图示了根据实施例的用于提供对音频流的双预处理的系统300。系统300可以包括设备301、服务器330和设备350。在该示例中,如与在设备301本地执行相反,可以在服务器330处执行对音频流的双预处理。
设备301可以与图2的设备201相同,除了设备301不包括双预处理路径。服务器330可以与图2的服务器230相同,除了服务器330执行对音频流的预处理。如此,出于简洁起见,将省略设备301和服务器330的细节。
在该示例中,服务器330包括HL输入处理单元304和ML输入处理单元306,以便单独地预处理音频流,从而创建适合人类收听的第一音频信号和适合机器收听的第二音频信号。在这种情况下,按照参照图1B所描述的方式,服务器330可以在服务器侧执行机器收听预处理和人类收听预处理,而不是在设备301上本地提供双处理路径。如此,可以将音频流上传至服务器330,并且HL输入处理单元304可以对音频流进行预处理以创建适合人类收听的第一信号,以及ML输入处理单元306可以对相同的音频流进行预处理以创建适合机器收听的第二信号。注意,音频流可以是可以压缩的人类用户的语音。例如,设备301可以捕获来自包括在设备301上的一个或者多个麦克风的音频流,并且然后该设备可以执行压缩和其它处理以准备用于传输的音频流。一旦在服务器230处接收到音频流,可以对音频流进行解压缩,并且然后将其提供至HL输入处理单元304和ML输入处理单元306,以创建适合人类收听的第一音频信号和适合机器收听的第二音频信号。
在一些示例中,服务器330可以包括一个或者多个HL组件332、和/或一个或者多个ML组件334。ML组件334和ML组件334与之前参照前面的图描述的组件相同,因此,出于简洁起见,将省略细节。HL输入处理单元304可以将第一音频信号提供至一个或者多个HL组件332。ML输入处理单元306可以将第二音频信号提供至一个或者多个ML组件334。在一些示例中,设备301可以包括一个或者多个ML组件334和一个或者多个HL组件332。在该示例中,服务器330可以将用于ML组件334和/或HL组件332中的第一音频信号和第二音频信号传送至设备301。
在一些示例中,系统300的双预处理路径可以通过将被特别调谐以供人类收听的音频信号提供至HL组件332并且将特别被调谐以供机器收听的音频信号提供至ML组件334的方式,许可ML组件334捕获用于机器收听的音频信号,而同时用户正在使用HL组件332。如上所述,基于接收到的音频流,HL输入处理单元304可以生成适合人类收听的第一音频信号,以及ML输入处理单元306可以生成适合机器收听的第二音频信号。如果HL组件332处于运行状态,那么HL组件332经由网络向另一用户提供这些第一音频信号。如果ML组件334处于运行状态,那么ML组件334可以解释第二音频信号。如此,当ML组件334和HL组件332都处于运行状态时,系统300的双预处理路径可以许可由HL组件332处理第一音频信号,以及由ML组件334处理第二音频信号(可以发生在不同的时间点)。
图4图示了描绘了根据实施例的图1至图3的系统的示例操作的流程图400。虽然图4被图示为依次、有序的操作表,但是,应该了解,一些或者全部操作可以按照不同的顺序、或者并行的、或者迭代的来发生,或以时间上重叠的方式来发生。
可以经由第一上行链路预处理路径接收音频流并对该音频流进行预处理以创建适合人类收听的第一音频信号(402)。例如,HL输入处理单元104/203/304(称为104)可以接收并且预处理音频流以创建适合人类收听的第一音频信号。HL输入预处理单元104可以包括在第一上行链路处理路径内。可以将第一音频信号视作已经由HL输入单元104预处理后的一个或者多个音频信号。如此,第一音频信号可以特别适合用于HL组件112/234/332(称为112)内或者被调谐以用于HL组件112/234/332(称为112)内。根据图1B,进一步描述了HL输入处理单元104的细节。
可以经由第二上行链路预处理路径接收音频流并对该音频流进行预处理以创建适合机器收听的第二音频信号(404)。例如,ML输入处理单元106/206/306(称为106)可以接收并且预处理相同的音频流以创建适合机器收听的第二音频信号。ML输入预处理单元106可以包括在第二上行链路处理路径内。可以将第二音频信号视作已经由ML输入单元106预处理后的一个或者多个音频信号。如此,第二音频信号可以特别适合用于ML组件114/232/334(称为114)内或者被调谐以用于ML组件114/232/334(称为114)内。参照图1B,进一步解释了已经被特别调谐以供机器收听或者适合机器收听的预处理算法的细节。
可以经由第一上行链路处理路径将第一音频信号传送至远程服务器,以及可以经由第二上行链路路径传送第二音频信号(406)。在一个示例中,设备201的网络接口单元215可以经由第一上行链路处理路径217将第一音频信号传送至远程服务器230,以及可以经由第二上行链路处理路径219将第二音频信号传送至远程服务器230。
因此,该方法可以包括双上行链路处理路径102,该双上行链路处理路径102提供了用于上行链路处理的适合人类收听的预处理路径和适合机器收听的单独预处理路径。在一些实施例中,双上行链路处理路径102可以是并行的处理路径,使得设备可以同时处理和传送第一音频信号和第二音频信号。
HL输入处理单元104可以将第一音频信号提供至HL组件112,以及ML输入处理单元106可以将第二音频信号提供至ML组件114。在一些示例中,设备可以经由第一上行链路处理路径和第二上行链路处理路径上传第一音频信号和第二音频信号,使得服务器的HL组件112和ML组件114能够接收和处理第一音频信号和第二音频信号。在这种背景下,系统100/200/300可以应用任何类型的编码/压缩技术或者信号处理,以使得第一/第二信号适应系统100的联网环境所要求的适当的传输协议。
如上所述,在一个实施例中,ML组件114可以包括语音命令解释器117,以及HL组件112可以包括语音应用113。当用户正活动地使用语音应用113时,双上行链路处理路径102可以许可语音命令解释器117捕获语音命令。例如,用户可能正在使用语音应用113与另一用户通信。当语音应用113处于运行状态时,语音命令解释器117可以解释已经被特别调谐以供机器收听的一个或者多个第二音频信号。换言之,音频应用113可以处理已经被调谐以供人类收听的一个或者多个第一音频信号,而同时语音命令解释器117可以解释已经被调谐以供机器收听的一个或者多个第二音频信号。注意,使用的语音应用113和语音命令解释器117只是示例,其中,当双上行链路处理路径102可以许可由HL组件112处理第一音频信号,而同时由ML组件114处理第二音频信号。
图5是示出了可以用于实施图1至图3的系统的示例或者代表性设备以及关联元件的框图。图5示出了可以与此处描述的技术一起使用的通用计算机设备500和通用移动计算机设备550的示例。计算设备500旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、主机、和其它适当的计算机。计算设备550旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话、和其它相似的计算设备。此处示出的组件、其连接和关系、以及其功能都只旨在是示例性的,并且不旨在限制本文所描述的和/或所要求的本发明的实施方式。
计算设备500包括处理器502、存储器504、存储设备506、与存储器504和高速扩展端口510连接的高速接口508、以及与低速总线514和存储设备506连接的低速接口512。组件502、504、506、508、510、和512中的每一个通过使用各种总线来互连,并且可以安装在公共主板上或者以其它方式酌情安装。处理器502能够处理在计算设备500内执行的指令,该指令包括存储在存储器504中或者存储在存储设备506上以在诸如耦合至高速接口508的显示器516的外部输入/输出设备上显示GUI的图形信息的指令。在其它实施方式中,可以酌情使用多个处理器和/或多个总线、以及多个存储器和多个类型的存储器。同样,可以将多个计算设备500连接起来,使得每个设备提供必要操作的部分(例如,服务器组、刀片式服务器组、或者多处理器系统)。
存储器504将信息存储在计算设备500内。在一种实施方式中,存储器504是一个或者多个易失性存储器单元。在另一种实施方式中,存储器504是一个或者多个非易失性存储器单元。存储器504也可以是另一形式的计算机可读介质,诸如磁盘或光盘。
存储单元506能够为计算设备500提供大容量存储。在一种实施方式中,存储设备506可以是或者可以包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或者磁带设备、闪存、或者其它相似的固态存储器设备、或者设备的阵列,包括在存储域网或者其它配置内的设备。计算机程序产品可以被有形地具体实现在信息载体内。计算机程序产品也可以包含指令,当该指令被执行时,该指令执行一种或者多种方法,诸如,上述的方法。信息载体是计算机可读介质或者机器可读介质,诸如存储器504、存储设备506、或者在处理器502上的存储器。
高速控制器508管理计算设备500的带宽密集型操作,而同时低速控制器512管理较低带宽密集型操作。这样的功能分配只是示例性的。在一种实施方式中,高速控制器508耦合至存储器504、显示器516(例如,通过图形处理器或者加速器)、以及耦合至可以接受各种扩展卡(未示出)的高速扩展端口510。在该实施方式中,低速控制器512耦合至存储设备506和低速扩展端口514。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合至一个或者多个输入/输出设备,诸如键盘、指示设备、扫描器、或者诸如交换机或者路由器的联网设备。
如图所示,计算设备500可以按照许多不同的形式来实施。例如,可以将计算设备500实施为标准服务器520、或者在一组这样的服务器中实施为多倍的服务器。也可以将计算设备500实施为机架服务器系统524的部分。此外,可以将计算设备500实施在诸如膝上型计算机522的个人计算机中。可替代地,计算设备500的组件可以与诸如设备550的移动设备)中的其它组件(未示出组合。每个这种设备都可以包含一个或者多个计算设备500、550,并且整个系统可以由相互通信的多个计算设备500、550组成。
除了其它组件之外,计算设备550包括处理器552、存储器564、诸如显示器554等输入/输出设备、通信接口566、和收发器568。设备550也可以拥有提供附加存储的存储设备,诸如微硬盘或者其它设备。组件550、552、564、554、566、和568中的每一个组件都通过使用各种总线互连,并且这些组件中的多个组件可以安装在公共模板上或者以其它方式酌情安装。
处理器552可以执行在计算设备550内的指令,包括存储在存储器564中的指令。可以将处理器实施为芯片的芯片组,这些芯片包括单独的多个模拟处理器和数字处理器。处理器可以提供,例如,用于协调设备550的其它组件的诸如对用户界面、设备550运行的应用、以及通过设备550进行的无线通信的控制。
处理器552可以通过耦合至显示器554的控制接口558和显示接口556与用户通信。显示器554可以是,例如,TFT LCD(薄膜晶体管液晶显示器)或者OLED(有机发光二极管)显示器、或者其它适当的显示技术。显示接口556可以包括适当的用于驱动显示器554向用户呈现图形和其它信息的电路。控制接口558可以接收来自用户的命令,并且转换该命令以提交至处理器552。此外,可以提供与处理器552进行通信的外部接口562,使得设备550能够与其它设备进行邻区通信。外部接口562可以提供,例如,在一些实施方式中用于有线通信、或者在其它实施方式中用于无线通信,并且还可以使用多个接口。
存储器564将信息存储在计算设备550内。存储器564可以实施为以下中的一个或者多个:计算机可读介质或媒体、一个易失性存储器单元或多个该单元、或者一个非易失性存储单元或多个该单元。也可以提供扩展存储器574并且扩展存储器574通过扩展接口572连接至设备550,该扩展接口572可以包括,例如,SIMM(单列直插存储器模块)卡接口。这种扩展存储器574可以为设备550提供额外的存储空间,或者也可以为设备550存储应用或者其它信息。具体地,扩展存储器574可以包括执行或者补充上述进程的指令,并且也可以包括使安全信息。因此,例如,扩展存储器574可以被提供为设备550的安全模块,并且可以使用许可设备550的安全使用的指令进行编程,。此外,可以经由SIMM来提供安全应用以及附加信息,诸如通过不可破解的方式将识别信息放在SIMM卡上。
如下所述,存储器可以包括,例如,闪存和/或NVRAM存储器。在一些实施方式中,计算机程序产品被有形地具体实现在信息载体内。计算机程序产品包含指令,当执行该指令时,该指令执行一种或者多种方法,诸如上述的方法。信息载体是,例如可以通过收发器568或者外部接口562接收的计算机可读介质或者机器可读介质,诸如存储器564、扩展存储器574、或者在处理器552上的存储器。
设备550可以通过通信接口566无线地进行通信,若必要,该通信接口566可以包括数字信号处理电路。通信接口566可以提供各种模式或者协议下的通信,诸如,GSM语音电话、SMS、EMS或者MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或者GPRS等。这种通信可以通过例如射频收发器568发生。此外,短距离通信可以发生,诸如,通过使用蓝牙、WiFi或者其它这种收发器(未示出)。此外,GPS(全球定位系统)接收器模块570将附加的与导航和定位相关的无线数据提供至设备550,该设备550在设备550上运行的应用可酌情使用该无线数据。
设备550也可以使用音频编解码器560来进行可听地通信,该音频编解码器560可以接收来自用户的口头信息并且将口头信息转换成可使用的数字信息。音频编解码器560同样可以,例如在设备550的耳机中,诸如通过扬声器,生成对于用户可听见的声音。这种声音可以包括来自语音电话通话的声音,可以包括录音(例如,语音消息、音乐文件等),以及还可以包括由在设备550上操作的应用生成的声音。
如图所示,计算设备550可以按照许多不同的形式来实施。例如,可以将计算设备550实施为蜂窝电话580。也可以将计算设备550实施为智能电话582、个人电子助理或者其它相似的移动设备的一部分。
因此,此处描述的系统和技术的各种实施方式能够在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或其组合中实现。这些各种实施方式能够包括在一个或者多个计算机程序中的实施方式,该计算机程序在包括至少一个可编程处理器的可编程系统上是可执行和/或可解释的,该至少一个可编程处理器可以是专用的或通用的,并且可以耦合至至少一个输入设备和至少一个输出设备以从存储系统接收数据和指令并且将数据和指令传送至存储系统。
这些计算机程序(也称为程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令,并且可以以高级程序的和/或面向对象的编程语言、和/或在汇编语言/机器语言来实施。如本文所使用的,术语“机器可读介质”、“计算机可读介质”指用于将机器指令和/或数据提供至可编程处理器的任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(PLD)),包括:接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指用于将机器指令和/或数据提供至可编程处理器的任何信号。
为了向用户提供交互,此处描述的系统和技术能够在计算机中实施,该计算机具有用于向用户显示信息的显示设备(比如,CRT(阴极射线管))监视器或者LCD(液晶显示器)监视器),以及用户凭此能够将输入提供至计算机的键盘和指示设备(例如,鼠标或者轨迹球)。也可以使用其它类型的设备来提供与用户的交互;例如,向用户提供的反馈能够是任何形式的传感反馈(例如,视觉反馈、听觉反馈、触觉反馈);以及来自用户的输入能够通过任何形式接收,包括:声学输入、语音输入、触觉输入。
此处描述的系统和技术能够在计算系统中实施,该计算系统包括后端组件(例如,作为数据处理器)、或者包括中间件(例如,应用服务器)、或者包括前端组件(例如,具有图形用户界面或者浏览器的客户端计算机,通过该图形用户界面或者浏览器,用户能够与此处描述的系统和技术的实施方式交互),或者这种后端组件、中间件、或者前端组件的任何组合。系统的组件能够通过任何形式的数字数据通信(例如,通信网络)或者其介质来互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)、和互联网。
计算设备可以包括客户端和服务器。客户端和服务器通常彼此相隔,并且通常通过通信网络交互。凭借在各自计算机上运行的并且彼此之间具有客户端-服务器关系的计算机程序,客户端和服务器建立起关系。
此外,为了达到预期的效果,图中描绘的逻辑流程不要求所显示的特定顺序、或者依次顺序。此外,可以提供其它步骤或者可以从描述的流程中取消步骤,并且可以向描述的系统添加其它组件或者从其中移除其它组件。因此,其它实施例在以下权利要求书的范围内。
将了解,已经特别详细描述的上述实施例只是示例或者可能的实施例,并且存在可以包括进来的许多其它组合、添加、或者替代。
同样,组件的特定命名、术语的大写、属性、数据结构、或任何其它编程或者结构方面不是强制性的或者重要的,并且实施本发明的机制或者其特征可以具有不同的名字、格式、或者协议。进一步地,可以经由所述的硬件和软件的组合来实施该系统,或者完全在硬件元件中实施该系统。同样,在本文描述的各种系统组件之间的功能的特定划分只是示例性的,而非强制性的;由单个系统组件执行的功能可以替代地由多个组件执行;并且由多个组件执行的功能可以替代地由单个组件执行。
以上描述的一些部分根据信息操作的算法和符号表示呈现了特征。在数据处理领域中的技术人员可以使用这些算法描述和表示来最有效地向本领域中的其它技术人员传达他们工作的实质。当从功能性上或者逻辑上描述这些操作时,将这些操作理解为由计算机程序实施。进一步地,也已经证明,在不损失共性的情况下,有时将操作的这些布置称为模块或者通过功能名称来称呼这些操作的布置是很方便的。
除非特别说明,否则如通过上述论述显而易见的,应了解,贯穿本描述,利用诸如“处理”或者“计算”或者“确定”或者“显示”或者“提供”等术语的论述指计算机系统或相似电子计算设备、传输或显示设备的动作和进程,该计算机系统或相似电子计算设备操纵并且转换被表示为计算机系统存储器或者寄存器或者其它这种信息存储内的物理(电子)量的数据。
虽然已经如本文描述图示了所描述的实施方式的某些特征,但是本领域的技术人员现在会想到许多修改、代替、改变及等同物。因此,将理解,随附权利要求书旨在涵盖所有这样的修改和改变使其落入实施例的范围内。应该理解,它们已经仅仅通过示例的方式,而非限制性地呈现了它们,并且可以进行各种形式和细节的改变。除了相互排斥的组合之外,本文所描述的装置和/或方法的任何部分可以以任何组合方式来组合。本文所描述的实施例能够包括所描述的不同实施例的功能、组件和/或特征的各种组合和/或子组合。
Claims (15)
1.一种用于提供双上行链路处理路径的设备,所述设备包括:
至少一个半导体处理器;
存储指令的非暂时性计算机可读介质,当所述指令由所述至少一个半导体处理器执行时,所述指令配置为实施:
并行上行链路处理路径,所述并行上行链路处理路径包括:第一上行链路处理路径,所述第一上行链路处理路径用于处理适合人类收听的音频信号并且将适合人类收听的音频信号上传到至少一个远程服务器;以及,第二上行链路处理路径,所述第二上行链路处理路径用于处理适合机器收听的音频信号并且将适合机器收听的音频信号上传到所述至少一个远程服务器;
所述并行上行链路处理路径配置为:接收表示来自用户的语音的音频流,并且并行地应用两种不同的预处理算法,以生成适合人类收听的第一音频信号和适合机器收听的第二音频信号;
所述第一上行链路处理路径包括人类收听压缩单元并且配置为:将第一预处理算法应用于所述音频流,以创建适合人类收听的所述第一音频信号,使得非线性增益被应用于所述第一音频信号、除所述用户的语音之外的人为成分以及多个背景声音电平,所述第二上行链路处理路径包括机器收听压缩单元并且配置为:将第二预处理算法应用于所述音频流,以创建适合机器收听的所述第二音频信号,使得线性增益和恒定背景声音电平被应用于所述第二音频信号,所述第二音频信号不包含所述第一音频信号的所述人为成分;以及
网络接口单元,所述网络接口单元配置为同时将所述第一音频信号和所述第二音频信号传送至所述至少一个远程服务器,使得经由所述第一上行链路处理路径传送所述第一音频信号并且经由所述第二上行链路处理路径传送所述第二音频信号。
2.根据权利要求1所述的设备,其中,所述音频流包括背景声音电平变化,所述背景声音电平变化为背景声音电平的变化;所述第一上行链路处理路径配置为:当将所述第一预处理算法应用于音频流时,将所述背景声音电平变化许可在所述第一音频信号内,所述第二上行链路处理路径配置为:当将所述第二预处理算法应用于所述音频流时,将所述背景声音电平变化调谐至在所述第二音频信号内的所述恒定背景声音电平。
3.根据权利要求1至2中任一项所述的设备,其中,所述第一上行链路处理路径配置为应用所述第一预处理算法,以创建具有非线性增益的所述第一音频信号,以及所述第二上行链路处理路径配置为应用所述第二预处理算法,以创建具有线性增益的所述第二音频信号。
4.根据权利要求1至2中任一项所述的设备,其中,所述第一上行链路处理路径配置为应用所述第一预处理算法,以许可将至少一个人为成分插入到所述第一音频信号中,使得所述第一音频信号包括所述人为成分,所述人为成分是除了所述用户的语音之外的声音元素,所述第二上行链路处理路径配置为应用所述第二预处理算法,以阻挡将所述人为成分插入到所述第二音频信号中,使得所述第二音频信号不包括所述第一音频信号的所述人为成分。
5.根据权利要求1至2中任一项所述的设备,进一步包括至少一个麦克风,所述至少一个麦克风配置为接收所述音频流,并且将所述音频流提供至所述并行上行链路处理路径,使得所述第一上行链路处理路径和所述第二上行链路处理路径并行地对所述音频流进行预处理。
6.一种使用双预处理路径处理音频流的方法,所述方法由至少一个半导体处理器执行,所述方法包括:
提供并行上行链路处理路径,所述并行上行链路处理路径包括:第一上行链路处理路径,所述第一上行链路处理路径用于处理适合人类收听的音频信号并且将适合人类收听的音频信号上传到至少一个远程服务器;以及第二上行链路处理路径,所述第二上行链路处理路径用于处理适合机器收听的音频信号并且将适合机器收听的音频信号上传到所述至少一个远程服务器,所述机器收听包括语音至文本转换;
接收表示来自用户的语音的音频流;
并行地应用两种不同的预处理算法,以生成适合人类收听的第一音频信号和适合机器收听的第二音频信号,包括:
在所述第一上行链路处理路径的人类收听压缩单元中,将第一预处理算法应用于所述音频流,以创建适合人类收听的所述第一音频信号,使得非线性增益被应用于所述第一音频信号、除所述用户的语音之外的人为成分以及多个背景声音电平;
在所述第二上行链路处理路径的机器收听压缩单元中,将第二预处理算法应用于所述音频流,以创建适合机器收听的所述第二音频信号,使得线性增益和恒定背景声音电平被应用于所述第二音频信号,所述第二音频信号不包含所述第一音频信号的所述人为成分;
同时将所述第一音频信号和所述第二音频信号传送至所述至少一个远程服务器,使得经由所述第一上行链路处理路径传送所述第一音频信号并且经由所述第二上行链路处理路径传送所述第二音频信号。
7.根据权利要求6所述的方法,其中,所述音频流包括背景声音电平变化,所述背景声音电平变化为背景声音电平的变化,在所述第一上行链路处理路径中将所述第一预处理算法应用于所述音频流以创建适合人类收听的所述第一音频信号包括:将所述背景声音电平变化许可在所述第一音频信号内;在所述第二上行链路处理路径中将所述第二预处理算法应用于所述音频流以创建适合机器收听的所述第二音频信号包括:将所述背景声音电平变化调谐至在所述第二音频信号内的所述恒定背景声音电平。
8.根据权利要求6至7中任一项所述的方法,其中,在所述第一上行链路处理路径中将所述第一预处理算法应用于所述音频流以创建适合人类收听的所述第一音频信号包括:创建具有非线性增益的所述第一音频信号;以及,在所述第二上行链路处理路径中将所述第二预处理算法应用于所述音频流以创建适合机器收听的所述第二音频信号包括:创建具有线性增益的所述第二音频信号。
9.根据权利要求6至7中任一项所述的方法,其中,在所述第一上行链路处理路径中将所述第一预处理算法应用于所述音频流以创建适合人类收听的所述第一音频信号包括:许可将至少一个人为成分插入到所述第一音频信号中,使得所述第一音频信号包括所述人为成分,所述人为成分是除了所述用户的语音之外的声音元素;以及,在所述第二上行链路处理路径中将所述第二预处理算法应用于所述音频流以创建适合机器收听的所述第二音频信号包括:阻挡将所述至少一个人为成分插入到所述第二音频信号中,使得所述第二音频信号不包括所述第一音频信号的所述人为成分。
10.一种存储可执行指令的非暂时性计算机可读介质,当所述可执行指令由至少一个半导体处理器执行时,所述可执行指令配置为:
提供并行上行链路处理路径,所述并行上行链路处理路径包括:第一上行链路处理路径,所述第一上行链路处理路径用于处理适合人类收听的服务器音频信号并且将适合人类收听的服务器音频信号上传到至少一个远程服务器;以及,第二上行链路处理路径,所述第二上行链路处理路径用于处理适合机器收听的音频信号并且将适合机器收听的音频信号上传到所述至少一个远程服务器,所述机器收听包括语音命令识别;
接收表示来自用户的语音的音频流;
并行地应用两种不同的预处理算法,以生成适合人类收听的第一音频信号和适合机器收听的第二音频信号,包括:
在所述第一上行链路处理路径的人类收听压缩单元中,将第一预处理算法应用于所述音频流,以创建适合人类收听的所述第一音频信号,使得非线性增益被应用于所述第一音频信号、除所述用户的语音之外的人为成分以及多个背景声音电平;
在所述第二上行链路处理路径的机器收听压缩单元中,将第二预处理算法应用于所述音频流,以创建适合机器收听的所述第二音频信号,使得线性增益和恒定背景声音电平被应用于所述第二音频信号,所述第二音频信号不包含所述第一音频信号的所述人为成分;以及
同时将所述第一音频信号和所述第二音频信号传送至所述至少一个远程服务器,使得经由所述第一上行链路处理路径传送所述第一音频信号并且经由所述第二上行链路处理路径传送所述第二音频信号。
11.根据权利要求10所述的非暂时性计算机可读介质,其中,所述音频流包括背景声音电平变化,所述背景声音电平变化为背景声音电平的变化,用于在所述第一上行链路处理路径中将所述第一预处理算法应用于所述音频流以创建适合人类收听的所述第一音频信号的所述可执行指令包括:用于将所述背景声音电平变化许可在所述第一音频信号内的可执行指令;以及,用于在所述第二上行链路处理路径中将所述第二预处理算法应用于所述音频流以创建适合机器收听的所述第二音频信号的所述可执行指令包括:用于将所述背景声音电平变化调谐至在所述第二音频信号内的所述恒定背景声音电平的可执行指令。
12.根据权利要求10至11中任一项所述的非暂时性计算机可读介质,其中,用于在所述第一上行链路处理路径中将所述第一预处理算法应用于所述音频流以创建适合人类收听的所述第一音频信号的所述可执行指令包括:用于创建具有非线性增益的所述第一音频信号的可执行指令;以及,用于在所述第二上行链路处理路径中将所述第二预处理算法应用于所述音频流以创建适合机器收听的所述第二音频信号的所述可执行指令包括:用于创建具有线性增益的所述第二音频信号的可执行指令。
13.根据权利要求10至11中任一项所述的非暂时性计算机可读介质,其中,用于在所述第一上行链路处理路径中将所述第一预处理算法应用于所述音频流以创建适合人类收听的所述第一音频信号的所述可执行指令包括:用于许可将至少一个人为成分插入到所述第一音频信号中使得所述第一音频信号包括所述人为成分的可执行指令,所述人为成分是除了所述用户的语音之外的声音元素;以及,用于在所述第二上行链路处理路径中将所述第二预处理算法应用于所述音频流以创建适合机器收听的所述第二音频信号的所述可执行指令包括:用于阻挡将所述至少一个人为成分插入到所述第二音频信号中使得所述第二音频信号不包括所述第一音频信号的所述人为成分的可执行指令。
14.根据权利要求10至11中任一项所述的非暂时性计算机可读介质,其中,所述机器收听与语音至文本转换应用相关联,以及所述人类收听与语音应用相关联。
15.根据权利要求14所述的非暂时性计算机可读介质,其中,当所述指令由所述至少一个半导体处理器执行时,所述可执行指令配置为:在所述语音应用正活动地处理所述第一音频信号时,通过网络从所述至少一个远程服务器接收与所述第二音频信号相对应的所述用户的语音的文本信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/095,181 | 2013-12-03 | ||
US14/095,181 US9449602B2 (en) | 2013-12-03 | 2013-12-03 | Dual uplink pre-processing paths for machine and human listening |
PCT/US2014/065405 WO2015084560A1 (en) | 2013-12-03 | 2014-11-13 | Multi-path audio processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105793922A CN105793922A (zh) | 2016-07-20 |
CN105793922B true CN105793922B (zh) | 2019-12-17 |
Family
ID=52293164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480065907.4A Active CN105793922B (zh) | 2013-12-03 | 2014-11-13 | 用于多路径音频处理的设备、方法和计算机可读介质 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9449602B2 (zh) |
EP (1) | EP3078022B1 (zh) |
KR (1) | KR101875102B1 (zh) |
CN (1) | CN105793922B (zh) |
AU (1) | AU2014357638B2 (zh) |
CA (1) | CA2931407C (zh) |
WO (1) | WO2015084560A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052438A1 (en) * | 2012-08-20 | 2014-02-20 | Microsoft Corporation | Managing audio capture for audio applications |
US9351060B2 (en) | 2014-02-14 | 2016-05-24 | Sonic Blocks, Inc. | Modular quick-connect A/V system and methods thereof |
RU2654789C2 (ru) * | 2014-05-30 | 2018-05-22 | Общество С Ограниченной Ответственностью "Яндекс" | Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя |
US10777217B2 (en) | 2018-02-27 | 2020-09-15 | At&T Intellectual Property I, L.P. | Performance sensitive audio signal selection |
CN109215679A (zh) * | 2018-08-06 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 基于用户情绪的对话方法和装置 |
JP7278830B2 (ja) * | 2019-03-27 | 2023-05-22 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
CN111554312A (zh) * | 2020-05-15 | 2020-08-18 | 西安万像电子科技有限公司 | 控制音频编码类型的方法、装置和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095325A (zh) * | 2011-10-21 | 2013-05-08 | 通用汽车环球科技运作有限责任公司 | 具有远程服务接口的移动语音平台架构 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4737976A (en) * | 1985-09-03 | 1988-04-12 | Motorola, Inc. | Hands-free control system for a radiotelephone |
US5459792A (en) * | 1993-12-15 | 1995-10-17 | Audio-Technica U.S., Inc. | Audio input circuit for voice recognition |
DE19638114A1 (de) * | 1996-09-18 | 1998-04-02 | Siemens Ag | Verfahren zum Einstellen von endgerätespezifischen Parametern eines Kommunikationsendgerätes |
US5855003A (en) * | 1996-10-11 | 1998-12-29 | Motorola, Inc. | Method and apparatus for establishing a link in a wireless communication system |
US7548787B2 (en) * | 2005-08-03 | 2009-06-16 | Kamilo Feher | Medical diagnostic and communication system |
US6868385B1 (en) * | 1999-10-05 | 2005-03-15 | Yomobile, Inc. | Method and apparatus for the provision of information signals based upon speech recognition |
US6532446B1 (en) * | 1999-11-24 | 2003-03-11 | Openwave Systems Inc. | Server based speech recognition user interface for wireless devices |
US6502070B1 (en) * | 2000-04-28 | 2002-12-31 | Nortel Networks Limited | Method and apparatus for normalizing channel specific speech feature elements |
US20020077814A1 (en) * | 2000-12-18 | 2002-06-20 | Harinath Garudadri | Voice recognition system method and apparatus |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US20050065779A1 (en) * | 2001-03-29 | 2005-03-24 | Gilad Odinak | Comprehensive multiple feature telematics system |
US6801604B2 (en) | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
US7062019B2 (en) * | 2001-07-27 | 2006-06-13 | Avaya Technology Corp. | Method of providing speech recognition for IVR and voice mail systems |
US7505911B2 (en) * | 2001-09-05 | 2009-03-17 | Roth Daniel L | Combined speech recognition and sound recording |
US7162414B2 (en) * | 2001-12-07 | 2007-01-09 | Intel Corporation | Method and apparatus to perform speech recognition over a data channel |
US20030191646A1 (en) * | 2002-04-08 | 2003-10-09 | D'avello Robert F. | Method of setting voice processing parameters in a communication device |
FR2845231B1 (fr) * | 2002-09-26 | 2004-12-10 | Bouygues Telecom Sa | Procede d'acces a un service via un reseau de telephonie mobile prenant en compte la qualite de la liaison "donnees" |
US20050132420A1 (en) * | 2003-12-11 | 2005-06-16 | Quadrock Communications, Inc | System and method for interaction with television content |
KR100640893B1 (ko) * | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 |
US8275618B2 (en) * | 2004-12-22 | 2012-09-25 | Nuance Communications, Inc. | Mobile dictation correction user interface |
EP1715669A1 (en) | 2005-04-19 | 2006-10-25 | Ecole Polytechnique Federale De Lausanne (Epfl) | A method for removing echo in an audio signal |
US20070112571A1 (en) * | 2005-11-11 | 2007-05-17 | Murugappan Thirugnana | Speech recognition at a mobile terminal |
US8417185B2 (en) * | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US9330668B2 (en) * | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
KR100794140B1 (ko) * | 2006-06-30 | 2008-01-10 | 주식회사 케이티 | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |
KR100783105B1 (ko) * | 2006-08-22 | 2007-12-07 | 삼성전자주식회사 | 음성인식 기능을 구비한 전화기의 전화통화 방법 및 장치 |
US8792627B2 (en) * | 2006-11-03 | 2014-07-29 | At&T Intellectual Property Ii, L.P. | Method and apparatus for delivering relevant content |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US20080300025A1 (en) * | 2007-05-31 | 2008-12-04 | Motorola, Inc. | Method and system to configure audio processing paths for voice recognition |
US8055307B2 (en) * | 2008-01-18 | 2011-11-08 | Aliphcom, Inc. | Wireless handsfree headset method and system with handsfree applications |
CN102246136B (zh) * | 2008-12-16 | 2015-05-20 | 三菱电机株式会社 | 导航装置 |
US8204473B2 (en) * | 2009-12-18 | 2012-06-19 | Motorola Solutions, Inc. | Method and apparatus for selectively distributing media inputs associated with an incident |
US9112989B2 (en) * | 2010-04-08 | 2015-08-18 | Qualcomm Incorporated | System and method of smart audio logging for mobile devices |
US8725506B2 (en) * | 2010-06-30 | 2014-05-13 | Intel Corporation | Speech audio processing |
US9049696B2 (en) * | 2010-10-25 | 2015-06-02 | Projectone Solutions, Inc. | Multiple call session system and method for a mobile phone |
US8818797B2 (en) * | 2010-12-23 | 2014-08-26 | Microsoft Corporation | Dual-band speech encoding |
CN103187059B (zh) * | 2011-12-28 | 2017-09-05 | 上海博泰悦臻电子设备制造有限公司 | 基于车载应用的语音处理系统 |
US9349383B2 (en) * | 2013-01-29 | 2016-05-24 | 2236008 Ontario Inc. | Audio bandwidth dependent noise suppression |
-
2013
- 2013-12-03 US US14/095,181 patent/US9449602B2/en active Active
-
2014
- 2014-11-13 AU AU2014357638A patent/AU2014357638B2/en not_active Ceased
- 2014-11-13 KR KR1020167013613A patent/KR101875102B1/ko active IP Right Grant
- 2014-11-13 CN CN201480065907.4A patent/CN105793922B/zh active Active
- 2014-11-13 WO PCT/US2014/065405 patent/WO2015084560A1/en active Application Filing
- 2014-11-13 EP EP14824600.2A patent/EP3078022B1/en active Active
- 2014-11-13 CA CA2931407A patent/CA2931407C/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095325A (zh) * | 2011-10-21 | 2013-05-08 | 通用汽车环球科技运作有限责任公司 | 具有远程服务接口的移动语音平台架构 |
Also Published As
Publication number | Publication date |
---|---|
US9449602B2 (en) | 2016-09-20 |
EP3078022A1 (en) | 2016-10-12 |
AU2014357638B2 (en) | 2017-08-17 |
US20150154964A1 (en) | 2015-06-04 |
CA2931407A1 (en) | 2015-06-11 |
KR20160075664A (ko) | 2016-06-29 |
CA2931407C (en) | 2019-09-24 |
KR101875102B1 (ko) | 2018-07-06 |
CN105793922A (zh) | 2016-07-20 |
EP3078022B1 (en) | 2018-05-23 |
AU2014357638A1 (en) | 2016-05-19 |
WO2015084560A1 (en) | 2015-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105793922B (zh) | 用于多路径音频处理的设备、方法和计算机可读介质 | |
KR102287182B1 (ko) | 음성 커맨드에 대한 스마트 블루투스 헤드셋 | |
US9183845B1 (en) | Adjusting audio signals based on a specific frequency range associated with environmental noise characteristics | |
US8972251B2 (en) | Generating a masking signal on an electronic device | |
US20180358034A1 (en) | Active speaker detection in electronic meetings | |
US9984705B2 (en) | Non-intrusive quality measurements for use in enhancing audio quality | |
WO2021012872A1 (zh) | 一种编码参数调控方法、装置、设备及存储介质 | |
US9711162B2 (en) | Method and apparatus for environmental noise compensation by determining a presence or an absence of an audio event | |
US8965005B1 (en) | Transmission of noise compensation information between devices | |
US9311920B2 (en) | Voice processing method, apparatus, and system | |
US9812149B2 (en) | Methods and systems for providing consistency in noise reduction during speech and non-speech periods | |
US8744524B2 (en) | User interface tone echo cancellation | |
KR20150026405A (ko) | 음성 패킷 송수신 방법 및 이를 구현하는 전자 장치 | |
US20240105198A1 (en) | Voice processing method, apparatus and system, smart terminal and electronic device | |
US9129607B2 (en) | Method and apparatus for combining digital signals | |
US20190051286A1 (en) | Normalization of high band signals in network telephony communications | |
US9961441B2 (en) | Near-end listening intelligibility enhancement | |
WO2024019802A1 (en) | Automatic cloud normalization of audio transmissions for teleconferencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |