CN105556593A - 预处理音频信号的方法和设备 - Google Patents
预处理音频信号的方法和设备 Download PDFInfo
- Publication number
- CN105556593A CN105556593A CN201480020943.9A CN201480020943A CN105556593A CN 105556593 A CN105556593 A CN 105556593A CN 201480020943 A CN201480020943 A CN 201480020943A CN 105556593 A CN105556593 A CN 105556593A
- Authority
- CN
- China
- Prior art keywords
- audio
- supplementary
- signal
- electronic installation
- audio environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000005236 sound signal Effects 0.000 title claims abstract description 33
- 238000007781 pre-processing Methods 0.000 title claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 35
- 238000009434 installation Methods 0.000 claims description 30
- 230000033001 locomotion Effects 0.000 claims description 14
- 230000003287 optical effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 7
- 230000008054 signal transmission Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 10
- 206010038743 Restlessness Diseases 0.000 description 8
- 230000000576 supplementary effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72454—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/12—Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Environmental & Geological Engineering (AREA)
- Telephone Function (AREA)
Abstract
本公开旨在预处理音频信号。在一个实施方式中,电子装置(102)接收具有音频信息的音频信号;获得辅助信息(诸如位置、速度、方向、光、对象的接近度、以及温度);以及基于音频信息和辅助信息,确定电子装置(102)操作所在音频环境的类型。装置(102)基于确定的音频环境类型选择音频预处理过程,并根据选择的预处理过程预处理音频信号。然后装置(102)可以对经过预处理的音频信号执行语音识别。
Description
技术领域
本公开涉及处理音频信号,尤其涉及预处理音频信号的方法和设备。
背景技术
虽然语音识别已经出现数十年,但是语音识别软件和硬件的质量直到最近才达到足够高的水平以吸引大量消费者。近年来语音识别变得非常普及的一个领域是智能电话和平板计算机产业。使用启用语音识别的装置,完全通过发音,消费者就可以执行诸如打电话、写电子邮件、以及用GPS导航这样的任务。
但是在这样的装置中语音识别远远未臻完美。在初次使用启用语音识别的装置时,用户可能需要“训练”语音识别软件来识别他或她的发音。但是,即使经过训练,语音识别功能也不能在所有声音环境下工作良好。例如,背景噪声的出现会降低语音识别的准确性。
附图说明
虽然后附权利要求书通过特性阐述了本技术的特征,但是根据结合附图的以下详细描述可以更好地理解这些技术,在附图中:
图1示出用户向电子装置说话,在附图中将电子装置描述为移动装置。
图2示出图1的电子装置的示例组件。
图3示出可以实施各种实施例的体系结构。
图4示出根据本发明实施例可以执行的步骤。
具体实施方式
根据前述,现在将描述用于预处理音频信号的方法和设备。
根据实施例,电子装置能够选择适合于装置操作所在环境的预处理技术。这样,装置提高了语音识别准确度。在一个实施方式中,装置使用从音频信号本身获得的信息,以及从一个或多个辅助装置获得的信息。
装置能够在多种预处理技术(例如,单麦克风噪声抑制、双麦克风噪声抑制、自适应噪声消除)中的任何一个中选择并将选择的技术应用于装置的音频输入信号。适当预处理技术的选择可以取决于背景噪声的等级以及背景噪声的特性(例如,变化性、频谱形状等等)。
根据实施例,一个或多个辅助装置提供可以对其进行预处理过程选择的附加信息。例如,全球定位信号(GPS)模块可以提供有关装置的位置、装置是否在运动及其速度的信息。根据装置的位置和速度,可以获得有关背景噪声的等级以及背景噪声的特性的线索。例如,装置可以放置在安静的家庭环境、繁忙的餐厅、城市街道、或者公路中。它可以静止,或者以60mph的速度移动。基于装置的位置和速度,可以在类似条件下使用现有知识(例如,存储的噪声等级和特性的查找表)来推测有关噪声等级和噪声特性的信息。然后可将这样的信息用于为输入信号选择适当的预处理技术,从而增强语音识别性能。
在实施例中,电子装置接收具有音频信息的音频信号,获得辅助信息(诸如位置、速度、方向、光和温度),并基于音频信息和辅助信息,确定电子装置操作所在音频环境的类型。装置基于确定的音频环境类型选择音频预处理过程,并根据选择的预处理过程预处理音频信号。然后,装置可以对经过预处理的音频信号执行语音识别。
用于预处理过程的可能实施方式包括直通式信号传输、单麦克风噪声抑制、双麦克风噪声抑制、以及自适应噪声消除。
在实施例中,确定音频环境的类型涉及确定装置是在车辆中、在家里、在餐厅中、在办公室中、还是在街道上操作。
如同这里使用的,装置的“音频环境”表示除了用户语音的声音之外,装置听得见的声音的特性。背景噪声是音频环境的一部分。
如同这里使用的,“模块”是在硬件上执行的软件。模块可以在多个硬件元件上执行,或可以在单个硬件元件上执行。此外,当附图中示出多个模块时,应当理解,实际上模块可以都在相同的装置上并且在软件的相同整体单元中执行。
当本公开提及模块和其他元件相互“提供”信息(数据)时,应当理解,可以有可以执行这样的动作的多种可能方式,包括沿着传导路径(例如电线)传输的电信号以及对象间方法调用。
这里所述的一些实施例在常通音频(AOA)的背景下可用。当使用AOA时,装置102(图1)能够在收到来自用户的触发命令时从休眠模式中苏醒。AOA对装置(尤其是移动装置)提出了附加要求。因此,当装置102能够准确迅速识别用户的发音命令时,AOA最有效。
参照图1,用户104提供发音输入(或者有声化的信息或语音)106,通过麦克风(或者其他声音接收器)108,发音输入106被启用语音的电子装置(“装置”)102接收。装置102(在本示例中是移动装置)包括触摸屏显示器110,触摸屏显示器110能够显示视觉图像,以及接收或感测通过用户手指或者其他触摸输入装置(诸如手写笔)提供的触摸式输入。虽然有触摸屏显示器110,但是在图1所示实施例中,装置102还有充当装置的输入装置的多个分立键或按钮112。但是,在其他实施例中,这样的键或按钮(或者任何特定数量的这样的键或按钮)不需要出现,并且触摸屏显示器110可以充当主要或唯一的用户输入装置。
虽然图1将装置102特别示出为包括触摸屏显示器110以及键或按钮112,但是这些部件只是要作为装置102上组件/部件的示例,并且在其他实施例中,装置102不需要包括这些部件中的一个或多个,和/或除了这些部件之外或者作为这些部件的替代,还可包括其他部件。
装置102是要作为各种装置的代表,例如包括蜂窝电话、个人数字助理(PDA)、智能电话、或者其他手持或便携电子装置。在替代性实施例中,装置也可以是耳机(例如,蓝牙耳机)、MP3播放器、电池供电的装置、手表装置(例如,腕表)或其他可佩戴装置、无线电设备、导航装置、膝上型电脑或笔记本计算机、上网本、寻呼机、PMP(个人媒体播放器)、DVR(数字视频记录仪)、游戏装置、相机、电子阅读器、电子书、平板装置、带视频功能屏幕的导航装置、多媒体插接站、或其他装置。
本公开的实施例是为了可应用于多种电子装置中的任何一个,所述多种电子装置能够或者被配置为接收指示或代表有声化信息的发音输入或其他声音输入。
图2示出根据本公开的实施例,图1的装置102的内部组件。如图2所示,内部组件200包括一个或多个无线收发信机202、处理器204(例如,微处理器、微型计算机、专用集成电路等等)、存储器部206、一个或多个输出装置208、以及一个或多个输入装置210。此外,内部组件200可包括组件接口212,以提供与辅助组件或附件(用于附加或增强功能)的直接连接。此外,内部组件200可包括诸如电池的电源214,用于在使得移动装置成为可便携式时向其他内部组件供电。此外,内部组件200附加性地包括一个或多个传感器228。通过一个或多个内部通信链接232(例如,内部总线),所有内部组件200都可以相互耦合,并相互通信。
此外,在图2的实施例中,无线收发信机202特别包括蜂窝收发信机203和Wi-Fi收发信机205。更具体而言,蜂窝收发信机203被配置为进行蜂窝通信,诸如3G、4G、4G-LTE、面对面小区信号塔(未示出),虽然在其他实施例中,蜂窝收发信机203可以被配置为利用多种其他基于蜂窝的通信技术中的任何一个,诸如模拟通信(使用AMPS)、数字通信(使用CDMA、TDMA、GSM、iDEN、GPRS、EDGE等等)、和/或下一代通信(使用UMTS、WCDMA、LTE、IEEE802.16等等)或者其变型。
与之不同,Wi-Fi收发信机205是被配置为通过接入点,根据IEEE802.11(a、b、g、或n)标准进行Wi-Fi通信的无线局域网(WLAN)收发信机205。在其他实施例中,Wi-Fi收发信机205可以替代性(或者附加性)地进行通常被理解为涵盖于Wi-Fi通信的其他类型通信,诸如一些类型的对等(例如,Wi-Fi对等)通信。此外,在其他实施例中,可以用被配置用于非蜂窝无线通信的一个或多个其他无线收发信机来代替或补充Wi-Fi收发信机205,例如包括采用自组织通信技术(诸如家庭RF(射频)、家庭节点B(3G毫微微小区)、蓝牙)和/或其他无线通信技术(诸如红外技术)的无线收发信机。
虽然在本实施例中装置102有两个无线收发信机202(也就是收发信机203和205),但是本公开目的是涵盖其中出现采用任意数目通信技术的任意数目无线收发信机的多个实施例。借助于使用无线收发信机202,装置102能够与多种其他装置或系统(未示出)中的任何一个通信,例如包括其他移动装置、web服务器、小区信号塔、接入点、其他远程装置等等。根据实施例或环境的不同,可以实现装置102与任意数目其他装置或系统之间的无线通信。
无线收发信机202结合装置102的内部组件200的其他组件的操作可以采取多种形式。例如,无线收发信机202的操作可以按照这样的方式进行:在接收无线信号时,内部组件200检测通信信号,并且收发信机202将通信信号解调,以恢复通过无线信号发射的传入信息,诸如发音和/或数据。在接收来自收发信机202的传入信息之后,处理器204将传入信息格式化,以用于一个或多个输出装置208。同样,对于无线信号的传输,处理器204将传出信息(可由输入装置210激活,但是并非需要)格式化,并将传出信息传送给一个或多个无线收发信机202,以用于调制,从而提供待发射的经过调制的通信信号。
根据实施例的不同,内部组件200的输入和输出装置208、210可包括多种视觉、音频和/或机械输出。例如,输出装置208可包括诸如液晶显示器和/或发光二极管指示器的一个或多个视觉输出装置216、诸如扬声器、警报器和/或蜂鸣器的一个或多个音频输出装置218、和/或诸如振动机构的一个或多个机械输出装置220。除了其他之外,视觉输出装置216还可包括视频屏幕。同样,作为示例,输入装置210可包括诸如光学传感器的一个或多个视觉输入装置222(例如,相机镜头和光电传感器)、诸如图1的麦克风108的一个或多个音频输入装置224(或者进一步例如蓝牙耳机的麦克风)、和/或一个或多个机械输入装置226,诸如翻转传感器、键盘、键板、选择按钮、导航集群、触摸板、电容性传感器、运动传感器、和/或开关。可以致动一个或多个输入装置210的操作不仅可包括按钮或其他致动器的实体按压/致动,而且可包括例如打开移动装置、将装置解锁、移动装置来致动运动、移动装置来致动定位系统、以及操作装置。
如上所述,内部组件200还可包括一个或多个各种类型的传感器228以及管理传感器的一个或多个功能的传感器集线器。传感器228例如可包括接近传感器(例如,光检测传感器、超声波收发信机或者红外收发信机)、触摸传感器、高度传感器、以及一个或多个位置电路/组件(例如可包括:全球定位系统(GPS)接收器、三角接收器、加速计、倾斜传感器、陀螺仪、或者可以识别装置102的当前位置或用户装置接口(承载模式)的任何其他信息收集装置。虽然认为用于图2目的的传感器228不同于输入装置210,但是在其他实施例中,也可以认为一个或多个输入装置构成一个或多个传感器(并且反之亦然)。附加性地,虽然在本实施例中将输入装置210示出为不同于输出装置208,但是应当认识到,在一些实施例中,一个或多个装置充当(一个或多个)输入装置和(一个或多个)输出装置二者。特别地,在装置102包括触摸屏显示器110的本实施例中,可以认为触摸屏显示器构成视觉输出装置和机械输入装置二者(相比而言,键或按钮112只是机械输入装置)。
内部组件200的存储器部206可包含多种形式的任何一种的一个或多个存储器装置(例如,只读存储器、随机存取存储器、静态随机存取存储器、动态随机存取存储器等等),并且可由处理器204使用以存储和检索数据。在一些实施例中,存储器部206可以与处理器204集成在单个装置中(例如,包括存储器的处理装置或存储器中处理器(PIM)),虽然这样的单个装置通常将仍然具有执行不同的处理和存储器功能、并且可以认为是独立装置的不同部分/部件。在一些替代性实施例中,装置102的存储器部206可通过位于除了移动装置之外的其他地方的其他存储器部来补充或替代,并且在这样的实施例中,移动装置可通过多种通信技术的任何一个与这样的其他存储器部通信或者访问它们,例如,由无线收发信机202提供的无线通信、或者经由组件接口212的连接。
由存储器部206存储的数据可包括操作系统、程序(应用)、模块以及信息数据,但是不限于此。每个操作系统包括控制装置102基本功能的可执行代码,诸如内部组件200中包括的各种组件之间的相互作用、经由无线收发信机202和/或组件接口与外设的通信、以及往来于存储器部206的程序和数据的存储和检索。至于程序,每个程序包括利用操作系统提供更具体功能的可执行代码,诸如文件系统服务以及存储器部206中存储的受保护、未受保护数据的处理。除了其他之外,这样的程序可包括使得装置102能够执行诸如用于图3所示并在下文进一步讨论的语音识别的处理这样的处理。最后,关于信息数据,这是可通过操作系统或者用于执行装置102功能的程序来参考和/或操纵的非执行性代码或信息。
参照图3,根据本发明实施例的装置300包括处理器301、音频单元302、存储器303、以及信号处理和分析模块304。音频单元302包括一个或多个麦克风。音频单元302接收声音,将声音转换为音频信号,并将音频信号提供给信号处理和分析模块304。信号处理和分析模块304从音频信号中提取音频信息。这样的音频信息可包括背景噪声的等级、背景噪声的变化性、背景噪声的频谱形状等等。
仍然参照图3,装置300包括音频环境确定模块308、预处理器选择模块310、数据库312、以及辅助装置的集合314。辅助装置的集合314包括GPS模块316、运动传感器318、光学传感器320、以及温度传感器323。装置300还可包括其他辅助传感器324。
数据库312具有将传感和音频数据的不同集合与音频环境的不同类型相关联的一个或多个数据结构。这些数据结构例如可包括一个或多个查找表,所述一个或多个查找表包含位置以及与位置相对应的音频环境。可通过类似音频环境下的测试来创建这样的查找表。
GPS模块316接收GPS信号并基于接收的信号确定装置300的位置。GPS模块316将关于所确定的位置的信息(位置数据)提供给音频环境确定模块308。
运动传感器318感测装置300的运动,诸如装置300的加速度、速度、和方向。运动传感器318将关于所感测的运动的数据(运动数据)提供给音频环境确定模块308。在一些实施例中,运动传感器318确定装置300的运动,并按照距离、速度等等的适当单位的形式来提供运动数据。在其他实施例中,运动数据是原始的,在这种情况下,音频环境确定模块基于原始数据确定装置300的运动。
光学传感器320感测装置300附近的光,并将关于所感测的光的信息(光数据),诸如等级、颜色和图像,提供给音频环境确定模块308。光学传感器320可包括光电传感器、光电检测器、图像传感器、或者其他合适的装置。
温度传感器323可包括热敏电阻或其他类似的装置。温度传感器感测装置300附近的温度,并将关于温度的信息(“温度数据”)提供给音频环境确定模块308。
接近传感器327感测装置300附近的对象(包括人和物)的存在,并将关于这种存在的信息(“接近数据”)提供给音频环境确定模块308。
其他辅助装置324收集其他辅助信息,并将这种信息提供给音频环境确定模块308。
装置300还包括预处理器的集合325,包括第一预处理器326、第二预处理器328、以及第三预处理器330。装置300还可包括其他预处理器,用第四预处理器334表示。
集合325的每个预处理器执行预处理过程。可能的预处理过程包括单麦克风噪声抑制过程、双麦克风噪声抑制过程、以及自适应噪声消除过程。例如,第一预处理器326可以执行单麦克风噪声抑制过程,第二预处理器328可以执行双麦克风噪声抑制过程,而第三预处理器330可以执行自适应噪声消除过程。第四预处理器334可以执行第一预处理器326、第二预处理器328、以及第三预处理器330的某些组合。如下所述,有可能音频信号根本不经过预处理。
此外,装置300包括语音识别模块336,语音识别模块336将识别的语音信号转换为文本,或者响应于识别的语音或文本执行适当的动作。
音频环境确定模块308接收来自信号处理和分析模块304的音频信息,并接收来自辅助装置的集合314的辅助信息。音频环境确定模块308处理音频信息和辅助信息。使用经过处理的辅助信息,音频环境确定模块308查询数据库312并接收响应。音频环境确定模块308将查询响应与(从信号处理和分析模块304接收的)音频信息组合,以获得音频环境类型。音频环境确定模块308将关于音频环境类型的数据提供给预处理器选择模块310。
使用音频环境类型数据,预处理器选择模块310确定哪个预处理方法将最大地增强语音识别模块336识别语音的能力。从集合325,预处理器选择模块310选择与确定的预处理方法相关联的预处理器。
由预处理器选择模块310选择的预处理器对输入信号进行预处理,并将经过预处理的信号提供给信号识别模块336。基于经过预处理的信号,语音识别模块336确定声音是否构成一个或多个讲话。如果声音构成一个或多个讲话,则语音识别模块336将说的字或话提供给一个或多个应用,所述应用用图3的应用338表示。应用的示例包括文字处理器、命令接口、以及地址簿。
在一个实施例中,装置300能够执行触发过程,其中装置300处于休眠、低功率模式,但是连续监测触发字,诸如“苏醒”。在这样的实施例中,语音识别模块336操作在最小模式,其中,它不对音频信号作出反应,直到检测到触发命令。当语音识别模块336检测到触发命令时,语音识别模块336向一个或多个应用338发送消息。本示例中,应用338可以是操作系统为了让装置300脱离休眠模式而调用的方法。
现在将描述根据本发明各种实施例,音频环境确定模块310使用辅助信息来确定装置300的音频环境的方法。应当理解,音频环境确定模块310不一定也不需要从装置300的所有辅助装置接收数据。此外,装置300可以只包括辅助装置的集合314的子集。
GPS模块316将位置信息提供给音频环境确定模块308。音频环境确定模块308可以至少部分地基于位置信息来确定装置300的音频环境。在一个实施例中,音频环境确定模块308可以访问地图软件/服务(诸如谷歌地图,Google),并且能够查询地图软件/服务,以确定装置300所位于的地址以及该地址处的业务的类型。例如,如果音频环境确定模块308向地图服务查询GPS坐标并接收餐厅的地址,则音频环境确定模块308很可能推断出音频环境为“餐厅”。
音频环境确定模块308还可以使用位置信息来确定装置300的速度。具体而言,音频环境确定模块308以一定的间隔从GPS模块316接收位置数据更新,并确定装置300的位置随时间的变化。基于位置变化确定结果,音频环境确定模块308确定装置300的速度。音频环境确定模块308可以作出这种速度确定以确定装置300的音频环境。例如,如果音频环境确定模块308确定装置300正以20mph以上的速度移动,那么音频环境确定模块308可以确定出装置300处于移动的车辆中。
运动传感器318将运动数据提供给音频环境确定模块308。音频环境确定模块308可以至少部分地基于运动数据来确定装置300的音频环境。在一个实施例中,音频环境确定模块将运动数据用作对位置数据的补充。在实施例中,音频环境确定模块308使用位置数据来确定装置300的起始点,并基于运动数据和起始点,在每个时间间隔确定当前位置。然后,音频环境确定模块308至少部分地基于装置300的当前位置来确定音频环境类型。按照与仅仅从GPS模块316接收位置数据的相同方式,如上所述,也可以做到这一点。
光传感器320将关于照度等级的数据(光数据)提供给音频环境确定模块308。音频环境确定模块308可以至少部分地基于光数据来确定装置300的音频环境。在一个实施例中,音频环境确定模块308使用光数据来确定装置300是在室内、室外还是被储存。例如,如果光等级很低,则音频环境确定模块可以确定装置300是被储存。如果光等级高,则音频环境确定模块可以确定装置300是在室外。如果光等级适中,则音频环境确定模块可以确定装置300是在室内。
温度传感器323将温度数据提供给音频环境确定模块308。音频环境确定模块308可以至少部分地基于温度数据来确定装置300的音频环境。在一个实施例中,音频环境确定模块308使用温度数据来确定装置300是在室内还是室外。例如,如果温度适中,则音频环境确定模块可以确定装置300是在室内。如果温度高或低,则音频环境确定模块可以确定装置300是在室外。
接近传感器327将接近数据提供给音频环境确定模块308。音频环境确定模块308可以至少部分地基于接近数据来确定装置300的音频环境。在一个实施例中,音频环境确定模块308使用接近数据来确定装置300是否装好(例如,在钱包里)。例如,如果接近数据指示在装置300周围都是物体,则音频环境确定模块可以确定装置300被装好。
参照图4,现在将描述可以在实施例中执行的步骤的集合400。在步骤402,音频接收器302(图3)接收声音。在步骤404,音频接收器302将声音转换为音频信号。在步骤406,信号处理和分析模块304处理和分析音频信号,并将得到的音频数据提供给音频环境确定模块308。在步骤408,辅助装置的集合34的每个装置获取辅助数据,并将辅助数据提供给音频环境确定模块308,如前所述。在步骤410,音频环境确定模块308使用从辅助装置314接收的辅助数据查询数据库312,将查询的结果与从信号处理和分析模块304接收的音频数据组合,以便对于装置300确定音频环境类型,并将关于音频环境类型的数据提供给预处理器选择模块310。在步骤412,预处理器选择模块310确定哪个预处理方法(过程)将最大地增强语音识别模块336识别语音的能力。在步骤414,选择的预处理器根据确定的方法对音频信号进行预处理,并将经过预处理的音频信号提供给语音识别模块336。
由上可知,已经提供了用于预处理音频信号的方法和设备。考虑到可以应用本讨论原理的很多可能实施例,应当理解,这里针对附图所述的实施例目的仅仅是说明性的,而不应被视为限制权利要求的范围。因此,这里所述的技术将所有这样的实施例构思为皆落入所附权利要求书及其等同物的范围内。
Claims (20)
1.一种电子装置中的方法,所述方法包括:
接收包括音频信息的音频信号;
获得辅助信息;
基于所述音频信息和所述辅助信息,确定所述电子装置操作所在的音频环境的类型;
基于所确定的音频环境类型,从多个预定义音频预处理过程中选择音频预处理过程;以及
根据所选择的预处理过程,预处理所述音频信号。
2.根据权利要求1所述的方法,进一步包括:对经过预处理的音频信号执行语音识别。
3.根据权利要求1所述的方法,其中确定音频环境的类型包括:确定所述电子装置是否在多个音频环境中的至少一个中操作,所述多个音频环境包括:在车辆中、在家里、在餐厅、在办公室、以及在街道上。
4.根据权利要求1所述的方法,其中获得辅助信息包括:
接收全球定位系统信号;以及
基于所述全球定位系统信号,确定所述电子装置的位置,其中所述辅助信息包括所确定的位置。
5.根据权利要求1所述的方法,其中获得辅助信息包括:
接收全球定位系统信号;以及
基于所述全球定位系统信号,确定所述电子装置的速度,其中所述辅助信息包括所确定的速度。
6.根据权利要求1所述的方法,其中获得辅助信息包括:
接收全球定位系统信号;
基于所述全球定位系统信号,确定所述电子装置的位置;以及
基于所述全球定位系统信号,确定所述电子装置的速度,其中所述辅助信息包括所确定的位置以及所确定的速度。
7.根据权利要求1所述的方法,其中所述多个预定义音频预处理过程包括选自下述组的过程,该组包括:直通式信号传输、单麦克风噪声抑制、双麦克风噪声抑制、以及自适应噪声消除。
8.根据权利要求1所述的方法,其中获得辅助信息包括:
感测光;以及
基于所感测的光,确定所述电子装置操作所在的音频环境的类型。
9.根据权利要求1所述的方法,其中获得所述辅助信息包括:基于来自运动传感器的信号,确定所述电子装置的速度。
10.一种电子装置,包括:
辅助装置;
处理器,所述处理器:
接收包括音频信息的音频信号;
从所述辅助装置接收辅助信息;
基于所述音频信息和所述辅助信息,确定所述电子装置操作所在的音频环境的类型;以及
基于所确定的音频环境类型,从多个预定义音频预处理过程中选择音频预处理过程;以及
音频预处理器模块,所述音频预处理器模块对所述音频信号执行所选择的音频预处理过程,以生成预处理音频信号。
11.根据权利要求10所述的电子装置,进一步包括语音识别模块,所述语音识别模块对所述预处理音频信号执行语音识别。
12.根据权利要求10所述的电子装置,进一步包括:
全球定位系统模块,所述全球定位系统模块基于全球定位系统信号确定位置,其中所述辅助信息包括所确定的位置。
13.根据权利要求10所述的电子装置,进一步包括:
光学传感器,所述光学传感器确定与所述电子装置附近光的亮度和颜色有关的光学数据,其中所述辅助信息包括所述光学数据。
14.根据权利要求10所述的电子装置,其中所述多个预定义音频预处理过程包括选自下述组的预定义处理过程,该组包括:直通式信号传输、单麦克风噪声抑制、双麦克风噪声抑制、以及自适应噪声消除。
15.根据权利要求10所述的电子装置,进一步包括语音识别模块,所述语音识别模块将所述预处理音频信号转换为文本数据,并将所述文本数据提供给应用程序。
16.根据权利要求15所述的电子装置,其中所述应用程序选自下述组,该组包括:用户界面、地址簿、拨号器、以及即时消息收发程序。
17.根据权利要求16所述的电子装置,其中所述应用程序处理所述文本数据。
18.一种非临时性计算机可读存储介质,上面存储有可由计算处理器执行的程序,以执行包括以下的方法:
接收包括音频信息的音频信号;
获得辅助信息;
基于所述音频信息和所述辅助信息,确定所述电子装置操作所在的音频环境的类型;
基于所确定的音频环境类型,从多个预定义音频预处理过程中选择音频预处理过程;以及
根据所选择的预处理过程,预处理所述音频信号。
19.根据权利要求18所述的非临时性计算机可读存储介质,其中获得辅助信息包括:
接收全球定位系统信号;以及
基于所述全球定位系统信号,确定所述电子装置的位置,其中所述辅助信息包括所确定的位置。
20.根据权利要求18所述的非临时性计算机可读存储介质,其中所述多个预定义音频预处理过程选自下述组的过程,该组包括:直通式信号传输、单麦克风噪声抑制、双麦克风噪声抑制、以及自适应噪声消除。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361776793P | 2013-03-12 | 2013-03-12 | |
US61/776,793 | 2013-03-12 | ||
US201361798097P | 2013-03-15 | 2013-03-15 | |
US61/798,097 | 2013-03-15 | ||
US201361819960P | 2013-05-06 | 2013-05-06 | |
US61/819,960 | 2013-05-06 | ||
US13/949,333 US20140278392A1 (en) | 2013-03-12 | 2013-07-24 | Method and Apparatus for Pre-Processing Audio Signals |
US13/949,333 | 2013-07-24 | ||
PCT/US2014/016349 WO2014143491A1 (en) | 2013-03-12 | 2014-02-14 | Method and apparatus for pre-processing audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105556593A true CN105556593A (zh) | 2016-05-04 |
Family
ID=51531812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480020943.9A Pending CN105556593A (zh) | 2013-03-12 | 2014-02-14 | 预处理音频信号的方法和设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140278392A1 (zh) |
EP (1) | EP2973555A1 (zh) |
CN (1) | CN105556593A (zh) |
WO (1) | WO2014143491A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106297779A (zh) * | 2016-07-28 | 2017-01-04 | 块互动(北京)科技有限公司 | 一种基于位置信息的背景噪声消除方法及装置 |
CN106686223A (zh) * | 2016-12-19 | 2017-05-17 | 中国科学院计算技术研究所 | 聋哑人与正常人的辅助对话系统、方法及智能手机 |
CN106713633A (zh) * | 2016-12-19 | 2017-05-24 | 中国科学院计算技术研究所 | 一种聋人提示系统、方法及智能手机 |
CN108475502A (zh) * | 2015-12-30 | 2018-08-31 | 美商楼氏电子有限公司 | 语音增强感知模式 |
CN113038344A (zh) * | 2019-12-09 | 2021-06-25 | 三星电子株式会社 | 电子装置及其控制方法 |
WO2021143599A1 (zh) * | 2020-01-15 | 2021-07-22 | 荣耀终端有限公司 | 基于场景识别的语音处理方法及其装置、介质和系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160125891A1 (en) * | 2014-10-31 | 2016-05-05 | Intel Corporation | Environment-based complexity reduction for audio processing |
US10685665B2 (en) | 2016-08-17 | 2020-06-16 | Vocollect, Inc. | Method and apparatus to improve speech recognition in a high audio noise environment |
US10181321B2 (en) * | 2016-09-27 | 2019-01-15 | Vocollect, Inc. | Utilization of location and environment to improve recognition |
US10015658B1 (en) | 2017-05-18 | 2018-07-03 | Motorola Solutions, Inc. | Method and apparatus for maintaining mission critical functionality in a portable communication system |
CN110998724B (zh) * | 2017-08-01 | 2021-05-21 | 杜比实验室特许公司 | 基于位置元数据的音频对象分类 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050187763A1 (en) * | 2004-02-23 | 2005-08-25 | General Motors Corporation | Dynamic tuning of hands-free algorithm for noise and driving conditions |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
US20110166856A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Noise profile determination for voice-related feature |
US20110300806A1 (en) * | 2010-06-04 | 2011-12-08 | Apple Inc. | User-specific noise suppression for voice quality improvements |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4352790B2 (ja) * | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
DE102005006660B3 (de) * | 2005-02-14 | 2006-11-16 | Siemens Audiologische Technik Gmbh | Verfahren zum Einstellen eines Hörhilfsgeräts, Hörhilfsgerät und mobile Ansteuervorrichtung zur Einstellung eines Hörhilfsgeräts sowie Verfahren zur automatischen Einstellung |
US7675414B2 (en) * | 2006-08-10 | 2010-03-09 | Qualcomm Incorporated | Methods and apparatus for an environmental and behavioral adaptive wireless communication device |
US7941189B2 (en) * | 2007-02-07 | 2011-05-10 | Denso Corporation | Communicating road noise control system, in-vehicle road noise controller, and server |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US8243937B2 (en) * | 2008-10-03 | 2012-08-14 | Adaptive Sound Technologies, Inc. | Adaptive ambient audio transformation |
US20100323615A1 (en) * | 2009-06-19 | 2010-12-23 | Vock Curtis A | Security, Safety, Augmentation Systems, And Associated Methods |
KR101832693B1 (ko) * | 2010-03-19 | 2018-02-28 | 디지맥 코포레이션 | 직관적 컴퓨팅 방법들 및 시스템들 |
US8265928B2 (en) * | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8234111B2 (en) * | 2010-06-14 | 2012-07-31 | Google Inc. | Speech and noise models for speech recognition |
US9424468B2 (en) * | 2010-09-08 | 2016-08-23 | Toyota Jidosha Kabushiki Kaisha | Moving object prediction device, hypothetical movable object prediction device, program, moving object prediction method and hypothetical movable object prediction method |
-
2013
- 2013-07-24 US US13/949,333 patent/US20140278392A1/en not_active Abandoned
-
2014
- 2014-02-14 WO PCT/US2014/016349 patent/WO2014143491A1/en active Application Filing
- 2014-02-14 EP EP14708385.1A patent/EP2973555A1/en not_active Withdrawn
- 2014-02-14 CN CN201480020943.9A patent/CN105556593A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050187763A1 (en) * | 2004-02-23 | 2005-08-25 | General Motors Corporation | Dynamic tuning of hands-free algorithm for noise and driving conditions |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
US20110166856A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Noise profile determination for voice-related feature |
US20110300806A1 (en) * | 2010-06-04 | 2011-12-08 | Apple Inc. | User-specific noise suppression for voice quality improvements |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108475502A (zh) * | 2015-12-30 | 2018-08-31 | 美商楼氏电子有限公司 | 语音增强感知模式 |
CN108475502B (zh) * | 2015-12-30 | 2019-08-16 | 美商楼氏电子有限公司 | 用于提供环境感知的方法和系统及计算机可读存储介质 |
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
US10957305B2 (en) | 2016-06-29 | 2021-03-23 | Lenovo (Beijing) Co., Ltd. | Method and device for information processing |
CN106297779A (zh) * | 2016-07-28 | 2017-01-04 | 块互动(北京)科技有限公司 | 一种基于位置信息的背景噪声消除方法及装置 |
CN106686223A (zh) * | 2016-12-19 | 2017-05-17 | 中国科学院计算技术研究所 | 聋哑人与正常人的辅助对话系统、方法及智能手机 |
CN106713633A (zh) * | 2016-12-19 | 2017-05-24 | 中国科学院计算技术研究所 | 一种聋人提示系统、方法及智能手机 |
CN113038344A (zh) * | 2019-12-09 | 2021-06-25 | 三星电子株式会社 | 电子装置及其控制方法 |
US12051437B2 (en) | 2019-12-09 | 2024-07-30 | Samsung Electronics Co., Ltd. | Improving speech intelligibility by varying gains of sound types based on scene information |
WO2021143599A1 (zh) * | 2020-01-15 | 2021-07-22 | 荣耀终端有限公司 | 基于场景识别的语音处理方法及其装置、介质和系统 |
Also Published As
Publication number | Publication date |
---|---|
US20140278392A1 (en) | 2014-09-18 |
WO2014143491A1 (en) | 2014-09-18 |
EP2973555A1 (en) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105556593A (zh) | 预处理音频信号的方法和设备 | |
AU2018336999B2 (en) | Adaptable interface for retrieving available electronic digital assistant services | |
CN107076561B (zh) | 在位置确定期间考虑室内-室外过渡 | |
CN105278672A (zh) | 具有运动特征化电路的电子设备 | |
CN106293076A (zh) | 通信终端及智能终端手势识别方法和装置 | |
US20170307393A1 (en) | Information processing apparatus, information processing method, and program | |
Ali | Sensors and mobile phones: evolution and state-of-the-art | |
CN104205153A (zh) | 推荐应用或者内容的移动通信终端和方法 | |
Capurso et al. | A survey on key fields of context awareness for mobile devices | |
CN106376483B (zh) | 宠物运动状态的判断方法和装置 | |
CN106332020A (zh) | 短信合并方法、装置及终端设备 | |
CN105683900A (zh) | 可穿戴地图和图像显示器 | |
CN105580071A (zh) | 用于训练声音识别模型数据库的方法和装置 | |
KR102598270B1 (ko) | 차량 탑승 인식 방법 및 이를 구현한 전자 장치 | |
CN107748679A (zh) | 一种运行限制方法、终端及计算机可读存储介质 | |
WO2017047063A1 (ja) | 情報処理装置、評価方法及びプログラム記録媒体 | |
US20190049250A1 (en) | Information processing apparatus, information processing method, and computer program | |
EP2972657B1 (en) | Application-controlled granularity for power-efficient classification | |
KR101995799B1 (ko) | 상황 인지 서비스를 제공하기 위한 장소 인식 장치 및 방법 | |
KR102564468B1 (ko) | 경로 정보를 제공하기 위한 전자 장치 및 방법 | |
CN109155101A (zh) | 电子设备、控制方法、以及控制程序 | |
CN107835304B (zh) | 控制移动终端的方法、装置、移动终端及存储介质 | |
CN111796055B (zh) | 测量空气质量的便携式设备及显示空气质量的信息的方法 | |
KR20150009833A (ko) | 장소 인식을 제어하는 휴대 단말 및 방법 | |
CN108093369B (zh) | 一种酒店客房信息的推送方法及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160504 |