CN106465006B - 麦克风的操作方法和支持该方法的电子设备 - Google Patents
麦克风的操作方法和支持该方法的电子设备 Download PDFInfo
- Publication number
- CN106465006B CN106465006B CN201580035109.1A CN201580035109A CN106465006B CN 106465006 B CN106465006 B CN 106465006B CN 201580035109 A CN201580035109 A CN 201580035109A CN 106465006 B CN106465006 B CN 106465006B
- Authority
- CN
- China
- Prior art keywords
- audio data
- processing module
- microphone
- module
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011017 operating method Methods 0.000 title claims description 32
- 238000000034 method Methods 0.000 title description 33
- 238000012545 processing Methods 0.000 claims abstract description 569
- 230000001629 suppression Effects 0.000 claims description 46
- 230000005236 sound signal Effects 0.000 claims description 33
- 230000004913 activation Effects 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 16
- 230000008901 benefit Effects 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 259
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 125
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 125
- 238000004891 communication Methods 0.000 description 71
- 230000004044 response Effects 0.000 description 25
- 230000008859 change Effects 0.000 description 17
- 238000007781 pre-processing Methods 0.000 description 17
- 230000001413 cellular effect Effects 0.000 description 15
- 230000003139 buffering effect Effects 0.000 description 11
- 241000209140 Triticum Species 0.000 description 10
- 235000021307 Triticum Nutrition 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 230000003213 activating effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 238000013179 statistical model Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 241001269238 Data Species 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 239000002184 metal Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 208000006930 Pseudomyxoma Peritonei Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000001646 magnetic resonance method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010358 mechanical oscillation Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 229920000306 polymethylpentene Polymers 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Quality & Reliability (AREA)
Abstract
提供一种包括多个麦克风和音频数据处理模块的电子设备。多个麦克风可操作地耦接至电子设备,并且音频数据处理模块能够用至少一个处理器来实现。音频数据处理模块基于使用多个麦克风的一部分收集的第一音频数据来识别指定的命令,并且当识别出指定的命令时,执行与使用所有多个麦克风收集的第二音频数据相对应的功能或应用。
Description
技术领域
本公开涉及能够操作多个麦克风的方法和设备。
背景技术
随着数字技术的发展,近年来可能开发在移动时执行个人信息通信和处理的电子设备。这样的电子设备可以以移动融合的形式开发。
电子设备可以包括用于收集音频数据的麦克风。电子设备可以激活麦克风以收集音频数据。电子设备可存储所收集的音频数据或可将其发送到其它电子设备。
发明内容
技术问题
相关技术的上述电子设备可以包括一个麦克风。为此,通过一个麦克风收集的数据可以是包括大量噪声的信息。因此,相关技术的电子设备可能具有所收集的音频数据的语音识别的精度降低的缺点。
上述信息作为背景信息呈现以帮助理解本发明。关于上述内容中的任何一个是否可适用作为关于本公开的现有技术,没有做出确定,并且没有做出断言。
技术方案
本发明的实施例用于解决至少上述问题和/或缺点并且提供至少以下描述的优点。
根据本公开的实施例,提供了一种电子设备。电子设备包括可操作地耦接至电子设备的多个麦克风以及能够用至少一个处理器实现的音频数据处理模块。音频数据处理模块被配置成基于使用多个麦克风的一部分收集的第一音频数据来识别指定的命令,并且当识别出指定的命令时,执行与使用全部该多个麦克风收集的第二音频数据相对应的功能或应用。
根据本公开的另一个实施例,提供了一种麦克风操作方法。该方法包括:使用可操作地耦接至电子设备的多个麦克风的一部分来收集第一音频数据;基于该第一音频数据识别指定的命令;并且基于对所指定的命令的识别,执行与使用所有该多个麦克风收集的第二音频数据相对应的功能或应用。
本领域的技术人员从以下详细描述将明白本发明的其他实施例、优点和特点,以下详细描述结合附图公开了本发明的多个实施例。
有益效果
因此,本公开的实施例提供一种能够使用多个麦克风更加准确地识别语音的麦克风操作方法和支持该方法的电子设备。
本发明的另一实施例提供一种麦克风操作方法及支持该麦克风操作方法的电子设备,该方法能够利用多个麦克风中的至少一个麦克风,并根据条件操作多个麦克风,从而使得可以有效地使用电力。
附图说明
结合附图,本发明的某些实施例的上述和其他实施例、特征和优点从以下描述将会更加明显,其中:
图1示出了根据本公开的实施例的包括多个麦克风的电子设备的操作环境;
图2示出了根据本公开的实施例的基于音频编码解码器和音频数据处理模块来操作麦克风的电子设备;
图3示出根据本公开的实施例的使用基于低功率处理模块和音频数据处理模块的麦克风的电子设备;
图4示出了根据本公开的实施例的使用基于低功率处理模块,音频数据处理模块和音频编码解码器的麦克风的电子设备;
图5示出了根据本公开的实施例的支持基于低功率处理模块和音频编码解码器的麦克风集成使用的电子设备;
图6示出了根据本公开的实施例的支持基于低功率处理模块和音频编码解码器集成使用的低功率麦克风的电子设备;
图7示出了根据本公开的实施例的麦克风操作方法;
图8示出了根据本公开的实施例的电子设备的屏幕界面;并且
图9示出了根据本公开的实施例的电子设备的硬件配置。
通过附图,应当明白附图标记用于描绘相同或相似的元件、特征和结构。
具体实施方式
提供参照附图的以下描述以帮助全面理解由权利要求书及其等同形式限定的本发明的多个实施例。以下描述包括各种具体细节以帮助理解,但是它们应当仅仅被视为示例性的。因此,本领域的技术人员应当明白,在不脱离本发明的范围和精神的情况下,可以对本文所述的多个实施例进行多种变化和修改。为了清楚和简洁起见,可以省略对众所周知的功能和构造的描述。
以下描述和权利要求书中使用的术语和词语不限于书面含义,而是仅仅供发明人用来清楚且一致地理解本发明。因此,本领域的技术人员应当理解,本发明的多个实施例的以下描述是为了说明目的而提供的,并且不是为了限制由所附权利要求书及其等同形式所限定的本发明。
应当理解,单数形式“一个”、“一种”和“该”包括复数指代,除非上下文另有清晰的表示。因而,例如,对“一个组件表面”的指代也包括对一个或多个这样的表面的指代。
本文中使用的术语“包括”,“包含”指示公开的功能、操作或元件的存在,但不排除其他功能,操作或元件。还应当理解,本文使用的术语“包括”,“包含”,“具有”或“含有”指定存在所述特征,整数,操作,元件,组件或其组合但不排除存在或添加一个或多个其它特征,整体,操作,元件,部件或其组合。
本文使用的术语“或”或“A和/或B中的至少一个”的含义包括与术语一起列出的词的任何组合。例如,表述“A或B”或“A和/或B中的至少一个”可以指示A,B或A和B。
诸如在此使用的诸如“第一”,“第二”等的术语可以指本公开的各种实施例的各种元件,但不限制这些元件。例如,这些术语不限制元件的顺序和/或优先级。此外,这样的术语可以用于将一个元件与另一个元件区分开。例如,“第一用户设备”和“第二用户设备”表示不同的用户设备。在不脱离本公开的范围的情况下,第一元件可以被称为第二元件,并且类似地,第二元件可以被称为第一元件。
在下面的描述中,当一个部分(或元件,设备等)被称为“连接”到另一个部分(或元件,设备等)时,应当理解,前者可以“直接连接”到后者,或者经由中间部分(或元件,装置等)“电连接”到后者。还应当理解,当一个部件被称为“直接连接”或“直接联接”到另一个部件时,这意味着不存在中间部件。
本说明书中使用的术语用于描述本公开的各种实施例,并且不旨在限制本公开的范围。除非另有说明,否则单数形式的术语可以包括复数形式。
除非本文另有定义,否则本文使用的包括技术或科学术语的所有术语可以具有本领域技术人员通常理解的相同含义。还应当理解,在字典中定义并且常用的术语也应当被解释如在相关现有技术中惯用的,而不是以理想化或过度正式的方式,除非本文在本公开的各种实施例中明确地如此定义。
根据本公开的各个实施例的电子设备可以包括金属壳。例如,电子设备可以包括以下各项的至少一种:智能电话,平板个人计算机(PC),移动电话,视频电话,电子书阅读器,台式PC,膝上型PC,上网本计算机,个人数字助理(PDA),便携式多媒体播放器(PMPs),运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器,移动医疗设备,照相机,可穿戴设备(例如,诸如电子眼镜的头戴式设备(HMD)),电子衣服,电子手环,电子项链,电子配件,电子纹身,智能手表等。
根据本公开的各种实施例,电子设备可以是包括金属外壳的智能家电。智能家电可以包括以下各项的至少一种:例如电视(TV),数字通用光盘(DVD)播放器,音频,冰箱,空调,清洁器,烤箱,微波炉,洗衣机,空气净化器,机顶盒,电视盒(例如,三星HomeSyncTM,Apple TVTM或Google TVTM),游戏控制台,电子词典,电子钥匙,摄像机,电子相框等。
根据本公开的各种实施例,电子设备可以包括以下各项的至少一种:医疗设备(例如,磁共振血管造影术(MRA),磁共振成像(MRI),计算机断层摄影(CT),扫描器和超声波装置),导航装置,GPS接收器,事件数据记录器(EDR),飞行数据记录器(FDR),车辆信息娱乐装置,船舶电子设备(例如导航系统和陀螺罗盘),航空电子设备,安全装置,车辆的头部单元,工业或家庭机器人,自动柜员机(ATM)和包括金属外壳的销售点(POS)。
根据本公开的各种实施例,电子设备可以包括以下各项的至少一种:具有通信功能的家具或建筑物/结构的部件,电子板,电子签名接收装置,投影仪和包括金属外壳的测量仪器(例如,水表,电表,气量计和波形计)。根据本公开的各个实施例的电子设备可以是上述设备的一个或多个组合。此外,根据本公开的各种实施例的电子设备可以是柔性设备。对于本领域技术人员显而易见的是,根据本公开的各种实施例的电子设备不限于上述设备。
在下文中,将参考附图描述根据本公开的各种实施例的电子设备。这里使用的术语“用户”可以指使用电子设备的人,或者可以指使用电子设备的设备(例如,人工电子设备)。
图1示出了根据本公开的各种实施例的包括多个麦克风的电子设备的操作环境。
考图1,电子设备操作环境可以包括电子设备100,电子设备102,电子设备104,网络162和服务器设备106。在电子设备操作环境中,电子设备100可以支持接收的音频数据的语音识别和根据语音识别的功能处理。电子设备100可以包括多个麦克风,并且可以允许多个麦克风中的至少一个保持活动状态。电子设备100可以基于分析至少一个麦克风收集的音频数据的结果,允许剩余麦克风保持非活动状态,并且可以将剩余麦克风的非活动状态改变为活动状态。
电子设备102可以使用扬声器等输出音频数据。从电子设备102输出的音频数据可以设置成电子设备100的多个麦克风中的至少一个的输入。根据本公开的各种实施例,电子设备102可以接收根据电子设备100的功能处理的结果,或者可以结合电子设备100执行功能。例如,在电子设备100根据特定音频数据的分析执行功能的情况下,电子设备102可以与电子设备100形成通信信道。
电子设备104可以通过网络162与电子设备100形成通信信道。电子设备104可以根据对电子设备100的音频数据的分析来接收功能处理的结果。例如,在电子设备100根据音频数据的分析执行通话功能的情况下,电子设备104可以响应于电子设备100的请求形成通信信道。
服务器设备106可以通过网络162与电子设备100形成通信信道。服务器设备106可以向电子设备100提供与语音识别相关联的信息。根据本公开的各种实施例,服务器设备106可以响应于分析音频数据的结果而提供与在电子设备100处执行的特定功能相关联的服务信息。例如,服务器设备106可以向电子设备100提供与电子设备100的功能处理相关联的服务页面或内容(例如,音频文件,图像文件,文本文件等)。
网络162可以形成电子设备100和104之间或电子设备100和服务器设备106之间的通信信道。网络162可以发送与电子设备100的功能处理相关联的各种信息。
参考图1,电子设备100可以包括通信接口110,输入/输出接口120,音频编码解码器130,显示器140,存储器150,处理器160,低功率处理模块170,音频数据处理模块180和总线190。
电子设备100可以包括具有至少一个麦克风(Mic1至MicN)的麦克风模块MIC。麦克风模块MIC可以响应于音频数据处理模块180的控制而操作。根据本公开的实施例,在请求语音识别功能的细节识别功能的情况下,电子设备100可以激活多个麦克风Mic1至MicN以执行与细节识别功能相关联的语音识别功能。根据本公开的实施例,在请求语音识别功能的省电功能的情况下,电子设备100可以激活一个麦克风,并且当收集特定音频数据时,电子设备100可以基于多个麦克风Mic1至MicN来执行应用了省电功能的语音识别功能。
通信接口110可以在电子设备100和外部设备(例如,电子设备104或服务器设备106)之间传送通信。例如,通信接口110可以通过无线通信或有线通信与网络162耦接以与外部设备通信。无线通信可以包括例如以下各项的至少一种:Wi-Fi,蓝牙(BT),近场通信(NFC),GPS或蜂窝通信(例如,长期演进(LTE)),先进LTE(LTE-A),码分多址(CDMA),宽码分多址(WCDMA),通用移动电信服务(UMTS),无线宽带(WiBro)或全球移动通信系统(GSM))。有线通信可以包括例如以下各项的至少一种:通用串行总线(USB),高清晰度多媒体接口(HDMI),推荐标准232(RS-232)或普通老式电话服务(POTS)。
根据本公开的实施例,网络162可以是电信网络。电信网络可以包括计算机网络,互联网,物联网或电话网络中的至少一种。根据本公开的实施例,用于电子设备100和外部设备之间的通信的协议(例如,传输层协议,数据链路层协议或物理层协议)可以由以下中的至少一个来支持:应用154,应用编程接口153,中间件152,内核151或通信接口110。
通信接口110可以包括与电子设备100的呼叫功能相关联的至少一个通信单元。例如,通信接口110可以包括各种通信单元,诸如移动通信单元,(诸如数字多媒体广播(DMB)模块或数字视频广播手持(DVB-H)模块的)广播接收单元,(诸如作为BT模块的ZigBee模块的)近场通信单元,NFC模块,Wi-Fi通信模块等。根据本公开的实施例,通信接口110可以形成与语音呼叫功能,视频呼叫功能等相关联的通信信道。电子设备100可以在执行通信接口110的呼叫功能的同时激活语音识别功能。
根据本公开的各种实施例,通信接口110可以基于Wi-Fi通信单元接收包括音频数据的流数据。音频数据处理模块180可以支持在基于Wi-Fi通信单元形成通信信道的状态下接收的流数据的语音识别功能。根据本公开的实施例,音频数据处理模块180可以控制功能,例如根据语音识别改变通信100的Wi-Fi通信信道,释放通信100的Wi-Fi通信信道等。例如,如果收集诸如“Hi Samsung,Stop streaming”的音频数据,则音频数据处理模块180可以将“Hi Samsung”识别为特定音频数据,并将“Stop streaming”识别为功能执行指令。因此,通信接口110可停止流媒体数据接收功能或可释放相关通信信道。
根据本公开的各种实施例,通信接口110可以形成与语音识别服务器设备通信的通信信道。例如,通信接口110可以根据音频数据处理模块180的控制将在收集特定音频数据之后接收的音频数据发送到特定语音识别服务器设备。通信接口110可以从特定语音识别服务器设备接收语音识别结果,并且可以将接收到的语音识别结果传送到音频数据处理模块180。
输入/输出接口120可以例如通过总线190将通过输入/输出设备(例如,传感器,键盘或触摸屏)从用户接收的指令或数据发送到处理器160,存储器150,通信接口110或音频数据处理模块180。例如,输入/输出接口120可以向处理器160提供与通过触摸屏的用户触摸输入相关联的数据。此外,输入/输出接口120可以通过输入/输出设备(例如,扬声器或显示器)输出例如通过总线190从处理器160,存储器150,通信接口110或音频数据处理模块180接收的指令或数据。例如,输入/输出接口120可以通过扬声器将通过处理器160处理的语音数据输出到用户。
输入/输出接口120可以产生电子设备100的输入信号。输入/输出接口120可以包括例如键盘,圆顶开关,触控板(电容/电阻),滚轮或滚轮开关的至少一种。输入/输出接口120可以在电子设备100的外部以按钮的形式实现,并且一些按钮可以利用虚拟按键实现。根据本公开的实施例,输入/输出接口120可以包括用于接收数字或字符信息并设置各种功能的多个键。这样的键可以包括菜单呼叫键,屏幕开/关键,电源开/关键,音量调节键,主页键等。
根据本公开的实施例,输入/输出接口120可以产生与语音识别功能的激活相关联的输入事件,与语音识别功能的省电功能或细节识别功能的选择相关联的输入事件,与语音识别功能的释放(或不激活)相关联的输入事件等。输入/输出接口120还可以产生与根据语音识别功能执行的功能控制相关联的输入事件,与所执行的功能的结束相关联的事件等。由此产生的输入事件可以被提供给音频数据处理模块180,以便应用于与相关功能的控制相关联的指令或指令集。
音频编码解码器130可以处理电子设备100的音频信号。例如,音频编码解码器130可以将从音频数据处理模块180接收的音频信号发送到扬声器SPK。音频编码解码器130可以处理从至少一个麦克风接收的音频信号(例如,语音等),并且可以将处理结果发送到音频数据处理模块180。音频编码解码器130可以将从麦克风接收的诸如语音等的音频信号转换为数字信号,并且可以将数字信号传送到音频数据处理模块180。音频编码解码器130可以用独立于音频数据处理模块180的芯片来实现。
根据本公开的实施例,当语音识别功能被激活时,音频编码解码器130可以激活第一麦克风Mic1以监视特定音频数据的收集。如果收集了特定音频数据,则音频编码解码器130可以控制以激活麦克风Mic2至MicN并且可以执行细节识别功能。音频编码解码器130可以将根据细节识别功能处理的结果传送到音频数据处理模块180。
根据本公开的实施例,当语音识别功能被激活时,音频编码解码器130可以激活包括在麦克风模块MIC中的多个麦克风Mic1至MicN,以控制音频数据的收集。在该操作中,如果使用多个麦克风Mic1至MicN收集特定音频数据,则音频编码解码器130可以基于收集的音频数据执行多麦克风控制处理的至少一部分。多麦克风控制处理可以包括到达方向确定功能,波束形成功能或噪声抑制功能中的至少一个。音频编码解码器130可以将根据多麦克风控制处理所得的结果传送到音频数据处理模块180。或者,音频编码解码器130可以基于根据多麦克风控制处理所得的结果来执行语音识别功能。
显示器140可以输出与在电子设备100处理的功能相对应的各种屏幕。例如,显示器140可以输出等待屏幕,菜单屏幕,锁定屏幕等。根据本公开的实施例,显示器140可以输出与语音识别功能的激活相关联的图标或菜单项。显示器140可以输出与语音识别功能的设置改变相关联的屏幕。显示器140可以输出与正在执行的语音预处理功能相关联的信息,诸如与省电功能状态或细节识别功能状态相关联的信息。显示器140可以输出在执行语音识别功能时识别的音频数据的文本信息,参照文本信息找到的信息或执行的功能屏幕。在识别音频数据时产生错误的情况下,显示器140可输出产生错误的信息。例如,在没有准确地识别出语音的情况下,显示器140可以输出与其对应的错误消息。
根据本公开的实施例,当语音识别功能被激活时,显示器140可以向显示器140的一侧输出指示麦克风模块MIC中的至少一个麦克风的位置的信息。例如,显示器140可以输出指示在执行基于第一麦克风Mic1的语音识别功能时第一麦克风Mic1的位置的信息。显示器140可以输出指示在执行基于多个麦克风Mic1至MicN的语音识别功能时的多个麦克风Mic1至MicN的位置的信息。
显示器140可以基于电子设备100的屏幕/设备朝向,以横向模式,纵向模式以及根据横向模式和纵向模式之间的改变得到的屏幕改变来显示屏幕。在电子设备100的模式改变为横向模式或纵向模式的状态下,显示器140可以输出指示在执行语音识别功能时根据每种模式得到的至少一个麦克风的位置的信息。或者,显示器140可以输出用于引导的指导信息,以便在执行语音识别功能时布置成横向模式状态或纵向模式状态。可以根据用户设置等省略麦克风模块MIC的位置信息和引导信息的输出。
显示器140可以包括以下各项的至少一种:液晶显示器(LCD),薄膜晶体管-LCD(TFT-LCD),发光二极管(LED),有机LED(OLED),有源矩阵OLED(AMOLED),柔性显示器,弯曲显示器和3D显示器。一些显示器可以用透明类型或光透明类型的透明显示器来实现,以便观看其外部。
此外,显示器140可以设置成触摸屏,并且可以用作输入设备以及输出设备。显示器140可以实施为将施加到显示器140的特定部分的压力变化,在显示器140的特定部分处发生的电容变化等转换为电输入信号。显示器140可以被配置为检测(或感测)触摸压力以及触摸位置和面积。
显示器140可以被配置为包括触控板和显示面板。触控板可以放置在显示单元上。触控板可以实施为触控板放置在显示面板上的附加型,或者触控板插入在显示面板中的表嵌型或内嵌型。触控板可以向音频数据处理模块180提供响应于显示器140的用户手势的用户输入。由诸如手指,触摸笔等的触摸装置产生的用户输入可以包括触摸,多点触摸,点按,双击,长按,点按并触摸,拖动,轻拂,按压,捏合,捏开等。
可以参照语音识别功能来定义上述用户输入。例如,用户输入可以由用于改变省电功能或细节识别功能的输入事件定义。此外,用户输入可以由用于确定是否将从麦克风模块MIC中包括的多个麦克风Mic1至MicN中选择的至少一个麦克风用作默认麦克风的输入事件来定义。默认麦克风可以是首先(或者总是或周期性地)被激活以收集特定音频数据的麦克风。
存储器150可以存储从处理器160或其他组件(例如,通信接口110,输入/输出接口120,显示器140,音频数据处理模块180等)接收的或由处理器160或其他组件产生的指令或数据。存储器150可以包括例如编程模块,诸如内核151,中间件152,应用处理接口(API)153和应用154。上述编程模块中的每一个可以以软件,固件,硬件或其至少两个的组合的形式来实现。
内核151可以控制或管理用于执行剩余的其他编程模块的操作或功能的系统资源(例如,存储器150,处理器160,总线190等),编程模块例如为中间件152,API 153或应用154。此外,内核151可以提供访问中间件152,API 153或应用154上的电子设备100的离散组件的接口,以控制或管理它们。
中间件152可以执行中介角色,使得API 153或应用154与内核151通信以交换数据。此外,关于从应用154接收的任务请求,例如,中间件152可以使用分配优先级的方法来控制(例如,调度或加载平衡)任务请求,其使得能够将电子设备100的系统资源(例如,存储器150,处理器160,总线190等)用于应用154中的至少一个。
API 153可以是应用154通过其控制由内核151或中间件152提供的功能的接口,并且可以包括例如用于文件控制,窗口控制,图像处理,字符控制等的至少一个接口或功能(例如,指令)。
根据本公开的各种实施例,应用154可以包括短消息服务/多媒体消息服务(SMS/MMS)应用,电子邮件应用,日历应用,警报应用,健康护理应用(例如,用于测量运动量,血糖等的应用),环境信息应用(例如,用于提供气压,湿度,温度信息等的应用)等。另外或一般地,应用154可以是与电子设备100和外部电子设备(例如,电子设备104)之间的信息交换相关联的应用。与信息交换相关联的应用可以包括例如用于向外部电子设备发送特定信息的通知中继应用或用于管理外部电子设备的设备管理应用。
通知中继应用可以包括用于向外部电子设备(例如,电子设备104)提供从电子设备100的另一应用(例如,消息应用,电子邮件应用,健康护理应用,环境信息应用等)产生的通知信息的功能。另外或一般地,通知中继应用可以从外部电子设备(例如,电子设备104)接收例如通知信息,并且可以向用户提供通知信息。另外或一般地,通知中继应用可以管理(例如,安装,删除或更新)例如与电子设备100通信的外部电子设备(例如,电子设备104)的至少一部分的功能(例如,打开/关闭外部电子设备本身或其一部分,或屏幕的亮度或分辨率的控制),在外部电子设备上操作的应用,或由外部电子设备提供的服务(例如,通信,或电话,服务或消息服务)。
根据各种实施例,应用154可以包括根据外部电子设备(例如,电子设备104)的属性(例如,电子设备的种类)指定的应用。例如,在外部电子设备是MP3播放器的情况下,应用154可以包括与音乐再现相关联的应用。类似地,在外部电子设备是移动医疗设备的情况下,应用154可以包括与健康护理相关联的应用。根据本公开的实施例,应用154可以包括指定给电子设备100的应用或从外部电子设备(例如,电子设备104或服务器106)接收的应用中的至少一个。
根据本公开的各种实施例,存储器150可以存储与处理和控制与电子设备100的操作相关的数据相关联的各种程序和数据。例如,存储器150可以存储操作系统等。根据本公开的实施例,存储器150可以存储与语音识别功能相关联的程序。与语音识别功能相关联的程序可以包括以下各项的至少一种:用于将特定音频数据登记为特定音频数据的指令集,用于比较收集的音频数据和特定音频数据的指令集或当收集特定音频数据时根据细节识别功能执行语音识别功能的指令集。与语音识别功能相关联的程序可以包括与省电功能或细节识别功能的选择相关联的指令集(或至少一个功能)以及用于在省电功能中选择多个麦克风Mic1至MicN中的默认麦克风的指令集。与语音识别功能相关联的程序可以包括用于应用与多个麦克风Mic1至MicN相关联的多麦克风处理的至少一个过程的指令集,用于识别根据多麦克风处理收集的音频数据的指令集,以及用于根据语音识别执行特定功能的指令集。
根据本公开的实施例,存储器150可以存储第一语音识别模型51和第二语音识别模型53。第一语音识别模型51可以是与特定音频数据相关联的语音识别模型。例如,第一语音识别模型51可以包括与用于激活语音识别功能的唤醒命令相对应的音频数据(例如,特定音频数据或语音信号或与训练的统计模型的参考相关联的训练的统计模型和误差范围信息)。
第一语音识别模型51可以包括用于特定孤立字符的发音的发音特征信息和与用于特定孤立字符的发音的个人分类相关联的扬声器分类信息。根据本公开的实施例,第一语音识别模型51的发音特征信息可以被提供给在执行基于省电功能的语音识别功能时执行特定音频数据的语音识别的装置组件。根据本公开的实施例,第一语音识别模型51的扬声器分类信息可以被提供给在执行基于细节识别功能的语音识别功能时执行特定音频数据的语音识别的装置组件。基于上述条件,电子设备100可以对特定人的语音进行分类,并且可以根据来自相关人员的语音输入来执行功能。例如,如果收集与“Hi Samsung”对应的第一音频数据,则电子设备100可以使用第一语音识别模型51来确定第一音频数据是否对应于特定人的语音信号。如果确定为特定人的语音信号,则电子设备100可以对稍后接收的第二音频数据(例如“Oh Duokgu call”)执行语音识别。电子设备100可以执行与使用多个麦克风Mic1至MicN收集的“Oh Duokgu call”对应的第二音频数据相关联的多麦克风处理。电子设备100可以控制执行经过多麦克风处理的第三音频数据的语音识别,以执行呼叫连接功能。
根据本公开的各种实施例,第一语音识别模型51可以包括多个发音特征信息和多个分类信息。因此,语音识别功能的唤醒命令可以由至少一个来定义。此外,可以通过多个扬声器的分类信息来定义语音识别功能的唤醒命令的认证功能。音频数据处理模型180可以提供与唤醒命令的输入或改变或调整相关联的屏幕。音频数据处理模型180可以将在唤醒命令输入屏幕上输入的唤醒命令登记为第一语音识别模型51处的特定音频数据。根据本公开的各种实施例,可以仅通过没有指定的发音特征信息的扬声器分类信息来定义唤醒命令。如果收集了特定音频数据,则音频数据处理模型180可以确定特定音频数据是否对应于有权限的人的扬声器分类信息,并且可以根据确定结果控制语音识别功能的激活。
第二语音识别模型53可以是支持对扬声器的各种音频数据的语音识别的模型。例如,第二语音识别模型53可以是识别以韩语发音的字母或单词,词汇和语素的形式的语音的模型。根据本公开的各种实施例,第二语音识别模型53可以是识别以英语,日语,西班牙语,法语,德语,印度斯坦语等的至少一种发音的字母或单词,词汇和语素的形式的语音的模型。如果通过第一语音识别模型51完成了特定音频数据的比较,则可以将第二语音识别模型53提供给执行语音识别功能的设备部件。第二语音识别模型53可以实施为不同于第一语音识别模型51或者可以包括第一语音识别模型51。
根据本公开的各种实施例,第一语音识别模型51或第二语音识别模型53可以存储(或布置)在不同的存储区域。例如,第一语音识别模型51可以设置在音频编码解码器(或者音频编码解码器可以访问的存储空间),并且第二语音识别模型53可以设置在音频数据处理模块180(或音频数据处理模块180可以访问的存储空间)。根据本公开的各种实施例,第一语音识别模型51可以设置在低功率处理模块170(或者低功率处理模块170可以直接访问的存储空间)。
根据本公开的各种实施例,存储器150可以包括用于临时存储关于处理麦克风模块MIC收集的音频数据的音频数据的缓冲器。缓冲器可以存储默认麦克风收集的音频数据或多个麦克风Mic1至MicN收集的音频数据。在这点上,可以根据音频数据处理模块180的控制来调整缓冲器的大小或缓冲器的数量中的至少一个。上述缓冲器可以被包括在存储器150中。或者,缓冲器可以实施为独立于存储器150。
低功率处理模块170可以收集与电子设备100包括的至少一个传感器相关联的信号。例如,低功率处理模块170可以激活麦克风模块MIC的至少一个麦克风并且可以收集音频数据。低功率处理模块170的功耗可以小于音频编码解码器130和音频数据处理模块180的功耗,并且低功率处理模块170可以被设计为操作麦克风模块MIC。例如,低功率处理模块170可以包括与语音识别功能相关联的电路模块和信号线。根据本公开的实施例,低功率处理模块170可以被设计为根据比较结果执行以下的至少一种控制过程:至少一个麦克风的激活,音频数据的收集,收集的音频数据与特定音频数据之间的比较,以及根据比较结果的多麦克风控制处理。
麦克风模块MIC可以包括多个麦克风Mic1至MicN。例如,麦克风模块MIC可以包括第一麦克风Mic1和第二麦克风Mic2。可以激活第一麦克风Mic1或第二麦克风Mic2以在执行语音识别功能时执行省电功能。或者,可以激活第一麦克风Mic1和第二麦克风Mic2以在执行语音识别功能时以执行细节识别功能。第一麦克风Mic1和第二麦克风Mic2收集的至少一条音频数据可以被提供给音频编码解码器130,低功率处理模块170或音频数据处理模块180中的至少一个。麦克风Mic1至MicN中的至少一个麦克风收集的音频数据可以临时存储在存储器150的缓冲器处。
处理器160可以通过总线190从上述其他部件(例如,通信接口110,输入/输出接口120,显示器140,存储器150,音频数据处理模块180等)接收指令,可以解码所接收的指令,并且可以根据解码的指令执行数据处理或操作。
音频数据处理模块180可以处理和传送与电子设备100的操作相关联的数据,并且可以处理和传送控制信号。根据本公开的实施例,音频数据处理模块180可以根据语音识别支持以下中的至少一个:与语音识别功能的执行相关联的麦克风模块MIC的激活控制,唤醒命令处理,多麦克风控制处理,语音识别功能处理和附加功能执行处理。根据本公开的实施例,音频数据处理模块180可以包括第一信号处理模块,第二信号处理模块,多信道信号处理模块,DOA决定单元或波束形成/噪声消除模块。第一信号处理模块可以包括单信道信号处理模块或第一语音识别模块中的至少一个。第二信号处理模块可以包括多信道信号处理模块或第二语音识别模块。上述音频数据处理模块180的每个模块可以使用至少一个处理器160来实现。具有上述配置的音频数据处理模块180的至少一部分可以被布置在音频编码解码器130或低功率处理模块170中的至少一个中。
根据本公开的各种实施例,如果收集来自收集的音频数据中的与特定功能的执行相对应的音频数据,则音频数据处理模块180可以控制执行相关功能。根据本公开的实施例,音频数据处理模块180可以执行收集的音频数据的语音识别。音频数据处理模块180可以控制执行与语音识别的音频数据相对应的特定功能。
根据本公开的各种实施例,通信接口110可以基于广播接收单元接收广播数据。当输出接收的广播数据时,音频数据处理模块180可以支持关于包括在广播数据中的音频数据的语音识别功能。如果收集到特定的激活命令(例如,与语音识别功能的激活相关联的命令和用于唤醒语音识别功能的命令(唤醒命令))并且收集了与语音识别相对应的音频数据,则音频数据处理模块180可以控制语音识别功能的激活,和根据语音识别的功能的执行。例如,音频数据处理模块180可以基于语音识别来控制广播接收单元的信道改变。激活命令可以对应于特定音频数据,例如,设置给电子设备100的特定音频数据或用户设置的特定语音数据。
根据本公开的各种实施例,与激活命令相对应的特定音频数据可以是例如“HiSamsung”。作为在特定音频数据之后收集的音频数据,功能执行命令可以是例如“ChannelChange 11”,“Channel 5”等。基于在特定音频数据之后收集的音频数据,通信接口110可以将信道改变为信道11,或者可以将信道改变为信道5。
根据本公开的各种实施例,音频数据处理模块180可以从音频编码解码器130接收多麦克风控制处理的结果。音频数据处理模块180可以基于第二语音识别模型53执行语音识别功能。
根据本公开的各种实施例,音频数据处理模块180可以从低功率处理模块170接收唤醒命令。音频数据处理模块180可以执行多麦克风控制处理和基于第二语音识别模型53的语音识别功能。
根据本公开的各种实施例,音频数据处理模块180可以接收低功率处理模块170传送的唤醒命令,以及音频编码解码器130传送的多麦克风控制处理的结果。音频数据处理模块180可以执行基于第二语音识别模型53的语音识别功能。
根据本公开的各个实施例,音频数据处理模块180可以从低功率处理模块170接收用于确定到达方向的值(以下称为DOA决定值)。音频数据处理模块180可以响应于DOA决定值来执行多麦克风控制处理,并且可以处理基于第二语音识别模型53的语音识别功能。
根据本公开的各种实施例,音频数据处理模块180可以处理唤醒命令搜索功能,其基于低功率处理模块170的第一语音识别模型51以及基于音频编码解码器130的语音识别功能。
根据本公开的各种实施例,电子设备100可以包括:第一处理器,其收集关于语音识别功能的特定音频数据,并且产生唤醒命令;多麦克风处理模块,其响应于唤醒命令执行与所收集的音频数据相关联的多麦克风处理;以及第二处理器,其针对经过多麦克风处理的音频数据执行语音识别。第一处理器,多麦克风处理模块和第二处理器可以设置在音频编码解码器130,低功率处理模块170和音频数据处理模块180中的一个中。
根据本公开的各种实施例,电子设备100可以包括:第一处理器,其收集关于语音识别功能的特定音频数据并产生唤醒命令,DOA决定单元,其响应于唤醒命令确定与多个麦克风Mic1至MicN相关联的到达方向;波束形成/噪声消除模块,其根据由此确定的到达方向应用波束形成或噪声消除;以及第二处理器,其执行关于波束形成或噪声消除的音频数据的语音识别。第一处理器,DOA决定单元,波束形成/噪声消除模块和第二处理器可以设置在音频编码解码器130,低功率处理模块170和音频数据处理模块180中的一个中。根据本公开的各种实施例的模块可以是硬件,固件,软件或其至少两个的组合。
在下文中,将参考附图更充分地描述上述处理器和设备部件的布置。
图2示出根据本公开的实施例的基于音频编码解码器和音频数据处理模块使用麦克风的电子设备。
参考图2,根据本公开的实施例的与使用多个麦克风相关联的电子设备100可以包括:音频编码解码器130,其包括第一信号处理模块10(包括单信道信号处理模块11和第一语音识别模块12)和多信道信号处理模块30;音频数据处理模块180,包括第二信号处理模块20(包括预处理模块21和第二语音识别模块22);以及多个麦克风Mic1至MicN。
音频编码解码器130可以包括第一信号处理模块10和多信道信号处理模块30。第一音频编码解码器130的第一信号处理模块10可以根据设置来控制激活与默认麦克风对应的第一麦克风Mic1。例如,如果在请求启动语音识别功能的状态下设置省电功能,则第一信号处理模块10可以控制以激活第一麦克风Mic1。第一信号处理模块10可以操作存储在存储器150中的第一语音识别模型51。第一信号处理模块10可以执行第一麦克风Mic1收集的第一音频数据的语音识别。第一信号处理模块10可以确定收集的第一音频数据是否是与第一语音识别模型51相对应的特定音频数据。当所收集的第一音频数据是特定音频数据时,第一信号处理模块10可以将用于激活多信道信号处理模块30的唤醒命令传送到多信道信号处理模块30。
第一信号处理模块10可以包括单信道信号处理模块11和第一语音识别模块12,并且附加地或一般地可以包括第一语音识别模型51。单信道信号处理模块11可以校正第一麦克风Mic1收集的第一音频数据。例如,单信道信号处理模块11可以执行能够处理音频信号的功能的至少一部分,例如自适应回波消除器(AEC),噪声抑制(NS),端点检测(EPD),自动增益控制(AGC)等。关于支持低功率操作,第一信号处理模块10可以省略整个预处理功能,或者可以控制执行预处理功能的一部分。可以使用与第二信号处理模块20的功率不同的功率来驱动第一信号处理模块10,例如,功率小于与第二信号处理模块20的操作相关联的功率。在被设计为使得应用预处理功能的一部分的情况下,单信道信号处理模块11可以根据相关设计对收集的音频数据进行预处理。单信道信号处理模块11可以将预处理的音频数据传送到第一语音识别模块12。在关于低功率驱动省略预处理功能的情况下,可以省略单信道信号处理模块11的与预处理功能相关联的配置。在这种情况下,所收集的音频数据可以由第一语音识别模块12直接处理。
第一语音识别模块12可以分析通过第一语音识别模型51的加载并操作收集的音频数据是否是特定音频数据(或者所收集的音频数据与训练的统计模型之间的相似性是否在特定误差范围内)。第一语音识别模型51可以存储在存储器150处,并且可以由第一语音识别模型12来引用,或者可以安装在第一信号处理模块10。当收集特定音频数据时,第一语音识别模型12可以产生唤醒命令(或激活命令)。第一语音识别模型12可以将唤醒命令传送到多信道信号处理模块30。
如果从第一信号处理模块10接收到唤醒命令,则包括在音频编码解码器130中的多信道信号处理模块30可以控制以激活包括在麦克风模块MIC中的多个麦克风Mic1至MicN。多信道信号处理模块30可以对由麦克风Mic1至MicN收集的第二音频数据应用多麦克风处理功能,以产生经过多麦克风处理的第三音频数据。例如,多信道信号处理模块30可以包括DOA检测单元,波束形成单元,噪声降低单元,误差消除单元等。多信道信号处理模块30可以提供收集的第二音频数据的语音获取方向的方向性,以产生SINR(信号对干扰噪声比)增强的第三音频数据。DOA检测单元可以检测与所收集的第二音频数据相关联的到达方向。检测到达方向的功能可以是检测所选择的语音的方向的功能。波束形成单元可以执行波束形成,其中通过将与参数对应的滤波器应用于从多个麦克风Mic1至MicN接收到第二音频数据来获得特定方向的声音,使用根据到达方向功能所检测的语音方向值来计算该参数。噪声降低单元可以通过抑制获得特定方向的声音来执行噪声抑制(NS)。回声消除单元可以对所收集的第二音频数据执行回声消除。多信道信号处理模块30可以将上述多麦克风处理功能中的至少一个应用于第二音频数据以产生第三音频数据。
由多信道信号处理模块30处理的第三音频数据可以被提供给音频数据处理模块180的第二信号处理模块20。此时,多信道信号处理模块30收集的第二音频数据可以根据多麦克风处理功能具有更精确的语音信号特性。
音频数据处理模块180的第二信号处理模块20可以从多信道信号处理模块30接收应用了多麦克风处理功能的第三音频数据。第二信号处理模块20可以执行第三音频数据的语音识别功能。第二信号处理模块20可以使用存储在存储器150的第二语音识别模型53。
第二信号处理模块20可以响应于第三音频数据的语音识别结果执行特定功能。例如,第二信号处理模块20可以控制以执行将语音识别结果用作搜索词的搜索功能。根据本公开的实施例,第二信号处理模块20可以从存储器150搜索并输出与对应于语音识别结果的搜索词相关联的数据。根据本公开的实施例,第二信号处理模块20可以将语音识别结果发送到特定服务器设备,并且可以从特定服务器设备接收并输出与语音识别结果相对应的信息。根据本公开的各种实施例,第二信号处理模块20可以控制以激活与语音识别结果相对应的特定功能。
第二信号处理模块20可以包括预处理模块21和第二语音识别模块22,并且附加地或一般地可以包括第二语音识别模型53。预处理模块21可以采用能够处理音频信号的各种功能中的至少一种,诸如自适应回波消除器(AEC),噪声抑制(NS),端点检测(EPD),自动增益控制(AGC)等。例如,如果在能够在语音输入期间产生输出信号的应用(呼叫应用,铃音应用,音乐播放器应用,相机应用等)运行时产生输出信号,预处理模块21可以将用于回声处理的AEC功能应用于输出信号。由预处理模块21预处理的音频数据,例如,通过对来自多信道信号处理模块30的第三音频数据进行预处理而获得的音频数据可以被传送到第二语音识别模块22。
第二语音识别模块22可以基于第二语音识别模型53将语音识别(或附加地预处理)的音频数据的语音识别结果传送到音频数据处理模块180。或者,第二语音识别模块22可以将语音识别结果传送到布置有第二信号处理模块20的设备部件。接收语音识别结果的设备部件可以控制以执行其中语音识别结果被用作功能执行命令的特定功能。
根据本公开的各种实施例,第二信号处理模块20可以使用服务器设备106执行语音识别功能。例如,当接收到第三音频数据时,第二信号处理模块20的第二语音识别模块22可以控制以激活通信接口110,以形成与支持语音识别功能的服务器设备通信的通信信道。第二信号处理模块20可以将收集的第三音频数据传送到服务器设备106,并且可以从服务器设备106接收语音识别结果。第二信号处理模块20可以执行第三音频数据的预处理操作。在这种情况下,发送到服务器设备的第三音频数据可以是预处理的第三音频数据。
可以根据第一信号处理模块10的控制来激活多个麦克风Mic1至MicN中的第一麦克风Mic1。第一麦克风Mic1可以向第一信号处理模块10提供收集的第一音频数据。在由第一麦克风Mic1收集的第一音频数据是特定音频数据的情况下,可以根据多信道信号处理模块30的控制来激活麦克风Mic2至MicN。或者,可以根据第一信号处理模块10的控制来激活多个麦克风Mic1至MicN。由第一麦克风Mic1收集的第一音频数据也可以被提供给多信道信号处理模块30。因此,第一麦克风Mic1可以包括用于向第一信号处理模块10提供音频数据的信号线和用于向多信道信号处理模块30提供音频数据的信号线。第一麦克风Mic1可以根据第一信号处理模块10或多信道信号处理模块30的控制来改变音频数据的提供者。麦克风模块MIC的第二至第N麦克风Mic2至MicN可以被配置为将收集的第二音频数据提供给多信道信号处理模块30。因此,用作默认麦克风的第一麦克风Mic1可以由第一信号处理模块10控制,并且第二至第N麦克风Mic2至MicN可以由多信道信号处理模块30控制。
如上所述,根据本公开的各种实施例的电子设备100可以使用第一麦克风Mic1检测唤醒命令,并且当检测到唤醒命令时,电子设备100可以激活麦克风Mic2至MicN以收集应用了多麦克风处理功能的音频数据。因此,根据本公开的各种实施例的电子设备100可以在实际语音识别部分中收集并应用精确的音频数据,同时使用默认麦克风节省电力。
图3示出根据本公开的各种实施例的使用基于低功率处理模块和音频数据处理模块的麦克风的电子设备。
参考图3,根据本公开的实施例的与麦克风的操作相关联的电子设备100可以包括:低功率处理模块170,包括第一信号处理模块10;音频数据处理模块180,包括多信道信号处理模块30和第二信号处理模块20;以及多个麦克风Mic1至MicN。
低功率处理模块170可以基于第一信号处理模块10来控制第一麦克风Mic1的激活和第一音频数据的收集。如果请求执行语音识别功能或者将第一麦克风Mic1设置为默认麦克风,则低功率处理模块170可以使用第一麦克风Mic1,并且可以执行第一麦克风Mic1的激活和第一音频数据的收集。根据本公开的实施例,关于通过第一麦克风Mic1收集的第一音频数据的语音识别,低功率处理模块170可以根据音频数据处理模块180的控制使用第一麦克风Mic1。
关于通过激活的第一麦克风Mic1收集的第一音频数据的语音识别,低功率处理模块170的第一信号处理模块10可以加载或激活存储在存储器150中的第一语音识别模型51。第一信号处理模块10,如参考图1所描述的,可以确定第一音频数据是否与特定音频数据相同或相似。第一信号处理模块10可以确定第一音频数据是否是与第一语音识别模型51相对应的特定音频数据。
第一信号处理模块10可以根据分析第一音频数据的结果将唤醒命令传送到音频数据处理模块180。例如,第一信号处理模块10可以将唤醒命令传送到音频数据处理模块180的多信道信号处理模块30。关于语音识别功能,低功率处理模块170的第一信号处理模块10可以在传送唤醒命令之前具有睡眠状态或低功率操作状态。例如,当低功率处理模块170的第一信号处理模块10检测到特定音频数据时,显示器140可响应于音频数据处理模块180的控制而保持在关闭状态。如果收集到对应于特定音频数据的第一音频数据(或第一音频数据与训练统计模型之间的特定误差范围),则第一信号处理模块10可以改变第一麦克风Mic1收集的音频数据的传输路径。例如,第一信号处理模块10可以控制将第一麦克风Mic1收集的音频数据传送到音频数据处理模块180的多信道信号处理模块30。此外,第一信号处理模块10可以将用于激活或去激活第一麦克风Mic1的权限传送到音频数据处理模块180。
如果从低功率处理模块170接收到唤醒命令,则音频数据处理模块180可以从睡眠状态转换到唤醒状态。音频数据处理模块180可以关于支持语音识别功能来激活多信道信号处理模块30和第二信号处理模块20。
音频数据处理模块180的多信道信号处理模块30可以响应于来自低功率处理模块170的唤醒命令来控制麦克风模块MIC的操作。例如,可以根据多信道信号处理模块30的控制,将第二至第N麦克风Mic2至MicN分别设置为活动状态。多信道信号处理模块30可以确定与第一麦克风Mic1相关联的音频数据的传输路径,并且可以接收第一麦克风Mic1收集的音频数据。当接收到唤醒命令时,多信道信号处理模块30可以获得第一麦克风Mic1的使用权限(例如,用于激活或去激活第一麦克风Mic1的权限)。多信道信号处理模块30可以通过将多麦克风处理功能应用于包括在麦克风模块MIC中的麦克风Mic1至MicN收集的多条第二音频数据来产生第三音频数据。多信道信号处理模块30可以将如此产生的第三音频数据传送到第二信号处理模块20。
在音频数据处理模块180的状态根据唤醒命令的输入而改变的情况下,第二信号处理模块20可以使用存储在存储器150(或安装在信号处理模块)处的第二语音识别模型53。第二信号处理模块20可以基于第二语音识别模型53对多信道信号处理模块30传送的第三音频数据进行语音识别。第二信号处理模块20可以控制以基于语音识别结果值执行特定功能。例如,如上所述,第二信号处理模块20可以根据语音识别结果执行搜索功能。第二信号处理模块20可以控制在接收到应用的结束事件时结束与语音识别功能相关联的应用。第二信号处理模块20可以控制将应用结束事件传送到多信道信号处理模块30,以去激活多个麦克风Mic1至MicN的一部分。
麦克风模块MIC的第一麦克风Mic1可以耦接至低功率处理模块170的第一信号处理模块10。此外,第一麦克风Mic1可以耦接至音频数据处理模块180的多信道信号处理模块30。当响应于低功率处理模块170的第一信号处理模块10的控制而被激活时,第一麦克风Mic1可以收集第一音频数据,并且可以将如此收集的第一音频数据传送到第一信号处理模块10。在多信道信号处理模块30的控制下,第一麦克风Mic1可以与其他麦克风一起收集第二音频数据,并且可以将如此收集的第二音频数据提供给多信道信号处理模块30。麦克风模块MIC的第二至第N麦克风Mic2至MicN可以耦接至多信道信号处理模块30。响应于多信道信号处理模块30的控制,第二至第N麦克风Mic2至MicN可以收集多条第二音频数据,并且可以将多条第二音频数据传送到多信道信号处理模块30。响应于多信道信号处理模块30的控制,第二至第N麦克风Mic2至MicN可以被去激活。第一麦克风Mic1也可以响应于多信道信号处理模块30的控制而被去激活。低功率处理模块170的第一信号处理模块10可以获得用于控制被设置为非活动状态的第一麦克风Mic1的权限。
根据本公开的各种实施例,音频数据处理模块180可以利用音频编码解码器130来实现。因此,音频编码解码器130可以包括多信道信号处理模块30和第二信号处理模块20。当从低功率处理模块170的第一信号处理模块10接收到唤醒命令时,音频编码解码器130可以使用麦克风模块MIC来收集多条第二音频数据。音频编码解码器130的多信道信号处理模块30可以对所收集的第二音频数据应用多麦克风处理功能,以产生第三音频数据,并且可以将第三音频数据传送到第二信号处理模块20。音频编码解码器130的第二信号处理模块20可以执行第三音频数据的语音识别,并且可以将语音识别结果传送到音频数据处理模块180。音频数据处理模块180可以基于音频编码解码器130传送的语音识别结果来执行预定功能。
图4示出了根据本公开的各种实施例的使用基于低功率处理模块,音频数据处理模块和音频编码解码器的麦克风的电子设备。
参考图4,根据本公开的实施例的与麦克风管理相关的电子设备100可以包括:音频编码解码器130,包括多信道信号处理模块30;低功率处理模块170,包括第一信号处理模块10;以及音频数据处理模块180,包括第二信号处理模块20和多个麦克风Mic1至MicN。
关于语音识别功能的执行,低功率处理模块170可以使用第一信号处理模块10。如果设置或请求执行语音识别功能的省电功能,则低功率处理模块170的第一信号处理模块10可以控制激活第一麦克风Mic1。低功率处理模块170的第一信号处理模块10可以将第一麦克风Mic1收集的音频数据与第一语音识别模型51相比较以检测特定音频数据(或音频数据和训练的统计模型之间的相似性)。当检测到特定音频数据时,第一信号处理模块10可以将唤醒命令传送到音频编码解码器130的多信道信号处理模块30。此外,在低功率处理模块170的第一信号处理模块10的控制下,可以改变由第一麦克风Mic1收集的音频数据的传输路径以便被传送到音频编码解码器130的多信道信号处理模块30。在低功率处理模块170的第一信号处理模块10的控制下,唤醒命令可被传送到音频数据处理模块180,以激活第二信号处理模块20。
音频编码解码器130可以响应于来自低功率处理模块170的第一信号处理模块10的唤醒命令的输入而激活多信道信号处理模块30。音频编码解码器130的多信道信号处理模块30可以激活第二至第N麦克风Mic2至MicN。音频编码解码器130的多信道信号处理模块30可以使用麦克风模块MIC收集第二音频数据。音频编码解码器130的多信道信号处理模块30可以通过将多麦克风处理功能应用于所收集的第二音频数据来产生第三音频数据。音频编码解码器130的多信道信号处理模块30可以将第三音频数据传送到音频数据处理模块180的第二信号处理模块20。
音频数据处理模块180的第二信号处理模块20可以对音频编码解码器130传送的第三音频数据执行语音识别。第二信号处理模块20可以预处理第三音频数据。第二信号处理模块20可以基于第二语音识别模型53执行预处理的第三音频数据的语音识别功能。第二信号处理模块20可以控制响应于语音识别结果执行特定功能。
麦克风模块MIC的第一麦克风Mic1可以耦接至低功率处理模块170的第一信号处理模块10。此外,第一麦克风Mic1可以耦接至音频编码解码器130的多信道信号处理模块30。第一麦克风Mic1可以根据第一信号处理模块10的控制而被激活,并且可以在收集与特定音频数据相对应的第一音频数据之后改变传输路径。第一麦克风Mic1可以向音频编码解码器130的多信道信号处理模块30提供在收集与特定音频数据对应的第一音频数据之后收集的音频数据。第二到第N麦克风Mic2到MicN可以耦接至音频编码解码器130的多信道信号处理模块30,并且可以响应于多信道信号处理模块30的控制收集多条第二数据。
如上所述,根据本公开的各种实施例的电子设备100可以包括:第一麦克风Mic1,收集第一音频数据;第一信号处理模块10,确定第一音频数据是否包括特定音频数据;多信道信号处理模块30,在检测到特定音频数据时使用多个麦克风收集第二音频数据,并执行与第二音频数据相关联的多麦克风处理;以及第二信号处理模块20,执行经过多麦克风处理的第三音频数据的语音识别。
根据本公开的各个实施例,第一信号处理模块10可以包括第一预处理单元,执行第一音频数据的多个预处理功能的至少一部分;第一语音识别模块12,执行第一音频数据的语音识别;以及第一语音识别模型51,支持第一音频数据的调节电压。
根据本公开的各种实施例,第一语音识别模型51可以包括与特定音频数据相对应的发音特征信息和扬声器分类信息中的至少一种。
根据本公开的各个实施例,当检测到特定音频数据时,第一信号处理模块10可以产生唤醒命令,并且可以将唤醒命令传送到多信道信号处理模块30。
根据本公开的各种实施例,多信道信号处理模块30可以响应于唤醒命令的输入而激活多个麦克风Mic1至MicN。
根据本公开的各个实施例,第二信号处理模块20可以包括:执行第三音频数据的多个预处理功能的第二预处理单元;执行第三音频数据的语音识别的第二语音识别模块22;以及支持第三音频数据的语音识别的第二语音识别模型53。
根据本公开的各种实施例,第二信号处理模块20可以控制与语音识别结果相对应的特定功能的执行。
根据本公开的各种实施例,多信道信号处理模块30可以包括以下项中的至少一个:DOA检测单元,被配置为检测与第二音频数据相关联的到达方向;波束成形处理单元,被配置为根据该到达方向的检测来执行波束成形;噪声抑制单元,被配置为通过抑制获得关于该多条第二音频数据的特定方向的声音来抑制噪声;以及回声消除单元,被配置为执行该多条第二音频数据的回声消除。
根据本公开的各种实施例,电子设备100可以包括:音频编码解码器130,其中布置有第一信号处理模块10和多信道信号处理模块30;以及音频数据处理模块180,其中布置有第二信号处理模块20。
根据本公开的各种实施例,电子设备100可以包括:低功率处理模块170,包括第一信号处理模块10;以及音频数据处理模块180,包括多信道信号处理模块30和第二信号处理模块20。
根据本公开的各种实施例,电子设备100可以包括:低功率处理模块170,包括第一信号处理模块10;音频编码解码器130,包括多信道信号处理模块30;以及音频数据处理模块180,包括第二信号处理模块20。
图5示出了根据本公开的实施例的支持基于低功率处理模块和音频编码解码器的麦克风集成使用的电子设备。
参考图5,与麦克风集成应用相关的电子设备可以包括:低功率处理模块170,包括第一信号处理模块10和DOA决定单元40;以及音频编码解码器130,包括波束形成/噪声抑制模块50和第二信号处理模块20。
关于执行语音识别功能,低功率处理模块170可以采用第一信号处理模块10和DOA决定单元40。当设置或请求执行语音识别功能的细节识别功能时,低功率处理模块170的第一信号处理模块10可以控制激活麦克风模块MIC。或者,关于执行细节识别功能,默认情况下,低功率处理模块170的第一信号处理模块10可以控制激活麦克风模块MIC。低功率处理模块170的第一信号处理模块10可以将由麦克风模块MIC收集的多条第一音频数据中的第一麦克风Mic1收集的第一音频数据与第一语音识别模型51进行比较以检测特定音频数据。当检测到特定音频数据时,低功率处理模块170的第一信号处理模块10可以将唤醒命令传送到DOA决定单元40。
低功率处理模块170的DOA决定单元40可以从第一信号处理模块10激活的麦克风模块MIC收集多条第一音频数据。在该操作中,低功率处理模块170的DOA决定单元40可以临时存储(缓冲)所收集的第一音频数据。如果从低功率处理模块170的第一信号处理模块10接收到唤醒命令,则低功率处理模块170的DOA决定单元40可以基于第一音频数据确定与麦克风阵列(MA)相关联的信息的到达方向或产生。根据本公开的实施例,低功率处理模块170的DOA决定单元40可以基于第一音频数据确定声音获得方向。低功率处理模块170的DOA决定单元40可以计算与对麦克风模块MIC中包括的多个麦克风Mic1至MicN进行加权相关联的参数。
根据本公开的实施例,低功率处理模块170的DOA决定单元40可以基于由麦克风模块MIC收集的音频数据的分析结果,不同地定义第一麦克风Mic1和第二麦克风Mic2的加权参数。低功率处理模块170的DOA决定单元40可以将计算的加权参数传送到执行波束形成/噪声抑制的音频编码解码器130的波束形成/噪声抑制模块50。低功率处理模块170可以使用第一麦克风Mic1实时收集的音频数据来确定特定音频数据并基于缓冲来确定到达方向。根据本公开的各种实施例,低功率处理模块170可以使用第一麦克风Mic1作为专用于确定特定音频数据的麦克风。低功率处理模块170可以使用第二至第N麦克风Mic2至MicN来确定到达方向。关于上述条件,低功率处理模块170可以将多个麦克风设置为等待状态以确定到达方向。
音频编码解码器130的波束形成/噪声抑制模块50可以处理从低功率处理模块170的DOA决定单元40接收的加权参数(与波束形成方向或噪声抑制相关联的参数)。例如,波束形成/噪声抑制模块50可以基于加权参数的加权值将不同的加权应用于多个麦克风Mic1至MicN。波束形成/噪声抑制模块50可以对由麦克风Mic1至MicN(即,不同的加权分别施加到麦克风Mic1到MicN)收集的音频数据应用不同的加权,并且可以将加权的音频数据传送到音频编码解码器130的第二信号处理模块20。根据本公开的实施例,则波束形成/噪声抑制模块50可以基于加权参数将第一麦克风Mic1的权重设置为例如0.3,将第二麦克风Mic2的权重设置为例如0.5,并将第N麦克风MicN的权重设置为例如0.2。因此设置的加权可以根据DOA决定单元40提供的加权参数实时地或周期性地改变。
音频编码解码器130的第二信号处理模块20可以从音频编码解码器130的波束形成/噪声抑制模块50接收波束形成或噪声抑制的音频数据并且可以执行波束形成或噪声抑制的音频数据的语音识别。在该操作中,音频编码解码器130的第二信号处理模块20可以预处理收集的音频数据,并且可以基于第二语音识别模型53执行语音识别。音频编码解码器130的第二信号处理模块20可以将语音识别结果传送到音频数据处理模块180。或者,音频编码解码器130可以根据第二信号处理模块20输出的语音识别结果控制执行特定功能。
麦克风模块MIC的第一麦克风Mic1可以耦接至低功率处理模块170的第一信号处理模块10,低功率处理模块170的DOA决定单元40,以及音频编码解码器130的波束形成/噪声抑制模块50。第二至第N麦克风Mic2至MicN可以耦接至低功率处理模块170的DOA决定单元40和音频编码解码器130的波束形成/噪声抑制模块50。可以根据音频编码解码器130的第一信号处理模块10的控制来激活麦克风模块MIC,并且可以根据对应于特定音频数据的第一音频数据的收集来改变传输路径。例如,第一麦克风Mic1可以将对应于特定音频数据的第一音频数据传送到低功率处理模块170的第一信号处理模块10和低功率处理模块170的DOA决定单元40。第二至第N麦克风Mic2至MicN可以将第一音频数据传送至低功率处理模块170的DOA决定单元40。之后,第二音频数据可以被传送到音频编码解码器130的波束形成/噪声抑制模块50,并且音频编码解码器130的波束形成/噪声抑制模块50可以向其应用波束形成和噪声抑制中的至少一个以便被转换为参数处理的音频数据。经参数处理的音频数据可以被传送到音频编码解码器130的第二信号处理模块20。
当根据上述方式执行语音识别功能时,电子设备100可以执行语音识别并无缝地运行。例如,诸如“Hi Samsung,Broadcasting Channel 5”的音频数据可以由多个麦克风Mic1至MicN收集。由第一麦克风Mic1收集的“Hi Samsung”可以被传送到第一信号处理模块10以确定其是否是特定音频数据。在该操作中,第二至第N麦克风Mic2至MicN可以缓冲并存储与“Hi Samsung”相对应的第一音频数据。当从第一信号处理模块10接收到唤醒命令时,低功率处理模块170的DOA决定单元40可以基于缓冲的“Hi Samsung”确定加权参数。在“HiSamsung”不是特定音频数据的情况下,低功率处理模块170的DOA决定单元40可以用稍后接收的另一音频数据来替换它。另一实施例也是可行的。DOA决定单元40计算的加权参数可以被传送到波束形成/噪声抑制模块50。
音频编码解码器130的波束形成/噪声抑制模块50可以对例如“BroadcastingChannel 5”进行加权,并且可以将加权的音频数据传送到第二信号处理模块20。第二信号处理模块20可以对加权音频数据进行预处理和语音识别,并且可以计算执行预处理和语音识别的结果。在音频数据处理模块180从音频编码解码器130接收到语音识别结果的控制下,当“Broadcasting Channel 5”被识别为语音识别结果时,可以激活广播接收单元,从而允许广播信道被调谐到广播信道5。根据本公开的各种实施例,波束形成/噪声抑制模块50可以从DOA决定单元40接收与被识别为“Hi Samsung”的特定音频数据相对应的部分的信息。波束形成/噪声抑制模块50可以加权后面收集的音频数据,而不处理特定音频数据。因此,波束形成/噪声抑制模块50可将除“Hi Samsung”之外的关于“Broadcasting Channel5”的音频数据传送到第二信号处理模块20。
图6示出了根据本公开的实施例的支持基于低功率处理模块和音频编码解码器的低功率麦克风集成使用的电子设备。
参考图6,与麦克风集成使用相关联的电子设备,根据本公开的实施例可以包括:低功率处理模块170,包括第一信号处理模块10;音频编码解码器130,包括DOA决定单元40,波束形成/噪声抑制模块50和第二信号处理模块20。
当设置或请求执行语音识别功能的细节识别功能时,低功率处理模块170的第一信号处理模块10可以控制激活麦克风模块MIC。或者,低功率处理模块170的第一信号处理模块10可通过比较第一麦克风Mic1收集的音频数据与第一语音识别模型51来检测特定音频数据。当检测到特定音频数据时,低功率处理模块170的第一信号处理模块10可以向音频编码解码器130的DOA决定单元40传送唤醒命令。
音频编码解码器130的DOA决定单元40可以从第一信号处理模块10激活的麦克风模块MIC收集音频数据。在该操作中,音频编码解码器130的DOA决定单元40可以临时存储(缓冲)所收集的音频数据。当从低功率处理模块170的第一信号处理模块10接收到唤醒命令时,DOA决定单元40可以基于缓冲的音频数据来确定信息的到达方向和产生方向。例如,DOA决定单元40可以计算与对麦克风模块MIC中包括的多个麦克风Mic1至MicN进行加权相关联的参数。
音频编码解码器130的DOA决定单元40可以将计算的加权参数传送到执行波束形成/噪声抑制的音频编码解码器130的波束形成/噪声抑制模块50。音频编码解码器130的DOA决定单元40可以使用第一麦克风Mic1收集的音频数据和第二至第N麦克风Mic2至MicN收集的音频数据来确定到达方向。用于确定到达方向的音频数据可以是用于检测特定音频数据的音频数据。
在低功率处理模块170检测到特定音频数据的情况下,音频编码解码器130的DOA决定单元40可以缓冲所收集的音频数据。当从低功率处理模块170的第一信号处理模块10接收到唤醒命令时,音频编码解码器130的DOA决定单元40可以使用缓冲的音频数据来确定到达方向。如果在缓冲特定音频数据之后没有接收到唤醒命令,则音频编码解码器130的DOA决定单元40可以删除缓冲的数据或者可以用随后接收的数据重写缓冲的数据。DOA决定单元40可以基于音频数据计算加权参数,并且可以将加权参数传送到波束形成/噪声抑制模块50。
音频编码解码器130的波束形成/噪声抑制模块50可以根据从音频编码解码器130的DOA决定单元40接收的加权参数向麦克风Mic1至MicN施加加权。音频编码解码器130的波束形成/噪声抑制模块50可以计算经过噪声抑制的或通过在特定方向上执行麦克风Mic1至MicN收集的音频数据的波束形成而获得的音频数据。波束形成/噪声抑制模块50可以将应用波束形成或噪声抑制中的至少一个的音频数据传送到音频编码解码器130的第二信号处理模块20。音频编码解码器130的波束形成/噪声抑制模块50可以缓冲麦克风Mic1至MicN收集的音频数据。音频编码解码器130的波束形成/噪声抑制模块50可以从音频编码解码器130的DOA决定单元40接收特定音频数据部分的信息。在加权时,音频编码解码器130的波束形成/噪声抑制模块50可以排除与特定音频数据部分相对应的缓冲的音频数据。音频编码解码器130的波束形成/噪声抑制模块50可以对与功能执行命令部分相对应的多条音频数据应用加权。
音频编码解码器130的第二信号处理模块20可以从波束形成/噪声抑制模块50接收通过对由麦克风Mic1至MicN收集的音频数据应用波束形成或噪声抑制而获得的音频数据。音频编码解码器130的第二信号处理模块20可以执行所接收的音频数据的语音识别。在该操作中,音频编码解码器130的第二信号处理模块20可以基于第二信号处理模块20执行语音识别。另外或一般地,音频编码解码器130的第二信号处理模块20可以预处理这样接收的音频数据。音频编码解码器130的第二信号处理模块20可以将语音识别结果传送到音频数据处理模块180,以控制根据识别结果执行的功能。或者,音频编码解码器130可以控制执行特定功能
麦克风模块MIC的第一麦克风Mic1可以耦接至低功率处理模块170的第一信号处理模块10,音频编码解码器130的DOA决定单元40,以及音频编码解码器130的波束形成/噪声抑制模块50。第二到第N麦克风Mic2到MicN可以耦接至音频编码解码器130的DOA决定单元40和音频编码解码器130的波束形成/噪声抑制模块50。麦克风MIC可以根据第一信号处理模块10的控制而被激活。例如,第一麦克风Mic1可以将对应于特定音频数据的第一音频数据分别传送到音频编码解码器130的DOA决定单元40和音频编码解码器130的波束形成/噪声抑制模块50。第二到第N麦克风Mic2到MicN可以分别将第一音频数据传送到音频编码解码器130的DOA决定单元40和音频编码解码器130的波束形成/噪声抑制模块50。在收集第一音频数据之后由麦克风Mic1至MicN收集的第二音频数据可以被传送到音频编码解码器130的波束形成/噪声抑制模块50以便被转换为被应用波束形成或噪声抑制中的至少一个的第三音频数据(参数处理的音频数据)。这样转换的第三音频数据可以被传送到第二信号处理模块20。
在计算和传送加权参数之后,音频编码解码器130的DOA决定单元40可缓冲所收集的音频数据,直到从低功率处理模块170的第一信号处理模块10接收到唤醒命令。根据本公开的实施例,当接收到唤醒命令时,音频编码解码器130的DOA决定单元40可以确定与对应于唤醒命令的缓冲的音频数据相关联的到达方向。例如,当“Hi Galaxy”是特定音频数据时,音频编码解码器130的DOA决定单元40可以在收集“Hi Galaxy”的时间点从第一信号处理模块10接收唤醒命令,并且可以响应于唤醒命令,基于对应于“Hi Galaxy”的音频数据来确定到达方向。根据本公开的各种实施例,音频编码解码器130的DOA决定单元40可以确定与实时或周期性收集的音频数据相关联的到达方向,并且可以将到达方向的决定结果传送到音频编码解码器130的波束形成/噪声抑制模块50。
DOA决定单元40被示为放置在低功率处理模块170处并且被放置在音频编码解码器130处,并且波束形成/噪声抑制模块50被示为放置在音频编码解码器130处。然而,每个设备组件的描述不限于上述实施例。可以根据设计方式的改变来修改设备组件的位置。根据本公开的实施例,DOA决定单元40和波束形成/噪声抑制模块50可以设置在音频数据处理模块180处。在图5和图6中,第一信号处理模块10被示为设置在低功率处理模块170。然而,第一信号处理模块10可以放置在音频编码解码器130。此外,第二信号处理模块20被示为设置在音频编码解码器130处。然而,第二信号处理模块20可以设置在音频数据处理模块180处。
如上所述,根据本公开的各个实施例的电子设备100可以包括:第一信号处理模块,激活多个麦克风Mic1至MicN并且使用多个麦克风Mic1至MicN收集的音频数据中由第一麦克风Mic1收集的第一音频数据检测特定音频数据;DOA决定单元40,如果检测到特定音频数据,则使用第一音频数据确定到达方向;波束形成/噪声抑制模块50,根据这样确定的到达方向对所收集的音频数据应用波束形成或噪声抑制中的至少一个并且产生参数处理的音频数据;第二信号处理模块20,执行参数处理的音频数据的语音识别。
根据本公开的各种实施例,当检测到特定音频数据时,第一信号处理模块10可以产生唤醒命令,并且可以将唤醒命令传送到DOA决定单元40。
根据本公开的各种实施例,DOA决定单元40可以在接收唤醒命令之前缓冲多个麦克风Mic1至MicN收集的第一音频数据。
根据本公开的各种实施例,当接收到唤醒命令时,DOA决定单元40可以使用所缓冲的第一音频数据来确定声音获得方向。
根据本公开的各种实施例,波束形成/噪声抑制模块50可以缓冲多个麦克风Mic1至MicN在接收到达方向之前收集的音频数据。
根据本公开的各种实施例,波束形成/噪声抑制模块50可以将波束形成或噪声抑制中的至少一个应用于多个麦克风Mic1至MicN收集的第二音频数据,从而排除第一音频数据。
根据本公开的各种实施例,第二信号处理模块20可以控制与语音识别结果相对应的特定功能的执行。
根据本公开的各种实施例,电子设备10可以包括:低功率处理模块170,其中布置有第一信号处理模块10和DOA决定单元40;以及音频编码解码器130或音频数据处理模块180,其中布置有波束形成/噪声抑制模块50和第二信号处理模块20。
根据本公开的各种实施例,电子设备100可以包括:低功率处理模块170,其中布置有第一信号处理模块10;以及音频编码解码器130或音频数据处理模块180,其中布置有DOA决定单元40、波束形成/噪声抑制模块50和第二信号处理模块20。
单信道信号处理模块11可以处理由多个麦克风的一部分收集的第一音频数据。根据本公开的实施例,单信道信号处理模块11的至少一部分可以由第一处理器实现。第一处理器可以是电子设备的通用处理器(或通信处理器(CP)),或者可以是应用处理器(AP)。第一处理器可以与电子设备的通用处理器分离,并且可以是用于实现音频数据处理功能的专用处理器。第一语音识别模块12可以执行第一音频数据的语音识别。第一语音识别模块12可以执行第一音频数据的语音识别。根据本公开的实施例,第一语音识别模块12的至少一部分可以由第一处理器实现。
多信道信号处理模块30可以处理多个麦克风收集的第二音频数据。根据本公开的实施例,多信道信号处理模块30的至少一部分可以由第二处理器实现。第二处理器可以是电子设备的通用处理器(或通信处理器(CP)),或者可以是应用处理器(AP)。第二处理器可以与电子设备的通用处理器分离,并且可以是用于实现音频数据处理功能的专用处理器。
第二信号处理模块20的预处理模块21或第二语音识别模块22中的至少一个可以执行与第二音频数据的语音识别相关联的功能。根据本公开的实施例,预处理模块21或第二语音识别模块22的至少一部分可以由第二处理器实现。
根据本公开的各种实施例,电子设备可以包括可操作地耦接至电子设备的多个麦克风以及由至少一个处理器实现的音频数据处理模块。音频数据处理模块可以基于使用多个麦克风的一部分收集的第一音频数据来识别指定的命令,并且当识别出指定的命令时,可以执行与使用多个麦克风收集的第二音频数据相对应的功能或应用。
根据本公开的各种实施例,音频数据处理模块可以包括:单信道信号处理模块,接收与多个麦克风的该部分相对应的至少一个信道的音频信号,并基于执行与该至少一个信道的音频信号相关联的所指定的音频处理的结果产生第一音频数据;第一语音识别模块,通过对该第一音频数据的语音识别来识别所指定的命令;多信道信号处理模块,接收与该多个麦克风中的每一个对应的多信道音频信号,并且基于执行与该多信道音频信号相关联的所指定的音频处理的结果来产生该第二音频数据;以及第二语音识别模块,通过第二音频数据的语音识别来执行功能或应用。
根据本公开的各种实施例,第一语音识别模块可以利用可操作地耦接至多个麦克风的该部分的第一过程来实现,并且第二语音识别模块可以利用可操作地耦接至多个麦克风的第二处理器来实现。
根据本公开的各种实施例,当识别所指定的命令时,第一语音识别模块可以激活除了该多个麦克风的该部分之外的、该多个麦克风中的至少一个剩余麦克风或多信道信号处理模块。
根据本公开的各种实施例,多信道信号处理模块可以包括以下各项中的至少一个:声源方向检测单元,识别多信道音频信号的声源方向;波束形成单元,调整该多信道音频信号的参数,以调整特定方向的接收增益;噪声抑制单元,调整该多信道音频信号的参数,以抑制与噪声相关联的特定方向的声源的接收;或回声消除单元,消除包括在多信道音频信号中的回声分量。
根据本公开的各个实施例,第一语音识别模块可以确定与所指定的命令相对应的发音特征信息或扬声器分类信息中的至少一个是否包括在第一音频数据中。
根据本公开的各种实施例,当检测到特定音频数据时,单信道信号处理模块可以将设置为激活多麦克风处理模块的命令传送到多麦克风处理模块。
根据本公开的各种实施例,电子设备可以包括:音频编码解码器,其中布置有单信道信号处理模块或多信道信号处理模块的至少一个;以及音频数据处理模块,其中布置有第二语音识别模块。
根据本公开的各种实施例,电子设备可以包括:低功率处理模块,其中布置有单信道信号处理模块;以及音频数据处理模块,其中布置有多信道信号处理模块和第二语音识别模块。
根据本公开的各种实施例,电子设备可以包括:低功率处理模块,其中布置有单信道信号处理模块;音频代码,其中布置有多信道信号处理模块;以及音频数据处理模块,其中布置有第二语音识别模块。
图7示出了根据本公开的实施例的麦克风操作方法。
参考图7,在操作701中,电子设备100的音频数据处理模块180可以等待或操作。关于等待或操作,例如,电子设备100可以保持睡眠状态,可以输出等待屏幕,或者可以执行特定的声源再现功能。
在操作703中,音频数据处理模块180可以确定是否存在与语音识别功能的执行相关联的事件。例如,当产生特定输入事件时,音频数据处理模块180可以确定输入事件是否是与语音识别功能的执行相关联的输入事件。或者,音频数据处理模块180可以确定是否存在与语音识别功能的执行相关联的设置。
当不存在与语音识别功能的执行相关联的设置时,在操作705中执行与输入事件或设置相关联的功能。例如,音频数据处理模块180可以响应于输入事件的种类改变先前执行的功能,或者可以控制执行新功能。根据本公开的各种实施例,如果语音识别功能被设置为默认执行,则可以省略操作703。
当在操作703中产生与语音识别功能的执行相关联的事件或存在与其相关联的设置时,在操作707,音频数据处理模块180可以确定是否设置了语音识别功能的省电功能,或者是否存在与省电功能的执行相关联的事件或设置。省电功能可以是与在产生唤醒命令时使用一个麦克风(或多个麦克风中的至少一个麦克风)产生唤醒命令(或活动命令,与多麦克风处理相关联的模块激活相关的命令等)并激活多个麦克风的方式相对应的语音识别功能。音频数据处理模块180可以提供与省电功能的设置相关联的设置屏幕。
当设置省电功能或产生与省电功能相关联的事件时,在操作709,电子设备100可以控制以激活第一麦克风Mic1。在操作711中,电子设备100可以使用激活的第一麦克风Mic1来收集第一音频数据。在操作713中,电子设备100可以确定收集的第一音频数据是否包括特定音频数据(或者所收集的第一音频数据与训练的统计模型之间的相似性是否在恒定误差范围内)。特定音频数据可以是用于产生唤醒命令的音频数据或训练的统计模型中的至少一个。第一麦克风Mic1的激活和唤醒命令的产生可以由包括在低功率处理模块170和音频编码解码器130中的至少一个中的第一信号处理模块10执行。音频数据处理模块180可以停止与语音识别功能相关联的处理,而低功率处理模块170和音频编码解码器130采用第一信号处理模块10,从而节省了操作音频数据处理模块180所需的电力。
当在操作713中确定特定音频数据被包括在第一音频数据中时,在操作715,电子设备100可以控制激活多个麦克风并执行语音识别功能。例如,电子设备100可以执行与在第一音频数据之后收集的音频数据相关联的多麦克风处理,并且可以执行经过多麦克风处理的音频数据的语音识别。在该操作中,电子设备100可以对经过多麦克风处理的音频数据进行预处理。电子设备可以使用第二语音识别模型53执行预处理的音频数据的语音识别。或者,电子设备100可以将预处理的音频数据传送到语音识别服务器设备,并且可以从其接收语音识别结果。
当获得语音识别结果时,电子设备100可以控制以响应于语音识别结果执行特定功能。例如,电子设备100可以控制以响应于作为语音识别功能获得的语音识别结果来执行特定功能。根据本公开的实施例,基于语音识别结果,电子设备100可以进入睡眠状态,可以改变广播接收信道,可以控制再现特定声音源,可以形成与另一电子设备的通信信道,可以连接到特定服务器设备等。可以根据特定设置,用户设置等改变或建立特定功能的执行。
当在操作707中没有设置省电功能或没有发生事件时,在操作717中,电子设备100可以将与语音识别功能的执行相关联的事件或设置识别为细节识别功能的设置。因此,在操作719中,电子设备100可以控制以激活多个麦克风Mic1至MicN。在操作721中,电子设备100可以使用麦克风Mic1至MicN收集音频数据。在操作723中,电子设备100可以确定在收集的音频数据中是否包括特定音频数据。在特定音频数据包括在收集的音频数据中的情况下,电子设备100在操作725中确定到达方向,并且在操作727中,电子设备100可以控制执行基于波束形成/噪声抑制的语音识别功能。
根据本公开的实施例,电子设备100的低功率处理模块170或音频编码解码器130中的至少一个可以使用第一信号处理模块10,其激活多个麦克风Mic1至MicN并检测关于产生和处理唤醒命令的特定音频数据。此外,执行麦克风Mic1至MicN的多麦克风处理功能的多信道信号处理模块30,或者DOA决定单元40和波束形成/噪声抑制模块50可以在音频编码解码器130或音频数据处理模块180操作。DOA决定单元40可以在低功率处理模块170中操作。第二信号处理模块20可以执行经过多麦克风处理的音频数据的语音识别功能,并且可以在音频编码解码器130和音频数据处理模块180中的一个中操作。
当确定到达方向时,电子设备100可以使用用于产生唤醒命令的特定音频数据。此外,当处理参数时,电子设备100可以执行音频数据的语音识别,从中排除特定音频数据的一部分。电子设备100可以使用多个麦克风Mic1至MicN连续地执行唤醒命令和语音识别功能的产生,从而无缝地支持语音识别功能。
在操作729中,电子设备100可以确定是否产生了与功能结束相关联的事件。当产生与功能结束相关联的事件时,电子设备100可以终止语音识别功能,并且该方法可以行进到操作701的先前操作。当没有产生与功能结束相关联的事件时,该方法行进到操作703或操作707,其中电子设备100可以重复相应的操作。
可以顺序地,并行地或迭代地执行根据本公开的各种实施例的方法的操作(例如,操作701至729)的至少一部分。或者,可以省略根据本公开的各种实施例的操作的一部分,或者可以向其添加新的操作。
如上所述,根据本公开的各种实施例,根据本公开的各种实施例的麦克风操作方法可以包括:确定与省电功能或细节识别功能的执行或与其相关联的事件的产生相关联的设置;基于第一麦克风在执行省电功能以及所收集的音频数据的多麦克风处理和语音识别(基于省电功能的语音识别操作)时收集的音频数据激活多个麦克风;并且在执行细节识别功能(基于细节识别功能的语音识别操作)时,使用由多个麦克风收集的音频数据,根据声音获得方向和语音识别的确定来计算并应用参数。
根据本公开的各个实施例,基于省电功能的语音识别操作可以包括:确定特定音频数据包括在由第一麦克风收集的音频数据中;当检测到特定音频数据时激活多个麦克风Mic1至MicN;执行与由多个麦克风Mic1至MicN收集的音频数据相关联的多麦克风处理;并且对经过多麦克风处理的音频数据执行语音识别。
根据本公开的各种实施例,确定可以包括:对由第一麦克风Mic1收集的音频数据执行多个预处理功能的至少一部分;并且执行由第一麦克风Mic1收集的音频数据的语音识别。
根据本公开的各种实施例,确定可以包括:当检测到特定音频数据时产生唤醒命令,并将唤醒命令传送到执行多麦克风处理的模块。
根据本公开的各种实施例,激活多个麦克风可以包括:允许执行多麦克风处理的模块响应于唤醒命令激活多个麦克风Mic1至MicN。
根据本公开的各种实施例,语音识别的执行可以包括:执行经过多麦克风处理的音频数据的多个预处理功能;并且基于第二语音识别模型53执行经过多麦克风处理的音频数据的语音识别。
根据本公开的各种实施例,多麦克风处理可以包括以下中的至少一个:检测与由多个麦克风收集的音频数据相关联的到达方向;根据检测到的到达方向执行波束成形;通过抑制相对于音频数据获得特定方向的声音来抑制噪声;并且执行与音频数据相关联的回声消除。
根据本公开的各种实施例,基于细节识别功能的语音识别操作可以包括:激活多个麦克风Mic1至MicN;使用由多个麦克风Mic1至MicN收集的音频数据中的第一麦克风Mic1收集的音频数据来检测特定音频数据;当检测到特定音频数据时,使用音频数据计算参数;并且执行参数处理的音频数据的语音识别。
根据本公开的各种实施例,还可以包括当检测到特定音频数据时产生唤醒命令并将唤醒命令传送到确定声音获得方向的模块。
根据本公开的各种实施例,参数的计算可以包括:缓冲在接收唤醒命令之前多个麦克风收集的音频数据;并且当接收到该唤醒命令时,根据使用所缓存的音频数据的声音获得方向的确定来计算该参数。
根据本公开的各种实施例,参数的应用可以包括多个麦克风在确定声音获得方向之前收集的音频数据,以及将该波束形成或噪声抑制中的至少一个应用于音频数据,所述音频数据来自该多个麦克风Mic1至MicN收集的音频数据,并且所述音频排除了用于检测该特定音频数据的音频数据。
根据本公开的各种实施例,还可以包括执行与语音识别结果相对应的特定功能。
图8示出了根据本公开的实施例的电子设备的屏幕界面。
如图8所示,当产生与语音识别功能的设置相关联的事件时,显示器140可输出如图8所示的省电功能选择图标141和细节识别功能选择图标143。当产生与语音识别功能的激活相关联的事件时,音频数据处理模块180可以控制输出如图8所示的设置屏幕。音频数据处理模块180可以提供包括激活或去激活项目的语音识别功能的菜单或图标。根据本公开的各种实施例,当语音识别功能被设置为默认执行时,可以不提供(或可以省略)包括功能激活或去激活项目的菜单或图标。
当选择省电功能选择图标141时,包括在电子设备100的低功率处理模块170或音频编码解码器130中的第一信号处理模块10可以激活第一麦克风Mic1以检测特定音频数据。当检测到特定音频数据时,第一信号处理模块10可以产生唤醒命令,并且可以将唤醒命令传送到多信道信号处理模块30。或者,第一信号处理模块10可以将唤醒命令传送给DOA决定单元40。多信道信号处理模块30可以设置在音频编码解码器130或音频数据处理模块180。
当接收到唤醒命令时,多信道信号处理模块30可以激活多个麦克风Mic1至MicN,并且可以执行与收集的音频数据相关联的多麦克风处理。或者,DOA决定单元40可以确定与所收集的音频数据相关联的到达方向,并且可以将到达方向传送到波束形成/噪声抑制模块50。波束形成/噪声抑制模块50可以根据如此确定的到达方向收集应用波束形成或噪声抑制的音频数据。DOA决定单元40可以设置在低功率处理模块170或音频编码解码器130。波束形成/噪声抑制模块50可以设置在音频编码解码器130或音频数据处理模块180。如上所述,由相对低功率驱动的低功率处理模块170可以处理加载或计算相对较少的音频数据,以及由相对高功率驱动的音频编码解码器130,或者音频数据处理模块180可以处理加载相对更大的音频数据。
经过多麦克风处理的音频数据可以被提供给布置在音频编码解码器130或音频数据处理模块180处的第二信号处理模块20。第二信号处理模块20可以对经过多麦克风处理的接收的音频数据进行预处理,并且可以使用第二语音识别模型53或语音识别服务器设备来执行语音识别。第二信号处理模块20可以控制根据语音识别结果执行特定功能。或者,包括第二信号处理模块20的设备组件可以控制以响应于设置信息根据语音识别结果执行特定功能。
当选择了细节识别功能选择图标143时,电子设备100可以激活多个麦克风Mic1至MicN。电子设备100可以使用多个麦克风Mic1至MicN中的第一麦克风Mic1来检测特定音频数据。当检测到特定音频数据时,电子设备100可以使用用于检测音频数据的音频数据来确定到达方向。电子设备100可以对除特定音频数据之外由麦克风Mic1至MicN连续收集的音频数据应用波束形成或噪声抑制功能。电子设备100可以预处理波束形成的或噪声抑制的音频数据,并且可以执行预处理的音频数据的调节电压。
电子设备100可以例如以切换方式管理省电功能选择图标141或细节识别功能选择图标143。例如,当选择省电功能选择图标141时,细节识别功能和细节识别功能选择图标143可以根据电子设备100的控制而自动去激活。此外,在选择了细节识别功能选择图标143的情况下,可以根据电子设备100的控制自动去激活省电功能和省电功能选择图标141。根据本公开的各种实施例,电子设备100可以提供用于去激活或激活语音识别功能的选择项目。
如上所述,根据本公开的各个实施例的电子设备100及其操作方法可以使用两个或更多个处理器来支持,使得即使在等待状态下也可以在保持低功率的同时等待语音输入。此外,根据本公开的实施例的电子设备100和操作方法可以支持以在等待低功率状态下的语音输入的同时使用多麦克风获得高质量的声音。此外,根据本公开的实施例的电子设备100和操作方法可以使用至少一个处理器无缝地接收唤醒命令和功能执行命令。根据本公开的各个实施例,可以在低功率状态下等待时接收自然语言语音,从而提高用户的便利性。
如上所述,根据本公开的实施例的麦克风操作方法可以包括:使用可操作地耦接至电子设备的多个麦克风的一部分来收集第一音频数据;基于所述第一音频数据识别指定的命令;并且基于对所指定的命令的识别,执行与使用所有该多个麦克风收集的第二音频数据相对应的功能或应用。
根据本公开的各种实施例,麦克风操作方法还可以包括以下中的至少一个:其中收集该第一音频数据包括基于执行与对应于该多个麦克风的一部分的至少一个信道的音频信号相关联的所指定的音频处理的结果来执行产生该第一音频数据的单信道信号处理操作;其中识别该指定的命令包括执行通过该第一音频数据的语音识别来识别该指定的命令的第一语音识别操作;其中执行该功能或应用包括基于执行与对应于该多个麦克风中的每一个的多信道音频信号相关联的所指定的音频处理的结果来执行产生该第二音频数据的多信道信号处理操作;或其中执行该功能或应用包括通过该第二音频数据的语音识别来执行执行该功能或该应用的第二语音识别操作。
根据本公开的各种实施例,麦克风操作方法还可以包括由可操作地耦接至至少一个麦克风的第一处理器执行第一语音识别操作或通过可操作地耦接至多个麦克风的第二处理器执行第二语音识别中的至少一个。
根据本公开的各个实施例,麦克风操作方法还可以包括以下中的至少一个:当识别出该指定命令时,激活该多个麦克风中除该多个麦克风的该部分之外的其余麦克风,或者当识别出该指定命令时处理多信道信号。
根据本公开的各种实施例,麦克风操作方法还可以包括以下中的至少一个:基于与多信道音频信号相对应的麦克风的布置位置来确定多信道音频信号的声源方向,调整该多信道音频信号的参数以调谐特定方向的输入增益;调整该多信道音频信号的参数,以抑制与噪声相关联的特定方向的声源的接收,或消除包括在多信道音频信号中的回声分量。
根据本公开的各种实施例,第一语音识别操作可以包括确定与所指定的命令相对应的发音特征信息或扬声器分类信息中的至少一个是否包括在第一音频数据中。
根据本公开的各种实施例,麦克风操作方法还可以包括:当检测到特定音频数据时,将被设置为处理多信道音频信号的命令传送到多信道处理模块。
根据本公开的各种实施例,麦克风操作方法还可以包括将单信道信号处理操作或多信道信号处理操作中的至少一个设置为音频编码解码器或将第二语音识别操作设置到音频数据处理模块中的至少一个。
根据本公开的各种实施例,麦克风操作方法还可以包括将单信道信号处理操作设置到低功率处理模块或将多信道信号处理操作和第二语音识别操作设置到音频数据处理模块中的至少一个。
根据本公开的各种实施例,麦克风操作方法还可以包括将单信道信号处理操作设置到低功率处理模块,将多信道信号处理操作设置为音频编码解码器,或将第二语音识别操作设置到音频数据处理模块。
图9示出了根据本公开的多个实施例的电子设备的硬件配置。
参考图9,电子设备900可以包括图1所示的电子设备100的部件的一部分或全部。电子设备900可以包括一个或多个应用处理器(AP)910,通信模块920(例如通信接口110),订户识别模块(SIM)卡924,存储器930(例如存储器150),传感器模块940,输入设备950(例如输入/输出接口120),显示器960(例如,显示器140),接口970,音频模块980(例如,输入/输出接口120),相机模块991,电源管理模块995,电池996,指示器997,或电动机998。
AP 910可以驱动操作系统(OS)或应用以控制连接到AP 910的多个硬件或软件组件,并且可以处理并计算包括多媒体数据的各种数据。AP 910可以例如使用片上系统(SoC)来实现。根据本公开的实施例,AP910还可以包括图形处理单元(GPU)(未示出)。
当在通过网络与电子设备900连接的其他电子设备之间存在传送的通信时,通信模块920(例如,通信接口110)可以发送和接收数据。根据本公开的实施例,通信模块920可包括蜂窝模块921,Wi-Fi模块923,蓝牙(BT)模块925,全球定位系统(GPS)模块927,近场通信(NFC)模块928和射频(RF)模块929。
蜂窝模块921可以通过通信网络(例如,LTE,LTE-A,CDMA,WCDMA,UMTS,WiBro,GSM等)提供语音通信,视频通信,字符服务,因特网服务等,。蜂窝模块921可以使用例如订户识别模块(例如,SIM卡924)来执行通信网络内的电子设备的识别和认证。根据本公开的实施例,蜂窝模块921可以执行AP 910提供的功能的至少一部分。例如,蜂窝模块921可以执行多媒体控制功能的至少一部分。
根据本公开的实施例,蜂窝模块921可以包括通信处理器(CP)。此外,蜂窝模块921可以用例如SoC来实现。尽管诸如蜂窝模块921(例如,通信处理器),存储器930,电源管理模块995等的组件被示为作为独立于AP 910的组件,根据本公开的实施例的AP 910可以实施为包括上述部件的至少一部分(例如,蜂窝模块921)。
根据本公开的实施例,AP 910或蜂窝模块921(例如,通信处理器)可以加载并处理从分别与之相连的非易失性存储器或从非易失性存储器的至少一个其它元件接收的指令或数据。AP 910或蜂窝模块921可以将从至少一个其他元件接收的或由至少一个其他元件产生的数据存储在非易失性存储器中。
例如,Wi-Fi模块923,BT模块925,GPS模块927和NFC模块928中的每一个可以包括用于处理通过相应模块交换的数据的处理器。如图9所示,蜂窝模块921,Wi-Fi模块923,BT模块925,GPS模块927和NFC模块928可以被分别示出为分离的块。根据本公开的实施例,蜂窝模块921,Wi-Fi模块923,BT模块925,GPS模块927和NFC模块928的至少一部分(例如,两个或更多个组件)可以包括在一个集成电路(IC)或IC封装内。例如,与蜂窝模块921,Wi-Fi模块923,BT模块925,GPS模块927和NFC模块928相对应的通信处理器的至少一部分(例如,对应于蜂窝模块921的通信处理器和对应于Wi-Fi模块923的Wi-Fi处理器)可以用一个SoC来实现。
RF模块929可以发送并接收数据,例如RF信号。尽管未示出,但是RF模块929可以包括收发器,功率放大器模块(PAM),频率滤波器或低噪声放大器(LNA)。此外,RF模块929还可以包括用于在无线通信的空间中发送和接收电磁波的部分:导体或导线。在图9中,蜂窝模块921,Wi-Fi模块923,BT模块925,GPS模块927和NFC模块928可以被示为共享一个RF模块929,但是根据本公开的实施例,蜂窝模块921,Wi-Fi模块923,BT模块925,GPS模块927或NFC模块928中的至少一个可以通过单独的RF模块发送并接收RF信号。
SIM卡924可以是包括用户识别模块的卡,并且可以插入形成在电子设备900的特定位置处的插槽。SIM卡924可以包括唯一标识信息(例如,集成电路卡标识符(ICCID))或订户信息(例如,集成移动订户标识(IMSI))。
存储器930(例如,存储器130)可以包括嵌入式存储器932或外部存储器934。例如,嵌入式存储器932可以包括易失性存储器(例如动态RAM(DRAM),静态RAM(SRAM),同步动态RAM(SDRAM)等)或非易失性存储器(例如,动态随机存取存储器(DRAM),静态RAM(SRAM)或同步DRAM(SDRAM))和非易失性存储器(例如,一次性可编程只读存储器(OTPROM),可编程ROM(PROM),可擦除可编程ROM(EPROM),电可擦除可编程ROM(EEPROM),掩模ROM,闪存ROM,NAND闪存或NOR闪存)中的至少一个。
根据本公开的实施例,嵌入式存储器932可以是固态驱动器(SSD)。外部存储器934可以包括闪存驱动器,例如紧凑型闪存(CF),安全数字(SD),微安全数字(Micro-SD),迷你安全数字(Mini-SD),极限数字(xD)或记忆棒。外部存储器934可以通过各种接口在功能上与电子设备900连接。根据本公开的实施例,电子设备900还可以包括诸如硬盘驱动器的存储设备(或存储介质)。
传感器模块940可以测量物理量,或者可以检测电子设备900的操作状态。传感器模块940可以将测量或检测的信息转换为电信号。传感器模块940可以包括手势传感器940A,陀螺仪传感器940B,压力传感器940C,磁传感器940D,加速度传感器940E,握持传感器940F,接近传感器940G,颜色传感器940H(例如,红色,绿色,蓝色(RGB)传感器),生物体传感器940I,温度/湿度传感器940J,照度传感器940K或紫外(UV)传感器940M。另外或一般地,虽然未示出,但是传感器模块940还可以包括例如E鼻传感器,肌电图(EMG)传感器,脑电图(EEG)传感器,心电图(ECG)传感器,光电容积描记(PPG)传感器,红外(IR)传感器,虹膜传感器,指纹传感器等。传感器模块940还可以包括用于控制其中包括的至少一个或多个传感器的控制电路。
输入装置950可以包括触控面板952,(数字)笔传感器954,键956或超声波输入单元958。触控面板952可以使用电容性、电阻性、红外和超声波检测方法中的至少一种来识别触摸输入。触控面板952还可以包括控制电路。在使用电容检测方法的情况下,物理接触或接近识别是可行的。触控面板952还可以包括触觉层。在这种情况下,触控面板952可以向用户提供触觉反应。触控面板952可以使用位置相关信息产生与特定功能的执行相关联的触摸事件。
(数字)笔传感器954可以以与接收用户的触摸输入的方法类似或相同的方式来实现,或者可以使用用于识别的附加页来实现。键956可以包括例如物理按钮,光学键或键盘。作为用于产生超声信号的输入装置的超声输入装置958可以使电子设备900能够通过麦克风(例如,麦克风模块MIC,使用多个麦克风的一部分收集第一音频数据并使用多个麦克风收集第二音频数据)检测声波,以识别数据,其中超声输入装置958能够进行无线识别。根据本公开的实施例,电子设备900可以使用通信模块920,以便从连接到通信模块920的外部设备(例如,计算机或服务器)接收用户输入。
显示器960(例如,显示器140)可以包括面板962,全息设备964或投影仪966。面板962可以是LCD或有源矩阵有机发光二极管(AMOLED)。面板962可以是例如柔性的,透明的或可穿戴的。面板962和触控面板952可以集成到单个模块中。全息设备964可以使用光干涉现象在空间中显示立体图像。投影仪966可以将光投射到屏幕上,以便显示图像。屏幕可以布置在电子设备200的内部或外部。根据本公开的各种实施例,显示器960还可以包括用于控制面板962,全息设备964或投影仪966的控制电路。
接口970可以包括例如高清晰度多媒体接口(HDMI)972,通用串行总线(USB)974,光学接口976或D-sub(D-subminiature连接器)978。另外或一般地,接口970可以包括例如移动高清晰度链路(MHL)接口,SD卡/多媒体卡(MMC)接口或红外数据协会(IrDA)标准接口。
音频模块980可以在双向上转换声音和电信号。音频模块980的至少一部分可以包括在例如图1所示的输入/输出接口140中。音频模块980可以处理例如通过扬声器982,接收器984,耳机986,麦克风988等输入或输出的声音信息。
根据本公开的各种实施例,包括在音频模块980中的麦克风988可以包括多个麦克风。多个麦克风中的一部分(一个麦克风或多个麦克风的数量小于全部麦克风的数量)可以用于收集第一音频数据。在对应于指定命令的信号或信息被包括在第一音频数据中的情况下,多个麦克风的全部或一部分可以用于收集第二音频数据。第一音频数据和第二音频数据可以被包括在连续发出的发音信息中。或者,第一音频数据和第二音频数据可以被分成词或有意义的词,或者通过诸如句子,呼吸等的单位来分割。
根据本公开的各种实施例,当执行与第二音频数据相关联的功能时,可以使用执行第一音频数据或第二音频数据的语音识别的结果中的至少一个。例如,可以执行映射到作为第一音频数据的语音识别结果的第一信息或者作为第二音频数据的语音识别结果的第二信息中的至少一个的功能或应用。或者,可以根据第一信息或第二信息来控制正在运行的应用。关于此,电子设备100可以管理映射到第一信息或第二信息中的至少一个上的功能表。
用于拍摄静止图像或视频的相机模块991可以包括至少一个图像传感器(例如,前传感器或后传感器),镜头(未示出),图像信号处理器(ISP,未示出)或闪光灯(例如,LED或氙灯,未示出)。
电源管理模块995可以管理电子设备900的电源。虽然未示出,但是电源管理模块995可以包括例如电源管理集成电路(PMIC),充电器IC或电池或电量计。
PMIC可以安装在集成电路或SoC半导体上。充电方法可以分为有线充电方法和无线充电方法。充电器IC可以对电池充电,并且可以防止从充电器引入过电压或过电流。根据本公开的实施例,充电器IC可以包括用于有线充电方法和无线充电方法中的至少一种的充电器IC。无线充电方法可以包括例如磁共振方法,磁感应方法或电磁方法,并且可以包括附加电路,例如线圈环,谐振电路或整流器等。
电池量表可以测量例如电池996的剩余容量和在电池充电时的电压,电流或温度。电池996可以存储或产生电力,并且可以使用存储或产生的电力向电子设备900供电。电池996可以包括例如可再充电电池或太阳能电池。
指示器997可以显示电子设备900或其一部分(例如,AP 910)的特定状态,诸如引导状态,消息状态,充电状态等。电动机998可以将电信号转换为机械振动。虽然未示出,但是用于支持移动TV的处理设备(例如,GPU)可以被包括在电子设备900中。用于支持移动TV的处理装置可以根据DMB,数字视频广播(DVB)或媒体流的标准来处理媒体数据。
根据本公开的各种实施例的电子设备的上述元件中的每一个可以配置有一个或多个组件,并且元素的名称可以根据电子设备的类型而改变。根据本公开的各种实施例的电子设备可以包括上述元件中的至少一个,并且可以省略一些元件或可以添加其他附加元件。此外,根据本公开的各种实施例的电子设备的一些元件可以彼此组合以便形成一个实体,使得可以以与组合之前相同的方式来执行元素的功能。
这里使用的术语“模块”可以表示例如包括硬件,软件和固件的一个或多个组合的单元。术语“模块”可以与术语“单元”,“逻辑”,“逻辑块”,“组件”和“电路”可互换地使用。“模块”可以是集成部件的最小单元或者可以是其一部分。“模块”可以是用于执行一个或多个功能的最小单元或其一部分。“模块”可以机械地或电子地实现。例如,根据本公开的各种实施例的“模块”可以包括已知的或将被开发的专用IC(ASIC)芯片,现场可编程门阵列(FPGA)和用于执行一些操作的可编程逻辑器件中的至少一个。
根据本公开的各种实施例,例如通过以可编程模块的形式存储在计算机可读存储介质中的指令可以实现根据本公开的各种实施例的装置(例如,其模块或功能)或方法(例如,操作)的至少一部分。该指令在由一个或多个处理器(例如,处理器910)执行时可以执行与该指令相对应的功能。计算机可读存储介质可以是例如存储器930。编程模块的至少一部分可以例如由处理器910实现(例如,执行)。编程模块的至少一部分可以包括以下用于执行一个或多个功能的模块,程序,例程,指令集,过程等。
计算机可读记录介质可以包括硬盘,诸如软盘和磁带的磁介质,诸如紧凑盘只读存储器(CD-ROM)和DVD的光学介质,诸如软光盘的磁光介质,以及专门配置为存储并执行程序指令的以下硬件装置(例如,编程模块):只读存储器(ROM),随机存取存储器(RAM)和闪存。另外,程序指令不仅可以包括诸如由编译器产生的东西的机械代码,而且可以包括在使用解释器的计算机上可执行的高级语言代码。上述硬件单元可以被配置为经由用于执行本公开的操作的一个或多个软件模块来操作,反之亦然。
根据本公开的实施例的模块或编程模块可以包括上述元件中的至少一个,或者可以省略上述元件的一部分,或者可以进一步包括额外的其他元件。由模块,编程模块或根据本公开的实施例的其他元件执行的操作可以顺序地,并行地,重复地或以启发式方法执行。此外,操作的一部分可以以不同的顺序执行,省略,或可以添加其他操作。
根据麦克风操作方法和支持该麦克风操作方法的电子设备,本公开的各种实施例可以提高语音识别性能。
此外,本公开的各种实施例可以通过高效地使用功率来减少能量。
尽管根据本发明的多个实施例示出并且描述了本发明,但是本领域技术人员将会理解的是,在不脱离由所附权利要求书及其等同形式所限定的精神和范围的情况下,可以在形式和细节上进行各种修改。
Claims (20)
1.一种电子设备,包括:
多个麦克风,可操作地耦接至所述电子设备;和
音频数据处理模块,能够用至少一个处理器实现,
其中所述音频数据处理模块被配置为:
基于使用所述多个麦克风的一部分收集的第一音频数据来识别所指定的命令;和
根据所指定的命令的识别,执行与使用所述多个麦克风中的所有麦克风收集的第二音频数据相对应的功能或应用。
2.如权利要求1所述的电子设备,其中所述音频数据处理模块包括:
单信道信号处理模块,该单信道信号处理模块被配置为:
当接收到该至少一个音频信道信号时,执行与对应于所述多个麦克风的该部分的至少一个音频信道信号相关联的所指定的音频处理,并且
基于所指定的音频处理的结果来产生所述第一音频数据;
第一语音识别模块,所述第一语音识别模块被配置为通过所述第一音频数据的语音识别来识别所指定的命令;
多信道信号处理模块,所述多信道信号处理模块被配置为:
执行与对应于所述多个麦克风中的所有麦克风的多信道音频信号相关联的所指定的音频处理,并且
基于所指定的音频处理的结果来产生第二音频数据;以及
第二语音识别模块,所述第二语音识别模块被配置为:
执行第二音频数据的语音识别,并且
执行与所述语音识别的结果相对应的功能或应用。
3.如权利要求2所述的电子设备,其中,所述第一语音识别模块包括可操作地耦接至所述多个麦克风的所述部分的第一处理器,以及
其中所述第二语音识别模块包括可操作地耦接至所述多个麦克风中的所有麦克风的第二处理器。
4.如权利要求2所述的电子设备,其中,根据所指定的命令的识别,所述第一语音识别模块激活除所述多个麦克风的所述部分之外的、所述多个麦克风中的剩余麦克风中的至少一个麦克风以及该多信道信号处理模块。
5.如权利要求2所述的电子设备,其中,所述多信道信号处理模块包括以下中的至少一个:
声源方向检测单元,被配置为基于与所述多信道音频信号相对应的麦克风的位置来识别所述多信道音频信号的声源方向;
波束形成单元,被配置为调整所述多信道音频信号的参数,以调整特定方向的输入增益;
噪声抑制单元,被配置为调整所述多信道音频信号的参数,以抑制与噪声相关联的特定方向的声源的接收;以及
回声消除单元,被配置为消除所述多信道音频信号中包括的回声分量。
6.如权利要求2所述的电子设备,其中,所述第一语音识别模块确定所述第一音频数据是否包括与所指定的命令相对应的发音特征信息和麦克风分类信息中的至少一个。
7.如权利要求2所述的电子设备,其中,根据所指定的命令或特定的音频数据的识别,所述单信道信号处理模块将设置为激活多麦克风处理模块的命令传送到所述多麦克风处理模块。
8.如权利要求2所述的电子设备,还包括:
音频编码解码器,其中布置有所述单信道信号处理模块和所述多信道信号处理模块中的至少一个;和
音频数据处理模块,其中布置有该第二语音识别模块。
9.如权利要求2所述的电子设备,还包括:
低功率处理模块,其中布置有所述单信道信号处理模块;和
音频数据处理模块,其中布置有所述多信道信号处理模块和所述第二语音识别模块。
10.如权利要求2所述的电子设备,还包括:
低功率处理模块,其中布置有所述单信道信号处理模块;
音频代码,其中布置有所述多信道信号处理模块;和
音频数据处理模块,其中布置有所述第二语音识别模块。
11.一种麦克风操作方法,包括:
使用可操作地耦接至电子设备的多个麦克风的一部分来收集第一音频数据;
基于所述第一音频数据识别所指定的命令;并且
基于对所指定的命令的识别,执行与使用所述多个麦克风中的所有麦克风收集的第二音频数据相对应的功能或应用。
12.如权利要求11所述的麦克风操作方法,
其中所述第一音频数据的收集包括基于执行所指定的音频处理的结果,执行产生所述第一音频数据的单信道信号处理操作,该所指定的音频处理关联于和所述多个麦克风的一部分对应的至少一个信道的音频信号;
其中,识别所指定的命令包括:通过对所述第一音频数据的语音识别来执行识别所指定的命令的第一语音识别操作;并且
其中所述功能或应用的执行包括:
基于执行所指定的音频处理的结果来执行产生所述第二音频数据的多信道信号处理操作,该所指定的音频处理关联于与所述多个麦克风中的所有麦克风对应的多信道音频信号,并且
通过所述第二音频数据的语音识别来执行执行该功能或该应用的第二语音识别操作。
13.如权利要求12所述的麦克风操作方法,其中:
由可操作地耦接至所述多个麦克风的所述部分的第一处理器执行所述第一语音识别操作;并且
由可操作地耦接至所述多个麦克风中的所有麦克风的第二处理器执行所述第二语音识别操作。
14.如权利要求12所述的麦克风操作方法,还包括以下至少之一:
根据所指定的命令的识别,激活除所述多个麦克风的该部分之外的、所述多个麦克风中的剩余麦克风中的至少一个麦克风;或者
根据所指定的命令的识别来处理所述多信道音频信号。
15.如权利要求12所述的麦克风操作方法,还包括以下至少之一:
基于与所述多信道音频信号相对应的麦克风的布置位置来确定所述多信道音频信号的声源方向;
调整所述多信道音频信号的参数,以调谐特定方向的输入增益;
调整所述多信道音频信号的参数,以抑制与噪声相关联的特定方向的声源的接收;或者
消除包括在所述多信道音频信号中的回声分量。
16.如权利要求12所述的麦克风操作方法,其中,所述第一语音识别操作包括:
确定所述第一音频数据是否包括与所指定的命令相对应的发音特征信息和麦克风分类信息中的至少一个。
17.如权利要求12所述的麦克风操作方法,还包括:
根据所指定的命令或特定的音频数据的识别,将设置为处理所述多信道音频信号的命令传送到多信道处理模块。
18.如权利要求12所述的麦克风操作方法,还包括以下至少之一:
将单信道信号处理操作或多信道信号处理操作中的至少一个设置到音频编码解码器;或者
将所述第二语音识别操作设置到音频数据处理模块。
19.如权利要求12所述的麦克风操作方法,还包括以下至少之一:
将所述单信道信号处理操作设置到低功率处理模块;或者
将所述多信道信号处理操作和所述第二语音识别操作设置到音频数据处理模块。
20.如权利要求12所述的麦克风操作方法,还包括以下至少之一:
将所述单信道信号处理操作设置到低功率处理模块;
将所述多信道信号处理操作设置到音频编码解码器;或者
将所述第二语音识别操作设置到音频数据处理模块。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2014-0080540 | 2014-06-30 | ||
KR1020140080540A KR102208477B1 (ko) | 2014-06-30 | 2014-06-30 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
PCT/KR2015/006664 WO2016003144A1 (en) | 2014-06-30 | 2015-06-30 | Operating method for microphones and electronic device supporting the same |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106465006A CN106465006A (zh) | 2017-02-22 |
CN106465006B true CN106465006B (zh) | 2019-10-08 |
Family
ID=54931203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580035109.1A Active CN106465006B (zh) | 2014-06-30 | 2015-06-30 | 麦克风的操作方法和支持该方法的电子设备 |
Country Status (6)
Country | Link |
---|---|
US (3) | US9679563B2 (zh) |
EP (2) | EP3576085B1 (zh) |
KR (1) | KR102208477B1 (zh) |
CN (1) | CN106465006B (zh) |
AU (1) | AU2015284970B2 (zh) |
WO (1) | WO2016003144A1 (zh) |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871408B (zh) * | 2012-12-14 | 2017-05-24 | 联想(北京)有限公司 | 一种语音识别方法及装置、电子设备 |
KR102208477B1 (ko) * | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
KR102390853B1 (ko) * | 2015-03-26 | 2022-04-27 | 삼성전자주식회사 | 컨텐츠 제공 방법 및 이를 수행하는 전자 장치 |
CN106463112B (zh) | 2015-04-10 | 2020-12-08 | 华为技术有限公司 | 语音识别方法、语音唤醒装置、语音识别装置及终端 |
WO2017039219A1 (ko) * | 2015-09-03 | 2017-03-09 | 삼성전자주식회사 | 냉장고 |
US9972342B2 (en) * | 2015-11-20 | 2018-05-15 | JVC Kenwood Corporation | Terminal device and communication method for communication of speech signals |
KR102392113B1 (ko) * | 2016-01-20 | 2022-04-29 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령 처리 방법 |
US10074364B1 (en) * | 2016-02-02 | 2018-09-11 | Amazon Technologies, Inc. | Sound profile generation based on speech recognition results exceeding a threshold |
KR101827276B1 (ko) * | 2016-05-13 | 2018-03-22 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
CN105827010B (zh) * | 2016-05-30 | 2019-04-05 | 青岛歌尔声学科技有限公司 | 一种音频设备供电系统 |
KR102503684B1 (ko) * | 2016-06-24 | 2023-02-28 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US10431211B2 (en) | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10482899B2 (en) * | 2016-08-01 | 2019-11-19 | Apple Inc. | Coordination of beamformers for noise estimation and noise suppression |
US9934788B2 (en) * | 2016-08-01 | 2018-04-03 | Bose Corporation | Reducing codec noise in acoustic devices |
CN106131718A (zh) * | 2016-08-10 | 2016-11-16 | 微云(武汉)科技有限公司 | 一种智能音箱系统及其控制方法 |
KR102542766B1 (ko) | 2016-11-17 | 2023-06-14 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
CN106910500B (zh) * | 2016-12-23 | 2020-04-17 | 北京小鸟听听科技有限公司 | 对带麦克风阵列的设备进行语音控制的方法及设备 |
KR101799392B1 (ko) * | 2017-01-02 | 2017-11-20 | 아날로그플러스 주식회사 | 전자 장치 및 이의 제어 방법 |
KR102601892B1 (ko) * | 2017-01-02 | 2023-11-15 | 엘지전자 주식회사 | 냉장고 |
CN106782585B (zh) * | 2017-01-26 | 2020-03-20 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
KR102398390B1 (ko) * | 2017-03-22 | 2022-05-16 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN106878869B (zh) * | 2017-03-30 | 2020-07-24 | 联想(北京)有限公司 | 麦克风阵列及其使用方法 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
CN107426637A (zh) * | 2017-05-08 | 2017-12-01 | 云雀科技成都有限责任公司 | 一种智能语音识别输入系统 |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10789949B2 (en) * | 2017-06-20 | 2020-09-29 | Bose Corporation | Audio device with wakeup word detection |
KR102426717B1 (ko) * | 2017-06-27 | 2022-07-29 | 삼성전자주식회사 | 발화 인식 모델을 선택하는 시스템 및 전자 장치 |
KR102419374B1 (ko) * | 2017-07-21 | 2022-07-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
KR102418952B1 (ko) * | 2017-08-31 | 2022-07-08 | 삼성전자주식회사 | 음성인식 기능을 갖는 가전제품 |
US10546581B1 (en) * | 2017-09-08 | 2020-01-28 | Amazon Technologies, Inc. | Synchronization of inbound and outbound audio in a heterogeneous echo cancellation system |
US11099540B2 (en) | 2017-09-15 | 2021-08-24 | Kohler Co. | User identity in household appliances |
US11093554B2 (en) | 2017-09-15 | 2021-08-17 | Kohler Co. | Feedback for water consuming appliance |
US10887125B2 (en) * | 2017-09-15 | 2021-01-05 | Kohler Co. | Bathroom speaker |
US11314214B2 (en) | 2017-09-15 | 2022-04-26 | Kohler Co. | Geographic analysis of water conditions |
US20190090052A1 (en) * | 2017-09-20 | 2019-03-21 | Knowles Electronics, Llc | Cost effective microphone array design for spatial filtering |
KR20190052394A (ko) * | 2017-11-08 | 2019-05-16 | 삼성전자주식회사 | 복수의 마이크를 이용하여 기능을 실행하기 위한 방법 및 그 전자 장치 |
CN108182948B (zh) * | 2017-11-20 | 2021-08-20 | 云知声智能科技股份有限公司 | 可提高语音识别率的语音采集处理方法及装置 |
KR102460491B1 (ko) | 2017-12-06 | 2022-10-31 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
CN109976696B (zh) * | 2017-12-28 | 2022-05-10 | 深圳市优必选科技有限公司 | 获取音频数据的方法及装置、设备、计算机可读存储介质 |
KR102459920B1 (ko) | 2018-01-25 | 2022-10-27 | 삼성전자주식회사 | 저전력 에코 제거를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
KR102629385B1 (ko) * | 2018-01-25 | 2024-01-25 | 삼성전자주식회사 | 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
KR102580837B1 (ko) * | 2018-03-02 | 2023-09-21 | 삼성전자 주식회사 | 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법 |
US10158961B1 (en) | 2018-03-29 | 2018-12-18 | Cae Inc. | Method and system for calibrating a sound signal in a playback audio system |
DE102018108867A1 (de) * | 2018-04-13 | 2019-10-17 | Dewertokin Gmbh | Steuereinrichtung für einen Möbelantrieb und Verfahren zum Steuern eines Möbelantriebs |
CN112334977B (zh) * | 2018-08-14 | 2024-05-17 | 华为技术有限公司 | 一种语音识别方法、可穿戴设备及系统 |
KR20200043642A (ko) * | 2018-10-18 | 2020-04-28 | 삼성전자주식회사 | 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법 |
US11776538B1 (en) * | 2019-04-01 | 2023-10-03 | Dialog Semiconductor B.V. | Signal processing |
US11380312B1 (en) * | 2019-06-20 | 2022-07-05 | Amazon Technologies, Inc. | Residual echo suppression for keyword detection |
KR102093430B1 (ko) * | 2019-06-24 | 2020-03-25 | 박연묵 | 인공지능 스마트 디바이스의 마이크모듈부 구조 및 이를 포함하는 인공지능 스마트 디바이스 |
CN110362290A (zh) * | 2019-06-29 | 2019-10-22 | 华为技术有限公司 | 一种语音控制方法及相关装置 |
KR20210071664A (ko) * | 2019-12-06 | 2021-06-16 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US11269592B2 (en) * | 2020-02-19 | 2022-03-08 | Qualcomm Incorporated | Systems and techniques for processing keywords in audio data |
CN111524513A (zh) * | 2020-04-16 | 2020-08-11 | 歌尔科技有限公司 | 一种可穿戴设备及其语音传输的控制方法、装置及介质 |
KR20210132862A (ko) * | 2020-04-28 | 2021-11-05 | 삼성전자주식회사 | 클록 제어 방법 및 이를 위한 전자 장치 |
US11854564B1 (en) * | 2020-06-16 | 2023-12-26 | Amazon Technologies, Inc. | Autonomously motile device with noise suppression |
US11646009B1 (en) * | 2020-06-16 | 2023-05-09 | Amazon Technologies, Inc. | Autonomously motile device with noise suppression |
CN111724804A (zh) * | 2020-06-29 | 2020-09-29 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
CN111845590A (zh) * | 2020-07-30 | 2020-10-30 | 安徽江淮汽车集团股份有限公司 | 基于车载以太网的车载音频采集系统及方法 |
USD1036457S1 (en) * | 2020-10-16 | 2024-07-23 | Samsung Electronics Co., Ltd. | Display screen or portion thereof with transitional graphical user interface |
EP4206901A4 (en) * | 2021-01-21 | 2024-04-10 | Samsung Electronics Co., Ltd. | PORTABLE ELECTRONIC DEVICE RECEIVING INFORMATION FROM AN EXTERNAL PORTABLE ELECTRONIC DEVICE AND OPERATING METHODS THEREOF |
US20220399026A1 (en) * | 2021-06-11 | 2022-12-15 | Nuance Communications, Inc. | System and Method for Self-attention-based Combining of Multichannel Signals for Speech Processing |
WO2023167511A1 (ko) * | 2022-03-02 | 2023-09-07 | 삼성전자 주식회사 | 소리를 출력하기 위한 전자 장치 및 방법 |
CN114974238A (zh) * | 2022-05-14 | 2022-08-30 | 云知声智能科技股份有限公司 | 降低智能语音设备资源消耗的方法、装置、电子设备和存储介质 |
CN118506774A (zh) * | 2023-02-15 | 2024-08-16 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备、存储介质及产品 |
EP4456061A1 (en) * | 2023-04-28 | 2024-10-30 | Siemens Aktiengesellschaft | A communication system and a communication method |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI114422B (fi) * | 1997-09-04 | 2004-10-15 | Nokia Corp | Lähteen puheaktiviteetin tunnistus |
TW495710B (en) | 1998-10-15 | 2002-07-21 | Primax Electronics Ltd | Voice control module for control of game controller |
US6397186B1 (en) | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US20030033144A1 (en) * | 2001-08-08 | 2003-02-13 | Apple Computer, Inc. | Integrated sound input system |
US6990455B2 (en) * | 2001-08-08 | 2006-01-24 | Afp Imaging Corporation | Command and control using speech recognition for dental computer connected devices |
US20030055535A1 (en) * | 2001-09-17 | 2003-03-20 | Hunter Engineering Company | Voice interface for vehicle wheel alignment system |
JP4209247B2 (ja) | 2003-05-02 | 2009-01-14 | アルパイン株式会社 | 音声認識装置および方法 |
JP2005055666A (ja) | 2003-08-04 | 2005-03-03 | Sony Corp | 音声処理装置 |
KR100829870B1 (ko) * | 2006-02-03 | 2008-05-19 | 한국전자통신연구원 | 멀티채널 오디오 압축 코덱의 음질 평가 장치 및 그 방법 |
US8068619B2 (en) * | 2006-05-09 | 2011-11-29 | Fortemedia, Inc. | Method and apparatus for noise suppression in a small array microphone system |
JP5139440B2 (ja) * | 2006-11-24 | 2013-02-06 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置 |
US8411880B2 (en) * | 2008-01-29 | 2013-04-02 | Qualcomm Incorporated | Sound quality by intelligently selecting between signals from a plurality of microphones |
KR101605347B1 (ko) | 2009-12-18 | 2016-03-22 | 삼성전자주식회사 | 휴대단말의 외부 출력 제어 방법 및 장치 |
US8861756B2 (en) * | 2010-09-24 | 2014-10-14 | LI Creative Technologies, Inc. | Microphone array system |
JP5289517B2 (ja) * | 2011-07-28 | 2013-09-11 | 株式会社半導体理工学研究センター | センサネットワークシステムとその通信方法 |
US8996381B2 (en) * | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US9336791B2 (en) * | 2013-01-24 | 2016-05-10 | Google Inc. | Rearrangement and rate allocation for compressing multichannel audio |
KR102118209B1 (ko) * | 2013-02-07 | 2020-06-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9076459B2 (en) * | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
WO2014168618A1 (en) * | 2013-04-11 | 2014-10-16 | Nuance Communications, Inc. | System for automatic speech recognition and audio entertainment |
CN105493180B (zh) * | 2013-08-26 | 2019-08-30 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
US20150221307A1 (en) * | 2013-12-20 | 2015-08-06 | Saurin Shah | Transition from low power always listening mode to high power speech recognition mode |
US9449640B2 (en) * | 2014-06-03 | 2016-09-20 | Glenn Kreisel | Media device turntable |
KR102208477B1 (ko) * | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
-
2014
- 2014-06-30 KR KR1020140080540A patent/KR102208477B1/ko active IP Right Grant
-
2015
- 2015-06-30 CN CN201580035109.1A patent/CN106465006B/zh active Active
- 2015-06-30 US US14/755,400 patent/US9679563B2/en active Active
- 2015-06-30 EP EP19186185.5A patent/EP3576085B1/en active Active
- 2015-06-30 WO PCT/KR2015/006664 patent/WO2016003144A1/en active Application Filing
- 2015-06-30 EP EP15815898.0A patent/EP3162085B1/en active Active
- 2015-06-30 AU AU2015284970A patent/AU2015284970B2/en active Active
-
2017
- 2017-06-09 US US15/618,949 patent/US10062382B2/en active Active
-
2018
- 2018-08-27 US US16/113,570 patent/US10643613B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2015284970A1 (en) | 2017-02-02 |
US9679563B2 (en) | 2017-06-13 |
US10062382B2 (en) | 2018-08-28 |
EP3576085A1 (en) | 2019-12-04 |
US20170278515A1 (en) | 2017-09-28 |
US20180366122A1 (en) | 2018-12-20 |
AU2015284970B2 (en) | 2018-02-22 |
WO2016003144A1 (en) | 2016-01-07 |
CN106465006A (zh) | 2017-02-22 |
US20150379992A1 (en) | 2015-12-31 |
EP3162085A4 (en) | 2018-01-24 |
EP3162085A1 (en) | 2017-05-03 |
EP3576085B1 (en) | 2023-03-15 |
EP3162085B1 (en) | 2019-08-21 |
US10643613B2 (en) | 2020-05-05 |
KR20160001964A (ko) | 2016-01-07 |
KR102208477B1 (ko) | 2021-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106465006B (zh) | 麦克风的操作方法和支持该方法的电子设备 | |
EP3593347B1 (en) | Method for operating speech recognition service and electronic device supporting the same | |
CN106605414B (zh) | 旋转设备和具有该旋转设备的电子设备 | |
CN108632342A (zh) | 用于向多个外部设备发送音频数据的方法和电子设备 | |
KR102327803B1 (ko) | 전력 소모를 줄이기 위한 전력 제어 방법 및 장치 | |
EP2816554A2 (en) | Method of executing voice recognition of electronic device and electronic device using the same | |
CN109313519A (zh) | 包括力传感器的电子设备 | |
CN108536416A (zh) | 处理用户输入的电子设备和处理用户输入的方法 | |
CN108388782A (zh) | 用于认证生物计量数据的电子设备和系统 | |
CN110192248A (zh) | 语音输入处理方法和用于支持该方法的电子设备 | |
CN108509168A (zh) | 设备及其控制方法 | |
CN107257954A (zh) | 用于提供屏幕镜像服务的设备和方法 | |
CN109564498A (zh) | 电子设备和识别电子设备中的触摸的方法 | |
KR20180083587A (ko) | 전자 장치 및 그의 동작 방법 | |
CN106293055A (zh) | 电子设备以及用于提供其触觉反馈的方法 | |
CN106940635A (zh) | 用于输出声音的方法以及支持该方法的电子设备 | |
US10694356B2 (en) | Mechanism to automatically manage input and output across connected wearable devices | |
CN108475272A (zh) | 内容识别设备及其操作方法 | |
CN107924286A (zh) | 电子设备及电子设备的输入方法 | |
US20180018443A1 (en) | Method and apparatus for providing health information | |
CN108351726A (zh) | 输入处理方法和设备 | |
KR102446708B1 (ko) | 전자파 흡수율을 관리하기 위한 전자 장치 및 방법 | |
CN108475163A (zh) | 用于合成屏幕的方法和电子设备 | |
CN106796912A (zh) | 用于设置块的电子装置和方法 | |
CN108632450A (zh) | 用于捕获内容的电子设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |