CN114882871A - 耳机装置、语音处理系统和语音处理方法 - Google Patents
耳机装置、语音处理系统和语音处理方法 Download PDFInfo
- Publication number
- CN114882871A CN114882871A CN202210322042.1A CN202210322042A CN114882871A CN 114882871 A CN114882871 A CN 114882871A CN 202210322042 A CN202210322042 A CN 202210322042A CN 114882871 A CN114882871 A CN 114882871A
- Authority
- CN
- China
- Prior art keywords
- signal
- detection module
- keyword
- voice
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 31
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 197
- 230000000694 effects Effects 0.000 claims abstract description 21
- 238000004519 manufacturing process Methods 0.000 claims abstract description 11
- 230000001133 acceleration Effects 0.000 claims description 29
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Headphones And Earphones (AREA)
Abstract
本发明实施例公开了一种耳机装置、语音处理系统和语音处理方法。所述耳机装置包括:发声相关信号采集模块,其配置为采集与耳机装置的佩戴者发声相关联的信号;语音活性检测模块,其配置为接收来自发声相关信号检测模块的信号,并检测所接收的信号中是否存在语音;第一麦克,其配置为采集语音信号;以及关键字检测模块,其配置为:在所述语音活性检测模块检测到所接收的信号中存在语音的情况下,接收来自第一麦克的语音信号并基于所接收的语音信号执行关键字检测。该耳机装置、语音处理系统和语音处理方法能够以较低功耗实现关键字的检测乃至语音识别。
Description
本申请是申请号为201811269025.6、申请日为2018年10月29日、发明名称为“耳机装置、语音处理系统和语音处理方法”的中国发明专利申请的分案申请。
技术领域
本公开涉及耳机装置、语音处理系统和语音处理方法。
背景技术
随着通信技术的发展,包括无线双耳蓝牙耳机在内的各种智能耳机得到越来越多的关注,以无线双耳蓝牙耳机为例,其因双耳通话和双耳立体声音乐播放功能带给用户的良好听觉享受,而受到消费者的广泛欢迎。为了向用户提供更便利的使用体验,语音助手也开始应用于智能耳机。另外,带语音助手的智能耳机通常功耗较高,对于语音的识别也不够准确。
发明内容
提供了本公开以解决背景技术中存在的上述缺陷。需要一种耳机装置和语音处理方法,其能够以较低功耗准确地分析和识别语音。还需要一种语音处理系统,该语音处理系统能够将本公开的耳机装置和与其配合使用的终端(例如智能终端和/或云端)上的语音处理模块囊括在内,通过彼此之间的协作,进一步提高语音的分析准确度同时降低两者的功耗。
根据本公开的第一方案,提供一种耳机装置,其中,所述耳机装置包括:发声相关信号采集模块,其配置为采集与耳机装置的佩戴者发声相关联的信号;语音活性检测模块,其配置为接收来自发声相关信号检测模块的信号,并检测所接收的信号中是否存在语音;第一麦克,其配置为采集语音信号;以及关键字检测模块,其配置为:在所述语音活性检测模块检测到所接收的信号中存在语音的情况下,接收来自第一麦克的语音信号并基于所接收的语音信号执行关键字检测。
在一些实施例中,所述发声相关信号采集模块包括以下构件中的至少一种:加速度传感器,其配置为检测所述佩戴者发声引起的振动;以及第二麦克,其配置为采集声音信号。
在一些实施例中,所述耳机装置在所述关键字检测模块检测到关键字的情况下,将所接收的语音信号发送到终端。
在一些实施例中,所述发声相关信号采集模块为所述加速度传感器,所述第一麦克为具有存储器的数字麦克,且所述关键字检测模块被配置为:在所述语音活性检测模块检测到所接收的信号中存在语音的情况下,还从所述数字麦克接收在语音活性检测成功以前的预定时间段内的语音信号。
在一些实施例中,所述发声相关信号采集模块为所述第二麦克,所述第一麦克和所述第二麦克为同一个且均为模拟麦克;以及所述语音活性检测模块由模拟电路构成。
在一些实施例中,所述发声相关信号采集模块包括所述加速度传感器和所述第二麦克,所述第二麦克为模拟麦克;所述第一麦克与所述第二麦克为同一个。
在一些实施例中,所述关键字检测模块配置为:在所述语音活性检测模块检测到所接收的信号中存在语音的情况下,接收来自第一麦克的语音信号以及来自所述加速度传感器的振动信号两者,对两者进行融合,并对融合后的信号执行关键字检测。
根据本公开的第二方案,提供一种语音处理系统,其中,所述语音处理系统包括:根据本公开任何实施例的耳机装置;以及二次关键字检测模块,所述二次关键字检测模块安装在与所述耳机装置通信连接的所述终端上,且配置为:在所述关键字检测模块检测到关键字的情况下,根据来自所述耳机装置的语音信号再次进行关键字检测。
在一些实施例中,所述终端包括智能设备和与所述智能设备通信连接的云端,所述语音处理系统还包括语音识别模块,所述语音识别模块分布于所述云端,且所述语音识别模块配置为利用机器学习方法根据来自所述耳机装置的语音信号进行语音识别。
在一些实施例中,所述语音识别模块在所述关键字检测模块检测到关键字的情况下被启用,以便接收来自所述耳机装置的信号以据此再次进行关键字检测。
根据本公开的第三方案,提供一种语音处理方法,其中,所述语音处理方法包括如下步骤:采集与耳机装置的佩戴者发声相关联的信号;接收所采集的与耳机装置的佩戴者发声相关联的信号,并检测所接收的信号中是否存在语音;采集语音信号;以及在检测到所接收的信号中存在语音的情况下,接收所采集的语音信号并基于所接收的语音信号执行关键字检测。
在一些实施例中,基于所接收的语音信号执行关键字检测的步骤包括:利用耳机装置中的关键字检测模块,来检测是否存在关键字;在检测到存在关键字的情况下,利用与所述耳机装置通信连接的终端来核实所检测到的关键字。
在一些实施例中,所述终端对于关键字的检测能力强于所述耳机装置对于关键字的检测能力。
在一些实施例中,所述关键字以浊音和/或元音为起始音节。
在一些实施例中,所述终端包括智能设备和与所述智能设备通信连接的云端,所述语音处理方法还包括:在核实了所检测到的关键字之后,利用所述云端来进行语音识别。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出根据本公开实施例的耳机装置的示例性框图;
图2示出根据本公开实施例的语音处理系统的第一示例的示意图;
图3示出根据本公开实施例的语音处理系统的第二示例的示意图;
图4示出根据本公开实施例的语音处理系统的第三示例的示意图;以及
图5示出根据本公开实施例的语音处理方法的示例性流程图。
具体实施方式
为使本领域技术人员更好的理解本公开的技术方案,下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述,但不作为对本公开的限定。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。本公开使用的技术术语“模块”旨在表示实现相应功能的模拟电路、数字电路、程序模块中的相应一种,其采用模拟电路、数字电路、程序模块中的何种形式取决于该“模块”的应用场景和所要实现的相应功能。
本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
图1示出根据本公开实施例的耳机装置的示例性框图。如图1所示,所述耳机装置100包括:发声相关信号采集模块101,其配置为采集与耳机装置的佩戴者发声相关联的信号;语音活性检测(VAD)模块102,其配置为接收来自发声相关信号检测模块101的信号,并检测所接收的信号中是否存在语音;第一麦克103,其配置为采集语音信号;以及关键字检测模块104,其配置为:在所述VAD模块102检测到所接收的信号中存在语音的情况下,接收来自第一麦克103的语音信号并基于所接收的语音信号执行关键字检测。利用该耳机装置100,在执行关键字检测之前先进行VAD检测,而在进行VAD检测时,仅有发声相关信号采集模块101和VAD模块102在工作,关键字检测模块104可被关闭而无需工作,具体说来,关键字检测模块104无需从第一麦克103获取语音信号也无需基于所接收的语音信号执行关键字检测的各种消耗计算资源的算法,从而可以让耳机装置工作在低功耗模式下,以降低总体功耗。此外,通过在关键字检测模块104执行关键字检测之前先进行VAD检测,可以确保关键字检测模块104所接收且执行关键字检测的声音信号为包含语音的信号,避免将其计算资源消耗在非语音信号上;再者,鉴于关键字检测模块104的关键字检测算法适用于语音信号,能够进一步提高关键字检测的准确度,并避免将其应用于非语音信号所出现的错检(假阳性)情况。
在本文中,表述“与耳机装置的佩戴者发声相关联的信号”表示那些可以反映(表征)耳机装置的佩戴者的发声的信号,注意,该信号的时段中未必一定发生佩戴者的发声行为,而是,如果在该信号的时段中发生了佩戴者的发声行为,则该信号可以用于检测出佩戴者的发声(是否存在语音)。
在一些实施例中,与耳机装置100的佩戴者发声相关联的信号可以包括振动信号、语音信号和电学信号中的至少一种。相应地,在所述相关联的信号为振动信号的情况下,发声相关信号检测模块101可以包括用于检测振动的传感器,包括但不限于加速度传感器、位移传感器、速度传感器中的任何一种或数种。在本公开的一些实施例中,发声相关信号检测模块101可以包括振动传感器和第二麦克405(如下文中的图4所示)中的至少一种,所述第二麦克405可以配置为采集声音信号以供VAD模块102进行VAD检测。以加速度传感器作为振动传感器的示例,其可以布置为靠近耳道,从而灵敏地检测佩戴者发声所引起的振动。
在一些实施例中,所述耳机装置100可以与终端通信并与终端的语音分析软件(例如APP)协同工作。例如,在所述关键字检测模块104检测到关键字的情况下,耳机装置100才将所接收的语音信号发送到终端以进行进一步的语音分析,例如二次关键字检测。所述终端可以为智能设备或云端,所述智能设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备。现有的智能终端在为用户提供更多功能的同时,对计算速度、功耗和续航能力提出了更高的要求,而语音分析软件,尤其是利用包括神经网络在内的各种机器学习方法对语音进行识别的软件,所消耗的功率和计算资源均较大,通常在与智能设备通信连接的云端完成。在一些实施例中,语音识别软件可以存储在智能设备中但在与智能设备通信连接的云端完成语音识别的计算,或者,语音识别软件可以存储在云端且在云端完成语音识别的计算,这些情况都称为“语音识别模块(软件)分布于所述云端”,也就是语音识别经由云端的分布式计算来实现。通过在检测到关键字的情况下才启用终端的语音识别软件,可以降低终端在功率和计算资源上的消耗。
图1中的耳机装置100可以采用各种实施方式,如图2-图4中所示的语音处理系统中所采用的各种耳机装置200、300和400所例示的。
如图2所示,根据本公开的实施例的语音处理系统的第一示例可以包括耳机装置200和安装在终端206上的二次关键字检测模块205,所述耳机装置200可以包括加速度传感器201、具有存储器的数字麦克203、VAD检测模块202和关键字检测模块204,所述二次关键字检测模块205可以实现为安装在终端206上的应用程序,且被配置为在所述关键字检测模块204检测到关键字的情况下,根据来自所述耳机装置200的语音信号再次进行关键字检测。所述终端206可以为智能设备和/或云端,鉴于智能设备和云端都具有比耳机装置200计算能力更强的处理器,且可以通过联网来分享关键字检测的经验(例如参考数据、训练数据、参考表格等),所以该二次关键字检测模块205可以对关键字检测模块204的关键字检测结果进行核实和补充,从而得到更准确全面的关键字检测结果。
在一些实施例中,所述耳机装置200可以经由各种方式,包括但不限于无线连接(例如蓝牙(诸如低功耗蓝牙等)、近场通信等)、有线连接等,可通信地连接到所述终端206。
在一些实施例中,所述加速度传感器201可以放置在耳机中靠近耳道处,由此灵敏准确地检测佩带者发声引起的振动。所述数字麦克203具有存储器以便能够在其存储空间中保存(例如暂存)语音信号。在一些实施例中,数字麦克203可以持续采集声音信号,并在其存储空间中暂存当前时间以前(例如但不限于几百ms,根据具体需求来确定的)第一预定时间段内的声音数据。
由加速度传感器201检测到的振动信号传输给VAD检测模块202,一旦VAD模块202检测到耳机佩带者发声(VAD检测结果为“是”),则耳机装置200可以由关键字检测模块204,例如通过耳机装置200的主体的外部接口,从数字麦克203获取语音信号以进行关键字检测。因为数字麦克203具有存储器,因此关键字检测模块204能够从其获取到VAD检测成功前第二预定时间段内(例如几十到几百ms)的语音信号,所述第二预定时间段短于或等于所述第一预定时间段。这样,有利于关键字检测模块204得到完整的关键字相关语音,提高关键字检测的性能,包括降低检测中的虚警及漏检。在一些实施例中,可以预先设定关键字使其以声带振动幅度较大的浊音和/或元音为起始音节,如此,有利于加速度传感器201采集到更具鲁棒性的振动信号,也有利于VAD检测模块202更及时、容易且准确地检测耳机佩带者是否发声。
在一些实施例中,所述VAD检测模块202和关键字检测模块204可以采用多种实现方式,例如但不限于可以将程序存储在存储器上而该程序由处理器执行时实现相应的步骤。例如,所述处理器可以是诸如微处理器的至少一个通用处理设备。再例如,所述处理器也可以是诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等一个或更多个专用处理器。
在一些实施例中,所述VAD检测模块202和关键字检测模块204可以在耳机的芯片上实现(片上系统)。当在进行VAD检测时,仅有加速度传感器201、VAD检测模块202、数字麦克模块203在工作,其它的模块包括关键字检测模块204以及终端206上的包括二次关键字检测模块205的各种语音分析模块均被关闭,由此耳机芯片和所述终端206均工作在低功耗模式下,也并不从数字麦克203获取语音数据并做处理,进而节省了计算资源。
加速度传感器201所输出的主要是低频信号,比如频率在2KHz以下(甚至1KHz以下)的信号。虽然图2中没有示出,但在一些实施例中,在所述VAD检测模块202检测到所接收的信号中存在语音的情况下,可以接收加速度传感器201输出的振动信号和数字麦克203输出的语音数据并将两者互相融合,然而再对融合后的信号执行关键字检测。鉴于融合后的信号涵盖了更全面的频率分布,以此可以提高关键字检测的性能。进一步地,可以将检出关键字的融合后的信号传输给终端206。
在一些实施例中,关键字检测可以利用神经网络等机器学习方法来实现。在一些实施例中,终端206中的二次关键字检测模块205可以配置为利用机器学习方法来执行关键字检测。尤其在所述终端206采用云端的情况下,其可以与其他大量终端联网并共享关键字检测的学习网络的标注数据和训练成果,并且,终端206相较耳机装置200可以安装有计算能力较强的处理器,甚至可以通过云端服务器来获得更强的计算能力。在利用耳机装置200检测到关键字的情况下,可以将相关的信号发送给终端206,以利用二次关键字检测模块205再次做关键字检测,如果检测成功,则启用语音识别功能。如此,可以对利用耳机装置200中的关键字检测模块204检测到的关键字进行核实,核实后的关键字才被用于执行语音识别,以减少错检现象及避免计算资源消耗在错误的关键字上。
在一些实施例中,所述终端206可以包括智能设备和与所述智能设备通信连接的云端,所述语音处理系统还可以包括语音识别模块(图中未示出),所述语音识别模块分布于所述云端,且所述语音识别模块配置为利用机器学习方法根据来自所述耳机装置的语音信号进行语音识别。受益于在云端共享的关键字检测的学习网络的标注数据和训练成果以及分布式计算获得的更强的计算能力,能够迅速高效地完成语音识别。在一些实施例中,所述语音识别模块在所述二次关键字检测模块205检测到关键字的情况下被启用,且可以基于所述二次关键字检测模块205核实和/或检测到的关键字来进行语音识别。
图3示出根据本公开实施例的语音处理系统的第二示例的示意图。注意,图3中与图2中相似的构件及连接关系不再赘述。所述语音处理系统包括耳机装置300和安装在终端306上的二次关键字检测模块305,耳机装置300上的关键字检测模块304和终端306上的二次关键字检测模块305的协作方式可以参见上文中结合图2所述的各个实施例,在此不赘述。类似于图2中的终端206,所述终端306可以包括智能设备和与所述智能设备通信连接的云端,针对图2关于语音识别模块和云端的说明都适用于图3所示的实施例,在此不赘述。
如图3所示,所述耳机装置300包括模拟麦克301、VAD检测模块302、模数转换器及滤波器306和关键字检测模块304。利用模拟麦克301来采集声音信号作为发声相关信号,并传送给VAD检测模块302,以由VAD检测模块302进行VAD检测。在一些实施例中,VAD检测模块302可以利用模拟电路来实现,如此延时非常小,在几ms的量级以内。在一些实施例中,VAD检测模块302、模拟转换器(ADC)及滤波器306以及关键字检测模块304可以基于双耳芯片来实现,如此,在VAD检测阶段,ADC及滤波器306、双耳芯片上的数字电路、晶体时钟模块等都可以关闭,仅有模拟麦克301和VAD检测模块302工作,从而大大减少了VAD检测时的功耗。在VAD检测成功后,才开启ADC及滤波器306和关键字检测模块304等。如图3所示,在VAD检测模块302检出模拟麦克301采集的声音信号中存在语音后,同个模拟麦克301后续采集的语音信号被传输给ADC及滤波器306和关键字检测模块304以进行关键字检测。通过利用模拟电路来实现VAD检测模块302,其延时非常小,在几ms的量级以内,这样,在VAD检测成功后用于进行关键字检测和/或语音识别的由模拟麦克301后续提供的语音信号中,损失的语音数据很少,从而VAD检测步骤对于关键字检测和/或语音识别的影响非常小,确保能够准确地检测出关键字。
利用图3中所示的耳机装置300,模拟麦克301被复用为VAD检测模块302的信号来源和关键字检测模块304的信号来源,能够简化耳机装置300的内部构造,从而便利其小型化并降低其成本,进而有利于该耳机装置300的推广。此外,需要知道,虽然图3中,ADC及滤波器306和关键字检测模块304被示出为分立的构件,但这仅仅是示例,ADC及滤波器306也可以整合在关键字检测模块304中。
图4示出根据本公开实施例的语音处理系统的第三示例的示意图。所述语音处理系统包括耳机装置400和安装在终端406上的二次关键字检测模块405,耳机装置400上的关键字检测模块404和终端406上的二次关键字检测模块405的协作方式可以参见上文中结合图2和图3所述的各个实施例,在此不赘述。类似于图2中的终端206和图3中的终端306,所述终端406可以包括智能设备和与所述智能设备通信连接的云端,针对图2关于语音识别模块和云端的说明都适用于图4所示的实施例,在此不赘述。注意,下文中,图4中与图2和图3中相似的构件及连接关系不再赘述。
如图4所示,所述耳机装置400包括加速度传感器401、VAD检测模块402、模拟麦克403、模数转换器及滤波器407、模数转换器及滤波器406和关键字检测模块404。与图2和图3中所示的实施例不同之处在于,VAD检测模块402和关键字检测模块404均具有两个信号来源,一个是加速度传感器401,另一个是模拟麦克403。加速度传感器401被配置为检测和采集所述佩戴者发声引起的振动,而模拟麦克403被配置为采集声音信号。
在一些实施例中,加速度传感器401采集的振动信号和模拟麦克403所采集的声音信号可以作为发声相关信号被分别传送给VAD检测模块402,以由VAD检测模块402进行VAD检测。加速度传感器401所输出的主要是低频信号,比如频率在2KHz以下(甚至1KHz以下)的信号,与模拟麦克403所采集的声音信号一同可以覆盖更广的频率范围,从而使得VAD检测更准确。
在一些实施例中,可以将加速度传感器401采集的振动信号和模拟麦克403所采集的声音信号进行融合,由VAD检测模块402对融合信号进行VAD检测。在一些实施例中,也可以由VAD检测模块402对加速度传感器401采集的振动信号和模拟麦克403所采集的声音信号分别进行VAD检测,并将两者的VAD检测结果进行融合,包括但不限于彼此验证、彼此修正、互相补充等,以得到更全面准确的VAD检测结果。
在一些实施例中,VAD检测模块402、模拟转换器(ADC)及滤波器406和407以及关键字检测模块404可以基于双耳芯片来实现,如此,在VAD检测阶段,ADC及滤波器406和407、双耳芯片上的数字电路、晶体时钟模块等都可以关闭,仅有模拟麦克403和VAD检测模块402工作,从而大大减少了VAD检测时的功耗。在VAD检测成功后,才开启ADC及滤波器406和407和关键字检测模块404等。在一些实施例中,VAD检测模块402可以利用模拟电路来实现,如此延时非常小,在几ms的量级以内,且加速度传感器401可以通过模拟接口与耳机芯片连接,进而与VAD检测模块402等相连,从而实现较低的电路成本。
如图4所示,在VAD检测模块402检出模拟麦克403采集的声音信号或加速度传感器401采集的振动信号中存在语音后,加速度传感器401和模拟麦克403两者后续采集的振动信号和语音信号被分别传输给ADC及滤波器407和406,经过滤波处理后一同馈送给关键字检测模块404以进行关键字检测。通过利用模拟电路来实现VAD检测模块402,其延时非常小,在几ms的量级以内,这样,在VAD检测成功后用于进行关键字检测和/或语音识别的后续提供的振动信号和语音信号中,损失的语音数据很少,从而VAD检测步骤对于关键字检测和/或语音识别的影响非常小,确保能够准确地检测出关键字。
在一些实施例中,可以将加速度传感器401输出的振动信号和模拟麦克403输出的语音数据并将两者互相融合,然而再对融合后的信号执行关键字检测。鉴于融合后的信号涵盖了更全面的频率分布,以此可以提高关键字检测的性能。进一步地,可以将检出关键字的融合后的信号传输给终端406。
图5示出根据本公开实施例的语音处理方法的示例性流程图。如图5所示,所述语音处理方法始于采集与耳机装置的佩戴者发声相关联的信号(步骤501)以及采集语音信号(步骤502),注意,步骤501和步骤502并无顺序要求,可以先后执行,也可以持续同步执行。接着,接收所采集的与耳机装置的佩戴者发声相关联的信号(步骤503),并检测所接收的信号中是否存在语音(步骤504)。如果检测结果是所接收的信号中存在语音(“是”),接收所采集的语音信号并基于所接收的语音信号执行关键字检测(步骤505)。如果检测结果是所接收的信号中不存在语音(“否”),则返回步骤501。
虽然图1-图4中示出了可以执行图5所示的语音处理方法的耳机装置的各种示例,但所述语音处理方法未必在耳机装置中实现,而是也可以在其他需要以较低能耗进行关键字检测的智能装置中实现,例如,听力障碍人群的助听器、听力训练装置等等。
以所述语音处理方法应用于耳机装置为例,在一些实施例中,基于所接收的语音信号执行关键字检测的步骤可以包括:利用耳机装置中的关键字检测模块,来检测是否存在关键字;在检测到存在关键字的情况下,利用与所述耳机装置通信连接的终端来核实所检测到的关键字(例如关键字二次检测)。鉴于上文中结合图1-图4所述,终端对于关键字的检测能力可以强于所述耳机装置对于关键字的检测能力,这样能够提高关键字检测的准确度。
在一些实施例中,可以预先指定所述关键字以浊音和/或元音为起始音节。浊音和/或元音的声带振动幅度较大,如此,有利于采集到更具鲁棒性的振动信号,在将振动信号用于VAD检测的情况下,有利于更及时、容易且准确地检测耳机佩带者是否发声;进一步地,在将振动信号也用于关键字检测的情况下,有利于更及时、容易且准确地检测出关键字。
在一些实施例中,所述终端包括智能设备和与所述智能设备通信连接的云端,所述语音处理方法还包括:在核实了所检测到的关键字之后,利用所述云端来进行语音识别。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (15)
1.一种耳机装置,其特征在于,所述耳机装置包括:
发声相关信号采集模块,所述发声相关信号采集模块包括第二麦克,所述第二麦克为模拟麦克,其配置为采集与耳机装置的佩戴者发声相关联的信号;
语音活性检测模块,其配置为接收来自发声相关信号检测模块的信号,并检测所述第二麦克所采集的信号中是否存在语音,其中,所述第二麦克所采集的信号为模拟信号;
关键字检测模块,其配置为:在所述语音活性检测模块检测到所述第二麦克所采集的信号中存在语音的情况下开启;
ADC及滤波器,所述ADC及滤波器配置为:在所述语音活性检测模块检测到所述第二麦克所采集的信号中存在语音的情况下开启,并对所述第二麦克所采集的信号进行处理;
所述关键字检测模块进一步配置为:基于经由所述ADC及滤波器处理后的第二麦克所采集的信号执行关键字检测。
2.根据权利要求1所述的耳机装置,其特征在于,在所述语音活性检测模块检测到所述第二麦克所采集的信号中存在语音之前,所述ADC及滤波器不开启。
3.根据权利要求1所述的耳机装置,其特征在于,所述语音活性检测模块由模拟电路构成。
4.根据权利要求1所述的耳机装置,其特征在于,所述耳机装置在所述关键字检测模块检测到关键字的情况下,将所接收的语音信号发送到终端。
5.根据权利要求1所述的耳机装置,其特征在于,所述发声相关信号采集模块还包括加速度传感器,其配置为检测所述佩戴者发声引起的振动信号;
所述语音活性检测模块进一步配置为:基于所述加速度传感器所采集的振动信号和所述第二麦克所采集的信号融合后的信号进行语音活性检测。
6.根据权利要求5所述的耳机装置,其特征在于,所述加速度传感器通过模拟接口与所述语音活性检测模块相连。
7.根据权利要求5或6所述的耳机装置,其特征在于,
所述ADC及滤波器进一步配置为:在所述语音活性检测模块检测到存在语音的情况下,分别对所述第二麦克所采集的信号和所述加速度传感器所采集的振动信号进行处理;
所述关键字检测模块进一步配置为:在所述语音活性检测模块检测到所接收的信号中存在语音的情况下,接收经由所述ADC及滤波器处理后的第二麦克所采集的信号和所述加速度传感器所采集的振动信号两者,对两者进行融合,并对融合后的信号执行关键字检测。
8.一种语音处理系统,其特征在于,所述语音处理系统包括:
根据权利要求1-7中任一项所述的耳机装置;以及
二次关键字检测模块,所述二次关键字检测模块安装在与所述耳机装置通信连接的终端上,且配置为:在所述关键字检测模块检测到关键字的情况下,根据来自所述耳机装置的语音信号再次进行关键字检测。
9.根据权利要求8所述的语音处理系统,其特征在于,所述终端包括智能设备和与所述智能设备通信连接的云端,所述语音处理系统还包括语音识别模块,所述语音识别模块分布于所述云端,且所述语音识别模块配置为利用机器学习方法根据来自所述耳机装置的语音信号进行语音识别。
10.根据权利要求9所述的语音处理系统,其特征在于,所述语音识别模块在所述二次关键字检测模块检测到关键字的情况下被启用。
11.一种语音处理方法,其特征在于,所述语音处理方法包括如下步骤:
采集与耳机装置的佩戴者发声相关联的信号;
接收所采集的与耳机装置的佩戴者发声相关联的信号,并检测所接收的信号中是否存在语音;
在检测到所接收的信号中存在语音的情况下,
利用ADC及滤波器对所采集的信号进行处理;以及
基于经由ADC及滤波器处理后的信号执行关键字检测。
12.根据权利要求11所述的语音处理方法,其特征在于,基于所接收的语音信号执行关键字检测的步骤包括:
利用耳机装置中的关键字检测模块,来检测是否存在关键字;
在检测到存在关键字的情况下,利用与所述耳机装置通信连接的终端来核实所检测到的关键字。
13.根据权利要求12所述的语音处理方法,其特征在于,所述终端对于关键字的检测能力强于所述耳机装置对于关键字的检测能力。
14.根据权利要求11或12所述的语音处理方法,其特征在于,所述关键字以浊音和/或元音为起始音节。
15.根据权利要求12所述的语音处理方法,其特征在于,所述终端包括智能设备和与所述智能设备通信连接的云端,所述语音处理方法还包括:在核实了所检测到的关键字之后,利用所述云端来进行语音识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210322042.1A CN114882871A (zh) | 2018-10-29 | 2018-10-29 | 耳机装置、语音处理系统和语音处理方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811269025.6A CN109308900B (zh) | 2018-10-29 | 2018-10-29 | 耳机装置、语音处理系统和语音处理方法 |
CN202210322042.1A CN114882871A (zh) | 2018-10-29 | 2018-10-29 | 耳机装置、语音处理系统和语音处理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811269025.6A Division CN109308900B (zh) | 2018-10-29 | 2018-10-29 | 耳机装置、语音处理系统和语音处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114882871A true CN114882871A (zh) | 2022-08-09 |
Family
ID=65222230
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811269025.6A Active CN109308900B (zh) | 2018-10-29 | 2018-10-29 | 耳机装置、语音处理系统和语音处理方法 |
CN202210322042.1A Pending CN114882871A (zh) | 2018-10-29 | 2018-10-29 | 耳机装置、语音处理系统和语音处理方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811269025.6A Active CN109308900B (zh) | 2018-10-29 | 2018-10-29 | 耳机装置、语音处理系统和语音处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN109308900B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920451A (zh) * | 2019-03-18 | 2019-06-21 | 恒玄科技(上海)有限公司 | 语音活动检测方法、噪声抑制方法和噪声抑制系统 |
CN110234044A (zh) * | 2019-05-10 | 2019-09-13 | 万魔声学科技有限公司 | 一种语音唤醒方法、语音唤醒装置及耳机 |
CN110191387A (zh) * | 2019-05-31 | 2019-08-30 | 深圳市荣盛智能装备有限公司 | 耳机的自动启动控制方法、装置、电子设备及存储介质 |
CN110445931A (zh) * | 2019-08-01 | 2019-11-12 | 花豹科技有限公司 | 语音识别开启方法及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102680076B (zh) * | 2011-12-29 | 2014-04-02 | 华东师范大学 | 一种模拟人体声带振动装置及其实现方法 |
CN105379308B (zh) * | 2013-05-23 | 2019-06-25 | 美商楼氏电子有限公司 | 麦克风、麦克风系统及操作麦克风的方法 |
US9147397B2 (en) * | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
CN105845135A (zh) * | 2015-01-12 | 2016-08-10 | 芋头科技(杭州)有限公司 | 一种机器人系统的声音识别系统及方法 |
US9613626B2 (en) * | 2015-02-06 | 2017-04-04 | Fortemedia, Inc. | Audio device for recognizing key phrases and method thereof |
EP3185244B1 (en) * | 2015-12-22 | 2019-02-20 | Nxp B.V. | Voice activation system |
CN106210346B (zh) * | 2016-07-29 | 2019-02-15 | 维沃移动通信有限公司 | 一种视频通话信息处理方法及移动终端 |
CN108447506A (zh) * | 2018-03-06 | 2018-08-24 | 深圳市沃特沃德股份有限公司 | 语音处理方法和语音处理装置 |
-
2018
- 2018-10-29 CN CN201811269025.6A patent/CN109308900B/zh active Active
- 2018-10-29 CN CN202210322042.1A patent/CN114882871A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN109308900A (zh) | 2019-02-05 |
CN109308900B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308900B (zh) | 耳机装置、语音处理系统和语音处理方法 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
EP3751569B1 (en) | Multi-person voice separation method and apparatus | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN106714023B (zh) | 一种基于骨传导耳机的语音唤醒方法、系统及骨传导耳机 | |
US10629226B1 (en) | Acoustic signal processing with voice activity detector having processor in an idle state | |
CN106920548B (zh) | 语音控制装置、语音控制系统和语音控制方法 | |
CN104168353B (zh) | 蓝牙耳机及其语音交互控制方法 | |
CN110931000B (zh) | 语音识别的方法和装置 | |
EP3033140B1 (en) | Device for language processing enhancement in autism | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
CN112242149B (zh) | 音频数据的处理方法、装置、耳机及计算机可读存储介质 | |
CN111105796A (zh) | 无线耳机控制装置及控制方法、语音控制设置方法和系统 | |
CN110234044A (zh) | 一种语音唤醒方法、语音唤醒装置及耳机 | |
CN111491236A (zh) | 一种主动降噪耳机及其唤醒方法、装置及可读存储介质 | |
CN110910876A (zh) | 物品声寻装置及控制方法、语音控制设置方法和系统 | |
WO2022199405A1 (zh) | 一种语音控制方法和装置 | |
CN112735382B (zh) | 音频数据处理方法、装置、电子设备及可读存储介质 | |
CN112116908B (zh) | 唤醒音频确定方法、装置、设备及存储介质 | |
CN111326159B (zh) | 一种语音识别方法、装置、系统 | |
CN113039601B (zh) | 一种语音控制方法、装置、芯片、耳机及系统 | |
CN113889084A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN112188341B (zh) | 一种耳机唤醒方法、装置、耳机及介质 | |
CN112259077B (zh) | 语音识别方法、装置、终端和存储介质 | |
CN113129904A (zh) | 声纹判定方法、装置、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |