CN113782038A - 一种语音识别方法、装置、电子设备及存储介质 - Google Patents
一种语音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113782038A CN113782038A CN202111068191.1A CN202111068191A CN113782038A CN 113782038 A CN113782038 A CN 113782038A CN 202111068191 A CN202111068191 A CN 202111068191A CN 113782038 A CN113782038 A CN 113782038A
- Authority
- CN
- China
- Prior art keywords
- signal
- sound signal
- vibration signal
- sound
- vibration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 216
- 238000004590 computer program Methods 0.000 claims description 20
- 210000001260 vocal cord Anatomy 0.000 claims description 13
- 238000005314 correlation function Methods 0.000 claims description 11
- 230000008878 coupling Effects 0.000 description 16
- 238000010168 coupling process Methods 0.000 description 16
- 238000005859 coupling reaction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
Abstract
本发明实施例提供一种语音识别方法、装置、电子设备及存储介质,涉及语音识别领域,用以识别目标声源发出的声音信号,避免其他声源发出的声音信号对电子设备的误唤醒;该方法包括:确定声音信号和振动信号的相关度;根据所述相关度确定所述声音信号和振动信号是同一声源产生的;对所述声音信号进行语音识别。由于本发明实施例是在确定出声音信号与振动信号是同一声源产生的之后,才对声音信号进行识别,从而避免对非目标声源发出的声音信号的识别,提高了语音识别的准确性。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
目前,很多的智能手机等电子设备中都集成了语音唤醒和语音指令识别的功能,该功能可以给生活带来很多便利,不用繁杂的手部操作即可实现播放音乐、检索等等功能。并且,随着深度神经网络算法性能和电子设备算力的提升,电子设备中的唤醒和识别效果也得到了极大的提升,也获得了多数消费者的认可。
在现有技术中,电子设备是通过使用的是检测声压的麦克风采集到的声音信号,来实现语音唤醒和语音指令识别功能。然而,麦克风很容易受到周围噪声和干扰的影响,很容易出现对非用户本人产生的声音信号的误识别,使得语音识别的准确率较低。
发明内容
本发明实施例提供一种语音识别方法、装置、电子设备及存储介质,本发明实施例提供的语音识别方法,通过确定声音信号和振动信号为同一声源产生的对声音信号进行识别,从而避免对非目标声源发出的声音信号的识别,提高了语音识别的准确性。
第一方面,本发明实施例提供一种语音识别方法,所述方法包括:确定声音信号和振动信号的相关度;根据所述相关度确定所述声音信号和振动信号是同一声源产生的;对所述声音信号进行语音识别。
由于本发明实施例是在确定出声音信号和振动信号为同一声源产生的之后,对声音信号进行识别,从而避免对非目标声源发出的声音信号的识别,提高了语音识别的准确性。
一种可选的实施方式中,所述振动信号是声带振动信号。
由于振动信号是声带振动信号,可根据确定出的声音信号和振动信号为同一声源产生的,确定声音信号为目标声源发出的声音信号,从而提高了语音识别的准确性,以及保证了电子设备进行识别的声音信号的唯一性。
一种可选的实施方式中,所述振动信号是通过与指定体表部位接触的皮肤振动传感器采集的。
由于本发明实施例在确定声音信号与振动信号的相关度之后,基于相关度的高低确定声音信号和振动信号是否为同一声源产生的,避免了对非目标声源发出的声音信号的识别,从而提高了语音识别的准确性。
一种可选的实施方式中,确定声音信号和振动信号的相关度,包括:将所述声音信号和所述振动信号均输入信号相关函数,得到所述声音信号与所述振动信号的相关度。
一种可选的实施方式为,根据所述相关度确定所述声音信号和振动信号是同一声源产生的,包括:根据所述相关度大于设定阈值确定所述声音信号和所述振动信号是同一声源产生的;或者,根据所述相关度大于动态阈值确定所述声音信号和所述振动信号是同一声源产生的;所述动态阈值是每经过设定时间段,基于已经过的且最新的所述设定时间段内确定的声音信号与振动信号的相关度的平均值进行更新的。
本发明实施例中的相关度大于设定阈值或者动态阈值时,确定声音信号和振动信号的相似度较高,进而确定声音信号与振动信号是同一声源产生的,保证后续进行识别的声音信号的唯一性。
在一些实施方式中,在确定声音信号和振动信号的相关度之前,还包括:确定所述声音信号和所述振动信号是同一时段接收的。
本发明实施例中,在确定声音信号和振动信号的相关度之前,先确定声音信号和振动信号是不是同一时段接收的,如果二者是同一时段接收的,则说明该声音信号和振动信号有可能是同一个声源产生的,如果二者不是同一时段接收的,则说明二者不是一个声源产生的,则无需对语音信号识别,可以节省算力,提高语音识别效率。
第二方面,本发明实施例提供一种电子设备,包括存储器和处理器;所述存储器上存储有可在所述处理器上运行的计算机程序;所述处理器,用于运行所述计算机程序,以执行如上述第一方面所述的语音识别方法。
一种可选的实施方式中,还包括麦克风和通信模块;所述麦克风,用于采集声音信号;所述通信模块,用于接收所述振动信号;所述振动信号是通过与指定体表部位接触的皮肤振动传感器采集并发送的。
第三方面,本发明实施例提供一种语音识别装置,所述装置包括:确定单元,用于包括第一确定子单元和第二确定子单元,其中,第一确定子单元用于确定声音信号和振动信号的相关度;第二确定子单元用于根据所述相关度确定所述声音信号和所述振动信号是同一声源产生的;识别单元,用于对所述声音信号进行语音识别。
一种可选的实施方式中,所述振动信号是声带振动信号。
一种可选的实施方式中,所述振动信号是通过与指定体表部位接触的皮肤振动传感器采集的。
一种可选的实施方式中,第一确定子单元用于:将所述声音信号和所述振动信号均输入信号相关函数,得到所述声音信号与所述振动信号的相关度。
一种可选的实施方式中,第二确定子单元用于:根据所述相关度大于设定阈值确定所述声音信号和所述振动信号是同一声源产生的;或者,根据所述相关度大于动态阈值确定所述声音信号和所述振动信号是同一声源产生的;所述动态阈值是每经过设定时间段,基于已经过的且最新的所述设定时间段内确定的声音信号与振动信号的相关度的平均值进行更新的。
一种可选的实施方式中,第一确定子单元用于在确定所述声音信号和所述振动信号的相关度之前,确定所述声音信号和所述振动信号是同一时段接收的。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面中任意一种语音识别方法的步骤。
第二方面至第四方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音识别方法应用场景示意图;
图2为本发明实施例提供的一种语音识别方法的流程示意图;
图3为本发明实施例提供的一种语音识别方法的完整流程示意图;
图4为本发明实施例提供的一种电子设备的结构框图;
图5为本发明实施例提供的另一种电子设备的结构框图;
图6为本发明实施例提供的一种语音识别装置的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
下面对文中出现的一些术语进行解释:
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
再详细论述本发明的方案之前,先简单介绍一下与本发明相关的现有技术。
在一些现有技术中,电子设备是通过使用的是检测声压的麦克风采集到的声音信号,来实现语音唤醒和识别功能。然而,麦克风很容易受到周围噪声和干扰的影响,很容易出现对非用户产生的声音信号的误识别,导致对电子设备的误唤醒,因此,上述方法无法识别声音信号对应的用户身份。
基于上述问题,本发明实施例提供了一种语音识别方法、装置、电子设备及存储介质。该语音识别方法可以应用于智能设备,例如,智能手机。
如图1所示,本发明实施例提供一种语音识别方法的应用场景示意图,包括电子设备100、皮肤振动传感器200;电子设备100与皮肤振动传感器200通信连接,可选的,电子设备100与皮肤振动传感器200可以通过无线方式连接。
其中,电子设备100可以为手机、音箱、掌上电脑(Personal Digital Assistant,PDA)、计算机、笔记本、平板电脑、智能冰箱、智能空调等。
皮肤振动传感器200与用户的指定体表部位接触,指定的体表部位例如是脖颈,并通过皮肤振动传感器200采集用户皮肤和声带产生的振动信号。皮肤振动传感器200将采集到的振动信号发送给电子设备100。电子设备100接收皮肤振动传感器设备200发送的振动信号;并且,电子设备100通过麦克风采集声音信号。
电子设备100在产生振动信号和声音信号后,确定声音信号和振动信号的相关度,并根据相关度确定声音信号和振动信号是同一声源产生的后,对声音信号进行语音识别。
电子设备100在确定声音信号和振动信号是同一声源产生的对声音信号进行语音识别得到语音指令,可以在识别得到语音指令后执行得到的语音指令。
在一些实施例中,皮肤振动传感器200也可以是电子设备100的一部分。
如图2所示,本发明实施例提供一种语音识别方法,应用于电子设备,包括以下步骤:
步骤S201,确定声音信号与振动信号的相关度。
需要说明的是,振动信号是声带振动信号。具体地,振动信号是由目标声源产生的声带振动信号。目标声源可以为电子设备的用户。
在一些实施例中,本发明实施例可通过麦克风采集声音信号,其中,麦克风可以位于电子设备内部作为电子设备的硬件设备,也可以为与电子设备配套的外接设备。
在一些实施例中,本发明实施例中的振动信号是通过与目标源的指定体表部位接触的皮肤振动传感器采集的。
需要说明的是,皮肤振动传感器可以与电子设备通过无线方式连接。并且,目标源的指定体表部位可以为脖颈。
具体实施中,本发明实施例通过位于目标源脖颈处的皮肤振动传感器,采集用户的声带振动产生的振动信号,并将采集振动信号发送给电子设备。
在一些实施例中,本发明实施例在接收到振动信号和产生声音信号后,先确定声音信号和振动信号是同一时段产生的,然后再确定声音信号与振动信号的相关度。
具体实施例中,本发明实施例确定声音信号和振动信号是同一时段产生的,包括:确定接收到振动信号和产生声音信号的时间差在预设的时间范围内。
可以理解的是,同一声源产生的声音信号相比于振动信号略有延迟,若是振动信号产生的声音信号早于声音信号的时间在预设的时间范围内,则可以确定声音信号和振动信号是同一时段产生的,然后再确定声音信号与振动信号是否为同一声源产生的;若振动信号产生的时间不早于声音信号产生的时间,或者若振动信号产生的时间早于声音信号产生的时间不在预设的时间范围内,则确定声音信号和振动信号不是同一时段产生的,对声音信号和振动信号不作处理,保持当前状态。
可选的,上述具体的实施例中,预设的时间范围例如是0-100ms。
具体实施例中,若电子设备在收集到声音信号后,并未在同一时间段接收到振动信号,则对收集的声音信号不作处理,保持当前状态,换句话说,电子设备收集到声音信号后,如果没有在同一时间段接收到振动信号则不对声音信号进行语音识别。
在另一些实施例中,若本发明实施例在接收到振动信号后,并未在同一时间段收集到声音信号,则对接收到的振动信号不作处理,保持当前状态。
步骤S202,根据相关度确定声音信号和振动信号是同一声源产生的。
在一些实施例中,本发明实施例在在确定声音信号和振动信号是同一时段产生的后,确定声音信号和振动信号的相关度;并根据相关度确定声音信号和振动信号是同一声源产生的。
需要说明的是,声音信号与振动信号的相关度,表示声音信号与振动信号的相似度;相关度越高表示声音信号与振动信号的相似度就越高,则声音信号与振动信号为同一声源产生的可能性越高。
步骤S203,对声音信号进行语音识别。
由于本发明实施例在确定声音信号和振动信号是同一声源产生的后,对声音信号进行识别,从而避免对非目标声源发出的声音信号的识别,提高了语音识别的准确性。
在一些实施例中,若电子设备采集的声音信号和电子设备接收的振动信号是在同一时间段产生的,则确定声音信号和振动信号的相关度。
具体实施中,本发明实施例可通过下列方式确定声音信号和振动信号的相关度。
在一些实施例中,本发明实施例可基于信号相关函数,得到声音信号与振动信号的相关度。
具体实施中,本发明实施例将接收到的声音信号和振动信号均输入到信号相关函数中,基于信号相关函数,得到声音信号与振动信号的相关度。
在一些实施例中,本发明实施例中的信号相关函数为:
其中,X表示声音信号;Y表示振动信号;D(X)表示声音信号的方差;D(Y)表示振动信号的方差;COV(X,Y)表示声音信号和振动信号的协方差,σxy表示声音信号和振动信号的协方差;σx表示声音信号的标准差;σy表示振动信号的标准差;ρxy表示声音信号与振动信号的相关度,|ρxy|≤1。当相关度ρxy=0时,声音信号X与振动信号Y不相关;当相关度ρxy的值越大,声音信号X与振动信号Y的相关性越高。
在另一些实施例中,本发明实施例可通过将声音信号和振动信号进行耦合,得到相关度。
需要说明的是,耦合方式可以为卷积耦合,本发明实施例不作限制。
在一些实施例中,本发明实施例可通过将声音信号和振动信号卷积操作,得到卷积耦合结果;并将得到的卷积耦合结果作为声音信号与振动信号的相关度。
具体实施中,本发明实施例通过将声音信号和振动信号输入到卷积函数中,将得到的卷积结果作为声音信号与振动信号的相关度。
在一些实施例中,电子设备通过耦合电路将声音信号和振动信号进行耦合,并将得到的耦合结果作为声音信号与振动信号的相关度。
实施中,本发明实施例中的电子设备中的处理器将接收到的声音信号和振动信号发送给耦合电路,对声音信号和振动信号进行耦合操作,输出耦合结果;并且耦合电路将得到的耦合结果输出给处理器。
在一些实施例中,本发明实施例通过对声音信号和振动信号进行耦合,得到耦合结果,并且,耦合结果能够反映声音信号和振动信号的同源性。
本发明实施例中的相关度越高,声音信号和振动信号的同源性的值越高,进而声音信号和振动信号为同一声源产生的可能性越高。
在一些实施例中,本发明实施例在确定出声音信号和振动信号的相关度后,根据相关度确定声音信号与振动信号是同一声源产生的。
具体地,本发明实施例可通过下列方式确定声音信号与振动信号是同一声源产生的。
在一些实施例中,本发明实施例根据相关度大于设定阈值确定声音信号与振动信号是同一声源产生的。
在另一些实施例中,本发明实施例根据相关度大于动态阈值确定声音信号与振动信号是同一声源产生的。
需要说明的是,本发明实施例中的动态阈值是每经过设定时间段,基于已经过的且最新的设定时间段内确定的声音信号与振动信号的相关度的平均值进行更新的。
具体实施中,本发明实施例每经过设定时间段,确定在已经过的且最新的设定时间段内的声音信号与振动信号的相关度的平均值,将该平均值作为最新的动态阈值。
例如,设定时间段为30分钟,本发明实施例设定时间段30分钟内,同时接收到声音信号和振动信号5次,每次都确定同一时段产生的声音信号和振动信号的相关度;本发明实施例在经过30分钟后,确定在已经过的且最新的设定时间段内确定出的5个相关度分别为0.5、0.6、0.8、0.7、0.6;则在已经过的且最新的设定时间段内确定出的相关度的平均值为0.64,然后,将动态阈值更换为0.64。
在一些实施例中,同一时段产生的声音信号和振动信号中,同一时段可以理解为声音信号的起始时间点与振动信号的起始时间点相差不超过100ms。
在另一些实施例中,若本发明实施例在经过设定时间段后,确定在经过的设定时间段内未同时产生声音信号和振动信号,则确定在设定时间段内确定出相关度的数量为0,则不更新动态阈值。
在一些实施例中,本发明实施例在确定声音信号和振动信号的相关度大于设定阈值或动态阈值后,确定声音信号与振动信号是同一声源产生的。
具体实施中,本发明实施例根据同时段产生的声音信号和振动信号的相关度能够确定该声音信号和振动信号为同一声源产生的,若是同一声源产生的,则对声音信号进行识别,从而避免对其他声源产生的声音信号识别,提高了语音识别的准确性。
在一些实施例中,本发明实施例在确定声音信号和振动信号是同一声源产生的后,可通过下列方式对声音信号进行语音识别。
在一些实施例中,本发明实施例通过前端信号处理算法对声音信号进行信号处理,得到增强后的声音信号;对增强后的声音信号进行语音识别。
具体实施中,本发明实施例通过过滤声音信号中携带的噪声和干扰,并通过信号增强处理,得到增强后的声音信号。
本发明实施例通过前端信号处理算法得到的增强后的声音信号,并将增强后的声音信号输出给识别算法,通过识别算法对增强后的声音信号进行识别,从而得到声音信号中包含的语音指令。
具体实施中,本发明实施例通过识别算法对声音信号进行特征提取,并识别提取出的特征,确定声音信号中包含的语音指令。
在一些实施例中,本发明实施例在得到声音信号中包含的语音指令后,使电子设备执行该语音指令。
如图3所示,本发明实施例提供一种语音识别方法,应用于电子设备,包括以下步骤:
步骤S301,收集声音信号。
步骤S302,接收振动信号,振动信号是皮肤振动传感器采集的。
需要说明的是,振动信号为用户的声带振动所产生的信号;皮肤振动传感器可以与电子设备通过无线方式连接。
具体实施中,皮肤振动传感器通过与用户的指定体表部位接触,采集用户的声带振动所产生的振动信号;皮肤振动传感器将采集到的振动信号发送给电子设备。
需要说明的是,步骤S301与步骤S302的执行顺序不分先后。
步骤S303,确定声音信号和振动信号在同一时间段产生的,其中声音信号是电子设备的麦克风采集的;可选的,若声音信号和振动信号不是同一时间段产生的,则执行步骤S309。
在一种可选的实施例中,可以通过确定收集的声音信号和接收的振动信号相差的时间不超过100ms,来确定声音信号和振动信号是否在同一时间段产生的。
在一些实施例中,本发明实施例在产生声音信号和振动信号后,确定声音信号的收集时间,以及振动信号的接收时间,并得到声音信号与振动信号的产生时间差。
在一种实施例中,若本发明实施例确定声音信号与振动信号的产生时间差小于或等于预设时间阈值,则确定在同一时间段内产生声音信号和振动信号。
在另一种实施例中,若本发明实施例确定声音信号与振动信号的产生时间差大于预设时间阈值,则确定未在同一时间段内产生声音信号和振动信号。
步骤S304,确定声音信号与振动信号的相关度。
需要说明的是,本发明实施例可通过下列方式确定声音信号与振动信号的相关度:
将声音信号和振动信号均输入信号相关函数,得到声音信号与振动信号的相关度;或者,
将声音信号和振动信号进行耦合,得到相关度。
步骤S305,确定声音信号与振动信号为同一声源产生的;可选的,若声音信号和振动信号不是同一声源产生的,则执行步骤S309。
具体实施中,本发明实施例可通过下列方式确定声音信号与振动信号为同一声源产生的:
根据相关度大于设定阈值确定声音信号与振动信号为同一声源产生的;或者,
根据相关度大于动态阈值确定声音信号与振动信号为同一声源产生的。
其中,动态阈值是每经过设定时间段,基于已经过的且最新的设定时间段内确定的声音信号与振动信号的相关度的平均值进行更新的。
步骤S306,通过前端信号处理算法对声音信号进行信号增强,得到增强后的声音信号;
步骤S307,通过识别算法,对增强后的声音信号进行识别,得到语音指令。
步骤S308,执行识别得到的语音指令。
步骤S309,结束。
基于同一发明构思,本发明实施例中还提供了一种电子设备,如图1中的电子设备100。由于该设备解决问题的原理与本发明实施例语音识别方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,本发明实施例提供一种电子设备,包括存储器401和处理器402;
存储器401上存储有在处理器402上运行的计算机程序;
处理器402,用于运行计算机程序,以执行如下步骤:确定声音信号与振动信号的相关度;根据相关度确定声音信号和振动信号是同一声源产生的;对声音信号进行语音识别。
一种可选的实施方式为,振动信号是声带振动信号。
一种可选的实施方式为,还包括麦克风403和通信模块404;麦克风403,用于采集声音信号;通信模块404,用于接收振动信号。
需要说明的是,电子设备的通信模块可以为蓝牙模块,还可以为射频模块。
一种可选的实施方式为,振动信号是通过与指定体表部位接触的皮肤振动传感器采集的。
一种可选的实施方式为,处理器402具体用于:将声音信号和振动信号均输入信号相关函数,得到声音信号与振动信号的相关度。
一种可选的实施方式为,处理器402具体用于:根据相关度大于设定阈值确定声音信号和振动信号是同一声源产生的;或者,根据相关度大于动态阈值确定声音信号和振动信号是同一声源产生的;动态阈值是每经过设定时间段,基于已经过的且最新的设定时间段内确定的声音信号与振动信号的相关度的平均值进行更新的。
一种可选的实施方式为,确定声音信号和振动信号的相关度之前,处理器402还用于:确定声音信号和振动信号是同一时段产生的。
在另一些实施例中,如图5所示,本发明实施例还提供一种电子设备;该电子设备可以为电子设备,例如手机。图5示出了电子设备100的结构示意图。
下面以电子设备100为例对实施例进行具体说明。应该理解的是,图5所示电子设备100仅是一个范例,并且电子设备100可以具有比图5中所示的更多的或者更少的部件,可以组合两个或多个的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
图5中示例性示出了根据示例性实施例中电子设备100的硬件配置框图。如图5所示,电子设备100包括:射频(radio frequency,RF)电路110、存储器120、显示单元130、摄像头140、传感器150、音频电路160、无线(Wireless Fidelity,Wi-Fi)模块170、处理器180、通信模块181、以及电源190等部件。
RF电路110可用于在收发信息或通话过程中信号的接收和发送,可以接收基站的下行数据后交给处理器180处理;可以将上行数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。
存储器120可用于存储软件程序及数据。处理器180通过运行存储在存储器120的软件程序或数据,从而执行电子设备100的各种功能以及数据处理。存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器120存储有使得电子设备100能运行的操作系统。本发明中存储器120可以存储操作系统及各种应用程序,还可以存储执行本发明实施例所述方法的代码。
显示单元130可用于接收输入的数字或字符信息,产生与电子设备100的用户设置以及功能控制有关的信号输入,具体地,显示单元130可以包括设置在电子设备100正面的触摸屏131,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
显示单元130还可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单的图形用户界面(graphical user interface,GUI)。具体地,显示单元130可以包括设置在电子设备100正面的显示屏132。
其中,触摸屏131可以覆盖在显示屏132之上,也可以将触摸屏131与显示屏132集成而实现电子设备100的输入和输出功能,集成后可以简称触摸显示屏。本发明中显示单元130可以显示应用程序以及对应的操作步骤。
摄像头140可用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器180转换成数字图像信号。
电子设备100还可以包括至少一种传感器150,比如加速度传感器151、距离传感器152、指纹传感器153、温度传感器154。电子设备100还可配置有皮肤振动传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。本发明可通过皮肤震动传感器采集用户声带振动产生的振动信号。
音频电路160、扬声器161、麦克风162可提供用户与电子设备100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出。电子设备100还可配置音量按钮,用于调节声音信号的音量。另一方面,麦克风162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出至RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。本发明中麦克风162可以采集用户的声音信号。
Wi-Fi属于短距离无线传输技术,电子设备100可以通过Wi-Fi模块170帮助用户收发电子邮件、浏览网页和访问流媒体等,它为用户提供了无线的宽带互联网访问。
处理器180是电子设备100的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的软件程序,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。在一些实施例中,处理器180可包括一个或多个处理单元;处理器180还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器180中。本发明中处理器180可以运行操作系统、应用程序、用户界面显示及触控响应,以及本发明实施例所述的处理方法。另外,处理器180与显示单元130耦接。
通信模块181,用于通过通信协议来与其他具有通信模块的通信设备进行信息交互。例如,电子设备100可以通过通信模块181与同样具备通信模块的可穿戴电子设备(例如智能手表)建立连接,从而进行数据交互。其中,通信模块181可以为蓝牙模块或射频模块。
电子设备100还包括给各个部件供电的电源190(比如电池)。电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电以及功耗等功能。电子设备100还可配置有电源按钮,用于电子设备的开机和关机,以及锁屏等功能。
基于同一发明构思,本发明实施例中还提供了一种语音识别装置,由于该装置解决问题的原理与本发明实施例语音识别方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图6所示,本发明实施例提供一种语音识别装置,包括:确定单元601,包括第一确定子单元6011和第二确定子单元6012,其中,第一确定子单元6011用于确定声音信号和振动信号的相关度;第二确定子单元6012用于根据相关确定声音信号和振动信号是同一声源产生的;识别单元602,用于对声音信号进行语音识别。
一种可选的实施方式为,振动信号是声带振动信号。
一种可选的实施方式为,振动信号是通过与指定体表部位接触的皮肤振动传感器采集的。
一种可选的实施方式为,第一确定子单元6011具体用于:将声音信号和振动信号均输入信号相关函数,得到声音信号与所述振动信号的相关度。
一种可选的实施方式为,第二确定子单元6012具体用于:根据相关度大于设定阈值确定声音信号和振动信号是同一声源产生的;或者,根据相关度大于动态阈值确定声音信号和振动信号是同一声源产生的;动态阈值是每经过设定时间段,基于已经过的且最新的设定时间段内确定出的声音信号与振动信号的相关度的平均值进行更新的。
一种可选的实施方式中,第一确定子单元6011具体用于:在确定声音信号和振动信号的相关度之前,确定声音信号和振动信号是同一时段产生的。
本发明实施例还提供一种计算机可存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
确定声音信号和振动信号的相关度;
根据所述相关度确定所述声音信号和所述振动信号是同一声源产生的;
对所述声音信号进行语音识别。
2.根据权利要求1所述的方法,其特征在于,所述振动信号是声带振动信号。
3.根据权利要求1所述的方法,其特征在于,所述振动信号是通过与指定体表部位接触的皮肤振动传感器采集的。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述确定声音信号和振动信号的相关度,包括:
将所述声音信号和所述振动信号均输入信号相关函数,得到所述声音信号与所述振动信号的相关度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述相关度确定所述声音信号和所述振动信号是同一声源产生的,包括:
根据所述相关度大于设定阈值确定所述声音信号和所述振动信号是同一声源产生的;或者,
根据所述相关度大于动态阈值确定所述声音信号和所述振动信号是同一声源产生的;所述动态阈值是每经过设定时间段,基于已经过的且最新的所述设定时间段内确定的声音信号与振动信号的相关度的平均值进行更新的。
6.根据权利要求1-3任一项所述的方法,其特征在于,在确定声音信号和振动信号的相关度之前,还包括:确定所述声音信号和所述振动信号是同一时段产生的。
7.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器上存储有在所述处理器上运行的计算机程序;
所述处理器,用于运行所述计算机程序,以执行如权利要求1~6任一项所述的语音识别方法。
8.一种语音识别装置,其特征在于,包括:
确定单元,包括第一确定子单元和第二确定子单元,其中,第一确定子单元用于确定声音信号和振动信号的相关度;第二确定子单元用于根据所述相关度确定所述声音信号和所述振动信号是同一声源产生的;
识别单元,用于对所述声音信号进行语音识别。
9.根据权利要求8所述的语音识别装置,其特征在于,所述第一确定子单元,用于将所述声音信号和所述振动信号均输入信号相关函数,得到所述声音信号与所述振动信号的相关度。
10.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111068191.1A CN113782038A (zh) | 2021-09-13 | 2021-09-13 | 一种语音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111068191.1A CN113782038A (zh) | 2021-09-13 | 2021-09-13 | 一种语音识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113782038A true CN113782038A (zh) | 2021-12-10 |
Family
ID=78843030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111068191.1A Pending CN113782038A (zh) | 2021-09-13 | 2021-09-13 | 一种语音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782038A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006119377A (ja) * | 2004-10-21 | 2006-05-11 | Canon Electronics Inc | 音声入力装置及び方法、並びにプログラム及び記憶媒体 |
JP2010217453A (ja) * | 2009-03-16 | 2010-09-30 | Fujitsu Ltd | 音声認識用マイクロホンシステム |
CN102025531A (zh) * | 2010-08-16 | 2011-04-20 | 北京亿阳信通软件研究院有限公司 | 一种性能数据的填补方法及其装置 |
CN103837850A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种功能核磁共振成像时间序列二次修正的时间自相关方法 |
US20160351192A1 (en) * | 2015-05-28 | 2016-12-01 | Shenzhen Sigma Microelectronics Co., Ltd. | Voice Recognition Device, Voice Control System And Voice Communication System |
CN108533303A (zh) * | 2018-04-09 | 2018-09-14 | 中国矿业大学 | 一种基于声带振动测量的液压支架语音控制系统及方法 |
CN109690686A (zh) * | 2017-04-23 | 2019-04-26 | 奥康科技有限公司 | 用于分析图像的可穿戴装置和方法 |
CN110248281A (zh) * | 2018-03-07 | 2019-09-17 | 四川语文通科技有限责任公司 | 在有干扰的环境中独立出自己发声的方法之声带振动匹配 |
CN110265036A (zh) * | 2019-06-06 | 2019-09-20 | 湖南国声声学科技股份有限公司 | 语音唤醒方法、系统、电子设备及计算机可读存储介质 |
CN111475206A (zh) * | 2019-01-04 | 2020-07-31 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
CN112334977A (zh) * | 2018-08-14 | 2021-02-05 | 华为技术有限公司 | 一种语音识别方法、可穿戴设备及系统 |
KR102225288B1 (ko) * | 2019-09-09 | 2021-03-10 | 공효원 | 빅데이터 기반 성대진동패턴의 비교분석을 이용한 발성 가이던스 서비스 제공 방법 |
-
2021
- 2021-09-13 CN CN202111068191.1A patent/CN113782038A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006119377A (ja) * | 2004-10-21 | 2006-05-11 | Canon Electronics Inc | 音声入力装置及び方法、並びにプログラム及び記憶媒体 |
JP2010217453A (ja) * | 2009-03-16 | 2010-09-30 | Fujitsu Ltd | 音声認識用マイクロホンシステム |
CN102025531A (zh) * | 2010-08-16 | 2011-04-20 | 北京亿阳信通软件研究院有限公司 | 一种性能数据的填补方法及其装置 |
CN103837850A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种功能核磁共振成像时间序列二次修正的时间自相关方法 |
US20160351192A1 (en) * | 2015-05-28 | 2016-12-01 | Shenzhen Sigma Microelectronics Co., Ltd. | Voice Recognition Device, Voice Control System And Voice Communication System |
CN109690686A (zh) * | 2017-04-23 | 2019-04-26 | 奥康科技有限公司 | 用于分析图像的可穿戴装置和方法 |
CN110248281A (zh) * | 2018-03-07 | 2019-09-17 | 四川语文通科技有限责任公司 | 在有干扰的环境中独立出自己发声的方法之声带振动匹配 |
CN108533303A (zh) * | 2018-04-09 | 2018-09-14 | 中国矿业大学 | 一种基于声带振动测量的液压支架语音控制系统及方法 |
CN112334977A (zh) * | 2018-08-14 | 2021-02-05 | 华为技术有限公司 | 一种语音识别方法、可穿戴设备及系统 |
CN111475206A (zh) * | 2019-01-04 | 2020-07-31 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
CN110265036A (zh) * | 2019-06-06 | 2019-09-20 | 湖南国声声学科技股份有限公司 | 语音唤醒方法、系统、电子设备及计算机可读存储介质 |
KR102225288B1 (ko) * | 2019-09-09 | 2021-03-10 | 공효원 | 빅데이터 기반 성대진동패턴의 비교분석을 이용한 발성 가이던스 서비스 제공 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3847543B1 (en) | Method for controlling plurality of voice recognizing devices and electronic device supporting the same | |
WO2021013137A1 (zh) | 一种语音唤醒方法及电子设备 | |
CN110413134B (zh) | 佩戴状态检测方法及相关设备 | |
US11074466B2 (en) | Anti-counterfeiting processing method and related products | |
CN113489830B (zh) | 电子设备 | |
CN109561420B (zh) | 一种紧急求救的方法及相关设备 | |
CN105071473B (zh) | Usb充电方法及装置 | |
CN108427873B (zh) | 一种生物特征识别方法及移动终端 | |
CN111027490B (zh) | 人脸属性识别方法及装置、存储介质 | |
CN108388340B (zh) | 电子设备控制方法及相关产品 | |
US11636867B2 (en) | Electronic device supporting improved speech recognition | |
CN112334860A (zh) | 一种可穿戴设备的触控方法、可穿戴设备及系统 | |
CN112230877A (zh) | 一种语音操作方法、装置、存储介质及电子设备 | |
CN114067776A (zh) | 电子设备及其音频降噪方法和介质 | |
CN111464690B (zh) | 一种应用的预加载方法、电子设备、芯片系统及可读存储介质 | |
CN115187824A (zh) | 一种模型训练方法、场景识别方法及相关设备 | |
CN106055958B (zh) | 一种解锁方法及装置 | |
CN109165546B (zh) | 人脸识别方法及装置 | |
CN111191018B (zh) | 对话系统的应答方法和装置、电子设备、智能设备 | |
CN111711472A (zh) | Nfc装置输出信号控制方法及终端设备、介质和电子设备 | |
CN113782038A (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN114780029B (zh) | 器件识别方法和相关装置 | |
US20200244750A1 (en) | System for processing user data and controlling method thereof | |
CN115393676A (zh) | 手势控制优化方法、装置、终端和存储介质 | |
CN115249364A (zh) | 一种目标用户确定方法、电子设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |