CN105788590B - 语音识别方法及装置、移动终端 - Google Patents

语音识别方法及装置、移动终端 Download PDF

Info

Publication number
CN105788590B
CN105788590B CN201410784875.5A CN201410784875A CN105788590B CN 105788590 B CN105788590 B CN 105788590B CN 201410784875 A CN201410784875 A CN 201410784875A CN 105788590 B CN105788590 B CN 105788590B
Authority
CN
China
Prior art keywords
voice data
similarity score
model
default
characteristic quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410784875.5A
Other languages
English (en)
Other versions
CN105788590A (zh
Inventor
孙廷玮
林福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201410784875.5A priority Critical patent/CN105788590B/zh
Publication of CN105788590A publication Critical patent/CN105788590A/zh
Application granted granted Critical
Publication of CN105788590B publication Critical patent/CN105788590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

一种语音识别方法及装置、移动终端,所述语音识别方法包括:采集声音信号;对所述声音信号进行处理,得到声音数据;判断所述声音数据是否为预设语音数据;当确定所述声音数据为预设语音数据时,对所述声音数据进行识别;根据识别出的语音数据执行相应的操作。上述的方案可以节约移动终端的电能和计算资源。

Description

语音识别方法及装置、移动终端
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音识别方法及装置、移动终端。
背景技术
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。
移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。
语音识别方法和总听系统(Always Listening System)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。
但是,现有技术中的语音识别方法,无法正确地分辩特定用户的语音与其他的声音,一旦检测到声音信息,如噪声,也会进行语音检测,这将导致移动终端频繁地进行语音检测,因此,现有技术中的语音识别方法存在着浪费电能和计算资源的问题。
发明内容
本发明实施例解决的问题是如何节约移动终端的电能和计算资源。
为解决上述问题,本发明实施例提供了一种语音识别方法,所述语音识别方法包括:
采集声音信号;
对所述声音信号进行处理,得到声音数据;
判断所述声音数据是否为预设用户的预设语音数据;
当确定所述声音数据为预设用户的预设语音数据时,对所述声音数据进行识别;
根据识别出的语音数据执行相应的操作。
可选地,所述判断所述声音数据是否为预设语音数据,包括:
提取所述声音数据的特征量;
计算所述声音数据的特征量与第一模型之间的相似度分值,以及所述声音数据与第二模型之间的相似度分值,分别作为第一相似度分值和第二相似度分值,所述第一模型用于描述所述预设语音数据的信息,所述第二模型表示所有的话语,用于描述包括噪音在内的声环境的信息;
判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值;
当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时,确定所述声音数据为所述预设语音数据。
可选地,当确定所述声音数据为预设语音数据时,所述方法还包括:判断所述声音数据是否为预设用户的预设语音数据。
计算所述声音数据的特征量与第三模型之间的相似度分值,以及所述声音数据的特征量与第四模型之间的相似度分值,分别作为第三相似度分值和第四相似度分值,所述第三模型用于描述声环境和所述预设用户的声调特征信息,所述第四模型用于描述其他用户的声音信息;
判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值;
当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时,确定所述声音数据为预设用户的预设语音数据。
可选地,当所述第二模型与所述第四模型相同时,当所述第二模型与所述第四模型相同时,所述判断所述声音数据是否为预设语音数据,以及所述判断所述声音数据是否为预设用户的预设语音数据,包括:
提取所述声音数据的特征量;
计算所述声音数据的特征量与所述第三模型之间的相似度分值,以及所述声音数据的特征量与所述第一模型之间的相似度分值,分别作为第五相似度分值和第六相似度分值;
判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值,所述第三阈值为所述第一阈值和第二阈值之和;
当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时,确定所述声音数据为预设语音数据,且为预设用户的预设语音数据。
可选地,所述提取所述声音数据的特征量,包括:采用动态时间弯折法提取输入的语音数据的特征量。
本发明实施例还提供了一种语音识别装置,所述装置包括:
采集单元,适于采集声音信号;
处理单元,适于对所述声音信号进行处理,得到声音数据;
判断单元,适于判断所述声音数据是否为预设语音数据;
触发识别单元,适于当确定所述声音数据为预设语音数据时,对所述声音数据进行识别;
执行单元,适于根据识别出的语音数据执行相应的操作。
可选地,所述判断单元包括:
第一提取子单元,适于提取所述声音数据的特征量;
第一计算子单元,适于计算所述声音数据的特征量与所述第一模型之间的相似度分值,以及所述声音数据与第二模型之间的相似度分值,分别作为第一相似度分值和第二相似度分值,所述第一模型用于描述所述预设语音数据的信息,所述第二模型表示所有的话语,用于描述包括噪音在内的声环境的信息;
第一判断子单元,适于判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值;
第一确定子单元,适于当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时,确定所述声音数据为所述预设语音数据。
可选地,所述判断单元还适于当确定所述声音数据为预设语音数据时,判断所述声音数据是否为预设用户的预设语音数据。
可选地,所述判断单元还包括:
第二计算子单元,适于当确定所述声音数据为所述预设语音数据时,计算所述声音数据的特征量与第三模型之间的相似度分值,以及所述声音数据的特征量与第四模型之间的相似度分值,分别作为第三相似度分值和第四相似度分值,所述用户模型用于描述声环境和所述预设用户的声调特征信息,所述第四模型用于描述其他用户的声音信息;
第二判断子单元,适于判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值;
第二确定子单元,适于当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时,确定所述声音数据为预设用户的预设语音数据。
可选地,当所述第二模型与所述第四模型相同时,所述判断单元包括:
第一提取子单元,适于提取所述声音数据的特征量;
第三计算子单元,适于计算所述声音数据的特征量与所述第三模型之间的相似度分值,以及所述声音数据的特征量与第一模型之间的相似度分值,分别作为第五相似度分值和第六相似度分值;
第三判断子单元,适于判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值,所述第三阈值为所述第一阈值和第二阈值之和;
第三确定子单元,适于当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时,确定所述声音数据为预设语音数据,且为预设用户的预设语音数据。
可选地,所述第一提取子单元适于采用动态时间弯折法提取输入的语音数据的特征量。
本发明实施例还提供了一种移动终端,所述移动终端包括上述的语音识别装置。
与现有技术相比,本发明的技术方案具有以下的优点:
通过在检测到输入的声音数据为预设语音数据时,方可进行语音检测,而非一旦检测到声音数据,便进行语音检测,因此,可以节约移动终端的电能和计算资源。
进一步地,在确定所述声音数据为预设语音数据时,通过进一步判断所述声音数据是否为预设用户的预设语音数据,并在确定所述声音数据为预设用户的预设语音数据时,方可进行语音检测,因此,可以进一步节约移动终端的电能。
进一步地,由于在判断所述声音数据是否为预设语音数据,以及判断所述声音数据是否为预设用户的预设语音数据时,通过将第二模型与第四模型设置为相同的模型,使得仅需计算所述声音数据的特征量分别与所述第一模型、第三模型之间的相似度分值,而无需再计算所述声音数据的特征量与所述第二模型、第四模型之间的相似度分值,因此,可以进一步节约移动终端的计算资源,提高语音识别的速度。
附图说明
图1是本发明实施例中的一种语音识别方法的流程图;
图2是本发明实施例中的一种判断所述声音数据是否为预设语音数据的流程图;
图3是本发明实施例中的当确定所述声音数据为预设语音数据时,判断所述声音数据是否为预设用户的预设语音数据的流程图;
图4是本发明实施例中的一种判断所述声音数据是否为预设语音数据,以及判断所述声音数据是否为预设用户的预设语音数据的流程图;
图5是本发明实施例中的一种语音识别装置的结构示意图;
图6是本发明实施例中的一种判断单元的结构示意图;
图7是本发明实施例中的另一种判断单元的结构示意图。
具体实施方式
现有技术中的总听系统采用语音活动检测(Voice Activity Detection,VAD)技术来对声音进行侦测。
现有技术中,经常使用VAD来进行声音检测,如动态时间弯折法(Dynamic TimeWarping,DTW)等。DTW的优点是使用标准的特征提取算法提取输入的声音数据的特征量。
DTW的是将输入数据与预设的已注册数据之间进行比较,根据二者之间的差异确定是否需要对输入数据进行检测。当移动终端的使用环境与已注册的环境数据相似时,DTW可以具有较好的识别和触发(声音检测功能的触发)性能。因此,当移动终端的使用环境变化时,DTW的触发性能将会降低。甚至当记录所述已注册的环境数据所使用的移动终端设备改变时,也会引起DTW性能的下降。
由于移动终端设备通常是在真实的环境中使用的,而在移动终端的周围存在很多的声源。传统的VAD无法正确地区分输入的声音信号来自于特定的用户还是其他的用户,因此,语音识别模块被频繁地激活,导致移动终端设备浪费了许多不必要的电能。同时,频繁地激活语音识别模块也会耗费移动终端中的计算资源。因此,现有技术中语音识别方法存在着浪费电能和计算资源的问题。
为解决现有技术中存在的上述问题,本发明实施例采用的技术方案通过在检测到输入的语音数据为预设用户的预设语音数据时,进行语音检测,可以节约移动终端的电能和计算资源。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1示出了本发明实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括:
步骤S101:采集声音信号。
在具体实施中,可以使用麦克风(MIC)来对外界的声音信号进行采集。
步骤S102:对所述声音信号进行处理,得到声音数据。
在具体实施中,当采集到声音信号时,可以所采集到的声音信号进行相应的处理,如时域(Time domain)和频域(Frequency domain)处理等,得到相应的声音数据。
步骤S103:判断所述声音数据是否为预设语音数据。
在具体实施中,所述预设语音数据可以包括拨打电话、打开微博、打开facebook等。
在具体实施中,通过判断所述声音数据是否为预设语音数据,可以将包括噪声在内的其他声音数据
在具体实施中,可以采用首先判断所述声音数据是否为预设语音数据,并在确定所述预设的为预设语音数据时,判断所述声音数据是否为预设用户的预设语音数据。
在具体实施中,当确定所述声音数据为预设用户的预设语音数据时,可以直接执行步骤S105。
在具体实施中,在确定所述声音数据为预设语音数据之时,如图1所示的语音识别方法还可以包括:
步骤S104:判断所述声音数据是否为预设用户的预设语音数据。
在具体实施中,在确定所述声音数据为预设语音数据时,通过进一步判断所述声音数据是否为预设用户的预设语音数据,并在后续步骤中确定所述声音数据为预设用户的预设语音数据时,方可对所述声音数据进行语音识别,通过对所述声音数据进行识别的门槛进行进一步限定,可以有效防止频繁地进行语音识别,因此,可以进一步节省移动终端的电能。
在具体实施中,所述预设用户可以包括已经注册用户,且预设用户的个数可以根据实际的需要进行设置。
步骤S105:对所述声音数据进行识别。
在具体实施中,当确定所述声音数据为预设用户的预设语音数据时,可以对所采集的声音数据进行识别
步骤S106:根据识别出的语音数据执行相应的操作。
在具体实施中,当识别出所述语音数据时,移动终端可以所述语音数据对应的操作,例如,拨打XX的电话,打开微博,打开facebook等。
图2示出了本发明实施例中的一种判断所述声音数据是否为预设语音数据的流程图。如图2所示的判断所述声音数据是否为预设语音数据,可以包括:
步骤S201:提取所述声音数据的特征量。
在具体实施中,可以采用对所述声音数据进行时域和频域处理,例如,使用快速傅氏变换(Fast Fourier Transformation,FFT)、频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)等,提取输入的语音数据的特征量。步骤S202:计算第一相似度分值和第二相似度分值。
在具体实施中,所述第一相似度分值为所述声音数据的特征量与所述第一模型之间的相似度分值,所述第二相似度分值为所述声音数据与第二模型之间的相似度分值。其中,所述第一模型表示所有的话语,用于描述包括噪音在内的声环境的信息,所述第二模型用于描述所述预设语音数据的信息。
步骤S203:判断第一相似度分值与第二相似度分值之间的差值是否大于预设的第一阈值。
在具体实施中,采用如下的公式判断第一相似度分值与第二相似度分值之间的差值是否大于预设的第一阈值:
Sspeech-Snon-speech≥TH1 (1);
其中,Sspeech表示所述第二相似度分值,Snon-speech表示所述第一相似度分值,TH1表示所述第一阈值。其中,第一阈值TH1可以根据实际的需要进行设定。
步骤S204:确定所述声音数据为预设语音数据。
在具体实施中,当采用公式(1)确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时,则可以确定所述声音数据为所述预设语音数据。
在具体实施中,为了对声音数据进行识别做进一步限制,在确定所述声音数据是预设语音数据时,进一步判断所述声音数据是否为预设用户的所述预设声音数据。请参见图3所示,具体而言,可以包括:
步骤S301:计算第三相似度分值和第四相似度分值。
在具体实施中,所述第三相似度分值为所述声音数据的特征量与第三模型之间的相似度分值,所述第四相似度分值为所述声音数据的特征量与第四模型之间的相似度分值。其中,所述第三模型用于描述声环境和所述预设用户的声调特征信息,所述第四模型用于描述其他用户的声音信息。
步骤S302:判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值。
在具体实施中,可以采用如下的公式来判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值:
Suser-Swhite≥TH2 (2);
其中,Suser表示所述第三相似度分值,Swhite表示所述第四相似度分值,TH2表示所述第二阈值。其中,第二阈值TH2可以根据实际的需要进行设定。
这里需要指出的是,由于所述第一模型已经具备独立于用户的属性,因此,所述第四模型可以直接使用所述第一模型,那么,公式(2)中的Swhite便可以使用公式(1)中Sspeech的值直接进行运算即可,可以省去计算Swhite的值的步骤,因此,可以进一步节省计算资源,从而可以提高语音识别的速度。
步骤S303:确定所述声音数据为预设用户的预设语音数据。
在具体实施中,当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时,则可以表明所述声音数据为所述预设用户的预设语音数据。
在具体实施中,通过上述的公式(1)和(2)可知,当Snon-speech和Swhite相等时,可以公式(2)减去公式(1),便可以得到:
Susre-Snon-speech≥TH3 (3);
其中,TH3表示第三阈值,TH3为TH1和TH2之和。
因此,采用公式(3)仅需要经过一个判断步骤,便可以确定所述声音数据是否为预设用户的预设语音数据。具体请参见图4所示,判断所述声音数据是否为预设语音数据,以及判断所述声音数据是否为预设用户的预设语音数据,可以包括:
步骤S401:提取所述声音数据的特征量。
步骤S402:计算第五相似度分值和第六相似度分值。
在具体实施中,所述第五相似度分值为所述声音数据的特征量与所述第三模型之间的相似度分值,所述第六相似度分值为所述声音数据的特征量与所述第一模型之间的相似度分值。
步骤S403:判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值。
步骤S404:当所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时,确定所述声音数据为预设语音数据,且为预设用户的预设语音数据。
图5示出了本发明实施例中的一种语音识别装置的结构示意图。如图5所示的语音识别装置500,可以包括采集单元501、处理单元502、判断单元503、触发识别单元504和执行单元505,其中:
采集单元501,适于采集声音信号。
处理单元502,适于对所述声音信号进行处理,得到声音数据。
判断单元503,适于判断所述声音数据是否为预设语音数据。
在具体实施中,所述判断单元503还适于在确定所述声音数据为预设语音数据时,判断所述声音数据是否为预设用户的预设语音数据。
触发识别单元504,适于当确定所述声音数据设语音数据时,对所述声音数据进行识别。
执行单元505,适于根据识别出的语音数据执行相应的操作。
图6示出了本发明实施例中的一种判断单元的结构示意图。如图6所示的判断单元600,可以包括第一提取子单元601、第一计算子单元602、第一判断子单元603、第一确定子单元604、第二计算子单元605、第二判断子单元606和第二确定子单元607,其中:
第一提取子单元601,适于提取所述声音数据的特征量。
第一计算子单元602,适于计算所述声音数据的特征量与第一模型之间的相似度分值,以及所述声音数据与第二模型之间的相似度分值,分别作为第一相似度分值和第二相似度分值,所述第一模型用于描述所述预设语音数据的信息,所述第二模型表示所有的话语,用于描述包括噪音在内的声环境的信息。
第一判断子单元603,适于判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值。
第一确定子单元604,适于当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时,确定所述声音数据为所述预设语音数据。
在具体实施中,如图6所示的判断单元还可以包括第二计算子单元605、第二判断子单元606和第二确定子单元607,其中:
第二计算子单元605,适于当确定所述声音数据为所述预设语音数据时,计算所述声音数据的特征量与第三模型之间的相似度分值,以及所述声音数据的特征量与第四模型之间的相似度分值,分别作为第三相似度分值和第四相似度分值,所述第三模型用于描述声环境和所述预设用户的声调特征信息,所述第四模型用于描述其他用户的声音信息。
第二判断子单元606,适于判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值。
第二确定子单元607,适于当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时,确定所述声音数据为预设用户的预设语音数据。
请参见图7所示,在具体实施中,当所述第二模型与所述第四模型相同时,判断单元700,可以包括第一提取子单元701、第三计算子单元702、第三判断子单元703和第三确定子单元704,其中:
第一提取子单元701,适于提取所述声音数据的特征量。
第三计算子单元702,适于计算所述声音数据的特征量与所述第三模型之间的相似度分值,以及所述声音数据的特征量与第一模型之间的相似度分值,分别作为第五相似度分值和第六相似度分值。
第三判断子单元703,适于判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值,所述第三阈值为所述第一阈值和第二阈值之和。
第三确定子单元704,适于当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时,确定所述声音数据为预设语音数据,且为预设用户的预设语音数据。
本发明实施例还提供了一种移动终端,所述移动终端包括上述的语音识别装置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
采集声音信号;
对所述声音信号进行处理,得到声音数据;
判断所述声音数据是否为预设语音数据;
当确定所述声音数据为预设语音数据时,对所述声音数据进行识别;
根据识别出的语音数据执行相应的操作;
所述判断所述声音数据是否为预设语音数据,包括:
提取所述声音数据的特征量;
计算所述声音数据的特征量与第一模型之间的相似度分值,以及所述声音数据与第二模型之间的相似度分值,分别作为第一相似度分值和第二相似度分值,所述第一模型描述所述预设语音数据的信息,所述第二模型用于表示所有的话语,用于描述包括噪音在内的声环境的信息;
判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值;
当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时,确定所述声音数据为所述预设语音数据。
2.根据权利要求1所述的语音识别方法,其特征在于,当确定所述声音数据为所述预设语音数据时,还包括:判断所述声音数据是否为预设用户的预设语音数据;
计算所述声音数据的特征量与第三模型之间的相似度分值,以及所述声音数据的特征量与第四模型之间的相似度分值,分别作为第三相似度分值和第四相似度分值,所述第三模型用于描述声环境和所述预设用户的声调特征信息,所述第四模型用于描述其他用户的声音信息;
判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值;
当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时,确定所述声音数据为预设用户的预设语音数据。
3.根据权利要求2所述的语音识别方法,其特征在于,当所述第二模型与所述第四模型相同时,所述判断所述声音数据是否为预设语音数据,以及所述判断所述声音数据是否为预设用户的预设语音数据,包括:
提取所述声音数据的特征量;
计算所述声音数据的特征量与所述第三模型之间的相似度分值,以及所述声音数据的特征量与所述第一模型之间的相似度分值,分别作为第五相似度分值和第六相似度分值;
判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值,所述第三阈值为所述第一阈值和第二阈值之和;
当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时,确定所述声音数据为预设语音数据,且为预设用户的预设语音数据。
4.根据权利要求1-3任一项所述的语音识别方法,其特征在于,所述提取所述声音数据的特征量,包括:采用动态时间弯折法提取输入的语音数据的特征量。
5.一种语音识别装置,其特征在于,包括:
采集单元,适于采集声音信号;
处理单元,适于对所述声音信号进行处理,得到声音数据;
判断单元,适于判断所述声音数据是否为预设语音数据;
触发识别单元,适于当确定所述声音数据为预设语音数据时,对所述声音数据进行识别;
执行单元,适于根据识别出的语音数据执行相应的操作;
所述判断单元包括:
第一提取子单元,适于提取所述声音数据的特征量;
第一计算子单元,适于计算所述声音数据的特征量与第一模型之间的相似度分值,以及所述声音数据与第二模型之间的相似度分值,分别作为第一相似度分值和第二相似度分值,所述第一模型用于描述所述预设语音数据的信息,所述第二模型表示所有的话语,用于描述包括噪音在内的声环境的信息;
第一判断子单元,适于判断所述第一相似度分值和第二相似度分值之间的差值是否大于预设的第一阈值;
第一确定子单元,适于当确定所述第一相似度分值和第二相似度分值之间的差值大于预设的第一阈值时,确定所述声音数据为所述预设语音数据。
6.根据权利要求5所述的语音识别装置,其特征在于,所述判断单元还适于当确定所述声音数据为预设语音数据时,判断所述声音数据是否为预设用户的预设语音数据。
7.根据权利要求6所述的语音识别装置,其特征在于,所述判断单元还包括:第二计算子单元,适于当确定所述声音数据为所述预设语音数据时,计算所述声音数据的特征量与第三模型之间的相似度分值,以及所述声音数据的特征量与第四模型之间的相似度分值,分别作为第三相似度分值和第四相似度分值,所述第三模型用于描述声环境和所述预设用户的声调特征信息,所述第四模型用于描述其他用户的声音信息;
第二判断子单元,适于判断所述第三相似度分值和第四相似度分值之间的差值是否大于预设的第二阈值;
第二确定子单元,适于当确定所述第三相似度分值和第四相似度分值之间的差值大于所述第二阈值时,确定所述声音数据为预设用户的预设语音数据。
8.根据权利要求7所述的语音识别装置,其特征在于,当所述第二模型与所述第四模型相同时,所述判断单元包括:
第一提取子单元,适于提取所述声音数据的特征量;
第三计算子单元,适于计算所述声音数据的特征量与所述第三模型之间的相似度分值,以及所述声音数据的特征量与所述第一模型之间的相似度分值,分别作为第五相似度分值和第六相似度分值;
第三判断子单元,适于判断所述第五相似度分值和第六相似度分值之间的差值是否大于预设的第三阈值,所述第三阈值为所述第一阈值和第二阈值之和;
第三确定子单元,适于当确定所述第五相似度分值和第六相似度分值之间的差值大于预设的第三阈值时,确定所述声音数据为预设语音数据,且为预设用户的预设语音数据。
9.根据权利要求5-8任一项所述的语音识别装置,其特征在于,所述第一提取子单元适于采用动态时间弯折法提取输入的语音数据的特征量。
10.一种移动终端,其特征在于,包括权利要求5-9任一项所述的语音识别装置。
CN201410784875.5A 2014-12-16 2014-12-16 语音识别方法及装置、移动终端 Active CN105788590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410784875.5A CN105788590B (zh) 2014-12-16 2014-12-16 语音识别方法及装置、移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410784875.5A CN105788590B (zh) 2014-12-16 2014-12-16 语音识别方法及装置、移动终端

Publications (2)

Publication Number Publication Date
CN105788590A CN105788590A (zh) 2016-07-20
CN105788590B true CN105788590B (zh) 2019-06-07

Family

ID=56374868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410784875.5A Active CN105788590B (zh) 2014-12-16 2014-12-16 语音识别方法及装置、移动终端

Country Status (1)

Country Link
CN (1) CN105788590B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504510B (zh) * 2016-11-11 2021-07-06 青岛海尔智能家电科技有限公司 一种远程红外控制方法及装置
CN106803096A (zh) * 2016-12-27 2017-06-06 上海大汉三通通信股份有限公司 一种短信类型识别方法、系统及短信管理平台
CN110265018B (zh) * 2019-07-01 2022-03-04 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN103646646B (zh) * 2013-11-27 2018-08-31 联想(北京)有限公司 一种语音控制方法及电子设备
CN104092932A (zh) * 2013-12-03 2014-10-08 腾讯科技(深圳)有限公司 一种声控拍摄方法及装置

Also Published As

Publication number Publication date
CN105788590A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN102890557B (zh) 用于响应于麦克风输出的触摸手势检测的方法和系统
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
KR101678549B1 (ko) 표면 음향 신호를 이용한 유저 인터페이스 제공 장치 및 방법, 유저 인터페이스를 구비한 디바이스
CN108511002B (zh) 危险事件声音信号识别方法、终端和计算机可读存储介质
EP3001414A1 (en) Method and apparatus for executing voice command in electronic device
CN105336324A (zh) 一种语种识别方法及装置
CN106033669B (zh) 语音识别方法及装置
CN107133135B (zh) 一种基于统计学与声音定位的键盘按键检测方法
JP2013254372A5 (zh)
CN105788590B (zh) 语音识别方法及装置、移动终端
CN104282303B (zh) 利用声纹识别进行语音辨识的方法及其电子装置
CN106254612A (zh) 一种语音控制方法及装置
CN106302972A (zh) 语音使用的提示方法以及终端设备
CN103426429B (zh) 语音控制方法和装置
CN106024017A (zh) 语音检测方法及装置
CN107564512B (zh) 语音活动侦测方法及装置
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN106297795B (zh) 语音识别方法及装置
JP2011203349A (ja) 音声認識システム及び自動検索システム
CN110085264B (zh) 语音信号检测方法、装置、设备及存储介质
CN106340310B (zh) 语音检测方法及装置
WO2013132216A1 (en) Method and apparatus for determining the number of sound sources in a targeted space
KR20140077773A (ko) 사용자 위치정보를 활용한 음성 인식 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200602

Address after: 8-07, building 6, ronghuiyuan, airport economic core area, Shunyi District, Beijing

Patentee after: Xin Xin finance leasing (Beijing) Co.,Ltd.

Address before: Zuchongzhi road in Pudong Zhangjiang hi tech park Shanghai 201203 Lane 2288 Pudong New Area Spreadtrum Center Building 1

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201125

Address after: Room 2502, COFCO Plaza, 990 Nanma Road, Nankai District, Tianjin

Patentee after: Xin Xin finance leasing (Tianjin) Co.,Ltd.

Address before: 8-07, building 6, ronghuiyuan, airport economic core area, Shunyi District, Beijing

Patentee before: Xin Xin finance leasing (Beijing) Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160720

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xin Xin finance leasing (Tianjin) Co.,Ltd.

Contract record no.: X2021110000055

Denomination of invention: Speech recognition method and device, mobile terminal

Granted publication date: 20190607

License type: Exclusive License

Record date: 20211227

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230721

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: Room 2502, COFCO Plaza, 990 Nanma Road, Nankai District, Tianjin 300100

Patentee before: Xin Xin finance leasing (Tianjin) Co.,Ltd.