CN103594089A - 一种语音识别方法及电子设备 - Google Patents

一种语音识别方法及电子设备 Download PDF

Info

Publication number
CN103594089A
CN103594089A CN201310576866.2A CN201310576866A CN103594089A CN 103594089 A CN103594089 A CN 103594089A CN 201310576866 A CN201310576866 A CN 201310576866A CN 103594089 A CN103594089 A CN 103594089A
Authority
CN
China
Prior art keywords
voice recognition
recognition information
voice
vocal print
operation corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310576866.2A
Other languages
English (en)
Inventor
戴海生
王茜莺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201310576866.2A priority Critical patent/CN103594089A/zh
Publication of CN103594089A publication Critical patent/CN103594089A/zh
Priority to US14/457,320 priority patent/US9443522B2/en
Priority to US15/210,163 priority patent/US9767805B2/en
Pending legal-status Critical Current

Links

Images

Abstract

本申请提供了一种语音识别方法及电子设备;所述方法应用于包括语音输入模块的电子设备,包括:所述语音输入模块接收语音数据;对接收到的所述语音数据进行第一模式语音识别,所述第一模式语音识别包括识别所述语音数据中是否包含第一语音识别信息;当识别出所述语音数据中包含所述第一语音识别信息时,依据所述语音数据进行第二模式语音识别;依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作。本申请能够克服现有技术中语音识别时交互效率低下的缺陷。

Description

一种语音识别方法及电子设备
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法及电子设备。
背景技术
随着电子设备的快速发展与普及,对电子设备的智能化应用程度也有了更高的要求。
目前,语音识别技术为用户提供了人机语音交互模式来控制电子设备的快捷途径。用户可以通过特定的语音唤醒应用程序,说出设定的语音唤醒短语即可唤醒电子设备,并可根据语音提示的指令方便地进行拨号、浏览网页等进一步操作。
另外,声纹识别是一种利用人的声音实现的语音识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,因此,声纹可以作为表征个体差异的生物特征,也即可以通过建立声纹特征模型来表征不同的个体,进而利用该声纹特征模块进行识别不同的个体。
本申请的发明人在实现本申请的过程中,发现现有技术至少存在如下技术缺陷:
当前已实现的语音识别方案中,声纹识别和语音唤醒是分别独立应用的,例如,用户需要启用语音唤醒时,电子设备中的语音唤醒应用程序根据用户输入的语音数据,与预设的唤醒短语如“语音小助手”或者“语音小秘书”等进行匹配,如果用户输入的语音数据能够与预设的唤醒短语相匹配,则执行唤醒功能;否则,拒绝执行唤醒功能;之后,用户需要通过语音控制电子设备实现特定的操作时,需要再次输入相关的语音指令或语音信息,再通过电子设备中的声纹确认应用程序对用户输入的语音数据进行文本相关或者文本无关的声纹确认,如果声纹确认通过,则执行相应的指令操作,如果声纹确认未通过,则拒绝执行相应的指令操作。因此,上述的语音识别方案,存在用户交互效率低下,响应速度慢等缺陷或不足。
发明内容
本申请所要解决的技术问题是克服现有技术中语音识别时交互效率低下的缺陷。
为了解决上述技术问题,本申请提供了一种语音识别方法,应用于包括语音输入模块的电子设备,所述方法包括:
所述语音输入模块接收语音数据;
对接收到的所述语音数据进行第一模式语音识别,所述第一模式语音识别包括识别所述语音数据中是否包含第一语音识别信息;
当识别出所述语音数据中包含所述第一语音识别信息时,依据所述语音数据进行第二模式语音识别;
依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作。
可选地,所述第二模式语音识别包括:
依据所述语音数据进行预设命令相关的声纹确认;
所述依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作包括:
如果所述预设命令相关的声纹确认的结果为通过,则执行所述第一语音识别信息对应的操作;如果所述预设命令相关的声纹确认的结果为未通过,则拒绝执行所述第一语音识别信息对应的操作。
可选地,当识别出所述语音数据中还包含所述第一语音识别信息以外的第二语音识别信息时,执行所述第一语音识别信息对应的操作前还包括:
依据所述第二语音识别信息进行第三模式语音识别;
依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
可选地,所述第三模式语音识别包括:
预设命令无关的声纹确认;
所述依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作包括:
如果所述预设命令无关的声纹确认的结果为通过,则执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作;如果所述预设命令无关的声纹确认的结果为未通过,则拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
可选地,所述的方法还包括:
依据特定场景的语音数据,对进行所述预设命令无关的声纹确认所采用的模型进行优化训练。
可选地,所述的方法还包括:
根据第一指令设置或修改所述第一语音识别信息的集合,或者根据所述第一指令设置或修改所述第一语音识别信息与操作之间的对应关系。
本申请还提供了一种语音识别电子设备,所述电子设备包括:
语音输入模块,用于接收语音数据;
其特征在于,还包括:
第一识别模块,用于对接收到的所述语音数据进行第一模式语音识别,所述第一模式语音识别包括识别所述语音数据中是否包含第一语音识别信息;
第二识别模块,当所述第一识别模块识别出所述语音数据中包含所述第一语音识别信息时,依据所述语音数据进行第二模式语音识别;
响应模块,依据所述第二识别模块进行第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作。
可选地,所述第二识别模块依据所述第一识别信息对所述语音数据进行的所述第二模式语音识别包括:预设命令相关的声纹确认;
所述响应模块依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作是指:
所述响应模块当所述预设命令相关的声纹的确认结果为通过时,执行所述第一语音识别信息对应的操作;当所述预设命令相关的声纹的确认结果为未通过时,拒绝执行所述第一语音识别信息对应的操作。
可选地,所述电子设备还包括第三识别模块,
所述第一识别模块还用于当识别出所述语音数据中包含所述第一语音识别信息以外的第二语音识别信息时,将所述第二语音识别信息发送给所述第三识别模块;
所述第三识别模块用于依据所述第二语音识别信息进行第三模式语音识别;
所述响应模块还用于当执行所述第一语音识别信息对应的操作前,接收所述第三识别模块进行所述第三模式语音识别的结果;依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
可选地,所述第三识别模块依据所述第二语音识别信息进行的所述第三模式语音识别包括:预设命令无关的声纹确认;
所述响应模块依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作是指:
所述响应模块当所述预设命令无关的声纹的确认结果为通过时,执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作;当所述预设命令无关的声纹的确认结果为未通过时,拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
可选地,所述电子设备还包括与所述第三识别模块相连的预设命令无关声纹确认模型训练模块;
所述预设命令无关声纹确认模型训练模块用于依据特定场景的语音数据,对所述第三识别模块进行预设命令无关的声纹确认所采用的模型进行优化训练。
可选地,所述的电子设备还包括:
设置模块,用于根据第一指令设置或修改所述第一语音识别信息的集合,或者根据所述第一指令设置或修改所述第一语音识别信息与操作之间的对应关系。
与现有技术相比,本申请至少具有如下有益效果:
1)本申请的至少一个实施例中,在识别出输入的语音数据中包含第一语音识别信息后紧接着进行第二模式语音识别,并根据第二模式语音识别的结果执行或拒绝执行所述第一语音识别信息对应的操作;比如在用户利用语音唤醒的同时,利用唤醒语音对用户的声纹进行确认,从而使得声纹确认和语音唤醒融为一个过程,简化用户语音识别的交互操作,提高效率;且由于在声纹确认时利用了语音唤醒短语的信息,属于预设命令相关的声纹确认,因此确认性能优于预设命令无关的声纹确认;
2)本申请的又一个实施例中,用户可以在利用第一语音识别信息进行语音唤醒或者语音唤醒+语音输入操作指令的同时,利用第一语音识别信息进行预设命令相关的声纹确认,以保证只有特定用户的命令得到执行,从而避免独立的声纹确认步骤而产生的冗余交互,提高了交互效率;
3)本申请的又一个实施例中,当用户在第一语音识别信息之外附加其他语音(第二语音识别信息)输入时,可以同时利用前段的第一语音识别信息和后段的第二语音识别信息,进行综合声纹确认:前段为预设命令相关的语音确认,后段为预设命令无关的语音确认,由于组合后的语音长度加长,因此确认的性能也会得到提升;
4)本申请的又一个实施例中,可以利用语音引擎的使用场景对常用的语句对所述预设命令无关的声纹确认所采用的模型进行优化训练,提高预设命令无关的声纹确认匹配度,从而提高文本无关声纹确认的性能。
当然,本领域技术人员可以理解的是对于本申请中的一个实施例并不一定具有上述所有特点。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本发明实施例六的语音识别方法的示意图;
图2是本发明实施例七的语音识别电子设备的组成示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
本实施例涉及一种语音识别方法,该方法可应用于智能移动终端、平板电脑及其他任何包括语音输入模块的电子设备中。
所述方法包括:
S11、所述语音输入模块接收语音数据;
S12、对接收到的所述语音数据进行第一模式语音识别,所述第一模式语音识别包括识别所述语音数据中是否包含第一语音识别信息;
S13、当识别出所述语音数据中包含所述第一语音识别信息时,依据所述语音数据进行第二模式语音识别;
S14、依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作。
本实施例中,当语音输入中包含第一语音识别信息时,通过一次语音输入就可以完成对第一语音识别信息两种模式的语音识别,根据识别结果就能自动进行或拒绝进行第一语音识别信息对应的操作,整个过程无需用户进行冗余的操作,只要进行一次性的语音输入即可,简化了语音识别的过程。
本实施例中,所述第一语音识别信息可以包括一个或多个,可以采用第一语音识别信息的集合的形式保存。每个第一语音识别信息可以对应于不同的操作,当然,也不排除几个第一语音识别信息对应于相同的操作的情况。如果所述语音数据的全部或部分与第一语音识别信息的集合中至少一个所述第一语音识别信息A匹配,则认为该语音数据中包括第一语音识别信息A;如果所述语音数据中的部分与第一语音识别信息A匹配,部分与第一语音识别信息B匹配,则可以根据预置的策略将A和B或其中的一个作为识别出的第一语音识别信息,在根据第二模式语音识别的结果执行操作时是执行所识别出的第一语音识别信息对应的操作。
本实施例中,所述第二模式语音识别可以根据需要自行设计,可以是判断所述第一语音识别信息的特征是否匹配预设条件,比如进行声纹识别;也可以是识别所述第一语音识别信息中是否包含了预定语音信息,比如所述第一语音识别信息中是否包含了内容及顺序与预定密码匹配的语音输入。
本实施例中,当第二模式语音识别的结果多于两个时,可分别限定每个结果对应的是“执行”还是“拒绝执行”所述第一语音识别信息对应的操作。
实施例二
本实施例包括实施例一中的全部内容;在本实施例中,所述第二模式语音识别具体可以包括:
依据所述语音数据进行预设命令相关的声纹确认;
所述依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作具体可以包括:
如果所述预设命令相关的声纹确认的结果为通过,则执行所述第一语音识别信息对应的操作;如果所述预设命令相关的声纹确认的结果为未通过,则拒绝执行所述第一语音识别信息对应的操作。
本实施例中,所述预设命令相关的声纹确认可以是指进行该确认所用的声纹模型是基于预设命令的集合进行训练的;所述第一语音识别信息包含在所述预设命令的集合之中。通过所述预设命令相关的声纹确认可以准确判断所述第一语音识别信息的声纹是否和预设的有操作权限的用户的声纹匹配。这里有操作权限的用户可以是一个,也可以是多个,可以自由设置和更改。
本实施例中,通过声纹确认并根据确认结果判断是否执行所述第一语音识别信息对应的操作,可保证所述第一语音识别信息来源的合法性,避免让授权用户以外的人通过语音输入控制所述电子设备执行所述第一语音识别信息对应的操作。
本实施例中,假设所述第一语音识别信息对应的操作为唤醒,那么当用户的声纹与电子设备中预设的声纹不匹配时,电子设备将直接拒绝进行唤醒,而不是唤醒后再等待用户进行声纹确认,进一步提升了电子设备的安全。
实施例三
本实施例包括实施例二中的所有内容;在本实施例中,当识别出所述语音数据中还包含所述第一语音识别信息以外的第二语音识别信息时,执行所述第一语音识别信息对应的操作前还包括:
依据所述第二语音识别信息进行第三模式语音识别;
依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二识别信息对应的操作。
本实施例中,当所述预设命令相关的声纹确认的结果为通过时,如果所述语音数据中包括所述第一语音识别信息之外的第二语音识别信息,将会在执行所述第一语音识别信息对应的操作之前,先对所述第二语音识别信息进行第三模式语音识别,进一步确认能否执行所述第一语音识别信息对应的操作,并据此判断能否执行所述第二语音识别信息对应的操作。
通过对第一、第二语音识别信息综合进行识别,可以提高识别的准确度和可靠性。假设所述第一语音识别信息为“唤醒”,由于信息较短,还是有几率造成误判;当用户在“唤醒”之外附加其他语音输入时,可以同时利用前段的“唤醒”和后段的语音输入进行综合声纹确认:由于组合后的语音长度加长,因此确认的性能也会得到提升。
在其它实施例中,也可以设置为:只要判断所述语音信息中包含所述第一语音识别信息之外的语音输入,就直接进行预设命令无关的声纹确认,并根据该确认结果判断是否执行所述第一、第二语音识别信息对应的操作,而不再进行预设命令有关的声纹确认。
实施例四
本实施例包括实施例三中的所有内容;在本实施例中,所述第三模式语音识别包括:
预设命令无关的声纹确认;
所述依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作包括:
如果所述预设命令无关的声纹确认的结果为通过,则执行所述第一语音识别信息对应的操作及所述第二识别信息对应的操作;如果所述预设命令无关的声纹确认的结果为未通过,则拒绝执行所述第一语音识别信息对应的操作及所述第二识别信息对应的操作。
本实施例中,所述预设命令无关的声纹确认可以是指进行该确认所用的声纹模型是基于预设命令之外的语音输入进行训练的;实际应用时,也不排除对第一、第二语音识别信息都采用相同的声纹模型进行确认;本实施例中分别采用预设命令相关和无关的声纹确认,可提高识别的可靠度。
本实施例中,只有当第一、第二语音识别信息的声纹确认都通过时,才执行所述第一语音识别信息对应的操作,其中任一个声纹确认未通过时,都会拒绝执行所述第一语音识别信息对应的操作。如果所述第二语音识别信息也存在对应的操作,则当所述第二语音识别信息的声纹确认通过时,将会执行所述第二语音识别信息也存在对应的操作;如果第二语音识别信息是所述电子设备中未定义操作的语音数据,即电子设备无法识别第二语音识别信息对应的操作时,则无论预设命令无关的声纹确认的结果是什么,将只对第一语音识别信息对应的操作执行与否产生影响。本实施例的一种实施方式中,还可以依据特定场景的语音数据,对进行所述预设命令无关的声纹确认所采用的模型进行优化训练。
所述特定场景的语音数据可以是语音引擎的使用场景中的常用语句,该训练可以提高预设命令无关的声纹确认的匹配度,从而提高预设命令无关的声纹确认的性能。
实施例五本实施例包括实施例一到四中任一个实施例的全部内容;本实施例中,还可以根据第一指令设置或修改所述第一语音识别信息的集合,或者根据所述第一指令设置或修改所述第一语音识别信息与操作之间的对应关系。
本实施例中可以自由设置所述第一语音识别信息及其对应的操作,增加了语音识别的灵活性和可控性,避免了有多个电子设备或应用时因为语音输入产生误操作的问题。
比如当用户有两个或两个以上电子设备时,可以将其中第一电子设备上的第一语音识别信息设置为“唤醒XX”,将第二电子设备上的第一语音识别信息设置为“唤醒YY”;这里的“XX”和“YY”分别是用户给第一、第二电子设备起的名字,当第一电子设备在语音输入中识别出“唤醒XX”并且经过预设命令相关的声纹确认后,进行唤醒操作;如果第一电子设备识别出的是“唤醒YY”则判断语音输入中没有包含所述第一语音识别信息。
再比如用户在电子设备上有两个QQ号,可以将所述第一语音识别信息设置为包括“启动第一QQ”和“启动第二QQ”;无论语音输入为这两个句子中的哪一个,电子设备都会判断语音输入中包含第一语音输入信息,但两个句子所对应的操作不相同;当经过预设命令相关的声纹确认后,对于前者是进行启动第一QQ的操作,对于后者是进行启动第二QQ的操作。
在需要时,也可以利用所述设置模块对第二语音识别信息所对应的操作进行设置和修改。
实施例六
本实施例涉及一种语音识别方法,该方法可应用于智能移动终端、平板电脑及其他任何具有语音识别功能的电子设备中。
本实施例中,所述第一语音识别信息为唤醒语音。
如图1所示,本实施例方法具体包括如下主要步骤:
步骤S21,电子设备中的语音唤醒应用程序识别用户输入的语音数据,包括识别所述语音数据是否包含唤醒语音,以及所述语音数据是否仅包含唤醒语音;
步骤S22,如果所述语音数据仅包含唤醒语音,即所述语音数据为独立的唤醒语音,则进行预设命令相关的声纹确认,如果通过声纹确认,则执行语音唤醒;否则拒绝执行语音唤醒;
步骤S23,如果所述语音数据既包含唤醒语音,还包含唤醒语音以外的其他语音输入(第二语音识别信息),则可以按照如下方式进行声纹确认:
方式一,利用唤醒语音进行预设命令相关的声纹确认,如果通过声纹确认,则执行语音唤醒;否则拒绝执行语音唤醒;
方式二,利用唤醒语音以外的其他语音输入进行预设命令无关的声纹确认,如果通过声纹确认,则执行语音唤醒和相应的语音输入对应动作;否则,拒绝执行语音唤醒和相应的语音输入对应动作;
方式三,利用唤醒语音进行预设命令相关的声纹确认,同时,利用唤醒语音以外的其他语音输入进行预设命令无关的声纹确认,如果通过声纹确认,则执行语音唤醒和相应的语音输入对应动作;否则,拒绝执行语音唤醒和相应的语音输入对应动作。
步骤S24,如果所述语音数据不包含唤醒语音,即所述语音数据为非唤醒语音,则拒绝执行语音唤醒。
其中,上述步骤S21和S22可并行处理,语音唤醒和声纹确认都通过才执行语音唤醒,否则继续监测用户输入的语音数据。
此外,上述步骤S21和S23也可并行处理,但其声纹确认只能采用预设命令无关的声纹确认;或者在语音唤醒识别出后,立即并行执行语音识别和后续声纹无关确认,以提高响应速度。
采用本实施例方案,在用户利用语音唤醒的同时,利用唤醒语音对用户的声纹进行确认,从而使得声纹确认和语音唤醒融为一个过程,简化用户交互,提高效率;且由于在声纹确认时利用了语音唤醒短语的信息,属于预设命令相关的声纹确认,因此确认性能优于预设命令无关的声纹确认;
此外,用户可以在语音唤醒或者语音唤醒+语音输入的同时,利用唤醒语音进行预设命令相关的声纹确认,以保证只有特定用户的命令得到执行,从而避免独立的声纹确认步骤而产生的冗余交互,提高了交互效率。
实施例七
本实施例涉及一种语音识别电子设备,该电子设备如图2所示,包括如下主要功能模块/单元:
语音输入模块21,用于接收语音数据;
第一识别模块22,用于对接收到的所述语音数据进行第一模式语音识别,所述第一模式语音识别包括识别所述语音数据中是否包含第一语音识别信息;
第二识别模块23,当所述第一识别模块识别出所述语音数据中包含所述第一语音识别信息时,依据所述语音数据进行第二模式语音识别;
响应模块24,依据所述第二识别模块进行第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作。
本实施例中,当语音输入中包含第一语音识别信息时,通过一次语音输入就可以完成对第一语音识别信息两种模式的语音识别,根据识别结果就能自动进行或拒绝进行第一语音识别信息对应的操作,整个过程无需用户进行冗余的操作,只要进行一次性的语音输入即可,简化了语音识别的过程。
本实施例中,所述第一语音识别信息可以包括一个或多个,可以采用第一语音识别信息的集合的形式保存。每个第一语音识别信息可以对应于不同的操作,当然,也不排除几个第一语音识别信息对应于相同的操作的情况。如果所述语音数据的全部或部分与第一语音识别信息的集合中至少一个所述第一语音识别信息A匹配,则认为该语音数据中包括第一语音识别信息A;如果所述语音数据中的部分与第一语音识别信息A匹配,部分与第一语音识别信息B匹配,则可以根据预置的策略将A和B或其中的一个作为识别出的第一语音识别信息,在根据第二模式语音识别的结果执行操作时是执行所识别出的第一语音识别信息对应的操作。
本实施例中,所述第二模式语音识别可以根据需要自行设计,可以是判断所述第一语音识别信息的特征是否匹配预设条件,比如进行声纹识别;也可以是识别所述第一语音识别信息中是否包含了预定语音信息,比如所述第一语音识别信息中是否包含了内容及顺序与预定密码匹配的语音输入。
本实施例中,当第二模式语音识别的结果多于两个时,可分别限定每个结果对应的是“执行”还是“拒绝执行”所述第一语音识别信息对应的操作。
实施例八
本实施例包括实施例七中的所有内容;本实施例中,所述第二识别模块依据所述第一识别信息对所述语音数据进行的所述第二模式语音识别包括:预设命令相关的声纹确认;
所述响应模块依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作是指:
所述响应模块当所述预设命令相关的声纹的确认结果为通过时,执行所述第一语音识别信息对应的操作;当所述预设命令相关的声纹的确认结果为未通过时,拒绝执行所述第一语音识别信息对应的操作。
本实施例中,所述预设命令相关的声纹确认可以是指进行该确认所用的声纹模型是基于预设命令的集合进行训练的;所述第一语音识别信息包含在所述预设命令的集合之中。通过所述预设命令相关的声纹确认可以准确判断所述第一语音识别信息的声纹是否和预设的有操作权限的用户的声纹匹配。这里有操作权限的用户可以是一个,也可以是多个,可以自由设置和更改。
本实施例中,所述响应模块通过声纹确认并根据确认结果判断是否执行所述第一语音识别信息对应的操作,可保证所述第一语音识别信息来源的合法性,避免让授权用户以外的人通过语音输入控制所述电子设备执行所述第一语音识别信息对应的操作。
本实施例中,假设所述第一语音识别信息对应的操作为唤醒,那么当用户的声纹与电子设备中预设的声纹不匹配时,电子设备将直接拒绝进行唤醒,而不是唤醒后再等待用户进行声纹确认,进一步提升了电子设备的安全。
实施例九
本实施例包括实施例八中的所有内容;本实施例中,所述电子设备还包括第三识别模块。
所述第一识别模块还用于当识别出所述语音数据中包含所述第一语音识别信息以外的第二语音识别信息时,将所述第二语音识别信息发送给所述第三识别模块;
所述第三识别模块用于依据所述第二语音识别信息进行第三模式语音识别;
所述响应模块还用于当执行所述第一语音识别信息对应的操作前,接收所述第三识别模块进行所述第三模式语音识别的结果;依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
本实施例中,当所述预设命令相关的声纹确认的结果为通过时,如果所述语音数据中包括所述第一语音识别信息之外的第二语音识别信息,所述响应模块将会在执行所述第一语音识别信息对应的操作之前,等待所述第三识别模块对所述第二语音识别信息进行第三模式语音识别的结果,根据该结果进一步确认能否执行所述第一语音识别信息对应的操作,并据此判断能否执行所述第二语音识别信息对应的操作。
通过对第一、第二语音识别信息综合进行识别,可以提高识别的准确度和可靠性。假设所述第一语音识别信息为“唤醒”,由于信息较短,还是有几率造成误判;当用户在“唤醒”之外附加其他语音输入时,可以同时利用前段的“唤醒”和后段的语音输入进行综合声纹确认:由于组合后的语音长度加长,因此确认的性能也会得到提升。
在其它实施例中,也可以设置为:只要判断所述语音信息中包含所述第一语音识别信息之外的语音输入,就直接进行预设命令无关的声纹确认,并根据该确认结果判断是否执行所述第一、第二语音识别信息对应的操作,而不再进行预设命令有关的声纹确认。
实施例十
本实施例包括实施例九中的所有内容;本实施例中,所述第三识别模块依据所述第二语音识别信息进行的所述第三模式语音识别包括:预设命令无关的声纹确认;
所述响应模块依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作是指:
所述响应模块当所述预设命令无关的声纹的确认结果为通过时,执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作;当所述预设命令无关的声纹的确认结果为未通过时,拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
本实施例中,所述预设命令无关的声纹确认可以是指进行该确认所用的声纹模型是基于预设命令之外的语音输入进行训练的;实际应用时,也不排除对第一、第二语音识别信息都采用相同的声纹模型进行确认;本实施例中分别采用预设命令相关和无关的声纹确认,可提高识别的可靠度。
本实施例中,只有当第一、第二语音识别信息的声纹确认都通过时,所述响应模块才执行所述第一语音识别信息对应的操作,其中任一个声纹确认未通过时,都会拒绝执行所述第一语音识别信息对应的操作。如果所述第二语音识别信息也存在对应的操作,则当所述第二语音识别信息的声纹确认通过时,所述响应模块将会执行所述第二语音识别信息也存在对应的操作;如果第二语音识别信息是所述电子设备中未定义操作的语音数据,即电子设备无法识别第二语音识别信息对应的操作时,则无论预设命令无关的声纹确认的结果是什么,所述响应模块将只对第一语音识别信息对应的操作执行与否产生影响。
实施例十一
本实施例包括实施例十中的所有内容;本实施例中,所述电子设备还可以包括与所述第三识别模块相连的预设命令无关声纹确认模型训练模块;
所述预设命令无关声纹确认模型训练模块可以用于依据特定场景的语音数据,对所述第三识别模块进行预设命令无关的声纹确认所采用的模型进行优化训练。
所述特定场景的语音数据可以是语音引擎的使用场景中的常用语句,该训练可以提高预设命令无关的声纹确认的匹配度,从而提高预设命令无关的声纹确认的性能。
实施例十二
本实施例包括实施例七到十一中任一个实施例的内容;本实施例中,所述电子设备还可以包括设置模块,用于根据第一指令设置或修改所述第一语音识别信息的集合,或者根据所述第一指令设置或修改所述第一语音识别信息与操作之间的对应关系。
本实施例中可以自由设置所述第一语音识别信息及其对应的操作,增加了语音识别的灵活性和可控性,避免了有多个电子设备或应用时因为语音输入产生误操作的问题。
比如当用户有两个或两个以上电子设备时,可以将其中第一电子设备上的第一语音识别信息设置为“唤醒XX”,将第二电子设备上的第一语音识别信息设置为“唤醒YY”;这里的“XX”和“YY”分别是用户给第一、第二电子设备起的名字,当第一电子设备在语音输入中识别出“唤醒XX”并且经过预设命令相关的声纹确认后,进行唤醒操作;如果第一电子设备识别出的是“唤醒YY”则判断语音输入中没有包含所述第一语音识别信息。
再比如用户在电子设备上有两个QQ号,可以将所述第一语音识别信息设置为包括“启动第一QQ”和“启动第二QQ”;无论语音输入为这两个句子中的哪一个,电子设备都会判断语音输入中包含第一语音输入信息,但两个句子所对应的操作不相同;当经过预设命令相关的声纹确认后,对于前者是进行启动第一QQ的操作,对于后者是进行启动第二QQ的操作。
在需要时,也可以利用所述设置模块对第二语音识别信息所对应的操作进行设置和修改。
本领域的技术人员应该明白,上述的本申请实施例所提供的装置和/或系统的各组成部分,以及方法中的各步骤,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上。可选地,它们可以用计算装置可执行的程序代码来实现。从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (12)

1.一种语音识别方法,应用于包括语音输入模块的电子设备,所述方法包括:
所述语音输入模块接收语音数据;
对接收到的所述语音数据进行第一模式语音识别,所述第一模式语音识别包括识别所述语音数据中是否包含第一语音识别信息;
当识别出所述语音数据中包含所述第一语音识别信息时,依据所述语音数据进行第二模式语音识别;
依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作。
2.如权利要求1所述的方法,其特征在于:
所述第二模式语音识别包括:
依据所述语音数据进行预设命令相关的声纹确认;
所述依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作包括:
如果所述预设命令相关的声纹确认的结果为通过,则执行所述第一语音识别信息对应的操作;如果所述预设命令相关的声纹确认的结果为未通过,则拒绝执行所述第一语音识别信息对应的操作。
3.如权利要求2所述的方法,其特征在于:
当识别出所述语音数据中还包含所述第一语音识别信息以外的第二语音识别信息时,执行所述第一语音识别信息对应的操作前还包括:
依据所述第二语音识别信息进行第三模式语音识别;
依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
4.如权利要求3所述的方法,其特征在于:
所述第三模式语音识别包括:
预设命令无关的声纹确认;
所述依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作包括:
如果所述预设命令无关的声纹确认的结果为通过,则执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作;如果所述预设命令无关的声纹确认的结果为未通过,则拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
5.如权利要求4所述的方法,其特征在于,还包括:
依据特定场景的语音数据,对进行所述预设命令无关的声纹确认所采用的模型进行优化训练。
6.如权利要求1到5中任一项所述的方法,其特征在于,还包括:
根据第一指令设置或修改所述第一语音识别信息的集合,或者根据所述第一指令设置或修改所述第一语音识别信息与操作之间的对应关系。
7.一种语音识别电子设备,所述电子设备包括:
语音输入模块,用于接收语音数据;
其特征在于,还包括:
第一识别模块,用于对接收到的所述语音数据进行第一模式语音识别,所述第一模式语音识别包括识别所述语音数据中是否包含第一语音识别信息;
第二识别模块,当所述第一识别模块识别出所述语音数据中包含所述第一语音识别信息时,依据所述语音数据进行第二模式语音识别;
响应模块,依据所述第二识别模块进行第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作。
8.如权利要求7所述的电子设备,其特征在于:
所述第二识别模块依据所述第一识别信息对所述语音数据进行的所述第二模式语音识别包括:预设命令相关的声纹确认;
所述响应模块依据所述第二模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作是指:
所述响应模块当所述预设命令相关的声纹的确认结果为通过时,执行所述第一语音识别信息对应的操作;当所述预设命令相关的声纹的确认结果为未通过时,拒绝执行所述第一语音识别信息对应的操作。
9.如权利要求8所述的电子设备,其特征在于,所述电子设备还包括第三识别模块,
所述第一识别模块还用于当识别出所述语音数据中包含所述第一语音识别信息以外的第二语音识别信息时,将所述第二语音识别信息发送给所述第三识别模块;
所述第三识别模块用于依据所述第二语音识别信息进行第三模式语音识别;
所述响应模块还用于当执行所述第一语音识别信息对应的操作前,接收所述第三识别模块进行所述第三模式语音识别的结果;依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
10.如权利要求9所述的电子设备,其特征在于:
所述第三识别模块依据所述第二语音识别信息进行的所述第三模式语音识别包括:预设命令无关的声纹确认;
所述响应模块依据所述第三模式语音识别的结果,执行或者拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作是指:
所述响应模块当所述预设命令无关的声纹的确认结果为通过时,执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作;当所述预设命令无关的声纹的确认结果为未通过时,拒绝执行所述第一语音识别信息对应的操作及所述第二语音识别信息对应的操作。
11.如权利要求10所述的电子设备,其特征在于,所述电子设备还包括与所述第三识别模块相连的预设命令无关声纹确认模型训练模块;
所述预设命令无关声纹确认模型训练模块用于依据特定场景的语音数据,对所述第三识别模块进行预设命令无关的声纹确认所采用的模型进行优化训练。
12.如权利要求7到11中任一项所述的电子设备,其特征在于,还包括:
设置模块,用于根据第一指令设置或修改所述第一语音识别信息的集合,或者根据所述第一指令设置或修改所述第一语音识别信息与操作之间的对应关系。
CN201310576866.2A 2013-11-18 2013-11-18 一种语音识别方法及电子设备 Pending CN103594089A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310576866.2A CN103594089A (zh) 2013-11-18 2013-11-18 一种语音识别方法及电子设备
US14/457,320 US9443522B2 (en) 2013-11-18 2014-08-12 Voice recognition method, voice controlling method, information processing method, and electronic apparatus
US15/210,163 US9767805B2 (en) 2013-11-18 2016-07-14 Voice recognition method, voice controlling method, information processing method, and electronic apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310576866.2A CN103594089A (zh) 2013-11-18 2013-11-18 一种语音识别方法及电子设备

Publications (1)

Publication Number Publication Date
CN103594089A true CN103594089A (zh) 2014-02-19

Family

ID=50084196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310576866.2A Pending CN103594089A (zh) 2013-11-18 2013-11-18 一种语音识别方法及电子设备

Country Status (1)

Country Link
CN (1) CN103594089A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866274A (zh) * 2014-12-01 2015-08-26 联想(北京)有限公司 信息处理方法及电子设备
CN104902070A (zh) * 2015-04-13 2015-09-09 青岛海信移动通信技术股份有限公司 一种移动终端语音控制的方法及移动终端
CN104916015A (zh) * 2015-05-25 2015-09-16 郭萌 一种声控锁具的方法
CN104992710A (zh) * 2015-06-18 2015-10-21 惠州Tcl移动通信有限公司 一种基于智能器件寻找物品的方法及智能器件
CN105427863A (zh) * 2015-12-18 2016-03-23 合肥寰景信息技术有限公司 一种语音即时识别方法
CN105529025A (zh) * 2014-09-28 2016-04-27 联想(北京)有限公司 一种语音操作输入方法及电子设备
CN105609103A (zh) * 2015-12-18 2016-05-25 合肥寰景信息技术有限公司 一种语音即时识别系统
WO2016161641A1 (zh) * 2015-04-10 2016-10-13 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
CN106335436A (zh) * 2016-08-31 2017-01-18 北京兴科迪科技有限公司 一种集成麦克风的内后视镜
CN106653021A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
CN106920548A (zh) * 2015-12-25 2017-07-04 比亚迪股份有限公司 语音控制装置、语音控制系统和语音控制方法
CN107679864A (zh) * 2017-10-10 2018-02-09 珠海市魅族科技有限公司 支付控制方法、装置、计算机装置及计算机可读存储介质
CN107748500A (zh) * 2017-10-10 2018-03-02 三星电子(中国)研发中心 用于控制智能设备的方法和装置
CN107818783A (zh) * 2017-09-12 2018-03-20 普强信息技术(北京)有限公司 一种基于声纹技术的人机多模态车载安全性交互的方法及装置
CN108670128A (zh) * 2018-05-21 2018-10-19 深圳市沃特沃德股份有限公司 语音控制扫地机器人的方法和扫地机器人
CN108962235A (zh) * 2017-12-27 2018-12-07 北京猎户星空科技有限公司 语音交互方法及装置
CN109410934A (zh) * 2018-10-19 2019-03-01 深圳魔听文化科技有限公司 一种基于声纹特征的多人声音分离方法、系统及智能终端
CN109471664A (zh) * 2018-10-30 2019-03-15 南昌努比亚技术有限公司 智能助手管理方法、终端及计算机可读存储介质
CN106686812B (zh) * 2016-12-28 2019-03-26 生迪智慧科技有限公司 Led灯复位方法及led灯
CN110770093A (zh) * 2017-08-07 2020-02-07 微芯片技术股份有限公司 汽车特征部的语音激活致动
CN111105796A (zh) * 2019-12-18 2020-05-05 杭州智芯科微电子科技有限公司 无线耳机控制装置及控制方法、语音控制设置方法和系统
CN111147484A (zh) * 2019-12-25 2020-05-12 秒针信息技术有限公司 账号登录方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239449A1 (en) * 2006-04-06 2007-10-11 Kabushiki Kaisha Toshiba Method and apparatus for verification of speaker authentication
CN102930869A (zh) * 2012-10-29 2013-02-13 黑龙江省电力有限公司信息通信分公司 利用声学指纹鉴别发令人身份的语音操作控制装置及方法
CN102945669A (zh) * 2012-11-14 2013-02-27 四川长虹电器股份有限公司 一种家电设备语音控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239449A1 (en) * 2006-04-06 2007-10-11 Kabushiki Kaisha Toshiba Method and apparatus for verification of speaker authentication
CN102930869A (zh) * 2012-10-29 2013-02-13 黑龙江省电力有限公司信息通信分公司 利用声学指纹鉴别发令人身份的语音操作控制装置及方法
CN102945669A (zh) * 2012-11-14 2013-02-27 四川长虹电器股份有限公司 一种家电设备语音控制方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105529025A (zh) * 2014-09-28 2016-04-27 联想(北京)有限公司 一种语音操作输入方法及电子设备
CN104866274B (zh) * 2014-12-01 2018-06-01 联想(北京)有限公司 信息处理方法及电子设备
CN104866274A (zh) * 2014-12-01 2015-08-26 联想(北京)有限公司 信息处理方法及电子设备
US11783825B2 (en) 2015-04-10 2023-10-10 Honor Device Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
WO2016161641A1 (zh) * 2015-04-10 2016-10-13 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
US10943584B2 (en) 2015-04-10 2021-03-09 Huawei Technologies Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
CN104902070A (zh) * 2015-04-13 2015-09-09 青岛海信移动通信技术股份有限公司 一种移动终端语音控制的方法及移动终端
US10204618B2 (en) 2015-04-13 2019-02-12 Hisense Mobile Communications Technology Co., Ltd. Terminal and method for voice control on terminal
CN104916015A (zh) * 2015-05-25 2015-09-16 郭萌 一种声控锁具的方法
CN104992710A (zh) * 2015-06-18 2015-10-21 惠州Tcl移动通信有限公司 一种基于智能器件寻找物品的方法及智能器件
CN106815507A (zh) * 2015-11-30 2017-06-09 中兴通讯股份有限公司 语音唤醒实现方法、装置及终端
CN105427863A (zh) * 2015-12-18 2016-03-23 合肥寰景信息技术有限公司 一种语音即时识别方法
CN105609103A (zh) * 2015-12-18 2016-05-25 合肥寰景信息技术有限公司 一种语音即时识别系统
CN106920548A (zh) * 2015-12-25 2017-07-04 比亚迪股份有限公司 语音控制装置、语音控制系统和语音控制方法
CN106335436A (zh) * 2016-08-31 2017-01-18 北京兴科迪科技有限公司 一种集成麦克风的内后视镜
CN106653021A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN106686812B (zh) * 2016-12-28 2019-03-26 生迪智慧科技有限公司 Led灯复位方法及led灯
CN110770093A (zh) * 2017-08-07 2020-02-07 微芯片技术股份有限公司 汽车特征部的语音激活致动
CN107818783A (zh) * 2017-09-12 2018-03-20 普强信息技术(北京)有限公司 一种基于声纹技术的人机多模态车载安全性交互的方法及装置
CN107748500A (zh) * 2017-10-10 2018-03-02 三星电子(中国)研发中心 用于控制智能设备的方法和装置
CN107679864A (zh) * 2017-10-10 2018-02-09 珠海市魅族科技有限公司 支付控制方法、装置、计算机装置及计算机可读存储介质
CN108962235A (zh) * 2017-12-27 2018-12-07 北京猎户星空科技有限公司 语音交互方法及装置
CN108962235B (zh) * 2017-12-27 2021-09-17 北京猎户星空科技有限公司 语音交互方法及装置
CN108670128A (zh) * 2018-05-21 2018-10-19 深圳市沃特沃德股份有限公司 语音控制扫地机器人的方法和扫地机器人
CN109410934A (zh) * 2018-10-19 2019-03-01 深圳魔听文化科技有限公司 一种基于声纹特征的多人声音分离方法、系统及智能终端
CN109471664A (zh) * 2018-10-30 2019-03-15 南昌努比亚技术有限公司 智能助手管理方法、终端及计算机可读存储介质
CN111105796A (zh) * 2019-12-18 2020-05-05 杭州智芯科微电子科技有限公司 无线耳机控制装置及控制方法、语音控制设置方法和系统
CN111147484A (zh) * 2019-12-25 2020-05-12 秒针信息技术有限公司 账号登录方法和装置
CN111147484B (zh) * 2019-12-25 2022-06-14 秒针信息技术有限公司 账号登录方法和装置

Similar Documents

Publication Publication Date Title
CN103594089A (zh) 一种语音识别方法及电子设备
CN103646646A (zh) 一种语音控制方法及电子设备
US10733978B2 (en) Operating method for voice function and electronic device supporting the same
CN105609103A (zh) 一种语音即时识别系统
CN109101545A (zh) 基于人机交互的自然语言处理方法、装置、设备和介质
CN106653021A (zh) 语音唤醒的控制方法、装置及终端
CN104866274B (zh) 信息处理方法及电子设备
CN107591155A (zh) 语音识别方法及装置、终端及计算机可读存储介质
CN110047481A (zh) 用于语音识别的方法和装置
CN110473556B (zh) 语音识别方法、装置和移动终端
CN109584860A (zh) 一种语音唤醒词定义方法和系统
WO2020233363A1 (zh) 语音识别的方法、装置、电子设备和存储介质
CN106991106A (zh) 减少由切换输入模态所引起的延迟
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
CN111916088B (zh) 一种语音语料的生成方法、设备及计算机可读存储介质
CN111312230B (zh) 一种用于语音对话平台的语音交互监测方法及装置
CN107742520A (zh) 语音控制方法、装置及系统
CN112286485B (zh) 通过语音控制应用的方法、装置、电子设备与存储介质
CN111933137B (zh) 语音唤醒测试方法及装置、计算机可读介质和电子设备
CN108597499A (zh) 语音处理方法以及语音处理装置
CN111402899B (zh) 跨信道声纹识别方法及装置
CN111739506B (zh) 一种应答方法、终端及存储介质
CN107783848A (zh) 一种基于套接字通信的json命令处理方法及装置
CN105427863A (zh) 一种语音即时识别方法
CN110675869A (zh) 一种语音控制智慧城市app内应用的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140219