CN108962262A - 语音数据处理方法和装置 - Google Patents

语音数据处理方法和装置 Download PDF

Info

Publication number
CN108962262A
CN108962262A CN201810920402.1A CN201810920402A CN108962262A CN 108962262 A CN108962262 A CN 108962262A CN 201810920402 A CN201810920402 A CN 201810920402A CN 108962262 A CN108962262 A CN 108962262A
Authority
CN
China
Prior art keywords
phonetic order
word
waking
engine
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810920402.1A
Other languages
English (en)
Other versions
CN108962262B (zh
Inventor
朱成亚
樊帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201810920402.1A priority Critical patent/CN108962262B/zh
Publication of CN108962262A publication Critical patent/CN108962262A/zh
Application granted granted Critical
Publication of CN108962262B publication Critical patent/CN108962262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开语音数据处理方法和装置,其中,一种语音数据处理方法,包括:采集用户的第一语音指令,将第一语音指令发送至唤醒引擎并至少获取唤醒引擎返回的是否成功唤醒的结果;至少响应于成功唤醒,持续采集用户语音直至检测到自第一语音指令结束后首次出现大于等于预设时长的静音时间;将自第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;接收识别引擎返回的识别结果。通过避免切分不准造成的识别障碍,不对音频进行切分,而是直接将包含唤醒词在内的待识别的音频都发给识别引擎进行识别,从而可以避免切分不准造成的识别障碍。

Description

语音数据处理方法和装置
技术领域
本发明属于语音数据技术领域,尤其涉及语音数据处理方法和装置。
背景技术
相关技术中,普通语音交互,适合实时性要求不高的交互场景。唤醒(wakeup)实现的是语音说唤醒词后,系统唤醒;有效人声检测(VAD,Voice Activity Detection,语音活动检测)实现的是录音机数据输入后,得出有效人声;自动语音识别(ASR,AutomaticSpeech Recognition)实现的是语音转换成文字。普通语音交互,通常都是唤醒(wakeup)后,在提示唤醒词后,再语音输入命令,后再执行动作,跟本申请中的一语即达(oneshot)不一样,一语即达(oneshot)实现的是唤醒词与命令词一起说,系统唤醒并直接执行动作。
发明人在实现本申请的过程中发现:语音唤醒后连着说命令词,比较难将命令词的音频切割。即使切割成功,由于命令词前的音频环境音有可能比较短,也会影响语言模型识别效果。
发明内容
本发明实施例提供一种语音数据处理方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音数据处理方法,包括:采集用户的第一语音指令,将所述第一语音指令发送至唤醒引擎并至少获取所述唤醒引擎返回的是否成功唤醒的结果;至少响应于成功唤醒,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间;将自所述第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;接收所述识别引擎返回的识别结果。
第二方面,本发明实施例提供一种语音数据处理装置,包括:采集单元,配置为采集用户的第一语音指令,将所述第一语音指令发送至唤醒引擎并至少获取所述唤醒引擎返回的是否成功唤醒的结果;响应单元,配置为至少响应于成功唤醒,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间;发送单元,配置为将自所述第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;以及接收单元,配置为接收所述识别引擎返回的识别结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音数据处理方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的语音数据处理方法的步骤。
本申请的方法和装置提供的方案通过避免切分不准造成的识别障碍,不对音频进行切分,而是直接将包含唤醒词在内的待识别的音频都发给识别引擎进行识别,从而可以避免切分不准造成的识别障碍。在进一步的实施例中,识别完成时将唤醒词剔除后再发给语义理解引擎,从而也不会因为将唤醒词混在其中影响语义理解。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音数据处理方法的流程图;
图2为本发明一实施例提供的另一种语音数据处理方法的流程图;
图3为本发明一实施例提供的又一种语音数据处理方法的流程图;
图4为本发明一实施例提供的再一种语音数据处理方法的流程图;
图5为本发明一实施例提供的还一种语音数据处理方法的流程图;
图6为本发明一实施例提供的再一种语音数据处理方法的流程图;
图7为本发明一实施例提供的还一种语音数据处理方法的流程图;
图8为本发明一实施例提供的实际应用场景的基本设计流程图;
图9为本发明一实施例提供的应用场景中一个节点的流程图;
图10为本发明一实施例提供的应用场景中另一个节点的流程图;
图11为本发明一实施例提供的应用场景中又一个节点的流程图;
图12为本发明一实施例提供的一种语音数据处理装置的框图;
图13是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面,先介绍本申请的实施方式,之后将用实验数据证实本申请的方案与现有技术相比有什么不同,能实现什么有益效果。
请参考图1,其示出了本申请的语音数据处理方法一实施例的流程图,本实施例的语音数据处理方法可以适用于具备智能语音对话功能的终端、如智能语音电视、智能音箱、智能对话玩具等。
如图1所示,在步骤101中,采集用户的第一语音指令,将第一语音指令发送至唤醒引擎并至少获取唤醒引擎返回的是否成功唤醒的结果;
在步骤102中,至少响应于成功唤醒,持续采集用户语音直至检测到自第一语音指令结束后首次出现大于等于预设时长的静音时间;
在步骤103中,将自第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;
在步骤104中,接收识别引擎返回的识别结果。
在本实施例中,对于步骤101,智能语音终端上的语音数据处理装置采集用户的第一语音指令,之后将该将第一语音指令发送至唤醒引擎并至少获取唤醒引擎返回的是否成功唤醒的结果,然后在步骤102中,收到成功唤醒的结果后,开始持续采集用户的语音直至检测到自第一语音指令结束后首次出现大于等于预设时长的静音时间,静音时间例如为采集不到用户语音的时间。之后在步骤103中,将自第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别,最后在步骤104中接收识别引擎返回的识别结果。
例如智能音箱一直采集用户说的话然后一直发给唤醒引擎,直到有一个第一语音指令成功唤醒了唤醒引擎,然后根据预设的静音时间,例如静音时间可以设置为0.5s,如果在第一语音指令结束后0.5s用户不再说话,则持续采集从第一语音指令的起点到该0.5s的终点这段时间的用户语音,如果在第一语音指令结束后0.5s内用户又说话了则在用户说完后又开始0.5s倒计时,一直到用户不说话的时间超过0.5s为止,采集从第一语音指令的起点到首次出现的0.5s不说话的终点这段时间内的用户语音作为第二用户指令。第一语音指令可以在之前发送给唤醒引擎时先缓存,之后再和后面的语音连在一起形成第二语音指令发给识别引擎进行识别。静音时间也可以设置为其他时间,例如1s等,本申请在此没有限制。
本实施例的方法通过采集用户语音,在第一语音唤醒了唤醒引擎之后,持续采集之后满足条件的时间内的语音,形成第二语音指令发送至识别引擎进行识别,从而可以将包含唤醒词的语音不作切割整个发给识别引擎进行识别,能够防止切割导致的各种不准确的问题。
进一步参考图2,其示出了本申请一实施例提供的另一种语音数据处理方法的流程图。该流程图2主要是针对流程图1中步骤102进一步细化的流程图。主要针对的是一语即达开关开启的场景的流程。在此实施例中,仅针对该细化流程进行说明,其他步骤与图1中相同,在此不再赘述。
如图2所示,在步骤201中,至少响应于成功唤醒,检测一语即达开关是否开启;
在步骤202中,响应于一语即达开关开启,持续采集用户语音直至检测到自第一语音指令结束后首次出现大于等于预设时长的静音时间。
在本实施例中,对于步骤201,唤醒成功之后,还检测一语即达开关有没有打开,之后在步骤202中,如果一语即达开关打开了,才会执行持续采集用户语音直至检测到自第一语音指令结束后首次出现大于等于预设时长的静音时间的步骤。其中,一语即达开关打开说明用户希望允许唤醒词与命令词一起说,之后系统唤醒并直接执行动作。这样执行后面的持续采集就不会存在耽误用户时间的问题,用户体验更好。
进一步参考图3,其示出了本申请一实施例提供的又一种语音数据处理方法的流程图。该流程图3主要是针对流程图3中步骤201检测一语即达开关是否开启之后,一语即达开关未开启的场景的流程。在本实施例中仅针对该附加流程进行说明,其他步骤可参考前述实施例中的说明,在此不再赘述。
如图3所示,在步骤301中,响应于一语即达开关未开启,播报识别开始提示音并将第一语音指令发送至识别引擎进行识别;
在步骤302中,接收识别引擎返回的识别结果。
在本实施例中,对于步骤301,对于一语即达开关未开启的情况,直接播报识别开始提示音并将第一语音指令发送至识别引擎进行识别。之后在步骤302中,接收识别引擎返回的识别结果。从而不会耽误未打开一语即达开关的用户的时间,响应更快。
请参考图4,其示出了本申请一实施例提供的再一种语音数据处理方法的流程图。该流程图4主要是针对前述任一实施例中接收识别引擎返回的识别结果之后的场景的流程。在本实施例中仅针对该附加流程进行说明,其他步骤可参考前述任一实施例中的说明,在此不再赘述。
如图4所示,在步骤401中,判断识别结果中是否包含唤醒词;
在步骤402中,若识别结果中包含唤醒词,播报识别完成提示音并将过滤掉唤醒词的识别结果发送给语义理解引擎;
在步骤403中,接收语义理解引擎返回的语义理解结果;
在步骤404中,若识别结果中不包含唤醒词,播报识别开始提示音并接收识别引擎针对同一语音指令返回的新的识别结果。
在本实施例中,对于步骤401,在前面任一实施例中接收到识别结果之后,判别该识别结果中是否包含唤醒词,之后在步骤402中,包含唤醒词的情况下,至少说明在唤醒词这一块识别是没有问题的,则可以播报识别完成提示音,然后将过滤掉唤醒词的识别结果发送给语义理解引擎进行理解,这样没有唤醒词的干扰,语义理解也能相对比较准确,之后在步骤403中,接收语义理解引擎返回的语义理解结果,根据该语义理解结果可以对用户的语音指令作出反馈。对于步骤404,如果识别结果中不包含唤醒词,而唤醒引擎之前是被成功唤醒了的,则说明识别出问题了,需要重新识别,播报识别开始提示音并接收识别引擎针对同一语音指令二次识别返回的新的识别结果。
本实施例的方法通过在接收到识别结果之后先判断识别结果中是否包含唤醒词,排除掉不包含唤醒词的识别有问题的情况,并重新进行识别,可以将识别错误内部消化而不会转嫁到用户身上,从而用户体验更好。在包含唤醒词的识别结果中剔除唤醒词再发给语义理解引擎进行理解,这样比语音切割的方式更容易剔除出唤醒词,从而也不会影响语义理解引擎的理解,不容易带来不必要的误差。
进一步参考图5,其示出了本申请一实施例提供的还一种语音数据处理方法的流程图。该流程图5主要是对流程图4中步骤401的进一步限定的流程。在本实施例中仅针对该进一步限定的流程进行说明,其他步骤可参考前述实施例中的说明,在此不再赘述。
如图5所示,在步骤501中,判断识别结果是否为空;
在步骤502中,若识别结果为空,播报识别错误提示音并接收识别引擎针对同一语音指令返回的新的识别结果;
在步骤503中,若识别结果不为空,判断识别结果中是否包含唤醒词。
在本实施例中,对于步骤501,判断识别结果是否为空,之后在步骤502中,若为空,则播报提示音让识别引擎重新识别及接收返回的新的识别结果,对于步骤503,若不为空,则再判断识别结果中是否包含唤醒词,转到流程图4中的步骤。
本实施例的方法在判别是否包含唤醒词之前还加入了判空的步骤,从而可以更快地将识别结果为空的排除掉,比直接判别唤醒词操作起来更快,更细化,更精确。
请参考图6,其示出了本申请一实施例提供的再一种语音数据处理方法的流程图。该流程图6主要是对流程图2中步骤201的进一步限定的流程。在本实施例中仅针对该进一步限定的流程进行说明,其他步骤可参考前述实施例中的说明,在此不再赘述。
如图6所示,在步骤601中,接收唤醒引擎返回的成功唤醒的结果和唤醒词的类型,其中唤醒词的类型包括主唤醒词和其他唤醒词;
在步骤602中,若唤醒词的类型为主唤醒词,检测一语即达开关是否开启。
在本实施例中,对于步骤601,唤醒引擎返回的信息中不仅包括是否成功唤醒的结果,还包括唤醒词的类型,对于主唤醒词,例如可以是系统默认的唤醒词,支持一语即达,对于其他唤醒词,则可以不支持一语即达,或者说现在暂时不支持,之后再慢慢开放。因此在步骤602中,当唤醒词的类型为主唤醒词时,检测一语即达开关是否开启。
本实施例的方法通过判断唤醒词的类型,可以只针对主唤醒词支持一语即达,从而系统只需要针对主唤醒词进行一语即达的开关判别,减少其他不必要的操作,能够对用户的语音更快地响应。
进一步参考图7,其示出了本申请一实施例提供的再一种语音数据处理方法的流程图。该流程图7主要是对流程图6中步骤601之后唤醒词的类型为其他唤醒词的场景的附加流程。在本实施例中仅针对该附加流程进行说明,其他步骤可参考前述实施例中的说明,在此不再赘述。
如图7所示,在步骤701中,若唤醒词的类型为其他唤醒词,播报识别开始提示音并将第一语音指令发送至识别引擎进行识别;
在步骤702中,接收识别引擎返回的识别结果。
在本实施例中,对于步骤701,在唤醒词类型为其他唤醒词的情况下,不支持一语即达,则直接播报识别开始提示音并将采集缓存的第一语音指令发送至识别引擎进行识别。之后在步骤702中接收识别引擎返回的识别结果。从而可以对没有设置一语即达的用户更快地响应。
需要说明的是,上述各实施例中的方案可以相互结合,例如流程图6对应的实施例可以和前面任一有关联的实施例进行结合,本申请再次没有限制。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人发现,为了解决现有技术中存在的上述缺陷,现有技术的部分产品可能通过下面的方法来解决:
通常的想法是将唤醒音频再加上后面的命令词一起送识别,但是这个方法首先识别后的语义理解不一定正确,其次,送入识别的音频可能不准。
本申请的方案的一个具体实施例如下,需要说明的是以下实施例中虽然提到了一些具体的例子,但并不用于限制本申请的方案。
本申请的方案将语音交互系统分成各个子系统,其中包换,唤醒节点(wakeup),有效人声检测节点(vad),识别节点(asr),控制节点(processor)等,在wakeup节点抛出唤醒消息后,经过processor判别一语即达(oneshot)开关打开后,抛出消息给vad节点,vad节点收到消息后,倒退音频,后再缓存音频,一起送vad内核,直到vad检测人声结束,将这些音频一起送识别,送识别时,将当前的唤醒词带上,在识别后做语义理解时,就可以准确判别当前语义执行相关动作。
基本设计流程图如图8所示,其中,录音机必须常开,保证音频不断续,从而缓存的音频可以和后面的采集的音频完美衔接。
进一步地,wakeup节点流程图如图9所示,其中,唤醒(wakeup)节点一直订阅录音机数据(recorder.pcm),检测到语音唤醒时,判别唤醒类型,抛出不同的唤醒消息,目前只有主唤醒词(wakeup.result)支持一语即达(oneshot)。
进一步地,processor节点流程图如图10所示,其中:
(1)processor节点收到主唤醒消息时,判别当前一语即达开关是否打开,如果打开,抛出oneshot.result消息,并开始识别,发送给有效人声(vad)模块/vad/stop消息。
(2)vad模块将缓存后的音频,加当前输入音频处理后,得到有效人声音频,送识别,每次开启云端识别时,指定当前主唤醒词,云端做语义解析时,过滤到识别当中的主唤醒词,这样云端语义就可以解析正确。
(3)系统提示音我们分成三种,一种是识别开始提示音(asrstart),一种是识别错误提示音(asrerror),一种是识别完成提示音(asrend),提示不同的设备状态。其中,设置各种提示音是为了告知使用者当前的语音交互状态,比如识别开始提示音,是一个短促的提示,告知使用者这个时候可以开始说话了,错误提示音,是一个低沉的声音,告知使用这当前是识别出错,或者没有说话,识别完成,是告知当前识别有效人声检查到说话完毕了。需要说明的是,也可以不提示使用者或者通过其他的方式如信号灯的颜色或者闪烁的次数提示使用者,或者还可以是其他现有的或者未来开发的提示方式,本申请在此没有限制。
进一步地,vad节点流程图如图11所示,其中:
(1)vad节点在收到oneshot.result时,已经代表oneshot开关打开,缓存音频,一起送音频给vad内核。
(2)vad内核输入录音机数据,得到有效人声数据(vad.speech),将有效人声送识别模块,vad内核同时判别有效人声是否说完,判别说完的时间(pausetime)目前设定的是500ms,说话后,如果500ms内不说话,认为语音输入截止,此时vad抛出vad.end消息,并控制识别节点停止识别,识别节点收到此消息时,产生最终的识别结果,后做语义理解,并经过对话管理模块,输入对话动作。
申请人在实现本申请的方案之前,也对现有技术中切割音频的方案进行了一些实验和探索。当时想着做音频切割方案,将切割后除唤醒词后的命令词送识别,后发现音频切割不准确,因为人说话时,可能快速可能慢速,字与字之前的停顿可能较短,不好切割,但是如果切割准,这对后面的语音模型,语义模型,修订是最少的,因为后面基本不变,尝试时意外发现即使切割音频正确,但是由于前面的环境音时间较短,送识别时,还是可能会导致识别不准,因为语言模型在做识别时,需要采集一段时间的环境音。
最终确定的方案由于采用vad节点缓存音频的方案,我们需要循环存储一段时间的音频数据,会造成一定的内存使用。
一个典型的实现场景如下:
Usr:你好小驰打开空调
Sys:好的已经为你打开空调
本申请的方案能够极大地减少用户语音操控的步骤,实现信息反馈,化繁为简,操作简单。
请参考图12,其示出了本发明一实施例提供的语音数据处理装置的框图。
如图12所示,语音数据处理装置900,包括采集单元1210、响应单元1220、发送单元1230和接收单元1240。
其中,采集单元1210,配置为采集用户的第一语音指令,将第一语音指令发送至唤醒引擎并至少获取唤醒引擎返回的是否成功唤醒的结果;响应单元1220,配置为至少响应于成功唤醒,持续采集用户语音直至检测到自第一语音指令结束后首次出现大于等于预设时长的静音时间;发送单元1230,配置为将自第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;以及接收单元1240,配置为接收识别引擎返回的识别结果。
应当理解,图12中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图12中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如接收单元可以描述为接收识别引擎返回的识别结果的单元。另外,还可以通过硬件处理器来实现相关功能模块,例如接收单元也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音数据处理方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
采集用户的第一语音指令,将所述第一语音指令发送至唤醒引擎并至少获取所述唤醒引擎返回的是否成功唤醒的结果;
至少响应于成功唤醒,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间;
将自所述第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;
接收所述识别引擎返回的识别结果。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音数据处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音数据处理方法。
图13是本发明实施例提供的电子设备的结构示意图,如图13所示,该设备包括:一个或多个处理器1310以及存储器1320,图13中以一个处理器1310为例。语音数据处理方法的设备还可以包括:输入装置1330和输出装置1340。处理器1310、存储器1320、输入装置1330和输出装置1340可以通过总线或者其他方式连接,图13中以通过总线连接为例。存储器1320为上述的非易失性计算机可读存储介质。处理器1310通过运行存储在存储器1320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音数据处理方法。输入装置1330可接收输入的数字或字符信息,以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置1340可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音数据处理装置中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
采集用户的第一语音指令,将所述第一语音指令发送至唤醒引擎并至少获取所述唤醒引擎返回的是否成功唤醒的结果;
至少响应于成功唤醒,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间;
将自所述第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;
接收所述识别引擎返回的识别结果。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音数据处理方法,包括:
采集用户的第一语音指令,将所述第一语音指令发送至唤醒引擎并至少获取所述唤醒引擎返回的是否成功唤醒的结果;
至少响应于成功唤醒,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间;
将自所述第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;
接收所述识别引擎返回的识别结果。
2.根据权利要求1所述的方法,其中,所述至少响应于成功唤醒,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间包括:
至少响应于成功唤醒,检测一语即达开关是否开启;
响应于所述一语即达开关开启,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间。
3.根据权利要求2所述的方法,其中,在所述至少响应于成功唤醒,检测一语即达开关是否开启之后,所述方法还包括:
响应于所述一语即达开关未开启,播报识别开始提示音并将所述第一语音指令发送至识别引擎进行识别;
接收所述识别引擎返回的识别结果。
4.根据权利要求1-3中任一项所述的方法,其中,在所述接收所述识别引擎返回的识别结果之后,所述方法还包括:
判断所述识别结果中是否包含唤醒词;
若所述识别结果中包含唤醒词,播报识别完成提示音并将过滤掉所述唤醒词的识别结果发送给语义理解引擎;
接收所述语义理解引擎返回的语义理解结果;
若所述识别结果中不包含唤醒词,播报识别开始提示音并接收所述识别引擎针对同一语音指令返回的新的识别结果。
5.根据权利要求4所述的方法,其中,所述判断所述识别结果中是否包含唤醒词包括:
判断所述识别结果是否为空;
若所述识别结果为空,播报识别错误提示音并接收所述识别引擎针对同一语音指令返回的新的识别结果;
若所述识别结果不为空,判断所述识别结果中是否包含唤醒词。
6.根据权利要求2或3所述的方法,其中,所述至少响应于成功唤醒,检测一语即达开关是否开启包括:
接收所述唤醒引擎返回的成功唤醒的结果和唤醒词的类型,其中所述唤醒词的类型包括主唤醒词和其他唤醒词;
若所述唤醒词的类型为主唤醒词,检测一语即达开关是否开启。
7.根据权利要求6所述的方法,其中,所述方法还包括:
若所述唤醒词的类型为其他唤醒词,播报识别开始提示音并将所述第一语音指令发送至识别引擎进行识别;
接收所述识别引擎返回的识别结果。
8.一种语音数据处理装置,包括:
采集单元,配置为采集用户的第一语音指令,将所述第一语音指令发送至唤醒引擎并至少获取所述唤醒引擎返回的是否成功唤醒的结果;
响应单元,配置为至少响应于成功唤醒,持续采集用户语音直至检测到自所述第一语音指令结束后首次出现大于等于预设时长的静音时间;
发送单元,配置为将自所述第一语音指令的起点至首次出现的大于等于预设时长的静音时间的终点内采集的第二语音指令发送至识别引擎进行识别;
接收单元,配置为接收所述识别引擎返回的识别结果。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN201810920402.1A 2018-08-14 2018-08-14 语音数据处理方法和装置 Active CN108962262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810920402.1A CN108962262B (zh) 2018-08-14 2018-08-14 语音数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810920402.1A CN108962262B (zh) 2018-08-14 2018-08-14 语音数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN108962262A true CN108962262A (zh) 2018-12-07
CN108962262B CN108962262B (zh) 2021-10-08

Family

ID=64470291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810920402.1A Active CN108962262B (zh) 2018-08-14 2018-08-14 语音数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN108962262B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223687A (zh) * 2019-06-03 2019-09-10 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110534109A (zh) * 2019-09-25 2019-12-03 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质
CN111128166A (zh) * 2019-12-27 2020-05-08 苏州思必驰信息科技有限公司 连续唤醒识别功能的优化方法和装置
CN111326154A (zh) * 2020-03-02 2020-06-23 珠海格力电器股份有限公司 语音交互的方法、装置、存储介质及电子设备
CN111383633A (zh) * 2018-12-29 2020-07-07 深圳Tcl新技术有限公司 语音识别连续性控制方法、装置、智能终端及存储介质
CN111785277A (zh) * 2020-06-29 2020-10-16 北京捷通华声科技股份有限公司 语音识别方法、装置、计算机可读存储介质以及处理器
CN111916072A (zh) * 2020-06-16 2020-11-10 深圳追一科技有限公司 基于语音识别的问答方法、装置、计算机设备和存储介质
CN112735403A (zh) * 2020-12-18 2021-04-30 宁波向往智汇科技有限公司 一种基于智能音响的智能家居控制系统
CN113077791A (zh) * 2021-03-23 2021-07-06 冠捷显示科技(厦门)有限公司 扩展远场语音交互范围设备间避免拾音冲突方法
CN113223527A (zh) * 2021-05-08 2021-08-06 雅迪科技集团有限公司 一种用于电动车智能仪表的语音控制方法及电动车
CN113643691A (zh) * 2021-08-16 2021-11-12 思必驰科技股份有限公司 远场语音留言交互方法及系统
CN115312049A (zh) * 2022-06-30 2022-11-08 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4338490A (en) * 1979-03-30 1982-07-06 Sharp Kabushiki Kaisha Speech synthesis method and device
JP3001584B2 (ja) * 1989-02-03 2000-01-24 株式会社東芝 音声信号送信方法
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及系统
CN106094673A (zh) * 2016-08-30 2016-11-09 奇瑞商用车(安徽)有限公司 汽车唤醒词系统及其控制方法
CN106782554A (zh) * 2016-12-19 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107147618A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户注册方法、装置及电子设备
CN107808670A (zh) * 2017-10-25 2018-03-16 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN108039175A (zh) * 2018-01-29 2018-05-15 北京百度网讯科技有限公司 语音识别方法、装置及服务器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4338490A (en) * 1979-03-30 1982-07-06 Sharp Kabushiki Kaisha Speech synthesis method and device
JP3001584B2 (ja) * 1989-02-03 2000-01-24 株式会社東芝 音声信号送信方法
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
CN105679310A (zh) * 2015-11-17 2016-06-15 乐视致新电子科技(天津)有限公司 一种用于语音识别方法及系统
CN106094673A (zh) * 2016-08-30 2016-11-09 奇瑞商用车(安徽)有限公司 汽车唤醒词系统及其控制方法
CN106782554A (zh) * 2016-12-19 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106847285A (zh) * 2017-03-31 2017-06-13 上海思依暄机器人科技股份有限公司 一种机器人及其语音识别方法
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107147618A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户注册方法、装置及电子设备
CN107808670A (zh) * 2017-10-25 2018-03-16 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN108039175A (zh) * 2018-01-29 2018-05-15 北京百度网讯科技有限公司 语音识别方法、装置及服务器

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111383633A (zh) * 2018-12-29 2020-07-07 深圳Tcl新技术有限公司 语音识别连续性控制方法、装置、智能终端及存储介质
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110223687A (zh) * 2019-06-03 2019-09-10 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN110534109A (zh) * 2019-09-25 2019-12-03 深圳追一科技有限公司 语音识别方法、装置、电子设备及存储介质
CN111128166A (zh) * 2019-12-27 2020-05-08 苏州思必驰信息科技有限公司 连续唤醒识别功能的优化方法和装置
CN111326154B (zh) * 2020-03-02 2022-11-22 珠海格力电器股份有限公司 语音交互的方法、装置、存储介质及电子设备
CN111326154A (zh) * 2020-03-02 2020-06-23 珠海格力电器股份有限公司 语音交互的方法、装置、存储介质及电子设备
CN111916072A (zh) * 2020-06-16 2020-11-10 深圳追一科技有限公司 基于语音识别的问答方法、装置、计算机设备和存储介质
CN111785277A (zh) * 2020-06-29 2020-10-16 北京捷通华声科技股份有限公司 语音识别方法、装置、计算机可读存储介质以及处理器
CN112735403A (zh) * 2020-12-18 2021-04-30 宁波向往智汇科技有限公司 一种基于智能音响的智能家居控制系统
CN113077791A (zh) * 2021-03-23 2021-07-06 冠捷显示科技(厦门)有限公司 扩展远场语音交互范围设备间避免拾音冲突方法
CN113077791B (zh) * 2021-03-23 2023-06-06 冠捷显示科技(厦门)有限公司 扩展远场语音交互范围设备间避免拾音冲突方法
CN113223527A (zh) * 2021-05-08 2021-08-06 雅迪科技集团有限公司 一种用于电动车智能仪表的语音控制方法及电动车
CN113643691A (zh) * 2021-08-16 2021-11-12 思必驰科技股份有限公司 远场语音留言交互方法及系统
CN115312049A (zh) * 2022-06-30 2022-11-08 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置

Also Published As

Publication number Publication date
CN108962262B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN108962262A (zh) 语音数据处理方法和装置
CN109147779A (zh) 语音数据处理方法和装置
US11600265B2 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
CN109326289B (zh) 免唤醒语音交互方法、装置、设备及存储介质
CN109637548A (zh) 基于声纹识别的语音交互方法及装置
US11640832B2 (en) Emotion-based voice interaction method, storage medium and terminal device using pitch, fluctuation and tone
CN109360567A (zh) 可定制唤醒的方法和装置
EP4054111A1 (en) Method for switching between man-machine dialogue modes
CN109243462A (zh) 一种语音唤醒方法及装置
CN109671429B (zh) 语音交互方法及设备
WO2019239656A1 (ja) 情報処理装置および情報処理方法
CN110232924A (zh) 车载语音管理方法、装置、车辆及存储介质
CN109545203A (zh) 语音识别方法、装置、设备和存储介质
CN109545211A (zh) 语音交互方法及系统
CN111128166B (zh) 连续唤醒识别功能的优化方法和装置
CN110503954A (zh) 语音技能启动方法、装置、设备及存储介质
CN111833857A (zh) 语音处理方法、装置和分布式系统
CN109859773A (zh) 一种声音的录制方法、装置、存储介质及电子设备
CN110099295A (zh) 电视机语音控制方法、装置、设备及存储介质
CN112447177B (zh) 全双工语音对话方法及系统
CN112700767B (zh) 人机对话打断方法及装置
CN114333827B (zh) 断点续播方法、装置、电子设备和存储介质
CN115731915A (zh) 对话机器人的主动对话方法、装置、电子设备及存储介质
CN112786031B (zh) 人机对话方法及系统
CN114155857A (zh) 语音唤醒方法、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Voice data processing methods and devices

Effective date of registration: 20230726

Granted publication date: 20211008

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433