CN104867492A - 智能交互系统及方法 - Google Patents

智能交互系统及方法 Download PDF

Info

Publication number
CN104867492A
CN104867492A CN201510230283.3A CN201510230283A CN104867492A CN 104867492 A CN104867492 A CN 104867492A CN 201510230283 A CN201510230283 A CN 201510230283A CN 104867492 A CN104867492 A CN 104867492A
Authority
CN
China
Prior art keywords
recognition result
audio
humming
module
processing module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510230283.3A
Other languages
English (en)
Other versions
CN104867492B (zh
Inventor
吴奎
乔玉平
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iflytek Education Technology Co ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510230283.3A priority Critical patent/CN104867492B/zh
Publication of CN104867492A publication Critical patent/CN104867492A/zh
Application granted granted Critical
Publication of CN104867492B publication Critical patent/CN104867492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种智能交互系统及方法,该系统包括:音频接收模块,实时处理模块,执行模块;所述音频接收模块用于接收用户输入的音频信息;所述实时处理模块用于对所述音频信息进行并行在线实时处理,所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理,并且如果在音频输入结束之前得到可信的分类类型,则终止对应所述可信的分类类型之外类型的识别处理,获得对应所述可信的分类类型的识别结果,并将该识别结果传送给所述执行模块;所述执行模块用于根据所述实时处理模块传送的识别结果执行对应的操作。利用本发明,可以使用户方便、快捷地使用音频识别和语音交互功能,提升用户体验。

Description

智能交互系统及方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种智能交互系统及方法。
背景技术
随着移动智能终端和信息网络技术的发展,人们对更方便、快捷、高效的智能人机交互方式的需求越来越强烈。比如人们可以以说话的形式向电子设备查询一些信息,比如天气、股票等;或命令电子设备做一些操作,如打电话、发短信等;又或者人们以哼唱或原声播放的形式,向电子设备查询、获取一些音频相关的信息,如音乐的名字、音乐的演唱者等。为此,一些智能交互产品相继出现,如以说话形式实现查询天气、打电话等交互的语音助手,以哼唱或原声形式实现音乐检索的音乐交互产品等。然而现有的智能交互产品一般只能单独支持以说话形式输入的语音交互,或者以哼唱、原声形式输入的音乐交互。用户在交互前需自行选定满足其需求的语音交互产品,甚至在选定产品后,在交互时,还需根据输入形式选定交互入口,如在一般的音乐查询检索产品中,用户需要首先选定是以哼唱还是原声形式输入的系统入口,然后才能完成人机交互过程。因此,现有的智能交互产品便捷性不强,用户体验不佳,无法满足用户对智能交互体验的追求。
发明内容
本发明实施例提供一种智能交互系统及方法,以使用户方便、快捷地使用音频识别和语音交互功能,提升用户体验。
为此,本发明实施例提供如下技术方案:
一种智能交互系统,包括:音频接收模块,实时处理模块,执行模块;
所述音频接收模块,用于接收用户输入的音频信息;
所述实时处理模块,用于对所述音频信息进行并行在线实时处理,所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理,并且如果在音频输入结束之前得到可信的分类类型,则终止对应所述可信的分类类型之外类型的识别处理,获得对应所述可信的分类类型的识别结果,并将该识别结果传送给所述执行模块;
所述执行模块,用于根据所述实时处理模块传送的识别结果执行对应的操作。
优选地,所述实时处理模块包括:分类处理模块,识别模块,检测模块,识别结果输出模块;
所述分类处理模块,用于对所述音频信息进行分类处理;
所述识别处理模块,用于对所述音频信息进行对应不同类型的识别处理;
所述检测模块,用于检测所述分类处理模块是否得到可信的分类类型、所述识别处理模块是否得到对应所述可信的分类类型的识别结果、以及音频输入是否结束;在检测到所述分类处理模块得到可信的分类类型后,通知所述识别处理模块终止对应所述可信的分类类型之外类型的识别处理;
所述识别结果输出模块,还用于根据所述检测模块的检测结果从所述识别处理模块获取所述可信的分类类型对应的识别结果,并将该识别结果传送给所述执行模块。
优选地,所述检测模块,还用于在检测到所述分类处理模块得到可信的分类类型、并且检测到直到音频输入结束所述分类处理模块仍未得到可信的分类类型后,检测所述识别处理模块是否已得到识别结果,如果是,则通知所述识别结果输出模块输出所述识别结果。
优选地,所述识别处理模块包括:
语音识别引擎,用于对所述音频信息进行对应语音的语音识别处理;
原声识别引擎,用于对所述音频信息进行对应原声的语音识别处理;
哼唱识别引擎,用于对所述音频信息进行对应哼唱的语音识别处理。
优选地,所述分类处理模块,具体用于判断所述音频信息是否为语音、原声、哼唱;
所述识别结果输出模块在所述检测模块检测到所述分类处理模块得到的可信的分类类型为语音,并且在音频输入结束之后所述识别处理模块已得到语音的识别结果时,获取并输出对应语音的识别结果;在所述检测模块检测到所述分类处理模块得到的可信的分类类型为原声或哼唱,并且在音频输入结束之前所述识别处理模块得到原声或哼唱的识别结果时,获取并输出原声或哼唱的识别结果。
优选地,所述分类处理模块,具体用于判断所述音频信息是否为语音、哼唱;
所述识别结果输出模块在所述检测模块检测到所述分类处理模块得到的可信的分类类型为语音,并且在音频输入结束之后所述识别处理模块已得到语音的识别结果时,获取并输出对应语音的识识别结果;在所述检测模块检测到所述分类处理模块得到的可信的分类类型为哼唱,并且在音频输入结束之前所述识别处理模块得到哼唱的识别结果时,获取并输出所述哼唱的识别结果。
优选地,所述检测模块,还用于在检测到所述分类处理模块直到音频输入结束的时间段内未得到可信的分类类型,但在该时间段内所述识别处理模块已得到对应原声或哼唱的识别结果时,触发所述识别结果输出模块输出对应原声或哼唱的识别结果;
所述识别结果输出模块,还用于根据所述检测模块的触发获取对应原声或哼唱的识别结果,并将该识别结果传送给所述执行模块。
一种智能交互方法,包括:
接收用户输入的音频信息;
对所述音频信息进行并行在线实时处理,所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理;
如果在音频输入结束之前得到可信的分类类型,则终止对应所述可信的分类类型之外类型的识别处理,获得对应所述可信的分类类型的识别结果;
执行所述识别结果对应的操作。
优选地,所述方法还包括:
如果直到音频输入结束后仍未得到可信的分类类型,则检测是否已得到识别结果;
如果是,则获得所述识别结果,然后执行所述识别结果对应的操作;
否则,确定音频输入异常。
优选地,所述对所述音频信息进行对应不同类型的语音识别处理包括:
对所述音频信息分别进行对应语音、原声、哼唱的识别处理。
优选地,所述对所述音频信息进行分类处理包括:判断所述音频信息是否为语音、原声、哼唱;
所述获得对应所述可信的分类类型的识别结果包括:
如果所述可信的分类类型为语音,则在音频输入结束之后获得对应语音的识别结果;
如果所述可信的分类类型为原声或哼唱,并且在音频输入结束之前得到原声或哼唱的识别结果时,获取所述原声或哼唱的识别结果。
优选地,所述对所述音频信息进行分类处理包括:判断所述音频信息是否为语音、哼唱;
所述获取所述可信的分类类型对应的识别结果包括:
如果所述可信的分类类型为语音,则在音频输入结束之后获得对应语音的识别结果;
如果所述可信的分类类型为哼唱,并且在音频输入结束之前得到原声的识别结果时,获取所述原声的识别结果。
优选地,所述方法还包括:
如果在音频输入结束之前未得到可信的分类类型,则检测是否得到对应原声或哼唱的识别结果;
如果是,则获取对应原声或哼唱的识别结果,并执行该识别结果对应的操作。
本发明实施例提供的智能交互系统及方法,在接收到用户输入的音频信息后,对其同时进行类型分析及识别处理,一旦得到可信的分类类型,即终止对应所述可信的分类类型之外类型的识别处理,并可根据音频信息的类型继续该类型下的识别处理,实现人机交互,从而可以使用户通过一个交互入口,即可实现多种不同类型的音频交互,比如语音交互、哼唱识别和原声识别服务,大大提升了用户体验。由于对音频信息的类型分析及识别处理是同时进行的,因此,不会因为类型分析过程而使对音频信息的识别处理产生时间上的延迟,提高了人机交互的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例智能交互系统的结构示意图;
图2是本发明实施例智能交互系统中实时处理模块的一种结构示意图;
图3是本发明实施例智能交互系统的一种工作时序图;
图4是本发明实施例智能交互系统的另一种工作时序图;
图5是本发明实施例智能交互方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例智能交互系统的结构示意图。
该系统包括:音频接收模块101,实时处理模块102,执行模块103。
上述音频接收模块101用于接收用户输入的音频信息;实时处理模块102用于对所述音频信息进行并行在线实时处理,所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理,并且如果在音频输入结束之前得到可信的分类类型,则终止对应所述可信的分类类型之外类型的识别处理,获得对应所述可信的分类类型的识别结果,并将该识别结果传送给执行模块103;执行模块103用于根据实时处理模块102传送的识别结果执行对应的操作,比如,查询、检索等操作。
相应地,在实际应用中,在所述系统中还可以设置显示模块(未图示),以显示执行模块103执行相应操作返回的结果。
在本发明实施例中,所述音频信息可以包括以下任意一种或多种:用户说话语音信息、哼唱信息、原声信息,其中原声及哼唱信息可以涵盖音乐、影视、相声等形式。
所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理,所述识别处理具体包括对应语音的识别处理、对应原声的识别处理、以及对应哼唱的识别处理。
参照图2所示,上述实时处理模块102的一种具体结构包括:分类处理模块121,识别处理模块122,检测模块123,识别结果输出模块124。其中:
分类处理模块121用于对所述音频信息进行分类处理;
识别处理模块122用于对所述音频信息进行对应不同类型的识别处理;
检测模块123用于检测所述分类处理模块121是否得到可信的分类类型、所述识别处理模块122是否得到对应所述可信的分类类型的识别结果、以及音频输入是否结束;在检测到所述分类处理模块121得到可信的分类类型后,通知所述识别处理模块122终止对应所述可信的分类类型之外类型的识别处理;
识别结果输出模块124用于根据所述检测模块123的检测结果从所述识别处理模块122获取所述可信的分类类型对应的识别结果,并将该识别结果传送给前面图1中所述的执行模块103。
当然,在实际应用中,所述实时处理模块102还可以采用其它具体结构,比如,可以设置控制模块来代替上述检测模块123和识别结果输出模块124,所述控制模块完成上述检测及根据检测结果及时输出识别结果的功能。而且,所述控制模块可以采用上述描述的主动检测的方式完成这些功能,也可以采用被动通知的方式完成其中部分或全部功能,比如分类处理模块121在得到可信的分类类型后通知所述控制模块;或者音频输入结束后,用户输入特定命令,比如点击特定按键,或者用户在按下特定按键后开始音频输入,音频输入结束后松开该特定按键等,以此来通知所述控制模块。再比如,还可以设置不同的检测模块,以完成不同的检测任务,对此本发明实施例不做限定。
进一步地,上述检测模块123还用于在检测到音频输入结束但所述分类处理模块121仍未得到可信的分类类型后,检测所述识别处理模块122是否已得到识别结果,如果是,则通知所述识别结果输出模块124输出所述识别结果,否则通知所述识别结果输出模块124音频输入异常。相应地,识别结果输出模块124得到该通知后,触发前面提到的显示模块显示相应的提示信息,该提示信息可以是文字和/或图像,比如显示“输入异常”,以提示用户。在线判决过程中,检测模块123可以基于活动语音检测技术判断音频输入是否结束。
需要说明的是,所述识别结果是指置信度大于设定阈值的识别结果。如果不满足该置信度要求,则认为所述识别处理模块122未得到识别结果。当然,对于不同类型的识别处理,所述阈值的设定可以相同,也可以不同,对此本发明实施例不做限定。
另外,在实际应用中,如果检测模块123检测到在音频输入结束后,所述分类处理模块121仍未得到可信的分类类型,并且所述识别处理模块122也未得到识别结果的情况下,也可以从当前已得到的识别结果中选择一个置信度最大的识别结果输出。
在实际应用中,分类处理模块121可以采用成熟的说话人确认技术来实现音频分类,如分类模型使用混合高斯模型(Gaussian Mixed Model,GMM),特征使用梅尔倒谱系数(Mel-frequency Cepstrum Coefficients,MFCC)、基频相关特征以及其他可以区分音频的特征,得到输入的音频信号与各音频类型的似然得分,再通过得分规整技术对似然得分做规整,如果最高得分大于预设门限,则将该最高得分对应的类型作为音频分类结果。音频分类需要积累一定的音频量,采用离线方式进行判决会带来延迟。因此,本发明系统采用在线方式提取音频特征和得分计算,动态判断是否可以获得可信的分类类型。
由于原声音频包含的场景较多,如远近场音乐录音、影视等,单独的一个GMM模型分类能力不佳。为提升分类能力,可以选择若干个常用的原声音频识别场景,单独训练GMM模型,其他场景混合在一起训练一个GMM模型。
进一步地,由于语音交互时,用户输入的音频长度一般很短,可以利用音频长度信息提升分类效果。例如,如果检测到的音频有效长度小于2s,只进行原声和语音两类分类。
为了使本发明系统具有更好的适应性,在实际应用中,所述识别处理模块122可以包括:语音识别引擎、原声识别引擎、以及哼唱识别引擎。相应地,可以设置针对不同识别结果的执行模块。其中:
语音识别引擎用于对所述音频信息进行对应语音的语音识别处理。语音交互主要用于处理用户的语音搜索、语音查询和语音对话请求等,包括但不限制于语音拨号、语音查天气、语音搜歌等。语音识别引擎将用户的语音输入识别成文字。相应地,针对语音的识别结果设置的执行模块可以完成语义理解及查询等功能,具体地,对识别出的文字进行处理,分析出用户的意图,然后从语义库中得到与用户意图匹配的信息。
原声识别引擎用于对所述音频信息进行对应原声的语音识别处理。原声识别引擎主要用于识别用户收听到的音乐、影视节目、广告等音频,这些音频可以事先存放在原声音频库中。同样,原声识别引擎对用户输入的原声进行特征提取(具体以采用很多种匹配特征,如频谱峰值点、频谱小波变换系数等)、特征匹配(可以采用倒排表或者局部敏感哈希结构来加速匹配过程)。相应地,针对原声的识别结果设置的执行模块可以在歌曲库中找到识别的歌曲名和歌手返回给用户。
哼唱识别引擎用于对所述音频信息进行对应哼唱的语音识别处理。哼唱识别处理用于识别用户哼唱的旋律,在歌曲库中找到具有相似旋律的歌曲。具体地,对用户的哼唱音频提取对应的旋律特征,包括音符序列以及基频包络。相应地,针对哼唱的识别结果设置的执行模块根据哼唱识别引擎根据所述旋律特征在歌曲旋律库中进行匹配,找到旋律最相似的歌曲返回给用户。
当然,如果是针对特定的应用环境,也可以根据需要选用其中的一种或两种识别引擎,对此本发明实施例不做限定。
语音交互用于处理用户的语音搜索、语音查询和语音对话的请求,包括但不限制于语音拨号、语音查天气、语音搜歌等。其一般由自动语音识别模块和语义理解模块构成。语音识别模块将用户的语音输入识别成文字,语音理解模块则对识别文字进行处理,分析出用户的意图,然后从语义库中得到与用户意图匹配的信息。
另外需要说明的是,上述分类处理模块121也可以根据实际应用需要确定需要判断的音频类型,比如,可以判断所述音频信息是否为语音、原声、哼唱,也可以只判断所述音频信息是否为语音、哼唱,而对原声不做判断。
下面分别以这两种情况为例,详细说明本发明智能交互系统中各模块的工作过程。
如图3所示,是本发明实施例智能交互系统的一种工作时序图。
在该实施例中,分类处理模块需要判断音频接收模块接收的音频信息是否为以下三种类型:语音、原声、哼唱。该系统的主要工作过程如下:
301.音频接收模块接收音频信息。
302.音频接收模块将接收的音频信息同时送入分类处理模块和识别处理模块;相应地,分类处理模块对该音频信息进行类型判断,以确定其是何种类型的音频;识别处理模块中的语音识别引擎、原声识别引擎、哼唱识别引擎各自对该音频信息进行相应类型下的识别处理。
303.检测模块实时检测分类处理模块是否得到可信的分类类型;如果是,则执行步骤304;否则执行步骤311。
304.检测模块进一步检测可信的分类类型是否为原声或哼唱;如果是,则执行步骤305;否则执行步骤308。
305.检测模块通知识别处理模块中的语音识别引擎终止语音的识别处理(即步骤305_1)。当然,如果可信的分类类型是原声,则还要通知哼唱识别引擎终止哼唱的识别处理,或反之,如果可信的分类类型是哼唱,则还要通知原声识别引擎终止原声的识别处理,为了使图示清楚,在图中未示出。另外,检测模块还需要检测是否得到可信的分类类型(即原声或哼唱)的识别结果(即步骤305_2)。如果是,则执行步骤306;否则执行步骤309。
306.检测模块通知识别结果输出模块输出可信的分类类型(即原声或哼唱)的识别结果。
307.识别结果输出模块从可信的分类类型对应的识别引擎获取识别结果并输出该识别结果。
308.检测模块通知原声识别引擎和哼唱识别引擎终止相应的识别处理。
309.检测模块检测到音频输入结束后通知识别结果输出模块输出可信的分类类型的识别结果。
需要说明的是,音频输入结束后,得到的可信的分类类型的识别结果也可能不满足置信度阈值要求,此时可以选择其中一个置信度最大的结果输出,也可以拒识,给出相应的提示或响应,对此本发明实施例不做限定。
310.识别结果输出模块从可信的分类类型对应的识别引擎获取识别结果并输出该识别结果。
311.检测模块检测到音频输入结束仍未得到可信的分类类型,则进一步检测是否有语音或者原声或者哼唱的识别结果;如果有,则执行步骤312;否则,执行步骤313。
312.通知识别结果输出模块输出相应的识别结果。
313.通知识别结果输出模块音频输入异常。
可见,在该实施例中,如果检测模块在音频输入结束之前检测到了可信的分类类型是语音,则需要等到音频输入结束之后再由识别结果输出模块输出语音识别引擎的识别结果。如果检测模块在音频输入结束之前检测到了可信的分类类型是原声或哼唱,并且在音频输入结束之前相应的识别引擎已获得识别结果,则无需等到音频输入结束即可由识别结果输出模块输出该识别结果给执行模块,从而进一步提高了交互效率;而如果在音频输入结束之前相应的识别引擎未获得识别结果,则需要等到音频输入结束,如果此时得到了识别结果,则输出该识别结果,否则,可以给出音频输入异常等提示信息。另外,如果直到音频输入结束都未得到可信的分类类型,则要检测是否有语音或者原声或者哼唱的识别结果,如果有,则输出相应的识别结果,否则确定音频输入异常。
需要说明的是,在实际应用中,检测模块还可以在检测到音频输入结束之前,所述分类处理模块未得到可信的分类类型的情况下,检测所述识别处理模块是否得到了原声或哼唱的识别结果;如果是,则检测模块通知所述识别结果输出模块获取并输出该识别结果。当然,此时,检测模块还需要通知识别处理模块中的各识别引擎终止各自的识别处理操作。
进一步的,考虑到原声信息覆盖范围广、所含信息量大,如远近场音乐、影视录音,所以在实际应用中难以收集全各场景的原声数据,因而在采用上述系统进行音频并行分析、处理时会出现额外多余工作,造成资源浪费,如输入的是一种训练集之外的原声数据,那么采用上述系统流程处理时,可能直至音频流结束一直难以得到可信的分类结果,那么所有类型的处理单元就一直在工作,浪费服务器资源。为此,在本发明系统另一实施例中,分类处理模块可以仅判断音频接收模块接收的音频信息是否为语音、哼唱。
如图4所示,是本发明实施例智能交互系统的另一种工作时序图。
在该实施例中,分类处理模块用于判断音频接收模块接收的音频信息是否为语音、哼唱。该系统的主要工作过程如下:
401.音频接收模块接收音频信息。
402.音频接收模块将接收的音频信息同时送入分类处理模块和识别处理模块;相应地,分类处理模块对该音频信息进行类型判断,以确定其是何种类型的音频;识别处理模块中的语音识别引擎、原声识别引擎、哼唱识别引擎各自对该音频信息进行相应类型下的识别处理。
403.检测模块实时检测分类处理模块是否得到可信的分类类型;如果是,则执行步骤404;否则执行步骤411。
404.检测模块进一步检测可信的分类类型是否为哼唱;如果是,则执行步骤405;否则执行步骤408。
405.检测模块通知识别处理模块中的语音识别引擎和原声识别引擎终止相应的识别处理(即步骤405_1)。另外,检测模块还需要检测是否得到哼唱的识别结果(即步骤405_2)。如果是,则执行步骤406;否则执行步骤409。
406.检测模块通知识别结果输出模块输出哼唱的识别结果。
407.识别结果输出模块从哼唱识别引擎获取识别结果并输出该识别结果。
408.检测模块通知原声识别引擎和哼唱识别引擎终止相应的识别处理。
409.检测模块检测到音频输入结束后通知识别结果输出模块输出可信的分类类型的识别结果。
需要说明的是,音频输入结束后,得到的可信的分类类型的识别结果也可能不满足置信度阈值要求,此时可以选择其中一个置信度最大的结果输出,也可以拒识,给出相应的提示或响应,对此本发明实施例不做限定。
410.识别结果输出模块从可信的分类类型对应的识别引擎获取识别结果并输出该识别结果。
411.检测模块检测在音频输入结束前是否得到原声或哼唱的识别结果。如果是,则执行步骤412;否则执行步骤414。
412.检测模块一方面要通知分类处理模块停止分类处理、通知语音识别引擎、原声识别引擎、以及哼唱识别引擎停止识别处理操作(图中未示出),另一方面还要通知识别结果输出模块输出所述原声或哼唱的识别结果。
413.识别结果输出模块从原声识别引擎或哼唱识别引擎获取原声或哼唱的识别结果并输出。
414.检测模块检测到音频输入结束仍未得到可信的分类类型,则进一步检测是否有语音或者原声或者哼唱的识别结果;如果是,则执行步骤415;否则,执行步骤416。
415.通知识别结果输出模块输出相应的识别结果。
416.通知识别结果输出模块音频输入异常。
可见,在该实施例中,如果检测模块在音频输入结束之前检测到了可信的分类类型是语音,则需要等到音频输入结束之后再由识别结果输出模块输出语音识别引擎的识别结果。如果检测模块在音频输入结束之前检测到了可信的分类类型是哼唱,并且在音频输入结束之前哼唱识别引擎已获得识别结果(比如大于一定阈值的识别结果),则无需等到音频输入结束即可由识别结果输出模块输出该识别结果给执行模块,从而进一步提高了交互效率;而如果在音频输入结束之前哼唱识别引擎未获得识别结果,则需要等到音频输入结束,如果此时得到了识别结果,则输出该识别结果,否则,可以给出音频输入异常等提示信息。另外,如果直到音频输入结束都未得到可信的分类类型,则要检测是否有语音或者原声或者哼唱的识别结果,如果有,则输出相应的识别结果,否则确定音频输入异常。
利用本发明实施例的智能交互系统,可以使用户通过一个交互入口,即可实现多种不同类型的音频交互,而且对用户输入的音频信息进行并行在线实时处理,即对用户输入的音频信息同时进行类型分析及识别处理,一旦得到可信的分类类型,即可根据音频信息的类型继续该类型下的识别处理,实现人机交互。与传统智能交互产品相比,本发明实施例的智能交互系统不仅通用性强,提高了系统的适应性,而且快捷、高效、准确,大大提升了用户体验。
相应地,本发明实施例还提供一种智能交互方法,如图5所示,是该方法的一种流程图,包括以下步骤:
步骤501,接收用户输入的音频信息。
步骤502,对所述音频信息进行并行在线实时处理,所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理。
步骤503,如果在音频输入结束之前得到可信的分类类型,则终止对应所述可信的分类类型之外类型的识别处理,获得对应所述可信的分类类型的识别结果。
步骤504,执行所述识别结果对应的操作。
所述音频信息可以是用户说话语音信息、哼唱信息、原声信息。相应地,对所述音频信息进行的识别处理包括对应语音、原声、哼唱的识别处理。而对所述音频信息进行的分类处理可以是判断所述音频信息是否为语音、原声、哼唱,也可以是仅判断所述音频例信息是否为语音、哼唱,具体可根据实际应用需要来确定,本发明实施例不做限定。在不同应用的情况下对所述音频信息的识别处理可参照前面图3及图4所示的流程,在此不再赘述。
利用本发明实施例的智能交互方法,可以使用户通过一个交互入口,即可实现多种不同类型的音频交互,而且对用户输入的音频信息进行并行在线实时处理,即对用户输入的音频信息同时进行类型分析及识别处理,一旦得到可信的分类类型,即可根据音频信息的类型继续该类型下的识别处理,实现人机交互。与传统智能交互方法相比,本发明实施例的智能交互方法不仅通用性强,提高了系统的适用性,而且快捷、高效、准确,大大提升了用户体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种智能交互系统,其特征在于,包括:音频接收模块,实时处理模块,执行模块;
所述音频接收模块,用于接收用户输入的音频信息;
所述实时处理模块,用于对所述音频信息进行并行在线实时处理,所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理,并且如果在音频输入结束之前得到可信的分类类型,则终止对应所述可信的分类类型之外类型的识别处理,获得对应所述可信的分类类型的识别结果,并将该识别结果传送给所述执行模块;
所述执行模块,用于根据所述实时处理模块传送的识别结果执行对应的操作。
2.根据权利要求1所述的系统,其特征在于,所述实时处理模块包括:分类处理模块,识别模块,检测模块,识别结果输出模块;
所述分类处理模块,用于对所述音频信息进行分类处理;
所述识别处理模块,用于对所述音频信息进行对应不同类型的识别处理;
所述检测模块,用于检测所述分类处理模块是否得到可信的分类类型、所述识别处理模块是否得到对应所述可信的分类类型的识别结果、以及音频输入是否结束;在检测到所述分类处理模块得到可信的分类类型后,通知所述识别处理模块终止对应所述可信的分类类型之外类型的识别处理;
所述识别结果输出模块,还用于根据所述检测模块的检测结果从所述识别处理模块获取所述可信的分类类型对应的识别结果,并将该识别结果传送给所述执行模块。
3.根据权利要求2所述的系统,其特征在于,
所述检测模块,还用于在检测到所述分类处理模块得到可信的分类类型、并且检测到直到音频输入结束所述分类处理模块仍未得到可信的分类类型后,检测所述识别处理模块是否已得到识别结果,如果是,则通知所述识别结果输出模块输出所述识别结果。
4.根据权利要求2所述的系统,其特征在于,所述识别处理模块包括:
语音识别引擎,用于对所述音频信息进行对应语音的语音识别处理;
原声识别引擎,用于对所述音频信息进行对应原声的语音识别处理;
哼唱识别引擎,用于对所述音频信息进行对应哼唱的语音识别处理。
5.根据权利要求3所述的系统,其特征在于,
所述分类处理模块,具体用于判断所述音频信息是否为语音、原声、哼唱;
所述识别结果输出模块在所述检测模块检测到所述分类处理模块得到的可信的分类类型为语音,并且在音频输入结束之后所述识别处理模块已得到语音的识别结果时,获取并输出对应语音的识别结果;在所述检测模块检测到所述分类处理模块得到的可信的分类类型为原声或哼唱,并且在音频输入结束之前所述识别处理模块得到原声或哼唱的识别结果时,获取并输出原声或哼唱的识别结果。
6.根据权利要求3所述的系统,其特征在于,
所述分类处理模块,具体用于判断所述音频信息是否为语音、哼唱;
所述识别结果输出模块在所述检测模块检测到所述分类处理模块得到的可信的分类类型为语音,并且在音频输入结束之后所述识别处理模块已得到语音的识别结果时,获取并输出对应语音的识识别结果;在所述检测模块检测到所述分类处理模块得到的可信的分类类型为哼唱,并且在音频输入结束之前所述识别处理模块得到哼唱的识别结果时,获取并输出所述哼唱的识别结果。
7.根据权利要求5或6所述的系统,其特征在于,
所述检测模块,还用于在检测到所述分类处理模块直到音频输入结束的时间段内未得到可信的分类类型,但在该时间段内所述识别处理模块已得到对应原声或哼唱的识别结果时,触发所述识别结果输出模块输出对应原声或哼唱的识别结果;
所述识别结果输出模块,还用于根据所述检测模块的触发获取对应原声或哼唱的识别结果,并将该识别结果传送给所述执行模块。
8.一种智能交互方法,其特征在于,包括:
接收用户输入的音频信息;
对所述音频信息进行并行在线实时处理,所述并行在线实时处理包括:对所述音频信息进行分类处理及对应不同类型的识别处理;
如果在音频输入结束之前得到可信的分类类型,则终止对应所述可信的分类类型之外类型的识别处理,获得对应所述可信的分类类型的识别结果;
执行所述识别结果对应的操作。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
如果直到音频输入结束后仍未得到可信的分类类型,则检测是否已得到识别结果;
如果是,则获得所述识别结果,然后执行所述识别结果对应的操作;
否则,确定音频输入异常。
10.根据权利要求9所述的方法,其特征在于,所述对所述音频信息进行对应不同类型的语音识别处理包括:
对所述音频信息分别进行对应语音、原声、哼唱的识别处理。
11.根据权利要求10所述的方法,其特征在于,所述对所述音频信息进行分类处理包括:判断所述音频信息是否为语音、原声、哼唱;
所述获得对应所述可信的分类类型的识别结果包括:
如果所述可信的分类类型为语音,则在音频输入结束之后获得对应语音的识别结果;
如果所述可信的分类类型为原声或哼唱,并且在音频输入结束之前得到原声或哼唱的识别结果时,获取所述原声或哼唱的识别结果。
12.根据权利要求10所述的方法,其特征在于,所述对所述音频信息进行分类处理包括:判断所述音频信息是否为语音、哼唱;
所述获取所述可信的分类类型对应的识别结果包括:
如果所述可信的分类类型为语音,则在音频输入结束之后获得对应语音的识别结果;
如果所述可信的分类类型为哼唱,并且在音频输入结束之前得到原声的识别结果时,获取所述原声的识别结果。
13.根据权利要求11或12所述的方法,其特征在于,所述方法还包括:
如果在音频输入结束之前未得到可信的分类类型,则检测是否得到对应原声或哼唱的识别结果;
如果是,则获取对应原声或哼唱的识别结果,并执行该识别结果对应的操作。
CN201510230283.3A 2015-05-07 2015-05-07 智能交互系统及方法 Active CN104867492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510230283.3A CN104867492B (zh) 2015-05-07 2015-05-07 智能交互系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510230283.3A CN104867492B (zh) 2015-05-07 2015-05-07 智能交互系统及方法

Publications (2)

Publication Number Publication Date
CN104867492A true CN104867492A (zh) 2015-08-26
CN104867492B CN104867492B (zh) 2019-09-03

Family

ID=53913284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510230283.3A Active CN104867492B (zh) 2015-05-07 2015-05-07 智能交互系统及方法

Country Status (1)

Country Link
CN (1) CN104867492B (zh)

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601216A (zh) * 2016-11-30 2017-04-26 宇龙计算机通信科技(深圳)有限公司 通过音乐实现电子设备控制的方法及系统
CN107491468A (zh) * 2016-06-11 2017-12-19 苹果公司 具有数字助理的应用集成
CN107992562A (zh) * 2017-11-29 2018-05-04 宁波高新区锦众信息科技有限公司 一种智能交互方法及系统
CN109189975A (zh) * 2018-09-06 2019-01-11 深圳市三宝创新智能有限公司 一种音乐播放方法、装置、计算机设备及可读存储介质
CN109993977A (zh) * 2017-12-29 2019-07-09 杭州海康威视数字技术股份有限公司 检测车辆鸣笛的方法、装置以及系统
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
CN113314123A (zh) * 2021-04-12 2021-08-27 科大讯飞股份有限公司 语音处理方法、电子设备及存储装置
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356996A (ja) * 1999-04-12 2000-12-26 Alpine Electronics Inc 音楽検索システム
CN1356689A (zh) * 2000-11-27 2002-07-03 皇家菲利浦电子有限公司 识别多首乐曲的方法
EP1542206A1 (en) * 2003-12-11 2005-06-15 Sony International (Europe) GmbH Apparatus and method for automatic classification of audio signals
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN102522083A (zh) * 2011-11-29 2012-06-27 北京百纳威尔科技有限公司 一种应用移动终端搜索哼唱歌曲的方法及其移动终端
CN103366784A (zh) * 2013-07-16 2013-10-23 湖南大学 具有语音控制和哼唱检索功能的多媒体播放方法及装置
CN103685520A (zh) * 2013-12-13 2014-03-26 深圳Tcl新技术有限公司 基于语音识别的歌曲推送的方法和装置
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104090894A (zh) * 2013-12-18 2014-10-08 深圳市腾讯计算机系统有限公司 在线并行计算推荐信息的方法、装置及服务器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356996A (ja) * 1999-04-12 2000-12-26 Alpine Electronics Inc 音楽検索システム
CN1356689A (zh) * 2000-11-27 2002-07-03 皇家菲利浦电子有限公司 识别多首乐曲的方法
EP1542206A1 (en) * 2003-12-11 2005-06-15 Sony International (Europe) GmbH Apparatus and method for automatic classification of audio signals
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN102522083A (zh) * 2011-11-29 2012-06-27 北京百纳威尔科技有限公司 一种应用移动终端搜索哼唱歌曲的方法及其移动终端
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN103366784A (zh) * 2013-07-16 2013-10-23 湖南大学 具有语音控制和哼唱检索功能的多媒体播放方法及装置
CN103685520A (zh) * 2013-12-13 2014-03-26 深圳Tcl新技术有限公司 基于语音识别的歌曲推送的方法和装置
CN104090894A (zh) * 2013-12-18 2014-10-08 深圳市腾讯计算机系统有限公司 在线并行计算推荐信息的方法、装置及服务器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《网易数码》: "《音乐识别神器 灵犀"听歌识曲"随心搜》", 《HTTP://DIGI.163.COM/14/1120/20/ABH6D93D001618JV.HTML》 *
于志华等: "《一种高性能固定语音识别并行处理架构》", 《计算机应用研究》 *
姜干新等: "《嵌入式语音识别系统中的DTW在线并行算法》", 《计算机应用研究》 *

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
CN107491468B (zh) * 2016-06-11 2021-06-01 苹果公司 具有数字助理的应用集成
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
CN107491468A (zh) * 2016-06-11 2017-12-19 苹果公司 具有数字助理的应用集成
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
CN106601216A (zh) * 2016-11-30 2017-04-26 宇龙计算机通信科技(深圳)有限公司 通过音乐实现电子设备控制的方法及系统
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
CN107992562A (zh) * 2017-11-29 2018-05-04 宁波高新区锦众信息科技有限公司 一种智能交互方法及系统
CN109993977A (zh) * 2017-12-29 2019-07-09 杭州海康威视数字技术股份有限公司 检测车辆鸣笛的方法、装置以及系统
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN109189975A (zh) * 2018-09-06 2019-01-11 深圳市三宝创新智能有限公司 一种音乐播放方法、装置、计算机设备及可读存储介质
CN109189975B (zh) * 2018-09-06 2021-12-24 深圳市三宝创新智能有限公司 一种音乐播放方法、装置、计算机设备及可读存储介质
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
CN113314123A (zh) * 2021-04-12 2021-08-27 科大讯飞股份有限公司 语音处理方法、电子设备及存储装置

Also Published As

Publication number Publication date
CN104867492B (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN104867492A (zh) 智能交互系统及方法
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN105872838A (zh) 即时视频的媒体特效发送方法和装置
CN106406806A (zh) 一种用于智能设备的控制方法及装置
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
CN107886955B (zh) 一种语音会话样本的身份识别方法、装置及设备
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN103827963A (zh) 使用说话者检验的背景语音辨识助理
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN108874895B (zh) 交互信息推送方法、装置、计算机设备及存储介质
CN105391730A (zh) 一种信息反馈方法、装置及系统
CN103117058A (zh) 基于智能电视平台的多语音引擎切换系统及方法
CN109271533A (zh) 一种多媒体文件检索方法
CN111081280A (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN101867742A (zh) 一种基于声控控制下的电视系统
CN105488135A (zh) 直播内容分类方法及装置
CN109473104A (zh) 语音识别网络延时优化方法及装置
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN104239442A (zh) 搜索结果的展现方法和装置
CN109509472A (zh) 基于语音平台识别背景音乐的方法、装置及系统
WO2023159881A1 (zh) 语音意图识别方法、装置及电子设备
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN110784591A (zh) 智能语音自动化探测方法、装置及系统
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
CN113779208A (zh) 用于人机对话的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210415

Address after: Room 210, 2nd Floor, Building 5, East Courtyard, No. 10 Wangdong Road, Northwest Haidian District, Beijing, 100193

Patentee after: BEIJING XUNFEI LEZHIXING SOFTWARE Co.,Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: IFLYTEK Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230908

Address after: 311-2, 3 / F, building 5, East District, No.10 courtyard, northwest Wangdong Road, Haidian District, Beijing

Patentee after: iFLYTEK (Beijing) Co.,Ltd.

Address before: Room 210, 2nd Floor, Building 5, East Courtyard, No. 10 Wangdong Road, Northwest Haidian District, Beijing, 100193

Patentee before: BEIJING XUNFEI LEZHIXING SOFTWARE CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231206

Address after: 307, 3rd Floor, Building 5, East District, No. 10 Northwest Wangdong Road, Haidian District, Beijing, 100193

Patentee after: Beijing iFLYTEK Education Technology Co.,Ltd.

Address before: 311-2, 3 / F, building 5, East District, No.10 courtyard, northwest Wangdong Road, Haidian District, Beijing

Patentee before: iFLYTEK (Beijing) Co.,Ltd.