CN104867492A

CN104867492A - 智能交互系统及方法

Info

Publication number: CN104867492A
Application number: CN201510230283.3A
Authority: CN
Inventors: 吴奎; 乔玉平; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: Beijing Iflytek Education Technology Co ltd
Priority date: 2015-05-07
Filing date: 2015-05-07
Publication date: 2015-08-26
Anticipated expiration: 2035-05-07
Also published as: CN104867492B

Abstract

本发明公开了一种智能交互系统及方法，该系统包括：音频接收模块，实时处理模块，执行模块；所述音频接收模块用于接收用户输入的音频信息；所述实时处理模块用于对所述音频信息进行并行在线实时处理，所述并行在线实时处理包括：对所述音频信息进行分类处理及对应不同类型的识别处理，并且如果在音频输入结束之前得到可信的分类类型，则终止对应所述可信的分类类型之外类型的识别处理，获得对应所述可信的分类类型的识别结果，并将该识别结果传送给所述执行模块；所述执行模块用于根据所述实时处理模块传送的识别结果执行对应的操作。利用本发明，可以使用户方便、快捷地使用音频识别和语音交互功能，提升用户体验。

Description

智能交互系统及方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种智能交互系统及方法。

背景技术

随着移动智能终端和信息网络技术的发展，人们对更方便、快捷、高效的智能人机交互方式的需求越来越强烈。比如人们可以以说话的形式向电子设备查询一些信息，比如天气、股票等；或命令电子设备做一些操作，如打电话、发短信等；又或者人们以哼唱或原声播放的形式，向电子设备查询、获取一些音频相关的信息，如音乐的名字、音乐的演唱者等。为此，一些智能交互产品相继出现，如以说话形式实现查询天气、打电话等交互的语音助手，以哼唱或原声形式实现音乐检索的音乐交互产品等。然而现有的智能交互产品一般只能单独支持以说话形式输入的语音交互，或者以哼唱、原声形式输入的音乐交互。用户在交互前需自行选定满足其需求的语音交互产品，甚至在选定产品后，在交互时，还需根据输入形式选定交互入口，如在一般的音乐查询检索产品中，用户需要首先选定是以哼唱还是原声形式输入的系统入口，然后才能完成人机交互过程。因此，现有的智能交互产品便捷性不强，用户体验不佳，无法满足用户对智能交互体验的追求。

发明内容

本发明实施例提供一种智能交互系统及方法，以使用户方便、快捷地使用音频识别和语音交互功能，提升用户体验。

为此，本发明实施例提供如下技术方案：

一种智能交互系统，包括：音频接收模块，实时处理模块，执行模块；

所述音频接收模块，用于接收用户输入的音频信息；

所述实时处理模块，用于对所述音频信息进行并行在线实时处理，所述并行在线实时处理包括：对所述音频信息进行分类处理及对应不同类型的识别处理，并且如果在音频输入结束之前得到可信的分类类型，则终止对应所述可信的分类类型之外类型的识别处理，获得对应所述可信的分类类型的识别结果，并将该识别结果传送给所述执行模块；

所述执行模块，用于根据所述实时处理模块传送的识别结果执行对应的操作。

优选地，所述实时处理模块包括：分类处理模块，识别模块，检测模块，识别结果输出模块；

所述分类处理模块，用于对所述音频信息进行分类处理；

所述识别处理模块，用于对所述音频信息进行对应不同类型的识别处理；

所述检测模块，用于检测所述分类处理模块是否得到可信的分类类型、所述识别处理模块是否得到对应所述可信的分类类型的识别结果、以及音频输入是否结束；在检测到所述分类处理模块得到可信的分类类型后，通知所述识别处理模块终止对应所述可信的分类类型之外类型的识别处理；

所述识别结果输出模块，还用于根据所述检测模块的检测结果从所述识别处理模块获取所述可信的分类类型对应的识别结果，并将该识别结果传送给所述执行模块。

优选地，所述检测模块，还用于在检测到所述分类处理模块得到可信的分类类型、并且检测到直到音频输入结束所述分类处理模块仍未得到可信的分类类型后，检测所述识别处理模块是否已得到识别结果，如果是，则通知所述识别结果输出模块输出所述识别结果。

优选地，所述识别处理模块包括：

语音识别引擎，用于对所述音频信息进行对应语音的语音识别处理；

原声识别引擎，用于对所述音频信息进行对应原声的语音识别处理；

哼唱识别引擎，用于对所述音频信息进行对应哼唱的语音识别处理。

优选地，所述分类处理模块，具体用于判断所述音频信息是否为语音、原声、哼唱；

所述识别结果输出模块在所述检测模块检测到所述分类处理模块得到的可信的分类类型为语音，并且在音频输入结束之后所述识别处理模块已得到语音的识别结果时，获取并输出对应语音的识别结果；在所述检测模块检测到所述分类处理模块得到的可信的分类类型为原声或哼唱，并且在音频输入结束之前所述识别处理模块得到原声或哼唱的识别结果时，获取并输出原声或哼唱的识别结果。

优选地，所述分类处理模块，具体用于判断所述音频信息是否为语音、哼唱；

所述识别结果输出模块在所述检测模块检测到所述分类处理模块得到的可信的分类类型为语音，并且在音频输入结束之后所述识别处理模块已得到语音的识别结果时，获取并输出对应语音的识识别结果；在所述检测模块检测到所述分类处理模块得到的可信的分类类型为哼唱，并且在音频输入结束之前所述识别处理模块得到哼唱的识别结果时，获取并输出所述哼唱的识别结果。

优选地，所述检测模块，还用于在检测到所述分类处理模块直到音频输入结束的时间段内未得到可信的分类类型，但在该时间段内所述识别处理模块已得到对应原声或哼唱的识别结果时，触发所述识别结果输出模块输出对应原声或哼唱的识别结果；

所述识别结果输出模块，还用于根据所述检测模块的触发获取对应原声或哼唱的识别结果，并将该识别结果传送给所述执行模块。

一种智能交互方法，包括：

接收用户输入的音频信息；

对所述音频信息进行并行在线实时处理，所述并行在线实时处理包括：对所述音频信息进行分类处理及对应不同类型的识别处理；

如果在音频输入结束之前得到可信的分类类型，则终止对应所述可信的分类类型之外类型的识别处理，获得对应所述可信的分类类型的识别结果；

执行所述识别结果对应的操作。

优选地，所述方法还包括：

如果直到音频输入结束后仍未得到可信的分类类型，则检测是否已得到识别结果；

如果是，则获得所述识别结果，然后执行所述识别结果对应的操作；

否则，确定音频输入异常。

优选地，所述对所述音频信息进行对应不同类型的语音识别处理包括：

对所述音频信息分别进行对应语音、原声、哼唱的识别处理。

优选地，所述对所述音频信息进行分类处理包括：判断所述音频信息是否为语音、原声、哼唱；

所述获得对应所述可信的分类类型的识别结果包括：

如果所述可信的分类类型为语音，则在音频输入结束之后获得对应语音的识别结果；

如果所述可信的分类类型为原声或哼唱，并且在音频输入结束之前得到原声或哼唱的识别结果时，获取所述原声或哼唱的识别结果。

优选地，所述对所述音频信息进行分类处理包括：判断所述音频信息是否为语音、哼唱；

所述获取所述可信的分类类型对应的识别结果包括：

如果所述可信的分类类型为哼唱，并且在音频输入结束之前得到原声的识别结果时，获取所述原声的识别结果。

优选地，所述方法还包括：

如果在音频输入结束之前未得到可信的分类类型，则检测是否得到对应原声或哼唱的识别结果；

如果是，则获取对应原声或哼唱的识别结果，并执行该识别结果对应的操作。

本发明实施例提供的智能交互系统及方法，在接收到用户输入的音频信息后，对其同时进行类型分析及识别处理，一旦得到可信的分类类型，即终止对应所述可信的分类类型之外类型的识别处理，并可根据音频信息的类型继续该类型下的识别处理，实现人机交互，从而可以使用户通过一个交互入口，即可实现多种不同类型的音频交互，比如语音交互、哼唱识别和原声识别服务，大大提升了用户体验。由于对音频信息的类型分析及识别处理是同时进行的，因此，不会因为类型分析过程而使对音频信息的识别处理产生时间上的延迟，提高了人机交互的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例智能交互系统的结构示意图；

图2是本发明实施例智能交互系统中实时处理模块的一种结构示意图；

图3是本发明实施例智能交互系统的一种工作时序图；

图4是本发明实施例智能交互系统的另一种工作时序图；

图5是本发明实施例智能交互方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，是本发明实施例智能交互系统的结构示意图。

该系统包括：音频接收模块101，实时处理模块102，执行模块103。

上述音频接收模块101用于接收用户输入的音频信息；实时处理模块102用于对所述音频信息进行并行在线实时处理，所述并行在线实时处理包括：对所述音频信息进行分类处理及对应不同类型的识别处理，并且如果在音频输入结束之前得到可信的分类类型，则终止对应所述可信的分类类型之外类型的识别处理，获得对应所述可信的分类类型的识别结果，并将该识别结果传送给执行模块103；执行模块103用于根据实时处理模块102传送的识别结果执行对应的操作，比如，查询、检索等操作。

相应地，在实际应用中，在所述系统中还可以设置显示模块(未图示)，以显示执行模块103执行相应操作返回的结果。

在本发明实施例中，所述音频信息可以包括以下任意一种或多种：用户说话语音信息、哼唱信息、原声信息，其中原声及哼唱信息可以涵盖音乐、影视、相声等形式。

所述并行在线实时处理包括：对所述音频信息进行分类处理及对应不同类型的识别处理，所述识别处理具体包括对应语音的识别处理、对应原声的识别处理、以及对应哼唱的识别处理。

参照图2所示，上述实时处理模块102的一种具体结构包括：分类处理模块121，识别处理模块122，检测模块123，识别结果输出模块124。其中：

分类处理模块121用于对所述音频信息进行分类处理；

识别处理模块122用于对所述音频信息进行对应不同类型的识别处理；

检测模块123用于检测所述分类处理模块121是否得到可信的分类类型、所述识别处理模块122是否得到对应所述可信的分类类型的识别结果、以及音频输入是否结束；在检测到所述分类处理模块121得到可信的分类类型后，通知所述识别处理模块122终止对应所述可信的分类类型之外类型的识别处理；

识别结果输出模块124用于根据所述检测模块123的检测结果从所述识别处理模块122获取所述可信的分类类型对应的识别结果，并将该识别结果传送给前面图1中所述的执行模块103。

当然，在实际应用中，所述实时处理模块102还可以采用其它具体结构，比如，可以设置控制模块来代替上述检测模块123和识别结果输出模块124，所述控制模块完成上述检测及根据检测结果及时输出识别结果的功能。而且，所述控制模块可以采用上述描述的主动检测的方式完成这些功能，也可以采用被动通知的方式完成其中部分或全部功能，比如分类处理模块121在得到可信的分类类型后通知所述控制模块；或者音频输入结束后，用户输入特定命令，比如点击特定按键，或者用户在按下特定按键后开始音频输入，音频输入结束后松开该特定按键等，以此来通知所述控制模块。再比如，还可以设置不同的检测模块，以完成不同的检测任务，对此本发明实施例不做限定。

进一步地，上述检测模块123还用于在检测到音频输入结束但所述分类处理模块121仍未得到可信的分类类型后，检测所述识别处理模块122是否已得到识别结果，如果是，则通知所述识别结果输出模块124输出所述识别结果，否则通知所述识别结果输出模块124音频输入异常。相应地，识别结果输出模块124得到该通知后，触发前面提到的显示模块显示相应的提示信息，该提示信息可以是文字和/或图像，比如显示“输入异常”，以提示用户。在线判决过程中，检测模块123可以基于活动语音检测技术判断音频输入是否结束。

需要说明的是，所述识别结果是指置信度大于设定阈值的识别结果。如果不满足该置信度要求，则认为所述识别处理模块122未得到识别结果。当然，对于不同类型的识别处理，所述阈值的设定可以相同，也可以不同，对此本发明实施例不做限定。

另外，在实际应用中，如果检测模块123检测到在音频输入结束后，所述分类处理模块121仍未得到可信的分类类型，并且所述识别处理模块122也未得到识别结果的情况下，也可以从当前已得到的识别结果中选择一个置信度最大的识别结果输出。

在实际应用中，分类处理模块121可以采用成熟的说话人确认技术来实现音频分类，如分类模型使用混合高斯模型(Gaussian Mixed Model，GMM)，特征使用梅尔倒谱系数(Mel-frequency Cepstrum Coefficients，MFCC)、基频相关特征以及其他可以区分音频的特征，得到输入的音频信号与各音频类型的似然得分，再通过得分规整技术对似然得分做规整，如果最高得分大于预设门限，则将该最高得分对应的类型作为音频分类结果。音频分类需要积累一定的音频量，采用离线方式进行判决会带来延迟。因此，本发明系统采用在线方式提取音频特征和得分计算，动态判断是否可以获得可信的分类类型。

由于原声音频包含的场景较多，如远近场音乐录音、影视等，单独的一个GMM模型分类能力不佳。为提升分类能力，可以选择若干个常用的原声音频识别场景，单独训练GMM模型，其他场景混合在一起训练一个GMM模型。

进一步地，由于语音交互时，用户输入的音频长度一般很短，可以利用音频长度信息提升分类效果。例如，如果检测到的音频有效长度小于2s，只进行原声和语音两类分类。

为了使本发明系统具有更好的适应性，在实际应用中，所述识别处理模块122可以包括：语音识别引擎、原声识别引擎、以及哼唱识别引擎。相应地，可以设置针对不同识别结果的执行模块。其中：

语音识别引擎用于对所述音频信息进行对应语音的语音识别处理。语音交互主要用于处理用户的语音搜索、语音查询和语音对话请求等，包括但不限制于语音拨号、语音查天气、语音搜歌等。语音识别引擎将用户的语音输入识别成文字。相应地，针对语音的识别结果设置的执行模块可以完成语义理解及查询等功能，具体地，对识别出的文字进行处理，分析出用户的意图，然后从语义库中得到与用户意图匹配的信息。

原声识别引擎用于对所述音频信息进行对应原声的语音识别处理。原声识别引擎主要用于识别用户收听到的音乐、影视节目、广告等音频，这些音频可以事先存放在原声音频库中。同样，原声识别引擎对用户输入的原声进行特征提取(具体以采用很多种匹配特征，如频谱峰值点、频谱小波变换系数等)、特征匹配(可以采用倒排表或者局部敏感哈希结构来加速匹配过程)。相应地，针对原声的识别结果设置的执行模块可以在歌曲库中找到识别的歌曲名和歌手返回给用户。

哼唱识别引擎用于对所述音频信息进行对应哼唱的语音识别处理。哼唱识别处理用于识别用户哼唱的旋律，在歌曲库中找到具有相似旋律的歌曲。具体地，对用户的哼唱音频提取对应的旋律特征，包括音符序列以及基频包络。相应地，针对哼唱的识别结果设置的执行模块根据哼唱识别引擎根据所述旋律特征在歌曲旋律库中进行匹配，找到旋律最相似的歌曲返回给用户。

当然，如果是针对特定的应用环境，也可以根据需要选用其中的一种或两种识别引擎，对此本发明实施例不做限定。

语音交互用于处理用户的语音搜索、语音查询和语音对话的请求，包括但不限制于语音拨号、语音查天气、语音搜歌等。其一般由自动语音识别模块和语义理解模块构成。语音识别模块将用户的语音输入识别成文字，语音理解模块则对识别文字进行处理，分析出用户的意图，然后从语义库中得到与用户意图匹配的信息。

另外需要说明的是，上述分类处理模块121也可以根据实际应用需要确定需要判断的音频类型，比如，可以判断所述音频信息是否为语音、原声、哼唱，也可以只判断所述音频信息是否为语音、哼唱，而对原声不做判断。

下面分别以这两种情况为例，详细说明本发明智能交互系统中各模块的工作过程。

如图3所示，是本发明实施例智能交互系统的一种工作时序图。

在该实施例中，分类处理模块需要判断音频接收模块接收的音频信息是否为以下三种类型：语音、原声、哼唱。该系统的主要工作过程如下：

301.音频接收模块接收音频信息。

302.音频接收模块将接收的音频信息同时送入分类处理模块和识别处理模块；相应地，分类处理模块对该音频信息进行类型判断，以确定其是何种类型的音频；识别处理模块中的语音识别引擎、原声识别引擎、哼唱识别引擎各自对该音频信息进行相应类型下的识别处理。

303.检测模块实时检测分类处理模块是否得到可信的分类类型；如果是，则执行步骤304；否则执行步骤311。

304.检测模块进一步检测可信的分类类型是否为原声或哼唱；如果是，则执行步骤305；否则执行步骤308。

305.检测模块通知识别处理模块中的语音识别引擎终止语音的识别处理(即步骤305_1)。当然，如果可信的分类类型是原声，则还要通知哼唱识别引擎终止哼唱的识别处理，或反之，如果可信的分类类型是哼唱，则还要通知原声识别引擎终止原声的识别处理，为了使图示清楚，在图中未示出。另外，检测模块还需要检测是否得到可信的分类类型(即原声或哼唱)的识别结果(即步骤305_2)。如果是，则执行步骤306；否则执行步骤309。

306.检测模块通知识别结果输出模块输出可信的分类类型(即原声或哼唱)的识别结果。

307.识别结果输出模块从可信的分类类型对应的识别引擎获取识别结果并输出该识别结果。

308.检测模块通知原声识别引擎和哼唱识别引擎终止相应的识别处理。

309.检测模块检测到音频输入结束后通知识别结果输出模块输出可信的分类类型的识别结果。

需要说明的是，音频输入结束后，得到的可信的分类类型的识别结果也可能不满足置信度阈值要求，此时可以选择其中一个置信度最大的结果输出，也可以拒识，给出相应的提示或响应，对此本发明实施例不做限定。

310.识别结果输出模块从可信的分类类型对应的识别引擎获取识别结果并输出该识别结果。

311.检测模块检测到音频输入结束仍未得到可信的分类类型，则进一步检测是否有语音或者原声或者哼唱的识别结果；如果有，则执行步骤312；否则，执行步骤313。

312.通知识别结果输出模块输出相应的识别结果。

313.通知识别结果输出模块音频输入异常。

可见，在该实施例中，如果检测模块在音频输入结束之前检测到了可信的分类类型是语音，则需要等到音频输入结束之后再由识别结果输出模块输出语音识别引擎的识别结果。如果检测模块在音频输入结束之前检测到了可信的分类类型是原声或哼唱，并且在音频输入结束之前相应的识别引擎已获得识别结果，则无需等到音频输入结束即可由识别结果输出模块输出该识别结果给执行模块，从而进一步提高了交互效率；而如果在音频输入结束之前相应的识别引擎未获得识别结果，则需要等到音频输入结束，如果此时得到了识别结果，则输出该识别结果，否则，可以给出音频输入异常等提示信息。另外，如果直到音频输入结束都未得到可信的分类类型，则要检测是否有语音或者原声或者哼唱的识别结果，如果有，则输出相应的识别结果，否则确定音频输入异常。

需要说明的是，在实际应用中，检测模块还可以在检测到音频输入结束之前，所述分类处理模块未得到可信的分类类型的情况下，检测所述识别处理模块是否得到了原声或哼唱的识别结果；如果是，则检测模块通知所述识别结果输出模块获取并输出该识别结果。当然，此时，检测模块还需要通知识别处理模块中的各识别引擎终止各自的识别处理操作。

进一步的，考虑到原声信息覆盖范围广、所含信息量大，如远近场音乐、影视录音，所以在实际应用中难以收集全各场景的原声数据，因而在采用上述系统进行音频并行分析、处理时会出现额外多余工作，造成资源浪费，如输入的是一种训练集之外的原声数据，那么采用上述系统流程处理时，可能直至音频流结束一直难以得到可信的分类结果，那么所有类型的处理单元就一直在工作，浪费服务器资源。为此，在本发明系统另一实施例中，分类处理模块可以仅判断音频接收模块接收的音频信息是否为语音、哼唱。

如图4所示，是本发明实施例智能交互系统的另一种工作时序图。

在该实施例中，分类处理模块用于判断音频接收模块接收的音频信息是否为语音、哼唱。该系统的主要工作过程如下：

401.音频接收模块接收音频信息。

402.音频接收模块将接收的音频信息同时送入分类处理模块和识别处理模块；相应地，分类处理模块对该音频信息进行类型判断，以确定其是何种类型的音频；识别处理模块中的语音识别引擎、原声识别引擎、哼唱识别引擎各自对该音频信息进行相应类型下的识别处理。

403.检测模块实时检测分类处理模块是否得到可信的分类类型；如果是，则执行步骤404；否则执行步骤411。

404.检测模块进一步检测可信的分类类型是否为哼唱；如果是，则执行步骤405；否则执行步骤408。

405.检测模块通知识别处理模块中的语音识别引擎和原声识别引擎终止相应的识别处理(即步骤405_1)。另外，检测模块还需要检测是否得到哼唱的识别结果(即步骤405_2)。如果是，则执行步骤406；否则执行步骤409。

406.检测模块通知识别结果输出模块输出哼唱的识别结果。

407.识别结果输出模块从哼唱识别引擎获取识别结果并输出该识别结果。

408.检测模块通知原声识别引擎和哼唱识别引擎终止相应的识别处理。

409.检测模块检测到音频输入结束后通知识别结果输出模块输出可信的分类类型的识别结果。

410.识别结果输出模块从可信的分类类型对应的识别引擎获取识别结果并输出该识别结果。

411.检测模块检测在音频输入结束前是否得到原声或哼唱的识别结果。如果是，则执行步骤412；否则执行步骤414。

412.检测模块一方面要通知分类处理模块停止分类处理、通知语音识别引擎、原声识别引擎、以及哼唱识别引擎停止识别处理操作(图中未示出)，另一方面还要通知识别结果输出模块输出所述原声或哼唱的识别结果。

413.识别结果输出模块从原声识别引擎或哼唱识别引擎获取原声或哼唱的识别结果并输出。

414.检测模块检测到音频输入结束仍未得到可信的分类类型，则进一步检测是否有语音或者原声或者哼唱的识别结果；如果是，则执行步骤415；否则，执行步骤416。

415.通知识别结果输出模块输出相应的识别结果。

416.通知识别结果输出模块音频输入异常。

可见，在该实施例中，如果检测模块在音频输入结束之前检测到了可信的分类类型是语音，则需要等到音频输入结束之后再由识别结果输出模块输出语音识别引擎的识别结果。如果检测模块在音频输入结束之前检测到了可信的分类类型是哼唱，并且在音频输入结束之前哼唱识别引擎已获得识别结果(比如大于一定阈值的识别结果)，则无需等到音频输入结束即可由识别结果输出模块输出该识别结果给执行模块，从而进一步提高了交互效率；而如果在音频输入结束之前哼唱识别引擎未获得识别结果，则需要等到音频输入结束，如果此时得到了识别结果，则输出该识别结果，否则，可以给出音频输入异常等提示信息。另外，如果直到音频输入结束都未得到可信的分类类型，则要检测是否有语音或者原声或者哼唱的识别结果，如果有，则输出相应的识别结果，否则确定音频输入异常。

利用本发明实施例的智能交互系统，可以使用户通过一个交互入口，即可实现多种不同类型的音频交互，而且对用户输入的音频信息进行并行在线实时处理，即对用户输入的音频信息同时进行类型分析及识别处理，一旦得到可信的分类类型，即可根据音频信息的类型继续该类型下的识别处理，实现人机交互。与传统智能交互产品相比，本发明实施例的智能交互系统不仅通用性强，提高了系统的适应性，而且快捷、高效、准确，大大提升了用户体验。

相应地，本发明实施例还提供一种智能交互方法，如图5所示，是该方法的一种流程图，包括以下步骤：

步骤501，接收用户输入的音频信息。

步骤502，对所述音频信息进行并行在线实时处理，所述并行在线实时处理包括：对所述音频信息进行分类处理及对应不同类型的识别处理。

步骤503，如果在音频输入结束之前得到可信的分类类型，则终止对应所述可信的分类类型之外类型的识别处理，获得对应所述可信的分类类型的识别结果。

步骤504，执行所述识别结果对应的操作。

所述音频信息可以是用户说话语音信息、哼唱信息、原声信息。相应地，对所述音频信息进行的识别处理包括对应语音、原声、哼唱的识别处理。而对所述音频信息进行的分类处理可以是判断所述音频信息是否为语音、原声、哼唱，也可以是仅判断所述音频例信息是否为语音、哼唱，具体可根据实际应用需要来确定，本发明实施例不做限定。在不同应用的情况下对所述音频信息的识别处理可参照前面图3及图4所示的流程，在此不再赘述。

利用本发明实施例的智能交互方法，可以使用户通过一个交互入口，即可实现多种不同类型的音频交互，而且对用户输入的音频信息进行并行在线实时处理，即对用户输入的音频信息同时进行类型分析及识别处理，一旦得到可信的分类类型，即可根据音频信息的类型继续该类型下的识别处理，实现人机交互。与传统智能交互方法相比，本发明实施例的智能交互方法不仅通用性强，提高了系统的适用性，而且快捷、高效、准确，大大提升了用户体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能交互系统，其特征在于，包括：音频接收模块，实时处理模块，执行模块；

所述音频接收模块，用于接收用户输入的音频信息；

2.根据权利要求1所述的系统，其特征在于，所述实时处理模块包括：分类处理模块，识别模块，检测模块，识别结果输出模块；

所述分类处理模块，用于对所述音频信息进行分类处理；

3.根据权利要求2所述的系统，其特征在于，

所述检测模块，还用于在检测到所述分类处理模块得到可信的分类类型、并且检测到直到音频输入结束所述分类处理模块仍未得到可信的分类类型后，检测所述识别处理模块是否已得到识别结果，如果是，则通知所述识别结果输出模块输出所述识别结果。

4.根据权利要求2所述的系统，其特征在于，所述识别处理模块包括：

5.根据权利要求3所述的系统，其特征在于，

所述分类处理模块，具体用于判断所述音频信息是否为语音、原声、哼唱；

6.根据权利要求3所述的系统，其特征在于，

所述分类处理模块，具体用于判断所述音频信息是否为语音、哼唱；

7.根据权利要求5或6所述的系统，其特征在于，

所述检测模块，还用于在检测到所述分类处理模块直到音频输入结束的时间段内未得到可信的分类类型，但在该时间段内所述识别处理模块已得到对应原声或哼唱的识别结果时，触发所述识别结果输出模块输出对应原声或哼唱的识别结果；

8.一种智能交互方法，其特征在于，包括：

接收用户输入的音频信息；

执行所述识别结果对应的操作。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

否则，确定音频输入异常。

10.根据权利要求9所述的方法，其特征在于，所述对所述音频信息进行对应不同类型的语音识别处理包括：

11.根据权利要求10所述的方法，其特征在于，所述对所述音频信息进行分类处理包括：判断所述音频信息是否为语音、原声、哼唱；

所述获得对应所述可信的分类类型的识别结果包括：

12.根据权利要求10所述的方法，其特征在于，所述对所述音频信息进行分类处理包括：判断所述音频信息是否为语音、哼唱；

所述获取所述可信的分类类型对应的识别结果包括：

13.根据权利要求11或12所述的方法，其特征在于，所述方法还包括：