CN102821214B

CN102821214B - 一种基于移动终端的语音交互的方法和系统

Info

Publication number: CN102821214B
Application number: CN201210220231.4A
Authority: CN
Inventors: 俞凯; 王欢良; 邹平; 张李
Original assignee: Suzhou Speech Information Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2012-06-29
Filing date: 2012-06-29
Publication date: 2015-01-21
Anticipated expiration: 2032-06-29
Also published as: CN102821214A

Abstract

本发明提供一种在通话过程中实现终端用户与第三方应用语音交互的系统及其方法，其中该方法包括：激活控制模块接收用户操作指令，控制第一数据分路模块、语音交互模块、音频插入模块的协调工作；第一数据分路模块获取上行链路通话信道中传输的语音数据，并发送到语音交互处理模块；语音交互处理模块分析语音数据得到其语义信息，向对应的第三方应用发出操作指令，接收返回的音频信息并输出到第二音频插入模块；第二音频插入模块在接收到语音交互处理模块发送的音频数据流之后，将其插入上行链路通话信道中进行传输；激活控制模块接收用户交互结束控制信号或者自动检测交互结束状态，停止第一数据分路模块和语音交互模块工作。

Description

一种基于移动终端的语音交互的方法和系统

技术领域

本发明涉及语音信号处理技术、人机交互技术和移动通信技术领域，尤其是一种基于移动终端的语音交互技术领域。

背景技术

在A、B双方通话过程中，A方或者B方可能需要获得一些及时信息。这些信息或者直接存储在本地终端的存储器中，用户可以直接操作系统菜单来访问；或者存储在特定的数据库中，需要通过特定应用程序来获得；或者该信息不在本地终端，需要利用特定应用程序从网络上获得；或者该信息需要通过特定应用程序自动生成。但是由于双方在通话中，不方便通过键盘或者触摸屏来操作应用程序获得所需信息。此时，通过语音来操控应用程序将是非常方便的。但是由于在通话过程中，用户的语音操控命令无法传输到语音交互处理单元，从而无法实现和第三方应用交互。

一个典型的应用场景就是，通话过程中，B方要求A方提供一些存储在其本地终端或者网络上的信息，比如特定人的联系方式、工作日程表等。A方用户希望通过语音命令方式去控制第三方应用程序快速查询数据库来获得该信息，然后再通过通话信道把该信息及时发送给B方。但由于处于通话状态，A方用户语音指令直接被发送到B方，无法传递到第三方应用，并且得到的查询结果信息也无法及时发送给B方。

目前所公开文献和专利中还没有类似的或者相关的技术方案。专利CN10172967公开了一种移动办公和视频通话交互处理的操作方法及移动终端，其关键特征是通过输入设备的操作在移动办公和视频通话之间切换和共享显示屏幕。

发明内容

针对上述需求和所存在的问题，本发明专利提供一种基于移动终端的语音交互的方法和系统。

一种基于移动终端的语音交互的系统，包括如下模块：

激活控制单元：用于控制和管理数据分路单元和语音交互处理单元以及音频插入单元的协调工作；

语音数据分路单元：用于把通信链路中传输的语音数据转发给语音处理单元，屏蔽通信信道传输话音数据的传输；

语音交互处理单元：用于处理输入语音信号，并据此向第三方应用提交请求，然后把第三方应用的反馈结果以音频信息形式输出；

音频插入单元：屏蔽通信信道传输的话音数据，把语音交互处理单元输出的音频数据插入到终端内通信链路的信道上进行传输；

所述激活控制单元，用于接收用户的操作信号，并根据不同的操作信号类型，分别或者同时控制或者改变数据分路单元和语音交互处理单元以及音频插入单元的工作状态；

所述激活控制单元，用于控制语音数据分路单元开始工作或者停止工作；控制语音交互处理单元开始工作或者停止工作；控制音频插入单元开始工作或者停止工作。

优选地，所述语音交互处理单元，具有内建的语音激活检测模块、语音识别模块和语义分析模块以及语音合成模块，或者访问终端之外的语音识别模块、语义分析模块和语音合成模块。

优选地，所述语音交互处理单元，其特点还在于其具有和第三方应用的交互接口，它按照给定数据格式向第三方应用提交请求，同时接收来自第三方应用的反馈数据。

优选地，所述语音交互处理单元通过语音激活检测模块把接收到的用户指令语音送入语音识别模块进行识别，然后把识别结果送入语义分析模块进行分析，得到语音指令的语义分析结果；在用户确认该语义正确之后，根据所述语义信息向第三方应用发出操作指令；然后得到第三方应用的反馈结果，如果是音频信息，则直接输出；如果是文本信息，则把它发送到语音合成单元进行语音合成，输出音频信息。

优选地，所述语音交互单元根据语义分析结果，选择相对应的第三方应用，并发出请求；

优选地，所述语音交互单元向第三方应用发出的请求包括但不限于：查询请求、执行特定操作请求、或者两者的结合；

优选地，数据分路单元分为第一数据分路单元和第二数据分路单元。其中第一数据分路单元用于处理移动终端内上行链路通话信道的语音数据，把上行链路通话信道中传输的语音数据转发到语音交互处理单元，同时阻断该语音数据在所述通话信道中的继续传输；第二数据分路单元用于处理移动终端内下行链路通话信道的语音数据，把下行链路通话信道中传输的语音数据转发到语音交互处理单元，同时阻断该语音数据在所述通话信道中的继续传输；

音频插入单元分为第一音频插入单元和第二音频插入单元。其中第一音频插入单元用于屏蔽移动终端内下行链路通话信道中传输的话音数据，并向其中插入音频数据；第二音频插入单元用于屏蔽移动终端内上行链路通话信道中传输的语音数据，并向其中插入音频数据。

优选地，所述的基于移动终端的语音交互的系统，本地终端用户可以和移动终端上的第三方应用交互；远端用户也可以和移动终端上的第三方应用交互。

优选地，所述的基于移动终端的语音交互的系统，其语音交互处理单元接收并区分来自第一数据分路单元的语音数据和第二数据分路单元的语音数据。

优选地，所述的基于移动终端的语音交互的系统，其语音交互处理单元区分第一音频插入单元和第二音频插入单元的语音数据通道，并分别向第一音频插入单元和第二音频插入单元发送数据。

优选地，所述的基于移动终端的语音交互的系统，支持本地终端用户通过第一数据分路单元、语音交互处理单元以及第二音频插入单元和移动终端上的第三方应用交互。

优选地，所述的基于移动终端的语音交互的系统，支持远端用户通过第二数据分路单元、语音交互处理单元以及第一音频插入单元和移动终端上的第三方应用交互。

优选地，所述的基于移动终端的语音交互的系统，其特征在于所述用户和第三方应用之间的语音交互是多轮的对话交互。

一种基于移动终端的语音交互方法，具体包括如下步骤：

Step 1：激活控制模块接收用户发出的开始交互的控制信号，启动第一数据分路模块和语音交互模块开始工作；

Step 2：第一数据分路模块获取上行链路通话信道中传输的语音数据，并发送到语音交互处理模块，屏蔽该语音数据在通话信道中的传输；

Step 3：语音交互处理模块接收第一数据分路模块发送的语音数据，检测语音的起始点和结束点，识别该语音数据内容，并分析得到其语义信息；

Step 4：语音交互处理模块根据语义分析结果向对应的第三方应用发出操作指令；

Step 5：语音交互处理模块接收到第三方应用返回的结果，如果所述结果不是音频信息而是文本信息，则通过语音合成把该文本信息转化为对应的音频信息；

Step 6：语音交互处理模块把从第三方应用接收的返回结果以音频方式输出到第二音频插入模块，输出到第一音频插入模块；

Step 7：第一音频插入模块或者第二音频插入模块在接收到语音交互处理模块发送的音频信息之后，首先屏蔽对应的下行链路或者上行链路通话信道中的语音数据传输，然后把接收到的音频信息插入信道进行传输；

Step 8：激活控制模块接收用户交互结束控制指令或者自动检测交互结束状态，停止第一数据分路模块和语音交互模块工作。

上述基于移动终端的语音交互的方法，其Step 3和Step 4之间，有一个用户确认过程，具体步骤包括：

Step 3.1：语音交互处理模块把语义分析的结果通过语音合成转化为对应的包含请求确认信息的音频，并输出到第一音频插入模块，或者，直接把语义分析结果对应的文本输出到显示屏；

Step 3.2：第一音频插入模块在接收到语音交互处理模块发送的音频流之后，首先屏蔽下行链路通话信道中传输的语音数据，然后把接收到的音频数据插入通话信道；

Step 3.3：用户通过显示屏观察到该确认请求或者通过听筒接收到该确认请求后，通过激活控制模块或者语音指令方式输入指令信息；

Step 3.4：语音交互处理模块接收激活控制模块发送的确认信息，或者根据接收到语音指令的语义解析结果得到确认信息；

Step 3.4、语音交互处理模块接收激活控制模块发送的指令信息，或者根据接收到的语音指令信息的语义解析结果得到指令内容；

如果是确认指令，则进入Step 4；如果是重新识别指令，则进入Step 2；如果是交互结束控制指令，则进入Step 8。

上述基于移动终端的语音交互的方法，其Step 4和Step 5典型地分为两种情况：

如果用户与第三方应用交互的目的是获取所需信息，则所述的操作指令通常为一条查询请求指令，语音交互处理模块会接收第三方应用返回的查询结果。如果是所述结果是文本形式，则通过语音合成把该文本转化为对应的音频；

如果用户与第三方应用交互的目的是执行特定操作，则所述的操作指令通常为一条操作执行指令，语音交互处理模块会收到第三方应用返回的操作执行状态信息，然后通过语音合成把该信息转化为对应的音频。

上述基于移动终端的语音交互的方法，支持远端用户和本地终端上的第三方应用进行语音交互，具体步骤包括：

Step 1：激活控制模块接收用户交互开始控制信号，启动第二数据分路模块和语音交互模块开始工作

Step 2：第二数据分路模块获取下行链路通话信道中传输的语音数据，并发送到语音交互处理模块，阻断该语音数据在通话信道中的继续传输；

Step 3：语音交互处理模块接收第二数据分路模块发送的语音数据，识别该语音数据内容，并分析得到其语义信息；

Step 6：语音交互处理模块把得到的音频信息输出到第一音频插入模块，输出到第二音频插入模块；

Step 7：第一音频插入模块或者第二音频插入模块在接收到语音交互处理模块发送的音频数据流之后，首先屏蔽对应的下行链路或者上行链路通话信道中的语音数据传输，然后把接收到的音频数据流插入对应的下行链路或者上行链路通话信道进行传输；

Step 8：激活控制单元接收用户交互结束控制信号或者自动检测交互结束状态，停止第二数据分路模块和语音交互模块工作。

典型地，所述的通话过程中实现终端用户与第三方应用语音交互的方法，同时支持上述两种交互方式，以实现本地用户和远端用户同时与本地终端第三方应用的交互。

技术特点

1)在不中断通话信道连接的情况下，用户可以在通话过程中通过语音与本地移动终端上的第三方应用进行交互

2)用户可以通过与第三方应用交互来执行特定操作或者获取所需信息，该信息以音频形式反馈输出

3)既可以单独支持本地用户或远端用户与本地终端第三应用进行语音交互，也可以支持本地用户和远端用户同时与本地终端第三方应用进行语音交互

与现有技术的不同

1)用户可以在通话过程中与本地终端第三方应用进行语音交互，不会中断通话信道连接

2)用户通过语音与第三方应用交互来获得所需信息或者执行特定操作

3)第三方应用返回的信息可以以音频方式实时反馈给用户

4)同时支持本地用户和远端用户与本地终端第三方应用进行语音交互

5)技术目标和技术效果不同

附图说明

图1本地用户、远端用户同时与本地终端第三方应用进行语音交互的系统结构框图

图2本地用户与本地终端第三方应用进行语音交互的系统结构框图

图3远端用户与本地终端第三方应用进行语音交互的系统结构框图

图4本地用户与本地终端第三方应用进行语音交互的工作流程图

图5远端用户与本地终端第三方应用进行语音交互的工作流程图

图6带有用户确认功能的语音交互处理模块的工作流程图

图7终端用户与第三方应用语音交互中带有用户确认功能过程的流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

一种基于移动终端的语音交互的系统，可以支持本地用户和远端用户在通话过程中以语音方式与本地终端第三方应用交互，以获取所需信息或者执行特定操作。所述系统包括如下模块，如图1所示：

第一数据分路单元101：用于捕获上行链路通话信道中传输的语音数据，并把它转发到语音交互处理单元；

语音交互处理单元102：用于处理接收到的语音数据，识别其内容，解析其语义，并根据语音语义向第三方应用发送操作请求，接收第三方应用返回的结果，转化为音频形式输出；

第一音频插入单元103：用于接收语音交互处理单元输出的音频数据，屏蔽下行链路通话信道中传输的语音数据，把所接收的音频数据插入下行链路通话信道传输；

第二数据分路单元104：用于捕获下行链路通话信道中传输的语音数据，并把它转发到语音交互处理单元；

第二音频插入单元105：用于接收语音交互处理单元输出的音频数据，屏蔽上行链路通话信道中传输的语音数据，把所接收的音频数据插入上行链路通话信道传输；

激活控制单元106：用于控制上述单元，改变其工作状态。

所述的第一数据分路单元101，还可以阻断上行链路通话信道中语音数据的传输。

所述的第二数据分路单元104，还可以阻断下行链路通话信道中语音数据的传输。

所述的语音交互处理单元102，具有内建的语音激活检测模块，也可以内建语音识别模块和语义分析模块以及语音合成模块，或者访问终端之外的语音识别模块和语义分析模块以及语音合成模块。

所述的语音交互处理单元102，还具有和第三方应用交互的接口。

典型地，所述的语音交互处理单元102可以根据语义分析结果，向第三方应用提交一个查询操作请求，并接收来自第三方应用的反馈结果，比如查询联系方式。

典型地，所述的语音交互处理单元102可以根据语义分析结果，向第三方应用发出一个操作执行请求，控制第三方应用执行一个特定操作，比如打开一个网页。

所述的语音交互处理单元102，具有两个独立的音频数据输入接口，分别用于接收来自第一数据分路单元101和第二数据分路单元104发送的语音数据。

所述的语音交互处理单元102，具有两个独立的音频数据输出接口，分别用于向第一音频插入单元103和第二音频插入单元105输出音频数据。

所述的语音交互处理单元102，如图2所示，其典型的工作流程为：

Step 1：接收来自第一数据分路单元101或第二数据分路单元104的语音数据；

Step 2：通过语音激活检测模块，检测语音的起始点和结束点；

Step 3：如果检测到语音的开始点，则把语音数据发送到语音识别模块，进行识别；

Step 4：如果检测到语音的结束点，停止识别，把识别结果送入语义分析模块进行语义分析；

Step 5：根据语义分析结果，向对应的第三方应用发送操作请求；

Step 6：接收第三方应用返回的结果，如果是文本形式，通过语音合成模块转化为音频；

Step 7：把所述的音频发送到第一音频插入单元103或者第二音频插入单元105。

所述的激活控制单元106，可以根据用户的外部操作来控制上述单元的协调工作。

典型地，所述的激活控制单元106可以同时启动第一数据分路单元101和语音交互处理单元102或者第二数据分路单元104和语音交互处理单元102同时开始工作或者停止工作。

典型地，所述的激活控制单元106可以单独控制第一音频插入单元103和第二音频插入单元105开始工作或者停止工作。

典型地，所述的激活控制单元106还可以实现对语音交互处理单元102输出的语义分析结果的确认操作。

典型地，本地用户可以通过第一数据分路单元101，语音交互处理单元102和第一音频插入单元103以及上下行链路通话信道组成的通道和本地终端第三方应用进行语音交互。

典型地，远端用户可以通过第二数据分路单元104，语音交互处理单元102和第二音频插入单元105以及上下行链路通话信道组成的通道和本地终端第三方应用进行语音交互。

典型地，在本地用户和本地终端第三方应用进行语音交互的过程中，启动第二音频插入单元105，远端用户可以接收到由语音交互处理单元输出的第三方应用返回的结果信息。

典型地，在远端用户和本地终端第三方应用进行语音交互的过程中，启动第一音频插入单元103，本地用户可以接收到由语音交互处理单元输出的第三方应用返回的结果信息。

所述的基于移动终端的语音交互的系统，其特征在于所述用户和第三方应用之间的语音交互允许多轮的对话交互。

所述的基于移动终端的语音交互的系统，其特征在于本地用户和远端用户可以同时以语音方式和本地终端第三方应用进行交互。

所述的基于移动终端的语音交互的系统，其特征在于本地用户和远端用户可以在通话过程中和本地终端第三方应用进行语音交互。

本发明所述系统的一种典型的实施例为：所述系统中不包括第二数据分路单元，如图3所示。此系统为本发明所述系统的一种简化系统，只允许本地用户在通话过程中和本地终端第三方应用进行语音交互，且远端用户可以及时了解本地用户和第三方应用交互的过程，包括接收从第三方应用返回的结果信息。

本发明所述系统的另一种典型的实施例为：所述系统中不包括第一数据分路单元，如图4所示。此系统为本发明所述系统的一种简化系统，只允许远端用户在通话过程中和本地终端第三方应用进行语音交互，且本地用户可以及时了解远端用户和第三方应用交互的过程，包括接收从第三方应用返回的结果信息。

一种基于移动终端的语音交互的方法，可实现本地用户在通话过程通过语音与第三方应用进行交互的功能，其工作流程如图5所示，具体包括如下步骤：

Step 1：激活控制模块接收用户发出的开始交互的控制信号，启动第一数据分路模块和语音交互处理模块；

Step 2：第一数据分路模块获取上行链路通话信道中传输的语音数据，并发送到语音交互处理模块，可选地可阻断该语音数据在通话信道中的继续传输；

Step 5：语音交互处理模块接收到第三方应用返回的结果，如果是文本信息，则通过语音合成把该文本转化为对应的音频信息；

Step 6：语音交互处理模块把从第三方应用接收的返回结果以音频方式输出到第二音频插入模块，可选地，输出到第一音频插入模块；

Step 8：激活控制模块接收用户交互结束控制信号或者自动检测交互结束状态，停止第一数据分路模块和语音交互模块工作。

上述基于移动终端的语音交互的方法，支持远端用户在通话过程中和本地终端上的第三方应用进行语音交互，其工作流程如图6所示，具体步骤包括：

Step 2：第二数据分路模块获取下行链路通话信道中传输的语音数据，并发送到语音交互处理模块，可选地可阻断该语音数据在通话信道中的继续传输；

Step 8：激活控制单元接收用户交互结束控制信号或者自动检测交互结束状态，停止第二数据分路模块和语音交互单元工作。

典型地，所述的通话过程中实现终端用户与第三方应用语音交互的方法，可以同时支持上述两种交互工作方式，以实现本地用户和远端用户同时与本地终端第三方应用的语音交互。

典型地，所述的通话过程中实现终端用户与第三方应用语音交互的方法，在本地用户和远端用户同时与本地终端第三方应用进行交互的过程中，可以采用如下两种方式：

1、本地用户和远端用户与第三方应用的交互是相互独立的，互不干扰，一方接收不到对方与第三方应用交互的信息；

2、本地用户和远端用户与第三方应用的交互是相互依赖的，双方都可以接收到对方与第三方应用交互的信息；

所述的第一种方式通过如下方式实现：在数据分路模块工作时，自动阻断对应的通话信道中语音数据的传输，且语音交互处理模块输出的音频只发送到对应的音频插入模块。比如，如果是本地用户与第三方应用交互产生的输出信息，则只发送到第一音频插入单元。

所述的第二种方式通过如下方式实现：在数据分路模块工作时，对应的通话信道中语音数据的可以继续传输，且语音交互处理模块输出的音频会同时发送到第一音频插入模块和第二音频插入模块。

上述基于移动终端的语音交互的方法，其Step 3和Step 4之间，可选地，可以有一个用户确认过程，其流程如图7所示，具体步骤包括：

Step3.1：语音交互处理模块把语义分析的结果通过语音合成转化为对应的包含请求确认信息的音频，并输出到第一音频插入模块，或者，直接把语义分析结果对应的文本输出到显示屏；

Step 3.3：用户通过显示屏观察到该确认请求或者通过听筒接收到该确认请求后，可通过激活控制模块或者语音指令方式输入确认信息；

Step 3.5：如果是确认，则进入Step 4；否则进入Step 2或者Step 8。

典型地，上述基于移动终端的语音交互的方法，其Step 4和Step 5可分为两种情况：

典型实施例：

实施例1：

典型应用场景：A、B双方在通话，B方急需请A方提供一些信息，比如某个朋友或客户的联系方式，股市概况等。A方需要查询自己的通信录或者其他第三方应用才能获取到这些信息，比如从网络上搜索所需信息。然而，A正在开车不便于操作其移动通信终端。此时，A方希望通过其他方式与第三方应用交互来获取所需信息，然后可及时把该信息发送给B方。

基于本发明所公开的技术，用户A可以很方便地通过语音与第三方应用交互来获得所需信息，然后及时发送给B方。具体操作流程为：

1)A方通过触控移动通信终端的特定位置(比如按键或者滑动等)，向激活控制单元发送与第三方应用交互的请求；

2)激活控制单元启动第一数据分路单元和语音交互处理单元开始工作；

3)A方发出语音指令，比如A方说“请查一下张健的联系方式”，第一数据分路单元自动把该语音转发到语音交互处理单元；

4)可选地，通过预先设置，该数据分路单元可屏蔽该语音数据通过上行链路信道传输到B方；

5)语音交互处理单元在接收到该指令语音数据后，自动识别出其内容，并分析其所含语义，然后根据其语义自动向第三方应用(此应用是一个自动根据输入人名文本查询通信录并返回查询结果的应用程序)发出查询操作请求；

6)语音交互处理单元接收从第三方应用返回的结果(“张健”的联系方式文本或者查询失败的文本)，并通过语音合成把文本转化为音频；

7)语音交互处理单元把所述音频输出到第一音频插入单元；可选地，同时输出到第二音频插入单元；

8)第一音频插入单元把接收到的音频插入下行链路通话信道，反馈给A方用户，第二音频插入单元把接收到的音频插入上行链路通话信道，反馈给B方用户；

9)A方用户控制激活控制单元停止第一数据分路单元和语音交互处理单元的工作，结束与第三方应用的语音交互，回到正常通话状态。

10)如果所述音频未发送到第二音频插入单元，则A方用户在接收到该音频后，需要通过上行链路通话信道转述给B方用户。

实施例2：

典型应用场景：B方打电话想从A方获取一些信息，该信息存储于A方移动通信终端或者可通过该移动通信终端来访问获得。但是A方所处场合不便于大声说话，也不便于长时操作移动通信终端，或者A方无法无法确切掌握B方的具体需求，比如环境比较嘈杂。此时，更为便捷的办法是B方用户直接通过语音与本地终端第三方应用进行交互，来获取其所需信息。

基于本发明所公开技术，A方可以授权B方直接通过语音和其终端上的第三方应用进行交互，来获得所需信息。具体操作流程为：

1)在已知B方用户身份的情况下，A方用户通过触控移动通信终端的特定位置(比如按键或者滑动等)，向激活控制单元发送授权B方用户与第三方应用交互的请求；

2)激活控制单元接到信号后，自动启动第二数据分路单元和语音交互处理单元开始工作；

3)B方用户发出语音指令，比如B方说“告诉我A下周的日程安排”，该语音通过通话信道传送到A方移动终端，A方移动终端上的第二数据分路单元把该语音转发到语音交互处理单元；

4)可选地，通过预先设置，第二数据分路单元可屏蔽该语音数据通过下行链路信道传输到A方的声卡；

5)语音交互处理单元在接收到该指令语音数据后，自动识别出其内容，并分析其所含语义，然后根据其语义自动向第三方应用(此应用是一个根据给定时间自动查询日程安排表并返回查询结果的应用程序)发出查询操作请求；

6)语音交互处理单元接收从第三方应用返回的结果(比如A方用户下周日程安排的文本或者查询失败的文本)，并通过语音合成把文本转化为音频；

7)语音交互处理单元把所述音频输出到第二音频插入单元；可选地，同时输出到第一音频插入单元；

8)第二音频插入单元把接收到的音频插入上行链路通话信道，反馈给B方用户，第一音频插入单元把接收到的音频插入上行链路通话信道，输出给A方用户；

9)A方用户控制激活控制单元停止第二数据分路单元和语音交互处理单元的工作，结束B方用户与第三方应用的语音交互，回到正常通话状态；或者终止通话。

实施例3：

典型应用场景：A、B双方在通话中，B方和A方需要同时和A方终端上的第三方应用交互才能获取所需信息。比如，B方和A方在讨论问题，A方需要从网络上查询一些信息，B方也需要从网络上查询一些信息。此时，A、B双方都需要和第三方应用交互。

基于本发明所公开技术，A、B双方在通话过程中可以通过语音和A方终端的第三方应用进行交互，且语音交互的细节双方都能接收到。这实际上是述实施例1和2的一种组合情况。具体工作流程为：

1)A方用户通过触控移动通信终端的特定位置(比如按键或者滑动等)，向激活控制单元发送A、B双方用户一起与第三方应用交互的请求；

2)激活控制单元接到该信号后，自动启动第一数据分路单元、第二数据分路单元和语音交互处理单元开始工作；

3)A方用户或者B方用户发送语音指令；

4)第一数据分路单元把A方用户通过上行链路通话信道传输的语音数据转发到语音交互处理单元，且不屏蔽该语音数据发送到B方；

5)第二数据分路单元把B方用户通过下行链路通话信道传输的语音数据转发到语音交互处理单元，且不屏蔽该语音数据发送到A方声卡；

6)语音交互处理单元在接收到该指令语音数据后，自动识别出其内容，并分析其所含语义，然后根据其语义自动向第三方应用发出查询操作请求或者执行特定操作的请求；

7)语音交互处理单元接收从第三方应用返回的结果，并通过语音合成把文本转化为音频；

8)语音交互处理单元把所述音频同时输出到第一音频插入单元和第二音频插入单元；

9)第一音频插入单元把接收到的音频插入下行链路通话信道，输出给A方用户，第二音频插入单元把接收到的音频插入上行链路通话信道，反馈给B方用户；

10)如果所需信息未得到或者特定操作未完成，转到3)；

11)如果交互结束，A方用户控制激活控制单元停止第一数据分路单元、第二数据分路单元和语音交互处理单元的工作，回到正常通话状态。

实施例4：

典型应用场景：A、B双方在通话中，B方和A方需要同时和A方终端上的不同的第三方应用交互，获取各自所需信息。比如，B方想要知道A方的日程安排，而A方想要了解当天的股票情况。此时，A、B双方需要同时和不同的第三方应用交互。

基于本发明所公开技术，A、B双方在通话过程中可以通过语音和A方终端上的不同的第三方应用进行交互，且语音交互的细节对方无法接收到。这实际上也是述实施例1和2的一种组合情况。具体工作流程为：

1)A方用户通过触控移动通信终端的特定位置(比如按键或者滑动等)，向激活控制单元发送A、B双方用户同时与不同的第三方应用交互的请求；

3)A方用户或者B方用户发送语音指令；

4)第一数据分路单元把A方用户通过上行链路通话信道传输的语音数据转发到语音交互处理单元，且屏蔽该语音数据发送到B方；

5)第二数据分路单元把B方用户通过下行链路通话信道传输的语音数据转发到语音交互处理单元，且屏蔽该语音数据发送到A方声卡；

8)如果当前与第三方应用交互的是A方，则语音交互处理单元把所述音频输出到第一音频插入单元；如果当前与第三方应用交互的是B方，则语音交互处理单元把所述音频输出到第二音频插入单元；

9)第二音频插入单元把接收到的音频插入上行链路通话信道，输出给B方用户，第一音频插入单元把接收到的音频插入下行链路通话信道，反馈给A方用户；

10)如果所需信息未得到或者特定操作未完成，转到3)；

应当说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明进行修改或者等同替换，而不脱离本发明技术方案和权利要求的精神和范围。

Claims

1.一种基于移动终端的语音交互的方法，包括如下步骤：

Step 1、激活控制模块接收用户操作指令，控制第一数据分路模块、语音交互模块、音频插入模块的协调工作；

Step 2、第一数据分路模块获取上行链路通话信道中传输的语音数据，并发送到语音交互处理模块；

Step 3、语音交互处理模块接收第一数据分路模块发送的语音数据，检测语音的起始点和结束点，识别该语音数据内容，并分析得到其语义信息；

Step 4、语音交互处理模块根据所述语义信息向对应的第三方应用发出操作指令；

Step 5、语音交互处理模块接收到第三方应用返回的结果，如果所述结果不是音频信息而是文本信息，则通过语音合成把该文本信息转化为对应的音频信息；

Step 6、语音交互处理模块把得到的音频信息输出到第二音频插入模块，同时输出到第一音频插入模块；

Step 7、第一音频插入模块或者第二音频插入模块在接收到语音交互处理模块发送的音频信息之后，首先屏蔽对应的下行链路或者上行链路通话信道中的语音数据传输，然后把接收到的音频信息插入对应的下行链路或者上行链路通话信道中进行传输；

Step 8、激活控制模块接收用户交互结束控制指令或者自动检测交互结束状态，停止第一数据分路模块和语音交互模块工作。

2.如权利要求1所述的方法，其特征在于：

Step 2还包括，屏蔽所述语音数据在上行链路通话信道中的传输。

3.如权利要求1所述的方法，其特征在于：

Step 3和Step4之间增加一个用户确认过程，包括：

Step 3.1、语音交互处理模块把语义分析的结果通过语音合成转化为对应的包含请求确认信息的音频信息，并输出到第一音频插入模块，或者，直接把语义分析结果对应的文本信息输出到显示屏；

Step 3.2、第一音频插入模块在接收到语音交互处理模块发送的音频信息之后，首先屏蔽下行链路通话信道中传输的语音数据，然后把接收到的音频信息插入下行链路通话信道；

Step 3.3、用户观察到该确认请求或者接听到该确认请求后，通过激活控制模块或者语音方式输入相应的指令信息；

Step 3.4、语音交互处理模块接收激活控制模块发送的指令信息，或者对接收到的语音方式的指令信息进行识别和语义解析，得到指令内容；

4.如权利要求1所述的方法，其特征在于：

Step 4中，如果用户与第三方应用交互的目的是获取所需信息，则所述的操作指令为查询请求指令；Step 5中，语音交互处理模块接收第三方应用返回的查询结果，然后通过语音合成把该信息转化为对应的音频信息。

5.如权利要求1所述的方法，其特征在于：

Step 4中，如果用户与第三方应用交互的目的是执行特定操作，则所述的操作指令为操作执行指令；Step 5中，语音交互处理模块收到第三方应用返回的操作执行状态信息，通过语音合成转化为音频信息。

6.一种基于移动终端的语音交互的方法，包括如下步骤：

Step 1、激活控制模块接收用户操作指令，控制第二数据分路模块、语音交互模块、音频插入模块的协调工作；

Step 2、第二数据分路模块获取下行链路通话信道中传输的语音数据，并发送到语音交互处理模块；

Step 3、语音交互处理模块接收第二数据分路模块发送的语音数据，检测语音的起始点和结束点，识别该语音数据内容，并分析得到其语义信息；

Step 4、语音交互处理模块根据语义分析结果向对应的第三方应用发出操作指令；

Step 5、语音交互处理模块接收到第三方应用返回的结果，如果所述结果不是音频信息而是文本信息，则通过语音合成把该文本转化为对应的音频信息；

Step 8、激活控制模块接收用户交互结束控制指令或者自动检测交互结束状态，停止第二数据分路模块和语音交互模块工作。

7.如权利要求6所述的方法，其特征在于：

Step 2还包括，屏蔽该语音数据在下行链路通话信道中的传输。

8.如权利要求6所述的方法，其特征在于：

9.如权利要求6所述的方法，其特征在于：

10.一种基于移动终端的语音交互的方法，包括如下步骤：

Step 1、激活控制模块接收用户操作指令，控制数据分路模块、语音交互模块、音频插入模块的协调工作；

Step 2、第一数据分路模块和第二数据分路模块分别获取对应的上行链路通话信道或下行链路通话信道中传输的语音数据，并发送到语音交互处理模块；

Step 3、语音交互处理模块接收第一数据分路模块或第二数据分路模块发送的语音数据，检测语音的起始点和结束点，识别该语音数据内容，并分析得到其语义信息；

Step 6、语音交互处理模块把得到的音频信息输出到第一音频插入模块和第二音频插入模块；

Step 7、第一音频插入模块或者第二音频插入模块在接收到语音交互处理模块发送的音频信息之后，把接收到的音频信息插入对应的下行链路或者上行链路通话信道中进行传输；

Step 8、激活控制模块接收用户交互结束控制指令或者自动检测交互结束状态，停止第一数据分路模块、第二数据分路模块和语音交互模块工作。

11.如权利要求10所述的方法，其特征在于：

12.如权利要求10所述的方法，其特征在于：

13.一种基于移动终端的语音交互的方法，包括如下步骤：

Step 2、第一数据分路模块和第二数据分路模块分别获取对应的上行链路通话信道或下行链路通话信道中传输的语音数据，并发送到语音交互处理模块，同时屏蔽对应的上行链路通话信道或下行链路通话信道中语音数据的传输；

Step 6、如果所得到的音频信息是本地用户所请求的，则语音交互处理模块把得到的音频信息输出到第一音频插入模块；如果所得到的音频信息是远端用户所请求的，则语音交互处理模块把得到的音频信息输出到第二音频插入模块；

Step 8、激活控制模块接收用户交互结束控制指令或者自动检测交互结束状态，停止第一数据分路模块、第二数据分路模块和语音交互模块的工作。

14.如权利要求13所述的方法，其特征在于：

15.如权利要求13所述的方法，其特征在于：

16.一种基于移动终端的语音交互的系统，包括如下模块：

激活控制单元，用于控制和管理数据分路单元和语音交互处理单元以及音频插入单元的协调工作；

语音数据分路单元，用于把通信链路中传输的语音数据转发给语音处理单元，屏蔽通信信道传输话音数据的传输；

语音交互处理单元，用于处理输入语音数据，并据此向对应的第三方应用提交请求，然后把第三方应用的反馈结果以音频形式输出；

音频插入单元，用于屏蔽通信信道传输的话音数据，把语音交互处理单元输出的音频信息插入到终端内通信链路的信道上进行传输；

所述激活控制单元，用于接收用户的操作指令，并根据不同的操作指令类型，分别或者同时控制或者改变数据分路单元和语音交互处理单元以及音频插入单元的工作状态；

17.如权利要求16所述的系统，其特征在于：

所述语音交互处理单元，具有内建的语音激活检测模块、语音识别模块和语义分析模块以及语音合成模块，或者访问终端之外的语音识别模块、语义分析模块和语音合成模块。

18.如权利要求16所述的系统，其特征在于：

所述语音交互单元向第三方应用发出的请求包括但不限于：查询请求、执行特定操作请求或者两者的结合。

19.如权利要求16所述的系统，其特征在于：

所述语音交互处理单元，用于通过语音激活检测模块把接收到的用户指令语音送入语音识别模块进行识别，然后把识别结果送入语义分析模块进行分析，得到语音指令的语义分析结果；在用户确认该语义正确之后，根据所述语义信息向第三方应用发出操作指令；然后得到第三方应用的反馈结果，如果是音频信息，则直接输出；如果是文本信息，则把它发送到语音合成单元进行语音合成，输出音频信息。

20.如权利要求16所述的系统，其特征在于：

所述数据分路单元分为第一数据分路单元和第二数据分路单元，其中第一数据分路单元用于处理移动终端内上行链路通话信道的语音数据，把上行链路通话信道中传输的语音数据转发到语音交互处理单元，同时屏蔽该语音数据在所述上行链路通话信道中的传输；第二数据分路单元用于处理移动终端内下行链路通话信道的语音数据，把下行链路通话信道中传输的语音数据转发到语音交互处理单元，同时屏蔽该语音数据在所述下行链路通话信道中的继续传输；

所述音频插入单元分为第一音频插入单元和第二音频插入单元，其中第一音频插入单元用于屏蔽移动终端内下行链路通话信道中传输的话音数据，并向其中插入音频数据；第二音频插入单元用于屏蔽移动终端内上行链路通话信道中传输的语音数据，并向其中插入音频数据。

21.如权利要求20所述的系统，其特征在于：

所述语音交互处理单元用于接收并区分来自第一数据分路单元的语音数据和第二数据分路单元的语音数据，区分第一音频插入单元和第二音频插入单元的语音数据通道，并分别向第一音频插入单元和第二音频插入单元发送数据。

22.如权利要求20所述的系统，其特征在于：

支持本地终端用户通过第一数据分路单元、语音交互处理单元以及第一音频插入单元和移动终端上的第三方应用交互。

23.如权利要求20所述的系统，其特征在于：

支持远端用户通过第二数据分路单元、语音交互处理单元以及第二音频插入单元和移动终端上的第三方应用交互。

24.如权利要求16所述的系统，其特征在于：

所述用户和第三方应用之间的语音交互是多轮的对话交互。