CN106101789B

CN106101789B - 终端的语音交互方法及装置

Info

Publication number: CN106101789B
Application number: CN201610529267.9A
Authority: CN
Inventors: 韩菁
Original assignee: Shenzhen TCL Digital Technology Co Ltd
Current assignee: Shenzhen TCL Digital Technology Co Ltd
Priority date: 2016-07-06
Filing date: 2016-07-06
Publication date: 2020-04-24
Anticipated expiration: 2036-07-06
Also published as: WO2018006489A1; CN106101789A

Abstract

本发明公开了一种终端的语音交互方法，包括步骤：终端接收语音输入设备输出的音频流，获取所述音频流对应的文本信息；所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器，以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端；所述终端接收所述云服务器返回的输出信息并输出。本发明还公开了一种终端的语音交互装置。本发明语义识别的操作在终端自身的服务器中识别，无需依赖第三方服务商提供服务，可以根据需求进行调整，灵活性大大增加。

Description

终端的语音交互方法及装置

技术领域

本发明涉及终端技术领域，尤其涉及终端的语音交互方法及装置。

背景技术

随着科学技术的不断发展，越来越多的智能终端进入人们的日常生活和工作当中。例如，以智能电视为例，用户对智能电视的智能化要求越来越高，用户期望通过语音的方式与智能电视交流，达到想要的目的(电视的控制、节目推送或信息推送等)。然而，目前智能电视在智能语音助手这方面还处于初级阶段，需要依赖语音识别技术和语义识别技术。在现有的电视系统上的智能交互系统实现模式都是定制模式，即电视厂商提出需求，由第三方的识别系统定制实现。语音与语义识别一般采取绑定的方式，电视厂商只能在一台电视上选择一个服务提供商来完成语音交互中的语音和语义识别，这种实现模式对于传统的电视企业来说局限性太大，无法根据需求进行调整，灵活性差。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种终端的语音交互方法及装置，旨在解决目前电视厂商只能在一台电视上选择一个服务提供商来完成语音交互中的语音和语义识别，这种实现模式对于传统的电视企业来说局限性太大，无法根据需求进行调整，灵活性差的问题。

为实现上述目的，本发明提供的一种终端的语音交互方法，包括步骤：

终端接收语音输入设备输出的音频流，获取所述音频流对应的文本信息；

所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器，以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端；

所述终端接收所述云服务器返回的输出信息并输出。

优选地，所述获取所述音频流对应的文本信息的步骤之后，还包括：

终端按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作；

在所述匹配操作成功后，获取匹配操作对应的控制信息；

执行与所述控制信息对应的响应控制操作。

优选地，所述按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作的步骤包括：

终端根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数；

将所述匹配参数与当前页面词条匹配，在当前页面词条匹配成功后，设置与所述当前页面词条匹配的标签。

优选地，所述将所述匹配参数与当前页面词条匹配的步骤之后，还包括：

终端在当前页面词条匹配失败后，将所述匹配参数与全局静态词条匹配，在与全局静态词条匹配成功后，设置与全局静态词条匹配的标签；

在与全局静态词条匹配失败后，将所述匹配参数与应用信息匹配，在与应用信息匹配成功后，设置与应用信息匹配的标签；

在与应用信息匹配失败后，提示匹配操作操作失败。

优选地，所述方法还包括步骤：

在识别出搜索参数后，由云服务器确定搜索参数对应的业务类型，接入与所述业务类型对应的信息商提供信息服务。

此外，为实现上述目的，本发明还提供一种终端的语音交互装置，包括：

接收模块，用于接收语音输入设备输出的音频流；

获取模块，用于获取所述音频流对应的文本信息；

发送模块，用于将所述文本信息上传至所述终端对应运营商构建的云服务器，以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端；

所述接收模块，还用于接收所述云服务器返回的输出信息；

输出模块，用于输出云服务器返回的输出信息。

优选地，还包括：

匹配模块，用于按照所述文本信息与终端数据库存储的信息进行匹配操作；

所述获取模块，还用于在所述匹配操作成功后，获取匹配操作对应的控制信息；

响应模块，用于执行与所述控制信息对应的响应控制操作；

所述发送模块，用于在匹配操作失败后，将所述文本信息上传至所述终端的云服务器。

优选地，所述匹配模块包括：

计算单元，用于根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数；

匹配单元，用于将所述匹配参数与当前页面词条匹配，在当前页面词条匹配成功后；

设置单元，用于设置与所述当前页面词条匹配的标签。

优选地，所述匹配模块还包括：提示单元，

所述匹配单元，还用于在当前页面词条匹配失败后，将所述匹配参数与全局静态词条匹配；

所述设置单元，还用于在与全局静态词条匹配成功后，设置与全局静态词条匹配的标签；

所述匹配单元，还用于在与全局静态词条匹配失败后，将所述匹配参数与应用信息匹配；

所述设置单元，还用于在与应用信息匹配成功后，设置与应用信息匹配的标签；

所述提示单元，用于在与应用信息匹配失败后，提示匹配操作操作失败。

优选地，在识别出搜索参数后，由云服务器确定搜索参数对应的业务类型，接入与所述业务类型对应的信息商提供信息服务。

本发明终端搭建自己的终端平台的语音交互，通过电视服务器作为接口，自主选择接入的语音识别服务识别服务和语义解析引擎，将语音识别与语义识别分开，不绑定起来，且语义识别的操作在终端自身的服务器中识别，无需依赖第三方服务商提供服务，可以根据需求进行调整，灵活性大大增加。

附图说明

图1为本发明终端的语音交互方法的第一实施例的流程示意图；

图2为本发明终端的语音交互方法的第二实施例的流程示意图；

图3为本发明一实施例中匹配操作的流程示意图；

图4为本发明终端的语音交互方法的第三实施例的流程示意图；

图5为本发明终端的语音交互装置的第一实施例的功能模块示意图；

图6为本发明终端的语音交互装置的第二实施例的功能模块示意图；

图7为图6中匹配模块一实施例的细化功能模块示意图；

图8为本发明一实施例中语音交互业务逻辑示意图；

图9为本发明一实施例中语音交互的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：终端搭建自己的终端平台的语音交互，通过电视服务器作为接口，自主选择接入的语音识别服务识别服务和语义解析引擎，将语音识别与语义识别分开，不绑定起来，且语义识别的操作在终端自身的服务器中识别，无需依赖第三方服务商提供服务，可以根据需求进行调整，灵活性大大增加。

目前存在电视厂商只能在一台电视上选择一个服务提供商来完成语音交互中的语音和语义识别，这种实现模式对于传统的电视企业来说局限性太大，无法根据需求进行调整，灵活性差的问题

基于上述问题，本发明提供一种终端的语音交互方法。

参照图1，图1为本发明终端的语音交互方法的第一实施例的流程示意图。

在一实施例中，所述终端的语音交互方法包括：

步骤S10，终端接收语音输入设备输出的音频流，获取所述音频流对应的文本信息；

在本实施例中，所述语音输入设备为手机或遥控器等，手机可借助微信语音或多屏互动语音模块向终端输入语音；遥控器则为能够支持语音输入功能的遥控器。所述终端优选为电视机，也还可以是被控显示设备。

用户在需要与电视交互时，通过手机与电视连接，所述连接可以是无线或有线的连接。在建立连接后，用户通过手机录入语音，同时手机会将录入的语音实时转化为音频流，传输给电视，或者在一段语音录入结束后，将转换的音频流传输给电视。电视获取所述音频流对应的文本信息。获取过程包括但不限于：1)电视将所述音频流上传到第三方的语音识别服务器，第三方语音识别服务器将对音频流进行识别得到音频流的文本信息，将所述文本信息反馈至电视；2)电视定制或购买了语音识别服务，在电视本端保存定制或者购买的语音识别服务数据库，电视接收到音频流后，通过本地的数据库识别出音频流的文本信息，在电视本端完成音频流转文本信息的过程。以上获取所述音频流对应的文本信息的方式仅仅为示例性说明，而不代表本发明仅仅局限于上述记载的范围。

步骤S20，所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器，以通过所述云服务器搜索与所述文本信息对应的输出信息并返回至所述终端；

电视有自身的云服务器，所述云服务器上加载有语义解析引擎，用以识别音频流的文本信息的语义。在获取到文本信息后，将所述文本信息上传至所述终端的云服务器，例如，在电视为A服务商的，则将文本信息上传至A服务商的云服务器。所述云服务器在接收到文本信息后，根据自身加载的语义解析引擎识别出所述文本信息的搜索参数(进行语义识别，从用户通过语音输入设备发出的语音中识别用户的语义即需求)，所述搜索参数为文本信息的关键字信息或者用户的需求信息，例如，是点播服务、歌曲搜索服务或电商服务等。所述搜索参数以关键字信息为例，根据所述关键字信息搜索与所述文本信息对应的输出信息，所述输出信息可以是本地服务器数据库存储的资源，也可以是通过第三方服务商提供的。在搜索到信息后，将所搜索到的输出信息返回至电视。所述输出信息可以是电商推送信息、产品广告信息等。

步骤S30，所述终端接收所述云服务器返回的信息并输出。

电视接收所述云服务器返回的输出信息并输出，所述输出的方式包括直接显示，或者推送至其他与电视连接的终端(例如，手机、pad等)或者播放。本实施例终端搭建自己的终端平台的语音交互，通过电视服务器作为接口，自主选择接入的语音识别服务识别服务和语义解析引擎，将语音识别与语义识别分开，不绑定起来，且语义识别的操作在终端自身的服务器中识别，无需依赖第三方服务商提供服务，可以根据需求进行调整，灵活性大大增加。

参照图2，图2为本发明终端的语音交互方法的第二实施例的流程示意图。基于上述终端的语音交互方法的第一实施例，所述步骤S10之后，还包括：

步骤S40，终端按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作；

步骤S50，在所述匹配操作成功后，获取匹配操作对应的控制信息；

步骤S60，执行与所述控制信息对应的响应控制操作。

在本实施例中，在获取到文本信息后，先进行电视控制的匹配操作。电视存储了控制信息的数据库，例如包括音量加减，上下左右控制，播放、暂停、快进或快退等控制信息。将所述文本信息与终端本地数据库预先存储的信息进行匹配操作在所述匹配操作成功后，获取匹配操作对应的控制信息；执行与所述控制信息对应的响应控制操作；在匹配操作失败后，执行将所述文本信息上传至所述终端的云服务器的过程。

具体的，参考图3，所述按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作的过程包括：

步骤S41，终端根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数；

步骤S42，将所述匹配参数与当前页面词条匹配，在当前页面词条匹配成功后，设置与所述当前页面词条匹配的标签。

步骤S43，在当前页面词条匹配失败后，将所述匹配参数与全局静态词条匹配，在与全局静态词条匹配成功后，设置与全局静态词条匹配的标签；

步骤S44，在与全局静态词条匹配失败后，将所述匹配参数与应用信息匹配，在与应用信息匹配成功后，设置与应用信息匹配的标签；

步骤S45，在与应用信息匹配失败后，提示匹配操作操作失败。

在手机传输音频流至电视的过程中，电视在后台的页面空间收集算法会开始进行电视当前页面可操控控件文本信息的收集，电视获取到文本信息后，进行电视本地模糊匹配操作，通过模糊匹配算法对文本信息和结合场景控件采集的文本计算得到字符匹配数、源匹配度和目标匹配度等数据作为匹配参数，不同的场景下，目标匹配度的设置也不同，根据需求和性能设置，例如可以是0.67或1等。同样也设置匹配的优先顺序，首先优先匹配的是当前页面词条，匹配度要求达到0.67；当前页面词条匹配失败后，就匹配全局静态词条，全局静态词条包括预设的一些全局控制命令，例如，音量加减，上下左右控制等；全局静态词条匹配失效后就匹配播放控制词条，比如暂停、播放、快进或快退等；最后匹配的是应用词条，及本机安装的所有应用名的匹配；除当前词条匹配的目标匹配度为0.67外，其余场景的匹配度都为1，即，必须全匹配才算匹配成功。不同场景的标签定义如下：当前页面匹配成功标签为FUZZY_MATCH，全局静态匹配成功标签为GLOBAL_MATCH，本地应用匹配成功标签为APP_MATCH，播放控制匹配成功标签为PLAYER_MATCH，模糊匹配失败标签为FAIL_MATCH。例如匹配成功标签为FUZZY_MATCH时，代表在当前页面词条中完成匹配，处理当前页面的控制指令；当匹配成功标签为PLAYER_MATCH时，代表在播放控制词条中完成匹配，处理对应的播放控制指令；本地模糊匹配成功，完成对应的控制指令后本次语音交互结束；在匹配失败后，提示匹配操作操作失败，转入与云服务的交互操作，获取用户需求的信息。本实施例通过将匹配操作放在终端本地执行，无需连接第三方去完成匹配操作和控制，有效的提高了终端本地控制效率。

参照图4，图4为本发明终端的语音交互方法的第三实施例的流程示意图。所述方法还包括步骤：

步骤S70，在识别出搜索参数后，由云服务器确定搜索参数对应的业务类型，接入与所述业务类型对应的信息商提供信息服务。

在本实施例中，在识别到用户通过语音输入设备输出的音频流的搜索参数后，即，识别出用户的需求后，由云服务器确定搜索参数对应的业务类型，例如，是需要点播业务、歌曲搜索业务还是电商业务等。云服务器根据识别的搜索参数对应的业务类型，选择接入与所述业务类型对应的信息商提供信息服务。在本发明其他实施例中也还可以是根据需求自定义业务类型，通过终端的服务器这个接口选择合适的信息提供商提供服务。图中仅仅为一个实施例的执行顺序，在本发明其他实施例中，所述步骤S70也可以执行在其他的步骤之前或者之后，可以根据实际需求进行顺序的调整。本实施例基于终端的云平台，有云平台提供接口，自定义扩展业务类型并选择合适的信息商提供信息服务，避免由一个语音服务厂商外包完成所导致的局限性，提高了资助控制的灵活性。

本发明进一步提供一种终端的语音交互装置。

参照图5，图5为本发明终端的语音交互装置的第一实施例的功能模块示意图。

在一实施例中，所述装置包括：接收模块10、获取模块20、发送模块30及输出模块40。

所述接收模块10，用于接收语音输入设备输出的音频流；

所述获取模块20，用于获取所述音频流对应的文本信息；

用户在需要与电视交互时，通过手机与电视连接，所述连接可以是无线或有线的连接。在建立连接后，用户通过手机录入语音，同时手机会将录入的语音实时转化为音频流，传输给电视，或者在一段语音录入结束后，将转换的音频流传输给电视。接收模块10接收语音输入设备输出的音频流，获取模块20获取所述音频流对应的文本信息。获取模块20获取过程包括但不限于：1)将所述音频流上传到第三方的语音识别服务器，第三方语音识别服务器将对音频流进行识别得到音频流的文本信息，将所述文本信息反馈至电视；2)电视定制或购买了语音识别服务，在电视本端保存定制或者购买的语音识别服务数据库，接收到音频流后，通过本地的数据库识别出音频流的文本信息，在本端完成音频流转文本信息的过程。以上获取所述音频流对应的文本信息的方式仅仅为示例性说明，而不代表本发明仅仅局限于上述记载的范围。

所述发送模块30，用于将所述文本信息上传至所述终端对应运营商构建的云服务器，以通过所述云服务器搜索与所述文本信息对应的输出信息并返回；

电视有自身的云服务器，所述云服务器上加载有语义解析引擎，用以识别音频流的文本信息的语义。在获取到文本信息后，将所述文本信息上传至所述终端的云服务器，例如，在电视为A服务商的，则将文本信息上传至A服务商的云服务器。所述云服务器在接收到文本信息后，根据自身加载的语义解析引擎识别出所述文本信息的搜索参数(进行语义识别，从用户通过语音输入设备发出的语音中识别用户的语义即需求)，所述搜索参数为文本信息的关键字信息或者用户的需求信息，例如，是点播服务、歌曲搜索服务或电商服务等。所述搜索参数以关键字信息为例，根据所述关键字信息搜索与所述文本信息对应的输出信息，所述输出信息可以是本地服务器数据库存储的资源，也可以是通过第三方服务商提供的。在搜索到输出信息后，将所搜索到的输出信息返回至电视。所述信息可以是电商推送信息、产品广告信息等。

所述接收模块10，还用于接收所述云服务器返回的输出信息；

所述输出模块40，用于输出所述云服务器返回的输出信息。

接收模块10接收所述云服务器返回的信息并通过输出模块40输出，所述输出的方式包括直接显示，或者推送至其他与输出模块40连接的终端(例如，手机、pad等)或者播放。本实施例终端搭建自己的终端平台的语音交互，通过电视服务器作为接口，自主选择接入的语音识别服务识别服务和语义解析引擎，将语音识别与语义识别分开，不绑定起来，且语义识别的操作在终端自身的服务器中识别，无需依赖第三方服务商提供服务，可以根据需求进行调整，灵活性大大增加。

参照图6，图6为本发明终端的语音交互装置的第二实施例的功能模块示意图。还包括：匹配模块50和响应模块60，

所述匹配模块50，用于按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作；

所述获取模块20，还用于在所述匹配操作成功后，获取匹配操作对应的控制信息；

所述响应模块60，用于与所述控制信息对应的响应控制操作。

在本实施例中，在获取到文本信息后，先进行电视控制的匹配操作。预先存储了控制信息的数据库，例如包括音量加减，上下左右控制，播放、暂停、快进或快退等控制信息。将所述文本信息与终端本地数据库预先存储的信息进行匹配操作在所述匹配操作成功后，获取匹配操作对应的控制信息；执行与所述控制信息对应的响应控制操作；在匹配操作失败后，执行将所述文本信息上传至所述终端的云服务器的过程。

参考图7，所述匹配模块50包括：

计算单元51，用于根据所述文本信息以及预先采集的当前页面的信息计算出匹配参数；

匹配单元52，用于将所述匹配参数与当前页面词条匹配，在当前页面词条匹配成功后；

设置单元53，用于设置与所述当前页面词条匹配的标签。

所述匹配单元52，还用于在当前页面词条匹配失败后，将所述匹配参数与全局静态词条匹配；

所述设置单元53，还用于在与全局静态词条匹配成功后，设置与全局静态词条匹配的标签；

所述匹配单元52，还用于在与全局静态词条匹配失败后，将所述匹配参数与应用信息匹配；

所述设置单元53，还用于在与应用信息匹配成功后，设置与应用信息匹配的标签；

所述提示单元54，用于在与应用信息匹配失败后，提示匹配操作操作失败。

在手机传输音频流至电视的过程中，计算单元51在后台的页面空间收集算法会开始进行电视当前页面可操控控件文本信息的收集，获取模块20获取到文本信息后，匹配单元52进行电视本地模糊匹配操作，计算单元51通过模糊匹配算法对文本信息和结合场景控件采集的文本计算得到字符匹配数、源匹配度和目标匹配度等数据作为匹配参数，不同的场景下，目标匹配度的设置也不同，根据需求和性能设置，例如可以是0.67或1等。同样也设置匹配的优先顺序，首先优先匹配的是当前页面词条，匹配度要求达到0.67；当前页面词条匹配失败后，就匹配全局静态词条，全局静态词条包括预设的一些全局控制命令，例如，音量加减，上下左右控制等；全局静态词条匹配失效后就匹配播放控制词条，比如暂停、播放、快进或快退等；最后匹配的是应用词条，及本机安装的所有应用名的匹配；除当前词条匹配的目标匹配度为0.67外，其余场景的匹配度都为1，即，必须全匹配才算匹配成功。不同场景的标签定义如下：当前页面匹配成功标签为FUZZY_MATCH，全局静态匹配成功标签为GLOBAL_MATCH，本地应用匹配成功标签为APP_MATCH，播放控制匹配成功标签为PLAYER_MATCH，模糊匹配失败标签为FAIL_MATCH。例如匹配成功标签为FUZZY_MATCH时，代表在当前页面词条中完成匹配，处理当前页面的控制指令；当匹配成功标签为PLAYER_MATCH时，代表在播放控制词条中完成匹配，处理对应的播放控制指令；本地模糊匹配成功，完成对应的控制指令后本次语音交互结束；在匹配失败后，提示单元54提示匹配操作操作失败，转入与云服务的交互操作，获取用户需求的信息。本实施例通过将匹配操作放在终端本地执行，无需连接第三方去完成匹配操作和控制，有效的提高了终端本地控制效率。

进一步地，在识别出搜索参数后，由云服务器确定搜索参数对应的业务类型，接入与所述业务类型对应的信息商提供信息服务。

在本实施例中，在识别到用户通过语音输入设备输出的音频流的搜索参数后，即，识别出用户的需求后，由云服务器确定搜索参数对应的业务类型，例如，是需要点播业务、歌曲搜索业务还是电商业务等。云服务器根据识别的搜索参数对应的业务类型，选择接入与所述业务类型对应的信息商提供信息服务。在本发明其他实施例中也还可以是根据需求自定义业务类型，通过终端的服务器这个接口选择合适的信息提供商提供服务。本实施例基于终端的云平台，有云平台提供接口，自定义扩展业务类型并选择合适的信息商提供信息服务，避免由一个语音服务厂商外包完成所导致的局限性，提高了资助控制的灵活性。

为了更好的描述本发明的实现过程，参考图8，语音交互的业务逻辑图，包括：

本系统(包括上述运行过程的系统，也为云平台)包括几大部分，包括：语音输入模块、本地模糊匹配模块、本地控制模块、业务展示模块、云服务模块；

语音输入即为语音输入设备，本系统支持的语音输入设备有手机和遥控器。手机输入设备可借助微信语音或多屏互动语音模块输入语音；遥控器则支持所有支持语音输入功能遥控器。

本地模糊匹配模块是实现本地控制的关键，包括本地词条的收集和词条的模糊匹配算法。用户的语音输入转换成语音文本后首先给到模糊匹配算法，判断用户当前指令是否匹配到本地词条，如匹配成功返回匹配类型及匹配ID。在做本地模糊匹配时我们设置了本地场景的匹配优先次序，首先匹配当前页面控件词条，匹配不成功则继续匹配预设的静态词条，匹配不成功则继续匹配播放控制词条，匹配不成功则继续匹配本地应用词条，匹配不成功则提交云平台进行语义理解；

本地控制模块则是完成本地控制功能的模块。依据模糊匹配的结果，找到匹配结果对应的控件，完成控制操作。本地控制模块包括查找算法和控制指令。

业务展示模块则指除本地控制外由云平台反馈的结果的展示。例如影视列表、歌曲列表、商品列表等；

云平台模块则包括所有服务器端的处理。在本系统中云平台包括本地服务器和第三方服务器。本地服务器负责和终端业务对接以及和第三方服务器对接，第三方服务器则包括语音识别服务器、语义理解服务和第三方的内容提供商。

本系统的执行流程图如图9所示，现结合图9将整个系统的操作流程详细描述如下：

步骤S100：用户输入语音命令，同时收集算法收集系统当前页面可控控件的词条信息。将语音识别的文本信息传给本地模糊匹配算法进行匹配，匹配成功则进入本地控制模块，执行响应的控制功能，完成一次语音交互体验；匹配不成功则将语音识别的文本信息传给云端的语义理解服务器，语义理解服务器将语义理解的结果反馈给本地服务器；本地服务器根据语义理解反馈的关键字去资源库搜素对应内容交给业务展示模块；业务展示模块将本地服务器反馈的内容在终端进行合理的展示。从而完成一次语音交互体验。

该系统在电视平台搭建了一套语音识别、语义理解和业务内容接入标准框架。作为传统电视厂商，可以自主选择合作方接入，我们可以自主选择语音识别服务引擎，也可以自主规划终端业务接入类型。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种终端的语音交互方法，其特征在于，包括步骤：

终端接收语音输入设备输出的音频流，所述终端或与所述终端关联的第三方服务器对所述音频流进行语音识别，获取所述音频流对应的文本信息；

所述终端将所述文本信息上传至所述终端对应运营商构建的云服务器，以通过所述云服务器对所述文本信息进行语义识别，搜索与所述文本信息对应的输出信息并返回至所述终端；

所述终端接收所述云服务器返回的输出信息并输出。

2.如权利要求1所述的终端的语音交互方法，其特征在于，所述获取所述音频流对应的文本信息的步骤之后，还包括：

在所述匹配操作成功后，获取匹配操作对应的控制信息；

执行与所述控制信息对应的响应控制操作。

3.如权利要求2所述的终端的语音交互方法，其特征在于，所述按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作的步骤包括：

4.如权利要求3所述的终端的语音交互方法，其特征在于，所述将所述匹配参数与当前页面词条匹配的步骤之后，还包括：

在与应用信息匹配失败后，提示匹配操作操作失败。

5.如权利要求1至4任一项所述的终端的语音交互方法，其特征在于，所述方法还包括步骤：

6.一种终端的语音交互装置，其特征在于，包括：

接收模块，用于接收语音输入设备输出的音频流；

获取模块，用于对所述音频流进行语音识别，获取所述音频流对应的文本信息；

发送模块，用于将所述文本信息上传至所述终端对应运营商构建的云服务器，以通过所述云服务器对所述文本信息进行语义识别，搜索与所述文本信息对应的输出信息并返回至所述终端；

所述接收模块，还用于接收所述云服务器返回的输出信息；

输出模块，用于输出云服务器返回的输出信息。

7.如权利要求6所述的终端的语音交互装置，其特征在于，还包括：

匹配模块，用于按照所述文本信息与终端本地数据库预先存储的信息进行匹配操作；

响应模块，用于执行与所述控制信息对应的响应控制操作；

8.如权利要求7所述的终端的语音交互装置，其特征在于，所述匹配模块包括：

设置单元，用于设置与所述当前页面词条匹配的标签。

9.如权利要求8所述的终端的语音交互装置，其特征在于，所述匹配模块还包括：提示单元，

10.如权利要求6至9任一项所述的终端的语音交互装置，其特征在于，在识别出搜索参数后，由云服务器确定搜索参数对应的业务类型，接入与所述业务类型对应的信息商提供信息服务。