CN109065040A

CN109065040A - 一种语音信息处理方法以及智能电器

Info

Publication number: CN109065040A
Application number: CN201810879325.XA
Authority: CN
Inventors: 赵鹏
Original assignee: Beijing Racing Current Network Information Technology Co Ltd
Current assignee: Beijing Racing Current Network Information Technology Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-21

Abstract

本申请涉及一种语音信息处理方法以及智能电器，以高效和快速地执行用户的语音信息所对应的交互指令，该种语音信息处理方法包括：接收用户的语音信息，并且将所述语音信息识别为语音文本；判断所述语音文本是否已经预先存储在本地设备中；如果是，则执行所述语音文本对应的指令；如果不是，则将所述语音文本上传至云端服务器，以执行自然语言处理。本申请利用唤醒词将ASR服务调起后，循环接收用户输入的指令，将上述存储过的指令文本作为过滤器，过滤出命中指令后，执行相应命令并反馈结果给用户。这样预先存储在本地设备中的一些指令便可以快速命中和执行，大大提高了用户体验。

Description

一种语音信息处理方法以及智能电器

技术领域

本申请涉及智能控制领域，特别的，涉及一种语音信息处理方法。此外，本申请还涉及一种实现了该种语音信息处理方法的智能电器。

背景技术

目前，随着远场语音识别技术的进步，人工智能(artificial intelligence，简称AI)的快速发展，以及自动语言识别技术(automatic speech recognition，简称ASR)、自然语言处理(Natural Language Processing，简称NLP)等的应用，家用智能设备(例如智能电视)对语音、语义的识别和理解有了较大的提升，因此一种新的交互方式出现在智能电视、IP机顶盒上。用户可以坐在电视机前，直接通过语音完成调节音量、搜索影片、开机关机等指令，从而在一些场景下摆脱了传统摇控器的束缚，非常方便。

如图1所示，在用户与具有远场语音交互功能的电器设备进行交互之前，都需要确保ASR服务的开启，然后先说出唤醒词(比如，暴风电视的“暴风大耳朵”)，接着再说出命令语句以下达指令，然后远程(云端)NLP服务接收识别出的语音文本并且开始对该文本进行处理，从而明确用户意图并且将反馈结果反馈给智能电器，智能电器响应该反馈结果。但是，这种处理方法的处理效率非常低，比如在一个多内容的列表交互界面，仅仅是一个普通的翻页动作，也需要经过从唤醒词到ASR处理，再到NLP处理返回后，才能执行用户的指令。其中的NLP服务是在云端计算完成，这非常考验用户家庭的实际网络环境，所以往往造成了用户体验非常差。

公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

本申请的主要目的在于提供一种语音信息处理方法，以高效和快速地执行用户的语音信息所对应的交互指令。

为了解决上述问题，本申请涉及一种语音信息处理方法，该方法包括：接收用户的语音信息，并且将所述语音信息识别为语音文本；判断所述语音文本是否已经预先存储在本地设备中；如果是，则执行所述语音文本对应的指令；如果不是，则将所述语音文本上传至云端服务器，以执行自然语言处理。

进一步的，如果所述语音文本不是预先存储在本地的语音文本，所述方法还包括：判断所述语音文本是否对应至少一种指令；如果是，则将所述语音文本存储在本地，以作为所述预先存储在本地的语音文本。

进一步的，所述判断所述语音文本是否为预先存储在本地的语音文本包括：在本地的数据库或者缓存中查找已存储的语音文本；如果找到与所述语音文本完全匹配的已存储的语音文本，则判断所述语音文本是预先存储在本地的语音文本。

进一步的，所述方法还包括：将交互界面上的、对应有指令的指令文本的显示效果与普通文本的显示效果进行区分；并且在所述判断所述语音文本是否为预先存储在本地的语音文本之前，如果所述语音文本与所述指令文本相应，则执行所述指令文本所对应的指令。

进一步的，所述将交互界面上的、对应有指令的指令文本的显示效果与普通文本的显示效果进行区分包括：将所述指令文本进行高亮显示，从而使该指令文本的显示效果与普通文本的显示效果区分开。

进一步的，所述指令文本包括在所述普通文本中，或者所述指令文本独立于所述普通文本。

进一步的，所述交互界面上还显示有多个提示指令文本，所述提示指令文本中的每一个对应至少一种指令；其中，所述多个提示指令文本至少包括一个所述指令文本。

本申请还涉及一种智能电器，其包括用于显示交互界面的显示器或者能够将交互界面显示在其它设备的显示器上，该智能电器还包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上面所述的语音信息处理方法。

进一步的，所述智能电器可以包括：智能电视或者机顶盒。

本申请的有益效果是：通过采用本申请的技术方案，本申请利用唤醒词将ASR服务调起后，循环接收用户输入的指令，将上述存储过的指令文本作为过滤器，过滤出命中指令后，执行相应命令并反馈结果给用户。其它无命中的指令文本，直接向云端NLP服务器发送，在接到NLP服务器反馈的全局意图后，再反馈给电视处理，这样预先存储在本地设备中的一些指令便可以快速命中和执行，大大提高了用户体验。

此外，本申请还在在交互界面中展示出可用语言控制的指令文本，用户可以凭借眼睛所看到的交互界面，本能的知道如何下达指令来与智能电器进行交互，从而解决了用户在面对目前市面上支持语音识别服务的智能电器的当前交互界面而不知道如何准确的下达交互指令的问题，从而进一步提高了了用户体验和市场竞争力。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是现有的语音信息处理方法的流程图；

图2是根据本申请实施例的语音信息处理方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

此外，术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图2所示，图2为本申请实施例的语音信息处理方法的流程图。该方法包括以下步骤：步骤S1，接收用户的语音信息，并且将所述语音信息识别为语音文本，具体的，本申请中的ASR服务器开始响应用户的开启指令或者一直保持开启状态，以用于接收用户的语音信息并且将所述语音信息识别为语音文本。这里，本申请中的ASR服务器可以设置在用户的本地智能电器中(例如，智能电视或者机顶盒)，或者设置在云端服务器中。步骤S2，判断所述语音文本是否为预先存储在本地设备中的语音文本，具体的，本申请首先判断语音文本是否预先存储在本地的硬盘(例如，数据库)或者内存(例如，缓存)中，也就是说，在本地数据库或者缓存中查找与所述语音文本完全匹配的已存储的语音文本，这里的完全匹配指的是语音文本完全等同于已存储的语音文本。

接下来，如果判断所述语音文本已经预先存储在本地，那么执行步骤S3，执行所述语音文本对应的指令，以实现该指令所对应的功能。相反的，如果不是，则执行步骤S4，则将所述语音文本存储在本地，以作为所述预先存储在本地的语音文本。此外，在预先存储之前，判断所述语音文本是否已经对应至少一种指令，如果是，那么执行存储步骤，如果所述语音文本没有对应指令，则则将所述语音文本上传至云端服务器，以执行自然语言处理(NLP)，以借助NLP明确客户的意图，以执行相应的指令或者反馈相应的意图。

此外，本申请还将交互界面上的指令文本的显示效果进行特殊展示，以与同样显示在交互界面上普通文本的显示效果进行区分，优选地，可以将所述指令文本显示在交互界面的上部并且进行高亮显示，从而使该指令文本的显示效果与普通文本的显示效果区分开。这里，每一个指令文本均可以对应于至少一种指令，该指令用于实现相应的功能，例如翻页功能、选择功能或者声音调节功能等。

在所述判断所述语音文本是否为预先存储在本地的语音文本之前，如果识别出的语音文本与所述指令文本相应，则执行所述指令文本所对应的指令，以实现该指令所对应的功能。在这里，语音文本与所述指令文本相应指的是，语音文本与指令文本中的文字可以是完全匹配，也可以是部分匹配(例如，指令文本包含在语音文本中或者语音文本包含在指令文本中)，也可以是模糊匹配，例如解析出的语音文本为“第一个”，而显示的指令文本为“第一页”，则可以认为语音文本与所述指令文本相应。具体的模糊匹配程度和匹配阈值可以根据需求自行设定，本发明并不做出具体限定。

特别的，本发明的指令文本可以包含在所述普通文本中，也可以独立于所述普通文本，即不包含在普通文本中而独立的显示，以更加明显地区别于普通文本。进一步的，本发明在交互界面的下部还显示有多个用于为用户提供提示性信息的提示指令文本，同样地，每一个提示指令文本也对应至少一种指令。这里的指令可以与上述的指令不同或者相同。在这些提示指令文本包括有上述指令文本的情况下，与指令文本对应的提示指令文本所对应的指令自然与该指令文本所对应的指令相同。

此外，本申请还涉及一种智能电器，其包括用于显示交互界面的显示器，例如，智能电视，或者能够将交互界面显示在其它设备的显示器上，例如机顶盒，该智能电器还包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上面所述的语音信息处理方法。

本申请所涉及的计算机软件程序可以存储于计算机可读存储介质中，所述计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory，ROM)、随机存取计算机存储器(Random Access Memory，RAM)、电载波信号、电信信号以及其他软件分发介质等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本申请的保护范围之内。

Claims

1.一种语音信息处理方法，其特征在于，包括：

接收用户的语音信息，并且将所述语音信息识别为语音文本；

判断所述语音文本是否已经预先存储在本地设备中；

如果是，则执行所述语音文本对应的指令；

如果不是，则将所述语音文本上传至云端服务器，以执行自然语言处理。

2.根据权利要求1所述的语音信息处理方法，其特征在于，如果所述语音文本不是预先存储在本地的语音文本，所述方法还包括：

判断所述语音文本是否对应至少一种指令；

如果是，则将所述语音文本存储在本地，以作为所述预先存储在本地的语音文本。

3.根据权利要求1或2所述的语音信息处理方法，其特征在于，所述判断所述语音文本是否为预先存储在本地的语音文本包括：

在本地的数据库或者缓存中查找已存储的语音文本；

如果找到与所述语音文本完全匹配的已存储的语音文本，则判断所述语音文本是预先存储在本地的语音文本。

4.根据权利要求1或2所述的语音信息处理方法，其特征在于，该方法还包括：

将交互界面上的、对应有指令的指令文本的显示效果与普通文本的显示效果进行区分；

在所述判断所述语音文本是否为预先存储在本地的语音文本之前，如果所述语音文本与所述指令文本相应，则执行所述指令文本所对应的指令。

5.根据权利要求4所述的语音信息处理方法，其特征在于，所述将交互界面上的、对应有指令的指令文本的显示效果与普通文本的显示效果进行区分包括：将所述指令文本进行高亮显示，从而使该指令文本的显示效果与普通文本的显示效果区分开。

6.根据权利要求4所述的语音信息处理方法，其特征在于，所述指令文本包括在所述普通文本中。

7.根据权利要求4所述的语音信息处理方法，其特征在于，所述指令文本独立于所述普通文本。

8.根据权利要求4所述的语音信息处理方法，其特征在于，所述交互界面上还显示有多个提示指令文本，所述提示指令文本中的每一个对应至少一种指令；

其中，所述多个提示指令文本至少包括一个所述指令文本。

9.一种智能电器，其包括用于显示交互界面的显示器或者能够将交互界面显示在其它设备的显示器上，该智能电器还包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的语音信息处理方法。

10.根据权利要求9所述的智能电器，其特征在于，所述智能电器包括：智能电视或者机顶盒。