CN109979460A

CN109979460A - 可视化语音信息交互方法及装置

Info

Publication number: CN109979460A
Application number: CN201910179558.3A
Authority: CN
Inventors: 尹震; 张宝财; 解嘉炎; 陈溪; 李程贞
Original assignee: Shanghai Bai Ze Network Technology Co Ltd
Current assignee: Shanghai Bai Ze Network Technology Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2019-07-05

Abstract

本发明实施例涉及信息处理技术领域，具体而言，涉及一种可视化语音信息交互方法及装置，该方法中根据用户输入的第一操作指令生成的语音对话窗口不会遮挡当前显示界面中的大部分显示内容，因此不影响当前显示界面中的显示内容的使用和运行，在根据用户输入的语音信息执行对应操作之前会基于语音信息生成用于与用户进行交互的反馈信息，并在语音对话窗口中显示反馈信息并语音播报反馈信息，如此，能够提高智能终端的交互性。

Description

可视化语音信息交互方法及装置

技术领域

本发明实施例涉及信息处理技术领域，具体而言，涉及一种可视化语音信息交互方法及装置。

背景技术

随着科技的发展和人们生活水平的提高，用户对智能终端的技术要求也越来越高，语音交互作为一项重要交互技术，已经越来越多地应用于智能终端，但是现有的智能终端难以满足用户的交互性需求。

发明内容

有鉴于此，本发明提供了一种可视化语音信息交互方法及装置。

本发明实施例提供了一种可视化语音信息交互方法，应用于具有显示功能的电子设备，所述方法包括：

响应用户输入的第一操作指令，根据所述第一操作指令在当前显示界面中生成不遮挡所述当前显示界面中的大部分显示内容的语音对话窗口；

在继续显示所述当前显示界面中的显示内容的同时接收所述用户输入的语音信息，查找是否存在与所述语音信息相匹配的设定语音信息；若查找到所述设定语音信息，判定所述语音信息有效，基于所述语音信息生成用于与所述用户进行交互的反馈信息，在所述语音对话窗口中显示所述反馈信息并语音播报所述反馈信息；按照所述语音信息执行对应操作并关闭所述语音对话窗口。

可选地，按照所述语音信息执行对应操作并关闭所述语音对话窗口的步骤，包括：

将所述语音信息转换为文本信息；

提取所述文本信息中包括的关键词信息；

查找是否存在与所述关键词信息相匹配的设定关键词信息；若查找到所述设定关键词信息，判定所述关键词信息有效，按照所述关键词信息将所述当前显示界面的显示内容切换为所述关键词信息对应的目标显示内容并关闭所述语音对话窗口。

可选地，在接收所述用户输入的语音信息的步骤之前，所述方法还包括：

响应所述用户输入的用于控制所述语音对话窗口在所述当前显示界面中进行移动的第二操作指令，根据所述第二操作指令将所述语音对话窗口从所述当前显示界面中的所在位置移动到目标位置，其中，所述目标位置不遮挡所述当前显示界面中的大部分显示内容。

可选地，所述方法还包括：

在所述当前显示界面显示所述语音对话窗口的同时响应所述用户输入的用于对所述当前显示界面中显示的应用程序进行操作的第三操作指令；

根据所述第三操作指令对所述应用程序进行处理。

可选地，所述语音对话窗口为透明或不透明的浮窗。

可选地，根据所述第一操作指令在当前显示界面中生成不遮挡所述当前显示界面中的大部分显示内容的语音对话窗口的步骤，包括：

在所述当前显示界面中除所述大部分显示内容之外的任一位置生成所述语音对话窗口。

可选地，在整个语音交互流程中，所述方法还包括：

响应所述用户输入的触摸指令，根据所述触摸指令开启或关闭所述语音对话窗口。

可选地，查找是否存在与所述语音信息相匹配的设定语音信息的步骤之前，所述方法还包括：

将所述语音信息转换为文本信息并在所述语音对话窗口中进行显示。

可选地，基于所述语音信息生成用于与所述用户进行交互的反馈信息的步骤，包括：

对所述文本信息进行语义分析以获得所述文本信息的语义；

根据所述语义生成所述反馈信息。

本发明实施例还提供了一种可视化语音信息交互装置，应用于具有显示功能的电子设备，所述装置包括：

语音对话窗口生成模块，用于响应用户输入的第一操作指令，根据所述第一操作指令在当前显示界面中生成不遮挡所述当前显示界面中的大部分显示内容的语音对话窗口；

可视化语音信息交互模块，用于在继续显示所述当前显示界面中的显示内容的同时接收所述用户输入的语音信息，查找是否存在与所述语音信息相匹配的设定语音信息；若查找到所述设定语音信息，判定所述语音信息有效，基于所述语音信息生成用于与所述用户进行交互的反馈信息，在所述语音对话窗口中显示所述反馈信息并语音播报所述反馈信息；按照所述语音信息执行对应操作并关闭所述语音对话窗口。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的可视化语音信息交互方法。

本发明实施例还提供了一种计算机可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在电子设备执行上述的可视化语音信息交互方法。

本发明实施例提供的可视化语音信息交互方法及装置，根据用户输入的第一操作指令生成的语音对话窗口不会遮挡当前显示界面中的大部分显示内容，因此不影响当前显示界面中的显示内容的使用和运行，在根据用户输入的语音信息执行对应操作之前会基于语音信息生成用于与用户进行交互的反馈信息，并在语音对话窗口中显示反馈信息并语音播报反馈信息，如此，能够提高智能终端的交互性。

进一步地，该方法还能够在语音对话窗口显示的时候操作显示界面中的应用程序。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为一种常见的语音助手的显示界面图。

图2为本发明实施例所提供的一种电子设备的方框示意图。

图3为本发明实施例所提供的一种可视化语音信息交互方法的流程图。

图4为本发明实施例所提供的一种显示界面的示意图。

图5为本发明实施例所提供的一种显示界面的另一示意图。

图6为本发明实施例所提供的一种显示界面的又一示意图。

图7为本发明实施例所提供的一种可视化语音信息交互装置的模块框图。

图标：

10-电子设备；11-存储器；12-处理器；13-网络模块；

20-可视化语音信息交互装置；21-语音对话窗口生成模块；22-可视化语音信息交互模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1所示，发明人经调查发现，用户在使用现阶段的语音助手时，语音助手界面会占据整个显示界面，这会导致显示界面的当前操作被中断，例如图1中的文字界面会被语音助手界面所覆盖，并且现阶段的语音助手大多只能单纯地接收语音信息然后进行对应处理，难以满足用户的交互性需求。

以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在本发明过程中对本发明做出的贡献。

基于上述研究，本发明实施例提供了一种可视化语音信息交互方法及装置，能够提高智能终端的交互性。

图2示出了本发明实施例所提供的一种电子设备10的方框示意图。本发明实施例中的电子设备10具有数据存储、传输、处理功能，如图2所示，电子设备10包括：存储器11、处理器12、网络模块13和可视化语音信息交互装置20。

存储器11、处理器12和网络模块13之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有可视化语音信息交互装置20，可视化语音信息交互装置20包括至少一个可以软件或固件(firmware)的形式储存于存储器11中的软件功能模块，处理器12通过运行存储在存储器11内的软件程序以及模块，例如本发明实施例中的可视化语音信息交互装置20，从而执行各种功能应用以及数据处理，即实现本发明实施例中的可视化语音信息交互方法。

其中，存储器11用于存储程序，处理器12在接收到执行指令后，执行所述程序。处理器12可能是一种集成电路芯片，具有数据的处理能力。上述的处理器12可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。网络模块13用于通过网络建立电子设备10与其他通信终端设备之间的通信连接，实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。

本发明实施例还提供一种计算机可读存储介质，该可读存储介质包括计算机程序，该计算机程序运行时控制该可读存储介质所在电子设备10执行下面的可视化语音信息交互方法。

图3示出了本发明实施例所提供的一种可视化语音信息交互方法的流程图。所述方法有关的流程所定义的方法步骤应用于具有显示功能的电子设备10，可以由所述处理器12实现。下面将对图3所示的具体流程进行详细阐述：

步骤S21，响应用户输入的第一操作指令，根据第一操作指令在当前显示界面中生成不遮挡当前显示界面中的大部分显示内容的语音对话窗口。

如图4所示，电子设备10的当前显示界面中的显示内容包括应用程序A和应用程序B。在本实施例中，第一操作指令可以是语音指令，例如用户说出的“请打开语音助手”等唤醒词，也可以是触碰指令，例如点击设置于电子设备10的语音按钮。

电子设备10接收并响应用户输入的第一操作指令之后，在当前显示界面中生成不遮挡大部分显示内容的语音对话窗口W。例如，可以在当前显示界面的顶部生成语音对话窗口W，如图5所示。也可以在当前显示界面的底部生成语音对话窗口W，只要满足语音对话窗口W不遮挡当前显示界面中的大部分显示内容即可，在本实施例中，语音对话窗口W不遮挡应用程序A和应用程序B。

又例如，语音对话窗口W可以遮挡应用程序A的小部分内容。

步骤S22，在继续显示当前显示界面中的显示内容的同时接收用户输入的语音信息。

可以理解，当前显示界面的顶部生成语音对话窗口W之后，接收用户输入的语音信息。

步骤S23，查找是否存在与语音信息相匹配的设定语音信息。

在本实施例中，电子设备10预先存储有多个设定语音信息。

若查找到存在与用户输入的语音信息相匹配的设定语音信息，判定用户输入的语音信息有效，转向步骤S24，否则转向步骤S25。

步骤S24，基于语音信息生成用于与用户进行交互的反馈信息，在语音对话窗口中显示反馈信息并语音播报该反馈信息。

在本实施例中，判定用户输入的语音信息有效可以理解为判定该语音信息命中语音技能，此时会基于语音信息生成用于与用户进行交互的反馈信息，在语音对话窗口W中显示反馈信息并进行语音播报。

例如，用户输入的语音信息为“请立刻帮我截屏”。电子设备10在接收到这一语音信息之后会生成反馈信息“您想截图直接截，我担心我自己截的您不满意”，将反馈信息“您想截图直接截，我担心我自己截的您不满意”在语音对话窗口W中显示并进行语音播报。

可选地，电子设备10可以将用户输入的语音信息转换为文本信息并在语音对话窗口W中进行显示，在生成反馈信息后，将语音对话窗口W中显示的文本信息替换为反馈信息并进行播报。

在本实施例中，生成反馈信息的步骤如下：

通过云计算文字语音分析计算并理解文本信息所对应的语义，根据语义生成反馈信息。可选地，还可以根据语义将文本信息将语音对话窗口W中进行显示。

步骤S25，基于语音信息在语音对话窗口中生成提示文字信息，对提示文字信息进行语音播报。

可以理解，若电子设备10中不存在与用户输入的语音信息相匹配的设定语音信息(用户输入的语音信息没有命中语音技能)，电子设备10基于语音信息在语音对话窗口W中生成提示文字信息，对提示文字信息进行语音播报并转向步骤S22。例如，用户输入的语音信息为“我想看加拿大的枫叶”，此时语音对话窗口W可以显示提示文字信息“无法为您获取加拿大的实时枫叶景色，亲自踏上那片土地可能会让您有不一样的感受”。如此，避免了生硬的文字提示例如“输入语音有误，请重试”，提高了电子设备10的交互性。

步骤S26，按照语音信息执行对应操作并关闭语音对话窗口。

以语音信息“请立刻帮我截屏”为例，语音对话窗口W显示并语音播报了反馈信息“您想截图直接截，我担心我自己截的您不满意”之后会进行截屏操作，完成截屏操作后关闭语音对话窗口W。如此，不仅执行了语音信息对应的操作，还实现了与用户的交互，并且语音对话窗口W不会遮挡和影响应用程序A和应用程序B的使用和显示。

可选地，按照语音信息执行的操作还可以包括对当前显示界面进行切换。具体步骤如下：

针对用户输入的语音信息，将语音信息转化为文本信息，提取文本信息中包括的关键词信息，查找是否存在与关键词信息相匹配的设定关键词信息，若查找到设定关键词信息，判定关键词信息有效，按照关键词信息将当前界面的显示内容切换为关键词信息对应的目标显示内容并关闭语音对话窗口。

例如，用户输入的语音信息为“请帮我切换到王者荣耀的登录界面”。电子设备10提取出的关键词信息为“切换”、“王者荣耀”和“登录界面”。

电子设备10查找到存在设定关键词信息“切换”、“王者荣耀”和“登录界面”，判定关键词信息“切换”、“王者荣耀”和“登录界面”有效，按照关键词信息将当前显示界面显示的应用程序A和应用程序B的界面切换为王者荣耀的登录界面并关闭语音对话窗口W。

换句话说，若电子设备10识别出需要进行界面切换(打开其他界面)，则在完成界面切换后关闭语音对话窗口W，若电子设备10识别出不需要进行界面切换，则直接关闭语音对话窗口W。

可选地，本实施例中的语音对话窗口W可以根据用户的实际需求进行移动，例如，电子设备10接收用户输入的第二操作指令(语音指令或者触摸指令)，根据第二操作指令将语音对话窗口W从当前显示界面中的所在位置移动到目标位置，又例如，将语音对话窗口W从当前显示界面的顶部移动到底部。在本实施例中，目标位置可以是当前显示界面的底部，也可以是侧边，只要不遮挡当前显示界面中的大部分应用程序即可。

可选地，电子设备10还能够在当前显示界面显示语音对话窗口W的同时响应用户输入的用于对当前显示界面中显示的应用程序进行操作的第三操作指令，并根据第三操作指令对应用程序进行处理。如图6所示，应用程序A为电子书阅读器，此时用户输入的语音信息可以为“将应用程序B替换为应用程序C”。电子设备10根据用户输入的语音对应用程序C进行操作的时候还能够响应用户通过手指滑动电子书阅读器的第三操作指令，所呈现出的界面效果为：用户通过手指操作电子书阅读器的同时应用程序B被替换为应用程序C，语音对话窗口W没有遮挡应用程序A，也不影响用户继续使用应用程序A。可以理解，语音对话窗口W遮挡住的界面无法进行显示和操作，但是语音对话窗口W未遮挡住的界面能够进行显示和操作。

在本实施例中，语音对话窗口W可以为透明或者不透明的浮窗。

可选地，如图5所示，当前显示界面中显示了语音对话窗口W之后，用户可以通过语音对话窗口W中的按钮主动关闭语音对话窗口W，也可以通过语音指令进行关闭，例如，用户输入的语音指令可以为“请关闭语音浮窗”。在整个语音交互过程中，用户可以通过语音对话窗口W中设置的按钮手动进行开启或关闭。

在本实施例中，电子设备10可以为触控投影音箱设备、移动手机或者其他智能终端，在此不作限定。

在上述基础上，如图7所示，本发明实施例提供了一种可视化语音信息交互装置20，所述可视化语音信息交互装置20包括：语音对话窗口生成模块21和可视化语音信息交互模块22。

语音对话窗口生成模块21，用于响应用户输入的第一操作指令，根据所述第一操作指令在当前显示界面中生成不遮挡所述当前显示界面中的显示内容的语音对话窗口。

由于语音对话窗口生成模块21和图3中步骤S21的实现原理类似，因此在此不作更多说明。

可视化语音信息交互模块22，用于在继续显示所述当前显示界面中的显示内容的同时接收所述用户输入的语音信息，查找是否存在与所述语音信息相匹配的设定语音信息；若查找到所述设定语音信息，判定所述语音信息有效，基于所述语音信息生成用于与所述用户进行交互的反馈信息，在所述语音对话窗口中显示所述反馈信息并语音播报所述反馈信息；按照所述语音信息执行对应操作并关闭所述语音对话窗口。

由于可视化语音信息交互模块22和图3中步骤S22～步骤S26的实现原理类似，因此在此不作更多说明。

综上，本发明实施例所提供的可视化语音信息交互方法及装置，能够提高智能终端的交互性。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备10，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种可视化语音信息交互方法，其特征在于，应用于具有显示功能的电子设备，所述方法包括：

2.根据权利要求1所述的可视化语音信息交互方法，其特征在于，按照所述语音信息执行对应操作并关闭所述语音对话窗口的步骤，包括：

将所述语音信息转换为文本信息；

提取所述文本信息中包括的关键词信息；

3.根据权利要求1所述的可视化语音信息交互方法，其特征在于，在接收所述用户输入的语音信息的步骤之前，所述方法还包括：

4.根据权利要求1所述的可视化语音信息交互方法，其特征在于，所述方法还包括：

根据所述第三操作指令对所述应用程序进行处理。

5.根据权利要求1所述的可视化语音信息交互方法，其特征在于，所述语音对话窗口为透明或不透明的浮窗。

6.根据权利要求1所述的可视化语音信息交互方法，其特征在于，根据所述第一操作指令在当前显示界面中生成不遮挡所述当前显示界面中的大部分显示内容的语音对话窗口的步骤，包括：

7.根据权利要求1所述的可视化语音信息交互方法，其特征在于，在整个语音交互流程中，所述方法还包括：

8.根据权利要求1所述的可视化语音信息交互方法，其特征在于，查找是否存在与所述语音信息相匹配的设定语音信息的步骤之前，所述方法还包括：

9.根据权利要求8所述的可视化语音信息交互方法，其特征在于，基于所述语音信息生成用于与所述用户进行交互的反馈信息的步骤，包括：

对所述文本信息进行语义分析以获得所述文本信息的语义；

根据所述语义生成所述反馈信息。

10.一种可视化语音信息交互装置，其特征在于，应用于具有显示功能的电子设备，所述装置包括：