CN112908319A

CN112908319A - 一种处理信息交互的方法及设备

Info

Publication number: CN112908319A
Application number: CN201911229397.0A
Authority: CN
Inventors: 沈承恩
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-06-04
Anticipated expiration: 2039-12-04
Also published as: CN112908319B

Abstract

本申请公开了一种处理信息交互的方法及设备，包括：接收来自通信终端的语音处理指令，对所述语音处理指令携带的语音请求进行识别、分词得到语音语句文本对应的分词集合；获取所述第一用户的历史语音请求处理信息，其中，所述历史语音请求处理信息至少包括历史语音请求对应的业务领域以及业务领域的置信度；基于卷积神经网络文本分类的业务领域定位模型，利用所述语音语句文本对应的分词集合以及所述历史语音请求处理信息，确定候选业务领域的置信度，并根据候选业务领域的置信度确定所述语音语句文本对应的业务领域；根据所述语音语句文本对应的业务领域处理所述第一用户的语音请求。

Description

一种处理信息交互的方法及设备

技术领域

本申请涉及通信技术，尤其涉及一种处理信息交互的方法及设备。

背景技术

通信终端(比如智能电视、智能音箱、智能手机等)中的语音交互技术已成为人工智能的重点研究领域，随着业务功能多样化以及用户需求的提升，人们希望通信终端支持更加多样化的用户说法以及提供更加自然流畅的用户体验。

然而，传统的深度学习文本分类算法对于模糊、歧义的用户语音请求无法准确分类。目前解决此类问题大多使用规则模块，强制用户在特定业务领域内进行多轮语音请求，无法准确响应跨业务领域的语音请求，降低了用户体验。例如订外卖业务，一旦用户进入订外卖业务领域，无论用户请求是否属于订外卖业务领域(用户请求可能属于看电影或听音乐的业务领域)，都会在订外卖业务领域内处理用户请求，除非用户语音请求退出订外卖业务领域后进入当前语音请求对应的业务领域。

因此，在用户输入的语音请求语义较为模糊的情境下，需要提供一种用于提高用户体验地文本分类方法以完成信息交互过程。

发明内容

本申请提供了一种处理信息交互方法及设备，用以在交互过程中，结合用户的历史语音请求处理信息为当前语音请求提供匹配的业务领域服务，进而提高用户体验。

根据示例性的实施方式中的一方面，提供一种处理信息交互方法，包括：

接收来自通信终端的语音处理指令，对所述语音处理指令携带的语音请求进行识别、分词得到语音语句文本对应的分词集合；

获取所述第一用户的历史语音请求处理信息，其中，所述历史语音请求处理信息至少包括历史语音请求对应的业务领域以及业务领域的置信度；

基于卷积神经网络文本分类的业务领域定位模型，利用所述语音语句文本对应的分词集合以及所述历史语音请求处理信息，确定候选业务领域的置信度，并根据候选业务领域的置信度确定所述语音语句文本对应的业务领域；

根据所述语音语句文本对应的业务领域处理第一用户的语音请求。

在一些示例性的实施方式中，确定所述第一用户的语音请求对应的业务领域后，根据所述第一用户的语音请求处理信息，更新所述第一用户的历史语音请求处理信息。

在一些示例性的实施方式中，所述方法还包括：

确定所述第一用户的语音请求对应的业务领域后，确定该业务领域中的候选业务意图的置信度，并根据候选业务意图的置信度确定所述语音请求在该业务领域中的业务意图。

在一些示例性的实施方式中，所述确定候选业务领域的置信度，具体包括：

获取所述语音语句文本中的关键信息；

根据所述语音语句文本中的关键信息以及所述语音语句文本对应的分词集合以及所述历史语音请求处理信息，确定当前语音请求的候选业务领域的置信度。

在一些示例性的实施方式中，所述历史语音请求处理信息，还包括以下之一或任意组合：

历史语音请求对应的业务领域中，所属业务意图以及对应的置信度；

历史语音请求中的关键信息；

历史语音请求的时间；

针对一个历史语音请求，在该语音请求之前的连续N次历史语音请求属于同一业务领域的连续请求次数；

历史语音请求在对应的业务领域中的响应类型；

历史语音请求对应的多轮会话指示信息，所述多轮会话指示信息用于指示历史语音请求是否处于同一业务领域的多轮语音请求过程中。

在一些示例性的实施方式中，所述方法还包括：

获取所述第一用户的历史语音请求的时间与当前时间之间的时间间隔；

根据所述时间间隔的大小，以及所述历史语音请求处理信息中除所述历史语音请求的时间之外的其他信息，确定当前语音请求的候选业务领域的置信度。

根据示例性的实施方式中的另一方面，提供一种服务器，包括：

接收模块，用于接收来自通信终端的语音请求；

语音模块，用于对所述语音处理指令携带的语音请求进行识别、分词得到语音语句文本对应的分词集合；

处理模块，用于获取所述第一用户的历史语音请求处理信息，其中，所述历史语音请求处理信息至少包括历史语音请求对应的业务领域以及业务领域的置信度；

所述处理模块，还用于基于卷积神经网络文本分类的业务领域定位模型，利用所述语音请求对应的分词集合以及所述历史语音请求处理信息，确定候选业务领域的置信度，并根据候选业务领域的置信度确定所述第一用户的语音请求对应的业务领域；

所述处理模块，还用于根据所述对应的业务领域处理第一用户的语音请求；

发送模块，用于发送第一用户的语音请求响应，所述响应携带了对应的业务领域对所述语音请求的处理结果。

根据示例性的实施方式中的再一方面，提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如上所述的处理方法。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实施例。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了本发明实施例提供的一种通信终端的结构示意图；

图2示例性示出了本发明实施例提供的一种通信终端的软件架构示意图；

图3示例性示出了本发明实施例提供的通信终端的用户界面示意图；

图4中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图；

图5中示例性示出了根据实施例中基于卷积神经网络文本分类的业务领域定位模型；

图6中示例性示出了根据实施例中基于卷积神经网络文本分类的业务领域定位方法流程图；

图7示例性示出了根据实施例中通信终端100显示用户的语音请求后的用户界面。

具体实施方式

本申请实施例提供一种通信终端以及处理信息交互的方法，能够在任务型人机交互场景中，针对语义较为模糊的用户语音请求，为用户提供精准快速业务领域服务，提升用户体验。

示例性地，本申请实施例中的通信终端可以是具有语音交互功能的显示设备，比如智能手机，该显示设备用以显示相应的业务领域处理用户语音请求的结果。本申请实施例中的通信终端也可以是具有语音交互功能的播放设备，比如智能音箱，该播放设备用以语音播报相应的业务领域对用户语音请求的处理结果。

下面将结合附图对本申请实施例中的技术方案进行清除、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，″/″表示或的意思，例如，A/B可以表示A或B；文本中的″和/或″仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，″多个″是指两个或多于两个。

以下，术语″第一″、″第二″仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有″第一″、″第二″的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，″多个″的含义是两个或两个以上。

图1中示例性示出了根据示例性实施例中通信终端100的硬件配置框图。

下面以通信终端100为例对实施例进行具体说明。应该理解的是，图1所示通信终端100仅是一个范例，并且通信终端100可以具有比图1中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

如图1所示，通信终端100包括：射频(radio frequency，RF)电路110、存储器120、显示单元130、摄像头140、传感器150、音频电路160、无线保真(Wireless Fidelity，Wi-Fi)模块170、处理器180、蓝牙模块181、以及电源190等部件。

RF电路110可用于在收发信息或通话过程中信号的接收和发送，可以接收基站的下行数据后交给处理器180处理；可以将上行数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等器件。

存储器120可用于存储软件程序及数据。处理器180通过运行存储在存储器120的软件程序或数据，从而执行通信终端100的各种功能以及数据处理。存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器120存储有使得通信终端100能运行的操作系统。本申请中存储器120可以存储操作系统及各种应用程序，还可以存储执行本申请实施例所述方法的代码。

显示单元130可用于接收输入的数字或字符信息，产生与通信终端100的用户设置以及功能控制有关的信号输入，具体地，显示单元130可以包括设置在通信终端100正面的触摸屏131，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

显示单元130还可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元130可以包括设置在通信终端100正面的显示屏132。其中，显示屏132可以采用液晶显示器、发光二极管等形式来配置。显示单元130可以用于显示本申请中所述的各种图形用户界面。

其中，触摸屏131可以覆盖在显示屏132之上，也可以将触摸屏131与显示屏132集成而实现通信终端100的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元130可以显示应用程序以及对应的操作步骤。

摄像头140可用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器180转换成数字图像信号。

通信终端100还可以包括至少一种传感器150，比如加速度传感器151、距离传感器152、指纹传感器153、温度传感器154。通信终端100还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路160、扬声器161、麦克风162可提供用户与通信终端100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出。通信终端100还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出至RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。本申请中麦克风162可以获取用户的语音。

Wi-Fi属于短距离无线传输技术，通信终端100可以通过Wi-Fi模块170帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。

处理器180是通信终端100的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序，以及调用存储在存储器120内的数据，执行通信终端100的各种功能和处理数据。在一些实施例中，处理器180可包括一个或多个处理单元；处理器180还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器180中。本申请中处理器180可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例所述的处理方法。另外，处理器180与显示单元130和摄像头140耦接。

蓝牙模块181，用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，通信终端100可以通过蓝牙模块181与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

通信终端100还包括给各个部件供电的电源190(比如电池)。电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电以及功耗等功能。通信终端100还可配置有电源按钮，用于终端的开机和关机，以及锁屏等功能。

图2中示例性示出了本发明实施例提供的一种通信终端的软件架构示意图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供通信终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，通信终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合捕获拍照场景，示例性说明通信终端100软件以及硬件的工作流程。

当触摸屏131接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头140捕获静态图像或视频。

本申请实施例中的通信终端100可以为手机、平板电脑、可穿戴设备、笔记本电脑以及电视等。

图3中示例性示出了本发明实施例提供的通信终端的用户界面示意图。在一些具体实施中，用户通过触摸用户界面上的应用图标可以打开相应的应用程序，或者通过触摸用户界面上的文件夹图标可以打开相应的文件夹。

本申请的实施例中，处理信息交互的方法还可应在具有显示设备的通信终端中，比如智能电视。图4中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图4中示出，用户可通过移动终端300a和控制装置300b操作显示设备200。

其中，控制装置300b可以遥控器，包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

示例的，移动终端300a可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300a与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300a上，通过控制移动终端300a上用户界面，实现控制显示设备200的功能。也可以将移动终端300a上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以一组，也可以多组，可以一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以为智能电视、计算机等。具体智能产品类型、设备型号等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能。示例的包括，网络电视、智能电视、互联网协议电视(IPTV)等。

本申请的实施例中，基于卷积神经网络的文本分类模型，利用用户语音请求对应的分词集合以及用户的历史语音请求处理信息，确定所述用户语音请求对应的业务领域，根据确定的对应业务领域处理用户请求。

其中，可在每次响应用户的语音请求后，根据响应结果更新该用户的历史语音请求处理信息。

可选地，不同用户的历史语音请求处理信息可分别存储。比如，用户A的历史语音请求处理信息保存在用户A的历史语音请求处理信息数据库中，用户B的历史语音请求处理信息保存在用户B的历史语音请求处理信息数据库中。

所述历史语音请求处理信息至少包括历史语音请求对应的业务领域以及业务领域的置信度。可选地，历史语音请求对应的业务领域可使用比特位图(bitmap)指示。该比特位图(bitmap)包含的比特数量等于业务领域的数量，每个比特对应一个业务领域，通过比特取值，可表示对应的业务领域是否被选择。

举例来说，业务领域按照顺序包括以下5个：影视、音乐、教育、交通、美食，则使用5维one-hot向量表示用户语音请求所属的业务领域，按照上述顺序，每一维度代表一种业务领域。示例的，[1，0，0，0，0]表示历史语音请求处理信息中，历史语音请求对应的业务领域为影视业务领域，历史语音请求处理信息中的置信度为影视业务领域的置信度。

置信度可以用大于或等于0且小于或等于1的数字表示取值越大则表明置信度越高。

可选地，所述历史语音处理信息还包括历史语音请求对应的业务意图以及业务意图的置信度。可选地，历史语音请求对应的业务意图可使用比特位图(bitmap)指示。该比特位图(bitmap)包含的比特数量等于所属业务领域中业务意图的数量，每个比特对应一个业务意图，通过比特取值，可表示对应的业务意图是否被选择。每个业务领域可对应一个或多个业务意图，不同的业务领域所对应的业务意图通常不同。

举例来说，影视和美食业务领域所对应的业务意图是不同的，影视业务领域的业务意图按照顺序包括以下4个：影视搜索、影视问答、影视娱乐、影视收藏，则使用4维one-hot向量表示用户语音请求对应的业务意图，按照上述顺序，每一维度代表一种业务意图。示例的，历史语音请求对应的业务领域为影视业务领域，业务意图向量[0，1，0，0]表示历史语音请求对应的业务意图为影视问答，历史语音请求处理信息中的业务意图置信度为影视问答业务意图的置信度。

再例如，美食业务领域的业务意图按照顺序包括以下5个：美食视频搜索、订外卖、菜谱搜索、美食问答、视频教学，则使用5维one-hot向量表示用户语音请求对应的业务意图，按照上述顺序，每一维度代表一种业务意图。示例的，历史语音请求对应的业务领域为美食业务领域，业务意图向量[0，0，1，0，0]表示历史语音请求对应的业务意图为菜谱搜索，历史语音请求处理信息中的业务意图置信度为菜谱搜索业务意图的置信度。

可选地，所述历史语音处理信息还包括历史语音请求的关键信息。可选的，可针对不同的业务领域预先设置对应的关键信息标签，一个业务领域可设置一个或多个关键信息标签历史语音请求对应的关键信息标签可使用比特位图(bitmap)指示。该比特位图(bitmap)包含的比特数量等于对应业务领域中含有的关键信息标签的数量，每个比特对应一个关键信息标签，通过比特取值，可表示对应的关键信息标签是否被选择。

举例来说，影视业务领域的关键信息标签按照顺序包括以下7个：影视名称，影视演员、影视导演、影视类型、上映时间、影片地域、影视关系，则使用7维one-hot向量表示用户语音请求对应的关键信息，按照上述顺序，每一维度代表一种关键信息标签。示例的，用户历史语音请求对应的业务领域为影视业务，则关键信息标签向量[0，1，0，0，0，0，1]表示历史语音请求对应的关键信息标签为：影视演员和影视关系。如果该历史语音请求为″刘德华的老婆是谁″，则结合该关键信息标签向量，则该请求中的关键信息表示为：影片演员-＞刘德华，影视关系-＞老婆。

可选地，所述历史语音处理信息还包括历史语音请求的时间。一个历史语音请求对应的时间为该历史语音请求的接收时间或者处理完成的时间。

可选地，所述历史语音处理信息还包括连续触发次数。一个历史语音请求的连续触发次数表示在该语音请求之前的连续N次历史语音请求中，属于同一业务领域的连续请求次数。其中，N为大于或等于1的整数，N的取值可预先设定。

可选地，所述历史语音处理信息还包括历史语音请求的响应类型，响应类型用于表示用户语音请求的表述形式或表述方式等。举例来说，响应类型有查询、问答、反问等形式。响应类型可用响应类型指示信息表示，其取值可为实数。

可选地，所述历史语音处理信息还包括处于多轮语音请求过程指示信息，该指示信息用于指示用户是否处于同一业务领域的多轮语音请求过程中。其中，每接收到用户的一个语音请求可以计为一轮语音请求，针对一个用户，多轮语音请求是指连续多次接收到该用户的语音请求。该指示信息可以是布尔型数据，比如当该指示信息取值为1则表示处于某一业务领域的多轮语音请求过程中，该指示信息取值为0则表示未处于某一业务领域的多轮语音请求过程中。其中，所述多轮语音请求中的语音请求数量，可以预先设定。

在对用户当前输入的语音请求确定出对应的业务领域后，可将用户当前的语音请求对应的业务领域与上一次语音请求对应的业务领域进行比较，若不同，则将当前语音请求对应的多轮语音请求过程指示信息设置为″未处于某一业务领域的多轮语音请求过程中″，若相同，则可进一步根据用户语音请求的内容或语义，判断该业务领域的交互是否完成，若完成，则将当前语音请求对应的多轮语音请求过程指示信息设置为″未处于某一业务领域的多轮语音请求过程中″，否则设置为″处于某一业务领域的多轮语音请求过程中″。

具体的，结合示例详细说明：

示例1：A用户的上一轮历史语音请求为：我想订机票，所述上一轮历史语音请求属于交通业务领域，当前轮次语音请求为：山东航空，所属业务领域为交通业务领域，两轮语音请求对应的业务领域相同，且两轮语音请求的内容″订机票″与″航空″存在语义关联，交互的业务意图尚未完成，则所述指示信息值为0，表示A用户″处于某一业务领域的多轮语音请求过程中″。

示例2：B用户的上一轮历史语音请求依次为：订从北京去上海的车票，所述历史语音请求均属于交通业务领域，当前轮次语音请求为：购买G101车次，所属业务领域为交通业务领域，两轮语音请求对应的业务领域相同，且两轮语音请求的内容″车票″与″G101车次″存在语义关联，订票业务意图已经完成，则所述指示信息值为0，表示B用户″未处于某一业务领域的多轮语音请求过程中″。

示例3：C用户的上一轮历史语音请求为：我想吃牛排，所述上一轮历史语音请求属于美食业务领域，当前轮次语音请求为：最新上映的电影，所属业务领域为影视业务领域，两轮语音请求对应的业务领域不同，则指示信息值为0，表示C用户″未处于某一业务领域的多轮语音请求过程中″。

本申请实施例中历史语音请求处理信息，可以存储为结构化数据。表1示例性示出了本申请实施例中的某一用户的历史语音请求处理信息的结构化数据。

表1、用户的历史语音请求处理信息的结构化数据

下面对本申请实施例中的基于卷积神经网络文本分类的业务领域定位模型进行说明。

图5中示例性示出了根据实施例中基于卷积神经网络文本分类的业务领域定位模型。如图5所示，模型中可包括嵌入式表示层、CNN(Convolutional Neural Networks，卷积神经网络)卷积层、全连接层、分类层等。嵌入式表示层为用户的语音请求分词集合的表示向量，卷积层为使用不同大小的滑动窗口得到的语音请求的卷积向量，全连接层整合用户的语音请求池化后的向量与该用户的历史语音请求处理信息，分类层输出用户当前语音请求的候选业务领域置信度，根据置信度确定所属业务领域。

具体的，所述基于卷积神经网络文本分类的业务领域定位模型，包括：

嵌入式表示层：用于将用户语音请求的分词集合通过分布式表示映射为低维向量，使语义相近的词在低维空间中距离较近，相比于传统的one-hot表示方式，低维词向量表示更加合理，并解决了传统的one-hot表示中存在的稀疏问题，提高了定位用户语音请求的业务领域准确度。

CNN卷积层：用于使用窗口大小为h的卷积核对用户的语音请求分词集合的低维向量进行一维卷积操作，卷积公式为：

C_i＝f(ω*x_i：i+h-1+b)...........................[1]

其中，ω为连接权重，b为阈值，h为窗口大小，x_i：i+h-1为第i至i+h-1个分词的低维向量，本申请实施例中h的大小分别取2，3，4。

通过不断平移窗口，将窗口内部的词进行卷积操作，得到使用窗口h的语音请求向量为：

C＝[C₁，C₂，C₃，...，C_n-h+1].....................[2]

其中，C₁为窗口h第一次平移得到的向量，C₂为窗口h第二次平移得到的向量，依次类推。

卷积操作可以提取用户语音请求分词后字或词的组合向量，所述组合向量涵盖了词与词之间的组合特征，能更好的获取用户语音请求的语法语义信息。

全连接层：用于整合用户的语音请求池化后的向量与该用户的历史语音请求处理信息，得到分类向量。

分类层：用于输出用户的语音请求的候选业务领域的置信度，基于softmax分类网络对所述用户的语音请求进行业务领域分类，分类公式为：

其中，M为候选业务领域类别总数，V_i为第i个候选业务领域分类向量。Softmax分类网络将多分类的输出转化为相对概率(置信度)，所述候选业务领域的置信度规范为[0，1]区间，所述置信度最高的业务领域即为该用户的语音请求的对应业务领域，其中，所述候选业务领域的置信度的和为1。

图6中示例性示出了根据实施例中基于卷积神经网络文本分类的业务领域定位方法流程图。如图6所示，通信终端按照设定流程执行以下操作：

S601：通信终端接收用户发送的语音请求。

该步骤中，用户打开通信终端中的语音助手，通过语音助手发送语音请求。其中，语音助手可为智能手机、智能电视、智能音箱等通信终端的语音输入应用程序。

S602：通信终端向服务器发送语音处理指令，所述语音处理指令携带干净的语音请求。

该步骤中，通信终端可对语音请求进行去燥(包括去除回声和环境噪声)，得到干净的语音请求后向服务器发送语音处理指令，使得所述服务器对干净的语音请求进行后续处理。

S603：服务器根据所述语音处理指令对所述干净的语音请求进行识别得到语音语句文本，通过分词，得到所述语音语句文本对应的分词集合。

下面以一个示例说明该步骤：

用户语音请求为″帮我买张从北京去上海的车票″，服务器识别所述用户的语音请求得到语音语句文本：帮我买张从北京去上海车票，分词处理后得到语音语句文本的分词集合：帮我买张从北京去上海的车票。

结合图5，该步骤中，将识别得到的语音语句文本中的词，通过分布式表示，映射为低维向量表示(即分词集合)，形成嵌入表示层，并使语义相似的词在低位空间中距离较近。

S604：服务器获取该用户的历史语音请求处理信息。

该步骤中，所述历史语音请求处理信息包含的内容，可参见前述实施例。

本申请实施例中，当接收到来自通信终端的语音处理指令后，可对该语音进行识别以得到语音特征信息，通过将该语音特征信息与用户特征数据库中的语音特征信息进行比对，从而确定该用户(比如确定该用户的ID)，再根据该用户的ID查询该用户的历史语音请求处理信息。

S605：服务器基于卷积神经网络文本分类的业务领域定位模型，利用所述语音语句文本对应的分词集合以及所述历史语音请求处理信息，确定候选业务领域的置信度，并根据候选业务领域的置信度确定所述语音语句文本对应的业务领域。

举例来说，用户语音请求为″我想看电影″，候选业务领域包括：影视，音乐、交通出行、教育、美食、金融、天气等，基于卷积神经网络文本分类的业务领域定位模型输出的候选业务领域的置信度如表2所示：

表2用户语音请求的业务领域定位模型输出结果

影视	音乐	交通出行	教育	美食	金融	天气	...
								0.9	0.05	0.01	0.01	0.01	0.01	0.01	...

候选业务领域中影视的业务领域置信度最高，因此确定该用户的语音请求对应的业务领域为影视。

S606：服务器根据确定的业务领域处理该用户的语音请求。

进一步地，上述流程还可包括以下步骤：

S607：服务器根据该用户的语音请求对应的业务领域以及业务领域的置信度，更新该用户的历史语音请求处理信息。

该步骤中，进一步地，还可以根据对该用户的语音请求进行业务领域定位的处理结果，添加或更新该用户的历史语音请求处理信息中的其他信息，比如针对本次处理的语音请求添加其对应的业务意图及其置信度，或者添加其请求时间等。

S608：服务器向通信终端发送所述用户的语音请求的处理结果。

在上述流程的S605中，在确定候选业务领域的置信度时，基于卷积神经网络文本分类的业务领域定位模型可将用户上一次的语音请求的处理信息作为确定各候选业务领域置信度的依据。其中，用户上一次的语音请求处理信息中包括用户上一次的语音请求所对应的业务领域以及置信度，还可包括用户上一次的语音请求所对应的业务意图以及置信度。

在上述流程的S605中，在确定候选业务领域的置信度时，若所依据的历史请求处理信息中包含上一次语音请求的关键信息，则基于卷积神经网络文本分类的业务领域定位模型可将该关键信息作为确定各候选业务领域置信度的依据之一。其中，若历史语音请求的关键信息包含当前语音请求中的关键信息，或历史语音请求中的关键信息与当前语音请求中的关键信息相似，则用户的当前语音请求的候选业务领域为历史语音请求对应的业务领域的置信度较高。

在上述流程的S605中，在确定候选业务领域的置信度时，若所依据的历史请求处理信息中包含上一次语音请求的时间，则可根据用户上一次语音请求的时间与当前语音请求的时间，得到两次语音请求的时间间隔，基于卷积神经网络文本分类的业务领域定位模型可将该时间间隔作为确定各候选业务领域置信度的依据之一。其中，该时间间隔可以作为判断用户语音请求的响应结果是否正确的一个依据，若时间间隔低于设定的阈值，则当前语音请求的业务领域与上一次语音请求的业务领域相同的几率较小。这是因为：用户前后两次发送语音请求的时间间隔较短，表明系统可能未正确响应用户的该次语音请求(如无法识别前一次的语音请求并获取语音请求的全部内容，而导致业务领域定位错误)，因此用户立即发起新的语音请求以便系统能够正确识别和响应。其中，所述设定的阈值可以根据情况(比如响应时延或经验值等因素)预先设定。

在上述流程的S605中，在确定候选业务领域的置信度时，若所依据的历史请求处理信息中包含连续触发次数，即当前语音请求之前，连续N次历史语音请求中，属于同一业务领域的连续请求次数，则基于卷积神经网络文本分类的业务领域定位模型可将连续触发次数作为确定各候选业务领域置信度的依据之一。其中，该连续触发次数取值越大，则当前语音请求所属的业务领域为所述同一业务领域的几率越大。举例来说，用户的5次历史语音请求中，有连续3次请求属于影视业务领域，1次请求属于音乐业务领域，1次请求属于美食业务领域，则用户当前语音请求属于影视业务领域的置信度越高。

在上述流程的S605中，在确定候选业务领域的置信度时，若所依据的历史请求处理信息中包含上一次语音请求的响应类型，则基于卷积神经网络文本分类的业务领域定位模型可将连续触发次数作为确定各候选业务领域置信度的依据之一。不同的响应类型，对候选业务领域置信度的影响不同。举例来说，若上一次语音请求的响应类型为查询，则用户当前语音请求对应的业务领域与上一次语音请求对应的业务领域相同的几率较高，若上一次语音请求的响应类型为反问，则用户当前语音请求对应的业务领域与上一次语音请求对应的业务领域相同的几率较低。

在上述流程的S605中，在确定候选业务领域的置信度时，若所依据的历史请求处理信息中包含多轮语音请求过程指示信息，则基于卷积神经网络文本分类的业务领域定位模型可将多轮语音请求过程指示信息作为确定各候选业务领域置信度的依据之一。其中，若上一次语音请求的多轮语音请求过程指示信息表示处于某一业务领域的多轮语音请求过程中，则用户当前语音请求对应的业务领域与上一次语音请求对应的业务领域相同的几率较高。

可选地，上述流程中，在S605，还可以基于卷积神经网络文本分类的业务领域定位模型，利用所述语音请求对应的分词集合以及所述历史语音请求处理信息，确定候选业务领域中的各候选业务意图的置信度，并根据各候选业务意图的置信度确定所述用户的语音请求对应的业务意图。相应地，在S606中，还可根据该业务意图对该用户的语音请求进行处理。

可选地，上述流程中，在S605，还可以确定用户当前输入的语音请求的响应类型。相应地，在S506中，还可根据该语音请求的响应类型对该用户的语音请求进行处理。

可选地，上述流程中，在S605中，还可以确定用户当前输入的语音请求中的关键信息。相应地，在S606中，还可以根据该语音请求中的关键信息，对该用户的语音请求进行处理。

根据本申请中的一个或多个实施例的组合，下面给出了几个示例：

示例1：该用户的语音请求为：帮我买张从北京去上海的车票，确定该用户的语音请求为交通业务领域的订车票业务意图，根据该业务意图，用户界面按时间显示车次信息供用户选择。

示例2：该用户的语音请求为：帮我订一份鸡公煲，确定该用户的语音请求为美食业务领域的订外卖业务意图，根据该业务意图，用户界面显示鸡公煲店家的数量、名称、距离、起送价等信息供用户选择。

图7示例性示出了根据实施例中通信终端100显示用户的语音请求后的用户界面。可选的，用户界面的视图区域由业务领域决定。如图所示，以交通业务领域订车票业务意图为例，当用户输入语音请求″帮我订张从北京去上海的车票″后，通信终端100向服务器发送所述语音请求，以请求交通业务领域订车票的资源，并接收服务器返回的响应结果。其中，用户界面显示三个视图区域，第一视图区701显示当前用户和所述语音请求对应的业务领域为交通，第二视图区702显示所述语音请求的关键信息，第三视图区703显示交通业务领域的响应结果。

由于本发明实施例中的通信终端和计算机存储介质可以应用于上述处理方法，因此，其所能获得的技术效果也可参考上述方法实施例，本发明的实施例在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种处理信息交互的方法，其特征在于，包括：

根据所述语音语句文本对应的业务领域处理所述第一用户的语音请求。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述第一用户的语音请求对应的业务领域后，根据所述第一用户的语音请求处理信息，更新所述第一用户的历史语音请求处理信息。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述确定候选业务领域的置信度，具体包括：

获取所述语音语句文本中的关键信息；

5.如权利要求1-4中任一项所述的方法，其特征在于，所述历史语音请求处理信息，还包括以下之一或任意组合：

历史语音请求中的关键信息；

历史语音请求的时间；

历史语音请求在对应的业务领域中的响应类型；

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种服务器，其特征在于，包括：

接收模块，用于接收来自通信终端的语音请求；

8.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1-6中任一项所述的方法。