CN108075959B

CN108075959B - 一种会话消息处理方法和装置

Info

Publication number: CN108075959B
Application number: CN201611002187.4A
Authority: CN
Inventors: 周干斌; 罗平; 曹荣禹; 林芬; 陈波; 何清
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2021-03-12
Anticipated expiration: 2036-11-14
Also published as: WO2018086455A1; CN108075959A; US20190215286A1; US10862834B2

Abstract

本申请公开了一种会话消息处理方法和装置，该方法包括：接收发送方的终端发送的会话消息，该会话消息携带有接收方的信息；当确定该会话消息包含图像时，生成用于描述该图像的至少一组描述性文本；将该会话消息转发给该接收方的终端；将该图像的该至少一组描述性文本发送给该接收方的终端，以在该接收方的终端显示该图像的同时，将该至少一组描述性文本作为该图像关联的至少一个候选输入项进行显示。该方法和装置有利于用户高效准确的获取到会话消息中所包含的图像的关键信息，并提高即时通讯交互的流畅性。

Description

一种会话消息处理方法和装置

技术领域

本申请涉及通信技术领域，尤其涉及一种会话消息处理方法和装置。

背景技术

基于即时通讯应用，可以实现两人或多人之间通过网络实时的会话交互。随着网络技术的不断发展，基于即时通讯过程中所传输的会话消息不仅仅限于文字消息，还可以是图片或视频等图像内容。

相对于文字消息而言，包含有图像的会话消息所包含的信息量较大，用户无法快速、准确获取图像中所包含的关键信息。因此，在即时通讯的用户接收到包含图像的会话消息之后，可能需要花费较长的时间对图像进行理解和研究之后，才可以确定该图像所包含的关键信息，并针对包含图像的会话消息给出消息回复，从而影响到了即时通讯用户之间交互的流畅性。

发明内容

有鉴于此，本申请提供了一种会话消息处理方法和装置，以使得用户可以高效准确的获取到会话消息中所包含的图像的关键信息，提高即时通讯交互的流畅性。

为实现上述目的，一方面，本申请提供了一种会话消息处理方法，包括：

接收发送方的终端发送的会话消息，所述会话消息携带有接收方的信息；

当确定所述会话消息包含图像时，生成用于描述所述图像的至少一组描述性文本；

将所述会话消息转发给所述接收方的终端；

将所述图像的所述至少一组描述性文本发送给所述接收方的终端，以在所述接收方的终端显示所述图像的同时，将所述至少一组描述性文本作为所述图像关联的至少一个候选输入项进行显示。

另一方面，本申请还提供了一种会话消息处理装置，包括：

消息接收单元，用于接收发送方的终端发送的会话消息，所述会话消息携带有接收方的信息；

文本生成单元，用于当确定所述会话消息包含图像时，生成用于描述所述图像的至少一组描述性文本；

消息转发单元，用于将所述会话消息转发给所述接收方的终端；

文本发送单元，用于将所述图像的所述至少一组描述性文本发送给所述接收方的终端，以在所述接收方的终端显示所述图像的同时，将所述至少一组描述性文本作为所述图像关联的至少一个候选输入项进行显示。

经由上述的技术方案可知，在申请实施例中，在即时通讯的服务器接收发送方的终端发送的会话消息之后，如果确定出该会话消息包含图像，则会生成用于描述该图像的至少一组描述性文本，并将为图像生成的至少一组描述性文本发送给终端，这样，终端不仅可以显示出会话消息的图像，还可以将该至少一组描述性文本作为该图像关联的可选输入项显示，由于描述该图像的描述性文本可以反映出该图像所包含的信息，用户根据描述性文本可以快速领悟到图像所包含的关键信息；而且，用户还可以直接选取该图像的描述性文本作为针对该会话消息的回复，有利于提高即时通讯交互的流畅性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的会话消息处理系统一种可能的组成结构示意图；

图2a示出了即时通讯的会话窗口中呈现出的多种形式的会话消息的示意图；

图2b示出了在即时通讯的会话窗口中呈现出包含有图像的描述性文本的候选输入项的效果示意图；

图2c示出了在用户点击图2b中的候选输入项之后该会话窗口的显示效果示意图；

图3示出了本申请公开的一种会话消息处理方法一种实施例的流程示意图；

图4示出了本申请实施例公开的一种训练条件概率模型的流程示意图；

图5a示出了本申请实施例公开的一种语法树的示意图；

图5b示出了由图5a的语法树转换出的三叉树的示意图；

图6示出了本申请实施例公开的会话消息处理方法中扩展候选节点树的一种实现流程示意图；

图7示出了本申请实施例公开的一种会话消息处理装置一个实施例的组成结构示意图；

图8示出了本申请实施例公开的一种应用服务器的组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的转账方法可以应用于基于网银系统、即时通讯系统等多种不同类型的在线转账系统。

如图1，其示出了本申请一种会话消息处理系统的组成结构示意图，该系统可以包括：即时通讯平台100和至少两台终端110。

其中，该即时通讯平台可以包括至少一台应用服务器101。

可选的，为了提高转账业务的处理效率，即使通讯服务平台可以包括由多台应用服务器101组成的应用服务器集群。

其中，该终端110可以理解为即时通讯应用所在的客户端，如，该终端可以为手机、平板电脑、台式电脑等等。

在本申请实施例中，终端110，用于向即时通讯服务平台发送会话消息，以通过即时通讯平台中的应用服务器转发该会话消息。

需要说明的是，在本申请实施例中，该至少两台终端110中至少包括一台作为发送会话消息的发送方终端，以及一台作为接收会话消息的接收方终端，可以理解的是，由于每个终端均可以接收并发送会话消息，因此，每个终端既可以发送方终端，也可以是接收方终端，但是对于一条会话消息而言，该会话消息的发送方终端和接收方终端是固定不变的。

应用服务器101，用于接收到终端发送的会话消息之后，根据该会话消息所携带的接收方的信息，将该会话消息转发给该接收方所在的终端。

在本申请实施例中，终端向应用服务器所发送的会话消息不限于文字消息和音频消息，还可以是包含有图像的会话消息，如会话消息的形式可以为：静态图片、动态图像或者视频等等。

如图2a所示，其示出了在终端的即时通讯应用的会话窗口中所呈现出的多条会话消息，由图2a可知，该会话窗口中除了显示有多条文字消息201之外，还显示有图片形式的会话消息202。

进一步的，为了能够使得终端的用户可以快速、准确的了解到会话消息中图像所包含的关键信息，在本申请实施例中，应用服务器还用于在接收到包含有图像的会话消息时，生成用于描述该图像的至少一组描述性文本，并将该至少一组描述性文本发送给该会话消息的接收方的终端。其中，生成用于描述图像的描述性文本的目的是将图像所包含的内容转换成自然语言描述出来。描述性文本中可以包括用于描述该图像所包含的信息或内容的短语或语句。

相应的，终端还用于在呈现出该会话消息所包含的图像的同时，将该图像的至少一组描述性文本作为该图像关联的候选输入项进行显示。

结合以上共性，参见图3，其示出了本申请一种在线转账方法一个实施例的流程交互示意图，本申请实施例以会话消息为一幅图像(俗称的图片)为例进行介绍，本实施例的方法可以包括：

S301，发送方的终端向即时通讯平台的应用服务器发送会话消息，该会话消息携带有接收方的信息。

其中，通过该接收方的信息可以定位到该接收方所在的终端，如，接收方的信息可以为接收方的用户名、该接收方对应的IP地址、接收方的终端的唯一标识等等信息。

可选的，为了应用服务器确定出该会话消息的来源，该会话消息还可以携带有该发送方的信息，如，该发送方的用户名、该发送方对应的IP地址等等。

S302，应用服务器根据接收方的信息，将该会话消息发送给该接收方的终端。

需要说明的是，本实施例是以应用服务器在接收到该会话消息之后，直接将该会话消息转发给接收方的终端为例进行说明。但是可以理解的是，在实际应用中，应用服务器也可以在应用服务器确定出该会话消息中的图像所对应的描述性文本之后，将该会话消息以及该描述性文本一并发送给接收方的终端。

S303，当应用服务器确定该会话消息包含图像时，将该图像转换成指定大小且具有指定格式的图像。

其中，该步骤S304的目的是对图像进行预处理。其中，该指定大小可以根据需要设定。可选的，可以通过限定为图像中横向以及纵向的像素个数，来确定该指定大小，如，将图像转换成横线具有第一像素个数，且纵向具有第二像素个数的图像，其中，该第一像素个数和第二像素个数可以相同也可以不同。相应的，指定格式也可以根据需要设定，可选的，该指定格式可以为RGB格式。

通过对图像进行预处理，可以将图像转换成一个三维矩阵所表示的图像，如，图像可以表示为由(height,width,3)的三维矩阵构成，其中，第一维height表示图片纵向的像素个数，第二维width表示图片横向的像素个数，第三维表示图片在RGB模式中每个信道的值，这样，这个三维矩阵也就包含了该图像的所有信息。

需要说明的是，对图像进行预处理是一个可选的步骤，其仅仅是为了将图像进行归一化之后，便于对图像进行分析。

S304，应用服务器将转换后的图像映射为预设长度的向量。

其中，该向量可以解码器进行解码，以最终生成描述性文字。

该预先设定的向量的长度称为预设长度。

其中，将图像映射为预设长度的向量的方式可以有多种。

可选的，可以基于卷积神经网络，将该图像映射为预设长度的向量。如，假设图像被归一化成固定大小为(h₁，w₁，3)的矩阵x⁽ⁱ⁾，则将该图像映射为预设长度的向量的过程可以为：

首先，对该图像的矩阵x⁽ⁱ⁾进行卷积操作，其中，卷积核的大小为(kh₁，kw₁)，卷积核的数量为n₁，则卷积操作后的图像的大小为(h₂，w₂，n₁)；

其次，对卷积后的图像进行最大池化操作，其中，最大池化的尺寸为(kh₂，kw₂)，则池化后的图像大小(h₃，w₃，n₁)；

再次，对卷积后的图像进行光栅化处理，光栅化后的图像大小为(h₃*w₃*n₁，1)；

最后，通过全连接层，将图像转化为预设长度为n₂的向量p⁽ⁱ⁾。

其中，卷积核和最大尺寸的大小可以有设定参数k限定，k的取值可以预先通过训练得到，相应的，卷积核的数量n₁以及向量的预设长度n₂，同样可以通过训练得到。

其中，该步骤S305的目的是将图像转换成向量的形式，以便于进行数据处理，但是可以理解的是，在实际应用中也可以直接对图像进行后续处理，以确定出用于描述图像的描述性文本，在此不加以限定。

S305，应用服务器依次确定词库中各个单词作为描述所述图像的节点树中根节点的第一概率。

为了便于区分，本实施例中，将单词作为描述该向量的节点树中根节点的概率称为第一概率。

其中，该节点树与描述该向量的语法树之间具有预设的转换规则。节点树中非空的节点可以认为是组成语法树所必要的节点。该节点树可以为与描述向量的语法树相对应的三叉树、四叉树等等。可选的，为了全面使得描述性文本相对丰富，且避免算法过于复杂，本实施例中的节点树可以为三叉树。

可选的，可以预置用于条件概率模型，该条件概率模型中包括用于计算单词作为描述向量的节点树中根节点的第一概率的根节点概率模型，这样，在图像所对应的向量确定的情况下，基于该根节点概率模型可以计算出单词作为描述该向量的节点树中根节点的概率。

其中，该条件概率模型为在得到描述性文本已知的多幅图像所构成的数据集的前提下，通过最大化该数据集的似然函数为目标，训练深度神经网络模型，并结合梯度下降法，训练得到的模型。该条件概率模型用于在图像确定的情况下，计算多个单词组成的描述性文本用于描述该图像的概率。具体的，该条件概率模型可以扩展表示为根节点概率模型与普通节点概率模型的乘积，且该条件概率模型的输出值等于该根节点概率模型的输出值与普通节点概率模型的输出值的乘积。

可以理解的是，由于节点树可以为三叉树、四叉树等不同形式，因此，根据节点树的形式的不同，训练出的条件概率模型也会有所差别。

S306，应用服务器从该词库的单词中，选取出该第一概率最高的指定数量个单词分别作为指定数量个根节点。

可以理解的是，对于一幅确定的图像而言，描述性文本中的语句更有可能是由概率高的单词作为根节点扩展生成的，因此，可以选择第一概率最高的指定数量个根节点来扩展节点树。

其中，该指定数量可以根据需要设定，如，该指定数量可以为三个。

S307，应用服务器对于任意一个根节点，从词库中选取作为该根节点对应的候选节点树中节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为该候选节点树中节点的第二概率。

其中，候选节点树为以该根节点为基准进行扩展的节点树。由于候选节点树需要基于根节点逐层向下扩展各层节点，因此，该候选节点树可以理解为用于描述该图像，且尚未完成扩展的节点树。

节点树可以有多层，每一层可以包括多个节点，如，处于同一层的节点可以称为兄弟节点，而处于上下层的节点则互为父子节点，因此，在扩展候选节点树时，可以从根节点开始逐层向下扩展该候选节点树。同时，由于作为候选节点树同一层的节点可能会具有多种不同单词的组成可能，为了后续选取出概率较高的候选节点树，为了确定出在图像、当前扩展出的该候选节点树中需要扩展的节点确定的前提下，单词作为该候选节点树中某个节点的概率，本实施例中，将该概率称为第二概率。该步骤S307实际上是在扩展候选节点树的过程中，逐层计算候选节点树中各层每个节点对应的第二概率，以遍历所有的节点。

可选的，可以先将根节点作为候选树节点中待扩展节点；然后，从词库中选取可以作为该候选节点树中该待扩展节点的子节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为该待扩展节点的子节点的第二概率；然后，将候选节点树中最新扩展得到的子节点作为待扩展节点，返回执行从词库中选取单词作为该待扩展节点的子节点，并计算选取出的单词对应的第二概率，如此逐层扩展，直至无法扩展候选节点树为止。进一步的，基于预置的普通节点概率模型在计算单词作为该候选节点树中子节点的概率时，考虑到该子节点的父节点、该父节点的祖先以及该子节点的兄弟节点之间的相互影响关系。

如，以三叉树为例，对于任意一个待扩展节点，需要从词库中分别选取可以作为候选节点树中该待扩展节点的左子节点、右子节点和中子节点的单词，并分别计算在该向量、该候选节点树以及候选节点树中该待扩展节点确定的情况下，该左子节点、右子节点和中子节点上的单词对应的第二概率。

其中，当候选节点树中扩展成的某个节点为空节点时，无需从该节点继续再向下层扩展，这样，可以最终确定出该候选节点树的所有节点都无法再继续向下扩展时，则候选节点树无法继续扩展，对于该候选节点树的扩展结束。

由于对于候选节点树除了根节点之外的节点而言，每个节点都可能可以选择多个单词，这样，以根节点可以扩展出多种不同组合形式的候选节点树。

S308，应用服务器对于以根节点扩展出的任意一棵候选节点树，根据根节点对应的第一概率以及组成该候选节点树中各个节点的单词所对应的第二概率，确定该候选节点树的评分。

其中，候选节点树的评分可以是根节点的第一概率，与该候选节点树中根节点之外的其他各个节点上的各个单词所对应的第二概率的乘积。当然，还可以有其他确定候选节点树的评分的方式，只要是能够反映出候选节点树中各个节点组合后的概率越高，该候选节点树的评分越高即可。

S309，应用服务器从以该第一指定数量个根节点构建出的候选节点树中，选取评分最高的至少一个目标节点树。

可以理解的是，如果组成候选节点树的根节点以及各层节点的概率都较高，则说明该候选节点树所对应的描述性文本用于描述该图像内容的准确性也较高，因此，如果候选节点树的评分较高，则利用该候选节点树中各个节点上的单词组成的描述性文本，描述该图像的准确性也越高。

在本实施例中，将选取出的候选节点树称为目标节点树，选取出的目标节点树的数量可以根据需要设定，如，可以为一个、两个等等。

S310，分别将每棵目标节点树转换为用于描述该图像的语法树，得到至少一棵语法树。

可选的，可以依据预置的节点树中节点与语法树中节点之间的映射关系，将目标节点树中各个节点所对应的单词转换到语法树对应的节点上，以得到描述该图像的语法树。

需要说明的是，以上步骤S305至S310目的是基于预置的图像特征与单词的映射关系，从词库中选取单词构建用于描述图像的至少一棵语法树，本实施例仅仅是实现该目的的一种优选实施方式，在实际应用中还可以有其他具体实现方式，在此不在赘述。

S311，应用服务器分别将每棵语法树转换为描述性文本，得到用于描述该图像的至少一组描述性文本。

在节点树确定的情况下，根据节点树中各层节点之间的关系，可以确定各个节点对应的单词在描述性文本中的位置，从而转换出该描述性文本。

S312，应用服务器将该至少一组描述性文本发送给接收方的终端。

S313，接收方的终端显示会话消息中的图像。

其中，接收方的终端可以在会话窗口中显示出作为会话消息的图像，如可以参见图2a。

S314，接收方终端将该至少一组描述性文本作为该图像关联的至少一个候选输入项进行显示，以使得用户选择该候选输入项作为会话窗口的输入内容。

其中，每一组描述性文本均可以作为一个候选输入项，用户通过点击该候选输入项就可以选择该描述性文本，并触发该接收方的终端将该描述性文本发送给图像的发送方的终端；或者是，触发该接收方的终端将该描述性文本输入到会话窗口的消息输入框中，并在用户点击发送后，再发送用户选中的描述性文本。

如，仍结合图2a为例进行介绍，在终端的会话窗口中显示有图2a所示的图片形式的会话消息202的前提下，如果终端接收到应用服务器返回用于对该图片进行描述的描述性文本之后，会话窗口的界面可以参见图2b，由图2b可知，在该会话窗口中消息输入框203的上方显示文本候选栏204，在该文本候选栏204中显示有多个候选输入项，每个候选输入项就是一组描述性文本，例如，文本候选输入栏中可以分别包括：候选输入项“这是什么花？”、“这花真好看！”、“好漂亮，我也喜欢这种花”。

假如用户可以根据需要在图2b所示的界面中选择某一个候选输入项，假如用户点击选择了“这花真好看！”这一候选输入项，则终端可以将该候选输入项对应的描述性文本“这花真好看！”输入到该会话窗口的消息输入框203中，如，参见图2c所示。由图2c可见，在消息输入框203内输入了“这花真好看！”。

S315，当接收方的终端检测到用户选择候选输入项时，确定用户所选择的目标候选输入项。

S316，接收方的终端将用户选择的目标候选输入项对应的描述性文本作为会话消息的内容发送给服务器。

在接收方的终端的用户选择目标候选输入项作为输入内容之后，该接收方终端可以直接将该目标候选输入项对应的描述性文本作为待发送的会话消息的内容发送给应用服务器。当然，该接收方的终端也可以在用户选择了目标候选输入项，且用户确认发送之后，再向应用服务器发送该描述性文本。

需要说明的是，包含该描述性文本的会话消息的目的接收方为前面提到的发送方的终端，只不过在该步骤S316的前提下，发送图像的发送方实际上转变为了接收方，为了便于描述且便于区分，本实施例仅以发送方的终端限定发送图像的终端。

S317，应用服务器将包含该描述性文本的会话消息转换给该发送方的终端。

如，应用服务器根据包含有该描述性文本的会话消息所携带的该发送方终端的消息，将该会话消息进行转发。

其中，S315至S315为可选步骤，其目的是仅仅是为了说明在终端呈现出描述性文本之后，用户选择该描述性文本以触发发送该描述性文本的过程。

需要说明的是，本实施例是以会话消息中包含一帧图像为例进行说明，但是可以理解的是，当会话消息中包含的视频等多帧图像的情况下，应用服务器可以依次为每帧图像分别生成描述性文本，其生成过程相似，在此不再赘述。

当然，对于会话消息为视频或者其他包含多帧图像的情形，由于相邻帧图像的差异性较小，为了减少数据计算量，可以间隔指定帧图像进行一次描述性文本的生成。

为了便于理解本申请实施例中生成图像的描述性文本所对应的节点树的过程，以构建的节点树为三叉树，且依据预先训练得到的条件概率模型来确定词库中各个单词作为三叉树中节点的概率为例进行介绍。

下面先对训练条件概率模型的过程进行介绍，参见图4，其示出了本申请实施例公开的一种训练条件概率模型的流程示意图，该训练过程可以应用于该应用服务器，具体包括：

S401，获取训练条件概率模型所需的数据集。

其中，该数据集中包括多幅样本图像各自对应的多个数据组，其中，每个数据组为一个用于描述样本图像的二元组，该二元组由该样本图像的特征信息，以及该样本图像对应的描述性文本组成。

如，数据集D可以表示为：D＝{d⁽¹⁾，d⁽²⁾，…，d^(N)}，其中，d⁽ⁱ⁾表示一幅样本图像对应的二元组，i从1到N，N为数据集中数据组的个数。其中，d⁽ⁱ⁾＝<p⁽ⁱ⁾，t⁽ⁱ⁾>，其中p⁽ⁱ⁾是样本图像的特征信息，由一个大小为(height,width,3)三维矩阵构成，该三维矩阵的参数可以参见前面实施例的介绍。t⁽ⁱ⁾表示样本图像p⁽ⁱ⁾对应的描述性文本。

S402，分别对数据集中的每幅样本图像进行预处理。

其中，该步骤为可选步骤，预处理的过程可以参见前面实施例的相关介绍。

S403，将预处理后的每幅样本图像映射为固定长度的向量。

映射为固定长度的向量的过程可以参见图1实施例的相关介绍。在将样本图像映射为向量的过程可以不断调整前面提到的限定卷积核和最大尺寸的大小的参数k、卷积核的数量n₁以及向量的预设长度n₂，并最终确定出这几个参数的取值。

S404，分别将每幅样本图像的描述性文本转换为语法树。

其中，描述性文本由多个单词组成，可以通过语法树的形式展现，其中，语法树中各个节点均为该描述性文本的一个单词。在将描述性文本转换为语法树时，可以先基于父、子节点的单词之间满足预设关系，且以节点的左子树中的单词均出现在描述性文本中该单词的左侧，节点的右子树中的单词均出现在描述性文本中该单词的右侧为第一转换规则，先将描述性文本转换为语法树。

如，假设某个样本图像对应的描述性文本为“天上飞翔的鸟儿吃水里游动的鱼儿”，则将该描述性文本转换为的语法树可以参加图5a所示，由图5a可知，该语法树中“吃”为根节点，在根节点具有两个子节点，分别为“鸟儿”和“鱼儿”，同时，节点“鸟儿”以及节点“鱼儿”又分别具有三个子节点。

S405，将语法树转换为三叉树。

可选的，可以按照如下规则将语法树转换为三叉树：

将语法树中的根节点作为三叉树的根节点；对于语法树中的每个节点，按照预置的第二转换原则，将每个语法树中的每个节点转换为三叉树中的节点，其中，该第二转换原则为：该节点的左孩子中最左侧的子节点作为该节点的左子树的根节点，将节点的右孩子最左侧的子节点作为该节点中子树的根节点，将该节点中处于同一层的子节点中最左侧的子节点作为该节点的右子树中的根节点。需要说明的是，对于一个节点而言，该节点的孩子就是指该节点的子节点，则左孩子是指位于该节点左侧的子节点，右孩子是指位于该节点右侧的子节点，而中孩子在三叉树中位于该节点对应的中间位置的子节点。

如，在将该图5a所示的语法树转换为三叉树时，可以将语法树中的根节点“吃”作为三叉树的根节点，然后对于语法树中任意一个节点，按照该转换规则，分别确定每个节点在三叉树中左孩子、中孩子和右孩子，如果节点的某个孩子为空，则表示为空节点。如图5b，其示出了由图5所示的语法树所转换出的三叉树的示意图。在图5b中画叉的圆圈表示空节点。

S406，基于三叉树中节点的组成结构，对似然函数进行扩展，得到包含待定参数的条件概率模型。

其中，似然函数本质上是一个条件概率，该条件概率用于描述在给定图像的条件下生成描述性样本的概率。如，条件概率可以表示为P(t⁽ⁱ⁾|p⁽ⁱ⁾)。

由于三叉树中每个节点具有三个子节点，这样，在扩展条件概率时体现出基于该一幅图像生成描述性文本时，在该图像以及节点确定的情形下，生成三叉树中该节点的各个子节点的概率，则可以将P(t⁽ⁱ⁾|p⁽ⁱ⁾)可以扩展为：

为了计算需要，可以进一步扩展可以得到：

其中，

表示根节点，

分别表示第j个节点的左孩子，中孩子和右孩子，

表示第j个节点及其祖先，M表示三叉树中节点的总个数；

表示给定图片、节点j及节点j的各个祖先的前提下生成该节点j的左孩子的概率；

表示给定图片、节点j、节点j的各个祖先以及左孩子的前提下生成该节点j的中孩子的概率；

表示给定图片，节点j、节点j的祖先和左、中孩子的前提下生成该节点j的右孩子的概率。

其中，节点的祖先包括该节点的父节点以及从该节点的父节点到根节点在内的所有节点。

需要说明的是，步骤406可以在步骤404和步骤405之前执行，也可以与这两个步骤一起执行，在此不加以限制。

S407，利用数据集中样本图像所映射出向量以及样本图像的描述性文本所对应的三叉树，对包含待定参数的条件概率模型进行训练，以确定出条件概率模型中的待定参数的取值。

其中，公式一以及公式二中P为包含未知参数的函数，其表示递归神经网络的隐藏层节点，为了确定中P中的各个参数，则需要利用已知的数据集中各个样本图像的描述性文本进行训练。

在图4训练得到条件概率模型的前提下，在应用服务器确定出根节点之后，对于任意一个根节点，从词库中选取单词扩展该根节点所在的候选节点树的过程可以参见图6所示，图6示出了应用服务器在确定出根节点的情况下，基于该根节点扩展候选节点树的一种实施方式，即图6的流程相当于步骤307的一种具体实施方式。在图6中以候选节点树为三叉树为例进行介绍，该流程具体可以包括：

S601，在确定出用于描述向量p⁽ⁱ⁾的三叉树的根节点之后，将根节点作为待扩展的候选节点树加入到待扩展节点树队列，并将根节点确定为该待扩展的候选节点树中待扩展节点。

在该步骤S601之前可以先该初始化待扩展节点树队列，以使得待扩展节点树队列为空列表，这样，将该根节点作为只有一个节点的候选树节点加入到该待扩展队列之后，该候选节点树为第一棵待扩展的候选节点树。然后执行步骤S602以及后续操作，通过扩展根节点的各层子节点实现对候选树节点树进行扩展。

S602，根据语法关系，从词库中选取单词分别可以作为该待扩展节点的左子节点、中子节点和右子节点，得到多组单词对应的多组子节点组合。

其中，每组单词包括三个单词，而每组子节点组合均对应着该左子节点、中子节点和右子节点。

S603，对于任意一组子节点组合，根据

计算在该向量p⁽ⁱ⁾、待扩展节点j及该待扩展节点j的祖先确定的前提下，生成该左子节点的第二概率，并利用

计算在该向量p⁽ⁱ⁾、待扩展节点j、节点j的各个祖先以及左子节点的前提下生成该中子节点的第二概率，利用

计算在给定向量p⁽ⁱ⁾，待扩展节点j、待扩展节点j的祖先和该左子节点、中子节点的前提下生成该待扩展节点j的该右子节点的第二概率。

S604，选取左子节点、中子节点和右子节点的第二概率乘积最高的预设数量组子节点组合。

S605，利用预设数量组子节点组合扩展候选节点树，得到预设数量棵候选节点树。

S606，对于经过扩展后的任意一棵候选节点树，判断该候选节点树中是否尚未被扩展的子节点，如果是，则执行步骤S607；如果否，则结束该候选节点树的扩展。

S607，从尚未被待扩展的子节点中选取一个子节点作为待扩展节点，如果该待扩展节点为空节点，则返回S606；如果该待扩展候选节点不是空节点，则返回S602。

下面对本发明实施例提供的一种会话消息处理装置进行介绍，下文描述的一种会话消息处理装置可与上文描述的一种会话消息处理方法相互对应参照。

参见图7，其示出了本申请一种会话消息处理装置的一个实施例的组成结构示意图，本实施例的装置可以包括：

消息接收单元701，用于接收发送方的终端发送的会话消息，所述会话消息携带有接收方的信息；

文本生成单元702，用于当确定所述会话消息包含图像时，生成用于描述所述图像的至少一组描述性文本；

消息转发单元703，用于将所述会话消息转发给所述接收方的终端；

文本发送单元704，用于将所述图像的所述至少一组描述性文本发送给所述接收方的终端，以在所述接收方的终端显示所述图像的同时，将所述至少一组描述性文本作为所述图像关联的至少一个候选输入项进行显示。

可选的，所述文本生成单元，包括：

语法树构造单元，用于当确定所述会话消息包含图像时，基于预置的图像特征与单词的映射关系，从词库中选取单词构建用于描述所述图像的至少一棵语法树；

语法转换单元，用于分别将每棵所述语法树转换为一组描述性文本，得到至少一组描述性文本。

可选的，所述语法树构造单元，包括：

概率确定单元，用于基于预置的根节点概率模型，确定词库中各个单词作为描述所述图像的节点树中根节点的第一概率；

根节点选取单元，用于选取出第一概率最高的指定数量个单词分别作为所述指定数量个根节点；

节点树扩展单元，用于对于任意一个根节点，从词库中选取作为候选节点树中节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为所述候选节点树中节点的第二概率，其中，所述候选节点树为以所述根节点为基准扩展出的用于描述所述图像的节点树；

评分确定单元，用于对于任意一棵候选节点树，根据所述候选节点数中根节点对应的第一概率以及组成所述候选节点树中节点的单词所对应的第二概率，确定所述候选节点树的评分；

节点树选取单元，用于将评分最高的至少一棵候选节点树确定为用于描述所述图像的目标节点树，得到至少一棵目标节点树；

语法树转换单元，用于分别将每棵所述目标节点树转换为用于描述所述图像的语法树，得到至少一棵语法树。

可选的，所述节点树扩展单元，包括：

第一预扩展单元，用于对于任意一个根节点，将根节点确定为候选节点树中的待扩展节点；

树扩展子单元，用于对于任意一个待扩展节点，从词库中选取可以作为所述候选节点树中所述待扩展节点的子节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为所述待扩展节点的子节点的第二概率；

第二预扩展单元，用于将扩展得到的子节点作为待扩展节点，并执行所述词库中选取可以作为所述候选节点树中所述待扩展节点的子节点的单词，并确定选取出的单词作为所述待扩展节点的子节点的第二概率的操作，直至无法扩展所述候选节点树为止。

可选的，所述用于描述图像的节点树为三叉树；

所述节点树扩展单元具体为，用于从词库中分别选取可以作为所述候选节点树中所述待扩展节点的左子节点、右子节点和中子节点的单词，并基于预置的普通节点概率模型，分别确定在所述图像、所述候选节点树以及所述待扩展节点确定的前提下，生成所述左子节点、右子节点和中子节点的第二概率。

可选的，在所述基于预置的根节点概率模型，确定词库中各个单词作为描述所述图像的节点树中根节点的第一概率之前，还包括：

图像预处理单元，用于所述概率确定单元确定所述第一概率之前，将所述图像转换为预设长度的向量；

则所述概率确定单元，用于基于预置的根节点概率模型，确定词库中各个单词作为描述所述向量的节点树中节点的第一概率。

可选的，还包括：

文本转发单元，用于在所述文本发送单元发送所述描述性文本之后，当接收到所述接收方的终端向所述发送方的终端发送的包含所述描述性文本的会话消息时，将包含所述描述性文本的会话消息转发给所述发送方的终端。

本发明实施例还提供了一种服务器，该服务器可以包括上述所述的一种会话消息处理方法。

图8示出了服务器的硬件结构框图，参照图8，终端800可以包括：处理器801，通信接口802，存储器803和通信总线804；

其中处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信；

可选的，通信接口802可以为通信模块的接口，如GSM模块的接口；

处理器801，用于执行程序；

存储器803，用于存放程序；

程序可以包括程序代码，所述程序代码包括计算机操作指令。

处理器801可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器803可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，程序可具体用于：

将所述会话消息转发给所述接收方的终端；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种会话消息处理方法，其特征在于，应用于应用服务器，所述方法包括：

当确定所述会话消息包含图像时，基于所述图像的特征以及预置的根节点概率模型，确定词库中各个单词作为描述所述图像的节点树中根节点的第一概率；

根据所述第一概率选取指定数量个单词作为所述指定数量个根节点；

对于任意一个根节点，从词库中选取作为该根节点对应的候选节点树中节点的单词，并基于预置的普通节点概率模型确定选取出的单词作为该候选节点树中节点的第二概率，其中，所述候选节点树为以该根节点为基准扩展出的用于描述所述图像的节点树；

根据各候选节点树中根节点的第一概率和以及组成候选节点树中节点的单词所对应的第二概率，确定至少一棵候选节点树作为至少一棵目标节点树；

根据所述至少一个目标节点树生成用于描述所述图像的至少一组描述性文本；

将所述会话消息转发给所述接收方的终端；

2.根据权利要求1所述的会话消息处理方法，其特征在于，所述根据所述至少一个目标节点树生成用于描述所述图像的至少一组描述性文本，包括：

分别将每棵所述目标节点树转换为用于描述所述图像的语法树，得到用于描述所述图像的至少一棵语法树；

分别将每棵所述语法树转换为一组描述性文本，得到至少一组描述性文本。

3.根据权利要求1所述的会话消息处理方法，其特征在于，所述根据各候选节点树中根节点的第一概率和以及组成候选节点树中节点的单词所对应的第二概率，确定至少一棵候选节点树作为至少一棵目标节点树，包括：

对于任意一棵候选节点树，根据所述候选节点树中根节点对应的第一概率以及组成所述候选节点树中节点的单词所对应的第二概率，确定该候选节点树的评分；

将评分最高的至少一棵候选节点树确定为用于描述所述图像的目标节点树，得到至少一棵目标节点树。

4.根据权利要求1所述的会话消息处理方法，其特征在于，所述对于任意一个根节点，从词库中选取作为候选节点树中节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为所述候选节点树中节点的第二概率，包括：

将根节点确定为候选节点树中的待扩展节点；

对于任意一个待扩展节点，从词库中选取可以作为所述候选节点树中所述待扩展节点的子节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为所述待扩展节点的子节点的第二概率；

将扩展得到的子节点作为待扩展节点，并执行所述词库中选取可以作为所述候选节点树中所述待扩展节点的子节点的单词，并确定选取出的单词作为所述待扩展节点的子节点的第二概率的操作，直至无法扩展所述候选节点树为止。

5.根据权利要求4所述的会话消息处理方法，其特征在于，所述用于描述图像的节点树为三叉树；

所述从词库中选取可以作为所述候选节点树中所述待扩展节点的子节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为所述待扩展节点的子节点的第二概率，包括：

从词库中分别选取可以作为所述候选节点树中所述待扩展节点的左子节点、右子节点和中子节点的单词，并基于所述普通节点概率模型，分别确定在所述图像、所述候选节点树以及所述待扩展节点确定的前提下，生成所述左子节点、右子节点和中子节点的第二概率。

6.根据权利要求1所述的会话消息处理方法，其特征在于，在基于所述图像的特征以及预置的根节点概率模型，确定词库中各个单词作为描述所述图像的节点树中根节点的第一概率之前，还包括：

将所述图像转换为预设长度的向量作为所述图像的特征；

所述描述所述图像的节点树为描述所述向量的节点树。

7.根据权利要求1所述的会话消息处理方法，其特征在于，在所述将所述图像的所述至少一组描述性文本发送给所述接收方的终端之后，还包括：

当接收到所述接收方的终端向所述发送方的终端发送的包含所述描述性文本的会话消息时，将包含所述描述性文本的会话消息转发给所述发送方的终端。

8.一种会话消息处理装置，其特征在于，所述装置应用于应用服务器，包括：

文本生成单元，用于当确定所述会话消息包含图像时，基于所述图像的特征以及预置的根节点概率模型，确定词库中各个单词作为描述所述图像的节点树中根节点的第一概率；根据所述第一概率选取指定数量个单词作为所述指定数量个根节点；对于任意一个根节点，从词库中选取作为该根节点对应的候选节点树中节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为该候选节点树中节点的第二概率，其中，所述候选节点树为以该根节点为基准扩展出的用于描述所述图像的节点树；根据各候选节点树中根节点的第一概率和以及组成候选节点树中节点的单词所对应的第二概率，确定至少一棵候选节点树作为至少一棵目标节点树；根据所述至少一个目标节点树生成用于描述所述图像的至少一组描述性文本；

9.根据权利要求8所述的会话消息处理装置，其特征在于，所述文本生成单元根据所述至少一个目标节点树生成用于描述所述图像的至少一组描述性文本时，用于：

10.根据权利要求8所述的会话消息处理装置，其特征在于，所述文本生成单元根据各候选节点树中根节点的第一概率和以及组成候选节点树中节点的单词所对应的第二概率，确定至少一棵候选节点树作为至少一棵目标节点树时，用于：

对于任意一棵候选节点树，根据所述候选节点树中根节点对应的第一概率以及组成所述候选节点树中节点的单词所对应的第二概率，确定所述候选节点树的评分；

11.根据权利要求8所述的会话消息处理装置，其特征在于，所述文本生成单元对于任意一个根节点，从词库中选取作为该根节点对应的候选节点树中节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为该候选节点树中节点的第二概率时，用于：

对于任意一个根节点，将根节点确定为候选节点树中的待扩展节点；

12.根据权利要求11所述的会话消息处理装置，其特征在于，所述用于描述图像的节点树为三叉树；

所述文本生成单元从词库中选取可以作为所述候选节点树中所述待扩展节点的子节点的单词，并基于预置的普通节点概率模型，确定选取出的单词作为所述待扩展节点的子节点的第二概率时，用于：

从词库中分别选取可以作为所述候选节点树中所述待扩展节点的左子节点、右子节点和中子节点的单词，并基于预置的普通节点概率模型，分别确定在所述图像、所述候选节点树以及所述待扩展节点确定的前提下，生成所述左子节点、右子节点和中子节点的第二概率。

13.根据权利要求8所述的会话消息处理装置，其特征在于，在基于所述图像的特征以及预置的根节点概率模型，确定词库中各个单词作为描述所述图像的节点树中根节点的第一概率之前，所述文本生成单元还用于：

将所述图像转换为预设长度的向量作为所述图像的特征；

所述描述所述图像的节点树为描述所述向量的节点树。

14.根据权利要求8所述的会话消息处理装置，其特征在于，还包括：

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序用于执行权利要求1-7任一项所述的会话消息处理方法。

16.一种服务器，其特征在于，包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序；

所述计算机程序用于执行如权利要求1-7任一项所述的会话消息处理方法。