CN110175323A

CN110175323A - 消息摘要的生成方法和装置

Info

Publication number: CN110175323A
Application number: CN201810552736.8A
Authority: CN
Inventors: 李菁; 宋彦; 史树明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2019-08-27
Anticipated expiration: 2038-05-31
Also published as: WO2019228137A1; CN111507087A; CN110175323B; US20210142004A1; US11526664B2; CN111507087B

Abstract

本发明的实施例提供了一种消息摘要的生成方法和装置。该生成方法包括：从待处理的消息集合中获取具有关联关系的多条消息；生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型；基于所述功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，确定多条消息包含的词类别为主题内容词的分布概率；根据所述主题内容词的分布概率，生成所述多条消息的摘要。本发明实施例的技术方案能够保证得到更加准确的消息摘要，确保消息摘要中能够包含更多的重要内容，提高了确定的消息摘要的质量。

Description

消息摘要的生成方法和装置

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种消息摘要的生成方法和装置。

背景技术

目前，在提取社交媒体中的消息摘要时，通常是将每条消息作为一篇文章(例如：微信朋友圈中的每一条状态被看成一篇文章)，然后利用基于内容的多文章摘要方法来抽取消息的摘要。而社交媒体中的消息由于文本短、噪音大、语言非正式等特点导致直接利用基于内容的多文章摘要方法无法获得理想的效果。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种消息摘要的生成方法和装置，进而至少在一定程度上克服现有技术中无法准确得到消息摘要的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种消息摘要的生成方法，包括：从待处理的消息集合中获取具有关联关系的多条消息；生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类别的词的概率，所述词情感极性标签的分布模型表示具有不同情感标签的消息包含各种情感极性的词的概率；基于所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型，确定所述多条消息包含的词类别为主题内容词的分布概率；根据所述主题内容词的分布概率，生成所述多条消息的摘要。

在本发明的一些实施例中，基于前述方案，根据所述主题内容词的分布概率，生成所述多条消息的摘要，包括：基于所述主题内容词的分布概率，选择预定数量的主题内容词生成所述多条消息的摘要。

在本发明的一些实施例中，基于前述方案，从待处理的消息集合中获取具有关联关系的多条消息，包括：根据消息之间的回复和/或转发关系，从所述消息集合中获取具有所述回复和/或转发关系的多条消息。

在本发明的一些实施例中，基于前述方案，所述的消息摘要的生成方法还包括：基于所述多条消息之间的回复和/或转发关系，生成所述多条消息对应的消息树。

根据本发明实施例的一个方面，提供了一种消息摘要的生成装置，包括：获取单元，用于从待处理的消息集合中获取具有关联关系的多条消息；模型生成单元，用于生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类别的词的概率，所述词情感极性标签的分布模型表示具有不同情感标签的消息包含各种情感极性的词的概率；处理单元，用于基于所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型，确定所述多条消息包含的词类别为主题内容词的分布概率；生成单元，用于根据所述主题内容词的分布概率，生成所述多条消息的摘要。

在本发明的一些实施例中，基于前述方案，所述模型生成单元用于：生成D维多项式分布π_d，所述D维多项式分布π_d表示所述多条消息组成的消息树中父节点的功能标签为d时，所述父节点的子节点的功能标签为D种功能标签的概率分布；以所述D维多项式分布π_d为参数，生成所述每条消息对应的功能标签的多项式分布模型。

在本发明的一些实施例中，基于前述方案，所述模型生成单元用于：生成S维多项式分布σ_d,s,s′，所述S维多项式分布σ_d,s,s′表示所述每条消息的功能标签为d、且在所述多条消息组成的消息树中的父节点的情感标签为s时，所述每条消息的情感标签为s'的概率分布；以所述S维多项式分布σ_d,s,s′为参数，生成所述每条消息对应的情感标签的多项式分布模型。

在本发明的一些实施例中，基于前述方案，所述模型生成单元用于：生成X维多项式分布τ_d，所述X维多项式分布τ_d表示功能标签为d的消息中包含各种类别的词的概率分布，所述各种类别的词包括主题内容词、情感词和功能词，或者包括主题内容词、情感词、功能词和背景词；以所述X维多项式分布τ_d为参数，生成所述每条消息中的每个词对应的词类别标签的多项式分布模型。

在本发明的一些实施例中，基于前述方案，所述模型生成单元用于：生成二维多项式分布ρ_s，所述二维多项式分布ρ_s表示情感标签为s的消息中包含正情感词和负情感词的概率分布；以所述二维多项式分布ρ_s为参数，生成所述每条消息中的每个词对应的词情感极性标签的多项式分布模型。

在本发明的一些实施例中，基于前述方案，所述的消息摘要的生成装置还包括：设置单元，用于在所述多条消息中存在与预设的情感词典中包含的正情感词和/或负情感词相匹配的目标词时，根据匹配到的词的情感极性设置所述目标词的词情感极性标签。

在本发明的一些实施例中，基于前述方案，所述处理单元用于：对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样，以得到所述多条消息包含的词类别为主题内容词的分布概率。

在本发明的一些实施例中，基于前述方案，所述处理单元用于：基于吉布斯采样算法对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样。

在本发明的一些实施例中，基于前述方案，所述处理单元包括：初始化单元，用于随机初始化所述每条消息的功能标签、情感标签和所述每条消息中的每个词的词类别标签，并对词类别标签为情感词的各个词的词情感极性标签进行初始化；抽样单元，用于在一次迭代的过程中，基于所述功能标签的分布模型和所述情感标签的分布模型，对所述每条消息进行功能标签和情感标签的抽样，并基于所述词类别标签的分布模型和所述词情感极性标签的分布模型，对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。

在本发明的一些实施例中，基于前述方案，所述抽样单元用于：在所述多条消息中的各条消息的词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签和情感标签已知的基础上，基于所述功能标签的分布模型和所述情感标签的分布模型对所述每条消息的功能标签和情感标签进行联合抽样。

在本发明的一些实施例中，基于前述方案，所述抽样单元用于：在所述多条消息中的各条消息的情感标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签已知的基础上，基于所述功能标签的分布模型对所述每条消息的功能标签进行抽样；以及在所述多条消息中的各条消息的功能标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的情感标签已知的基础上，基于所述情感标签的分布模型对所述每条消息的情感标签进行抽样。

在本发明的一些实施例中，基于前述方案，所述抽样单元用于：在所述多条消息中的各条消息的功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签和词情感极性标签已知的基础上，基于所述词类别标签的分布模型和所述词情感极性标签的分布模型对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。

在本发明的一些实施例中，基于前述方案，所述抽样单元用于：在所述多条消息中的各条消息的词类别标签、功能标签和情感标签，以及所述多条消息中的其它消息的词情感极性标签已知的基础上，基于所述词情感极性标签的分布模型对所述每条消息中的每个词进行词情感极性标签的抽样；以及在所述多条消息中的各条消息的词情感极性标签、功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签已知的基础上，基于所述词类别标签的分布模型对所述每条消息中的每个词进行词类别标签的抽样。

在本发明的一些实施例中，基于前述方案，所述生成单元用于：从所述多条消息中选择预定数量的目标消息，所述预定数量的目标消息构成的消息集合中包含的词在词典中的词分布概率与所述主题内容词的分布概率之间的相对熵最小，其中，所述词典是由所述待处理的消息集合中包含的所有词所构成的；根据所述预定数量的目标消息，生成所述多条消息的摘要。

在本发明的一些实施例中，基于前述方案，所述生成单元用于：基于所述主题内容词的分布概率，选择预定数量的主题内容词生成所述多条消息的摘要。

在本发明的一些实施例中，基于前述方案，所述获取单元用于：根据消息之间的回复和/或转发关系，从所述消息集合中获取具有所述回复和/或转发关系的多条消息。

在本发明的一些实施例中，基于前述方案，所述的消息摘要的生成装置还包括：消息树生成单元，用于基于所述多条消息之间的回复和/或转发关系，生成所述多条消息对应的消息树。

根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的消息摘要的生成方法。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的消息摘要的生成方法。

在本发明的一些实施例所提供的技术方案中，通过从待处理的消息集合中获取具有关联关系的多条消息，进而基于该多条消息来确定消息主题，使得能够基于消息之间的关联关系来对扩充消息的上下文信息，进而能够解决消息量较少而导致确定的主题不准确的问题。同时，通过生成每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，使得在确定主题内容词的分布概率时，能够考虑到具有不同功能标签的消息包含主题内容词的概率，同时能够确定词类别标签及词情感极性标签，以降低非主题内容词(如背景词、功能词、情感词等)在主题内容词分布中的概率，进而能够保证得到更加准确的消息摘要，确保消息摘要中能够包含更多的重要内容，提高了确定的消息摘要的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的消息摘要的生成方法或消息摘要的生成装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本发明的一个实施例的消息摘要的生成方法的流程图；

图4示意性示出了根据本发明的一个实施例的生成每条消息对应的功能标签的分布模型的流程图；

图5示意性示出了根据本发明的一个实施例的生成每条消息对应的情感标签的分布模型的流程图；

图6示意性示出了根据本发明的一个实施例的生成每条消息对应的词类别标签的分布模型的流程图；

图7示意性示出了根据本发明的一个实施例的生成每条消息对应的词情感极性标签的分布模型的流程图；

图8示意性示出了根据本发明的一个实施例的对功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型进行迭代抽样的流程图；

图9示意性示出了根据本发明的一个实施例的对话树的结构图；

图10示意性示出了根据本发明的一个实施例的对社交媒体中的消息进行处理来生成消息摘要的流程图；

图11示意性示出了根据本发明的一个实施例的生成消息摘要的装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的消息摘要的生成方法或消息摘要的生成装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105上传了待处理的消息集合，服务器105可以从该消息集合中获取具有关联关系的多条消息，然后生成这多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，且该词类别标签的分布模型表示具有不同功能标签的消息包含各种类别的词的概率，该词情感极性标签的分布模型表示具有不同情感标签的消息包含各种情感极性的词的概率，进而可以基于生成的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，确定多条消息包含的词类别为主题内容词的分布概率，以根据该主题内容词的分布概率，生成该多条消息的摘要。

需要说明的是，本发明实施例所提供的消息摘要的生成方法一般由服务器105执行，相应地，消息摘要的生成装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端也可以与服务器具有相似的功能，从而执行本发明实施例所提供的消息摘要的生成方案。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3至图8、图10所示的各个步骤。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

图3示意性示出了根据本发明的一个实施例的消息摘要的生成方法的流程图，该消息摘要的生成方法适用于前述实施例中所述的电子设备。参照图3所示，该消息摘要的生成方法至少包括步骤S310至步骤S340，详细介绍如下：

在步骤S310中，从待处理的消息集合中获取具有关联关系的多条消息。

在本发明的一个实施例中，由于在回复消息或转发消息时，通常会围绕相似或相关的主题内容，因此可以根据消息之间的回复和/或转发关系，从所述消息集合中获取具有所述回复和/或转发关系的多条消息，这种方式能够合理地对消息的上下文进行扩充，以确保得到更加准确的消息摘要。

在本发明的一个实施例中，还可以基于所述多条消息之间的回复和/或转发关系，生成所述多条消息对应的消息树。具体地，可以将每条消息作为一个节点，对于任意一条消息m，如果存在其他的消息m'，满足m'是m的转发或者回复，那么构造一条从m到m'的边，以此来生成消息树。

需要说明的是，上述实施例中是基于回复和/或转发关系来从消息集合中获取多条消息，在本发明的其它实施例中，也可以根据消息是否发自于同一个作者、消息中是否包含有共同的词、消息是否包含某一个标签等来获取具有关联关系的多条消息。

此外，在本发明的一个实施例中，还可以将待处理的消息集合中的消息按照所述关联关系划分为至少一组消息，其中的每组消息包含有多条消息。对于该至少一组消息中的每组消息，都可以按照本发明实施例的技术方案来确定消息摘要。

继续参照图3，在步骤S320中，生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类别的词的概率，所述词情感极性标签的分布模型表示具有不同情感标签的消息包含各种情感极性的词的概率。

在本发明的一个实施例中，功能标签是用于指示消息的功能，比如陈述、提问题、表达质疑等；情感标签用于指示消息传达的情感，如高兴、愤怒、悲伤等；词类别标签用于指示消息中词的类型，比如是主题内容词、功能词、情感词或者是背景词(背景词是除主题内容词、功能词、情感词之外的词)等；词情感极性标签用于指示消息中词的情感极性，如正性、负性等。本发明的实施例通过生成每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，使得在确定主题内容词的分布概率时，能够考虑到具有不同功能标签的消息包含主题内容词的概率，同时能够确定词类别标签及词情感极性标签，以降低非主题内容词(如背景词、功能词、情感词等)在主题内容词分布中的概率，进而能够保证得到更加准确的消息摘要，确保消息摘要中能够包含更多的重要内容，提高了确定的消息摘要的质量。

对于功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，本发明的实施例分别提供了如下的生成方法：

生成功能标签的分布模型：

在本发明的一个实施例中，参照图4所示，生成每条消息对应的功能标签的分布模型，包括如下步骤：

步骤S410，生成D维多项式分布π_d，所述D维多项式分布π_d表示所述多条消息组成的消息树中父节点的功能标签为d时，所述父节点的子节点的功能标签为D种功能标签的概率分布。

在本发明的实施例中，D维表示消息功能类别的个数，可以大于或等于2。比如消息功能可以包含：陈述、质疑、传播等等，进而可以根据消息功能的个数来设置D的值。

步骤S420，以所述D维多项式分布π_d为参数，生成所述每条消息对应的功能标签的多项式分布模型。

生成情感标签的分布模型：

在本发明的一个实施例中，参照图5所示，生成每条消息对应的情感标签的分布模型，包括如下步骤：

步骤S510，生成S维多项式分布σ_d,s,s′，所述S维多项式分布σ_d,s,s′表示所述每条消息的功能标签为d、且在所述多条消息组成的消息树中的父节点的情感标签为s时，所述每条消息的情感标签为s'的概率分布。

在本发明的实施例中，S维表示消息情感类别的个数，可以大于或等于2。比如S＝2可以表示情感类别包含正性和负性；S＝3可以表示情感类别包含正性、负性和中性；S的值更大时可以表示情感类别包含：生气、高兴、愤怒、沮丧等等。

步骤S520，以所述S维多项式分布σ_d,s,s′为参数，生成所述每条消息对应的情感标签的多项式分布模型。

生成词类别标签的分布模型：

在本发明的一个实施例中，参照图6所示，生成每条消息对应的词类别标签的分布模型，包括如下步骤：

步骤S610，生成X维多项式分布τ_d，所述X维多项式分布τ_d表示功能标签为d的消息中包含各种类别的词的概率分布，所述各种类别的词包括主题内容词、情感词和功能词，或者包括主题内容词、情感词、功能词和背景词。

在本发明的一个实施例中，如果各种类别的词仅包括主题内容词、情感词和功能词，那么X维多项式分布τ_d为三维多项式分布；如果各种类别的词仅包括主题内容词、情感词、功能词和背景词，那么X维多项式分布τ_d为四维多项式分布。需要说明的是，在本发明的实施例中，词既可以由单独的字组成，也可以由多个字组成(比如可以是词组、短语等)。

步骤S620，以所述X维多项式分布τ_d为参数，生成所述每条消息中的每个词对应的词类别标签的多项式分布模型。

生成词情感极性标签的分布模型：

在本发明的一个实施例中，参照图7所示，生成每条消息对应的词情感极性标签的分布模型，包括如下步骤：

步骤S710，生成二维多项式分布ρ_s，所述二维多项式分布ρ_s表示情感标签为s的消息中包含正情感词和负情感词的概率分布；

步骤S720，以所述二维多项式分布ρ_s为参数，生成所述每条消息中的每个词对应的词情感极性标签的多项式分布模型。

在本发明的一个实施例中，如果事先设置了情感词典，且情感词典中标识出了正情感词和/或负情感词，那么如果多条消息中存在与该情感词典中包含的正情感词和/或负情感词相匹配的目标词，则可以根据匹配到的词的情感极性直接设置该目标词的词情感极性标签。

继续参照图3所示，在步骤S330中，基于所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型，确定所述多条消息包含的词类别为主题内容词的分布概率。

在本发明的一个实施例中，步骤S330在具体实现时可以包括：对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样，以得到所述多条消息包含的词类别为主题内容词的分布概率。比如可以采用吉布斯采样算法(即Gibbs Sampling)对功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型进行迭代抽样。

在本发明的一个实施例中，参照图8所示，基于吉布斯采样算法对功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型进行迭代抽样的过程，包括：

步骤S810，随机初始化所述每条消息的功能标签、情感标签和所述每条消息中的每个词的词类别标签，并对词类别标签为情感词的各个词的词情感极性标签进行初始化。

在本发明的实施例中，吉布斯采用算法是迭代采样的过程，在迭代采样开始之前，需要对功能标签、情感标签、词类别标签和词情感极性标签进行初始化处理。

步骤S820，在一次迭代的过程中，基于所述功能标签的分布模型和所述情感标签的分布模型，对所述每条消息进行功能标签和情感标签的抽样，并基于所述词类别标签的分布模型和所述词情感极性标签的分布模型，对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。

以下对一次迭代过程中，如何进行功能标签和情感标签的抽样，以及如何进行词类别标签和词情感极性标签的抽样进行详细阐述：

对功能标签和情感标签进行抽样的方案：

在本发明的一个实施例中，对每条消息进行功能标签和情感标签的抽样，包括：在所述多条消息中的各条消息的词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签和情感标签已知的基础上，基于所述功能标签的分布模型和所述情感标签的分布模型对所述每条消息的功能标签和情感标签进行联合抽样。即在该实施例中，可以对功能标签和情感标签进行联合抽样处理。

在本发明的另一个实施例中，对每条消息进行功能标签和情感标签的抽样，包括：在所述多条消息中的各条消息的情感标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签已知的基础上，基于所述功能标签的分布模型对所述每条消息的功能标签进行抽样；以及在所述多条消息中的各条消息的功能标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的情感标签已知的基础上，基于所述情感标签的分布模型对所述每条消息的情感标签进行抽样。即在该实施例中，可以分开对功能标签和情感标签进行抽样处理。其中，可以先对功能标签进行抽样处理，然后再对情感标签进行抽样处理，或者也可以先对情感标签进行抽样处理，然后再对功能标签进行抽样处理。

对词类别标签和词情感极性标签进行抽样的方案：

在本发明的一个实施例中，对每条消息中的每个词进行词类别标签和词情感极性标签的抽样，包括：在所述多条消息中的各条消息的功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签和词情感极性标签已知的基础上，基于所述词类别标签的分布模型和所述词情感极性标签的分布模型对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。即在该实施例中，可以对词类别标签和词情感极性标签进行联合抽样处理。

在本发明的另一个实施例中，对每条消息中的每个词进行词类别标签和词情感极性标签的抽样，包括：在所述多条消息中的各条消息的词类别标签、功能标签和情感标签，以及所述多条消息中的其它消息的词情感极性标签已知的基础上，基于所述词情感极性标签的分布模型对所述每条消息中的每个词进行词情感极性标签的抽样；以及在所述多条消息中的各条消息的词情感极性标签、功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签已知的基础上，基于所述词类别标签的分布模型对所述每条消息中的每个词进行词类别标签的抽样。即在该实施例中，可以分开对词类别标签和词情感极性标签进行抽样处理。其中，可以先对词类别标签进行抽样处理，然后再对词情感极性标签进行抽样处理，或者也可以先对词情感极性标签进行抽样处理，然后再对词类别标签进行抽样处理。

需要说明的是，在本发明的实施例中，对于一次迭代过程，可以先进行功能标签和情感标签的抽样，然后再进行词类别标签和词情感极性标签的抽样；或者也可以先进行词类别标签和词情感极性标签的抽样，然后再进行功能标签和情感标签的抽样。

继续参照图3所示，在步骤S340中，根据所述主题内容词的分布概率，生成所述多条消息的摘要。

在本发明的一个实施例中，在生成多条消息的摘要时，可以从该多条消息中选择预定数量的目标消息，该预定数量的目标消息构成的消息集合中包含的词在词典中的词分布概率与所述主题内容词的分布概率之间的相对熵最小，其中，所述词典是由所述待处理的消息集合中包含的所有词所构成的；然后根据该预定数量的目标消息，生成所述多条消息的摘要。

该实施例的技术方案能够找到预定数量的目标消息来生成摘要，在保证能够生成准确的摘要内容的前提下，确保摘要内容更加充实。

在本发明的另一个实施例中，可以基于该主题内容词的分布概率，选择预定数量的主题内容词生成所述多条消息的摘要。比如可以按照概率从大到小的顺序，选择至少一个主题内容词作为摘要，而由于本发明实施例的技术方案考虑了具有不同功能标签的消息包含主题内容词的概率，并且考虑了具有不同情感标签的消息包含各种情感极性的词的概率，因此降低了其它类别的词在主题内容标签的词分布中的概率，进而使得在按照概率从大到小的顺序挑选主题内容词时，能够保证得到更加准确的主题内容词，进而能够得到准确的消息摘要。

在本发明的一个应用场景中，可以对社交媒体中的消息进行处理来确定消息摘要，具体包括：将输入的社交媒体消息集合组织成对话树、模型的生成过程、模型的参数学习、摘要的抽取等过程，以下对这几个过程进行说明：

1、将输入的社交媒体消息集合组织成对话树

当输入一个社交媒体消息集合时，首先基于回复和转发关系把输入数据集当中的消息(以下称之为message)构建为C棵对话树，用图G＝(V,E)表示，其中V表示点集合，E表示边集合。点集合V中的任何一个点m表示一条message，边集合E的构造过程如下：

遍历点集合V中所有的message，对于任意一条message m，如果存在任意一条其他message m'，满足m'是m的转发或者回复，那么构造一条从m到m'的边，插入边集合E当中。需要说明的是，在本发明的实施例中，社交媒体(例如：新浪微博、微信朋友圈等)中每一条message只能回复或者转发最多一条message，因此最终得到的G是一个树林，包含C棵树结构，每一棵树被定义为对话树。

在本发明的一个实施例中，生成的一个对话树的部分结构可以如图9所示，每条消息都是对话树中的一个节点，其中标识有“[O]”的消息表示原创消息(即不是其它消息的回复或转发)，标识有“[Ri]”的消息表示按时间排序后的第i条转发或者回复的消息。

此外，在图9所示的对话树结构中，“<>”中逗号“，”之前的内容表示该消息的功能标签，“<>”中逗号“，”之后的内容表示该消息的情感标签；加粗且字体放大的词为指示消息主题内容的词，加下划线的词为指示消息功能标签的功能词；虚线框中的词表示正情感词，实线框中的词表示负情感词。

本发明实施例的技术方案主要利用对话树中的回复关系，联合建模对话中的功能、情感和主题内容信息，抽取每个对话中主题内容词的分布表示对话的主要讨论内容，并基于此抽取重要的消息形成对话树的摘要。

本领域技术人员需要理解的是，该实施例中是基于回复和转发关系来构建对话树，在本发明的实施例中还可以仅根据回复关系来构建对话树，或者仅根据转发关系来构建对话树。

2、模型的生成过程

在本发明的实施例中，假设输入的社交媒体消息集合中包含C棵对话树，每棵对话树c上有M_c条message，其中的每条message(c,m)有N_c,m个词，每个词(c,m,n)在词典中的索引为w_c,m,n，输入的消息集合中所有的词构成的词典大小为V。

在本发明的实施例中，输入的消息集合中包含D个功能词分布和两个情感词分布(分别表示正、负两种情感)，每一个功能用词的多项式分布表示，每一个情感极性用词的多项式分布表示，其中，POS表示正情感，NEG表示负情感。每棵对话树c的内容用内容词的多项式分布来表示。本发明还加入了另一个词的多项式分布φ^B来表示非情感、非功能和非主题内容的信息。和φ^B都是词典Vocab上的词分布，它们的先验分布均为Dir(β)，其中，Vocab的大小为V，β表示超参数(在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数)。

在本发明的实施例中，任意一棵对话树c上的message(c,m)有两个标签d_c,m和s_c,m，这两个标签分别表示message(c,m)的功能和情感分类。D_c,m指示message(c,m)属于的功能的索引(d_c,m∈{1,2,…D})，为了描述message(c,m)中的功能标签与其父节点的依赖关系(例如一条消息“提出问题”，那么在它的回复和转发中“回答问题”的可能性要比“质疑”的可能性高)，本发明的实施例用D维多项式分布π_d～Dir(γ)来表示对话树c上父节点的功能索引为d时，该父节点的子节点为D种功能索引的概率，那么message(c,m)的功能索引其中pa(m)表示message(c,m)的父节点，上述的γ表示超参数。

s_c,m指示message(c,m)属于的情感的索引(s_c,m∈{1,2,…S})，其中S为message情感类别的个数，可大于或等于2，例如S＝3表示message级别情感类别为3(如可以包括正性、负性和中性三种类别)。为了刻画message功能对父子节点之间情感转移的影响，例如message中“提出质疑”比“应和”有更高概率引起情感的反转，本发明用S维的多项式分布σ_d,s,s′～Dir(ξ)来表示消息的功能和对话树上父子节点之间的情感转移关系，表示当message的功能索引为d，其父节点的情感索引为s时，message的情感索引为s'的概率，因此令其中，上述的ξ表示超参数。

在本发明的实施例中，对于message(c,m)当中的任何一个词(c,m,n)有三个标签x_c,m,n、p_c,m,n和w_c,m,n。其中，x_c,m,n指示词(c,m,n)的种类，x_c,m,n∈{DISC,CONT,SENT,BACK}。

当x_c,m,n＝DISC时，词(c,m,n)为功能词，用于指示message(c,m)的功能，例如消息“你怎么知道的？”中的“怎么”和“？”为功能词，用于指示这条消息的discourse标签为“提问题”。

当x_c,m,n＝CONT时，词(c,m,n)为主题内容词，用于指示message(c,m)的主题内容，例如在消息“李四当选J国总统”当中的“李四”、“J国”和“总统”为主题词，指示这条消息的内容有关J国总统竞选。

当x_c,m,n＝SENT时，词(c,m,n)为情感词，用于指示message(c,m)的情感，例如在消息“哈哈今日的相聚真实令人开心^_^”中的“哈哈”、“开心”和“^_^”为情感词，指示这个消息是一个正向的情感。

当x_c,m,n＝BACK时，词(c,m,n)不是功能词、情感词，也不是主题内容词，例如message“你怎么知道的？”当中的“的”既不是功能词、情感词，也不是主题词，可以认为是背景词。

而p_c,m,n∈{POS,NEG}有效当且仅当词(c,m,n)为情感词，即x_c,m,n＝SENT时，p_c,m,n作为情感指示器来指示词(c,m,n)的情感极性，p_c,m,n＝POS表示词(c,m,n)为正情感词，p_c,m,n＝NEG表示词(c,m,n)为负情感词。为了描述不同情感类别的message中包含正情感词和负情感词的概率不同，本发明的实施例用二维的多项式分布ρ_s～Dir(ω)来描述message的情感类别为s时它所包含正情感词和负情感词的分布，那么词(c,m,n)的情感极性指示器为了提高正情感词和负情感词的指示准确率，本发明的实施例可利用情感词典中的正情感词和负情感词来辅助确定，比如当词(c,m,n)为已知情感词典中的正情感词时，可强制令p_c,m,n＝POS；当词(c,m,n)为已知情感词典中的负情感词时，可强制令p_c,m,n＝NEG。

w_c,m,n表示词(c,m,n)在词表当中的索引，当x_c,m,n＝DISC时， x_c,m,n＝CONT时，x_c,m,n＝SENT时，当x_c,m,n＝BACK时，w_c,m,n～Multi(φ^B)。在本发明的实施例中，假设词的种类x_c,m,n与message(c,m)的功能有关，例如message(c,m)的功能为“陈述”时，含有主题内容词的可能性要高于“提问题”。因此，τ_d～Dir(δ)为4维多项式分布，表示功能标签为d的message中包含功能词(DISC)、主题内容词(CONT)、情感词(SENT)和背景词(BACK)的概率。

总结而言，对于输入的社交媒体消息集合，模型的生成过程如下：

3、模型的参数学习过程

在本发明的实施例中，可以采用吉布斯采样算法对模型中的参数进行迭代学习，在迭代开始之前，对每一条消息的变量d和s进行初始化，并对每一条message中的每一个词的变量x和p进行初始化。

在每一次迭代中，对输入消息集合中的每一条message的变量d和s按照下述公式(1)采样，并且对输入消息集合中的每一条message中的每一个词的变量x和p按照下述算式(2)采样。

具体地，给定超参数集合θ＝{γ,δ,ξ,β,ω}，对于对话树c上的messagem，它的功能标签d_c,m和情感标签s_c,m的采样公式如下：

在公式(1)中，表示在已知 w、x、p和θ的基础上，message(c,m)的功能标签为d、情感标签为s的概率。其中，表示message(c,m)之外的其它message的功能标签；表示message(c,m)之外的其它message的情感标签；w表示输入消息集合中的所有词；x表示词类别(即词为主题内容词、功能词、情感词还是背景词)；p表示词情感极性(即词为正性还是负性)；θ表示所有超参数的集合，包括β、γ、δ、ω、ξ。公式(1)中函数I()在“()”中的条件成立时，值为1；在“()”中的条件不成立时，值为0。公式(1)中的其它参数的说明见下述表1。

在每一次迭代中，还需要对输入消息集合中的每一条message的词种类指示器x_(c,m,n)和情感极性指示器p_(c,m,n)按照下述公式(2)进行采样：

在公式(2)中，表示在已知w、d、s和θ的基础上，词(c,m,n)的词类别标签为x、词情感极性标签为p的概率。其中，表示词(c,m,n)之外的其它词的词类别标签；表示词(c,m,n)之外的其它词的词情感极性标签；w表示输入消息集合中的所有词；d表示输入消息集合中消息的功能标签；s表示输入消息集合中消息的情感标签；θ表示所有超参数的集合，包括β、γ、δ、ω、ξ。

其中，公式(2)中的函数g(x,p,c,m)由公式(3)确定：

其中，上述公式(1)、公式(2)和公式(3)中其它参数的说明见下述表1。其中(c,m)表示对话树c上的message m，所有的C符号表示的统计个数不包括message(c,m)及其包含的全部词。

表1

当迭代次数足够时，即达到了之前所设的阈值(例如1000次)，就可以得到每一个对话树c的主题内容词分布，具体如下述公式(4)所示：

在本发明的一个实施例中，还可以给定正情感词列表和/或负情感词列表，进而在采样过程中，对于其中包含的任何被采样为情感词(x_c,m,n＝SENT)的词，强行令这些词的情感极性为正(p_c,m,n＝POS)；对于其中包含的任何被采样为情感词(x_c,m,n＝SENT)的词，强行令这些词的情感极性为正(p_c,m,n＝NEG)。

需要说明的是，在本发明的实施例中，通过上述公式(1)对每一条消息的变量d和s进行抽样的过程与通过上述公式(2)对每一条消息中的每一个词的变量x和p进行抽样的过程不分先后顺序，即可以先通过公式(1)抽样每一条消息的变量d和s，再通过公式(2)抽样每一条消息中的每一个词的变量x和p，也可以先通过公式(2)抽样每一条消息中的每一个词的变量x和p，再通过公式(1)抽样每一条消息的变量d和s。

4、摘要的抽取

基于上述过程得到的在本发明的实施例中可以抽取L条message组成集合E_c作为对话树c的摘要内容。其中，为了抽取得到较为合适的消息集合E_c，本发明的实施例可以采用下述公式(5)来确保得到合适的消息集合：

其中，U(E_c)表示E_c中的词在词典上Vocab上的词分布，KL(P||Q)表示Kullback-Lieber(即KL)散度，其表示分布P和分布Q的相对熵，即上述公式(5)表示找到L条message，以确保该L条message构成的消息集合中包含的词在词典中的词分布概率U(E_c)与主题内容词的分布概率之间的相对熵最小。

在本发明的另一个实施例中，消息摘要的产生也可以直接从中抽取前若干词来生成。

上述四个过程在实现时的主要流程参照图10所示，包括如下步骤：

步骤S1001，将输入的社交媒体消息集合组织成对话树。

步骤S1002，随机初始化message上的功能标签和情感标签，以及词上的词类别标签指示这个词为功能词、主题内容词、情感词还是背景词。若为情感词，初始化情感极性指示标签。

步骤S1003，根据公式(1)抽样message上的功能标签和情感标签。

步骤S1004，根据公式(2)抽样词上的词类别标签指示词为主题内容词、功能词、情感词还是背景词。若为情感词，抽样词情感极性指示标签。

步骤S1005，判断迭代抽样次数是否足够，即是否达到设定的次数。若迭代抽样次数足够，则执行步骤S1006；否则，返回步骤S1003。

步骤S1006，根据公式(4)得到每个对话树c的主题内容词分布

步骤S1007，根据主题内容词分布和公式(5)得到每个对话树c的主题摘要。

在图10所示的实施例中，以先抽样message上的功能标签和情感标签，后抽样词上的词类别标签和词情感极性标签为例进行阐述，但是正如上述的说明，在本发明的其它实施例中，也可以先抽样词上的词类别标签和词情感极性标签，后抽样message上的功能标签和情感标签。

此外，上述实施例中的公式(1)是对每一条消息的变量d和s进行联合抽样，在本发明的其它实施例中，也可以对每一条消息的变量d和s进行先后抽样，并且变量d和s的抽样顺序不限，即可以先对每一条消息的变量d进行抽样，然后再对每一条消息的变量s进行抽样，也可以先对每一条消息的变量s进行抽样，然后再对每一条消息的变量d进行抽样。以下对本发明的实施例中如何对变量d和s进行先后抽样进行说明：

在本发明的一个实施例中，可以通过下述公式(6)对每一条消息的变量d进行抽样：

在公式(6)中，表示在已知s、w、x、p和θ的基础上，message(c,m)的功能标签为d的概率。其中，表示message(c,m)之外的其它message的功能标签；s表示输入消息集合中message的情感标签；w表示输入消息集合中的所有词；x表示词类别(即词为主题内容词、功能词、情感词还是背景词)；p表示词情感极性(即词为正性还是负性)；θ表示所有超参数的集合，包括β、γ、δ、ω、ξ。公式(1)中函数I()在“()”中的条件成立时，值为1；在“()”中的条件不成立时，值为0。公式(6)中的其它参数的说明见上述表1。

在本发明的一个实施例中，可以通过下述公式(7)对每一条消息的变量s进行抽样：

在公式(7)中，表示在已知d、w、x、p和θ的基础上，message(c,m)的情感标签为s的概率。其中，d表示输入消息集合中message的功能标签；表示message(c,m)之外的其它message的情感标签；w表示输入消息集合中的所有词；x表示词类别(即词为主题内容词、功能词、情感词还是背景词)；p表示词情感极性(即词为正性还是负性)；θ表示所有超参数的集合，包括β、γ、δ、ω、ξ。公式(1)中的其它参数的说明见上述表1。

类似地，上述实施例中的公式(2)是对每一条消息的变量x和p进行联合抽样，在本发明的其它实施例中，也可以对每一条消息的变量x和p进行先后抽样，并且变量x和p的抽样顺序不限，即可以先对每一条消息的变量x进行抽样，然后再对每一条消息的变量p进行抽样，也可以先对每一条消息的变量p进行抽样，然后再对每一条消息的变量x进行抽样。

本发明上述实施例的技术方案利用回复和转发关系扩充社交媒体上message的上下文信息，以缓解数据稀疏问题对抽取消息主题带来的不利影响。同时，因为联合学习了功能信息，利用具有不同功能标签的message包含主题内容词的概率的不同，降低非主题词(如背景词、功能词、情感词)在主题内容词分布中的概率，以剥离与主题内容无关的词，抽取包含重要内容更多的消息作为摘要，确保生成的摘要能包含更多的重要内容。

此外，本发明可以利用少量的情感词典(包含正情感词和/或负情感词)来提高性能，不需要依赖任何人工标注或者额外的大规模数据，可以很容易地应用于任何带有回复和转发信息的社交媒体数据集当中，并输出高质量的摘要。

需要说明的是，本发明实施例的技术方案最直接的应用是群聊背景的补充，比如一个用户被邀请加入一个聊天群之后可能无法跟上群聊节奏，因为缺乏之前群聊的内容，当采用本发明实施例的技术方案之后，可以自动摘要之前群聊的重要信息，以便于新用户进行参考。另一个重要的应用场景是大众意见摘要，例如：一个演员在他的朋友圈发布了一条状态来宣传他的新电影，该状态可能会收到大量粉丝和朋友的回复和/或转发，其中只有少部分是关于新电影的重要观点，当采用本发明实施例的技术方案之后，可以从回复的内容中抽取出重要内容，从而帮助这名演员更好地了解大众对于电影的看法。

此外，本发明实施例的技术方案还可以自动发现、提取、整理用户讨论中的核心观点，以此帮助舆情分析和热点追踪等重要的应用场景。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中的消息摘要的生成方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的消息摘要的生成方法的实施例。

图11示意性示出了根据本发明的一个实施例的消息摘要的生成装置的框图。

参照图11所示，根据本发明的一个实施例的消息摘要的生成装置1100，包括：获取单元1101、模型生成单元1102、处理单元1103和生成单元1104。

其中，获取单元1101用于从待处理的消息集合中获取具有关联关系的多条消息；模型生成单元1102用于生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类别的词的概率，所述词情感极性标签的分布模型表示具有不同情感标签的消息包含各种情感极性的词的概率；处理单元1103用于基于所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型，确定所述多条消息包含的词类别为主题内容词的分布概率；生成单元1104用于根据所述主题内容词的分布概率，生成所述多条消息的摘要。

在本发明的一个实施例中，模型生成单元1102用于：生成D维多项式分布π_d，所述D维多项式分布π_d表示所述多条消息组成的消息树中父节点的功能标签为d时，所述父节点的子节点的功能标签为D种功能标签的概率分布；以所述D维多项式分布π_d为参数，生成所述每条消息对应的功能标签的多项式分布模型。

在本发明的一个实施例中，模型生成单元1102用于：生成S维多项式分布σ_d,s,s′，所述S维多项式分布σ_d,s,s′表示所述每条消息的功能标签为d、且在所述多条消息组成的消息树中的父节点的情感标签为s时，所述每条消息的情感标签为s'的概率分布；以所述S维多项式分布σ_d,s,s′为参数，生成所述每条消息对应的情感标签的多项式分布模型。

在本发明的一个实施例中，模型生成单元1102用于：生成X维多项式分布τ_d，所述X维多项式分布τ_d表示功能标签为d的消息中包含各种类别的词的概率分布，所述各种类别的词包括主题内容词、情感词和功能词，或者包括主题内容词、情感词、功能词和背景词；以所述X维多项式分布τ_d为参数，生成所述每条消息中的每个词对应的词类别标签的多项式分布模型。

在本发明的一个实施例中，模型生成单元1102用于：生成二维多项式分布ρ_s，所述二维多项式分布ρ_s表示情感标签为s的消息中包含正情感词和负情感词的概率分布；以所述二维多项式分布ρ_s为参数，生成所述每条消息中的每个词对应的词情感极性标签的多项式分布模型。

在本发明的一个实施例中，消息摘要的生成装置1100还包括：设置单元，用于在所述多条消息中存在与预设的情感词典中包含的正情感词和/或负情感词相匹配的目标词时，根据匹配到的词的情感极性设置所述目标词的词情感极性标签。

在本发明的一个实施例中，处理单元1103用于：对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样，以得到所述多条消息包含的词类别为主题内容词的分布概率。

在本发明的一个实施例中，处理单元1103用于：基于吉布斯采样算法对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样。

在本发明的一个实施例中，处理单元1103包括：初始化单元，用于随机初始化所述每条消息的功能标签、情感标签和所述每条消息中的每个词的词类别标签，并对词类别标签为情感词的各个词的词情感极性标签进行初始化；抽样单元，用于在一次迭代的过程中，基于所述功能标签的分布模型和所述情感标签的分布模型，对所述每条消息进行功能标签和情感标签的抽样，并基于所述词类别标签的分布模型和所述词情感极性标签的分布模型，对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。

在本发明的一个实施例中，所述抽样单元用于：在所述多条消息中的各条消息的词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签和情感标签已知的基础上，基于所述功能标签的分布模型和所述情感标签的分布模型对所述每条消息的功能标签和情感标签进行联合抽样。

在本发明的一个实施例中，所述抽样单元用于：在所述多条消息中的各条消息的情感标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签已知的基础上，基于所述功能标签的分布模型对所述每条消息的功能标签进行抽样；以及在所述多条消息中的各条消息的功能标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的情感标签已知的基础上，基于所述情感标签的分布模型对所述每条消息的情感标签进行抽样。

在本发明的一个实施例中，所述抽样单元用于：在所述多条消息中的各条消息的功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签和词情感极性标签已知的基础上，基于所述词类别标签的分布模型和所述词情感极性标签的分布模型对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。

在本发明的一个实施例中，所述抽样单元用于：在所述多条消息中的各条消息的词类别标签、功能标签和情感标签，以及所述多条消息中的其它消息的词情感极性标签已知的基础上，基于所述词情感极性标签的分布模型对所述每条消息中的每个词进行词情感极性标签的抽样；以及在所述多条消息中的各条消息的词情感极性标签、功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签已知的基础上，基于所述词类别标签的分布模型对所述每条消息中的每个词进行词类别标签的抽样。

在本发明的一个实施例中，所述生成单元1104用于：从所述多条消息中选择预定数量的目标消息，所述预定数量的目标消息构成的消息集合中包含的词在词典中的词分布概率与所述主题内容词的分布概率之间的相对熵最小，其中，所述词典是由所述待处理的消息集合中包含的所有词所构成的；根据所述预定数量的目标消息，生成所述多条消息的摘要。

在本发明的一个实施例中，所述生成单元1104用于：基于所述主题内容词的分布概率，选择预定数量的主题内容词生成所述多条消息的摘要。

在本发明的一个实施例中，所述获取单元1101用于：根据消息之间的回复和/或转发关系，从所述消息集合中获取具有所述回复和/或转发关系的多条消息。

在本发明的一个实施例中，消息摘要的生成装置1100还包括：消息树生成单元，用于基于所述多条消息之间的回复和/或转发关系，生成所述多条消息对应的消息树。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种消息摘要的生成方法，其特征在于，包括：

从待处理的消息集合中获取具有关联关系的多条消息；

生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类别的词的概率，所述词情感极性标签的分布模型表示具有不同情感标签的消息包含各种情感极性的词的概率；

基于所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型，确定所述多条消息包含的词类别为主题内容词的分布概率；

根据所述主题内容词的分布概率，生成所述多条消息的摘要。

2.根据权利要求1所述的消息摘要的生成方法，其特征在于，生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，包括：

生成D维多项式分布π_d，所述D维多项式分布π_d表示所述多条消息组成的消息树中父节点的功能标签为d时，所述父节点的子节点的功能标签为D种功能标签的概率分布；

以所述D维多项式分布π_d为参数，生成所述每条消息对应的功能标签的多项式分布模型。

3.根据权利要求1所述的消息摘要的生成方法，其特征在于，生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，包括：

生成S维多项式分布σ_d,s,s′，所述S维多项式分布σ_d,s,s′表示所述每条消息的功能标签为d、且在所述多条消息组成的消息树中的父节点的情感标签为s时，所述每条消息的情感标签为s'的概率分布；

以所述S维多项式分布σ_d,s,s′为参数，生成所述每条消息对应的情感标签的多项式分布模型。

4.根据权利要求1所述的消息摘要的生成方法，其特征在于，生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，包括：

生成X维多项式分布τ_d，所述X维多项式分布τ_d表示功能标签为d的消息中包含各种类别的词的概率分布，所述各种类别的词包括主题内容词、情感词和功能词，或者包括主题内容词、情感词、功能词和背景词；

以所述X维多项式分布τ_d为参数，生成所述每条消息中的每个词对应的词类别标签的多项式分布模型。

5.根据权利要求1所述的消息摘要的生成方法，其特征在于，生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，包括：

生成二维多项式分布ρ_s，所述二维多项式分布ρ_s表示情感标签为s的消息中包含正情感词和负情感词的概率分布；

以所述二维多项式分布ρ_s为参数，生成所述每条消息中的每个词对应的词情感极性标签的多项式分布模型。

6.根据权利要求5所述的消息摘要的生成方法，其特征在于，还包括：

若所述多条消息中存在与预设的情感词典中包含的正情感词和/或负情感词相匹配的目标词，则根据匹配到的词的情感极性设置所述目标词的词情感极性标签。

7.根据权利要求1所述的消息摘要的生成方法，其特征在于，基于所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型，确定所述多条消息包含的词类别为主题内容词的分布概率，包括：

对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样，以得到所述多条消息包含的词类别为主题内容词的分布概率。

8.根据权利要求7所述的消息摘要的生成方法，其特征在于，对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样，包括：

基于吉布斯采样算法对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样。

9.根据权利要求8所述的消息摘要的生成方法，其特征在于，基于吉布斯采样算法对所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型进行迭代抽样，包括：

随机初始化所述每条消息的功能标签、情感标签和所述每条消息中的每个词的词类别标签，并对词类别标签为情感词的各个词的词情感极性标签进行初始化；

在一次迭代的过程中，基于所述功能标签的分布模型和所述情感标签的分布模型，对所述每条消息进行功能标签和情感标签的抽样，并基于所述词类别标签的分布模型和所述词情感极性标签的分布模型，对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。

10.根据权利要求9所述的消息摘要的生成方法，其特征在于，基于所述功能标签的分布模型和所述情感标签的分布模型，对所述每条消息进行功能标签和情感标签的抽样，包括：

在所述多条消息中的各条消息的词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签和情感标签已知的基础上，基于所述功能标签的分布模型和所述情感标签的分布模型对所述每条消息的功能标签和情感标签进行联合抽样。

11.根据权利要求9所述的消息摘要的生成方法，其特征在于，基于所述功能标签的分布模型和所述情感标签的分布模型，对所述每条消息进行功能标签和情感标签的抽样，包括：

在所述多条消息中的各条消息的情感标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的功能标签已知的基础上，基于所述功能标签的分布模型对所述每条消息的功能标签进行抽样；以及

在所述多条消息中的各条消息的功能标签、词类别标签和词情感极性标签，以及所述多条消息中的其它消息的情感标签已知的基础上，基于所述情感标签的分布模型对所述每条消息的情感标签进行抽样。

12.根据权利要求9所述的消息摘要的生成方法，其特征在于，基于所述词类别标签的分布模型和所述词情感极性标签的分布模型，对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样，包括：

在所述多条消息中的各条消息的功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签和词情感极性标签已知的基础上，基于所述词类别标签的分布模型和所述词情感极性标签的分布模型对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样。

13.根据权利要求9所述的消息摘要的生成方法，其特征在于，基于所述词类别标签的分布模型和所述词情感极性标签的分布模型，对所述每条消息中的每个词进行词类别标签和词情感极性标签的抽样，包括：

在所述多条消息中的各条消息的词类别标签、功能标签和情感标签，以及所述多条消息中的其它消息的词情感极性标签已知的基础上，基于所述词情感极性标签的分布模型对所述每条消息中的每个词进行词情感极性标签的抽样；以及

在所述多条消息中的各条消息的词情感极性标签、功能标签和情感标签，以及所述多条消息中的其它消息的词类别标签已知的基础上，基于所述词类别标签的分布模型对所述每条消息中的每个词进行词类别标签的抽样。

14.根据权利要求1至13中任一项所述的消息摘要的生成方法，其特征在于，根据所述主题内容词的分布概率，生成所述多条消息的摘要，包括：

从所述多条消息中选择预定数量的目标消息，所述预定数量的目标消息构成的消息集合中包含的词在词典中的词分布概率与所述主题内容词的分布概率之间的相对熵最小，其中，所述词典是由所述待处理的消息集合中包含的所有词所构成的；

根据所述预定数量的目标消息，生成所述多条消息的摘要。

15.一种消息摘要的生成装置，其特征在于，包括：

获取单元，用于从待处理的消息集合中获取具有关联关系的多条消息；

模型生成单元，用于生成所述多条消息中每条消息对应的功能标签的分布模型、情感标签的分布模型、词类别标签的分布模型和词情感极性标签的分布模型，所述词类别标签的分布模型表示具有不同功能标签的消息包含各种类别的词的概率，所述词情感极性标签的分布模型表示具有不同情感标签的消息包含各种情感极性的词的概率；

处理单元，用于基于所述功能标签的分布模型、所述情感标签的分布模型、所述词类别标签的分布模型和所述词情感极性标签的分布模型，确定所述多条消息包含的词类别为主题内容词的分布概率；

生成单元，用于根据所述主题内容词的分布概率，生成所述多条消息的摘要。