CN113627194B

CN113627194B - 信息抽取方法及装置、通信消息分类方法及装置

Info

Publication number: CN113627194B
Application number: CN202111190544.5A
Authority: CN
Inventors: 资康莉; 贾耀仓; 宫相坤; 陈维伟
Original assignee: Beijing Zhongke Haixin Technology Co ltd
Current assignee: Beijing Zhongke Haixin Technology Co ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2022-02-22
Anticipated expiration: 2041-10-13
Also published as: CN113627194A

Abstract

本公开涉及深度学习技术领域，尤其涉及一种信息抽取方法及装置、通信消息分类方法及装置。对于同场次多方用户的通信消息，通过基于通信消息的重要性和上下文语义相关性筛选多方用户通信消息中的核心消息，然后对每组核心消息进行标注，可以避免多方用户通信消息中的无关通信消息对标注过程的影响，可以提高标注的精度和效率。基于此，也可以根据获取到的标注信息高效地对多方用户的通信消息进行分类。

Description

信息抽取方法及装置、通信消息分类方法及装置

技术领域

本公开涉及深度学习技术领域，尤其涉及一种信息抽取方法及装置、通信消息分类方法及装置。

背景技术

信息抽取（Information Extraction，缩写为IE）也被称作事件抽取（EventExtraction，缩写为EE），通常指从自然语言文本中，抽取出特定的事实性信息。

中文语言本身具有用词灵活多变的特点，且在多方会话场景下多方用户的通信消息中往往存在无关信息的干扰，这就导致无法对多方用户的通信消息实现高效、准确地信息抽取，同时也无法高效地对多方用户的通信消息进行分类。

发明内容

为了高效地对多方用户的通信消息进行信息抽取以及对多方用户的通信消息进行分类，本公开提供了一种信息抽取方法及装置、通信消息分类方法及装置。

一方面，本公开实施例提供了一种信息抽取方法，用于处理同场次多方用户的通信消息，所述方法包括：

基于所述通信消息的重要性和上下文语义相关性从所述多方用户的通信消息中筛选出至少一条核心消息；

对每组所述核心消息进行标注，每组所述核心消息包括一条所述核心消息或多条具有上下文关系的核心消息。

一方面，本公开实施例提供了一种通信消息分类方法，用于处理同场次多方用户的通信消息，所述方法包括：

合并每组核心消息的标注信息，每组所述核心消息包括一条核心消息或多条具有上下文关系的核心消息，所述核心消息为基于通信消息的重要性和上下文语义相关性从所述多方用户的通信消息中筛选的通信消息，所述标注信息包括事件标注实体和事件描述实体；

对每组所述核心消息的未标注信息进行分词处理；

根据每组核心消息的事件描述结果，将分词处理后的描述同一事件的各组所述核心消息按照发送时序拼接成篇章；

基于事件子类的关键词，根据各所述篇章中包括的事件子类的关键词，确定各所述篇章对应的事件子类。

一方面，本公开实施例提供了一种信息抽取装置，用于处理同场次多方用户的通信消息，包括：

筛选单元，用于基于所述通信消息的重要性和上下文语义相关性从所述多方用户的通信消息中筛选出至少一条核心消息；

标注单元，用于对每组所述核心消息进行标注，每组所述核心消息包括一条所述核心消息或多条具有上下文关系的核心消息。

一方面，本公开实施例提供了一种通信消息分类装置，用于处理同场次多方用户的通信消息，包括：

合并单元，用于合并每组核心消息的标注信息，每组所述核心消息包括一条核心消息或多条具有上下文关系的核心消息，所述核心消息为基于通信消息的重要性和上下文语义相关性从所述多方用户的通信消息中筛选的通信消息，所述标注信息包括事件标注实体和事件描述实体；

分词单元，用于对每组所述核心消息的未标注信息进行分词处理；

拼接单元，用于根据每组核心消息的事件描述结果，将分词处理后的描述同一事件的各组所述核心消息按照发送时序拼接成篇章；

确定单元，用于基于事件子类的关键词，根据各所述篇章中包括的事件子类的关键词，确定各所述篇章对应的事件子类。

一方面，本公开实施例提供了一种电子设备，包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行上述任一所述方法。

一方面，本公开实施例提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序指令，当所述计算机程序指令由用户设备的处理器执行时，使得用户设备执行上述任一所述方法。

本公开实施例提供的技术方案带来的有益效果至少可以包括：

对于同场次多方用户的通信消息，通过基于通信消息的重要性和上下文语义相关性筛选多方用户通信消息中的核心消息，然后对每组核心消息进行标注，可以避免多方用户通信消息中的无关通信消息对标注过程的影响，可以提高标注的精度和效率。基于此，也可以根据获取到的标注信息高效地对多方用户的通信消息进行分类。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图包括在本说明书中并构成本说明书的一部分，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。为了便于描述，附图中仅示出了与本公开相关的部分。

图1是本公开实施例适用的一种多方通讯场景的示意图；

图2是本公开实施例提供的一种信息抽取方法的流程图；

图3是本公开实施例提供的一种通信消息分类方法的流程图；

图4是本公开实施例适用的另一种多方通讯场景的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例，且在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作或步骤描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作或步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本公开一些实施例提供的方法可以由处理器执行，且下文均以处理器作为执行主体为例进行说明。其中，执行主体可以根据实际应用进行调整，如执行主体可以为服务器、电子设备、计算机等。更具体的，本公开实施例提供的方法中的一条或多条步骤可以由适于处理器执行的计算机程序指令执行。

自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。深度学习是机器学习的核心部分，其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

图1是一种多方通讯场景的示意图，在该多方通讯场景中包含有多方通讯设备发送的多条通信消息，例如通信消息1~n。其中，通信消息1~n可以被称为该多方通讯场景中的多方通信消息，也即同场次多方用户的通信消息。本公开实施例将以图1所示的应用场景为例对本公开的技术方案进行详细阐述。另外，本公开实施例提供的技术方案用于处理同场次多方用户的通信消息。在下文的描述中，若无特殊说明，则所涉及的通信消息均是同场次多方用户的通信消息。

在一种可能的实现方式中，同场次多方通讯场景可以是同一时间段内由至少2位用户同时参与的会话，且可以由参与会话的多位用户自发开启。在同场次多方通讯场景中，多位用户可以围绕某一个或几个主题展开会话。另外，在同场次多方通讯场景中，用户可以自由进入或退出。在实际应用中，用户可以通过某些APP或者网页进行多方通讯。例如，用户可以通过微信、QQ、飞书、钉钉、腾讯会议或百度会议等APP或网页以文字或语音的形式进行多方通讯。当用户以语音的形式通讯时，在执行本公开实施例提供的通信消息处理方法之前，可以将用户的语音转换为文字形式。当同场次多方通讯结束后，系统中可以保留有多方通讯的会话记录，所以可以基于多方通讯的会话记录完成本公开实施例提供的通信消息处理方法。

以腾讯会议APP为例进行说明：用户可以通过腾讯会议APP预约会议，且在预约会议时可以选定会议的开始时间和结束时间。在该会议的开始时间前和后，多位用户可以进入到该会议中，且多位用户可以通过腾讯会议APP进行多方会话。当该会议结束时，例如当所有人均退出该会议时，可以将该会议的开始时间至该会议的实际结束时间这一时间段的多方会话确定为同场次的多方会话。

以微信APP为例进行说明：多位用户可以在微信APP中建立通讯群组并在该群组内进行多方会话，且用户可以自由选定某一时间段内该群组中的会话作为同场次的多方会话，或者系统可以自动获取某一时间段内该群组内的会话作为同场次的多方会话。

图2是本公开实施例提供的一种信息抽取方法的流程图，该方法的执行主体为电子计算机设备或电子计算机设备中的处理器。参见图1和2，本公开实施例提供的一种信息抽取方法包括S201-S202。

S201，基于通信消息的重要性和上下文语义相关性从多方用户的通信消息中筛选出至少一条核心消息。

在同场次的多方通讯场景中存在多用户、多轮信息交互的情况，且该场景中的多方通信消息往往不仅包括核心消息，也会包括非核心消息。其中，核心消息可以是包含具体内容的通信消息，而非核心消息可以是不包含具体内容的通信消息。通过获取同场次多方通信消息中的核心消息，可以消除非核心消息的干扰，从而可以提高对多方用户的通信消息进行信息抽取的效率。具体来说，可以基于通信消息的重要性和上下文语义相关性从多方用户的通信消息中筛选出至少一条核心消息。其中，通信消息的上下文语义相关性反映了通信消息上下文之间的语义相似性和内容连贯性。

如图1所示，根据同场次多方通讯场景中通信消息的历史记录，可以获取到同场次多方通讯场景中的所有通信消息，即同场次多方用户的通信消息。根据这些通信消息，可以获取到同场次中、按照通信消息发送时间的先后顺序排列的全部通信消息的集合，以及同场次中、按照用户划分的全部通信消息的集合。例如，根据同场次多方用户的通信消息，可以获取到同场次中、按照通信消息发送时间的先后顺序排列的全部通信消息的集合C={c₁,c₂, c₃, ..., c_n}，以及同场次中、按照用户划分的全部通信消息的集合T={U₁, U₂, U₃,..., U_x}。其中，c_n表示同场次多方用户的通信消息中第n条通信消息，U_x={m_1,x, m_2,x, m_3,x,..., m_k,x}，U_x表示第x位用户在该场次多方通讯场景中按照通信消息发送时间的先后顺序排列的全部通信消息的集合，m_k,x表示第x位用户发送的第k条通信消息。其中，可以根据不同用户在同场次多方通讯场景中发送的第一条通信消息的时间确定第1~x位用户的排列顺序，或者也可以随机为第1~x位用户的进行顺序。为了便于描述，在下文中可以称集合C为第一信息集合，称集合T为第二信息集合，即第一信息集合为同场次多方通信消息中全部通信消息的集合，第二信息集合的各元素为同场次多方通讯场景中各用户的通信消息集合，且第二信息集合的各元素中的通信消息以及第一信息集合中的通信消息均可以按照通信消息发送时间的先后顺序排列。

在一种可能的实现方式中，对于任一条通信消息c_n，可以基于该条通讯消息c_n的词向量表示获取该条通信消息c_n的预测信息，然后就可以基于该条通讯消息c_n的预测信息确定通讯消息c_n的重要性。举例来说，在获取到第一信息集合C之后，可以将第一信息集合C中的每条通信消息分别或打包输入至一词向量转化模型以输出每条通信消息对应的词向量表示。例如，第一信息集合C中的每条通信消息对应的词向量表示可以组成集合C_w={c_1,w,c_2,w, c_3,w, ..., c_n,w}。其中，c_n,w表示第n条通信消息c_n所对应的词向量表示。然后，可以基于通信消息c_n所对应的词向量表示获取通信消息c_n对应的预测信息。之后，可以基于通信消息c_n对应的预测信息确定通信消息c_n的重要性。在本公开任一实施例中，预测信息可以是一分类函数值，例如，可以是Softmax函数值或者也可以是sigmoid函数值。

接下来以通信消息c_n对应的词向量表示c_n,w为例说明如何判断通信消息c_n的重要性：在获取到c_n,w之后，可以将c_n,w输入至第一双向LSTM（Long Short-Term Memory，长短时记忆）网络，以得到通信消息c_n对应的隐层表示；之后可以将该隐层表示输入到一个全连接层以进行特征整合；通过将特征整合后的输出进行第一Softmax分类器处理，可以得到通信消息c_n对应的Softmax函数值P_{1_n}；当计算得到的通信消息c_n对应的Softmax函数值P_{1_n}不小于参考阈值α时，可以确定通信消息c_n具有强重要性，而当Softmax函数值P_{1_n}小于参考阈值α时，可以确定通信消息c_n具有弱重要性。如此，即可计算集合C中每条通信消息的重要性。

在本公开实施例中，词向量转化模型可以是基于全词遮罩技术的中文预训练模型BERT-wwm-ext，且所有多方通信消息对应的词表可以采用BERT-wwm-ext的词表集合。其中，BERT全称为Bidirectional Encoder Representations from Transformers，即双向Transformer的编码器；wwm全称为Whole Word Masking，即全词遮罩；ext表示的是extended data，表示该预训练模型使用额外数据集进行模型的训练。在本公开实施例中，所涉及到的执行全连接处理，可以是将前一个神经网络层的输出（例如可以是LSTM网络的输出，或者池化层的输出等）输入到全连接（Dense）层以进行整合处理。全连接层是单独的一层神经网络，用于整合前一层网络的输出信息，且全连接层的输入是上一层的输出，全连接层的神经元与上一层的输出进行全连接。全连接层的输出维度一般不大于输入层的维度。在本公开实施例中，所使用的各双向LSTM网络均可以为单层、双层或更多层的双向LSTM网络，且双向LSTM网络的隐层维度均为256维或更多维或更少维。在本公开的下述实施例中可能会用到卷积神经网络，该卷积神经网络的架构可以是：一个卷积核为3*3的卷积层，连接一个最大池化操作（Max Pooling），最后连接一个维度为64的全连接层。另外需要说明的是，本公开任一实施例中应用到的Softmax分类器、LSTM网络、卷积神经网络等神经网络工具均可以采用本领域常用的基础网络结构和神经元计算方式，且各神经网络工具所使用的具体参数可以根据实际应用进行调整或训练得到。

由于同场次多方通讯场景中按照时间发送的通信消息间往往存在上下文联系，因此可以按照同场次多方通讯场景中每条通信消息发送的时间，依次判断通信消息之间的语义相关性，从而可以将具有较高语义相关性的通信消息进行保留。同时，不同用户在同场次多方通讯场景中发送的通信消息间也往往存在上下文联系，因此还可以判断不同用户发送的通信消息之间的语义相关性，从而可以将具有较高语义相关性的通信消息进行保留。

在一种可能的实现方式中，对于任一条通信消息c_n，通信消息c_n的上下文可是集合C中的通信消息c_n和c_n+1，或者也可以是集合C中的通信消息c_n-1和c_n，即任一条通信消息的上下文可以是按照同场次多方用户的通信消息的发送时序，该条通信消息与相邻一条通信消息。在另一种可能的实现方式中，对于任一条通信消息c_n，c_n的上下文可以是发送c_n的用户U_n的其余通信消息与另一用户U_x的通信消息。其中，另一用户U_x可以是集合T中与用户U_n相邻的一位用户，或者也可以是与用户U_n不相邻的一位用户。在再一种实施例中，任一条通信消息的上下文可以是按照同场次多方用户的通信消息的发送时序，该条通信消息与相邻一条通信消息，以及发送该条通信消息的用户的其余通信消息与另一用户的通信消息。

在一种可能的实现方式中，为了便于判断相邻两条通信消息之间的语义相关性，在获取到第一信息集合和第二信息集合之后，可以根据第一信息集合获取第三信息集合，根据第二信息集合获取第四信息集合。其中，第三信息集合的元素为第一信息集合中两条相邻通信消息的组合，第四信息集合的元素为第二信息集合中两个相邻元素的组合。为了便于区分，可以称第三信息集合的元素为第一元素，称第四信息集合的元素为第二元素。例如，将第一信息集合C中的相邻通信消息两两组合，可以得到第三信息集合C’={(c₁, c₂),(c₂, c₃), ..., (c_n-1, c_n), (c_n, c_n+1)}；将第二信息集合中的相邻元素两两组合，可以得到第四信息集合T’={(U₁, U₂), (U₂, U₃), ..., (U_x-1, U_x)}。

由于在上述实施例中已经获得了第一信息集合C中的每条通信消息对应的词向量表示，因此，可以基于集合C中的每条通信消息对应的词向量表示得到第三信息集合C’和第四信息集合T’中各通信消息的词向量表示。或者，如果需要重新获取第三信息集合C’和第四信息集合T’中各通信消息的词向量表示，或者需要先判断通信消息之间的语义相关性再判断通信消息的重要性，可以将第三信息集合C’和第四信息集合T’中各通信消息输入至如上例所述的词向量转化模型中以获得相应的词向量表示。例如，第三信息集合C’中每组通信消息的词向量表示可以组成集合C_w’={(c_1,w, c_2,w), (c_2,w, c_3,w), ..., (c_n-1,w, c_n,w),(c_n,w, c_n+1,w)}，第四信息集合T’={(U₁, U₂), (U₂, U₃), ..., (U_x-1, U_x)}中第x位用户的通信消息集合U_x中通信消息的词向量表示可以为集合U_x,w = {m_1,x,w, m_2,x,w, m_3,x,w, ...,m_k,x,w}。

在一种可能的实现方式中，对于任一条通信消息c_n，当通信消息c_n的上下文消息为(c_n, c_n+1)时，可以基于通信消息c_n以及与通信消息c_n相邻的通信消息c_n+1的词向量表示确定相邻两条通信消息(c_n, c_n+1)的预测信息，之后可以基于相邻两条通信消息(c_n, c_n+1)的预测信息确定相邻两条通信消息(c_n, c_n+1)的上下文语义相关性。

接下来以通信消息(c₁, c₂)对应的词向量表示(c_1,w, c_2,w)为例说明如何确定第一信息集合C中相邻的两条通信消息(c₁, c₂)之间的语义相关性：在获取到(c_1,w, c_2,w)之后，可以将(c_1,w, c_2,w)输入至第二双向LSTM网络，以得到通信消息(c₁, c₂)所对应的隐层表示H_combine=[H₁, H₂]；之后可以将该隐层表示H_combine输入到第一卷积神经网络模型中进行特征抽取，并可以将该卷积神经网络模型的输出连接一个全连接层以进行特征整合；通过将特征整合后的输出进行第二Softmax分类器处理，可以得到通信消息(c₁, c₂)对应的Softmax函数值P_{2_n}；当计算得到的Softmax函数值P_{2_n}不小于参考阈值β时，可以确定通信消息(c₁,c₂)之间具有强语义相关性，而当得到的Softmax函数值P_{2_n}小于第二参考阈值β时，可以确定通信消息(c₁, c₂)之间具有弱语义相关性。如此，即可确定集合C’中每组通信消息之间的语义相关性。

在一种可能的实现方式中，对于任一条通信消息c_n，当通信消息c_n的上下文消息为发送通信消息c_n的用户U_n的其余通信消息与另一用户U_x的通信消息时，可以基于用户U_n和用户U_x发送的通信消息的词向量表示确定两位用户U_n和U_x的通信消息的预测信息，之后可以基于两位用户U_n和U_x的通信消息的预测信息确定两位用户U_n和U_x的通信消息的上下文语义相关性。

接下来以词向量表示集合U_1,w和U_2,w为例说明如何判断U₁和U₂两个用户的通信消息之间的语义相关性：在获取到(U_1,w, U_2,w)之后，可以将(U_1,w, U_2,w)输入至第三双向LSTM网络，以得到第二元素(U₁, U₂)所对应的隐层表示H_{combine_user}=[H_{1_user}, H_{2_user}]；之后可以将该隐层表示H_{combine_user}输入到第二卷积神经网络模型中进行特征抽取，并可以将该卷积神经网络模型的输出连接一个全连接层以进行特征整合；通过将特征整合后的输出进行第三Softmax分类器处理，可以得到第二元素(U₁, U₂)对应的Softmax函数值P_{3_n}；当计算得到的Softmax函数值P_{3_n}不小于参考阈值Ω时，可以确定U₁和U₂两个用户的通信消息之间具有强语义相关性，而当得到的Softmax函数值P_{3_n}小于参考阈值Ω时，可以确定U₁和U₂两个用户的通信消息之间具有弱语义相关性。如此，即可确定集合T’中每组用户的的通信消息之间的语义相关性和内容连续性。

在一种可能的实现方式中，当任一条通信消息c_n的上下文是(c_n, c_n+1)，以及发送通信消息c_n的用户U_n的其余通信消息与另一用户U_x的通信消息时，通信消息c_n为核心消息的概率P_final可以满足：

P_final=γ*P_{1_n}+(1-γ)*{θ*P_{2_n}+(1-θ)*P_{3_n}}；

其中，P_{1_n}表示第一分类函数值，P_{2_n}表示第二分类函数值，P_{3_n}表示第三分类函数值，γ和θ为超参数，n为大于或等于1的整数。γ和θ的取值范围可以在[0-1]之间，且在实际应用中，γ和θ的具体数值可以是一默认值，或者也可以由技术人员自主设定，或者也可以由技术人员在模型训练过程中根据模型训练结果不断调整直至模型训练结果满足预期。根据上文所述，第一分类函数值P_{1_n}可以表示通信消息c_n的重要性，第二分类函数值P_{2_n}可以表示包含通信消息c_n的相邻两条通信消息的上下文语义相关性，第三分类函数值P_{3_n}可以表示发出通信消息c_n的用户的通信消息与另一用户的通信消息的上下文语义相关性。

当P_final值不小于第一预设阈值ε时，可以确定通信消息c_n为核心消息，同时可以标记通信消息c_n的标签为1；而当P_final值小于第一预设阈值ε时，可以确定通信消息c_n为非核心消息，同时可以标记通信消息c_n的标签为0。在获得所有的核心消息之后，可以获得核心消息的集合C_final={c_{f_1}, c_{f_2}, c_{f_3}, ..., c_{f_m}}，c_{f_m}表示第m条核心消息，且集合C_final中的核心消息可以按照各核心消息在该多方通讯场景中的发送时间进行排序。

步骤S201也可以在一神经网络模型中执行或完成，即可以将多个网络工具如词向量转换模型、双向LSTM网络、卷积神经网络和Softmax分类器等搭建为一个完整的神经网络模型，原始通信消息可以作为该神经网络模型的输入，原始通信消息是否为核心消息的结果可以作为该神经网络模型的输出。各网络工具的具体作用已在上文中介绍，此处不再赘述。在实际应用中，技术人员可以对该神经网络模型定期或不定期地训练，以使该神经网络模型的输出结果更加准确。例如，技术人员可以收集和标注（标注是否为核心消息）一定数量的通信消息样本以及对应每条通信消息是否为核心消息的标注序列Label，然后可以以通信消息样本作为神经网络模型的输入，并以标注序列Label作为目标输出，从而对神经网络模型进行训练，神经网络模型的损失函数可以使用交叉熵损失（Cross Entropy Loss）。这样，可以将判断通信消息是否为核心消息的问题转化为机器学习中的一个二分类问题（0或1标签）。

S202，对每组核心消息进行标注。

在集合C_final中，各核心消息之间均存在上下文联系，即对于集合C_final中的任一条核心消息c_{f_i}，其均与{c_{f_1}, c_{f_2}, ...,c_{f_i-1},c_{f_i+1}, ...,c_{f_m}}中的每一条核心消息存在依赖关系。因此可以将集合C_final转化为C_final’，集合C_final’的子集为各组核心消息，各组核心消息包括一条核心消息或多条具有上下文关系的核心消息，从而可以根据集合C_final’中各组通信消息之间的上下文联系标注各通信消息。例如，C_final’={(c_{f_1}), (c_{f_1}, c_{f_2}), (c_{f_1},c_{f_2}, c_{f_3}), ..., (c_{f_1}, c_{f_2}, ..., c_{f_m})}。

在一种可能的实现方式中，为了提高运算效率，可以仅考虑与当前核心消息c_{f_i}相关的之前几条核心消息。例如，当存在多组核心消息时，按照核心消息的发送时序（即发送时间），第h组核心消息至第M组核心消息含有的核心消息条数可以相同，且第t+1组核心消息含有第t组核心消息中的至少一条核心消息，M为核心消息总条数，h为大于或等于1的整数且小于或等于M，t为大于或等于1的整数且小于M。另外，当h为大于1的整数时，第z组核心消息至第h组核心消息含有的核心消息条数可以递增，z为大于或等于1的整数且小于h，且第M组核心消息含有的核心消息的数量可以小于或等于6。举例来说，可以将集合C_final’简化处理为C_final’’={(c_{f_1}), (c_{f_1}, c_{f_2}), (c_{f_1}, c_{f_2}, c_{f_3}), ..., (c_{f_m-2}, c_{f_m-1}, c_{f_m})}。此时，M在数值上等于m，h的数值为3，t的数值为1~m-1中的任一整数，z的数值为1，且第M组核心消息含有的核心消息的数量为3。为了便于区分，可以称集合C_final为第五信息集合，称集合C_final’’为第六信息集合，称第六信息集合中的元素为第三元素，即第五信息集合为所有核心消息的集合，第五信息集合中的核心消息按照发送时间的先后顺序排列。

接下来将以集合C_final’’为例进行说明。对于集合C_final’’中的每组核心消息，可以序列化地标注每组核心消息的关键词，从而获得标注信息。在一种可能的实现方式中，可以先将每组核心消息中的每条核心消息进行连接后再进行标注。例如，对于一组核心消息(c_{f_1}, c_{f_2}, c_{f_3})，可以将c_{f_1}, c_{f_2}和c_{f_3}进行连接，然后对连接后的消息进行标注。在下文中若无特殊说明，则一组核心消息指的是将该组核心消息包括的每条核心消息连接后得到的通信消息。

核心消息中的关键词可以包括时间类（Time）、数字类（Number）、人名类（Person）、地点类（Location）、组织机构类（Organization）和事件类（Event）等。例如，时间类关键词可以包括年月日、星期数、时间段、时间点、周期等；数字类关键词可以包括事物个数、参与人数、金额、事物大小、面积等；人名类关键词可以包括姓名、职务等；地点类关键词可以包括地址、地名、地理范围等；组织机构类关键词可以包括政府机构、教育机构、公司等名称；事件类关键词可以包括会话主题、代办事务、通知、说明等。因此，可以将标注得到的标注信息分为事件标注实体和事件描述实体，即标注信息包括事件标注实体和事件描述实体。例如，事件标注实体为事件类关键词，事件描述实体为时间类关键词、数字类关键词、人名类关键词、地点类关键词和组织机构类关键词等，即在实际应用中，事件描述实体可以包括时间类对象实体、数字类对象实体、人名类对象实体、地点类对象实体、机构类对象实体中的至少一种。

在一种可能的实现方式中，序列化地标注每组核心消息的关键词可以是先根据第一类型标注方法对每组核心消息的关键词进行标注，获得基础标注信息，然后可以基于每组核心消息和相应的基础标注信息，根据第二类型标注方法对每组核心消息的关键词进行标注，获得标注信息。

在一种可能的实现方式中，在根据第一类型标注方法对每组核心消息的关键词进行标注，以获得基础标注信息时，可以是基于每组核心消息的词向量表示，对每组核心消息采用第一类型标注方法对每组核心消息的关键词进行标注。

举例来说，在采用第一类型标注方法对每组核心消息的关键词进行标注时，可以使用自然语言处理工具HanLP中的命名实体识别功能，依次标记集合C_final’’中每组核心消息的命名实体（人名、地名、组织机构名等），并可以将命名实体标记转化为基于字的BIO模式标记，以方便后续进行种类更加多样的关键词识别和标记。此时，第一类型标注方法为基于BIO模式的标记方法，获得的BIO模式的标注信息为基础标注信息。在BIO标注模式中，可以将文本形式的核心消息中每个元素依次标注上“B-X”、“I-X”或者“O”的标签。其中，“B-X”表示相应元素所在的信息片段属于X类别，并且此元素在此信息片段的开头；“I-X”表示相应元素所在的信息片段属于X类别，并且此元素在此信息片段的中间位置；“O”表示此元素不属于任何类别。

在一种可能的实现方式中，在基于每组核心消息和相应的基础标注信息，根据第二类型标注方法对每组核心消息的关键词进行标注，以获得标注信息时，可以是将已获得的基础标注信息转化为命名实体向量表示后，根据第二类型标注方法对每组核心消息对应的拼接向量的关键词进行标注。其中，每组核心消息对应的拼接向量包括相应组通信消息的词向量表示和命名实体向量表示。

举例来说，由于在步骤S201中已经获取过集合C中每条通信消息的词向量表示，因此在获取集合C_final’’中每组核心消息的词向量表示时，可以根据已获取的集合C中每条通信消息的词向量表示的历史记录获取集合C_final’’中每组核心消息的词向量表示E_bert。或者，也可以将集合C_final’’中每组核心消息分别输入至上文所述的词向量转化模型以获取每组核心消息的词向量表示E_bert。在获取到基础标注信息后，可以将基础标注信息转化为命名实体向量表示，即可以将通过第一类型标注方法标注得到的、对应每组核心消息的命名实体标记结果随机初始化为预设维数（例如，可以是16维）的向量表示E_ner。在随机初始化的过程中，可以将每一个实体类别名称转化为数值表示，且数值维度可以为16维，每一维可以随机初始化为[0-1]之间的数。例如，向量表示E_ner,B/I/O-X=[e_{ner,B/I/O-X,1,} e_{ner,B/I/O-X,2},...,e_{ner,B/I/O-X,16}]，其中e_{ner,B/I/O-X,o}∈[0-1]。例如：人名类别名称，按照BIO模式标记后，有B-person、I-person、O-person，可以将这三个标记依次随机初始化为16维的向量E_ner,B-person，E_ner,I-person，E_ner,O-person。在将集合C_final’’中每组核心消息对应的词向量表示E_bert以及命名实体向量表示E_ner拼接后，可以得到完整表示该组核心消息的拼接向量E_s=[E_bert, E_ner]，之后可以根据第二类型标注方法对每组核心消息对应的拼接向量E_s的关键词进行标注。

在一种可能的实现方式中，在根据第二类型标注方法对每组核心消息对应的拼接向量E_s的关键词进行标注时，可以将得到的各组核心消息对应的拼接向量E_s分别或打包输入到第四双向LSTM网络中得到输出结果H_s。然后，可以将每组核心消息对应的输出结果H_s输入到条件随机场（Conditional Random Field，CRF）中进行关键词的标注，以获得标注信息。此时，第二类型标注方法为基于条件随机场CRF的标记方法。

在本公开实施例中，考虑到自然语言处理工具HanLP中的命名实体识别功能仅能识别常见的人名、地名、机构名等实体信息，而不能识别不同领域和业务的特殊实体信息，也不能充分识别出通信消息中的事件类（Event）信息，因此，可以将HanLP标记的命名实体类别作为特征，经过神经网络模型的学习和训练，来标注得到更充分的核心信息。使用CRF层可以将LSTM网络学习的信息进行全局计算，以得到优化后的标注结果。另外，通过序列化地标注每组核心消息的关键词，可以将关键词的抽取任务转换为序列标注问题。

在获得每组核心通信消息的标注信息后，还可以基于获取到的事件标注实体和事件描述实体，获得每组核心消息的事件描述结果。例如，在标注得到集合C_final’’中每组核心消息的关键词之后，可以建立事件标注实体和相应的事件描述实体的关联关系，即可以将事件类关键词与其对应的时间、人名、地名、数字、组织机构等关键词进行关联。在一种可能的实现方式中，可以基于槽值填充或其他类似的技术手段识别与某一事件类关键词对应的其余类关键词，并将该事件类关键词和与其对应的其余类关键词关联。例如，针对某一事件类关键词，可以在所有的关键词中查找该事件所需的时间、地点、任务等关键词，并将这些关键词与该事件类关键词关联。在实际应用场景中，同场次多方通讯中可能有多个事件或事件主题，因此可以将多个事件或事件主题对应的事件类关键词与其对应的其余关键词分别关联。

在获得每组核心消息的事件描述结果，即建立事件标注实体和相应的事件描述实体的关联关系之后，为了便于查询和对比，可以对关键词（即标注信息）进行格式化处理。例如，可以通过已有的词表进行词汇标准化/格式化转换，或者也可以基于正则表达式规则对关键词进行转化。例如，可以将时间类关键词转化为标准的年月日时分秒格式表示的时间；可以将数字类关键词转化为阿拉伯数字表示；可以将人名类关键词中描述同一人的信息进行合并，选取唯一标记该人姓名（以及职位）的称谓标识该人名；可以将地点类关键词中描述同一地点或者范围的信息进行合并；可以将组织机构类关键词进行合并，且可以对涉及全简称的机构名选取全称进行标识；可以将事件类关键词中描述同一事件的信息进行汇总，去除重复描述，从而补充完善描述同一事件的关键词。

在格式化处理获取到的关键词后，还可以对事件描述类关键词进行去重处理，即对于表达重复或者内容相似的事件描述类关键词，可以仅保留一条，且若同一关键词在之后的通信消息中有更改，可以仅保留最后一条通信消息中的关键词。例如，可以将对应同一事件的相同数字信息进行去重，且若描述某一事件的数字信息在发送时间较后的通信消息中被修改，则可以取后者作为该事件对应的数字类信息；若发送时间较后的通信消息中将描述同一地点的信息扩展为一个地理范围，则可以取后者作为对应某一事件的地点信息，若对应描述同一事件的地点信息在发送时间较后的通信消息中被修改为另一地点或者范围，则可以取后者作为对应该事件的地点信息；若描述某一事件的机构名称在发送时间较后的通信消息中被修改，则可以取后者作为对应该事件的机构名称。

步骤S202可以在一神经网络模型中完成或执行，即原始核心消息可以作为该神经网络模型的输入，原始核心消息中的关键词可以作为该神经网络模型的输出。该神经网络模型可以采用标准的双向LSTM+CRF框架，模型训练时可以使用标准的CRF损失函数。在实际应用中，技术人员可以对该神经网络模型定期或不定期地训练，以使该神经网络模型的输出结果更加准确。例如，技术人员可以先标注一定数量的数据集，数据集包括一系列通信消息，以及对应其中每一条通信消息的标注信息；然后可以数据集包括的通信消息作为神经网络模型的输入，并以相应通信消息的标注信息作为目标输出，从而对神经网络模型进行训练。这样，标记通信消息中的关键词的问题可以转化为机器学习中的一个序列标注问题。

本公开提供的信息抽取方法，对于同场次多方用户的通信消息，通过基于通信消息的重要性和上下文语义相关性筛选多方用户通信消息中的核心消息，然后对每组核心消息进行标注，可以避免多方用户通信消息中的无关通信消息对标注过程的影响，可以提高标注的精度和效率。基于此，也可以根据获取到的标注信息高效地对多方用户的通信消息进行分类。

如图3所示，本公开实施例还提供了一种通信消息分类方法，该方法的执行主体为电子计算机设备或电子计算机设备中的处理器。该分类方法用于处理同场次多方用户的通信消息，该分类方法包括S301-S304。

S301，合并每组核心消息的标注信息。

S302，对每组核心消息的未标注信息进行分词处理

在本实施例中，每组核心消息包括一条核心消息或多条具有上下文关系的核心消息，核心消息为基于通信消息的重要性和上下文语义相关性从多方用户的通信消息中筛选的通信消息，标注信息包括事件标注实体和事件描述实体。核心消息和标注信息的获取方式已在上述实施例中介绍，此处不再赘述。

对于集合C_final’’中的每组核心消息，可以将该组核心消息的各类标记对应的字合并为词语。例如，可以将B/I/O-X对应的字组合形成X类对应的词语。然后，可以将该组核心消息剩余的文本片段进行分词处理，即将该组核心消息的未标注信息进行分词处理。例如，可以使用中文分词器jieba进行分词处理，最终得到经过分词处理后的通信消息集合C_{final_seg}’’={c_{f_seg_1}, c_{f_seg_2}, ..., c_{f_seg_m}}， c_{f_seg_m}表示分词后的第m组核心消息。集合C_{final_seg}’’可以称为第七信息集合，即第七信息集合为经过分词后的每组核心消息的集合，第七信息集合中的各组核心消息按照发送时间的先后顺序排列。

S303，根据每组核心消息的事件描述结果，将分词处理后的描述同一事件的各组核心消息按照发送时序拼接成篇章。

在抽取核心消息中的关键词之后，可以得到同场次多方用户的通信消息中出现的所有事件的描述集合Event={（E₁，以及对应的时间、数字、人名、地名、组织结构名等）,...,(E_y，以及对应的时间、数字、人名、地名、组织结构名等)}，E_y表示该场次多方用户的通信消息中的第y个事件内容或事件主题。事件描述结果的获取方式已在上文中介绍，此处不再赘述。

在一种可能的实现方式中，基于事件描述结果，或者说基于每组核心消息描述的事件，可以将描述某一事件E的、分词后的各组核心消息按照发送时序组成集合C_{event_E}={c_{f_seg_(1)}, c_{f_seg_(2)}, ..., c_{f_seg_(q)}}。其中，c_{f_seg_(q)}表示第q组描述事件E的通信消息。当两组核心消息均包含有同一事件标注实体（同一事件类关键词）时，可以确定两组核心消息描述了同一事件。因此，可以基于集合C_{final_seg}’’中每组核心消息描述的事件，将集合C_{final_seg}’’中描述同一事件E的所有核心消息按照发送时间的先后拼接成描述该事件E的篇章paragraph_e。通过对描述其他事件的核心消息做相同处理，可以得到该场次多方用户的通信消息中所有事件的篇章Event_e={paragraph₁, paragraph₂, ..., paragraph_e}。其中，paragraph_e表示第e个事件对应的篇章。在实际应用中，一条通信消息可能描述了多个事件，因此一条通信消息可以存在于多个篇章中。

S304，基于事件子类的关键词，根据各篇章中包括的事件子类的关键词，确定各篇章对应的事件子类。

对于某一事件，该事件可以包括多个事件子类。例如，对于开例会这一事件，可以包括总结会议、通知会议等多个事件子类。例如，事件类关键信息可以包括会话主题、代办事务、通知、说明等子类。事件子类的关键词词表指各事件子类中可能出现的关键词的词表，或者说是常用关键词的词表。基于事件子类的关键词词表，通过确定各篇章包括的事件子类的关键词词表中的关键词，从而可以确定各篇章对应的事件子类，也即确定各篇章包括的核心消息对应的事件子类。

各事件子类对应的已知常用关键词可以通过对通讯场景和通讯历史、部分已经人工标注过的事件子类类别的通信消息进行归纳。例如，会话主题类事件的常用关键词可以包括：主题、主要内容、关键、核心，总结、主旨、意见等；代办事务类事件的常用关键词可以包括：提案、提议、未来、计划等；通知类事件的常用关键词可以包括：档案、文件、公文、规章、规范、规定、要求、报告、通报、决定等；说明类事件的常用关键词可以包括：说明、解释、声明、申明、阐述、分析等。由于通讯历史记录以及人工标注通信消息的数量有限，所以基于此获得的事件子类的关键词往往是不全面的。在一种可能的方式中，可以基于模型训练的方法根据部分已知关键词的样本通信消息对事件子类的关键词词表进行扩充。

举例来说，对于任一事件子类，可以取若干条包含与该任一事件子类相应的已知关键词的通信消息作为样本通信消息，然后可以将样本通信消息中包含已知关键词的位置遮蔽后，基于样本通信消息的上下文语义相关性获取样本通信消息中遮蔽位置的可能替换词汇，根据获取到的可能替换词汇获取该任一事件子类对应的关键词词表。例如：对于任一事件子类，可以取若干条具有上下文语义相关性的通信消息作为样本通信消息，且该若干条样本通信消息中的每条或部分包括与该任一事件子类相应的已知关键词；为了能够更方便地基于样本通信消息的上下文语义相关性获取样本通信消息中遮蔽位置的可能替换词汇，可以将该若干条通信消息进行拼接后，获得拼接后的样本通信消息；然后，对于该任一事件子类的任一已知关键词，可以将拼接后的样本通信消息中与该任一已知关键词相应的位置进行遮蔽，即可以使用无语义的空白字符将拼接后的样本通信消息中与该任一已知关键词对应的各个单字进行替代；然后，可以将拼接后的样本通信消息输入到上文所述的词向量转换模型中，通过该模型预测遮蔽住的位置对应的输出；之后，可以将词向量转换模型的输出输入到第三卷积神经网络模型中进行特征抽取，并可以将该卷积神经网络模型的输出连接一个全连接层以进行特征整合；通过将特征整合后的输出进行第四Softmax分类器处理，可以输出基于未遮蔽的上下文预测得到的被遮蔽的关键词片段的预测概率。在一种可能的实现方式中，可以取获得的所有字符中预测概率排在前预设数值（例如，前20）的字符，依次进行组合，若遮蔽位置对应的字片段能够组合成为一个正确的中文词汇，则可以将该中文词汇作为遮蔽位置的可能替换词汇，也即该任一事件子类的任一已知关键词对应的可能替换词汇。对于该任一事件子类的其他已知关键词，可以依次进行类似处理，从而得到其他已知关键词对应的可能替换词汇。在对该任一事件子类的所有已知关键词进行相同处理后，可以得到描述该任一事件子类的所有可能替换词汇。在对所有的可能替换词汇筛选后（去重等处理后），可以基于剩余可能替换词汇的预测概率，选取排在前第一预设数值（例如，前30）的可能替换词汇作为该任一事件子类的关键词（词表）。其中，各可能替换词汇的预测概率可以是组成该可能替换词汇的两个或多个字符的预测概率的平均值。

BERT-wwm-ext词向量转换模型是一个基于字的神经网络预训练模型，其输入的句子是按照单字转换成字向量输入，输出也是基于单字的字符的，因此可以将单字连接起来组合成一个字片段，再判断这个字片段是否是中文词汇。系统中可以存储有常用中文词汇词典，该词典可由网络中公开的中文词汇词表组成，也可以是用户自行添加的与领域和行业有关的词汇。因此，可以在中文词汇词典中搜索遮蔽位置对应的字片段，以判断遮蔽位置对应的字片段是否能够组合成为一个正确的中文词汇。

在一种可能的实现方式中，在获得描述任一事件子类的所有可能替换词汇后，为了精简该事件子类的关键词词表，可以对该事件子类的所有可能替换词汇进行筛选。例如，可以去除重复的词汇；去除中文常用停用词（例如：“的”、“我们”、“还有”、“如果”等）；去除同时出现在两个及以上事件子类的可能替换词汇中的词汇。最终，可以得到精简后的各个事件子类对应的关键词词表，且每个词表可以最多包含预测概率前第一预设数值个词汇。

再举例来说，对于任一事件子类，首先可以人工总结，获得a个该事件子类对应的关键词（已知关键词）；对于任一已知关键词，使用人工标记的属于这一事件子类的通信消息（由多条具有上下文语义相关性的通信消息拼接而成），将通信消息中包含该任一已知关键词的位置进行遮蔽，经过神经网络模型学习和训练，输出这些遮蔽位置可能出现的词汇，并可以取预测概率在前20的词汇作为对该任一已知关键词预测得到的关键词。在将人工标记的属于这一事件子类的a个已知关键词全部学习一遍之后，可以将获得的所有的可能替换词汇（a*20个）进行筛选，例如进行合并、去重、去除停用词等操作后，最终可以取预测概率最高的前30个词汇作为该事件子类的关键词（词表）。

在本例中，基于部分已经人工标注过的事件子类类别的通信消息，以及能够用于区分各个事件子类的已知常用关键词，通过不断迭代的方式，可以扩充事件子类的关键词。即，利用少量的人工，总结出一部分关键词，然后不断通过神经网络模型学习，预测和扩展更丰富的关键词，同时能够学习和适应不同的领域和行业关键词。

在一种可能的实现方式中，对于任一事件篇章paragraph_e，若paragraph_e所包括的核心消息的分词中存在事件子类class_j的关键词（词表）中的词汇，则可以将该词汇对应的字符遮蔽后，即可以将paragraph_e包括的核心消息的分词中与该词汇对应的字符用空白字符替代后，然后获取paragraph_e包括的核心消息遮蔽位置的可能替换词汇，并根据获得的可能替换词汇确定paragraph_e的分类标签。举例来说，对于paragraph_e包括的事件子类class_j的任一关键词，可以将paragraph_e包括的核心消息中与该任一关键词相应的位置进行遮蔽，即可以使用无语义的空白字符将paragraph_e包括的核心消息中与该任一关键词对应的各个单字进行替代；然后，可以将paragraph_e所包括的核心消息输入到上文所述的词向量转换模型中，通过该模型预测遮蔽住的位置对应的输出；之后，可以将词向量转换模型的输出输入到第四卷积神经网络模型中进行特征抽取，并可以将该卷积神经网络模型的输出连接一个全连接层以进行特征整合；通过将特征整合后的输出进行第五Softmax分类器处理，可以得到基于未遮蔽的上下文预测得到的空白字符所在位置的预测概率。取预测概率前预设数值（例如，前20）的字符，若字符连接能够组合成一个正确的中文词汇，则可以将该中文词汇作为空白字符所在位置的可能替换词汇，也即事件子类class_j的任一关键词对应的可能替换词汇。对于paragraph_e包括的事件子类class_j的其他关键词，可以依次进行类似处理，从而得到paragraph_e包括的事件子类class_j的其他关键词对应的可能替换词汇。在对paragraph_e所包括的事件子类class_j的所有关键词进行相同处理后，可以得到描述事件子类class_j的所有可能替换词汇。在对所有的可能替换词汇筛选后（去重等处理后），可以基于剩余可能替换词汇的预测概率，选取排在前第二预设数值（例如，前30）的可能替换词汇作为该事件子类class_j的预测词汇集合V_{e_j}。若paragraph_e包括的核心消息的分词中存在多个事件子类的关键词中的词汇，则对于每一个事件子类，在对paragraph_e所包括的核心消息进行相同处理后，可以得到针对该事件子类的预测词汇集合。

在完成事件篇章paragraph_e所包括的核心消息的分词中存在的、涉及各个事件子类的关键词的预测后，可以得到事件篇章paragraph_e涉及的各事件子类的所有预测词汇集合V_e={V_{e_1}, V_{e_2}, ..., V_{e_j}}，其中j表示该事件篇章paragraph_e涉及的事件子类的数目，V_{e_j}表示第j个事件子类对应的预测词汇集合。依次判断事件篇章paragraph_e涉及的事件子类的预测词汇集合，若集合V_{e_j}中的词汇包括对应事件子类class_j关键词词表中不少于第一预设数量（例如，不少于三分之一）的词汇，则可以将事件子类class_j作为paragraph_e的分类标签，从而得到paragraph_e可能归类的类别class_j。

对于一个事件篇章paragraph_e，若存在多于两个的分类标签，则可以根据各分类标签对应的预测词汇包括该分类标签对应的事件子类关键词的词汇数量，选择包括的词汇数量最多的前第二预设数量的事件子类作为事件篇章paragraph_e的类别。例如，可以将预测词汇集合包括事件子类关键词词表的词汇数量从多到少排序，选择包括词汇数量最多的前第二预设数量（例如，前两个）事件子类作为该事件篇章的类别。在确定事件篇章的类别之后，也即确定了该事件篇章中所包括的核心消息的类别。之后，可以根据各事件篇章的类别对各事件篇章，或者对各事件篇章所包括的核心消息进行分类存储，且在日后应用中可以根据该分类对同类通信消息进行分发。

在该步骤中，可以使用与前述步骤类似的神经网络模型，将第e个事件对应的篇章paragraph_e中属于已知事件子类的关键词遮蔽，通过通信消息中除关键词外的上下文信息，来预测被遮蔽的关键词位置可能出现的词汇，如果预测出来的词汇能够覆盖该事件子类关键词（词表）中的不少于第一预设数量的词汇，则可以该事件子类作为该篇章paragraph_e的分类标签。

在一种可能的实现方式中，在确定各事件篇章对应的类别之后，还可以根据已有的事件篇章和类别的对应关系，对分类模型进行训练。举例来说，可以将事件篇章中存在的与类别class_j的关键词对应的字符全部用空白字符替代，将整个篇章paragraph_e输入到上文所述的词向量转换模型中，转化为词向量表示。将篇章paragraph_e对应的词向量表示进行全连接处理和Softmax分类器处理后，计算空白字符所在位置的预测概率，之后以类别class_j作为目标类别，使用交叉熵作为整个分类模型的损失函数，进行分类模型的训练。

在处理需分类的其他场次的多方通讯会话和多方通信消息时，可以按照上文所述的归类过程选出对应类别关键词的词汇，并将其对应的字符全部用空白字符遮蔽，使用训练好的分类模型进行通信消息分类。例如，可以先获得一定数量的人工标记数据，再基于上述方法为各个事件子类预测更多的关键词，人工标记数据包括对应不同事件子类的事件篇章以及不同事件子类的关键词；然后，可以判断当前场次中每一个事件篇章的类别，并预测事件篇章中遮蔽位置的词汇，然后与已知的各个事件子类的关键词词表进行比较，判断当前场次中的事件应该归入哪一类事件子类中。

在本公开实施例提供的通信消息分类方法，通过合并每组核心消息的标注信息，将每组核心消息的未标注信息进行分词处理，根据每组核心消息的事件描述结果获取描述同一事件的篇章，基于事件子类的关键词词表以及各篇章中包括的事件子类的关键词确定各篇章对应的事件子类，从而可以高效、精确地确定各篇章包括的核心消息的分类，从而可以基于核心消息的分类，将核心消息分类存储，以便后续对分类的核心消息的利用。此外，基于半监督的分类方法，能够充分利用未标注通信消息的上下文信息将这些未标注的通信消息进行分类，可以减少对人工标注数据集的依赖，适用于通信消息涉及知识领域广泛、标注数据集缺乏和标注困难的多方通信消息的信息抽取和分类场景。

在本公开任一实施例中，可以根据人工标注好的训练数据集，使用Adam优化算法对模型的各权重和参数进行学习，算法学习率可以为0.1。在对模型训练时，可以设置模型训练的时间或者批量训练的迭代次数，例如批训练大小可以为64，当模型在训练数据集上达到较好效果，且模型效果趋于稳定时，可以停止训练。

本公开任一实施例中涉及到的参考阈值和预设数值等预设值的具体数值均可以为一默认值，且也可以由技术人员在本实施例提供的方法执行之前设置，或者也可以由技术人员在本实施例提供的方法执行中根据实际情况调整。

下面再以一示例对本公开实施例提供的信息抽取方法和通信消息分类方法进行说明。

图4示例性示出了同场次的多方通讯场景。在该场次多方通讯中，全部用户的通信消息集合C={c₁, c₂, c₃, c₄, c₅, c₆, ...}，按照用户划分的通信消息集合为T={U₁, U₂,U₃, U₄, ..., U_x}，且U₁ ={c₁, c₈, ...}, U₂={c₂, c₄,...}, U₃={c₃, c₅, c₇, c₉, ...},U₄={c₆, ...}, …U_x。

基于上述实施例中介绍的方式，可以获取到该场次多方通讯中的核心消息c₁, c₃,c₄, c₆, c₇和c₈，则C_final={c₁, c₃, c₄, c₆, c₇, c₈}。可以用标签0表示非核心消息，标签1表示核心消息，则标记序列可以为Label={1,0,1,1,0,1, 1, 1, 0}，每一个标记依次对应着集合C中的一条通信消息。

基于上述实施例公开的信息抽取方法，可以获取核心消息中的关键词。以c₃={会议室在3楼301吧}为例，c₃总共11个单字，通过标记c₃中的关键词可以得到如下标记序列Label_keyinfo={B-place, I-place, I-place, 0, B-floor, I-floor, B-roomno, I-roomno, I-roomno, 0}。其中，标记{B-place, I-place, I-place}对应“地点”关键词“会议室”，“0”表示非关键词，{B-floor, I-floor}对应“楼层”关键词“3楼”，{B-roomno, I-roomno, I-roomno}对应“房间号”关键词“301”。

该场会话中包含的关键词可以有：事件信息、时间、地点、参与人数、参与人员。因此，集合C_final中核心消息中的关键词可以如表1所示。通过将事件类关键词与其对应的时间、人名、地名等信息进行关联可以得到表2所示的关联信息。通过格式化处理获取到的关键词后可以得到表3所示的格式化后的关键词。

表1 集合C_final中核心消息的关键词

表2 关联后的关键词

表3 格式化后的关键词

假设有两个事件子类：会议、计划，其中“会议”事件子类的关键词（词表）包含：开会、例会、组会、会议、主题、主要内容、总结、会议室、视频会议等至多30个关键词；“计划”事件子类的关键词（词表）包含：规划、安排、预计、进度、未来、建议、PPT、方案、报告等至多30个关键词。

事件1为关于XXX项目进度的讨论，其对应的篇章包含有通信消息{c₁, c₃, c₄,c₆}，将c₁分词可以得到：@全体成员/XXX项目/现在/沟通/得/怎么样/了/今天/下午/两点/，/大家/请/准时/到/会议室/开/例会/，/讨论/XXX方案/的/进度。其中包含“会议”事件子类的关键词：会议室、例会等；包含“计划”事件子类的关键词：进度、方案等。分别处理所有的事件类别（会议、计划），将篇章中包含的关键词依次遮蔽，通过神经网络模型预测，可以得到这几个关键词的位置可以出现的预测词汇。同理，对剩余的c₃, c₄和c₆执行同样的操作。

最后，如果依次遮蔽了该事件篇章中包含的“会议”事件子类的关键词，并最终得到的全部预测词汇集合覆盖了“会议”事件子类至多30个关键词的词表中不少于三分之一的词汇，则可以将该事件1归入“会议”事件子类。同样，如果将篇章中包含的“计划”事件子类的关键词遮蔽，而神经网络模型预测得到的词汇集合能够覆盖“计划”事件子类全部关键词词表不少于三分之一的词汇，则事件1也属于“计划”事件子类。

本公开实施例还提供了一种信息抽取装置，用于处理同场次多方用户的通信消息，该装置包括：

本公开实施例还提供了一种通信消息分类装置，用于处理同场次多方用户的通信消息，该装置包括：

排列单元，用于根据每组核心消息的事件描述结果，将分词处理后的描述同一事件的各组所述核心消息按照发送时序排列成篇章；

需要说明的是，上述实施例中提供的信息抽取装置和通信消息分类装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构或程序划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的信息抽取装置和通信消息分类装置分别与相应的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序指令，当所述计算机程序指令由用户设备的处理器执行时，使得用户设备执行上述任一实施例公开的方法。

本公开任一实施例提供的计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本公开实施例还提供了一种电子设备，包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行上述任一实施例公开的方法。

本公开任一实施例提供的电子设备可以是手机、电脑、平板电脑、服务器、网络设备等，或者也可以是U盘、移动硬盘、只读存储器(ROM，Read OnlyMemory)、磁碟或者光盘等。

举例来说，该电子设备可以包括：处理器、存储器、输入/输出接口、通信接口和总线。其中处理器、存储器、输入/输出接口和通信接口通过总线实现彼此之间在设备内部的通信连接。

处理器可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器可以采用ROM（Read Only Memory，只读存储器）、RAM（RandomAccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器中，并由处理器来调用执行。

输入/输出接口用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口用于连接通信模块，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线包括一通路，在设备的各个组件（例如处理器、存储器、输入/输出接口和通信接口）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器、存储器、输入/输出接口、通信接口以及总线，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含全部所述组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、方法、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的方法实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种信息抽取方法，其特征在于，用于处理同场次多方用户的通信消息，所述方法包括：

基于每条所述通信消息的词向量表示获取相应条所述通信消息的预测信息；

基于每条所述通信消息的预测信息确定相应条所述通信消息的重要性；

基于每条所述通信消息的上下文确定相应条所述通信消息的上下文语义相关性；

基于每条所述通信消息的重要性及所述上下文语义相关性，从所述多方用户的通信消息中筛选出至少一条核心消息；

对每组所述核心消息进行标注，每组所述核心消息包括一条所述核心消息或多条具有上下文关系的核心消息；

其中，每条所述通信消息的上下文包括：按照所述通信消息的发送时序，每条所述通信消息与相邻一条通信消息；和/或，发送相应条所述通信消息的用户的其余通信消息与另一用户的通信消息；

当每条所述通信消息的上下文包括按照所述通信消息的发送时序，每条所述通信消息与相邻一条通信消息时，所述基于每条所述通信消息的上下文确定相应条所述通信消息的上下文语义相关性，包括：基于所述通信消息以及所述相邻一条通信消息的词向量表示，确定相邻两条通信消息的预测信息；基于所述相邻两条通信消息的预测信息确定相邻两条通信消息的上下文语义相关性；

当每条所述通信消息的上下文包括发送相应条所述通信消息的用户的其余通信消息与另一用户的通信消息时，所述基于每条所述通信消息的上下文确定相应条所述通信消息的上下文语义相关性，包括：基于发送相应条所述通信消息的用户的通信消息以及所述另一用户的通信消息的词向量表示确定两位用户的通信消息的预测信息；基于所述两位用户的通信消息的预测信息确定两位用户的通信消息的上下文语义相关性。

2.根据权利要求1所述的信息抽取方法，其特征在于，当每条所述通信消息的上下文包括按照所述通信消息的发送时序，每条所述通信消息与相邻一条通信消息，以及发送相应条所述通信消息的用户的其余通信消息与另一用户的通信消息时，第n条所述通信消息为核心消息的概率P_final满足：

P_final=γ*P_{1_n}+(1-γ)*{θ*P_{2_n}+(1-θ)*P_{3_n}}；

其中，P_{1_n}为第一分类函数值，用于表示第n条所述通信消息的重要性，P_{2_n}为第二分类函数值，用于表示包含第n条所述通信消息的相邻两条通信消息的上下文语义相关性，P_{3_n}为第三分类函数值，用于表示发出第n条所述通信消息的用户的通信消息与另一用户的通信消息的上下文语义相关性，γ和θ为超参数，n为大于或等于1的整数。

3.根据权利要求2所述的信息抽取方法，其特征在于，

当P_final不小于第一预设阈值时，第n条所述通信消息为核心消息；当P_final小于所述第一预设阈值时，第n条所述通信消息为非核心消息。

4.根据权利要求1-3任一所述的信息抽取方法，其特征在于，所述对每组所述核心消息进行标注，包括：

序列化地标注每组所述核心消息的关键词，获得标注信息，所述标注信息包括事件标注实体和事件描述实体；

基于所述事件标注实体和事件描述实体，获得每组所述核心消息的事件描述结果。

5.根据权利要求4所述的信息抽取方法，其特征在于，当存在多组所述核心消息时，按照所述核心消息的发送时序，第h组所述核心消息至第M组所述核心消息含有的核心消息条数相同；

第t+1组所述核心消息含有第t组所述核心消息中的至少一条核心消息，M为所述核心消息总条数，h为大于或等于1的整数且小于或等于M，t为大于或等于1的整数且小于M；

当h为大于1的整数时，第z组所述核心消息至第h组所述核心消息含有的核心消息条数递增，z为大于或等于1的整数且小于h。

6.根据权利要求5所述的信息抽取方法，其特征在于，第M组所述核心消息含有的核心消息的数量小于或等于6。

7.根据权利要求4所述的信息抽取方法，其特征在于，所述序列化地标注每组所述核心消息的关键词，包括：

根据第一类型标注方法对每组所述核心消息的关键词进行标注，获得基础标注信息；

基于每组所述核心消息和相应的所述基础标注信息，根据第二类型标注方法对每组所述核心消息的关键词进行标注，获得所述标注信息。

8.根据权利要求7所述的信息抽取方法，其特征在于，所述第一类型标注方法为基于BIO模式的标记方法，所述第二类型标注方法为基于条件随机场的标记方法；

所述基于每组所述核心消息和相应的所述基础标注信息，根据第二类型标注方法对每组所述核心消息的关键词进行标注，包括：

将所述基础标注信息转化为命名实体向量表示；

获取每组所述核心消息的拼接向量，所述拼接向量包括相应组所述通信消息的词向量表示和命名实体向量表示；

根据第二类型标注方法对每组所述核心消息对应的拼接向量的关键词进行标注。

9.根据权利要求4所述的信息抽取方法，其特征在于，所述事件描述实体包括时间类对象实体、数字类对象实体、人名类对象实体、地点类对象实体、机构类对象实体中的至少一种。

10.根据权利要求4所述的信息抽取方法，其特征在于，所述基于所述事件标注实体和事件描述实体获得每组所述核心消息的事件描述结果，包括：

建立所述事件标注实体和相应的所述事件描述实体的关联关系。

11.一种通信消息分类方法，其特征在于，用于处理利用权利要求1-10任一所述的信息抽取方法筛选出的核心消息，所述方法包括：

合并每组所述核心消息的标注信息，所述标注信息包括事件标注实体和事件描述实体；

对每组所述核心消息的未标注信息进行分词处理；

12.根据权利要求11所述的通信消息分类方法，其特征在于，所述方法还包括：

对于任一事件子类，取若干条包含与所述任一事件子类相应的已知关键词的通信消息作为样本通信消息；

将所述样本通信消息中包含所述已知关键词的位置遮蔽后，基于所述样本通信消息的上下文语义相关性获取所述样本通信消息中遮蔽位置的可能替换词汇；

根据所述可能替换词汇获取所述任一事件子类对应的关键词。

13.根据权利要求12所述的通信消息分类方法，其特征在于，所述根据所述可能替换词汇获取所述任一事件子类对应的关键词，包括：

将获得的所有所述可能替换词汇中预测概率排在前第一预设数值的词汇作为所述任一事件子类对应的关键词。

14.根据权利要求11所述的通信消息分类方法，其特征在于，所述基于事件子类的关键词，根据各所述篇章中包括的事件子类的关键词，确定各所述篇章对应的事件子类，包括：

若所述篇章包括的核心消息的分词中存在一事件子类的关键词中的词汇，将所述篇章包括的核心消息的分词中与所述词汇对应的字符遮蔽后，获取所述篇章包括的核心消息遮蔽位置的可能替换词汇；

根据所述可能替换词汇确定所述篇章的分类标签。

15.根据权利要求14所述的通信消息分类方法，其特征在于，所述根据所述可能替换词汇确定所述篇章的分类标签，包括：

将获得的所有所述可能替换词汇中预测概率排在前第二预设数值的词汇作为所述一事件子类的预测词汇；

若所述预测词汇包括所述一事件子类的关键词中不少于第一预设数量的词汇，将所述一事件子类作为所述篇章的分类标签。

16.根据权利要求15所述的通信消息分类方法，其特征在于，所述方法还包括：

若所述篇章对应多个分类标签，根据各所述分类标签对应的预测词汇包括所述分类标签对应的事件子类关键词的词汇数量，选择包括的词汇数量最多的前第二预设数量的事件子类作为所述篇章的类别。

17.一种信息抽取装置，其特征在于，用于处理同场次多方用户的通信消息，包括：

筛选单元，用于基于每条所述通信消息的词向量表示获取相应条所述通信消息的预测信息，基于每条所述通信消息的预测信息确定相应条所述通信消息的重要性，基于每条所述通信消息的上下文确定相应条所述通信消息的上下文语义相关性，基于每条所述通信消息的重要性及所述上下文语义相关性，从所述多方用户的通信消息中筛选出至少一条核心消息；

标注单元，用于对每组所述核心消息进行标注，每组所述核心消息包括一条所述核心消息或多条具有上下文关系的核心消息；

当每条所述通信消息的上下文包括按照所述通信消息的发送时序，每条所述通信消息与相邻一条通信消息时，所述筛选单元还用于：基于所述通信消息以及所述相邻一条通信消息的词向量表示，确定相邻两条通信消息的预测信息；基于所述相邻两条通信消息的预测信息确定相邻两条通信消息的上下文语义相关性；

当每条所述通信消息的上下文包括发送相应条所述通信消息的用户的其余通信消息与另一用户的通信消息时，所述筛选单元还用于：基于发送相应条所述通信消息的用户的通信消息以及所述另一用户的通信消息的词向量表示确定两位用户的通信消息的预测信息；基于所述两位用户的通信消息的预测信息确定两位用户的通信消息的上下文语义相关性。

18.一种通信消息分类装置，其特征在于，用于处理利用权利要求17所述的信息抽取装置筛选出的核心消息，包括：

合并单元，用于合并每组所述核心消息的标注信息，所述标注信息包括事件标注实体和事件描述实体；

19.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行如权利要求1~10任一所述方法或如权利要求11~16任一所述的方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序指令，当所述计算机程序指令由用户设备的处理器执行时，使得用户设备执行如权利要求1~10任一所述方法或如权利要求11~16任一所述的方法。