CN116401368A

CN116401368A - 一种基于主题事件分析的意图识别方法和系统

Info

Publication number: CN116401368A
Application number: CN202310397632.5A
Authority: CN
Inventors: 宋胜利; 颜思彤; 段欣荣; 胡光能
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-07-07

Abstract

本发明一种基于主题事件分析的意图识别方法和系统，方法包括：处理文本数据流，生成主题图；使用社区识别算法从主题图中划分出表示文本事件的主题簇，根据主题簇中的主题候选词将文本流聚合成主题事件文本集合；检测主题文本集合的子事件文本；从子事件文本中抽取事件的关键活动序列；对文本和活动合并的生成的词汇序列进行向量化表示，进行初级特征提取和词向量降维，训练词向量表示上下文的能力，并重点关注能够影响意图类别的特征，最后判断事件的意图类别。系统包括主题图构建模块、主题文本聚合模块、事件脉络分析模块、活动序列生成模块、意图特征建模模块。提高了主题识别的效率和质量，解决了主题事件信息冗余、意图特征不明确的问题。

Description

一种基于主题事件分析的意图识别方法和系统

技术领域

本发明涉及意图识别技术领域，具体而言，涉及一种基于主题事件分析的意图识别方法和系统。

背景技术

随着互联网和社交媒体技术的蓬勃发展，人们已经习惯于将互联网看作获取信息的最佳平台。对于一个事件，除了其本身描述的活动，人们通常关注另外两个层面，一个是事件所属的背景和类型，即事件的主题，另一个是事件发生的原因以及将导致什么样的后果。通过使用主题检测技术，可以将用户关注的主题和事件从杂乱无章的信息源中挖掘出来，经过有效筛选和有序的组织，形成简洁明确的主题事件信息。在数据分析和挖掘技术的快速发展背景下，人们逐渐发现许多看似没有关联的事件背后缺隐藏着一定的关联关系，通过分析海量的事件数据，从复杂的事件活动中寻找并归纳其内在的规律特征，可以有效地预测事件背后的目的意图。

申请号为202111465255.1的中国发明专利公开了一种融合了主题信息的多意图识别方法，包括以下步骤：获取用户的输入文本并对其进行规范化处理得到处理文本；获取处理文本中基于句子的主题信息和基于词的主题信息；将处理文本与基于句子的主题信息进行融合；将融合后的文本及基于词的主题信息分别转化为向量表示；构建意图识别模型并训练；将转化得到的向量表示输入意图识别模型，得到意图分类结果，采用上述结构提高了多意图识别的准确度。该方法的缺点是，未考虑海量社交媒体文本场景下的模型适应能力，碎片化的文本内容导致文本内容存在特征稀疏性，给主题事件检测带来了很大的困难。

申请号为202210146473.7的中国发明专利公开了一种意图识别方法，包括以下步骤：获取消息文本和多个类别信息，其中，消息文本包括多个词，类别信息包括多个类别标记，根据多个类别标记确定与类别信息对应的意图表征信息，再根据多个词确定与消息文本对应的文本表征信息，对文本表征信息和多个意图表征信息分别进行增强融合处理，以得到多个融合表征信息；多个融合表征信息被用于训练意图识别模型，从而进行意图识别。由此，能够实现细粒度的表征信息融合，提升不同维度的表征信息的融合效果，从而提高意图识别模型针对消息文本的意图识别准确性。该方法的缺点是，没有对文本中的冗余信息进行剔除，没有从中提取具有代表性的文本信息来表示事件；并且模型中只提取了局部的信息，在训练词向量的时候没有考虑到上下文信息。

申请号为202210617940.X的中国发明专利公开了一种意图识别及模型训练方法，包括以下步骤：获取待识别文本对应的原始特征编码序列；对待识别文本中的标记进行掩码处理，获得掩码文本及掩码文本对应的特征编码序列；基于原始特征编码序列和掩码后特征编码序列，确定待识别文本中的各个标记之间的结构信息，并获得结构信息对应的结构特征向量；对原始特征编码序列和结构特征向量进行聚合，根据聚合结果进行待识别文本意图识别。该方法的缺点是，没有结合注意力机制的使用，对于一些重要的能影响意图类别的特征，没有赋予较高的权重系数，使得模型的效果不够理想。

发明内容

本发明旨在至少解决现有技术中存在传统主题检测模型难以满足数据流动态连续变化和在线分析场景，未考虑海量社交媒体文本场景下的模型适应能力，碎片化的文本内容导致文本内容存在特征稀疏性，给主题事件检测带来了很大的困难；没有对文本中的冗余信息进行剔除，没有从中提取具有代表性的文本信息来表示事件；并且模型中只提取了局部的信息，在训练词向量的时候没有考虑到上下文信息；对于一些重要的能影响意图类别的特征，没有赋予较高的权重系数，使得模型的效果不够理想的技术问题之一。

为此，本发明第一方面提供了一种基于主题事件分析的意图识别方法。

本发明第二方面提供了一种基于主题事件分析的意图识别系统。

本发明提供了一种基于主题事件分析的意图识别方法，包括事件主题分析和主题事件意图识别；

所述事件主题分析包括：

抽取共现词对，通过生成图的方式对文本内容进行建模，将由词共现关系建模生成的图定义为主题图；

采用基于图分割的社区识别算法划分主题图中的主题簇；

所述主题事件意图识别包括：

采用基于向量相似度计算的文本聚类算法根据已有主题对文本进行聚合；

识别主题事件各阶段的关键子事件，基于词突发性的事件脉络构建算法，通过寻找文本中的重要子事件关键词构建主题事件的发展脉络；

识别文本中的活动触发词，根据活动触发词识别活动论元，以主谓宾三元组的形式表示文本中包含的事件活动；

利用事件意图识别模型从文本和活动序列的各个位置提取重要特征，通过序列建模提取词汇的上下文序列信息，对与意图高度相关的序列单元分配较高的权重从而完成对主题事件的完整表示；

利用softmax函数对事件进行意图识别。

根据本发明上述技术方案的一种基于主题事件分析的意图识别方法，还可以具有以下附加技术特征：

在上述技术方案中，所述抽取共现词对，通过生成图的方式对文本内容进行建模，将由词共现关系建模生成的图定义为主题图，包括：

对文本集合中的每条文本使用分词工具进行分词，生成词语列表；

采用词性识别工具识别词语列表中每个词汇的词性，只保留动词和名词，并进行共现词对的抽取；

以保留下的名词和动词作为节点，以共现词对的共现关系作为节点的边生成主题图。

在上述技术方案中，所述主题图中边的权值是对应连通的两个节点词汇在一定时间段内的数据流中共现的总次数，将文本集合对应的主题图G定义为：

G＝(V,E,W)

其中，V代表节点集合，E代表边集合，W代表边的权值矩阵。

在上述技术方案中，抽取共现词对的方法包括：

获取一个时间窗口内的所有文本；

使用LTP工具进行分句、分词、词性标注、命名实体识别处理；

过滤掉非动词和名词的单元，得到完全由动名词组成的词汇列表；

将每个词汇与列表中顺序在其后面的所有词匹配生成共现词对；

将共现词对加入集合。

在上述技术方案中，所述采用基于图分割的社区识别算法划分主题图中的主题簇，包括：

对所有节点的电压进行随机赋值；

将计算每个节点的电压的过程视为一个扩散过程，计算每两个相连节点之间边的扩散距离；

进行迭代计算，寻找最大扩散距离边；

切割该最大扩散距离边形成新的图结构；

重新初始化节点进行迭代计算，直至划分的社区满足算法终止条件，得到若干个划分的好的社区，从而得到若干个主题簇。

在上述技术方案中，采用模块度Q衡量社区划分的质量，将模块度Q达到最大值作为基于图分割的社区识别算法的终止条件，模块度Q的计算方法如下：

其中，e_ij表示社区i和j之间的边的数量占图中总边数的比例，e_ii表示社区i内部的边数量占总边数的比例。

在上述技术方案中，所述采用基于向量相似度计算的文本聚类算法根据已有主题对文本进行聚合，包括：

获取一个时间窗口内的文本集合，以及该时间窗口检测出的n个主题候选词列表Lists；

对list_i中的词根据相对熵分值进行归一化处理；

计算每个候选词的表示主题的权重；

使用词向量表示模型将所有候选词映射到向量空间中；

对list_i中的词进行向量加权求和得到主题的向量表示；以及

使用词向量表示模型将所有文本中的词映射到向量空间中；

对

中所有词计算词向量的求和平均值，得到文本的向量表示；

计算

与各个主题之间的相似度；

将

划入相似度最高的主题中；

按照时间顺序排列划入主题中的文本。

在上述技术方案中，所述识别主题事件各阶段的关键子事件，基于词突发性的事件脉络构建算法，通过寻找文本中的重要子事件关键词构建主题事件的发展脉络，包括：

计算当前时间窗口中所有词的突发性分值，如果词的突发性分值大于设定的阈值，则将其判断为子事件关键词，并为其标记当前时间窗口的时间戳；如果当前时间窗口内的子事件关键词集合不为空，则认为当天发生了具有代表性的关键事件，反之如果子事件关键词集合为空，则认为当天的事件不具有推动事件发展的作用；按照时间窗口的先后顺序生成子事件关键词序列，完成事件脉络初始化；

根据生成的初始化事件脉络重新遍历所有文本；对于每条文本按照事件脉络查找其所属的关键子事件，如果当前文本中的词与某个时间窗口内的子事件关键词存在交集，则将该文本判断为能够表示事件发展阶段的关键文本，然后将其划分到该时间窗口中，最终生成一个由多组文本表示的主题事件脉络。

在上述技术方案中，所述识别文本中的活动触发词，根据活动触发词识别活动论元，以主谓宾三元组的形式表示文本中包含的事件活动，包括：

采用依存句法分析工具为辅助，设计抽取规则来识别出文本中存在的活动，首先识别文本中的活动触发词，然后再根据触发词识别活动论元，最终以主谓宾三元组的形式表示文本中包含的事件活动。

在上述技术方案中，所述利用事件意图识别模型从文本和活动序列的各个位置提取重要特征，通过序列建模提取词汇的上下文序列信息，对与意图高度相关的序列单元分配较高的权重从而完成对主题事件的完整表示，包括：

获取进行向量化表示的词汇序列，并训练词向量表示；

使用CNN模型从文本和活动序列的各个位置提取重要特征，从而减少表示特征的向量维度；

使用Bi-LSTM模型或Bi-GRU模型对经过CNN模型处理过的词汇向量进行序列建模，获得词汇的上下文序列信息；

使用注意力机制对与意图高度相关的序列单元分配较高的权重从而增加对子事件意图识别的准确性。

在上述技术方案中，所述使用注意力机制对与意图高度相关的序列单元分配较高的权重从而增加对子事件意图识别的准确性，包括：

获取经序列建模后输出的隐藏层向量；

根据经序列建模后输出的隐藏层向量计算注意力层的隐藏表示；

根据注意力层的隐藏表示归一化计算t时刻词向量对应的注意力权重；

根据每个词向量对应的注意力权重，对所有词向量进行加权求和得到主题事件词汇序列的最终向量表示。

在上述技术方案中，所述利用softmax函数对事件进行意图识别，包括：

对于每一个主题事件，计算其对应每一类意图的得分，然后通过softmax函数计算对应每个意图下的概率，最终选择概率最高的作为最终的意图类别；

所述softmax函数的计算方法为：

y_k＝softmax(w₁s+b₁)

其中，w₁表示从注意力层到输出层所需要的权重系数矩阵，b₁表示对应的偏移量，y_k为输出的意图类别标签，s为主题事件词汇序列的最终向量表示。

本发明还提供了一种基于主题事件分析的意图识别系统，包括：

主题图构建模块，用于处理文本数据流，生成主题图，并为主题图中每个节点和边赋予相应的权值；

主题文本聚合模块，与主题图构建模块相连，用于使用社区识别算法从主题图中划分出能表示文本事件主题的簇，根据主题簇中的主题候选词将文本流聚合成若干个主题事件文本集合，完成整个主题分析过程；

事件脉络分析模块，与主题文本聚合模块相连，用于通过子事件识别和关键文本识别过程，将主题文本集合的子事件文本检测出来；

活动序列生成模块，与事件脉络分析模块相连，用于从代表性子事件文本中抽取事件的关键活动序列，并为活动标记文本来源；

意图特征建模模块，与活动序列生成模块相连，用于对文本和活动合并的生成的词汇序列进行向量化表示，进行初级特征提取和词向量降维后，训练词向量表示上下文的能力，并结合注意力机制重点关注能够影响意图类别的特征，以及通过计算事件在每个意图上的概率判断事件的意图类别。

综上所述，由于采用了上述技术特征，本发明的有益效果是：

针对大规模的文本数据流，本发明构建了基于词共现的主题图模型，可以实时处理任何形式的文本数据而不受文本结构和内容的影响，解决了传统主题检测模型难以满足数据流动态连续变化和在线分析场景的问题；针对主题事件信息冗余的问题，本发明采用基于事件脉络分析的方法得到推动事件进展的关键子事件，并用少量具有代表性的文本信息表示事件。然后将代表性的事件文本和关键活动序列合并作为事件的整体信息输入到意图模型中进行意图识别；针对没有利用重要文本特征的问题，本发明在CNN和Bi-LSTM的基础上，融合了注意力机制，构建了意图识别模型，通过训练参数自适应地进行意图特征建模和意图识别，解决了意图识别中挖掘事件潜在特征困难的问题。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的一种基于主题事件分析的意图识别方法中基于主题图模型的事件主题分析方法的框架图；

图2是本发明一个实施例的一种基于主题事件分析的意图识别方法中主题图的局部示意图；

图3是本发明一个实施例的一种基于主题事件分析的意图识别方法中事件意图识别框架图；

图4是本发明一个实施例的一种基于主题事件分析的意图识别方法中基于CBL-Attention的事件意图识别模型架构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其它不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图4来描述根据本发明一些实施例提供的一种基于主题事件分析的意图识别方法和系统。

本申请的一些实施例提供了一种基于主题事件分析的意图识别方法。

本发明第一个实施例提出了一种基于主题事件分析的意图识别方法，包括事件主题分析和主题事件意图识别两部分。基于主题图模型的事件主题分析方法分为主题图构建和主题文本聚合，其中主题图构建的输出为主题文本聚合的输入，图1示出了基于主题图模型的事件主题分析方法的框架图。

本实施例在主题图构建中，对主题图作出如下定义：在文本集合News中，每条文本中每个词为一个节点，词之间的共现关系作为边，词对的共现次数作为边的权值，由此生成图G＝(V,E,W)，其中V代表节点集合，E代表边集合，W代表边的权值矩阵，称图G为文本集合News下对应的主题图。

本实施例使用的文本数据流以时间为轴，均匀的分布在各个时间段，按照一天24小时为一个时间窗口划分数据流，然后识别当天报道的主题事件。假设t表示当前的时间窗口，那么在t时间段内，数据流中所有文本可以表示为集合News^t，该集合包含的文本数量表示为N^t。

表示数据流在t时间段内的第i条文本。对每条文本都使用分词工具进行分词，然后生成一个词语列表。

从大规模的文本流中抽取出每条文本的共现词对，算法复杂度通常为0(n²)，在处理大规模数据的场景下，对于计算机来说是一个相当耗时的复杂度。考虑文本内容的实际情况，通常包含大量的助词、虚词和噪声，而且只有很少部分的词对主题的表示具有积极意义，这些词通常是实体和动作，例如人物、地点、组织和行为等。为了平衡算法的效率和质量，本实施例采用词性识别工具从文本中识别出每个词汇的词性，然后只保留动词和名词作为下一步的研究对象，并进行共现词对的抽取，具体抽取步骤如下：

输入：某时间窗口内的所有文本N^t；

输出：该时间窗口内文本中所有的共现词对；

for

in News^t do；

使用LTP工具依次进行分句、分词、词性标注、命名实体识别处理；

过滤掉非动词和名词的单元，得到完全有动名词组成的词汇列表；

for word in do；

将word与列表中顺序在其后面的所有词匹配生成共现词对；

将共现词对加入集合Co-Words；

end for；

return Co-Words；

对于抽取得到的共现词对，通过生成图的方式对文本内容进行建模，由前文分析可知，词共现现象的出现与文本主题分布有着必然的关联关系，因此本实施例将由词共现关系建模生成的图定义为主题图，进而利用主题图来深入研究文本中的隐含主题。主题图的生成将以保留下的名词和动词作为节点，以共现词的共现关系作为节点的边。构建的主题图局部示意如图2所示，其中边的权值是对应连通的两个节点词汇在一定时间段内的数据流中共现的总次数，可以理解为两个词之间的共现强度。

在主题文本聚合中，社区识别又被称为社区检测，是一种用来检测复杂网络中的社区结构的方法。在社区识别算法中，一个社区通常由一组紧密连接的节点组成，同时社区内的节点与社区外的节点连接稀疏。本实施例构建的主题图中的主题簇与复杂网络的社区具有相同的性质，即主题簇内部关联密度较高，主题簇之间连接稀疏。因此本实施例采用社区识别算法来划分主题图中的主题簇。目前社区识别方法一般分为两类，一类是基于图分割的社区识别方法，一类是基于相似度计算的社区识别方法。由于在本发明中生成的主题图中，很难计算节点之间相似度，因此本实施例借鉴基于图分割的社区识别方法中比较经典的基于电压的识别算法(WH算法)，并结合本实施例的使用场景进行改进优化。

WH算法利用节点之间的电压差来分割图中的社区，而本发明提出的改进算法基于扩散的概念进行划分社区。不同于WH在初始时设定了起始和终止节点，本发明在算法中对所有节点的电压进行随机赋值，计算每个节点的电压的过程可以视为一个扩散过程，在这个过程中密集节点之间的扩散距离会明显大于稀疏节点之间的扩散距离。在迭代一定次数之后，图中的某条边会变成稳定的最大扩散距离的边，然后切割该最大扩散距离边形成新的图结构，再重新初始化节点进行迭代计算。重复以上过程，最终可以得到若干个划分的好的社区。

如果不停地切割最大扩散距离边，最终会导致每一个独立的节点代表一个社区，为了判断划分社区的最佳状态，即算法的，终止状态，本发明采用模块度Q来衡量社区划分的质量。模块度函数的计算方法如下：

其中，e_ij表示社区i和j之间的边的数量占图中总边数的比例，e_ii表示社区i内部的边数量占总边数的比例。在识别社区的过程中，若Q的值增加，意味着社区内部的紧密性增强，社区之间的连接性减弱，因此Q越大说明社区划分的结果越合理，当Q值达到最大时，达到社区划分的最佳状态，进而得到若干个主题簇。获取主题簇的具体算法步骤如下：

输入：主题图G＝(V,E,W)；

输出：主题簇集合；

1、for V_i in V do；

2、随机生成节点电压V_i＝random(1≤i≤n)；

3、end for；

4、更新每个节点的电压值；

5、计算每两个相连节点之间边的扩散距Dis_k＝abs(V_i-V_j)(1≤k≤m)；

6、寻找最大扩散距离边，并记录边的id为k_max；

7、若本轮计算得到的k_max与上一轮相同，则将该边在图中删除，否则转到步骤4；

8、若当前划分得到的社区数量未增加，则转到步骤1；

9、根据公式(1)计算模块度Q，若Q值增加，则转到步骤1，否则记上一次迭代得到的Q为最大值；

return Q值最大时划分得到的若干主题簇集合。

在上述算法中，随机生成节点电压的时间复杂度为O(n)，更新节点电压值和计算扩散距离主要是对边的遍历的运算，时间复杂度为O(m)。当边的数量远远大于节点数量时，最终需要切割的边的数量通常远远小于m，结合本实施例对主题图的定义，在一条文本中边的数量通常远远大于节点的数量，因此在主题图中执行上述算法的时间复杂度可以近似为O(m)。

现有的聚类模型主要采用无监督的方式，通常是在生成主题的同时对文本进行聚类，不适合本发明根据已有主题对文本进行聚合的情况。考虑到本发明主要利用了词的特征，比如词频、分布以及词与词之间的共现关系等，而且生成的主题候选词具有相应的表征能力分值。结合以上条件，本发明提出一种基于向量相似度计算的文本聚类算法，具体步骤如下：

输入：某时间窗口内的文本集合，该时间窗口检测出的n个主题候选词列表Lists；

输出：n个文本集合；

for list_i in Lists do

对list_i中的词根据相对熵分值进行归一化处理；

计算每个候选词的表示主题的权重；

使用Word2Vec将所有候选词映射到向量空间中；

对list_i中的词进行向量加权求和得到主题的向量表示；

end for

for

in News^t do

使用Word2Vec将所有文本中的词映射到向量空间中；

对

中所有词计算词向量的求和平均值，得到文本的向量表示；

计算

与各个主题之间的相似度；

将

划入相似度最高的主题中；

按照时间顺序排列划入主题中的文本；

end for；

return n个主题文本集合；

可以理解的是，主题事件聚类算法中使用的Word2Vec也可以替换成其他词向量表示模型，比如GloVe或者BERT模型。

在对主题事件进行聚合后，需要对各个事件进行意图识别，本实施例构造了事件意图识别框架，其框架图如图3所示。

主题事件的发展是由若干个关键的子事件决定的，只要识别出各阶段的关键子事件，即可描述事件的整体发展脉络。本实施例提出一种基于词突发性的事件脉络构建算法，通过寻找文本中的重要子事件关键词来构建事件的发展脉络，该算法主要包含事件脉络初始化和关键文本识别两个部分。

对于生成的主题事件文本集合，因为前面已经将主题事件文本集合内的文本按照时间顺序进行了排列，此处仍然按照每天为一个时间窗口进行滑动处理。首先计算当前时间窗口中所有词的突发性分值，如果词的突发性分值大于设定的阈值，则将其判断为子事件关键词，并为其标记当前时间窗口的时间戳。如果当前时间窗口内的事件关键词集合不为空，则认为当天发生了具有代表性的关键事件，反之如果事件关键词集合为空，则认为当天的事件不具有推动事件发展的作用。最后按照时间窗口的先后顺序生成子事件关键词序列，完成事件脉络初始化。

考虑到对于关键子事件的描述可能分布在不同的时间窗口中，为了得到事件更全面的信息，本发明根据生成的初始化事件脉络重新遍历本发明集合中的所有文本。首先，对于每条文本按照事件脉络从前向后查找其所属的关键子事件，如果当前文本中的词与某个时间窗口内的子事件关键词存在交集，则将该文本判断为能够表示事件发展阶段的关键文本，然后将其划分到该时间窗口中，最终生成一个由多组文本表示的主题事件脉络。

通过对主题事件文本集合进行处理，进一步得到了主题事件下由不同关键子事件组成的事件脉络，并为每个关键子事件选择了若干个具有代表性的文本。在此基础上，还需要识别出每个关键子事件中的目标活动，以对后续的事件意图识别研究提供支撑。本实施例结合采用依存句法分析工具为辅助，设计相应的抽取规则来识别出文本中存在的活动，首先识别文本中的活动触发词，然后再根据触发词识别活动论元，最终以主谓宾三元组的形式表示文本中包含的事件活动。

图4示出了基于CBL-Attention的事件意图识别模型架构图。意图是指单个主体或多个主体希望达到某种目的的意愿或者打算。本实施例结合LSTM、CNN和注意力机制的优势，提出一种融合了CNN、Bi-LSTM和注意力机制的主题事件意图识别模型CBL-Attention，首先使用CNN从文本和活动序列的各个位置提取重要特征，从而减少表示特征的向量维度，然后使用Bi-LSTM从卷积层获得的特征中提取序列中的上下文信息，最后使用注意力机制对与意图高度相关的序列单元分配较高的权重来增加对子事件意图识别的准确性。其中，Bi-LSTM模型还可替换成Bi-GRU模型，简化模型结构，加速训练。

本实施例采用可以通过训练大规模文本语料生成低维的词向量的Word2Vec方法对词汇序列进行向量化表示，并选择在语义信息表达方面比较准确的Skip-gram模式来训练词向量表示，其中每个词向量的维度为300。

卷积层的作用是从输入的词汇序列中提取低级语义特征，并减少向量维数。本实施例使用一维卷积核对输入的词汇序列向量进行卷积。首先对一个事件中的词汇序列的向量表示进行形式化定义，如式(2)所示。

X_1:T＝[x₁,x₂,x₃,x₄,…x_T] (2)；

其中T是序列中词的数量，为了使用卷积层捕获序列的固有特征，将不同大小的卷积核应用于词汇序列，当不同大小的过滤器窗口在词汇序列上移动时，会生成多个具有语义特征的子序列。

若卷积核大小为d，则以第t到t+d-1个词构成的子序列x_t:t+d-1生成的特征表示如公式(3)所示。

h_d,t＝tanh(W_dx_t:t+d-1+b_d) (3)；

其中，W_d是可以训练学习的权重矩阵，b_d是偏置向量。

由于每个过滤器必须覆盖文本的所有位置，卷积核大小为d的过滤器生成的特征表示如式(4)所示。

h_d＝[h_d1,h_d2,h_d3,h_d4…x_T-d+1] (4)；

使用卷积神经网络提取主题事件下词汇序列的特征的一个重要方面是可以减少特征学习期间的训练参数数量，而这种效果是通过最大池化机制实现的。输入的词汇序列向量经过若干个不同大小的卷积核进行卷积后，可以得到与卷积核相同数量的列向量，而最大池化操作就是将每个卷积核得到的列项量中最大的值提取出来，对于每个卷积核，通过最大池化得到的特征表示如式(5)所示。

p_d＝max^t(h_d1,h_d2,h_d3,h_d4…x_T-d+1) (5)；

通过使用CNN对主题事件词汇序列向量特征进行卷积处理后，每个词汇的向量维数由Word2Vec生成的300降到了100。

然而卷积层生成的特征向量并不包含序列的前后上下文信息。在Bi-LSTM层中，以经过CNN处理过的词汇向量作为输入，通过序列建模可以进一步获得词汇的上下文序列信息。Bi-LSTM在t时刻前向和后向两个方向上生成的特征表示如式(6)所示。

h_t＝[fh_t,bh_t] (6)；

h_t为t时刻Bi-LSTM层输出的隐藏层向量，将其作为注意力层的输入。

h_t首先通过一层感知器计算得到μ_t作为其注意力层的隐藏表示，计算方式如式(7)所示。

u_t＝tanh(w_th_t+b_t) (7)；

然后归一化计算t时刻词向量对应的注意力权重a_t，计算方式如式(8)所示。

最后根据每个词对应的注意力权重，对所有词向量进行加权求和得到主题事件词汇序列的最终向量表示，计算方式如公式(9)所示。

其中，w_t表示第t时刻词向量的权重系数矩阵，b_t是特征向量对应的偏移量，u_w可以视为区分不同单词重要性的一种高层次表示，n是词汇序列中词的数量。

在通过注意力机制层得到主题事件的完整表示后，在输出层利用softmax函数对事件进行意图识别，计算方式如式(10)所示。

y_k＝ softmax(w₁s+b₁) (10)；

其中，w₁表示从注意力机制层到输出层所需要的权重系数矩阵，b₁表示对应的偏移量，y_k为输出的意图类别标签。

softmax函数本质是sigmoid函数的一种推广，在多意图识别任务中，不必建立多个二分类模型来完成多意图识别的过程，对于每一个主题事件，模型都会计算其对应每一类意图的得分，然后通过softmax函数计算对应每个意图下的概率，最终选择概率最高的作为最终的意图类别。

本实施例提出了一种基于TGM的主题事件检测方法。对于在线实时产生的大规模文本数据流，本实施例提出了基于词共现的主题图构建模型，可以实时处理任何形式的文本数据而不受文本结构和内容的影响。利用改进的基于电压的社区识别算法，将主题图划分为若干个主题簇，并将算法的时间复杂度优化到线性级别。对于主题事件文本集合中冗余的信息，采用基于事件脉络分析的方法得到推动事件进展的关键子事件，并设计了抽取规则，从主题事件文本中抽取出关键的活动序列，在更细粒度的层面挖掘与意图相关的事件信息。

本发明第二个实施例提出了一种基于主题事件分析的意图识别方法，且在第一个实施例的基础上，如图1至图4所示，包括针对未考虑海量社交媒体文本场景下的模型适应能力等问题，本实施例提出了一种基于TGM的主题事件检测方法。对于在线实时产生的大规模文本数据流，本实施例提出了基于词共现的主题图构建模型，可以实时处理任何形式的文本数据而不受文本结构和内容的影响。在生成主题图之后，为了提高主题识别的效率和质量，设计了一种图简化方法，过滤掉图中与主题无关的节点和噪声数据。在生成的主题图中包含了若干个密集的主题簇，本实施例提出一种改进的基于电压的社区识别算法，将主题图划分为若干个主题簇，并将算法的时间复杂度优化到线性级别。不同于传统的文本聚类算法，本实施例针对实际的应用场景设计了一种基于词向量相似度的文本聚类算法，将与特定主题相关的文本聚合在一起得到若干个主题文本集合。

针对主题事件信息冗余、意图特征不明确等问题，本实时汇率提出了一种基于深度学习的事件意图识别框架。对于主题事件文本集合中冗余的信息，采用基于事件脉络分析的方法得到推动事件进展的关键子事件，并用少量具有代表性的文本信息表示事件。本实施例通过设计抽取规则，从主题事件文本中抽取出关键的活动序列，在更细粒度的层面挖掘与意图相关的事件信息。为了能够准确地从事件信息中提取到意图相关的特征，本实施例提出了融合CNN、Bi-LSTM和注意力机制的主题事件意图识别模型CBL-Attention，将代表性的子事件文本和关键活动序列合并作为事件的整体信息输入到模型中，通过训练网络层参数自适应地进行意图特征建模和意图识别。

TGM模型是本实施例提出的主题事件检测模型，本实施例使用准确率作为评价指标。为了验证本实施例所提出基于TGM模型的检测方法的效果，选择3种目前在主题事件检测任务中表现较好的典型方法进行对比试验。分别是Fuentes提出的基于最小哈希采样(Sampled Min-Hashing，SMH)的方法，Hasan提出的基于增量聚类(IncrementalClustering，IC)的方法，以及Arisa提出的基于LDA的方法。各个方法的实验结果如表1所示。对于检测到的主题事件，采用将主题簇关键词及其对应文本与真实世界发生的事件进行比较，判断其准确性。

表1主题事件检测实验结果对比

方法	检测到主题事件的数量	准确事件的数量	准确率％
				SMH	1097	759	69.19
IC	1340	881	65.75
				LDA	1210	655	54.13
TGM	839	692	82.48

表1中列出了每个模型检测到所有事件的数量以及最终判断为准确事件的数量，由此计算得出模型的准确率。在这四种方法中，基于LDA的方法检测主题事件的准确率只有54.13％，在几种方法中表现最差，通过分析其实验过程，主要原因是基于LDA方法对每天的的文本都进行主题建模，并将主题的强度变化作为判断主题事件的指标，然而本发明所使用的数据集包含了大量是来自社交媒体的短文本，文本的内容具有稀疏性并且事件的时间分布并不均匀，只针对每天的数据进行主题建模会导致模型收到大量噪声的影响，而且在Aliello的实验中还提到了LDA在识别范围狭窄的主题时效果非常好，对于开放域的主题事件识别有一定局限性。基于最小哈希和增量聚类的方法的准确率分别为69.19％和65.75％，这两种方法的性能相近，但是准确率仍然不高，一个重要的原因是这两种方法在处理文本数据流时没有考虑文本的异构性，基于增量聚类的方法的作者在提出该模型时仅考虑推特中的短文本数据，而基于最小哈希的方法仅考虑了专业新闻网站发布的长文本数据，因此在处理本发明数据集中长短和结构各异的文本时会影响其性能表现。此外，基于增量聚类的方法检测到的事件数量要更多一些，主要原因是基于最小哈希的方法中考虑了更多的主题一致性和连贯性问题，比如通过更改词集的重叠参数来控制识别事件的数量，而基于增量聚类的方法中通过设置不同的事件过滤器，同时保留了主要事件和次要事件。本实施例提出的基于TGM模型的方法获得了最高的准确率82.48％。然而通过观察检测到的主题事件数量可以看出，本实施例提出的方法只检测到了839个事件，相比于检测数量最多的增量聚类方法，事件数量减少了37％。通过分析实验过程，发现经过社区识别算法划分主题簇后，一共生成了2073个候选主题簇，而经过主题事件演化阶段的验证后，大部分主题簇被过滤消除，由此可以认为本实施例设计的演化验证模块对于验证主题事件的真实性是非常有效的。此外，在划分主题簇之前的主题图构建阶段，通过图简化操作已经过滤了大量的噪声数据，这也是导致主题事件数量较少的一个重要原因。

CBL-Attention模型是本实施例提出的事件意图识别模型，本实施例使用准确率、召回率和F1值作为评价指标。文本分类领域的深度学习模型按照实现的方法不同分为三种类别，分别为基于序列、基于词嵌入和基于图卷积的方法。本实施例分别从这三种类别中选取目前表现较好的模型作为基线与本实施例提出CBL-Attention模型进行对比，分别是Liu提出的基于循环神经网络的模型LSTM，Wang提出的基于标签嵌入的模型LEAM(LabelEmbedding Attentive Model)以及Yao提出的基于图卷积的模型TextGCN(Text GraphConvolutional Networks)。各模型的实验结果如表2所示。

表2主题事件意图识别实验结果对比

模型	Precision	Recall	F1
				LSTM	0.8302	0.7996	0.8146
LEAM	0.7081	0.8562	0.7708
				TextGCN	0.8818	0.8947	0.8875
CBL-Attention	0.8975	0.9057	0.9018

在主题事件意图识别任务中，本实施例提出的CBL-Attention模型精准率为89.75％、召回率为90.57％，F1值为90.18％，均达到最高，整体表现最优。其中LEAM模型采用的方法是将单词和标签嵌入到相同的联合空间中进行意图识别，这种方法是直接对文本词汇序列进行特征表示，而本实施例采用的数据集的文本特征是比较稀疏的，在这种场景下仅考虑词嵌入的特征会丢失较多事件关键信息和活动序列之间的依赖，因此该模型F1值仅达到了77.08％。与LEAM模型相比，LSTM模型通过循环神经网络提取了序列中的上下文依赖关系，但是单向的LSTM只能够获取序列中的前置依赖关系，因此模型的F1值虽然高于LEAM达到了81.46％，但还是相对较低。由此可以推断出，提取词汇序列中的上下文特征和词之间的依赖关系对事件的意图识别更加重要。TextGCN模型采用的方法是为每个文本构建一个词共现图，然后在已知意图标签的监督下使用图卷积网络同时学习词汇和文本的特征，词共现特征与主题特征具有潜在关联关系，这种特征对于主题事件意图识别来说具有重要意义，因此TextGCN模型的精准度为88.18％，比本实施例提出的CBL-Attention低了1.57％，而且TextGCN的F1值为88.75％，仅比CBL-Attention低1.43％。但是由于TextGCN要不断的抽取共现关系，使得该模型的消耗的计算资源和时间是最多的。从特征和提取的角度来看，本实施例提出的CBL-Attention模型通过一层CNN和两层双向LSTM不仅提取了文本和活动序列的初级语义特征降低了向量维数，还捕获了词汇序列中的上下文依赖关系，并采用注意力机制自适应为不同的特征分配权重，因此能够在实验中获得最优的性能表现。

本发明第三个实施例提出了一种基于主题事件分析的意图识别系统，且在上述任一实施例的基础上，如图1至图4所示，包括主题图构建模块，用于处理大规模的文本数据流，根据设计的构建方法生成主题图，并为主题图中每个节点和边赋予相应的权值；主题文本聚合模块，与主题图构建模块相连，用于使用社区识别算法从主题图中划分出能表示文本事件主题的簇，根据主题簇中的主题候选词将文本流聚合成若干个主题事件文本集合，完成整个主题分析过程；事件脉络分析模块，与主题文本聚合模块相连，用于通过子事件识别和关键文本识别过程，将主题文本集合的子事件文本检测出来；活动序列生成模块，与事件脉络分析模块相连，用于从代表性子事件文本中抽取事件的关键活动序列，并为活动标记文本来源；意图特征建模模块，与活动序列生成模块相连，用于采用Word2Vec对文本和活动合并的生成的词汇序列进行向量化表示，并输入到一维CNN网络层中进行初级特征提取和词向量降维后，利用Bi-LSTM网络层训练词向量表示上下文的能力，并结合注意力机制重点关注能够影响意图类别的特征，以及通过计算事件在每个意图上的概率判断事件的意图类别。

在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主题事件分析的意图识别方法，其特征在于，包括事件主题分析和主题事件意图识别；

所述事件主题分析包括：

采用基于图分割的社区识别算法划分主题图中的主题簇；

所述主题事件意图识别包括：

利用softmax函数对事件进行意图识别。

2.根据权利要求1所述的一种基于主题事件分析的意图识别方法，其特征在于，所述抽取共现词对，通过生成图的方式对文本内容进行建模，将由词共现关系建模生成的图定义为主题图，包括：

3.根据权利要求2所述的一种基于主题事件分析的意图识别方法，其特征在于，抽取共现词对的方法包括：

获取一个时间窗口内的所有文本；

将共现词对加入集合。

4.根据权利要求1所述的一种基于主题事件分析的意图识别方法，其特征在于，所述采用基于图分割的社区识别算法划分主题图中的主题簇，包括：

对所有节点的电压进行随机赋值；

进行迭代计算，寻找最大扩散距离边；

切割该最大扩散距离边形成新的图结构；

5.根据权利要求1所述的一种基于主题事件分析的意图识别方法，其特征在于，所述采用基于向量相似度计算的文本聚类算法根据已有主题对文本进行聚合，包括：

对list_i中的词根据相对熵分值进行归一化处理；

计算每个候选词的表示主题的权重；

使用词向量表示模型将所有候选词映射到向量空间中；

对list_i中的词进行向量加权求和得到主题的向量表示；以及

使用词向量表示模型将所有文本中的词映射到向量空间中；

对

中所有词计算词向量的求和平均值，得到文本的向量表示；

计算

与各个主题之间的相似度；

将

划入相似度最高的主题中；

按照时间顺序排列划入主题中的文本。

6.根据权利要求1所述的一种基于主题事件分析的意图识别方法，其特征在于，所述识别主题事件各阶段的关键子事件，基于词突发性的事件脉络构建算法，通过寻找文本中的重要子事件关键词构建主题事件的发展脉络，包括：

7.根据权利要求1所述的一种基于主题事件分析的意图识别方法，其特征在于，所述识别文本中的活动触发词，根据活动触发词识别活动论元，以主谓宾三元组的形式表示文本中包含的事件活动，包括：

8.根据权利要求1所述的一种基于主题事件分析的意图识别方法，其特征在于，所述利用事件意图识别模型从文本和活动序列的各个位置提取重要特征，通过序列建模提取词汇的上下文序列信息，对与意图高度相关的序列单元分配较高的权重从而完成对主题事件的完整表示，包括：

获取进行向量化表示的词汇序列，并训练词向量表示；

9.根据权利要求8所述的一种基于主题事件分析的意图识别方法，其特征在于，所述使用注意力机制对与意图高度相关的序列单元分配较高的权重从而增加对子事件意图识别的准确性，包括：

获取经序列建模后输出的隐藏层向量；

10.一种基于主题事件分析的意图识别系统，其特征在于，包括：