CN111858925B

CN111858925B - 电信网络诈骗事件的剧本提取方法以及装置

Info

Publication number: CN111858925B
Application number: CN202010501138.5A
Authority: CN
Inventors: 万辛; 李鹏; 刘冠男; 孙旭东; 曲金铭; 沈亮; 刘发强; 倪善金; 吴俊杰
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-08-18
Anticipated expiration: 2040-06-04
Also published as: CN111858925A

Abstract

本发明公开了电信网络诈骗事件的剧本提取方法、装置、电子设备以及存储介质。该方法包括：获取已知主题类别的电信网络诈骗事件文本；对文本进行分句操作；提取文本中各单句的关键词；利用预先建立的BERT模型提取已知主题类别的电信网络诈骗事件文本中各单句的关键词向量；基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离，对两个具有相邻句序的单句进行剧情阶段的划分；获取各阶段所包含的单句的关键词作为所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。本发明实现了对于电信网络诈骗事件剧情阶段的划分，提取出有助于识别电信网络诈骗事件的特征，从而达到精准提取电信网络诈骗事件剧本的目的。

Description

电信网络诈骗事件的剧本提取方法以及装置

技术领域

本发明涉及数据挖掘和商务智能技术领域，尤其涉及电信网络诈骗事件的剧本提取方法、装置、电子设备以及存储介质。

背景技术

电信网络诈骗是目前国内外电信行业中一个重要的问题，它威胁到人们的财产安全，同时对电信正常运营带来巨大的困扰。因此，运营商、政府部门都试图采取各种手段和技术进行电信诈骗案件的检测和识别。在实际中，尽管电信网络诈骗案件高发，但涉及的诈骗事件类型呈现出一定的规律性。如果能够掌握诈骗事件的发展形式以及剧本情节，对于诈骗防范和识别、公众教育和宣导都有较大的帮助。因此，亟需设计一种有效的诈骗事件剧本提取方法。

发明内容

本发明的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明提供了电信网络诈骗事件的剧本提取方法和装置，基于该方法和装置，可以实现对于电信网络诈骗事件剧本的剧情阶段的划分，提取出有助于识别电信网络诈骗事件的特征，达到提取电信网络诈骗事件剧本的目的。

第一方面，提供了一种电信网络诈骗事件的剧本提取方法，包括：

获取已知主题类别的电信网络诈骗事件文本；

对所述已知主题类别的电信网络诈骗事件文本进行分句操作；

提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词；

利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量；

基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离，对两个具有相邻句序的单句进行剧情阶段的划分；

获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。

可选地，所述的电信网络诈骗事件的剧本提取方法中，

所述获取已知主题类别的电信网络诈骗事件文本，包括：

获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合；

所述提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词，包括：

将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合，基于各单句集合提取具有相应句序的单句的关键词。

可选地，所述的电信网络诈骗事件的剧本提取方法中，所述基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离，对两个具有相邻句序的单句进行剧情阶段的划分，包括：

基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离确定空间距离大于指定阈值的两个具有相邻句序的单句；

将所述空间距离大于指定阈值的两个具有相邻句序的单句划分为剧情的两个阶段。

可选地，所述的电信网络诈骗事件的剧本提取方法，还包括：

对未知主题类别的电信网络诈骗事件文本进行分类；

对所述未知主题类别的电信网络诈骗事件文本进行分句操作；

基于所述未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段，从而将所述未知主题类别的电信网络诈骗事件文本分解成多个阶段。

可选地，所述的电信网络诈骗事件的剧本提取方法中，所述对未知主题类别的电信网络诈骗事件文本进行分类，包括：

利用所述预先建立的BERT模型提取所述未知主题类别的电信网络诈骗事件文本的文本向量，利用概率输出层将所述文本向量转化为所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值；

基于所述未知主题类别的电信网络诈骗事件文本对各主题类别下电信网络诈骗事件文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值；

对所述第一概率值和所述第二概率值进行加权计算，以加权后概率最大的主题类别作为所述未知主题类别的电信网络诈骗事件文本所属的主题类别。

可选地，所述的电信网络诈骗事件的剧本提取方法中，所述预先建立的BERT模型为针对预训练的BERT模型进行微调训练而得到的，所述预先建立的BERT模型为针对预训练的BERT模型进行微调训练而得到的，在微调训练过程中，对所述预训练的BERT模型外接一层概率输出层，以各主题类别的主题词作为输出，对所述预训练的BERT模型参数进行微调。

可选地，所述的电信网络诈骗事件的剧本提取方法中，所述各主题类别以及各主题类别的主题词通过以下方法确定：

获取未知主题类别的电信网络诈骗事件线索文本；

对所述未知主题类别的电信网络诈骗事件线索文本进行分类，提取各主题类别的主题词；

基于各主题类别下的电信网络诈骗事件线索文本，提取各主题类别下的电信网络诈骗线索文本的关键词；

获取未知主题类别的电信网络诈骗事件完整文本；

基于所述未知主题类别的电信网络诈骗事件完整文本对各主题类别下的电信网络诈骗事件线索文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件完整文本所属的主题类别，将所述未知主题类别的电信网络诈骗事件完整文本扩展至相应的主题类别下；

基于扩展后的各主题类别下的电信网络诈骗事件文本，检验各主题类别是否为不可再分，基于检验结果对各主题类别以及各主题类别的主题词进行更新。

第二方面，提供了一种电信网络诈骗事件的剧本提取装置，包括：

第一获取模块，用于获取已知主题类别的电信网络诈骗事件文本；

第一分句模块，用于对所述已知主题类别的电信网络诈骗事件文本进行分句操作；

第一提取模块，用于提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词；

第二提取模块，用于利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量；

划分模块，用于基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离，对两个具有相邻句序的单句进行剧情阶段的划分；

第二获取模块，用于获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。

可选地，电信网络诈骗事件的剧本提取装置中，

所述第一获取模块用于获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合；

所述第一提取模块用于将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合，基于各单句集合提取具有相应句序的单句的关键词。

可选地，所述的电信网络诈骗事件的剧本提取装置中，所述划分模块包括：

第一确定子模块，用于基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离确定空间距离大于指定阈值的两个具有相邻句序的单句；

划分子模块，用于将所述空间距离大于指定阈值的两个具有相邻句序的单句划分为剧情的两个阶段。

可选地，所述的电信网络诈骗事件的剧本提取装置，还包括：

分类模块，用于对未知主题类别的电信网络诈骗事件文本进行分类；

第二分句模块，用于对所述未知主题类别的电信网络诈骗事件文本进行分句操作；

分解模块，用于基于所述未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段，从而将所述未知主题类别的电信网络诈骗事件文本分解成多个阶段。

可选地，所述的电信网络诈骗事件的剧本提取装置中，所述分类模块包括：

第一分类子模块，用于利用所述预先建立的BERT模型提取所述未知主题类别的电信网络诈骗事件文本的文本向量，利用概率输出层将所述文本向量转化为所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值；

第二分类子模块，用于基于所述未知主题类别的电信网络诈骗事件文本对各主题类别下电信网络诈骗事件文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值；

判断子模块，用于对所述第一概率值和所述第二概率值进行加权计算，以加权后概率最大的主题类别作为所述未知主题类别的电信网络诈骗事件文本所属的主题类别。

可选地，所述的电信网络诈骗事件的剧本提取装置中，所述预先建立的BERT模型为针对由预训练的BERT模型和概率输出层所构成的神经网络模型进行微调训练而得到的，所述装置还包括：

训练模块，用于以各主题类别的主题词作为输出，对所述神经网络模型进行参数微调。

可选地，所述的电信网络诈骗事件的剧本提取装置中，还包括：

确定模块，用于确定所述各主题类别以及各主题类别的主题词，所述确定模块包括：

第一获取子模块，用于获取未知主题类别的电信网络诈骗事件线索文本；

第三分类子模块，用于对所述未知主题类别的电信网络诈骗事件线索文本进行分类；

第一提取子模块，用于基于各主题类别下的电信网络诈骗事件线索文本，提取各主题类别的主题词；

第二提取子模块，用于基于各主题类别下的电信网络诈骗事件线索文本，提取各主题类别下的电信网络诈骗线索文本的关键词；

第二获取子模块，用于获取未知主题类别的电信网络诈骗事件完整文本；

第二确定子模块，用于基于所述未知主题类别的电信网络诈骗事件完整文本对各主题类别下的电信网络诈骗事件线索文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件完整文本所属的主题类别，将所述未知主题类别的电信网络诈骗事件完整文本扩展至相应的主题类别下；

更新子模块，用于基于扩展后的各主题类别下的电信网络诈骗事件文本，检验各主题类别是否为不可再分，基于检验结果对各主题类别以及各主题类别的主题词进行更新。

第三方面，提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行以上所述的方法。

第四方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现以上所述的方法。

本发明至少包括以下有益效果：

本发明提取某一主题类别下的电信网络诈骗事件文本中各单句的关键词，利用预先建立的BERT模型提取各单句的关键词向量，基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离，对这两个单句进行剧情阶段的划分，并最终获取各阶段所包含的单句的关键词来作为该主题类别下电信网络诈骗事件中各阶段的情节特征表示。本发明实现了对于电信网络诈骗事件剧本的剧情阶段的划分，提取出有助于识别电信网络诈骗事件的特征，从而达到了精准提取电信网络诈骗事件剧本的目的。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明实施例的电信网络诈骗事件的剧本提取方法的流程图；

图2为本发明实施例的对未知主题类别的电信网络诈骗事件文本进行剧本提取的流程图；

图3为本发明实施例的对未知主题类别的电信网络诈骗文本进行分类的流程图；

图4为本发明实施例的确定各主题类别以及各主题类别的主题词的流程图；

图5为本发明实施例的电信网络诈骗事件的剧本提取装置的结构示意图；

图6为本发明实施例的划分模块的结构示意图；

图7为本发明实施例的分类模块的结构示意图；

图8为本发明实施例的确定模块的结构示意图；

图9为本发明实施例的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

图1示出了根据本发明的实施例的电信网络诈骗事件的剧本提取方法的流程图。该方法由电信网络诈骗事件的剧本提取装置执行。包括：

步骤101，获取已知主题类别的电信网络诈骗事件文本。

这里“已知主题类别的电信网络诈骗事件文本”可以是已向公众发布或通过人工核验确定的电信网络诈骗事件文本，也可以是通过分类模块分类确定了主题类别的电信网络诈骗事件文本。同时，“已知主题类别”即表示该文本的主题类别是已经确定的。

在本步骤中，获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合，以便于基于这些电信网络诈骗事件文本集合实现对于各单句关键词的提取。

步骤102，对所述已知主题类别的电信网络诈骗事件文本进行分句操作。

步骤103，提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词。

在一些实施例中，可以通过以下方法提取已知主题类别的电信网络诈骗事件文本中各单句的关键词：将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合，基于各单句集合提取具有相应句序的单句的关键词。

应该理解的是，由于是针对各单句集合的关键词，因此对于不同的已知主题类别的电信网络诈骗事件文本，具有相同句序的单句的关键词也是一致的。

步骤104，利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量。

步骤105，基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离，对两个具有相邻句序的单句进行剧情阶段的划分。

本步骤中，剧情阶段的划分是基于各单句的关键词向量进行判断的，即剧情阶段的划分不依赖于具体的某一个已知主题类别的电信网络诈骗事件文本。也可以理解成，在本步骤中，可以将具有相邻句序的单句集合划分至不同的剧情阶段或相同的剧情阶段。

步骤106，获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。

当前的电信网络诈骗活动往往存在着具有典型情节特征的剧本，而且这些电信网络诈骗活动的模式也比较固定。基于这一发现，本发明的实施例对已知主题类别的电信网络诈骗事件文本进行分句操作，提取出各单句的关键词，利用预先建立的BERT模型提取各单句的关键词向量，并进一步基于关键词向量的均值向量之间的空间距离实现对上下单句所属剧情阶段的划分，最后获取各阶段所对应单句的关键词作为上述已知主题类别的电信网络诈骗事件文本所属主题类别下各阶段的剧情特征表示，从而在语义层面实现了对电信网络诈骗事件剧本的剧情阶段划分，并提取出了有助于识别电信网络诈骗事件的特征。

以下对电信网络诈骗事件的剧本提取方法进行更为详细地描述。

首先获取属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合。这些电信网络诈骗事件文本预先存储在电信网络诈骗事件文本数据库中。

其次针对已知主题类别的电信网络诈骗事件文本进行分句操作。

分句操作时，以句子为步长，即使得文本在指定标点符号处分开，并将同一主题类别下的分句后的单句存入以句序为索引的字典中，从而将来自于不同文本的具有相同句序的单句放在一个单句集合中。特别地是，在分句阶段筛选句长大于10个字的有效句子，避免字典保存过多无效语句从而消耗不必要的时间成本和空间成本。

之后提取电信网络诈骗事件文本中各单句的关键词。

按照句序滚动对各单句集合提取关键词，将关键词列表保存在另外一个以句序为索引的字典中，循环上述操作直到遍历完单句字典的所有键值对，形成每个主题类别下的句序关键词列表，后续剧本提取和划分阶段可以依据该列表进行。

接下来，对剧情阶段进行阶段划分以及表示各阶段的特征。

按照句序进行滚动，提取已滚动句子关键词向量的均值向量以及未滚动句子的关键词向量的均值向量，计算两个均值向量的空间距离，当空间距离超出指定阈值时，判定剧情进入下一个阶段，将这两个具有相邻句序的单句划分为剧情的两个阶段，由此对剧本情节进行提取，各阶段的情节特征则由该阶段所对应的单句关键词表现出来。应当理解的是，当空间距离小于或者等于指定阈值，则判定剧情未进入下一个阶段，将这两个具有相邻句序的单句划分为剧情的同一个阶段。

此外，可以对各阶段所包含的单句集合中的单句进行频率统计，找出高度重复的具有代表性的句子(比如在各阶段所包含的单句集合中出现频率超过第二指定阈值)，将这种具有代表性的句子定义为关键句，用于进一步表示出剧本的情节特征。由于句子能够表示一个完整的语义，因此关键句可以更清晰和直观地表示一个剧情阶段的特征。

在上述对剧情阶段进行划分的过程中，两个均值向量的空间距离通过以下公式计算：其中D代表向量空间距离，n代表向量维度，A_i代表已滚动句子的关键词向量的均值向量第i维，B_i代表未滚动文本的关键词向量的均值向量第i维。

进一步地，基于上述方法所实现的对于某一主题类别下电信网络诈骗事件中各剧情阶段的划分结果以及各阶段的情节特征的表示，本发明实施例还可以对未知主题类别的电信网络诈骗事件文本进行剧本提取，实现未知主题类别的电信网络诈骗事件文本的剧本解构。图2示出了对未知主题类别的电信网络诈骗事件文本进行剧本提取的流程图。如图2所示，该方法包括：

这里“未知主题类别的电信网络诈骗事件文本”为未检测该电信网络诈骗事件文本所属主题类别的文本。可以是线索文本或者完整文本。

步骤201，对未知主题类别的电信网络诈骗事件文本进行分类，以确定未知主题类别的电信网络诈骗事件文本所属的主题类别。对未知主题类别的电信网络诈骗事件文本进行分类的具体方法容后详述。

步骤202，对所述未知主题类别的电信网络诈骗事件文本进行分句操作。

具体地，以句子为步长，将未知主题类别的电信网络诈骗事件文本划分为各单句。

步骤203，基于所述未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段，从而将所述未知主题类别的电信网络诈骗事件文本分解成多个阶段。

在一些实施例中，计算未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率，以命中率最高的阶段作为未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段，从而将未知主题类别的电信网络诈骗事件文本分解成多个阶段。

具体地，对于未知主题类别的电信网络诈骗事件文本中的某一个单句，逐一计算该单句对于各阶段关键词的命中率，比如存在三个阶段，每个阶段有三个关键词，该单句对第一个阶段未命中关键词，对第二个阶段命中三个关键词，对第三个阶段命中1个关键词，则该单句属于第二个阶段。

此外，还可以计算未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键句的命中率，以关键句命中率最高的阶段作为一个单句所属的阶段。需要说明的是，基于关键句命中率所计算出的单句所属阶段与基于关键词命中率所计算出的单句所属阶段应该是一致的。

图3示出了本发明实施例的对未知主题类别的电信网络诈骗事件文本进行分类的流程图。如图3所示，该方法包括：

步骤301，利用所述预先建立的BERT模型提取所述未知主题类别的电信网络诈骗事件文本的文本向量，利用概率输出层将所述文本向量转化为所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值。

其中，预先建立的BERT模型可以是针对预训练的BERT模型进行微调训练而得到的。在微调训练过程中，对所述预训练的BERT模型外接一层概率输出层，以各主题类别的主题词为标签作为输出，对预训练的BERT模型参数进行微调，使得模型在对电信网络诈骗事件文本的分类上表现更加突出。这里所采用的预训练的BERT模型为公开的中文BERT预训练模型(如NEZHA和TinyBERT)，概率输出层采用SOFTMAX网络。微调训练过程中的类别标签不但包含当前已知主题类别，同时也包含未知主题类别标签。句子级别的向量表示由分词后的词语向量映射的平均值代表。选择的Loss(损失函数)计算方式是cross entropy(交叉熵)。设置学习率LR＝0.0015，最大迭代步数E＝1000，训练批量集BS＝500，对上述模型进行训练，直到模型的loss降到阈值loss＝0.01以下为止。

具体地，可以采用第一分类子模块来对未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值进行预测。

步骤302，基于所述未知主题类别的电信网络诈骗事件文本对各主题类别下电信网络诈骗事件文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值。

未知主题类别的电信网络诈骗事件文本属于某一主题类别i的第二概率值P_i(Y)可以通过以下公式计算：其中，Qi表示未知主题类别的电信网络诈骗事件文本对该主题类别i的电信网络诈骗事件文本的关键词的命中率。

这里“各主题类别下电信网络诈骗事件文本的关键词”可以是基于已知主题类别的电信网络诈骗事件文本所确定出来的，这些已知主题类别的电信网络诈骗事件文本归属于某一主题类别，通过对这些已知主题类别的电信网络诈骗事件文本进行聚类，可以获取各主题类别下电信网络诈骗事件文本的关键词。比如在医保卡诈骗这一主题类别下，其主题词为“医保卡诈骗”，通过这一主题类别下的所有电信网络诈骗事件文本进行聚类，提取出“医保卡”“医保局”“支付”等关键词。对于另一主题类别，其主题词为“信用卡诈骗”，可以提取出“信用卡”“分期付款”“支付”等关键词。

通过计算未知主题类别的电信网络诈骗事件文本对不同主题类别的关键词的命中率，可以进一步计算出未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值。在上面这个例子中，假设未知主题类别的电信网络诈骗事件文本仅命中第一个主题类别的关键词“支付”，命中率为33％，命中第二个主题类别的“信用卡”“分期付款”“支付”，命中率为100％，则该未知主题类别的电信网络诈骗事件文本属于第一个主题类别的第二概率值为24.8％，属于第二个主题类别的第二概率值为75.2％。

具体地，可以通过第二分类子模块来对未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值进行预测。

步骤303，对所述第一概率值和所述第二概率值进行加权计算，以加权后概率最大的主题类别作为所述未知主题类别的电信网络诈骗事件文本所属的主题类别。

采用加权计算的方式对第一概率值P_i(X)和第二概率值P_i(Y)进行运算。按照ENTROPY(熵)的相对大小进行每类概率的加权，最终未知主题类别的电信网络诈骗事件文本属于第i个主题类比的概率L_i的计算公式如下：

其中，ENTROPY代表各分类子模块的熵值，能够表示一个分类子模块在某一个样本上的分类效果。加权的核心思想是对于越确定的分类器给出的结果赋予更高的权重。例如对于A、B、C、D四类，某样本由分类子模块X给出的概率分布分别是0.1、0.1、0.7、0.1，由分类子模块Y给出的概率分布分别是0.2、0.2、0.4、0.2，由于分类子模块X在这个样本的分类问题上表现得更有把握，那么分类子模块X会获得更高的权重。

图4示出了本发明实施例的确定各主题类别以及各主题类别的主题词的流程图。在上述方法中，所提及的主题类别以及用于表示主题类别的主题词具体通过以下方法确定，该方法包括：

步骤401，获取未知主题类别的电信网络诈骗事件线索文本。

具体地，从诈骗文本数据库中提取电信网络诈骗事件线索文本。应该理解的，线索文本为信息量较少但可以提供用于分类的关键信息的文本。由于线索文本的信息量较少，便于进行人工标注。线索文本可以是短文本。同时，线索文本是相对于完整文本而言，完整文本通常为记录了完整的电信网络诈骗事件过程的文本，信息量较大。完整文本可以是长文本。

步骤402，对所述未知主题类别的电信网络诈骗事件线索文本进行分类。

具体地，步骤402可以由先由人工初步分类，即通过人工将这些未知主题类别的电信网络诈骗事件线索文本分成若干初步的主题类别，再针对各初步的主题类别下的电信网络诈骗事件线索文本进行聚类，进一步将各初步的主题类别下的电信网络诈骗事件线索文本进行细致分类。比如，初步的主题分类包括电信网络诈骗和商业推广。电信网络诈骗下的细致分类可以进一步分出医保卡诈骗、公安局案件诈骗、信用卡逾期诈骗、局诈骗、公司财务诈骗等；商业推广下的细致分类可以进一步分出房屋推广、车辆推广、信贷推广等。

步骤403，基于各主题类别下的电信网络诈骗事件线索文本，提取各主题类别的主题词。

具体地，基于细致分类的主题类别下的电信网络诈骗事件线索文本，提取出用于表示该主题类别的主题词，并基于该细致分类的主题类别进行后续的工作。

步骤404，基于各主题类别下的电信网络诈骗事件线索文本，提取各主题类别下的电信网络诈骗线索文本的关键词。

针对各主题类别下的电信网络诈骗事件线索文本进行聚类，获取各主题类别下电信网络诈骗线索文本的关键词。在对线索文本的聚类中，使用K-means聚类方法。

在一些示例中，各主题类别下电信网络诈骗事件线索文本的有效关键词数为15，超出此数量部分主题类别出现部分无效关键词，低于此数量则部分主题类别无法实现完整地特征表示。

步骤405，获取未知主题类别的电信网络诈骗事件完整文本。

步骤406，基于所述未知主题类别的电信网络诈骗事件完整文本对各主题类别下的电信网络诈骗事件线索文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件完整文本所属的主题类别，将所述未知主题类别的电信网络诈骗事件完整文本扩展至相应的主题类别下。

在该步骤中，对未知主题类别的电信网络诈骗完整文本进行分类。具体地，对未知主题类别的电信网络诈骗完整文本进行分词处理，计算未知主题类别的电信网络诈骗完整文本对各主题类别下电信网络诈骗事件线索文本的关键词的命中率，以命中率最高的主题类别作为未知主题类别的电信网络诈骗完整文本所属的主题类别，从而实现各主题类别的数据集的扩展。

步骤407，基于扩展后的各主题类别下的电信网络诈骗事件文本，检验各主题类别是否为不可再分，基于检验结果对各主题类别以及各主题类别的主题词进行更新。

在一些示例中，检验各主题类别是否不可再分的具体过程是：对扩展后的各主题类别下的电信网络诈骗事件文本(这里包括线索文本和完整文本)进行关键词提取。如果在一个主题类别下所提取的关键词与该主题类别的主题词之间不存在明显的差异性，则判定该主题类别不可再分。如果在一个主题类别下所提取的关键词与该主题类别的主题词之间存在明显的差异性，则将与该主题类别的主题词具有明显差异性的这些关键词所对应的电信网络诈骗事件文本剔除出来，构成另一个主题类别，基于新分出的主题类别提取主题词，从而实现对于各主题类别以及各主题类别的主题词的更新。针对后一种情况举例，假设在“医保卡诈骗”这一主题类别下提取的关键词包括医保卡、医保局和公安局，此时关键词“公安局”与主题词“医保卡诈骗”之间存在明显的差异性，则将关键词“公安局”所对应的电信网络诈骗事件文本剔除出来，构成另一个主题类别，基于这些分出的电信网络诈骗事件文本可以进一步提取出主题词“公安局案件诈骗”。

根据本发明的实施例，先获取未知主题类别的电信网络诈骗事件线索文本，进行初步的分类，再获取未知主题类别的电信网络诈骗事件完整文本对基于线索文本确定的主题类别进行分类，从而实现对于各主题类别下的电信网络诈骗事件文本的扩展和补充，之后基于扩展后的各主题类别下的电信网络诈骗事件文本，检验是否各主题类别是否不可再分，最终基于检验结果对各主题类别以及各主题类别的主题词进行更新。基于该方法，有助于提高对于电信网络诈骗事件的主题类别和主题类别主题词的识别效率和准确率，进而有助于提高对于电信网络诈骗事件的剧本提取的有效性和准确性。

应该理解的，步骤407中更新后的各主题类别下的电信网络诈骗事件文本，可以作为步骤101中所获取的“已知主题类别的电信网络诈骗事件文本”，用于实现电信网络诈骗事件的剧本提取。

图5示出了本发明实施例的电信网络诈骗事件的剧本提取装置5000的结构示意图。如图5所示，该装置包括：第一获取模块5010、第一分句模块5020、第一提取模块5030、第二提取模块5040、划分模块5050、第二获取模块5060、分类模块5070、第二分句模块5080、分解模块5090、训练模块5100和确定模块5110。

第一获取模块5010用于获取已知主题类别的电信网络诈骗事件文本。

第一分句模块5020用于对所述已知主题类别的电信网络诈骗事件文本进行分句操作。

第一提取模块5030用于提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词。

第二提取模块5040用于利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量。

划分模块5050用于基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离对两个具有相邻句序的单句进行剧情阶段的划分。

第二获取模块5060用于获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。

分类模块5070用于对未知主题类别的电信网络诈骗事件文本进行分类。

第二分句模块5080，用于对所述未知主题类别的电信网络诈骗事件文本进行分句操作。

分解模块5090，用于计算所述未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率，以命中率最高的阶段作为所述未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段，从而将所述未知主题类别的电信网络诈骗事件文本分解成多个阶段。

训练模块5100，用于以各主题类别的主题词作为输出，对所述神经网络模型进行参数微调，所述预先建立的BERT模型为针对由预训练的BERT模型和概率输出层所构成的神经网络模型进行微调训练而得到的。

确定模块5110，用于确定所述各主题类别以及各主题类别的主题词。

进一步地，所述第一获取模块5010用于获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合。

进一步地，所述第一提取模块5030用于将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合，基于各单句集合提取具有相应句序的单句的关键词。

图6示出了本发明实施例的划分模块的结构示意图。如图6所示，划分模块5050包括：第一确定子模块5051和划分子模块5052。

第一确定子模块5051用于基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离确定空间距离大于指定阈值的两个具有相邻句序的单句。

划分子模块5052用于将所述空间距离大于指定阈值的两个具有相邻句序的单句划分为剧情的两个阶段。

图7示出了本发明实施例的分类模块的结构示意图。如图7所示，分类模块5070包括：第一分类子模块5071、第二分类子模块5072和判断子模块5073。

第一分类子模块5071用于利用所述预先建立的BERT模型提取所述未知主题类别的电信网络诈骗事件文本的文本向量，利用概率输出层将所述文本向量转化为所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值。

第二分类子模块5072用于基于所述未知主题类别的电信网络诈骗事件文本对各主题类别下电信网络诈骗事件文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值。

判断子模块5073用于对所述第一概率值和所述第二概率值进行加权计算，以加权后概率最大的主题类别作为所述未知主题类别的电信网络诈骗事件文本所属的主题类别。

图8示出了本发明实施例的确定模块的结构示意图。如图8所示，确定模块5110包括第一获取子模块5111、第三分类子模块5112、第一提取子模块5113、第二提取子模块5114、第二获取子模块5115、第二确定子模块5116和更新子模块5117。

第一获取子模块5111用于获取未知主题类别的电信网络诈骗事件线索文本。

第三分类子模块5112用于对所述未知主题类别的电信网络诈骗事件线索文本进行分类。

第一提取子模块5113用于提取各主题类别的主题词。

第二提取子模块5114用于基于各主题类别下的电信网络诈骗事件线索文本，提取各主题类别下的电信网络诈骗线索文本的关键词。

第二获取子模块5115用于获取未知主题类别的电信网络诈骗事件完整文本。

第二确定子模块5116用于基于所述未知主题类别的电信网络诈骗事件完整文本对各主题类别下的电信网络诈骗事件线索文本的关键词的命中率，确定所述未知主题类别的电信网络诈骗事件完整文本所属的主题类别，将所述未知主题类别的电信网络诈骗事件完整文本扩展至相应的主题类别下。

更新子模块5117用于基于扩展后的各主题类别下的电信网络诈骗事件文本，检验各主题类别是否为不可再分，基于检验结果对各主题类别以及各主题类别的主题词进行更新。

图9示出了本发明实施例的电子设备。如图9所示，电子设备9000包括：至少一个处理器9010，以及与所述至少一个处理器9010通信连接的存储器9020，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的方法。

具体地，上述存储器9020和处理器9010经由总线9030连接在一起，能够为通用的存储器和处理器，这里不做具体限定，当处理器9010运行存储器9020存储的计算机程序时，能够执行本发明实施例中结合图1至图8所描述的各项操作和功能。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现所述的方法。具体实现可参见方法实施例，在此不再赘述。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.电信网络诈骗事件的剧本提取方法，其特征在于，包括：

获取已知主题类别的电信网络诈骗事件文本；

2.如权利要求1所述的电信网络诈骗事件的剧本提取方法，其特征在于，

所述获取已知主题类别的电信网络诈骗事件文本，包括：

3.如权利要求1所述的电信网络诈骗事件的剧本提取方法，其特征在于，所述基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离，对两个具有相邻句序的单句进行剧情阶段的划分，包括：

4.如权利要求1所述的电信网络诈骗事件的剧本提取方法，其特征在于，还包括：

对未知主题类别的电信网络诈骗事件文本进行分类；

5.如权利要求4所述的电信网络诈骗事件的剧本提取方法，其特征在于，所述对未知主题类别的电信网络诈骗事件文本进行分类，包括：

6.如权利要求5所述的电信网络诈骗事件的剧本提取方法，其特征在于，所述预先建立的BERT模型为针对由预训练的BERT模型和概率输出层所构成的神经网络模型进行微调训练而得到的，在微调训练过程中，以各主题类别的主题词作为输出，对所述预训练的BERT模型参数进行微调。

7.如权利要求1至6中任一项所述的电信网络诈骗事件的剧本提取方法，其特征在于，所述各主题类别以及各主题类别的主题词通过以下方法确定：

获取未知主题类别的电信网络诈骗事件线索文本；

对所述未知主题类别的电信网络诈骗事件线索文本进行分类；

基于各主题类别下的电信网络诈骗事件线索文本，提取各主题类别的主题词；

获取未知主题类别的电信网络诈骗事件完整文本；

8.电信网络诈骗事件的剧本提取装置，其特征在于，包括：

分句模块，用于对所述已知主题类别的电信网络诈骗事件文本进行分句操作；

9.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7中任一项所述的方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1-7中任一项所述的方法。