CN113312486B

CN113312486B - 一种信号画像构建方法装置、电子设备、存储介质

Info

Publication number: CN113312486B
Application number: CN202110852433.XA
Authority: CN
Inventors: 岳一峰; 任祥辉; 余亚玲; 刘彬彬
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-16
Anticipated expiration: 2041-07-27
Also published as: CN113312486A

Abstract

本发明涉及一种信号画像构建方法及装置、电子设备、存储介质，属于计算机技术领域。该方法包括获取报文文本以及文本类型标识；根据文本类型标识确认的文本解析工具解析报文文本得到文本数据；对文本数据进行分句处理得到多个句子；将句子分别输入至信号信息识别模型和信号关系提取模型中得到句子包含信号的信号标签、信号信息及所有关系三元组；如果识别出的信号为新信号，关系为新关系，则更新信号数据库并构建信号画像。本发明的信号画像构建方法能够从非结构化文本中挖掘信息，整合相关数据和资源，构建信号信息画像，实现了传统的科技情报工作的信息化、智能化，并为科技情报工作者的情报分析工作提供辅助决策能力。

Description

一种信号画像构建方法装置、电子设备、存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种信号画像构建方法及装置、电子设备、存储介质。

背景技术

网络便捷、丰富了人们的日常生活，但是数据海量化也给情报分析等工作带来了前所未有的变革与挑战。在科技情报分析方面，由于科技情报报文有着数据资源来源繁杂以及情报的敏感性与保密性等诸多因素的制约，科技情报数据资源、情报分析工具、情报应用服务等如何向信息化、智能化发展已成为一个亟待解决的问题。

发明内容

本发明意在提供一种信号画像构建方法及装置、电子设备、存储介质，能够从非结构化文本中挖掘信息，整合相关数据和资源，构建信号信息画像，实现了科技情报分析工作的信息化、智能化，本发明要解决的技术问题通过以下技术方案来实现：

本发明提供了一种信号画像构建方法，包括：

从本地文件存放目录中获取报文文本以及文本类型标识；

根据所述文本类型标识确认相应的文本解析工具，并利用所述文本解析工具解析所述报文文本得到文本数据；

对所述文本数据进行分句处理得到多个句子；

将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息，同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组；

如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息，则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中；

如果在信号数据库未搜索到所述句子包含信号的所有关系三元组，则将所述句子包含信号的所有关系三元组添加到所述信号数据库中；

根据更新后的所述信号数据库构建信号画像。

优选地，所述根据所述文本类型标识确认对应的文本解析工具，并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括：

根据所述文本类型标识获取文本解析标识；

根据所述文本解析标识确认相应的文本解析工具；

调用相应的所述文本解析工具解析所述报文文本得到文本数据。

优选地，所述根据所述文本类型标识确认相应的文本解析工具，并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括：

如果所述文本类型标识为pdf，则利用Pdfminer库解析所述报文文本；

如果所述文本类型标识为docx，则利用Python-docx库解析所述报文文本。

优选地，所述对所述文本数据进行分句处理得到多个句子的步骤之前还包括：

对所述文本数据进行数据清洗操作以清除所述文本数据中无意义的词句；

对所述文本数据进行指代消解操作以转换所述文本数据中的代词。

优选地，所述信号信息识别模型和所述信号关系提取模型均为深度学习识别模型，所述信号信息识别模型包括Bert-Embedding层和CRF层，所述信号关系提取模型包括Bert-Embedding层、CNN层及Self-Attention层。

另一方面，本发明还提供了一种信号画像构建装置，包括：

报文获取模块，被配置为从本地文件存放目录中获取报文文本以及文本类型标识；

文本解析模块，被配置为根据所述文本类型标识确认相应的文本解析工具，并利用所述文本解析工具解析所述报文文本得到文本数据；

分句处理模块，被配置为对所述文本数据进行分句处理得到多个句子；

识别模型模块，被配置为将所述句子输入至信号信息识别模型中得到所述句子包含信号的信号标签和信号信息，同时将所述句子输入至信号关系提取模型中得到所述句子包含信号的所有关系三元组；

新增判断模块，被配置为如果在信号数据库未搜索到所述句子包含信号的信号标签和信号信息，则将所述句子包含信号的信号标签和信号信息添加到所述信号数据库中；如果在信号数据库未搜索到所述句子包含信号的所有关系三元组，则将所述句子包含信号的所有关系三元组添加到所述信号数据库中；

画像构建模块，被配置为根据更新后的所述信号数据库构建信号画像。

优选地，所述文本解析模块包括：

解析标识获取单元，被配置为根据所述文本类型标识获取文本解析标识；

解析工具确认单元，被配置为根据所述文本解析标识确认相应的文本解析工具；

解析单元，被配置为调用相应的所述文本解析工具解析所述报文文本得到文本数据。

优选地，所述信号画像构建装置还包括：

清洗模块，被配置为对所述文本数据进行数据清洗操作以清除所述文本数据中无意义的词句；

指代消解模块，被配置为对所述文本数据进行指代消解操作以转换所述文本数据中的代词。

再一方面，本发明还提供了一种电子设备，包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述所述的信号画像构建方法。

又一方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的信号画像构建方法。

本发明的信号画像构建方法首先扫描本地文件存放目录以获取报文文本以及文本类型标识，之后利用文本类型标识对应的文本解析工具获取报文文本的文本数据，通过对文本数据进行分句处理得到多个句子，再利用预先训练好的信号信息识别模型和信号关系提取模型分别识别出每个句子中所包含信号的信号标签、信号信息以及所有关系三元组，然后通过在信号数据库中检索判断出识别的信号是否为新信号，信号关系是否为新关系，如果为新信号或新关系则更新到信号数据库，最后根据更新的信号数据库构建信号画像。本发明的信号画像构建方法能够从非结构化文本中挖掘信息，整合相关数据和资源，构建信号信息画像，实现了传统的科技情报工作的信息化、智能化，并为科技情报工作者的情报分析工作提供辅助决策能力。

附图说明

图1为本发明的信号画像构建方法的一些实施例的流程示意图；

图2为本发明的信号画像构建方法的步骤200一些实施例的流程示意图；

图3为本发明的信号画像构建方法的另一些实施例的流程示意图；

图4为本发明的信号画像构建装置的一些实施例的结构框图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

参见图1所示，本发明实施例提供了一种信号画像构建方法，包括：

步骤100：从本地文件存放目录中获取报文文本以及文本类型标识；

本实施例中情报工作者将情报报文文本统一放置在约定好的系统目录下，本步骤将自动扫描本地文件存放目录，从中获取报文文本以及文本类型标识。

步骤200：根据文本类型标识确认相应的文本解析工具，并利用文本解析工具解析报文文本得到文本数据；

本实施例中情报报文文本一般以pdf或word形式（即文本类型标识）存储在存放目录中，针对不同的文本类型标识采用不同的文本解析工具读取文本数据。

步骤300：对文本数据进行分句处理得到多个句子；

在进行信号识别前需要对文本数据（即获取的原始数据）进行预处理，将

文本数据标准化，分句操作是将文本数据分割成多个句子，并以句为单位存储在缓存中，以便于后续信号信息识别和信号关系提取操作。

步骤400：将句子输入至信号信息识别模型中得到句子包含信号的信号标签和信号信息，同时将句子输入至信号关系提取模型中得到句子包含信号的所有关系三元组；

本步骤中采用深度学习的方法来识别科技情报中的信号、信号信息以及信号关系。为实现面向科技情报报文的信号信息识别和关系提取，需要在真实的科技情报报文中标注至少2w条数据构建数据集，来进行模型训练。训练集标注操作是数据标注工具在原始情报数据上标注出需要识别信号、信号类别与信号之间的关系，为信号信息识别、信号关系提取模型的训练提供训练集支撑。

步骤500：如果在信号数据库未搜索到句子包含信号的信号标签和信号信息，则将句子包含信号的信号标签和信号信息添加到信号数据库中；

本步骤中需要在信号数据库中检索判断识别出的信号是否为新信号，若是新信号则更新到信号数据库中。

步骤600：如果在信号数据库未搜索到句子包含信号的所有关系三元组，则将句子包含信号的所有关系三元组添加到信号数据库中；

本步骤中需要在信号数据库中检索判断识别出的信号关系是否为新关系，若是新关系则更新到信号数据库中。

步骤700：根据更新后的信号数据库构建信号画像。

本步骤中根据更新后的信号数据库构建信号画像，例如：可以采用知识图谱方式构建信号画像。

本发明实施例的信号画像构建方法首先扫描本地文件存放目录以获取报文文本以及文本类型标识，之后利用文本类型标识对应的文本解析工具获取报文文本的文本数据，通过对文本数据进行分句处理得到多个句子，再利用预先训练好的信号信息识别模型和信号关系提取模型分别识别出每个句子中所包含信号的信号标签、信号信息以及所有关系三元组，然后通过在信号数据库中检索判断出识别的信号是否为新信号，信号关系是否为新关系，如果为新信号或新关系则更新到信号数据库，最后根据更新的信号数据库构建信号画像。本发明实施例的信号画像构建方法能够从非结构化文本中挖掘信息，整合相关数据和资源，构建信号信息画像，实现了传统的科技情报工作的信息化、智能化，并为科技情报工作者的情报分析工作提供辅助决策能力。

在一些实施例中，参见图2所示，本发明的信号画像构建方法中步骤200包括：

步骤201：根据文本类型标识获取文本解析标识；

本步骤中文本解析标识即文本解析工具的标识，通过预先建立的文本类型标识和文本解析标识的映射关系直接获取得到，不同的文本类型标识对应不同的解析工具。

步骤202：根据文本解析标识确认相应的文本解析工具；

步骤203：调用相应的文本解析工具解析报文文本得到文本数据。

本步骤中通过文本解析工具直接读取报文文本的文本数据，其中文本解析工具为现有工具，根据实际需要选择，在此不做具体限定。

在一些实施例中，本发明的信号画像构建方法中的步骤200包括：

如果文本类型标识为pdf，则利用Pdfminer库解析报文文本；

如果文本类型标识为docx，则利用Python-docx库解析报文文本。

在一些实施例中，参见图3所示，本发明的信号画像构建方法中步骤300之前还包括：

步骤300a：对文本数据进行数据清洗操作以清除文本数据中无意义的词句；

对文本数据的预处理一般还包括数据清洗，数据清洗操作是从文本中清除没有意义的词句，例如：“等”、“其次”、“虽然”等。

步骤300b：对文本数据进行指代消解操作以转换文本数据中的代词。

对文本数据的预处理一般还包括代消解操作，其解决分句后文本中代词的指代不明问题，将文本中的代词（例如：“它”，“其”等）转换成具有实际意义的词。

可选地，本发明实施例的信号画像构建方法中信号信息识别模型和信号关系提取模型均为深度学习识别模型，信号信息识别模型包括Bert-Embedding层和CRF层，信号关系提取模型包括Bert-Embedding层、CNN层及Self-Attention层。

本发明实施例的信号画像构建方法中采用Bert和CRF来构建信号信息识别模型，先通过Bert-Embedding层获取输入的科技情报文本的语义表示向量，再将输出的语义表示向量通过CRF层输出概率最大的实体序列。

Bert（Bidirectional Encoder Representations from Transformers）模型采用表意能力更强的双向Transformer网络，不需要过多的修改即可应用在科技情报文本的语义表征上，且在上下文表示、多义性表征等方面都有着较好的效果。CRF相对于其它的加权有限状态过程，可以容纳任意的上下文信息，且特征设计灵活，在全局范围内统计归一化概率，得到全局最优解。

其中，信号相关标签包括:信号（Signal）、信号类型（SiType）、频率（Frequency）、波长（Wavelength）、时间（Time）、组织机构（Organization）、武器装备（Weapon）等信息。示例如下：

表1 信号信息识别数据示例

本发明实施例面向的科技情报报文中，信号与信号属性的相关关系可以以三元组的形式来展示，示例如下：

{

“text”:“2021年3月31日，我方侦测到短波信号ASN-SL-001，该信号频率20HZ，波长5mm”,

“spo_list”: [

[“ASN-SL-001”,“类型”,“短波信号”],

[“ASN-SL-001”,“频率”,“30MHZ”],

[“ASN-SL-001”,“波长”,“300nm”],

]

}

该模型的输入为一句科技情报报文，输出该句子包含的所有关系三元组是[“s”，“p”，“o”]的形式，其中s代表subject，即信号主体，o代表object，即信号的属性，p代表predicate，即两者之间的关系类型。在进行关系抽取时，会事先约定好信号所有可识别的关系。在模型训练之前，需要把所有的关系种类确定好（训练集需要涵盖所有的关系种类）。

信号关系提取模型采用深度学习模型，该模型主要包括Bert-Embedding层、CNN层及Self-Attention层三部分。该模型处理流程为：先识别信号主体s，然后传入信号主体s来同时识别信号属性o和关系类型p。具体来说处理步骤如下：

1）将经过预处理的文本数据传入Bert的编码器，得到编码序列；

2）编码序列连接两个二分类器，用来预测s；

3）根据传入的s，从编码序列中抽取出s的首和尾对应的编码向量；

4）以s的编码向量作为条件，对编码序列做一次正则；

5）以正则后的序列来预测该s对应的o、p。

另一方面，参见图4所示，本发明实施例还提供了一种信号画像构建装置1，包括：

报文获取模块10，被配置为从本地文件存放目录中获取报文文本以及文本类型标识；

文本解析模块20，被配置为根据文本类型标识确认相应的文本解析工具，并利用文本解析工具解析报文文本得到文本数据；

分句处理模块30，被配置为对文本数据进行分句处理得到多个句子；

识别模型模块40，被配置为将句子输入至信号信息识别模型中得到句子包含信号的信号标签和信号信息，同时将句子输入至信号关系提取模型中得到句子包含信号的所有关系三元组；

新增判断模块50，被配置为如果在信号数据库未搜索到句子包含信号的信号标签和信号信息，则将句子包含信号的信号标签和信号信息添加到信号数据库中；如果在信号数据库未搜索到句子包含信号的所有关系三元组，则将句子包含信号的所有关系三元组添加到信号数据库中；

画像构建模块60，被配置为根据更新后的信号数据库构建信号画像。

在一些实施例中，本发明的信号画像构建装置1中文本解析模块20包括：

解析标识获取单元，被配置为根据文本类型标识获取文本解析标识；

解析工具确认单元，被配置为根据文本解析标识确认相应的文本解析工具；

解析单元，被配置为调用相应的文本解析工具解析报文文本得到文本数据。

在一些实施例中，参见图1所示，本发明的信号画像构建装置1还包括：

清洗模块70，被配置为对文本数据进行数据清洗操作以清除文本数据中无意义的词句；

指代消解模块80，被配置为对文本数据进行指代消解操作以转换文本数据中的代词。

上述中一种信号画像构建装置各模块的具体细节已经在对应的信号画像构建方法中进行了详细的描述，因此此处不再赘述。

再一方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例所述的信号画像构建方法。

具体地，上述存储器和处理器能够为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机可读指令时，能够执行上述实施例所述的信号画像构建方法。

又一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所述的信号画像构建方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-only memory，ROM)、随机存取器(randomaccessmemory，RAM)、磁盘或光盘等。

应该指出，上述详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请所述的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位，如旋转90度或处于其他方位，并且对这里所使用的空间相对描述作出相应解释。

在上面详细的说明中，参考了附图，附图形成本文的一部分。在附图中，类似的符号典型地确定类似的部件，除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下，其他实施方案可以被使用，并且可以作其他改变。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信号画像构建方法，其特征在于，包括：

从本地文件存放目录中获取报文文本以及文本类型标识；

对所述文本数据进行分句处理得到多个句子；

根据更新后的所述信号数据库构建信号画像。

2.根据权利要求1所述的信号画像构建方法，其特征在于，所述根据所述文本类型标识确认对应的文本解析工具，并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括：

根据所述文本类型标识获取文本解析标识；

根据所述文本解析标识确认相应的文本解析工具；

3.根据权利要求2所述的信号画像构建方法，其特征在于，所述根据所述文本类型标识确认相应的文本解析工具，并利用所述文本解析工具解析所述报文文本得到文本数据的步骤包括：

4.根据权利要求1所述的信号画像构建方法，其特征在于，所述对所述文本数据进行分句处理得到多个句子的步骤之前还包括：

5.根据权利要求1所述的信号画像构建方法，其特征在于，所述信号信息识别模型和所述信号关系提取模型均为深度学习识别模型，所述信号信息识别模型包括Bert-Embedding层和CRF层，所述信号关系提取模型包括Bert-Embedding层、CNN层及Self-Attention层。

6.一种信号画像构建装置，其特征在于，包括：

7.根据权利要求6所述的信号画像构建装置，其特征在于，所述文本解析模块包括：

8.根据权利要求6所述的信号画像构建装置，其特征在于，所述信号画像构建装置还包括：

9.一种电子设备，包括：处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至5中任一项所述的信号画像构建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的信号画像构建方法。