CN114610871A

CN114610871A - 基于人工智能算法的情报系统建模分析方法

Info

Publication number: CN114610871A
Application number: CN202210511565.0A
Authority: CN
Inventors: 张晟; 杨晓冬; 王吉平
Original assignee: Beijing Daoda Tianji Technology Co ltd
Current assignee: Beijing Daoda Tianji Technology Co ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-06-10
Anticipated expiration: 2042-05-12
Also published as: CN114610871B

Abstract

本发明涉及基于人工智能算法的情报系统建模分析方法，包括步骤：使用神经语言模型对模型文档进行分析，得到若干个词向量；对模型文档进行章节分解，获得模型文档对应的模型全文和n个章节，模型全文和n个章节中均包含若干词向量；通过LSTM循环神经网络对模型全文进行处理，生成全文思想向量c；通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理，生成章节思想向量cp；通过LSTM循环神经网络将对章节思想向量cp进行处理，生成模型摘要，实现意图解析。本方案使用的LSTM循环神经网络具有正确的意图解析，自动处理生成模型摘要，不仅能提高情报分析结果的准确性，还能减轻情报分析人员的时间、精力成本。

Description

基于人工智能算法的情报系统建模分析方法

技术领域

本发明涉及情报分析技术领域，特别涉及一种基于人工智能算法的情报系统建模分析方法。

背景技术

随着信息技术的发展，大量新技术应用于情报分析领域，情报的搜集能力得到了大幅提高。情报是决策的前提和基础，但并不是多多益善，因为如果超过了一定的界限，事情就可能走向反面，尤其是信息泛滥的今天。互联网各类信息铺天盖地，真假难辨，情报不经过分析是无法直接使用的，有价值的情报也必须通过分析才能得出。

情报分析实质上是一个信息选择和综合的过程，分析人员采用传统的分析方式通过常规搜索引擎获取数据，通过人工整理文档的方式管理数据等操作，耗费了大量的时间和精力，并且在此过程中积累的情报分析模型并不能直接在情报的搜集和分析的过程中使用，致使情报分析效果不理想。

情报分析领域已经大量地借鉴和应用了各类模型，情报分析模型也越来越走向计算化、智能化、全源化和模式化。然后情报分析模型如何真正用于实际的信息系统中，实现自动化、智能化，却存在比较大的难度，因为情报的业务建模没有一定之规，无法结构化，因此情报分析模型一般采用自然语言。但是，当前使用的情报分析模型在进行情报搜集和分析时面临如下几个问题：

一，如何让计算机读取情报分析模型，准确领会建模人员的意图。要实现情报搜集和分析的智能化，必须对模型进行意图解析，这种解析的正确性决定了最后情报分析结果的准确性。

二，对搜索到的情报如何进行分析，使其能够最大限度贴近原模型的需求，进而生成分析报告。信息技术对于情报搜集和分析产生了很大的促进作用，如可以使用关键词等进行快速搜索和分析，目前的情报搜索系统会不分良莠的将情报资料全部吸收进来，对情报分析人员的时间和精力造成巨大消耗。

因此，如何提高情报分析结果的准确性和减轻情报分析人员的时间、精力成本，是需要进一步改进的。

发明内容

本发明的目的在于提高情报分析结果的准确性和减轻情报分析人员的时间、精力成本，提供一种基于人工智能算法的情报系统建模分析方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

基于人工智能算法的情报系统建模分析方法，包括以下步骤：

步骤S1：使用情报分析模型进行情报搜集和分析，从而生成模型文档；

步骤S2：使用基于领域语料库训练的神经语言模型对模型文档进行分析，从而得到若干个词向量，所述神经语言模型为Word2Vec模型；对模型文档进行章节分解，从而获得模型文档对应的模型全文和n个章节，所述模型全文和n个章节中均包含若干词向量；

步骤S3：通过LSTM循环神经网络对所述模型全文进行处理，生成全文思想向量c；通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理，生成章节思想向量cp；

步骤S4：通过LSTM循环神经网络将对章节思想向量cp进行处理，生成模型摘要，实现意图解析。

在上述方案中，使用现有的情报分析模型获取情报，但此时获取的情报是杂乱无章、良莠不齐的，因此本方案接着对情报分析模型所获取的情况进行处理，处理过程为先将情报（即模型文档）分解为若干词向量，再通过LSTM循环神经网络对这些词向量进行自动处理后，生成模型摘要，从模型摘要中即能得出关键性的情报。LSTM循环神经网络具有正确的意图解析，自动处理生成模型摘要，不仅能提高情报分析结果的准确性，还能减轻情报分析人员的时间、精力成本。

所述步骤S1具体包括以下步骤：利用情报分析模型根据用户分析需求建立任务节点，为各个情报分析模型建立的节点设置工作内容，工作内容可以为搜索内容、搜索范围、分析方法等，从而形成一个分析链路，该分析链路即为模型文档。

所述步骤S3之前还包括步骤：对LSTM循环神经网络进行训练：

所述LSTM循环神经网络包括编码器、解码器；

向LSTM循环神经网络的编码器依次输入词向量训练集X={x_t}，t∈N，N为大于等于1的整数，x_t表示在t时刻输入编码器的词向量；在t=1时，向编码器输入第一初始隐状态h₀和x₁，编码器输出此时刻的隐状态h₁；在t>1时，向编码器输入上一时刻的隐状态h_t-1和此时刻的词向量x_t，编码器输出此时刻的隐状态h_t；直到所有的词向量x_t都输入编码器完毕，最后编码器输出第N个时刻的隐状态h_N；

向LSTM循环神经网络的解码器依次输入预测值训练集Y={y_t`}，t`∈M，M为大于等于1的整数，y_t`表示在t`时刻输入解码器的预测值；在t`=1时，向解码器输入第二初始隐状态h`₀和初始预测值y₁，所述第二初始隐状态h`₀为编码器输出第N个时刻的隐状态h_N，初始预测值y₁为自定义值<bos>，解码器输出此时刻的隐状态h`₁和下一次时刻的预测值y₂；在t`>1时，向解码器输入上一时刻的隐状态h`_t`-1和此时刻的预测值y_t`，解码器输出此时刻的隐状态h`_t`和下一时刻的预测值y_t`+1；直到所有的预测值y_t`都输入解码器，或直到解码器输出自定义预测值y_t`+1=<eos>；

从而获得训练好的编码器、训练好的解码器。

在上述方案中，收集大量的词向量作为训练集对LSTM循环神经网络的编码器和解码器进行训练，使得LSTM循环神经网络能够具有正确的意图解析。

所述通过LSTM循环神经网络对所述模型全文进行处理，生成全文思想向量c的步骤，包括：

所述LSTM循环神经网络包括训练好的编码器、训练好的解码器；

所述模型全文中包含T个词向量x，将词向量X={x_t}依次输入编码器，t∈T，T为大于等于1的整数，x_t表示在t时刻输入编码器的词向量；当t=1时，向训练好的编码器输入第一初始隐状态h₀词向量x₁，编码器输出此时刻的隐状态h₁；当t>1时，向编码器输入上一时刻的隐状态h_t-1和此时刻的词向量x_t，编码器输出此时刻的隐状态h_t；直到所有词向量x_t都输入编码器后，得到第T个时刻的隐状态h_T；

重新计时，将预测词Y={y_t`}依次输入解码器，t`∈T`，T`为大于等于1的整数，y_t`表示在t`时刻输入解码器的预测值；当t`=1时，向训练好的解码器输入第二初始隐状态h`₀和初始预测值y₁，所述第二初始隐状态h`₀为编码器输出的隐状态h_T，初始预测值y₁为自定义值<bos>，解码器输出此时刻的隐状态h`₁和下一时刻的预测值y₂；在t`>1时，向解码器输入上一时刻的隐状态h`_t`-1和此时刻的预测值y_t`，解码器输出此时刻的隐状态h`_t`和下一时刻的预测值y_t`+1；直到达到T`时刻，或直到解码器输出自定义预测值y_t`+1=<eos>；

根据编码器和解码器输出的隐状态生成全文思想向量c。

在上述方案中，使用训练好的LSTM循环神经网络对模型全文进行处理，生成全文思想向量c。

所述根据编码器和解码器输出的隐状态生成全文思想向量c的步骤，包括：在解码器的第t`时刻可生成全文思想向量c_t`：

其中，

表示第t`时刻的全文思想向量c_t`的权重，i为编码器的第i个时刻，h_i为编码器第i个时刻输出的隐状态；

权重

的计算：

通过解码器第t`时刻输出的隐状态h`_t`和编码器每个时刻输出的隐状态h_i计算得分

；得分经过softmax处理后，将

转换为

；

得到全文思想向量c={c_t`}，t`∈T`。

所述通过解码器第t`时刻输出的隐状态h`_t`和编码器每个时刻输出的隐状态h_i计算得分

的步骤包括：

其中，

、

、

表示可学习参数，将h`_t`和h_i结合起来输入多层感知机中得到得分，tanh为激活函数。

所述通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理，生成章节思想向量cp的步骤，包括：

基于全文思想向量c分析n个章节，n个章节中包含K个词向量x，将词向量X={x_k}，k∈K，K为大于等于1的整数，x_k表示在k时刻输入编码器的词向量；当k=1时，向训练好的编码器输入第三初始隐状态g₀和词向量x₁，编码器输出此时刻的隐状g₁；当k>1时，向编码器输入上一时刻的隐状态g_k-1和此时刻的词向量x_k，编码器输出此时刻的隐状态g_k；直到所有的词向量x_k都输入编码器后，得到第K个时刻的隐状态g_K；

重新计时，将预测词Y={y_k`}依次输入解码器，k`∈K`，K`为大于等于1的整数，y_k`表示在k`时刻输入解码器的预测值；当k`=1时，向训练好的解码器输入第四初始隐状态g`₀和初始预测值y₁，所述第四初始隐状态g`₀为编码器输出的隐状态g_K，初始预测值y₁为自定义值<bos>，解码器输出此时刻的隐状态g`₁和下一时刻的预测值y₂；在k`>1时，向解码器输入上一时刻的隐状态g`_k`-1和此时刻的预测值y_k`，解码器输出此时刻的隐状态g`_k`和下一时刻的预测值y_k`-1；直到达到K`时刻，或直到解码器输出自定义预测值y_k`+1=<eos>；

根据编码器和解码器输出的隐状态生成章节思想向量cp。

在上述方案中，使用全文思想向量c分析n个章节中的词向量，再使用训练好的LSTM循环神经网络对n个章节中的词向量进行处理，生成章节思想向量cp。

所述根据编码器和解码器输出的隐状态生成章节思想向量cp的步骤，包括：在解码器的第k`时刻可生成章节思想向量cp_k`：

其中，

表示在第k`时刻的章节思想向量cp_k`的权重，j为编码器的第j个时刻，g_j为编码器第j个时刻输出的隐状态；

权重

的计算：

通过解码器第k`时刻输出的隐状态g`_k`和编码器每个时刻输出的隐状态g_j计算得分

；得分经过softmax处理后，将

转换为

；

得到章节思想向量cp={cp_k`}，k`∈K`。

所述通过解码器第k`时刻输出的隐状态g`_k`和编码器每个时刻输出的隐状态g_j计算得分

的步骤，包括：

其中，

、

、

表示可学习参数，将g`_k`和g_j结合起来输入多层感知机中得到得分，tanh为激活函数。

所述通过LSTM循环神经网络将对章节思想向量cp进行处理，生成模型摘要，实现意图解析的步骤，包括：

在解码器的第k`时刻，将章节思想向量cp_k`和解码器输出的隐状态g`_k`拼接在一起后输入全连接层，再经过softmax得到摘要：

其中，Pvocab表示章节思想向量cp_k`对应的概率值，选择k`时刻概率值最大的章节思想向量cp_k`作为该时刻的章节p；

从而生成模型章节P={p_k`}，k`∈K`。

在上述方案中，根据生成的章节思想向量cp，获得最终的模型摘要。

与现有技术相比，本发明的有益效果：

本方案使用的LSTM循环神经网络具有正确的意图解析，自动处理生成模型摘要，不仅能提高情报分析结果的准确性，还能减轻情报分析人员的时间、精力成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明方法流程图；

图2为本发明实施例对LSTM循环神经网络的训练过程；

图3为本发明实施例使用LSTM循环神经网络对模型全文的处理过程；

图4为本发明实施例使用LSTM循环神经网络对n个章节的处理过程。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

实施例1：

本发明通过下述技术方案实现，基于人工智能算法的情报系统建模分析方法，包括以下步骤：

步骤S1：使用情报分析模型进行情报搜集和分析，从而生成模型文档。

利用现有的情报分析模型根据用户分析需求建立任务节点，为各个情报分析模型建立的节点设置工作内容，工作内容可以为搜索内容、搜索范围、分析方法等，从而形成一个分析链路，该分析链路即为模型文档。

步骤S2：使用基于领域语料库训练的神经语言模型对模型文档进行分析，从而得到若干个词向量，所述神经语言模型为Word2Vec模型；对模型文档进行章节分解，从而获得模型文档对应的模型全文和n个章节，所述模型全文和n个章节中均包含若干词向量。

本步骤对模型文档进行分析，目的是将模型文档分解为由若干词向量组成的模型全文和n个章节，也就是说，模型全文如果由T个词向量组成，n个章节由K`个词向量组成，那么模型文档即由T+K`个词向量组成。但是在步骤S3时，会根据生成的全文思想向量c对K`个词向量组成的n个章节进行修正，比如将n个章节中包含的K`个词向量修正为K个词向量，加入了模型全文的思想意图。

步骤S3：通过LSTM循环神经网络对所述模型全文进行处理，生成全文思想向量c；通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理，生成章节思想向量cp。

在使用LSTM循环神经网络对模型全文进行处理之前，需要对LSTM循环神经网络进行训练，所述LSTM循环神经网络包括编码器和解码器。在训练时，首先收集大量的词向量，这些词向量可以是行业内通用的词、生活中常用的词、领域内的专业术语等，这里不做限定。

请参见图2，大量的词向量形成训练集X={x_t}，t∈N，N为大于等于1的整数，表示为词向量的数量，将训练集X中的N个词向量依次输入LSTM循环神经网络的编码器，第一个输入编码器的词向量为x₁，即t=1；最后一个输入编码器的词向量为x_N，即t=N，也就是说，x_t表示在t时刻输入编码器的词向量。

在t=1时，向编码器输入第一初始始隐状态h₀和x₁，编码器输出此时刻的隐状态h₁；在t>1时，向编码器输入上一时刻的隐状态h_t-1和此时刻的词向量x_t，编码器输出此时刻的隐状态h_t；直到所有的词向量x_t都输入编码器完毕，最后编码器输出第N个时刻的隐状态h_N。需要说明的是，第一初始始隐状态h₀为用户自定义设置的，可根据实际情况设置。

接着，向LSTM循环神经网络的解码器依次输入预测值训练集Y={y_t`}，t`∈M，M为大于等于1的整数，y_t`表示在t`时刻输入解码器的预测值，预测值y_t`由解码器依次输出得到。在t`=1时，向解码器输入第二初始隐状态h`₀和初始预测值y₁，所述第二初始隐状态h`₀为编码器输出第N个时刻的隐状态h_N，初始预测值y₁为用户的自定义值<bos>，解码器输出此时刻的隐状态h`₁和下一次时刻的预测值y₂；在t`>1时，向解码器输入上一时刻的隐状态h`_t`-1和此时刻的预测值y_t`，解码器输出此时刻的隐状态h`_t`和下一时刻的预测值y_t`+1；直到所有的预测值y_t`都输入解码器且输出第M时刻的隐状态h`_M和下一时刻的预测值y_M+1，或直到解码器输出自定义预测值y_t`+1=<eos>。需要说明的是，第二初始隐状态h`₀为用户自定义设置的，可根据实际情况设置。

从而获得训练好的编码器、训练好的解码器。

请参见图3，假设模型全文由T个词向量x组成，将词向量X={x_t}依次输入编码器，t∈T，T为大于等于1的整数，x_t表示在t时刻输入编码器的词向量；当t=1时，向训练好的编码器输入第一初始隐状态h₀词向量x₁，编码器输出此时刻的隐状态h₁；当t>1时，向编码器输入上一时刻的隐状态h_t-1和此时刻的词向量x_t，编码器输出此时刻的隐状态h_t；直到所有词向量x_t都输入编码器后，得到第T个时刻的隐状态h_T。

重新计时，将预测词Y={y_t`}依次输入解码器，t`∈T`，T`为大于等于1的整数，y_t`表示在t`时刻输入解码器的预测值；当t`=1时，向训练好的解码器输入第二初始隐状态h`₀和初始预测值y₁，所述第二初始隐状态h`₀为编码器输出的隐状态h_T，初始预测值y₁为自定义值<bos>，解码器输出此时刻的隐状态h`₁和下一时刻的预测值y₂；在t`>1时，向解码器输入上一时刻的隐状态h`_t`-1和此时刻的预测值y_t`，解码器输出此时刻的隐状态h`_t`和下一时刻的预测值y_t`+1；直到达到T`时刻且输出此时刻的隐状态h`_T`和下一时刻的预测值y_T`+1，或直到解码器输出自定义预测值y_t`+1=<eos>。

根据编码器和解码器输出的隐状态生成全文思想向量c，在解码器的第t`时刻可生成全文思想向量c_t`：

其中，

权重

的计算：

：

其中，

、

、

得分经过softmax处理后，将

转换为

；得到全文思想向量c={c_t`}，t`∈T`。

请参见图4，使用全文思想向量c分析n个章节，假设n个章节由K个词向量x组成，对词向量X={x_k}的处理与对模型全文的处理是一样的，k∈K，K为大于等于1的整数，x_k表示在k时刻输入编码器的词向量。

当k=1时，向训练好的编码器输入第三初始隐状态g₀和词向量x₁，编码器输出此时刻的隐状g₁；当k>1时，向编码器输入上一时刻的隐状态g_k-1和此时刻的词向量x_k，编码器输出此时刻的隐状态g_k；直到所有的词向量x_k都输入编码器后，得到第K个时刻的隐状态g_K。需要说明的是，第三初始隐状态g₀为用户自定义设置的，可根据实际情况设置。

重新计时，将预测词Y={y_k`}依次输入解码器，k`∈K`，K`为大于等于1的整数，y_k`表示在k`时刻输入解码器的预测值；当k`=1时，向训练好的解码器输入第四初始隐状态g`₀和初始预测值y₁，所述第四初始隐状态g`₀为编码器输出的隐状态g_K，初始预测值y₁为自定义值<bos>，解码器输出此时刻的隐状态g`₁和下一时刻的预测值y₂；在k`>1时，向解码器输入上一时刻的隐状态g`_k`-1和此时刻的预测值y_k`，解码器输出此时刻的隐状态g`_k`和下一时刻的预测值y_k`-1；直到达到K`时刻且输出此时刻的隐状态g`_K`和下一时刻的预测值y_K`-1，或直到解码器输出自定义预测值y_k`+1=<eos>。需要说明的是，第四初始隐状态g`₀为用户自定义设置的，可根据实际情况设置。

根据编码器和解码器输出的隐状态生成章节思想向量cp，在解码器的第k`时刻可生成章节思想向量cp_k`：

其中，

权重

的计算：

：

其中，

、

、

得分经过softmax处理后，将

转换为

；得到章节思想向量cp={cp_k`}，k`∈K`。

从而生成模型章节P={p_k`}，k`∈K`。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。