CN114610871A - 基于人工智能算法的情报系统建模分析方法 - Google Patents

基于人工智能算法的情报系统建模分析方法 Download PDF

Info

Publication number
CN114610871A
CN114610871A CN202210511565.0A CN202210511565A CN114610871A CN 114610871 A CN114610871 A CN 114610871A CN 202210511565 A CN202210511565 A CN 202210511565A CN 114610871 A CN114610871 A CN 114610871A
Authority
CN
China
Prior art keywords
encoder
hidden state
decoder
moment
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210511565.0A
Other languages
English (en)
Other versions
CN114610871B (zh
Inventor
张晟
杨晓冬
王吉平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Daoda Tianji Technology Co ltd
Original Assignee
Beijing Daoda Tianji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Daoda Tianji Technology Co ltd filed Critical Beijing Daoda Tianji Technology Co ltd
Priority to CN202210511565.0A priority Critical patent/CN114610871B/zh
Publication of CN114610871A publication Critical patent/CN114610871A/zh
Application granted granted Critical
Publication of CN114610871B publication Critical patent/CN114610871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于人工智能算法的情报系统建模分析方法,包括步骤:使用神经语言模型对模型文档进行分析,得到若干个词向量;对模型文档进行章节分解,获得模型文档对应的模型全文和n个章节,模型全文和n个章节中均包含若干词向量;通过LSTM循环神经网络对模型全文进行处理,生成全文思想向量c;通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理,生成章节思想向量cp;通过LSTM循环神经网络将对章节思想向量cp进行处理,生成模型摘要,实现意图解析。本方案使用的LSTM循环神经网络具有正确的意图解析,自动处理生成模型摘要,不仅能提高情报分析结果的准确性,还能减轻情报分析人员的时间、精力成本。

Description

基于人工智能算法的情报系统建模分析方法
技术领域
本发明涉及情报分析技术领域,特别涉及一种基于人工智能算法的情报系统建模分析方法。
背景技术
随着信息技术的发展,大量新技术应用于情报分析领域,情报的搜集能力得到了大幅提高。情报是决策的前提和基础,但并不是多多益善,因为如果超过了一定的界限,事情就可能走向反面,尤其是信息泛滥的今天。互联网各类信息铺天盖地,真假难辨,情报不经过分析是无法直接使用的,有价值的情报也必须通过分析才能得出。
情报分析实质上是一个信息选择和综合的过程,分析人员采用传统的分析方式通过常规搜索引擎获取数据,通过人工整理文档的方式管理数据等操作,耗费了大量的时间和精力,并且在此过程中积累的情报分析模型并不能直接在情报的搜集和分析的过程中使用,致使情报分析效果不理想。
情报分析领域已经大量地借鉴和应用了各类模型,情报分析模型也越来越走向计算化、智能化、全源化和模式化。然后情报分析模型如何真正用于实际的信息系统中,实现自动化、智能化,却存在比较大的难度,因为情报的业务建模没有一定之规,无法结构化,因此情报分析模型一般采用自然语言。但是,当前使用的情报分析模型在进行情报搜集和分析时面临如下几个问题:
一,如何让计算机读取情报分析模型,准确领会建模人员的意图。要实现情报搜集和分析的智能化,必须对模型进行意图解析,这种解析的正确性决定了最后情报分析结果的准确性。
二,对搜索到的情报如何进行分析,使其能够最大限度贴近原模型的需求,进而生成分析报告。信息技术对于情报搜集和分析产生了很大的促进作用,如可以使用关键词等进行快速搜索和分析,目前的情报搜索系统会不分良莠的将情报资料全部吸收进来,对情报分析人员的时间和精力造成巨大消耗。
因此,如何提高情报分析结果的准确性和减轻情报分析人员的时间、精力成本,是需要进一步改进的。
发明内容
本发明的目的在于提高情报分析结果的准确性和减轻情报分析人员的时间、精力成本,提供一种基于人工智能算法的情报系统建模分析方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
基于人工智能算法的情报系统建模分析方法,包括以下步骤:
步骤S1:使用情报分析模型进行情报搜集和分析,从而生成模型文档;
步骤S2:使用基于领域语料库训练的神经语言模型对模型文档进行分析,从而得到若干个词向量,所述神经语言模型为Word2Vec模型;对模型文档进行章节分解,从而获得模型文档对应的模型全文和n个章节,所述模型全文和n个章节中均包含若干词向量;
步骤S3:通过LSTM循环神经网络对所述模型全文进行处理,生成全文思想向量c;通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理,生成章节思想向量cp;
步骤S4:通过LSTM循环神经网络将对章节思想向量cp进行处理,生成模型摘要,实现意图解析。
在上述方案中,使用现有的情报分析模型获取情报,但此时获取的情报是杂乱无章、良莠不齐的,因此本方案接着对情报分析模型所获取的情况进行处理,处理过程为先将情报(即模型文档)分解为若干词向量,再通过LSTM循环神经网络对这些词向量进行自动处理后,生成模型摘要,从模型摘要中即能得出关键性的情报。LSTM循环神经网络具有正确的意图解析,自动处理生成模型摘要,不仅能提高情报分析结果的准确性,还能减轻情报分析人员的时间、精力成本。
所述步骤S1具体包括以下步骤:利用情报分析模型根据用户分析需求建立任务节点,为各个情报分析模型建立的节点设置工作内容,工作内容可以为搜索内容、搜索范围、分析方法等,从而形成一个分析链路,该分析链路即为模型文档。
所述步骤S3之前还包括步骤:对LSTM循环神经网络进行训练:
所述LSTM循环神经网络包括编码器、解码器;
向LSTM循环神经网络的编码器依次输入词向量训练集X={xt},t∈N,N为大于等于1的整数,xt表示在t时刻输入编码器的词向量;在t=1时,向编码器输入第一初始隐状态h0和x1,编码器输出此时刻的隐状态h1;在t>1时,向编码器输入上一时刻的隐状态ht-1和此时刻的词向量xt,编码器输出此时刻的隐状态ht;直到所有的词向量xt都输入编码器完毕,最后编码器输出第N个时刻的隐状态hN
向LSTM循环神经网络的解码器依次输入预测值训练集Y={yt`},t`∈M,M为大于等于1的整数,yt`表示在t`时刻输入解码器的预测值;在t`=1时,向解码器输入第二初始隐状态h`0和初始预测值y1,所述第二初始隐状态h`0为编码器输出第N个时刻的隐状态hN,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态h`1和下一次时刻的预测值y2;在t`>1时,向解码器输入上一时刻的隐状态h`t`-1和此时刻的预测值yt`,解码器输出此时刻的隐状态h`t`和下一时刻的预测值yt`+1;直到所有的预测值yt`都输入解码器,或直到解码器输出自定义预测值yt`+1=<eos>;
从而获得训练好的编码器、训练好的解码器。
在上述方案中,收集大量的词向量作为训练集对LSTM循环神经网络的编码器和解码器进行训练,使得LSTM循环神经网络能够具有正确的意图解析。
所述通过LSTM循环神经网络对所述模型全文进行处理,生成全文思想向量c的步骤,包括:
所述LSTM循环神经网络包括训练好的编码器、训练好的解码器;
所述模型全文中包含T个词向量x,将词向量X={xt}依次输入编码器,t∈T,T为大于等于1的整数,xt表示在t时刻输入编码器的词向量;当t=1时,向训练好的编码器输入第一初始隐状态h0词向量x1,编码器输出此时刻的隐状态h1;当t>1时,向编码器输入上一时刻的隐状态ht-1和此时刻的词向量xt,编码器输出此时刻的隐状态ht;直到所有词向量xt都输入编码器后,得到第T个时刻的隐状态hT
重新计时,将预测词Y={yt`}依次输入解码器,t`∈T`,T`为大于等于1的整数,yt`表示在t`时刻输入解码器的预测值;当t`=1时,向训练好的解码器输入第二初始隐状态h`0和初始预测值y1,所述第二初始隐状态h`0为编码器输出的隐状态hT,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态h`1和下一时刻的预测值y2;在t`>1时,向解码器输入上一时刻的隐状态h`t`-1和此时刻的预测值yt`,解码器输出此时刻的隐状态h`t`和下一时刻的预测值yt`+1;直到达到T`时刻,或直到解码器输出自定义预测值yt`+1=<eos>;
根据编码器和解码器输出的隐状态生成全文思想向量c。
在上述方案中,使用训练好的LSTM循环神经网络对模型全文进行处理,生成全文思想向量c。
所述根据编码器和解码器输出的隐状态生成全文思想向量c的步骤,包括:在解码器的第t`时刻可生成全文思想向量ct`
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
表示第t`时刻的全文思想向量ct`的权重,i为编码器的第i个时刻,hi为编码器第i个时刻输出的隐状态;
权重
Figure 962002DEST_PATH_IMAGE002
的计算:
通过解码器第t`时刻输出的隐状态h`t`和编码器每个时刻输出的隐状态hi计算得分
Figure DEST_PATH_IMAGE003
;得分经过softmax处理后,将
Figure DEST_PATH_IMAGE004
转换为
Figure 941459DEST_PATH_IMAGE002
得到全文思想向量c={ct`},t`∈T`。
所述通过解码器第t`时刻输出的隐状态h`t`和编码器每个时刻输出的隐状态hi计算得分
Figure 504552DEST_PATH_IMAGE003
的步骤包括:
Figure DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
表示可学习参数,将h`t`和hi结合起来输入多层感知机中得到得分,tanh为激活函数。
所述通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理,生成章节思想向量cp的步骤,包括:
所述LSTM循环神经网络包括训练好的编码器、训练好的解码器;
基于全文思想向量c分析n个章节,n个章节中包含K个词向量x,将词向量X={xk},k∈K,K为大于等于1的整数,xk表示在k时刻输入编码器的词向量;当k=1时,向训练好的编码器输入第三初始隐状态g0和词向量x1,编码器输出此时刻的隐状g1;当k>1时,向编码器输入上一时刻的隐状态gk-1和此时刻的词向量xk,编码器输出此时刻的隐状态gk;直到所有的词向量xk都输入编码器后,得到第K个时刻的隐状态gK
重新计时,将预测词Y={yk`}依次输入解码器,k`∈K`,K`为大于等于1的整数,yk`表示在k`时刻输入解码器的预测值;当k`=1时,向训练好的解码器输入第四初始隐状态g`0和初始预测值y1,所述第四初始隐状态g`0为编码器输出的隐状态gK,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态g`1和下一时刻的预测值y2;在k`>1时,向解码器输入上一时刻的隐状态g`k`-1和此时刻的预测值yk`,解码器输出此时刻的隐状态g`k`和下一时刻的预测值yk`-1;直到达到K`时刻,或直到解码器输出自定义预测值yk`+1=<eos>;
根据编码器和解码器输出的隐状态生成章节思想向量cp。
在上述方案中,使用全文思想向量c分析n个章节中的词向量,再使用训练好的LSTM循环神经网络对n个章节中的词向量进行处理,生成章节思想向量cp。
所述根据编码器和解码器输出的隐状态生成章节思想向量cp的步骤,包括:在解码器的第k`时刻可生成章节思想向量cpk`
Figure DEST_PATH_IMAGE009
其中,
Figure DEST_PATH_IMAGE010
表示在第k`时刻的章节思想向量cpk`的权重,j为编码器的第j个时刻,gj为编码器第j个时刻输出的隐状态;
权重
Figure 775128DEST_PATH_IMAGE010
的计算:
通过解码器第k`时刻输出的隐状态g`k`和编码器每个时刻输出的隐状态gj计算得分
Figure DEST_PATH_IMAGE011
;得分经过softmax处理后,将
Figure DEST_PATH_IMAGE012
转换为
Figure 651817DEST_PATH_IMAGE010
得到章节思想向量cp={cpk`},k`∈K`。
所述通过解码器第k`时刻输出的隐状态g`k`和编码器每个时刻输出的隐状态gj计算得分
Figure 739859DEST_PATH_IMAGE011
的步骤,包括:
Figure DEST_PATH_IMAGE013
其中,
Figure 52897DEST_PATH_IMAGE006
Figure 517376DEST_PATH_IMAGE007
Figure 451834DEST_PATH_IMAGE008
表示可学习参数,将g`k`和gj结合起来输入多层感知机中得到得分,tanh为激活函数。
所述通过LSTM循环神经网络将对章节思想向量cp进行处理,生成模型摘要,实现意图解析的步骤,包括:
在解码器的第k`时刻,将章节思想向量cpk`和解码器输出的隐状态g`k`拼接在一起后输入全连接层,再经过softmax得到摘要:
Figure DEST_PATH_IMAGE014
其中,Pvocab表示章节思想向量cpk`对应的概率值,选择k`时刻概率值最大的章节思想向量cpk`作为该时刻的章节p;
从而生成模型章节P={pk`},k`∈K`。
在上述方案中,根据生成的章节思想向量cp,获得最终的模型摘要。
与现有技术相比,本发明的有益效果:
本方案使用的LSTM循环神经网络具有正确的意图解析,自动处理生成模型摘要,不仅能提高情报分析结果的准确性,还能减轻情报分析人员的时间、精力成本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明方法流程图;
图2为本发明实施例对LSTM循环神经网络的训练过程;
图3为本发明实施例使用LSTM循环神经网络对模型全文的处理过程;
图4为本发明实施例使用LSTM循环神经网络对n个章节的处理过程。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
实施例1:
本发明通过下述技术方案实现,基于人工智能算法的情报系统建模分析方法,包括以下步骤:
步骤S1:使用情报分析模型进行情报搜集和分析,从而生成模型文档。
利用现有的情报分析模型根据用户分析需求建立任务节点,为各个情报分析模型建立的节点设置工作内容,工作内容可以为搜索内容、搜索范围、分析方法等,从而形成一个分析链路,该分析链路即为模型文档。
步骤S2:使用基于领域语料库训练的神经语言模型对模型文档进行分析,从而得到若干个词向量,所述神经语言模型为Word2Vec模型;对模型文档进行章节分解,从而获得模型文档对应的模型全文和n个章节,所述模型全文和n个章节中均包含若干词向量。
本步骤对模型文档进行分析,目的是将模型文档分解为由若干词向量组成的模型全文和n个章节,也就是说,模型全文如果由T个词向量组成,n个章节由K`个词向量组成,那么模型文档即由T+K`个词向量组成。但是在步骤S3时,会根据生成的全文思想向量c对K`个词向量组成的n个章节进行修正,比如将n个章节中包含的K`个词向量修正为K个词向量,加入了模型全文的思想意图。
步骤S3:通过LSTM循环神经网络对所述模型全文进行处理,生成全文思想向量c;通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理,生成章节思想向量cp。
在使用LSTM循环神经网络对模型全文进行处理之前,需要对LSTM循环神经网络进行训练,所述LSTM循环神经网络包括编码器和解码器。在训练时,首先收集大量的词向量,这些词向量可以是行业内通用的词、生活中常用的词、领域内的专业术语等,这里不做限定。
请参见图2,大量的词向量形成训练集X={xt},t∈N,N为大于等于1的整数,表示为词向量的数量,将训练集X中的N个词向量依次输入LSTM循环神经网络的编码器,第一个输入编码器的词向量为x1,即t=1;最后一个输入编码器的词向量为xN,即t=N,也就是说,xt表示在t时刻输入编码器的词向量。
在t=1时,向编码器输入第一初始始隐状态h0和x1,编码器输出此时刻的隐状态h1;在t>1时,向编码器输入上一时刻的隐状态ht-1和此时刻的词向量xt,编码器输出此时刻的隐状态ht;直到所有的词向量xt都输入编码器完毕,最后编码器输出第N个时刻的隐状态hN。需要说明的是,第一初始始隐状态h0为用户自定义设置的,可根据实际情况设置。
接着,向LSTM循环神经网络的解码器依次输入预测值训练集Y={yt`},t`∈M,M为大于等于1的整数,yt`表示在t`时刻输入解码器的预测值,预测值yt`由解码器依次输出得到。在t`=1时,向解码器输入第二初始隐状态h`0和初始预测值y1,所述第二初始隐状态h`0为编码器输出第N个时刻的隐状态hN,初始预测值y1为用户的自定义值<bos>,解码器输出此时刻的隐状态h`1和下一次时刻的预测值y2;在t`>1时,向解码器输入上一时刻的隐状态h`t`-1和此时刻的预测值yt`,解码器输出此时刻的隐状态h`t`和下一时刻的预测值yt`+1;直到所有的预测值yt`都输入解码器且输出第M时刻的隐状态h`M和下一时刻的预测值yM+1,或直到解码器输出自定义预测值yt`+1=<eos>。需要说明的是,第二初始隐状态h`0为用户自定义设置的,可根据实际情况设置。
从而获得训练好的编码器、训练好的解码器。
请参见图3,假设模型全文由T个词向量x组成,将词向量X={xt}依次输入编码器,t∈T,T为大于等于1的整数,xt表示在t时刻输入编码器的词向量;当t=1时,向训练好的编码器输入第一初始隐状态h0词向量x1,编码器输出此时刻的隐状态h1;当t>1时,向编码器输入上一时刻的隐状态ht-1和此时刻的词向量xt,编码器输出此时刻的隐状态ht;直到所有词向量xt都输入编码器后,得到第T个时刻的隐状态hT
重新计时,将预测词Y={yt`}依次输入解码器,t`∈T`,T`为大于等于1的整数,yt`表示在t`时刻输入解码器的预测值;当t`=1时,向训练好的解码器输入第二初始隐状态h`0和初始预测值y1,所述第二初始隐状态h`0为编码器输出的隐状态hT,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态h`1和下一时刻的预测值y2;在t`>1时,向解码器输入上一时刻的隐状态h`t`-1和此时刻的预测值yt`,解码器输出此时刻的隐状态h`t`和下一时刻的预测值yt`+1;直到达到T`时刻且输出此时刻的隐状态h`T`和下一时刻的预测值yT`+1,或直到解码器输出自定义预测值yt`+1=<eos>。
根据编码器和解码器输出的隐状态生成全文思想向量c,在解码器的第t`时刻可生成全文思想向量ct`
Figure 976357DEST_PATH_IMAGE001
其中,
Figure 996265DEST_PATH_IMAGE002
表示第t`时刻的全文思想向量ct`的权重,i为编码器的第i个时刻,hi为编码器第i个时刻输出的隐状态;
权重
Figure 998856DEST_PATH_IMAGE002
的计算:
通过解码器第t`时刻输出的隐状态h`t`和编码器每个时刻输出的隐状态hi计算得分
Figure 804132DEST_PATH_IMAGE003
Figure 499556DEST_PATH_IMAGE005
其中,
Figure 6761DEST_PATH_IMAGE006
Figure 547463DEST_PATH_IMAGE007
Figure 722093DEST_PATH_IMAGE008
表示可学习参数,将h`t`和hi结合起来输入多层感知机中得到得分,tanh为激活函数。
得分经过softmax处理后,将
Figure 57259DEST_PATH_IMAGE004
转换为
Figure 51760DEST_PATH_IMAGE002
;得到全文思想向量c={ct`},t`∈T`。
请参见图4,使用全文思想向量c分析n个章节,假设n个章节由K个词向量x组成,对词向量X={xk}的处理与对模型全文的处理是一样的,k∈K,K为大于等于1的整数,xk表示在k时刻输入编码器的词向量。
当k=1时,向训练好的编码器输入第三初始隐状态g0和词向量x1,编码器输出此时刻的隐状g1;当k>1时,向编码器输入上一时刻的隐状态gk-1和此时刻的词向量xk,编码器输出此时刻的隐状态gk;直到所有的词向量xk都输入编码器后,得到第K个时刻的隐状态gK。需要说明的是,第三初始隐状态g0为用户自定义设置的,可根据实际情况设置。
重新计时,将预测词Y={yk`}依次输入解码器,k`∈K`,K`为大于等于1的整数,yk`表示在k`时刻输入解码器的预测值;当k`=1时,向训练好的解码器输入第四初始隐状态g`0和初始预测值y1,所述第四初始隐状态g`0为编码器输出的隐状态gK,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态g`1和下一时刻的预测值y2;在k`>1时,向解码器输入上一时刻的隐状态g`k`-1和此时刻的预测值yk`,解码器输出此时刻的隐状态g`k`和下一时刻的预测值yk`-1;直到达到K`时刻且输出此时刻的隐状态g`K`和下一时刻的预测值yK`-1,或直到解码器输出自定义预测值yk`+1=<eos>。需要说明的是,第四初始隐状态g`0为用户自定义设置的,可根据实际情况设置。
根据编码器和解码器输出的隐状态生成章节思想向量cp,在解码器的第k`时刻可生成章节思想向量cpk`
Figure 732290DEST_PATH_IMAGE009
其中,
Figure 495846DEST_PATH_IMAGE010
表示在第k`时刻的章节思想向量cpk`的权重,j为编码器的第j个时刻,gj为编码器第j个时刻输出的隐状态;
权重
Figure 533072DEST_PATH_IMAGE010
的计算:
通过解码器第k`时刻输出的隐状态g`k`和编码器每个时刻输出的隐状态gj计算得分
Figure 749290DEST_PATH_IMAGE011
Figure 897375DEST_PATH_IMAGE013
其中,
Figure 515438DEST_PATH_IMAGE006
Figure 723565DEST_PATH_IMAGE007
Figure 177811DEST_PATH_IMAGE008
表示可学习参数,将g`k`和gj结合起来输入多层感知机中得到得分,tanh为激活函数。
得分经过softmax处理后,将
Figure 864008DEST_PATH_IMAGE012
转换为
Figure 602157DEST_PATH_IMAGE010
;得到章节思想向量cp={cpk`},k`∈K`。
步骤S4:通过LSTM循环神经网络将对章节思想向量cp进行处理,生成模型摘要,实现意图解析。
在解码器的第k`时刻,将章节思想向量cpk`和解码器输出的隐状态g`k`拼接在一起后输入全连接层,再经过softmax得到摘要:
Figure 981185DEST_PATH_IMAGE014
其中,Pvocab表示章节思想向量cpk`对应的概率值,选择k`时刻概率值最大的章节思想向量cpk`作为该时刻的章节p;
从而生成模型章节P={pk`},k`∈K`。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.基于人工智能算法的情报系统建模分析方法,其特征在于:包括以下步骤:
步骤S1:使用情报分析模型进行情报搜集和分析,从而生成模型文档;
步骤S2:使用基于领域语料库训练的神经语言模型对模型文档进行分析,从而得到若干个词向量,所述神经语言模型为Word2Vec模型;对模型文档进行章节分解,从而获得模型文档对应的模型全文和n个章节,所述模型全文和n个章节中均包含若干词向量;
步骤S3:通过LSTM循环神经网络对所述模型全文进行处理,生成全文思想向量c;通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理,生成章节思想向量cp;
步骤S4:通过LSTM循环神经网络将对章节思想向量cp进行处理,生成模型摘要,实现意图解析。
2.根据权利要求1所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述步骤S1具体包括以下步骤:利用情报分析模型根据用户分析需求建立任务节点,为各个情报分析模型建立的节点设置工作内容,工作内容可以为搜索内容、搜索范围、分析方法等,从而形成一个分析链路,该分析链路即为模型文档。
3.根据权利要求1所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述步骤S3之前还包括步骤:对LSTM循环神经网络进行训练:
所述LSTM循环神经网络包括编码器、解码器;
向LSTM循环神经网络的编码器依次输入词向量训练集X={xt},t∈N,N为大于等于1的整数,xt表示在t时刻输入编码器的词向量;在t=1时,向编码器输入第一初始隐状态h0和x1,编码器输出此时刻的隐状态h1;在t>1时,向编码器输入上一时刻的隐状态ht-1和此时刻的词向量xt,编码器输出此时刻的隐状态ht;直到所有的词向量xt都输入编码器完毕,最后编码器输出第N个时刻的隐状态hN
向LSTM循环神经网络的解码器依次输入预测值训练集Y={yt`},t`∈M,M为大于等于1的整数,yt`表示在t`时刻输入解码器的预测值;在t`=1时,向解码器输入第二初始隐状态h`0和初始预测值y1,所述第二初始隐状态h`0为编码器输出第N个时刻的隐状态hN,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态h`1和下一次时刻的预测值y2;在t`>1时,向解码器输入上一时刻的隐状态h`t`-1和此时刻的预测值yt`,解码器输出此时刻的隐状态h`t`和下一时刻的预测值yt`+1;直到所有的预测值yt`都输入解码器,或直到解码器输出自定义预测值yt`+1=<eos>;
从而获得训练好的编码器、训练好的解码器。
4.根据权利要求1所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述通过LSTM循环神经网络对所述模型全文进行处理,生成全文思想向量c的步骤,包括:
所述LSTM循环神经网络包括训练好的编码器、训练好的解码器;
所述模型全文中包含T个词向量x,将词向量X={xt}依次输入编码器,t∈T,T为大于等于1的整数,xt表示在t时刻输入编码器的词向量;当t=1时,向训练好的编码器输入第一初始隐状态h0词向量x1,编码器输出此时刻的隐状态h1;当t>1时,向编码器输入上一时刻的隐状态ht-1和此时刻的词向量xt,编码器输出此时刻的隐状态ht;直到所有词向量xt都输入编码器后,得到第T个时刻的隐状态hT
重新计时,将预测词Y={yt`}依次输入解码器,t`∈T`,T`为大于等于1的整数,yt`表示在t`时刻输入解码器的预测值;当t`=1时,向训练好的解码器输入第二初始隐状态h`0和初始预测值y1,所述第二初始隐状态h`0为编码器输出的隐状态hT,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态h`1和下一时刻的预测值y2;在t`>1时,向解码器输入上一时刻的隐状态h`t`-1和此时刻的预测值yt`,解码器输出此时刻的隐状态h`t`和下一时刻的预测值yt`+1;直到达到T`时刻,或直到解码器输出自定义预测值yt`+1=<eos>;
根据编码器和解码器输出的隐状态生成全文思想向量c。
5.根据权利要求4所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述根据编码器和解码器输出的隐状态生成全文思想向量c的步骤,包括:在解码器的第t`时刻可生成全文思想向量ct`
Figure 123974DEST_PATH_IMAGE001
其中,
Figure 509956DEST_PATH_IMAGE002
表示第t`时刻的全文思想向量ct`的权重,i为编码器的第i个时刻,hi为编码器第i个时刻输出的隐状态;
权重
Figure 758535DEST_PATH_IMAGE002
的计算:
通过解码器第t`时刻输出的隐状态h`t`和编码器每个时刻输出的隐状态hi计算得分
Figure 622586DEST_PATH_IMAGE003
;得分经过softmax处理后,将
Figure 420646DEST_PATH_IMAGE004
转换为
Figure 711950DEST_PATH_IMAGE002
得到全文思想向量c={ct`},t`∈T`。
6.根据权利要求5所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述通过解码器第t`时刻输出的隐状态h`t`和编码器每个时刻输出的隐状态hi计算得分
Figure 447825DEST_PATH_IMAGE003
的步骤包括:
Figure 115567DEST_PATH_IMAGE005
其中,
Figure 4019DEST_PATH_IMAGE006
Figure 466225DEST_PATH_IMAGE007
Figure 892658DEST_PATH_IMAGE008
表示可学习参数,将h`t`和hi结合起来输入多层感知机中得到得分,tanh为激活函数。
7.根据权利要求1所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述通过LSTM循环神经网络基于全文思想向量c对n个章节进行处理,生成章节思想向量cp的步骤,包括:
所述LSTM循环神经网络包括训练好的编码器、训练好的解码器;
基于全文思想向量c分析n个章节,n个章节中包含K个词向量x,将词向量X={xk},k∈K,K为大于等于1的整数,xk表示在k时刻输入编码器的词向量;当k=1时,向训练好的编码器输入第三初始隐状态g0和词向量x1,编码器输出此时刻的隐状g1;当k>1时,向编码器输入上一时刻的隐状态gk-1和此时刻的词向量xk,编码器输出此时刻的隐状态gk;直到所有的词向量xk都输入编码器后,得到第K个时刻的隐状态gK
重新计时,将预测词Y={yk`}依次输入解码器,k`∈K`,K`为大于等于1的整数,yk`表示在k`时刻输入解码器的预测值;当k`=1时,向训练好的解码器输入第四初始隐状态g`0和初始预测值y1,所述第四初始隐状态g`0为编码器输出的隐状态gK,初始预测值y1为自定义值<bos>,解码器输出此时刻的隐状态g`1和下一时刻的预测值y2;在k`>1时,向解码器输入上一时刻的隐状态g`k`-1和此时刻的预测值yk`,解码器输出此时刻的隐状态g`k`和下一时刻的预测值yk`-1;直到达到K`时刻,或直到解码器输出自定义预测值yk`+1=<eos>;
根据编码器和解码器输出的隐状态生成章节思想向量cp。
8.根据权利要求7所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述根据编码器和解码器输出的隐状态生成章节思想向量cp的步骤,包括:在解码器的第k`时刻可生成章节思想向量cpk`
Figure 347779DEST_PATH_IMAGE009
其中,
Figure 340006DEST_PATH_IMAGE010
表示在第k`时刻的章节思想向量cpk`的权重,j为编码器的第j个时刻,gj为编码器第j个时刻输出的隐状态;
权重
Figure 238692DEST_PATH_IMAGE010
的计算:
通过解码器第k`时刻输出的隐状态g`k`和编码器每个时刻输出的隐状态gj计算得分
Figure 949159DEST_PATH_IMAGE011
;得分经过softmax处理后,将
Figure 464364DEST_PATH_IMAGE012
转换为
Figure 576677DEST_PATH_IMAGE010
得到章节思想向量cp={cpk`},k`∈K`。
9.根据权利要求8所述的基于人工智能算法的情报系统建模分析方法,其特征在于:所述通过解码器第k`时刻输出的隐状态g`k`和编码器每个时刻输出的隐状态gj计算得分
Figure 380684DEST_PATH_IMAGE011
的步骤,包括:
Figure 578448DEST_PATH_IMAGE013
其中,
Figure 375371DEST_PATH_IMAGE006
Figure 342190DEST_PATH_IMAGE007
Figure 582679DEST_PATH_IMAGE008
表示可学习参数,将g`k`和gj结合起来输入多层感知机中得到得分,tanh为激活函数。
CN202210511565.0A 2022-05-12 2022-05-12 基于人工智能算法的情报系统建模分析方法 Active CN114610871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210511565.0A CN114610871B (zh) 2022-05-12 2022-05-12 基于人工智能算法的情报系统建模分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210511565.0A CN114610871B (zh) 2022-05-12 2022-05-12 基于人工智能算法的情报系统建模分析方法

Publications (2)

Publication Number Publication Date
CN114610871A true CN114610871A (zh) 2022-06-10
CN114610871B CN114610871B (zh) 2022-07-08

Family

ID=81870419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210511565.0A Active CN114610871B (zh) 2022-05-12 2022-05-12 基于人工智能算法的情报系统建模分析方法

Country Status (1)

Country Link
CN (1) CN114610871B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970553A (zh) * 2022-07-29 2022-08-30 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726281A (zh) * 2018-12-12 2019-05-07 Tcl集团股份有限公司 一种文本摘要生成方法、智能终端及存储介质
CN110134782A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法
WO2020261234A1 (en) * 2019-06-28 2020-12-30 Tata Consultancy Services Limited System and method for sequence labeling using hierarchical capsule based neural network
CN113609284A (zh) * 2021-08-02 2021-11-05 河南大学 一种融合多元语义的文本摘要自动生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726281A (zh) * 2018-12-12 2019-05-07 Tcl集团股份有限公司 一种文本摘要生成方法、智能终端及存储介质
CN110134782A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
WO2020261234A1 (en) * 2019-06-28 2020-12-30 Tata Consultancy Services Limited System and method for sequence labeling using hierarchical capsule based neural network
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法
CN113609284A (zh) * 2021-08-02 2021-11-05 河南大学 一种融合多元语义的文本摘要自动生成方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970553A (zh) * 2022-07-29 2022-08-30 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备
CN114970553B (zh) * 2022-07-29 2022-11-08 北京道达天际科技股份有限公司 基于大规模无标注语料的情报分析方法、装置及电子设备

Also Published As

Publication number Publication date
CN114610871B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
CN112270379A (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN111222332A (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN111159407A (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN110825848A (zh) 一种基于短语向量的文本分类方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN111831783B (zh) 一种篇章级关系抽取方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN114896386A (zh) 基于BiLSTM的电影评论语义情感分析方法及系统
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN114610871B (zh) 基于人工智能算法的情报系统建模分析方法
CN113127716B (zh) 一种基于显著性图的情感时间序列异常检测方法
CN109979461A (zh) 一种语音翻译方法及装置
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN117350898A (zh) 专利年费智能预警系统及方法
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
CN111309849A (zh) 一种基于联合学习模型的细粒度数值信息抽取方法
CN113643141B (zh) 解释性结论报告生成方法、装置、设备及存储介质
CN115630223A (zh) 基于多模型融合的服务推荐方法及推荐系统
CN113297385A (zh) 基于改进GraphRNN的多标签文本分类模型及分类方法
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
Divya et al. An Empirical Study on Fake News Detection System using Deep and Machine Learning Ensemble Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100085 room 703, 7 / F, block C, 8 malianwa North Road, Haidian District, Beijing

Patentee after: Beijing daoda Tianji Technology Co.,Ltd.

Address before: 100085 room 703, 7 / F, block C, 8 malianwa North Road, Haidian District, Beijing

Patentee before: Beijing daoda Tianji Technology Co.,Ltd.