CN114707517A - 一种基于开源数据事件抽取的目标跟踪方法 - Google Patents

一种基于开源数据事件抽取的目标跟踪方法 Download PDF

Info

Publication number
CN114707517A
CN114707517A CN202210347707.4A CN202210347707A CN114707517A CN 114707517 A CN114707517 A CN 114707517A CN 202210347707 A CN202210347707 A CN 202210347707A CN 114707517 A CN114707517 A CN 114707517A
Authority
CN
China
Prior art keywords
event
entity
events
story
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210347707.4A
Other languages
English (en)
Other versions
CN114707517B (zh
Inventor
成清
黄金才
程光权
冯旸赫
张小可
黄魁华
杜航
吴克宇
范长俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210347707.4A priority Critical patent/CN114707517B/zh
Publication of CN114707517A publication Critical patent/CN114707517A/zh
Application granted granted Critical
Publication of CN114707517B publication Critical patent/CN114707517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于开源数据事件抽取的目标跟踪方法,检测出与情报语义相吻合的事件类型;提取目标名称及相关事件要素;整合目标名称、事件类型和事件要素得到结构化的事件对象;将目标实体与实体库中的实体进行对齐;合并等价事件使事件具有唯一性;依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件;依据事件的隐式语义信息聚合相同主题的事件为簇,将事件分到不同故事,并基于故事特征提取摘要形成故事主题;按目标对故事进行拆分,基于故事情节特征提取摘要形成故事情节主题;追踪主题事件的演化过程,并通过绘制故事情节事件线可视化目标跟踪过程。本发明可基于主题事件脉络自动准确地追踪目标的活动过程。

Description

一种基于开源数据事件抽取的目标跟踪方法
技术领域
本发明属于情报分析技术领域,尤其涉及一种基于开源数据事件抽取的目标跟踪方法。
背景技术
在互联网时代背景下,高质量的新闻网站平台以及热门社交平台拥有庞大的用户群体,同时也为情报分析提供了大量可实时获取的碎片化文本数据,使得实现监测目标相关活动事件及其演化进程的快速追踪成为可能。
发明内容
有鉴于此,本发明提出了基于开源数据事件抽取的目标跟踪方法,包括以下步骤:
使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型;用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素;整合目标名称、事件类型和事件要素得到结构化的事件对象<S,t,L,e,A,I>,其中S是故事,为拥有相同主题的一系列事件的集合,t表示事件的发生时间,L表示事件的发生地点集合,e表示事件,A表示事件的其它核心要素集合,I表示描述事件的情报文本集合;
使用实体对齐方法将目标实体与实体库中的实体进行对齐,将目标分布映射到低维空间;
按目标和时间组合事件,并扫描各个事件组,根据地点是否相似判别事件的等价性,进而合并等价事件使事件具有唯一性;
针对事件唯一的事件组,依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件,即冲突事件,通过度量事件可信度剔除冲突事件中不可信的事件;
依据事件的隐式语义信息聚合相同主题的事件为簇,从而将事件分到不同故事,并基于故事特征提取摘要形成故事主题,便于用户了解整体故事内容;
按目标对故事进行拆分,得到故事子集形成目标相关的故事情节,基于故事情节特征提取摘要形成故事情节主题,用于概括情节整体内容;
以故事和故事情节为单位梳理时间脉络生成事件线,追踪主题事件的演化过程,并通过绘制故事情节事件线可视化目标跟踪过程。
进一步的,所述使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型,包括:
对情报数据进行抽样统计分析,定义事件类型标签集合{y1,y2,...},其中 y1,y2分别表示第1个和第2个事件类型标签;
对于情报文本数据集X={x1,x2,...,xn}进行事件类型标注,得到标签集 Y={y1,y2,...,yn},x1,x2,xn分别表示第1个、第2个和第n个情报文本,y1, y2,yn分别表示第1个、第2个和第n个事件类型标签;
将情报文本xi表示为字的排列,并在首尾加上特殊标识符,得到输入 xi=[[CLS],w1,w2,...,wm-1,wm,[SEP]],其中w1,w2,...,wm-1,wm分别表示第1、第2、第m-1,第m个字的排列;
将情报的事件类型标签yi转为one-hot编码;
构造EDLA模型ELDA(x,W,b),输入所述情报文本数据集X和所述标签集Y作为训练集(X,Y),进行迭代训练,调整(W,b),使损失函数
Figure RE-GDA0003619765580000021
Figure RE-GDA0003619765580000022
最小化,得到更新后的模型参数W,b,其中yi是真实值,yi是估计值,n为样本个数;所述EDLA模型包含输入层、预训练语言模型层、句子向量表示层、标签注意力层以及输出层;
给定情报文本x,输出预测的事件类型y=ELDA(x,W,b)。
进一步的,所述用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素,包括:
根据schema定义的事件元素类型构造问句,即将事件类型和事件元素类型通过一个特殊标识符“[AND]”连接;
将文本添加无答案的两个标识符“[START]”、“[END]”;
构造输入数据:将问句与文本拼接,并添加开头“[CLS]”和结尾标识符“[SEP]”;
将构造好的输入数据输入到BERT模型进行编码;
选择事件元素类型对应的编码输出使用注意力机制进行加权求和之后与到文本对应的编码输出进行合并;
将合并后的数据输入到BiLSTM模型,获取文本的方向信息;
在BiLSTM模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列;
根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案;
根据无答案标识符“[START]”、“[END]”过滤掉无答案的输入数据,筛选出含有答案的输入数据;
根据输入数据中问句含有的事件元素类型信息以及从文本中抽取的答案整理得到一段文本的事件元素类型信息、事件元素信息。
进一步的,所述整合目标名称、事件类型和事件要素得到结构化的事件对象包括:
基于文本特征降维算法对实体库R中的实体数据进行降维处理;
使用实体召回算法获得粗粒度水平的候选对齐实体;
针对候选实体,使用实体得分判定算法计算其与实体r的相似度得分,返回大于阈值的实体并组装为集合返回。
进一步的,使用实体对齐方法将目标实体与实体库中的实体进行对齐包括:
对实体库中的实体进行噪声剔除、数字归一化、机型归一化操作,将实体特征映射到更低维度空间,去除冗余特征;
基于规则快速召回候选实体,减小整个实体对齐算法的复杂度;
基于显示特征评估目标实体与备选实体的相似度,加权得到候选实体得分,输出得分高于阈值的候选实体作为对齐的对象;
其中,所述基于规则快速召回候选实体的步骤如下所示:
将实体库所有实体进行文本特征降维,获取实体库;
输入实体;
如果实体库中实体与输入实体相同直接输出实体库实体;如果实体库中实体与输入实体不同,进行如下处理:如果输入实体长度大于7,剔除输入实体后三个字和清洗后实体进行对比,当二者至少有两个字相同时,使用首字拼音匹配或前两个字拼音字母匹配,输出该实体库实体;如果输入实体长度在 [5,7],剔除输入实体后两个字和清洗后实体进行对比,当二者至少有两个字相同时,使用首字拼音匹配或前两个字拼音字母匹配,输出该实体库实体;如果输入实体长度在[3,5],输入实体和清洗后实体进行对比,当二者至少有两个字相同时,使用首字拼音匹配或前两个字拼音字母匹配,输出该实体库实体;如果输入实体长度在[0,3],输入实体和清洗后实体进行全匹配,若输入实体所有字符全部在实体库中实体中,输出该实体;
完成实体库初步筛选并对实体库和输入实体剔除后缀处理;
输出结果;
所述基于显示特征评估目标实体与备选实体的相似度,加权得到候选实体得分,输出得分较高或高于阈值的候选实体作为对齐的对象,包括:
对实体匹配实体库进行判断:若实体库为空,反馈{“null_enity”:0};若匹配实体不为空:计算最终得分:si=0.3*LCSSc(r,ri)+0.3*LCSSw(r,ri)+ 0.4*LCSSwin(r,ri,3),其中LCSSc(r,ri)为字数重合度,LCSSw(r,ri)为分词匹配度,LCSSwin(r,ri,3)为滑窗匹配度,其中r为实体,ri为第i个候选实体;
选取高于阈值的实体,输出最终的实体。
进一步的,所述按目标和时间组合事件,并扫描各个事件组,根据地点是否相似判别事件的等价性,进而合并等价事件使事件具有唯一性,包括:使用等价事件关联算法使用Siml(ei,ej)评估事件地点间的相似度:
若Li=Lj,则Siml(ei,ej)=1;
若Li,Lj存在相互包含关系,则Siml(ei,ej)=0.6;
其余情况,Siml(ei,ej)=0,
其中Li和Lj分别表示第i个和第j个事件的发生地点集合,ei和ej分别表示第i个和第j个事件。
进一步的,所述针对事件唯一的事件组,依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件,包括:
获得元素唯一的事件集合;
结合事件的论元结构归纳出不可能事件;
对每一种不可能事件设计规则检测出冲突事件;
结合事件情报来源的权威性以及事件在社交媒体上的提及次数,评估事件的可信度,并剔除冲突事件中可信度较小的事件。
进一步的,所述依据事件的隐式语义信息聚合相同主题的事件为簇,包括:
在预聚类阶段,依据显示语义信息使用DBSCAN聚类方法对事件进行分组,并提取事件的隐式语义特征;
在细聚类阶段,基于上一阶段提取的事件隐式语义特征使用LDA方法进一步将事件关联为故事;
所述DBSCAN聚类方法包括:
为事件集合E中每个事件e学习其情报文本的词向量表示we
基于词向量使用DBSCAN方法将事件聚到类成员
Figure RE-GDA0003619765580000061
中,其中P1,P2
Figure RE-GDA0003619765580000062
是第1个、第2个、第Ns个事件簇;定义DBSCAN的距离函数为:
Figure RE-GDA0003619765580000063
其中
Figure RE-GDA0003619765580000064
Figure RE-GDA0003619765580000065
分别表示第i个和第j个事件的词向量表示;
所述LDA方法包括:使用DBSCAN聚类结果初始化LDA主题模型中故事的词分布,即将属于同一预簇的事件的词向量赋给同一故事;
使用吉布斯采样推断LDA主题模型的参数、事件的故事向量;
将事件赋给概率最高的故事。
进一步的,所述按目标对故事进行拆分,得到故事子集形成目标相关的故事情节,包括:
将故事中所有事件的情报文本进行分句和整合得到故事情报句子集合,并学习每个句子的词向量表示V;
以句子为节点构建无向带权图,其中边的权重为句子间的余弦相似度;使用TextRank算法计算句子的排名,并将排名最高的两个句子拼接作为故事摘要输出。
本发明的有益效果是可基于主题事件脉络自动准确地追踪目标的活动过程。
附图说明
图1本发明目标跟踪方法的架构图;
图2本发明基于EDLA的事件检测模型的结构图;
图3本发明基于MRC的论元识别模型图;
图4本发明基于MRC的事件抽取方法预测流程图;
图5本发明基于规则的目标实体对齐流程图;
图6本发明主题故事脉络及提及趋势图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
首先对本发明中用的术语进行如下定义:
情报I:一条情报指一段包含了目标(活动主体)及相关活动描述的文本,其中可能包含一个或多个事件。例如“A方国防部当晚发表声明说,当地时间22时16分,B国军方从其占领的ZZ高地方向发动空袭,向XXXX周边多个目标发射导弹,A方防空系统拦截并击落大部分来袭导弹。”,该情报包含了“B国军方向多个目标发射导弹”和“A方防空系统拦截B国导弹”两个事件。
事件e:一个事件是形如<r,t,y,L,A,I>的六元组对象,其中r表示参与事件的目标角色(活动主体),t表示事件的发生时间,L表示事件的发生地点集合,y表示事件的类型,A表示事件的其它核心要素集合,I表示描述事件的情报文本集合,I的大小代表了事件E在社交媒体的提及次数,可用于挖掘热点事件。即一个简单的事件可被描述为“某目标在某时间某地点进行某行动”,例如:“B国军方于2012年22时16分在XXXX附近向A方多个目标发射导弹”。
故事S={e1,e2,...}:一个故事是拥有相同主题的一系列事件的集合。例如,“故事的事件情报集合可表示为图1所示的文本集。
事件线
Figure RE-GDA0003619765580000081
一条事件线是由一个故事的子集元素组成的时间序列,可以形象地展示一个故事的脉络,且一个故事可产生多条事件线。
故事情节(r,Theme,L):一个故事情节是由目标r的一个故事形成的事件线L及事件主题Theme组成的三元组,可以描述某个目标的一类事件的表现及经过。
首先,通过事件抽取得到格式化的事件对象,再通过事件融合整合等价事件以及解决事件冲突,最后并为各个目标事件集合生成带主题的故事,从而基于主题事件脉络追踪目标的活动过程。
事件抽取组件以目标为中心从情报中提取事件要素并组装为事件对象,为后续目标事件的演化分析提取事件特征,主要需实现事件检测和论元识别两大功能。
事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。时间、地点、主体、事件类型是组成事件的基本要素,一个复杂的事件可能还包含了客体等论元,于是按以下的方法描述定义事件对象,用结构化的对象表征事件,可视化事件特征:
整合目标名称、事件类型和事件要素得到结构化的事件对象< S,t,L,e,A,I>,其中S是故事,为拥有相同主题的一系列事件的集合,t表示事件的发生时间,L表示事件的发生地点集合,e表示事件,A表示事件的其它核心要素集合,I表示描述事件的情报文本集合。
在事件抽取的过程中,本应用首先使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型;然后用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素;最后,整合目标名称、事件类型和事件要素得到结构化的事件对象。
事件检测旨在从情报文本s中识别出触发词并获取相应事件类型e,在该阶段,本应用采用基于标签注意力机制的事件检测算法EDLA,该模型将事件检测建模为文本多标签分类任务,整个过程不依赖于事件触发词,同时考虑了事件标签的语义信息,并在F1标准上达到了SOTA。基于EDLA的事件检测模型一共包含5层:输入层、预训练语言模型层、句子向量表示层、标签注意力层以及输出层。其结构如图2所示:
算法1:EDLA事件检测算法
Figure RE-GDA0003619765580000091
Figure RE-GDA0003619765580000101
基于EDLA模型进行事件检测的过程如下:
1)对情报数据进行抽样统计分析,定义事件类型标签集合{y1,y2,...};
2)对于情报文本数据集X={x1,x2,...,xn}进行事件类型标注,得到标签集 Y={y1,y2,...,yn};
3)将情报文本xi表示为字的排列,并在首尾加上特殊标识符,得到输入 xi=[[CLS],w1,w2,...,wm-1,wm,[SEP]];
4)将情报的事件类型标签yi转为one-hot编码;
5)按图2构造EDLA模型ELDA(x,W,b),输入训练集(X,Y),按算法1中的步骤2-8进行迭代训练,得到更新后的模型参数W,b;
6)给定情报文本x,输出预测的事件类型y=ELDA(x,W,b)。
在论元识别阶段,为了构造完整的事件对象,本应用使用基于MRC的事件识别方法从情报I中抽取出目标角色r、时间t、地点L等核心事件要素以及论元集合A定义的其它论元{a1,a2,...}。该方法通过注意力机制层充分利用问句中的事件类型信息和事件元素类型信息,无需人工构造复杂的问句。因此,可迁移性好、实现简单。另外,针对无答案的情况,该方法使用两个特殊标识符来进行表示,使得模型可以筛选和过滤出无答案的问句,从而获得含有答案的输入数据。
机器阅读理解的做法通常是输入一个问句和一段文本。输出一段文本中关于一个问句的答案片段。因此,将事件抽取任务转化为机器阅读理解任务,就是要构造出一个含有事件类型信息和事件元素类型信息的问句,然后将问句和需要进行事件抽取的文本作为输入,然后将事件抽取需要抽取的事件元素作为答案进行输出。基于MRC的论元识别模型如图3所示。输入数据经过 BERT和BiLSTM层之后,分别连接两个全连接网络得到答案或事件元素的开始位置序列和结束位置序列。
算法2:基于MRC的事件抽取算法
Figure RE-GDA0003619765580000111
Figure RE-GDA0003619765580000121
参考图4的基于MRC的事件抽取方法预测流程。基于MRC事件抽取算法进行论元识别的过程如下:
1)根据schema定义的事件元素类型构造问句。构建方法时将事件类型和事件元素类型通过一个特殊标识符“[AND]”连接。例如“事件类型[AND] 事件元素类型”;
2)将文本添加无答案的两个标识符“[START]”、“[END]”,例如,添加无答案标识符后的文本为“[START][END]文本”;
3)构造输入数据。将问句与文本拼接,并添加开头“[CLS]”和结尾标识符“[SEP]”,例如,“[CLS]事件类型[AND]事件元素类型[SEP][START][END] 文本[SEP]”;
4)将构造好的输入数据输入到BERT模型进行编码;
5)选择事件元素类型对应的编码输出使用注意力机制进行加权求和之后与到文本对应的编码输出进行合并;
6)将合并后的数据输入到BiLSTM模型,获取文本的方向信息;
7)在BiLSTM模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列;
8)根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案;
9)根据无答案标识符“[START]”、“[END]”过滤掉无答案的输入数据,筛选出含有答案的输入数据;
10)根据输入数据中问句含有的事件元素类型信息以及从文本中抽取的答案整理得到一段文本的事件元素类型信息、事件元素信息。
事件融合组件旨在实现事件对象的唯一化,通过处理等价事件和冲突事件,去除噪声数据和冗余数据,获得高质量的结构化事件数据集。
在事件融合的过程中,该组件首先使用实体对齐方法将目标实体与实体库中的实体进行对齐,将目标分布映射到低维空间;然后,按目标和时间组合事件,并扫描各个事件组,根据地点是否相似判别事件的等价性,进而合并等价事件使事件具有唯一性;最后,针对事件唯一的事件组,依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件,即冲突事件,通过度量事件可信度剔除冲突事件中不太可信的事件。
在目标实体对齐阶段,本组件构造目标实体显示的字符特征和词组特征,进而计算不同粒度的实体特征间的相似度,并通过加权的方式评估两两实体间的匹配度得分。首先,我们对实体库中的实体进行噪声剔除、数字归一化、机型归一化操作,将实体特征映射到更低维度空间,去除冗余特征,提高算法性能;然后基于规则快速召回候选实体,减小整个实体对齐算法的复杂度;最后,基于显示特征评估目标实体与备选实体的相似度,加权得到候选实体得分,输出得分较高或高于阈值的候选实体作为对齐的对象。
算法3:基于文本相似度的实体对齐算法
Figure RE-GDA0003619765580000131
Figure RE-GDA0003619765580000141
基于相似度计算的实体对齐方法的伪代码如算法3所示。给定实体库R和待处理的实体r,算法3为实体r从实体库R中找出与之指称真实世界中相同对象的实体,并返回与实体r对齐的实体组成的实体集合M。首先,基于算法4 所示的文本特征降维算法对实体库R中的实体数据进行降维处理(行1);再使用算法5所示的实体召回算法获得粗粒度水平的候选对齐实体(行2);最后针对候选实体,使用算法6所示的实体得分判定算法计算其与实体r的相似度得分,返回大于阈值的实体并组装为集合返回。该算法的流程图如图5所示:
算法4:文本特征降维算法
Figure RE-GDA0003619765580000142
文本特征降维步骤如下所示:
1)实体输入:2贰-***800号
2)噪声剔除:剔除特殊字符(只保留数字、中英文字符),将所有大写字母转换成小写
3)实体归一化:
①将实体中〇-九,零-玖转换成0-9;
②剔除型、号等影响,统一转换成型
4)输出实体库或实体
算法5:实体召回算法
Figure RE-GDA0003619765580000151
实体初步筛选步骤如下所示:
1)将实体库所有实体进行文本特征降维,重复文本特征降维操作,获取实体库;
2)实体输入:22800型
3)文本特征降维:重复文本特征降维操作
4)实体名称是否相同:
①实体库中实体与输入实体相同直接输出实体库实体;
②实体库中实体与输入实体不同:
A)如果输入实体长度大于7,剔除输入实体后三个字和清洗后实体进行对比,当二者至少有两个字相同时(首字拼音匹配、前两个字拼音字母匹配),输出该实体库实体;
B)如果输入实体长度在[5,7],剔除输入实体后两个字和清洗后实体进行对比,当二者至少有两个字相同时(首字拼音匹配、前两个字拼音字母匹配),输出该实体库实体;
C)如果输入实体长度在[3,5],输入实体和清洗后实体进行对比,当二者至少有两个字相同时(首字拼音匹配、前两个字拼音字母匹配),输出该实体库实体;
D)如果输入实体长度在[0,3],输入实体和清洗后实体进行全匹配,若输入实体所有字符全部在实体库中实体中,输出该实体;
5)完成实体库初步筛选并对实体库和输入实体剔除后缀处理;
6)输出:n22800型、22800型、22800型奥金佐沃型、21980型
算法6:实体得分评定算法
Figure RE-GDA0003619765580000161
Figure RE-GDA0003619765580000171
实体得分评定步骤如下所示:
对实体匹配实体库进行判断:若实体库为空,反馈{“null_enity”:0};若匹配实体不为空:计算最终得分:si=0.3*LCSSc(r,ri)+0.3*LCSSw(r,ri)+ 0.4*LCSSwin(r,ri,3),其中LCSSc(r,ri)为字数重合度,LCSSw(r,ri)为分词匹配度,LCSSwin(r,ri,3)为滑窗匹配度,其中r为实体,ri为第i个候选实体;
字数重合度LCSSc(r,ri),计算如下:
Figure RE-GDA0003619765580000172
其中||表示集合的大小,实体r=w1w2......wm,其中wi表示第i个字,实体 ri的字符集合为Ci,实体r的字符集合为C;
分词匹配度LCSSw(r,ri)计算如下:
Figure RE-GDA0003619765580000173
其中W为对实体r进行分词得到的词集,Wi为对实体ri进行分词得到词集;
LCSSwin(r,ri,3)为滑动窗口大小为3时的滑窗匹配度,计算如下:
Figure RE-GDA0003619765580000174
实体r=w1w2......wm,其中wi表示第i个字,使用大小为3的滑动窗滑过字符串“w1w2......wm”得到A={w1w2w3,w2w3w4,......,Wm-2wm-1wm},同理,对ri使用大小为3滑动窗口进行处理,得到字符串集Ai
选取高于阈值的实体,输出最终的实体。
在等价事件关联阶段,本组件按目标和时间进行分组挖掘其中的等价事件(即在不同上下文中拥有差异化表达方式的同质事件),并进行关联合并。首先,我们将对齐后的目标角色和时间作为唯一标识符对事件进行分组;然后,扫描每组事件,依据两两事件地点的相似度判断两者是否为等价事件;最后,对等价事件进行合并,即将它们的事件元素组装为集合。
下面举例说明合并等价事件得到的唯一事件的过程:“某某”号航母在 2021年6月22日的一组活动事件[e1,e2,e3,e4],由于四个事件的地点都属于夏威夷附近区域,因此判定四者为等价事件,对其进行合并可得到唯一的事件<r,t,y,L,A,I>,其中r=″“某某”号航母″,t=″2021年6月22日″, y={训演-训练,部署-部署服役,航行-海上航行},L={夏威夷附近},
Figure RE-GDA0003619765580000182
I={(AA社,i1),(BBB网,i2),(CC网,i3),(DD网,i4)}。
本组件提出等价事件关联算法,该算法使用Siml(ei,ej)在评估事件地点间的相似度。若Li=Lj,则Siml(ei,ej)=1;若Li,Lj存在相互包含关系,如地点“长沙”属于地点“湖南省”,则Siml(ei,ej)=0.6;其余情况,Siml(ei,ej)=0。
算法7:等价事件关联算法
Figure RE-GDA0003619765580000181
Figure RE-GDA0003619765580000191
在事件冲突检测阶段,本组件定义不可能事件并依据规则进行冲突检测,再通过评估事件的可信度解决事件冲突。首先,使用等价事件关联算法(算法6)获得元素唯一的事件集合;然后我们结合事件的论元结构归纳出不可能事件,如目标在同一时间出现在不同地点是不可能事件;然后使用事件冲突检测算法(算法7)对每一种不可能事件设计规则检测出冲突事件,如按目标和时间进行分组后检测同组事件中是否存在地点冲突的情况;最后,结合事件情报来源的权威性(基于来源性质、用户数量、热点情报数量、风评评估来源的权威性)以及事件在社交媒体上的提及次数,评估事件的可信度,并剔除冲突事件中可信度较小的事件。
下面举例说明检测事件冲突的过程:“某某”号航母在2021年8月2日的一组活动事件[e1,e2,e3,e4,e5],五个事件的起点都属于圣迭戈地区,但 Siml(e2,ej)=0,
Figure RE-GDA0003619765580000192
因此e2与其余事件相冲突,对e1,e3,e4,e5进行合并可得到唯一事件e=<r,t,y,L,A,I>,由于事件e的提及次数多于e2,且来源也更权威,因此剔除冲突事件e2
算法7:事件冲突检测算法
Figure RE-GDA0003619765580000193
Figure RE-GDA0003619765580000201
事件线生成组件旨在通过关联事件组装故事,按目标拆分故事得到故事情节,提取故事主题帮助用户从全景了解故事及其包含的故事情节,构造事件线可视化故事脉络的发展过程。
在事件线生成过程中,首先依据事件的隐式语义信息聚合相同主题的事件为簇,从而将事件分到不同故事,并基于故事特征提取摘要形成故事主题,便于用户了解整体故事内容;然后,按目标对故事进行拆分,得到故事子集形成目标相关的故事情节,基于故事情节特征提取摘要形成故事情节主题,用于概括情节整体内容;最后,以故事和故事情节为单位梳理时间脉络生成事件线,追踪主题事件的演化过程,并通过绘制故事情节事件线可视化目标跟踪过程。
在事件聚类阶段,通过两个阶段不同粒度水平的事件特征聚类来组装故事。参考算法8,首先,在预聚类阶段,依据事件的地点、情报内容等显示语义信息使用DBSCAN聚类方法对事件进行分组,并提取事件的隐式语义特征;然后,在细聚类阶段,基于上一阶段提取的事件隐式语义特征使用LDA(Latent Dirichlet Allocation)方法进一步将事件关联为故事。
在DBSCAN预聚类过程中,我们先为事件集合E中每个事件e学习其情报文本的词向量表示we,然后基于词向量使用DBSCAN方法将事件聚到类成员
Figure RE-GDA0003619765580000211
中,其中P2是一个事件簇。定义DBSCAN的距离函数为:
Figure RE-GDA0003619765580000212
在LDA细聚类过程中,我们先使用DBSCAN聚类结果初始化LDA主题模型(LatentDirichlet Allocation)中故事的词分布,即将属于同一预簇的事件的词向量赋给同一故事;然后,使用吉布斯采样(Gibbs Sampling)推断LDA模型的参数、事件的故事向量;最后,将事件赋给概率最高的故事。
算法8:事件聚类阶段的算法
Figure RE-GDA0003619765580000213
Figure RE-GDA0003619765580000221
在事件主题归纳阶段,使用故事摘要生成算法提取情报中的短文本作为故事主题。参考算法9,首先,将故事中所有事件的情报文本进行分句和整合得到故事情报句子集合A,并学习每个句子的词向量表示V;然后,以句子为节点构建无向带权图,其中边的权重为句子间的余弦相似度;最后,使用 TextRank算法计算句子的排名,并将排名最高的两个句子拼接作为故事摘要输出。
算法9:故事摘要生成算法
Figure RE-GDA0003619765580000222
在目标事件线生成阶段,我们只需将故事中的事件按时间进行升序排列,然后在地图上进行可视化展示即可。若要追踪目标相关事件的发展进程,则可生成目标事件线;若要追踪主题事件的脉络发展,则可生成主题故事事件线。另外还可以绘制故事提及次数趋势图追踪目标事件被提及频次随时间的变化趋势,进而挖掘各个时间段的热点事件,如图6所示。
本发明的有益效果是可基于主题事件脉络自动准确地追踪目标的活动过程。
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或 X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于开源数据事件抽取的目标跟踪方法,其特征在于,包括以下步骤:
使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型;用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素;整合目标名称、事件类型和事件要素得到结构化的事件对象<S,t,L,e,A,I>,其中S是故事,为拥有相同主题的一系列事件的集合,t表示事件的发生时间,L表示事件的发生地点集合,e表示事件,A表示事件的其它核心要素集合,I表示描述事件的情报文本集合;
使用实体对齐方法将目标实体与实体库中的实体进行对齐,将目标分布映射到低维空间;
按目标和时间组合事件,并扫描各个事件组,根据地点是否相似判别事件的等价性,进而合并等价事件使事件具有唯一性;
针对事件唯一的事件组,依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件,即冲突事件,通过度量事件可信度剔除冲突事件中不可信的事件;
依据事件的隐式语义信息聚合相同主题的事件为簇,从而将事件分到不同故事,并基于故事特征提取摘要形成故事主题,便于用户了解整体故事内容;
按目标对故事进行拆分,得到故事子集形成目标相关的故事情节,基于故事情节特征提取摘要形成故事情节主题,用于概括情节整体内容;
以故事和故事情节为单位梳理时间脉络生成事件线,追踪主题事件的演化过程,并通过绘制故事情节事件线可视化目标跟踪过程。
2.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述使用基于标签注意力机制的事件检测模型从预设的事件类型中检测出与情报语义相吻合的事件类型,包括:
对情报数据进行抽样统计分析,定义事件类型标签集合{y1,y2,...},其中y1,y2分别表示第1个和第2个事件类型标签;
对于情报文本数据集X={x1,x2,...,xn}进行事件类型标注,得到标签集Y={y1,y2,...,yn},x1,x2,xn分别表示第1个、第2个和第n个情报文本,y1,y2,yn分别表示第1个、第2个和第n个事件类型标签;
将情报文本xi表示为字的排列,并在首尾加上特殊标识符,得到输入xi=[[CLS],w1,w2,...,wm-1,wm,[SEP]],其中w1,w2,...,wm-1,wm分别表示第1、第2、第m-1,第m个字的排列;
将情报的事件类型标签yi转为one-hot编码;
构造EDLA模型ELDA(x,W,b),输入所述情报文本数据集X和所述标签集Y作为训练集(X,Y),进行迭代训练,调整(W,b),使损失函数
Figure FDA0003577563720000021
Figure FDA0003577563720000022
最小化,得到更新后的模型参数W,b,其中yi是真实值,yi是估计值,n为样本个数;所述EDLA模型包含输入层、预训练语言模型层、句子向量表示层、标签注意力层以及输出层;
给定情报文本x,输出预测的事件类型y=ELDA(x,W,b)。
3.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述用基于机器阅读理解的论元抽取方法提取目标名称及相关事件要素,包括:
根据schema定义的事件元素类型构造问句,即将事件类型和事件元素类型通过一个特殊标识符“[AND]”连接;
将文本添加无答案的两个标识符“[START]”、“[END]”;
构造输入数据:将问句与文本拼接,并添加开头“[CLS]”和结尾标识符“[SEP]”;
将构造好的输入数据输入到BERT模型进行编码;
选择事件元素类型对应的编码输出使用注意力机制进行加权求和之后与到文本对应的编码输出进行合并;
将合并后的数据输入到BiLSTM模型,获取文本的方向信息;
在BiLSTM模型输出端分别连接一层全连接层并使用sigmoid函数激活之后得到答案的开始位置序列和结束位置序列;
根据开始位置序列和结束位置序列按照就近原则从文本中抽取答案;
根据无答案标识符“[START]”、“[END]”过滤掉无答案的输入数据,筛选出含有答案的输入数据;
根据输入数据中问句含有的事件元素类型信息以及从文本中抽取的答案整理得到一段文本的事件元素类型信息、事件元素信息。
4.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述整合目标名称、事件类型和事件要素得到结构化的事件对象包括:
基于文本特征降维算法对实体库R中的实体数据进行降维处理;
使用实体召回算法获得粗粒度水平的候选对齐实体;
针对候选实体,使用实体得分判定算法计算其与实体r的相似度得分,返回大于阈值的实体并组装为集合返回。
5.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,使用实体对齐方法将目标实体与实体库中的实体进行对齐包括:
对实体库中的实体进行噪声剔除、数字归一化、机型归一化操作,将实体特征映射到更低维度空间,去除冗余特征;
基于规则快速召回候选实体,减小整个实体对齐算法的复杂度;
基于显示特征评估目标实体与备选实体的相似度,加权得到候选实体得分,输出得分高于阈值的候选实体作为对齐的对象;
其中,所述基于规则快速召回候选实体的步骤如下所示:
将实体库所有实体进行文本特征降维,获取实体库;
输入实体,对输入实体进行文本特征降维操作;
如果实体库中实体与输入实体相同直接输出实体库实体;如果实体库中实体与输入实体不同,进行如下处理:如果输入实体长度大于7,剔除输入实体后三个字和清洗后实体进行对比,当二者至少有两个字相同时,使用首字拼音匹配或前两个字拼音字母匹配,输出该实体库实体;如果输入实体长度在[5,7],剔除输入实体后两个字和清洗后实体进行对比,当二者至少有两个字相同时,使用首字拼音匹配或前两个字拼音字母匹配,输出该实体库实体;如果输入实体长度在[3,5],输入实体和清洗后实体进行对比,当二者至少有两个字相同时,使用首字拼音匹配或前两个字拼音字母匹配,输出该实体库实体;如果输入实体长度在[0,3],输入实体和清洗后实体进行全匹配,若输入实体所有字符全部在实体库中实体中,输出该实体;
完成实体库初步筛选并对实体库和输入实体剔除后缀处理;
输出结果;
所述基于显示特征评估目标实体与备选实体的相似度,加权得到候选实体得分,输出得分较高或高于阈值的候选实体作为对齐的对象,包括:
对实体匹配实体库进行判断:若实体库为空,反馈{“null_enity”:0};若匹配实体不为空:计算最终得分:si=0.3*LCSSc(r,ri)+0.3*LCSSw(r,ri)+0.4*LCSSwin(r,ri,3),其中LCSSc(r,ri)为字数重合度,LCSSw(r,ri)为分词匹配度,LCSSwin(r,ri,3)为滑窗匹配度,其中r为实体,ri为第i个候选实体;
选取高于阈值的实体,输出最终的实体。
6.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述字数重合度LCSSc(r,ri),计算如下:
Figure FDA0003577563720000051
其中||表示集合的大小,Ci为实体ri的字符集合,C为实体r的字符集合;所述分词匹配度LCSSw(r,ri)计算如下:
Figure FDA0003577563720000052
其中W为对实体r进行分词得到的词集,Wi为对实体ri进行分词得到的词集;
LCSSwin(r,ri,3)为滑动窗口大小为3时的滑窗匹配度,计算如下:
Figure FDA0003577563720000053
字符串集A通过使用大小为3的滑动窗滑过实体r中的字符串得到,字符串集Ai通过使用大小为3滑动窗口滑过实体ri中的字符串得到。
7.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述按目标和时间组合事件,并扫描各个事件组,根据地点是否相似判别事件的等价性,进而合并等价事件使事件具有唯一性,包括:使用等价事件关联算法使用Siml(ei,ej)评估事件地点间的相似度:
若Li=Lj,则Siml(ei,ej)=1;
若Li,Lj存在相互包含关系,则Siml(ei,ej)=0.6;
其余情况,Siml(ei,ej)=0,
其中Li和Lj分别表示第i个和第j个事件的发生地点集合,ei和ej分别表示第i个和第j个事件。
8.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述针对事件唯一的事件组,依据不可能事件的定义依次判别两两事件的组合是否构成不可能事件,包括:
获得元素唯一的事件集合;
结合事件的论元结构归纳出不可能事件;
对每一种不可能事件设计规则检测出冲突事件;
结合事件情报来源的权威性以及事件在社交媒体上的提及次数,评估事件的可信度,并剔除冲突事件中可信度较小的事件。
9.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述依据事件的隐式语义信息聚合相同主题的事件为簇,包括:
在预聚类阶段,依据显示语义信息使用DBSCAN聚类方法对事件进行分组,并提取事件的隐式语义特征;
在细聚类阶段,基于上一阶段提取的事件隐式语义特征使用LDA方法进一步将事件关联为故事;
所述DBSCAN聚类方法包括:
为事件集合E中每个事件e学习其情报文本的词向量表示we
基于词向量使用DBSCAN方法将事件聚到类成员
Figure FDA0003577563720000061
中,其中P1,P2
Figure FDA0003577563720000071
是第1个、第2个、第Ns个事件簇;定义DBSCAN的距离函数为:
Figure FDA0003577563720000072
其中
Figure FDA0003577563720000073
Figure FDA0003577563720000074
分别表示第i个和第j个事件的词向量表示;
所述LDA方法包括:使用DBSCAN聚类结果初始化LDA主题模型中故事的词分布,即将属于同一预簇的事件的词向量赋给同一故事;
使用吉布斯采样推断LDA主题模型的参数、事件的故事向量;
将事件赋给概率最高的故事。
10.根据权利要求1所述的基于开源数据事件抽取的目标跟踪方法,其特征在于,所述按目标对故事进行拆分,得到故事子集形成目标相关的故事情节,包括:
将故事中所有事件的情报文本进行分句和整合得到故事情报句子集合,并学习每个句子的词向量表示V;
以句子为节点构建无向带权图,其中边的权重为句子间的余弦相似度;
使用TextRank算法计算句子的排名,并将排名最高的两个句子拼接作为故事摘要输出。
CN202210347707.4A 2022-04-01 2022-04-01 一种基于开源数据事件抽取的目标跟踪方法 Active CN114707517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210347707.4A CN114707517B (zh) 2022-04-01 2022-04-01 一种基于开源数据事件抽取的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210347707.4A CN114707517B (zh) 2022-04-01 2022-04-01 一种基于开源数据事件抽取的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN114707517A true CN114707517A (zh) 2022-07-05
CN114707517B CN114707517B (zh) 2024-05-03

Family

ID=82172685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210347707.4A Active CN114707517B (zh) 2022-04-01 2022-04-01 一种基于开源数据事件抽取的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN114707517B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104048A1 (en) * 2006-09-15 2008-05-01 Microsoft Corporation Tracking Storylines Around a Query
US20160357770A1 (en) * 2015-06-03 2016-12-08 Yahoo! Inc. System and method for automatic storyline construction based on determined breaking news
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN111143508A (zh) * 2019-12-06 2020-05-12 国家计算机网络与信息安全管理中心 一种基于通信类短文本的事件检测与跟踪方法及系统
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN112115327A (zh) * 2020-03-04 2020-12-22 云南大学 一种基于主题模型的舆情新闻事件跟踪方法
CN112328856A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 公共事件追踪方法、装置、计算机设备及计算机可读介质
CN113282714A (zh) * 2021-06-29 2021-08-20 中国人民解放军国防科技大学 一种基于区分性词向量表示的事件检测方法
CN113312464A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种基于对话状态追踪技术的事件抽取方法
CN113378024A (zh) * 2021-05-24 2021-09-10 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104048A1 (en) * 2006-09-15 2008-05-01 Microsoft Corporation Tracking Storylines Around a Query
US20160357770A1 (en) * 2015-06-03 2016-12-08 Yahoo! Inc. System and method for automatic storyline construction based on determined breaking news
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN111143508A (zh) * 2019-12-06 2020-05-12 国家计算机网络与信息安全管理中心 一种基于通信类短文本的事件检测与跟踪方法及系统
CN112115327A (zh) * 2020-03-04 2020-12-22 云南大学 一种基于主题模型的舆情新闻事件跟踪方法
CN111382575A (zh) * 2020-03-19 2020-07-07 电子科技大学 一种基于联合标注和实体语义信息的事件抽取方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN112328856A (zh) * 2020-10-30 2021-02-05 中国平安人寿保险股份有限公司 公共事件追踪方法、装置、计算机设备及计算机可读介质
CN113378024A (zh) * 2021-05-24 2021-09-10 哈尔滨工业大学 一种基于深度学习面向公检法领域的相关事件识别方法
CN113312464A (zh) * 2021-05-28 2021-08-27 北京航空航天大学 一种基于对话状态追踪技术的事件抽取方法
CN113282714A (zh) * 2021-06-29 2021-08-20 中国人民解放军国防科技大学 一种基于区分性词向量表示的事件检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李莹莹;马帅;蒋浩谊;刘喆;胡春明;李雄;: "一种基于社交事件关联的故事脉络生成方法", 计算机研究与发展, no. 09, 15 September 2018 (2018-09-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Also Published As

Publication number Publication date
CN114707517B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
Paul et al. LeSICiN: a heterogeneous graph-based approach for automatic legal statute identification from Indian legal documents
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
CN110705298B (zh) 一种改进的前缀树与循环神经网络结合的领域分类方法
Nasim et al. Sentiment analysis on Urdu tweets using Markov chains
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
Liu et al. A Comparative Analysis of Classic and Deep Learning Models for Inferring Gender and Age of Twitter Users [A Comparative Analysis of Classic and Deep Learning Models for Inferring Gender and Age of Twitter Users]
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
Singh et al. SciDr at SDU-2020: IDEAS--Identifying and Disambiguating Everyday Acronyms for Scientific Domain
Sandhiya et al. A review of topic modeling and its application
CN114707517B (zh) 一种基于开源数据事件抽取的目标跟踪方法
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
Theophilo et al. Explainable artificial intelligence for authorship attribution on social media
Vikas et al. User Gender Classification Based on Twitter Profile Using Machine Learning
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
Omar et al. Towards a linguistic stylometric model for the authorship detection in cybercrime investigations
Chakma et al. 5W1H-Based semantic segmentation of tweets for event detection using BERT
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
Kikkisetti et al. Using LLMs to discover emerging coded antisemitic hate-speech emergence in extremist social media
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN111159405B (zh) 基于背景知识的讽刺检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant