CN115757325B - 一种xes日志智能转换方法及系统 - Google Patents

一种xes日志智能转换方法及系统 Download PDF

Info

Publication number
CN115757325B
CN115757325B CN202310016602.5A CN202310016602A CN115757325B CN 115757325 B CN115757325 B CN 115757325B CN 202310016602 A CN202310016602 A CN 202310016602A CN 115757325 B CN115757325 B CN 115757325B
Authority
CN
China
Prior art keywords
layer
word
entity
input
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310016602.5A
Other languages
English (en)
Other versions
CN115757325A (zh
Inventor
廖万里
金卓
蒋竹君
肖飞
刘金朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Kingsware Information Technology Co Ltd
Original Assignee
Zhuhai Kingsware Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Kingsware Information Technology Co Ltd filed Critical Zhuhai Kingsware Information Technology Co Ltd
Priority to CN202310016602.5A priority Critical patent/CN115757325B/zh
Publication of CN115757325A publication Critical patent/CN115757325A/zh
Application granted granted Critical
Publication of CN115757325B publication Critical patent/CN115757325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种XES日志智能转换方法及系统,所述方法基于Transformer网络实现,包括以下步骤:获取公司日志数据;在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;构建模型进行实体识别;获取模型训练得到的输出结果,并进行结果评价及优化;将实体、实体命名、实体属性对应写入XES日志中。本发明通过基于Transformer网络的NER技术(Named entity Recognition,命名实体识别)来识别事件日志中具有特定意义的实体,如人名、地名、时间等,并将命名与实体作为一对键、值写入XES日志文件中。

Description

一种XES日志智能转换方法及系统
技术领域
本发明IT系统流程挖掘领域,特别涉及一种XES日志智能转换方法及系统。
背景技术
流程挖掘是一种全新的分析方法,它使用系统的数据实时挖掘客观洞察,发现业务流程执行中存在的隐患和风险。流程挖掘技术结合多个数据源的信息,在不同系统、部门和功能之间架起了桥梁。流程挖掘技术并不局限于流程识别和改进,它以其先进的分析和智慧能力,在数字化转型和实现卓越运营方面发挥着至关重要的作用。
流程挖掘使用企业IT系统中海量的事件日志作为数据源,其中每个事件都引用一个事例、一个活动和一个时间点,这些数据包含有关执行的活动(例如采购订单创建)、案例(采购订单编号*****)和时间戳等信息。流程挖掘解决方案从各种IT系统(如ERP、CRM、供应链管理等)获取这些日志,从而帮助企业近乎实时地监控和分析流程,持续优化运营。而事件数据可能来自多种来源,包括数据库系统(例如,医院中的患者数据)、(CSV)文件或电子表格、交易日志(例如,交易系统),业务套件/ERP系统(SAP,Oracle等),消息日志(IBM中间件)。由于事件数据的来源丰富,各种日志格式不统一,若能通过一种转换方法提取日志中的关键信息,并将其写入统一的日志格式文件,这对公司管理来说是有意义的,帮助企业提供公司流程的全局概览,提高流程透明度。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种XES日志智能转换方法,该方法通过基于Transformer网络的NER技术(Named entity Recognition,命名实体识别)来识别事件日志中具有特定意义的实体,如人名、地名、时间等,并将命名与实体作为一对键、值写入XES日志文件中。
本发明的另一目的在于提供一种XES日志智能转换系统。
本发明的目的通过以下的技术方案实现:
一种XES日志智能转换方法,基于Transformer网络实现,包括以下步骤:
S1、获取公司日志数据;
S2、在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;
S3、构建模型进行实体识别;
S4、获取模型训练得到的输出结果,并进行结果评价及优化;
S5、将实体、实体命名、实体属性对应写入XES日志中。
所述获取公司日志数据后,根据网络开放的日志文件或其他语料库获取事务性语料,同时针对缺少标签的数据集进行命名实体和实体关系的标注语料构建工作。
步骤S3中,所述模型包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入(单词间相对位置表征), 区域嵌入(区分网格上三角和下三角区域的表征),然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;
输出层,将输入的词汇信息的字与字之间的关系表格输出。
所述输入层,首先将词汇信息与一个词库相匹配,以获得其中的潜在词。
在所述输入层中,Transformer为序列中的每个标记引入位置表示,给每个标记两个位置索引,分别开始索引和结束索引;对每个字来说头和尾的位置索引是相同的,而每个词的头是起始字的位置索引,尾是结尾字的位置索引;这样会得到一个三元组的集合,每个三元组包括了字或者词,头位置索引和尾位置索引;Transformer采用全连接的自注意力机制来模拟序列中的长距离依赖关系,在自注意力机制部分加入三元组的计算,使得字符能够直接与任何潜在的词,包括自我匹配的词进行信息融合,学习到中文词之间的语义关系。
编码层中,所述Transformer编码器的自注意力机制层和前馈神经网络这两个模块的计算输入与位置无关,对于不同位置的同一个字的输出表示是相同的,所以在输入的时候需要给每一个标记添加位置编码,使得模型学习到句子要表达的真正意思;
在Transformer编码器中,该模型利用输入层得到的三元组进行相对位置编码,具体过程是:首先把所有字和词给到Transformer,利用头和尾的信息计算出每2个节点
Figure SMS_1
Figure SMS_2
之间的4个相对距离,利用多层全连接对4个相对距离进行信息融合,再用相对位置编码的方式将融合信息给到自注意力机制层。
所述2个节点
Figure SMS_3
Figure SMS_4
之间的4个相对距离计算公式为:
Figure SMS_5
Figure SMS_14
表示第
Figure SMS_8
个标记的头部位置和第
Figure SMS_10
个标记头部位置之间的距离,
Figure SMS_18
表示第
Figure SMS_22
个标记的头部位置和第
Figure SMS_19
个标记尾部位置之间的距离,
Figure SMS_23
表示第
Figure SMS_17
个标记的尾部位置和第
Figure SMS_21
个标记头部位置之间的距离,
Figure SMS_9
表示第
Figure SMS_13
个标记的尾部位置和第
Figure SMS_11
个标记尾部位置之间的距离,
Figure SMS_15
Figure SMS_16
分别表示跨度第
Figure SMS_20
个标记的头部和尾部位置,
Figure SMS_6
Figure SMS_12
分别表示跨度第
Figure SMS_7
个标记的头部和尾部位置;
对于输入的词汇信息,经过输入层得到7个标记,每2个标记都要计算4个相对距离,因此相对距离维数为4*7*7;得到输入的相对距离之后,将进行相对位置编码,之后利用相对位置编码将信息融合到注意力机制当中。
所述进行相对位置编码,计算方式为:
计算
Figure SMS_24
的正余弦位置编码
Figure SMS_25
Figure SMS_26
Figure SMS_27
Figure SMS_31
的偶数项,
Figure SMS_33
Figure SMS_28
的奇数项,
Figure SMS_30
表示词向量的维度,
Figure SMS_32
Figure SMS_34
和表示奇偶性,
Figure SMS_29
表示词向量中的维数索引;
同理得到
Figure SMS_35
Figure SMS_36
Figure SMS_37
的正余弦位置编码
Figure SMS_38
Figure SMS_39
Figure SMS_40
最终相对位置编码
Figure SMS_41
通过4个距离的简单非线性变换计算得到:
Figure SMS_42
所述利用相对位置编码将信息融合到注意力机制当中,是通过下式进行:
Figure SMS_43
Figure SMS_44
为表达方便所使用的中间量,
Figure SMS_45
均是可学习的参数,
Figure SMS_46
表示矩阵的转置;从而计算第i个标记与第j个标记的注意力
Figure SMS_47
所述联合预测层的具体过程如下:
多层感知机将经过卷积层输出的字向量通过多层感知机进行字向量与字向量之间的关系分数预测;
双仿射分类器直接把编码层输出的字向量进行字向量与字向量之间的关系分数预测,这里直接使用编码层而不是卷积层是防止模型退化以及缓解模型梯度爆炸和消失的作用让模型训练更加好;
将多层感知机的关系分数和双仿射分类器的关系分数进行相加后再经过softmax函数得到对实体边界以及类型的预测结果;
取出编码层的第一个标记,即[CLS]的输出向量输入一个带有softmax函数的线性层,该网络返回的是输入字所带属性的概率,同时也可以验证若该标记的属性属于类别0的概率最大,则说明这个标记不是主体。
所述模型的损失函数包括两部分之和,第一部分是多层感知机与双仿射分类器经过softmax函数得到的结果与命名实体标签做交叉熵损失,第二部分是[CLS]标记经过softmax函数的结果与属性标签做交叉熵损失;
Figure SMS_48
表示卷积层输出的向量通过多层感知机得到的第i个标记与第j个标记的关系分数,令
Figure SMS_49
表示编码层输出的向量通过双仿射分类器得到的第i个标记与第j个标记的关系分数;则它们的共同预测分数为
Figure SMS_50
这里
Figure SMS_51
是L*L*3维向量,L是输入字向量的维数;
Figure SMS_52
表示编码层输出的[CLS]标记向量经过线性层得到结果,则其关于属性预测分数为:
Figure SMS_53
这里
Figure SMS_54
是L*7维向量,L是输入字向量的维数;
在此模型中,需要根据字与字之间的关系构建关系表格,用
Figure SMS_55
表示第i个标记与第j个标记之间的真实关系,另外用
Figure SMS_56
表示第i个标记的真实属性向量;
定义损失函数为:
Figure SMS_57
Figure SMS_58
本发明的另一目的通过以下的技术方案实现:
一种XES日志智能转换系统,包括实体识别模型,对于语料标注后的公司日志数据,进行实体识别;所述实体识别模型,包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入(单词间相对位置表征), 区域嵌入(区分网格上三角和下三角区域的表征),然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;
输出层,将输入的词汇信息的字与字之间的关系表格输出。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明对于不同公司在不同场景下的日志应用,可以自定义中文词库,从而在训练模型的过程中匹配到固定场景下的潜在词,使得对于命名实体识别更精确,效果更好。
2、在本发明提出的模型的编码部分中,主要对如何处理中文部分进行了介绍,实际上若涉及到多国语言或者混合语言,Transformer编码模块可以引入更具针对性的预训练模型,比如多国语言预训练模型,在多国语言的场景下,在保证中文NER任务的准确性的情况下,也能进行其他语言的NER任务。
3、针对XES标准格式,本发明对于数据标注引入了属性处理,同时在损失函数加入了对属性这部分的计算。
附图说明
图1为某公司某一天某一时间段的日志截图。
图2为需要抽取的命名与实体作为一对键、值写入XES日志中之后的截图。
图3为某公司在某项工作流程中的关于错误记录的内容截图。
图4为识别的命名与实体作为一对键、值写入XES日志中之后的截图。
图5为本发明所述实体识别模型的框架示意图。
图6为本发明所述输入文本的字与字之间的关系表格示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1-6,一种XES日志智能转换方法,基于Transformer网络实现,包括以下步骤:
步骤1、公司日志数据的获取与处理;
步骤2、在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;
步骤3、构建模型进行实体识别(NER);
步骤4、获取模型训练得到的输出结果,并进行结果评价及优化;
步骤5、将实体、实体命名、实体属性对应写入XES日志中。
下面分几个模块进行详细描述:
一、数据处理
关于步骤1、2,获取数据的主要途径是包括与公司建立合作关系,获取公司日志文件,根据网络开放的日志文件或其他语料库获取事务性语料,同时针对缺少标签的数据集进行命名实体和实体关系的标注语料构建工作。
如图1,给出某公司某一天某一时间段的日志截图;
可以从图1发现,普通的公司日志没有标准格式,排版随意,找不到重点。
抽取上述日志文件中某一事件中需要抽取的命名与实体作为一对键、值写入XES日志中之后如图2。
根据XES格式标准,键值可以以冒号为分隔符区分一级标题和二级标题,对于文件的整理有更大的帮助。实体作为value可以以任何格式写入XES日志中,另外在XES中,包含了string,date,int,float,boolean,id这6个属性输出来描述value的类型。因此利用XES来保存日志文件更便捷,更高效。
为了展示日志文件内容的多样性,另外如图3,截取2022年8月18日至8月31日某公司在某项工作流程中的关于错误记录的内容作为例子。
图3的日志文件由中文、英文和数字组成;
下面以“2022-08-23 18:01:16.302 [http-nio-8096-exec-3]ERROR com.kingsware.form.model.impl.CmdbRepositoryImpl - 脚本未保存,没有找到可执行程序”这一事件为例,构建命名实体和实体关系的标注语料。在本文中,针对XES日志中的属性string,date,int,float,boolean,id 分别用类别1,2,3,4,5,6表示,用类别0表示这不是一个主体,没有属性。
在“2022-08-23 18:01:16.302 [http-nio-8096-exec-3] ERROR com.kingsware.form.model.impl.CmdbRepositoryImpl - 脚本未保存,没有找到可执行程序”这一事件中,定义“2022-08-23 18:01:16.302”为实体time,属性为date,第一个2为实体time的起点,对应标签为B-time-2,其余输入的对应标签为I-time-2;定义“ERROR”为实体type,E对应标签为B-type-1,其余输入的对应标签为I-type-1;
定义“http-nio-8096-exec-3”为实体location,h对应标签为B-location-1,其余输入对应标签为I-location-1;
定义“com.kingsware.form.model.impl.CmdbRepositoryImpl”为实体reason,c对应标签为B-reason-1, 其余输入的对应标签为I-location-1;定义“脚本未保存,没有找到可执行程序”为实体discription,脚对应标签为B-discription-1,其余输入的对应标签为I-discription-1。其余未涉及到的输入的对应标签均为O-0,表示其他非主体。
关于步骤5,将上述例子中识别的命名与实体作为一对键、值写入XES日志中之后如图4。
二、构建模型
本文重点介绍如何构建模型进行实体识别。在实际应用中,公司日志中不仅涉及到英文,更常见到的是中文,并且与英文NER相比,由于英文和中文不同的语言特性,中文没有空格且基本单元是字,所以中文NER要比英文NER更困难一。对于中文来说,目前基于字符的NER系统通常好于基于词汇分词的方法,但基于字符的NER没有利用词汇信息造成了信息损失,许多中文句子由于缺乏词汇信息可能对句子的理解有歧义从而造成实体识别有误,因此词汇边界对于实体边界通常起着至关重要的作用。在先分词后做NER的方法和字级别的NER方法都有缺陷的情况下,如何在不分词的情况下向字级别的序列中加入词信息这个问题是近年来值得探讨的问题。
本文的最终目的是将公司日志中的关键信息提取出来之后转成XES格式,而XES要求每一个事件不仅需要包括实体的名称以及实体,还需要标注实体的属性,针对这一特性,本文的模型将比传统的NER模型多一个属性识别的输出预测。
如图5,下面给出具体模型的框架,并在下文依次给出每一部分的解释:
1、输入层
模型的第一层是输入层。每一篇公司日志有多条记录,一条记录对应于一个事件,比如一个事件“2022-08-23 18:01:16.302 [http-nio-8096-exec-3]ERROR com.kingsware.form.model.impl.CmdbRepositoryImpl - 脚本未保存,没有找到可执行程序”就是一个输入,本文为了重点说明中文NER方法,只截取“脚本未保存”为输入。
从图5可以看出,该模型将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失。首先将“脚本未保存”与一个词库(根据实际应用场景,可自定义词库,使得分词更准确,避免歧义等情况使得结果准确率下降)相匹配,以获得其中的潜在词“脚本”、“保存”。因此完整的输入标记为[“脚”,“本”,“未”,“保”,“存”,“脚本”,“保存”]。
为了保留位置信息,Transformer为序列中的每个标记引入位置表示,给每个标记两个位置索引,分别为头(Head)和尾(Tail),即开始索引和结束索引。对每个字来说头和尾的位置索引是相同的,而每个词的头是起始字的位置索引,尾是结尾字的位置索引。这样我们会得到一个三元组的集合,每个三元组包括了字或者词,头位置索引和尾位置索引。Transformer采用全连接的自注意力机制来模拟序列中的长距离依赖关系,在自注意力机制部分加入三元组的计算,使得字符能够直接与任何潜在的词,包括自我匹配的词进行信息融合,学习到中文词之间的语义关系。
、编码层
模型的第二层是编码层。该模型的编码层的第一部分由嵌入层和N个Transformer编码器构成,在这里,我们可以选择多国语言的预训练模型进行下游任务微调,以保证处理含有其他语言的公司日志时能够取得更好的效果,而输入层仍然是对选取中文词库对输入进行匹配来得到潜在词,以此确保中文NER任务的准确性。
在Transformer编码器这一部分,自注意力机制层和前馈神经网络这两个模块的计算输入与位置无关,对于不同位置的同一个字的输出表示是相同的,所以在输入的时候需要给每一个标记添加位置编码,使得模型学习到句子要表达的真正意思。
在原始的Transformer编码器中,使用的位置编码是绝对位置编码,该模型利用输入层得到的三元组进行相对位置编码,具体过程是首先把所有字和词给到Transformer,利用头和尾的信息计算出每2个节点i和j之间的4个相对距离,利用多层全连接对4个相对距离进行信息融合,再用相对位置编码的方式将融合信息给到自注意力机制层,这种位置编码方式可以充分利用词汇信息,节点不仅对字节点关注,同时也关注了中文词。举例来说,“脚”和“脚本”的4个相对距离分别是是0011,我们就能判断出“脚”这个字在“脚本”这个词里面,那么模型就能根据包含的关系,使“脚”对“脚本”这个词多加关注,从而更好的识别实体的边界。下面介绍如何计算相对距离以及利用相对距离进行自注意力机制。
首先,所述2个节点
Figure SMS_59
Figure SMS_60
之间的4个相对距离计算公式为:
Figure SMS_61
Figure SMS_72
表示第
Figure SMS_63
个标记的头部位置和第
Figure SMS_68
个标记头部位置之间的距离,
Figure SMS_65
表示第
Figure SMS_69
个标记的头部位置和第
Figure SMS_73
个标记尾部位置之间的距离,
Figure SMS_77
表示第
Figure SMS_70
个标记的尾部位置和第
Figure SMS_74
个标记头部位置之间的距离,
Figure SMS_62
表示第
Figure SMS_66
个标记的尾部位置和第
Figure SMS_75
个标记尾部位置之间的距离,
Figure SMS_78
Figure SMS_76
分别表示跨度第
Figure SMS_79
个标记的头部和尾部位置,
Figure SMS_64
Figure SMS_67
分别表示跨度第
Figure SMS_71
个标记的头部和尾部位置;
对于“脚本未保存”这一输入,经过输入层得到7个标记,每2个标记都要计算4个相对距离,因此相对距离维数为4*7*7,其中,它的
Figure SMS_80
展示如图5。得到输入的相对距离之后,将进行相对位置编码,下面介绍相对位置编码公式。
所述进行相对位置编码,计算方式为:
计算
Figure SMS_81
的正余弦位置编码
Figure SMS_82
Figure SMS_83
Figure SMS_84
Figure SMS_88
的偶数项,
Figure SMS_90
Figure SMS_85
的奇数项,
Figure SMS_87
表示词向量的维度,
Figure SMS_89
Figure SMS_91
和表示奇偶性,
Figure SMS_86
表示词向量中的维数索引;
同理得到
Figure SMS_92
Figure SMS_93
Figure SMS_94
的正余弦位置编码
Figure SMS_95
Figure SMS_96
Figure SMS_97
最终相对位置编码
Figure SMS_98
通过4个距离的简单非线性变换计算得到:
Figure SMS_99
之后利用相对位置编码将信息融合到注意力机制当中,所述利用相对位置编码将信息融合到注意力机制当中,是通过下式进行:
Figure SMS_100
Figure SMS_101
为表达方便所使用的中间量,
Figure SMS_102
均是可学习的参数,
Figure SMS_103
表示矩阵的转置;从而计算第i个标记与第j个标记的注意力
Figure SMS_104
接下来的计算和原本的Transformer编码器相同。
编码层的第二部分是双向长短期记忆网络,可以增强模型的上下文建模能力,最终得到一个字、词表示序列。
、卷积层
模型的第三部分是卷积层。卷积层包含了3个部分,主要作用是特征提取,预测词对关系,在卷积层中仍需计算输入标记中关于词的网格表示。
(1)通过条件归一化层生成字与字之间的关系网格表征-词嵌入 (2D),这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入。
(2)由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入(单词间相对位置表征), 区域嵌入(区分网格上三角和下三角区域的表征),然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入。
(3)最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码。
、联合预测层
联合预测层由多层感知机、双仿射分类器以及一个线性层构成。要注意的是,我们只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测。多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分。具体过程如下:
(1)多层感知机层将经过卷积层输出的字向量通过多层感知机进行字向量与字向量之间的关系分数预测。
(2)双仿射分类器直接把编码层输出的字向量进行字向量与字向量之间的关系分数预测,这里直接使用编码层而不是卷积层是防止模型退化以及缓解模型梯度爆炸和消失的作用让模型训练更加好。
(3)将多层感知机的关系分数和双仿射分类器的关系分数进行相加后再经过softmax函数得到对实体边界以及类型的预测结果。
(4)取出编码层的第一个标记,即[CLS]的输出向量输入一个带有softmax函数的线性层,该网络返回的是输入字所带属性的概率,同时也可以验证若该标记的属性属于类别0的概率最大,则说明这个标记不是主体。
、损失函数
损失函数包括两部分之和,第一部分是多层感知机与双仿射分类器经过softmax函数得到的结果与命名实体标签做交叉熵损失,第二部分是[CLS]标记经过softmax函数的结果与属性标签做交叉熵损失。
Figure SMS_105
表示卷积层输出的向量通过多层感知机得到的第i个标记与第j个标记的关系分数,令
Figure SMS_106
表示编码层输出的向量通过双仿射分类器得到的第i个标记与第j个标记的关系分数;则它们的共同预测分数为
Figure SMS_107
这里
Figure SMS_108
是L*L*3维向量,L是输入字向量的维数;
Figure SMS_109
表示编码层输出的[CLS]标记向量经过线性层得到结果,则其关于属性预测分数为:
Figure SMS_110
这里
Figure SMS_111
是L*7维向量,L是输入字向量的维数;
在此模型中,需要根据字与字之间的关系构建关系表格,用
Figure SMS_112
表示第i个标记与第j个标记之间的真实关系,另外用
Figure SMS_113
表示第i个标记的真实属性向量;
定义损失函数为
Figure SMS_114
Figure SMS_115
、自定义词库
在输入层中,针对包含中文的输入序列,需要将其与中文词库相匹配,以获得其中的潜在词,并将潜在词作为词标记输入网络学习,从而使得模型更好地学习上下文中文语义。针对不同公司的不同场景,所需要的词库往往是有区别的。比如在记录程序运行错误的日志场景下,“脚本”就可以作为一个词放入词库中。
、模型输出
仍然以“脚本未保存”为例,最终可以得到该输入文本的字与字之间的关系表格,注意这里剔除了所有词。
在图6中,展示了构建字与字关系的二维表格,表格的上三角部分表示NHW关系标注,下三角区域则表示THW-* 关系标注。NHW(Next-Neighboring-Word)表示两个字之间是相邻关系, THW-*( Tail-Head-Word-*)表示是实体皆尾和实体开头的连接关系,并且带有实体的类型信息,这里的THW-D中D是discription的缩写。因此图6表示“脚本未保存”是一个实体,其命名为“描述”。另外每一个字的属性输出都为“1”,表明对应的属性为string。
要注意的是,真正输入极少出现整句话均为实体的情况,当为非实体时,其对应的二维表格不会出现NHW或者THW-*标记。
、模型优化及XES日志的实现
将所有数据输入模型之后,会得到模型输出,通过对比输出结果以及标签可以计算出模型的准确率。为了提高模型准确率,需要进行模型训练来优化模型。在算法上通过Adam优化算法最小化交叉熵损失函数,来进行参数更新。同时数据集的构建也是影响模型效果的重要因素。
从模型输出可以看出,输入一个事件可以得到所包含的实体、实体命名以及实体属性,因此可以将其写入XES日志。
本发明的主要效果在于针对各种格式不统一的公司日志,通过基于Transformer网络的NER算法提取日志中的关键信息,并将其写入统一的XES日志格式文件,这对公司管理来说是有重要意义的。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种XES日志智能转换方法,其特征在于,基于Transformer网络实现,包括以下步骤:
S1、获取公司日志数据;
S2、在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;
S3、构建模型进行实体识别;
所述模型包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入, 区域嵌入,然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;所述联合预测层的具体过程如下:
多层感知机将经过卷积层输出的字向量通过多层感知机进行字向量与字向量之间的关系分数预测;
双仿射分类器直接把编码层输出的字向量进行字向量与字向量之间的关系分数预测,这里直接使用编码层而不是卷积层是防止模型退化以及缓解模型梯度爆炸和消失的作用让模型训练更加好;
将多层感知机的关系分数和双仿射分类器的关系分数进行相加后再经过softmax函数得到对实体边界以及类型的预测结果;
取出编码层的第一个标记,即[CLS]的输出向量输入一个带有softmax函数的线性层,该网络返回的是输入字所带属性的概率,同时也可以验证若该标记的属性属于类别0的概率最大,则说明这个标记不是主体;
输出层,将输入的词汇信息的字与字之间的关系表格输出;
S4、获取模型训练得到的输出结果,并进行结果评价及优化;
S5、将实体、实体命名、实体属性对应写入XES日志中。
2.根据权利要求1所述XES日志智能转换方法,其特征在于,所述获取公司日志数据后,根据网络开放的日志文件或其他语料库获取事务性语料,同时针对缺少标签的数据集进行命名实体和实体关系的标注语料构建工作。
3.根据权利要求1所述XES日志智能转换方法,其特征在于,在所述输入层中,Transformer为序列中的每个标记引入位置表示,给每个标记两个位置索引,分别开始索引和结束索引;对每个字来说头和尾的位置索引是相同的,而每个词的头是起始字的位置索引,尾是结尾字的位置索引;这样会得到一个三元组的集合,每个三元组包括了字或者词,头位置索引和尾位置索引;Transformer采用全连接的自注意力机制来模拟序列中的长距离依赖关系,在自注意力机制部分加入三元组的计算,使得字符能够直接与任何潜在的词,包括自我匹配的词进行信息融合,学习到中文词之间的语义关系。
4.根据权利要求1所述XES日志智能转换方法,其特征在于,编码层中,所述Transformer编码器的自注意力机制层和前馈神经网络这两个模块的计算输入与位置无关,对于不同位置的同一个字的输出表示是相同的,所以在输入的时候需要给每一个标记添加位置编码,使得模型学习到句子要表达的真正意思;
在Transformer编码器中,该模型利用输入层得到的三元组进行相对位置编码,具体过程是:首先把所有字和词给到Transformer,利用头和尾的信息计算出每2个节点
Figure QLYQS_1
Figure QLYQS_2
之间的4个相对距离,利用多层全连接对4个相对距离进行信息融合,再用相对位置编码的方式将融合信息给到自注意力机制层。
5.根据权利要求4所述XES日志智能转换方法,其特征在于,所述2个节点
Figure QLYQS_3
Figure QLYQS_4
之间的4个相对距离计算公式为:
Figure QLYQS_5
Figure QLYQS_15
表示第
Figure QLYQS_7
个标记的头部位置和第
Figure QLYQS_11
个标记头部位置之间的距离,
Figure QLYQS_18
表示第
Figure QLYQS_22
个标记的头部位置和第
Figure QLYQS_19
个标记尾部位置之间的距离,
Figure QLYQS_23
表示第
Figure QLYQS_17
个标记的尾部位置和第
Figure QLYQS_21
个标记头部位置之间的距离,
Figure QLYQS_9
表示第
Figure QLYQS_13
个标记的尾部位置和第
Figure QLYQS_8
个标记尾部位置之间的距离,
Figure QLYQS_12
Figure QLYQS_16
分别表示跨度第
Figure QLYQS_20
个标记的头部和尾部位置,
Figure QLYQS_6
Figure QLYQS_10
分别表示跨度第
Figure QLYQS_14
个标记的头部和尾部位置;
对于输入的词汇信息,经过输入层得到7个标记,每2个标记都要计算4个相对距离,因此相对距离维数为4*7*7;得到输入的相对距离之后,将进行相对位置编码,之后利用相对位置编码将信息融合到注意力机制当中。
6.根据权利要求5所述XES日志智能转换方法,其特征在于,所述进行相对位置编码,计算方式为:
计算
Figure QLYQS_24
的正余弦位置编码
Figure QLYQS_25
Figure QLYQS_26
Figure QLYQS_28
Figure QLYQS_31
的偶数项,
Figure QLYQS_33
Figure QLYQS_29
的奇数项,
Figure QLYQS_30
表示词向量的维度,
Figure QLYQS_32
Figure QLYQS_34
和表示奇偶性,
Figure QLYQS_27
表示词向量中的维数索引;
同理得到
Figure QLYQS_35
Figure QLYQS_36
Figure QLYQS_37
的正余弦位置编码
Figure QLYQS_38
Figure QLYQS_39
Figure QLYQS_40
最终相对位置编码
Figure QLYQS_41
通过4个距离的简单非线性变换计算得到:
Figure QLYQS_42
7.根据权利要求5所述XES日志智能转换方法,其特征在于,所述利用相对位置编码将信息融合到注意力机制当中,是通过下式进行:
Figure QLYQS_43
Figure QLYQS_44
Figure QLYQS_45
为表达方便所使用的中间量,
Figure QLYQS_46
均是可学习的参数,
Figure QLYQS_47
表示矩阵的转置;从而计算第i个标记与第j个标记的注意力
Figure QLYQS_48
8.根据权利要求1所述XES日志智能转换方法,其特征在于,所述模型的损失函数包括两部分之和,第一部分是多层感知机与双仿射分类器经过softmax函数得到的结果与命名实体标签做交叉熵损失,第二部分是[CLS]标记经过softmax函数的结果与属性标签做交叉熵损失;
Figure QLYQS_49
表示卷积层输出的向量通过多层感知机得到的第i个标记与第j个标记的关系分数,令
Figure QLYQS_50
表示编码层输出的向量通过双仿射分类器得到的第i个标记与第j个标记的关系分数;则它们的共同预测分数为
Figure QLYQS_51
这里
Figure QLYQS_52
是L*L*3维向量,L是输入字向量的维数;
Figure QLYQS_53
表示编码层输出的[CLS]标记向量经过线性层得到结果,则其关于属性预测分数为:
Figure QLYQS_54
这里
Figure QLYQS_55
是L*7维向量,L是输入字向量的维数;
在此模型中,需要根据字与字之间的关系构建关系表格,用
Figure QLYQS_56
表示第i个标记与第j个标记之间的真实关系,另外用
Figure QLYQS_57
表示第i个标记的真实属性向量;
定义损失函数为:
Figure QLYQS_58
Figure QLYQS_59
9.一种XES日志智能转换系统,其特征在于:用于实现如权利要求1-8任一项所述XES日志智能转换方法,包括实体识别模型,对于语料标注后的公司日志数据,进行实体识别;所述实体识别模型,包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入, 区域嵌入,然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;
输出层,将输入的词汇信息的字与字之间的关系表格输出。
CN202310016602.5A 2023-01-06 2023-01-06 一种xes日志智能转换方法及系统 Active CN115757325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310016602.5A CN115757325B (zh) 2023-01-06 2023-01-06 一种xes日志智能转换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310016602.5A CN115757325B (zh) 2023-01-06 2023-01-06 一种xes日志智能转换方法及系统

Publications (2)

Publication Number Publication Date
CN115757325A CN115757325A (zh) 2023-03-07
CN115757325B true CN115757325B (zh) 2023-04-18

Family

ID=85348361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310016602.5A Active CN115757325B (zh) 2023-01-06 2023-01-06 一种xes日志智能转换方法及系统

Country Status (1)

Country Link
CN (1) CN115757325B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521658B (zh) * 2024-01-03 2024-03-26 安徽思高智能科技有限公司 一种基于篇章级事件抽取的rpa流程挖掘方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160031A (zh) * 2019-12-13 2020-05-15 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112154509A (zh) * 2018-04-19 2020-12-29 皇家飞利浦有限公司 具有用于文本注释的演变领域特异性词典特征的机器学习模型
US11574122B2 (en) * 2018-08-23 2023-02-07 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN112989834B (zh) * 2021-04-15 2021-08-20 杭州一知智能科技有限公司 一种基于平格增强线性转换器的命名实体识别方法和系统
CN114386417A (zh) * 2021-12-28 2022-04-22 北京理工大学 一种融入词边界信息的中文嵌套命名实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN111160031A (zh) * 2019-12-13 2020-05-15 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法

Also Published As

Publication number Publication date
CN115757325A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
Qin et al. A survey on text-to-sql parsing: Concepts, methods, and future directions
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN113569054A (zh) 多源中文金融公告文书的知识图谱构建方法及系统
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN113779994B (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN112966097A (zh) 一种基于nlp的上市公司财务快讯自动生成方法及系统
CN115757325B (zh) 一种xes日志智能转换方法及系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114881014A (zh) 实体别名关系获取方法、训练方法、装置及存储介质
CN115063119A (zh) 基于招聘行为数据的自适应性的招聘决策系统及方法
CN115510242A (zh) 一种中医文本实体关系联合抽取方法
CN115935991A (zh) 多任务模型生成方法、装置、计算机设备和存储介质
CN112257442A (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
CN115952298A (zh) 供应商履约风险分析方法及相关设备
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN118170907A (zh) 一种基于深度神经网络的公文智能标签系统及其实现方法
CN111950286A (zh) 一种人工智能法务评审引擎系统开发方法
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
Xu Multi-region English translation synchronization mechanism driven by big data
CN115455964B (zh) 一种针对垂直领域机器翻译的低资源优化方法
Zhang et al. Leveraging Lexical Features for Chinese Named Entity Recognition via Static and Dynamic Weighting.
CN113821618B (zh) 一种电子病历是否类细项提取方法与系统
Meerkamp et al. Information Extraction with Character-level Neural Networks and Free Noisy Supervision
CN118503411B (zh) 提纲生成方法、模型训练方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant