CN115757325B - 一种xes日志智能转换方法及系统 - Google Patents
一种xes日志智能转换方法及系统 Download PDFInfo
- Publication number
- CN115757325B CN115757325B CN202310016602.5A CN202310016602A CN115757325B CN 115757325 B CN115757325 B CN 115757325B CN 202310016602 A CN202310016602 A CN 202310016602A CN 115757325 B CN115757325 B CN 115757325B
- Authority
- CN
- China
- Prior art keywords
- layer
- word
- entity
- input
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 47
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000005065 mining Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 101150050759 outI gene Proteins 0.000 description 1
- 238000013068 supply chain management Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种XES日志智能转换方法及系统,所述方法基于Transformer网络实现,包括以下步骤:获取公司日志数据;在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;构建模型进行实体识别;获取模型训练得到的输出结果,并进行结果评价及优化;将实体、实体命名、实体属性对应写入XES日志中。本发明通过基于Transformer网络的NER技术(Named entity Recognition,命名实体识别)来识别事件日志中具有特定意义的实体,如人名、地名、时间等,并将命名与实体作为一对键、值写入XES日志文件中。
Description
技术领域
本发明IT系统流程挖掘领域,特别涉及一种XES日志智能转换方法及系统。
背景技术
流程挖掘是一种全新的分析方法,它使用系统的数据实时挖掘客观洞察,发现业务流程执行中存在的隐患和风险。流程挖掘技术结合多个数据源的信息,在不同系统、部门和功能之间架起了桥梁。流程挖掘技术并不局限于流程识别和改进,它以其先进的分析和智慧能力,在数字化转型和实现卓越运营方面发挥着至关重要的作用。
流程挖掘使用企业IT系统中海量的事件日志作为数据源,其中每个事件都引用一个事例、一个活动和一个时间点,这些数据包含有关执行的活动(例如采购订单创建)、案例(采购订单编号*****)和时间戳等信息。流程挖掘解决方案从各种IT系统(如ERP、CRM、供应链管理等)获取这些日志,从而帮助企业近乎实时地监控和分析流程,持续优化运营。而事件数据可能来自多种来源,包括数据库系统(例如,医院中的患者数据)、(CSV)文件或电子表格、交易日志(例如,交易系统),业务套件/ERP系统(SAP,Oracle等),消息日志(IBM中间件)。由于事件数据的来源丰富,各种日志格式不统一,若能通过一种转换方法提取日志中的关键信息,并将其写入统一的日志格式文件,这对公司管理来说是有意义的,帮助企业提供公司流程的全局概览,提高流程透明度。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种XES日志智能转换方法,该方法通过基于Transformer网络的NER技术(Named entity Recognition,命名实体识别)来识别事件日志中具有特定意义的实体,如人名、地名、时间等,并将命名与实体作为一对键、值写入XES日志文件中。
本发明的另一目的在于提供一种XES日志智能转换系统。
本发明的目的通过以下的技术方案实现:
一种XES日志智能转换方法,基于Transformer网络实现,包括以下步骤:
S1、获取公司日志数据;
S2、在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;
S3、构建模型进行实体识别;
S4、获取模型训练得到的输出结果,并进行结果评价及优化;
S5、将实体、实体命名、实体属性对应写入XES日志中。
所述获取公司日志数据后,根据网络开放的日志文件或其他语料库获取事务性语料,同时针对缺少标签的数据集进行命名实体和实体关系的标注语料构建工作。
步骤S3中,所述模型包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入(单词间相对位置表征), 区域嵌入(区分网格上三角和下三角区域的表征),然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;
输出层,将输入的词汇信息的字与字之间的关系表格输出。
所述输入层,首先将词汇信息与一个词库相匹配,以获得其中的潜在词。
在所述输入层中,Transformer为序列中的每个标记引入位置表示,给每个标记两个位置索引,分别开始索引和结束索引;对每个字来说头和尾的位置索引是相同的,而每个词的头是起始字的位置索引,尾是结尾字的位置索引;这样会得到一个三元组的集合,每个三元组包括了字或者词,头位置索引和尾位置索引;Transformer采用全连接的自注意力机制来模拟序列中的长距离依赖关系,在自注意力机制部分加入三元组的计算,使得字符能够直接与任何潜在的词,包括自我匹配的词进行信息融合,学习到中文词之间的语义关系。
编码层中,所述Transformer编码器的自注意力机制层和前馈神经网络这两个模块的计算输入与位置无关,对于不同位置的同一个字的输出表示是相同的,所以在输入的时候需要给每一个标记添加位置编码,使得模型学习到句子要表达的真正意思;
在Transformer编码器中,该模型利用输入层得到的三元组进行相对位置编码,具体过程是:首先把所有字和词给到Transformer,利用头和尾的信息计算出每2个节点和之间的4个相对距离,利用多层全连接对4个相对距离进行信息融合,再用相对位置编码的方式将融合信息给到自注意力机制层。
表示第个标记的头部位置和第个标记头部位置之间的距离,表示第个标记的头部位置和第个标记尾部位置之间的距离,表示第个标记的尾部位置和第个标记头部位置之间的距离,表示第个标记的尾部位置和第个标记尾部位置之间的距离,和分别表示跨度第个标记的头部和尾部位置,和分别表示跨度第个标记的头部和尾部位置;
对于输入的词汇信息,经过输入层得到7个标记,每2个标记都要计算4个相对距离,因此相对距离维数为4*7*7;得到输入的相对距离之后,将进行相对位置编码,之后利用相对位置编码将信息融合到注意力机制当中。
所述进行相对位置编码,计算方式为:
所述利用相对位置编码将信息融合到注意力机制当中,是通过下式进行:
所述联合预测层的具体过程如下:
多层感知机将经过卷积层输出的字向量通过多层感知机进行字向量与字向量之间的关系分数预测;
双仿射分类器直接把编码层输出的字向量进行字向量与字向量之间的关系分数预测,这里直接使用编码层而不是卷积层是防止模型退化以及缓解模型梯度爆炸和消失的作用让模型训练更加好;
将多层感知机的关系分数和双仿射分类器的关系分数进行相加后再经过softmax函数得到对实体边界以及类型的预测结果;
取出编码层的第一个标记,即[CLS]的输出向量输入一个带有softmax函数的线性层,该网络返回的是输入字所带属性的概率,同时也可以验证若该标记的属性属于类别0的概率最大,则说明这个标记不是主体。
所述模型的损失函数包括两部分之和,第一部分是多层感知机与双仿射分类器经过softmax函数得到的结果与命名实体标签做交叉熵损失,第二部分是[CLS]标记经过softmax函数的结果与属性标签做交叉熵损失;
定义损失函数为:
本发明的另一目的通过以下的技术方案实现:
一种XES日志智能转换系统,包括实体识别模型,对于语料标注后的公司日志数据,进行实体识别;所述实体识别模型,包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入(单词间相对位置表征), 区域嵌入(区分网格上三角和下三角区域的表征),然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;
输出层,将输入的词汇信息的字与字之间的关系表格输出。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明对于不同公司在不同场景下的日志应用,可以自定义中文词库,从而在训练模型的过程中匹配到固定场景下的潜在词,使得对于命名实体识别更精确,效果更好。
2、在本发明提出的模型的编码部分中,主要对如何处理中文部分进行了介绍,实际上若涉及到多国语言或者混合语言,Transformer编码模块可以引入更具针对性的预训练模型,比如多国语言预训练模型,在多国语言的场景下,在保证中文NER任务的准确性的情况下,也能进行其他语言的NER任务。
3、针对XES标准格式,本发明对于数据标注引入了属性处理,同时在损失函数加入了对属性这部分的计算。
附图说明
图1为某公司某一天某一时间段的日志截图。
图2为需要抽取的命名与实体作为一对键、值写入XES日志中之后的截图。
图3为某公司在某项工作流程中的关于错误记录的内容截图。
图4为识别的命名与实体作为一对键、值写入XES日志中之后的截图。
图5为本发明所述实体识别模型的框架示意图。
图6为本发明所述输入文本的字与字之间的关系表格示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1-6,一种XES日志智能转换方法,基于Transformer网络实现,包括以下步骤:
步骤1、公司日志数据的获取与处理;
步骤2、在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;
步骤3、构建模型进行实体识别(NER);
步骤4、获取模型训练得到的输出结果,并进行结果评价及优化;
步骤5、将实体、实体命名、实体属性对应写入XES日志中。
下面分几个模块进行详细描述:
一、数据处理
关于步骤1、2,获取数据的主要途径是包括与公司建立合作关系,获取公司日志文件,根据网络开放的日志文件或其他语料库获取事务性语料,同时针对缺少标签的数据集进行命名实体和实体关系的标注语料构建工作。
如图1,给出某公司某一天某一时间段的日志截图;
可以从图1发现,普通的公司日志没有标准格式,排版随意,找不到重点。
抽取上述日志文件中某一事件中需要抽取的命名与实体作为一对键、值写入XES日志中之后如图2。
根据XES格式标准,键值可以以冒号为分隔符区分一级标题和二级标题,对于文件的整理有更大的帮助。实体作为value可以以任何格式写入XES日志中,另外在XES中,包含了string,date,int,float,boolean,id这6个属性输出来描述value的类型。因此利用XES来保存日志文件更便捷,更高效。
为了展示日志文件内容的多样性,另外如图3,截取2022年8月18日至8月31日某公司在某项工作流程中的关于错误记录的内容作为例子。
图3的日志文件由中文、英文和数字组成;
下面以“2022-08-23 18:01:16.302 [http-nio-8096-exec-3]ERROR com.kingsware.form.model.impl.CmdbRepositoryImpl - 脚本未保存,没有找到可执行程序”这一事件为例,构建命名实体和实体关系的标注语料。在本文中,针对XES日志中的属性string,date,int,float,boolean,id 分别用类别1,2,3,4,5,6表示,用类别0表示这不是一个主体,没有属性。
在“2022-08-23 18:01:16.302 [http-nio-8096-exec-3] ERROR com.kingsware.form.model.impl.CmdbRepositoryImpl - 脚本未保存,没有找到可执行程序”这一事件中,定义“2022-08-23 18:01:16.302”为实体time,属性为date,第一个2为实体time的起点,对应标签为B-time-2,其余输入的对应标签为I-time-2;定义“ERROR”为实体type,E对应标签为B-type-1,其余输入的对应标签为I-type-1;
定义“http-nio-8096-exec-3”为实体location,h对应标签为B-location-1,其余输入对应标签为I-location-1;
定义“com.kingsware.form.model.impl.CmdbRepositoryImpl”为实体reason,c对应标签为B-reason-1, 其余输入的对应标签为I-location-1;定义“脚本未保存,没有找到可执行程序”为实体discription,脚对应标签为B-discription-1,其余输入的对应标签为I-discription-1。其余未涉及到的输入的对应标签均为O-0,表示其他非主体。
关于步骤5,将上述例子中识别的命名与实体作为一对键、值写入XES日志中之后如图4。
二、构建模型
本文重点介绍如何构建模型进行实体识别。在实际应用中,公司日志中不仅涉及到英文,更常见到的是中文,并且与英文NER相比,由于英文和中文不同的语言特性,中文没有空格且基本单元是字,所以中文NER要比英文NER更困难一。对于中文来说,目前基于字符的NER系统通常好于基于词汇分词的方法,但基于字符的NER没有利用词汇信息造成了信息损失,许多中文句子由于缺乏词汇信息可能对句子的理解有歧义从而造成实体识别有误,因此词汇边界对于实体边界通常起着至关重要的作用。在先分词后做NER的方法和字级别的NER方法都有缺陷的情况下,如何在不分词的情况下向字级别的序列中加入词信息这个问题是近年来值得探讨的问题。
本文的最终目的是将公司日志中的关键信息提取出来之后转成XES格式,而XES要求每一个事件不仅需要包括实体的名称以及实体,还需要标注实体的属性,针对这一特性,本文的模型将比传统的NER模型多一个属性识别的输出预测。
如图5,下面给出具体模型的框架,并在下文依次给出每一部分的解释:
1、输入层
模型的第一层是输入层。每一篇公司日志有多条记录,一条记录对应于一个事件,比如一个事件“2022-08-23 18:01:16.302 [http-nio-8096-exec-3]ERROR com.kingsware.form.model.impl.CmdbRepositoryImpl - 脚本未保存,没有找到可执行程序”就是一个输入,本文为了重点说明中文NER方法,只截取“脚本未保存”为输入。
从图5可以看出,该模型将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失。首先将“脚本未保存”与一个词库(根据实际应用场景,可自定义词库,使得分词更准确,避免歧义等情况使得结果准确率下降)相匹配,以获得其中的潜在词“脚本”、“保存”。因此完整的输入标记为[“脚”,“本”,“未”,“保”,“存”,“脚本”,“保存”]。
为了保留位置信息,Transformer为序列中的每个标记引入位置表示,给每个标记两个位置索引,分别为头(Head)和尾(Tail),即开始索引和结束索引。对每个字来说头和尾的位置索引是相同的,而每个词的头是起始字的位置索引,尾是结尾字的位置索引。这样我们会得到一个三元组的集合,每个三元组包括了字或者词,头位置索引和尾位置索引。Transformer采用全连接的自注意力机制来模拟序列中的长距离依赖关系,在自注意力机制部分加入三元组的计算,使得字符能够直接与任何潜在的词,包括自我匹配的词进行信息融合,学习到中文词之间的语义关系。
、编码层
模型的第二层是编码层。该模型的编码层的第一部分由嵌入层和N个Transformer编码器构成,在这里,我们可以选择多国语言的预训练模型进行下游任务微调,以保证处理含有其他语言的公司日志时能够取得更好的效果,而输入层仍然是对选取中文词库对输入进行匹配来得到潜在词,以此确保中文NER任务的准确性。
在Transformer编码器这一部分,自注意力机制层和前馈神经网络这两个模块的计算输入与位置无关,对于不同位置的同一个字的输出表示是相同的,所以在输入的时候需要给每一个标记添加位置编码,使得模型学习到句子要表达的真正意思。
在原始的Transformer编码器中,使用的位置编码是绝对位置编码,该模型利用输入层得到的三元组进行相对位置编码,具体过程是首先把所有字和词给到Transformer,利用头和尾的信息计算出每2个节点i和j之间的4个相对距离,利用多层全连接对4个相对距离进行信息融合,再用相对位置编码的方式将融合信息给到自注意力机制层,这种位置编码方式可以充分利用词汇信息,节点不仅对字节点关注,同时也关注了中文词。举例来说,“脚”和“脚本”的4个相对距离分别是是0011,我们就能判断出“脚”这个字在“脚本”这个词里面,那么模型就能根据包含的关系,使“脚”对“脚本”这个词多加关注,从而更好的识别实体的边界。下面介绍如何计算相对距离以及利用相对距离进行自注意力机制。
表示第个标记的头部位置和第个标记头部位置之间的距离,表示第个标记的头部位置和第个标记尾部位置之间的距离,表示第个标记的尾部位置和第个标记头部位置之间的距离,表示第个标记的尾部位置和第个标记尾部位置之间的距离,和分别表示跨度第个标记的头部和尾部位置,和分别表示跨度第个标记的头部和尾部位置;
对于“脚本未保存”这一输入,经过输入层得到7个标记,每2个标记都要计算4个相对距离,因此相对距离维数为4*7*7,其中,它的展示如图5。得到输入的相对距离之后,将进行相对位置编码,下面介绍相对位置编码公式。
所述进行相对位置编码,计算方式为:
之后利用相对位置编码将信息融合到注意力机制当中,所述利用相对位置编码将信息融合到注意力机制当中,是通过下式进行:
接下来的计算和原本的Transformer编码器相同。
编码层的第二部分是双向长短期记忆网络,可以增强模型的上下文建模能力,最终得到一个字、词表示序列。
、卷积层
模型的第三部分是卷积层。卷积层包含了3个部分,主要作用是特征提取,预测词对关系,在卷积层中仍需计算输入标记中关于词的网格表示。
(1)通过条件归一化层生成字与字之间的关系网格表征-词嵌入 (2D),这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入。
(2)由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入(单词间相对位置表征), 区域嵌入(区分网格上三角和下三角区域的表征),然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入。
(3)最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码。
、联合预测层
联合预测层由多层感知机、双仿射分类器以及一个线性层构成。要注意的是,我们只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测。多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分。具体过程如下:
(1)多层感知机层将经过卷积层输出的字向量通过多层感知机进行字向量与字向量之间的关系分数预测。
(2)双仿射分类器直接把编码层输出的字向量进行字向量与字向量之间的关系分数预测,这里直接使用编码层而不是卷积层是防止模型退化以及缓解模型梯度爆炸和消失的作用让模型训练更加好。
(3)将多层感知机的关系分数和双仿射分类器的关系分数进行相加后再经过softmax函数得到对实体边界以及类型的预测结果。
(4)取出编码层的第一个标记,即[CLS]的输出向量输入一个带有softmax函数的线性层,该网络返回的是输入字所带属性的概率,同时也可以验证若该标记的属性属于类别0的概率最大,则说明这个标记不是主体。
、损失函数
损失函数包括两部分之和,第一部分是多层感知机与双仿射分类器经过softmax函数得到的结果与命名实体标签做交叉熵损失,第二部分是[CLS]标记经过softmax函数的结果与属性标签做交叉熵损失。
定义损失函数为
、自定义词库
在输入层中,针对包含中文的输入序列,需要将其与中文词库相匹配,以获得其中的潜在词,并将潜在词作为词标记输入网络学习,从而使得模型更好地学习上下文中文语义。针对不同公司的不同场景,所需要的词库往往是有区别的。比如在记录程序运行错误的日志场景下,“脚本”就可以作为一个词放入词库中。
、模型输出
仍然以“脚本未保存”为例,最终可以得到该输入文本的字与字之间的关系表格,注意这里剔除了所有词。
在图6中,展示了构建字与字关系的二维表格,表格的上三角部分表示NHW关系标注,下三角区域则表示THW-* 关系标注。NHW(Next-Neighboring-Word)表示两个字之间是相邻关系, THW-*( Tail-Head-Word-*)表示是实体皆尾和实体开头的连接关系,并且带有实体的类型信息,这里的THW-D中D是discription的缩写。因此图6表示“脚本未保存”是一个实体,其命名为“描述”。另外每一个字的属性输出都为“1”,表明对应的属性为string。
要注意的是,真正输入极少出现整句话均为实体的情况,当为非实体时,其对应的二维表格不会出现NHW或者THW-*标记。
、模型优化及XES日志的实现
将所有数据输入模型之后,会得到模型输出,通过对比输出结果以及标签可以计算出模型的准确率。为了提高模型准确率,需要进行模型训练来优化模型。在算法上通过Adam优化算法最小化交叉熵损失函数,来进行参数更新。同时数据集的构建也是影响模型效果的重要因素。
从模型输出可以看出,输入一个事件可以得到所包含的实体、实体命名以及实体属性,因此可以将其写入XES日志。
本发明的主要效果在于针对各种格式不统一的公司日志,通过基于Transformer网络的NER算法提取日志中的关键信息,并将其写入统一的XES日志格式文件,这对公司管理来说是有重要意义的。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种XES日志智能转换方法,其特征在于,基于Transformer网络实现,包括以下步骤:
S1、获取公司日志数据;
S2、在不同场景下,基于公司需求,明确命名实体种类,进行语料标注;
S3、构建模型进行实体识别;
所述模型包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入, 区域嵌入,然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;所述联合预测层的具体过程如下:
多层感知机将经过卷积层输出的字向量通过多层感知机进行字向量与字向量之间的关系分数预测;
双仿射分类器直接把编码层输出的字向量进行字向量与字向量之间的关系分数预测,这里直接使用编码层而不是卷积层是防止模型退化以及缓解模型梯度爆炸和消失的作用让模型训练更加好;
将多层感知机的关系分数和双仿射分类器的关系分数进行相加后再经过softmax函数得到对实体边界以及类型的预测结果;
取出编码层的第一个标记,即[CLS]的输出向量输入一个带有softmax函数的线性层,该网络返回的是输入字所带属性的概率,同时也可以验证若该标记的属性属于类别0的概率最大,则说明这个标记不是主体;
输出层,将输入的词汇信息的字与字之间的关系表格输出;
S4、获取模型训练得到的输出结果,并进行结果评价及优化;
S5、将实体、实体命名、实体属性对应写入XES日志中。
2.根据权利要求1所述XES日志智能转换方法,其特征在于,所述获取公司日志数据后,根据网络开放的日志文件或其他语料库获取事务性语料,同时针对缺少标签的数据集进行命名实体和实体关系的标注语料构建工作。
3.根据权利要求1所述XES日志智能转换方法,其特征在于,在所述输入层中,Transformer为序列中的每个标记引入位置表示,给每个标记两个位置索引,分别开始索引和结束索引;对每个字来说头和尾的位置索引是相同的,而每个词的头是起始字的位置索引,尾是结尾字的位置索引;这样会得到一个三元组的集合,每个三元组包括了字或者词,头位置索引和尾位置索引;Transformer采用全连接的自注意力机制来模拟序列中的长距离依赖关系,在自注意力机制部分加入三元组的计算,使得字符能够直接与任何潜在的词,包括自我匹配的词进行信息融合,学习到中文词之间的语义关系。
8.根据权利要求1所述XES日志智能转换方法,其特征在于,所述模型的损失函数包括两部分之和,第一部分是多层感知机与双仿射分类器经过softmax函数得到的结果与命名实体标签做交叉熵损失,第二部分是[CLS]标记经过softmax函数的结果与属性标签做交叉熵损失;
定义损失函数为:
9.一种XES日志智能转换系统,其特征在于:用于实现如权利要求1-8任一项所述XES日志智能转换方法,包括实体识别模型,对于语料标注后的公司日志数据,进行实体识别;所述实体识别模型,包括依次设置的输入层、编码层、卷积层、联合预测层及输出层;其中,
输入层,将基于字符级将中文文本进行分词,同时加入词信息一并作为输入标记,使得在模型学习的过程中避免词汇信息损失;
编码层,包括两部分:第一部分包括嵌入层和N个Transformer编码器,第二部分为双向长短期记忆网络,用于增强模型的上下文建模能力,最终得到一个字、词表示序列;
卷积层,通过条件归一化层生成字与字之间的关系网格表征-词嵌入,这里是直接把编码层的输出作为 条件归一化层的输入,因此得到网格表示的词嵌入;由Bert的标记嵌入、位置嵌入、段嵌入思路设计了距离嵌入, 区域嵌入,然后将这三个表征连接起来得到一个丰富的Bert风格式语义网格表示作为下一个模块的输入;最后经过多层感知机和膨胀系数分别为1,2,3的三个多粒度膨胀卷积,去捕获网格中不同位置的词对间的关系,进一步对网格表征进行编码,最后拼接得到网格最终编码;
联合预测层,包括多层感知机、双仿射分类器以及一个线性层;只将字符表示的输出继续经过联合预测层部分,所有词的输出全部舍弃不参与预测;多层感知机、双仿射分类器共同用于预测实体边界以及实体命名部分,线性层用于预测实体属性部分;
输出层,将输入的词汇信息的字与字之间的关系表格输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310016602.5A CN115757325B (zh) | 2023-01-06 | 2023-01-06 | 一种xes日志智能转换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310016602.5A CN115757325B (zh) | 2023-01-06 | 2023-01-06 | 一种xes日志智能转换方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115757325A CN115757325A (zh) | 2023-03-07 |
CN115757325B true CN115757325B (zh) | 2023-04-18 |
Family
ID=85348361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310016602.5A Active CN115757325B (zh) | 2023-01-06 | 2023-01-06 | 一种xes日志智能转换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757325B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521658B (zh) * | 2024-01-03 | 2024-03-26 | 安徽思高智能科技有限公司 | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
WO2020140386A1 (zh) * | 2019-01-02 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112154509A (zh) * | 2018-04-19 | 2020-12-29 | 皇家飞利浦有限公司 | 具有用于文本注释的演变领域特异性词典特征的机器学习模型 |
US11574122B2 (en) * | 2018-08-23 | 2023-02-07 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN112989834B (zh) * | 2021-04-15 | 2021-08-20 | 杭州一知智能科技有限公司 | 一种基于平格增强线性转换器的命名实体识别方法和系统 |
CN114386417A (zh) * | 2021-12-28 | 2022-04-22 | 北京理工大学 | 一种融入词边界信息的中文嵌套命名实体识别方法 |
-
2023
- 2023-01-06 CN CN202310016602.5A patent/CN115757325B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020140386A1 (zh) * | 2019-01-02 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115757325A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qin et al. | A survey on text-to-sql parsing: Concepts, methods, and future directions | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN113569054A (zh) | 多源中文金融公告文书的知识图谱构建方法及系统 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN113779994B (zh) | 一种要素抽取方法、装置、计算机设备和存储介质 | |
CN112966097A (zh) | 一种基于nlp的上市公司财务快讯自动生成方法及系统 | |
CN115757325B (zh) | 一种xes日志智能转换方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114881014A (zh) | 实体别名关系获取方法、训练方法、装置及存储介质 | |
CN115063119A (zh) | 基于招聘行为数据的自适应性的招聘决策系统及方法 | |
CN115510242A (zh) | 一种中医文本实体关系联合抽取方法 | |
CN115935991A (zh) | 多任务模型生成方法、装置、计算机设备和存储介质 | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN115952298A (zh) | 供应商履约风险分析方法及相关设备 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
CN111950286A (zh) | 一种人工智能法务评审引擎系统开发方法 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
Xu | Multi-region English translation synchronization mechanism driven by big data | |
CN115455964B (zh) | 一种针对垂直领域机器翻译的低资源优化方法 | |
Zhang et al. | Leveraging Lexical Features for Chinese Named Entity Recognition via Static and Dynamic Weighting. | |
CN113821618B (zh) | 一种电子病历是否类细项提取方法与系统 | |
Meerkamp et al. | Information Extraction with Character-level Neural Networks and Free Noisy Supervision | |
CN118503411B (zh) | 提纲生成方法、模型训练方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |