CN114239553A - 基于人工智能的日志审核方法、装置、设备及介质 - Google Patents

基于人工智能的日志审核方法、装置、设备及介质 Download PDF

Info

Publication number
CN114239553A
CN114239553A CN202111590014.XA CN202111590014A CN114239553A CN 114239553 A CN114239553 A CN 114239553A CN 202111590014 A CN202111590014 A CN 202111590014A CN 114239553 A CN114239553 A CN 114239553A
Authority
CN
China
Prior art keywords
log
error
text
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111590014.XA
Other languages
English (en)
Inventor
周诚玺
马培龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiayuan Technology Co Ltd
Original Assignee
Jiayuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiayuan Technology Co Ltd filed Critical Jiayuan Technology Co Ltd
Priority to CN202111590014.XA priority Critical patent/CN114239553A/zh
Publication of CN114239553A publication Critical patent/CN114239553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开基于人工智能的日志审核方法、装置、设备及介质,该方法包括如下步骤,获取日志文本并进行预处理;构建本行业的错误混淆集,并通过日志文本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正;构建TextRank模型,迭代计算词汇或句子权重,选取权重值最高的若干个词汇或句子集合构成日志摘要;将日志摘要发送至相关人员。本发明基于自然语言处理和深度学习技术智能化审核电力日志,自动进行错误检查与纠正,并快速且有效地捕捉到日志文本内的关键信息,对原文信息进行压缩提炼,让电力人员能够快速了解日志关键点,节省工作人员对于日志信息的选择以及阅读时间,提升工作效率。

Description

基于人工智能的日志审核方法、装置、设备及介质
技术领域
本发明涉及信息处理技术领域,尤其涉及基于人工智能的日志审核方法、装置、设备及介质。
背景技术
电力系统设备的正常运行是保障社会经济稳定发展的重要支撑。随着电网和电力设备组成规模的不断增大,电力系统设备的种类越来越多,运行工况也越来越复杂。电力系统设备在运行时,电力系统工作人员会定期对这些设备进行检查维护并会将当前设备状态的运行情况或检修结果记录在案。由于系统设备数量庞大,电力系统会积累大量反映电力设备功能状态及处理情况的日志信息,这些文本蕴含了电力设备以往发生的缺陷情况及相应的有效解决措施。但长期以来,这些数据未能被有效利用,往往闲置于数据系统中,且设备检修人员在记录时由于场地限制或时间紧迫,日志难免会存在部分错别字词或简写,经过一段时间再看当时记录可能会无法读懂。另外,电力设备功能情况繁杂,可能出现的情况繁多,而处理过程在很大程度上依赖于运维检修人员的专业知识与经验。若能将历史积累的日志文本加以组织和利用,将各电力系统的日志自动审核并将提取到的关键信息集中起来,有助于不同区域运维检修人员进行查询、学习、借鉴,更有效地进行相互间的经验交流,从而更高效地处理运维检修人员自身尚未遇到过但历史数据中存在可借鉴的案例的检修情况,也有利于新运维检修人员快速掌握设备运维检修工作,提高自身业务水平,这对电力设备功能缺陷处理工作具有重要的指导意义。
发明内容
为了解决上述技术问题,本方案将这类日志充分利用,利用人工智能技术对这类非结构化文本进行审核,能够自动阅读文档内容并理解文本语义信息,并对关键的核心信息进行提取,把可能存在的错误内容标识出来并输出正确内容。让机器能够代替人做机械化、重复性的工作。这样电力工作人员就无需阅读整个文档,只用关注提炼出的关键信息即可,极大减少了人工处理的时间,实现日志智能审核,为电力设备的智能运维提供技术支持。
为了达到上述目的,本发明的技术方案如下:
基于人工智能的日志审核方法,包括如下步骤:
步骤1,获取日志文本并进行预处理;
步骤2,构建本行业的错误混淆集,并通过日志文本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正;
步骤3,构建TextRank模型,迭代计算词汇或句子权重,选取权重值最高的若干个词汇或句子集合构成日志摘要;
步骤4,将日志摘要发送至相关人员。
优选地,所述预处理包括剔除无关数据、删除重复数据、噪声内容清洗、类别特征编码、中文分词和删除停用词。
优选地,所述类别型特征编码包括one-hot编码方式或频率编码方式。
优选地,所述构建本行业的错误混淆集,具体包括如下步骤:
步骤210,输入汉语词典和汉语拼音表,建立拼音-汉字索引结构;
步骤211,获取人工总结的本行业易混淆词表C1
步骤212,对预处理后日志文本的每个字或词进行遍历,若所述字或词的拼音指向汉语,则将该词及其拼音存入同音索引表中,完成遍历后得到本行业日志的同音词表C2
步骤213,对日志文本的每个词进行遍历,计算在所有日志文本中编辑距离为1的词,创建替换混淆词表C3
步骤214,合并本行业易混淆词表C1、本行业日志的同音词表C2和替换混淆词表C3,创建错误混淆集。
优选地,所述通过日志文本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正,具体包括如下步骤:
步骤220,使用滑动窗口和训练好的日志文本查错模型对输入的日志进行评估,计算PPL困惑度得分,判断PPL困惑度得分是否超过预设阈值,若是,则转至步骤221,进行纠错处理;若否,则判定为通顺;
步骤221,通过错误混淆集来对疑似错误中的字词进行字音字形义形的替换,获得纠错候选序列;
步骤222,将纠错候选序列中的字词替换到原文中,依次重新计算PPL困惑度得分,选取PPL困惑度得分最小的纠错候选词,进行替换。
优选地,所述日志文本查错模型为N-gram模型。
优选地,所述步骤3,具体包括如下步骤:
步骤310,利用BERT预训练模型生成句向量,然后再计算两个句向量夹角的余弦值即可得出相似度;
步骤311,将日志文本中的句子或者词汇为节点、相似度值为边构建带权的无向网络图,迭代计算句子TextRank权重,在计算的过程中结合句子位置、线索词、句子长度等因素对权重进行优化处理;
步骤312,选取权重值最高的若干个词汇或句子集合构成日志摘要。
基于人工智能的日志审核装置,包括文本处理单元、智能纠错单元、摘要提取单元和反馈单元,其中,
所述文本处理单元,用于获取日志文本并进行预处理;
所述智能纠错单元,用于构建本行业的错误混淆集,并通过日志文本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正;
所述摘要提取单元,用于构建TextRank模型,迭代计算句子权重,选取权重值最高的若干个词汇或句子集合构成日志摘要;
所述反馈单元,用于将日志摘要信息发送至相关人员。
计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的词法检查程序,所述词法检查程序被所述处理器执行时实现如上述任一所述的基于人工智能的日志审核方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一所述的基于人工智能的日志审核方法。
基于上述技术方案,本发明的有益效果是:
1)电力设备维护日志是电力系统管理和维护是至关重要的一环,日志个别字段的错误将会影响整个电网系统的安全性和效率,本发明利用统计语言模型解决电力日志自动化纠错问题,提高准确率低,且具有较强的鲁棒性和实用性;
2)本发明基于TextRank无监督算法提取日志中的关键信息并对原算法进行改进,帮助工作人员从海量电力日志中快速、精准地获取所需要的信息,解决了数据总量庞大而且信息含量密度低与用户高效精准读取信息的矛盾,且通过对模型到的改进将关注点更多放在对日志的深度信息挖掘中,最终获取到关键信息选取精准且内容通顺的摘要信息;
3)本发明基于人工智能的电力日志智能审核方法对文本语义的理解程度较深,输出的关键摘要语句通顺、主题准确清晰,无需人工过多干预,可移植性强,能够广泛应用于医疗、工业生产等多个领域。
附图说明
图1是一个实施例中基于人工智能的日志审核方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,本发明提出了基于人工智能的日志审核方法,旨在基于自然语言处理和深度学习技术智能化审核电力日志,自动识别并纠正日志文本中所包含的语法错误、拼写错误、语序错误、标点错误等,并快速且有效地捕捉到日志内的关键信息,对原文信息进行压缩提炼,让电力人员能够快速了解日志关键点,节省工作人员对于日志信息的选择以及阅读时间,提升工作效率。主要采用技术方案描述如下:
(一)日志数据样本采集
电力系统的一线工作人员在日常工作时对设备进行维护或对故障设备检修后,会利用APP客户端将维护检查情况及故障原因分析记录在平台数据库中,因此本方案中电力日志文本采集的数据来源为电力系统平台,从平台数据库中导出一定时间内的日志历史数据。以某电力公司的历史工作日志为例,包括的主要信息为:IP地址、MAC地址、故障或检修发生的日期、工作组、工作人员、工区、故障地点、设备地点、设备类别、设备部位、故障设备名称、故障等级、发生时间、恢复时间、故障现象处理经过及采取的措施、原因分析、定责等信息。
(二)样本数据预处理
在进行文本分析前还需要对采集到的日志样本进行预处理,数据预处理是发现并解决数据质量问题的过程,通常包含对相似重复数据、异常数据、不一致数据等的清洗,通过数据清洗提高数据质量,使得后续的分析能够通过数据挖掘与数据分析做出科学判断。且自然语言的记录形式无法直接作为智能审核的输入,电网平台存储的日志数据不仅包含日志正文、标题等内容,往往还有时间地点等信息,很多特征与本次分析无关,不适合在后续分析时使用,所以需要提前对数据集进行处理。预处理主要包括:
(1)剔除无关数据项
在电网平台数据库中存储有多个与日志关联的数据表,这些表中的数据特征项与日志会有所关联,但这些特征项与本发明的日志分析无关,如日志ID、IP地址、MAC地址、工作人员、发生的时间日期等,这些特征对于日志审核分析没有太多帮助,不能刻画样本自身的分布规律,如果保留这些信息不仅会增加文本处理的工作量,还会对后期的一系列操作造成直接影响,从而降低分析处理的效率。因此十分有必要删除这些无关数据。
(2)文本内容清洗
日志中会出现图片、特殊符号、乱码文字、表情等内容,这些内容会干扰之后的数据分析,因此将这些内容当作噪声数据来对待,利用正则表达式匹配将噪声数据删除,使得到的文本信息更加纯粹。
(3)重复数据处理
在数据采集的过程中会存在重复值的情况,出现重复值可能与平台程序重复启动或在入库阶段多次导入有关。采用合并法,通过判断日志内容是否相等,将相等的记录合并为一条记录。
(4)类别型特征编码
输入特征中部分特征为无序类别变量,如所属部门等,应通过One-Hot Encoding将其转化为矩阵。如当前状态这一特征共有3种状态,因此利用One-Hot Encoding进行编码。对类别数量少于10,采用One-Hot编码方式;对类别超过10的采用频率编码方式。日志数据中需要进行类别编号的特征包括故障等级、错误类型等。
(5)日志文本分词及删除停用词
为了能够使关键词更加突出与有效,减少后续特征提取的噪音干扰,利用中文分词工具对日志内容进行分词操作,然后载入通用停用词表,停用词即“电脑检索中的虚字,非检索用字”,所以去除文本中一类使用十分广泛的词汇,如:“这”、“就”、“是”这类在每篇日志上面都会出现的词;去除文本中使用频率很高的词汇,比如:“的”、“在”、“和”、“比如”等语气词、介词等这类词汇。
(三)日志智能纠错
(1)日志文本错误类型分析
通过人工查阅并总结部分日志历史数据,发现电力日志文本中出现的错误多是因为设备维护人员由于粗心导致的文字输入法输出错误,即由于汉字集中有很多音相似或形相似或义相似的汉字,输入法选择文字时将一个词错选成另一个词,这个错误的词虽然不违背局部的语法规范,但不符合全局语言规范。例如“尚未机系统可靠性降低”,“尚未”为错别字,正确内容应为“上位”。
汉字错别字的成因一般有音相似错别字和形相似错别字,音相似错别字指由于汉字音相同或相似造成的错别字,形相似错别字是指由于字形相似而造成的错误。在电力日志中,由于工作人员都是利用拼音输入法来编写日志,因此错误原因往往都是音相似错别字,如“液压”被写成了“野鸭”。这类错误是文本中词的某一个字或几个字被另外一个字或几个字替换而造成的,一般替换的字之间存在某种音相似的特征。
(2)电力领域错误混淆集构建
经过对日志的分析后发现,错别字和其对应的正确的字有一定的特征,一般都是由于拼音相同或相似、字形相似、义相似而导致的。在识别日志中的错别字时,需要根据这些特征预先定义好一个汉字可能会混淆的字的集合,即错误混淆集。
错误混淆集的构建往往依赖于相关领域的专家人工总结出平时工作中容易用错混淆的字或词,但这种方法完全依赖于人工经验,构建效率低下,针对这种情况,本方案提出一种混淆集的自动生成方法,并结合人工总结共同创建错误混淆集,这样可以在较短时间内就构建好一个字词量较大的混淆集字典。具体流程如下:
1.输入汉语词典和汉语拼音表,建立拼音-汉字索引结构;
2.电力工作人员手动总结电力行业易混淆词表C1
3.对分词及删除停用词后日志文本的每个字或词进行遍历,若该字或词的拼音指向汉语,则将该词及其拼音存入同音索引表中,完成遍历后得到电力日志的同音词表C2
4.对日志文本的每个词进行遍历,计算在所有日志文本中编辑距离为1的词,创建替换混淆词表C3
5.合并电力行业易混淆词表C1、电力日志的同音词表C2和替换混淆词表C3,创建电力错误混淆集。
(3)日志文本错误检查
在成功构建混淆集后,下一步就是判断一篇日志中是否存在错别字,这个过程其实是根据各特征打分择优的过程,要使纠错结果最优,就要进行有效的评分,对评分结果进行有效的排序,得到可信度高的排序结果,并从中选择评分最高的词条,得出纠错结果。所以构造有效的查错模型是一个非常重要和关键的环节,此过程需要语言学知识,统计学知识,还需要进行大量的数据挖掘和分析,模型参数的确定也需要大规模的语料库训练得到,最终确定模型的形式。本方案基于N-Gram语言模型来构建日志文本查错模型,假设日志文本中一句话s都是由一连串特定序列的词q1,q2,q3,…,qn构成,根据链式规则,句子s出现的概率为:
Figure BDA0003429539660000071
可以认为对于每一个出现的词,其出现的概率取决于这个词前面的所有词。但是从计算上来看,由于计算量太大而无法实现。N-gram模型假定任意词的出现概率只和它前面的n-1个词有关,即:
Figure BDA0003429539660000072
公式是通过大量的语料统计和计算得出的,语料库的容量越大其频率值越接近其概率值,因此在大规模语料库的前提下,N-gram模型可以表示为:
Figure BDA0003429539660000073
其中feq(qiqi-1)表示qiqi-1在语料库中同现的频率,feq(qi-1)表示qi-1在语料库中出现的频率。本方案采用n=3的三元语言模型来进行建模,表示第i个词和前2个词有关,即:
Figure BDA0003429539660000074
由于语料库规模有限,许多合理的搭配关系在语料库中不一定出现,因此会出现数据稀疏现象,即概率为0的情况,虽然这种情况可以通过扩大数据集的方式来改善,但数据量再大的语料库也不能保证日志中每个词都在语料库中出现,因此本方案对模型概率计算方法进行调整,以消除模型参数为零的数据稀疏现象,使得模型参数的概率分布趋于均匀,提高模型整体的准确率。处理过程为,适当减小训练数据样本中出现的字词概率,将减少的概率密度分配给语料库中未出现的字词,设定任何一个N-gram在训练语料中至少出现一次,此时的语言模型概率计算公式为:
Figure BDA0003429539660000075
其中,语料库中所有N-gram的数量为N,所有可能的不同的N-gram的数量是V。处理后的N-gram模型得到的概率值是大于0的数值较小的N-gram概率。
(4)文本错误纠正
通过构建好的N-gram语言模型即可计算出某句话的出现概率,本方案使用语言模型困惑度(PPL)来计算某一句话的似然估计值是否低于阈值,如果低于就将这个字词视为疑似错误。在获取所有的疑似错误后,在混淆词表中取这些疑似错误字的音似字、形似字对原字词进行替换并结合N元语言模型进行排序,获得得分最高的结果。
在实际处理时,输入日志中的一句话后,使用滑动窗口和训练好的语言模型对该文本计算PPL困惑度得分,计算各个位置的得分值并规定阈值来进行判断,在阈值之外的则看作疑似错误。通过混淆集词表来对疑似错误中的字词进行字音字形的替换,获得纠错候选序列。将候选纠错字词替换到原文中,重新计算PPL困惑度得分来判断句子的正确程度。PPL困惑度是由语言模型分配的概率的乘法逆,用来预测文本的质量如何。通常情况下,PPL的值越小,表明样本越可靠,也就是越准确,模型的效果较好。反之,PPL的值越大,说明模型的效果越差。计算公式如下:
Figure BDA0003429539660000081
其中,S代表输入文本,N是句子长度,P(Wi)是第i个词的概率。
(四)日志关键信息提炼
在完成对日志的纠错工作后,日志文本的错误得到了改正,但此时文本因篇幅过长或数量较多,其可读性还不是太高,电力工作人员在工作现场遇到维修难题时会从过去的检修日志中检索类似的问题,如果检索结果过多且日志篇幅较长,工作人员就无法及时高效的从检索日志中获取有用的信息。针对这一问题,本发明进一步对日志进行加工,提炼出日志梗概,在尽量保证原文内容不变的前提下,得到可读性较高而且精简的内容,减少被无用信息干扰的可能性,使得电力一线工作人员能够快速获得有价值的信息,为现场及时排查问题提供借鉴与参考。本方案利用统计机器学习算法来对日志相关内容进行分析,提取关键特征,具体流程为:
(1)日志样本特征分析
由于设备维护日志所含特征项复杂,想要从中提取关键信息需要先对这些内容进行初步分析,以粗粒度筛选出对于电力人员可能有帮助的内容,随后再进行关键信息提取操作。
设备日志中包括了多列信息,有的文本字数较少但记录了故障的关键信息,如故障设备名称、设备部位、设备类别、原因分析,这类内容篇幅短,通过对样本集统计后发现这些内容字数基本都在10字以内,无需删减提炼,直接反馈给电力工作人员。
此外,日志中还保存有篇幅较长的信息,如故障现象、处理经过,这类内容是由现场检修人员详细记录下来的,会尽可能还原现场的全部情况。如果能提炼出这部分内容的关键信息将会极大节省维修人员的时间,反馈出有关的设备维护经验。
(2)日志概要信息获取
日志概要信息获取需要关键词作为另一种日志描述形式,由于基于深度学习的方法需要大量标注数据,因此本发明使用无监督的TextRank算法用作关键词抽取,并结合电力数据特点改进了原算法的局限,提取到表达完整且语句流程的结果。
TextRank算法是基于图模型的无监督算法,是将文本中的句子或者词汇表示为网络图中的节点,文本网络图可表示为一个带权的无向网络图G=(V,E,W),其中V为节点集合,E为节点间各个边的非空有限集合,W为各边上权重的集合。通过共现关系判断节点间的边,如果两个节点对应的单词出现在同一个窗口中,那么在图中这两个节点间会产生一条边,分配边初始权重的方式是:如果节点之间存在共现关系(在滑动窗口中),那么连接边并设置权重为1,没有则赋值为0。在经过不断迭代之后,各个节点将会获得不同的权重值,原文本关键词就从权重比较高的节点中来产生,节点的权重同时受其入度结点以及入度结点的权重所影响。最终通过节点的迭代计算,得出每个句子或者词汇的权值以及重要程度排名。语义单元节点之间的权重迭代计算公式为:
Figure BDA0003429539660000091
其中,|V|表示网络图中所有节点的个数,求和式子中的分子ωji表示节点j与节点i之间的相似度,分母为加权和,d(0≤d≤1)为一个权衡系数,称为阻尼因子,表示图中某一节点跳转到其他任意节点的概率,一般取0.85。ln(Vi)表示指向节点Vi的所有节点的集合,OutVj)表示节点Vj所指向的所有节点的集合。
原始的TextRank算法还存在缺陷,首先是计算节点间权重时仅仅是考虑字符串之间的共现关系,并没有考虑句子间的语义信息关系;然后是对于长文本而言,算法往往只能挑选出相似性最强的语义单元中的一个。然而在电力日志的长文本中,如故障现象内容中的关键信息并不会重复出现多次,但并不代表这些语义单元不重要,有的故障现象描述点较多且问题点都有所区别,因此,有必要对算法进行优化与改进。本方案提从多个方面对算法进行优化,具体改进内容为:
1.相似度计算优化
TextRank算法进行关键信息排序时,若是迭代计算时网络图中的节点的连接权重可以将语义信息加以考虑,无疑会使计算结果更加精确且合理。本方案利用BERT预训练模型生成句向量进而得到句子两两之间的相似度。通过BERT得到的句向量可以学习到更多的语义信息,进而能够反映出两个句子之间的语义关系。相较目前的Word2Vec、Doc2Vec等句向量表征技术,BERT不仅可以使得生成的句向量包含更多的语义特征,同时它还可以较好地解决一词多义问题。
目前比较常见的句子相似度计算方法有编辑距离计算、汉明距离计算、余弦夹角距离计算等。前几种比较偏向于字符串之间差异性表示,由于改进算法在进行句子相似度计算时使用的是句向量加以计算,因此选择较为合适的余弦夹角距离计算。通过BERT预训练模型将文本句子得到对应的句向量输出,然后再计算两个句向量的夹角余弦值即可得出相似度值。两个向量A和B之间的夹角余弦值计算公式为:
Figure BDA0003429539660000101
若是两个向量夹角越小,则夹角余弦值越接近于1,此时两个向量越相似,若是夹角余弦值等于1,即代表两者重合,完全一致。
以BertSimji表示通过BERT模型得到的句向量i和j的相似度,则TextRank权重计算公式表示为:
Figure BDA0003429539660000102
2.权重计算优化
仅仅是以相似度计算结果来进行权重赋值还存在一定片面性,只是考虑到了语义信息而未考虑句子之间的联系。因此,本方案结合多种因素对权重计算方式进行改进,具体方法如下:
1)句子位置
日志中不同位置的句子其重要性也相对不同,日志开头和日志末尾的句子往往会对现场情况进行部分总结,因此重要性相对较高。本发明根据句子所处的段落及句子在段落中的位置对句子的权重进行调整,对首段中越靠前句子的权重赋予越大的提升,末段中越靠后句子的权重赋予越小的提升。设日志首段含有x个句子,末段有y个句子,则权重计算公式为:
Figure BDA0003429539660000103
其中,e1和e2均为权重调整阈值,e1=0.8,e2=0.2。
2)线索词
线索词是指“综上所述”、“总而言之”、“总之”、“所以”、“因此”、“最终”等概括性的指示词语,包含线索词的句子通常是对待检索的文章或者段落的总结,则此类句子的重要程度更高。对于包含线索词的句子应给予更高的权重,其权重计算式表示为:
Figure BDA0003429539660000111
3)句子长度
由于要保持所提取的句子既要包含足够多的重要信息又要具备简洁的特点,因此对选择作为摘要的句子的长度具有一定的要求。若是句子的长度过长,那么该句子信息冗余度高的概率较大,虽然包含关键信息,但是无关信息也随之增加,存在信息稀疏性;若是句子长度过短则会导致信息量不足,涵盖的关键信息少等情况的发生,使电力人员根据选择句子并不能足够了解设备情况。如果一个句子本身包含较少关键信息,那么它被选为摘要句的可能性应该是非常小的。因此,定义句子长度系数来进行句子长度筛选,系数计算公式为:
Figure BDA0003429539660000112
其中,L为句子的长度Lmax表示将文本进行分词处理后该文本最长句子中词的数量。将句子长度系数过低或过高的句子权重进行调整,其权重计算式表示为:
Figure BDA0003429539660000113
其中,γ1和γ2均为权重调整阈值,根据文本句子长度统计设置,γ1=0.85,γ2=0.15。
为了平衡各部分权重影响因子所占的比重,为每部分引入了权重系数。该权重系数由两部分组成:归一化系数和加权系数,归一化系数是对各部分权重进行归一化后得到的系数,加权系数为调优后的加权系数。综上所述,构建最终的句子权重计算公式:
W=λ1W12W23W3sWBertSim
其中,W为句子最终的权重值,λ为各部分权重影响因子的权重系数,WBertSim为基于BERT句向量的句子相似度。权重系数大小表示其对应的权重影响因子对句子权重的影响力大小,权重系数越大则影响力越大,反之亦然。其取值均在0-1之间,且λ123s=1。
最终将建立好的网络图带入改进后的TextRank算法进行递归计算,最终得到每个词汇或者每个句子的TextRank得分,排序后,输出得分最高的词汇集合作为关键词,输出得分最高的句子组成日志摘要,训练好的TextRank模型即可对新输入的日志进行关键信息提取。
以上所述仅为本发明的优选实施方式,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。

Claims (10)

1.基于人工智能的日志审核方法,其特征在于,包括如下步骤:
步骤1,获取日志文本并进行预处理;
步骤2,构建本行业的错误混淆集,并通过日志文本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正;
步骤3,构建TextRank模型,迭代计算词汇或句子权重,选取权重值最高的若干个词汇或句子集合构成日志摘要;
步骤4,将日志摘要发送至相关人员。
2.根据权利要求1所述的基于人工智能的日志审核方法,其特征在于,所述预处理包括剔除无关数据、删除重复数据、噪声内容清洗、类别特征编码、中文分词和删除停用词。
3.根据权利要求2所述的基于人工智能的日志审核方法,其特征在于,所述类别型特征编码包括one-hot编码方式或频率编码方式。
4.根据权利要求1所述的基于人工智能的日志审核方法,其特征在于,所述构建本行业的错误混淆集,具体包括如下步骤:
步骤210,输入汉语词典和汉语拼音表,建立拼音-汉字索引结构;
步骤211,获取人工总结的本行业易混淆词表C1
步骤212,对预处理后日志文本的每个字或词进行遍历,若所述字或词的拼音指向汉语,则将该词及其拼音存入同音索引表中,完成遍历后得到本行业日志的同音词表C2
步骤213,对日志文本的每个词进行遍历,计算在所有日志文本中编辑距离为1的词,创建替换混淆词表C3
步骤214,合并本行业易混淆词表C1、本行业日志的同音词表C2和替换混淆词表C3,创建错误混淆集。
5.根据权利要求1所述的基于人工智能的日志审核方法,其特征在于,所述通过日志文本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正,具体包括如下步骤:
步骤220,使用滑动窗口和训练好的日志文本查错模型对输入的日志进行评估,计算PPL困惑度得分,判断PPL困惑度得分是否超过预设阈值,若是,则转至步骤221,进行纠错处理;若否,则判定为通顺;
步骤221,通过错误混淆集来对疑似错误中的字词进行字音字形义形的替换,获得纠错候选序列;
步骤222,将纠错候选序列中的字词替换到原文中,依次重新计算PPL困惑度得分,选取PPL困惑度得分最小的纠错候选词,进行替换。
6.根据权利要求1或5所述的基于人工智能的日志审核方法,其特征在于,所述日志文本查错模型为N-gram模型。
7.根据权利要求1所述的基于人工智能的日志审核方法,其特征在于,所述步骤3,具体包括如下步骤:
步骤310,利用BERT预训练模型生成句向量,然后再计算两个句向量夹角的余弦值即可得出相似度;
步骤311,将日志文本中的句子或者词汇为节点、相似度值为边构建带权的无向网络图,迭代计算句子TextRank权重,在计算的过程中结合句子位置、线索词、句子长度等因素对权重进行优化处理;
步骤312,选取权重值最高的若干个词汇或句子集合构成日志摘要。
8.基于人工智能的日志审核装置,其特征在于,包括文本处理单元、智能纠错单元、摘要提取单元和反馈单元,其中,
所述文本处理单元,用于获取日志文本并进行预处理;
所述智能纠错单元,用于构建本行业的错误混淆集,并通过日志文本查错模型和错误混淆集对预处理后的日志人本进行错误检查和纠正;
所述摘要提取单元,用于构建TextRank模型,迭代计算词汇或句子权重,选取权重值最高的若干个词汇或句子集合构成日志摘要;
所述反馈单元,用于将日志摘要信息发送至相关人员。
9.计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的词法检查程序,所述词法检查程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于人工智能的日志审核方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于人工智能的日志审核方法。
CN202111590014.XA 2021-12-23 2021-12-23 基于人工智能的日志审核方法、装置、设备及介质 Pending CN114239553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590014.XA CN114239553A (zh) 2021-12-23 2021-12-23 基于人工智能的日志审核方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590014.XA CN114239553A (zh) 2021-12-23 2021-12-23 基于人工智能的日志审核方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114239553A true CN114239553A (zh) 2022-03-25

Family

ID=80762055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590014.XA Pending CN114239553A (zh) 2021-12-23 2021-12-23 基于人工智能的日志审核方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114239553A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置
CN110633463A (zh) * 2018-06-22 2019-12-31 鼎复数据科技(北京)有限公司 一种应用于垂直领域的专业词汇纠错方法及系统
CN110717031A (zh) * 2019-10-15 2020-01-21 南京摄星智能科技有限公司 一种智能会议纪要生成方法和系统
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111639489A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN112347241A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种摘要提取方法、装置、设备及存储介质
CN113361266A (zh) * 2021-06-25 2021-09-07 达闼机器人有限公司 文本纠错方法、电子设备及存储介质
CN113420111A (zh) * 2021-06-17 2021-09-21 中国科学院声学研究所 一种用于多跳推理问题的智能问答方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN110633463A (zh) * 2018-06-22 2019-12-31 鼎复数据科技(北京)有限公司 一种应用于垂直领域的专业词汇纠错方法及系统
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置
CN110717031A (zh) * 2019-10-15 2020-01-21 南京摄星智能科技有限公司 一种智能会议纪要生成方法和系统
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111639489A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN112347241A (zh) * 2020-11-10 2021-02-09 华夏幸福产业投资有限公司 一种摘要提取方法、装置、设备及存储介质
CN113420111A (zh) * 2021-06-17 2021-09-21 中国科学院声学研究所 一种用于多跳推理问题的智能问答方法及装置
CN113361266A (zh) * 2021-06-25 2021-09-07 达闼机器人有限公司 文本纠错方法、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余珊珊等: "基于改进的Textrank的自动摘要提取方法", 《计算机科学》 *

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN112347271A (zh) 基于文字语义识别的配电物联网设备缺陷辅助录入方法
CN111899090A (zh) 企业关联风险预警方法及系统
CN111651198A (zh) 代码摘要自动化生成方法及装置
CN109213998A (zh) 中文错字检测方法及系统
CN111554272A (zh) 一种面向中文语音识别的语言模型建模方法
CN111860981B (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN114266256A (zh) 一种领域新词的提取方法及系统
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN113127339B (zh) 一种Github开源平台数据的获取方法及源代码缺陷修复系统
CN111104483A (zh) 基于机器学习的ict系统故障分析及辅助判别方法
CN114817556A (zh) 一种变电站工程选址知识图谱构建方法
CN112016294B (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN113159969A (zh) 一种金融长文本复核系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN116628173A (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN111489030A (zh) 一种基于文本分词的离职预测方法及系统
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
CN114239553A (zh) 基于人工智能的日志审核方法、装置、设备及介质
WO2010038481A1 (ja) 文章抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、文章抽出方法、文章抽出装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220325

RJ01 Rejection of invention patent application after publication