CN114817502B - 一种基于异质信息融合的智能运维机器人构建方法及装置 - Google Patents

一种基于异质信息融合的智能运维机器人构建方法及装置 Download PDF

Info

Publication number
CN114817502B
CN114817502B CN202210455559.8A CN202210455559A CN114817502B CN 114817502 B CN114817502 B CN 114817502B CN 202210455559 A CN202210455559 A CN 202210455559A CN 114817502 B CN114817502 B CN 114817502B
Authority
CN
China
Prior art keywords
maintenance
vector
solution
corpus
heterogeneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210455559.8A
Other languages
English (en)
Other versions
CN114817502A (zh
Inventor
李兴
谢继冉
张世伟
朱向东
孙汉林
王笛
段清天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Hanlin Technology Co ltd
Original Assignee
Shandong Hanlin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Hanlin Technology Co ltd filed Critical Shandong Hanlin Technology Co ltd
Priority to CN202210455559.8A priority Critical patent/CN114817502B/zh
Publication of CN114817502A publication Critical patent/CN114817502A/zh
Application granted granted Critical
Publication of CN114817502B publication Critical patent/CN114817502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及智能运维机器人构建的技术领域,公开了一种基于异质信息融合的智能运维机器人构建方法及装置,所述方法包括:构建复合通道模型的目标函数,利用改进的鲸鱼优化算法对目标函数进行快速优化求解;基于多种不同质量语料融合的方法构建异质融合信息网络,对来自不同质量语料库的解决方案进行质量评价;运维机器人基于构建好的异质融合信息网络对运维实体的向量化表示进行相似性度量。本发明所述方法通过基于上下文外部信息以及部首的内部信息构建复合通道模型,所得运维数据的向量化表示蕴含了更多的特征信息;基于多种不同质量语料融合的方法构建异质融合信息网络,将语料质量评价最高的解决方案作为运维实体的最优解决方案。

Description

一种基于异质信息融合的智能运维机器人构建方法及装置
技术领域
本发明涉及智能运维机器人构建的技术领域,尤其涉及一种基于异质信息融合的智能运维机器人构建方法及装置。
背景技术
智能运维机器人通过接收运维问题,从基于语料库训练的知识图谱或信息网络中选取能够解决运维问题的解决方案,实现智能运维。目前现有的智能运维机器人在进行运维过程中依赖语料数据质量,成为制约运维机器人智能化、产业化的一个重要因素,语料数据质量高则进行运维时更加准确,否则容易出现较大错误。一方面,由于文本数据无法直接运用计算机进行处理,智能运维机器人需要先利用向量化表示方法将运维问题以及解决方案转换为向量形式,传统词向量表示方法包括word2vec模型、BERT模型以及one-hot算法模型,其中word2vec模型、BERT模型仅依据词的上下文特征进行词向量编码处理,同时需要消耗大量计算资源训练得到可用模型,one-hot算法模型需要消耗大量内存空间构建寄存器,利用寄存器的0/1表示实现词向量编码处理,且基于三种模型的词向量表示所蕴含的特征信息较少,对用于构建智能运维机器人词向量表示模型的语料库质量要求较高。另一方面,基于语料库训练的知识图谱或信息网络更加依赖语料数据质量,但是不同语料的质量存在较大差异,基于不同质量语料所训练出的运维机器人所给出的解决方案有效性差异较大,导致市面上运维机器人运维质量参差不齐,同时现有研究缺乏评估语料质量的方法,无法通过评估语料质量对运维机器人的运维质量进行评估,也无法选取能够实现更高机器人运维质量的语料库对运维机器人进行训练,从而实现最优运维机器人的智能化以及产业化。
发明内容
有鉴于此,本发明提供一种基于异质信息融合的智能运维机器人构建方法及装置,目的在于(1)基于上下文外部信息以及部首的内部信息构建复合通道模型,利用复合通道模型实现运维数据的向量化表示,通过提取目标词的内部信息以及外部信息构建词向量,所得词向量蕴含了更复杂的特征信息,降低了用于构建智能运维机器人词向量表示模型的语料库质量要求,并通过对模型进行鲁棒优化,增强复合通道模型的鲁棒性,使得模型能够在不同场景下输出可靠的向量化表示结果;(2)基于多种不同质量语料融合的方法构建异质融合信息网络,所构建异质融合信息网络的实体节点包括运维问题向量化表示以及解决方案向量化表示,通过对来自不同质量语料库的解决方案向量表示进行语料质量评价,语料质量评价越高的解决方案越容易作为最优运维解决方案,能够从不同质量的语料中选取当前待解决运维问题的最优语料质量运维解决方案,降低了所构建信息网络对于语料质量的依赖,并实现语料质量评估。
实现上述目的,本发明提供的一种基于异质信息融合的智能运维机器人构建方法,包括以下步骤:
S1:基于中文字形特征和上下文特征构建复合通道模型的目标函数;
S2:对来自不同质量语料的运维数据进行分词处理,将分词结果输入到所构建的复合通道模型中,利用改进的鲸鱼优化算法对目标函数进行快速优化求解,求解得到运维数据的向量化表示;
S3:根据求解得到的运维数据向量化表示,基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络;
S4:将待处理的运维问题向量输入到所构建的异质融合信息网络中,对待处理运维问题向量进行基于关联路径的相似性度量,相似性度量结果最高的运维解决方案向量即为语料质量最优的运维解决方案。
作为本发明的进一步改进方法:
所述S1步骤中所构建的复合通道模型为:
所述复合通道模型的输入为中文分词后的运维数据[w1,w2,…,wi-1,wi,wi+1,…,wn],输出为复合通道模型对应运维数据的向量化表示结果
Figure BDA0003620346270000021
其中
Figure BDA0003620346270000022
为词wi的词向量结果,wi为运维数据中的第i个词,n为运维数据的分词词数,所述运维数据包括运维问题以及运维解决方案,运维问题包括系统故障问题、业务问题、版本测试问题以及业务分析问题,运维解决方案为对应运维问题的解决方案,所述复合通道模型包括中文字形特征通道以及上下文特征通道,其中中文字形特征通道提取了运维实体中目标词的部首特征,上下文特征通道提取了运维实体中目标词的上下文特征;通过分别提取词的上下文特征以及部首特征,依据上下文外部信息以及部首的内部信息对词进行向量化表示,得到蕴含信息更为丰富的向量化表示结果。
所述S1步骤中基于中文字形特征和上下文特征构建复合通道模型的目标函数,包括:
所述基于中文字形特征和上下文特征构建复合通道模型的目标函数为:
Figure BDA0003620346270000023
Figure BDA0003620346270000024
Figure BDA0003620346270000025
Figure BDA0003620346270000026
其中:
Figure BDA0003620346270000027
为目标词wi的向量化表示结果;
T为转置;
D为用于构建复合通道模型的语料库;
L(wi)为目标词向量化表示的目标函数,所述目标函数旨在使得目标词上下文向量的条件概率的似然函数最大;
Figure BDA0003620346270000028
为上下文特征通道提取的上下文向量化表示均值;
Figure BDA0003620346270000029
为中文字形特征通道提取的部首特征,
Figure BDA00036203462700000210
为目标词的部首向量,
Figure BDA00036203462700000211
为目标词部首向量长度;
a表示对目标词进行向量化表示的不确定场景,a∈A,A为不确定场景空间,在本发明一个具体实施例中,所述不确定场景包括目标词的编码格式、字体大小以及文本格式等,例如对于采用不同编码格式的同一目标词,如ASCII,unicode,GBK,UTF-8编码格式,采用不同字体大小的同一目标词,采用不同文本格式的同一目标词,如全角格式或半角格式,目标词可能出现的特殊编码格式、字体大小以及文本格式即为目标词的不确定场景,通过对输入目标词进行编码格式等不确定场景的调整,对模型进行鲁棒优化,使得模型对同一目标词的不同场景所输出的词向量结果类似,以增强模型的鲁棒性;
pa为不确定场景a的发生概率,将其设置为语料库D中不确定场景a的发生概率;
La(wi)表示在不确定场景a发生时,目标词wi进行向量化表示的目标函数值;
本方案算法的硬件测试环境为:Inter(R)Core(TM)i7-6700K CPU,软件为python,向量化表示模型的对比模型包括word2vec模型、BERT模型、one-hot算法模型以及本方案所提出的鲁棒优化后的复合通道模型,其中word2vec模型、BERT模型仅依据词的上下文特征进行词向量编码处理,one-hot算法模型需要消耗大量内存空间构建寄存器,利用寄存器实现词向量编码处理,未提取目标词特征,而本方案所述鲁棒优化后的模型通过依据上下文外部信息以及部首的内部信息对词进行向量化表示,得到蕴含信息更为丰富的词向量,所生成最优运维解决方案较高有效性,模型也具有较高鲁棒性,通过将中文分词后的运维数据文本输入到对比模型中,其中所输入的运维数据具有不同的编码格式、字体大小以及文本格式,对比发现,word2vec模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为75,且98.6%的运维数据均能生成向量化表示结果,其中有效性越高表示最优运维解决方案解决运维实体问题的概率越大,BERT模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为85.2,且98.9%的运维数据均能生成向量化表示结果,one-hot算法模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为62,且91.7%的运维数据均能生成向量化表示结果,复合通道模型所生成向量化表示结果所对应异质融合信息网络中的最优运维解决方案的有效性为81.2,且99.3%的运维数据均能生成向量化表示结果。
所述S2步骤中对来自不同质量语料的运维数据进行分词处理,包括:
从不同质量的语料库中获取运维数据,利用中文分词算法对不同语料质量的运维数据进行分词处理,所述中文分词处理流程为:
构建运维实体分词词典,从左向右取待分词运维数据的m个字作为匹配字段,其中m为所构建词典中的最长词的长度,对匹配字段进行查找词典完成匹配,若匹配成功,则将该匹配字段作为一个词从运维实体中切分出去,若匹配不成功,则将该匹配字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配;重复上述步骤,直到切分完成运维数据中的所有词。
所述S2步骤中利用改进的鲸鱼优化算法对目标函数进行快速优化求解,包括:
将分词后的运维数据输入到复合通道模型中,利用改进的鲸鱼优化算法对目标函数进行求解,所述目标函数的求解结果为输入模型运维数据的向量化表示结果,其中运维数据的向量化表示结果包括运维问题向量以及运维解决方案向量,所述基于改进鲸鱼优化算法的目标函数求解流程为:
1)设置算法的最大迭代次数为Max,随机初始化大小为N的鲸鱼种群,其中第i只鲸鱼的位置坐标为Xi,Xi的维度数为n,n为模型所输入运维数据的分词词数,每只鲸鱼的位置坐标即对应一种向量化表示结果;
2)设置算法的当前迭代次数为u,u的初始值为0,则第i只鲸鱼在第u+1次迭代时的位置更新为:
Xi(u+1)=X*(u)-[(2×random1γ-γ)×|2×random2X*(u)-Xi(u)|]
γ=2-(u+1)/Max
其中:
γ为收敛因子;
Xi(u)=(xi(u),yi(u))为第u次迭代时,第i只鲸鱼的位置坐标;
random1,random2分别为[0,1]区间的随机数;
X*(u)为第u次迭代过程中,将所有鲸鱼位置坐标所对应的词向量设置在目标函数F中,使得目标函数F最小的最优鲸鱼位置坐标;
重复该步骤,直到更新完成N只鲸鱼的位置坐标,计算得到第u+1次迭代的最优鲸鱼位置坐标X*(u+1);
3)为Xi(u+1)生成随机数rand,若生成随机数满足下述条件,则对Xi(u+1)进行变异处理:
Figure BDA0003620346270000031
其中:
ratemax为所设置的最大变异率,ratemin为所设置的最小变异率,在本发明一个具体实施例中,将ratemax设置为0.9,将ratemin设置为0.1;
所述Xi(u+1)的变异结果为:
Xi(u+1)′=X*(u+1)+rand[|X1(u+1)-X2(u+1)|]
其中:
X1(u+1),X2(u+1)为第u+1次迭代过程中的随机鲸鱼位置坐标,X1(u+1)≠X2(u+1);
重复该步骤,直到遍历完成所有鲸鱼的位置坐标,并更新第u+1次迭代后的最优鲸鱼位置坐标;
4)判断u+1是否等于预设定的最大迭代次数Max,若u+1=Max则终止迭代算法,输出最优鲸鱼位置坐标
Figure BDA0003620346270000041
为运维数据的向量化表示结果;否则令u=u+1,返回步骤2)执行算法迭代。本方案通过采用基于鲸鱼变异的鲸鱼优化算法对目标函数进行求解,提高了鲸鱼优化算法的全局搜索性,避免了传统鲸鱼优化算法收敛速度慢、容易陷入局部最优的问题,从而能够快速求解得到运维数据的向量化表示结果,为智能运维机器人实时解决运维问题提供支持;对于基于传统鲸鱼优化算法的目标函数求解流程,将运维数据转换为词向量表示的平均时间为0.28s,而对于本方案所采用基于鲸鱼变异的鲸鱼优化算法的目标函数求解流程,将运维数据转换为词向量表示的平均时间为0.19s,因此本方案所采用算法能够能快实现词向量表示,提高运维问题解决的实时性。
所述S3步骤中基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络,包括:
构建异质融合信息网络G=(E,R),其中E表示异质融合信息网络中的实体集,所述实体集中的实体包括运维问题向量以及运维解决方案向量,其中运维问题向量包括短语形式的运维问题向量以及句子形式的运维问题向量,在本发明一个具体实施例中,若运维问题向量的向量长度小于5,则认为该运维问题向量为短语形式的运维问题向量,否则认为该运维问题向量为句子形式的运维问题向量,R表示实体集中的不同实体的路径关系,若实体集中存在运维解决方案向量可以解决对应运维问题向量,则两者形成一条关联路径,在本发明一个具体实施例中,实体集中存在的关联路径为Ve 1-ge,Ve 2-g′e,其中Ve 1为短语形式的运维问题向量,ge为Ve 1的运维解决方案向量,Ve 2为句子形式的运维问题向量,g′e为Ve 2的运维解决方案向量;
所述任意运维问题向量与多种运维解决方案向量存在关联路径,则与任意运维问题向量Ve存在关联路径的运维解决方案向量集合为{g1-e,g2-e,…,gz-e},其中gz-e为第z种可以解决运维问题向量Ve的运维解决方案向量,z表示解决运维问题向量Ve的解决方案向量总数,每种解决方案来自于不同质量的语料库,且每种解决方案可以解决多种运维问题,即任意运维解决方案向量可能与多种运维问题向量存在关联路径;
所述异质融合信息网络的构建流程为:
1)对于复合通道模型输出的语料质量不同的运维数据向量化表示,将不同语料质量的运维数据向量化表示构成数据集,所述数据集为:
data={(q11,11,2,…,λ1,B),(q22,1,…),…,(qMM,1,…)}
其中:
qM为第M组运维数据的运维问题向量,在本发明一个具体实施例中,每组运维数据包括一个运维问题向量以及对应的多种运维解决方案向量,每种运维解决方案向量可以同时存在不同组的运维数据中;
(q11,11,2,…,λ1,B)为一组运维数据,λ1,B为来自第B个语料库的运维解决方案向量,其中每个解决方案可以对应多个运维问题向量;
2)将数据集中的运维问题向量以及解决方案向量作为异质融合信息网络中的实体,并对存在路径关系的两个实体添加关联路径;
3)构建语料质量评价模型,将来自任意语料库的运维解决方案向量λB输入到语料质量评价模型中,模型输出对运维解决方案向量λB的语料质量评价结果,所述语料质量评价模型为:
Figure BDA0003620346270000051
Figure BDA0003620346270000052
其中:
W(λB)为解决方案向量λB的语料质量评价结果,W(λB)的值越高,表示语料质量评价结果越高;
Figure BDA0003620346270000053
表示解决方案向量λB的第i个编码,|λB|表示解决方案向量的向量长度;
dict(λB)={0,1},dict(λB)=1表示所预构建的运维解决词典中存在向量λB,dict(λB)=0表示所预构建的运维解决词典中不存在向量λB
Figure BDA0003620346270000054
表示语料库B中向量串
Figure BDA0003620346270000055
出现的次数,NumB表示语料库B中解决方案的总数;
4)对于异质融合信息网络中的任意运维问题向量q1,计算与q1存在关联路径的来自不同质量语料库的解决方案向量语料质量评价结果{W(λ1,1),W(λ1,2),…,W(λ1,B)},其中语料质量评价结果越高的解决方案向量,与q1的关联路径越短。
在运维实际环境下,存在短语类型的运维实体问题和句子类型的运维实体问题,两种问题的语义表示不同,传统信息网络只能有一种实体节点和一种实体关系,无法表示出短语类型运维实体和句子类型运维实体与解决方案的对应关系,因为本方案建立了异质信息网络,以实现多种类型的实体节点和实体关系,表示更为丰富的语义信息;鉴于现有的智能运维机器人在运维过程中过于依赖语料数据质量,语料数据质量高则进行运维时更加准确,否则容易出现较大错误,但是不同语料的质量存在较大差异,现有研究缺乏评估语料质量的方法,因此本方案选择融合来自不同质量语料库的解决方案,构建语料质量评价模型对解决方案进行评价,评价结果越高,则更容易作为最优解决方案,降低了所构建运维机器人对高质量语料数据的依赖,避免了错误使用低质量语料数据量导致运维准确性下降的问题。
所述S4步骤中将待处理的运维问题向量输入到所构建的异质融合信息网络中,对待处理运维问题向量进行基于关联路径的相似性度量,包括:
利用余弦相似度算法对待处理的运维问题向量
Figure BDA0003620346270000056
与异质融合信息网络中的运维问题向量进行相似性度量,将异质融合信息网络中相似性度量结果最高的运维问题向量作为待解决运维实体,并提取待解决运维实体的关联路径[R0,R1,R2,…,RQ],其中R0为待解决运维实体,[R1,R2,…,RQ]为与R0存在关联路径的Q组解决方案,则Q组解决方案中,任意解决方案RQ与待解决运维实体R0在异质融合信息网络的相似性度量公式为:
Sim(R0,RQ)=distance(R0,RQ)
其中:
distance(R0,RQ)表示在异质融合信息网络中,任意解决方案RQ与待解决运维实体R0的关联路径距离;
选取相似性度量最高的解决方案作为待解决运维问题的最优解决方案。
此外,本发明还提供一种智能运维机器人构建装置,其特征在于,所述装置包括:
运维实体接收构建装置,用于构建运维机器人的运维实体接收装置,运维实体接收装置接收待解决的运维问题;
运维问题向量构建装置,用于构建运维机器人的中文分词算法,对运维实体进行中文分词,并构建运维机器人的复合通道模型,将中文分词结果向量化表示为运维实体向量;
异质融合信息网络构建装置,用于建立基于运维关系的异质融合信息网络,将运维问题的向量化表示作为异质融合信息网络输入,信息网络输出最优运维解决方案。
相对于现有技术,本发明提出一种基于异质信息融合的智能运维机器人构建方法,该技术具有以下优势:
首先,本方案提出一种用于向量化表示的复合通道模型,所述复合通道模型的输入为中文分词后的运维数据[w1,w2,…,wi-1,wi,wi+1,…,wn],输出为复合通道模型对应运维数据的向量化表示结果
Figure BDA0003620346270000061
其中
Figure BDA0003620346270000062
为词wi的词向量结果,wi为运维数据中的第i个词,n为运维数据的分词词数,所述运维数据包括运维问题以及运维解决方案,运维问题包括系统故障问题、业务问题、版本测试问题以及业务分析问题,运维解决方案为对应运维问题的解决方案,所述复合通道模型包括中文字形特征通道以及上下文特征通道,其中中文字形特征通道提取了运维实体中目标词的部首特征,上下文特征通道提取了运维实体中目标词的上下文特征;相较于传统方案仅依据上下文特征构建词向量,本方案通过分别提取词的上下文特征以及部首特征,依据上下文外部信息以及部首的内部信息对词进行向量化表示,得到蕴含信息更为丰富的向量化表示结果,降低了用于构建智能运维机器人词向量表示模型的语料库质量要求。所述基于中文字形特征和上下文特征构建复合通道模型的目标函数为:
Figure BDA0003620346270000063
Figure BDA0003620346270000064
Figure BDA0003620346270000065
Figure BDA0003620346270000066
其中:
Figure BDA0003620346270000067
为目标词wi的向量化表示结果;T为转置;D为用于构建复合通道模型的语料库;L(wi)为目标词向量化表示的目标函数,所述目标函数旨在使得目标词上下文向量的条件概率的似然函数最大;
Figure BDA0003620346270000068
为上下文特征通道提取的上下文向量化表示均值;
Figure BDA0003620346270000069
为中文字形特征通道提取的部首特征,
Figure BDA00036203462700000610
为目标词的部首向量,
Figure BDA00036203462700000611
为目标词部首向量长度;a表示对目标词进行向量化表示的不确定场景,a∈A,A为不确定场景空间,通过对输入目标词进行编码格式等不确定场景的调整,对模型进行鲁棒优化,使得模型对同一目标词的不同场景所输出的词向量结果类似,以增强模型的鲁棒性;pa为不确定场景a的发生概率,将其设置为语料库D中不确定场景a的发生概率;La(wi)表示在不确定场景a发生时,目标词wi进行向量化表示的目标函数值。
同时,本方案提出一种改进的鲸鱼优化算法对鲁棒优化目标函数进行求解,所述目标函数的求解结果为输入模型运维数据的向量化表示结果,其中运维数据的向量化表示结果包括运维问题向量以及运维解决方案向量,所述基于改进鲸鱼优化算法的目标函数求解流程为:1)设置算法的最大迭代次数为Max,随机初始化大小为N的鲸鱼种群,其中第i只鲸鱼的位置坐标为Xi,Xi的维度数为n,n为模型所输入运维数据的分词词数,每只鲸鱼的位置坐标即对应一种向量化表示结果;2)设置算法的当前迭代次数为u,u的初始值为0,则第i只鲸鱼在第u+1次迭代时的位置更新为:
Xi(u+1)=X*(u)-[(2×random1γ-γ)×|2×random2X*(u)-Xi(u)|]
γ=2-(u+1)/Max
其中:γ为收敛因子;Xi(u)=(xi(u),yi(u))为第u次迭代时,第i只鲸鱼的位置坐标;random1,random2分别为[0,1]区间的随机数;X*(u)为第u次迭代过程中,将所有鲸鱼位置坐标所对应的词向量设置在目标函数F中,使得目标函数F最小的最优鲸鱼位置坐标;重复该步骤,直到更新完成N只鲸鱼的位置坐标,计算得到第u+1次迭代的最优鲸鱼位置坐标X*(u+1);3)为Xi(u+1)生成随机数rand,若生成随机数满足下述条件,则对Xi(u+1)进行变异处理:
Figure BDA0003620346270000071
其中:ratemax为所设置的最大变异率,ratemin为所设置的最小变异率;所述Xi(u+1)的变异结果为:
Xi(u+1)′=X*(u+1)+rand[|X1(u+1)-X2(u+1)|]
其中:X1(u+1),X2(u+1)为第u+1次迭代过程中的随机鲸鱼位置坐标,X1(u+1)≠X2(u+1);重复该步骤,直到遍历完成所有鲸鱼的位置坐标,并更新第u+1次迭代后的最优鲸鱼位置坐标;4)判断u+1是否等于预设定的最大迭代次数Max,若u+1=Max则终止迭代算法,输出最优鲸鱼位置坐标
Figure BDA0003620346270000072
为运维数据的向量化表示结果;否则令u=u+1,返回步骤2)执行算法迭代。本方案通过采用基于鲸鱼变异的鲸鱼优化算法对目标函数进行求解,提高了鲸鱼优化算法的全局搜索性,避免了传统鲸鱼优化算法收敛速度慢、容易陷入局部最优的问题,从而能够快速求解得到运维数据的向量化表示结果,为智能运维机器人实时解决运维问题提供支持。
最后,本方案提出一种异质融合信息网络,所构建异质融合信息网络G=(E,R),其中E表示异质融合信息网络中的实体集,所述实体集中的实体包括运维问题向量以及运维解决方案向量,其中运维问题向量包括短语形式的运维问题向量以及句子形式的运维问题向量,若运维问题向量的向量长度小于5,则认为该运维问题向量为短语形式的运维问题向量,否则认为该运维问题向量为句子形式的运维问题向量,R表示实体集中的不同实体的路径关系,若实体集中存在运维解决方案向量可以解决对应运维问题向量,则两者形成一条关联路径;所述任意运维问题向量与多种运维解决方案向量存在关联路径,则与任意运维问题向量Ve存在关联路径的运维解决方案向量集合为{g1-e,g2-e,…,gz-e},其中gz-e为第z种可以解决运维问题向量Ve的运维解决方案向量,z表示解决运维问题向量Ve的解决方案向量总数,每种解决方案来自于不同质量的语料库,且每种解决方案可以解决多种运维问题,即任意运维解决方案向量可能与多种运维问题向量存在关联路径;所述异质融合信息网络的构建流程为:1)对于复合通道模型输出的语料质量不同的运维数据向量化表示,将不同语料质量的运维数据向量化表示构成数据集,所述数据集为:
data={(q11,11,2,…,λ1,B),(q22,1,…),…,(qMM,1,…)}
其中:qM为第M组运维数据的运维问题向量;(q11,11,2,…,λ1,B)为一组运维数据,λ1,B为来自第B个语料库的运维解决方案向量,其中每个解决方案可以对应多个运维问题向量;2)将数据集中的运维问题向量以及解决方案向量作为异质融合信息网络中的实体,并对存在路径关系的两个实体添加关联路径;3)构建语料质量评价模型,将来自任意语料库的运维解决方案向量λB输入到语料质量评价模型中,模型输出对运维解决方案向量λB的语料质量评价结果,所述语料质量评价模型为:
Figure BDA0003620346270000073
Figure BDA0003620346270000074
其中:W(λB)为解决方案向量λB的语料质量评价结果,W(λB)的值越高,表示语料质量评价结果越高;
Figure BDA0003620346270000075
表示解决方案向量λB的第i个编码,|λB|表示解决方案向量的向量长度;dict(λB)={0,1},dict(λB)=1表示所预构建的运维解决词典中存在向量λB,dict(λB)=0表示所预构建的运维解决词典中不存在向量λB
Figure BDA0003620346270000081
表示语料库B中向量串
Figure BDA0003620346270000082
出现的次数,NumB表示语料库B中解决方案的总数;4)对于异质融合信息网络中的任意运维问题向量q1,计算与q1存在关联路径的来自不同质量语料库的解决方案向量语料质量评价结果{W(λ1,1),W(λ1,2),…,W(λ1,B)},其中语料质量评价结果越高的解决方案向量,与q1的关联路径越短。在运维实际环境下,存在短语类型的运维实体问题和句子类型的运维实体问题,两种问题的语义表示不同,传统信息网络只能有一种实体节点和一种实体关系,无法表示出短语类型运维实体和句子类型运维实体与解决方案的对应关系,因为本方案建立了异质信息网络,以实现多种类型的实体节点和实体关系,表示更为丰富的语义信息;鉴于现有的智能运维机器人在运维过程中过于依赖语料数据质量,语料数据质量高则进行运维时更加准确,否则容易出现较大错误,但是不同语料的质量存在较大差异,现有研究缺乏评估语料质量的方法,因此本方案选择融合来自不同质量语料库的解决方案,构建语料质量评价模型对解决方案进行评价,评价结果越高,则更容易作为最优解决方案,降低了所构建运维机器人对高质量语料数据的依赖,避免了错误使用低质量语料数据量导致运维准确性下降的问题。
附图说明
图1为本发明一实施例提供的一种基于异质信息融合的智能运维机器人构建方法的流程示意图;
图2为本发明一实施例提供的一种智能运维机器人构建装置的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
S1:基于中文字形特征和上下文特征构建复合通道模型的目标函数,所构建复合通道模型分别提取词的上下文特征以及部首特征,依据上下文外部信息以及部首的内部信息对词进行向量化表示,得到蕴含特征信息更为丰富的词向量。
所述S1步骤中所构建的复合通道模型为:
所述复合通道模型的输入为中文分词后的运维数据[w1,w2,…,wi-1,wi,wi+1,…,wn],输出为复合通道模型对应运维数据的向量化表示结果
Figure BDA0003620346270000083
其中
Figure BDA0003620346270000084
为词wi的词向量结果,wi为运维数据中的第i个词,n为运维数据的分词词数,所述运维数据包括运维问题以及运维解决方案,运维问题包括系统故障问题、业务问题、版本测试问题以及业务分析问题,运维解决方案为对应运维问题的解决方案,所述复合通道模型包括中文字形特征通道以及上下文特征通道,其中中文字形特征通道提取了运维实体中目标词的部首特征,上下文特征通道提取了运维实体中目标词的上下文特征;通过分别提取词的上下文特征以及部首特征,依据上下文外部信息以及部首的内部信息对词进行向量化表示,得到蕴含信息更为丰富的向量化表示结果。
所述S1步骤中基于中文字形特征和上下文特征构建复合通道模型的目标函数,包括:
所述基于中文字形特征和上下文特征构建复合通道模型的目标函数为:
Figure BDA0003620346270000085
Figure BDA0003620346270000086
Figure BDA0003620346270000087
Figure BDA0003620346270000091
其中:
Figure BDA0003620346270000092
为目标词wi的向量化表示结果;
T为转置;
D为用于构建复合通道模型的语料库;
L(wi)为目标词向量化表示的目标函数,所述目标函数旨在使得目标词上下文向量的条件概率的似然函数最大;
Figure BDA0003620346270000093
为上下文特征通道提取的上下文向量化表示均值;
Figure BDA0003620346270000094
为中文字形特征通道提取的部首特征,
Figure BDA0003620346270000095
为目标词的部首向量,
Figure BDA0003620346270000096
为目标词部首向量长度;
a表示对目标词进行向量化表示的不确定场景,a∈A,A为不确定场景空间,在本发明一个具体实施例中,所述不确定场景包括目标词的编码格式、字体大小以及文本格式等,例如对于采用不同编码格式的同一目标词,如ASCII,unicode,GBK,UTF-8编码格式,采用不同字体大小的同一目标词,采用不同文本格式的同一目标词,如全角格式或半角格式,目标词可能出现的特殊编码格式、字体大小以及文本格式即为目标词的不确定场景,通过对输入目标词进行编码格式等不确定场景的调整,对模型进行鲁棒优化,使得模型对同一目标词的不同场景所输出的词向量结果类似,以增强模型的鲁棒性;
pa为不确定场景a的发生概率,将其设置为语料库D中不确定场景a的发生概率;
La(wi)表示在不确定场景a发生时,目标词wi进行向量化表示的目标函数值。
S2:对来自不同质量语料的运维数据进行分词处理,将分词结果输入到所构建的复合通道模型中,利用改进的鲸鱼优化算法对目标函数进行快速优化求解,求解得到运维数据的向量化表示,其中运维数据包括运维问题以及运维解决方案。
所述S2步骤中对来自不同质量语料的运维数据进行分词处理,包括:
从不同质量的语料库中获取运维数据,利用中文分词算法对不同语料质量的运维数据进行分词处理,所述中文分词处理流程为:
构建运维实体分词词典,从左向右取待分词运维数据的m个字作为匹配字段,其中m为所构建词典中的最长词的长度,对匹配字段进行查找词典完成匹配,若匹配成功,则将该匹配字段作为一个词从运维实体中切分出去,若匹配不成功,则将该匹配字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配;重复上述步骤,直到切分完成运维数据中的所有词。
所述S2步骤中利用改进的鲸鱼优化算法对目标函数进行快速优化求解,包括:
将分词后的运维数据输入到复合通道模型中,利用改进的鲸鱼优化算法对目标函数进行求解,所述目标函数的求解结果为输入模型运维数据的向量化表示结果,其中运维数据的向量化表示结果包括运维问题向量以及运维解决方案向量,所述基于改进鲸鱼优化算法的目标函数求解流程为:
1)设置算法的最大迭代次数为Max,随机初始化大小为N的鲸鱼种群,其中第i只鲸鱼的位置坐标为Xi,Xi的维度数为n,n为模型所输入运维数据的分词词数,每只鲸鱼的位置坐标即对应一种向量化表示结果;
2)设置算法的当前迭代次数为u,u的初始值为0,则第i只鲸鱼在第u+1次迭代时的位置更新为:
Xi(u+1)=X*(u)-[(2×random1γ-γ)×|2×random2X*(u)-Xi(u)|]
γ=2-(u+1)/Max
其中:
γ为收敛因子;
Xi(u)=(xi(u),yi(u))为第u次迭代时,第i只鲸鱼的位置坐标;
random1,random2分别为[0,1]区间的随机数;
X*(u)为第u次迭代过程中,将所有鲸鱼位置坐标所对应的词向量设置在目标函数F中,使得目标函数F最小的最优鲸鱼位置坐标;
重复该步骤,直到更新完成N只鲸鱼的位置坐标,计算得到第u+1次迭代的最优鲸鱼位置坐标X*(u+1);
3)为Xi(u+1)生成随机数rand,若生成随机数满足下述条件,则对Xi(u+1)进行变异处理:
Figure BDA0003620346270000101
其中:
ratemax为所设置的最大变异率,ratemin为所设置的最小变异率,在本发明一个具体实施例中,将ratemax设置为0.9,将ratemin设置为0.1;
所述Xi(u+1)的变异结果为:
Xi(u+1)=X*(u+1)+rand[|X1(u+1)-X2(u+1)|]
其中:
X1(u+1),X2(u+1)为第u+1次迭代过程中的随机鲸鱼位置坐标,X1(u+1)≠X2(u+1);
重复该步骤,直到遍历完成所有鲸鱼的位置坐标,并更新第u+1次迭代后的最优鲸鱼位置坐标;
4)判断u+1是否等于预设定的最大迭代次数Max,若u+1=Max则终止迭代算法,输出最优鲸鱼位置坐标
Figure BDA0003620346270000102
为运维数据的向量化表示结果;否则令u=u+1,返回步骤2)执行算法迭代。本方案通过采用基于鲸鱼变异的鲸鱼优化算法对目标函数进行求解,提高了鲸鱼优化算法的全局搜索性,避免了传统鲸鱼优化算法收敛速度慢、容易陷入局部最优的问题,从而能够快速求解得到运维数据的向量化表示结果,为智能运维机器人实时解决运维问题提供支持。
S3:根据求解得到的运维数据向量化表示,基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络,所构建异质融合信息网络的实体节点包括运维问题向量以及运维解决方案向量,通过对来自不同质量语料库的运维解决方案向量进行质量评价,质量评价越高的解决方案向量在异质融合信息网络中与对应运维问题向量的关联路径越短。
所述S3步骤中基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络,包括:
构建异质融合信息网络G=(E,R),其中E表示异质融合信息网络中的实体集,所述实体集中的实体包括运维问题向量以及运维解决方案向量,其中运维问题向量包括短语形式的运维问题向量以及句子形式的运维问题向量,在本发明一个具体实施例中,若运维问题向量的向量长度小于5,则认为该运维问题向量为短语形式的运维问题向量,否则认为该运维问题向量为句子形式的运维问题向量,R表示实体集中的不同实体的路径关系,若实体集中存在运维解决方案向量可以解决对应运维问题向量,则两者形成一条关联路径,在本发明一个具体实施例中,实体集中存在的关联路径为Ve 1-ge,Ve 2-g′e,其中Ve 1为短语形式的运维问题向量,ge为Ve 1的运维解决方案向量,Ve 2为句子形式的运维问题向量,g′e为Ve 2的运维解决方案向量;
所述任意运维问题向量与多种运维解决方案向量存在关联路径,则与任意运维问题向量Ve存在关联路径的运维解决方案向量集合为{g1-e,g2-e,…,gz-e},其中gz-e为第z种可以解决运维问题向量Ve的运维解决方案向量,z表示解决运维问题向量Ve的解决方案向量总数,每种解决方案来自于不同质量的语料库,且每种解决方案可以解决多种运维问题,即任意运维解决方案向量可能与多种运维问题向量存在关联路径;
所述异质融合信息网络的构建流程为:
1)对于复合通道模型输出的语料质量不同的运维数据向量化表示,将不同语料质量的运维数据向量化表示构成数据集,所述数据集为:
data={(q11,11,2,…,λ1,B),(q22,1,…),…,(qMM,1,…)}
其中:
qM为第M组运维数据的运维问题向量,在本发明一个具体实施例中,每组运维数据包括一个运维问题向量以及对应的多种运维解决方案向量,每种运维解决方案向量可以同时存在不同组的运维数据中;
(q11,11,2,…,λ1,B)为一组运维数据,λ1,B为来自第B个语料库的运维解决方案向量,其中每个解决方案可以对应多个运维问题向量;
2)将数据集中的运维问题向量以及解决方案向量作为异质融合信息网络中的实体,并对存在路径关系的两个实体添加关联路径;
3)构建语料质量评价模型,将来自任意语料库的运维解决方案向量λB输入到语料质量评价模型中,模型输出对运维解决方案向量λB的语料质量评价结果,所述语料质量评价模型为:
Figure BDA0003620346270000111
Figure BDA0003620346270000112
其中:
W(λB)为解决方案向量λB的语料质量评价结果,W(λB)的值越高,表示语料质量评价结果越高;
Figure BDA0003620346270000113
表示解决方案向量λB的第i个编码,|λB|表示解决方案向量的向量长度;
dict(λB)={0,1},dict(λB)=1表示所预构建的运维解决词典中存在向量λB,dict(λB)=0表示所预构建的运维解决词典中不存在向量λB
Figure BDA0003620346270000114
表示语料库B中向量串
Figure BDA0003620346270000115
出现的次数,NumB表示语料库B中解决方案的总数;
4)对于异质融合信息网络中的任意运维问题向量q1,计算与q1存在关联路径的来自不同质量语料库的解决方案向量语料质量评价结果{W(λ1,1),W(λ1,2),…,W(λ1,B)},其中语料质量评价结果越高的解决方案向量,与q1的关联路径越短。
S4:将待处理的运维问题向量输入到所构建的异质融合信息网络中,对待处理运维问题向量进行基于关联路径的相似性度量,相似性度量结果最高的运维解决方案向量即为语料质量最优的运维解决方案。
所述S4步骤中将待处理的运维问题向量输入到所构建的异质融合信息网络中,对待处理运维问题向量进行基于关联路径的相似性度量,包括:
利用余弦相似度算法对待处理的运维问题向量
Figure BDA0003620346270000116
与异质融合信息网络中的运维问题向量进行相似性度量,将异质融合信息网络中相似性度量结果最高的运维问题向量作为待解决运维实体,并提取待解决运维实体的关联路径[R0,R1,R2,…,RQ],其中R0为待解决运维实体,[R1,R2,…,RQ]为与R0存在关联路径的Q组解决方案,则Q组解决方案中,任意解决方案RQ与待解决运维实体R0在异质融合信息网络的相似性度量公式为:
Sim(R0,RQ)=distance(R0,RQ)
其中:
distance(R0,RQ)表示在异质融合信息网络中,任意解决方案RQ与待解决运维实体R0的关联路径距离;
选取相似性度量最高的解决方案作为待解决运维问题的最优解决方案。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述方法包括:
S1:基于中文字形特征和上下文特征构建复合通道模型的目标函数;
S2:对来自不同质量语料的运维数据进行分词处理,将分词结果输入到所构建的复合通道模型中,利用改进的鲸鱼优化算法对目标函数进行快速优化求解,求解得到运维数据的向量化表示;
S3:根据求解得到的运维数据向量化表示,基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络,其中所述异质融合信息网络的构建流程为:
1)对于复合通道模型输出的语料质量不同的运维数据向量化表示,将不同语料质量的运维数据向量化表示构成数据集,所述数据集为:
data={(q1,λ1,1,λ1,2,…,λ1,B),(q2,λ2,1,...),…,(qM,λM,1,...)}
其中:
qM为第M组运维数据的运维问题向量;
(q11,11,2,…,λ1,B)为一组运维数据,λ1,B为来自第B个语料库的运维解决方案向量,其中每个解决方案可以对应多个运维问题向量;
2)将数据集中的运维问题向量以及解决方案向量作为异质融合信息网络中的实体,并对存在路径关系的两个实体添加关联路径;
3)构建语料质量评价模型,将来自任意语料库的运维解决方案向量λB输入到语料质量评价模型中,模型输出对运维解决方案向量λB的语料质量评价结果,所述语料质量评价模型为:
Figure FDA0004104830810000011
Figure FDA0004104830810000012
其中:
W(λB)为解决方案向量λB的语料质量评价结果,W(λB)的值越高,表示语料质量评价结果越高;
Figure FDA0004104830810000013
表示解决方案向量λB的第i个编码,|λB|表示解决方案向量的向量长度;
dict(λB)={0,1},dict(λB)=1表示所预构建的运维解决词典中存在向量λB,dict(λB)=0表示所预构建的运维解决词典中不存在向量λB
Figure FDA0004104830810000014
表示语料库B中向量串
Figure FDA0004104830810000015
出现的次数,NumB表示语料库B中解决方案的总数;
4)对于异质融合信息网络中的任意运维问题向量q1,计算与q1存在关联路径的来自不同质量语料库的解决方案向量语料质量评价结果{W(λ1,1),W(λ1,2),…,W(λ1,B)},其中语料质量评价结果越高的解决方案向量,与q1的关联路径越短;
S4:将待处理的运维问题向量输入到所构建的异质融合信息网络中,对待处理运维问题向量进行基于关联路径的相似性度量,相似性度量结果最高的运维解决方案向量即为语料质量最优的运维解决方案。
2.如权利要求1所述的一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述S1步骤中所构建的复合通道模型为:
所述复合通道模型的输入为中文分词后的运维数据[w1,w2,…,wi-1,wi,wi+1,…,wn],输出为复合通道模型对应运维数据的向量化表示结果
Figure FDA0004104830810000016
其中
Figure FDA0004104830810000017
为词wi的词向量结果,wi为运维数据中的第i个词,n为运维数据的分词词数,所述运维数据包括运维问题以及运维解决方案,运维问题包括系统故障问题、业务问题、版本测试问题以及业务分析问题,运维解决方案为对应运维问题的解决方案,所述复合通道模型包括中文字形特征通道以及上下文特征通道,其中中文字形特征通道提取了运维实体中目标词的部首特征,上下文特征通道提取了运维实体中目标词的上下文特征。
3.如权利要求2所述的一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述S1步骤中基于中文字形特征和上下文特征构建复合通道模型的目标函数,包括:
所述基于中文字形特征和上下文特征构建复合通道模型的目标函数F为:
Figure FDA0004104830810000021
Figure FDA0004104830810000022
Figure FDA0004104830810000023
其中:
Figure FDA0004104830810000024
Figure FDA0004104830810000025
为目标词wi的向量化表示结果;
T为转置;
D为用于构建复合通道模型的语料库;
L(wi)为目标词向量化表示的目标函数,所述目标函数旨在使得目标词上下文向量的条件概率的似然函数最大;
Figure FDA0004104830810000026
为上下文特征通道提取的上下文向量化表示均值;
Figure FDA0004104830810000027
为中文字形特征通道提取的部首特征,
Figure FDA0004104830810000028
为目标词的部首向量,
Figure FDA0004104830810000029
为目标词部首向量长度;
a表示对目标词进行向量化表示的不确定场景,a∈A,A为不确定场景空间;
pa为不确定场景a的发生概率,将其设置为语料库D中不确定场景a的发生概率;
La(wi)表示在不确定场景a发生时,目标词wi进行向量化表示的目标函数值。
4.如权利要求1所述的一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述S2步骤中对来自不同质量语料的运维数据进行分词处理,包括:
从不同质量的语料库中获取运维数据,利用中文分词算法对不同语料质量的运维数据进行分词处理,所述中文分词处理流程为:
构建运维实体分词词典,从左向右取待分词运维数据的m个字作为匹配字段,其中m为所构建词典中的最长词的长度,对匹配字段进行查找词典完成匹配,若匹配成功,则将该匹配字段作为一个词从运维实体中切分出去,若匹配不成功,则将该匹配字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配;重复上述步骤,直到切分完成运维数据中的所有词。
5.如权利要求3或4所述的一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述S2步骤中利用改进的鲸鱼优化算法对目标函数进行快速优化求解,包括:
将分词后的运维数据输入到复合通道模型中,利用改进的鲸鱼优化算法对目标函数进行求解,所述目标函数的求解结果为输入模型运维数据的向量化表示结果,所述基于改进鲸鱼优化算法的目标函数求解流程为:
1)设置算法的最大迭代次数为Max,随机初始化大小为N的鲸鱼种群,其中第i只鲸鱼的位置坐标为Xi,Xi的维度数为n,n为模型所输入运维数据的分词词数,每只鲸鱼的位置坐标即对应一种向量化表示结果;
2)设置算法的当前迭代次数为u,u的初始值为0,则第i只鲸鱼在第u+1次迭代时的位置更新为:
Xi(u+1)=X*(u)-[(2×random1γ-γ)×|2×random2X*(u)-Xi(u)|]
γ=2-(u+1)/Max
其中:
γ为收敛因子;
Xi(u)=(xi(u),yi(u))为第u次迭代时,第i只鲸鱼的位置坐标;
random1,random2分别为[0,1]区间的随机数;
X*(u)为第u次迭代过程中,将所有鲸鱼位置坐标所对应的词向量设置在目标函数F中,使得目标函数F最小的最优鲸鱼位置坐标;
重复该步骤,直到更新完成N只鲸鱼的位置坐标,计算得到第u+1次迭代的最优鲸鱼位置坐标X*(u+1);
3)为Xi(u+1)生成随机数rand,若生成随机数满足下述条件,则对Xi(u+1)进行变异处理:
Figure FDA0004104830810000031
其中:
ratemax为所设置的最大变异率,ratemin为所设置的最小变异率;
所述Xi(u+1)的变异结果为:
Xi(u+1)′=X*(u+1)+rand[|X1(u+1)-X2(u+1)|]
其中:
X1(u+1),X2(u+1)为第u+1次迭代过程中的随机鲸鱼位置坐标,X1(u+1)≠
X2(u+1);
重复该步骤,直到遍历完成所有鲸鱼的位置坐标,并更新第u+1次迭代后的最优鲸鱼位置坐标;
4)判断u+1是否等于预设定的最大迭代次数Max,若u+1=Max则终止迭代算法,输出最优鲸鱼位置坐标
Figure FDA0004104830810000032
为运维数据的向量化表示结果;否则令u=u+1,返回步骤2)执行算法迭代。
6.如权利要求1所述的一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述S3步骤中基于多种不同质量语料向量化表示融合的方法构建异质融合信息网络,包括:
构建异质融合信息网络G=(E,R),其中E表示异质融合信息网络中的实体集,所述实体集中的实体包括运维问题向量以及运维解决方案向量,其中运维问题向量包括短语形式的运维问题向量以及句子形式的运维问题向量,R表示实体集中的不同实体的路径关系,若实体集中存在运维解决方案向量可以解决对应运维问题向量,则两者形成一条关联路径;
所述任意运维问题向量与多种运维解决方案向量存在关联路径,则与任意运维问题向量Ve存在关联路径的运维解决方案向量集合为{g1-e,g2-e,…,gz-e},其中gz-e为第z种可以解决运维问题向量Ve的运维解决方案向量,z表示解决运维问题向量Ve的解决方案向量总数,每种解决方案来自于不同质量的语料库,且每种解决方案可以解决多种运维问题,即任意运维解决方案向量可能与多种运维问题向量存在关联路径。
7.如权利要求6所述的一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述S4步骤中利用中文分词算法对待处理的运维问题进行分词处理,将分词结果输入到复合通道模型中,得到待处理的运维问题向量。
8.如权利要求7所述的一种基于异质信息融合的智能运维机器人构建方法,其特征在于,所述S4步骤中将待处理的运维问题向量输入到所构建的异质融合信息网络中,对待处理运维问题向量进行基于关联路径的相似性度量,包括:
利用余弦相似度算法对待处理的运维问题向量
Figure FDA0004104830810000033
与异质融合信息网络中的运维问题向量进行相似性度量,将异质融合信息网络中相似性度量结果最高的运维问题向量作为待解决运维实体,并提取待解决运维实体的关联路径[R0,R1,R2,…,RQ],其中R0为待解决运维实体,[R1,R2,…,RQ]为与R0存在关联路径的Q组解决方案,则Q组解决方案中,任意解决方案RQ与待解决运维实体R0在异质融合信息网络的相似性度量公式为:
Sim(R0,RQ)=distance(R0,RQ)
其中:
distance(R0,RQ)表示在异质融合信息网络中,任意解决方案RQ与待解决运维实体R0的关联路径距离;
选取相似性度量最高的解决方案作为待解决运维问题的最优解决方案。
9.一种智能运维机器人构建装置,其特征在于,所述装置包括:
运维实体接收构建装置,用于构建运维机器人的运维实体接收装置,运维实体接收装置接收待解决的运维问题;
运维问题向量构建装置,用于构建运维机器人的中文分词算法,对运维实体进行中文分词,并构建运维机器人的复合通道模型,将中文分词结果向量化表示为运维实体向量;
异质融合信息网络构建装置,用于建立基于运维关系的异质融合信息网络,将运维问题的向量化表示作为异质融合信息网络输入,信息网络输出最优运维解决方案,以实现如权利要求1所述的一种基于异质信息融合的智能运维机器人构建方法。
CN202210455559.8A 2022-04-24 2022-04-24 一种基于异质信息融合的智能运维机器人构建方法及装置 Active CN114817502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210455559.8A CN114817502B (zh) 2022-04-24 2022-04-24 一种基于异质信息融合的智能运维机器人构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210455559.8A CN114817502B (zh) 2022-04-24 2022-04-24 一种基于异质信息融合的智能运维机器人构建方法及装置

Publications (2)

Publication Number Publication Date
CN114817502A CN114817502A (zh) 2022-07-29
CN114817502B true CN114817502B (zh) 2023-04-21

Family

ID=82508976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210455559.8A Active CN114817502B (zh) 2022-04-24 2022-04-24 一种基于异质信息融合的智能运维机器人构建方法及装置

Country Status (1)

Country Link
CN (1) CN114817502B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170734A (zh) * 2017-12-15 2018-06-15 国网冀北电力有限公司信息通信分公司 一种智能化运维机器人
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法
CN112865195A (zh) * 2021-01-25 2021-05-28 山东理工大学 一种基于改进的鲸鱼算法的机组组合出力分配方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509411B (zh) * 2017-10-10 2021-05-11 腾讯科技(深圳)有限公司 语义分析方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170734A (zh) * 2017-12-15 2018-06-15 国网冀北电力有限公司信息通信分公司 一种智能化运维机器人
CN109902159A (zh) * 2019-01-29 2019-06-18 华融融通(北京)科技有限公司 一种基于自然语言处理的智能运维语句相似度匹配方法
CN112865195A (zh) * 2021-01-25 2021-05-28 山东理工大学 一种基于改进的鲸鱼算法的机组组合出力分配方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡圆媛 ; 卢苇 ; .基于低维语义向量模型的语义相似度度量.中国科学技术大学学报.2016,(09),全文. *

Also Published As

Publication number Publication date
CN114817502A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN109635274B (zh) 文本输入的预测方法、装置、计算机设备和存储介质
EP3982275A1 (en) Image processing method and apparatus, and computer device
US8275607B2 (en) Semi-supervised part-of-speech tagging
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN112131890A (zh) 一种会话意图智能识别模型的构建方法、装置及设备
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN113449084A (zh) 基于图卷积的关系抽取方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN110197213B (zh) 基于神经网络的图像匹配方法、装置和设备
WO2022227297A1 (zh) 一种信息分类方法及装置、信息分类模型训练方法及装置
CN111723182B (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN114817502B (zh) 一种基于异质信息融合的智能运维机器人构建方法及装置
CN115906845B (zh) 一种电商商品标题命名实体识别方法
CN115545035B (zh) 一种文本实体识别模型及其构建方法、装置及应用
CN110866838A (zh) 基于转移概率预处理的网络表示学习算法
CN114579763A (zh) 一种针对中文文本分类任务的字符级对抗样本生成方法
CN115017907A (zh) 一种基于领域词典的中文农业命名实体识别方法
CN110349570B (zh) 语音识别模型训练方法、可读存储介质和电子设备
CN117113977B (zh) 一种识别试卷中包含ai生成文字的方法、介质及系统
CN116644754B (zh) 一种基于大数据的互联网金融产品评论观点提取方法
CN117473093B (zh) 一种基于llm模型获取目标事件的数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant