CN113537345B - 一种通信网设备数据关联的方法及系统 - Google Patents
一种通信网设备数据关联的方法及系统 Download PDFInfo
- Publication number
- CN113537345B CN113537345B CN202110800190.5A CN202110800190A CN113537345B CN 113537345 B CN113537345 B CN 113537345B CN 202110800190 A CN202110800190 A CN 202110800190A CN 113537345 B CN113537345 B CN 113537345B
- Authority
- CN
- China
- Prior art keywords
- data
- training
- sample
- communication network
- positive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种通信网设备数据关联的方法及系统,利用人工标注及算法,构造正反类别数据对,通过数据增强技术,丰富训练语料,避免模型出现欠拟合现象;平衡采样bagging算法,生成模型训练和验证的数据;融入集成学习思想,综合利用句子欧几里德结构空间向量和非欧几里德结构空间向量,抽取句子特征;利用模型预加载的功能,缩短模型预测任务时间;对输入待关联数据进行反向排除,降低模型服务调用次数;在线预测过程中使用多进程加多线程的并行运行方式,缩短了预测时间。
Description
技术领域
本发明涉及计算机领域中的NLP应用,具体涉及一种通信网设备数据关联的方法及系统。
背景技术
通信网数据包括通信资源数据、设备资产数据和日常运行数据三大块,这三块数据共同描述一个设备实体。三块数据分别隶属于资源领域、财务资产管理领域和实时运行领域,隶属于不同的领域,但都属于同一个设备实体。但是各类型通信网数据独立存储于各系统,缺乏关联性,彼此间相互割裂,难以进行有效的利用。因此将不同的数据关联,是资产全生命周期数字化的通用需求。目前通信网数据关联处理方法是通过人工匹配将各类型数据关联,或者在程序中通过具体规则进行匹配,建立一对一的关联关系。由于设备实体的体量巨大、数据量庞大,过去主要依靠人工关联,关联工作的机械性强、重复性高,虽然关联的准确度可以保障,但是工作量巨大,效率低下。近几年出现了基于确定性规则的关联方法,该方法对数据的规范性提出了严格的要求,实际中又增加了数据质量管理的难度,现实中数据规范性存在的问题五花八门、并直接影响了基于规则的关联的准确度,因此也难以达到实用化水平。程序规则匹配准确率较低,人工匹配效率太低。
发明内容
本发明所要解决的技术问题是人工对通信网数据进行关联时存在机械性、重复性和繁琐性问题,目的在于提供一种通信网设备数据关联的方法及系统,实现了机器替代人工的工作,极大提高了工作效率。
本发明通过下述技术方案实现:
一种通信网设备数据关联的方法,包括以下步骤:
步骤S1、获取设备的通信网数据,根据存储的系统不同将设备的通信网数据划分为通信资源数据、设备资产数据和日常运行数据三类数据;
步骤S2、从三类通信网数据中分别抽取若干个具体数据,并分别在对应类别下选取若干个具体数据组合为一条测试数据,得到三类通信网数据对应类别下的多条测试数据,对每条测试数据进行预处理,得到若干条训练数据,从若干条训练数据中选取任意两条不同类别下的训练数据形成一对训练数据,得到若干对训练数据;
步骤S3、将若干对训练数据分别进行构造正负例样本数据和平衡采样bagging算法处理,构建对应的训练数据集;
步骤S4、综合利用欧几里德结构空间向量和非欧几里德结构空间向量构建句子相似性模型,利用对应的训练数据集离线训练句子相似性模型,得到训练好的句子相似性模型;
步骤S5、将待关联数据进行反向排出的预处理,并将预处理后的待关联数据组合为若干对待关联数据;
步骤S6、调用训练好的句子相似性模型对若干对待关联数据进行在线预测,得到预测关联结果;
步骤S7、根据预测关联结果将待关联数据中设备的三类通信网数据进行相互关联。
通信网数据包括通信资源数据、设备资产数据和日常运行数据三大块,这3块数据共同描述一个设备实体,三块数据分别隶属于资源领域、财务资产管理领域和实时运行领域,隶属于不同的领域,但都属于同一个设备实体。因此为了将各类通信网数据之间进行相互关联,并提高关联的准确度,本方案通过利用人工标注及算法、构造正反类别数据对、采用数据增强技术,丰富训练语料,得到训练数据集,避免模型出现欠拟合现象;在句子相似性模型中融入集成学习思想,综合利用句子欧几里德结构空间向量和非欧几里德结构空间向量,抽取句子特征,一方面能够很好的捕获连续词序列中的语义和语法信息,另一方面也提高了神经网络模型的表达能力。利用模型预加载的功能,离线构建和训练好模型,缩短模型预测任务时间;对输入待关联数据进行反向排除,降低模型服务调用次数,在线预测过程中使用多进程加多线程的并行运行方式,也缩短了预测时间。因此,不仅能够很好地代替人工进行数据关联的工作,另外克服了传统的基于确定性关联规则的技术中存在的关联准确度不高的问题,综合利用多种文本相似性分类器的优势,既提高模型预测准确率,同时极大提高了工作效率。
进一步地,步骤S2中的预处理过程为:
步骤S21、通过读取、索引和定位,在每条测试数据中分别选取指定列名下的数据,得到训练选取数据;
步骤S22、对训练选取数据进行数据清理,得到待验证数据,数据清理包括利用正则化提取训练选取数据中需要的字符、利用NLP分句功能从训练选取数据中分割出有效的数据和去掉训练选取数据中重复和缺失的数据;
步骤S23、利用机器自动识别中的逻辑回归算法,验证待验证数据的有效性,并根据验证结果剔除无效数据,得到训练数据。
进一步地,构建训练数据集的具体过程为:
步骤S31、对每对训练数据分别进行遍历,将遍历的数据逐一与预设的人工标注的信息进行匹配,判断是否匹配一致,根据判断结果生成正负例样本数据,将正负例样本数据生成正负例样本数据集,正负例样本数据集表示为S,其中人工标注的信息为:每条训练数据包含哪个设备实体;
步骤S32、对正负例样本数据进行数据增强,得到增强后的正负例样本数据集Saugment;
步骤S33、使用平衡采样bagging算法,对生成的正负例样本数据集S和增强后的正负例样本数据集Saugment进行采样,得到训练数据集Snew。
进一步地,生成正负例样本数据的具体过程为:
步骤S311、若步骤S31的判断结果为匹配,则生成正例样本数据;
若步骤S31的判断结果为不匹配,则随机选取这对训练数据中任意一条数据r;
步骤S312、在[1,len)范围内,采取UniformDistribution采样策略,随机生成1个实数,然后取整,将取整后的数据记为ur;len表示数据r的长度;
步骤S313、在数据r的ID集合zi中,寻找数据ur对应的id,记为urd;
步骤S314、判断urd与数据r在正例样本数据中对应的id是否相等,若相等,则重复步骤S312-S314;若不相等,则生成负例样本数据。
进一步地,对正负例样本数据集中的每个样本数据进行数据增强的具体过程为:
随机删除样本数据中指定比例的词,得到数据c1;
随机选择样本数据中指定比例的词进行同义词替换,得到数据c2;
随机选择样本数据中指定比例的词进行相互替换,得到数据c3;
将样本数据通过机器翻译为其他语言,接着再将翻译为其他语言的样本数据翻译回原来的语言,得到数据c4;
将样本数据输入TextGAN生成网络中,得到数据c5;
将数据c1、c2、c3、c4和c5进行组合,得到数据增强后的样本数据,将增强后的样本数据进行汇总构成增强后的正负例样本数据集Saugment,集合描述如下:
Saugment={saugment|saugment={c1,c2,c3,c4,c5}}。
进一步地,得到Snew的具体过程如下:
步骤S331、统计正负例样本数目,将两类样本数目较多的那类数据记为Sbig,且该类数据对应的相应样本数目记为Nbig,少的那类数据记为Ssmall,且该类数据对应的相应样本数目记为Nsmall,计算不平衡率若ir<4,则按照如下步骤扩充少数类样本:
在增强后的正负例样本数据集Saugment中任选2条数据,生成saugment 1和saugment 2;
计算ssmote、saugment 1和saugment 1的中心点,生成新的样本,记为sbagging;
步骤S332、重复步骤S331,直到1≤ir<2;将得到的新的样本汇总得到训练数据集Snew:
Snew={snew|snew={s,sbagging}}。
进一步地,句子相似性模型的数据处理过程为:
使用ALBERT、XLNet及HGAT三个基分类器分别提取出每对训练数据中的句子特征,将句子特征表示为欧几里德结构空间向量和非欧几里德结构空间向量;
将基分类器层得到的各空间向量进行融合,得到融合后的数据;
利用self-attention注意力机制的自主加权平均法计算出融合后的数据中每个字/词向量的权重;将每个字/词向量的权重进行汇总得到每对训练数据的权重。
进一步地,对待关联数据进行反向排除的预处理的具体过程为:
步骤S51、将待关联数据进行拆分,得到各条待关联数据;
步骤S52、分别利用正则化去掉特殊数符号fss、利用停用词技术自动过滤掉的设定字或词fsw和利用关键词过滤掉不属于当前类型的数据fsn,删除各条待关联数据中的fss、fsw和fsn部分,得到各条待处理的关联数据;
步骤S52、利用编辑距离,计算最少的字符操作,并利用杰卡德距离得到任意两条待处理的关联数据中相似度较高的一部分数据,计算杰卡德距离:
其中,zy和zc分别表示任意两条待处理的关联数据,zy∩zc表示在两条待处理数据中相同的字数,zy∪zc表示在两条待处理数据中全部字数;
计算最少字符操作的动态规划方程为:
其中,i、j表示待处理的关联数据中组成各个数据的字符标号,例如zyi表示资源数据的第i个字,若zyi与zcj是同一个字符,则eq=0,否则eq=1;
将编辑距离的占比率记为r(zy,zc),公式如下:
其中,|zy|、|zc|为数据字符长度;
计算任意两条待处理的关联数据zy和zc的综合距离,计算公式如下:
distance(zy,zc)=0.5*jc(zy,zc)+0.5*r(zy,zc);
设定阈值τ,若distance(zy,zc)<τ,则将两条待处理的关联数据丢弃,否则保留。
进一步地,在线预测的过程为:
步骤S61、获取多对待关联数据,创建队列,将多对待关联数据放入队列中;
步骤S62、调用训练好的句子相似性模型,将队列中多对待关联数据输入训练好的句子相似性模型中,分别得到每对待关联数据的权重,将所述权重作为每对待关联数据的关联度;
步骤S63、将每对待关联数据按照关联度大小降序排列,取其中关联度最大的一对待关联数据作为相似实体,建立实体连接关联;
步骤S64、创建对应的数据库表,存储所述实体连接关联。
另外,本发明提供一种通信网设备数据关联的系统,包括离线训练模块和在线预测模块,所述离线训练模块包括训练数据准备模块、训练数据预处理模块、训练数据集构建模块、模型训练模块;
所述训练数据准备模块用于从通信资源数据、设备资产数据和日常运行数据三类通信网数据中抽取出若干个具体数据,并分别在对应类别下选取若干个具体数据组合为一条测试数据,得到三类通信网数据对应类别下的多条测试数据;
所述训练数据预处理模块用于对每条测试数据进行预处理,得到若干条训练数据,从若干条训练数据中选取任意两条不同类别下的训练数据形成一对训练数据,得到若干对训练数据;
所述训练数据集构建模块用于将若干对训练数据分别进行构造正负例样本数据和平衡采样bagging算法处理,构建对应的训练数据集;
模型训练模块用于构建句子相似性模型,并根据训练数据集训练句子相似性模型,得到训练好的句子相似性模型;
所述在线预测模块包括数据处理模块、在线预测模块和数据关联模块;
所述数据处理模块用于将待关联数据进行反向排出的预处理,并将预处理后的待关联数据组合为若干对待关联数据;
所述在线预测模块用于调用离线训练模块中的句子相似性模型进行在线预测,得到预测关联结果;
所述数据关联模块用于根据预测关联结果将待关联数据中设备的三类通信网数据进行相互关联。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明一种通信网设备数据关联的方法及系统,通过利用人工标注及算法、构造正反类别数据对、采用数据增强技术,丰富训练语料,得到训练数据集,避免模型出现欠拟合现象;在句子相似性模型中融入集成学习思想,综合利用句子欧几里德结构空间向量和非欧几里德结构空间向量,抽取句子特征,一方面能够很好的捕获连续词序列中的语义和语法信息,另一方面也提高了神经网络模型的表达能力。利用模型预加载的功能,离线构建和训练好模型,缩短模型预测任务时间;对输入待关联数据进行反向排除,降低模型服务调用次数,在线预测过程中使用多进程加多线程的并行运行方式,也缩短了预测时间,提高了工作效率。
2、本发明一种通信网设备数据关联的方法及系统,利用机器学习、深度学习、集成学习等多种技术,实现了电力通信网资源数据、资产数据和运行数据的实体关联,实现了机器替代人工的工作,极大提高了工作效率,解决了过去依靠人工关联中存在的机械性、重复性、繁琐性问题,克服了传统的基于确定性关联规则的技术中存在的关联准确度不高的问题,综合利用多种文本相似性模型的优势,既提高模型预测准确率,同时极大提高了工作效率,解放了基层一线人员,通过技术进步为电力通信生产一线减负减压,同时提高该项工作的质量,提高了数据整体质量,为海量数据的大数据分析提供了更加多维度、更大信息量的关联后数据,为电力工业基础通信网络运行管理提供了智慧的技术支撑。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明方法整体步骤流程图;
图2为训练数据的预处理流程示意图;
图3为构建训练测试集的流程图;
图4为一种实施方式中生成正负例样本数据的流程示意图;
图5为构建的句子相似性模型结构图;
图6为一种具体实施方式中对待预测的数据进行拆分后的示意图;
图7为一种具体的实施方式中关联后生成的关联关系示意图;
图8为本发明系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
实施例1
如图1所示,本发明一种通信网设备数据关联的方法,包括以下步骤:
步骤S1、获取设备的通信网数据,根据存储的系统不同将设备的通信网数据划分为通信资源数据、设备资产数据和日常运行数据三类数据;
步骤S2、从三类通信网数据中分别抽取若干个具体数据,并分别在对应类别下选取若干个具体数据组合为一条测试数据,得到三类通信网数据对应类别下的多条测试数据,对每条测试数据进行预处理,得到若干条训练数据,从若干条训练数据中选取任意两条不同类别下的训练数据形成一对训练数据,得到若干对训练数据;
步骤S3、将若干对训练数据分别进行构造正负例样本数据和平衡采样bagging算法处理,构建对应的训练数据集;
步骤S4、综合利用欧几里德结构空间向量和非欧几里德结构空间向量构建句子相似性模型,利用对应的训练数据集离线训练句子相似性模型,得到训练好的句子相似性模型;
步骤S5、将待关联数据进行反向排出的预处理,并将预处理后的待关联数据组合为若干对待关联数据;
步骤S6、调用训练好的句子相似性模型对若干对待关联数据进行在线预测,得到预测关联结果;
步骤S7、根据预测关联结果将待关联数据中设备的三类通信网数据进行相互关联。
具体的,步骤S2中从设备的三类通信网数据:资产数据、资源数据、运行数据中抽取任意两类数据,形成一对测试数据;例如:资源设备数据与资产设备数据;或者资源光路数据与运行工单数据;
在3类数据(通信网资源数据、设备资产数据、日常运行数据)中抽取具体数据时,选择明显的特征字段(如:名称、类型、所在位置等)汇聚形成一条数据,抽取的具体数据按照明显的特征字段形成所需的文本格式;例如设备实体数据关联运行数据:
如图2所示,训练数据预处理的过程为:
步骤S21、通过读取、索引和定位,在每条测试数据中分别选取指定列名下的数据,得到训练选取数据;
步骤S22、对训练选取数据进行数据清理,得到待验证数据,数据清理包括:
利用正则化提取训练选取数据中需要的字符,例如:[\u4e00-\u9fa5a-zA-Z0-9]+,提取字符串中的中文,字母,数字;
利用NLP分句功能从训练选取数据中分割出有效的数据,例如:运行工单数据中分割获取光路数据;最后去掉训练选取数据中重复和缺失的数据;
步骤S23、利用机器自动识别中的逻辑回归算法,验证待验证数据的有效性,并根据验证结果剔除无效数据,得到训练数据,其中有效数据为包含了通信设备实体名称的数据,剔除无效数据,即不含通信设备实体名称的数据,例如停电检修设备的日常运行数据中:
如图3所示,步骤S3中的构建训练数据集的过程为:
步骤S31、对每对训练数据分别进行遍历,将遍历的数据逐一与预设的人工标注的信息进行匹配,判断是否匹配一致,根据判断结果生成正负例样本数据,将正负例样本数据生成正负例样本数据集,正负例样本数据集表示为S,其中人工标注的信息为:每条训练数据包含哪个设备实体;
步骤S32、对正负例样本数据进行数据增强,得到增强后的正负例样本数据集Saugment;
步骤S33、使用平衡采样bagging算法,对生成的正负例样本数据集S和增强后的正负例样本数据集Saugment进行采样,得到训练数据集Snew。
步骤S31中生成正负例样本数据的具体过程为:
步骤S311、若步骤S31的判断结果为匹配,则生成正例样本数据;
若步骤S31的判断结果为不匹配,则随机选取这对训练数据中任意一条数据r;
步骤S312、在[1,len)范围内,采取UniformDistribution采样策略,随机生成1个实数,然后取整,将取整后的数据记为ur;len表示数据r的长度;
步骤S313、在数据r的ID集合zi中,寻找数据ur对应的id,记为urd;
步骤S314、判断urd与数据r在正例样本数据中对应的id是否相等,若相等,则重复步骤S312-S314;直至不相等时,则生成负例样本数据。
如图4所示,以通信资源数据和设备资产数据为例,按照步骤S31的过程生成模型正负例样本数据:
步骤A1:输入经人工标注的通信资源数据,人工标注的信息为:该通信资源数据属于哪个设备实体;
步骤A2:输入经人工标注的设备资产数据,人工标注的信息为:该设备资产数据属于哪个设备实体;
步骤A3:对通信资源数据和设备资产数据分别进行遍历,逐个于人工标注的信息进行匹配,判断通信资源数据及设备资产数据与人工标注的信息是否一致,如一致则为匹配;
例如光缆的匹配规则:起始端站点是否语义相近、终止端站点是否语义相近、电压等级是否一致、芯数是否相等;
步骤A4:若A3判断结果为匹配,则生成正例样本数据,包含(通信资源数据、设备资产数据,匹配结果),例如:(某条通信资源数据,某条设备资产数据,TRUE);
步骤A5:若A3判断结果为不匹配,则随机在设备资产数据中选取一条数据;生成负例样本数据,例如:(某条通信资源数据,某条设备资产数据,FALSE),生成负例样本数据的过程如下:
在[1,len(设备资产数据))范围内,采取UniformDistribution(均匀分布)采样策略,随机生成1个实数,然后取整,记为ur;
在设备资产数据ID集合zi中,寻找ur对应的id,记为urd;
判断urd与正例设备资产数据样本的id是否相等,若相等,则重复上述步骤;若不相等,则生成负例设备资产样本数据,最终将生成的通信资源数据和设备资产正负例样本数据汇总为数据集表示为:
S={s|s=[zy,zc,label],label∈{TRUE,FALSE}} (1)
其中,在此示例中,zy表示资源实体数据集的元素,zc表示资产实体数据集的元素。
由于深度学习需要大量的训练语料,当训练语料不足时,可以利用数据增强技术,丰富语料,步骤S32中,对正负例样本数据集中的每个样本数据进行数据增强的具体过程为:
在正负样例数据集S中,任选一个样例s,在样例s的原句子中,随机的选择(指定比例)删除多个词,生成句子c1;
在样例s的原句子中,随机的选择(指定比例)一些词的同义词来替换这些词,生成句子c2;
在样例s的原句子中,随机选择几个词(指定比例),然后相互替换,生成句子c3;
在样例s的原句子中,将原句子通过机器翻译为其他语言,接着再将翻译为其他语言的句子翻译回原来的语言,生成句子c4;
在样例s的原句子中,使用TextGAN生成网络,生成句子c5;其中TextGAN生成网络使用的模型训练目标为:
其中,G为生成模型,D为判别模型,pdata(x)是真实数据,z是噪声输入,且满足分布z~pz(z);
将数据c1、c2、c3、c4和c5进行组合,得到数据增强后的样本数据,将增强后的样本数据进行汇总构成增强后的正负例样本数据集Saugment,集合描述如下:
Saugment={saugment|saugment={c1,c2,c3,c4,c5}} (3)。
上述步骤S33中,该步骤使用集成学习中的Bagging算法,对数据进行采样,生成3份采样数据,分别用于训练ALBERT、HGAT和XLNET 3个不同分类模型,每份数据采样过程如下:
步骤S331、统计正负例样本数目,将两类样本数目较多的那类数据记为Sbig,且该类数据对应的相应样本数目记为Nbig,少的那类数据记为Ssmall,且该类数据对应的相应样本数目记为Nsmall,计算不平衡率若ir<4,则按照如下步骤扩充少数类样本:
利用SMOTE算法生成新的样本数据ssmote:
在增强后的正负例样本数据集Saugment中任选2条数据,生成saugment 1和saugment2;
计算ssmote、saugment 1和saugment 1的中心点,生成新的样本,记为sbagging;
步骤S332、重复步骤S331,直到1≤ir<2;将得到的新的样本汇总得到训练数据集Snew:
Snew={snew|snew={s,sbagging}} (5)。
具体的,步骤S4中,构建的句子相似性模型包括欧几里德结构(EuclideanStructure)空间向量和欧几里德结构(no Euclidean Structure)空间向量,如图5所示,模型层次结构包括:
ALBERT层:将句子表示为欧几里德结构(Euclidean Structure)空间向量;
HGAT层:采用异质图注意HGAT模型,将句子表示为No Euclidean Structure空间向量;
XLNet层:将句子表示为Euclidean Structure空间向量;
卷积层:添加3层空洞卷积层(dilated convolution);
归一化层:添加3层归一化层(Batch-Norm);
池化层:添加MEAN策略pooling层;
Attention层:利用self-attention注意力机制来“动态”生成不同连接的权重;
激励层:添加激励函数层(Relu);
全连接层:添加2层全连接层;
分类层:添加Softmax层。
句子相似性模型借鉴了集成学习的Bagging范式的思想,将句子抽象为欧几里德结构和非欧几里德结构空间向量,数据处理过程为:
使用ALBERT、XLNet及HGAT三个基分类器分别提取出每对训练数据中的句子特征ft1,ft2,ft3,将句子特征表示为欧几里德结构空间向量和非欧几里德结构空间向量;
将基分类器层得到的各空间向量进行融合,得到融合后的数据;
采用数据增强,在融合后的数据中注入noise,减少基分类器之间的数据相关性;
利用self-attention注意力机制的自主加权平均法计算出数据增强后的数据中每个字/词向量的权重;将每个字/词向量的权重进行汇总得到每对训练数据的权重。
具体的,上述利用self-attention机制的自主加权平均法的过程为:
原始权重归一化后的权重wij计算公式:
其中Wn为句子的单词数;
则每个(第i个)字/词向量表示:
ALBERT和XLNET基分类器均考虑文本的顺序信息和局部信息,能够很好的捕获连续词序列中的语义和语法信息,而HGAT(Heterogeneous Graph Attention Networks)分类器则使用整个数据集/语料库来构建异构图,利用Attention机制,自适应分配不同邻居权重值用于聚合操作,联合学习词(节点)和文档(节点)的嵌入,提高了图神经网络模型的表达能力。
HGAT模型是图卷积神经网络模型,其中边属性包括基于TF-IDF和基于全局词共现信息,包括边(词-文档)属性值,基于TF-IDF,其计算公式如下:
其中,ni,j是该词在句子dj中出现的次数,分母则是句子dj中所有词汇出现的次数总和,|D|是训练数据集中的句子总数,|{j:ti∈dj}|表示包含词语ti的句子数目。
边(词-词)属性值是基于全局词共现信息,使用点互信息(PMI)计算两个词节点连线的权重,其计算公式如下:
其中,W表示滑动窗口的总数量,W(i)表示包含单词i的滑动窗口数量,W(i,j)表示同时包含单词i和单词j(可以不相邻)的滑动窗口的数量。
节点vi新的特征向量为:
其中,Whi、Whj表示该层节点对应的特征变换(维度变换)的权重参数,α为计算两个节点(特征向量)相关度的函数。
上述步骤S5中输入的待关联数据,该数据与离线训练中的训练数据相比,除了不含人工标注的信息,其他的格式和内容一致,待关联数据来源于从通信网中资产数据、资源数据、运行数据中抽取选择一部分类型相同的数据。
例如通信资源数据中的设备信息与设备资产数据中的设备信息:
具体地,对待关联数据进行反向排除的预处理,降低模型调用次数,具体过程为:
步骤S51、将待关联数据进行拆分,得到各条待关联数据;
步骤S52、分别利用正则化去掉特殊数符号fss、利用停用词技术自动过滤掉的设定字或词fsw和利用关键词过滤掉不属于当前类型的数据fsn(例如:**站、**局、****光缆、***至***),删除各条待关联数据中的fss、fsw和fsn部分,得到各条待处理的关联数据;
步骤S53、利用编辑距离,计算最少的字符操作,并利用杰卡德距离缩小待预测比对的数据范围,得到任意两条待处理的关联数据中相似度较高的一部分数据,计算杰卡德距离:
其中,zy和zc分别表示任意两条待处理的关联数据,zy∩zc表示在两条待处理数据中相同的字数,zy∪zc表示在两条待处理数据中全部字数;
计算最少字符操作的动态规划方程为:
其中,i、j表示待处理的关联数据中组成各个数据的字符标号,例如zyi表示资源数据的第i个字,若zyi与zcj是同一个字符,则eq=0,否则eq=1;
将编辑距离的占比率记为r(zy,zc),公式如下:
其中,|zy|、|zc|为数据字符长度;
计算任意两条待处理的关联数据zy和zc的综合距离,计算公式如下:
distance(zy,zc)=0.5*jc(zy,zc)+0.5*r(zy,zc);
设定阈值τ,若distance(zy,zc)<τ,则将两条待处理的关联数据丢弃,否则保留。
上述步骤S6中,在进行在线预测之前,先要将训练好的句子相似性模型进行部署,具体的部署流程为:
配置模型文件(name、存储位置、平台)、配置模型服务器(端口、部署模型文件)、启动模型服务器脚本文件,服务启动后可以对具体请求进行处理以及响应。
将模型部署好后,还需要将待预测的数据进行拆分,使用多进程加多线程的并行运行方式,缩短了预测时间,例如图6中:在ZY资源数据集合和ZC资产数据集合中,ZY集合中数据zy1需要与ZC集合中的数据(zc1到zcm)逐个进行关联分析。创建进程P1,执行任务zy1关联分析,同时创建线程T1用于数据zy1与zc1预测分析;创建线程T2用于数据zy1与zc2预测分析;创建线程T3用于数据zy1与zc3预测分析。
上诉过程中现场进程数量、线程数量及每个线程中执行的任务数,都可依据实际硬件资源做相应的调整。
接着进行在线预测,具体过程为:
步骤S61、获取多对待关联数据,创建队列,将多对待关联数据放入队列中;
步骤S62、调用训练好的句子相似性模型,将队列中多对待关联数据输入训练好的句子相似性模型中,分别得到每对待关联数据的权重,将所述权重作为每对待关联数据的关联度;
步骤S63、将每对待关联数据按照关联度大小降序排列,取其中关联度最大的一对待关联数据作为相似实体,建立实体连接关联;
步骤S64、创建对应的数据库表,存储所述实体连接关联。
以光缆数据为例,建立通信资源数据和日常运行数据的关联,见下表:
通过上述步骤进行数据关联后,以通信中光缆数据为例可以建立如下数据关联:1)如图7所示,形成运行检修工单数据与资源光缆数据的关联关系;2)将资源光缆数据与资产光缆数据进行关联,关联完成后将:工单光缆、资源光缆、资产光缆建立一一对应的关联关系。
则基于上述事例的光缆关联数据可以进行以下应用:
1.对于某条检修工单数据,可以查看检修内容涉及哪些光缆,且在逻辑光缆网拓扑图中直观的呈现出来。
2.可以获取某条光缆,再某段时间范围中进行的检修记录。
3.可以获取某条光缆,相关的资源属性。
以一种在光缆测试集上进行数据关联为例,使用上述方法和步骤后,数据关联的准确度可达到94.3%,相比于其它分类器准确率均有所提升,参见表2。
表2光缆数据集测试对照
实施例2
如图8所示,本实施例与实施例1的区别在于,本发明提供一种通信网设备数据关联的系统,包括离线训练模块和在线预测模块,所述离线训练模块包括训练数据准备模块、训练数据预处理模块、训练数据集构建模块、模型训练模块;
所述训练数据准备模块用于从通信资源数据、设备资产数据和日常运行数据三类通信网数据中抽取出若干个具体数据,并分别在对应类别下选取若干个具体数据组合为一条测试数据,得到三类通信网数据对应类别下的多条测试数据;
所述训练数据预处理模块用于对每条测试数据进行预处理,得到若干条训练数据,从若干条训练数据中选取任意两条不同类别下的训练数据形成一对训练数据,得到若干对训练数据;
所述训练数据集构建模块用于将若干对训练数据分别进行构造正负例样本数据和平衡采样bagging算法处理,构建对应的训练数据集;
模型训练模块用于构建句子相似性模型,并根据训练数据集训练句子相似性模型,得到训练好的句子相似性模型;
所述在线预测模块包括数据处理模块、在线预测模块和数据关联模块;
所述数据处理模块用于将待关联数据进行反向排出的预处理,并将预处理后的待关联数据组合为若干对待关联数据;
所述在线预测模块用于调用离线训练模块中的句子相似性模型进行在线预测,得到预测关联结果;
所述数据关联模块用于根据预测关联结果将待关联数据中设备的三类通信网数据进行相互关联。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种通信网设备数据关联的方法,其特征在于,包括以下步骤:
步骤S1、获取设备的通信网数据,根据存储的系统不同将设备的通信网数据划分为通信资源数据、设备资产数据和日常运行数据三类数据;
步骤S2、从三类通信网数据中分别抽取若干个具体数据,并分别在对应类别下选取若干个具体数据组合为一条测试数据,得到三类通信网数据对应类别下的多条测试数据,对每条测试数据进行预处理,得到若干条训练数据,从若干条训练数据中选取任意两条不同类别下的训练数据形成一对训练数据,得到若干对训练数据;
步骤S3、将若干对训练数据分别进行构造正负例样本数据和平衡采样bagging算法处理,构建对应的训练数据集;
步骤S4、综合利用欧几里德结构空间向量和非欧几里德结构空间向量构建句子相似性模型,利用对应的训练数据集离线训练句子相似性模型,得到训练好的句子相似性模型;
步骤S5、将待关联数据进行反向排出的预处理,并将预处理后的待关联数据组合为若干对待关联数据;
步骤S6、调用训练好的句子相似性模型对若干对待关联数据进行在线预测,得到预测关联结果;
步骤S7、根据预测关联结果将待关联数据中设备的三类通信网数据进行相互关联。
2.根据权利要求1所述的一种通信网设备数据关联的方法,其特征在于,步骤S2中的预处理过程为:
步骤S21、通过读取、索引和定位,在每条测试数据中分别选取指定列名下的数据,得到训练选取数据;
步骤S22、对训练选取数据进行数据清理,得到待验证数据,数据清理包括利用正则化提取训练选取数据中需要的字符、利用NLP分句功能从训练选取数据中分割出有效的数据和去掉训练选取数据中重复和缺失的数据;
步骤S23、利用机器自动识别中的逻辑回归算法,验证待验证数据的有效性,并根据验证结果剔除无效数据,得到训练数据。
3.根据权利要求1所述的一种通信网设备数据关联的方法,其特征在于,构建训练数据集的具体过程为:
步骤S31、对每对训练数据分别进行遍历,将遍历的数据逐一与预设的人工标注的信息进行匹配,判断是否匹配一致,根据判断结果生成正负例样本数据,将正负例样本数据生成正负例样本数据集,正负例样本数据集表示为S,其中人工标注的信息为:每条训练数据包含哪个设备实体;
步骤S32、对正负例样本数据进行数据增强,得到增强后的正负例样本数据集Saugment;
步骤S33、使用平衡采样bagging算法,对生成的正负例样本数据集S和增强后的正负例样本数据集Saugment进行采样,得到训练数据集Snew。
4.根据权利要求3所述的一种通信网设备数据关联的方法,其特征在于,生成正负例样本数据的具体过程为:
步骤S311、若步骤S31的判断结果为匹配,则生成正例样本数据;
若步骤S31的判断结果为不匹配,则随机选取这对训练数据中任意一条数据r;
步骤S312、在[1,len)范围内,采取UniformDistribution采样策略,随机生成1个实数,然后取整,将取整后的数据记为ur;len表示数据r的长度;
步骤S313、在数据r的ID集合zi中,寻找数据ur对应的id,记为urd;
步骤S314、判断urd与数据r在正例样本数据中对应的id是否相等,若相等,则重复步骤S312-S314;若不相等,则生成负例样本数据。
5.根据权利要求3所述的一种通信网设备数据关联的方法,其特征在于,对正负例样本数据集中的每个样本数据进行数据增强的具体过程为:
随机删除样本数据中指定比例的词,得到数据c1;
随机选择样本数据中指定比例的词进行同义词替换,得到数据c2;
随机选择样本数据中指定比例的词进行相互替换,得到数据c3;
将样本数据通过机器翻译为其他语言,接着再将翻译为其他语言的样本数据翻译回原来的语言,得到数据c4;
将样本数据输入TextGAN生成网络中,得到数据c5;
将数据c1、c2、c3、c4和c5进行组合,得到数据增强后的样本数据,将增强后的样本数据进行汇总构成增强后的正负例样本数据集Saugment,集合描述如下:
Saugment={saugment|saugment={c1,c2,c3,c4,c5}}。
6.根据权利要求3所述的一种通信网设备数据关联的方法,其特征在于,得到Snew的具体过程如下:
步骤S331、统计正负例样本数目,将两类样本数目较多的那类数据记为Sbig,且该类数据对应的相应样本数目记为Nbig,少的那类数据记为Ssmall,且该类数据对应的相应样本数目记为Nsmall,计算不平衡率若ir<4,则按照如下步骤扩充少数类样本:
在增强后的正负例样本数据集Saugment中任选2条数据,生成saugment 1和saugment 2;
计算ssmote、saugment 1和saugment 1的中心点,生成新的样本,记为sbagging;
步骤S332、重复步骤S331,直到1≤ir<2;将得到的新的样本汇总得到训练数据集Snew:
Snew={snew|snew={s,sbagging}}。
7.根据权利要求1所述的一种通信网设备数据关联的方法,其特征在于,句子相似性模型的数据处理过程为:
使用ALBERT、XLNet及HGAT三个基分类器分别提取出每对训练数据中的句子特征,将句子特征表示为欧几里德结构空间向量和非欧几里德结构空间向量;
将基分类器层得到的各空间向量进行融合,得到融合后的数据;
采用数据增强,在融合后的数据中注入noise,得到增强后的数据
利用self-attention注意力机制的自主加权平均法计算出增强后的数据中每个字/词向量的权重;将每个字/词向量的权重进行汇总得到每对训练数据的权重。
8.根据权利要求1所述的一种通信网设备数据关联的方法,其特征在于,对待关联数据进行反向排除的预处理的具体过程为:
步骤S51、将待关联数据进行拆分,得到各条待关联数据;
步骤S52、分别利用正则化去掉特殊数符号fss、利用停用词技术自动过滤掉的设定字或词fsw和利用关键词过滤掉不属于当前类型的数据fsn,删除各条待关联数据中的fss、fsw和fsn部分,得到各条待处理的关联数据;
步骤S53、利用编辑距离,计算最少的字符操作,并利用杰卡德距离得到任意两条待处理的关联数据中相似度较高的一部分数据;计算杰卡德距离:
计算最少字符操作的动态规划方程为:
其中,zy和zc分别表示任意两条待处理的关联数据,i、j表示待关联数据中组成各个数据的字符标号,若zyi与zcj是同一个字符,则eq=0,否则eq=1;
将编辑距离的占比率记为r(zy,zc),公式如下:
其中,|zy|、|zc|为数据字符长度;
计算任意两条待处理的关联数据zy和zc的综合距离,计算公式如下:
distance(zy,zc)=0.5*jc(zy,zc)+0.5*r(zy,zc);
设定阈值τ,若distance(zy,zc)<τ,则将两条待处理的关联数据丢弃,否则保留。
9.根据权利要求1所述的一种通信网设备数据关联的方法,其特征在于,在线预测的过程为:
步骤S61、获取多对待关联数据,创建队列,将多对待关联数据放入队列中;
步骤S62、调用训练好的句子相似性模型,将队列中多对待关联数据输入训练好的句子相似性模型中,分别得到每对待关联数据的权重,将所述权重作为每对待关联数据的关联度;
步骤S63、将每对待关联数据按照关联度大小降序排列,取其中关联度最大的一对待关联数据作为相似实体,建立实体连接关联;
步骤S64、创建对应的数据库表,存储所述实体连接关联。
10.一种通信网设备数据关联的系统,其特征在于,包括离线训练模块和在线预测模块,所述离线训练模块包括训练数据准备模块、训练数据预处理模块、训练数据集构建模块、模型训练模块;
所述训练数据准备模块用于从通信资源数据、设备资产数据和日常运行数据三类通信网数据中抽取出若干个具体数据,并分别在对应类别下选取若干个具体数据组合为一条测试数据,得到三类通信网数据对应类别下的多条测试数据;
所述训练数据预处理模块用于对每条测试数据进行预处理,得到若干条训练数据,从若干条训练数据中选取任意两条不同类别下的训练数据形成一对训练数据,得到若干对训练数据;
所述训练数据集构建模块用于将若干对训练数据分别进行构造正负例样本数据和平衡采样bagging算法处理,构建对应的训练数据集;
模型训练模块用于构建句子相似性模型,并根据训练数据集训练句子相似性模型,得到训练好的句子相似性模型;
所述在线预测模块包括数据处理模块、在线预测模块和数据关联模块;
所述数据处理模块用于将待关联数据进行反向排出的预处理,并将预处理后的待关联数据组合为若干对待关联数据;
所述在线预测模块用于调用离线训练模块中的句子相似性模型进行在线预测,得到预测关联结果;
所述数据关联模块用于根据预测关联结果将待关联数据中设备的三类通信网数据进行相互关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800190.5A CN113537345B (zh) | 2021-07-15 | 2021-07-15 | 一种通信网设备数据关联的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800190.5A CN113537345B (zh) | 2021-07-15 | 2021-07-15 | 一种通信网设备数据关联的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537345A CN113537345A (zh) | 2021-10-22 |
CN113537345B true CN113537345B (zh) | 2023-01-24 |
Family
ID=78128117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110800190.5A Active CN113537345B (zh) | 2021-07-15 | 2021-07-15 | 一种通信网设备数据关联的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537345B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020107840A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于机器学习的句子距离映射方法、装置和计算机设备 |
WO2020220539A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111090987B (zh) * | 2019-12-27 | 2021-02-05 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
-
2021
- 2021-07-15 CN CN202110800190.5A patent/CN113537345B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020107840A1 (zh) * | 2018-11-28 | 2020-06-04 | 平安科技(深圳)有限公司 | 基于机器学习的句子距离映射方法、装置和计算机设备 |
WO2020220539A1 (zh) * | 2019-04-28 | 2020-11-05 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113537345A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
Kaibi et al. | A comparative evaluation of word embeddings techniques for twitter sentiment analysis | |
CN111401077A (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN111651566B (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
KR20220134695A (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
Yuan et al. | Automatic generation of headlines for online math questions | |
Raisa et al. | A review on Twitter sentiment analysis approaches | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
Chen et al. | Fine-grained product categorization in e-commerce | |
CN116186268A (zh) | 基于Capsule-BiGRU网络与事件自动分类的多文档摘要提取方法及系统 | |
CN113111178B (zh) | 无监督的基于表示学习的同名作者消歧方法及装置 | |
Hanyurwimfura et al. | A centroid and relationship based clustering for organizing | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116628173A (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN113537345B (zh) | 一种通信网设备数据关联的方法及系统 | |
Yan et al. | Sentiment Analysis of Short Texts Based on Parallel DenseNet. | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
Tohalino et al. | Using virtual edges to extract keywords from texts modeled as complex networks | |
Sheng et al. | Web service classification based on reinforcement learning and structured representation learning | |
Bao et al. | HTRM: A hybrid neural network algorithm based on tag-aware | |
Ding et al. | Hierarchical clustering for micro-learning units based on discovering cluster center by LDA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |