CN116894427B - 一种中英文信息融合的数据分级方法、服务器及存储介质 - Google Patents

一种中英文信息融合的数据分级方法、服务器及存储介质 Download PDF

Info

Publication number
CN116894427B
CN116894427B CN202311154785.3A CN202311154785A CN116894427B CN 116894427 B CN116894427 B CN 116894427B CN 202311154785 A CN202311154785 A CN 202311154785A CN 116894427 B CN116894427 B CN 116894427B
Authority
CN
China
Prior art keywords
english
chinese
data
metadata
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311154785.3A
Other languages
English (en)
Other versions
CN116894427A (zh
Inventor
吴文琴
张心宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Online Information Technology Co Ltd
Original Assignee
China Unicom Online Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Online Information Technology Co Ltd filed Critical China Unicom Online Information Technology Co Ltd
Priority to CN202311154785.3A priority Critical patent/CN116894427B/zh
Publication of CN116894427A publication Critical patent/CN116894427A/zh
Application granted granted Critical
Publication of CN116894427B publication Critical patent/CN116894427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种中英文信息融合的数据分级方法、服务器及存储介质,属于数据处理领域,包括如下步骤:对待分级元数据进行处理形成标准分词列表;构建四种pair对样本集,并对多语言预训练模型进行领域预训练;通过encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;利用多种相关性准则计算二者的相关性,然后选取前K类作为候选分级集合;计算候选分级集合中各分级类型的频率,以频率最高的为最终分级结果。该服务器包括存储有上述方法的存储器和执行该方法的处理器;该存储介质存储有执行上述方法的计算机程序。本方法能够对低质量的数据库表进行数据分级。

Description

一种中英文信息融合的数据分级方法、服务器及存储介质
技术领域
本申请属于数据处理领域,特别涉及一种中英文信息融合的数据分级方法、服务器及存储介质。
背景技术
随着信息化建设的推进,运营商的数据量急剧增长,数据规模越来越大,各种类型的数据交换和共享也变得更加频繁和复杂。随着国家有关信息安全法律法规的不断推进和完善,运营商需要按照法律法规的要求,对不同安全等级的数据进行分类分级管理,包括对数据库表的所有数据字段进行分级管控,确保数据的安全合规,提高信息安全防护能力,保障用户数据安全和隐私,满足法律法规和市场需求,促进信息化建设。
现有的数据分级方案通常采用人工或者机器学习分类的方式进行标注,人工标注方式,需要耗费大量精力且效率低下;机器学习分类方式需要大量已标注的数据,对于没有或者只有少量标注好的数据企业,获取大量样本成本高,只用少量样本训练则可能出现训练时收敛速度慢,准确率低等问题,而且对于一些低质量的数据库表(比如只有表名,英文字段名,没有中文释义),极大增加了分类分级的难度。
因此,需要一种针对中英文信息融合的数据分级的技术方案,以解决上述问题。
发明内容
为了克服所述现有技术的不足,本申请提供了一种中英文信息融合的数据分级方法,无需标注样本,基于企业内部语料构建多种学习任务对pre-trained的语言模型进行领域内预训练,以实现对企业中英文混合数据的信息提取能力,从而将元数据和企业分级标准的中英文信息进行语义编码向量,得到一个综合的中英文信息语义向量,然后采取最优TopK相关性策略对该向量进行匹配,找出与企业数据分级标准最为相关的数据分级类型。采用此方法,能降低低质量数据库表分级难度,同时无需已标注样本进行训练,可以帮助企业更加高效地进行数据分级管理和监控,保障数据安全和可信度。
本申请所要解决的技术问题,可以通过以下方案实现:
本申请的第一方面,提供一种中英文信息融合的数据分级方法,包括如下步骤:
元数据预处理,对待分级元数据进行信息拼接、停用词处理以及中英文分词,形成标准分词列表;
中英文词嵌入训练,构建中英文对应的四种pair对样本集,并基于四种pair对样本集对多语言预训练模型进行领域预训练;
通过所述预训练的encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;
最优TopK相关性匹配,利用至少三种类别的相关性准则计算每种类别下元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量的相关性,然后在每个类别下,选取得分排名中前K个分级类型作为候选分级集合;
计算候选分级集合中各分级类型的频率,以频率排名第一的分级类型确定为最终分级结果。
优选地,在所述元数据预处理,对分级元数据进行信息拼接、停用词处理以及中英文分词,形成标准分词列表的步骤中,所述待分级元数据进行信息拼接具体为:针对每个待判断的数据字段,将其中英文表名、中英文字段名、中英文备注等信息进行拼接,得到两个子串S1和S2,所述S1代表英文子串,所述S2代表中文子串;
所述停用词处理具体为:构建停用词库,将文本分析中无意义或者频率高于阈值的词语添加至停用词库中,并进行过滤删除;
所述中英文分词具体为:利用分词工具对S1和S2进行分词,得到中文列表和英文列表/>,将企业的中英文数据分级标准进行分词,针对每一个分级的中英文描述,分词后分别得到中文列表/>以及英文列表/>,依次对每一个分级描述重复如上步骤,最终得到N个企业数据分级描述,所述N个企业数据分级描述为:
中文分词列表
英文分词列表
优选地,在所述元数据预处理,对待分级元数据进行信息拼接、停用词处理以及中英文分词,形成标准分词列表的步骤中,形成标准分词列表的方法为:将中文分词列表和英文分词列表中依次通过停用词库进行过滤,得到标准分词列表。
优选地,在所述中英文词嵌入训练,构建中英文对应的四种pair对样本集,并基于四种pair对样本集对多语言预训练模型进行领域预训练的步骤中,所述pair对样本集包括如下四种形式的样本:中文和中文、中文和英文、英文和中文以及英文和英文,每种形式的样本数据由内部语料构建;
对于所述中文和中文形式,内部语料至少利用企业的数据分级标准以及企业数据相关规范,具体样本构成上以标点符号标识一句话;
对于所述英文和英文形式,内部语料至少利用英文企业的数据分级标准、英文数据规范,具体样本构成上以标点符号标识一句话;
对于所述中文和英文形式,内部语料至少利用企业的中英文数据分级标准、数据库元数据的中英文信息以及企业数据的中英文相关报告,具体样本构成上以标点符号标识中文和其对应的英文翻译;
对于所述英文和中文形式,内部语料至少利用企业的中英文数据分级标准、数据库元数据的中英文信息以及企业数据的中英文相关报告,具体样本构成上以标点符号标识英文和其对应的中文翻译。
优选地,所述多语言预训练模型进行领域预训练具体为:将构建的四种所述pair对样本集作为训练样本按照多语言预训练模型中编码-解码模型的标准输入进行预处理,并进行训练微调encoder编码器和解码器,直到满足收敛条件为止。
优选地,还包括以下步骤:将每一条所述待分级元数据的中英文词集合Sc和Se分别输入到encoder编码器,得到相应的向量S1和S2,对所述向量S1和向量S2进行平均得到最终的中英文语义向量S;
将每一级企业分级标准的中文分词列表Mc和英文分词列表Me分别输入到encoder编码器,得到企业分级标准中英文描述语义编码向量M。
优选地,还包括以下步骤:计算每种准则下中英文待分级元数据向量与中英文企业数据分级标准向量的相关性具体方式为:采用欧式距离、皮尔逊相关系数以及余弦相似度三种计算方法,得到每种准则下最优的前K个分类等级,具体计算公式如下:
欧式距离采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的距离,筛选距离最小的前K个分级;
其中,x为待分级元数据中英文语义向量S;y为企业分级标准中英文描述语义编码向量M;n为S中的维度,
皮尔逊相关系数采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的绝对值,选择绝对值最大的前K个分级;
其中, x为待分级元数据中英文语义向量S;y为企业分级标准中英文描述语义编码向量M;n为S中的维度,
余弦相似度采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的相似度,选择相似度最大的前K个分级;
其中, x为待分级元数据中英文语义向量S;y为企业分级标准中英文描述语义编码向量M;θ为余弦相似度代号;
将相关性计算算法相异的最优前K个分级合并,构成候选分级集合。
优选地,在所述计算候选分级集合中各分级类型的频率,以频率排名第一的分级类型确定为最终分级结果的步骤中,如果分级类型的频率相同,则根据候选分级集合中各分级在每个相似度计算准则下得分的排名,选择排名第一的分级作为最终分级结果。
本申请的第二方面,提供一种服务器,包括:存储器和至少一个处理器;
所述存储器存储计算机程序,所述至少一个处理器执行所述存储器存储的计算机程序,以实现上述中英文信息融合的数据分级方法。
本申请的第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现上述中英文信息融合的数据分级方法。
本申请的优点与有益效果:
本申请采用本中英文信息融合的数据分级方法,无需标注样本,基于企业内部语料构建4种(source,target)学习任务,对多语言预训练模型进行领域预训练,实现对企业中英文混合数据的信息提取能力,从而将元数据和企业分级标准的中英文信息进行语义编码向量,并通过最优TopK相关性策略匹配企业数据分级标准,帮助企业降低数据分级的人力成本和计算成本,为企业的数据管理和监控提供了有力支持;
上述数据分级的语义向量映射中,不仅只考虑元数据的中文信息,而且融入元数据的英文表名、字段英文名等英文信息,可以解决企业元数据质量不高(中文字段、备注缺失)时分类效果不好的问题;
数据分级中英文词嵌入训练无需已标注的样本,通过企业内部语料构建多目标任务以及微调encoder编码器,可得到相应中英文的语义编码向量;
最优Topk相关性策略匹配方法,通过综合多种相关性计算,并选取TopK构成候选集合,再根据投票选举法划分等级,可以增强方法的泛化性和鲁棒性。
附图说明
为了更清楚地说明本申请实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例中一种中英文信息融合的数据分级方法的流程图;
图2为本申请一实施例中构建候选分级集合方法的流程图;
图3为本申请一实施例中一种服务器的结构示意图。
具体实施方式
实施例:
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请一实施例中的中英文信息融合的数据分级方法,包括如下步骤:
S110:元数据预处理,对待分级元数据进行信息拼接、停用词处理以及中英文分词,形成标准分词列表;
在该步骤中,待分级元数据进行信息拼接(表名+字段英文名+字段中文名+字段备注等信息拼接成文本)具体为:针对每个待判断的数据字段,将其中英文表名、中英文字段名、中英文备注等信息进行拼接,得到两个子串S1和S2,S1代表英文子串,S2代表中文子串;
停用词处理,是将待分级的拼接文本和企业数据分级标准分别进行数据清洗,具体为:构建停用词库,将文本分析中无意义或者频率高于阈值的词语添加至停用词库中,并进行过滤删除,停用词比如“的”、“了”、“和”等,停用词处理可以减少噪声干扰,提高模型的准确性;停用词库构建方法采用常用基础词库叠加分词列表中高频词的前T个(T具体根据业务而定)进行构建;
中英文分词具体为:利用分词工具(比如SnowNlp分词、nltk等)对S1和S2进行分词,得到中文列表和英文列表/>,将企业的中英文数据分级标准进(对于只有中文版本的可以通过人工或者机器翻译得到英文版本)行分词,针对每一个分级的中英文描述,分词后分别得到中文列表/>以及英文列表,依次对每一个分级描述重复如上步骤,最终可得到N个企业数据分级描述包括:
中文分词列表
英文分词列表
形成标准分词列表的方法为:将中文分词列表和英文分词列表中依次通过停用词库进行过滤,得到标准分词列表,并仍然采用上述标记。
S120:中英文词嵌入训练,构建中英文对应的四种pair对样本集,并基于四种pair对样本集对多语言预训练模型进行领域预训练;
在该步骤中,中英文词嵌入训练主要通过构建四种学习任务,每个任务表示为输入source输出target目标,其中source和target分别对应中文-中文,中文-英文,英文-中文,英文-英文。通过构建四种(source,target)pair对的样本集,并基于此样本集对pre-trained多语言预训练模型进行In-Domain Pretraining,让pre-trained多语言模型更好地适应特定领域的任务,学到更好的特征表示,实现企业对中英文混合数据的信息提取能力。然后通过已微调的encoder编码器,将文本编码成向量,从而得到待分级元数据中英文信息的语义编码向量和企业分级标准中英文描述语义编码向量。
四种(source,target)pair对主要包含以下形式的样本(中文,中文),(中文,英文),(英文,中文),(英文,英文),每种形式的样本数据由内部语料构建。(source,target)的构成形式中,source可以是一个词句也可以是多个词句,同样target可以是一个词句也可以是多个词句,其中:
对于(中文,中文)形式,内部语料利用企业的数据分级标准、企业数据相关规范等文本,具体样本构成上,以标点符号逗号、句号等,标识一句话,假设某句话为ch1={r1,r2,...,rt},下一句话为ch2={n1,n2,...,nm},则采用({r1,r2,...,rt},{n1,n2,...,nm})构成具体样本。
对于(中文,英文)形式,内部语料可选取企业的中英文数据分级标准,数据库元数据的中英文信息,企业数据的中英文相关报告等,具体样本构成上以标点符号标识中文和其对应的英文翻译,假设中文语句为c={c1,c2,...,ct},对应的英文翻译为e={e1,e2,...,ek}则采用({c1,c2,...,ct},{e1,e2,...,ek})构成具体样本。
对于(英文,中文)形式,内部语料可选取企业的中英文数据分级标准,数据库元数据的中英文信息,企业数据的中英文相关报告等,具体样本构成上以标点符号标识英文和其对应的中文翻译,假设中文语句为c={c1,c2,...,ct1},对应的英文翻译为e={e1,e2,...,ek1}则采用({e1,e2,...,ek},{c1,c2,...,ct})构成具体样本;
对于(英文,英文)形式,内部语料利用英文企业的数据分级标准、英文数据规范等文本,具体样本构成上,以标点符号逗号、句号等,标识一句话,假设某句话为en1={r1,r2,...,rs},下一句话为en2={n1,n2,...,ne},则采用({r1,r2,...,rs},{n1,n2,...,ne})构成具体样本。
样本量的选择上,每种类型选择3w样本,共计12w样本(不同企业可以根据自己的机器资源等决定样本量大小)。
双语言预训练模型(In-Domain Pretraining)为预训练的语言模型,本申请实施例仅限定一种encoder-decoder的模型架构,即编码-解码模型,具体的encoder和decoder的形式比如是LSTM也可以是transformer等;
多语言预训练模型进行领域预训练具体为:将构建的四种pair对样本集作为训练样本按照多语言预训练模型中编码-解码模型的标准输入进行预处理(包括元数据处理模块所示、以及文本截断与填充等),并进行训练微调encoder编码器和解码器,直到满足收敛条件(训练次数达到阈值等)。
利用四种pair对去微调encoder编码器,是为了让预训练的模型既能学到中文信息,也能学到英文信息,同时保证了中文的词汇输入模型得到的向量和英文词汇输入得到模型得到的向量的量纲一致,才能取得平均值得到中英文的向量。相较于传统模型的训练中仅有中文->英文或中文->中文而言,更加适应复杂的中英文信息融合的数据分级情况。
在一个具体的例子中,选取多语言的预训练DeltaLM模型,最大限度继承pretrained encoder的文本理解能力和跨语言迁移能力,降低训练成本。
S130:通过预训练后的encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;
在该步骤中,基于上述微调的encoder编码器,encoder编码器输出的隐状态即是输入文本的语义向量c。
将每一条待分级元数据的中英文词集合Sc和Se分别输入到encoder编码器,得到相应的向量S1和S2,进行平均得到最终的中英文语义向量S;
将每一级企业分级标准的中文分词列表Mc和英文分词列表Me分别输入到encoder编码器,得到企业分级标准中英文描述语义编码向量M。
S140:最优TopK相关性匹配,利用多种相关性准则计算每种准则下元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量的相关性,然后在每个准则下,选取得分最高的前K类作为候选分级集合;
在该步骤中,如图2所示,计算每种准则下中英文待分级元数据向量与中英文企业数据分级标准向量的相关性具体方式为:采用欧式距离、皮尔逊相关系数以及余弦相似度三种计算方法,得到每种准则下最优的前K个分类等级,具体计算公式如下:
欧式距离采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的距离,筛选距离最小的前K个分级;
皮尔逊相关系数采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的绝对值,选择绝对值最大的前K个分级;
余弦相似度采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的相似度,选择相似度最大的前K个分级;
其中,上述三个公式中的x为待分级元数据中英文语义向量S;y为企业分级标准中英文描述语义编码向量M;n为S中的维度(S是一个向量,例如(1,2,3),n=3);θ为余弦相似度代号;
将不同相关性计算算法的最优前K个分级合并,构成候选分级集合。
S150:元数据分级确认,采用投票选举法对候选分级集合中的各分级类型进行排名,根据需要选择得分最高的分级类型作为最终分类结果。
在该步骤中,采用投票选举法对候选分级集合中的各候选分级类型进行排名具体为:计算候选分级集合中各分级类型的频率,以频率最高的分级类型确定为最终分级结果。
如果分级类型的频率相同,则根据候选分级集合中各分级在每个相关性准则中得分的排名,选择排名最高的分级作为最终分级结果。例如三个相关性准则A,B,C,
在相关性准则A情况下的分级类型判定分类为1,2,3;
在相关性准则B情况下的分级类型判断为2,1,3;
在相关性准则C情况下的分级类型判断为2,1,3;
则三个相关性准则下,对于分级中的1,2,3的词频都是3,此时不存在频率最大,这时候考虑排名,2在两个相关性准则的分级中都是第一名,选择排名靠前的分类,所以最终判定分类为2。
上述数据分级的语义向量映射中,不仅只考虑元数据的中文信息,而且融入元数据的英文表名、字段英文名等英文信息,可以解决企业元数据质量不高(中文字段、备注缺失)时分类效果不好的问题;
数据分级中英文词嵌入训练无需已标注的样本,通过企业内部语料构建多目标任务以及微调encoder编码器,可得到相应中英文的语义编码向量;
最优Topk相关性策略匹配方法,通过综合多种相关性计算,并选取TopK构成候选集合,再根据投票选举法划分等级,可以增强方法的泛化性和鲁棒性。
如图3所示,本实施例提供一种服务器,所述服务器包括:存储器301和至少一个处理器302;
所述存储器301存储计算机程序,所述至少一个处理器302执行所述存储器301存储的计算机程序,以实现上述中英文信息融合的数据分级方法。
本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现上述中英文信息融合的数据分级方法。
根据本申请的一个实施例,采用本中英文信息融合的数据分级方法,无需标注样本,基于企业内部语料构建4种(source,target)学习任务,对多语言预训练模型进行领域预训练,实现对企业中英文混合数据的信息提取能力,从而将元数据和企业分级标准的中英文信息进行语义编码向量,并通过最优TopK相关性策略匹配企业数据分级标准,帮助企业降低数据分级的人力成本和计算成本,为企业的数据管理和监控提供了有力支持。
应该指出,上述详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语均具有与本申请所属技术领域的普通技术人员的通常理解所相同的含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位,如旋转90度或处于其他方位,并且对这里所使用的空间相对描述作出相应解释。
在上面详细的说明中,参考了附图,附图形成本文的一部分。在附图中,类似的符号典型地确定类似的部件,除非上下文以其他方式指明。在详细的说明书、附图及权利要求书中所描述的图示说明的实施方案不意味是限制性的。在不脱离本文所呈现的主题的精神或范围下,其他实施方案可以被使用,并且可以作其他改变。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种中英文信息融合的数据分级方法,其特征在于,包括如下步骤:
元数据预处理,对待分级元数据进行信息拼接、停用词处理以及中英文分词,形成标准分词列表;
中英文词嵌入训练,构建中英文对应的四种pair对样本集,并基于四种pair对样本集对多语言预训练模型进行领域预训练;所述pair对样本集包括如下四种形式的样本:中文和中文、中文和英文、英文和中文以及英文和英文,每种形式的样本数据由内部语料构建;
对于所述中文和中文形式,内部语料至少利用企业的数据分级标准以及企业数据相关规范,具体样本构成上以标点符号标识一句话;
对于所述英文和英文形式,内部语料至少利用英文企业的数据分级标准、英文数据规范,具体样本构成上以标点符号标识一句话;
对于所述中文和英文形式,内部语料至少利用企业的中英文数据分级标准、数据库元数据的中英文信息以及企业数据的中英文相关报告,具体样本构成上以标点符号标识中文和其对应的英文翻译;
对于所述英文和中文形式,内部语料至少利用企业的中英文数据分级标准、数据库元数据的中英文信息以及企业数据的中英文相关报告,具体样本构成上以标点符号标识英文和其对应的中文翻译;
通过所述预训练的encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;
最优TopK相关性匹配,利用至少三种类别的相关性准则计算每种类别下元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量的相关性,然后在每个类别下,选取得分排名中前K个分级类型作为候选分级集合;
计算候选分级集合中各分级类型的频率,以频率排名第一的分级类型确定为最终分级结果。
2.根据权利要求1所述的中英文信息融合的数据分级方法,其特征在于,在所述元数据预处理,对分级元数据进行信息拼接、停用词处理以及中英文分词,形成标准分词列表的步骤中,所述待分级元数据进行信息拼接具体为:针对每个待判断的数据字段,将其中英文表名、中英文字段名、中英文备注等信息进行拼接,得到两个子串S1和S2,所述S1代表英文子串,所述S2代表中文子串;
所述停用词处理具体为:构建停用词库,将文本分析中无意义或者频率高于阈值的词语添加至停用词库中,并进行过滤删除;
所述中英文分词具体为:利用分词工具对S1和S2进行分词,得到中文列表和英文列表/>,将企业的中英文数据分级标准进行分词,针对每一个分级的中英文描述,分词后分别得到中文列表Mc=/>以及英文列表/>,依次对每一个分级描述重复如上步骤,最终得到N个企业数据分级描述,所述N个企业数据分级描述为:
中文分词列表
英文分词列表
3.根据权利要求2所述的中英文信息融合的数据分级方法,其特征在于,在所述元数据预处理,对待分级元数据进行信息拼接、停用词处理以及中英文分词,形成标准分词列表的步骤中,形成标准分词列表的方法为:将中文分词列表和英文分词列表中依次通过停用词库进行过滤,得到标准分词列表。
4.根据权利要求3所述的中英文信息融合的数据分级方法,其特征在于,所述多语言预训练模型进行领域预训练具体为:将构建的四种所述pair对样本集作为训练样本按照多语言预训练模型中编码-解码模型的标准输入进行预处理,并进行训练微调encoder编码器和解码器,直到满足收敛条件为止。
5.根据权利要求4所述的中英文信息融合的数据分级方法,其特征在于,还包括以下步骤:将每一条所述待分级元数据的中英文词集合Sc和Se分别输入到encoder编码器,得到相应的向量S1和S2,对所述向量S1和向量S2进行平均得到最终的中英文语义向量S;
将每一级企业分级标准的中文分词列表Mc和英文分词列表Me分别输入到encoder编码器,得到企业分级标准中英文描述语义编码向量M。
6.根据权利要求1所述的中英文信息融合的数据分级方法,其特征在于,还包括以下步骤:计算每种准则下中英文待分级元数据向量与中英文企业数据分级标准向量的相关性具体方式为:采用欧式距离、皮尔逊相关系数以及余弦相似度三种计算方法,得到每种准则下最优的前K个分类等级,具体计算公式如下:
欧式距离采用公式: ,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的距离,筛选距离最小的前K个分级;
其中,x为待分级元数据中英文语义向量S;y为企业分级标准中英文描述语义编码向量M;n为S中的维度,
皮尔逊相关系数采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的绝对值,选择绝对值最大的前K个分级;
其中, x为待分级元数据中英文语义向量S;y为企业分级标准中英文描述语义编码向量M;n为S中的维度,
余弦相似度采用公式:,计算得出待分级元数据中英文语义向量S和企业分级标准中英文描述语义编码向量M的相似度,选择相似度最大的前K个分级;
其中, x为待分级元数据中英文语义向量S;y为企业分级标准中英文描述语义编码向量M;θ为余弦相似度代号;
将相关性计算算法相异的最优前K个分级合并,构成候选分级集合。
7.根据权利要求1所述的中英文信息融合的数据分级方法,其特征在于,在所述计算候选分级集合中各分级类型的频率,以频率排名第一的分级类型确定为最终分级结果的步骤中,如果分级类型的频率相同,则根据候选分级集合中各分级在每个相似度计算准则下得分的排名,选择排名第一的分级作为最终分级结果。
8.一种服务器,其特征在于,包括:存储器和至少一个处理器;
所述存储器存储计算机程序,所述至少一个处理器执行所述存储器存储的计算机程序,以实现权利要求1至7中任一项所述的中英文信息融合的数据分级方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1至7中任一项所述的中英文信息融合的数据分级方法。
CN202311154785.3A 2023-09-08 2023-09-08 一种中英文信息融合的数据分级方法、服务器及存储介质 Active CN116894427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311154785.3A CN116894427B (zh) 2023-09-08 2023-09-08 一种中英文信息融合的数据分级方法、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311154785.3A CN116894427B (zh) 2023-09-08 2023-09-08 一种中英文信息融合的数据分级方法、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN116894427A CN116894427A (zh) 2023-10-17
CN116894427B true CN116894427B (zh) 2024-02-27

Family

ID=88313785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311154785.3A Active CN116894427B (zh) 2023-09-08 2023-09-08 一种中英文信息融合的数据分级方法、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN116894427B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763402A (zh) * 2018-05-22 2018-11-06 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN110825852A (zh) * 2019-11-07 2020-02-21 四川长虹电器股份有限公司 面向长文本的语义匹配方法及系统
CN112420024A (zh) * 2020-10-23 2021-02-26 四川大学 一种全端到端的中英文混合空管语音识别方法及装置
CN113160804A (zh) * 2021-02-26 2021-07-23 深圳市北科瑞讯信息技术有限公司 混合语音的识别方法及装置、存储介质、电子装置
WO2022143105A1 (zh) * 2020-12-30 2022-07-07 北京有竹居网络技术有限公司 文本生成模型生成方法、文本生成方法、装置及设备
CN115081629A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 一种敏感数据发现与识别的深度学习方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763402A (zh) * 2018-05-22 2018-11-06 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN110825852A (zh) * 2019-11-07 2020-02-21 四川长虹电器股份有限公司 面向长文本的语义匹配方法及系统
CN112420024A (zh) * 2020-10-23 2021-02-26 四川大学 一种全端到端的中英文混合空管语音识别方法及装置
WO2022143105A1 (zh) * 2020-12-30 2022-07-07 北京有竹居网络技术有限公司 文本生成模型生成方法、文本生成方法、装置及设备
CN113160804A (zh) * 2021-02-26 2021-07-23 深圳市北科瑞讯信息技术有限公司 混合语音的识别方法及装置、存储介质、电子装置
CN115081629A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 一种敏感数据发现与识别的深度学习方法及系统

Also Published As

Publication number Publication date
CN116894427A (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
JP5356197B2 (ja) 単語意味関係抽出装置
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
CN109597994A (zh) 短文本问题语义匹配方法和系统
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN113157859A (zh) 一种基于上位概念信息的事件检测方法
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN113360582A (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN115017884B (zh) 基于图文多模态门控增强的文本平行句对抽取方法
CN113590827B (zh) 一种基于多角度的科研项目文本分类装置和方法
Li Construction of Internet of Things English terms model and analysis of language features via deep learning
CN112257442B (zh) 一种基于扩充语料库神经网络的政策文件信息提取方法
CN109241521B (zh) 一种基于引用关系的科技文献高关注度句子提取方法
CN111737498A (zh) 一种应用于离散制造业生产过程的领域知识库建立方法
CN116894427B (zh) 一种中英文信息融合的数据分级方法、服务器及存储介质
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
Žitko et al. Automatic question generation using semantic role labeling for morphologically rich languages
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant