CN114117056B - 一种训练数据的处理方法、装置以及存储介质 - Google Patents
一种训练数据的处理方法、装置以及存储介质 Download PDFInfo
- Publication number
- CN114117056B CN114117056B CN202210110695.3A CN202210110695A CN114117056B CN 114117056 B CN114117056 B CN 114117056B CN 202210110695 A CN202210110695 A CN 202210110695A CN 114117056 B CN114117056 B CN 114117056B
- Authority
- CN
- China
- Prior art keywords
- data
- noise
- corpus
- label
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/10—Noise analysis or noise optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种训练数据的处理方法、装置以及存储介质,可以应用于地图领域。通过获取文本序列数据并确定标签序列;基于目标任务确定文本序列数据对应的预测信息;根据异常语料数据进行词频排序得到目标语料;基于目标语料包含的语料成分统计得到组合概率;根据组合概率预测噪声标签和真实标签之间的联合分布对噪声数据进行过滤。从而实现文本序列数据中的噪声数据过滤过程,由于过滤过程不依赖于上游模型实现,且通过噪声标签所得目标语料进行统计,并基于目标语料进行针对性的过滤,提高了数据标注质量,提高了训练数据处理的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种训练数据的处理方法、装置以及存储介质。
背景技术
随着人工智能技术的发展,为了提高了模型识别的准确度,往往需要合适的样本进行模型训练,如何提高样本的质量成为难题。
一般,可以采用置信学习的方式进行样本过滤,即基于噪声数据剪枝的原理,通过分类模型对噪声数据类别进行识别并进行分类。
但是,通过分类模型对噪声数据类别进行识别的过程需要把噪声数据归为特定类别的数据再建模,该过程依赖于分类模型的准确度,在大规模样本的场景中,可能出现识别错误的情况,影响训练数据处理的准确性。
发明内容
有鉴于此,本申请提供一种训练数据的处理方法,可以有效提高训练数据处理的准确性。
本申请第一方面提供一种训练数据的处理方法,可以应用于终端设备中包含训练数据的处理功能的系统或程序中,具体包括:
获取文本序列数据,所述文本序列数据为目标任务的训练样本;
确定所述文本序列数据对应的标注,以得到标签序列,所述标签序列基于噪声标签和真实标签标注所得;
基于所述目标任务确定所述标签序列对应的预测信息;
根据所述预测信息对所述标签序列中的异常语料数据进行词频排序,以得到目标语料,所述异常语料数据用于指示配置所述噪声标签的语料数据和所述预测信息中结果异常的语料数据;
基于所述目标语料包含的语料成分进行概率统计,以得到组合概率;
根据所述组合概率预测所述噪声标签和所述真实标签之间的联合分布,以对所述文本序列数据中的噪声数据进行过滤。
可选的,在本申请一些可能的实现方式中,所述根据所述预测信息对所述标签序列中的异常语料数据进行词频排序,以得到目标语料,包括:
获取所述标签序列中配置所述噪声标签的语料数据;
基于所述预测信息中结果异常的语料数据确定误识信息,所述误识信息包括由所述噪声标签预测为所述真实标签或由所述真实标签预测为所述噪声标签;
根据配置所述噪声标签的语料数据和所述误识信息确定噪声语料;
根据所述噪声语料进行词频排序,以得到噪声序列;
基于所述噪声序列进行语料提取,以得到所述目标语料。
可选的,在本申请一些可能的实现方式中,所述获取所述标签序列中配置所述噪声标签的所述语料数据,包括:
获取所述标签序列中配置所述噪声标签的文本数据;
基于所述文本数据在预设噪声类型中进行遍历,以得到与所述文本数据匹配的词数据;
将所述文本数据与所述词数据进行文本合并,以得到所述语料数据。
可选的,在本申请一些可能的实现方式中,所述基于所述目标语料包含的语料成分进行概率统计,以得到组合概率,包括:
确定所述目标语料包含的第一文本和第二文本;
根据所述预测信息获取所述第一文本对应的第一概率信息;
根据所述预测信息获取所述第二文本对应的第二概率信息;
获取所述目标任务配置的权重调节系数;
基于所述权重调节系数对所述第一概率信息和所述第二概率信息进行计算,以得到组合标签权重;
对所述组合标签权重进行归一化处理,以得到所述组合概率。
可选的,在本申请一些可能的实现方式中,所述根据所述组合概率预测所述噪声标签和所述真实标签之间的联合分布,以对所述文本序列数据中的噪声数据进行过滤,包括:
基于所述组合概率进行数据统计,以得到概率预测表;
根据所述概率预测表计算所述噪声标签对应的噪声平均概率以及所述真实标签对应的真实平均概率;
根据所述噪声平均概率以及所述真实平均概率进行计算,以得到计数矩阵;
对所述计数矩阵进行加权标定,以得到目标矩阵;
基于所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布,以对所述文本序列数据中的噪声数据进行过滤。
可选的,在本申请一些可能的实现方式中,所述基于所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布,以对所述文本序列数据中的噪声数据进行过滤,包括:
获取所述目标矩阵对应的标注信息;
获取所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布信息;
基于所述标注信息和所述联合分布信息配置至少一个预设规则;
获取基于所述预设规则获取的样本集合;
提取所述样本集合的交集,以确定为所述文本序列数据中的噪声数据,并对所述噪声数据进行过滤。
可选的,在本申请一些可能的实现方式中,所述训练数据的处理方法应用于区块链设备,所述区块链设备为区块链中的节点。
本申请第二方面提供一种训练数据的处理装置,包括:
获取单元,用于获取文本序列数据,所述文本序列数据为目标任务的训练样本;
确定单元,用于确定文本序列数据对应的标注,以得到标签序列,标签序列基于噪声标签和真实标签标注所得;
预测单元,用于基于目标任务确定标签序列对应的预测信息;
处理单元,用于根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料,异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据;
所述处理单元,还用于基于目标语料包含的语料成分进行概率统计,以得到组合概率;
所述处理单元,还用于根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取所述标签序列中配置所述噪声标签的语料数据;
所述处理单元,具体用于基于所述预测信息中结果异常的语料数据确定误识信息,所述误识信息包括由所述噪声标签预测为所述真实标签或由所述真实标签预测为所述噪声标签;
所述处理单元,具体用于根据配置所述噪声标签的语料数据和所述误识信息确定噪声语料;
所述处理单元,具体用于根据所述噪声语料进行词频排序,以得到噪声序列;
所述处理单元,具体用于基于所述噪声序列进行语料提取,以得到所述目标语料。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取所述标签序列中配置所述噪声标签的文本数据;
所述处理单元,具体用于基于所述文本数据在预设噪声类型中进行遍历,以得到与所述文本数据匹配的词数据;
所述处理单元,具体用于将所述文本数据与所述词数据进行文本合并,以得到所述语料数据。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于确定所述目标语料包含的第一文本和第二文本;
所述处理单元,具体用于根据所述预测信息获取所述第一文本对应的第一概率信息;
所述处理单元,具体用于根据所述预测信息获取所述第二文本对应的第二概率信息;
所述处理单元,具体用于获取所述目标任务配置的权重调节系数;
所述处理单元,具体用于基于所述权重调节系数对所述第一概率信息和所述第二概率信息进行计算,以得到组合标签权重;
所述处理单元,具体用于对所述组合标签权重进行归一化处理,以得到所述组合概率。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于基于所述组合概率进行数据统计,以得到概率预测表;
所述处理单元,具体用于根据所述概率预测表计算所述噪声标签对应的噪声平均概率以及所述真实标签对应的真实平均概率;
所述处理单元,具体用于根据所述噪声平均概率以及所述真实平均概率进行计算,以得到计数矩阵;
所述处理单元,具体用于对所述计数矩阵进行加权标定,以得到目标矩阵;
所述处理单元,具体用于基于所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布,以对所述文本序列数据中的噪声数据进行过滤。
可选的,在本申请一些可能的实现方式中,所述处理单元,具体用于获取所述目标矩阵对应的标注信息;
所述处理单元,具体用于获取所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布信息;
所述处理单元,具体用于基于所述标注信息和所述联合分布信息配置至少一个预设规则;
所述处理单元,具体用于获取基于所述预设规则获取的样本集合;
所述处理单元,具体用于提取所述样本集合的交集,以确定为所述文本序列数据中的噪声数据,并对所述噪声数据进行过滤。
本申请第三方面提供一种计算机设备,包括:存储器、处理器以及总线系统;所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的训练数据的处理方法。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第一方面任一项所述的训练数据的处理方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的训练数据的处理方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过获取文本序列数据;然后确定文本序列数据对应的标注,以得到标签序列,标签序列基于噪声标签和真实标签标注所得;并基于目标任务确定标签序列对应的预测信息;进一步的根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料,该异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据;并基于目标语料包含的语料成分进行概率统计,以得到组合概率;进而根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。从而实现文本处理中文本序列数据中的噪声数据过滤过程,由于过滤清洗过程不依赖于具体的上游模型实现,且通过基于噪声标签所得目标语料进行统计,并基于目标语料进行针对性的过滤清洗,提高了数据标注质量,提高了训练数据处理的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为训练数据的处理系统运行的网络架构图;
图2为本申请实施例提供的一种训练数据的处理的流程架构图;
图3为本申请实施例提供的一种训练数据的处理方法的流程图;
图4为本申请实施例提供的一种训练数据的处理方法的场景示意图;
图5为本申请实施例提供的另一种训练数据的处理方法的场景示意图;
图6为本申请实施例提供的一种训练数据的处理装置的结构示意图;
图7为本申请实施例提供的一种终端设备的结构示意图;
图8为本申请实施例提供的一种服务器的结构示意图;
图9A为本申请实施例提供的一种数据共享系统;
图9B为本申请实施例提供的一种区块链的区块组成;
图9C为本申请实施例提供的一种区块链节点的输入信息。
具体实施方式
本申请实施例提供了一种训练数据的处理方法以及相关装置,可以应用于终端设备中包含训练数据的处理功能的系统或程序中,通过获取文本序列数据,该文本序列数据为目标任务的训练样本;然后确定文本序列数据对应的标注,以得到标签序列,该标签序列基于噪声标签和真实标签标注所得;并基于目标任务确定文本序列数据对应的预测信息;根据预测信息对标签序列中配置噪声标签的语料数据进行词频排序,以得到目标语料;进一步的基于目标语料包含的语料成分进行概率统计,以得到组合概率;进而根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。从而实现文本处理中文本序列数据中的噪声数据过滤过程,由于过滤清洗过程不依赖于具体的上游模型实现,且通过基于噪声标签所得目标语料进行统计,并基于目标语料进行针对性的过滤清洗,提高了数据标注质量,提高了训练数据处理的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中可能出现的一些名词进行解释。
置信学习(Confident Learning,CL):基于噪声数据剪枝的原理,通过计数估计噪声标签和真实标签之间的联合分布,输出噪声数据样本。
噪声数据:指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰。通常是由于数据标注标准不统一、数据自身歧义、标注人员知识背景不同、任务自身难度等因素导致的。
带噪数据:包含噪声数据和非噪声数据的样本集合。
序列标注(Sequence Labeling,SL):输入一个观测序列,通过序列标注模型,输出状态序列。如自然语言处理中的分词、词性标注、命名实体识别等。
应理解,本申请提供的训练数据的处理方法可以应用于终端设备中包含训练数据的处理功能的系统或程序中,例如语音识别,具体的,训练数据的处理系统可以运行于如图1所示的网络架构中,如图1所示,是训练数据的处理系统运行的网络架构图,如图可知,训练数据的处理系统可以提供与多个信息源的训练数据的处理过程,即通过终端侧的任务配置操作触发服务器进行相应模型的调用,并对模型对应的训练数据进行过滤;可以理解的是,图1中示出了多种终端设备,终端设备可以为计算机设备,在实际场景中可以有更多或更少种类的终端设备参与到训练数据的处理的过程中,具体数量和种类因实际场景而定,此处不做限定,另外,图1中示出了一个服务器,但在实际场景中,也可以有多个服务器的参与,特别是在多模型训练交互的场景中,具体服务器数量因实际场景而定。
本实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,终端以及服务器可以连接组成区块链网络,本申请在此不做限制。
可以理解的是,上述训练数据的处理系统可以运行于个人移动终端,例如:作为语音识别这样的应用,也可以运行于服务器,还可以作为运行于第三方设备以提供训练数据的处理,以得到信息源的训练数据的处理处理结果;具体的训练数据的处理系统可以是以一种程序的形式在上述设备中运行,也可以作为上述设备中的系统部件进行运行,还可以作为云端服务程序的一种,具体运作模式因实际场景而定,此处不做限定。
随着人工智能技术的发展,为了提高了模型识别的准确度,往往需要合适的样本进行模型训练,如何提高样本的质量成为难题。
一般,可以采用置信学习的方式进行样本过滤,即基于噪声数据剪枝的原理,通过分类模型对噪声数据类别进行识别并进行分类。
但是,通过分类模型对噪声数据类别进行识别的过程需要把噪声数据归为特定类别的数据再建模,该过程依赖于分类模型的准确度,在大规模样本的场景中,可能出现识别错误的情况,影响训练数据处理的准确性。
为了解决上述问题,本申请提出了一种训练数据的处理方法,该方法应用于图2所示的训练数据的处理的流程框架中,如图2所示,为本申请实施例提供的一种训练数据的处理的流程架构图,在终端进行自然语言处理中序列标注任务的配置,以使得服务器发起带噪数据的清洗。服务器首先基于词频排序获取目标语料;然后把序列标注任务转化为词_标签(token_tag)分类任务,以适配置信学习框架的噪声数据挑选流程;最后估计噪声标签和真实标签之间的联合分布,挑选出噪声数据并进行清洗,从而达到数据快速迭代优化的目的。
本实施例中应用于序列标注任务的带噪数据清洗,以提升目标任务的模型性能,可以适用于任意包含文本序列标注任务的项目产品中。具体地,本实施例可应用于语音识别文本后处理相关项目,已用于如语音识别后处理中的文本顺滑检测任务的模型优化,其他可适用的任务如语音识别后处理中的逆文本规整、文本标点等项目。顺滑检测任务计划上线的语音识别相关产品有语音笔记,及语音识别。
可以理解的是,本申请所提供的方法可以为一种程序的写入,以作为硬件系统中的一种处理逻辑,也可以作为一种训练数据的处理装置,采用集成或外接的方式实现上述处理逻辑。作为一种实现方式,该训练数据的处理装置通过获取文本序列数据;然后确定文本序列数据对应的标注,以得到标签序列,标签序列基于噪声标签和真实标签标注所得;并基于目标任务确定标签序列对应的预测信息;进一步的根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料,该异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据;并基于目标语料包含的语料成分进行概率统计,以得到组合概率;进而根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。从而实现文本处理中文本序列数据中的噪声数据过滤过程,由于过滤清洗过程不依赖于具体的上游模型实现,且通过基于噪声标签所得目标语料进行统计,并基于目标语料进行针对性的过滤清洗,提高了数据标注质量,提高了训练数据处理的准确性。
本申请实施例提供的方案涉及人工智能技术,具体通过如下实施例进行说明:
结合上述流程架构,下面将对本申请中训练数据的处理方法进行介绍,请参阅图3,图3为本申请实施例提供的一种训练数据的处理方法的流程图,该管理方法可以是由服务器或终端执行的,本申请实施例至少包括以下步骤:
301、获取文本序列数据。
本实施例中,文本序列数据为目标任务的训练样本,即本实施例为对于训练样本的优化过程;其中,目标任务为序列标注任务,例如文本顺滑检测任务,即本实施例可以是对文本顺滑检测任务进行噪声数据清洗。
具体的,对于文本顺滑检测任务,由于说话人的语言习惯,口语文本中会带有冗余词、指示词、重复词、语气词等,比如在口语中,常会出现一些指示词对上下文衔接,如代词指示词“这”、“那”、“这个”、“那个”、“就是”,语气指示词 “嗯”、“啊”、“呃”等。例如口语文本:“同学们,把书本…啊…翻到…第二十九页…啊”,正常书面语中无此用法,文本顺滑的目标是把口语中的冗余词删除,以提升识别文本的可读性、连续性,使识别文本更加书面化。目前中文文本顺滑任务还没有公开的数据集。文本顺滑数据是口语化的文本数据,标注人员的知识背景、标注规范的制定及数据本身都会影响标注结果,更容易在数据标注过程中引入噪声。
在一种可能的场景中,对于置信学习的过程是基于对样本进行分类的识别过程,具体如图4所示,图4为本申请实施例提供的一种训练数据的处理方法的场景示意图;图中示出了对于置信学习,首先构造模型Model(目标任务)结构并基于已标注数据完成模型参数θ训练,基于该模型获取带噪数据X(x, y~)预测的标签概率p^,然后通过计数估计噪声标签和真实标签之间的联合分布,即首先通过构建计数矩阵Cy ̃,y∗ ∈Z≥0 m×m 来捕获计数,其中Cy ̃,y∗ 的对角项为正确标签的计数,而非对角线则记录不对称的错误标签计数。然后通过对计数矩阵Cy ̃,y∗中的实例进行计数来估计概率分布矩阵Qˆy ̃,y∗,即使用Cy ̃,y∗每个类别中的噪声标签的实际计数|Xy ̃=i|来校准估计计数,然后进行归一化,进而使用Qˆy ̃,y∗估计标签错误的数量并通过对预测概率进行排序来对噪声数据样本进行裁剪清洗,输出清洗后的数据重新迭代训练模型。置信学习的流程、框架给出了针对分类任务特别是图片分类任务的带噪数据清洗流程方法和实现,而本实施例为置信学习对于序列标注任务进行噪声过滤的过程。
302、确定文本序列数据对应的标注,以得到标签序列。
本实施例中,标签序列基于噪声标签和真实标签标注所得;其中,噪声标签和真实标签的标注可以是人工标注所得,也可以是根据历史标注信息进行的自动标注过程,其中噪声标签可以是E,真实标签可以是O。
在一种可能的场景中,对于原句(文本序列数据):一个这样的一个一个环节;可以得到人工标注:一个/E 这样的 一个/E 一个环节;等价于标注(标签序列):一个这样的一个一个环节\t E E O O O E E O O O O。其中,“\t”表示分割符,也可用其它符号标记分割。
可以理解的是,上述文本序列数据经过对数据集的标注结果分析,顺滑的片段除了字之外,词、短语也很常见,并且在噪声数据中占比也较高,具体的噪声标签与真实标签的配置因实际场景而定。
303、基于目标任务确定标签序列对应的预测信息。
本实施例中,基于目标任务确定文本序列数据对应的预测信息即将文本序列数据输入目标任务进行识别。
在一种可能的场景中,目标任务为文本顺滑检测任务,即将文本序列数据输入顺滑检测的序列标注模型,输出序列的标签及概率,具体示例如表1所示。
表1文本序列数据的标签及概率
可以理解的是,通过将标注标签、预测概率以及预测标签进行统计并归类,便于后续目标语料的分析,提高语料识别的效率。
304、根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料。
本实施例中,通过对异常语料数据进行词频排序,得到最有可能作为噪声数据的语料,从而可以进行针对性的过滤;具体的,该异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据,即预测标签与标注标签不同的数据;另外,对于预测标签与标注标签均为噪声标签的情况,由于配置了噪声标签,也属于异常语料数据。
具体的,本申请置信学习的框架如图5所示,图5为本申请实施例提供的另一种训练数据的处理方法的场景示意图;即首先基于目标任务的预测信息进行词频排序获取目标token(目标语料);然后,把序列标注任务转化为token_tag(词_标签)分类任务,以适配置信学习框架的噪声数据挑选流程,其中,目标任务可以是一个模型(Model),例如文本顺滑任务模型,也可以是多个模型的组合,例如不同语言文本顺滑任务模型的组合;最后,估计噪声标签和真实标签之间的联合分布,挑选出噪声数据并进行清洗,从而达到数据快速迭代优化的目的。具体的,相较于图4所示的架构,本实施例新增了seq2tok虚线框,该步骤用于对语料进行词频排序,输出目标语料(Sort by Token Freq);然后基于目标词构造组合概率(Construct Token Probs)。进一步的对于置信学习对应的Confident Learning虚线框,其执行步骤包括首先进行置信阈值t计算(Confident threshold t);然后计算计数矩阵 (Confident Joint)进一步的计算加权计数矩阵 ;进而计算噪声标签和真实标签的联合分布概率矩阵(Estimate of Joint,);从而适配裁剪策略进行噪声裁剪(Prune),以实现对于文本序列数据的置信学习过程。
相较于图4所示的置信学习框架,本实施例提到的噪声是错误的标注,目标是剔除或者修正这些数据以提高数据标注质量,而不是把它定义为一个特定的类别。另一方面本实施例无需关注下游的去噪流程,即本实施例无需不依赖于模型的结果,另一方面比可避免地需要人工对比检查、分析。另外,图4所示的置信学习框架中对于K折交叉验证的方法,每个模型的结果都需要人工去分析,而且不同模型的性能波动也会影响验证集的效果,对于K个模型的结果分析对比,其耗时也是非常大的。
进一步的,本实施例中将任务匹配粒度进行了扩展,置信学习是专门用于数据去噪的框架,其框架适用于常规的分类任务如图片分类、文本分类的数据去噪。如果直接基于字分类进行建模去噪,也是可行的,但是基于字会破坏词或者短语的完整性,在实际的序列标注任务中不能带来帮助,本实施例可适配字、词、短语级别的分类如本实施例中提到的序列标注任务的数据去噪。即本实施例提出的方法是基于置信学习在分类任务上数据去噪的进一步扩展,着重于解决文本处理中序列标注任务中的噪声数据的挑选、清洗问题,提高数据自身的标注质量,从而提高模型性能,为下游任务更好支撑。
下面,结合图5所示的架构对于目标语料的确定过程进行说明,即首先获取标签序列中配置噪声标签的语料数据,即标记为E的数据,也包括了标注为E模型预测为E的数据;然后基于预测信息中结果异常的语料数据确定误识信息,该误识信息包括由噪声标签预测为真实标签或由真实标签预测为噪声标签,即标注为E预测为O、标注为O模型预测为E的数据;进一步的根据配置噪声标签的语料数据和误识信息确定噪声语料;并根据噪声语料进行词频排序,以得到噪声序列;进而基于噪声序列进行语料提取,以得到目标语料。例如基于标签序列中配置噪声标签的语料数据,对连续的E字,包括标注为E模型预测为E、标注为E预测为O、标注为O模型预测为E的字合并成词或者短语,进行计数并排序,输出误识别次数较多的词或者短语topk token(排序靠前的语料),比如top20的token有:一个、我、是、你、这个、我们、的、在、他、有、这、就、然后、一些、去、对、那么、也、要、这种等。
可以理解的是,噪声语料的确定过程中可以不包含标注O模型预测O的字、词,这是考虑到真实标签之间具有关联性,无需从语义角度进行筛除,从而提高语料提取的效率。
在一种可能场景中,目标语料可以是字、词或短语,具体的语料配置可以是预设的语料类型,即对于获取标签序列中配置噪声标签的语料数据的过程可以首先获取标签序列中配置噪声标签的文本数据;然后基于文本数据在预设噪声类型(例如指定的字、词或短语等)中进行遍历,以得到与文本数据匹配的词数据;进而将文本数据与词数据进行文本合并,以得到语料数据。从而提高目标语料提取的针对性。
305、基于目标语料包含的语料成分进行概率统计,以得到组合概率。
本实施例中,将结合文本顺滑序列标注任务的组合概率计算过程进行说明,具体的目标任务因实际场景而定。
具体的对于组合概率,是为了适配置信学习框架的噪声数据挑选流程对于基于顺滑标注标签及词汇自身构造token_tag概率列表的过程,由于每个字对应m=2个标签,k字长的词的标签组合有 个,不同字长对应的概率构造方法如下:其中对于目标语料为字的场景,例如单字 “的”,则直接输出标签及对应的概率作为置信学习的概率输入。
表2字粒度的组合概率
另外,对于目标语料包含双字或多字的场景,则首先确定目标语料包含的第一文本(字或词)和第二文本(字或词);然后根据预测信息获取第一文本对应的第一概率信息;并根据预测信息获取第二文本对应的第二概率信息;进一步的获取目标任务配置的权重调节系数;然后基于权重调节系数对第一概率信息和第二概率信息进行计算,以得到组合标签权重;进而对组合标签权重进行归一化处理,以得到组合概率。
在一种可能的场景中,目标语料为双字:如“一个”,其预测标签及概率为=(0.798, 0.878),而对于其中第一文本“一”,第二文本“个”,可以得到对应的标签, =(0.202, 0.878),=(0.798, 0.122), =(0.202, 0.122)。
进一步的,计算置信学习的概率输入权重(权重调节系数w=5):
可以得到各标签权重:
可以理解的是,组合概率P的计算可以采用均值或者其他加权的方法得到,具体方式因实际场景而定。
另外,对于权重调节系数的设定可以以具体的任务进行设定,此处不作限定。
通过对“一个”相关概率信息的收集以及整理,可以得到如表3所示的词粒度的组合概率。
可以理解的是,此处以两个字的词为词粒度进行说明,具体的词语组成因实际场景而定。
表3词粒度的组合概率
通过上述多字的概率计算过程,并进行多次预测的过程,即可以得到topk token“一个”的对应样例列表如下表4所示,具体的预测次数因实际场景而定。
表4多字的概率样例列表
其中,token为目标词,tag’为原始标签tag转换后对应的组合标签,0(OO)、1(OE)、2(EO)、3(EE)为转换后的索引及原标签。
可以理解的是,其他多字的概率计算过程如上,此处不作限定。
306、根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。
本实施例中,即将步骤305中所得的组合概率进行置信学习的计算,其中,噪声数据可以是样本,也可以是输入数据,具体的数据形式因实际场景而定。
可以理解的是,噪声数据即为训练样本中的冗余词、指示词、重复词、语气词等,即将噪声数据去除后,可以提升训练数据的数据质量,从而提升后续识别文本的可读性、连续性,使识别文本更加书面化。另外,噪声数据可以是配置了噪声标签的数据,也可以是未配置噪声标签的数据,即噪声标签为人工标注的标签,而噪声数据是通过对标注后的语料进行词频排序,并进一步的计算联合分布后进行筛选所得的数据,噪声数据相较于标注的噪声标签更加符合提升训练数据的数据质量的目的。
具体的,对于联合分布的计算过程,首先基于组合概率进行数据统计,以得到概率预测表;如表5所示,“的”对应的两个标签类别计10个样本的模型预测概率分布。
表5两个标签类别的模型预测概率分布
在得到组合概率的统计分布后,根据概率预测表计算噪声标签对应的噪声平均概率以及真实标签对应的真实平均概率;即计算各标签下的平均概率t[j],具体的:
t[0]=(0.9+0.9+0.5+0.3+0.3)/5=0.58
t[1]=(0.9+0.8+0.7+0.5+0.4)/5=0.66
可以理解的是,置信概率t的计算可以采用中值或者其他统计方法算得,此处不作限定。另外,j类别的平均概率t[j]作为置信度阈值,对于样本i,其预测标签y^为argmaxjp[i][j],其真实标签y*为argmaxjp[i][j]且p[i][j]>t[j],y*也可表示为潜在的未损坏标签。
其中,定义样本总数n,类别总数m, y~表示噪声标签或人工标签,y*表示真实标签,即y~表示标注数据,可能是噪声数据的样本也可能是无噪声数据的样本;y*表示真实数据、无噪声数据,无法真实直接获取,可通过交叉验证对真实标签估计。
表6计数矩阵的计算
其中,Cy~=0,y*=1表示人工标注为0、标记为1的样本2个。
然后对计数矩阵进行加权标定,以得到目标矩阵;具体如表7所示标定计数矩阵加权。
表7加权计数矩阵的计算
其中,加权计算的公式如下:
进而基于目标矩阵预测噪声标签以及真实标签的联合分布,以对文本序列数据中的噪声数据进行过滤。
具体的,估计噪声标签y~和真实标签y*的联合分布对应的参数Qy~,y*如表8所示。
表8噪声标签与真实标签的联合分布
其中,噪声标签与真实标签的联合分布的计算公式如下:
其中,y~表示噪声标签,y*表示真实标签。
可以理解的是,对于噪声数据的确定可以是基于联合分布及置信概率阈值等对样本进行过滤,即获取目标矩阵对应的标注信息;然后获取目标矩阵预测噪声标签以及真实标签的联合分布信息;然后基于标注信息和联合分布信息配置至少一个预设规则;并获取基于预设规则获取的样本集合;金额提取样本集合的交集,以确定为文本序列数据中的噪声数据,并对噪声数据进行过滤。具体的,预设规则可以包括:
1、Cconfusion选取y~≠argmaxj∈1,mp[i][j]的样本进行过滤,即选取概率最大的下标与人工标签不一致的样本。如例子中的i=2,3,4,8,9计5个样本。
2、Cy~,y*选取构造计数矩阵过程中进入非对角单元的样本进行过滤。如例子中的i=3,4,9计3个样本。
3、prune by class,对于人工标记的每个类别,选取k个样本进行过滤,并按照概率排序,如例中类别0,选取10*0.25≈3个样本,选取概率较小的i=2,3,4三个样本,对于类别1,选取10*0.125≈1个样本,选取概率较小的i=9一个样本,共过滤i=2,3,4,9计4个样本。
4、prune by noise rate,对于计数矩阵Cy~,y*的非对角单元,选取n* Qy~,y*个样本过滤,并按照最大间隔py~=j -py~=i排序,如例中对于非对角单元Cy~=0,y*=1,选取i=2,3,4过滤,Cy~=1,y*=0选取i=9过滤,共过滤i=2,3,4,9计4个样本。
可以理解的是,对于上述策略的组合,选取交集过滤,具体的组合形式可以是其中的一种或多种,此处不作限定。
本实施例中,不同于分类问题中的置信学习去噪,利用本实施例方法可以对序列标注任务中的带噪目标词进行过滤清洗,其不依赖于具体的上游模型具体实现,只要给出token_tag的模型预测概率即可。另外,由于数据是人工智能应用的基础。基于本实施例的方法可以把多字token的概率列表转化为token的概率,并基于置信学习的基本步骤估计噪声标签和真实标签的联合分布,发现潜在的噪声数据。从而有利于目标任务数据集快速清洗、迭代,提高数据集标注质量和模型效果,进而提高产品竞争力。
结合上述实施例可知,通过获取文本序列数据;然后确定文本序列数据对应的标注,以得到标签序列,标签序列基于噪声标签和真实标签标注所得;并基于目标任务确定标签序列对应的预测信息;进一步的根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料,该异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据;并基于目标语料包含的语料成分进行概率统计,以得到组合概率;进而根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。从而实现文本处理中文本序列数据中的噪声数据过滤过程,由于过滤清洗过程不依赖于具体的上游模型实现,且通过基于噪声标签所得目标语料进行统计,并基于目标语料进行针对性的过滤清洗,提高了数据标注质量,提高了训练数据处理的准确性。
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参阅图6,图6为本申请实施例提供的一种训练数据的处理装置的结构示意图,训练数据的处理装置600包括:
获取单元601,用于获取文本序列数据,所述文本序列数据为目标任务的训练样本;
确定单元602,用于确定文本序列数据对应的标注,以得到标签序列,标签序列基于噪声标签和真实标签标注所得;
预测单元603,用于基于目标任务确定标签序列对应的预测信息;
处理单元604,用于根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料,异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据;
所述处理单元604,还用于基于目标语料包含的语料成分进行概率统计,以得到组合概率;
所述处理单元604,还用于根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。
可选的,在本申请一些可能的实现方式中,所述处理单元604,具体用于获取所述标签序列中配置所述噪声标签的语料数据;
所述处理单元604,具体用于基于所述预测信息中结果异常的语料数据确定误识信息,所述误识信息包括由所述噪声标签预测为所述真实标签或由所述真实标签预测为所述噪声标签;
所述处理单元604,具体用于根据配置所述噪声标签的语料数据和所述误识信息确定噪声语料;
所述处理单元604,具体用于根据所述噪声语料进行词频排序,以得到噪声序列;
所述处理单元604,具体用于基于所述噪声序列进行语料提取,以得到所述目标语料。
可选的,在本申请一些可能的实现方式中,所述处理单元604,具体用于获取所述标签序列中配置所述噪声标签的文本数据;
所述处理单元604,具体用于基于所述文本数据在预设噪声类型中进行遍历,以得到与所述文本数据匹配的词数据;
所述处理单元604,具体用于将所述文本数据与所述词数据进行文本合并,以得到所述语料数据。
可选的,在本申请一些可能的实现方式中,所述处理单元604,具体用于确定所述目标语料包含的第一文本和第二文本;
所述处理单元604,具体用于根据所述预测信息获取所述第一文本对应的第一概率信息;
所述处理单元604,具体用于根据所述预测信息获取所述第二文本对应的第二概率信息;
所述处理单元604,具体用于获取所述目标任务配置的权重调节系数;
所述处理单元604,具体用于基于所述权重调节系数对所述第一概率信息和所述第二概率信息进行计算,以得到组合标签权重;
所述处理单元604,具体用于对所述组合标签权重进行归一化处理,以得到所述组合概率。
可选的,在本申请一些可能的实现方式中,所述处理单元604,具体用于基于所述组合概率进行数据统计,以得到概率预测表;
所述处理单元604,具体用于根据所述概率预测表计算所述噪声标签对应的噪声平均概率以及所述真实标签对应的真实平均概率;
所述处理单元604,具体用于根据所述噪声平均概率以及所述真实平均概率进行计算,以得到计数矩阵;
所述处理单元604,具体用于对所述计数矩阵进行加权标定,以得到目标矩阵;
所述处理单元604,具体用于基于所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布,以对所述文本序列数据中的噪声数据进行过滤。
可选的,在本申请一些可能的实现方式中,所述处理单元604,具体用于获取所述目标矩阵对应的标注信息;
所述处理单元604,具体用于获取所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布信息;
所述处理单元604,具体用于基于所述标注信息和所述联合分布信息配置至少一个预设规则;
所述处理单元604,具体用于获取基于所述预设规则获取的样本集合;
所述处理单元604,具体用于提取所述样本集合的交集,以确定为所述文本序列数据中的噪声数据,并对所述噪声数据进行过滤。
通过获取文本序列数据;然后确定文本序列数据对应的标注,以得到标签序列,标签序列基于噪声标签和真实标签标注所得;并基于目标任务确定标签序列对应的预测信息;进一步的根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料,该异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据;并基于目标语料包含的语料成分进行概率统计,以得到组合概率;进而根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。从而实现文本处理中文本序列数据中的噪声数据过滤过程,由于过滤清洗过程不依赖于具体的上游模型实现,且通过基于噪声标签所得目标语料进行统计,并基于目标语料进行针对性的过滤清洗,提高了数据标注质量,提高了训练数据处理的准确性。
本申请实施例还提供了一种终端设备,如图7所示,是本申请实施例提供的另一种终端设备的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图7示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图7,手机包括:射频(radio frequency,RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity,WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图7对手机的各个构成部件进行具体的介绍:
RF电路710可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器780处理;另外,将设计上行的数据发送给基站。通常,RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access, WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元730可包括触控面板731以及其他输入设备732。触控面板731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作,以及在触控面板731上一定范围内的隔空触控操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器780,并能接收处理器780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732。具体地,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741,可选的,可以采用液晶显示器(liquid crystaldisplay,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板741。进一步的,触控面板731可覆盖显示面板741,当触控面板731检测到在其上或附近的触摸操作后,传送给处理器780以确定触摸事件的类型,随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中,触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器750,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板741的亮度,接近传感器可在手机移动到耳边时,关闭显示面板741和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路760、扬声器761,传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号,传输到扬声器761,由扬声器761转换为声音信号输出;另一方面,传声器762将收集的声音信号转换为电信号,由音频电路760接收后转换为音频数据,再将音频数据输出处理器780处理后,经RF电路710以发送给比如另一手机,或者将音频数据输出至存储器720以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块770,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据,从而对手机进行整体管理。可选的,处理器780可包括一个或多个处理单元;可选的,处理器780可集成应用处理器和调制解调处理器。
其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。
手机还包括给各个部件供电的电源790(比如电池),可选的,电源可以通过电源管理系统与处理器780逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器780还具有执行如上述页面处理方法的各个步骤的功能。
本申请实施例还提供了一种服务器,请参阅图8,图8是本申请实施例提供的一种服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由管理装置所执行的步骤可以基于该图8所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有训练数据的处理指令,当其在计算机上运行时,使得计算机执行如前述图3至图5所示实施例描述的方法中训练数据的处理装置所执行的步骤。
本申请实施例中还提供一种包括训练数据的处理指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图3至图5所示实施例描述的方法中训练数据的处理装置所执行的步骤。
本申请实施例还提供了一种训练数据的处理系统,所述训练数据的处理系统可以包含图6所描述实施例中的训练数据的处理装置,或图7所描述实施例中的终端设备,或者图8所描述的服务器。
在一种可能的场景中,本申请中的网络资源管理的方法应用于区块链设备中,即权威DNS、LDNS或终端为区块链设备,且该区块链设备为区块链中的节点,下面结合附图进行说明;参见图9A所示的数据共享系统,数据共享系统900是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点901,多个节点901可以是指数据共享系统中各个客户端。每个节点901在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。
其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,具体的,表9中仅以IP地址为例进行说明。
表9节点名称与节点标识的对应关系
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图9B,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图9C,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练数据的处理装置,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种训练数据的处理方法,其特征在于,包括:
获取文本序列数据,所述文本序列数据为目标任务的训练样本;
确定所述文本序列数据对应的标注,以得到标签序列,所述标签序列基于噪声标签和真实标签标注所得;
基于所述目标任务确定所述标签序列对应的预测信息;
根据所述预测信息对所述标签序列中的异常语料数据进行词频排序,以得到目标语料,所述异常语料数据用于指示配置所述噪声标签的语料数据和所述预测信息中结果异常的语料数据;
基于所述目标语料包含的语料成分进行概率统计,以得到组合概率;
根据所述组合概率预测所述噪声标签和所述真实标签之间的联合分布,以对所述文本序列数据中的噪声数据进行过滤。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预测信息对所述标签序列中的异常语料数据进行词频排序,以得到目标语料,包括:
获取所述标签序列中配置所述噪声标签的语料数据;
基于所述预测信息中结果异常的语料数据确定误识信息,所述误识信息包括由所述噪声标签预测为所述真实标签或由所述真实标签预测为所述噪声标签;
根据配置所述噪声标签的语料数据和所述误识信息确定噪声语料;
根据所述噪声语料进行词频排序,以得到噪声序列;
基于所述噪声序列进行语料提取,以得到所述目标语料。
3.根据权利要求2所述的方法,其特征在于,所述获取所述标签序列中配置所述噪声标签的所述语料数据,包括:
获取所述标签序列中配置所述噪声标签的文本数据;
基于所述文本数据在预设噪声类型中进行遍历,以得到与所述文本数据匹配的词数据;
将所述文本数据与所述词数据进行文本合并,以得到所述语料数据。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标语料包含的语料成分进行概率统计,以得到组合概率,包括:
确定所述目标语料包含的第一文本和第二文本;
根据所述预测信息获取所述第一文本对应的第一概率信息;
根据所述预测信息获取所述第二文本对应的第二概率信息;
获取所述目标任务配置的权重调节系数;
基于所述权重调节系数对所述第一概率信息和所述第二概率信息进行计算,以得到组合标签权重;
对所述组合标签权重进行归一化处理,以得到所述组合概率。
5.根据权利要求1所述的方法,其特征在于,所述根据所述组合概率预测所述噪声标签和所述真实标签之间的联合分布,以对所述文本序列数据中的噪声数据进行过滤,包括:
基于所述组合概率进行数据统计,以得到概率预测表;
根据所述概率预测表计算所述噪声标签对应的噪声平均概率以及所述真实标签对应的真实平均概率;
根据所述噪声平均概率以及所述真实平均概率进行计算,以得到计数矩阵;
对所述计数矩阵进行加权标定,以得到目标矩阵;
基于所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布,以对所述文本序列数据中的噪声数据进行过滤。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布,以对所述文本序列数据中的噪声数据进行过滤,包括:
获取所述目标矩阵对应的标注信息;
获取所述目标矩阵预测所述噪声标签以及所述真实标签的联合分布信息;
基于所述标注信息和所述联合分布信息配置至少一个预设规则;
获取基于所述预设规则获取的样本集合;
提取所述样本集合的交集,以确定为所述文本序列数据中的噪声数据,并对所述噪声数据进行过滤。
7.根据权利要求1所述的方法,其特征在于,所述训练数据的处理方法应用于区块链设备,所述区块链设备为区块链中的节点。
8.一种训练数据的处理装置,其特征在于,包括:
获取单元,用于获取文本序列数据,所述文本序列数据为目标任务的训练样本;
确定单元,用于确定文本序列数据对应的标注,以得到标签序列,标签序列基于噪声标签和真实标签标注所得;
预测单元,用于基于目标任务确定标签序列对应的预测信息;
处理单元,用于根据预测信息对标签序列中的异常语料数据进行词频排序,以得到目标语料,异常语料数据用于指示配置噪声标签的语料数据和预测信息中结果异常的语料数据;
所述处理单元,还用于基于目标语料包含的语料成分进行概率统计,以得到组合概率;
所述处理单元,还用于根据组合概率预测噪声标签和真实标签之间的联合分布,以对文本序列数据中的噪声数据进行过滤。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的训练数据的处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行权利要求1-7任一项所述的训练数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210110695.3A CN114117056B (zh) | 2022-01-29 | 2022-01-29 | 一种训练数据的处理方法、装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210110695.3A CN114117056B (zh) | 2022-01-29 | 2022-01-29 | 一种训练数据的处理方法、装置以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114117056A CN114117056A (zh) | 2022-03-01 |
CN114117056B true CN114117056B (zh) | 2022-04-08 |
Family
ID=80361759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210110695.3A Active CN114117056B (zh) | 2022-01-29 | 2022-01-29 | 一种训练数据的处理方法、装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117056B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741048A (zh) * | 2022-05-20 | 2022-07-12 | 中译语通科技股份有限公司 | 一种样本排序方法、装置、计算机设备及可读存储介质 |
CN115905547B (zh) * | 2023-02-10 | 2023-11-14 | 中国航空综合技术研究所 | 基于置信学习的航空领域文本分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694946A (zh) * | 2020-05-27 | 2020-09-22 | 平安银行股份有限公司 | 文本关键词可视化显示方法、装置及计算机设备 |
CN112214989A (zh) * | 2020-10-19 | 2021-01-12 | 扬州大学 | 一种基于bert的汉语句子简化方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11488055B2 (en) * | 2018-07-26 | 2022-11-01 | International Business Machines Corporation | Training corpus refinement and incremental updating |
CN110941964B (zh) * | 2019-12-11 | 2023-08-15 | 北京小米移动软件有限公司 | 双语语料筛选方法、装置及存储介质 |
US11551084B2 (en) * | 2019-12-20 | 2023-01-10 | Robert Bosch Gmbh | System and method of robust active learning method using noisy labels and domain adaptation |
CN111966823B (zh) * | 2020-07-02 | 2022-04-22 | 华南理工大学 | 一种面向标签噪声的图节点分类方法 |
CN111814883A (zh) * | 2020-07-10 | 2020-10-23 | 重庆大学 | 一种基于异质集成的标签噪声纠正方法 |
CN113378178B (zh) * | 2021-06-21 | 2023-08-22 | 大连海事大学 | 一种基于深度学习的图自信学习软件漏洞检测方法 |
CN113315789B (zh) * | 2021-07-29 | 2021-10-15 | 中南大学 | 一种基于多级联合网络的Web攻击检测方法及系统 |
CN113515639B (zh) * | 2021-09-14 | 2021-12-17 | 华东交通大学 | 基于置信学习与标签平滑的噪声数据处理方法与系统 |
-
2022
- 2022-01-29 CN CN202210110695.3A patent/CN114117056B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694946A (zh) * | 2020-05-27 | 2020-09-22 | 平安银行股份有限公司 | 文本关键词可视化显示方法、装置及计算机设备 |
CN112214989A (zh) * | 2020-10-19 | 2021-01-12 | 扬州大学 | 一种基于bert的汉语句子简化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114117056A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145303B (zh) | 命名实体识别方法、装置、介质以及设备 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN114117056B (zh) | 一种训练数据的处理方法、装置以及存储介质 | |
JP2019536119A (ja) | ユーザ興味の識別方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
CN104217717A (zh) | 构建语言模型的方法及装置 | |
CN108875781A (zh) | 一种标签分类方法、装置、电子设备及存储介质 | |
CN111177371B (zh) | 一种分类方法和相关装置 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN108108455B (zh) | 目的地的推送方法、装置、存储介质及电子设备 | |
CN105005563B (zh) | 一种摘要生成方法及装置 | |
WO2019062418A1 (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN109033156B (zh) | 一种信息处理方法、装置及终端 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN111813532A (zh) | 一种基于多任务机器学习模型的图像管理方法及装置 | |
CN111914113A (zh) | 一种图像检索的方法以及相关装置 | |
CN110704661A (zh) | 一种图像分类方法和装置 | |
CN108427761B (zh) | 一种新闻事件处理的方法、终端、服务器及存储介质 | |
CN112862021B (zh) | 一种内容标注方法和相关装置 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN113919361A (zh) | 一种文本分类方法和装置 | |
CN111385659B (zh) | 一种视频推荐方法、装置、设备及存储介质 | |
CN112948763B (zh) | 件量预测方法、装置、电子设备及存储介质 | |
CN112232048A (zh) | 一种基于神经网络的表格处理方法以及相关装置 | |
CN112329462A (zh) | 一种数据排序方法、装置、电子设备及存储介质 | |
CN111062198A (zh) | 一种基于大数据的企业类别分析方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |