CN114372469A - 实体样本的抽取方法、系统及存储介质 - Google Patents
实体样本的抽取方法、系统及存储介质 Download PDFInfo
- Publication number
- CN114372469A CN114372469A CN202210042292.XA CN202210042292A CN114372469A CN 114372469 A CN114372469 A CN 114372469A CN 202210042292 A CN202210042292 A CN 202210042292A CN 114372469 A CN114372469 A CN 114372469A
- Authority
- CN
- China
- Prior art keywords
- label
- data
- confidence
- category
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能,提供一种实体抽取样本的数据增强方法,通过聚类的方法对现有的大批量人工标注进行有效性判断,对置信度与簇中心相差较大的样本进行剔除,保证用于模型训练数据的高质量。同时被剔除的样本通过与存量样本进行相似度比对判定,进而对相似度高的样本进行召回,生成了有限的标注标签集合,完成了硬性匹配过滤,保证标注数据质检的有序进行;实现了大量减少人力投入,适用于大量数据集的NER实体识别场景的技术效果。
Description
技术领域
本发明涉及人工智能技术领域,涉及一种实体样本的抽取方法、系统、电子设备及计算机可读存储介质。
背景技术
在实体样本识别过程中,通常需要通过利用实体样本的标注标签完成样本抽取。在实际生产中,现有的利用实体样本的标注标签完成样本抽取的方法存在的弊端如下:1)标注标签数据存在量大且有效性比例较低的问题,导致样本抽取存在大量重复性劳动;2)无法生成标注标签集合,导致标注数据的质检无法进行,且无法直接通过硬性匹配进行过滤,导致实体识别模型的鲁棒性及泛化性变差;3)若通过增加人工复核环节进行质检,则不仅增加人力成本,而且不适用于大量数据集的NER(Named-entity recognition)实体识别任务场景。
因此,亟需一种成本低且效率高的实体样本的抽取方法。
发明内容
本发明提供一种实体样本的抽取方法、系统、电子设备及计算机可读存储介质,用于解决现有技术中大批量实体抽样样本的效率低的问题。
为实现上述目的,一种实体样本的抽取方法,方法包括:
对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据;
将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;
对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;
利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注;
将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
进一步,优选的,利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,筛选符合预设标准的标签数据作为高置信度标注的方法,包括:
将所述标签类别的一个主要特征作为一个簇类;
获取每一个簇类中的标签数据与所对应的主要特征间的距离并形成距离集合;并,利用所述距离集合确定距离异常阈值;
筛选与对应的主要特征间的距离小于所述距离异常阈值的标签数据作为高置信度标注。
进一步,优选的,筛选与对应的主要特征间的距离大于距离异常阈值的标签数据作为低置信度标注。
进一步,优选的,对各标签类别的所述低置信度标注集合中的标签数据进行筛选,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池;将筛选后的低置信度标注集合中的标签数据生成异常标签池。
进一步,优选的,获取每一个簇类中的标签数据与所对应的主要特征间的距离的方法,包括:通过计算每一个实体标签的向量在主成分上的投影距离,获得每一个簇类中的标签数据与所对应的主要特征间的距离。
进一步,优选的,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池的方法包括:
对各标签类别的所述低置信度标注集合中的标签数据分别进行基于cosine值的语义相似度计算和字符相似度计算;其中,利用基于cosine值的语义相似度计算获得cosine向量值,利用字符相似度计算获得字符相似度值;
针对语义相似度及字符相似度分别设置50%的权重,利用cosine向量值和字符相似度值加权得到整体的相似度;
筛选整体相似度值大于相似度阈值的标签数据;
则,将所述标签数据归入高置信度标签池。
进一步,优选的,将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵的方法,包括:
将所获取的全量标签数据按照标签类别分别进行分词;
获取所述分词后的全量数据标签中包含的字符,并将所述字符构成文字集合;
对所述文字集合在词句段篇等维度分别进行独热编码,并进行padding操作,以在词句段篇四个级别上分别构造对应的矩阵,获得词矩阵、句矩阵、段矩阵以及篇矩阵。
为了解决上述问题,本发明还提供一种实体样本的抽取系统,所述系统包括:
全量数据标签获取单元,用于对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据;
标签矩阵获取单元,用于将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;
主要特征获取单元,用于对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;
高置信度标签池获取单元,用于利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注;将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的实体样本的抽取方法中的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的实体样本的抽取方法。
本发明的一种实体样本的抽取方法、系统、电子设备以及存储介质,通过对实体样本的标签数据进行分类,按照标签类别获取实体样本标注的全量标签数据;将所获取的全量标签数据按照所分的标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注,将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。具有有益效果如下:
通过聚类的方法对现有的大批量人工标注进行有效性判断,对置信度与簇中心相差较大的样本进行剔除,保证用于模型训练数据的高质量。同时被剔除的样本通过与存量样本进行相似度比对判定该样本是需要人工复核,还是可以参考高置信度样本进行修改,进而对相似度高的样本进行召回,生成了有限的标注标签集合,完成了硬性匹配过滤,保证标注数据质检的有序进行;实现了大量减少人力投入,提升实体识别模型的鲁棒性及泛化性;适用于大量数据集的NER实体识别场景的技术效果。
附图说明
图1为本发明一实施例提供的实体样本的抽取方法的流程示意图;
图2为本发明一实施例提供的实体样本的抽取系统的模块示意图;
图3为本发明一实施例提供的实现实体样本的抽取方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明的实体样本的抽取方法应用于大批量实体的人工标注的质量筛选环节。
参照图1所示,为本发明一实施例提供的实体样本的抽取方法的流程示意图。该方法可以由一个系统执行,该系统可以由软件和/或硬件实现。
在本实施例中,实体样本的抽取方法包括S110~S150:
S110、对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据。
需要说明的是,本实施例的实体标注的获取方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地,执行主体可包括工作站、服务器、计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。其中,标签类别按照实际的应用场景设置,如果在智慧医疗的应用场景中实体样本可以为在服务端进行展示的可以为自然语言文本,也可以为电子化的医疗记录;所述自然语言文本为医疗文本,所述医疗文本可以是医疗电子记录(Electronic Healthcare Record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录;而标签类别可以为症状、病史、发病频率等。
S120、将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵。
需要说明的是,对全量标签数据进行分词、编码预处理是针对每类标签的标注内容进行的。对于分词可以但不限制为采用jieba分词系统;对于编码预处理的具体实施方式并不做具体限定,可以采用OneHot编码,也可以采用预训练模型得到。对于预训练模型的实现方式,在此不做具体的限定,预训练模型可以但不限制为word2vec、ELMo、OpenAI GPT、BERT等预训练模型。具体地说,首先对所获取的全量标签数据的文本数据进行中文分词,然后对文本进行清洗以去除冗余信息,清洗包括去停用词以及去特殊符号的处理。在具体的实施过程中,还可以包括对词语出现频率的统计,然后根据频率进行再次清洗。具体地说,为了提升整体的处理效率,是将出现频率极端低的词语进行去除;因为罕见词无法表现文本的共性。
在一个具体的实施例中,将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵的方法,包括:S121、将所获取的全量标签数据按照标签类别分别进行分词;S122、获取所述分词后的全量数据标签中包含的字符,并将所述字符构成文字集合;S123、对所述文字集合在词句段篇等维度分别进行独热编码,并进行padding操作,以在词句段篇四个级别上分别构造对应的矩阵,获得词矩阵、句矩阵、段矩阵以及篇矩阵。也就是说,编码预处理可以但不限制为独热编码。其中,当编码预处理过程为独热编码时,进行独热编码并获得独热矩阵,其中,独热矩阵的行列数量都是不重复表示的数量,矩阵的值初始化为0;每一行中对应该级别标识序列位置的值设置为1。进行padding操作形成独热矩阵;其中,padding操作为用padding_value填充一系列可变长度的tensor,使其填充到等长。
S130、对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征。
利用主成分分析(Principal Component Analysis,PCA)算法对所述标签矩阵进行计算,获得该簇的第一主成分。也就是说,通过PCA算法实现,利用PCA识别出的第一组向量作为该簇的主成分,即可以最好描述该簇最主要特征的向量。从一组特征中计算出一组按照重要性的大小从大到小依次排列的新特征,它们是原有特征的线性组合,并且新特征之间不相关,计算出原有特征在新特征上的映射值即为新的降维后的样本。也就是说PCA的目标是用一组正交向量来对原特征进行变换得到新特征,新特征是原有特征的线性组合。通过主成分分析算法将已有的特征转换成一个或者两个新特征,通过降低特征空间的维度,使后续的分类器设计在计算上更容易实现。并且可以消除原有特征之间的关联度,减少数据信息的冗余,更有利于分类。
在具体的实施过程中,通过主成分分析算法对标签矩阵进行直接抽取,获取第一主成分,作为该簇的最主要特征。也可以对标签矩阵进行抽取第一主成分以及第二主成分作为每一簇的最主要特征。
S140、利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注。并且,对每一簇中的距离主成分距离较远的样本进行剔除。
进一步,优选的,利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,筛选符合预设标准的标签数据作为高置信度标注的方法,包括:S141、将所述标签类别的一个主要特征作为一个簇类;S142、获取每一个簇类中的标签数据与所对应的主要特征间的距离并形成距离集合;并,利用所述距离集合确定距离异常阈值;S143、筛选与对应的主要特征间的距离小于所述距离异常阈值的标签数据作为高置信度标注。
其中,每一个簇类中的实体标注与所对应的主要特征间的距离的具体的实现步骤为:通过计算每一个实体标签的向量在主成分上的投影距离,即每一个簇类中的实体标签与所对应的主要特征间的距离。获取主要特征和实体标签间的距离,是主成分分析过程中,常用的技术手段。
其中,所述距离异常阈值为根据每一个簇类中的每一个标注实体与主要特征间的距离的平均值及标准差获得的。具体的说,针对每一个簇类中的每一个标注实体,计算其与主成分的距离,则可以得出一组距离的集合。针对该集合可以计算出距离的平均值及标准差。对该簇的距离集合计算该集合的平均值及标准差,通过统计学上对异常值的定义,即为超出均值三倍标准差的值为异常值。
S150、将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
在一个具体的实施例中,筛选与对应的主要特征间的距离大于距离异常阈值的标签数据作为低置信度标注。总之,与对应的主要特征间的距离小于距离异常阈值的实体标注作为高置信度标注,而对于对应的主要特征间的距离大于距离异常阈值的实体标注作为低置信度标注;将高置信度标注集合生成高置信度标签池,而将低置信度标注集合生成异常标签池。通过聚类的方法对现有的大批量人工标注进行有效性判断,对置信度与簇中心相差较大的样本进行剔除,保证用于模型训练数据的高质量。
由于基于词嵌入的聚类方法聚焦于语义成分偏多,但症状存在表述较短的特点,所以存在1-2字的差别可能对语义造成巨大差异,但从具体的词性、内容来看该标注是正确的。针对这一特性,在异常值初步识别模块后增加了一步召回模块。通过召回模块,将被剔除的样本通过与存量样本进行相似度比对判定该样本是否需要人工复核,还是可以参考高置信度样本进行修改,大量减少了人力投入,适用于大量数据集的NER任务。召回模块的工作方法,具体地说就是,对各标签类别的所述低置信度标注集合中的标签数据进行筛选,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池;将筛选后的低置信度标注集合中的标签数据生成异常标签池。
也就是说,针对被挑选出来的异常值,通过计算其与未被剔除(视为标注正确)标签的语义相似度及字符相似度,挑选出来Top3的相似标签,若有相似度大于阈值0.95的则可以认为本标签可以重新加入训练集中。
对于相似度的筛选过程可以通过卷积神经网络实现,使用多个维度的卷积层获取被剔除的样本与存量样本的相似度,再连接最大池化层和全连接层,得到卷积神经网络的相似度的概率分布;最终使用softmax函数进行概率归一化。也就是说通过基于神经网络的分类模型实现相似度的筛选。将低置信度标注输入相似度分类模型中,提取低置信度标注中的卷积特征信息,将所述卷积特征信息输入到分类层中进行预测得到对应的预测分类标签,计算预测分类标签与对应的数据分类标签之间的损失函数值,根据损失函数值进行反向传播训练,并计算网络参数的梯度,通过训练更新网络参数,直至神经网络满足训练的终止条件为止,输出训练得到的相似度分类模型。
在具体的实施过程中,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池的方法包括:对各标签类别的所述低置信度标注集合中的标签数据分别进行基于cosine值的语义相似度计算和字符相似度计算;其中,利用基于cosine值的语义相似度计算获得cosine向量值,利用字符相似度计算获得字符相似度值;针对语义相似度及字符相似度分别设置50%的权重,利用cosine向量值和字符相似度值加权得到整体的相似度;筛选整体相似度值大于相似度阈值的标签数据;则,将所述标签数据归入高置信度标签池。
通过上述方法以及通过相似度比对的后召回,在本方法的应用场景下异常标签数从2w+下降到1w+,该部分标签后续可通过人工介入来进行修正。如果本身高质量的标注数量很多而异常标注数量很少的话,则可以直接舍弃。
批量实体抽取样本的数据增强方法通过对实体样本的标签数据进行分类,按照标签类别获取实体样本标注的全量标签数据;将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,筛选符合预设标准的标签数据作为高置信度标注,将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行抽取样本。通过聚类的方法对现有的大批量人工标注进行有效性判断,对置信度与簇中心相差较大的样本进行剔除,保证用于模型训练数据的高质量。同时被剔除的样本通过与存量样本进行相似度比对判定该样本是否需要人工复核,还是可以参考高置信度样本进行修改,大量减少了人力投入,适用于大量数据集的NER任务的技术效果。
如图2所示,本发明提供一种实体样本的抽取系统200,本发明可以安装于电子设备中。根据实现的功能,该实体样本的抽取系统200可以包括全量数据标签获取单元210、标签矩阵获取单元220、主要特征获取单元230和高置信度标签池获取单元240。本发明所述单元也可以称之为模块,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
全量数据标签获取单元210,用于对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据;
标签矩阵获取单元220,用于将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;
主要特征获取单元230,用于对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;
高置信度标签池获取单元240,用于利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注;将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
进一步的,还包括召回单元220,用于对各标签类别的所述低置信度标注集合中的标签数据进行筛选,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池;将筛选后的低置信度标注集合中的标签数据生成异常标签池。
本发明的实体样本的抽取系统200对实体样本的标签数据进行分类,按照标签类别获取实体样本标注的全量标签数据;将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,筛选符合预设标准的标签数据作为高置信度标注,将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行抽取样本。通过聚类的方法对现有的大批量人工标注进行有效性判断,对置信度与簇中心相差较大的样本进行剔除,保证用于模型训练数据的高质量。同时被剔除的样本通过与存量样本进行相似度比对判定该样本是否需要人工复核,还是可以参考高置信度样本进行修改,大量减少了人力投入,适用于大量数据集的NER任务的技术效果。
如图3所示,本发明提供一种实体样本的抽取方法的电子设备3。
该电子设备3可以包括处理器30、存储器31和总线,还可以包括存储在存储器31中并可在所述处理器30上运行的计算机程序,如实体样本的抽取程序32。存储器31还可以既包括人工智能的实体样本的抽取系统的内部存储单元也包括外部存储设备。存储器31不仅可以用于存储安装于人工智能辅助装置的应用软件及各类数据,例如人工智能辅助程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
其中,所述存储器31至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器31在一些实施例中可以是电子设备3的内部存储单元,例如该电子设备3的移动硬盘。所述存储器31在另一些实施例中也可以是电子设备3的外部存储设备,例如电子设备3上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括电子设备3的内部存储单元也包括外部存储设备。所述存储器31不仅可以用于存储安装于电子设备3的应用软件及各类数据,例如实体样本的抽取程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器30在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器30是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块(例如实体样本的抽取程序等),以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器31以及至少一个处理器30等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备3的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理系统与所述至少一个处理器30逻辑相连,从而通过电源管理系统实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备3还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备3与其他电子设备之间建立通信连接。
可选地,该电子设备3还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备3中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备3中的所述存储器31存储的实体样本的抽取程序32是多个指令的组合,在所述处理器30中运行时,可以实现:对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据;将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注,将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
进一步,优选的,利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,筛选符合预设标准的标签数据作为高置信度标注的方法,包括:
将所述标签类别的一个主要特征作为一个簇类;
获取每一个簇类中的标签数据与所对应的主要特征间的距离并形成距离集合;并,利用所述距离集合确定距离异常阈值;
筛选与对应的主要特征间的距离小于所述距离异常阈值的标签数据作为高置信度标注。
进一步,优选的,筛选与对应的主要特征间的距离大于距离异常阈值的标签数据作为低置信度标注。
进一步,优选的,对各标签类别的所述低置信度标注集合中的标签数据进行筛选,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池;将筛选后的低置信度标注集合中的标签数据生成异常标签池。
进一步,优选的,获取每一个簇类中的标签数据与所对应的主要特征间的距离的方法,包括:通过计算每一个实体标签的向量在主成分上的投影距离,获得每一个簇类中的标签数据与所对应的主要特征间的距离。
进一步,优选的,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池的方法包括:
对各标签类别的所述低置信度标注集合中的标签数据分别进行基于cosine值的语义相似度计算和字符相似度计算;其中,利用基于cosine值的语义相似度计算获得cosine向量值,利用字符相似度计算获得字符相似度值;
针对语义相似度及字符相似度分别设置50%的权重,利用cosine向量值和字符相似度值加权得到整体的相似度;
筛选整体相似度值大于相似度阈值的标签数据;
则,将所述标签数据归入高置信度标签池。
进一步,优选的,将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵的方法,包括:
将所获取的全量标签数据按照标签类别分别进行分词;
获取所述分词后的全量数据标签中包含的字符,并将所述字符构成文字集合;
对所述文字集合在词句段篇等维度分别进行独热编码,并进行padding操作,以在词句段篇四个级别上分别构造对应的矩阵,获得词矩阵、句矩阵、段矩阵以及篇矩阵。
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据;将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注,将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
进一步,优选的,利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,筛选符合预设标准的标签数据作为高置信度标注的方法,包括:
将所述标签类别的一个主要特征作为一个簇类;
获取每一个簇类中的标签数据与所对应的主要特征间的距离并形成距离集合;并,利用所述距离集合确定距离异常阈值;
筛选与对应的主要特征间的距离小于所述距离异常阈值的标签数据作为高置信度标注。
进一步,优选的,筛选与对应的主要特征间的距离大于距离异常阈值的标签数据作为低置信度标注。
进一步,优选的,对各标签类别的所述低置信度标注集合中的标签数据进行筛选,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池;将筛选后的低置信度标注集合中的标签数据生成异常标签池。
进一步,优选的,获取每一个簇类中的标签数据与所对应的主要特征间的距离的方法,包括:通过计算每一个实体标签的向量在主成分上的投影距离,获得每一个簇类中的标签数据与所对应的主要特征间的距离。
进一步,优选的,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池的方法包括:
对各标签类别的所述低置信度标注集合中的标签数据分别进行基于cosine值的语义相似度计算和字符相似度计算;其中,利用基于cosine值的语义相似度计算获得cosine向量值,利用字符相似度计算获得字符相似度值;
针对语义相似度及字符相似度分别设置50%的权重,利用cosine向量值和字符相似度值加权得到整体的相似度;
筛选整体相似度值大于相似度阈值的标签数据;
则,将所述标签数据归入高置信度标签池。
进一步,优选的,将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵的方法,包括:
将所获取的全量标签数据按照标签类别分别进行分词;
获取所述分词后的全量数据标签中包含的字符,并将所述字符构成文字集合;
对所述文字集合在词句段篇等维度分别进行独热编码,并进行padding操作,以在词句段篇四个级别上分别构造对应的矩阵,获得词矩阵、句矩阵、段矩阵以及篇矩阵。
具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例实体样本的抽取方法中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种实体样本的抽取方法,其特征在于,方法包括:
对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据;
将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;
对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;
利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注;
将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
2.如权利要求1所述的实体样本的抽取方法,其特征在于,利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,筛选符合预设标准的标签数据作为高置信度标注的方法,包括:
将所述标签类别的一个主要特征作为一个簇类;
获取每一个簇类中的标签数据与所对应的主要特征间的距离并形成距离集合;并,利用所述距离集合确定距离异常阈值;
筛选与对应的主要特征间的距离小于所述距离异常阈值的标签数据作为高置信度标注。
3.如权利要求2所述的实体样本的抽取方法,其特征在于,筛选与对应的主要特征间的距离大于距离异常阈值的标签数据作为低置信度标注。
4.如权利要求3所述的实体样本的抽取方法,其特征在于,对各标签类别的所述低置信度标注集合中的标签数据进行筛选,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池;将筛选后的低置信度标注集合中的标签数据生成异常标签池。
5.如权利要求2所述的实体抽取样本的数据增强方法,其特征在于,获取每一个簇类中的标签数据与所对应的主要特征间的距离的方法,包括:通过计算每一个实体标签的向量在主成分上的投影距离,获得每一个簇类中的标签数据与所对应的主要特征间的距离。
6.如权利要求4所述的实体样本的抽取方法,其特征在于,筛选相似度大于预设相似度阈值的标签数据归入高置信度标签池的方法包括:
对各标签类别的所述低置信度标注集合中的标签数据分别进行基于cosine值的语义相似度计算和字符相似度计算;其中,利用基于cosine值的语义相似度计算获得cosine向量值,利用字符相似度计算获得字符相似度值;
针对语义相似度及字符相似度分别设置50%的权重,利用cosine向量值和字符相似度值加权得到整体的相似度;
筛选整体相似度值大于相似度阈值的标签数据;
则,将所述标签数据归入高置信度标签池。
7.如权利要求1所述的实体样本的抽取方法,其特征在于,将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵的方法,包括:
将所获取的全量标签数据按照标签类别分别进行分词;
获取所述分词后的全量数据标签中包含的字符,并将所述字符构成文字集合;
对所述文字集合在词句段篇等维度分别进行独热编码,并进行padding操作,以在词句段篇四个级别上分别构造对应的矩阵,获得词矩阵、句矩阵、段矩阵以及篇矩阵。
8.一种实体样本的抽取系统,其特征在于,所述系统包括:
全量数据标签获取单元,用于对实体样本的标签数据进行分类,按照所分的标签类别获取实体样本标注的全量标签数据;
标签矩阵获取单元,用于将所获取的全量标签数据按照标签类别分别进行分词、编码预处理,以获取各标签类别的标签矩阵;
主要特征获取单元,用于对各标签类别的所述标签矩阵进行主成分分析,以获取所述各类标签类别对应的主要特征;
高置信度标签池获取单元,用于利用各类标签类别对应的主要特征分别对各标签类别的标签数据进行筛选,以筛选符合预设标准的标签数据作为高置信度标注;将所述各标签类别的高置信度标注集合生成高置信度标签池,利用所述高置信度标签池进行样本抽取。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的实体样本的抽取方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的实体样本的抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042292.XA CN114372469A (zh) | 2022-01-14 | 2022-01-14 | 实体样本的抽取方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042292.XA CN114372469A (zh) | 2022-01-14 | 2022-01-14 | 实体样本的抽取方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372469A true CN114372469A (zh) | 2022-04-19 |
Family
ID=81144568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210042292.XA Pending CN114372469A (zh) | 2022-01-14 | 2022-01-14 | 实体样本的抽取方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372469A (zh) |
-
2022
- 2022-01-14 CN CN202210042292.XA patent/CN114372469A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112883190A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN112380343A (zh) | 问题解析方法、装置、电子设备及存储介质 | |
CN113626607B (zh) | 异常工单识别方法、装置、电子设备及可读存储介质 | |
CN113283446A (zh) | 图像中目标物识别方法、装置、电子设备及存储介质 | |
CN113111162A (zh) | 科室推荐方法、装置、电子设备及存储介质 | |
CN113157927A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN114491047A (zh) | 多标签文本分类方法、装置、电子设备及存储介质 | |
CN114398557A (zh) | 基于双画像的信息推荐方法、装置、电子设备及存储介质 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN114840684A (zh) | 基于医疗实体的图谱构建方法、装置、设备及存储介质 | |
CN113869456A (zh) | 采样监测方法、装置、电子设备及存储介质 | |
CN113704474A (zh) | 银行网点设备操作指引生成方法、装置、设备及存储介质 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN115409041B (zh) | 一种非结构化数据提取方法、装置、设备及存储介质 | |
CN113435308B (zh) | 文本多标签分类方法、装置、设备及存储介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN114996386A (zh) | 业务角色识别方法、装置、设备及存储介质 | |
CN115099339A (zh) | 欺诈行为识别方法、装置、电子设备及存储介质 | |
CN114610854A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN114372469A (zh) | 实体样本的抽取方法、系统及存储介质 | |
CN114219367A (zh) | 用户评分方法、装置、设备及存储介质 | |
CN112580505A (zh) | 网点开关门状态识别方法、装置、电子设备及存储介质 | |
CN112734205A (zh) | 模型置信度分析方法、装置、电子设备及计算机存储介质 | |
CN113515591A (zh) | 文本不良信息识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |