CN111046655B - 一种数据处理方法、装置及计算机可读存储介质 - Google Patents

一种数据处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111046655B
CN111046655B CN201911114440.9A CN201911114440A CN111046655B CN 111046655 B CN111046655 B CN 111046655B CN 201911114440 A CN201911114440 A CN 201911114440A CN 111046655 B CN111046655 B CN 111046655B
Authority
CN
China
Prior art keywords
word pair
sample data
negative
data
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911114440.9A
Other languages
English (en)
Other versions
CN111046655A (zh
Inventor
林振斌
王晓利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911114440.9A priority Critical patent/CN111046655B/zh
Publication of CN111046655A publication Critical patent/CN111046655A/zh
Application granted granted Critical
Publication of CN111046655B publication Critical patent/CN111046655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置及计算机可读存储介质,本申请实施例通过采集正词对样本数据和负词对样本数据;根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息;将特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。以此,将正负词对样本数据同时对自编码器进行训练,且基于训练后的自编码器提取正负词对样本数据相应的特征信息对二分类器进行结合训练,实现上下位关系的准确识别,极大的提升了数据处理的效率和上下位关系判定的准确率。

Description

一种数据处理方法、装置及计算机可读存储介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置及计算机可读存储介质。
背景技术
随着网络的发展和计算机的广泛应用,数据处理技术显得越来越重要,比如,上位词的挖掘技术一直是自然语言处理领域的重要研究课题,是自然语言理解的基础能力,无论对于领域分类、意图识别还是推荐系统中的用户兴趣点挖掘都具有非常重要的作用。
相关技术中,一般会通过序列标注问题的方案来解决上下位判别的问题,即将上下位关系抽取跟判别两个任务融合为一个任务,合并训练一个模型,从下位词和上位词共同出现的文本中提取出下位词的上位词进行人工标注,将标注后的数据输入模型中进行训练,使得模型具有识别能力。
在对相关技术的研究和实践过程中,本申请的发明人发现,相关技术中,标注成本非常昂贵,难以获取大量的标注数据,且基于共同文本作为上下位信息识别,数据处理的效率较差,进而使得上下位关系判定的准确率较低。
发明内容
本申请实施例提供一种数据处理方法、装置及计算机可读存储介质,可以提升数据处理的效率,进而提升上下位关系判定的准确率。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种数据处理方法,包括:
采集正词对样本数据和负词对样本数据;
根据所述正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;
通过训练后的自编码器提取所述正词对样本数据和负词对样本数据相应的特征信息;
将所述特征信息输入至二分类器中进行训练,得到训练后的二分类器;
结合所述训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
相应的,本申请实施例还提供一种数据处理装置,包括:
采集单元,用于采集正词对样本数据和负词对样本数据;
第一训练单元,用于根据所述正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;
提取单元,用于通过训练后的自编码器提取所述正词对样本数据和负词对样本数据相应的特征信息;
第二训练单元,用于将所述特征信息输入至二分类器中进行训练,得到训练后的二分类器;
识别单元,用于结合所述训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
在一些实施例中,所述第二训练单元,用于:
将所述正特征信息和正目标阈值输入至二分类器中进行训练;
将所述负特征信息和负目标阈值输入至二分类器中进行训练,得到训练后的二分类器。
在一些实施例中,所述采集单元,用于:
采集正词对样本数据;
采集预设的初始负词对样本数据,并将所述初始负词对样本数据输入预设变分自编码器中,生成基于初始负词对样本数据相应的衍生负词对样本数据;
将所述初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据。
在一些实施例中,所述识别单元,包括:
输入子单元,用于获取待识别词对数据中的下位测试词数据,将所述下位测试词数据输入训练后的自编码器中,得到相应的预测关系向量;
计算子单元,用于获取待识别词对数据中的上位测试词数据,计算所述上位测试词数据和下位测试词数据之间的向量距离,得到相应的测试关系向量;
生成子单元,用于根据所述测试关系向量和预测关系向量之间的匹配度生成相应的测试特征信息;
确定子单元,用于将所述测试特征信息输入至训练后的二分类器中,确定所述待识别词对数据的上下位关系。
在一些实施例中,所述确定子单元,用于:
将所述测试特征信息输入至训练后的二分类器中,得到相应的预测数值;
当所述预测数值大于预设阈值时,判定所述待识别词对数据为上下位关系;
当所述预测数值不大于预设阈值时,判定所述待识别词对数据不为上下位关系。
相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述数据处理方法中的步骤。
相应的,本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如本申请任一实施例提供的数据处理方法。
本申请实施例通过采集正词对样本数据和负词对样本数据;根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息;将特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。以此,将正负词对样本数据同时对自编码器进行训练,增强自编码器的鲁棒性,且基于训练后的自编码器提取正负词对样本数据相应的特征信息对二分类器进行结合训练,相对于目前的序列标注问题的方案而言,本申请实施例可以实现上下位关系的准确识别,极大的提升了数据处理的效率和上下位关系判定的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的数据处理方法的模型结构示意图;
图2是本申请实施例提供的数据处理方法的流程示意图;
图3是本申请实施例提供的数据处理方法的另一流程示意图;
图4a是本申请实施例提供的数据处理方法的场景示意图;
图4b为本申请实施例提供的自编码器的结构示意图;
图4c是本申请实施例提供的数据处理方法的另一场景示意图;
图4d是本申请实施例提供的数据处理方法的另一场景示意图;
图5a是本申请实施例提供的数据处理装置的结构示意图;
图5b是本申请实施例提供的数据处理装置的另一结构示意图;
图5c是本申请实施例提供的数据处理装置的另一结构示意图;
图5d是本申请实施例提供的数据处理装置的另一结构示意图;
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据处理方法、装置及计算机可读存储介质。
为了更好的理解本申请,下面对本申请涉及的几个名词进行解释:
无监督学习,无监督学习是与有监督学习相对应的机器学习概念,是一种在执行过程中没有引入任何人工标注标签的机器学习方法。
其中,有监督学习是指给定原始数据,以及对原始数据的人工标注标签,通过原始数据和人工标注标签进行模型训练,使得训练好的机器学习模型能够输入的无标注数据预测出对应的标注标签。
表征学习,表征学习是指从输入数据中学习到有代表性特征和信息的过程。在本申请各个实施例中,表征学习可以是通过自编码器从输入的数据中提取特征和信息的过程。
请继续参阅图1,图1为本申请实施例所提供的数据处理方法的模型结构示意图,包括:自编码器和二分类器。
该自编码器是一种能够通过无监督学习,无监督学习是与有监督。学到输入数据高效表示的人工神经网络。输入数据的这一高效表示称为编码(codings),其维度一般远小于输入数据,使得自编码器可用于降维。更重要的是,自编码器可作为强大的特征检测器(feature detectors),应用于深度神经网络的预训练。此外,自编码器还可以随机生成与训练数据类似的数据,这被称作生成模型(generative model)。比如,可以用人脸图片训练一个自编码器,它可以生成新的图片。
该自编码器是一种能够通过无监督学习,学到输入数据的表征的人工神经网络。输入数据的这一表征可以称为编码(codings),其维度一般远小于输入数据,从而使得自编码器可用于数据降维。更重要的是,自编码器可作为强大的特征检测器(featuredetectors),应用于深度学习网络的预训练。此外,自编码器还可以随机生成与训练数据类似的数据,此时可以被称作生成模型(generative model)。比如,可以用人脸图片训练一个自编码器,使用该自编码器可以生成新的人脸图片。传统的自编码器在训练时,直接从初始输入的训练数据中提取数据特征(即表征),通常只能获取到数据中的基本信息,对有代表性的特征和信息的提取能力较差,从而影响训练出的自编码器的表征效果,且该自编码器训练没有涉及到负样本的构造,会导致自编码器的鲁棒性欠佳。
该二分类器为基于神经网络建造的,作用为在标记好类别的训练数据基础上判断一个新的观察样本所属的类别,在本申请的方案中,该二分类器主要为对于待识别词对数据的上下位关系的类别进行判断,即为上下位关系或者不为上下位关系。
以此,本申请首先采集正词对样本数据和负词对样本数据,并将该正词对样本数据和负词对样本数据同时输入自编码器中进行预训练,并通过预训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息,将该特征信息输入至二分类器中进行训练,使得训练后的二分类器具有识别出上下位关系的能力,得到训练后的自编码器和训练后的二分类器,并可以结合训练后自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别,通过引用负词对样本数据与正词对样本数据同时训练和二分类器进行上下位关系判别,可以增强自编码器的鲁棒性,提升数据处理效率和上下位关系判定的准确率。
需要说明的是,图1所示的数据处理方法的模型结构示意图仅仅是一个示例,本申请实施例描述的数据处理方法的模型结构示意图以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着模型结构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
实施例一、
在本实施例中,将从数据处理装置的角度进行描述,该数据处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的电子设备中,该电子设备可以包括服务器或者终端。
一种数据处理方法,包括:采集正词对样本数据和负词对样本数据;根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息;将特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
请参阅图2,图2是本申请实施例提供的数据处理方法的流程示意图。该数据处理方法包括:
在步骤101中,采集正词对样本数据和负词对样本数据。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明:
需要说明的是,相关技术中,对于自编码器训练没有涉及到负样本的构造,导致训练出来的自编码器的鲁棒性较差,进而导致训练后的自编码器对代表性的特征和信息提取能力也较差,影响训练出的自编码器的表征效果。
其中,该正词对样本数据为包含正确上下位关系的词对样本数据,即该正词对样本数据中包含正确上下位关系的上位词(hypernym)和下位词(hyponym),上位词是指概念上外延更广的主题词,例如,“花”是“鲜花”的上位词,“植物”是“花”的上位词,“音乐”是“爵士乐”的上位词等等。下位词是指相对于上位词,概念上内涵更窄的主题词。因此,如果词数据X为词数据Y的上下位词,两者具有上下位关系。
进一步的,该负词对样本数据为不包含正确上下位关系的词对样本数据,如“花”和“牛”,但“花”不是“牛”的上位词,即该负词对样本数据中不包含正确上下位关系,以此,同时采集正词对样本数据和负词对样本数据,且该正词对样本数据和负词对样本数据中的上位词数据和下位词数据均为词向量,该词向量为自然语言处理中常用技术,通过大量的自然文本预料训练,得到的一组向量,该向量可以集中代表每一词汇表中每一个词的语义特征,可以用embedding指代。
在一实施方式中,可以采集优质负词对样本数据,具体为通过人工标注实现优质负词对样本数据的采集,如对于下位词向量“西部世界”构造一个“电影”的上位词的负词对样本数据就比构造一个“人物”的上位词的负词对样本数据更有意义,因为前者在语义上与真实的上位词“电视剧”有更大的相关度,自编码器学习的意义更大。
在一些实施方式中,该采集正词对样本数据和负词对样本数据的步骤,包括:
(1)采集正词对样本数据;
(2)采集预设的初始负词对样本数据,并将该初始负词对样本数据输入预设变分自编码器中,生成基于初始负词对样本数据相应的衍生负词对样本数据;
(3)将该初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据。
其中,首先采集多个正词对样本数据,如“豹子”下位词对应“猫科动物”上位词的正词对样本数据,进一步的,可以通过人工标注实现少量初始负词对样本数据的采集,如对于“豹子”下位词对应设置“犬科动物”等等,因为是人工标注设计,成本较高,相对于正样本更难大量获取,使得正词对样本数据的数量远远大于初始负词对样本数据。
进一步的,为了增加后期训练的鲁棒性,需要对初始负词对样本数据进行伪造扩充,可以将初始负词对样本数据输入至预设变分自编码器中进行扩充,使用该变分自编码器生成新的基于初始负词对样本数据相应的衍生负词对样本数据,由于变分自编码器基于真实的负样本训练,生成的衍生负词对样本会更为贴合真实的初始负词对样本数据,同时也会保持一定的差异性,相当于对初始负词对样本数据的优质扩充,将该初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据,使正词对样本数据和负词对样本数据达到同样的数量级。
在步骤102中,根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器。
其中,将该正词对样本数据和负词对样本数据同时输入至自编码器中,由该自编码器对该正词对样本数据和负词对样本数据进行特征提取,获取正数据特征和负数据特征,计算两者之间的差异,并实时根据该差异来更新自编码器中的网络参数,不断进行迭代处理,直至通过更新后的自编码器提取的正数据特征和负数据特征之间的差异发生收敛,即可以认为自编码器学习完成,得到训练后的自编码器,该训练后的自编码器通过对正词对样本数据和负词对样本数据进行表征学习,使得训练后的自编码器可以根据下位词向量推测出相应的预测关系向量。
在一些实施方式中,该根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器的步骤,可以包括:
(1)将该正词对样本数据和负词对样本数据输入至自编码器中;
(2)控制该自编码器迭代计算该正词对样本数据和该负词对样本数据之间的差异值,直至该差异值满足收敛条件,得到训练后的自编码器。
其中,首先将该正词对样本数据和负词对样本数据输入至自编码器中,进而控制该自编码器对该正词对样本数据和负词对样本数据进行特征提取,得到相应的正数据特征和负数据特征,计算该正数据特征和负数据特征之间的差异值,直至该差异值满足收敛条件,即代表训练完成,得到训练后的自编码器。
在一些实施方式中,该控制该自编码器迭代计算该正词对样本数据和该负词对样本数据之间的差异值,直至该差异值满足收敛条件,得到训练后的自编码器的步骤,可以包括:
(1.1)控制该自编码器对该正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据;
(1.2)计算该正词对损失数据和负词对损失数据之间的差异值;
(1.3)当检测到该差异值不满足收敛条件时,根据该差异值更新该自编码器中的网络损失参数,并返回执行控制该自编码器对该正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据的步骤;
(1.4)当检测到该差异值满足收敛条件时,得到训练后的自编码器。
其中,为了更好的说明本申请实施例,请一并参阅以下损失公式进行理解:
Figure GDA0004039890880000101
其中,该损失公式为改进后的损失(loss)函数,该Ck等于聚类信息,Tk等于矩阵信息,该Tkx等于关系向量,该x代表正词对样本数据中的下位词向
量,该y代表正词对样本数据中的上位词向量,该
Figure GDA0004039890880000102
代表负词对样本数据中的上位词向量减去下位词向量的值,T为三阶张量,由一组矩阵组成,为学习的参数,该M为收敛阈值。
因此,控制该自编码器将正词对样本数据中的下位词向量和上位词向量以及负词对样本数据中的下位词向量和上位词向量代入上述损失公式,获取正词对损失数据和负词对损失数据,计算该正词对损失数据和负词对损失数据之间的差异值,该差异值越大,说明自编码器训练越准确,该差异值越小,说明自编码器训练不准确,为了保证自编码器对于述正词对样本数据和负词对样本数据的表征学习的准确度,设定相应的收敛阈值M,当检测到正词对损失数据和负词对损失数据之间的差异值不大于收敛阈值M时,根据差异值更新该自编码器中的网络损失参数,即根据差异值更新矩阵信息Tk,在更新完该矩阵信息Tk后,返回执行控制更新后的自编码器重新对该正词对样本数据和负词对样本数据进行损失计算,获取正词对损失数据和负词对损失数据的步骤。
进一步的,通过不断的更新该自编码器中的网络损失参数,即不断更新该矩阵信息Tk,使得该正词对损失数据和负词对损失数据之间的差异值越来越大,直至该差异值大于预设阈值,即该差异值满足收敛条件,说明该自编码器的训练完成,得到训练后的自编码器。
在步骤103中,通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息。
需要说明的是,该训练后的自编码器只具备根据下位词推测出相应的关系向量的能力,并不具有直接以上下位关系判别的优化能力,如果仅通过该关系向量推测上下位关系的话,推测的准确率不能得到保证。
其中,由于该正词对样本数据和负词对样本数据中可以具有相同的下位词向量,比如具有相同的下位词向量x,该下位词向量x代表“豹子”,所以该训练后的自编码器可以根据该共同的下位词向量x得到预测关系向量。
进一步的,可以根据正词对样本数据和负词对样本数据中的上位词向量y和下位词向量x的向量差得到相应的目标关系向量,进而结合该目标关系向量和预测关系向量之间不同的匹配度作为特征信息。
在一些实施方式中,该通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息的步骤,包括:
(1)通过训练后的自编码器计算该正词对样本数据和负词对样本数据相应的预测关系向量;
(2)确定该正词对样本数据和负词对样本数据相应的目标关系向量;
(3)根据该目标关系向量和预测关系向量之间的匹配度生成相应的特征信息。
其中,将该正词对样本数据和负词对样本数据中的下位词向量输入训练后的自编码器中进行表征学习,得到相应的预测关系向量,由于该训练后的自编码器为通过正词对样本数据和负词对样本数据综合训练,以此,该预测关系向量的准确率高。
进一步的,计算该正词对样本数据和负词对样本数据中上位词向量和下位词向量之间的向量差,得到真实的目标关系向量,并根据该目标关系向量和预测关系向量之间的不同的匹配度生成相应的多个特征信息。
在一些实施方式中,该确定该正词对样本数据和负词对样本数据相应的目标关系向量的步骤,包括:
(1.1)计算该正词对样本数据相应的正目标关系向量;
(1.2)计算该负词对样本数据相应的负目标关系向量;
其中,根据正词对样本数据中的上位词向量和下位词向量之间的差值生成正目标关系向量,根据该负词对样本数据中的上位词向量和下位词向量之间的差值生成相应的负目标关系向量。
在一些实施方式中,该根据该目标关系向量和预测关系向量之间的匹配度生成相应的特征信息的步骤,包括:
(2.1)确定该正目标关系向量和预测关系向量之间的正匹配度;
(2.2)确定该负目标关系向量和预测关系向量之间的负匹配度;
(2.3)根据该正匹配度生成相应的正特征信息,并根据该负匹配度生成相应的负特征信息;
(2.4)将该正特征信息和负特征信息确定为特征信息。
其中,可以将正目标关系向量和预测关系向量之间进行合并,得到正匹配度,将负目标关系向量和预测关系向量之间进行合并,得到负匹配度,根据正匹配度之间的不同生成相应的多个正特征信息,根据负匹配度之间的不同生成相应的多个负特征信息,最后将该正特征信息和负特征信息统称为特征信息。
在步骤104中,将特征信息输入至二分类器中进行训练,得到训练后的二分类器。
其中,该二分类器为基于神经网络建造的,作用为通过对标记好类别的特征信息的基础上学习判断新的待识别词对数据的上下位关系,由于该特征信息为根据正词对样本数据和负词对样本数据生成的,因此,可以根据正和负的属性对该特征信息进行标记,例如将正词对样本数据相应的特征信息标记为1,将负词对样本数据相应的特征信息标记为0,将标记后的特征信息输入至二分类器进行学习训练,得到训练后的二分类器,使得训练后的二分类器可以根据特征信息识别出相应的上下位判定结果。
在一些实施方式中,该将特征信息输入至二分类器中进行训练,得到训练后的二分类器的步骤,可以包括:
(1)将该正特征信息和正目标阈值输入至二分类器中进行训练;
(2)将该负特征信息和负目标阈值输入至二分类器中进行训练,得到训练后的二分类器。
其中,该正目标阈值即为上下位关系的阈值,可以用1进行标识,该负目标阈值即为非上下位关系的阈值,可以用0进行标识,以此,将正特征信息以1进行标识,将负特征信息以0进行标识,并将标识后的正特征信息和标识1以及负特征信息和标识0输入至二分类器中进行训练,使得二分类器学习到特征信息与上下位关系之间的规律,进而具有根据特征信息识别出相应的上下位判定结果的能力。
在步骤105中,结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
其中,在将自编码器和二分类器训练完成后,该训练后的自编码器具有根据下位词向量推测出相应的预测关系向量的功能,而该训练后二分类器具有根据特征信息识别出相应的上下位判定结果的功能。以此,结合该训练后的自编码器和训练后的二分类器可以实现对新的待识别词对数据的上下位关系进行识别,完成上位词的挖掘技术,实现的过程可以为首先将待识别词对输入至该训练后的自编码器中,通过该训练后的自编码器推测出该待识别词对相应的预测关系向量,根据该预测关系向量和待识别词对的测试关系向量之间的匹配度生成相应的测试特征信息,将该测试特征信息输入至训练后的二分类器中,即可实现得到相应的上下位关系判别结果。
在一些实施方式中,该结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别的步骤,可以包括:
(1)获取待识别词对数据中的下位测试词数据,将该下位测试词数据输入训练后的自编码器中,得到相应的预测关系向量;
(2)获取待识别词对数据中的上位测试词数据,计算该上位测试词数据和下位测试词数据之间的向量距离,得到相应的测试关系向量;
(3)根据该测试关系向量和预测关系向量之间的匹配度生成相应的测试特征信息;
(4)将该测试特征信息输入至训练后的二分类器中,确定该待识别词对数据的上下位关系。
其中,该待识别词对数据中的下位测试词数据即为下位词向量,通过获取该待识别词对数据中的下位词向量,将该下位词向量输入训练后的自编码器中,得到相应的预测关系向量。
进一步的,该待识别词对数据中的上位测试词数据即为上位词向量,通过获取待识别词对数据中的上位词向量,计算上位词向量和下位词向量之间的向量关系,得到相应的测试关系向量,根据该测试关系向量和预测关系向量之间的匹配度生成相应的测试特征信息,并将该测试特征信息输入至训练后的二分类器中,得到相应的预测值,根据该预测值确定该待识别词对数据的上下位关系。
在一实施方式中,该将该测试特征信息输入至训练后的二分类器中,可以得到相应的测试数值,如0.88或者0.32等等,由于0为非上下位关系,而1为上下位关系,以此,可以设定预设阈值,该预设阈值可以取中间值0.5,当该测试数值大于该预设阈值,判定为待识别词对数据为上下位关系,当该预测数据不大于该预设阈值时,判定该待识别词对数据不为上下位关系。
由上述可知,本申请实施例通过采集正词对样本数据和负词对样本数据;根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息;将特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。以此,将正负词对样本数据同时对自编码器进行训练,增强自编码器的鲁棒性,且基于训练后的自编码器提取正负词对样本数据相应的特征信息对二分类器进行结合训练,相对于目前的序列标注问题的方案而言,本申请实施例可以实现上下位关系的准确识别,极大的提升了数据处理的效率和上下位关系判定的准确率。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将该数据处理方法以执行主体为服务器为例进行说明。
请参阅图3,图3为本申请实施例提供的数据处理方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器采集正词对样本数据。
其中,服务器采集多个正词对样本数据,该正词对样本数据包括正确的上下位关系上位词向量和下位词向量,例如,“西部世界”的下位词相应的下位词向量以及“电视剧”的上位词相应的上位词向量。
在步骤202中,服务器采集预设的初始负词对样本数据,并将初始负词对样本数据输入预设变分自编码器中,生成基于初始负词对样本数据相应的衍生负词对样本数据,将初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据。
其中,服务器采集预设的初始负词对样本数据,该初始负词对样本可以为人工标注的优质负样本数据,即在语义上跟正词对样本数据的语义相关度较大的负样本数据,如初始负词对样本可以为“西部世界”的下位词相应的下位词向量以及“电影”的上位词相应的上位词向量。
进一步的,请一并参阅图4a,可以将该初始负词对样本输入至预设变分自编码器中,该预设变分自编码器可以实现随机生成与初始负词对样本类似的数据,以此该变分自编码器可以根据该初始负词对样本生成多个类似的衍生负词对样本数据,将该初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据,使得正词对样本数据和负词对样本数据达到接近的数量级。
在步骤203中,服务器将正词对样本数据和负词对样本数据输入至自编码器中。
其中,请一并参阅图4b,图4b为本申请实施例提供的自编码器的结构示意图,该自编码器由输入层、隐含层和输出层构成,自编码器可以利用输入层与输出层之间的映射关系实现样本重构,从而实现特征提取。其中,图4b所示的三层自编码器网络结构可以构成编码器和解码器的组合。以此,服务器将正词对样本数据和负词对数据同时输入至自编码器中。
在步骤204中,服务器控制自编码器对正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据,计算正词对损失数据和负词对损失数据之间的差异值。
其中,请一并参阅以下损失公式进行理解:
Figure GDA0004039890880000151
其中,该损失公式为改进后的损失(loss)函数,该Ck等于聚类信息,Tk等于矩阵信息,该Tkx等于关系向量,该x代表正词对样本数据中的下位词向
量,该y代表正词对样本数据中的上位词向量,该
Figure GDA0004039890880000152
代表负词对样本数据中的上位词向量减去下位词向量的值,T为三阶张量,由一组矩阵组成,为学习的参数,该M为收敛阈值。
为了更好的说明本申请实施例,请一并参阅图4c,图4c为相关技术中自编码器针对正词对样本数据进行损失运算的场景示意图,该k为对(y-x)进行聚类处理后的参数,以此,得到矩阵信息Q=Tk,将矩阵信息Q与正词对样本数据x进行矩阵对应位相乘,得到相应关系向量r,将QT与关系向量r再进行一次矩阵对应位相乘得到重构向量x*,根据该重构向量x*调整该自编码器中的网络损失参数,使得该自编码器不断完善,该损失函数L=L1+L1。但是由于该自编码器损失运算没有设计到负样本的构造,所以会导致训练出的自编码器的鲁棒性较差。
以此,本申请实施例通过对正词对样本数据和负词对数据同时进行损失运算,提升训练后的自编码器的鲁棒性,首先,服务器对正词对样本数据进行损失运算,具体运算过程如下:
Figure GDA0004039890880000161
通过上述运算得到正词对损失数据,进一步对负词对样本数据进行损失运算,具体运算过程如下:
Figure GDA0004039890880000162
通过上述运算得到负词对损失数据,计算该正词对损失数据和负词对损失数据之间的差异值,该差异值越大,说明自编码器训练越准确,该差异值越小,说明自编码器训练不准确。
在步骤205中,服务器检测差异值是否满足收敛条件。
其中,可以设定相应的收敛阈值M,当服务器检测到差异值大于收敛阈值M时,判定为服务器检测到差异值满足收敛条件,执行步骤206,当服务器检测到差异值不大于收敛阈值M时,判定为服务器检测到差异值不满足收敛条件,执行步骤207。
在步骤206中,服务器得到训练后的自编码器。
其中,当服务器检测到差异值大于收敛阈值M时,说明自编码器训练准确度满足条件,自编码器训练完成,得到训练后的自编码器。
在步骤207中,服务器根据差异值更新自编码器中的网络损失参数。
其中,当服务器检测到差异度不大于收敛阈值M时,说明自编码器训练准确度还未满足条件,可以根据差异值更新自编码器中的网络损失参数,即根据差异值更新矩阵信息Tk,并在更新完该矩阵信息Tk后,返回执行步骤204,根据更新后的自编码器对正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据,计算正词对损失数据和负词对损失数据之间的差异值,直至服务器检测到差异值大于收敛阈值M,结束训练,以此,根据不断的迭代计算,该自编码器对正词对样本数据和负词对样本数据的表征学习越来越准确,使得训练后的自编码器可以根据下位词推荐出准确的预测关系向量。
在步骤208中,服务器通过训练后的自编码器计算正词对样本数据和负词对样本数据相应的预测关系向量。
其中,请一并参阅图4d,服务器将正词对样本数据中的“西部世界”的下位词相应的下位词向量和负词对样本数据中的“西部世界”的下位词相应的下位词向量输入训练后的自编码器,计算得到相应的预测关系向量
Figure GDA0004039890880000171
该Q为常数,该x为“西部世界”的下位词相应的下位词向量。
在步骤209中,服务器计算正词对样本数据相应的正目标关系向量,计算负词对样本数据相应的负目标关系向量。
其中,请一并参阅图4d,服务器计算正词对样本数据中“电视剧”的上位词相应的上位词向量与“西部世界”的下位词相应的下位词之间的向量差,得到正目标关系向量r+=y+-x,该y+为“电视剧”的上位词相应的上位词向量,该x为“西部世界”的下位词相应的下位词向量。
进一步的,服务器计算负词对样本数据中“电影”的上位词相应的上位词向量与“西部世界”的下位词相应的下位词之间的向量差,得到正目标关系向量r-=y--x,该y-为“电影”的上位词相应的上位词向量,该x为“西部世界”的下位词相应的下位词向量。
在步骤210中,服务器确定正目标关系向量和预测关系向量之间的正匹配度,确定负目标关系向量和预测关系向量之间的负匹配度。
其中,请一并参阅图4d,服务器确定正目标关系向量r+=y+-x与预测关系向量
Figure GDA0004039890880000172
之间的正匹配度,确定负目标关系向量r-=yx与预测关系向量
Figure GDA0004039890880000173
之间的负匹配度。
在步骤211中,服务器根据正匹配度生成相应的正特征信息,并根据负匹配度生成相应的负特征信息,将正特征信息和负特征信息确定为特征信息。
其中,由于正负匹配度的不同,生成的特征信息也不同,可以将正目标关系向量r+=y+-x与预测关系向量
Figure GDA0004039890880000181
进行合并,生成正特征信息,将负目标关系向量r-=y—x与预测关系向量
Figure GDA0004039890880000182
进行合并,生成负特征信息,将该正特征信息和负特征信息统称为特征信息。
在步骤212中,服务器将正特征信息和正目标阈值输入至二分类器中进行训练,将负特征信息和负目标阈值输入至二分类器中进行训练,得到训练后的二分类器。
其中,该正目标阈值即为正确的上下位关系的阈值,可以用1进行表示,该负目标阈值即为非确定的上下位关系的阈值,可以用0进行表示,为了方便训练,可以将正特征信息以1进行类别标记,将负特征信息以0进行类别标记,请一并参阅图4d,服务器将正特征信息以及相应标记的1以及负特征信息以及相应标记的0同时输入二分类器中进行学习训练,使得二分类器学习到特征信息与相应上下位关系之间的规律。
在步骤213中,服务器获取待识别词对数据中的下位测试词数据,将下位测试词数据输入训练后的自编码器中,得到相应的预测关系向量。
其中,在该自编码器和二分类器训练完成后,服务器可以获取待识别词对数据进行上下位关系判别,如该待识别词对数据的下位测试数据为“花”的下位词的下位词向量,上位测试数据为“植物”的上位词的上位词向量。以此,服务器获取待识别数据中的下位测试数据“花”的下位词的下位词向量,并将该下位测试数据输入训练后的自编码器中,得到相应的预测关系向量Qx1,该Q为常数,该x1为该下位测试数据。
在步骤214中,服务器获取待识别词对数据中的上位测试词数据,计算上位测试词数据和下位测试词数据之间的向量距离,得到相应的测试关系向量。
其中,服务器获取待识别词对数据中的上位测试数据“植物”的上位词的上位词向量,计算上位测试数据与下位测试数据之间的向量距离,得到相应的测试关系向量。
在步骤215中,服务器根据测试关系向量和预测关系向量之间的匹配度生成相应的测试特征信息。
其中,服务器可以将测试关系向量和预测关系向量Qx1进行合并,根据两者之间的匹配度生成相应的测试特征信息。
在步骤216中,服务器将测试特征信息输入至训练后的二分类器中,得到相应的预测数值,当预测数值大于预设阈值时,判定待识别词对数据为上下位关系,当预测数值不大于预设阈值时,判定待识别词对数据不为上下位关系。
其中,服务器将测试特征信息输入至训练后的二分类器中,该二分类器根据该测试特征信息之间的匹配度得到相应的预测数值,如0.86,由于0为非上下位关系,而1为上下位关系,因此,可以设定该预设阈值为两值之间的中间值0.5,当预测数据大于预设阈值时,说明该预测数据更接近于上下位关系1,可以判定该待识别词对数据为上下位关系,相反的,当预测数据不大于预设阈值时,说明该预测数据更接近于非上下位关系0,可以判定该待识别词对数据为非上下位关系。
由上述可知,本申请实施例通过采集正词对样本数据和负词对样本数据;根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息;将特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。以此,将正负词对样本数据同时对自编码器进行训练,增强自编码器的鲁棒性,且基于训练后的自编码器提取正负词对样本数据相应的特征信息对二分类器进行结合训练,相对于目前的序列标注问题的方案而言,本申请实施例可以实现上下位关系的准确识别,极大的提升了数据处理的效率和上下位关系判定的准确率。
实施例三、
为便于更好的实施本申请实施例提供的数据处理方法,本申请实施例还提供一种基于上述数据处理方法的装置。其中名词的含义与上述数据处理方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5a,图5a为本申请实施例提供的数据处理装置的结构示意图,其中该数据处理装置可以包括采集单元301、第一训练单元302、提取单元303、第二训练单元304及识别单元305等。
采集单元301,用于采集正词对样本数据和负词对样本数据。
其中,采集单元301同时采集正词对样本数据和负词对样本数据,且该正词对样本数据和负词对样本数据中的上位词数据和下位词数据均为词向量。
在一实施方式中,采集单元301可以采集优质负词对样本数据,具体为通过人工标注实现优质负词对样本数据的采集。
在一些实施方式中,该采集单元301,用于:采集正词对样本数据;采集预设的初始负词对样本数据,并将该初始负词对样本数据输入预设变分自编码器中,生成基于初始负词对样本数据相应的衍生负词对样本数据;将该初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据。
第一训练单元302,用于根据该正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器。
其中,第一训练单元302将该正词对样本数据和负词对样本数据同时输入至自编码器中,由该自编码器对该正词对样本数据和负词对样本数据进行特征提取,获取正数据特征和负数据特征,计算两者之间的差异,并实时根据该差异来更新自编码器中的网络参数,不断进行迭代处理,直至通过更新后的自编码器提取的正数据特征和负数据特征之间的差异发生收敛,即可以认为自编码器学习完成,得到训练后的自编码器,该训练后的自编码器通过对正词对样本数据和负词对样本数据进行表征学习,使得训练后的自编码器可以根据下位词向量推测出相应的预测关系向量。
在一些实施方式中,如图5b所示,第一训练单元302,包括输入子单元3021、以及控制子单元3022,如下:
输入子单元3021,用于将该正词对样本数据和负词对样本数据输入至自编码器中。
控制子单元3022,用于控制该自编码器迭代计算该正词对样本数据和该负词对样本数据之间的差异值,直至该差异值满足收敛条件,得到训练后的自编码器。
在一些实施方式中,该控制子单元3022,用于控制该自编码器对该正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据;计算该正词对损失数据和负词对损失数据之间的差异值;当检测到该差异值不满足收敛条件时,根据该差异值更新该自编码器中的网络损失参数,并返回执行控制该自编码器对该正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据的步骤;当检测到该差异值满足收敛条件时,得到训练后的自编码器。
提取单元303,用于通过训练后的自编码器提取该正词对样本数据和负词对样本数据相应的特征信息。
其中,由于该正词对样本数据和负词对样本数据中可以具有相同的下位词向量,比如具有相同的下位词向量x,该下位词向量x代表“豹子”,所以提取单元303可以通过训练后的自编码器根据该共同的下位词向量x得到预测关系向量。
进一步的,提取单元303可以根据正词对样本数据和负词对样本数据中的上位词向量y和下位词向量x的向量差得到相应的目标关系向量,进而结合该目标关系向量和预测关系向量之间不同的匹配度作为特征信息。
在一些实施方式中,如图5c所示,提取单元303,包括计算子单元3031、确定子单元3032以及生成子单元3033,如下:
计算子单元3031,用于通过训练后的自编码器计算该正词对样本数据和负词对样本数据相应的预测关系向量。
确定子单元3032,用于确定该正词对样本数据和负词对样本数据相应的目标关系向量。
生成子单元3033,用于根据该目标关系向量和预测关系向量之间的匹配度生成相应的特征信息。
在一些实施方式中,该确定子单元3032,用于计算该正词对样本数据相应的正目标关系向量;计算该负词对样本数据相应的负目标关系向量。
在一些实施方式中,该生成子单元3033,用于确定该正目标关系向量和预测关系向量之间的正匹配度;确定该负目标关系向量和预测关系向量之间的负匹配度;根据该正匹配度生成相应的正特征信息,并根据该负匹配度生成相应的负特征信息;将该正特征信息和负特征信息确定为特征信息。
第二训练单元304,用于将该特征信息输入至二分类器中进行训练,得到训练后的二分类器。
其中,该二分类器为基于神经网络建造的,作用为通过对标记好类别的特征信息的基础上学习判断新的待识别词对数据的上下位关系,由于该特征信息为根据正词对样本数据和负词对样本数据生成的,因此,第二训练单元304可以根据正和负的属性对该特征信息进行标记,例如将正词对样本数据相应的特征信息标记为1,将负词对样本数据相应的特征信息标记为0,将标记后的特征信息输入至二分类器进行学习训练,得到训练后的二分类器,使得训练后的二分类器可以根据特征信息识别出相应的上下位判定结果。
在一些实施方式中,该第二训练单元304,用于将该正特征信息和正目标阈值输入至二分类器中进行训练;将该负特征信息和负目标阈值输入至二分类器中进行训练,得到训练后的二分类器。
识别单元305,用于结合该训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
其中,在将自编码器和二分类器训练完成后,该训练后的自编码器具有根据下位词向量推测出相应的预测关系向量的功能,而该训练后二分类器具有根据特征信息识别出相应的上下位判定结果的功能。以此,识别单元305结合该训练后的自编码器和训练后的二分类器可以实现对新的待识别词对数据的上下位关系进行识别,完成上位词的挖掘技术,实现的过程可以为首先将待识别词对输入至该训练后的自编码器中,通过该训练后的自编码器推测出该待识别词对相应的预测关系向量,根据该预测关系向量和待识别词对的测试关系向量之间的匹配度生成相应的测试特征信息,将该测试特征信息输入至训练后的二分类器中,即可实现得到相应的上下位关系判别结果。
在一些实施方式中,如图5d所示,识别单元305可以包括输入子单元3051、计算子单元3052、生成子单元3053以及确定子单元3054,如下:
输入子单元3051,用于获取待识别词对数据中的下位测试词数据,将该下位测试词数据输入训练后的自编码器中,得到相应的预测关系向量。
计算子单元3052,用于获取待识别词对数据中的上位测试词数据,计算该上位测试词数据和下位测试词数据之间的向量距离,得到相应的测试关系向量。
生成子单元3053,用于根据该测试关系向量和预测关系向量之间的匹配度生成相应的测试特征信息。
确定子单元3054,用于将该测试特征信息输入至训练后的二分类器中,确定该待识别词对数据的上下位关系。
在一些实施方式中,该确定子单元3054,用于:将该测试特征信息输入至训练后的二分类器中,得到相应的预测数值;当该预测数值大于预设阈值时,判定该待识别词对数据为上下位关系;当该预测数值不大于预设阈值时,判定该待识别词对数据不为上下位关系。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
由上述可知,本申请实施例通过采集单元301采集正词对样本数据和负词对样本数据;第一训练单元302根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;提取单元303通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息;第二训练单元304将特征信息输入至二分类器中进行训练,得到训练后的二分类器;识别单元305结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。以此,将正负词对样本数据同时对自编码器进行训练,增强自编码器的鲁棒性,且基于训练后的自编码器提取正负词对样本数据相应的特征信息对二分类器进行结合训练,相对于目前的序列标注问题的方案而言,本申请实施例可以实现上下位关系的准确识别,极大的提升了数据处理的效率和上下位关系判定的准确率。
实施例四、
本申请实施例还提供一种服务器,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体控制。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
采集正词对样本数据和负词对样本数据;根据该正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取该正词对样本数据和负词对样本数据相应的特征信息;将该特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合该训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对数据处理方法的详细描述,此处不再赘述。
由上述可知,本申请实施例的服务器可以通过采集正词对样本数据和负词对样本数据;根据正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取正词对样本数据和负词对样本数据相应的特征信息;将特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。以此,将正负词对样本数据同时对自编码器进行训练,增强自编码器的鲁棒性,且基于训练后的自编码器提取正负词对样本数据相应的特征信息对二分类器进行结合训练,相对于目前的序列标注问题的方案而言,本申请实施例可以实现上下位关系的准确识别,极大的提升了数据处理的效率和上下位关系判定的准确率。
实施例五、
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种数据处理方法中的步骤。例如,该指令可以执行如下步骤:
采集正词对样本数据和负词对样本数据;根据该正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;通过训练后的自编码器提取该正词对样本数据和负词对样本数据相应的特征信息;将该特征信息输入至二分类器中进行训练,得到训练后的二分类器;结合该训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。以上对本申请实施例所提供的一种数据处理方法、装置及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种数据处理方法,其特征在于,包括:
采集正词对样本数据和负词对样本数据;
根据所述正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;
通过训练后的自编码器提取所述正词对样本数据和负词对样本数据相应的特征信息;其中,所述通过训练后的自编码器提取所述正词对样本数据和负词对样本数据相应的特征信息,包括:
将所述正词对样本数据中待处理下位词对应的下位词向量和所述负词对样本数据中待处理下位词对应的下位词向量输入所述训练后的自编码器,得到所述待处理下位词的预测关系向量,其中所述待处理下位词为所述正词对样本数据和所述负词对样本数据中共有的下位词;
根据所述正词对样本数据中与所述待处理下位词对应的上位词,确定正目标关系向量;
根据所述负词对样本数据中与所述待处理下位词对应的上位词,确定负目标关系向量;
计算所述正目标关系向量和所述预测关系向量之间的正匹配度;
计算所述负目标关系向量和所述预测关系向量之间的负匹配度;
根据所述正匹配度与所述负匹配度生成特征信息;
将所述特征信息输入至二分类器中进行训练,得到训练后的二分类器;
结合所述训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器的步骤,包括:
将所述正词对样本数据和负词对样本数据输入至自编码器中;
控制所述自编码器迭代计算所述正词对样本数据和所述负词对样本数据之间的差异值,直至所述差异值满足收敛条件,得到训练后的自编码器。
3.根据权利要求2所述的数据处理方法,其特征在于,所述控制所述自编码器迭代计算所述正词对样本数据和所述负词对样本数据之间的差异值,直至所述差异值满足收敛条件,得到训练后的自编码器的步骤,包括:
控制所述自编码器对所述正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据;
计算所述正词对损失数据和负词对损失数据之间的差异值;
当检测到所述差异值不满足收敛条件时,根据所述差异值更新所述自编码器中的网络损失参数,并返回执行控制所述自编码器对所述正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据的步骤;
当检测到所述差异值满足收敛条件时,得到训练后的自编码器。
4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述正匹配度与所述负 匹配度生成特征信息的步骤,包括:
根据所述正匹配度生成相应的正特征信息,并根据所述负匹配度生成相应的负特征信息;
将所述正特征信息和负特征信息确定为特征信息。
5.根据权利要求4所述的数据处理方法,其特征在于,所述将所述特征信息输入至二分类器中进行训练,得到训练后的二分类器的步骤,包括:
将所述正特征信息和正目标阈值输入至二分类器中进行训练;
将所述负特征信息和负目标阈值输入至二分类器中进行训练,得到训练后的二分类器。
6.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述采集正词对样本数据和负词对样本数据的步骤,包括:
采集正词对样本数据;
采集预设的初始负词对样本数据,并将所述初始负词对样本数据输入预设变分自编码器中,生成基于初始负词对样本数据相应的衍生负词对样本数据;
将所述初始负词对样本数据和衍生负词对样本数据合并为负词对样本数据。
7.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述结合所述训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别的步骤,包括:
获取待识别词对数据中的下位测试词数据,将所述下位测试词数据输入训练后的自编码器中,得到相应的预测关系向量;
获取待识别词对数据中的上位测试词数据,计算所述上位测试词数据和下位测试词数据之间的向量距离,得到相应的测试关系向量;
根据所述测试关系向量和预测关系向量之间的匹配度生成相应的测试特征信息;
将所述测试特征信息输入至训练后的二分类器中,确定所述待识别词对数据的上下位关系。
8.根据权利要求7所述的数据处理方法,其特征在于,所述将所述测试特征信息输入至训练后的二分类器中,确定所述待识别词对数据的上下位关系的步骤,包括:
将所述测试特征信息输入至训练后的二分类器中,得到相应的预测数值;
当所述预测数值大于预设阈值时,判定所述待识别词对数据为上下位关系;
当所述预测数值不大于预设阈值时,判定所述待识别词对数据不为上下位关系。
9.一种数据处理装置,其特征在于,包括:
采集单元,用于采集正词对样本数据和负词对样本数据;
第一训练单元,用于根据所述正词对样本数据和负词对样本数据对自编码器进行训练,得到训练后的自编码器;
提取单元,用于通过训练后的自编码器提取所述正词对样本数据和负词对样本数据相应的特征信息;其中,所述提取单元,包括:
计算子单元,用于将所述正词对样本数据中待处理下位词对应的下位词向量和所述负词对样本数据中待处理下位词对应的下位词向量输入所述训练后的自编码器,得到所述待处理下位词的预测关系向量,其中所述待处理下位词为所述正词对样本数据和所述负词对样本数据中共有的下位词;
确定子单元,用于:根据所述正词对样本数据中与所述待处理下位词对应的上位词,确定正目标关系向量;
根据所述负词对样本数据中与所述待处理下位词对应的上位词,确定负目标关系向量;
生成子单元,用于:计算所述正目标关系向量和所述预测关系向量之间的正匹配度;
计算所述负目标关系向量和所述预测关系向量之间的负匹配度;
根据所述正匹配度与所述负匹配度生成特征信息;
第二训练单元,用于将所述特征信息输入至二分类器中进行训练,得到训练后的二分类器;
识别单元,用于结合所述训练后的自编码器和训练后的二分类器对待识别词对数据的上下位关系进行识别。
10.根据权利要求9所述的数据处理装置,其特征在于,所述第一训练单元,包括:
输入子单元,用于将所述正词对样本数据和负词对样本数据输入至自编码器中;
控制子单元,用于控制所述自编码器迭代计算所述正词对样本数据和所述负词对样本数据之间的差异值,直至所述差异值满足收敛条件,得到训练后的自编码器。
11.根据权利要求10所述的数据处理装置,其特征在于,所述控制子单元,用于:
控制所述自编码器对所述正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据;
计算所述正词对损失数据和负词对损失数据之间的差异值;
当检测到所述差异值不满足收敛条件时,根据所述差异值更新所述自编码器中的网络损失参数,并返回执行控制所述自编码器对所述正词对样本数据和负词对样本数据进行损失运算,获取正词对损失数据和负词对损失数据的步骤;
当检测到所述差异值满足收敛条件时,得到训练后的自编码器。
12.根据权利要求11所述的数据处理装置,其特征在于,所述生成子单元,用于:
确定所述正目标关系向量和预测关系向量之间的正匹配度;
确定所述负目标关系向量和预测关系向量之间的负匹配度;
根据所述正匹配度生成相应的正特征信息,并根据所述负匹配度生成相应的负特征信息;
将所述正特征信息和负特征信息确定为特征信息。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的数据处理方法中的步骤。
CN201911114440.9A 2019-11-14 2019-11-14 一种数据处理方法、装置及计算机可读存储介质 Active CN111046655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911114440.9A CN111046655B (zh) 2019-11-14 2019-11-14 一种数据处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911114440.9A CN111046655B (zh) 2019-11-14 2019-11-14 一种数据处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111046655A CN111046655A (zh) 2020-04-21
CN111046655B true CN111046655B (zh) 2023-04-07

Family

ID=70232008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911114440.9A Active CN111046655B (zh) 2019-11-14 2019-11-14 一种数据处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111046655B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396513B (zh) * 2020-11-27 2024-02-20 中国银联股份有限公司 一种数据处理的方法及装置
CN112188487B (zh) * 2020-12-01 2021-03-12 索信达(北京)数据技术有限公司 一种提高用户鉴权准确性的方法与系统
CN113688238A (zh) * 2021-08-19 2021-11-23 支付宝(杭州)信息技术有限公司 识别词语上下位关系的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633511A (zh) * 2017-09-14 2018-01-26 南通大学 一种基于自编码神经网络的风机视觉检测系统
CN108694443A (zh) * 2017-04-05 2018-10-23 富士通株式会社 基于神经网络的语言模型训练方法和装置
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备
CN110209832A (zh) * 2018-08-08 2019-09-06 腾讯科技(北京)有限公司 上下位关系的判别方法、系统和计算机设备
WO2019184118A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694443A (zh) * 2017-04-05 2018-10-23 富士通株式会社 基于神经网络的语言模型训练方法和装置
CN107633511A (zh) * 2017-09-14 2018-01-26 南通大学 一种基于自编码神经网络的风机视觉检测系统
WO2019184118A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN110209832A (zh) * 2018-08-08 2019-09-06 腾讯科技(北京)有限公司 上下位关系的判别方法、系统和计算机设备
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Also Published As

Publication number Publication date
CN111046655A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
KR102071582B1 (ko) 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111046655B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN111709497B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN110472002B (zh) 一种文本相似度获取方法和装置
CN111079833B (zh) 图像识别方法、装置以及计算机可读存储介质
CN113139664B (zh) 一种跨模态的迁移学习方法
CN111242019B (zh) 视频内容的检测方法、装置、电子设备以及存储介质
CN111708823B (zh) 异常社交账号识别方法、装置、计算机设备和存储介质
CN111666919A (zh) 一种对象识别方法、装置、计算机设备和存储介质
CN111506729B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN112418302A (zh) 一种任务预测方法及装置
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN113590876A (zh) 一种视频标签设置方法、装置、计算机设备及存储介质
CN112115131A (zh) 数据去噪方法、装置、设备及计算机可读存储介质
CN115168720A (zh) 内容交互预测方法以及相关设备
CN114581702A (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN112633425B (zh) 图像分类方法和装置
CN114611692A (zh) 模型训练方法、电子设备以及存储介质
CN113821634A (zh) 内容分类方法、装置、电子设备和存储介质
CN113590803A (zh) 一种数据处理方法、装置、存储介质和计算机设备
Kasaei et al. An adaptive object perception system based on environment exploration and Bayesian learning
CN113704544A (zh) 一种视频分类方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021448

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant