CN111177403A

CN111177403A - 样本数据的处理方法和装置

Info

Publication number: CN111177403A
Application number: CN201911293462.6A
Authority: CN
Inventors: 张东; 卢亿雷; 刘成鹏
Original assignee: Enyike Beijing Data Technology Co ltd
Current assignee: Enyike Beijing Data Technology Co ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-19
Anticipated expiration: 2039-12-16
Also published as: CN111177403B

Abstract

本申请实施例公开了一种样本数据的处理方法和装置。所述方法包括：获取样本数据中预测词的特征信息；计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息；对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息；根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词。

Description

样本数据的处理方法和装置

技术领域

本申请实施例涉及信息处理领域，尤指一种样本数据的处理方法和装置。

背景技术

知识图谱是人工智能应用不可或缺的基础资源，在语义搜索、问答系统、个性化推荐等互联网应用中占有重要地位。知识图谱的构建过程分为三部分：信息抽取、知识融合和知识加工，其中，信息抽取涉及到的关键技术包括：实体抽取、属性抽取和关系抽取。在数据量充足的情况下，目前比较流行的信息抽取技术是利用深度学习神经网络来抽取语料中的实体、属性和关系构建三元组。但是在领域知识图谱中数据比较缺乏，深度学习模型不适用的情况下，构建知识图谱成为行业领域的难点。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种样本数据的处理方法和装置。

为了达到本申请实施例目的，本申请实施例提供了一种样本数据的处理方法，包括：

获取样本数据中预测词的特征信息；

计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息；

对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息；

根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词。

在一个示例性实施例中，所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息，包括：

获取在同一特征信息下预测词对应的内容长度与训练词对应的内容长度的差值；

判断所述差值是否大于预先设置的长度阈值，得到判断结果；

如果判断结果为大于所述长度阈值，则利用预先获取的余弦相似度的计算策略，对同一特征信息上预测词对应的内容和训练词对应的内容进行计算，确定所述预测词和所述训练词在同一特征信息的相似度信息；

如果判断结果为小于或等于所述长度阈值，则利用预先获取的Jaccard相似度的计算策略，对同一特征信息上预测词对应的内容和训练词对应的内容进行计算，确定所述预测词和所述训练词在同一特征信息的相似度信息。

在一个示例性实施例中，所述对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息，包括：

在利用余弦相似度的计算策略确定同一特征信息的相似度时，获取同一个训练词的每个特征信息的相似度信息，其中所述相似度信息包括每个特征信息的相似度的均值、方差和标准差中的至少一个；对同一个训练词的每个特征信息的相似度信息进行高斯归一化处理，得到所述训练词与所述预测词的相似度信息；

在利用Jaccard相似度的计算策略确定同一特征信息的相似度时，获取同一个训练词的每个特征信息的相似度信息，对同一个训练词的每个特征信息的相似度信息进行最大值最小值归一化处理，得到所述训练词与所述预测词的相似度信息。

在一个示例性实施例中，所述根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词之后，还包括：

获取对候选词的标注结果，其中所述标注结果包括所述候选词对应的类别信息；

根据所述候选词的标注结果，确定所述预测词的类别信息。

在一个示例性实施例中，所述根据所述候选词的标注结果，确定所述预测词的类别信息，包括：

按照类别信息对应所述候选词进行分类，确定同一类别信息对应的候选词的总数；

根据所述同一类别信息对应的候选词的总数，从所述候选词的类别信息中，选择满足预先设置的高使用率的判断策略的类别信息，作为所述预测词的类别信息。

一种样本数据的处理装置，包括处理器和存储器，其中所述存储器存储有计算机程序，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

获取样本数据中预测词的特征信息；

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息的操作，包括：

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现所述对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息的操作，包括：

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现所述根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词的操作之后，所述处理器调用所述存储器中的计算机程序还实现如下操作，包括：

根据所述候选词的标注结果，确定所述预测词的类别信息。

在一个示例性实施例中，所述处理器调用所述存储器中的计算机程序以实现所述根据所述候选词的标注结果，确定所述预测词的类别信息的操作，包括：

本申请实施例提供的实施例，获取样本数据中预测词的特征信息，计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息，对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息，再根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词，基于预测词的特征信息与训练词的特征信息进行相似度计算，从而确定相似词，提高确定相似词的准确率，为构建知识图谱提供数据积累。

本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例的实施例一起用于解释本申请实施例的技术方案，并不构成对本申请实施例技术方案的限制。

图1为本申请实施例提供的样本数据的处理方法的流程图；

图2为本申请实施例提供的样本数据的处理装置的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请实施例提供的样本数据的处理方法的流程图。图1所示方法包括：

步骤101、获取样本数据中预测词的特征信息；

在一个示例性实施例中，通过预先设置的语料库中，查询所述预测词的解释信息和/或描述信息。

以预测词为“公司”为例进行说明，

1、开放分类：组织；

2、基本信息可以包括：

属性：以营利为目的的企业法人；

曾用名：公班衙；

类型：有限责任公司和股份有限公司；

3、描述信息可以包括：公司是依照公司法在中国境内设立的是以营利为目的的企业法人，包括有限责任公司和股份有限公司。它是适应市场经济社会化大生产的需要而形成的一种企业组织形式。

公司是一个实体，开放分类、描述信息、基本信息中的键值对均可以作为该词的特征。

步骤102、计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息；

在一个示例性实施例中，由于特征信息是对训练词的具体描述和解释，以特征信息为单位，计算训练词与预测词的相似度，更加准确地确定词语间的相关性。

步骤103、对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息；

在计算特征信息的相似度时，计算同一特征信息的相似度，以便更加确定预测词与训练词的相似性；在得到同一个训练词的每个特征信息的相似度后，通过加权计算，确定该训练词与预测词的相似度信息。

在一个示例性实施例中，每个特征信息的相似度信息是通过如下方式计算的，包括：：

获取每个特征信息的特征名称和特征值；将特征名称和特征值作为一组特征信息；

计算同一特征的两组特征信息的特征名称的相似度；以及，计算同一特征的两组特征信息的特征值的相似度；

根据所述特征名称的相似度和特征值的相似度，确定特征信息的相似度信息。

利用特征名称和特征值的相似度共同来确定特征信息的相似度，可以提高特征信息的相似度的计算精准度。

步骤104、根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词；

在一个示例性实施例中，可以根据相似度的数值的大小，按照从大到小的顺序，选择数值最大的K个训练词作为候选词。

本申请实施例提供的方法实施例，获取样本数据中预测词的特征信息，计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息，对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息，再根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词，基于预测词的特征信息与训练词的特征信息进行相似度计算，从而确定相似词，提高确定相似词的准确率，为构建知识图谱提供数据积累。

通过特征信息的内容长度，选择对应的计算方式，可以有效提高计算的准确性。

发明人发现，使用MEMM进行信息抽取操作的识别精度有待提高的原因在于，MEMM针对每个观测值都进行单独标记，无法从全局角度考虑标记之间的关系，因而所得到的标记结果通常是局部最优值，同时，这种方式还可能导致“标记偏置”问题，即当前的标记状态与观测值没有关系，导致识别精度的下降。

为解决领域知识图谱中，因数据量缺乏，无法使用深度模型精确抽取实体、属性、关系的问题，本申请实施例提出通过机器学习的方法将序列标注问题转换成多分类问题，有效提升分类的速度和精度，减小误差，从而提升信息抽取的准确率。

对于领域知识图谱的构建，由于领域数据的缺乏，无法通过深度模型精准的抽取语料中的实体、属性和关系，信息抽取是构建知识图谱过程中最关键的一部分，本发明通过机器学习的方法将序列标注问题转换成多分类问题，利用K最近邻(k-Nearest Neighbor，KNN)分类算法完成对预测词的标注操作。

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法的优点是：①简单，易于理解，易于实现，无需估计参数；②特别适合于多分类问题(multi-modal,对象具有多个类别标签)。

根据所述候选词的标注结果，确定所述预测词的类别信息。

在一个示例性实施例中，训练数据中的K个候选词均已完成标注操作，完成了类别信息的确定，通过读取K个候选词的标注结果即可，其中K为大于等于2的整数。

由于K个候选词与预测词为相似词，则K个候选词的标注结果也同样适用于所述预测词，借助K个候选词的标注结果，完成对预测词的标注操作。

确定K个候选词中哪个类别的词数最多，就作为该预测词对应的类别信息，通过将序列标注问题转换成多分类问题，利用K最近邻(k-Nearest分类算法的特征完成标注操作，即一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别的特征。

通过获取对所述K个候选词的标注结果，其中所述标注结果包括所述候选词对应的类别信息，根据所述K个候选词的标注结果，确定所述预测词的类别信息，通过将序列标注问题转换成多分类问题，有效提升分类的速度和精度，减小误差，从而提升信息抽取的准确率；另外，实现复杂度简单，易于理解，易于实现，无需估计参数，适合于多分类应用场景。

图2为本申请实施例提供的一种基于K邻近算法的样本数据的处理方法的流程图。图2所示方法包括：

步骤201、构建预测词对应的训练语料，其中训练语料中标注有实体、属性和关系。

在训练语料中标注出定义好的实体类别词，属性词(属性也是一种名词性关系)，来作为训练算法的数据；

例如，北京是中国的首都，其中北京和中国的实体类别是地名，首都是属性词。

步骤202、获取预测词的特征信息。

在一个示例性实施例中，预测词的特征信息是利用从语料中获取的实体词，在预先存储的语料库(如，互动百科)中获取该实体词的描述信息，即得到该词的特征信息

以实体词为“公司”为例，公司是一个实体，开放分类、描述信息、基本信息中的键值对均可以作为该词的特征；

步骤203、判断同一特征中的特征词的长度相差是否大于预先设置的第一个数阈值；

在一个示例性实施例中，个数阈值可以设置为2；

如果是，则执行步骤204；否则，执行步骤206；

在一个示例性实施例中，实体词的特征信息可以采用k-v键值对来表示，则两个词的基本信息中k和v都可以作为特征，两个词的k进行比较，v进行比较；

步骤204、使用现有语料对预训练FastText的词向量进行微调得到最终的词向量，并计算每个特征词的逆向文件频率值(Inverse Document Frequency，IDF)，使用FastText词向量计算余弦相似度，利用对应词的IDF加权并取平均，再执行步骤205。

步骤205、对词长度相差大于2的特征，也就是需要用FastText向量计算相似度的特征，计算预测词和训练数据中的每个词的每个特征相似度的均值、方差和标准差；其中，均值、方差和标准差是用来对训练数据中的词的特征的相似度进行高斯归一化，再执行步骤209。

步骤206、使用jaccard计算相似度，并取平均，再执行步骤207。

Jaccard主要是得到两个长度相近的词的相同部分，相同部分越多，词越相近；其中，词的长度相差比较大就用向量计算相似度，比如：中华和中华人民共和国，这两个词就不能使用jaccard来计算相似度。

步骤207、对词长度相差小于等于2的特征也就是需要用jaccard相似度来计算，对预测词和训练数据中每个词的对应特征的相似度进行最大值最小值归一化，再执行步骤208。

步骤208、计算每个词的每个特征相似度的加权和并排序，选择前K个词作为候选词。

其中，加权和所使用的权值可以通过网格搜索并交叉验证获得。

步骤209、比较候选词中同一类别的词数最多中的至少两个类别，将所述至少两个类别作为该预测词的类别信息。

本申请实施例提供的方法，在领域数据缺乏深度模型不适用的情况下，将序列标注问题转换为多分类问题用其他的分类算法来进行信息抽取构建领域知识图谱，通过在复现KNN算法的过程中对算法进行了改进，有效提升了算法的分类准确率和信息抽取的准确率。

获取样本数据中预测词的特征信息；

根据所述候选词的标注结果，确定所述预测词的类别信息。

本申请实施例提供的装置实施例，获取样本数据中预测词的特征信息，计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息，对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息，再根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词，基于预测词的特征信息与训练词的特征信息进行相似度计算，从而确定相似词，提高确定相似词的准确率，为构建知识图谱提供数据积累。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种样本数据的处理方法，其特征在于，包括：

获取样本数据中预测词的特征信息；

2.根据权利要求1所述的方法，其特征在于，所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词之后，还包括：

根据所述候选词的标注结果，确定所述预测词的类别信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述候选词的标注结果，确定所述预测词的类别信息，包括：

6.一种样本数据的处理装置，其特征在于，包括处理器和存储器，其中所述存储器存储有计算机程序，所述处理器调用所述存储器中的计算机程序以实现如下操作，包括：

获取样本数据中预测词的特征信息；

7.根据权利要求6所述的装置，其特征在于，所述处理器调用所述存储器中的计算机程序以实现所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息的操作，包括：

8.根据权利要求7所述的装置，其特征在于，所述处理器调用所述存储器中的计算机程序以实现所述对同一训练词的每个特征信息的相似度进行计算，确定所述训练数据中每个训练词与所述预测词的相似度信息的操作，包括：

9.根据权利要求6所述的装置，其特征在于，所述处理器调用所述存储器中的计算机程序以实现所述根据每个训练词的相似度信息，从所述训练数据中的训练词中，确定符合预先设置的相似词的判断策略的候选词的操作之后，所述处理器调用所述存储器中的计算机程序还实现如下操作，包括：

根据所述候选词的标注结果，确定所述预测词的类别信息。

10.根据权利要求9所述的装置，其特征在于，所述处理器调用所述存储器中的计算机程序以实现所述根据所述候选词的标注结果，确定所述预测词的类别信息的操作，包括：