CN111737456A

CN111737456A - 一种语料信息的处理方法和装置

Info

Publication number: CN111737456A
Application number: CN202010413342.1A
Authority: CN
Inventors: 王璋琪; 卢亿雷
Original assignee: Enyike Beijing Data Technology Co ltd
Current assignee: Enyike Beijing Data Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-10-02
Anticipated expiration: 2040-05-15
Also published as: CN111737456B

Abstract

本申请实施例公开了一种语料信息的处理方法和装置。所述方法包括：对获取到的语料进行多维的词向量的转换；通过计算所述词向量与预先获取的理论词向量的损失信息，确定所述词向量的特征维度；按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息；根据所述词向量的分布信息，控制对所述语料的标注操作。

Description

一种语料信息的处理方法和装置

技术领域

本申请实施例涉及信息处理领域，尤指一种语料信息的处理方法和装置。

背景技术

语料模型可以划分为上游的语料处理以及下游的分析模型；其中，语料处理的对象是进过标注的语料，其中标注可以由人工进行标注，或者，采用语料模进行语料的标注。由于人工语料标注往往是耗时耗力的问题，所以常用的标注手段是语料模型。因为语料模型对训练集有着极大的依赖性，因此对于语言模型的训练不能抛开训练集的考虑。

训练集的处理可以是将一个通用的训练充分的模型和一个特定的训练不充分的模型通过某种方式组合成一个新的模型。其中，训练通用模型需要针对多个领域搜集大量的语料并进行手工标注，其过程往往是无选择性且极耗精力以及财力的。

在相关技术中，可以采用文本聚类的方式对语料进行分析，例如，采用K最近邻(KNN，K-Nearest Neighbor)分类算法。KNN算法的核心策略是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

在实际应用中，发现上述分类算法存在着效率低、准确性有待提高的问题。

发明内容

为了解决上述任一技术问题，本申请实施例提供了一种语料信息的处理方法和装置。

为了达到本申请实施例目的，本申请实施例提供了一种语料信息的处理方法，包括：

对获取到的语料进行多维的词向量的转换；

通过计算所述词向量与预先获取的理论词向量的损失信息，确定所述词向量的特征维度；

按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息；

根据所述词向量的分布信息，控制对所述语料的标注操作。

一种语料信息的处理装置，包括：

获取模块，被设置为对获取到的语料进行多维的词向量的转换；

确定模块，被设置为利用预先获取的PIP损失函数，确定词向量的特征维度；

聚类模块，被设置为按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息；

控制模块，被设置为根据所述词向量的分布信息，控制对所述语料的标注操作。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上文所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文所述的方法。

上述技术方案中的一个技术方案具有如下优点或有益效果：

对获取到的语料进行多维的词向量的转换，通过计算所述词向量与预先获取的理论词向量的损失信息，确定所述词向量的特征维度，按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息，根据所述词向量的分布信息，控制对所述语料的标注操作，实现通过计算损失信息达到语料模型的自适应目的，有效提高标注操作的效率。

本申请实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请实施例的实施例一起用于解释本申请实施例的技术方案，并不构成对本申请实施例技术方案的限制。

图1为本申请实施例提供的语料信息的处理方法的流程图；

图2为本申请实施例提供的自适应语言模型的处理方法的流程图；

图3为本申请实施例提供的自适应语言模型的调整方法的流程图；

图4为本申请实施例提供的语料信息的处理装置的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请实施例中的实施例及实施例中的特征可以相互任意组合。

在实现本申请过程中，发明人对相关技术进行了技术分析，发现相关技术至少存在如下问题，包括：

1、在对文本聚类前的特征提取步骤是直接进行tf-idf，把文本转成数字向量，而这种处理方法并不能捕捉到字与字或者词与词之间的联系；

2、KNN分类方案的计算量较大，无法应用于数据量大或者维度较大的数据集；而且这两种方式无法很好的捕捉数据的分布，不能提供关于数据的其他信息。

图1为本申请实施例提供的语料信息的处理方法的流程图一种语料信息的处理方法，包括：

步骤101、对获取到的语料进行多维的词向量的转换；

在一个示例性实施例中，可以采用glove对语料进行词向量转换。glove训练后的词向量可以选取想要的维度数目，可以对比了不同大小的维度的词向量，以便后续获得一个比较好的聚类结果。

步骤102、利用预先获取的PIP(Pairwise Inner Product，双内积)损失函数，确定词向量的特征维度；

在一个示例性实施例中，语料转换为词向量其中的一个难点在于如何确立特征维度，如果使用了word2vec方式，需要考虑到字与字之间的关联，可以基于word embedding(word2vec的本质是word embedding)的酉不变性质，使用PIP损失函数来确定词向量的特征维度。

在一个示例性实施例中，所述损失信息是通过预先获取的双内积PIP损失函数确定的，其中PIP损失的计算表达式如下，包括：

f(x,y)＝‖xx^T-yy^T‖

其中，y＝xU,UU^T＝U^TU＝I；

其中，x为给定数据训练的词向量，y为理想下的词向量，U为矩阵，I为单位矩阵；

其中，

其中，d为理想情况下的维度，k是实际选择的维度，α由词向量方法决定的，λ为M的奇异值，共现矩阵为

其中矩阵Z的奇异值独立同分布，均值为0，方差为σ，共现矩阵M为glove之后的词向量矩阵。

在上述表达式中，

为偏差；

为噪音。

步骤103、按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息；

在一个示例性实施例中，聚类分析可以采用相关技术中的聚类算法，或者，采用本申请实施例提供的方法，适用于数据量较大的情况。

在一个示例性实施例中，所述按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息，包括：

获取基于广义双曲分布的模型；

利用基于广义双曲分布的模型对词向量的特征维度进行聚类分析，得到以密度信息进行标记的词向量的分布信息。

广义双曲分布具有对对称、非对称、以及对异常值兼容的特性，在一些条件下，广义双曲分布近似为高斯分布或者T分布。

利用广义双曲分布模型的特性进行聚类分析，便于对大数据进行处理，提高数据的处理效率。

步骤104、根据所述词向量的分布信息，控制对所述语料的标注操作。

在一个示例性实施例中，聚类之后取密度最高的多个点进行标注，由于密度高的位置对应的词向量具有特征性，即该词向量的特征性要高于其他词向量，通过对具有特征性的词向量，达到有选择性的标注的目的的同时，还能覆盖大部分词向量的特征。

在一个示例性实施例中，所述根据所述词向量的分布信息，控制对所述语料的标注操作，包括：

根据所述词向量分布信息，选择密度最高的N处的词向量作为第一轮标注操作对象，其中N为正整数；

在得到第一轮标注操作的结果后，控制预先设置的深度学习模型根据第一轮标注操作的操作结果执行半监督学习，得到深度学习模型对词向量的标注结果；

根据所述深度学习模型对词向量的标注结果，对词向量进行聚类分析，得到新的分布信息；

选择所述新的分布信息中符合边界点的判断条件的词向量作为第二轮标注操作对象；

在得到第二轮标注操作的结果，控制预先设置的深度学习模型根据第二轮标注操作的操作结果执行半监督学习，得到预测的语料标签。

在聚类分析之后，取密度最高的多个点进行标注，其中由于所选择的点具有特征性，可做到有选择性的标注；再基于该第一次标注结果进行标注后，再次放回深度学习模型进行再次分类，取分类后的难分割点(边界点)进行再次标注，将第二次标注之后获得的预测标签可作为最终标签使用，用于进行语料的通用语言模型训练。

本申请实施例提供的方法，对获取到的语料进行多维的词向量的转换，通过计算所述词向量与预先获取的理论词向量的损失信息，确定所述词向量的特征维度，按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息，根据所述词向量的分布信息，控制对所述语料的标注操作，实现通过计算损失信息达到语料模型的自适应目的，有效提高标注操作的效率。

下面以本申请实施例提供的方法进行说明：

图2为本申请实施例提供的自适应语言模型的处理方法的流程图。如图2所示，图2所示方法包括：

步骤201、搜索语料；

利用网络爬虫从预设的网站下载语料；

步骤202、语料的词向量转换；

与相关技术中将语料转换为数字向量不同，本申请实施例中将语料转换为词向量，以保存字词之间的关联关系。

步骤203、选取合适的词向量维度；

可以利用PIP损失函数计算获取到的词向量与理论值确定的词向量的损失信息，来确定词向量的维度。

步骤204、基于广义双曲分布模型进行聚类；

通过聚类分析来获取词向量的分布信息，根据分布的密度，确定词向量的特征所集中的位置，并基于所集中的位置，确定特征点；

步骤205、对聚类中得到的特征点进行第一轮标注；

该步骤中实现对具有普适性的特征的词向量进行标注，达到覆盖大多数词向量的目的；

步骤206、进行半监督学习后取特征点进行第二轮标注；

该步骤所取的特征点是对在第一轮标注中所遗漏的特征进行选择，从而达到全面覆盖的面对；

步骤207、将所有点再次进行半监督学习后可得到预测的语料标签

步骤208、对训练集进行通用模型训练

本申请实施例提供的方法，结合主动学习和自适应算法大大减少了语言模型训练的成本，提高语言模型的训练效率和准确性。

图3为本申请实施例提供的自适应语言模型的调整方法的流程图。如图3所示，图3所示方法包括：

在外部通过输入接口输入语料后，可以通过语言模型应用界面完成对语料的处理，将处理结果通过输出接口输出；

在输出处理结果后，如果检测到对处理结果的修正，可以将修正信息反馈卡给用户模型；以便语言模型应用界面后续可以结合用户模型和通用训练模型为用户提供个性化的管理需要。

自适应模型利用了最大后验概率算法(Maximum a Posteriori,MAP)。通用模型训练后可获得相应的参数，语言模型自适应就是在获得新的观测数据后重新估计模型参数集。MAP理论就是获得是后验概率可达到最大的模型参数集。该过程有三个原则：

自适应应该尽可能多的改正由背景语言模型带来的错误；

自适应需适当，因为太剧烈的自适应会使得整个语言偏离通用模型太多，甚至会破坏整个语言模型；

太缓慢的自适应会影响语言模型的使用，因此自适应必须足够快速。

做到有选择的自适应：有些用户在过程中修改了其中的书写错误，但因语言模型本身准确性高，因此没必要对整体做相应的修改；

在用户模型中，输入的作为自适应的语料还是太少，因此有必要将用户输入语料加权重才能起到效果；

若每次更新只是增加某个新词，因此重新修改模型消耗太大，所以当需修改的单元已存在在通用模型的情况下，只以该次做自适应。

图4为本申请实施例提供的语料信息的处理装置图。如图4所示，图4所示方法包括：

确定模块，被设置为通过计算所述词向量与预先获取的理论词向量的损失信息，确定所述词向量的特征维度；

在一个示例性实施例中，所述损失信息是通过预先获取的PIP损失函数确定的，其中PIP损失的计算表达式如下，包括：

f(x,y)＝‖xx^T-yy^T‖

其中，y＝xU,UU^T＝U^TU＝I；

其中，

其中，d为理想情况下的维度，k是实际选择的维度，α由词向量装置决定的，λ为M的奇异值，共现矩阵为

在一个示例性实施例中，所述聚类模块包括：

获取单元，被设置为获取基于广义双曲分布的模型；

分析单元，被设置为利用基于广义双曲分布的模型对词向量的特征维度进行聚类分析，得到以密度信息进行标记的词向量的分布信息。

在一个示例性实施例中，所述控制模块包括：

第一选择单元，被设置为根据所述词向量分布信息，选择密度最高的N处的词向量作为第一轮标注操作对象，其中N为正整数；

第一控制单元，被设置为在得到第一轮标注操作的结果后，控制预先设置的深度学习模型根据第一轮标注操作的操作结果执行半监督学习，得到深度学习模型对词向量的标注结果；

聚类单元，用于根据所述深度学习模型对词向量的标注结果，对词向量进行聚类分析，得到新的分布信息；

第二选择单元，被设置为选择所述新的分布信息中符合边界点的判断条件的词向量作为第二轮标注操作对象；

第二控制单元，被设置为在得到第二轮标注操作的结果，控制预先设置的深度学习模型根据第二轮标注操作的操作结果执行半监督学习，得到预测的语料标签。

本申请实施例提供的装置，对获取到的语料进行多维的词向量的转换，通过计算所述词向量与预先获取的理论词向量的损失信息，确定所述词向量的特征维度，按照所述特征维度，对词向量进行聚类分析，得到词向量的分布信息，根据所述词向量的分布信息，控制对所述语料的标注操作，实现通过计算损失信息达到语料模型的自适应目的，有效提高标注操作的效率。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上文任一项中所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。