CN110516029A

CN110516029A - 一种数据处理方法、设备及计算机存储介质

Info

Publication number: CN110516029A
Application number: CN201910748510.XA
Authority: CN
Inventors: 李喜莲; 林士翔; 雷欣; 李志飞
Original assignee: Go Out And Ask (wuhan) Information Technology Co Ltd
Current assignee: Mobvoi Innovation Technology Co Ltd
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-29
Anticipated expiration: 2039-08-14
Also published as: CN110516029B

Abstract

本发明实施例公开了一种数据处理方法、设备及计算机存储介质，所述方法包括：获取待查词向量；根据所述待查词向量对索引数据结构进行索引，得到对应于所述待查词向量的同义词数据；根据所述待查词向量对所得到的同义词数据进行递归计算，得到对应于所述待查词向量的缩略词数据。本发明实施例通过根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据；克服了传统方式中当词向量维度很大，候选集合很多时，查询词向量需要占用很大的内存，并且查询速度受限的问题，显著了提高词向量的查询速度，在降低内存的情况下有效提高了词向量查询效率。

Description

一种数据处理方法、设备及计算机存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理方法、设备及计算机存储介质。

背景技术

随着信息技术的不断发展，机器在人们的日常生活中发挥着越来越重要的作用，因此，机器功能设计中，用于与人类沟通的对话系统功能显得尤为重要。

现有的对话系统中有很多需要计算同义词(语义相近词)或者缩略词(简称词)的需求，但传统方法中，计算相近词时采用人工标注的方法成本太高，并且较难大规模扩展。近些年来，可通过词向量(word2vec，word to vector)计算相近词，但是当词向量维度很大，候选集合也就是词的数量很多时，词向量需要占用很大的内存，并且查询速度受限。

发明内容

本发明实施例为了有效克服现有技术所存在的上述缺陷，创造性地提供一种数据处理方法，所述方法包括：获取待查词向量；根据所述待查词向量对索引数据结构进行索引，得到对应于所述待查词向量的同义词数据；根据所述待查词向量对所得到的同义词数据进行递归计算，得到对应于所述待查词向量的缩略词数据。

在一可实施方式中，所述根据所述待查词向量对所述索引数据结构进行索引包括：根据所述待查词向量对所述索引数据结构进行欧式距离索引。

在一可实施方式中，在根据所述待查词向量对索引数据结构进行索引之前，所述方法还包括：获取词向量数据集；通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。

在一可实施方式中，所述通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构包括：根据K近邻值逐次随机选取所述词向量数据集中的两个分割点，K的取值为大于1的正整数；利用所选取的两个分割点对所述词向量数据集进行分割，直至得到包括有K近邻数据的数据结构树，所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据，N的取值为小于等于K的正整数；将所述包括有K近邻数据的数据结构树确定为索引数据结构。

在一可实施方式中，利用所选取的两个分割点对所述词向量数据集进行分割，包括：通过垂直于所选取的两个分割点的等距离超平面来对所述词向量数据集进行分割。

本发明实施例另一方面提供一种数据处理设备，包括：数据获取模块，用于获取待查词向量；数据处理模块，用于根据所述待查词向量对索引数据结构进行索引，得到对应于所述待查词向量的同义词数据；所述数据处理模块还用于，根据所述待查词向量对所得到的同义词数据进行递归计算，得到对应于所述待查词向量的缩略词数据。

在一可实施方式中，所述数据处理模块还用于，根据所述待查词向量对所述索引数据结构进行欧式距离索引。

在一可实施方式中，所述数据获取模块还用于，获取词向量数据集；所述数据处理模块还用于，通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。

在一可实施方式中，所述数据获取模块还用于，根据K近邻值逐次随机选取所述词向量数据集中的两个分割点，K的取值为大于1的正整数；所述数据处理模块还用于，利用所选取的两个分割点对所述词向量数据集进行分割，直至得到包括有K近邻数据的数据结构树，所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据，N的取值为小于等于K的正整数；所述数据处理模块还用于，将所述包括有K近邻数据的数据结构树确定为索引数据结构。

本发明实施例另一方面提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，当所述指令被执行时用于执行上述中任一项的数据处理方法。

本发明实施例所提供的数据处理方法、设备及计算机可读存储介质，通过对词向量数据集构建索引数据结构后，再根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据，能够显著提高词向量的查询速度，在降低内存的情况下有效提高词向量查询效率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明一实施例所提供的一种数据处理方法的一种实现流程示意图；

图2为本发明一实施例所提供的一种数据处理方法的另一种实现流程示意图；

图3为本发明一实施例所提供的一种数据处理设备的组成结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参考图1，本发明实施例一方面提供一种数据处理方法，方法包括：

步骤101，获取待查词向量；

步骤102，根据待查词向量对索引数据结构进行索引，得到对应于待查词向量的同义词数据；

步骤103，根据待查词向量对索引数据结构中的同义词数据进行递归计算，得到对应于待查词向量的缩略词数据。

本发明实施例中，先通过步骤101获取待查词向量，再通过步骤102根据待查词向量对索引数据结构进行索引，索引方式本发明实施例在此不进行具体限制，索引方式可以为cos距离(Cosine Distance)索引、欧式距离索引或曼哈顿距离索引，当然还可以为其他索引方式。本发明实施例通过对词向量数据集构建索引数据结构后，再根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据，能够显著提高词向量的查询速度，在降低内存的情况下有效提高词向量查询效率。

本发明实施例中，根据待查词向量对索引数据结构进行索引，当采用欧式距离索引时，即根据待查词向量信息和索引数据结构节点的分割超平面，从索引数据结构的根节点开始遍历到叶子节点，通过索引距离计算相近词得到对应于待查词向量的同义词数据；其中，具体的可以通过索引马氏距离、欧式距离或曼哈顿距离，本发明实施例在此不进行具体限制。待查词向量的缩略词数据可以通过对获得的同义词数据进行递归计算得到，递归的计算方法能够有效减少计算量，从而提高词向量的查询效率。

本发明实施例在一实际应用场景建索引的过程中，当索引树个数为30时，内存占用仅约30G，建好索引数据结构后占用硬盘空间约10G；查询过程内存占用不超过500M，实现了非常小的内存占用率。本发明实施例的查询方法查询一条约耗时0.05ms，实现了大幅提高查询效率的效果。

在一实施例中，当待查词为“中国人民大学附属中学”时，采用Word2vec索引同义词时，得到的结果为：“人大附中、人民大学附属中学、北京人大附中、清华大学附属中学、北京师范大学附属实验中学、北京市第四中学、北京十一学校、北师大实验中学、北京市十一学校、北京大学附属中学”，采用Word2vec索引缩略词时，得到的结果为：“人民大学附属中学、附属中学、大学附属中学、人大附中、中国人民大学附中、人大附、民大附中、附中、中国中学、人民大学附中、中国人大附中、民大附“；而采用TF索引同义词时，得到的结果为：“中国人民大学附中、人民大学附属中学、中国人民大学附属小学、中国人民大学、中国人民大学哲学院、中央民族大学附属中学、中国人民大学哲学系”，采用TF索引缩略词时，得到的结果为：“中国人民大学、人民大学附属中学、中国人民大、人民大学、大学附属中学、中国人民大学附中、人民大学附中、中国人大附中、人民中学、中国人大”。可见基于Word2vec索引和TF向量索引都实现了快速有效的查询相近词，不同点在于，基于Word2vec索引的同义词和缩略词较侧重语义相近，而基于TF向量索引的同义词和缩略词较侧重语法结构相似。因此，在实际应用时可根据不同的应用使用不同的词向量数据集来进行相近词查询，也可以将多种方案的结果做融合，甚至将多种词向量数据集进行融合后再进行相近词查询。

在一可实施方式中，根据待查词向量对索引数据结构进行索引包括：根据待查词向量对索引数据结构进行欧式距离索引，得到同义词数据。由于欧式距离的索引计算方式较为简单，采用欧式距离进行索引能够有助于提高同义词数据的计算效率。

请参考图2，在一可实施方式中，在根据待查词向量对索引数据结构进行索引之前，方法还包括：

步骤104，获取词向量数据集；

步骤105，通过近似最近邻搜索算法根据词向量数据集构建索引数据结构。

本发明实施例中，步骤104中获取的词向量数据集可以从开源词向量数据库进行获取，如基于腾讯人工智能实验室(AI lab)开源的882万中文Word2vec(word to vector，词向量)，维度为200；也可以从字符TF(term frequency，词频)向量进行获取，大小为882万，维度为500，当然，还可以从其他词向量数据库获取，本发明实施例在此不对词向量数据集的获取来源以及方式进行限制。

本发明实施例中，考虑到通常所采用的词向量数据维度较高，而在大规模高维数据环境下，采用存储空间少，查找效率高的近似最近邻搜索算法能够有效提高词向量的查询效率。

其中，为了实现近似搜索，近似最近邻搜索算法往往基于一些数据结构，如可以为：测度树，K均值树等，本发明实施例在此不对近似最近邻搜索算法的数据结构进行具体限制。

在一可实施方式中，通过近似最近邻搜索算法根据词向量数据集构建索引数据结构包括：根据K近邻值逐次随机选取词向量数据集中的两个分割点，K的取值为大于1的正整数；利用所选取的两个分割点对词向量数据集进行分割，直至得到包括有K近邻数据的数据结构树，包括有K近邻数据的数据结构树中每个数据集合包括有N个词向量数据，N的取值为小于等于K的正整数；将包括有K近邻数据的数据结构树确定为索引数据结构。

本发明实施例中，通过在获取的词向量数据集空间中，根据K近邻值逐次随机选择两个点作为分割点，以使数据结构树分割的尽量均匀以保证检索复杂度，其中，K的取值为大于1的正整数，然后利用所选取的两个分割点对词向量数据集合进行分割，达到分割整个空间的效果，直至分割结果中每个集合中的词向量数据最多为K个，也即当区域内的节点数小于K的时候便停止递归建树，这样，便得到了包括有K近邻数据的数据结构树，其中，数据结构树中每个数据集合包含有N个词向量数据，N的取值为小于等于K的正整数。将此包括有K近邻数据的数据结构树确定为索引数据结构，便完成了通过近似最近邻搜索根据词向量数据集构建索引数据结构的效果，相对于最近邻的穷举搜索法，采用近似最近邻搜索算法可以在不显著降低匹配精度的情况下，降低算法的复杂度，速度相比于准确搜索有数量级上的提高。

在一可实施方式中，利用所选取的两个分割点对词向量数据集进行分割包括：通过垂直于所选取的两个分割点的等距离超平面来对词向量数据集进行分割。这样的分割方式能够使数据结构树分割的尽量均匀以保证检索复杂度，有利于提高检索结果的准确率。

在一可实施方式中，索引数据结构包括有一个或多个包括有K近邻数据的数据结构树。由于仅建立一颗数据结构树时可能存在最近邻不和查询点在同一叶结点上的问题，因此为提高查询准确率，可以建立多颗数据结构树，即索引数据结构可以包括一棵或多颗数据结构树，这样查询待查词向量点遍历树的时候就可以实现路径冗余，节省更多资源占用率，并有效提高查询结果的准确率。

请参考图3，本发明另一方面提供一种数据处理设备，设备包括：

数据获取模块201，用于获取待查词向量；

数据处理模块202，用于根据待查词向量对索引数据结构进行索引，得到对应于待查词向量的同义词数据；

数据处理模块202还用于，根据待查词向量对索引数据结构中的同义词数据进行递归计算，得到对应于待查词向量的缩略词数据。

本发明实施例中，先通过数据获取模块201获取待查词向量，再通过数据处理模块202根据待查词向量对索引数据结构进行索引，索引方式本发明实施例在此不进行具体限制，索引方式可以为cos距离(Cosine Distance)索引、欧式距离索引或曼哈顿距离索引，当然还可以为其他索引方式。本发明实施例通过对词向量数据集构建索引数据结构后，再根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据，能够显著提高词向量的查询速度，在降低内存的情况下有效提高词向量查询效率。

在一可实施方式中，数据处理模块202还用于，根据待查词向量对索引数据结构进行欧式距离索引，得到同义词数据。由于欧式距离的索引计算方式较为简单，采用欧式距离进行索引能够有助于提高同义词数据的计算效率。

在一可实施方式中，数据获取模块201还用于，获取词向量数据集；

数据处理模块202还用于，通过近似最近邻搜索算法根据词向量数据集构建索引数据结构。

本发明实施例中，数据获取模块201获取的词向量数据集可以从开源词向量数据库进行获取，如基于腾讯人工智能实验室(AI lab)开源的882万中文Word2vec(word tovector，词向量)，维度为200；也可以从字符TF(term frequency，词频)向量进行获取，大小为882万，维度为500，当然，还可以从其他词向量数据库获取，本发明实施例在此不对词向量数据集的获取来源以及方式进行限制。

在一可实施方式中，数据获取模块201还用于，根据K近邻值逐次随机选取词向量数据集中的两个分割点，K的取值为大于1的正整数；数据处理模块202还用于，利用所选取的两个分割点对词向量数据集进行分割，直至得到包括有K近邻数据的数据结构树，包括有K近邻数据的数据结构树中每个数据集合包括有N个词向量数据，N的取值为小于等于K的正整数；数据处理模块202还用于，将包括有K近邻数据的数据结构树确定为索引数据结构。

在一可实施方式中，数据处理模块202还用于，通过垂直于所选取的两个分割点的等距离超平面对词向量数据集进行分割。这样的分割方式能够使数据结构树分割的尽量均匀以保证检索复杂度，有利于提高检索结果的准确率。

本发明另一方面提供一种计算机可读存储介质，存储介质中存储有计算机可执行指令，当指令被执行时用于执行上述任一项的数据处理方法。

这里需要指出的是：以上实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，对于本发明实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

本发明实施例中，多个步骤之间的实现顺序在不影响实现目的的情况下可以替换。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待查词向量；

根据所述待查词向量对索引数据结构进行索引，得到对应于所述待查词向量的同义词数据；

根据所述待查词向量对所得到的同义词数据进行递归计算，得到对应于所述待查词向量的缩略词数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待查词向量对所述索引数据结构进行索引包括：

根据所述待查词向量对所述索引数据结构进行欧式距离索引。

3.根据权利要求1或2所述的方法，其特征在于，在根据所述待查词向量对索引数据结构进行索引之前，所述方法还包括：

获取词向量数据集；

通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。

4.根据权利要求3所述的方法，其特征在于，所述通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构包括：

根据K近邻值逐次随机选取所述词向量数据集中的两个分割点，K的取值为大于1的正整数；

利用所选取的两个分割点对所述词向量数据集进行分割，直至得到包括有K近邻数据的数据结构树，所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据，N的取值为小于等于K的正整数；

将所述包括有K近邻数据的数据结构树确定为索引数据结构。

5.根据权利要求4所述的方法，其特征在于，利用所选取的两个分割点对所述词向量数据集进行分割，包括：

通过垂直于所选取的两个分割点的等距离超平面来对所述词向量数据集进行分割。

6.一种数据处理设备，其特征在于，包括：

数据获取模块，用于获取待查词向量；

数据处理模块，用于根据所述待查词向量对索引数据结构进行索引，得到对应于所述待查词向量的同义词数据；

所述数据处理模块还用于，根据所述待查词向量对所得到的同义词数据进行递归计算，得到对应于所述待查词向量的缩略词数据。

7.根据权利要求6所述的设备，其特征在于，所述数据处理模块还用于，根据所述待查词向量对所述索引数据结构进行欧式距离索引。

8.根据权利要求6或7所述的设备，其特征在于，所述数据获取模块还用于，获取词向量数据集；

所述数据处理模块还用于，通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。

9.根据权利要求8所述的设备，其特征在于，所述数据获取模块还用于，根据K近邻值逐次随机选取所述词向量数据集中的两个分割点，K的取值为大于1的正整数；

所述数据处理模块还用于，利用所选取的两个分割点对所述词向量数据集进行分割，直至得到包括有K近邻数据的数据结构树，所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据，N的取值为小于等于K的正整数；

所述数据处理模块还用于，将所述包括有K近邻数据的数据结构树确定为索引数据结构。

10.一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，当所述指令被执行时用于执行权利要求1-5中任一项的数据处理方法。