CN110516029A - 一种数据处理方法、设备及计算机存储介质 - Google Patents

一种数据处理方法、设备及计算机存储介质 Download PDF

Info

Publication number
CN110516029A
CN110516029A CN201910748510.XA CN201910748510A CN110516029A CN 110516029 A CN110516029 A CN 110516029A CN 201910748510 A CN201910748510 A CN 201910748510A CN 110516029 A CN110516029 A CN 110516029A
Authority
CN
China
Prior art keywords
data
term vector
checked
index
nearest neighbor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910748510.XA
Other languages
English (en)
Other versions
CN110516029B (zh
Inventor
李喜莲
林士翔
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mobvoi Innovation Technology Co Ltd
Original Assignee
Go Out And Ask (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask (wuhan) Information Technology Co Ltd filed Critical Go Out And Ask (wuhan) Information Technology Co Ltd
Priority to CN201910748510.XA priority Critical patent/CN110516029B/zh
Publication of CN110516029A publication Critical patent/CN110516029A/zh
Application granted granted Critical
Publication of CN110516029B publication Critical patent/CN110516029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理方法、设备及计算机存储介质,所述方法包括:获取待查词向量;根据所述待查词向量对索引数据结构进行索引,得到对应于所述待查词向量的同义词数据;根据所述待查词向量对所得到的同义词数据进行递归计算,得到对应于所述待查词向量的缩略词数据。本发明实施例通过根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据;克服了传统方式中当词向量维度很大,候选集合很多时,查询词向量需要占用很大的内存,并且查询速度受限的问题,显著了提高词向量的查询速度,在降低内存的情况下有效提高了词向量查询效率。

Description

一种数据处理方法、设备及计算机存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、设备及计算机存储介质。
背景技术
随着信息技术的不断发展,机器在人们的日常生活中发挥着越来越重要的作用,因此,机器功能设计中,用于与人类沟通的对话系统功能显得尤为重要。
现有的对话系统中有很多需要计算同义词(语义相近词)或者缩略词(简称词)的需求,但传统方法中,计算相近词时采用人工标注的方法成本太高,并且较难大规模扩展。近些年来,可通过词向量(word2vec,word to vector)计算相近词,但是当词向量维度很大,候选集合也就是词的数量很多时,词向量需要占用很大的内存,并且查询速度受限。
发明内容
本发明实施例为了有效克服现有技术所存在的上述缺陷,创造性地提供一种数据处理方法,所述方法包括:获取待查词向量;根据所述待查词向量对索引数据结构进行索引,得到对应于所述待查词向量的同义词数据;根据所述待查词向量对所得到的同义词数据进行递归计算,得到对应于所述待查词向量的缩略词数据。
在一可实施方式中,所述根据所述待查词向量对所述索引数据结构进行索引包括:根据所述待查词向量对所述索引数据结构进行欧式距离索引。
在一可实施方式中,在根据所述待查词向量对索引数据结构进行索引之前,所述方法还包括:获取词向量数据集;通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。
在一可实施方式中,所述通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构包括:根据K近邻值逐次随机选取所述词向量数据集中的两个分割点,K的取值为大于1的正整数;利用所选取的两个分割点对所述词向量数据集进行分割,直至得到包括有K近邻数据的数据结构树,所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据,N的取值为小于等于K的正整数;将所述包括有K近邻数据的数据结构树确定为索引数据结构。
在一可实施方式中,利用所选取的两个分割点对所述词向量数据集进行分割,包括:通过垂直于所选取的两个分割点的等距离超平面来对所述词向量数据集进行分割。
本发明实施例另一方面提供一种数据处理设备,包括:数据获取模块,用于获取待查词向量;数据处理模块,用于根据所述待查词向量对索引数据结构进行索引,得到对应于所述待查词向量的同义词数据;所述数据处理模块还用于,根据所述待查词向量对所得到的同义词数据进行递归计算,得到对应于所述待查词向量的缩略词数据。
在一可实施方式中,所述数据处理模块还用于,根据所述待查词向量对所述索引数据结构进行欧式距离索引。
在一可实施方式中,所述数据获取模块还用于,获取词向量数据集;所述数据处理模块还用于,通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。
在一可实施方式中,所述数据获取模块还用于,根据K近邻值逐次随机选取所述词向量数据集中的两个分割点,K的取值为大于1的正整数;所述数据处理模块还用于,利用所选取的两个分割点对所述词向量数据集进行分割,直至得到包括有K近邻数据的数据结构树,所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据,N的取值为小于等于K的正整数;所述数据处理模块还用于,将所述包括有K近邻数据的数据结构树确定为索引数据结构。
本发明实施例另一方面提供一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行上述中任一项的数据处理方法。
本发明实施例所提供的数据处理方法、设备及计算机可读存储介质,通过对词向量数据集构建索引数据结构后,再根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据,能够显著提高词向量的查询速度,在降低内存的情况下有效提高词向量查询效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明一实施例所提供的一种数据处理方法的一种实现流程示意图;
图2为本发明一实施例所提供的一种数据处理方法的另一种实现流程示意图;
图3为本发明一实施例所提供的一种数据处理设备的组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参考图1,本发明实施例一方面提供一种数据处理方法,方法包括:
步骤101,获取待查词向量;
步骤102,根据待查词向量对索引数据结构进行索引,得到对应于待查词向量的同义词数据;
步骤103,根据待查词向量对索引数据结构中的同义词数据进行递归计算,得到对应于待查词向量的缩略词数据。
本发明实施例中,先通过步骤101获取待查词向量,再通过步骤102根据待查词向量对索引数据结构进行索引,索引方式本发明实施例在此不进行具体限制,索引方式可以为cos距离(Cosine Distance)索引、欧式距离索引或曼哈顿距离索引,当然还可以为其他索引方式。本发明实施例通过对词向量数据集构建索引数据结构后,再根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据,能够显著提高词向量的查询速度,在降低内存的情况下有效提高词向量查询效率。
本发明实施例中,根据待查词向量对索引数据结构进行索引,当采用欧式距离索引时,即根据待查词向量信息和索引数据结构节点的分割超平面,从索引数据结构的根节点开始遍历到叶子节点,通过索引距离计算相近词得到对应于待查词向量的同义词数据;其中,具体的可以通过索引马氏距离、欧式距离或曼哈顿距离,本发明实施例在此不进行具体限制。待查词向量的缩略词数据可以通过对获得的同义词数据进行递归计算得到,递归的计算方法能够有效减少计算量,从而提高词向量的查询效率。
本发明实施例在一实际应用场景建索引的过程中,当索引树个数为30时,内存占用仅约30G,建好索引数据结构后占用硬盘空间约10G;查询过程内存占用不超过500M,实现了非常小的内存占用率。本发明实施例的查询方法查询一条约耗时0.05ms,实现了大幅提高查询效率的效果。
在一实施例中,当待查词为“中国人民大学附属中学”时,采用Word2vec索引同义词时,得到的结果为:“人大附中、人民大学附属中学、北京人大附中、清华大学附属中学、北京师范大学附属实验中学、北京市第四中学、北京十一学校、北师大实验中学、北京市十一学校、北京大学附属中学”,采用Word2vec索引缩略词时,得到的结果为:“人民大学附属中学、附属中学、大学附属中学、人大附中、中国人民大学附中、人大附、民大附中、附中、中国中学、人民大学附中、中国人大附中、民大附“;而采用TF索引同义词时,得到的结果为:“中国人民大学附中、人民大学附属中学、中国人民大学附属小学、中国人民大学、中国人民大学哲学院、中央民族大学附属中学、中国人民大学哲学系”,采用TF索引缩略词时,得到的结果为:“中国人民大学、人民大学附属中学、中国人民大、人民大学、大学附属中学、中国人民大学附中、人民大学附中、中国人大附中、人民中学、中国人大”。可见基于Word2vec索引和TF向量索引都实现了快速有效的查询相近词,不同点在于,基于Word2vec索引的同义词和缩略词较侧重语义相近,而基于TF向量索引的同义词和缩略词较侧重语法结构相似。因此,在实际应用时可根据不同的应用使用不同的词向量数据集来进行相近词查询,也可以将多种方案的结果做融合,甚至将多种词向量数据集进行融合后再进行相近词查询。
在一可实施方式中,根据待查词向量对索引数据结构进行索引包括:根据待查词向量对索引数据结构进行欧式距离索引,得到同义词数据。由于欧式距离的索引计算方式较为简单,采用欧式距离进行索引能够有助于提高同义词数据的计算效率。
请参考图2,在一可实施方式中,在根据待查词向量对索引数据结构进行索引之前,方法还包括:
步骤104,获取词向量数据集;
步骤105,通过近似最近邻搜索算法根据词向量数据集构建索引数据结构。
本发明实施例中,步骤104中获取的词向量数据集可以从开源词向量数据库进行获取,如基于腾讯人工智能实验室(AI lab)开源的882万中文Word2vec(word to vector,词向量),维度为200;也可以从字符TF(term frequency,词频)向量进行获取,大小为882万,维度为500,当然,还可以从其他词向量数据库获取,本发明实施例在此不对词向量数据集的获取来源以及方式进行限制。
本发明实施例中,考虑到通常所采用的词向量数据维度较高,而在大规模高维数据环境下,采用存储空间少,查找效率高的近似最近邻搜索算法能够有效提高词向量的查询效率。
其中,为了实现近似搜索,近似最近邻搜索算法往往基于一些数据结构,如可以为:测度树,K均值树等,本发明实施例在此不对近似最近邻搜索算法的数据结构进行具体限制。
在一可实施方式中,通过近似最近邻搜索算法根据词向量数据集构建索引数据结构包括:根据K近邻值逐次随机选取词向量数据集中的两个分割点,K的取值为大于1的正整数;利用所选取的两个分割点对词向量数据集进行分割,直至得到包括有K近邻数据的数据结构树,包括有K近邻数据的数据结构树中每个数据集合包括有N个词向量数据,N的取值为小于等于K的正整数;将包括有K近邻数据的数据结构树确定为索引数据结构。
本发明实施例中,通过在获取的词向量数据集空间中,根据K近邻值逐次随机选择两个点作为分割点,以使数据结构树分割的尽量均匀以保证检索复杂度,其中,K的取值为大于1的正整数,然后利用所选取的两个分割点对词向量数据集合进行分割,达到分割整个空间的效果,直至分割结果中每个集合中的词向量数据最多为K个,也即当区域内的节点数小于K的时候便停止递归建树,这样,便得到了包括有K近邻数据的数据结构树,其中,数据结构树中每个数据集合包含有N个词向量数据,N的取值为小于等于K的正整数。将此包括有K近邻数据的数据结构树确定为索引数据结构,便完成了通过近似最近邻搜索根据词向量数据集构建索引数据结构的效果,相对于最近邻的穷举搜索法,采用近似最近邻搜索算法可以在不显著降低匹配精度的情况下,降低算法的复杂度,速度相比于准确搜索有数量级上的提高。
在一可实施方式中,利用所选取的两个分割点对词向量数据集进行分割包括:通过垂直于所选取的两个分割点的等距离超平面来对词向量数据集进行分割。这样的分割方式能够使数据结构树分割的尽量均匀以保证检索复杂度,有利于提高检索结果的准确率。
在一可实施方式中,索引数据结构包括有一个或多个包括有K近邻数据的数据结构树。由于仅建立一颗数据结构树时可能存在最近邻不和查询点在同一叶结点上的问题,因此为提高查询准确率,可以建立多颗数据结构树,即索引数据结构可以包括一棵或多颗数据结构树,这样查询待查词向量点遍历树的时候就可以实现路径冗余,节省更多资源占用率,并有效提高查询结果的准确率。
请参考图3,本发明另一方面提供一种数据处理设备,设备包括:
数据获取模块201,用于获取待查词向量;
数据处理模块202,用于根据待查词向量对索引数据结构进行索引,得到对应于待查词向量的同义词数据;
数据处理模块202还用于,根据待查词向量对索引数据结构中的同义词数据进行递归计算,得到对应于待查词向量的缩略词数据。
本发明实施例中,先通过数据获取模块201获取待查词向量,再通过数据处理模块202根据待查词向量对索引数据结构进行索引,索引方式本发明实施例在此不进行具体限制,索引方式可以为cos距离(Cosine Distance)索引、欧式距离索引或曼哈顿距离索引,当然还可以为其他索引方式。本发明实施例通过对词向量数据集构建索引数据结构后,再根据待查词向量对索引数据结构进行索引的方式来获取待查词向量的相近词数据,能够显著提高词向量的查询速度,在降低内存的情况下有效提高词向量查询效率。
本发明实施例中,根据待查词向量对索引数据结构进行索引,当采用欧式距离索引时,即根据待查词向量信息和索引数据结构节点的分割超平面,从索引数据结构的根节点开始遍历到叶子节点,通过索引距离计算相近词得到对应于待查词向量的同义词数据;其中,具体的可以通过索引马氏距离、欧式距离或曼哈顿距离,本发明实施例在此不进行具体限制。待查词向量的缩略词数据可以通过对获得的同义词数据进行递归计算得到,递归的计算方法能够有效减少计算量,从而提高词向量的查询效率。
本发明实施例在一实际应用场景建索引的过程中,当索引树个数为30时,内存占用仅约30G,建好索引数据结构后占用硬盘空间约10G;查询过程内存占用不超过500M,实现了非常小的内存占用率。本发明实施例的查询方法查询一条约耗时0.05ms,实现了大幅提高查询效率的效果。
在一实施例中,当待查词为“中国人民大学附属中学”时,采用Word2vec索引同义词时,得到的结果为:“人大附中、人民大学附属中学、北京人大附中、清华大学附属中学、北京师范大学附属实验中学、北京市第四中学、北京十一学校、北师大实验中学、北京市十一学校、北京大学附属中学”,采用Word2vec索引缩略词时,得到的结果为:“人民大学附属中学、附属中学、大学附属中学、人大附中、中国人民大学附中、人大附、民大附中、附中、中国中学、人民大学附中、中国人大附中、民大附“;而采用TF索引同义词时,得到的结果为:“中国人民大学附中、人民大学附属中学、中国人民大学附属小学、中国人民大学、中国人民大学哲学院、中央民族大学附属中学、中国人民大学哲学系”,采用TF索引缩略词时,得到的结果为:“中国人民大学、人民大学附属中学、中国人民大、人民大学、大学附属中学、中国人民大学附中、人民大学附中、中国人大附中、人民中学、中国人大”。可见基于Word2vec索引和TF向量索引都实现了快速有效的查询相近词,不同点在于,基于Word2vec索引的同义词和缩略词较侧重语义相近,而基于TF向量索引的同义词和缩略词较侧重语法结构相似。因此,在实际应用时可根据不同的应用使用不同的词向量数据集来进行相近词查询,也可以将多种方案的结果做融合,甚至将多种词向量数据集进行融合后再进行相近词查询。
在一可实施方式中,数据处理模块202还用于,根据待查词向量对索引数据结构进行欧式距离索引,得到同义词数据。由于欧式距离的索引计算方式较为简单,采用欧式距离进行索引能够有助于提高同义词数据的计算效率。
在一可实施方式中,数据获取模块201还用于,获取词向量数据集;
数据处理模块202还用于,通过近似最近邻搜索算法根据词向量数据集构建索引数据结构。
本发明实施例中,数据获取模块201获取的词向量数据集可以从开源词向量数据库进行获取,如基于腾讯人工智能实验室(AI lab)开源的882万中文Word2vec(word tovector,词向量),维度为200;也可以从字符TF(term frequency,词频)向量进行获取,大小为882万,维度为500,当然,还可以从其他词向量数据库获取,本发明实施例在此不对词向量数据集的获取来源以及方式进行限制。
本发明实施例中,考虑到通常所采用的词向量数据维度较高,而在大规模高维数据环境下,采用存储空间少,查找效率高的近似最近邻搜索算法能够有效提高词向量的查询效率。
其中,为了实现近似搜索,近似最近邻搜索算法往往基于一些数据结构,如可以为:测度树,K均值树等,本发明实施例在此不对近似最近邻搜索算法的数据结构进行具体限制。
在一可实施方式中,数据获取模块201还用于,根据K近邻值逐次随机选取词向量数据集中的两个分割点,K的取值为大于1的正整数;数据处理模块202还用于,利用所选取的两个分割点对词向量数据集进行分割,直至得到包括有K近邻数据的数据结构树,包括有K近邻数据的数据结构树中每个数据集合包括有N个词向量数据,N的取值为小于等于K的正整数;数据处理模块202还用于,将包括有K近邻数据的数据结构树确定为索引数据结构。
本发明实施例中,通过在获取的词向量数据集空间中,根据K近邻值逐次随机选择两个点作为分割点,以使数据结构树分割的尽量均匀以保证检索复杂度,其中,K的取值为大于1的正整数,然后利用所选取的两个分割点对词向量数据集合进行分割,达到分割整个空间的效果,直至分割结果中每个集合中的词向量数据最多为K个,也即当区域内的节点数小于K的时候便停止递归建树,这样,便得到了包括有K近邻数据的数据结构树,其中,数据结构树中每个数据集合包含有N个词向量数据,N的取值为小于等于K的正整数。将此包括有K近邻数据的数据结构树确定为索引数据结构,便完成了通过近似最近邻搜索根据词向量数据集构建索引数据结构的效果,相对于最近邻的穷举搜索法,采用近似最近邻搜索算法可以在不显著降低匹配精度的情况下,降低算法的复杂度,速度相比于准确搜索有数量级上的提高。
在一可实施方式中,数据处理模块202还用于,通过垂直于所选取的两个分割点的等距离超平面对词向量数据集进行分割。这样的分割方式能够使数据结构树分割的尽量均匀以保证检索复杂度,有利于提高检索结果的准确率。
在一可实施方式中,索引数据结构包括有一个或多个包括有K近邻数据的数据结构树。由于仅建立一颗数据结构树时可能存在最近邻不和查询点在同一叶结点上的问题,因此为提高查询准确率,可以建立多颗数据结构树,即索引数据结构可以包括一棵或多颗数据结构树,这样查询待查词向量点遍历树的时候就可以实现路径冗余,节省更多资源占用率,并有效提高查询结果的准确率。
本发明另一方面提供一种计算机可读存储介质,存储介质中存储有计算机可执行指令,当指令被执行时用于执行上述任一项的数据处理方法。
这里需要指出的是:以上实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,对于本发明实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
本发明实施例中,多个步骤之间的实现顺序在不影响实现目的的情况下可以替换。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待查词向量;
根据所述待查词向量对索引数据结构进行索引,得到对应于所述待查词向量的同义词数据;
根据所述待查词向量对所得到的同义词数据进行递归计算,得到对应于所述待查词向量的缩略词数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待查词向量对所述索引数据结构进行索引包括:
根据所述待查词向量对所述索引数据结构进行欧式距离索引。
3.根据权利要求1或2所述的方法,其特征在于,在根据所述待查词向量对索引数据结构进行索引之前,所述方法还包括:
获取词向量数据集;
通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。
4.根据权利要求3所述的方法,其特征在于,所述通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构包括:
根据K近邻值逐次随机选取所述词向量数据集中的两个分割点,K的取值为大于1的正整数;
利用所选取的两个分割点对所述词向量数据集进行分割,直至得到包括有K近邻数据的数据结构树,所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据,N的取值为小于等于K的正整数;
将所述包括有K近邻数据的数据结构树确定为索引数据结构。
5.根据权利要求4所述的方法,其特征在于,利用所选取的两个分割点对所述词向量数据集进行分割,包括:
通过垂直于所选取的两个分割点的等距离超平面来对所述词向量数据集进行分割。
6.一种数据处理设备,其特征在于,包括:
数据获取模块,用于获取待查词向量;
数据处理模块,用于根据所述待查词向量对索引数据结构进行索引,得到对应于所述待查词向量的同义词数据;
所述数据处理模块还用于,根据所述待查词向量对所得到的同义词数据进行递归计算,得到对应于所述待查词向量的缩略词数据。
7.根据权利要求6所述的设备,其特征在于,所述数据处理模块还用于,根据所述待查词向量对所述索引数据结构进行欧式距离索引。
8.根据权利要求6或7所述的设备,其特征在于,所述数据获取模块还用于,获取词向量数据集;
所述数据处理模块还用于,通过近似最近邻搜索算法根据所述词向量数据集构建索引数据结构。
9.根据权利要求8所述的设备,其特征在于,所述数据获取模块还用于,根据K近邻值逐次随机选取所述词向量数据集中的两个分割点,K的取值为大于1的正整数;
所述数据处理模块还用于,利用所选取的两个分割点对所述词向量数据集进行分割,直至得到包括有K近邻数据的数据结构树,所述包括有K近邻数据的数据结构树中每个数据集合包含有N个词向量数据,N的取值为小于等于K的正整数;
所述数据处理模块还用于,将所述包括有K近邻数据的数据结构树确定为索引数据结构。
10.一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,当所述指令被执行时用于执行权利要求1-5中任一项的数据处理方法。
CN201910748510.XA 2019-08-14 2019-08-14 一种数据处理方法、设备及计算机存储介质 Active CN110516029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910748510.XA CN110516029B (zh) 2019-08-14 2019-08-14 一种数据处理方法、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910748510.XA CN110516029B (zh) 2019-08-14 2019-08-14 一种数据处理方法、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110516029A true CN110516029A (zh) 2019-11-29
CN110516029B CN110516029B (zh) 2022-06-10

Family

ID=68625768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910748510.XA Active CN110516029B (zh) 2019-08-14 2019-08-14 一种数据处理方法、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110516029B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101467125A (zh) * 2006-04-19 2009-06-24 谷歌公司 查询词语的处理
CN102163218A (zh) * 2011-03-28 2011-08-24 武汉大学 基于图索引的图数据库关键词邻近搜索方法
CN103279551A (zh) * 2013-06-06 2013-09-04 浙江大学 一种基于欧氏距离的高维数据准确近邻快速检索方法
US20130275122A1 (en) * 2010-12-07 2013-10-17 Iscilab Corporation Method for extracting semantic distance from mathematical sentences and classifying mathematical sentences by semantic distance, device therefor, and computer readable recording medium
CN106557780A (zh) * 2016-11-08 2017-04-05 四川外国语大学重庆南方翻译学院 一种基于位置差异的高精度近邻搜索算法
CN107862015A (zh) * 2017-10-30 2018-03-30 北京奇艺世纪科技有限公司 一种关键词关联扩展方法和装置
CN109241936A (zh) * 2018-09-26 2019-01-18 西安电子科技大学 基于空间约束和kd树的语义线段聚集集合的计算方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467125A (zh) * 2006-04-19 2009-06-24 谷歌公司 查询词语的处理
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
US20130275122A1 (en) * 2010-12-07 2013-10-17 Iscilab Corporation Method for extracting semantic distance from mathematical sentences and classifying mathematical sentences by semantic distance, device therefor, and computer readable recording medium
CN102163218A (zh) * 2011-03-28 2011-08-24 武汉大学 基于图索引的图数据库关键词邻近搜索方法
CN103279551A (zh) * 2013-06-06 2013-09-04 浙江大学 一种基于欧氏距离的高维数据准确近邻快速检索方法
CN106557780A (zh) * 2016-11-08 2017-04-05 四川外国语大学重庆南方翻译学院 一种基于位置差异的高精度近邻搜索算法
CN107862015A (zh) * 2017-10-30 2018-03-30 北京奇艺世纪科技有限公司 一种关键词关联扩展方法和装置
CN109241936A (zh) * 2018-09-26 2019-01-18 西安电子科技大学 基于空间约束和kd树的语义线段聚集集合的计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEHMET等: "the use of artificial neural networks in network intrusion detection:a systematic review", 《2018 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND DATA PROCESSING》 *
秦欢等: "基于隐马尔科夫和主成分分析的电网数据词典构建", 《电力大数据》 *

Also Published As

Publication number Publication date
CN110516029B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN105893349B (zh) 类目标签匹配映射方法及装置
CN104915340B (zh) 自然语言问答方法及装置
Zheng et al. Graph similarity search with edit distance constraint in large graph databases
Cheng et al. Top-k graph pattern matching over large graphs
CN110457486A (zh) 基于知识图谱的人物实体对齐方法及装置
CN110275947A (zh) 基于命名实体识别的特定领域知识图谱自然语言查询方法及装置
Braverman et al. Clustering problems on sliding windows
CN107885760A (zh) 一种基于多种语义的知识图谱表示学习方法
CN101458694A (zh) 一种基于树形词库的中文分词方法
CN113761221B (zh) 基于图神经网络的知识图谱实体对齐方法
CN106528648A (zh) 结合Redis内存数据库的分布式RDF关键词近似搜索方法
CN111813778B (zh) 一种面向大规模路网数据的近似关键字存储和查询方法
Zhu et al. Querying cohesive subgraphs by keywords
CN103077216B (zh) 子图匹配装置及子图匹配的方法
CN104102699A (zh) 一种聚簇图集合中的子图检索方法
Goyal et al. Sketching techniques for large scale NLP
CN113033194B (zh) 语义表示图模型的训练方法、装置、设备和存储介质
Chen et al. Fast image database search using tree-structured VQ
CN109992593A (zh) 一种基于子图匹配的大规模数据并行查询方法
CN117807121A (zh) 基于知识图谱的电网知识关联方法、装置、设备及介质
CN110516029A (zh) 一种数据处理方法、设备及计算机存储介质
CN112507047A (zh) 一种基于兴趣点偏好的最优有序路径查询方法
Chen et al. PBSM: an efficient top-K subgraph matching algorithm
Wycislik et al. A performance comparison of several common computation tasks used in social network analysis performed on graph and relational databases
Wang et al. Fast error-tolerant location-aware query autocompletion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220418

Address after: 210033 floor 10, building D11, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Nanjing, Jiangsu Province

Applicant after: New Technology Co.,Ltd.

Address before: 430223 floor 30, building a, block K18, poly times, No. 332, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Applicant before: Go out and ask (Wuhan) Information Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant