CN109828981A - 一种数据处理方法及计算设备 - Google Patents

一种数据处理方法及计算设备 Download PDF

Info

Publication number
CN109828981A
CN109828981A CN201711174496.4A CN201711174496A CN109828981A CN 109828981 A CN109828981 A CN 109828981A CN 201711174496 A CN201711174496 A CN 201711174496A CN 109828981 A CN109828981 A CN 109828981A
Authority
CN
China
Prior art keywords
candidate
word
search
dictionary
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711174496.4A
Other languages
English (en)
Other versions
CN109828981B (zh
Inventor
李亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201711174496.4A priority Critical patent/CN109828981B/zh
Publication of CN109828981A publication Critical patent/CN109828981A/zh
Application granted granted Critical
Publication of CN109828981B publication Critical patent/CN109828981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据处理方法,包括:给搜索词生成候选搜索词集合;根据候选搜索词集合中任一候选搜索词的出现概率以及候选搜索词与该搜索词之间的语义相似度,从候选搜索词集合中确定用于纠正该搜索词的候选搜索词,其中,候选搜索词的出现概率根据候选搜索词的上下文关系计算得到。如此,提升了用户的检索体验。

Description

一种数据处理方法及计算设备
技术领域
本申请涉及但不限于数据处理技术,尤其涉及一种数据处理方法及计算设备。
背景技术
目前,用户在进行搜索时,输入的搜索词不一定是完全正确的,此时如果根据用户的搜索词去查倒排索引,一般情况下无法召回(检索到)正确的结果,甚至无结果。因此,为了提高用户的搜索体验,在搜索系统中会提供搜索词纠错的功能,在检测到用户输入的搜索词有误的情况下,搜索系统会提示用户正确的搜索词或者直接对用户的搜索词进行纠正,从而得到用户满意的结果。
然而,目前对于音乐类应用或平台输入的搜索词的纠错,主要针对常见的拼写错误进行,而且,仅通过先验知识和搜索日志统计确定候选词,并只简单地通过编辑距离来选取最优的候选词,因此只能覆盖少量的错误形式。但是实际应用中的错误搜索词可能是各种形式的,导致无法给错误的搜索词提供有效的纠错结果,影响了用户的使用体验。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供一种数据处理方法及计算设备,能够提升用户的检索体验。
第一方面,本申请实施例提供一种数据处理方法,包括:
给搜索词生成候选搜索词集合;
根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,其中,所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。
在示例性实施方式中,所述给搜索词生成候选搜索词集合,可以包括:
对所述搜索词进行归一化处理;
针对归一化处理后的所述搜索词中的任一个词典单词,根据候选生成规则生成所述词典单词的候选词典单词集合;
在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合。
在示例性实施方式中,所述候选生成规则可以包括:
在所述词典单词为中文时,根据预先建立的同义词词典、纠错词词典,生成所述词典单词的候选词典单词集合;
在所述词典单词为英文时,根据编辑距离生成所述词典单词的候选词典单词集合;
在所述词典单词为拼音串时,根据预先建立的分词词典,生成所述词典单词的候选词典单词集合。
在示例性实施方式中,所述在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合,可以包括:
在任一个词典单词的候选词典单词集合中,按照候选概率由高到低的顺序,挑选一个或多个候选词典单词;
将挑选出的候选词典单词按照对应的词典单词在搜索词中的顺序进行组合,得到多个候选搜索词,生成所述候选搜索词集合。
在示例性实施方式中,所述归一化处理可以包括以下至少一项:英文字符大小写转化处理、中文繁简转换、特殊符号过滤处理。
在示例性实施方式中,所述根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,可以包括:
利用预先建立的N-gram语言模型计算所述候选搜索词集合中任一个候选搜索词的出现概率;
从所述候选搜索词集合中挑选所述出现概率满足第二设定条件的候选搜索词;
计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度;
挑选出与所述搜索词之间的语义相似度最高的候选搜索词,用于纠正所述搜索词。
在示例性实施方式中,所述计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度,可以包括:
利用预先建立的Word2Vec语言模型将所述挑选出的候选搜索词与所述搜索词表示成向量形式;
计算表示成向量形式的所述候选搜索词与所述搜索词之间的语义相似度。
在示例性实施方式中,所述搜索词可以包括对应于音乐数据的搜索词。
第二方面,本申请实施例提供一种计算设备,包括:存储器和处理器,所述存储器用于存储数据处理程序,所述数据处理程序被所述处理器执行时实现上述第一方面的数据处理方法的步骤。
第三方面,本申请实施例提供一种数据处理方法,包括:
给对应于音乐数据的搜索词生成候选搜索词集合;
结合N-gram语言模型和Word2Vec语言模型,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词。
第四方面,本申请实施例提供一种数据处理方法,包括:
获取第一输入数据,其中,所述第一输入数据包括文本或语音或图像;
获取与所述第一输入数据关联的多个候选数据;
展示所述多个候选数据;
获取第二输入数据,其中,所述第二输入数据包括所述多个候选数据中至少一部分的顺序关系。
在示例性实施方式中,所述获取与所述第一输入数据关联的多个候选数据,可以包括:
识别所述第一输入数据中的文本;
对所述文本进行分词处理,得到一个或多个词典单词;
根据候选生成规则,获取任一词典单词的一个或多个候选词典单词。
在示例性实施方式中,所述展示所述多个候选数据,可以包括:
按照设定间隔横向依次显示分词得到的一个或多个词典单词;
针对任一词典单词,在对齐所述词典单词的纵向依次显示所述词典单词的一个或多个候选词典单词。
在示例性实施方式中,所述获取第二输入数据,可以包括:根据所述多个候选数据中至少一部分的选择信息,确定第二输入数据。
在示例性实施方式中,所述获取第二输入数据,可以包括:根据所述多个候选数据中至少一部分的连线信息,确定第二输入数据。
第五方面,本申请实施例提供一种计算机可读介质,存储有数据处理程序,所述数据处理程序被处理器执行时实现上述第一方面、或者第三方面、或者第四方面提供的数据处理方法的步骤。
在本申请实施例中,给搜索词生成候选搜索词集合,根据候选搜索词集合中任一候选搜索词的出现概率以及候选搜索词与搜索词之间的语义相似度,从候选搜索词集合中确定用于纠正搜索词的候选搜索词,其中,候选搜索词的出现概率根据该候选搜索词的上下文关系计算得到。如此,通过挖掘候选搜索词的上下文关系以及与搜索词之间的语义相似度,确定最优的候选搜索词,从而提高搜索词的纠错效果,提升用户的检索体验。
在示例性实施方式中,在检索对应于音乐数据的搜索词时,利用N-gram语言模型和Word2Vec语言模型混合对用户的搜索词进行纠正,从而提高音乐检索的深度和精确度,且更符合用户的检索要求,在提升用户检索效率的同时,提升用户检索体验。
在本申请实施例中,通过将第一输入数据关联的候选数据展示给用户,由用户确定最终的输入数据以实现对输入的纠正,可以提升用户的检索体验,而且提高检索结果的有效性。
当然,实施本申请的任一产品并不一定需要同时达到以上所有优点。
附图说明
图1为本申请实施例提供的数据处理方法的流程图;
图2为本申请实施例提供的数据处理方法的示例流程图;
图3为本申请实施例提供的数据处理方法的示例图;
图4为本申请实施例提供的数据处理装置的示意图;
图5为本申请实施例提供的另一种数据处理方法的流程图;
图6为本申请实施例提供的另一种数据处理方法的流程图。
具体实施方式
以下结合附图对本申请实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本申请,并不用于限定本申请。
需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
一些实施方式中,执行数据处理方法的计算设备可包括一个或多个处理器(CPU,Central Processing Unit)、输入/输出接口、网络接口和内存(memory)。
内存可能包括计算机可读介质中的非永久性存储器、随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。内存可能包括模块1,模块2,……,模块N(N为大于2的整数)。
计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
下面先对本申请涉及的概念进行说明。
语言模型:根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。
本申请实施例提供一种数据处理方法,用于针对用户搜索输入不正确的或者意图不明确的搜索词进行纠正改写,从而召回(检索到)用户满意的结果。比如,用户在进行歌曲搜索时,搜索词与歌曲标题的描述往往存在差异,这种搜索词本身质量不高或者存在拼写错误,若搜索引擎不对这种问题进行修正弥补,会导致召回错误的结果,或者结果数很少甚至没结果,从而大大影响了用户的搜索体验。
其中,对搜索的输入词进行纠错首先要检测出错误,对于拼写错误可以使用语料库词典,如果输入词不在词典中,即可判定为错词。另一种错误是输入的每个词都是正确的,但是组合在一起成为短语或者句子时意思不对。纠错的过程就是找出和错词最相似的一组候选词,并从中选出最佳的候选词。
以音乐搜索系统为例,搜索词的纠错一般包括以下三个任务:
一、英文纠错
在英文拼写纠错中,搜索词的错误形式主要分为两种:一种是Non-wordError,即搜索词中部分英文单词不是实际词典中存在的单词,比如,the efndof the world,efnd本身不是一个英文单词;另外一种是Real-word error,即部分英文单词是实际词典中存在的单词,只是在当前语境下,这个单词是错误的,比如,the and of the world,and在这里明显是一个错误的使用。
二、中文纠错
在中文纠错中,中文汉字的错误形式一般是别字,一种是拼音相似以及不同地区发音不一致导致的错误,比如,“纤夫的爱”写成“千夫的爱”;另一种是字形相似导致的错误,比如,“薛之谦”写成“薜之谦”。
三、拼音转化
由于中文经常采用拼音输入法,因此用户的搜索词可能是纯拼音、模糊音、拼音汉字混合等情况,此时需要将原始的搜索词替换成正确的中文。
图1为本申请实施例提供的一种数据处理方法的流程图。如图1所示,本实施例提供的数据处理方法,包括以下步骤:
S101、给搜索词生成候选搜索词集合;
S102、根据候选搜索词集合中任一候选搜索词的出现概率以及候选搜索词与搜索词之间的语义相似度,从候选搜索词集合中确定用于纠正该搜索词的候选搜索词;
其中,候选搜索词的出现概率根据该候选搜索词的上下文关系计算得到。
本实施例提供的数据处理方法用于对搜索词进行纠错处理。例如,在检测到用户输入的搜索词存在错误或无法召回正确结果时,执行本实施例提供的数据处理方法对输入的搜索词进行纠错,以便得到正确的搜索词,进而检索到用户满意的结果。
本实施例提供的数据处理方法可以由客户端计算设备(比如,智能手机等移动终端)执行,或者,也可以由服务端计算设备(比如,服务器)执行。然而,本申请对此并不限定。
示例性地,用户在客户端计算设备的显示界面输入搜索词后,客户端计算设备在无法根据搜索词召回对应的结果时,可以采用本实施例提供的数据处理方法对用户输入的搜索词进行纠错,以召回用户满意的结果。或者,客户端计算设备可以在接收到用户输入的搜索词之后,将待纠错的搜索词发送给服务端计算设备,由服务端计算设备采用本实施例提供的数据处理方法对接收到的搜索词进行纠错,并根据纠错后的搜索词获取正确的检索结果。然而,本申请对此并不限定。
在示例性实施方式中,S101可以包括:
对搜索词进行归一化处理;
针对归一化处理后的搜索词中的任一个词典单词,根据候选生成规则生成该词典单词的候选词典单词集合;
在该搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成该候选搜索词集合。
示例性地,归一化处理可以包括:英文字符大小写转化处理、中文繁简转换、特殊符号过滤处理。其中,特殊符号可以包括标点符号等。比如,原始的搜索词包括繁体中文字符、简体中文字符以及标点符号,则归一化处理后的搜索词可以仅包括简体中文字符。
示例性地,候选生成规则可以包括:
在词典单词为中文时,根据预先建立的同义词词典、纠错词词典,生成词典单词的候选词典单词集合;比如,可以根据拼音相似和字形相似两种先验知识,给中文的词典单词生成候选词典单词集合;
在词典单词为英文时,根据编辑距离生成词典单词的候选词典单词集合;比如,可以筛选出与词典单词之间的编辑距离小于或等于2的词典单词,生成候选词典单词集合;
在词典单词为拼音串时,根据预先建立的分词词典,生成词典单词的候选词典单词集合;比如,根据预先建立的分词词典,确定拼音串的切分位置,然后,根据切分后的每个拼音生成对应的候选词典单词集合,其中,候选词典单词集合中包括中文单词。
需要说明的是,在本实施例中,同义词词典、纠错词词典以及分词词典可以基于搜索系统的历史搜索日志构建。然而,本申请对此并不限定。
在示例性实施方式中,在搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成候选搜索词集合,可以包括:
在任一个词典单词的候选词典单词集合中,按照候选概率由高到低的顺序,挑选一个或多个候选词典单词;
将挑选出的候选词典单词按照对应的词典单词在搜索词中的顺序进行组合,得到多个候选搜索词,生成候选搜索词集合。
示例性地,在任一个词典单词的候选词典单词集合中,按照候选概率由高到低的顺序,挑选k个候选词典单词;将挑选出的候选词典单词按照对应的词典单词在搜索词中的顺序进行组合,得到kn个候选搜索词,生成候选搜索词集合;其中,n为搜索词的长度,k、n均为大于1的整数。
其中,第一设定条件可以包括候选概率大于或等于第一设定值。然而,本申请对此并不限定。
在本实施例中,在词典单词的候选词典单词集合中,候选词典单词根据候选概率由高到低的顺序排序,其中,候选概率可以根据候选生成规则确定,比如,在词典单词为英文时,与该词典单词的编辑距离越小,候选词典单词的候选概率越大。在根据候选概率挑选出任一词典单词的候选词典单词之后,可以将这些候选词典单词组合生成候选搜索词。比如,搜索词包括词典单词A和词典单词B,从词典单词A的候选词典单词集合中挑选出的候选词典单词包括候选词典单词A1、A2,从词典单词B的候选词典单词集合中挑选出的候选词典单词包括候选词典单词B1、B2,则组合生成的候选搜索词集合可以包括:候选搜索词A1B1、A1B2、A2B1、A2B2。然而,本申请对此并不限定。在其他实施方式中,从任一候选词典单词集合中挑选出的候选词典单词的数目也可以不同。比如,搜索词包括词典单词C和D,从词典单词C的候选词典单词集合中挑选出的候选词典单词可以包括候选词典单词C1、C2,从词典单词D的候选词典单词集合中挑选出的候选词典单词可以包括D1,则组合生成的候选搜索词集合可以包括:候选搜索词C1D1、C2D1。
需要说明的是,在搜索词(query)为中文时,词典单词(word)为中文搜索词中的字;在搜索词为英文时,词典单词为英文搜索词中的英文单词。
在示例性实施方式中,S102可以包括:
利用预先建立的N-gram语言模型计算候选搜索词集合中任一个候选搜索词的出现概率;
从该候选搜索词集合中挑选出现概率满足第二设定条件的候选搜索词;
计算挑选出的任一个候选搜索词与搜索词之间的语义相似度;
挑选出与搜索词之间的语义相似度最高的候选搜索词,用于纠正该搜索词。
其中,第二设定条件可以包括:出现概率大于或等于第二设定值。然而,本申请对此并不限定。
其中,计算针对挑选出的任一个候选搜索词与搜索词之间的语义相似度,可以包括:
利用预先建立的Word2Vec语言模型将挑选出的候选搜索词与搜索词表示成向量形式;
计算表示成向量形式的候选搜索词与搜索词之间的语义相似度。
其中,计算表示成向量形式的候选搜索词与搜索词之间的语义相似度,可以包括:采用空间余弦相似度算法或欧式距离算法计算候选搜索词与搜索词之间的语义相似度。然而,本申请对比并不限定。在其他实现方式中,还可以采用其他相似度算法。
在示例性实施方式中,本实施例的搜索词可以包括对应于音乐数据的搜索词,比如,歌曲的歌名、演唱者姓名等等。然而,本申请对此并不限定。
下面参照图2和图3以给对应于音乐数据的搜索词进行纠错为例说明本实施例提供的数据处理方法。
在本实施例中,以客户端计算设备执行本实施例提供的数据处理方法为例进行说明。本示例中,用户输入的query可以包括较短长度的query以及中长尾的query,能够覆盖更多的搜索形式。
如图2所示,客户端计算设备在检测到用户输入的搜索词存在错误或无法召回正确结果时,执行以下处理:
S201、对搜索词(query)进行归一化处理;
对归一化处理后的搜索词进行纠错,其中包括以下处理:
S202、给归一化处理后的搜索词生成用于纠错的候选搜索词集合;
S203、计算最优的候选搜索词。
在本实施例中,可以根据历史的搜索日志统计构建离线词典,其中,离线词典可以包括:同义词词典、纠错词词典以及音乐系统分词词典。其中,纠错词词典可以包括拼音纠错词词典、别字纠错词词典以及英文纠错词词典。然而,本申请对此并不限定。本实施例利用用户的历史搜索日志构建离线词典,能够更了解用户搜索的音乐需求,然后基于离线词典筛选候选搜索词集合,能更符合用户的检索要求。
在本实施例中,在S202中,可以利用隐马尔可夫(HMM,Hidden MarkovModel)原理进行候选query生成以及候选query排序。其中,首先针对输入的query中的每一个词典单词(word)都生成对应的候选word集合,然后从每一个输入word的候选word集合中选择候选概率最大的k个候选word来组合生成候选query集合。需要说明的是,若输入的query为中文,则word为字,若输入的query为英文,则word为英文单词。
在本实施例中,在生成候选query时,针对经归一化处理后的query中的每一个word,根据对应的候选生成规则找到候选word集合。其中,当word为中文时,主要根据拼音相似和字形相似两种先验知识生成候选的中文word,而且还可以根据埋点日志中统计的中文常见输入错误形式补充对应的候选中文word,比如,“菲”可以作为“非”、“妃”、“飞”的候选词典单词;当word为英文字符串时,可以根据编辑距离来生成候选的英文word,比如,在音乐纠错中采用编辑距离小于或等于2来生成候选英文word;当word为拼音串时,由于英文字符串有可能是中文对应的拼音,为了处理这种情况,可以根据搜索日志构建常见的拼音串以及对应的切分位置,在生成候选word时会先对拼音串进行切分,然后根据切分后的每个拼音生成对应的候选中文word。
示例性地,如图3所示,在输入的搜索词(query)为“王妃从从哪年”时,根据候选生成规则可以确定query中任一个word的候选word集合。比如,word“王”对应的候选word集合可以包括“王、望、黄、汪”;word“妃”对应的候选word集合可以包括“妃、菲、飞、非”;word“从”对应的候选word集合可以包括“从、匆、聪、葱”;word“哪”对应的候选word集合可以包括“哪、那、拿、纳”;word“年”对应的候选word集合可以包括“年、念、粘、你”。在本示例中,从每个候选word集合中分别挑选出2个候选概率最大的候选word,然后将挑选出的候选word组合得到候选query集合。比如,从word“王”对应的候选word集合挑选出的候选word包括“王、望”;从word“妃”对应的候选word集合挑选出的候选word包括“妃、菲”;从word“从”对应的候选word集合挑选出的候选word包括“从、匆”;从word“哪”对应的候选word集合挑选出的候选word可以包括“哪、那”;word“年”对应的候选word集合挑选出的候选word可以包括“年、念”。然后,挑选出的候选word组合得到的候选query集合可以包括:“王菲匆匆那年”、“王妃从从哪年”等包括正确query的64种候选query。
在候选query的排序阶段,针对query对应的候选query集合中的候选query,按照出现概率由高至低的顺序排列,并从中筛选出现概率较大的N个候选query,即出现概率为topN的候选query。
本实施例中,使用预先建立的N-gram语言模型来计算候选query的出现概率。N-gram语言模型也称为n-1阶马尔科夫模型(HMM),它有一个基本假设:当前word的出现概率仅仅与前面n-1个word相关。因此,候选query的出现概率可以根据以下式子计算:
其中,P(s)表示候选query(即字符串s)作为句子出现时的出现概率,候选query依次包括k个word,分别用W1至Wk表示。
本实施例中,确定出topN的候选query之后,使用Word2Vec语言模型来计算每个候选query与归一化后的query之间的语义相似度。其中,Word2Vec的工具包里面有两种实现方式,分别是skipgram和cbow,在本示例中,可以采用skipgram with negative sampling。
在本实施例中,利用Word2Vec语言模型将输入的归一化后的query及筛选出的topN个候选query分别表示成向量形式,然后,利用空间余弦相似度算法(例如cosine距离)计算归一化后的query与筛选出的任一候选query之间的语义相似度。然后,选取语义相似度最高的候选query作为最优的候选query进行搜索。
在本示例中,在Word2Vec语言模型的训练过程中,可以利用搜索日志构建训练样本,其中,搜索日志可以包括有试听的输入query集合;训练样本可以将用户的输入query与歌曲标题组合成字段,然后基于离线词典将训练样本分词后,训练Word2Vec语言模型。
综上所述,本实施例通过HMM原理利用搜索日志挖掘用户query的上下文关系,利用HMM可以构建优质的候选query集合,再通过Word2Vec语言模型可以计算候选query集合与输入query之间的语义相似度,如此,最终获取最优的候选query,不仅可以保证编辑距离,而且满足了输入query的语义信息,从而提高了检索效率和检索效果。
图4为本申请实施例提供的数据处理装置的示意图。如图4所示,本实施例提供的数据处理装置,包括:
第一处理模块401,适于给搜索词生成候选搜索词集合;
第二处理模块402,适于根据候选搜索词集合中任一候选搜索词的出现概率以及候选搜索词与搜索词之间的语义相似度,从候选搜索词集合中确定用于纠正搜索词的候选搜索词,其中,候选搜索词的出现概率根据候选搜索词的上下文关系计算得到。
关于本实施例提供的数据处理装置的相关说明可以参照上述方法实施例的描述,故于此不再赘述。
如图5所示,本申请实施例还提供一种数据处理方法,包括:
S501、给对应于音乐数据的搜索词生成候选搜索词集合;
S502、结合N-gram语言模型和Word2Vec语言模型,从候选搜索词集合中确定用于纠正搜索词的候选搜索词。
在本实施例中,利用N-gram语言模型计算候选搜索词集合中任一候选搜索词的出现概率,然后筛选出现概率大于或等于设定值的候选搜索词,再利用Word2Vec语言模型计算筛选出的候选搜索词与输入的搜索词之间的语义相似度,将语义相似度最大的候选搜索词确定为最优的候选搜索词。
关于本实施例提供的数据处理方法的其他相关说明可以参照上述方法实施例的描述,故于此不再赘述。
如图6所示,本申请实施例还提供一种数据处理方法,包括:
S601、获取第一输入数据,其中,第一输入数据包括文本或语音或图像;
S602、获取与第一输入数据关联的多个候选数据;
S603、展示多个候选数据;
S604、获取第二输入数据,其中,第二输入数据包括多个候选数据中至少一部分的顺序关系。
本实施例提供的数据处理方法可以用于对输入数据进行纠错。例如,在用户输入的数据存在错误或者不完整时,执行本实施例提供的数据处理方法可以纠正输入数据,从而得到正确或完整的输入数据,进而检索到用户满意的结果。
本实施例提供的数据处理方法可以由客户端计算设备(比如,智能手机等移动终端)执行。然而,本申请对此并不限定。
本实施例中,S601中获取的第一输入数据可以包括用户在终端(比如,手机)界面上输入的文本或语音或图像。
在示例性实施方式中,S602可以包括:
识别第一输入数据中的文本;
对识别出的文本进行分词处理,得到一个或多个词典单词;
根据候选生成规则,获取任一词典单词的一个或多个候选词典单词。
在本示例性实施方式中,在第一输入数据包括文本时,可以通过文本识别算法识别其中的文本,在第一输入数据包括语音时,可以通过语音识别算法识别语音对应的文本,在第一输入数据包括图像时,可以通过图像识别算法识别图像中的文本。然而,本申请实施例对于采用的各种识别算法并不限定。
在本示例性实施方式中,可以对识别出的文本进行归一化处理后,再进行分词处理。其中,词典单词可以包括中文字或英文单词;当识别出的文本包括中文字符时,分词处理后可以得到一个或多个中文字;当识别出的文本包括英文字符时,分词处理后可以得到一个或多个英文单词。另外,关于归一化处理的方式可以参照上述方法实施例的描述,故于此不再赘述。
在本示例性实施方式中,候选生成规则可以参照上述方法实施例中的描述,故于此不再赘述。然而,本申请对此并不限定。在其他实现方式中,任一词典单词的候选词典单词也可以在该词典单词的候选词典单词集合中,按照候选概率由高到低的顺序进行挑选。
在示例性实施方式中,S603可以包括:
按照设定间隔横向依次显示分词得到的一个或多个词典单词;
针对任一词典单词,在对齐该词典单词的纵向依次显示该词典单词的一个或多个候选词典单词。
本示例性实施方式中,如图3所示,在第一输入数据中的文本为“王妃从从哪年”时,分词得到的六个中文字横向按照设定间隔依次进行显示,然后在每个字的下面,显示一列候选词典单词。比如,在“王”的下面纵向显示的候选词典单词依次为“王”、“望”、“黄”、“汪”。然而,本申请对于多个候选数据的展示方式并不限定。比如,在其他实现方式中,分词得到的词典单词可以纵向显示,而对应的候选词典单词可以横向显示;或者,词典单词对应的候选词典单词可以在用户移动鼠标至该词典单词时通过悬浮界面进行显示。
在示例性实施方式中,S604可以包括:根据多个候选数据中的至少一部分的连线信息,确定第二输入数据。
在本示例性实施方式中,在终端界面展示多个候选数据之后,用户可以对终端界面上展示的多个候选数据进行连线操作,终端可以基于用户的连线操作,确定第二输入数据。比如,基于图3展示的候选数据,用户可以对“王菲匆匆那年”进行连线,则终端获取的第二输入数据可以包括:连接的这些候选词典单词以及这些候选词典单词的连接顺序;终端基于第二输入数据可以确定正确的输入数据,进而检索到用户满意的结果。然而,本申请对此并不限定。在其他实现方式中,基于图3展示的候选数据,用户可以对其中部分候选词典单词进行连线,比如可以对“匆匆那年”进行连线。
在示例性实施方式中,S604可以包括:根据多个候选数据中的至少一部分的选择信息,确定第二输入数据。
在本示例性实施方式中,在终端界面展示多个候选数据之后,用户可以对终端界面展示的多个候选数据进行选择操作,比如,用户通过鼠标左击一次候选词典单词所在位置即为选中该词典单词;终端可以基于用户的选择操作,确定第二输入数据。比如,基于图3展示的候选数据,用户可以从左往右依次选中“王菲匆匆那年”,则终端获取的第二输入数据可以包括:选中的这些候选词典单词以及这些候选词典单词的先后选中顺序。然而,本申请对此并不限定。在其他实现方式中,基于图3展示的候选数据,用户可以依次选中“匆匆那年王菲”,换言之,本申请并不限定用户在展示的候选数据上的选择顺序;另外,本申请也并限定用户在展示的候选数据上选择的候选词典单词的数目,比如,基于图3的候选数据,用户可以仅选中“匆匆那年”。
在本实施例中,通过将与第一输入数据关联的候选数据展示给用户,由用户确定最终的输入数据以实现对输入的纠正,可以提升用户的检索体验,而且提高检索结果的有效性。
此外,本申请实施例还提供一种计算设备,包括:存储器和处理器,其中,存储器用于存储数据处理程序,该数据处理程序被处理器执行时上述图1或图5或图6所示的数据处理方法的步骤。
其中,处理器可以包括但不限于微处理器(MCU,Microcontroller Unit)或可编程逻辑器件(FPGA,Field Programmable Gate Array)等的处理装置。存储器可用于存储应用软件的软件程序以及模块,如本实施例中的数据处理方法对应的程序指令或模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至上述数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
此外,本申请实施例还提供一种计算机可读存储介质,存储有数据处理程序,该数据处理程序被处理器执行时实现上述图1或图5或图6所示的数据处理方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块或单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块或单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制,上述实施例和说明书中描述的只是说明本申请的原理,在不脱离本申请精神和范围的前提下,本申请还会有各种变化和改进,这些变化和改进都落入要求保护的本申请范围内。

Claims (16)

1.一种数据处理方法,其特征在于,包括:
给搜索词生成候选搜索词集合;
根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,其中,所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。
2.根据权利要求1所述的方法,其特征在于,所述给搜索词生成候选搜索词集合,包括:
对所述搜索词进行归一化处理;
针对归一化处理后的所述搜索词中的任一个词典单词,根据候选生成规则生成所述词典单词的候选词典单词集合;
在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合。
3.根据权利要求2所述的方法,其特征在于,所述候选生成规则包括:
在所述词典单词为中文时,根据预先建立的同义词词典、纠错词词典,生成所述词典单词的候选词典单词集合;
在所述词典单词为英文时,根据编辑距离生成所述词典单词的候选词典单词集合;
在所述词典单词为拼音串时,根据预先建立的分词词典,生成所述词典单词的候选词典单词集合。
4.根据权利要求2所述的方法,其特征在于,所述在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合,包括:
在任一个词典单词的候选词典单词集合中,按照候选概率由高到低的顺序,挑选一个或多个候选词典单词;
将挑选出的候选词典单词按照对应的词典单词在搜索词中的顺序进行组合,得到多个候选搜索词,生成所述候选搜索词集合。
5.根据权利要求2所述的方法,其特征在于,所述归一化处理包括以下至少一项:英文字符大小写转化处理、中文繁简转换、特殊符号过滤处理。
6.根据权利要求1所述的方法,其特征在于,所述根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,包括:
利用预先建立的N-gram语言模型计算所述候选搜索词集合中任一个候选搜索词的出现概率;
从所述候选搜索词集合中挑选所述出现概率满足第二设定条件的候选搜索词;
计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度;
挑选出与所述搜索词之间的语义相似度最高的候选搜索词,用于纠正所述搜索词。
7.根据权利要求6所述的方法,其特征在于,所述计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度,包括:
利用预先建立的Word2Vec语言模型将所述挑选出的候选搜索词与所述搜索词表示成向量形式;
计算表示成向量形式的所述候选搜索词与所述搜索词之间的语义相似度。
8.根据权利要求1所述的方法,其特征在于,所述搜索词包括对应于音乐数据的搜索词。
9.一种计算设备,其特征在于,包括:存储器和处理器,所述存储器用于存储数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。
10.一种计算机可读介质,其特征在于,存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。
11.一种数据处理方法,其特征在于,包括:
给对应于音乐数据的搜索词生成候选搜索词集合;
结合N-gram语言模型和Word2Vec语言模型,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词。
12.一种数据处理方法,其特征在于,包括:
获取第一输入数据,其中,所述第一输入数据包括文本或语音或图像;
获取与所述第一输入数据关联的多个候选数据;
展示所述多个候选数据;
获取第二输入数据,其中,所述第二输入数据包括所述多个候选数据中至少一部分的顺序关系。
13.根据权利要求12所述的方法,其特征在于,所述获取与所述第一输入数据关联的多个候选数据,包括:
识别所述第一输入数据中的文本;
对所述文本进行分词处理,得到一个或多个词典单词;
根据候选生成规则,获取任一词典单词的一个或多个候选词典单词。
14.根据权利要求13所述的方法,其特征在于,所述展示所述多个候选数据,包括:
按照设定间隔横向依次显示分词得到的一个或多个词典单词;
针对任一词典单词,在对齐所述词典单词的纵向依次显示所述词典单词的一个或多个候选词典单词。
15.根据权利要求12所述的方法,其特征在于,所述获取第二输入数据,包括:根据所述多个候选数据中至少一部分的选择信息,确定第二输入数据。
16.根据权利要求12所述的方法,其特征在于,所述获取第二输入数据,包括:根据所述多个候选数据中至少一部分的连线信息,确定第二输入数据。
CN201711174496.4A 2017-11-22 2017-11-22 一种数据处理方法及计算设备 Active CN109828981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711174496.4A CN109828981B (zh) 2017-11-22 2017-11-22 一种数据处理方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711174496.4A CN109828981B (zh) 2017-11-22 2017-11-22 一种数据处理方法及计算设备

Publications (2)

Publication Number Publication Date
CN109828981A true CN109828981A (zh) 2019-05-31
CN109828981B CN109828981B (zh) 2023-05-23

Family

ID=66858151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711174496.4A Active CN109828981B (zh) 2017-11-22 2017-11-22 一种数据处理方法及计算设备

Country Status (1)

Country Link
CN (1) CN109828981B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413998A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质
CN110597956A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN111597311A (zh) * 2020-01-14 2020-08-28 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN112232065A (zh) * 2020-10-29 2021-01-15 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置
CN112307183A (zh) * 2020-10-30 2021-02-02 北京金堤征信服务有限公司 搜索数据识别方法、装置、电子设备以及计算机存储介质
CN112559895A (zh) * 2021-02-19 2021-03-26 深圳平安智汇企业信息管理有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112559843A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定集合的方法、装置、电子设备、介质和程序产品
CN113553398A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 搜索词纠正方法、装置、电子设备及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003331214A (ja) * 2002-05-15 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文字認識誤り訂正方法、装置及びプログラム
US20080104056A1 (en) * 2006-10-30 2008-05-01 Microsoft Corporation Distributional similarity-based models for query correction
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法
CN105447080A (zh) * 2015-11-05 2016-03-30 华建宇通科技(北京)有限责任公司 一种社区问答搜索中的查询补全方法
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003331214A (ja) * 2002-05-15 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> 文字認識誤り訂正方法、装置及びプログラム
US20080104056A1 (en) * 2006-10-30 2008-05-01 Microsoft Corporation Distributional similarity-based models for query correction
CN103198149A (zh) * 2013-04-23 2013-07-10 中国科学院计算技术研究所 一种查询纠错方法和系统
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法
CN105447080A (zh) * 2015-11-05 2016-03-30 华建宇通科技(北京)有限责任公司 一种社区问答搜索中的查询补全方法
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
WO2017084506A1 (zh) * 2015-11-17 2017-05-26 华为技术有限公司 搜索查询词纠错方法和装置
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413998A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质
CN110413998B (zh) * 2019-07-16 2023-04-21 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质
CN110597956A (zh) * 2019-09-09 2019-12-20 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN110597956B (zh) * 2019-09-09 2023-09-26 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN111597311B (zh) * 2020-01-14 2023-04-25 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111597311A (zh) * 2020-01-14 2020-08-28 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN112232065A (zh) * 2020-10-29 2021-01-15 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置
CN112232065B (zh) * 2020-10-29 2024-05-14 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置
CN112307183A (zh) * 2020-10-30 2021-02-02 北京金堤征信服务有限公司 搜索数据识别方法、装置、电子设备以及计算机存储介质
CN112307183B (zh) * 2020-10-30 2024-04-19 北京金堤征信服务有限公司 搜索数据识别方法、装置、电子设备以及计算机存储介质
CN112559843B (zh) * 2020-12-16 2023-10-03 北京百度网讯科技有限公司 确定集合的方法、装置、电子设备、介质和程序产品
CN112559843A (zh) * 2020-12-16 2021-03-26 北京百度网讯科技有限公司 确定集合的方法、装置、电子设备、介质和程序产品
CN112559895B (zh) * 2021-02-19 2021-05-18 深圳平安智汇企业信息管理有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112559895A (zh) * 2021-02-19 2021-03-26 深圳平安智汇企业信息管理有限公司 一种数据处理方法、装置、电子设备及存储介质
CN113553398A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 搜索词纠正方法、装置、电子设备及计算机存储介质
CN113553398B (zh) * 2021-07-15 2024-01-26 杭州网易云音乐科技有限公司 搜索词纠正方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN109828981B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN109828981A (zh) 一种数据处理方法及计算设备
US10521464B2 (en) Method and system for extracting, verifying and cataloging technical information from unstructured documents
CN107430616B (zh) 语音查询的交互式再形成
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
EP1836651B1 (fr) Procédé de recherche, reconnaissance et localisation d&#39;un terme dans l&#39;encre, dispositif, programme d&#39;ordinateur correspondants
US20200335096A1 (en) Pinyin-based method and apparatus for semantic recognition, and system for human-machine dialog
US8751476B2 (en) Synonym and similar word page search
US9514098B1 (en) Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
US10679609B2 (en) Biasing voice correction suggestions
US10019986B2 (en) Acoustic model training using corrected terms
WO2017161899A1 (zh) 一种文本处理方法、装置及计算设备
US8719025B2 (en) Contextual voice query dilation to improve spoken web searching
US9286526B1 (en) Cohort-based learning from user edits
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN113282701B (zh) 作文素材生成方法、装置、电子设备及可读存储介质
WO2014036827A1 (zh) 一种文本校正方法及用户设备
CN114861635B (zh) 一种中文拼写纠错方法、装置、设备及存储介质
US20170110114A1 (en) Phoneme-to-Grapheme Mapping Systems and Methods
US11657277B2 (en) Generating neural network outputs using insertion commands
US8959020B1 (en) Discovery of problematic pronunciations for automatic speech recognition systems
CN116484829A (zh) 用于信息处理的方法和设备
CN114065741B (zh) 用于验证表述的真实性的方法、设备、装置和介质
US20230153534A1 (en) Generating commonsense context for text using knowledge graphs
CN113779199B (zh) 用于文档和摘要的一致性检测的方法、设备、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant