CN109241356B - 一种数据处理方法、装置及存储介质 - Google Patents

一种数据处理方法、装置及存储介质 Download PDF

Info

Publication number
CN109241356B
CN109241356B CN201810648370.4A CN201810648370A CN109241356B CN 109241356 B CN109241356 B CN 109241356B CN 201810648370 A CN201810648370 A CN 201810648370A CN 109241356 B CN109241356 B CN 109241356B
Authority
CN
China
Prior art keywords
search
search term
node
layer
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810648370.4A
Other languages
English (en)
Other versions
CN109241356A (zh
Inventor
谢润泉
连凤宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810648370.4A priority Critical patent/CN109241356B/zh
Publication of CN109241356A publication Critical patent/CN109241356A/zh
Application granted granted Critical
Publication of CN109241356B publication Critical patent/CN109241356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理方法,包括:获取包含至少两个检索词的检索串;生成检索串对应的N层节点树,节点树的根节点包含检索串,节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集;针对检索串中相邻的第一检索词和第二检索词,在节点树的根节点和各层子节点中选择目标节点,目标节点中至少包括第一检索词和第二检索词;以及从下至上依次根据下一层目标节点中第一检索词与第二检索词的紧密度,计算上一层目标节点中第一检索词与第二检索词的紧密度,直到得到在根节点中第一检索词与第二检索词的第一紧密度。

Description

一种数据处理方法、装置及存储介质
技术领域
本申请涉及信息技术领域,尤其涉及一种数据处理方法、装置及存储介质。
背景技术
随着互联网对人们生活的深入影响,用户越来越依赖于网络的搜索功能,当用户输入一个检索串(query)时,该检索串中两个词的紧密度对搜索结果的排序有较大的参考价值。此外,检索串中紧邻的两个词的紧密度对检索串分析也有很大影响,比如在同义词替换中,如果两个紧邻词的紧密度比较高,对其中单个词进行同义词替换会造成较大的语义漂移风险。
发明内容
本申请实施例提供了一种数据处理方法,包括:
获取包含至少两个检索词的检索串;
生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集,N为正整数;
针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及
从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一检索词与所述第二检索词的第一紧密度。
本申请实施例还提供了一种数据处理装置,包括:
获取模块,获取包含至少两个检索词的检索串;
生成模块,生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集;
选择模块,针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及
计算模块,从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一检索词与所述第二检索词的第一紧密度。
本申请实施例还提供了一种存储介质,存储有可读指令,可以使至少一个处理器执行上述数据处理方法。
本申请提供的技术方案,对于获取的一个检索串,生成检索串对应的N层节点树,针对检索串中相邻的第一检索词和第二检索词,在节点树的根节点和各层子节点中选择目标节点,并从下至上根据下一层目标节点中第一检索词与所述第二检索词的紧密度,计算上一层目标节点中第一检索词与所述第二检索词的紧密度,直到得到在根节点也即检索串中第一检索词与所述第二检索词的第一紧密度,一方面可以优化紧密度计算中统计上的偏差,另一方面同时提高一些偏冷门检索词的紧密度的统计值,使得出的紧密度更加准确。
附图说明
图1为本申请一实施例的所述的一种数据处理方法的实施环境的示意图;
图2为本申请一实施例的一种数据处理方法的流程图;
图3为本申请一实施例的一种数据处理方法的流程图;
图4为本申请一实施例所述的节点树的生成过程示意图;
图5为为本申请一实施例所述的句法依存分析的示例;
图6为本申请一实施例的数据处理装置的结构示意图;及
图7为本申请一实施例的服务器的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了描述上的简洁和直观,下文通过描述若干代表性的实施例来对本发明的方案进行阐述。实施例中大量的细节仅用于帮助理解本发明的方案。但是很明显,本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。
在一些紧密度计算方法,可以用统计方法计算两个词的一些统计值,比如根据两个检索词的共现数据计算两个检索词的紧密度。但是统计方法会有一定范围的统计偏差,具体表现在两个检索词在语料库中经常成对出现,但其紧密度并不应该很高,也不要求在一项搜索结果中必须紧邻同时出现,比如“在线电影观看”,“oppo手机”;还可以表现在两个检索词的紧密度较高,在各个搜索结果中紧邻同时出现,但相关统计值却比较低,比如“拓途”,“黑萃洁面”等一些冷门实体。
这里,上述紧密度可以是两个检索词在一个检索串中紧密程度,可以度量两个检索词之间的相关性,两个检索词之间的相关性越大,也就说明这两个检索词越紧密。上述共现数据是指两个检索词共同出现的次数,可以基于文章、日志等等文本内容统计确定。
为了解决上述问题,本申请的实例提出了一种数据处理方法。该数据处理方法可以优化紧密度计算中统计上的偏差并同时提高一些偏冷门实体的紧密度的统计值。
图1显示了本申请一些实施例所述的一种检索串的紧密度计算方法所适用的实施环境示意图。如图1所示,本申请一些实施例所述的检索串的紧密度计算方法的实施环境至少包括:设备终端11、网络12、服务器13。
在本申请的一些实例中,上述设备终端11可以是指具有数据计算处理功能的智能设备,包括但不限于(安装有通信模块的)智能手机、掌上电脑、平板电脑等。设备终端11上安装有操作系统,包括但不限于:Android操作系统、Symbian操作系统、Windows mobile操作系统、以及苹果iPhone OS操作系统等等。设备终端11上安装有各种应用客户端,比如用于搜索的应用客户端。
网络12可以包括有线网络和无线网络。如图1所示,在接入网一侧,设备终端11可以通过无线的方式或者有线的方式接入到网络12;而在核心网一侧,服务器13一般是通过有线方式连接到网络12的。当然,上述服务器13也可以通过无线方式连接到网络12。
服务器13可以是应用客户端的应用服务器。服务器13可以是单独的服务器也可以是多个服务器组成的服务器集群。
更进一步的,服务器13中还包括一个用户数据库101,用于保存获取的用户浏览过的文章、日志等用户数据。
下面结合附图,通过几个实施例对本申请实例提供的数据处理方法进行说明。
基于上述图1所示的实施环境图,本申请的一些实施例提供了一种数据处理方法,由服务器13执行。图2示出了本申请实例提供的数据处理方法的流程图。如图2所示,该数据处理方法包括以下步骤:
步骤201:获取包含至少两个检索词的检索串。
步骤202:生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集。
步骤203:针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词。
步骤204:从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一检索词与所述第二检索词的第一紧密度。
在一些实例中,上述服务器执行如下步骤:执行如下步骤:A,针对第i-1层的任一目标节点u,确定以该目标节点u为父节点的、第i层中的目标节点v1~vn;n为正整数B,根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度;其中,最下层的目标节点中所述第一检索词与所述第二检索词的紧密度为初始紧密度;C,i=i-1;判断i是否为0,如果不是,返回A。所述初始紧密度根据第一共现数据或第二共现数据计算得到。
在一些实例中,在根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度时,根据所述第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度、以及以下参数中的至少一个,计算所述第i-1层的目标节点u中,所述第一检索词与所述第二检索词的紧密度:第i层的各个所述目标节点v1~vn的顺序指示参数,所述顺序指示参数用于指示所述第一检索词与所述第二检索词在所述第i层的各个目标节点v1~vn中的顺序;第i层各个所述目标节点v1~vn的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的各个目标节点v1~vn与所述第i-1层的目标节点u中包含的检索词偏离程度;第i层的各个所述目标节点v1~vn的节点权重;第i层各个所述目标节点v1~vn的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点v1~vn中第一检索词和第二检索词之间的位置偏移程度。
在一些实例中,第i-1层的一个目标节点u中所述第一检索词a与所述第二检索词e的紧密度Tu(a,e)表示如下:
Figure BDA0001703951950000061
其中,vj为位于第i层的各个目标节点v1~vn中所述目标节点u的子节点,j等于1至n,n为包括第一检索词a和第二检索词e、所述目标节点u的子节点的个数;
Figure BDA0001703951950000066
为目标节点vj中所述第一检索词a与所述第二检索词e的紧密度;
所述
Figure BDA0001703951950000062
为第i层的目标节点vj的顺序指示参数,用于指示所述第一检索词a与所述第二检索词e在所述第i层的目标节点vj中的顺序;
所述
Figure BDA0001703951950000063
为第i层的目标节点vj的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的目标节点vj与所述目标节点u中包含的检索词偏离程度;
所述
Figure BDA0001703951950000064
为第i层的目标节点vj的节点权重;
所述
Figure BDA0001703951950000065
为第i层的目标节点vj的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点vj中第一检索词和第二检索词之间的位置偏移程度。
在一些实例中,获取所述第一检索词与所述第二检索词的第一共现数据和第二共现数据;根据所述第一共现数据,得到所述第一检索词与所述第二检索词的第二紧密度;根据所述第二共现数据,得到所述第一检索词与所述第二检索词的第三紧密度;对所述第一紧密度、所述第二紧密度以及第三紧密度进行加权求和,并将求和结果作为所述第一检索词与所述第二检索词的目标紧密度。
在一些实例中,在得到在所述根节点中所述第一检索词与所述第二检索词的目标紧密度之后,还可以计算所述第一检索词与所述第二检索词的实体置信度,所述实体置信度用于表示所述第一检索词与所述第二检索词作为一个整体出现的概率;根据所述实体置信度和加权系数对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
在一些实例中,在得到在所述根节点中所述第一检索词与所述第二检索词的目标紧密度之后,还可以计算所述第一检索词与所述第二检索词的不紧邻概率;所述不紧邻概率代表所述第一检索词与所述第二检索词在搜索引擎的搜索结果中不紧邻出现的概率;根据所述不紧邻概率对所述第一检索词与所述第二检索词的目标紧密度进行调整。
在一些实例中,在得到在所述根节点中所述第一检索词与所述第二检索词的目标紧密度之后,识别所述第一检索词与所述第二检索词的命名类型,所述命名类型包括名称、包含空格标点、包含连接词以及包含停用词;根据所述命名类型确定对应的调整策略,使用所述调整策略对所述第一检索词与所述第二检索词的目标紧密度进行调整。
通过以上技术方案,对于获取的一个检索串,生成检索串对应的N层节点树,针对检索串中相邻的第一检索词和第二检索词,在节点树的根节点和各层子节点中选择目标节点,并从下至上根据下一层目标节点中第一检索词与所述第二检索词的紧密度,计算上一层目标节点中第一检索词与所述第二检索词的紧密度,直到得到在根节点也即检索串中第一检索词与所述第二检索词的第一紧密度,一方面可以优化紧密度计算中统计上的偏差,另一方面同时提高一些偏冷门检索词的紧密度的统计值,使得出的紧密度更加准确。
下面结合附图,介绍本申请实施例提供的数据处理方法。
图3为本申请一些实施例提供的数据处理方法的流程图,由服务器13执行。如图3所示,该数据处理方法包括以下步骤:
步骤301:获取包含至少两个检索词的检索串。
通常情况下,当用户需要搜索时,在应用客户端上输入一个检索串,响应于上述输入操作,应用客户端将上述检索串发送至服务器。需要说明的是,由于本申请实施例提供的数据处理方法为了计算检索串中两个相邻的检索词的紧密度,因此,这里的检索串要求包括至少两个检索词,其中,每个检索词为具有用户搜索历史记录的词语,也即有用户搜索过该检索词,上述检索词可以为单字也可以为双字,比如上述检索词可以是“反正”也可以是“切”。
步骤302:获取所述第一检索词与所述第二检索词的第一共现数据和第二共现数据。
在一些实例中,上述服务器在获取到上述检索串之后,首先获取上述第一检索词与上述第二检索词的第一共现数据,比如二元分词(Bigram)共现数据,上述第一共现数据可以根据用户浏览过的文章、日志等文本内容统计得到,可以是上述第一检索词与上述第二检索词在上述文本内容中共同出现并且紧邻出现的次数、上述第一检索词在上述文本内容中出现的次数以及上述第二检索词在上述文本内容中出现的次数。
在一些实例中,上述服务器还需要获取上述第一检索词与上述第二检索词的第二共现数据,比如窗口内共现数据,上述第二共现数据根据用户浏览过的文章、日志等文本内容统计得到,可以是上述第一检索词与上述第二检索词在预设窗口内不紧邻出现的次数、上述第一检索词在上述预设窗口内不紧邻出现的次数以及上述第二检索词在上述预设窗口内不紧邻出现的次数,上述预设窗口的长度为第一预设值,一般取5,也即上述第一检索词与上述第二检索词在5个词的长度内不紧邻出现的次数。
步骤303:根据第一共现数据,得到所述第一检索词与所述第二检索词的第一紧密度。
在一些实例中,根据所述第一共现数据计算得到根据所述第一检索词出现的概率、所述第二检索词出现的概率以及所述第一检索词和所述第二检索词共同出现的概率;根据所述第一检索词出现的概率、所述第二检索词出现的概率以及所述第一检索词和所述第二检索词共同出现的概率计算所述第一紧密度,也可以称为Bigram共现紧密度。
具体的,假设上述第一检索词为w1,第二检索词为w2,所述第一紧密度可以表示如下:
Figure BDA0001703951950000081
其中,p1(w1,w2)是w1和w2的联合概率密度函数,也即所述第一检索词w1和所述第二检索词w2共同出现的概率,而p1(w1)和p1(w2)分别是第一检索词w1和第二检索词w2的边缘概率密度函数,也即所述第一检索词w1出现的概率和所述第二检索词w2出现的概率。
其中,上述第一紧密度PMI1(w1,w2)为所述第一检索词w1和所述第二检索词w2的互信息(Mutual Information,简称MI)。在概率论和信息论中,两个随机变量的互信息是变量间相互依赖性的量度。两个随机变量的互信息不同于相关系数,互信息并不局限于实值随机变量,它决定着联合分布函数p1(w1,w2)和分解的边缘分布函数的乘积p1(w1)p(w2)的相似程度。两个随机变量的互信息可以度量两个随机变量之间的相关性,两个随机变量的互信息的值越大,说明这两个随机变量之间的相关性越大,也即这两个随机变量之间相互依赖的程度越大,也就说明这两个随机变量越紧密。因此,PMI1(w1,w2)可以反映上述第一检索词w1与上述第二检索词w2之间相互依赖的程度,也就是说PMI1(w1,w2)可以反映上述第一检索词w1与上述第二检索词w2的紧密度。
步骤304:根据上述第二共现数据,得到所述第一检索词与所述第二检索词的第二紧密度。
在一些实例中,根据所述第二共现数据计算的得到所述第一检索词在预设窗口内出现的概率、所述第二检索词在所述预设窗口内出现的概率以及所述第一检索词和所述第二检索词在所述预设窗口内共同出现的概率;根据所述第一检索词在所述预设窗口内出现的概率、所述第二检索词在所述预设窗口内出现的概率以及所述第一检索词和所述第二检索词在所述预设窗口内共同出现的概率计算所述第二紧密度。
如前所述,假设上述第一检索词为w1,第二检索词为w2,所述第二紧密度可以表示如下:
Figure BDA0001703951950000091
其中,p2(w1,w2)是第一检索词为w1和第二检索词w2的在上述预设窗口内的联合概率密度函数也即所述第一检索词w1和所述第二检索词w2在所述预设窗口内共同出现的概率,而p2(w1)和p2(w2)分别是第一检索词w1和第二检索词w2在上述预设窗口内的边缘概率密度函数,也即所述第一检索词w1在预设窗口内出现的概率和所述第二检索词w2在所述预设窗口内出现的概率。
其中,上述第二紧密度PMI2(w1,w2)为所述第一检索词w1和所述第二检索词w2在上述预设窗口内的互信息,可以反映上述第一检索词w1与上述第二检索词w2之间在上述预设窗口内相互依赖的程度,也就是说PMI2(w1,w2)可以反映上述第一检索词w1与上述第二检索词w2在上述预设窗口内的紧密度。
步骤305:生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集。
在一些实例中,生成所述检索串对于的N层节点树包括以下步骤:
步骤3051:对所述检索串进行分词处理得到所述检索串中的至少两个检索词。
在一些实例中,上述服务器在获取到上述检索串之后,对上述检索串进行分词处理以得到检索串中包含的至少两个检索词,比如,将检索串“反正切计算公式”进行分词处理可以得到“反正”、“切”、“计算”、“公式”这几个检索词。其中,上述分词处理可以采用一元分词方法也可以采用二元分词方法,还可以采用一元分词方法或二元分词方法并结合用户的搜索记录来对上述检索串进行分词处理,本申请实施例在此不做具体限定。
步骤3052:根据得到的所述至少两个检索词,组合生成第一层子检索串,并将该第一层子检索串作为所述根节点的第1层子节点。
在一些实例中,将得到的所述至少两个检索词中,任意个数的检索词组合形成的第一层子检索串作为所述根节点的第1层子节点。上述第1层子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集,也即组合形成的第一层子检索串的检索词的个数小于上述根节点中上述检索串包含的检索词的个数。此外,组合形成第一层子检索串时,还可以参考用户的搜索历史记录,也即用户搜索过该第一层子检索串,该第一层子检索串才能作为上述第1层子节点。
步骤3053:当所述第1层子节点中存在包括两个以上检索词的子节点时,根据该子节点中包含的两个以上检索词,组合生成第二层子检索串,并将该第二层子检索串作为所述根节点的第2层子节点,直至得到所述根节点的第N层子节点,上述第N层子节点包括两个以下的检索词。
在一些实例中,当所述第1层子节点中存在包括两个以上检索词的子节点时,将该子节点包含的第一层子检索串中的两个以上检索词中,任意个数组成的第二层子检索串作为上述根节点的第2层子节点,直至得到第N层子节点,上述第N层子节点包括两个以下的检索词。上述第2层子节点包含的所述至少两个检索词为第一层中其父节点包含的检索词的子集,也即组合形成的第二层子检索串的检索词的个数小于其父节点中上述检索串包含的检索词的个数。此外,组合形成第二层子检索串时,还可以参考用户的搜索历史记录,也即用户搜索过该第二层子检索串,该第二层子检索串才能作为上述第2层子节点。
这里,上述节点树中,包括两个以下检索词的子节点为上述节点树的叶子节点。需要说明的是,上述叶子节点可以是上述节点树的任一层子节点。
图4为节点树的生成过程示意图。如图4所示,上述服务器获取到一个检索串401后,对该检索串401进行分词处理,得到检索串401所包含的六个检索词402。根据得到的六个检索词402组合形成第一层子检索串403-406作为所述根节点的第1层子节点404。可以看出第1层子节点404中存在包括两个以上检索词的子节点404和405,根据子节点404中包含的4个检索词,组合生成第二层子检索串408,并将该第二层子检索串408作为所述根节点的第2层子节点410,同时根据子节点405中包含的3个检索词,组合生成第二层子检索串408,并将该第二层子检索串409作为所述根节点的第2层子节点410。还可以看出,第2层子节点410中存在包括两个以上检索词的子节点408,根据子节点408中包含的3个检索词,组合生成第三层子检索串411,并将该第二层子检索串411作为所述根节点的第3层子节点412。可以看出,该检索串401生成的节点树一共包括4层节点。
步骤306:针对第i-1层的任一目标节点u,确定以该目标节点u为父节点的、第i层中的目标节点v1~vn
在一些实例中,确定的以目标节点u为父节点的、第i层的目标节点v1~vn中包括上述第一检索词和第二检索词。
步骤307:根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度;其中,最下层的目标节点中所述第一检索词与所述第二检索词的紧密度为初始紧密度。
在一些实例中,上述初始紧密度为第一紧密度或第二紧密度。
在一些实例中,根据所述第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度、以及以下参数中的至少一个,计算所述第i-1层的目标节点u中,所述第一检索词与所述第二检索词的紧密度:第i层的各个所述目标节点v1~vn的顺序指示参数,所述顺序指示参数用于指示所述第一检索词与所述第二检索词在所述第i层的各个目标节点v1~vn中的顺序;第i层各个所述目标节点v1~vn的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的各个目标节点v1~vn与所述第i-1层的目标节点u中包含的检索词偏离程度;第i层的各个所述目标节点v1~vn的节点权重;第i层各个所述目标节点v1~vn的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点v1~vn中第一检索词和第二检索词之间的位置偏移程度。
在一些实例中,第i-1层的一个目标节点u中所述第一检索词a与所述第二检索词e的紧密度Tu(a,e)表示如下:
Figure BDA0001703951950000121
其中,vj为位于第i层的包括第一检索词a和第二检索词e、所述目标节点u的子节点,j等于1至n,n为包括第一检索词a和第二检索词e的、所述目标节点u的子节点的个数;
Figure BDA0001703951950000122
为目标节点vj中第一检索词a与第二检索词e的紧密度;所述
Figure BDA0001703951950000123
为第i层的目标节点vj的顺序指示参数,用于指示所述第一检索词a与所述第二检索词e在所述第i层的目标节点vj中的顺序;所述
Figure BDA0001703951950000131
为第i层的目标节点vj的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的目标节点vj与所述目标节点u中包含的检索词偏离程度;所述
Figure BDA0001703951950000132
为第i层的目标节点vj的节点权重;所述
Figure BDA0001703951950000133
为第i层的目标节点vj的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点vj中第一检索词和第二检索词之间的位置偏移程度。
在一些实例中,当所述第一检索词a与所述第二检索词e在所述目标节点vj中第一顺序出现时,所述
Figure BDA0001703951950000134
的值为1;当所述第一检索词a与所述第二检索词e在所述目标节点vj中第二顺序出现时,所述
Figure BDA0001703951950000135
的值为0。
在一些实例中,上述第i层的目标节点vj的语义偏离惩罚参数
Figure BDA0001703951950000136
用于表征目标节点vj与所述目标节点u中包含的检索词偏离程度。具体的,上述目标节点vj中包括的检索词的个数与上述目标节点u中包含的检索词的个数相差越大,则上述语义偏离惩罚参数
Figure BDA0001703951950000137
的值越大,也即惩罚越大。
具体的,上述
Figure BDA0001703951950000138
其中,term-countu为上述目标节点u中包含的检索词的个数,term_countvj为上述目标节点vj中包含的检索词的个数。
在一些实例中,所述
Figure BDA0001703951950000139
为第i层的目标节点vj的节点权重,用于根据目标节点vj中包含的检索词的搜索次数和点击次数来表征目标节点vj中包含的检索词的热门程度,目标节点vj中检索词的点击次数和搜索次数越小,目标节点vj的节点权重越小,也即惩罚越大。
具体的,
Figure BDA00017039519500001310
其中,上述click(vj)表示目标节点vj的点击次数,上述search(vj)表示目标节点vj的搜索次数。
在一些实例中,所述
Figure BDA00017039519500001311
为第i层的目标节点vj的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点vj中第一检索词a和第二检索词e之间的位置偏移程度。上述第一检索词a和上述第二检索词e在上述目标节点vj中的距离越大,则位置偏移惩罚参数
Figure BDA00017039519500001312
的值越小。
具体的,
Figure BDA0001703951950000141
其中,
Figure BDA0001703951950000142
为第一检索词a在上述目标节点vj中的位置;
Figure BDA0001703951950000143
为第二检索词e在上述目标节点vj中的位置;term_count(vj)为上述目标节点vj中包含的检索词的个数。
在一些实例中,上述RP为逆序惩罚因子,用于作为第一检索词a和第二检索词e在上述目标节点vj中逆序出现时的降权系数,为经验值,本申请实施例中,上述RP等于0.3。
在本申请的另外一些实例中,当不考虑上述第一检索词a与上述第二检索词e的出现顺序时,也即上述第一检索词a与上述第二检索词e在上述目标节点vj中出现即确定上述目标节点中包括上述第一检索词a与上述第二检索词e,则第i-1层的一个目标节点u中所述第一检索词a与所述第二检索词e的紧密度Tu(a,e)表示如下:
Figure BDA0001703951950000144
其中,该公式(2)中语义偏离惩罚参数
Figure BDA0001703951950000145
目标节点vj的节点权重
Figure BDA0001703951950000146
目标节点vj中第一检索词a与第二检索词e的紧密度
Figure BDA0001703951950000147
以及目标节点vj的位置偏移惩罚参数
Figure BDA0001703951950000148
与公式(1)中的计算方法相同。
步骤308:i=i-1,并判断i是否为0,如果不是,返回步骤306;如果是,得到上述第一检索词与上述第二检索词的第三紧密度。
步骤309:对所述第一紧密度、所述第二紧密度以及所述第三紧密度、进行加权求和,并将求和结果作为所述第一检索词与所述第二检索词的所述目标紧密度。
在一些实例中,对上述第一紧密度、上述第二紧密度以及上述目标紧密度进行加权求和,上述目标紧密度=A*第一紧密度+B*第二紧密度+C*目标紧密度,其中,A、B以及C为经验值。
例如,以检索串“反正切计算公式”为例,计算得到:
第一紧密度为:反正0.2141切0.0000计算0.7109公式
第二紧密度为:反正0.0587切0.0000计算0.5993公式
目标紧密度为:反正0.3333切0.0000计算0.2453公式
因此,对上述第一紧密度、上述第二紧密度以及上述目标紧密度加权求和,并将加权求和的结果作为目标紧密度。目标紧密度=A*上述第一紧密度+B*上述第二紧密度+C*上述目标紧密度。
假设A为0.4、B为0.3、C为0.3,则目标紧密度为:反正0.20324切0.0000计算0.53774公式。
步骤310:计算所述第一检索词与所述第二检索词的实体置信度,所述实体置信度用于表示所述第一检索词与所述第二检索词作为一个整体在搜索引擎的搜索结果中出现的概率。
在一些实例中,还可以将所述第一检索词与第二检索词组合为一个实体,比如将第一检索词“反正”和第二检索词“切”组合的实体为“反正切”。有一些偏冷门实体,从统计值上无法体现其紧密程度,比如实体“王者之村”的统计值是非常低的;另外还存在一些新出现的实体,从统计值上体现其紧密度,需要积累一段时间,比如小游戏刚出来时,“跳一跳”的搜索量,相关文章量是很低的,基于此计算“跳一跳”的统计值也是很低的。本申请实施例根据第一检索词与第二检索词的实体置信度对目标紧密度做进一步调整。
在一些实例中,也可以将所述第一检索词与第二检索词组合的实体,比如将第一检索词“反正”和第二检索词“切”组合的实体为“反正切”,与实体库中的各个实体名称进行匹配,如果所述第一检索词与第二检索词组合的实体与上述实体库中的一个实体名称相匹配,则确定该实体名称对应的实体置信度,并将该实体置信度作为所述第一检索词与第二检索词组合的实体的实体置信度。这里,上述实体库中记录了多个实体名称及其对应的实体置信度,其中该实体置信度可以根据下面的公式(5)和公式(6)进行计算得到。
在一些实例中,所述第一检索词以及所述第二检索词的实体置信度表示如下:
Figure BDA0001703951950000151
其中,所述d为所述第一检索词w1以及所述第二检索词w2构成的实体,tight_conf(d)为所述实体d的实体置信度,也即所述第一检索词w1以及所述第二检索词w2的实体置信度,用于表征构成所述实体d的所述第一检索词和所述第二检索词的紧密度的置信度,所述n为所述实体d对应的搜索结果的个数;
其中,ftitle(d)为一个0-1函数,当所述实体d出现在一个搜索结果的标题时,所述ftitle(d)的值为1,否则所述ftitle(d)的值为0;
其中,fsummary(d)为一个0-1函数,当所述实体d出现在所述搜索结果的摘要时,所述fsummary(d)的值为1,否则所述fsummary(d)的值为0,所述α为第二预设值,具体可以为经验值0.75;
其中,所述pos(i)为各个搜索结果的位置函数,所述位置函数的值与所述搜索结果成反比,也即给予排在后面的搜索结果一定的惩罚。
在本申请的另外一些实例中,当不需要区分上述实体d在搜索结果的标题中出现还是在摘要中出现时,所述第一检索词以及所述第二检索词的实体置信度还可以表示如下:
Figure BDA0001703951950000161
其中,所述d为所述第一检索词w1以及所述第二检索词w2构成的实体,tight_conf(d)为所述实体d的实体置信度,也即所述第一检索词w1以及所述第二检索词w2的实体置信度,用于表征构成所述实体d的所述第一检索词和所述第二检索词的紧密度的置信度,所述n为所述实体d对应的搜索结果的个数;
其中,f(d)为一个0-1函数,当上述构成上述实体d的上述第一检索词w1和和第二检索词w2在所搜结果的标题和/或摘要中出现,则f(d)的值为1;否则,f(d)的值为0;
其中,所述pos(i)为各个搜索结果的位置函数,所述位置函数的值与所述搜索结果成反比,也即给予排在后面的搜索结果一定的惩罚。
步骤311:根据第一加权系数、第三预设值、所述实体置信度对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
在一些实例中,所述目标紧密度等于第一加权系数、第三预设值以及所述实体置信度与所述目标紧密度相乘,也即目标紧密度=第一加权系数*第三预设值*所述实体置信度*所述目标紧密度。其中,上述第三预设值为经验值0.3。
在一些实例中,当所述实体d具有第一结构时,所述第一加权系数为第一取值;当所述实体d具有第二结构时,所述第一加权系数为第二取值。这里,上述第一结构为构成上述实体d的上述第一检索词和上述第二检索词中的其中一个检索词为单字,比如第一检索词“反正”和第二检索词“切”中的第二检索词“切”为单字;上述第二结构为构成上述实体d的上述第一检索词和上述第二检索词都为双字,比如第一检索词“计算”和第二检索词“公式”两个都为双字。具体的,当所述实体d具有第一结构时也即构成所述实体d的上述第一检索词与上述第二检索词中的其中一个检索词为单字时,所述第一加权系数为上述第一取值,也即1.45;当所述实体d具有第二结构时也即构成所述实体d的上述第一检索词与上述第二检索词都是双字时,所述第一加权系数为上述第二取值,也即1.2。
仍以检索串“反正切计算公式”为例,如前所述,经过对第一紧密度、第二紧密度以及第三紧密度进行加权求和后将检索串“反正切计算公式”的目标紧密度调整为:反正0.20324切0.0000计算0.53774公式。
又由于,根据公式(5)或公式(6)计算得到的实体置信度为:反正1.2760切0.0000计算1.0812公式,可以看出,“切”和“计算”的实体置信度为零,比较符合语言习惯。
因此,根据上述第一加权系数、上述第三预设值、上述实体置信度对检索串“反正切计算公式”的目标紧密度进一步进行调整。具体的,可以根据目标紧密度=加权系数*第三预设值*所述实体置信度*所述目标紧密度来对目标紧密度进行调整,调整后的结果为:
目标紧密度为:反正0.5705切0.0000计算0.8509公式,可以看出,第一检索词“反正”和第二检索词“切”的实体置信度得到了提权,
可见,根据实体置信度对目标紧密度进行调整,使调整后的目标紧密度更加精确的反映了第一检索词和第二检索词之间的紧密度,进一步优化了统计偏差。
步骤311:计算所述第一检索词与所述第二检索词的不紧邻概率;所述不紧邻概率代表所述第一检索词与所述第二检索词在搜索引擎的搜索结果中不紧邻出现的概率。
在一些实例中,当上述检索串中的第一检索词和第二检索词在语料库中经常成对出现,或者上述检索串存在多个不同的实体,基于上述步骤计算第一检索词和第二检索词的紧密度会偏高。因此还可以计算上述第一检索词和上述第二检索词的不紧邻概率,并根据该不紧邻概率对上述第一检索词和上述第二检索词的目标紧密度进行调整。
在一些实例中,上述第一检索词和上述第二检索词的不紧邻概率可以表示如下:
Figure BDA0001703951950000181
其中,所述w1代表第一检索词,所述w2代表第二检索词,所述nonadjp(w1,w2)为第一检索词与第二检索词的不紧邻概率;n为同时包含上述第一检索词w1和上述第二检索词w2的搜索结果的个数;
其中,f(w1,w2)为一个0-1函数,其取值根据上述第一检索词和上述第二检索词在一个搜索结果的标题中是否不紧邻出现确定。具体的,当上述第一检索词和上述第二检索词在一个搜索结果的标题中不紧邻出现时,f(w1,w2)的值为1,否则为0;
其中,doci为上述第一检索词和上述第二检索词的第i个搜索结果;
其中,所述α(click(doci)的值根据对第i个搜索结果doci的点击次数确定,如果doci的点击次数越多,对该doci的惩罚越小,也即α(click(doci)的值越大,其权重就越大;
具体的,α(click(doci)=1-(1/log(click(doci));
其中,所述β(n)的值根据点击不同搜索结果的个数确定,表征了点击分布的多样性。例如,对搜索结果docA点击了2词,对搜索结果docB点击了4次,对搜索结果docC点击了10次,也即在点击的16次中,一共点击了3种不同搜索结果,也即,这里的n=3。因此,n的值越大,β(n)的值越大。具体的,β(n)=1-(1/log(click(docn))。
步骤312:根据所述不紧邻概率对所述第一检索词与所述第二检索词的目标紧密度进行调整。
在一些实例中,上述目标紧密度等于上述目标紧密度-不紧邻概率*第四预设值。其中,上述第四预设值为经验值0.2。
因此,根据第一检索词与所述第二检索词的不紧邻概率对目标紧密度进行调整,使调整后的目标紧密度更加精确的反映了第一检索词和第二检索词之间的紧密度,进一步优化了统计偏差。
步骤313:识别所述第一检索词与所述第二检索词的命名类型,所述命名类型名称、包含空格标点、包含连接词以及包含停用词。
在一些实例中,由于上述步骤无法覆盖一些特殊的情况,比如非常冷的人名,新注册的公众号名。因此,在对上述目标紧密度进行调整之后,还可以根据所述第一检索词与所述第二检索词的命名类型对上述目标紧密度进行进一步的调整。因此,根据命名实体识别(NER:Named Entity Recognition)方法识别第一检索词与所述第二检索词的命名类型,根据不同的命名类型对上述目标紧密度进行调整。其中,命名类型包括名称,比如人名或地名、包含空格标点、包含连接词、包含停用词等。
步骤314:根据所述命名类型确定对应的调整策略,使用所述调整策略对所述第一检索词与所述第二检索词的目标紧密度进行调整。
在一些实例中,当确定上述第一检索词与上述第二检索词为名称的命名类型时,采用第一调整策略。具体的,如果上述第一检索词与上述第二检索词的目标紧密度低于第五预设值,则将上述目标紧密度直接赋予一个默认值,比如,假设第五预设值为0.5,命名类型为名称的上述第一检索词与上述第二检索词的目标紧密度为0.2,大大小于第五预设值0.5,则将上述目标紧密度赋值为0.85。
在一些实例中,当确定上述第一检索词与上述第二检索词为包含空格标点、包含连接词或包含停用词的命名类型时,采用第二调整策略。具体的,确定第二加权系数,将上述第一检索词与上述第二检索词的目标紧密度乘以该第二加权系数。其中,当上述第一检索词与上述第二检索词的目标紧密度高于第六预设值时,上述第二加权系数为第三取值,以对上述目标紧密度进行降权;当上述第一检索词与上述第二检索词的目标紧密度低于第六预设值时,上述第二加权系数为第四取值,以对上述目标紧密度进行提权。例如,对于命名类型为包含连接词,比如“安徽和黄山”中包含连接词“和”,如果对于“安徽”、“和”计算的目标紧密度高于第六预设值,则需要降低紧密度,因此,将目标紧密度乘以上述第三取值。
更进一步的,如果上述第一检索词与上述第二检索词的目标紧密度高于第七预设值,比如高于0.95时,说明上述第一检索词与上述第二检索词的目标紧密度很高,则不需要进行降权。例如,对于一些包含停用词,比如“美的”包含停用词“的”,如果上述目标紧密度为0.95,则不需要降权。
在一些实例中,还可以对上述检索串进行句法依存分析,如果上述第一检索词和上述第二检索词具有句法依存关系,则对第一检索词和上述第二检索词的目标紧密度进行调整,具体可以将目标紧密度乘以第八预设值,该第八预设值为经验值。其中,句法依存分析是通过分析语言单位内成分之间的依存关系揭示其句法结构,也即识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。
图5为一个句法依存分析的示例。图5给出了检索串“插口灯泡怎么换”的句法依存分析结果。如图5所示,“换”是该检索串的核心关系501,也即整个句子的核心,“插口”和“灯泡”是定语和中心语的关系502,“灯泡”和“换”之间是主谓关系503,以及“怎么”和“换”之间是状语和中心语的关系504。根据该分析结果,对拥有定语和中心语的关系502的相邻的检索词插口”和“灯泡”的目标紧密度进行调整,对拥有状语和中心语的关系504的相邻的检索词“怎么”和“换”的目标紧密度进行调整。
更进一步的,可以根据最终得出的上述检索串中各两个相邻的检索词的目标紧密度以及该目标紧密度对上述检索串的搜索结果的排序的影响,对上述目标紧密度进行评测。具体的,可以将两次计算的新旧版本的目标紧密度进行对比,看哪个版本的目标紧密度更加准确,更进一步的,还可以参考目标紧密度对排序结果的影响。
通过本申请的技术方案,对于获取的一个检索串,生成检索串对应的N层节点树,直到得到在该节点树的根节点也即检索串中第一检索词与第二检索词的目标紧密度,并且可以根据第一检索词与第二检索词的实体置信度、不紧邻概率、命名类型以及句法依存分析结果对上述目标紧密度进一步调整,不仅优化紧密度计算中统计上的偏差,同时还提高一些偏冷门检索词的紧密度的统计值,大大提高了得到的检索串中第一检索词与第二检索词的紧密度的精确度。
对应以上数据处理方法,本申请还提供了实现上述方法的数据处理装置600,该数据处理装置600可以位于服务器中。图6示出了数据处理装置600的结构图。如图6所示,该数据处理装置600包括:获取模块601、生成模块602、选择模块603以及计算模块604,其中,各模块的功能如下:
获取模块601,获取包含至少两个检索词的检索串;
生成模块602,生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集;
选择模块603,针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及
计算模块604,从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一检索词与所述第二检索词的第一紧密度。
在一些实例中,所述计算模块604,进一步根获取所述第一检索词与所述第二检索词的第一共现数据和第二共现数据;根据所述第一共现数据,得到所述第一检索词与所述第二检索词的第二紧密度;根据所述第二共现数据,得到所述第一检索词与所述第二检索词的第三紧密度;对所述第一紧密度、所述第二紧密度以及第三紧密度进行加权求和,并将求和结果作为所述第一检索词与所述第二检索词的目标紧密度。
在一些实例中,所述计算模块604,执行如下步骤:
A,针对第i-1层的任一目标节点u,确定以该目标节点u为父节点的、第i层中的目标节点v1~vn;n为正整数
B,根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度;其中,最下层的目标节点中所述第一检索词与所述第二检索词的紧密度为初始紧密度;
C,i=i-1;判断i是否为0,如果不是,返回A。
在一些实例中,所述计算模块604,进一步根据所述第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度、以及以下参数中的至少一个,计算所述第i-1层的目标节点u中,所述第一检索词与所述第二检索词的紧密度:
第i层的各个所述目标节点v1~vn的顺序指示参数,所述顺序指示参数用于指示所述第一检索词与所述第二检索词在所述第i层的各个目标节点v1~vn中的顺序;
第i层各个所述目标节点v1~vn的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的各个目标节点v1~vn与所述第i-1层的目标节点u中包含的检索词偏离程度;
第i层的各个所述目标节点v1~vn的节点权重;
第i层各个所述目标节点v1~vn的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点v1~vn中第一检索词和第二检索词之间的位置偏移程度。
在一些实例中,第i-1层的一个目标节点u中所述第一检索词a与所述第二检索词e的紧密度Tu(a,e)表示如下:
Figure BDA0001703951950000231
其中,vj为位于第i层的各个目标节点v1~vn中所述目标节点u的子节点,j等于1至n,n为包括第一检索词a和第二检索词e、所述目标节点u的子节点的个数;
Figure BDA0001703951950000232
为目标节点vj中所述第一检索词a与所述第二检索词e的紧密度;
所述
Figure BDA0001703951950000233
为第i层的目标节点vj的顺序指示参数,用于指示所述第一检索词a与所述第二检索词e在所述第i层的目标节点vj中的顺序;
所述
Figure BDA0001703951950000234
为第i层的目标节点vj的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的目标节点vj与所述目标节点u中包含的检索词偏离程度;
所述
Figure BDA0001703951950000235
为第i层的目标节点vj的节点权重;
所述
Figure BDA0001703951950000236
为第i层的目标节点vj的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点vj中第一检索词和第二检索词之间的位置偏移程度。
在一些实例中,所述数据处理装置600进一步包括:置信度模块605,计算所述第一检索词与所述第二检索词的实体置信度,所述实体置信度用于表示所述第一检索词与所述第二检索词作为一个整体出现的概率;根据所述实体置信度和加权系数对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
在一些实例中,所述数据处理装置600进一步包括:不紧邻概率模块606,计算所述第一检索词与所述第二检索词的不紧邻概率;所述不紧邻概率代表所述第一检索词与所述第二检索词在搜索引擎的搜索结果中不紧邻出现的概率;并根据所述不紧邻概率对所述第一检索词与所述第二检索词的目标紧密度进行调整。
在一些实例中,所述数据处理装置600进一步包括:命名类型模块607,识别所述第一检索词与所述第二检索词的命名类型,所述命名类型包括名称、包含空格标点、包含连接词以及包含停用词;根据所述命名类型确定对应的调整策略,使用所述调整策略对所述第一检索词与所述第二检索词的目标紧密度进行调整。
在一些实例中,所述数据处理装置600进一步包括:句法依存模块608,对上述检索串进行句法依存分析,如果上述第一检索词和上述第二检索词具有句法依存关系,则对第一检索词和上述第二检索词的目标紧密度进行调整。
上述数据处理装置,对于获取的一个检索串,生成检索串对应的N层节点树,直到得到在该节点树的根节点也即检索串中第一检索词与第二检索词的目标紧密度,并且可以根据第一检索词与第二检索词的实体置信度、不紧邻概率、命名类型以及句法依存分析结果对上述目标紧密度进一步调整,不仅优化紧密度计算中统计上的偏差,同时还提高一些偏冷门检索词的紧密度的统计值,大大提高了得到的检索串中第一检索词与第二检索词的紧密度的精确度。
图7示出了实现数据处理方法的数据处理装置600所在的服务器700的组成结构图。如图7所示,该计算设备包括一个或者多个处理器(CPU)702、通信模块704、存储器706、用户接口710,以及用于互联这些组件的通信总线708。
处理器702可通过通信模块704接收和发送数据以实现网络通信和/或本地通信。
用户接口710包括一个或多个输出设备712,其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口710也包括一个或多个输入设备514,其包括诸如,键盘,鼠标,声音命令输入单元或扩音器,触屏显示器,触敏输入板,姿势捕获摄像机或其他输入按钮或控件等。
存储器706可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器706存储处理器702可执行的指令集,包括:
操作系统716,包括用于处理各种基本系统服务和用于执行硬件相关任务的程序;
应用718,包括用于实现数据处理方法各种应用程序,这种应用程序能够实现上述各实例中的处理流程,比如可以包括图6所示的实现数据处理方法的装置600中的部分或全部单元。各单元或模块601-608中的至少一个模块可以存储有机器可执行指令。处理器502通过执行存储器506中各模块601-608中至少一个模块中的机器可执行指令,进而能够实现上述各模块601-608中的至少一个模块的功能。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令,存储在非易失性存储介质中。因此,各实施例也可以体现为软件产品。
因此,本申请的一些实例还提供了一种计算机可读存储介质,其上存储有计算机指令,其中,所述计算机指令被处理器执行时实现上述图2-3中所述方法的步骤。
各例中,硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如,硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。
另外,本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本申请。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此,这样的存储介质也构成了本申请,本申请还提供了一种非易失性存储介质,其中存储有数据处理程序,这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。
图6中的模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。
另外,在本申请各个实例中的装置及各模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上装置或模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取包含至少两个检索词的检索串;
生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集,N为正整数;
针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及
从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一检索词与所述第二检索词的第一紧密度;
其中,从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,包括:
执行如下步骤:
A,针对第i-1层的任一目标节点u,确定以该目标节点u为父节点的、第i层中的目标节点v1~vn;n为正整数
B,根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度;其中,最下层的目标节点中所述第一检索词与所述第二检索词的紧密度为初始紧密度;
C,i=i-1;判断i是否为0,如果不是,返回A;
其中,所述根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度,包括:
根据所述第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度、以及以下参数中的至少一个,计算所述第i-1层的目标节点u中,所述第一检索词与所述第二检索词的紧密度:
第i层的各个所述目标节点v1~vn的顺序指示参数,所述顺序指示参数用于指示所述第一检索词与所述第二检索词在所述第i层的各个目标节点v1~vn中的顺序;
第i层各个所述目标节点v1~vn的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的各个目标节点v1~vn与所述第i-1层的目标节点u中包含的检索词偏离程度;其中,所述第i层各个所述目标节点v1~vn中的任一节点中包括的检索词的个数与所述目标节点u中包含的检索词的个数相差越大,该节点的所述语义偏离惩罚参数的值越大;
第i层的各个所述目标节点v1~vn的节点权重;其中,所述第i层各个所述目标节点v1~vn中的任一节点中包含的检索词的搜索次数和点击次数越小,该节点的所述节点权重越小;
第i层各个所述目标节点v1~vn的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点v1~vn中第一检索词和第二检索词之间的位置偏移程度;其中,所述第一检索词和所述第二检索词在所述第i层各个所述目标节点v1~vn中的任一节点中的距离越大,该节点的位置偏移惩罚参数的值越小。
2.根据权利要求1所述的方法,其中,进一步包括:
获取所述第一检索词与所述第二检索词的第一共现数据和第二共现数据;
根据所述第一共现数据,得到所述第一检索词与所述第二检索词的第二紧密度;
根据所述第二共现数据,得到所述第一检索词与所述第二检索词的第三紧密度;
对所述第一紧密度、所述第二紧密度以及第三紧密度进行加权求和,并将求和结果作为所述第一检索词与所述第二检索词的目标紧密度。
3.根据权利要求2所述的方法,其中,所述初始紧密度为根据所述第一共现数据或所述第二共现数据计算得到。
4.根据权利要求1所述的方法,其中,第i-1层的目标节点u中所述第一检索词a与所述第二检索词e的紧密度Tu(a,e)表示如下:
Figure FDA0004123234890000031
其中,vj为位于第i层的各个目标节点v1~vn中所述目标节点u的子节点,j等于1至n,n为包括第一检索词a和第二检索词e、所述目标节点u的子节点的个数;
Figure FDA0004123234890000032
为目标节点vj中所述第一检索词a与所述第二检索词e的紧密度;
所述
Figure FDA0004123234890000033
为第i层的目标节点vj的顺序指示参数,用于指示所述第一检索词a与所述第二检索词e在所述第i层的目标节点vj中的顺序;
所述
Figure FDA0004123234890000034
为第i层的目标节点vj的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的目标节点vj与所述目标节点u中包含的检索词偏离程度;
所述
Figure FDA0004123234890000035
为第i层的目标节点vj的节点权重;
所述
Figure FDA0004123234890000036
为第i层的目标节点vj的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点vj中第一检索词和第二检索词之间的位置偏移程度。
5.根据权利要求4所述的方法,其中,
当所述第一检索词a与所述第二检索词e在所述目标节点vj中第一顺序出现时,所述
Figure FDA0004123234890000037
的值为1;当所述第一检索词a与所述第二检索词e在所述目标节点vj中第二顺序出现时,所述
Figure FDA0004123234890000038
的值为0。
6.根据权利要求2所述的方法,进一步包括:
计算所述第一检索词与所述第二检索词的实体置信度,所述实体置信度用于表示所述第一检索词与所述第二检索词作为一个整体出现的概率;
根据所述实体置信度和加权系数对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
7.根据权利要求2所述的方法,进一步包括:
计算所述第一检索词与所述第二检索词的不紧邻概率;所述不紧邻概率代表所述第一检索词与所述第二检索词不紧邻出现的概率;
根据所述不紧邻概率对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
8.根据权利要求2所述的方法,进一步包括:
识别所述第一检索词与所述第二检索词的命名类型,所述命名类型包括名称、包含空格标点、包含连接词以及包含停用词;
根据所述命名类型确定对应的调整策略,使用所述调整策略对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
9.一种数据处理装置,其特征在于,包括:
获取模块,获取包含至少两个检索词的检索串;
生成模块,生成所述检索串对应的N层节点树,所述节点树的根节点包含所述检索串,所述节点树的任一层的子节点包含所述检索串中的至少两个检索词,并且所述子节点包含的所述至少两个检索词为上一层中其父节点包含的检索词的子集;
选择模块,针对所述检索串中相邻的第一检索词和第二检索词,在所述节点树的根节点和各层子节点中选择目标节点,所述目标节点中至少包括所述第一检索词和所述第二检索词;以及
计算模块,从下至上依次根据下一层目标节点中所述第一检索词与所述第二检索词的紧密度,计算上一层目标节点中所述第一检索词与所述第二检索词的紧密度,直到得到在所述根节点中所述第一检索词与所述第二检索词的第一紧密度
其中,所述计算模块,进一步用于执行如下步骤:
A,针对第i-1层的任一目标节点u,确定以该目标节点u为父节点的、第i层中的目标节点v1~vn;n为正整数
B,根据第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度,计算第i-1层的目标节点u中所述第一检索词与所述第二检索词的紧密度;其中,最下层的目标节点中所述第一检索词与所述第二检索词的紧密度为初始紧密度;
C,i=i-1;判断i是否为0,如果不是,返回A;
其中,所述计算模块,进一步用于根据所述第i层的各个目标节点v1~vn中所述第一检索词与所述第二检索词的紧密度、以及以下参数中的至少一个,计算所述第i-1层的目标节点u中,所述第一检索词与所述第二检索词的紧密度:
第i层的各个所述目标节点v1~vn的顺序指示参数,所述顺序指示参数用于指示所述第一检索词与所述第二检索词在所述第i层的各个目标节点v1~vn中的顺序;
第i层各个所述目标节点v1~vn的语义偏离惩罚参数,所述语义偏离惩罚参数用于代表所述第i层的各个目标节点v1~vn与所述第i-1层的目标节点u中包含的检索词偏离程度;其中,所述第i层各个所述目标节点v1~vn中的任一节点中包括的检索词的个数与所述目标节点u中包含的检索词的个数相差越大,该节点的所述语义偏离惩罚参数的值越大;
第i层的各个所述目标节点v1~vn的节点权重;其中,所述第i层各个所述目标节点v1~vn中的任一节点中包含的检索词的搜索次数和点击次数越小,该节点的所述节点权重越小;
第i层各个所述目标节点v1~vn的位置偏移惩罚参数,所述位置偏移惩罚参数用于代表所述第i层的目标节点v1~vn中第一检索词和第二检索词之间的位置偏移程度,其中,所述第一检索词和所述第二检索词在所述第i层各个所述目标节点v1~vn中的任一节点中的距离越大,则该节点的位置偏移惩罚参数的值越小。
10.根据权利要求9所述的装置,其中,所述获取模块,进一步获取所述第一检索词与所述第二检索词的第一共现数据和第二共现数据;
所述计算模块,进一步根据所述第一共现数据,得到所述第一检索词与所述第二检索词的第二紧密度;根据所述第二共现数据,得到所述第一检索词与所述第二检索词的第三紧密度;对所述第一紧密度、所述第二紧密度以及第三紧密度进行加权求和,并将求和结果作为所述第一检索词与所述第二检索词的目标紧密度。
11.根据权利要求10所述的装置,其中,所述装置进一步包括:
置信度模块,计算所述第一检索词与所述第二检索词的实体置信度,所述实体置信度用于表示所述第一检索词与所述第二检索词作为一个整体出现的概率;并根据所述实体置信度和加权系数对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
12.根据权利要求10所述的装置,其中,所述装置进一步包括:
不紧邻概率模块,计算所述第一检索词与所述第二检索词的不紧邻概率;所述不紧邻概率代表所述第一检索词与所述第二检索词在搜索引擎的搜索结果中不紧邻出现的概率;并根据所述不紧邻概率对所述第一检索词与所述第二检索词的所述目标紧密度进行调整。
13.一种存储介质,其特征在于,存储有机器可读指令,可以使至少一个处理器执行如权利要求1-8任一项所述的方法。
14.一种计算设备,其特征在于,包括处理器和存储器,所述存储器存储有机器可读指令,当所述机器可读指令被所述处理器执行时,使所述处理器执行如权利要求1-8任一项所述的方法。
CN201810648370.4A 2018-06-22 2018-06-22 一种数据处理方法、装置及存储介质 Active CN109241356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810648370.4A CN109241356B (zh) 2018-06-22 2018-06-22 一种数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810648370.4A CN109241356B (zh) 2018-06-22 2018-06-22 一种数据处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109241356A CN109241356A (zh) 2019-01-18
CN109241356B true CN109241356B (zh) 2023-04-14

Family

ID=65072013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810648370.4A Active CN109241356B (zh) 2018-06-22 2018-06-22 一种数据处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109241356B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075252A (zh) * 2007-06-21 2007-11-21 腾讯科技(深圳)有限公司 一种网络搜索方法及系统
CN102682017B (zh) * 2011-03-15 2014-04-23 阿里巴巴集团控股有限公司 一种信息检索方法和系统
CN102799586B (zh) * 2011-05-24 2016-04-27 北京百度网讯科技有限公司 一种用于搜索结果排序的转义度确定方法和装置
CN104317783B (zh) * 2014-09-16 2017-09-05 北京航空航天大学 一种语义关系密切度的计算方法
CN105677664B (zh) * 2014-11-19 2019-11-19 腾讯科技(深圳)有限公司 基于网络搜索的紧密度确定方法及装置
CN104657439B (zh) * 2015-01-30 2019-12-13 欧阳江 用于自然语言精准检索的结构化查询语句生成系统及方法
CN105279252B (zh) * 2015-10-12 2017-12-26 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索系统

Also Published As

Publication number Publication date
CN109241356A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
US11347783B2 (en) Implementing a software action based on machine interpretation of a language input
KR101778679B1 (ko) 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템
US8407214B2 (en) Constructing a classifier for classifying queries
US20180232443A1 (en) Intelligent matching system with ontology-aided relation extraction
US10755179B2 (en) Methods and apparatus for identifying concepts corresponding to input information
US10289717B2 (en) Semantic search apparatus and method using mobile terminal
US20100241647A1 (en) Context-Aware Query Recommendations
US10437894B2 (en) Method and system for app search engine leveraging user reviews
CN110569496B (zh) 实体链接方法、装置及存储介质
US20130060769A1 (en) System and method for identifying social media interactions
US20110282861A1 (en) Extracting higher-order knowledge from structured data
CN110377725B (zh) 数据生成方法、装置、计算机设备及存储介质
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
Li et al. Truth discovery with memory network
Yu et al. Towards high performance text mining: a TextRank-based method for automatic text summarization
CN117667956A (zh) 业务主体关系信息更新方法、装置、设备及存储介质
Figueroa et al. Contextual language models for ranking answers to natural language definition questions
Midhunchakkaravarthy et al. Feature fatigue analysis of product usability using Hybrid ant colony optimization with artificial bee colony approach
CN116383412B (zh) 基于知识图谱的功能点扩增方法和系统
Xu et al. Building spatial temporal relation graph of concepts pair using web repository
CN101866340A (zh) 一种产品情报的在线检索和智能分析方法与系统
CN109241356B (zh) 一种数据处理方法、装置及存储介质
Gu et al. MANSOR: a module alignment method based on neighbor information for scientific workflow
CN111625579B (zh) 一种信息处理方法、装置及系统
US20190164039A1 (en) Generating compositional artifacts based on seed artifacts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant