CN109947902A - 一种数据查询方法、装置和可读介质 - Google Patents

一种数据查询方法、装置和可读介质 Download PDF

Info

Publication number
CN109947902A
CN109947902A CN201910167980.7A CN201910167980A CN109947902A CN 109947902 A CN109947902 A CN 109947902A CN 201910167980 A CN201910167980 A CN 201910167980A CN 109947902 A CN109947902 A CN 109947902A
Authority
CN
China
Prior art keywords
keyword
sample
word
string
search string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910167980.7A
Other languages
English (en)
Other versions
CN109947902B (zh
Inventor
黄婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910167980.7A priority Critical patent/CN109947902B/zh
Publication of CN109947902A publication Critical patent/CN109947902A/zh
Application granted granted Critical
Publication of CN109947902B publication Critical patent/CN109947902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据查询方法、装置和可读介质,所述方法中,在对用户提交的搜索串进行分词后,针对分词后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与搜索串之间关系的第一关联特征值、用于表征该关键词与搜索串中该关键词的邻近词之间关系的第二关联特征值、搜索串中该关键词的邻近词的词本身特征值和搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、邻近词的词本身特征值和搜索串的特征值,确定各个关键词在搜索串中的权重;基于搜索串中各个关键词的权重,确定查询关键词并进行查询获得搜索串的查询结果,由此得到的关键词的权重更能够符合该关键词在搜索串中的实际重要度。

Description

一种数据查询方法、装置和可读介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据查询方法、装置和可读介质。
背景技术
在搜索中,文档召回过程一般为:先对搜索串(query)进行分词处理得到若干个关键词,然后确定每一关键词的重要度,基于各个关键词的重要度筛选出重要度比较高的关键词作为查询片段进行查询得到文档召回结果,而关键词的重要程度的结果直接决定搜索过程中的召回策略,进而影响召回结果。
传统方案是仅通过计算关键词的词频(Term Frequency,TF)和逆文档频率(Inverse Document Frequency,IDF)来确定关键词的权重(重要度),该方法中,由于关键词的IDF在不同搜索串中的值相同,导致同一关键词在不同搜索串中的重要度几乎相同,进而导致得到关键词的权重(重要度)与关键词的实际重要度有偏差。例如,搜索串“世界上最贵的车”和搜索串“迷你世界”中均存在关键词“世界”,但在实际情况下,“世界”这个关键词在前一搜索串中重要度应该很小,而在后一搜索串中重要度应该很大,但由于采用上述方法计算出的关键词“世界”在两个搜索串中的重要度几乎是一样的导致与实际重要度存在偏差,从而导致确定出的关键词在搜索串中的重要度的结果不准确,进而导致搜索串的召回结果可能不准确。
因此,如何准确地确定出搜索串中关键词的重要度,进而提高召回结果是值得考虑的问题之一。
发明内容
本发明实施例提供一种数据查询方法、装置和可读介质,用以解决现有技术中确定出的搜索串中的关键词的重要度不准确的问题。
一方面,本发明实施例提供一种数据查询方法,包括:
获取用户提交的搜索串并对所述搜索串进行分词处理;
针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;
分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;
基于所述搜索串中各个关键词的权重,确定查询关键词;
基于查询关键词进行查询获得所述搜索串的查询结果。
另一方面,本发明实施例提供一种数据查询装置,包括:
获取模块,用于获取用户提交的搜索串并对所述搜索串进行分词处理;
特征值确定模块,用于针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;
权重确定模块,用于分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;
查询结果召回模块,用于基于所述搜索串中各个关键词的权重,确定查询关键词;并基于查询关键词进行查询获得所述搜索串的查询结果。
再一方面,本发明实施例提供一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本申请提供的数据查询方法。
再一方面,本发明实施例提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的数据查询方法。
本发明有益效果:
本发明实施例提供的数据查询方法、装置和可读介质,获取用户提交的搜索串并对所述搜索串进行分词处理;针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果,由于本发明在确定关键词在搜索串中的权重时,不仅考虑了关键词本身的特征、搜索串本身的特征,而且还考虑了关键词与搜索串之间的关系、关键词与搜索串中的邻近词之间的关键词和邻近词的关系,使得基于此得到的权重更能够体现出该关键词在搜索串中的重要度,且能够符合该关键词在搜索串中的实际重要度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1a为本发明实施例提供的数据查询方法的应用场景示意图;
图1b为本发明实施例提供的服务器12的结构示意图;
图2为本发明实施例提供的数据查询方法的流程示意图;
图3为本发明实施例提供的确定每一样本关键词在样本搜索串中的样本权重的流程示意图;
图4为本发明实施例提供的部分有向二部图的示意图;
图5为本发明实施例提供的确定样本关键词的参考权重的流程示意图;
图6为本发明实施例提供的各个特征值的关系示意图;
图7为本发明实施例提供的数据查询流程的执行架构图;
图8为本发明实施例提供的数据查询装置的结构示意图;
图9为本发明实施例提供的实施数据查询方法的计算装置的结构示意图。
具体实施方式
本发明实施例提供的数据查询方法、装置和可读介质,用以解决现有技术中确定出的搜索串中的关键词的重要度不准确的问题。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了便于理解本发明,本发明涉及的技术术语中:
1、必留词,表示用户搜索串中权重较高的关键词,属于相对重要的词,若搜索串中缺乏该词则会影响搜索串的意图;非必留词,表示用户搜索串中权重较低的词,属于相对不重要的词,查询召回过程中可丢弃的词,且丢弃该词不影响整体意图。
2、命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,实体主要包括人名、地名、机构名、专有名词等。命名实体识别通常包括两部分工作:(1)实体边界识别;(2)确定实体类型(人名、地名、机构名或其他)。
3、点间互信息(PMI)主要用于计算词语间的语义相似度,基本思想是统计两个词语在文本中同时出现的概率,如果概率越大,其相关性就越紧密,关联度越高。
4、梯度提升决策树:(Gradient Boosting Decision Tree,GBDT)是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。利用梯度提升决策树模型可以在训练决策树时,对得到的决策树模型进行校正,一步步减少迭代的残差,最终在残差减小的梯度方向上获得最优的决策树模型。
5、逻辑回归:(Logistic Regression,LR)又称为逻辑回归分析,是通过历史数据的表项对未来结果发生的概率进行预测。
6、用户设备,为可以安装各类应用程序,并且能够将已安装的应用程序中提供的对象进行显示的电子设备,该电子设备可以是移动的,也可以是固定的。例如,手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、地铁站内的监控设备或其它能够实现上述功能的电子设备等。
7、应用程序,(Application,APP),为可以完成某项或多项特定工作的计算机程序,它具有可视的显示界面,能与用户进行交互,比如电子地图和微信等都可以称为应用程序。
为了解决现有技术中因确定搜索串中关键词的权重不准确而导致的召回结果不准确的问题,本发明实施例给出了解决方案,参考图1a所示的应用场景示意图,用户设备11上安装了具有搜索功能的应用程序,以应用程序为腾讯视频应用程序为例进行说明,当用户想查找视频而不知道视频名称时,会基于上述腾讯视频应用程序提供的搜索框或提供的语音输入功能输入用户搜索串,当点击搜索时会触发腾讯视频应用程序向服务器12发送查询请求,该查询请求中携带有用户搜索串,服务器12在接收到查询请求后,可以对获取到的搜索串进行分词处理,然后针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;然后分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;并基于所述搜索串中各个关键词的权重,确定查询关键词;基于查询关键词进行查询获得所述搜索串的查询结果。最后服务器12通过用户设备11中的腾讯视频应用程序向用户返回搜索串的查询结果,该查询结果包括基于查询关键词查询到的视频资源。由于本发明在确定关键词在搜索串中的权重时,充分考虑了关键词自身属性、GCC与搜索串之间的关系、关键词与搜索串中邻近词之间的关系,以及邻近词的自身属性和搜索串本身属性,这样,使得基于此确定出关键词在搜索串中的权重结果更加准确,更能符合该关键词在搜索串中的实际重要性,从而在一定程度上提高了搜索串的召回结果。
需要说明的是,用户设备11与服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。用户设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),服务器12可以为任何能够提供互联网服务的设备,用户设备11中的应用程序可以为具有搜索功能的应用程序,可以为腾讯视频、微信和QQ浏览器等等。
可选地,当用户设备10具有较高的处理能力,用户设备10的应用程序在接收到用户10触发的携带有搜索串的查询请求后,也可以由应用程序获取用户提交的搜索串,然后按照本发明提供的数据查询方法执行为该搜索串返回查询结果的步骤。也即是说由用户设备11中的应用程序在本地执行本发明提供的数据查询方法。例如,移动终端设备中的短信应用、微信应用等具有搜索功能的应用程序都可以实施本发明提供的数据查询方法。
可选地,以服务器12实施本发明提供的数据查询方法时,可以由该服务器12中各个模块来完成,参考图1b所示的服务器12的结构示意图,包括搜索串分析模块、查询结果召回模块、查询结果排序模块和发送模块,其中,搜索串分析模块包括:获取模块、特征值确定模块和权重确定模块。基于图1b中所示的服务器结构,在实施本发明提供的数据查询流程时,当用户10基于用户设备11提交搜索串时,用户设备11内的应用程序会将搜索串发送给获取模块,当获取模块获取到用户提交的搜索串并对搜索串进行分词处理后,将分词处理后的各个关键词发送给特征值确定模块,这样,特征值确定模块可以针对分词处理后的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值,然后将上述特征值发送给权重确定模块,由权重确定模块分别根据每一关键词的上述各个特征值确定各个关键词在搜索串中的权重,然后将确定出的各个关键词在搜索串中的权重发送给查询结果召回模块,查询结果召回模块会先基于各个关键词在搜索串中的权重确定出查询关键词,然后基于查询关键词进行查询获得搜索串的查询结果,然后将搜索串的查询结果反馈给查询结果排序模块,由查询结果排序模块对查询结果进行排序,然后将排序后的查询结果发送给发送模块,由发送模块将排序后的查询结果发送给应用程序并触发应用程序所在的用户设备11展示给用户10。
下面结合图1a所示的应用场景,参考下面各图来描述根据本发明示例性实施方式提供的数据查询方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图2所示,为本发明实施例提供的数据查询方法的流程示意图,可以包括以下步骤:
S21、获取用户提交的搜索串并对所述搜索串进行分词处理。
本步骤中,可以利用现有的分词方法对用户提交的搜索串进行分词处理,且分词得到的关键词之间以空格隔开例如,将搜索串“侠客行吴健”分词处理后得到3个关键词,即“侠客行吴健”。
S22、针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值。
本步骤中,预先基于用户历史查询电子资源时使用的搜索串,利用实体类型识别工具、spark以及若干个特征值计算公式来确定步骤S22中涉及的特征值,然后将计算得到的特征值分别进行存储,后续详细介绍之。
S23、分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重。
本步骤中,可以分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及训练得到的关键词权重预测模型,确定各个关键词在所述搜索串中的权重。具体地,针对每一关键词,可以将该关键词上述各个特征值输入至关键词权重预测模型中,该关键词权重预测模型的输出即为该关键词在搜索串中的权重。具体地,可以同时将多个关键词的上述特征值同时或分别输入至关键词权重预测模型中,然后分别得到各个关键词在搜索串中的权重。
可选地,上述关键词预测模型还可以输出关键词的分类结果,其中,每一关键词的分类结果用于指示该关键词在所述搜索串中是必留词还是非必留词。
可选地,该关键词权重预测模型可以但不限于包括LR线性回归模型和GBDT模型等,以GBDT模型为例进行说明,由于该类模型中的XGBOOST属于开源模型,且具有社区维护功能,故本发明采用训练样本对XGBOOST模型进行训练得到关键词权重预测模型,进而基于训练得到的关键词权重预测模型确定关键词在搜索串中的权重。
S24、基于所述搜索串中各个关键词的权重,确定查询关键词。
本步骤中,当基于步骤S24确定出搜索串中各个关键词在搜索串中的权重后,可以基于各个关键词的权重来确定用于召回搜索结果的查询关键词。
可选地,当关键词权重预测模型输出关键词的权重时,在该条件下该模型输出的权重能够指示关键词是必留词的概率,则可以按照下述流程实施步骤S24,包括以下步骤:
步骤一:基于所述搜索串中各个关键词的权重,确定可忽略关键词、基础关键词、必要关键词和核心关键词。
步骤二:从可忽略关键词、基础关键词、必要关键词和核心关键词中筛选出查询关键词。
具体地,可以根据各个关键词的权重强搜索串中的关键词划分成四个等级的关键词,即:可忽略关键词(IGNROE)、基础关键词(BASIC)、必要关键词(MUST)和核心关键词(CORE),而一个关键词的权重越高,该关键词越有可能属于核心关键词,而一个关键词的权重越低,该关键词则越有可能属于可忽略关键词。具体地,可以设置3个阈值,即:第一阈值、第二阈值和第三阈值,且这三个阈值的关系为:第三阈值>第二阈值>第一阈值,若关键词的权重小于第一阈值,则该关键词属于可忽略关键词;若关键词的权重在第一阈值与第二阈值之间,则该关键词为基础关键词;若关键词的权重介于第二阈值与第三阈值之间,则该关键词为必要关键词;若关键词的权重大于第三阈值,则该关键词为核心关键词。基于此,可以将各个关键词的权重与上述三个阈值及三个阈值组成的区间进行比较,基于此可以确定出搜索串中的各个关键词分别对应哪一个等级,确定出查询关键词。
可选地,当基于关键词权重预测模型输出该关键词的权重和该关键词的分类结果时,则可以按照下述流程实施步骤S24,包括以下步骤:
步骤一:基于所述搜索串中各个关键词的权重和分类结果,确定可忽略关键词、基础关键词、必要关键词和核心关键词。
步骤二:从可忽略关键词、基础关键词、必要关键词和核心关键词中筛选出查询关键词。
具体地,由于本发明中关键词权重预测模型还输出了关键词的分类结果,即该关键词是必留词还是非必留词,这样,可能存在关键词的权重非常高,但该关键词的分类结果为非必留词,则该关键词可能会划分到可忽略关键词哪一等级中,基于此,本发明基于关键词的权重和分类结果共同确定该关键词为哪一个等级的关键词。可选地,分类结果取值可以为0或1,“0”表示非必留词,“1”表示必留词。
具体实施时,先根据搜索串中各个关键词的分类结果分别确定属于必留词的关键词和属于非必留词的关键词,然后再基于属于必留词中关键词的权重确定关键词为核心关键词、必要关键词还是基础关键词,关键词的权重越大越有可能为核心关键词,反之权重越小该关键词越有可能为基础关键词,具体也可以设置2个阈值,基于阈值判断来确定关键词是核心关键词、必要关键词和基础关键词中的哪一个;以及基于属于非必留词包含的关键词的权重确定关键词为可忽略关键词、基础关键词还是必要关键词,关键词的权重越小该关键词越有可能为必要关键词,关键词的权重越大越有可能为可忽略关键词,具体同样还可以设置2个阈值来判断关键词是必要关键词、基础关键词和可忽略关键词中的哪一个。例如,搜索串分词得到的关键词及确定出的关键词的权重和分类结果分别为:关键词1(1,0.9)、关键词2(0,0.3)、关键词3(1,0.4)、关键词4(0,0.8)、关键词5(1,0.6)和关键词6(0,0.1),基于关键词的分类结果可以确定出搜索串中属于必留词的关键词为:关键词1、关键词3和关键词5,属于非必留词的关键词为:关键词2、关键词4和关键词6,针对必留词,可以设置两个阈值:0.5和0.8,如小于0.5的关键词为基础关键词,介于0.5与0.8之间的关键词为必要关键词,大于0.8的关键词为核心关键词,则可以确定出搜索串中关键词1为核心关键词,关键词3为基础关键词,关键词5为必要关键词;针对非必留词,若设置的两个阈值为0.2和0.7,则小于0.2的关键词为必要关键词,介于0.2与0.6之间的关键词为基础关键词,大于0.7的关键词为可忽略关键词,则基于此可以确定出搜索串中关键词2为基础关键词,关键词4为可忽略关键词,关键词6为基础关键词。
在确定出搜索串中关键词为核心关键词、必要关键词、基础关键词和可忽略关键词中哪一个后,进而可以基于步骤二确定查询关键词。
需要说明的是,实际应用中,可能存在搜索串中的关键词可能不存在可忽略关键词,或者不存在基础关键词等等,则从其余等级的关键词中确定查询关键词,具体根据实际情况而定。
S25、基于查询关键词进行查询获得所述搜索串的查询结果。
具体地,步骤S24中的查询关键词可以包括基础关键词、必要关键词和核心关键词;则可以按照下述流程实施步骤S25,包括以下步骤:
步骤一:基于基础关键词、必要关键词和核心关键词进行查询得到第一查询结果。
步骤二:基于必要关键词和核心关键词进行查询得到第二查询结果。
步骤三:基于核心关键词进行查询得到第三查询结果。
步骤四:基于第一查询结果、第二查询结果和第三查询结果,获得所述搜索串的查询结果。
通过实施上述四个步骤,可以按照查询结果中电子资源的评价参数(如点击量等)对第一查询结果、第二查询结果和第三查询结果进行排序,然后根据排序结果获得搜索串的查询结果,如将前N个排序结果作为搜索串的查询结果。当电子资源为新闻时,电子资源的评测参数可以为新闻的点击量,当电子资源为视频或音乐时,则评测参数可以为播放量等。
通过实施图2所示的流程,本发明在确定关键词在搜索串中的权重时,充分考虑了关键词自身特征、关键词与搜索串之间关系的特征、关键词与搜索串中邻近词的特征、邻近词自身的特征和搜索串自身的特征,使得基于此确定出的关键词的权重更加准确,进而使得基于关键词权重确定出的查询关键词更有可能得到用户期望的召回结果。
在对本发明提供的数据查询方法介绍完之后,接下来对本发明中的关键词权重预测模型进行介绍。
可选地,关键词权重预测模型的训练样本为基于历史查询电子资源时生成的点击日志获取到的,每一用户的点击日志包括该用户的搜索串。需要说明的是,由于本发明基于用户的点击日志获得训练样本,为了区别用户在线查询时提交的搜索串,本发明在训练关键词权重预测模型时提及的搜索串都称作样本搜索串,同理,为了区分于在线查询时对用户提交的搜索串分词得到的关键词,样本搜索串中的关键词称作样本关键词。实质上,当用户在线基于提交的搜索串查询获得查询结果后,该搜索串就会变为样本搜索串,同理其分词得到的关键词也会变为样本关键词。
具体地,通过处理用户查询电子资源时生成的点击日志,自动生成大量与用户的点击行为密切相关的标注数据,该标注数据为每一样本搜索串中关键词的标注结果。
可选地,当关键词权重预测模型仅输出关键词在该搜索串中的权重时,该关键词权重预测模型的训练样本包括:满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值。
可选地,当关键词权重预测模型同时输出关键词在搜索串中的权重和前述关键词的分类结果时,该关键词权重预测模型的训练样本包括:满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的标注结果、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值,所述标注结果用于指示样本关键词是必留词还是非必留词。可选地,针对任一样本关键词,该样本关键词的标注结果为基于该样本关键词在该样本搜索串中的样本权重确定出的。
采用上述训练样本,使得关键词权重预测模型能够学习到关键词自身的特征、能够表征关键词与搜索串之间关系的特征、能够表征关键词与搜索串中邻近词之间关系的特征和邻近词的一些特征,这样使得训练得到的关键词权重预测模型预测出的关键词在搜索串中的权重更加合理且准确。此外,本发明中的关键词权重预测模型学习的是上述各种特征值,即使输入关键词权重预测模型的搜索串中的关键词为新词,由于该模型学习的是词本身、搜索串本身、词与搜索串之间关系、词与词之间关系的特征,使得基于此预测到的新的关键词的权重也能符合新的关键词在搜索串中的实际重要度。
具体地,上述每一样本搜索串中的样本关键词为对该样本搜索串进行分词处理后得到的。可选地,本发明中的样本筛选条件可以为常规的清洗方法,如将预设时间段(如毫秒级)内基于搜索串点击电子资源标题的点击量瞬间激增时使用的搜索串给清洗掉,或者一个搜索串在使用若干次后长时间未使用的搜索串给清洗掉等等。
可选地,本发明中的点击日志还包括被点击的电子资源标题,具体可以用pair<query,title>来表示样本搜索串及基于该样本搜索串点击的电子资源标题title,其中,query指示的样本搜索串实质上是经过分词工具分词后的得到的关键词和空格构成的搜索串;以及按照图3所示的方法获得每一样本关键词在样本搜索串中的样本权重,包括以下步骤:
S31、针对每一被点击的电子资源标题,确定点击该电子资源标题的搜索串集合,其中,所述搜索串集合包括每一样本搜索串及基于该样本搜索串点击该电子资源标题的次数。
具体地,共同点击同一个电子资源标题title(称作被点击的电子资源标题title)的样本搜索串query之间具有一定的相关度,而在这些样本搜索串query中,频繁出现的样本关键词可能是用户想表达的主题词,期望由此得到单个样本搜索串query中各样本关键词的重要度(样本权重)。基于该角度,本发明先将共同点击同一个电子资源标题title的所有样本搜索串query聚集在一起,要求相同query会累计其点击次数,基于上述预处理后,针对每个被点击的电子资源标题title会生成一个有向二部图,二部图的左边的每个节点是样本搜索串query,右边是被点击的电子资源标题title,有向方向为从每个样本搜索串query指向被点击的电子资源标题title,每一个样本搜索串指向被点击的电子资源标题title的连线上的权重是累积的点击次数,参考图4所示的部分有向二部图。
当经过上述预处理后,基于得到的有向二部分,可以统计出点击第x个电子资源标题title_x所使用的样本搜索串query集合,记为title_x_querys,该集合包括点击了电子资源标题title_x的所有样本搜索串query和每一个样本搜索串query点击了电子资源标题title_x的点击次数。
S32、基于所述搜索串集合中的每一样本搜索串,确定与该样本搜索串存在所属关系的其他样本搜索串。
为了保证训练样本的可靠性,本发明定义样本搜索串query_a和样本搜索串query_b是“字面上表达同一个主题”的两个样本搜索串,这两个样本搜索串满足:仅当样本搜索串query_a的分词集合是样本搜索串query_b的分词集合的子集,或者样本搜索串query_b的分词集合是样本搜索串query_a的分词集合的子集。例如图4有向二部图中,样本搜索串query“侠客行吴健”包含样本搜索串“侠客行”,则这两个样本搜索串是字面上表达同一个主题的两个搜索串。
基于上述定义,对title_x_querys集合中的每个样本搜索串query(用字符串title_x_query_i表示集合中第i个样本搜索串query),按照上述定义,在实施步骤S32时,可以确定出点击电子资源标题title_x使用的所有与title_x_query_i是字面上表达同一个主题的其他样本搜索串query,即:在点击该电子资源标题下,确定与该样本搜索串title_x_query_i存在所属关系的其他样本搜索串,包括:满足样本关键词全部包含在该样本搜索串title_x_query_i中的样本搜索串和包含该样本搜索串title_x_query_i所有样本关键词的搜索串。
通过查找与样本搜索串title_x_query_i字面上表达同一个主题的其他样本搜索串,而不是所有点击电子资源标题title_x的样本搜索串中查找,这样做的原因是,并不是所有点击同一个电子资源标题的样本搜索串query集合中的样本搜索串的意思是相近的,例如,针对同一个被点击电子资源标题“产品基础班之雅姿美容:皮肤结构与问题一上”的搜索串分别为:Query1:安利美容基础班2(点击次数);Query2:产品基础班之雅姿2(点击次数);对于Query1的每个关键词,实际情况下关键词“美容”的重要度应该是比较高的,但是如果不约定上述“字面上表达同一个主题”这个条件,而是用所有点击了上述电子资源标题“产品基础班之雅姿美容:皮肤结构与问题一上”的所有搜索串来确定关键词搜索串中各个关键词的重要度,就会导致关键词“基础”、“班”(由于出现在搜索串中的次数较多)的重要度反而比关键词“美容”的重要度要高,这与实际情况是不一致的。因此,本发明中在确定关键词的参考权重时,对样本搜索串进行了限定,即:查找与样本搜索串存在所属关系的其他样本搜索串,基于此再确定样本搜索串中样本关键词的参考权重,使得确定出的参考权重符合样本关键词在样本搜索串中的实际重要度,进而使得基于此训练得到的关键词权重预测模型预测得到的关键词的权重更加准确。
S33、基于该样本搜索串点击该电子资源标题的点击次数与基于所述其他样本搜索串点击该电子资源标题的点击次数,确定该样本搜索串、所述其他样本搜索串包含的每一样本关键词在点击该电子资源标题时的参考权重。
本步骤中,在确定出样本搜索串title_x_query_i存在所属关系的其他搜索串后,再统计基于样本搜索串title_x_query_i点击电子资源标题title_x的点击次数,以及基于上述存在所属关系的其他搜索串点击电子资源标题title_x的点击次数,构成样本搜索串query_i的簇,可以记为title_x_query_i_cluster={title_x_query_i:点击次数;与title_x_query_i存在所属关系的其他样本搜索串(与title_x_query_i字面上表达同一个主题的其它样本搜索串query):点击次数}。点击次数可以基于有向二部图获得;例如,基于样本搜索串title_x_query_i点击电子资源标题title_x的点击次数为c1;与title_x_query_i存在所属关系的其他样本搜索串包括样本搜索串title_x_query_k、样本搜索串title_x_query_m、样本搜索串title_x_query_n,且统计出分别基于样本搜索串title_x_query_h、样本搜索串title_x_query_m、样本搜索串title_x_query_n点击电子资源标题title_x的点击次数分别为:c2、c3、c4,则可以得到样本搜索串i的簇title_x_query_i_cluster={title_x_query_i:c1;title_x_query_h:c2;title_x_query_m:c3;title_x_query_n:c4}。
在确定出样本搜索串title_x_query_i的簇后,可以按照图5所示的流程实施步骤S33,包括以下步骤:
S51、基于该搜索串点击该电子资源标题的点击次数与基于所述其他搜索串点击该电子资源标题的点击次数,确定该样本关键词出现的次数。
具体地,以被点击的电子资源标题title_x为图4中的“两大武林高手看不起小伙,没想人家武功远高于自己!,以样本搜索串title_x_query_i=“侠客行吴健”为例进行说明,则可以得到图4中与样本搜索串title_x_query_i=“侠客行吴健”存在所属关系的样本搜索串为“侠客行”,则样本搜索串title_x_query_i的簇为:title_x_query_i_cluster={“侠客行吴健”:1,“侠客行”:4},则可以确定出这两个样本搜索串包含的样本关键词出现的次数,即:样本关键词“侠客”出现的次数为1+4=5次、样本关键词“行”出现的次数为1+4=5次、样本关键词“吴健”出现的次数为1次。
S52、确定基于该搜索串点击该电子资源标题的次数与基于所述其他搜索串点击该电子资源标题的次数的点击总次数。
本步骤中,基于title_x_query_i_cluster={“侠客行吴健”:1,“侠客行”:4},还可以确定出点击总次数为“侠客行吴健”的点击次数与“侠客行”的点击次数的和,即1+4=5次。
S53、确定该样本关键词出现的次数与所述点击总次数的比值为该样本关键词在点击该电子资源标题时的参考权重。
本步骤中,基于步骤S52和S53,可以确定出样本关键词“侠客”在点击步骤S51中的电子资源标题时的参考权重为5/5=1、样本关键词“行”在点击步骤S51中的电子资源标题时的参考权重为5/5=1、样本关键词“吴健”在点击步骤S51中的电子资源标题时的参考权重为1/5=0.2。
通过实施图5所示的流程,可以确定出点击电子资源标题title_x时的样本搜索串中各个关键词的参考权重。
S34、针对每一样本关键词,基于该样本关键词分别在点击各个电子资源标题时确定出的参考权重,确定该样本关键词的样本权重。
实际应用中,一个样本搜索串可以会点击多个电子资源标题,因此,针对同一个样本搜索串,可以按照图3和图5所示的流程确定出在基于该样本搜索串中分别点击的电子资源标题时关键词的参考权重。例如基于样本搜索串query_j点击了3个电子资源标题,分别为:电子资源标题title_x、电子资源标题title_x+1和电子资源标题title_x+3,则针对样本搜索串query_j中的样本关键词query_j_1,可以按照图3和图5所示的方法确定出样本搜索串query_j在点击电子资源标题title_x时样本关键词query_j_1的参考权重q1,样本搜索串query_j在点击电子资源标题title_x+1时样本关键词query_j_1的参考权重q2、样本搜索串query_j在点击电子资源标题title_x+3时样本关键词query_j_1的参考权重q3。
在此基础上,可以对样本关键词query_j_1在上述各个被电子标题下的参考权重进行加权平均处理得到该样本关键词query_j_1的样本权重。具体地,以基于样本搜索串query_j点击了电子资源标题title_x的点击次数为n1、基于样本搜索串query_j点击了电子资源标题title_x+1的点击次数为n2、基于样本搜索串query_j点击了电子资源标题title_x+3的点击次数为n3为例进行说明,则该样本关键词query_j_1的样本权重=(参考权重q1*n1+参考权重q2*n2+参考权重q3*n3)/(n1+n2+n3)。
在确定出样本关键词的样本权重后,可以基于样本权重确定该样本关键词的标注结果。具体地,当样本关键词的样本权重低于评测阈值(如0.4)时,则确定该样本关键词的标注结果为0,即非必留词;当样本关键词的样本权重高于评测阈值时,则确定该样本关键词的标注结果为1,即必留词。此外,还可以采用聚类方式基于样本关键词的样本权重确定该样本关键词的标注结果。
此外,在基于样本搜索串确定样本关键词的标注结果时,可以先对样本搜索串进行初步筛选,例如,可以筛选出基于样本搜索串点击了电子资源标题title_x的点击次数低于第一次数阈值的样本搜索串,然后将这些样本搜索串中的样本关键词的标注结果确定为0,即非必留词;同理,还可以筛选出基于样本搜索串点击了电子资源标题title_x的点击次数高于第二次数阈值的样本搜索串,则将满足条件的样本搜索串中的样本关键词的标注结果确定为1,即必留词,其中,第一次数阈值小于第二次数阈值。当对样本搜索串进行初步筛选后,然后将剩下的样本搜索串按照图3和图5所示的流程确定样本搜索串中各样本关键词在前述样本搜索串中的样本权重。
通过按照图3和图5的流程确定样本关键词的权重,当输入到关键词权重预测模型中时,使得模型可以学习到样本关键词在不同样本搜索串中重要度的差异性,进而使得预测出的关键词的权重更符合关键词的实际重要度。
在介绍了样本搜索串中样本关键词的样本权重的确定流程之后,由于在训练关键词权重预测模型时,还需要针对每一样本搜索串中的每一样本关键词,统计该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值等,故接下来对上述各个特征值的确定方法进行介绍,参考图6所示的上述各个特征值的关系示意图。
需要说明的是,用户提交的搜索串的关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值也可以参考图6所示,且关键词的确定方法与样本搜索串中样本关键词的确定方法相同。
可选地,本发明中提供两种语料库,分别为文档语料库和基于标题的语料库,文档语料库中存放的是在语言的实际使用中真实出现过的语言材料,而基于标题的语料库为针对电子资源的标题获得的语料库,当电子资源为视频时,则可以基于视频网站ugc标题获得视频的标题的语料库。
可选地,本发明中的(样本)关键词的词本身特征值至少包括以下一项:词性、基于文档语料库统计的(样本)关键词的逆文档频率IDF、词长度、基于文档语料库统计的(样本)关键词的逆文档频率的对数、(样本)关键词的实体类型、基于标题的语料库统计的(样本)关键词的归一化词频、基于标题的语料库统计的(样本)关键词的归一化词频的对数、(样本)关键词是否为停用词的结果、逆文档频率与基于标题的语料库统计的(样本)关键词的归一化词频的乘积、基于标题的语料库统计的(样本)关键词的逆文档频率等。
可选地,本发明中的第一关联特征值至少包括以下一项:(样本)关键词是否为起始词的结果、(样本)关键词是否为结束词的结果和(样本)关键词的词长度在(样本)搜索串中的占比等。
可选地,本发明中的(样本)关键词在(样本)搜索串中的邻近词包括左邻近词和右邻近词。
在此基础之上,上述第二关联特征值至少包括以下一项:左邻近词与(样本)关键词之间的点互信息、(样本)关键词与右邻近词之间的点互信息、(样本)关键词是否与右邻近词属于一个实体的结果、(样本)关键词是否与左邻近词属于一个实体的结果、左邻近词与(样本)关键词之间的二元条件概率、(样本)关键词与右邻近词之间的二元条件概率、左邻近词与(样本)关键词之间的二元条件概率的对数和(样本)关键词与右邻近词之间的二元条件概率的对数等。
可选地,本发明中的(样本)关键词在(样本)搜索串中的邻近词的词本身特征值至少包括以下一项:基于标题的语料库统计的左邻近词的归一化词频、基于标题的语料库统计的右邻近词的归一化词频、左邻近词的实体类型、右邻近词的词性、左邻近词的词性、右邻近词的实体类型、基于标题的语料库统计的左邻近词的归一化词频的对数和基于标题的语料库统计的右邻近词的归一化词频的对数等。
可选地,本发明中的(样本)搜索串的特征值至少包括以下一项:(样本)搜索串的长度、(样本)搜索串中(样本)关键词的总数、(样本)搜索串中属于实体类型的(样本)关键词的个数和(样本)搜索串中属于实体类型的(样本)关键词的占比等。
基于上述对各个特征值的内容的描述,对各个特征值的获取方法进行介绍。(样本)搜索串的特征值、用于表征(样本)关键词与(样本)搜索串之间关系的第一关联特征值、(样本)关键词的词性、右邻近词的词性、左邻近词的词性、(样本)关键词的词长度和(样本)关键词的实体类型、右邻近词的实体类型和左邻近词的实体类型、(样本)关键词是否与右邻近词属于一个实体的结果、(样本)关键词是否与左邻近词属于一个实体的结果等特征值可以直接基于分词工具以及实体类型识别工具来获得。需要说明的是,考虑到关键词权重预测模型的输入需求,上述词性、实体类型、是否属于一个实体类型的结果需要用数值表示,例如,基于不同词性设置不同的赋值,以(样本)关键词为例进行说明,若(样本)关键词为动词,则将(样本)关键词的词性用“1”表示;若(样本)关键词为名词,则将(样本)关键词的词性用“2”表示;若(样本)关键词为形容词,则将(样本)关键词的词性用“3”表示等等,当然还可以有其他的赋值方法,此处不再一一列举。同理,可以对不同的实体类型赋予不同的值,还以(样本)关键词为例进行说明,若(样本)关键词为人名,则将(样本)关键词的实体类型用“0”表示;若(样本)关键词为地名,则将(样本)关键词的词性用“1”表示;若(样本)关键词为机构名,则将(样本)关键词的词性用“2”表示等等,当然还可以有其他的赋值方法,此处不再一一列举。而确定(样本)关键词是否与右(左)邻近词属于一个实体类型的结果也需要用户数值表示,如,属于一个实体类型的结果用“1”表示,而不属于一个实体类型的结果用“0”表示,当然还可以有其他表示方法,此处不再一一列举。
具体地,预先配置一个常用停用词文档,基于该常用停用词文档可以确定出(样本)关键词是否为停用词的结果。具体地,考虑到关键词权重预测模型的输入需求,本发明中(样本)关键词是否为停用词的结果应该用数值表示,如(样本)关键词是停用词,则(样本)关键词是停用词的结果为“1”,若(样本)关键词是停用词,则(样本)关键词不是停用词的结果为“0”等。
可选地,(样本)关键词的词频和(样本)关键词的逆文档频率IDF可以基于文档语料库直接统计出,而点间互信息、二元条件概率、归一化词频和基于标题的语料库统计的(样本)关键词的逆文档频率可以分别按照下述几个公式来确定,下面分别介绍之:
可选地,可以按照公式(1)来确定归一化词频:
公式(1)中,Normalized_tf(t)表示为归一化频率,tf(t)表示为关键词t在基于标题的语料库中的词频,max_tf表示为基于标题的语料库统计的所有一元词的词频最大值。具体地,上述基于标题的语料库统计的(样本)关键词的归一化词频、基于标题的语料库统计的左邻近词的归一化词频和基于标题的语料库统计的右邻近词的归一化词频均可以按照公式(1)来确定。
可选地,可以按照公式(2)确定基于标题的语料库统计的(样本)关键词的逆文档频率,表示为:
公式(2)中,Total_Doc_Num表示为基于标题的语料库中所有文档总数;Doc_Num(t)表示为基于标题的语料库中出现关键词t的文档数。
可选地,可以按照公式(3)确定点互信息,表示为:
其中,P(ti->tj)表示为基于标题的语料库中关键词tj左侧相邻关键词ti的概率,而P(ti->tj)的表达式为:其中,tf(ti->tj)表示为基于标题的文档库中关键词ti在关键词tj的左邻近位置时的词频,即二元词频,f(ta->tb)表示为基于标题的文档库中关键词ta在关键词tb的左邻近位置时的词频,其中,a,b为变量,且a≠b,a,b的取值为0~基于标题的语料库中所有一元关键词(单个关键词)的总数;而P(ti)表示为基于标题的语料库中关键词ti出现的概率,表达式为:而P(tj)表示为基于标题的语料库中关键词tj出现的概率,表达式为:其中k为基于标题的语料库中第k个关键词,而的上限为基于标题的语料库中所有一元关键词的总数,tf(ti)表示为关键词ti在基于标题的语料库中的词频,tf(tj)表示为关键词tj在基于标题的语料库中的词频。
具体地,上述左邻近词与(样本)关键词之间的点互信息、(样本)关键词与右邻近词之间的点互信息均可以按照公式(3)计算得出。
可选地,可以按照公式(4)确定二元条件概率,表达式为:
公式(4)中,P(ti|tj)表示为关键词ti与关键词tj之间的二元条件概率,f(ti->tj)和f(ti)参考公式(3)中的说明。具体地,基于公式(4)可以确定出左邻近词与(样本)关键词之间的二元条件概率、(样本)关键词与右邻近词之间的二元条件概率。
具体地,可以一次性统计和确定出上述词频、IDF、点间互信息、二元条件概率、归一化词频和基于标题的语料库统计的(样本)关键词的逆文档频率,然后将统计和确定出的结果存放在redis数据库中,在生成离线训练数据或在线预测权重时,都可以直接从redis数据库中直接读取相应的数值。具体地,可以先基于spark对样本搜索串分词处理,方可统计出每个样本关键词出现的词频及二元样本关键词出现的词频,然后将统计结果存储在分布式文件系统(HDFS)上。然后,在确定出样本关键词的词频和样本关键词的二元词频后,可以用python脚本计算点间互信息、二元条件概率、归一化词频等并存储到redis数据库中。
至此,可以确定并存储所有样本搜索串中包含的各个样本关键词的上述各类特征值,当在线获得用户提交的搜索串并对其分词处理后,可以从redis数据库、HDFS分布式文件系统中分别读取或确定搜索串分词后的各个关键词的上述各类特征值(例如,与搜索串相关的第一关联特征值、搜索串的特征值、关键词的词性、词长度等可以基于分词和实体类型识别工具直接确定,而归一化词频、基于标题的语料库统计的关键词的逆文档频率、二元条件概率、点间互信息则可以从redis数据库中读取),然后输入到训练好的关键词权重预测模型中,从而可以快速确定出各个关键词在搜索串中的权重,不仅结果准确而且速度快。在基于上述各特征值来训练关键词权重预测模型时,可以得到上述各个特征值中最能影响模型结构的特征值依次为:关键词的IDF、基于标题的语料库统计的左邻近词的归一化词频、关键词的左邻近词与该关键词之间的点互信息、关键词与该关键词的右邻近词之间的点互信息、该关键词的左邻近词的实体类型、该关键词的右邻近词的词性。关键词的词长度在搜索串中的占比、基于标题的语料库统计的右邻近词的归一化词频、搜索串的长度和关键词的词性。
基于上述描述,参考图7所示的架构图,再对本发明提供的数据查询整体流程进行整体介绍。首先由查询电子资源时生成的点击日志获得样本搜索串中样本关键词的标注结果或样本权重,然后确定样本搜索串中样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值,然后根据XGBOOT模型的格式,将上述各种特征值转换成符合XGBOOT格式的训练样本;然后利用符合XGBOOT格式的训练样本离线训练XGBOOT模型,当在线服务启动时,将离线训练好的XGBOOT模型加载到内存中,当获取到用户提交的搜索串后,可以先调用分词工具以及实体类型识别工具获取搜索串的各个关键词以及实体类型识别结果,然后基于实体类型识别结果和上述几个公式计算各个关键词的上述各特征值,再调用训练好的XGBOOT的API接口,就可以得到搜索串中各个关键词在搜索串中的权重,或者各关键词在搜索串中的权重和各关键词的分类结果。经试验表明,采用本发明提供的数据查询方法得到的未召回率相比于现有技术得到了有效降低。
本发明提供的数据查询方法,由于本发明在确定关键词在搜索串中的权重时,不仅考虑了关键词本身的特征、搜索串本身的特征,而且还考虑了关键词与搜索串之间的关系、关键词与搜索串中的邻近词之间的关键词和邻近词的关系,使得基于此得到的权重更能够体现出该关键词在搜索串中的重要度,且能够符合该关键词在搜索串中的实际重要度。
基于同一发明构思,本发明实施例中还提供了一种数据查询装置,由于上述装置解决问题的原理与数据查询方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图8所示,为本发明实施例提供的数据查询装置的结构示意图,包括:
获取模块81,用于获取用户提交的搜索串并对所述搜索串进行分词处理;
特征值确定模块82,用于针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;
权重确定模块83,用于分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;
查询结果召回模块84,用于基于所述搜索串中各个关键词的权重,确定查询关键词;并基于查询关键词进行查询获得所述搜索串的查询结果。
可选地,所述权重确定模块83,具体用于分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及训练得到的关键词权重预测模型,确定各个关键词在所述搜索串中的权重;其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值。
可选地,所述权重确定模块83,具体用于分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及所述训练得到的关键词权重预测模型,确定各个关键词在搜索串中的权重和各个关键词的分类结果,其中,每一关键词的分类结果用于指示该关键词在所述搜索串中是必留词还是非必留词;
在此基础之上,所述查询结果召回模块84,具体用于基于所述搜索串中各个关键词的权重和分类结果,确定查询关键词;其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的标注结果、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值,所述标注结果用于指示样本关键词是必留词还是非必留词。
可选地,该样本关键词的标注结果为基于该样本关键词在该样本搜索串中的样本权重确定出的。
可选地,所述点击日志还包括被点击的电子资源标题;以及本发明中的数据查询装置,还包括:
样本权重确定模块85,用于针对每一被点击的电子资源标题,确定点击该电子资源标题的搜索串集合,其中,所述搜索串集合包括每一样本搜索串及基于该样本搜索串点击该电子资源标题的次数;基于所述搜索串集合中的每一样本搜索串,确定与该样本搜索串存在所属关系的其他样本搜索串;基于该样本搜索串点击该电子资源标题的点击次数与基于所述其他样本搜索串点击该电子资源标题的点击次数,确定该样本搜索串、所述其他样本搜索串包含的每一样本关键词在点击该电子资源标题时的参考权重;针对每一样本关键词,基于该样本关键词分别在点击各个电子资源标题时确定出的参考权重,确定该样本关键词的样本权重。
可选地,所述样本权重确定模块85,具体用于基于该搜索串点击该电子资源标题的点击次数与基于所述其他搜索串点击该电子资源标题的点击次数,确定该样本关键词出现的次数;确定基于该搜索串点击该电子资源标题的次数与基于所述其他搜索串点击该电子资源标题的次数的点击总次数;确定该样本关键词出现的次数与所述点击总次数的比值为该样本关键词在点击该电子资源标题时的参考权重。
在介绍了本发明示例性实施方式的数据查询方法、装置和可读介质之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述描述的根据本发明各种示例性实施方式的数据查询方法中的步骤。例如,所述处理单元可以执行如图2所示的步骤S21~S25中的数据查询流程。下面参照图9来描述根据本发明的这种实施方式的计算装置90。图9显示的计算装置90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图9所示,计算装置90以通用计算设备的形式表现。计算装置90的组件可以包括但不限于:上述至少一个处理单元91、上述至少一个存储单元92、连接不同系统组件(包括存储单元92和处理单元91)的总线93。总线93表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元92可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。存储单元92还可以包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置90交互的设备通信,和/或与使得该计算装置90能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,计算装置90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器96通过总线93与用于计算装置90的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
基于相同的技术构思,本发明实施例还提供了一种计算机存储介质。所述计算机可读存储介质存储有计算机装置可执行指令,所述计算机装置可执行指令用于使所述计算机装置执行前述任一方法所述的任一步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据查询方法,其特征在于,包括:
获取用户提交的搜索串并对所述搜索串进行分词处理;
针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;
分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;
基于所述搜索串中各个关键词的权重,确定查询关键词;
基于查询关键词进行查询获得所述搜索串的查询结果。
2.如权利要求1所述的方法,其特征在于,分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重,具体包括:
分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及训练得到的关键词权重预测模型,确定各个关键词在所述搜索串中的权重;
其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值。
3.如权利要求1所述的方法,其特征在于,分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重,具体包括:
分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及所述训练得到的关键词权重预测模型,确定各个关键词在搜索串中的权重和各个关键词的分类结果,其中,每一关键词的分类结果用于指示该关键词在所述搜索串中是必留词还是非必留词;则
基于所述搜索串中各个关键词的权重,确定查询关键词,具体包括:
基于所述搜索串中各个关键词的权重和分类结果,确定查询关键词;
其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的标注结果、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值,所述标注结果用于指示样本关键词是必留词还是非必留词。
4.如权利要求3所述的方法,其特征在于,该样本关键词的标注结果为基于该样本关键词在该样本搜索串中的样本权重确定出的。
5.如权利要求2~4任一所述的方法,其特征在于,所述点击日志还包括被点击的电子资源标题;以及按照下述方法获得每一样本关键词在样本搜索串中的样本权重:
针对每一被点击的电子资源标题,确定点击该电子资源标题的搜索串集合,其中,所述搜索串集合包括每一样本搜索串及基于该样本搜索串点击该电子资源标题的次数;
基于所述搜索串集合中的每一样本搜索串,确定与该样本搜索串存在所属关系的其他样本搜索串;
基于该样本搜索串点击该电子资源标题的点击次数与基于所述其他样本搜索串点击该电子资源标题的点击次数,确定该样本搜索串、所述其他样本搜索串包含的每一样本关键词在点击该电子资源标题时的参考权重;
针对每一样本关键词,基于该样本关键词分别在点击各个电子资源标题时确定出的参考权重,确定该样本关键词的样本权重。
6.如权利要求4所述的方法,其特征在于,基于该搜索串点击该电子资源标题的点击次数与基于所述其他搜索串点击该电子资源标题的点击次数,确定该搜索串、所述其他搜索串包含的每一样本关键词在点击该电子资源标题时的参考权重,具体包括:
基于该搜索串点击该电子资源标题的点击次数与基于所述其他搜索串点击该电子资源标题的点击次数,确定该样本关键词出现的次数;
确定基于该搜索串点击该电子资源标题的次数与基于所述其他搜索串点击该电子资源标题的次数的点击总次数;
确定该样本关键词出现的次数与所述点击总次数的比值为该样本关键词在点击该电子资源标题时的参考权重。
7.一种数据查询装置,其特征在于,包括:
获取模块,用于获取用户提交的搜索串并对所述搜索串进行分词处理;
特征值确定模块,用于针对分词处理后得到的每一关键词,确定该关键词的词本身特征值、用于表征该关键词与所述搜索串之间关系的第一关联特征值、用于表征该关键词与所述搜索串中该关键词的邻近词之间关系的第二关联特征值、所述搜索串中该关键词的邻近词的词本身特征值和所述搜索串的特征值;
权重确定模块,用于分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,确定各个关键词在所述搜索串中的权重;
查询结果召回模块,用于基于所述搜索串中各个关键词的权重,确定查询关键词;并基于查询关键词进行查询获得所述搜索串的查询结果。
8.如权利要求7所述的装置,其特征在于,
所述权重确定模块,具体用于分别根据每一关键词的词本身特征值、第一关联特征值、第二关联特征值、该关键词的邻近词的词本身特征值和所述搜索串的特征值,以及训练得到的关键词权重预测模型,确定各个关键词在所述搜索串中的权重;
其中,所述关键词权重预测模型为基于历史查询电子资源时生成的点击日志获取到的训练样本训练得到的;每一用户的点击日志包括该用户的搜索串;所述训练样本包括满足样本筛选条件的每一样本搜索串中每一样本关键词在该样本搜索串中的样本权重、该样本关键词的词本身特征值、用于表征该样本关键词与该样本搜索串之间关系的第一关联特征值、用于表征该样本关键词与该样本搜索串中该样本关键词的邻近词之间关系的第二关联特征值、该样本搜索串中该样本关键词的邻近词的词本身特征值和该样本搜索串的特征值。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6任一权利要求所述的方法。
10.一种计算机可读介质,存储有处理器可执行指令,其特征在于,所述处理器可执行指令用于执行如权利要求1至6任一权利要求所述的方法。
CN201910167980.7A 2019-03-06 2019-03-06 一种数据查询方法、装置和可读介质 Active CN109947902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910167980.7A CN109947902B (zh) 2019-03-06 2019-03-06 一种数据查询方法、装置和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910167980.7A CN109947902B (zh) 2019-03-06 2019-03-06 一种数据查询方法、装置和可读介质

Publications (2)

Publication Number Publication Date
CN109947902A true CN109947902A (zh) 2019-06-28
CN109947902B CN109947902B (zh) 2021-03-26

Family

ID=67009139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910167980.7A Active CN109947902B (zh) 2019-03-06 2019-03-06 一种数据查询方法、装置和可读介质

Country Status (1)

Country Link
CN (1) CN109947902B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414408A (zh) * 2020-03-11 2020-07-14 成都数融科技有限公司 基于区块链的数据可信表示的方法及装置
CN111881316A (zh) * 2020-07-28 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 搜索方法、装置及服务器和计算机可读存储介质
CN112015968A (zh) * 2020-09-14 2020-12-01 支付宝(杭州)信息技术有限公司 信息处理方法及装置
CN113343046A (zh) * 2021-05-20 2021-09-03 成都美尔贝科技股份有限公司 一种智能搜索排序系统
CN113377997A (zh) * 2021-06-30 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 一种歌曲检索方法、电子设备及计算机可读存储介质
CN113553851A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 关键词的确定方法、装置、存储介质和计算设备
CN115907208A (zh) * 2022-12-16 2023-04-04 中青旅遨游科技发展有限公司 一种实现大数据分析的智慧旅游预测方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端
CN105351321A (zh) * 2015-10-30 2016-02-24 无锡市东赫金属制品有限公司 一种防震螺栓
CN105786910A (zh) * 2014-12-25 2016-07-20 北京奇虎科技有限公司 词条权重计算方法和装置
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN106919603A (zh) * 2015-12-25 2017-07-04 北京奇虎科技有限公司 计算查询词模式中分词权重的方法和装置
CN107402954A (zh) * 2017-05-26 2017-11-28 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
CN107832442A (zh) * 2017-11-17 2018-03-23 陆光辉 一种中医药信息查询系统和方法
CN107885879A (zh) * 2017-11-29 2018-04-06 北京小度信息科技有限公司 语义分析方法、装置、电子设备及计算机可读存储介质
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786910A (zh) * 2014-12-25 2016-07-20 北京奇虎科技有限公司 词条权重计算方法和装置
CN105159927A (zh) * 2015-08-04 2015-12-16 北京金山安全软件有限公司 目标文本主题词的选取方法、装置及终端
CN105351321A (zh) * 2015-10-30 2016-02-24 无锡市东赫金属制品有限公司 一种防震螺栓
CN106919603A (zh) * 2015-12-25 2017-07-04 北京奇虎科技有限公司 计算查询词模式中分词权重的方法和装置
CN105893533A (zh) * 2016-03-31 2016-08-24 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN107402954A (zh) * 2017-05-26 2017-11-28 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
CN107832442A (zh) * 2017-11-17 2018-03-23 陆光辉 一种中医药信息查询系统和方法
CN107885879A (zh) * 2017-11-29 2018-04-06 北京小度信息科技有限公司 语义分析方法、装置、电子设备及计算机可读存储介质
CN108052659A (zh) * 2017-12-28 2018-05-18 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414408A (zh) * 2020-03-11 2020-07-14 成都数融科技有限公司 基于区块链的数据可信表示的方法及装置
CN111881316A (zh) * 2020-07-28 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 搜索方法、装置及服务器和计算机可读存储介质
CN112015968A (zh) * 2020-09-14 2020-12-01 支付宝(杭州)信息技术有限公司 信息处理方法及装置
CN113343046A (zh) * 2021-05-20 2021-09-03 成都美尔贝科技股份有限公司 一种智能搜索排序系统
CN113343046B (zh) * 2021-05-20 2023-08-25 成都美尔贝科技股份有限公司 一种智能搜索排序系统
CN113377997A (zh) * 2021-06-30 2021-09-10 腾讯音乐娱乐科技(深圳)有限公司 一种歌曲检索方法、电子设备及计算机可读存储介质
CN113553851A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 关键词的确定方法、装置、存储介质和计算设备
CN115907208A (zh) * 2022-12-16 2023-04-04 中青旅遨游科技发展有限公司 一种实现大数据分析的智慧旅游预测方法及系统

Also Published As

Publication number Publication date
CN109947902B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN109947902A (zh) 一种数据查询方法、装置和可读介质
US11645319B1 (en) Systems and methods for identifying issues in electronic documents
US11663254B2 (en) System and engine for seeded clustering of news events
US9846748B2 (en) Searching for information based on generic attributes of the query
CN107256267A (zh) 查询方法和装置
CN103339623B (zh) 涉及因特网搜索的方法和设备
JP2021166109A (ja) 融合順序付けモデルの訓練方法と装置、検索の順序付け方法と装置、電子デバイス、記憶媒体、及びプログラム
CN104572631B (zh) 一种语言模型的训练方法及系统
CN107102993B (zh) 一种用户诉求分析方法和装置
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CA2956627A1 (en) System and engine for seeded clustering of news events
CN110728136A (zh) 一种融合多因素的textrank关键词提取算法
CN101211368A (zh) 一种对查询词分类的方法、装置及搜索引擎系统
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN110188291B (zh) 基于代理日志的文档处理
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析系统及其方法
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN113987161A (zh) 一种文本排序方法及装置
Yang et al. Utility-based information distillation over temporally sequenced documents
WO2023083176A1 (zh) 样本处理方法、设备及计算机可读存储介质
CN111061876A (zh) 事件舆情数据分析方法及装置
CN114647739B (zh) 实体链指方法、装置、电子设备及存储介质
CN110837544A (zh) 事件单数据的处理方法、装置、电子设备及存储介质
Che et al. A feature and deep learning model recommendation system for mobile application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant