CN108733766B - 一种数据查询方法、装置和可读介质 - Google Patents
一种数据查询方法、装置和可读介质 Download PDFInfo
- Publication number
- CN108733766B CN108733766B CN201810344075.XA CN201810344075A CN108733766B CN 108733766 B CN108733766 B CN 108733766B CN 201810344075 A CN201810344075 A CN 201810344075A CN 108733766 B CN108733766 B CN 108733766B
- Authority
- CN
- China
- Prior art keywords
- candidate segment
- determining
- probability
- candidate
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000012216 screening Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 50
- 238000009826 distribution Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000003066 decision tree Methods 0.000 claims description 20
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 235000009508 confectionery Nutrition 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 239000012634 fragment Substances 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 229930003231 vitamin Natural products 0.000 description 3
- 239000011782 vitamin Substances 0.000 description 3
- 235000013343 vitamin Nutrition 0.000 description 3
- 229940088594 vitamin Drugs 0.000 description 3
- 150000003722 vitamin derivatives Chemical class 0.000 description 3
- ZZZCUOFIHGPKAK-UHFFFAOYSA-N D-erythro-ascorbic acid Natural products OCC1OC(=O)C(O)=C1O ZZZCUOFIHGPKAK-UHFFFAOYSA-N 0.000 description 2
- 229930003268 Vitamin C Natural products 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006651 lactation Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 235000019154 vitamin C Nutrition 0.000 description 2
- 239000011718 vitamin C Substances 0.000 description 2
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 1
- 241000238557 Decapoda Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 229960005070 ascorbic acid Drugs 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据查询方法、装置和可读介质,属于数据处理技术领域,本发明提供的方法及装置中,在获取到查询请求中的查询语句后,可以根据预先训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,并根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。本发明中相关性模型可以评价候选片段与查询语句的相关性,后验召回质量模型可以评价候选片段的召回文档的能力,基于此,利用置信概率满足筛选条件的候选片段进行查询,不仅得到的召回文档数量高而且召回文档的相关性也较大,从而保证了查询结果的相关度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据查询方法、装置和可读介质。
背景技术
在搜索中,文档召回是对查询语句(query)进行切词得到的每个关键词的倒排列表进行求交得到的。但是在中长的query中,如果所有关键词的倒排列表参与求交会导致召回文档不足或者相关文档不能召回。比如query为“swisse维生素孕妇在哺乳期能吃吗?”,如果让该query所有的关键词参与召回,会导致返回的查询结果为空,参考图1a所示,但如果只让“swisse维生素哺乳期”这三个关键词参与求交召回,可以召回一些虽然不和query完全匹配但也和query需求非常相关的文档,参考图1b所示。因此,如何根据query确定用于参与倒排求交计算的关键词,使得根据确定出的关键词召回满足用户需求的文档是提高检索准确度的重要问题。
现有的query中确定关键词的方法主要根据词权重进行丢词来确定,或者引入更丰富特征(如语义信息和紧密度等),并输入至模型中来计算每个关键词必留的概率来确定用于进行检索的关键词。但这两种方法都是从词粒度进行建模计算,本身存在一定的局限性,导致根据确定出的关键词获得的查询结果相关度不高。
发明内容
本发明实施例提供一种数据查询方法、装置和可读介质,用以解决现有技术中利用查询语句中关键词获得的查询结果相关度不高的问题。
第一方面,本发明实施例提供一种数据查询方法,包括:
获取查询请求中的查询语句;
基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,其中,所述至少一个候选片段由所述查询语句中至少一个的关键词构成的;并
根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。
这样,相关性模型可以评价候选片段与查询语句的相关性,后验召回质量模型可以评价候选片段的召回文档的能力,基于此,利用本发明中置信概率满足筛选条件的候选片段进行查询,不仅得到的查询结果即召回文档数量高而且召回文档的相关性也较大,从而更保证了查询结果的相关度,更能够满足用户的实际需求。此外,本发明根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用查询语句进行查询得到的查询结果,确定查询语句的最佳查询结果,这样得到的查询结果既保留了基于查询语句得到的查询结果,也附加了候选片段的查询结果,从而使得最终得到的最佳查询结果准确度更高。
较佳地,基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,具体包括:
针对每一候选片段,基于训练得到的相关性模型,确定该候选片段与所述查询语句的相关性概率;并
基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率;
根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率。
通过引入相关性概率和后验召回质量概率,相关性概率越大表明候选片段与查询语句的相关性越高,后验召回质量概率越大表明候选片段的召回文档的能力越高,基于这两个概率确定出的候选片段进行查询得到的查询结果更能够满足用户的实际需求,且进一步提高了本发明的查询结果的相关度。
优选地,在基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之前,还包括:
确定该候选片段的相关性概率不小于相关性概率阈值。
这样,在确定后验召回质量概率之前,对候选片段进行筛选,这样可以将与查询语句明显不相干的候选片段进行剔除,即不确定这些片段的后验召回质量概率,从而加快了确定用于查询的候选片段的速度。
较佳地,在基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之后,还包括:
利用热词和/或新词的历史统计数据,确定该候选片段包含的热词和/或新词的时新性值;以及
根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率,具体包括:
确定所述相关性概率、所述后验召回质量概率和所述时新性值的乘积为该候选片段的置信概率。
针对查询语句包含网络热词和/或新词的片段,为了避免这些词被剔除,引入了时新性值,在确定置信概率时将时新性值参与计算,可以提高查询结果的准确性。
优选地,基于训练得到的相关性模型,确定该候选片段与所述查询语句的相关性概率,具体包括:
确定该候选片段与所述查询语句的相似度因子;
确定该候选片段在所述查询语句中的重要度因子;
根据所述相似度因子与所述重要度因子,利用训练得到的相关性模型确定该候选片段与所述查询语句的相关性概率。
较佳地,所述相似度因子至少包括以下一项:候选片段与所述查询语句的字面相关度、语料库中包含候选片段的文档的共点击次数和候选片段与所述查询语句在意图上的语义相似度。
较佳地,所述重要度因子至少包括以下一项:候选片段的逆文档频率、候选片段的点击率预测CTR值和候选片段的片段紧密度。
较佳地,按照下述方法确定候选片段与所述查询语句在意图上的语义相似度:
确定所述查询语句在各个大类意图中的分布概率;
确定所述候选片段在各个大类意图中的分布概率;
将所述查询语句在各个大类意图中的分布概率构成的向量与所述候选片段在各个大类意图中的分布概率构成的向量进行余弦相似度计算,并将计算结果确定为所述候选片段与所述查询语句在意图上的语义相似度。
优选地,按照下述方法确定候选片段的逆文档频率:
确定语料库中文档总数;并
分别确定候选片段中的关键词紧邻出现在文档中的文档数量和候选片段中的关键词非紧邻出现在文档中的文档数量;
根据所述文档总数、所述候选片段中的关键词紧邻出现在文档中的文档数量和所述候选片段中的关键词非紧邻出现在文档中的文档数量,确定候选片段的逆文档频率。
优选地,所述片段紧密度包括内部紧密度和外部紧密度,以及按照下述方法确定候选片段的内部紧密度:
确定所述候选片段中相邻关键词之间的紧密度;
将确定出的相邻关键词之间的紧密度的平均值确定为所述候选片段的内部紧密度;以及
按照下述方法确定候选片段的外部紧密度:
确定所述查询语句中与所述候选片段中第一个关键词相邻且不属于所述候选片段的第一临时关键词;以及
确定所述查询语句中与所述候选片段中最后一个关键词相邻且不属于所述候选片段的第二临时关键词;
确定所述第一个关键词与所述第一临时关键词之间的第一紧密度;并
确定所述最后一个关键词与所述第二临时关键词之间的第二紧密度;
确定所述第一紧密度与所述第二紧密度中的最大值为所述候选片段的外部紧密度。
可选地,所述相关性模型为逻辑回归模型、梯度提升决策树模型、支持向量机SVM模型和贝叶斯模型中的一种。
较佳地,基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率,具体包括:
确定该候选片段的召回文档;并
从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;
从该候选片段中提取片段特征;
根据所述文档特征、所述关联性特征和所述片段特征,利用梯度提升决策树模型确定该候选片段的后验召回质量概率。
较佳地,基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率,具体包括:
确定该候选片段的召回文档;并
从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;以及
将所述关联性特征构成的特征矩阵进行第一设定次数的池化处理得到特征向量,或者利用所述相关性特征构成的特征矩阵和卷积核,确定执行第二设定次数的卷积处理后得到的特征向量;以及
从该候选片段中提取片段特征;
将所述文档特征构成的特征向量、基于关联性特征得到的特征向量和所述片段特征构成的特征向量进行全连接处理得到该候选片段的后验召回质量概率。
第二方面,本发明实施例提供一种数据查询装置,包括:
获取单元,用于获取查询请求中的查询语句;
第一确定单元,用于基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,其中,所述至少一个候选片段由所述查询语句中至少一个的关键词构成的;
第二确定单元,用于根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。
较佳地,所述第一确定单元,具体用于针对每一候选片段,基于训练得到的相关性模型,确定该候选片段与所述查询语句的相关性概率;并基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率;根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率。
优选地,所述装置,还包括:
第三确定单元,用于在所述第一确定单元基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之前,确定该候选片段的相关性概率不小于相关性概率阈值。
优选地,所述装置,还包括:
第四确定单元,用于在所述第一确定单元基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之后,利用热词和/或新词的历史统计数据,确定该候选片段包含的热词和/或新词的时新性值;
所述第一确定单元,具体用于确定所述相关性概率、所述后验召回质量概率和所述时新性值的乘积为该候选片段的置信概率。
较佳地,所述第一确定单元,具体用于确定该候选片段与所述查询语句的相似度因子;确定该候选片段在所述查询语句中的重要度因子;根据所述相似度因子与所述重要度因子,利用训练得到的相关性模型确定该候选片段与所述查询语句的相关性概率。
优选地,所述相似度因子至少包括以下一项:候选片段与所述查询语句的字面相关度、语料库中包含候选片段的文档的共点击次数和候选片段与所述查询语句在意图上的语义相似度。
优选地,所述重要度因子至少包括以下一项:候选片段的逆文档频率、候选片段的点击率预测CTR值和候选片段的片段紧密度。
可选地,所述第一确定单元,具体用于按照下述方法确定候选片段与所述查询语句在意图上的语义相似度:确定所述查询语句在各个大类意图中的分布概率;确定所述候选片段在各个大类意图中的分布概率;将所述查询语句在各个大类意图中的分布概率构成的向量与所述候选片段在各个大类意图中的分布概率构成的向量进行余弦相似度计算,并将计算结果确定为所述候选片段与所述查询语句在意图上的语义相似度。
可选地,所述第一确定单元,具体用于按照下述方法确定候选片段的逆文档频率:确定语料库中文档总数;并分别确定候选片段中的关键词紧邻出现在文档中的文档数量和候选片段中的关键词非紧邻出现在文档中的文档数量;根据所述文档总数、所述候选片段中的关键词紧邻出现在文档中的文档数量和所述候选片段中的关键词非紧邻出现在文档中的文档数量,确定候选片段的逆文档频率。
优选地,所述片段紧密度包括内部紧密度和外部紧密度,以及
所述第一确定单元,具体用于按照下述方法确定候选片段的内部紧密度:确定所述候选片段中相邻关键词之间的紧密度;将确定出的相邻关键词之间的紧密度的平均值确定为所述候选片段的内部紧密度;以及按照下述方法确定候选片段的外部紧密度:确定所述查询语句中与所述候选片段中第一个关键词相邻且不属于所述候选片段的第一临时关键词;以及确定所述查询语句中与所述候选片段中最后一个关键词相邻且不属于所述候选片段的第二临时关键词;确定所述第一个关键词与所述第一临时关键词之间的第一紧密度;并确定所述最后一个关键词与所述第二临时关键词之间的第二紧密度;确定所述第一紧密度与所述第二紧密度中的最大值为所述候选片段的外部紧密度。
优选地,所述相关性模型为逻辑回归模型、梯度提升决策树模型、支持向量机SVM模型和贝叶斯模型中的一种。
较佳地,所述第一确定单元,具体用于确定该候选片段的召回文档;并从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;从该候选片段中提取片段特征;根据所述文档特征、所述关联性特征和所述片段特征,利用梯度提升决策树模型确定该候选片段的后验召回质量概率。
优选地,所述第一确定单元,具体用于确定该候选片段的召回文档;并从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;以及将所述关联性特征构成的特征矩阵进行第一设定次数的池化处理得到特征向量,或者利用所述相关性特征构成的特征矩阵和卷积核,确定执行第二设定次数的卷积处理后得到的特征向量;以及从该候选片段中提取片段特征;将所述文档特征构成的特征向量、基于关联性特征得到的特征向量和所述片段特征构成的特征向量进行全连接处理得到该候选片段的后验召回质量概率。
第三方面,本发明实施例提供一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本申请提供的数据查询方法。
第四方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的数据查询方法。
本发明有益效果:
本发明实施例提供的数据查询方法、装置和可读介质,在获取到查询请求中的查询语句后,可以根据预先训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率;并根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。本发明中利用相关性模型和后验召回质量模型确定候选片段的置信概率,相关性模型可以评价候选片段与查询语句的相关性,后验召回质量模型可以评价候选片段的召回文档的能力,利用置信概率满足筛选条件的候选片段进行查询,不仅得到的召回文档数量高而且召回文档的相关性也较大,从而保证了查询结果的相关度。此外,本发明根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用查询语句进行查询得到的查询结果,确定查询语句的最佳查询结果,这样得到的查询结果既保留了基于查询语句得到的查询结果,也附加了候选片段的查询结果,从而使得最终得到的最佳查询结果准确度更高。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1a为现有技术中利用查询语句所有关键词进行查询的查询结果的示意图;
图1b为现有技术中利用查询语句中的部分关键词参与倒排求交得到的查询结果的示意图;
图2为本发明实施例提供的数据查询方法的应用场景示意图;
图3为本发明实施例提供的数据查询方法的流程示意图;
图4为本发明实施例提供的确定该候选片段的置信概率的流程示意图;
图5为本发明实施例提供的确定该候选片段与所述查询语句的相关性概率的流程示意图;
图6a为本发明实施例提供的确定语料库中包含候选片段的文档的共点击次数的流程示意图;
图6b为本发明实施例提供的利用召回文档和候选片段构建的点击二部图的示意图;
图7为本发明实施例提供的确定候选片段与所述查询语句在意图上的语义相似度的流程示意图;
图8为本发明实施例提供的确定候选片段的内部紧密度的流程示意图;
图9为本发明实施例提供的确定候选片段的外部紧密度的流程示意图;
图10a为本发明实施例提供的利用gbdt模型确定候选片段的后验召回质量概率的流程示意图之一;
图10b为本发明实施例提供的Doc特征、Query特征和Query-Doc特征的示意图;
图10c为本发明实施例提供的确定候选片段的后验召回质量概率的示意图;
图11a为本发明实施例提供的利用pooling-only模型确定候选片段的后验召回质量概率的流程示意图;
图11b为本发明实施例提供的利用pooling-only模型确定候选片段的后验召回质量概率的示意图;
图11c为本发明实施例提供的利用CNN模型确定候选片段的后验召回质量概率的流程示意图;
图12为本发明实施例提供的数据查询装置的结构示意图;
图13为本发明实施例提供的实施数据查询方法的计算装置的结构示意图。
具体实施方式
本发明实施例提供的数据查询方法、装置和可读介质,用以解决现有技术中利用查询语句中关键词获得的查询结果相关性较低的问题。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了便于理解本发明,本发明涉及的技术术语中:
1、逻辑回归:(Logistic Regression,LR)又称为逻辑回归分析,是通过历史数据的表项对未来结果发生的概率进行预测。
2、支持向量机:(Support Vector Machine,SVM),基于统计学习理论对数据进行分类预测。致力于寻找结构化风险最小进一步提高学习机的泛化能力,从而达到经验风险和置信范围的最小化,最终使得在统计样本量比较少的情况下,也能够获得良好的学习效果。
3、梯度提升决策树:(Gradient Boosting Decision Tree,GBDT)是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。利用梯度提升决策树模型可以在训练决策树时,对得到的决策树模型进行校正,一步步减少迭代的残差,最终在残差减小的梯度方向上获得最优的决策树模型。
4、卷积神经网络:(Convolutional Neural Network,CNN)是一种针对二维输入识别问题的神经网络,由一个或多个卷积层和池化层(pooling layer)组成。其特点是权值共享,减少了参数数量,且对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
5、字面相关度,为利用BM25算法来得到各个候选片段与查询语句之间的字面相关度。
6、共点击次数,是指候选片段之间的边的权重,在本发明中可以理解为语料库中包含候选片段的文档的共点击次数。
7、大类意图,是指为将用户的查询意图按照话题进行分类后获得的。具体地,大类意图可以分为:旅游,游戏,体育,音乐,视频,软件,文学,美食,医疗,财经,汽车,房产,动漫,教育,科技,军事,购物,鸡汤文,娱乐,母婴,时尚,公众号,常用查询(天气,物流等),人物,资讯,图片,问答,百科(经验,知识)等意图。例如,各大类意图分别为购物意图,音乐意图以及视频意图,而购物意图中包括商品名和品牌名等,音乐意图类中包括歌手、歌曲和专辑等。
8、新词,是指新近创造的词语,是在现代社会发展促进下以及不断的环境变化中所诞生的词语,它可能正在被融入日常生活中,但尚未被主流语言所接受,例如,2017年出现的四海八荒、友谊的小船和我可能XXX了个假的XXX等等都属于新词,在确定新词时可以统计某个词在历史搜索中是否出现,当然也可以采用其他的方法来确定被搜索的词是否为新词。
9、热词,即热门词汇,其作为一种词汇现象反映了一个国家、一个地区在一个时期人民普遍关注的问题和事物,例如2017年度出现的戏精、你的良心不会痛吗和皮皮虾等等都属于热词,在确定被搜索的关键词是否为热词时,可以统计一段时间内某一词被搜索的次数,北京可以申请积分落户政策在几天内被搜索的次数极高,就可以认定为热词。
现有技术从词粒度确定查询结果的方法存在以下缺陷:(1)结果不稳定;(2)现有的方法对不常见词或者重要词敏感,往往会将这些词作为参与倒排求交的词,这些词会严重影响文档召回结果;(3)现有的方法确定出的参与倒排求交的词最多只考虑两个词的关系,导致文档召回结果较差;(4)现有的方法并没有考虑用于检索的词的后验召回质量。
为了解决现有技术中利用查询语句中关键词获得的查询结果相关性较低的问题,本发明实施例给出了解决方案,参考图2所示的应用场景示意图,用户设备11上安装有设置有搜索功能的客户端,然后用户10通过用户设备11中安装的客户端向服务器12发送查询请求,服务器12在接收到查询请求后,获取查询请求中的查询语句,然后基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,其中,所述至少一个候选片段由所述查询语句中至少一个的关键词构成的;并根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果,最后服务器12通过用户设备11中的客户端向用户返回最佳查询结果。这样,基于查询语句中的片段进行查询,由于片段相比于单个关键词,片段的语义更接近于查询语句,从而基于片段进行查询得到的查询结果更准确;此外,本发明中相关性模型可以评价候选片段与查询语句的相关性,后验召回质量模型可以评价候选片段的召回文档的能力,基于此,利用置信概率满足筛选条件的候选片段进行查询,不仅得到的召回文档数量高而且召回文档的相关性也较大,从而保证了查询结果的相关度。
需要说明的是,用户设备11与服务器12之间通过网络进行通信连接,该网络可以为局域网、广域网等。用户设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),服务器12可以为任何能够提供互联网服务的设备,用户设备11中的客户端可以为具有搜索功能的客户端,可以为微信和QQ浏览器等等。
下面结合图2的应用场景,参考图3-图13来描述根据本发明示例性实施方式提供的数据查询方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图3所示,为本发明实施例提供的数据查询方法的流程示意图,可以包括以下步骤:
S11、获取查询请求中的查询语句。
用户10在需要了解一些内容时,会在用户设备11上安装的具有搜索功能的客户端的搜索框内输入查询语句,然后为了向用户10返回与该查询语句相关的查询结果,客户端会将该查询语句携带在查询请求中发送给服务器12,服务器12在接收到查询请求后,即可从查询请求中获取到查询语句。
当然,如果用户设备10具有较高的存储能力,用户设备10的客户端在接收到用户10触发的查询请求后,也可以由客户端从查询请求中获取查询语句,然后执行为该查询请求返回查询结果的步骤,即步骤S12和S13。在此情况下,由用户设备11中的客户端在本地执行本发明提供的数据查询方法。例如,移动终端设备中的短信应用、微信应用等具有搜索功能的应用都可以实施本发明提供的数据查询方法。
需要说明的是,本发明中的查询语句为对用户10输入的原始查询语句进行切词处理得到的,例如,原始查询语句为“圣罗兰糖果粉口红好看吗?”,则对原始查询语句进行切词处理后,可以得到切词处理后的查询语句为“圣罗兰糖果粉口红好看吗?”,使得切词处理后的查询语句为对原始查询语句切词得到的各个关键词构成,例如圣罗兰即为一个关键词,糖果也为一个关键词等。
S12、基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率。
现有技术采用的利用查询语句中关键词进行搜索的方法最多只考虑2个关键词的关系,但大多查询语句中需要考虑3个及以上的关键词之间的关系才能得到比较好的查询结果,例如,查询语句“电影遇见你之前”和查询语句“我的父亲母亲电视剧观看”,这两个查询语句中前者需要考虑后3个词的关系,后者需要考虑前4个词的关系,显然利用关键词进行查询往往会忽略掉关键词之间的关系,因此为了解决这一问题,本发明基于片段进行查询,即利用查询语句中关键词构成的候选片段进行查询。本发明中的片段可以由一个关键词组成,此外本发明中的片段可以理解为查询语句中的若干个有序的关键词构成的,基于该查询语句中的关键词可以得到的候选片段有两类,一类是紧邻关键词构成的片段,另一类是非紧邻但有序的关键词构成的片段。例如查询语句“圣罗兰糖果粉口红好看吗?”,则基于这一查询语句得到的紧邻关键词构成的候选片段可以有:“糖果粉口红”,“口红好看吗”,“圣罗兰糖果粉口红”等等,基于这一查询语句得到的非紧邻关键词构成的候选片段可以有:“圣罗兰口红”,“糖果口红”,“糖果好看吗”等等。
基于上述描述,本发明实施例在基于查询语句可能会得到不止一个候选片段,但向用户10返回的查询结果并不是对基于这些候选片段进行查询的查询结果的综合,因为有些候选片段的语义与查询语句差别较大,表1给出了查询语句“圣罗兰糖果粉口红好看吗?”中候选片段的相关性和召回能力。
表1
结合表1,可以得出候选片段“糖果好看吗”,明显与查询语句的语义完全不相关,故可以排除这一候选片段的查询结果。此外,并不是说候选片段中关键词越多与查询语句语义越相关的候选片段能够得到比较好的查询结果,例如候选片段“圣罗兰糖果粉口红”与查询语句语义相关度较大,当利用该候选片段进行查询召回的文档数量较少甚至为空,因此在选取候选片段时,一方面要考虑候选片段与查询语句的相关性,另一方面还要考虑候选片段的召回文档能力,而能够衡量这两个因素的参数为本发明实施例中提出的候选片段的置信概率,候选片段的置信概率是根据训练得到的相关性模型和后验召回质量模型得到的,而相关性模型考虑了候选片段与查询语句的相关性,后验召回质量模型考虑了候选片段的召回文档能力。
而且,现有的方法并没有考虑选取的关键词的后验召回质量,而选取的关键词的好坏和文档召回排序密切相关,有可能存在从查询侧看选取的关键词是合理的,但从召回侧看利用选取的关键词获得的查询结果很差,因此,为了避免这一情况的发生,本发明引入了后验召回质量模型,利用该模型对候选片段进行验证。
优选地,在确定查询语句至少一个候选片段的置信概率之前,还可以对基于查询语句得到的候选片段进行初步筛选,这样可以筛选出一些与查询语句完全不相关的候选片段,这样可以去除这些筛选出的候选片段,还以查询语句“圣罗兰糖果粉口红好看吗?”为例进行说明,则可以将候选片段“糖果好看吗”去除,从而可以加快得到查询结果的速度。
较佳地,针对任一个候选片段,可以按照图4所示的流程确定该候选片段的置信概率,包括以下步骤:
S21、基于训练得到的相关性模型,确定该候选片段与所述查询语句的相关性概率。
本步骤中,相关性模型,用于表征基于查询语句得到的候选片段与该查询语句之间的相关性,将基于查询语句得到的至少一个候选片段的相似度因子和重要度因子输入到相关性模型中,相关性模型输出结果即为该候选片段与查询语句的相关性概率。相关性模型是利用大量的、已知查询语句和已知查询结果、且查询结果(召回文档)能够满足用户需求的片段构成训练样本,利用训练样本中片段的相似度因子和重要度因子对相关性模型进行训练。当然,实际应用中还可以利用除相似度因子和重要度因子之外的其它特征对相关性模型进行训练。
此外,相关性,通常从字面和语义两个维度进行衡量,但现有的方法只关注相似度,而忽略了片段本身的重要度,本发明中的候选片段都是查询语句中的子串,如果只注重相似度会倾向选择更长的片段,显然并不是越长的片段进行查询召回的文档就越合理。因此本发明从相似度和相关度两个维度来计算候选片段与查询语句的相关性概率。例如,查询语句“好看的电影微信公众号”,参考表2中相似度和重要度说明,虽然候选片段“电影微信公众号”的相似度最高,但是从重要度来说,该候选片段并不如“电影公众号”。
表2
优选地,本发明提出的相关性模型可以但不限于为:逻辑回归模型、梯度提升决策树模型、支持向量机SVM模型和贝叶斯模型中的一种等。
较佳地,针对查询语句得到的至少一个候选片段中的每一候选片段,均执行图5所示的流程确定该候选片段与所述查询语句的相关性概率,可以包括以下步骤:
S31、确定该候选片段与所述查询语句的相似度因子。
本步骤中,所述相似度因子可以但不限于包括:候选片段与所述查询语句的字面相关度、语料库中包含候选片段的文档的共点击次数和候选片段与所述查询语句在意图上的语义相似度等。
具体地,本发明利用BM25算法来计算候选片段与查询语句的字面相关度,具体可以按照公式(1)确定候选片段与所述查询语句的字面相关度:
其中,IDF(qi)为所述候选片段包含的第i个关键词的逆文档频率,且IDF(qi)可以由公式(2)来确定:
K可以由公式(3)来确定:
n为所述查询语句与所述候选片段包含相同的关键词的数量;
N为语料库中文档总数;
n(qi)为语料库中包含所述候选片段包含的第i个关键词的文档的数量;
k1,b为调节因子;
fi为所述候选片段包含的第i个关键词在文档中的出现频率;
dl为候选片段中包含的关键词的个数;
avgdl为候选片段中包含的关键词的个数的平均值。
具体地,公式(3)中的调节因子k1,b可以根据经验值确定,从该公式中可以看到,参数b的作用是调整候选片段包含的关键词的个数对相关性影响的大小,b越大,候选片段包含的关键词的个数对相关性得分的影响越大,反之越小。
较佳地,短文本相似度计算中仅考虑字面相关度是不够的,但大部分语义计算方法都不太适用于高qps低延时场景,因此本发明引入了计算复杂度不高的语义计算方法,如引入了共点击次数,具体可以按照图6a所示的方法确定语料库中包含候选片段的文档的共点击次数,包括以下步骤:
S41、基于所有候选片段与各个候选片段的召回文档构建点击二部图。
本步骤中,例如基于查询语句得到的候选片段有三个,记为q1、q2和q3,基于每一候选片段进行查询时均可以得到一些召回文档,则可以利用这三个候选片段以及这三个候选片段的召回文档构建点击二部图。例如,用Doc表示召回文档构成的集合,用Query表示候选片段的集合,则点击二部图的节点集合为Doc U Query,对于任一个query-doc对qi和dj,如果它们之间有至少一次点击,则点击二部图中这两个节点之间会有一条边相连接,可以参考图6b所示的点击二部图,各条边上的权重为各query-doc对的点击次数,例如图6b中query-doc对(q1,d1)之间连接的边的权重为w11等等。
优选地,在得到点击二部图后,可以去除Doc顶点,去除Doc是为了获取候选片段与其他候选片段之间的共点击次数。
S42、针对召回文档集合中任一召回文档,根据构建的点击二部图分别确定各个候选片段对该召回文档的点击次数。
所述召回文档集合由各个候选片段的召回文档构成。
本步骤中,可以基于步骤S41中构建的点击二部图,来确定各个候选片段对每一召回文档的点击次数,例如q1、q2、q3分别对召回文档d1的点击次数可以记为:w(qi,d1)。
S43、确定各个候选片段对该召回文档的点击次数中的最小值。
本步骤中,在确定出各个候选片段对召回文档的点击次数后,可以得到该召回文档下步骤S42确定出的点击次数的最小值。进而基于各个召回文档同样可以确定出各召回文档下点击次数的最小值。
S44、对各个召回文档确定出的最小值进行求和处理,得到语料库中包含候选片段的文档的共点击次数。
本步骤中,在步骤S43确定出点击次数的最小值后,即可对这些最小值进行求和处理,求和结果即可以得到语料库中包含候选片段的文档的共点击次数。
较佳地,基于客户端(微信)搜索日志,利用共点击次数虽然反映了用户的行为信息,具有一定的语义信息,准确率较高,但覆盖率较低,为了解决这一问题,在获得共点击次数的基础上,还引入了语义相似度。分析发现,大部分查询语句是有明显意图的,因此可以计算查询语句与候选片段在意图上的语义一致性。本发明引入了计算复杂度较小的基于片段的意图计算方法来确定候选片段的意图,具体可以按照图7所示的方法确定候选片段与所述查询语句在意图上的语义相似度,包括以下步骤:
S51、确定查询语句在各个大类意图中的分布概率。
以查询语句为“陆家嘴视频百度云”为例进行说明,基于意图计算方法可以确定出该查询语句在各大类意图中的分布概率,即“video:0.47,baike:0.16,app:0.03.......”,已看出该查询语句在视频video大类意图的分布概率为0.47,在百科baike大类意图的分布概率为0.16等等。
S52、确定候选片段在各个大类意图中的分布概率。
同样,基于意图计算方法可以确定出上述查询语句得到的候选片段在各大类意图中的分布概率,表3为查询语句“陆家嘴视频百度云”中的候选片段在各个大类意图中的分布概率,从而可以降低包含“百度云”的候选片段的权重,加强包含“视频”的候选片段的权重。
表3
候选片段 | 分布概率 |
陆家嘴 | finance:0.42travel:0.23baike:0.13…… |
陆家嘴视频 | video:0.62finance:0.12qa:0.10…… |
百度云 | app:0.27baike:0.24video:0.08…… |
需要说明的是,表3中并没有列举出候选片段在所有大类意图中的分布概率,但实际应用中会计算出候选片段在所有大类意图中的分布概率,由此可以将每一候选片段得到的分布概率构成一个向量,同样意图计算方法也会计算出查询语句在所有大类意图中的分布概率,可以将其构成一个向量。在构成向量时,候选片段对应的向量与查询语句对应的向量中每一位置对应相同的大类意图的概率,如这两个向量的第一个位置均对应的是视频video大类意图的分布概率等。
S53、将所述查询语句在各个大类意图中的分布概率构成的向量与所述候选片段在各个大类意图中的分布概率构成的向量进行余弦相似度计算,并将计算结果确定为所述候选片段与所述查询语句在意图上的语义相似度。
基于步骤S52得到的分布概率,可以计算每一候选片段对应的向量与查询语句对应的向量的余弦相似度,然后将计算结果确定为候选片段与查询语句在意图上的语义相似度,例如可以将候选片段“陆家嘴”在各大类意图中的分布概率构成的向量与查询语句“陆家嘴视频百度云”在各大类意图中的分布概率构成的向量进行余弦相似度计算,从而将这一计算结果确定为候选片段“陆家嘴”与查询语句“陆家嘴视频百度云”在意图上的语义相似度。
至此,可以确定出查询语句的各个候选片段与查询语句的相似度因子。
S32、确定该候选片段在所述查询语句中的重要度因子。
本步骤中,所述重要度因子可以但不限于包括:候选片段的逆文档频率、候选片段的点击率预测CTR值和候选片段的片段紧密度等。
常用于衡量重要度的方法是计算逆文档频率(Inverse Document Frequency,IDF),但因为片段长度不固定,IDF算法无法比较任意长度的片段的重要性,为了解决这一问题,本发明在IDF的基础上引入了N-gram IDF,可以在同一空间内比较任意长度的片段的重要性。
基于上述描述,可以按照下述步骤确定候选片段的逆文档频率:
步骤一:确定语料库中文档总数。
具体地,可以利用D来表示语料库中文档总数。
步骤二:分别确定候选片段中的关键词紧邻出现在文档中的文档数量和候选片段中的关键词非紧邻出现在文档中的文档数量。
具体地,可以利用df(g)来表示候选片段中的关键词紧邻出现在文档中的文档数量;以及利用df(θ(g))来表示候选片段中的关键词非紧邻出现在文档中的文档数量。
步骤三:根据所述文档总数、所述候选片段中的关键词紧邻出现在文档中的文档数量和所述候选片段中的关键词非紧邻出现在文档中的文档数量,确定候选片段的逆文档频率。
具体实施时,可以利用IDFN-gram来表示候选片段的逆文档频率。
基于上述步骤一至步骤三的描述,可以利用公式(4)来表示候选片段的逆文档频率IDFN-gram,即:
具体地,N-gram IDF在IDF的基础上,引入了df(θ(g)),公式中表示候选片段出现次数越少越重要,公式中表示候选片段中包含的关键词紧邻出现次数和关键词非紧邻出现的次数越接近,关联度越高。表4中给出了查询语句“维生素c的作用”中候选片段采用N-gram IDF算法确定出的候选片段的逆文档频率要比IDF算法确定出的候选片段的逆文档频率更合理。需要说明的是,还可以采用其他方法来确定候选片段的逆文档频率,在此不进行限定。
表4
候选片段 | IDF | N-gram IDF |
维生素c | 3.578 | 4.605 |
维生素 | 3.179 | 3.909 |
维生素c的作用 | 3.744 | 2.637 |
c的作用 | 3.234 | 1.666 |
较佳地,为了多维度衡量候选片段的重要度,在N-gram IDF计算候选片段的逆文档频率之后,还引入了点击通过率(Click Through Rate,CTR),CTR衡量候选片段的热度,结果满意率。而CRT可以表示为:基于该候选片段搜索时被点击的次数与该候选片段被搜索的总次数之间的比值。基于该表达式可以计算所有候选片段的CTR值。
可选地,对于搜索次数较少的片段,计算得到的CTR值不太置信,为了解决这一问题,引入了威尔逊区间的下限来平滑CTR值。具体的说,由于各个候选片段被用来搜索的次数大不相同,可以基于此对每个候选片段设置一个威尔逊区间,当该候选片段被用来搜索得到CTR值后,若另一个候选片段被用来搜索得到的CTR值高于该候选片段的CTR值,且上述另一候选片段被搜索的次数较少,这时可以根据这两个候选片段的威尔逊区间的下限值进行比较,若上述另一候选片段的下限值较小,则需要利用上述另一候选片段的下限值来调整上述另一候选片段的CTR值,以使调整后的CTR值小于该候选片段的CTR值。
为了多维度衡量候选片段的重要度,在N-gram IDF计算候选片段的逆文档频率和计算候选片段的点击通过率之后,还引入了候选片段的片段紧密度,片段紧密度分别从内部和外部来衡量片段的凝固程度和搭配自由度。
较佳地,上述片段紧密度包括内部紧密度和外部紧密度,当且仅当内部紧密度较高,外部紧密度比较低时,片段的完整性越高且越重要。具体地,可以按照图8所示的方法确定候选片段的内部紧密度,包括以下步骤:
S61、确定所述候选片段中相邻关键词之间的紧密度。
本步骤中,例如候选片段为“B C D”,则在确定该候选片段的内部紧密度时,需要确定BC之间的紧密度和CD之间的紧密度。
S62、将确定出的相邻关键词之间的紧密度的平均值确定为所述候选片段的内部紧密度。
在步骤S61的基础上,确定BC之间的紧密度与CD之间的紧密度求取平均值,则确定出的平均值即为候选片段“B C D”的内部紧密度。
具体来说,可以参考公式(5)来确定候选片段的内部紧密度:
其中,T为候选片段的内部紧密度;n为候选片段中包含的关键词的个数;tighti为第i个相邻关键词之间紧密度。
优选地,可以按照图9所示的方法确定候选片段的外部紧密度,包括以下步骤:
S71、确定所述查询语句中与所述候选片段中第一个关键词相邻且不属于所述候选片段的第一临时关键词。
本步骤中,以查询语句“AB C D E”为例进行说明,则在确定候选片段“B C D”的外部紧密度时,需要确定该候选片段中第一个关键词B相邻且不属于该候选片段的第一临时关键词,易得出第一临时关键词为A。
S72、确定所述查询语句中与所述候选片段中最后一个关键词相邻且不属于所述候选片段的第二临时关键词。
基于步骤S71,可以确定出候选片段“B C D”中最后一个关键词为D,再根据查询语句“AB C D E”,得出与关键词D相邻且不属于候选片段“BC D”的第二临时关键词为E。
S73、确定所述第一个关键词与所述第一临时关键词之间的第一紧密度。
基于步骤S71和S72,可以确定出第一关键词B和第一临时关键词A之间的第一紧密度,记为tightAB。
S74、确定所述最后一个关键词与所述第二临时关键词之间的第二紧密度。
同理,可以确定出最后一个关键词D与第二临时关键词E之间的第二紧密度,记为tightDE。
S75、确定所述第一紧密度与所述第二紧密度中的最大值为所述候选片段的外部紧密度。
具体地,在确定出第一紧密度tightAB和第二紧密度tightDE时,则可以将这两个紧密度中的最大值确定为候选片段的外部紧密度,记为max(tightAB,tightDE)。
具体来说,可以利用公式表示步骤S71~S75中确定候选片段的外部紧密度:max(tightleft_term1,term1,tightterm2,right_term2),其中term1为候选片段中的第一个关键词;left_term1为查询语句中与第一个关键词左邻的关键词;tightleft_term1,term1为第一个关键词与其左邻的关键词之间的紧密度;term2为候选片段中的最后一个关键词;right_term2为查询语句中与最后一个关键词右邻的关键词;tightterm2,right_term2为最后一个关键词与其右邻的关键词之间的紧密度。
为了便于理解本发明提出的候选片段的内部紧密度和外部紧密度,表5给出了查询语句“我是歌手总决赛”的候选片段的内部紧密度和外部紧密度:
表5
候选片段 | 内部紧密度 | 外部紧密度 |
我是歌手 | 0.841 | 0.563 |
歌手总决赛 | 0.779 | 0.826 |
歌手 | --- | 0.826 |
从表5可以得出,虽然候选片段“歌手总决赛”的内部紧密度很高,但是其外部紧密度也比较高,说明该候选片段的两侧有可能和前后关键词组成紧密的片段,表明该候选片段并不是一个很完整的片段。因此,通过计算查询语句的各个候选片段的内部紧密度和外部紧密度,可以得出哪些候选片段是能够完整表达语义的片段。
S33、根据所述相似度因子与所述重要度因子,利用训练得到的相关性模型确定该候选片段与所述查询语句的相关性概率。
本步骤中,在基于步骤S31和S32确定出各个候选片段的相似度因子和重要度因子后,可以将各个候选片段的相似度因子和重要度因子输入到训练得到的相关性模型中,该相关性模型的输出结果即为各个候选片段与查询语句的相关性概率。若相关性模型是利用训练样本对逻辑回归模型训练得到的,则候选片段的相似度因子和重要度因子输入到训练得到的逻辑回归模型,逻辑回归模型的输出结果即为候选片段与查询语句的相关性概率。
较佳地,在执行步骤S21之后,以及执行步骤S22之前,还包括:
确定该候选片段的相关性概率不小于相关性概率阈值。
具体实施时,在确定出查询语句的各个候选片段的相关性概率之后,可以对各个候选片段进行筛选,将相关性概率小于相关性概率阈值的候选片段进行剔除,即不执行后续过程,因为相关性概率比较小,表明候选片段与查询语句的相似度较低,利用该候选片段进行查询得到的召回文档一般不能满足用户需求,将这些候选片段剔除之后也不会影响召回结果,同时还提高了查询效率。
S22、基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率。
本步骤中,对于一些搜索资源丰富度不高的搜索引擎,如微信搜索相对于网页搜索,其资源丰富度不够高,对于一些查询语句往往查询结果为空或者召回的文档的相关性很差,相关性模型计算出来的相关性概率比较高的候选片段并不一定就有很好的查询结果,因此本发明引入了后验召回质量模型,以便相关性概率比较高的候选片段进行验证和对于相关性概率一般的候选片段进行调整,避免最终确定出的候选片段影响查询结果。本发明从候选片段召回文档的数量和召回文档的相关性来评判各个候选片段。
本发明中的后验召回质量模型,从召回文档数量和召回文档相关性出发,人工标注了较多的训练样本,每个样本都有“高质量:1”和“低质量:0”两种选择,然后利用这些训练样本对后验召回质量模型进行训练。优选地,本发明中的后验召回质量模型可以但不限于为gbdt模型、pooling-only的CNN模型和CNN模型等,以下详细介绍之:
以后验召回质量模型为gbdt模型进行说明,针对查询语句得到的所有候选片段,均可以按照图10a所示的方法确定候选片段的后验召回质量概率,包括以下步骤:
S81、确定候选片段的召回文档。
本步骤中,将候选片段输入至RBU中,RBU返回的结果即为候选片段的召回文档。
S82、从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征。
其中,所述关联性特征用于表征该候选片段与召回文档的关联性。
具体地,可以按照现有的特征提取模型从召回文档中提取文档特征,例如可以利用CNN算法从候选片段的召回文档中提取文档特征,记为Doc特征,Doc特征可以参考图10b所示。对于候选片段与召回文档的关联性特征,需要将召回文档进行深度语义匹配模型(Deep Semantic Similarity Model,DSSM)处理得到各个召回文档的分数,然后基于这些分数执行top-n的max/min/avg等,比如top_3_max_dssm_score,表示计算前3个召回文档doc中的dssm最大得分。例如,候选片段为q,该候选片段的召回文档分别为d1,d2,d3,d4,d5,……,d10,这些召回文档输入至dssm模型后得到的分数分别为s1,s2,s3,s4,s5,……,s10,若计算top_5的max/min/avg,则可以表示为:
top_5_max_dssm_score(q)=max(s1,s2,s3,s4,s5);
top_5_min_dssm_score(q)=min(s1,s2,s3,s4,s5);
top_5_avg_dssm_score(q)=(s1+s2+s3+s4+s5)/5;
由此即可得到关联性特征,记为Query-Doc特征,参考图10b所示,当然还可以采集其他的特征作为Query-Doc特征,具体可以根据实际情况而定。
S83、从候选片段中提取片段特征。
本步骤中,可以利用现有的特征提取方法提取候选片段的片段特征,记为Query特征,参考图10b所示。
S84、根据所述文档特征、所述关联性特征和所述片段特征,利用梯度提升决策树模型确定候选片段的后验召回质量概率。
具体地,可以将Doc特征、Query特征和Query-Doc特征进行合并处理,然后输入到训练得到的梯度提升决策树模型中,该梯度提升决策树模型的输出结果即为候选片段的后验召回质量概率,可以参考图10c所示的确定后验召回质量概率的示意图。本发明从Query侧,Doc侧和Query-Doc侧引入相应的特征,其中,Query-Doc特征是排序阶段使用的一些排序因子。
需要说明的是,本发明步骤S81和S83之间没有先后执行顺序,可以同时执行,实际过程中可能存在不同的模块来执行这两个步骤。
值得注意的是,gbdt模型对于高低质量候选片段之间有一定的区分度,但同是高质量的候选片段并不是太有区分度,比如,利用gbdt模型确定出的候选片段“河源第二中学”的后验召回质量概率为0.921,利用gbdt模型确定出的候选片段“王者荣耀”的后验召回质量概率为0.938,但实际上候选片段“王者荣耀”的后验召回质量概率要远高于候选片段“河源第二中学”的后验召回质量概率才是比较合理的,其原因可能是人工计算的top_n的max/min/avg特征粒度太粗。为了解决这一问题,本发明提出了采用pooling-only CNN算法来确定后验召回质量概率,具体可以按照图11a所示的方法确定该候选片段的后验召回质量概率,包括以下步骤:
S91、确定候选片段的召回文档。
具体可以参考步骤S81的实施过程,在此不再赘述。
S92、从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征。
其中所述关联性特征用于表征该候选片段与召回文档的关联性。
可以参考步骤S82的实施过程,在此不再赘述。
S93、将所述关联性特征构成的特征矩阵进行第一设定次数的池化处理得到特征向量。
具体地,针对每一次池化处理,可以将关联性特征构成的特征矩阵进行下采样以实现降维目的,例如关联性特征构成的特征矩阵为8*8的矩阵,执行第一次下采样处理后可能会得到4*4的矩阵,以使执行次数达到第一设定次数后的下采样处理后,得到关联性特征对应的一维向量。
S94、从候选片段中提取片段特征。
具体可以参考步骤S83的描述,在此不再赘述。
S95、将所述文档特征构成的特征向量、基于关联性特征得到的特征向量和所述片段特征构成的特征向量进行全连接处理得到候选片段的后验召回质量概率。
本步骤中,由于文档特征和片段特征构成的特征向量均为一维向量,而基于关联性特征得到的特征向量也是一维的,则可以执行全连接处理,可以得到候选片段的后验召回质量概率,可以参考图11b采用pooling-only CNN算法来确定后验召回质量概率的流程图。
需要说明的是,本发明中的第一设定次数可以根据实际情况而定。
需要说明的是,本发明步骤S91和S94之间没有先后执行顺序,可以同时执行,实际过程中可能存在不同的模块来执行这两个步骤。
优选地,还可以利用CNN算法来确定候选片段的召回质量概率,参考图11c所示,即需要利用下述过程替代步骤S93,即:利用所述相关性特征构成的特征矩阵和卷积核,确定执行第二设定次数的卷积处理后得到的特征向量,其他过程参考图11a所示的流程,在此不再详细描述。
本步骤中,针对每一次卷积处理,可以按照下述方法执行:
以执行第N次卷积处理为例进行说明,执行过程如下:
首先,对第N-1次卷积处理得到的卷积矩阵执行下采样处理,得到第N次卷积对应的下采样矩阵。
其次,利用第N个卷积核对第N次卷积对应的下采样矩阵执行第N次卷积处理得到第N次卷积处理的卷积矩阵;
其中,N介于2与第二设定次数之间,当N为2时,第1次卷积处理得到的卷积矩阵为利用第一个卷积核对所述特征矩阵执行卷积处理得到的;当N等于第二设定次数时,第N次卷积处理得到第N次卷积处理的卷积矩阵即为上述特征向量。
需要说明的是,本发明中的第二设定次数可以根据经验值确定,执行每次卷积的卷积核的参数为预先配置的,各个卷积核可以相同也可以不同,可以根据实际而定。
采用CNN模型确定后验召回质量概率时,加入了卷积操作,通过执行卷积操作可以学习到不同排序位置对召回质量的影响。
至此,利用梯度提升决策树模型、pooling-only CNN模型或CNN模型即可确定出候选片段的后验召回质量概率。
较佳地,在进行查询时,查询场景有很多突发热点,伴随着会产生很多新词和热词出现。比如,查询语句“跳一跳小游戏”,“跳一跳”是一个新词,在确定用于进行查询的片段时,大部分特征都缺失或者很低,造成根据输出结果必留“小游戏”而丢弃“跳一跳”。为了解决这一问题,在执行步骤S22之后,还包括:
利用热词和/或新词的历史统计数据,确定该候选片段包含的热词和/或新词的时新性值;
具体地,基于新词和/或热词的历史统计数据,确定候选片段中是否包含热词和/或新词,在确定出候选片段包含热词和/新词时,确定这些词的时新性值。
在确定出候选片段只包含热词时,则根据该热词被点击次数确定该热词所属的时新性值为该候选片段包含该热词的时新性值;同样若候选片段只包含新词,则确定该新词的时新性值为候选片段包含该新词的时新性值;若候选片段中既包含热词又包含新词,则可以将该热词的时新性值和新词的时新性值进行叠加处理,叠加结果作为候选片段包含新词和热词的时新性值。
当然,还可以采用其他方法来确定新词和/或热词的时新性值,本发明对此不进行限定。
需要说明的是,本发明步骤S21和S22之间没有先后执行顺序,可以同时执行,实际过程中可能存在不同的模块来执行这两个步骤。
S23、根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率。
本步骤中,若确定出候选片段的相关性概率和后验召回质量概率后,可以将这两个概率的乘积确定为该候选片段的置信概率,用公式表示为:f_comb=f_relevance*f_quality。
由此可以按照步骤S21~S23所示的方法确定出基于查询语句得到的所有候选片段的置信概率。
较佳地,若确定出候选片段包含的热词和/或新词的时新性值,则根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率,具体包括:
确定所述相关性概率、所述后验召回质量概率和所述时新性值的乘积为该候选片段的置信概率。
本步骤中,将相关性概率、后验召回质量概率和时新性值的乘积确定为候选片段的置信概率,用公式表示为:f_comb=f_relevance*f_quality*f_ins。通过将候选片段包含的新词和/或热词的时新性值来影响候选片段的置信概率,这样可以弥补QRW词典更新不及时的问题,使得最终确定出的用于查询的候选片段的查询结果的准确性更高,更能够满足用户的实际需求。
S13、根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。
本步骤中,在确定出查询语句的所有候选片段的置信概率时,可以利用置信概率最大的候选片段进行查询并得到查询结果(召回文档),然后再利用查询请求中的查询语句进行查询,同样可以得到查询结果,然后将这两个查询结果进行合并,并将合并后的结果确定为所述查询语句的最佳查询结果,再将该最佳查询结果显示给用户。具体地,若利用查询语句进行查询得到的查询结果为空,则表明利用置信概率最大的候选片段进行查询得到的查询结果即为查询语句的最佳查询结果;若利用查询语句进行查询得到的查询结果不为空,如有5篇召回文档,然后利用置信概率最大的候选片段进行查询得到的查询结果有10篇召回文档,则可以先进行去重处理,即确定是否有相同的召回文档,若有则相同的召回文档只保留一篇,例如去重后得到14篇召回文档,则按照现有的方法进行排序处理,得到最终向用户展示的最佳查询结果。
这样,最终确定出的用于进行查询的候选片段既与查询语句的相关性较高,又具有较大的召回能力,从而基于该候选片段获得较多的召回文档,且获得的召回文档相关性较高,也就使得确定出的查询结果的准确性更高,更能够满足用户的实际需求。此外,本发明根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用查询语句进行查询得到的查询结果,确定查询语句的最佳查询结果,这样得到的查询结果既保留了基于查询语句得到的查询结果,也附加了候选片段的查询结果,从而使得最终得到的最佳查询结果准确度更高。
较佳地,在基于相关性模型和后验召回质量模型确定出各个候选片段的相关性概率和后验召回质量概率后,可以设置一个置信概率阈值,若确定出至少两个候选片段的相关性概率和后验召回质量概率均大于该置信概率阈值时,则可以比较所述至少两个候选片段包含的关键词的个数,并将包含关键词个数最多的候选片段确定为进行查询的片段,然后再执行步骤S13的过程得到查询语句的最佳查询结果。而上述置信概率阈值的设定可以根据实际情况而定。
服务器12在确定出最佳查询结果后,将最佳查询结果通过用户设备11的客户端展示给用户10。若用户设备10本身具有查询功能,则可以直接将最终得到的最佳查询结果展示给用户10。
下面给出如何使用相关性概率和后验召回质量概率的例子:
在查询语句“寂静法师是传销组织吗?”中,表6给出了该查询语句的若干个候选片段的相关性概率和后验召回质量概率:
表6
候选片段 | 相关性概率 | 后验召回质量概率 | 置信概率 |
寂静法师传销 | 1.0 | 0.033 | 0.033 |
寂静法师 | 0.877 | 0.978 | 0.858 |
法师 | 0.512 | 0.972 | 0.498 |
从表6可以看出,“寂静法师传销”的相关性概率最大,表明该候选片段与查询语句最相关,但后验召回质量概率非常小,且该候选片段的置信概率为0.033。而候选片段“寂静法师”的相关性概率和后验召回质量概率都比较大,且置信概率为0.858,候选片段“法师”的相关性概率较小,得出的置信概率为0.498。此情况下,丢弃相关性虽然高但后验召回质量很差的片段,如可以确定候选片段中置信概率最大的候选片段,并将置信概率最大的候选片段(即:寂静法师)作为查询片段,然后根据利用该候选片段进行查询得到的查询结果与利用查询语句(寂静法师是传销组织吗?)进行查询得到的查询结果,确定查询语句(寂静法师是传销组织吗?)的最佳查询结果。
在查询语句“中国电信国际漫游开通”中,表7给出了若干个候选片段的相关性概率和后验召回质量概率:
表7
候选片段 | 相关性概率 | 后验召回质量概率 | 置信概率 |
国际漫游 | 1.0 | 0.945 | 0.945 |
中国电信国际漫游 | 0.979 | 0.902 | 0.883 |
电信国际漫游 | 0.541 | 0.985 | 0.518 |
从表7可以看出,候选片段“国际漫游”的相关性概率和后验召回质量概率都是最大的,相应置信概率也是最大的,而候选片段“中国电信国际漫游”的相关性概率和后验召回质量概率也是比较大的,而且该候选片段包含的关键词最多,此时,可以将满足一定后验召回质量概率的情况下,尽可能的少丢次,在此条件下选取包含关键词较多的候选片段进行查询,将该查询结果与利用查询语句进行查询得到的查询结果进行合并处理,并将合并后的查询结果作为查询语句的查询结果,具体可以将大于置信概率阈值的候选片段挑选出来,然后将包含关键词最多的候选片段作为查询片段,利用该候选片段(中国电信国际漫游)进行查询。
本发明提供的数据查询方法,在获取到查询请求中的查询语句后,可以根据预先训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,并根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。此外,本发明中利用相关性模型和后验召回质量模型确定候选片段的置信概率,并将置信概率满足筛选条件的查询结果作为查询语句的查询结果,相关性模型可以评价候选片段与查询语句的相关性,后验召回质量模型可以评价候选片段的召回文档的能力,基于此,利用置信概率满足筛选条件的候选片段进行查询,不仅得到的召回文档数量高而且召回文档的相关性也较大,从而保证了查询结果的相关度。此外,本发明根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用查询语句进行查询得到的查询结果,确定查询语句的最佳查询结果,这样得到的查询结果既保留了基于查询语句得到的查询结果,也附加了候选片段的查询结果,从而使得最终得到的最佳查询结果准确度更高。
基于同一发明构思,本发明实施例中还提供了一种数据查询装置,由于上述装置解决问题的原理与数据查询方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图12所示,为本发明实施例提供的数据查询装置的结构示意图,包括:
获取单元101,用于获取查询请求中的查询语句;
第一确定单元102,用于基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,其中,所述至少一个候选片段由所述查询语句中至少一个的关键词构成的;
第二确定单元103,用于根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。
较佳地,所述第一确定单元102,具体用于针对每一候选片段,基于训练得到的相关性模型,确定该候选片段与所述查询语句的相关性概率;并基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率;根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率。
优选地,所述装置,还包括:
第三确定单元,用于在所述第一确定单元基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之前,确定该候选片段的相关性概率不小于相关性概率阈值。
优选地,所述装置,还包括:
第四确定单元,用于在所述第一确定单元基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之后,利用热词和/或新词的历史统计数据,确定该候选片段包含的热词和/或新词的时新性值;
所述第一确定单元102,具体用于确定所述相关性概率、所述后验召回质量概率和所述时新性值的乘积为该候选片段的置信概率。
较佳地,所述第一确定单元102,具体用于确定该候选片段与所述查询语句的相似度因子;确定该候选片段在所述查询语句中的重要度因子;根据所述相似度因子与所述重要度因子,利用训练得到的相关性模型确定该候选片段与所述查询语句的相关性概率。
优选地,所述相似度因子至少包括以下一项:候选片段与所述查询语句的字面相关度、语料库中包含候选片段的文档的共点击次数和候选片段与所述查询语句在意图上的语义相似度。
优选地,所述重要度因子至少包括以下一项:候选片段的逆文档频率、候选片段的点击率预测CTR值和候选片段的片段紧密度。
可选地,所述第一确定单元102,具体用于按照下述方法确定候选片段与所述查询语句在意图上的语义相似度:确定所述查询语句在各个大类意图中的分布概率;确定所述候选片段在各个大类意图中的分布概率;将所述查询语句在各个大类意图中的分布概率构成的向量与所述候选片段在各个大类意图中的分布概率构成的向量进行余弦相似度计算,并将计算结果确定为所述候选片段与所述查询语句在意图上的语义相似度。
可选地,所述第一确定单元102,具体用于按照下述方法确定候选片段的逆文档频率:确定语料库中文档总数;并分别确定候选片段中的关键词紧邻出现在文档中的文档数量和候选片段中的关键词非紧邻出现在文档中的文档数量;根据所述文档总数、所述候选片段中的关键词紧邻出现在文档中的文档数量和所述候选片段中的关键词非紧邻出现在文档中的文档数量,确定候选片段的逆文档频率。
优选地,所述片段紧密度包括内部紧密度和外部紧密度,以及
所述第一确定单元102,具体用于按照下述方法确定候选片段的内部紧密度:确定所述候选片段中相邻关键词之间的紧密度;将确定出的相邻关键词之间的紧密度的平均值确定为所述候选片段的内部紧密度;以及按照下述方法确定候选片段的外部紧密度:确定所述查询语句中与所述候选片段中第一个关键词相邻且不属于所述候选片段的第一临时关键词;以及确定所述查询语句中与所述候选片段中最后一个关键词相邻且不属于所述候选片段的第二临时关键词;确定所述第一个关键词与所述第一临时关键词之间的第一紧密度;并确定所述最后一个关键词与所述第二临时关键词之间的第二紧密度;确定所述第一紧密度与所述第二紧密度中的最大值为所述候选片段的外部紧密度。
优选地,所述相关性模型为逻辑回归模型、梯度提升决策树模型、支持向量机SVM模型和贝叶斯模型中的一种。
较佳地,所述第一确定单元102,具体用于确定该候选片段的召回文档;并从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;从该候选片段中提取片段特征;根据所述文档特征、所述关联性特征和所述片段特征,利用梯度提升决策树模型确定该候选片段的后验召回质量概率。
优选地,所述第一确定单元102,具体用于确定该候选片段的召回文档;并从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;以及将所述关联性特征构成的特征矩阵进行第一设定次数的池化处理得到特征向量,或者利用所述相关性特征构成的特征矩阵和卷积核,确定执行第二设定次数的卷积处理后得到的特征向量;以及从该候选片段中提取片段特征;将所述文档特征构成的特征向量、基于关联性特征得到的特征向量和所述片段特征构成的特征向量进行全连接处理得到该候选片段的后验召回质量概率。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本发明示例性实施方式的数据查询方法、系统和可读介质之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述描述的根据本发明各种示例性实施方式的数据查询方法中的步骤。例如,所述处理单元可以执行如图3所示的步骤S11~S13中数据查询流程。
下面参照图13来描述根据本发明的这种实施方式的计算装置110。图13显示的计算装置110仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图13所示,计算装置110以通用计算设备的形式表现。计算装置110的组件可以包括但不限于:上述至少一个处理单元111、上述至少一个存储单元112、连接不同系统组件(包括存储单元112和处理单元111)的总线113。
总线113表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元112可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1121和/或高速缓存存储器1122,还可以进一步包括只读存储器(ROM)1123。
存储单元112还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置11也可以与一个或多个外部设备114(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置11交互的设备通信,和/或与使得该计算装置11能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口115进行。并且,计算装置11还可以通过网络适配器116与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器116通过总线113与用于计算装置11的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置11使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的数据查询方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的数据查询方法中的步骤,例如,所述计算机设备可以执行如图3所示的步骤S11~S13中数据查询流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于数据查询方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (15)
1.一种数据查询方法,其特征在于,包括:
获取查询请求中的查询语句;
基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,其中,所述至少一个候选片段由所述查询语句中至少一个的关键词构成的;并
根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。
2.如权利要求1所述的方法,其特征在于,基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,具体包括:
针对每一候选片段,基于训练得到的相关性模型,确定该候选片段与所述查询语句的相关性概率;并
基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率;
根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率。
3.如权利要求2所述的方法,其特征在于,在基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之前,还包括:
确定该候选片段的相关性概率不小于相关性概率阈值。
4.如权利要求3所述的方法,其特征在于,在基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率之后,还包括:
利用热词和/或新词的历史统计数据,确定该候选片段包含的热词和/或新词的时新性值;以及
根据所述相关性概率与所述后验召回质量概率,确定该候选片段的置信概率,具体包括:
确定所述相关性概率、所述后验召回质量概率和所述时新性值的乘积为该候选片段的置信概率。
5.如权利要求2、3或4所述的方法,其特征在于,基于训练得到的相关性模型,确定该候选片段与所述查询语句的相关性概率,具体包括:
确定该候选片段与所述查询语句的相似度因子;
确定该候选片段在所述查询语句中的重要度因子;
根据所述相似度因子与所述重要度因子,利用训练得到的相关性模型确定该候选片段与所述查询语句的相关性概率。
6.如权利要求5所述的方法,其特征在于,所述相似度因子至少包括以下一项:候选片段与所述查询语句的字面相关度、语料库中包含候选片段的文档的共点击次数和候选片段与所述查询语句在意图上的语义相似度。
7.如权利要求5所述的方法,其特征在于,所述重要度因子至少包括以下一项:候选片段的逆文档频率、候选片段的点击率预测CTR值和候选片段的片段紧密度。
8.如权利要求6所述的方法,其特征在于,按照下述方法确定候选片段与所述查询语句在意图上的语义相似度:
确定所述查询语句在各个大类意图中的分布概率;
确定所述候选片段在各个大类意图中的分布概率;
将所述查询语句在各个大类意图中的分布概率构成的向量与所述候选片段在各个大类意图中的分布概率构成的向量进行余弦相似度计算,并将计算结果确定为所述候选片段与所述查询语句在意图上的语义相似度。
9.如权利要求7所述的方法,其特征在于,按照下述方法确定候选片段的逆文档频率:
确定语料库中文档总数;并
分别确定候选片段中的关键词紧邻出现在文档中的文档数量和候选片段中的关键词非紧邻出现在文档中的文档数量;
根据所述文档总数、所述候选片段中的关键词紧邻出现在文档中的文档数量和所述候选片段中的关键词非紧邻出现在文档中的文档数量,确定候选片段的逆文档频率。
10.如权利要求7所述的方法,其特征在于,所述片段紧密度包括内部紧密度和外部紧密度,以及按照下述方法确定候选片段的内部紧密度:
确定所述候选片段中相邻关键词之间的紧密度;
将确定出的相邻关键词之间的紧密度的平均值确定为所述候选片段的内部紧密度;以及
按照下述方法确定候选片段的外部紧密度:
确定所述查询语句中与所述候选片段中第一个关键词相邻且不属于所述候选片段的第一临时关键词;以及
确定所述查询语句中与所述候选片段中最后一个关键词相邻且不属于所述候选片段的第二临时关键词;
确定所述第一个关键词与所述第一临时关键词之间的第一紧密度;并
确定所述最后一个关键词与所述第二临时关键词之间的第二紧密度;
确定所述第一紧密度与所述第二紧密度中的最大值为所述候选片段的外部紧密度。
11.如权利要求1所述的方法,其特征在于,所述相关性模型为逻辑回归模型、梯度提升决策树模型、支持向量机SVM模型和贝叶斯模型中的一种。
12.如权利要求1所述的方法,其特征在于,基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率,具体包括:
确定该候选片段的召回文档;并
从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;
从该候选片段中提取片段特征;
根据所述文档特征、所述关联性特征和所述片段特征,利用梯度提升决策树模型确定该候选片段的后验召回质量概率。
13.如权利要求1所述的方法,其特征在于,基于训练得到的后验召回质量模型,确定该候选片段的后验召回质量概率,具体包括:
确定该候选片段的召回文档;并
从确定出的召回文档中提取文档特征,并根据确定出的召回文档确定关联性特征,其中所述关联性特征用于表征该候选片段与召回文档的关联性;以及
将所述关联性特征构成的特征矩阵进行第一设定次数的池化处理得到特征向量,或者利用所述关联性特征构成的特征矩阵和卷积核,确定执行第二设定次数的卷积处理后得到的特征向量;以及
从该候选片段中提取片段特征;
将所述文档特征构成的特征向量、基于关联性特征得到的特征向量和所述片段特征构成的特征向量进行全连接处理得到该候选片段的后验召回质量概率。
14.一种数据查询装置,其特征在于,包括:
获取单元,用于获取查询请求中的查询语句;
第一确定单元,用于基于训练得到的相关性模型和后验召回质量模型,确定至少一个候选片段的置信概率,其中,所述至少一个候选片段由所述查询语句中至少一个的关键词构成的;
第二确定单元,用于根据利用置信概率满足筛选条件的候选片段进行查询得到的查询结果和利用所述查询语句进行查询得到的查询结果,确定所述查询语句的最佳查询结果。
15.一种计算机可读介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至13任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810344075.XA CN108733766B (zh) | 2018-04-17 | 2018-04-17 | 一种数据查询方法、装置和可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810344075.XA CN108733766B (zh) | 2018-04-17 | 2018-04-17 | 一种数据查询方法、装置和可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108733766A CN108733766A (zh) | 2018-11-02 |
CN108733766B true CN108733766B (zh) | 2020-10-02 |
Family
ID=63938967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810344075.XA Active CN108733766B (zh) | 2018-04-17 | 2018-04-17 | 一种数据查询方法、装置和可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733766B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020096B (zh) * | 2017-07-24 | 2021-09-07 | 北京国双科技有限公司 | 基于查询的分类器训练方法和装置 |
CN111327945B (zh) * | 2018-12-14 | 2021-03-30 | 北京沃东天骏信息技术有限公司 | 用于分割视频的方法和装置 |
CN109977292B (zh) * | 2019-03-21 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 搜索方法、装置、计算设备和计算机可读存储介质 |
CN110134799B (zh) * | 2019-05-29 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于bm25算法的文本语料库的搭建和优化方法 |
CN110377817B (zh) * | 2019-06-13 | 2022-10-18 | 百度在线网络技术(北京)有限公司 | 搜索词条挖掘方法和装置及其在多媒体资源的应用 |
CN111324701B (zh) * | 2020-02-24 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 内容补充方法、装置、计算机设备和存储介质 |
CN111353301B (zh) * | 2020-02-24 | 2023-07-21 | 成都网安科技发展有限公司 | 辅助定密方法及装置 |
CN111475409B (zh) * | 2020-03-30 | 2023-06-30 | 深圳追一科技有限公司 | 系统测试方法、装置、电子设备以及存储介质 |
CN111563158B (zh) * | 2020-04-26 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 文本排序方法、排序装置、服务器和计算机可读存储介质 |
CN113641783B (zh) * | 2020-04-27 | 2024-07-19 | 北京庖丁科技有限公司 | 基于关键语句的内容块检索方法、装置、设备和介质 |
CN111581545B (zh) * | 2020-05-12 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种召回文档的排序方法及相关设备 |
CN111881170B (zh) * | 2020-07-14 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 时效性查询内容字段挖掘方法、装置、设备和存储介质 |
CN114626356B (zh) * | 2020-12-08 | 2024-08-30 | 腾讯科技(深圳)有限公司 | 文章特征生成方法、装置、设备和存储介质 |
CN112836085A (zh) * | 2021-02-08 | 2021-05-25 | 深圳市欢太科技有限公司 | 一种权重调整方法及装置、存储介质 |
CN113360537B (zh) * | 2021-06-04 | 2024-01-12 | 北京百度网讯科技有限公司 | 信息查询方法、装置、电子设备和介质 |
CN113792136B (zh) * | 2021-08-25 | 2024-06-04 | 北京库睿科技有限公司 | 文本数据多样化推荐式搜索方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364709B1 (en) * | 2010-11-22 | 2013-01-29 | Google Inc. | Determining word boundary likelihoods in potentially incomplete text |
CN104050197B (zh) * | 2013-03-15 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 一种信息检索系统评测方法和装置 |
CN105279252B (zh) * | 2015-10-12 | 2017-12-26 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN107798144A (zh) * | 2017-11-28 | 2018-03-13 | 北京小度互娱科技有限公司 | 一种基于切词的多层次检索方法 |
CN107885875B (zh) * | 2017-11-28 | 2022-07-08 | 北京百度网讯科技有限公司 | 检索词的同义变换方法、装置及服务器 |
-
2018
- 2018-04-17 CN CN201810344075.XA patent/CN108733766B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108733766A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733766B (zh) | 一种数据查询方法、装置和可读介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US20240241918A1 (en) | System, method, and computer program product for automated discovery, curation and editing of online local content | |
US20210089563A1 (en) | Systems and methods for performing a computer-implemented prior art search | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
US10042896B2 (en) | Providing search recommendation | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
US20170228459A1 (en) | Method and device for mobile searching based on artificial intelligence | |
US8332434B2 (en) | Method and system for finding appropriate semantic web ontology terms from words | |
CA2774278C (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
WO2023065211A1 (zh) | 一种信息获取方法以及装置 | |
US8782037B1 (en) | System and method for mark-up language document rank analysis | |
US10535106B2 (en) | Selecting user posts related to trending topics on online social networks | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN102609433A (zh) | 基于用户日志进行查询推荐的方法及系统 | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
Bahamonde et al. | Power structure in Chilean news media | |
CN110688405A (zh) | 基于人工智能的专家推荐方法、装置、终端、及介质 | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
CN106462588B (zh) | 来自所提取的内容的内容创建 | |
US8949254B1 (en) | Enhancing the content and structure of a corpus of content | |
Zhang et al. | SKG-Learning: A deep learning model for sentiment knowledge graph construction in social networks | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |