CN105653562A - 一种文本内容与查询请求之间相关性的计算方法及装置 - Google Patents

一种文本内容与查询请求之间相关性的计算方法及装置 Download PDF

Info

Publication number
CN105653562A
CN105653562A CN201410721370.4A CN201410721370A CN105653562A CN 105653562 A CN105653562 A CN 105653562A CN 201410721370 A CN201410721370 A CN 201410721370A CN 105653562 A CN105653562 A CN 105653562A
Authority
CN
China
Prior art keywords
participle
feature
text
sequence
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410721370.4A
Other languages
English (en)
Other versions
CN105653562B (zh
Inventor
崔保良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410721370.4A priority Critical patent/CN105653562B/zh
Publication of CN105653562A publication Critical patent/CN105653562A/zh
Application granted granted Critical
Publication of CN105653562B publication Critical patent/CN105653562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请涉及互联网领域,公开了一种文本内容与查询请求之间相关性的计算方法及装置,用以提高用户查询效率。该方法为:分别针对每一个文本内容中的各个分词提取其分词特征,基于预设的序关系和分词特征之间的关联关系,分别确定每一个文本内容中各个分词在相应文本内容中的权重,以及在接收到用户查询请求后,确定用户查询中每一个分词的权重,然后,基于用户查询中每一个分词的权重和每一个文本内容中各个分词在相应文本内容中的权重,计算用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。这样,更准确反映分词在文本内容中的重要程度,进而提高用户的搜索效率,提升系统的服务性能。

Description

一种文本内容与查询请求之间相关性的计算方法及装置
技术领域
本申请涉及互联网领域,特别涉及一种文本内容与查询请求之间相关性的计算方法及装置。
背景技术
目前,对网站中文本内容与搜索关键词的相关性主要依靠类目预测和文本相关性来进行相关性分析的。不同的文本内容在上传至网站时放在不同的类目下,但类目预测的粒度较粗,另外,文本相关性的作用较弱。
用户在网站中进行文本内容搜索时,每进行一次查询,系统都会反馈一个用于表征查询结果的文本内容集合,如何把和用户意图最相关的文本内容排在前面,文本相关性是一个主要的指标,所以,迫切需要提升文本相关性在基础相关性计算中的重要程度。
现有技术中,文本相关性用来衡量用户查询(称为query)与网站中文本内容(以下简称文本内容或title)的文本匹配程度,一种常见的实现方式是向量空间模型,具体为:将用户查询和文本内容看成文档,将文档表示为文档空间的向量,向量的每一维代表一个分词单元(称为一个term),值为这个分词单元在文档中的权重,通过计算用户查询向量和文本内容向量的相似度来衡量用户查询和文本内容的相关性,相似度计算方法可以为内积或余弦距离等。
下面介绍现有技术中两种实现方案,一种实现方案为,在每个分词单元上附上一个属性标签,每一个标签对应一个权重值,根据这个权重值计算用户查询向量和文本内容向量的相似度,从而来衡量用户查询和文本内容的相关性。
这种实现方案的缺陷为:如果两种或两种以上的分词单元附着的属性标签相同,那么就会具有相同权重,导致无法区分这些分词单元的相对重要程度。
另一种实现方案为基于关键词的行为聚合方法:基于用户查询时在搜索对象上的点击、展现以及确认行为,用统计的方法计算搜索对象在不同关键词下与用户意图匹配的程度。
这种实现方案的缺陷为:只能针对具有丰富行为的搜索对象,即热门搜索的搜索对象,才能计算搜索对象在不同关键词下与用户意图匹配的程度,但对于没有行为的搜索对象而言,无法用统计的方法计算,只能用同类目下的相关搜索对象的行为泛化处理,也就是说,没有行为的搜索对象在不同关键词下与用户意图匹配的程度可以等同于同类目下的相关搜索对象在不同关键词下与用户意图匹配的程度,这样,没有行为或者行为程度较低的搜索对象在不同关键词下与用户意图匹配的程度的准确度就不能保证。
另外,在文本内容中,每个分词单元之间被认为是孤立的,例如,文本内容中含有“黄瓜切片器”,其中,“黄瓜”和“切片器”两个分词单元中,“黄瓜”这个分词单元的行为统计权重很大,这样,在基于行为的这种实现方案中,搜索“黄瓜”时就有可能把这类不相关的搜索对象排在前面,与用户意图不匹配,所以这种实现方案不适合解决文本相关性在基础相关性中重要程度的问题。
发明内容
本申请实施例提供一种文本内容与查询请求之间相关性的计算方法及装置,用以解决用户查询与搜索对象之间的文本相关性问题。
本申请实施例提供的具体技术方案如下:
一种文本内容与查询请求之间相关性的计算方法,包括:
分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,所述分词特征用于表征相应分词基于不同维度在文本内容中的重要程度;
基于预设的序关系和分词特征之间的第一关联关系,根据所述每一个文本内容中的每一个分词的分词特征,确定各个分词在相应文本内容中的权重,所述序关系用于表征每一个文本内容中各个分词之间基于预设评估规则所呈现的重要程度的排序;
接收到用户查询请求后,对所述用户查询进行分词划分,以及基于预设的序关系和分词特征之间的第二关联关系,根据所述用户查询中每一个分词的分词特征,确定所述用户查询中每一个分词的权重;
基于所述用户查询中每一个分词的权重和所述每一个文本内容中各个分词在相应文本内容中的权重,计算所述用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。
这样,能够对文本内容中每个分词估计一个准确的权重,更准确反映每个分词在文本内容中的重要程度,进而在用户进行查询时,更准确有效的显示各个文本内容对应搜索对象的排序,提高用户的搜索效率,提高系统的服务性能。
较佳地,在确定每一个文本内容中各个分词的分词特征之前,进一步包括:
基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第一关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
较佳地,在确定每一个用户查询中各个分词的分词特征之前,进一步包括:
基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第二关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
较佳地,一条训练数据中包含的各个分词之间的序关系包括以下的一种或任意组合:
同义序关系,用于表征至少两个词义相同的分词的序关系,其中,具有同义关系的至少两个分词的序关系相同;
属性序关系,用于表征预设的分词属性的重要程度从高到低的排序;
支配关系序关系,用于表征根据分词之间的基于支配关系确定的排序;
搜索命中序关系,用于表征分词在搜索过程中基于命中程度的排序,其中,命中的分词的序关系高于未命中的分词的序关系,所述命中是指出现在用户查询中的分词同时出现在用户最终点击的文本内容中;
命中频率序关系,用于表征分词在命中分词集合内的出现频率从高到底的顺序;
详情页检验序关系,用于表征分词在搜索过程中基于验证程度的排序,其中,得到验证的分词的重要程度高于未得到验证的分词的重要程度,所述验证是指出现在用户查询的分词同时出现在用户最终浏览的网页页面的详细信息中。
较佳地,进一步包括:
确定各个分词之间的序关系过程中,若基于不同的序关系,各个分词之间的重要程度的排序不一致时,则选择优先级高的序关系表征的排序方式,其中,各个序关系的优先级由高到低的顺序为:同义序关系、属性序关系、支配关系序关系、搜索命中序关系、命中频率序关系、详情页检验序关系。
较佳地,一条训练数据中包含的各个分词的分词特征包括以下的一种或任意组合:
类目维度序分数特征,用于表征分词在各个类目下的重要程度评估值;
隐向量特征,用于表征分词的文字表述意义;其中,不同的隐向量通过预设方式对应不同的文字内容;
统计特征,用于表征分词在各个类目下基于统计维度的重要程度;
词频-逆向文件频率特征,用于表征分词在选定的分词集合中的出现频率和重要程度;
属性特征,用于表征分词属性,不同的分词属性对应不同的重要程度。
较佳地,基于预设的序关系和分词特征之间的第一关联关系,根据一个文本内容中的每一个分词的分词特征,确定各个分词在所述一个文本内容中的权重,包括:
根据第一关联关系表征的分词特征的权重向量,与所述一个文本内容中的每一个分词的分词特征向量分别进行点乘计算,以获得所述一个文本内容中的各个分词的权重。
较佳地,基于预设的序关系和分词特征之间的第二关联关系,根据一个用户查询中的每一个分词的分词特征,确定各个分词在所述一个用户查询中的权重,包括:
根据第二关联关系表征的分词特征的权重向量,与所述一个用户查询中的每一个分词的分词特征向量分别进行点乘计算;以获得所述一个用户查询中的各个分词的权重。
一种文本内容与查询请求之间相关性的计算装置,包括:
提取单元,用于分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,所述分词特征用于表征相应分词基于不同维度在文本内容中的重要程度;以及进一步用于接收到用户查询请求后,对所述用户查询进行分词划分;
第一计算单元,用于基于预设的序关系和分词特征之间的第一关联关系,根据所述每一个文本内容中的每一个分词的分词特征,确定各个分词在相应文本内容中的权重,所述序关系用于表征每一个文本内容中各个分词之间基于预设评估规则所呈现的重要程度的排序;
以及基于预设的序关系和分词特征之间的第二关联关系,根据所述用户查询中每一个分词的分词特征,确定所述用户查询中每一个分词的权重;
第二计算单元,用于基于所述用户查询中每一个分词的权重和所述每一个文本内容中各个分词在相应文本内容中的权重,计算所述用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。
这样,能够对文本内容中每个分词估计一个准确的权重,更准确反映每个分词在文本内容中的重要程度,进而在用户进行查询时,更准确有效的显示各个文本内容对应搜索对象的排序,提高用户的搜索效率,提高系统的服务性能。
较佳地,进一步包括训练单元,用于在确定每一个文本内容中各个分词的分词特征之前,基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第一关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
较佳地,进一步包括训练单元,用于在确定每一个用户查询中各个分词的分词特征之前,基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第二关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
较佳地,所述训练单元使用的一条训练数据中包含的各个分词之间的序关系包括以下的一种或任意组合:
同义序关系,用于表征至少两个词义相同的分词的序关系,其中,具有同义关系的至少两个分词的序关系相同;
属性序关系,用于表征预设的分词属性的重要程度从高到低的排序;
支配关系序关系,用于表征根据分词之间的基于支配关系确定的排序;
搜索命中序关系,用于表征分词在搜索过程中基于命中程度的排序,其中,命中的分词的序关系高于未命中的分词的序关系,所述命中是指出现在用户查询中的分词同时出现在用户最终点击的文本内容中;
命中频率序关系,用于表征分词在命中分词集合内的出现频率从高到底的顺序;
详情页检验序关系,用于表征分词在搜索过程中基于验证程度的排序,其中,得到验证的分词的重要程度高于未得到验证的分词的重要程度,所述验证是指出现在用户查询的分词同时出现在用户最终浏览的网页页面的详细信息中。
较佳地,所述训练单元进一步用于:
确定各个分词之间的序关系过程中,若基于不同的序关系,各个分词之间的重要程度的排序不一致时,则选择优先级高的序关系表征的排序方式,其中,各个序关系的优先级由高到低的顺序为:同义序关系、属性序关系、支配关系序关系、搜索命中序关系、命中频率序关系、详情页检验序关系。
较佳地,所述训练单元使用的一条训练数据中包含的各个分词的分词特征包括以下的一种或任意组合:
类目维度序分数特征,用于表征分词在各个类目下的重要程度评估值;
隐向量特征,用于表征分词的文字表述意义;其中,不同的隐向量通过预设方式对应不同的文字内容;
统计特征,用于表征分词在各个类目下基于统计维度的重要程度;
词频-逆向文件频率特征,用于表征分词在选定的分词集合中的出现频率和重要程度;
属性特征,用于表征分词属性,不同的分词属性对应不同的重要程度。
较佳地,基于预设的序关系和分词特征之间的第一关联关系,根据一个文本内容中的每一个分词的分词特征,确定各个分词在所述一个文本内容中的权重,所述第一计算单元具体用于:
根据第一关联关系表征的分词特征的权重向量,与所述一个文本内容中的每一个分词的分词特征向量分别进行点乘计算,以获得所述一个文本内容中的各个分词的权重。
较佳地,基于预设的序关系和分词特征之间的第二关联关系,根据一个用户查询中的每一个分词的分词特征,确定各个分词在所述一个用户查询中的权重,所述第一计算单元进一步用于:
根据第二关联关系表征的分词特征的权重向量,与所述一个用户查询中的每一个分词的分词特征向量分别进行点乘计算;以获得所述一个用户查询中的各个分词的权重。
附图说明
图1为本发明实施例中序关系有向图;
图2为本发明实施例中文本相关性计算流程图;
图3为本发明实施例中后台服务器结构图。
具体实施方式
为了提高用户查询效率,本申请实施例中,根据分词之间的序关系和分词特征之间的关联关系,确定分词在文本内容中和用户查询中的权重,根据权重计算用户查询与每一个文本内容的文本相关性,获得各个文本内容的显示排序,更准确的反映分词在文本内容中的重要程度,进而提高用户的搜索效率,提升系统的服务性能。
需要说明的是,本申请实施例适用于各类网站中文本内容的搜索,在电子商务搜索引擎的文本内容搜索中效果更佳。
下面结合附图对本申请优选的实施方式进行详细说明。
本申请实施例中,在预处理阶段,首先需要基于训练数据进行建模,以获得各个分词在不同文本内容中的权重。具体过程如下:
首先针对用户查询和文本内容抽取训练数据。
抽取方法有两种,第一种是选用人工标注的样本,这种方法需要耗费很大的人力成本;第二种是从用户行为数据中抽取。本申请采用第二种方法抽取训练数据,抽取过程如下:
确定与用户查询相关的搜索对象。其中,包含两种确定方式:
第一种确定方式:若用户在查询请求对应的搜索结果的引导下对搜索结果中的搜索对象发生了指定行为(例如点击、收藏等操作行为),则可以认为用户查询与搜索对象的文本内容是相关的,即网站中的搜索对象所展示的各种信息被用户获知,并且用户认为该搜索对象与自己的搜索意图一致。
第二种确定方式:若在用户行为数据中对该搜索对象发生的行为丰富(例如该搜索对象被用户点击的次数大于一定阈值),则可以认为该搜索对象的文本内容与用户查询具有相关性。
其中,对于大类目来说,由于其在用户查询请求的引导下发生确认的概率足够大,所以只需要利用第一种判断方式进行判断即可,而对于小类目或者生僻类目来说,在利用第一种判断方式进行判断后,需结合第二种判断方式进一步进行判断。也就是说,两种判断方式可以单独使用,也可以结合使用。
在确认与用户查询相关的搜索对象后,抽取搜索对象的文本内容以及其他属性信息,并对搜索对象对应的详情页的信息结构化处理,进而组成训练数据。其中,一条训练数据包括:文本内容以及对应的结构化信息,和对应的相关用户查询集合。
以上对训练数据的抽取是为了下一步序关系抽取的需要,下面介绍文本内容中所包含的各个分词之间序关系的抽取过程。
对文本内容进行分词后,可得出文本内容中所包含的分词集合,各个分词在文本内容中的相对重要程度可以通过各个分词的序关系表征。
例如,一个文本内容中包含的分词集合表示为:Ttitle={t1,t2,t3,t4},各个分词之间的序关系用R表示。假设抽取到以下关系:R:{t1>t2,t1>t3,t1>t4,t2>t4,t3>t2,t3>t4},那个这个序关系可以用一个有向图表示,如附图1所示,其中,t1>t2用t2到t1的有向边来表征。
根据所得的有向图,利用类似网页排名(称为pagerank)的方式进行迭代,针对每个分词分别计算这个分词在文本内容中重要程度的评估值,其中,pagerank是一种根据网页之间的超链接计算网页的相关性和重要性的技术手段。
参阅图1所示,根据pagerank的方式,指向t1的有向边代表其他分词(即t2、t3、t4)对t1的投票,那么,指向t1的有向边越多,代表t1在文本内容中的重要性相对于其他分词越高。基于这种方式对每个分词计算一个分数(称为score_rank),再根据每一个分词所得的分数对分词进行排序,得到最终的序关系。例如,对于上述关系R:{t1>t2,t1>t3,t1>t4,t2>t4,t3>t2,t3>t4},最终计算结果为:t1:0.51;t2:0.19;t3:0.27;t4:0.15,可得到最终的序关系为t1>t3>t2>t4,以此来表征各个分词在文本内容中的重要程度,即重要程度排名从先到后依次为t1、t2、t3、t4。
上述过程中,Pagerank的方式仅是一种计算相关性和重要性的类似方式,本申请在计算分词在文本内容中重要程度时,方式并不局限于此。
下面具体介绍上述序关系的具体抽取过程。
本申请实施例中,文本内容中各个分词之间的序关系R由至少六种分序关系共同计算而得,也就是,最终所得的序关系R必须同时满足至少六种分序关系的计算方式。其中,六种分序关系用R1~R6表示,优先级顺序(即计算各分序关系的先后顺序)为:R1>R2>R3>R4>R5>R6。下面详细介绍六种分序关系。
(1)R1:同义关系,用于表征至少两个词义相同的分词的序关系,其中,具有同义关系的至少两个分词的序关系相同。
若文本内容中的两种或以上分词为同义词,那么,它们之间享有同样的序关系,而且它们之间对于其他分词的关系是共享的。
例如:t1与t2是同义词,若t1>t3,那么,t2>t3。
(2)R2:属性序关系,用于表征预设的分词属性的重要程度从高到低的排序。
将一个搜索对象包含的基本信息分为三类,分别为:
产品类型:用Tcplx表示,这个信息集合描述了搜索对象属于什么类型;
产品标识(如,品牌/型号):用Tcpbs表示,这个信息集合描述了搜索对象最关键和唯一的属性;
修饰词:用Txsc表示,这个信息集合描述了搜索对象的其他属性,例如:颜色、尺码、风格元素等。
这三类信息的序关系为:Tcplx>Tcpbs>Txsc
(3)R3:支配关系序关系,用于表征根据分词之间的基于支配关系确定的排序。
这类序关系主要针对Tcplx集合,主要分两种关系进行讨论,产品支配关系以及上下位关系。
产品支配关系是指,若两分词之间的关系是t2支配t1,则两分词的序关系为t2>t1。
例如:在一个文本内容中出现水果切片器,t1为水果,t2为切片器,则切片器支配水果,即t2支配t1,则t2(即切片器)在文本内容中的重要程度要高于t1(即水果)在文本内容中的重要程度。
在判断两分词之间的支配关系时,可以利用类目匹配程度来判断,具体地,在用户查询中,若分词c1和分词c2经常一起出现,则可以比较c1和c2词对(记为{c1,c2})与每个分词的类目匹配程度,也就是说,若{c1,c2}类目分布和c2的类目分布匹配大于预设门限,并且,{c1,c2}类目分布和c1的类目分布小于该预设门限,就可以判定c2支配c1。其中,类目匹配程度是指词对和单个分词在同样类目下出现的次数多少,若在同样类目下出现的次数多,就说明词对和单个分词的类目匹配程度大。
另外,判断两分词之间的支配关系,也可以采用统计搜索对象所属类目下的点击行为次数来判断。具体地,同样以{c1,c2}词对为例,在用户查询的数据中,若c1>c2的次数为q1,c2>c1的次数为q2,并且q1/(q1+q2)的值大于设定阈值,则认为c1支配c2。
其中c1>c2是指用户查询过程中{c1,c2}词对同时出现,用户选择了c1确认;c2>c1是指用户查询过程中{c1,c2}词对同时出现,用户选择了c2确认。
上下位关系是指,若两分词之间的关系是t1是t2的上位词,则两分词的序关系为t2>t1。
例如:在一个文本内容中出现连衣裙和女装,t1为女装,t2为连衣裙,则女装为连衣裙的上位词,则t2(即连衣裙)在文本内容中的重要程度要高于t1(即女装)在文本内容中的重要程度。
(4)R4:搜索命中序关系,用于表征分词在搜索过程中基于命中程度的排序,其中,命中的分词的序关系高于未命中的分词的序关系,命中是指出现在用户查询中的分词同时出现在用户最终点击的文本内容中。
对于网页中的某一个文本内容,从训练数据中抽取这个文本内容所有相关的用户查询集合,记为Tquery,对Tquery中每个用户查询进行分词后得到对应的分词集合,将分词集合中用户查询与网页中文本内容发生确认行为的分词生成第一分词集合,记为Thit;将分词集合中用户查询与网页中文本内容未发生确认行为的分词生成第二分词集合,记为Tnohit
这两类分词集合的序关系为:Thit>Tnohit。即用户查询与网页中文本内容发生确认行为的分词在文本内容中的重要程度,要高于未发生确认行为的分词。
(5)R5:命中频率序关系,用于表征分词在命中分词集合内的出现频率从高到底的顺序。
这类序关系主要针对Thit集合,在Thit集合中每个分词都对应一个出现频率,这个频率集合记为ThitFrequency。例如,Thit={t1,t2,t3},对应的频率集合为ThitFrequency={f1,f2,f3},则分词对应的频率越大,分词在文本内容中的重要程度越高,例如,f1=1,f2=1,f3=2,三个分词之间的序关系为{t3>t1,t3>t2}。
这类序关系为:若f1>f2,则t1>t2,即在用户查询与网页中文本内容发生确认行为的分词集合中,分词出现的频率越高,分词在文本内容中的重要程度越高。
(6)R6:详情页检验序关系,用于表征分词在搜索过程中基于验证程度的排序,其中,得到验证(或即形成匹配)的分词的重要程度高于未得到验证的分词的重要程度,所述验证是指出现在用户查询的分词同时出现在用户最终浏览的网页页面的详细信息中。
这类序关系主要针对Tcpbs或/和Txsc集合。搜索对象的品牌/型号和修饰词在网页中的详情页会有相应的描述,对于Tcpbs或/和Txsc集合中的唯一属性,例如品牌、型号、颜色等分词,在详情页中能够形成匹配的集合记为Tcross_check,不能形成匹配的集合记为Tother。其中,形成匹配是指集合中的分词与详情页中的信息描述一致。
这类序关系为:Tcross_check>Tother。即Tcpbs或/和Txsc集合中的分词在详情页中形成匹配的分词在文本内容中的重要程度,要高于在详情页中未形成匹配的分词。
至此,六种分序关系的抽取过程介绍完毕。
下面对分词对应的特征抽取进行详细介绍,分词对应的特征具体介绍如下:
1)类目维度序分数特征,用于表征分词在各个类目下的重要程度评估值。
在训练数据中,针对每一条训练数据,都可以得到一个描述文本内容中分词序关系的有向图,根据所得的有向图,利用类似pagerank的方式进行迭代,针对每个分词分别计算这个分词在文本内容中重要程度的评估值,这个评估值可用一个分数(即score_rank)表征,具体方式参照上述对文本内容中分词序关系抽取过程的描述,在此不再赘述。
对于每一个分词,在每一条训练数据中,都可以得到这个分词在相应文本内容中的分数,在每个类目下,都可能存在包含相同分词的不同文本内容,那么,按照类目维度,同一个分词在不同类目下的文本内容中所得到的分数不同,将每一个类目下相同的分词所得的所有分数进行汇总,并除以文本内容数,得到该分词在这个类目下的平均分数,这样,每一个分词在所有类目都存在一个序分数特征,当然,类目维度序分数越高,代表分词越重要。
2)隐向量特征,用于表征分词的文字表述意义;其中,不同的隐向量通过预设方式对应不同的文字内容,即根据分词的隐向量来描述词本身特征,用二元词隐向量加和刻画上下文。
根据word2vec的方法将文本内容中的每一个分词用一个隐向量表示,把隐向量的每一维离散化之后的数据作为分词本身的一个特征,并且可以用当前分词与前后分词隐向量的加和来刻画上下文信息。
其中,word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。例如,分词“黄金”的隐向量为(a1,a2,…,ak),表示“黄金”这个词在k维空间每一维的分布情况,分词“黄金”前面的分词为“镀”,隐向量为(b1,b2,…,bk),分词“黄金”后面的分词为“贴膜”,隐向量为(c1,c2,…,ck),那么,分别用(a1+b1,a2+b2,…,ak+bk)和(a1+c1,a2+c2,…,ak+ck)这两个隐向量来表示“镀黄金”和“黄金贴膜”(即“黄金”的上下文)在k维空间每一维的分布情况。
3)统计特征,用于表征分词在各个类目下基于统计维度的重要程度。
类目熵(可用H(x)表示)反映分词的意图明确程度,定义 H(x)可从文本内容维度和用户查询维度两方面进行统计。
A)文本内容维度:若文本内容在xi类目中出现的次数为ti,则进而根据p(xi)可计算分词在文本内容维度的类目熵;
B)用户查询维度:选取与搜索对象发生过确认行为的用户查询进行统计,同样地,若用户查询在xi类目中出现的次数为ti,则进而根据p(xi)可计算分词在用户查询维度的类目熵,其中,用户查询的类目用与用户查询发生确认行为的搜索对象的类目表示。
H(x)越小,代表这个分词的意图越明确。
4)词频-逆向文件频率特征(可称为TF-IDF特征),用于表征分词在选定的分词集合中的出现频率和重要程度。
首先,指定一个文件(可称为DOC),因为搜索对象的文本内容一般较短,所以不将一个文本内容作为一个DOC,DOC可以选择以下几种方式:
a)选择同一个叶子类目下的文本内容集合作为一个DOC;或者,
b)选择与同一个叶子类目下的搜索对象发生过确认行为的用户查询集合作为一个DOC;或者,
c)在全类目下,选择与同一个用户查询发生过确认行为的搜索对象的文本内容集合作为一个DOC;或者,
d)在某一个具体叶子类目下,选择与同一个用户查询发生过确认行为的搜索对象的文本内容集合作为一个DOC。
接着,在指定文件中,词频(TermFrequency,TF)是指一个分词出现的次数除以该DOC包含的分词总数;逆向文件频率(InverseDocumentFrequency,IDF)表征一个分词普遍重要性的度量,具体可以由总DOC数目除以包含该分词的DOC数目,再将得到的商取对数得到最终的值。
TF-IDF参数越大,表示这个分词的区分能力越强,即重要程度越高。
5)属性特征,用于表征分词属性,不同的分词属性对应不同的重要程度。
将分词划分为不同的属性词,即在每个分词上贴上不同的属性标签。例如,将一个分词可划分为产品类型词、品牌词、型号词、修饰词等等。
不同属性标签反映了分词不同的重要程度。
6)词性特征,用于表征分词的词语性质,不同的词语性质对应不同的重要程度。
将分词按照不同的词性进行划分,即在每个分词上贴上不同的词性标签。例如,将一个分词可划分为名词、动词、形容词等等。
不同的词性标签反映了分词在不同词性下的重要程度。
7)文本特征,用于表征分词的文本组成方式;不同的文本组成方式对应不同的重要程度。
将分词按照文本的组成进行划分,即在每个分词上贴上不同的文本标签。例如,一个分词可包含以下文本特征:文本组成(包括汉字、英文、数字或者它们的组合),文本的长度等等。
8)属性区校验特征,用于表征分词是否与搜索对象对应的页面详细内容匹配,匹配的分词的重要程度高于未匹配的分词的重要程度。
这个特征表征了分词是否在搜索对象对应的详情页中得到匹配。
9)价格匹配特征,用于表征根据分词对应的价格分布获得的分词与搜索对象的契合度,契合度越高的分词重要程度越高。
分词的价格分布可以从两个维度进行统计,分别是包含这个分词的对应搜索对象集合维度,以及,与包含这个分词的用户查询发生过确认行为的搜索对象集合维度,其中,第二种维度的权重大于第一种维度的权重。
分词的价格分布与搜索对象对应的价格契合程度越高,这个分词在文本内容中的重要程度越高。例如,“真丝”和“仿真丝”这两个分词的价格契合度不高,因此,“真丝”在“仿真丝”对应的搜索对象中契合程度就会不高。
其中,价格分布用向量表示,每一维表示价格区间段,每一维的值表示包含这个分词的搜索对象在这一维区间段上的占比,即分词与搜索对象之间的契合度。例如,区间段为n个:(0,m1),(m1,m2),….(mn-1,mn),包含分词的搜索对象在第i个价格区间段中出现的次数为ti,则在第i维的占比为如果分词的价格分布为(a1,a2,…,an),分词对应的搜索对象的价格落在第i个区间段,则分词与对应的搜索对象的契合度为ai
10)类目匹配特征,用于表征根据分词的类目分布获得的分词与搜索对象的契合度,契合度越高的分词重要程度越高。
类似上述步骤9),价格区间段换成类目来计算类目契合度。分词的类目匹配也可以从两个维度进行统计,分别是包含这个分词的对应搜索对象集合维度,以及,与包含这个分词的用户查询发生过确认行为的搜索对象集合维度,其中,第二种维度的权重大于第一种维度的权重。
根据分词的类目分布,获得分词与搜索对象的契合程度,契合程度越高,这个分词在对应的搜索对象的重要程度越高。
11)支配特征,用于表征分词之间的支配关系。
若第一分词支配第二分词,则第一分词的重要程度要高于第二分词的重要程度。具体支配关系的计算方法如同上述步骤(3)R3支配关系序关系的描述,在此不再赘述。
以上为文本内容中各个分词对应的特征的抽取过程,需要说明的是,分词特征不限于上述11种,可根据具体情况将上述11种分词特征中的部分分词特征删除,或者,在上述11种分词特征的基础上继续添加其他分词特征。
至此,对于每一个文本内容,每个分词之间的序关系以及每个分词对应的特征的抽取过程介绍完毕。
下面具体介绍模型训练的过程。
针对每一个文本内容,抽取每个分词之间的序关系以及每个分词对应的特征作为一个样本,对样本集合采用ranksvm的方式进行训练,获取模型预测所需要的样本文件。
例如,根据之前获取的分词之间的序关系和对应每个分词抽取到的特征,组成如下形式的训练样本数据:
其中,第1列为序关系标号,标号之间的大小关系表示分词之间的序关系;第2列qid标记训练样本的id,上述训练样本数据中包含3个训练样本,一个训练样本由一个文本内容中抽取到的分词之间的序关系和每个分词对应的特征构成;第3列到第(n+2)列标记了分词对应的特征标号以及特征值。
例如,训练数据的前4行训练样本的id相同,即代表一个训练样本,这一个训练样本中包含一个文本内容中抽取到的分词之间的序关系和每个分词对应的特征;第1列数据表征的分词之间的序关系中可以看出,这一个文本内容包含4个分词,序关系标号之间的大小关系表示4个分词之间的序关系;第3列到第(n+2)列数据表征的分词对应的特征标号以及特征值可以看出:针对序关系标号为3的分词,特征标号为1对应的特征值为1、特征标号为2对应的特征值为1、特征标号为3对应的特征值为0、特征标号为4对应的特征值为0.2、特征标号为5对应的特征值为0、……、特征标号为n对应的特征值为0;针对序关系标号为2的分词,特征标号为1对应的特征值为0、特征标号为2对应的特征值为0、特征标号为3对应的特征值为1、特征标号为4对应的特征值为0.1、特征标号为5对应的特征值为1、……、特征标号为n对应的特征值为0;针对序关系标号为的两个分词,各个特征标号对应的特征值的表述方法如上,在此不再赘述。
训练样本id为2、3、……的分词之间序关系即分词特征的表述方法如上,不再赘述,这样,获得训练样本数据。
对上述样本集合用ranksvm算法进行训练,根据返回的训练结果,获得一个n维的分词特征的权重向量w=(w1,w2,…wn),例如,w1代表特征标号为1的特征在n维特征中的权重,即重要程度。
其中,ranksvm算法的主要思想是将排序问题转化成分类问题。例如,如果有序关系3,2,1,则意味着3>2,3>1,2>1,将排序问题转化成分类问题之后,就可以使用常用的机器学习算法解决该问题,ranksvm采用svm来进行分类。分词之间的序关系影响着分词的特征权重,具体地,分词之间的序关系可以确定分词的重要程度,分词的重要程度越高,决定分词序关系的相应特征的权重也就越高,因此,把分词按序关系进行排序后,各个分词相应的特征的重要程度也会得到相应排序,这样,可以确定各个分词特征的权重。
参阅图2所示,本申请实施例中,在计算文本内容与查询请求之间相关性时,后台服务器具体执行以下操作:
步骤200:分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,所述分词特征用于表征相应分词基于不同维度在文本内容中的重要程度。
具体地,针对网页中的每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,具体提取以下一种或任意几种分词特征:类目维度序分数特征、隐向量表征的分词特征、类目熵反映的分词统计特征、TF-IDF特征、属性特征、词性特征、文本特征、属性区校验特征、价格匹配特征、类目匹配特征以及分词之间的支配关系特征。具体各分词特征的抽取过程详见上述步骤1)到11),在此不再赘述。
步骤210:基于预设的序关系和分词特征之间的第一关联关系,根据所述每一个文本内容中的每一个分词的分词特征,确定各个分词在相应文本内容中的权重,所述序关系用于表征每一个文本内容中各个分词之间基于预设评估规则所呈现的重要程度的排序。
针对抽取到的每一个分词的特征,与预处理阶段进行模型预测所得到的样本文件进行比较,根据比较结果,预测出每一个分词的权重。具体过程为:针对每一个文本内容,分别进行分词之后,对每一个文本内容中的每个分词抽取特征,通过预处理阶段进行模型预测获得的样本文件进行训练,根据返回的训练结果,获得一个n维特征的权重向量,基于所获得的权重向量与该分词抽取的n维的特征向量,进行点乘运算,获得分词在文本内容中的权重。
例如,针对文本内容分词之后,对每个分词抽取特征,结合特征权重向量即可计算出分词在文本内容中的权重。根据训练样本,一个文本内容中一个分词抽取的特征向量为f=(f1,f2,…,fn),模型训练出来的n维特征的权重向量为w=(w1,w2,…wn),则这个分词在这个文本内容中的权重为这样,可以给每一个分词都预测一个在相应文本内容中的权重。
步骤220:接收到用户查询请求后,对所述用户查询进行分词划分,以及基于预设的序关系和分词特征之间的第二关联关系,根据所述用户查询中每一个分词的分词特征,确定所述用户查询中每一个分词的权重。
这一步骤介绍如何计算用户查询中各个分词的权重,具体计算方法与文本内容中各个分词在相应文本内容中的权重计算方法相同,只是在对用户查询中的分词进行分词特征抽取时,相比较文本内容中分词特征的抽取来说,在用户查询维度的特征多一些,在文本内容维度的特征少一些,因此,具体方法在此不再赘述。
至此,用户查询中每一个分词的权重,以及每一个文本内容中各个分词在相应文本内容中的权重都已获得。
步骤230:基于所述用户查询中每一个分词的权重和所述每一个文本内容中各个分词在相应文本内容中的权重,计算所述用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。
根据用户查询中每一个分词的权重,获得用户查询中的分词权重向量,以及根据每一个分词在对应文本内容中的权重,分别获得各个文本内容中的分词权重向量,分别计算用户查询中分词向量与对应的各个文本内容中的分词权重向量内积,获得用户查询和每一个文本内容的文本相关性评估值,并且对基于各个文本内容的文本相关性评估值对各个文本内容进行分段,从而确定各个文本内容与用户查询之间的相关性显示排序,即将文件相关性评估值高的文本内容放置在推荐菜单中靠前位置,而将文件相关性评估值低的文本内容放置在推荐菜单中靠后的位置,这样,可以有效提高推荐菜单的信息准确度,提高用户查询的效率,进而提升系统的服务性能。
例如,一个用户查询中包含“真丝围巾”,对用户查询进行分词后获得两个分词为“真丝”和“围巾”,分别计算“真丝”和“围巾”这两个分词在这个用户查询中的权重,获得一个分词权重向量;
接着,针对所有包含“真丝”或/和“围巾”的文本内容,分别计算这两份分词在对应文本内容中的权重,对于每一文本内容都能获得一个分词权重向量;
将用户查询中的分词权重向量,分别与每一个文本内容中获得的分词权重向量计算内积,可获得“真丝围巾”与每个文本内容的文本相关性,所获得的文本相关性作为一个重要指标影响各个文本内容的排序,例如,“冬季女款真丝围巾”这个文本内容会排在“真丝围巾搭配西装”的前面进行显示,这样,提高了用户的搜索效率。
基于上述实施例,参阅图3所示,本发明实施例中,后台服务器包括提取单元300、第一计算单元310、第二计算单元320和训练单元330。
提取单元300,用于分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,分词特征用于表征相应分词基于不同维度在文本内容中的重要程度;以及进一步用于接收到用户查询请求后,对所述用户查询进行分词划分;
第一计算单元310,用于基于预设的序关系和分词特征之间的第一关联关系,根据每一个文本内容中的每一个分词的分词特征,确定各个分词在相应文本内容中的权重,序关系用于表征每一个文本内容中各个分词之间基于预设评估规则所呈现的重要程度的排序;
以及基于预设的序关系和分词特征之间的第二关联关系,根据所述用户查询中每一个分词的分词特征,确定所述用户查询中每一个分词的权重;
第二计算单元320,用于基于用户查询中每一个分词的权重和每一个文本内容中各个分词在相应文本内容中的权重,计算用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。
这样,能够对文本内容中每个分词估计一个准确的权重,更准确反映每个分词在文本内容中的重要程度,进而在用户进行查询时,更准确有效的显示各个文本内容对应搜索对象的排序,提高用户的搜索效率,提高系统的服务性能。
较佳地,在确定每一个文本内容中各个分词的分词特征之前,进一步包括训练单元330,用于基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,分词特征的权重向量即为第一关联关系,分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
较佳地,进一步包括训练单元330,用于在确定每一个用户查询中各个分词的分词特征之前,基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,分词特征的权重向量即为第二关联关系,分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
较佳地,所述训练单元使用的一条训练数据中包含的各个分词之间的序关系包括以下的一种或任意组合:
同义序关系,用于表征至少两个词义相同的分词的序关系,其中,具有同义关系的至少两个分词的序关系相同;
属性序关系,用于表征预设的分词属性的重要程度从高到低的排序;
支配关系序关系,用于表征根据分词之间的基于支配关系确定的排序;
搜索命中序关系,用于表征分词在搜索过程中基于命中程度的排序,其中,命中的分词的序关系高于未命中的分词的序关系,命中是指出现在用户查询中的分词同时出现在用户最终点击的文本内容中;
命中频率序关系,用于表征分词在命中分词集合内的出现频率从高到底的顺序;
详情页检验序关系,用于表征分词在搜索过程中基于验证程度的排序,其中,得到验证的分词的重要程度高于未得到验证的分词的重要程度,验证是指出现在用户查询的分词同时出现在用户最终浏览的网页页面的详细信息中。
较佳地,训练单元330进一步用于:
确定各个分词之间的序关系过程中,若基于不同的序关系,各个分词之间的重要程度的排序不一致时,则选择优先级高的序关系表征的排序方式,其中,各个序关系的优先级由高到低的顺序为:同义序关系、属性序关系、支配关系序关系、搜索命中序关系、命中频率序关系、详情页检验序关系。
较佳地,所述训练单元使用的一条训练数据中包含的各个分词的分词特征包括以下的一种或任意组合:
类目维度序分数特征,用于表征分词在各个类目下的重要程度评估值;
隐向量特征,用于表征分词的文字表述意义;其中,不同的隐向量通过预设方式对应不同的文字内容;
统计特征,用于表征分词在各个类目下基于统计维度的重要程度;
词频-逆向文件频率特征,用于表征分词在选定的分词集合中的出现频率和重要程度;
属性特征,用于表征分词属性,不同的分词属性对应不同的重要程度。
较佳地,基于预设的序关系和分词特征之间的第一关联关系,根据一个文本内容中的每一个分词的分词特征,确定各个分词在一个文本内容中的权重,第一计算单元310具体用于:
根据第一关联关系表征的分词特征的权重向量,与一个文本内容中的每一个分词的分词特征向量分别进行点乘计算,以获得一个文本内容中的各个分词的权重。
较佳地,基于预设的序关系和分词特征之间的第二关联关系,根据一个用户查询中的每一个分词的分词特征,确定各个分词在一个用户查询中的权重,第一计算单元310进一步用于:
根据第二关联关系表征的分词特征的权重向量,与一个用户查询中的每一个分词的分词特征向量分别进行点乘计算;以获得一个用户查询中的各个分词的权重。
综上所述,本申请实施例中,分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,基于预设的序关系和分词特征之间的第一关联关系,根据每一个文本内容中的每一个分词的分词特征,确定各个分词在相应文本内容中的权重,然后,接收到用户查询请求后,对用户查询进行分词划分,基于预设的序关系和分词特征之间的第二关联关系,根据用户查询中每一个分词的分词特征,确定所述用户查询中每一个分词的权重,接着,基于用户查询中每一个分词的权重和所述每一个文本内容中各个分词在相应文本内容中的权重,计算用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。这样,能够对文本内容中每个分词估计一个准确的权重,更准确反映每个分词在文本内容中的重要程度,进而在用户进行查询时,更准确有效的显示各个文本内容对应搜索对象的排序,提高用户的搜索效率,提高系统的服务性能。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种文本内容与查询请求之间相关性的计算方法,其特征在于,包括:
分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,所述分词特征用于表征相应分词基于不同维度在文本内容中的重要程度;
基于预设的序关系和分词特征之间的第一关联关系,根据所述每一个文本内容中的每一个分词的分词特征,确定各个分词在相应文本内容中的权重,所述序关系用于表征每一个文本内容中各个分词之间基于预设评估规则所呈现的重要程度的排序;
接收到用户查询请求后,对所述用户查询进行分词划分,以及基于预设的序关系和分词特征之间的第二关联关系,根据所述用户查询中每一个分词的分词特征,确定所述用户查询中每一个分词的权重;
基于所述用户查询中每一个分词的权重和所述每一个文本内容中各个分词在相应文本内容中的权重,计算所述用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。
2.如权利要求1所述的方法,其特征在于,在确定每一个文本内容中各个分词的分词特征之前,进一步包括:
基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第一关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
3.如权利要求1所述的方法,其特征在于,在确定每一个用户查询中各个分词的分词特征之前,进一步包括:
基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第二关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
4.如权利要求2或3所述的方法,其特征在于,一条训练数据中包含的各个分词之间的序关系包括以下的一种或任意组合:
同义序关系,用于表征至少两个词义相同的分词的序关系,其中,具有同义关系的至少两个分词的序关系相同;
属性序关系,用于表征预设的分词属性的重要程度从高到低的排序;
支配关系序关系,用于表征根据分词之间的基于支配关系确定的排序;
搜索命中序关系,用于表征分词在搜索过程中基于命中程度的排序,其中,命中的分词的序关系高于未命中的分词的序关系,所述命中是指出现在用户查询中的分词同时出现在用户最终点击的文本内容中;
命中频率序关系,用于表征分词在命中分词集合内的出现频率从高到底的顺序;
详情页检验序关系,用于表征分词在搜索过程中基于验证程度的排序,其中,得到验证的分词的重要程度高于未得到验证的分词的重要程度,所述验证是指出现在用户查询的分词同时出现在用户最终浏览的网页页面的详细信息中。
5.如权利要求4所述的方法,其特征在于,进一步包括:
确定各个分词之间的序关系过程中,若基于不同的序关系,各个分词之间的重要程度的排序不一致时,则选择优先级高的序关系表征的排序方式,其中,各个序关系的优先级由高到低的顺序为:同义序关系、属性序关系、支配关系序关系、搜索命中序关系、命中频率序关系、详情页检验序关系。
6.如权利要求2或3所述的方法,其特征在于,一条训练数据中包含的各个分词的分词特征包括以下的一种或任意组合:
类目维度序分数特征,用于表征分词在各个类目下的重要程度评估值;
隐向量特征,用于表征分词的文字表述意义;其中,不同的隐向量通过预设方式对应不同的文字内容;
统计特征,用于表征分词在各个类目下基于统计维度的重要程度;
词频-逆向文件频率特征,用于表征分词在选定的分词集合中的出现频率和重要程度;
属性特征,用于表征分词属性,不同的分词属性对应不同的重要程度。
7.如权利要求2-6任一项所述的方法,其特征在于,基于预设的序关系和分词特征之间的第一关联关系,根据一个文本内容中的每一个分词的分词特征,确定各个分词在所述一个文本内容中的权重,包括:
根据第一关联关系表征的分词特征的权重向量,与所述一个文本内容中的每一个分词的分词特征向量分别进行点乘计算,以获得所述一个文本内容中的各个分词的权重。
8.如权利要求2-6任一项所述的方法,其特征在于,基于预设的序关系和分词特征之间的第二关联关系,根据一个用户查询中的每一个分词的分词特征,确定各个分词在所述一个用户查询中的权重,包括:
根据第二关联关系表征的分词特征的权重向量,与所述一个用户查询中的每一个分词的分词特征向量分别进行点乘计算;以获得所述一个用户查询中的各个分词的权重。
9.一种文本内容与查询请求之间相关性的计算装置,其特征在于,包括:
第一提取单元,用于分别将每一个文本内容进行分词划分,并针对每一个文本内容中包含的每一个分词提取其分词特征,所述分词特征用于表征相应分词基于不同维度在文本内容中的重要程度;以及进一步用于接收到用户查询请求后,对所述用户查询进行分词划分;
第一计算单元,用于基于预设的序关系和分词特征之间的第一关联关系,根据所述每一个文本内容中的每一个分词的分词特征,确定各个分词在相应文本内容中的权重,所述序关系用于表征每一个文本内容中各个分词之间基于预设评估规则所呈现的重要程度的排序;
以及基于预设的序关系和分词特征之间的第二关联关系,根据所述用户查询中每一个分词的分词特征,确定所述用户查询中每一个分词的权重;
第二计算单元,用于基于所述用户查询中每一个分词的权重和所述每一个文本内容中各个分词在相应文本内容中的权重,计算所述用户查询与每一个文本内容的文本相关性,进一步获得各个文本内容的显示排序。
10.如权利要求9所述的装置,其特征在于,进一步包括:
训练单元,用于在确定每一个文本内容中各个分词的分词特征之前,基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
以及基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第一关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
11.如权利要求9所述的装置,其特征在于,进一步包括:
训练单元,用于在确定每一个用户查询中各个分词的分词特征之前,基于预设的训练数据,确定每一条训练数据中包含的各个分词之间的序关系,以及确定每一条训练数据中包含的各个分词的分词特征;其中,每一条训练数据中至少包含有一条用户查询与用户点击的文本内容;
以及基于每一条训练数据表征的各个分词之间的序关系,以及每一条训练数据表征的各个分词的分词特征,获得分词特征的权重向量,所述分词特征的权重向量即为所述第二关联关系,所述分词特征的权重向量中的每一维表征一个分词特征在全部分词特征中的权重。
12.如权利要求10或11所述的装置,其特征在于,所述训练单元使用的一条训练数据中包含的各个分词之间的序关系包括以下的一种或任意组合:
同义序关系,用于表征至少两个词义相同的分词的序关系,其中,具有同义关系的至少两个分词的序关系相同;
属性序关系,用于表征预设的分词属性的重要程度从高到低的排序;
支配关系序关系,用于表征根据分词之间的基于支配关系确定的排序;
搜索命中序关系,用于表征分词在搜索过程中基于命中程度的排序,其中,命中的分词的序关系高于未命中的分词的序关系,所述命中是指出现在用户查询中的分词同时出现在用户最终点击的文本内容中;
命中频率序关系,用于表征分词在命中分词集合内的出现频率从高到底的顺序;
详情页检验序关系,用于表征分词在搜索过程中基于验证程度的排序,其中,得到验证的分词的重要程度高于未得到验证的分词的重要程度,所述验证是指出现在用户查询的分词同时出现在用户最终浏览的网页页面的详细信息中。
13.如权利要求12所述的装置,其特征在于,所述训练单元进一步用于:
确定各个分词之间的序关系过程中,若基于不同的序关系,各个分词之间的重要程度的排序不一致时,则选择优先级高的序关系表征的排序方式,其中,各个序关系的优先级由高到低的顺序为:同义序关系、属性序关系、支配关系序关系、搜索命中序关系、命中频率序关系、详情页检验序关系。
14.如权利要求10或11所述的装置,其特征在于,所述训练单元使用的一条训练数据中包含的各个分词的分词特征包括以下的一种或任意组合:
类目维度序分数特征,用于表征分词在各个类目下的重要程度评估值;
隐向量特征,用于表征分词的文字表述意义;其中,不同的隐向量通过预设方式对应不同的文字内容;
统计特征,用于表征分词在各个类目下基于统计维度的重要程度;
词频-逆向文件频率特征,用于表征分词在选定的分词集合中的出现频率和重要程度;
属性特征,用于表征分词属性,不同的分词属性对应不同的重要程度。
15.如权利要求10-14任一项所述的装置,其特征在于,基于预设的序关系和分词特征之间的第一关联关系,根据一个文本内容中的每一个分词的分词特征,确定各个分词在所述一个文本内容中的权重时,所述第一计算单元具体用于:
根据第一关联关系表征的分词特征的权重向量,与所述一个文本内容中的每一个分词的分词特征向量分别进行点乘计算,以获得所述一个文本内容中的各个分词的权重。
16.如权利要求10-14任一项所述的装置,其特征在于,基于预设的序关系和分词特征之间的第二关联关系,根据一个用户查询中的每一个分词的分词特征,确定各个分词在所述一个用户查询中的权重时,所述第一计算单元具体用于:
根据第二关联关系表征的分词特征的权重向量,与所述一个用户查询中的每一个分词的分词特征向量分别进行点乘计算;以获得所述一个用户查询中的各个分词的权重。
CN201410721370.4A 2014-12-02 2014-12-02 一种文本内容与查询请求之间相关性的计算方法及装置 Active CN105653562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410721370.4A CN105653562B (zh) 2014-12-02 2014-12-02 一种文本内容与查询请求之间相关性的计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410721370.4A CN105653562B (zh) 2014-12-02 2014-12-02 一种文本内容与查询请求之间相关性的计算方法及装置

Publications (2)

Publication Number Publication Date
CN105653562A true CN105653562A (zh) 2016-06-08
CN105653562B CN105653562B (zh) 2019-03-15

Family

ID=56481244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410721370.4A Active CN105653562B (zh) 2014-12-02 2014-12-02 一种文本内容与查询请求之间相关性的计算方法及装置

Country Status (1)

Country Link
CN (1) CN105653562B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN107832405A (zh) * 2017-11-03 2018-03-23 北京小度互娱科技有限公司 计算标题之间的相关性的方法和装置
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN110287288A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 推荐文档的方法和装置
CN110880013A (zh) * 2019-08-02 2020-03-13 华为技术有限公司 识别文本的方法及装置
CN111460154A (zh) * 2020-03-30 2020-07-28 云南电网有限责任公司信息中心 一种科技文档的聚类方法
CN111737550A (zh) * 2019-03-25 2020-10-02 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN111767365A (zh) * 2019-03-12 2020-10-13 株式会社理光 文档检索设备及方法
CN114490396A (zh) * 2022-01-27 2022-05-13 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013128333A1 (en) * 2012-03-01 2013-09-06 International Business Machines Corporation Finding a best matching string among a set of stings
US8682907B1 (en) * 2012-03-30 2014-03-25 Google Inc. Evaluation of substitute terms
CN103914492A (zh) * 2013-01-09 2014-07-09 阿里巴巴集团控股有限公司 查询词融合方法、商品信息发布方法和搜索方法及系统
CN103927340A (zh) * 2014-03-27 2014-07-16 中国科学院信息工程研究所 一种密文检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013128333A1 (en) * 2012-03-01 2013-09-06 International Business Machines Corporation Finding a best matching string among a set of stings
US8682907B1 (en) * 2012-03-30 2014-03-25 Google Inc. Evaluation of substitute terms
CN103914492A (zh) * 2013-01-09 2014-07-09 阿里巴巴集团控股有限公司 查询词融合方法、商品信息发布方法和搜索方法及系统
CN103927340A (zh) * 2014-03-27 2014-07-16 中国科学院信息工程研究所 一种密文检索方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN107818092B (zh) * 2016-09-12 2023-05-26 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN107832405A (zh) * 2017-11-03 2018-03-23 北京小度互娱科技有限公司 计算标题之间的相关性的方法和装置
CN107967256A (zh) * 2017-11-14 2018-04-27 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质
CN107908783B (zh) * 2017-12-07 2021-06-11 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质
CN109033222A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi与检索关键字的相关性分析方法和装置
CN111767365A (zh) * 2019-03-12 2020-10-13 株式会社理光 文档检索设备及方法
CN111737550A (zh) * 2019-03-25 2020-10-02 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN110287288A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 推荐文档的方法和装置
CN110880013A (zh) * 2019-08-02 2020-03-13 华为技术有限公司 识别文本的方法及装置
CN111460154A (zh) * 2020-03-30 2020-07-28 云南电网有限责任公司信息中心 一种科技文档的聚类方法
CN111460154B (zh) * 2020-03-30 2022-07-08 云南电网有限责任公司信息中心 一种科技文档的聚类方法
CN114490396A (zh) * 2022-01-27 2022-05-13 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统
CN114490396B (zh) * 2022-01-27 2023-05-05 北京京航计算通讯研究所 一种软件测试需求挖掘方法和系统

Also Published As

Publication number Publication date
CN105653562B (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN105653562A (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106156204B (zh) 文本标签的提取方法和装置
CN106709040B (zh) 一种应用搜索方法和服务器
US9449075B2 (en) Guided search based on query model
CN109960756B (zh) 新闻事件信息归纳方法
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN106919575B (zh) 应用程序搜索方法及装置
CN110188197B (zh) 一种用于标注平台的主动学习方法及装置
KR101491627B1 (ko) 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN102033919A (zh) 文本关键词提取方法及系统
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN108572971B (zh) 一种用于挖掘与检索词相关的关键词的方法和装置
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN109492081B (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
WO2021112984A1 (en) Feature and context based search result generation
CN110399614A (zh) 用于真产品词识别的系统和方法
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
JP2023066404A (ja) 電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
CN107908649B (zh) 一种文本分类的控制方法
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant