CN103970747A - 网络侧计算机对搜索结果进行排序的数据处理方法 - Google Patents

网络侧计算机对搜索结果进行排序的数据处理方法 Download PDF

Info

Publication number
CN103970747A
CN103970747A CN201310029550.1A CN201310029550A CN103970747A CN 103970747 A CN103970747 A CN 103970747A CN 201310029550 A CN201310029550 A CN 201310029550A CN 103970747 A CN103970747 A CN 103970747A
Authority
CN
China
Prior art keywords
data
network side
document data
computing machine
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310029550.1A
Other languages
English (en)
Other versions
CN103970747B (zh
Inventor
刘建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Betula science and Technology Co., Ltd.
Original Assignee
CHUANG RUI XIN TONG (BEIJING) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHUANG RUI XIN TONG (BEIJING) Co Ltd filed Critical CHUANG RUI XIN TONG (BEIJING) Co Ltd
Priority to CN201310029550.1A priority Critical patent/CN103970747B/zh
Publication of CN103970747A publication Critical patent/CN103970747A/zh
Application granted granted Critical
Publication of CN103970747B publication Critical patent/CN103970747B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种网络侧计算机对搜索结果进行排序的数据处理方法。所述方法包括:网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词;所述网络侧计算机根据所述关键词,搜索得到文档数据;所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数;所述网络侧计算机提取所述文档数据的完整度权重;所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重;所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果。较现有技术,采用本发明实施例提供的所述方法得出的排序结果的有效性更高。

Description

网络侧计算机对搜索结果进行排序的数据处理方法
技术领域
本发明涉及数据处理技术,尤其涉及一种网络侧计算机对搜索结果进行排序的数据处理方法。
背景技术
随着计算机技术的不断发展,人们越来越依靠于通过计算机系统或计算机网络来存储大量的数据。人们通过终端向存储有数据信息的内联网网络侧计算机或因特网网络侧计算机发送搜索请求,网络侧计算机的搜索引擎根据搜索请求携带的关键词,搜索出包含有所述关键词的文档数据。但从用户的角度来看,并非包含有所述关键词的所有搜索到的文档数据都同等重要。因此,对搜索结果进行排序的数据处理能力就成为网络侧计算机搜索引擎好坏的一个重要的衡量标准。
现有技术中,网络侧计算机预先对文档数据库中存储的所有文档数据内容进行数据分析,提取文档数据中出现的关键词,并统计关键词在文档数据中出现的频率、位置以及整个文档数据库中包含该关键词的文档数据的数目等,将这些信息建立索引。网络侧计算机在接收到所述用户终端发送的搜索请求后,在索引中找到包含有搜索请求携带的关键词的文档数据,并根据关键词在文档数据中的出现频率、位置及整个文档集合中包含该关键词的文档数据的数目等参数计算各文档数据与所述关键词字面上的相关程度,最后,按照相关程度大小对文档数据进行排序,并返回给用户。目前,互联网上的数据质量参差不齐,现有技术仅考虑关键词与文档数据字面上的相关程度,并未考虑文档数据所包含的具体内容,从用户的角度来看,排在最前面的字面相关程度高的文档数据信息可能只是包含有用户欲搜索的关键词,但并不具有参考价值。由此可知,现有网络侧计算机采用现有网络侧计算机对搜索结果进行排序的数据处理方法得出的排序结果的有效性较低。
发明内容
本发明提供一种网络侧计算机对搜索结果进行排序的数据处理方法,以提高排序结果的有效性。
本发明提供一种网络侧计算机对搜索结果进行排序的数据处理方法,包括:
网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词;
所述网络侧计算机根据所述关键词,搜索得到文档数据;
所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数;
所述网络侧计算机提取所述文档数据的完整度权重;
所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重;
所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果。
本发明的技术效果是:本发明实施例所述网络侧计算机不仅考虑了用户欲搜索关键词与文档数据相关程度,还同时考虑了文档数据所包含的具体内容的完整性,即所述网络侧计算机根据关键词与文档数据相关的相关参数及文档的完整度权重,计算文档数据的排序权重,并根据所述排序权重对所述文档数据进行排序。较现有技术,采用本发明实施例提供的所述方法得出的排序结果的有效性更高。
附图说明
图1为本发明提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例一的流程示意图;
图2为本发明提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例二的流程示意图;
图3为本发明提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例三的流程示意图;
图4为本发明提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例四的流程示意图;
图5为本发明提供的各实施例中一具体步骤的第一个具体实现实例的流程示意图;
图6为本发明提供的各实施例中另一具体步骤的第一个具体实现实例的流程示意图;
图7为本发明提供的各实施例中一具体步骤的第二个具体实现实例的流程示意图;
图8为本发明提供的各实施例中另一具体步骤的第二个具体实现实例的流程示意图;
图9为本发明提供的各实施例中一具体步骤的第三个具体实现实例的流程示意图;
图10为本发明提供的各实施例中另一具体步骤的第三个具体实现实例的流程示意图。
具体实施方式
如图1所示,本发明提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例一的流程示意图。如图所示,本实施例一所述方法包括:
步骤101、网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词。
步骤102、所述网络侧计算机根据所述关键词,搜索得到文档数据。
步骤103、所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数。
步骤104、所述网络侧计算机提取所述文档数据的完整度权重。
具体地,所述网络侧计算机中预先存储有各文档数据的完整度权重。所述网络计算机可直接提取已存储的所述文档数据的完整度权重即可。其中,所述完整度权重为衡量各文档数据完整性的一个权重值。完整度衡量标准依据实际应用情况具体设定。在具体应用中,所述网络侧计算机对所述文档数据进行解析,根据所述解析结果将所述文档数据划分为至少一个字段。所述文档数据以字段组合的形式存储在文档数据库中。例如,所述文档数据包含有若干个字段,例如主题字段、地址描述字段、电话字段、电话加锁字段、地理坐标字段、图片字段、文档内容描述字段、点评引用字段和类别字段中的一种或任意组合。默认情况下,所述文档数据包含的字段越多,其完整度就越高。更具体地,在本步骤104之前,所述网络侧计算机可根据所述文档数据包含的所有字段来确定所述文档数据的完整度权重,并将确定出的完整度权重进行存储,具体地实现过程如下:
步骤1041、所述网络侧计算机获取文档数据包含的所有字段,所有字段包括:主题字段、地址描述字段、电话字段、电话加锁字段、地理坐标字段、图片字段、文档内容描述字段和点评引用字段中的一种或任意组合。
步骤1042、所述网络侧计算机根据获取到的所有字段,确定所述文档数据的完整度权重。
具体地,若所述网络侧计算机获取到的所有字段中包含有地址描述字段,则提取所述地址描述字段中的地址描述字符,并查询地址描述字符数据库,当查询出所述地址描述字符数据库中存在有所述地址描述字符时,将当前权重值更新为所述当前权重值与第一预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有电话字段,则提取所述电话字段中的号码字符串,并根据预设的电话号码编码规则判定所述号码字符串是否符合所述电话号码编码规则,若是,将当前权重值更新为所述当前权重值与第二预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有电话加锁字段,则提取所述电话加锁字段中的加锁标识,当所述加锁标识为已加锁标识时,将当前权重值更新为所述当前权重值与第三预设值之和;和/或
若所述网络侧计算机获取到的所有所述字段中包含有地理坐标字段,则将当前权重值更新为所述当前权重值与第四预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有图片字段,则将当前权重值更新为所述当前权重值与第五预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有文档内容描述字段,则将当前权重值更新为所述当前权重值与第六预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有点评引用字段,则将当前权重值更新为所述当前权重值与第七预设值之和;
所述网络侧计算机将当前权重值作为所述文档数据的完整度权重。
这里需要说明的是:其中,所述网络侧计算机对所述文档数据的完整度权重的确定可根据实际应用中的需求来设定。具体地,如对于提供商户信息搜索的网络侧计算机来说,所述网络侧计算机还可进一步针对所述文档数据的文档内容描述字段中包含的具体内容来确定所述文档数据的完整度权重,例如,该文档内容描述字段是否包含有:用于标识包含有商户总部信息的第一标识、用于标识包含有产品信息的第二标识、用于标识包含有折扣信息的第三标识、用于标识包含有商户人员介绍信息的第四标识和用于标识包含有商户举办活动信息的第五标识中的一种或任意组合。所述网络侧计算机可根据上述获取到的各标识,进一步地在权重累加值上累加相应的预设数值。
步骤1043、所述网络侧计算机存储所述文档数据的完整度权重。
采用上述步骤1041~1043,所述网络侧计算机即完成了文档数据完整度权重的确定和存储。
步骤105、所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重。
步骤106、所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果。
本实施例提供的所述方法不仅考虑了用户欲搜索关键词与文档数据相关程度,还同时考虑了文档数据所包含的具体内容的完整性,即所述网络侧计算机根据关键词与文档数据相关的相关参数及文档的完整度权重,计算文档数据的排序权重,并根据所述排序权重对所述文档数据进行排序。较现有技术,采用本实施例提供的所述方法得出的排序结果的有效性更高。
如图2所示,本发明提供的网络侧计算机对搜索结果进行排序的数据处理方法实施例二的流程示意图。如图所示,本实施例二基于上述实施例一,除包括上述实施例一所提供的所有步骤外,还包括如下步骤:
步骤201、若所述网络侧计算机识别出所述关键词包含有类别信息,则获取所述文档数据对应所述类别信息的类别可信度权重。
其中,所述类别可信度权重用于体现文档数据属于某一分类的概率。在实际应用中,所述文档数据可能同时属于多个类别。因此,在本步骤之前,所述网络侧计算机预先为各数据设置了对应各类别信息的类别可信度权重。具体的,首先,所述网络侧计算机获取文档数据;然后,所述网络侧计算机设置所述文档数据对应各类别信息的类别可信度权重。
步骤202、所述网络侧计算机获取所述文档数据的数据可信度权重。
具体地,本步骤可采用如下步骤实现:
步骤2021、所述网络侧计算机统计所述文档数据的点评引用字段中包含的点评信息的数量以及被引用记录数量。
其中,点评量为用户对所述文档的点评信息的统计数量。所述被引用量为所述文档数据被引用数量,例如,某一商户的文档数据的主题字段被其他商户在地址中的引用统计值。所述点评信息的数量和被引用记录数据为所述网络侧计算机从互联网上或内联网上抓取并统计获得的。
步骤2022、所述网络侧计算机根据所述点评信息的数量以及被引用记录数量,得出所述文档数据的总关注数量。
步骤2023、所述网络侧计算机根据总关注数量与映射值的对应关系,获取所述总关注数量对应的映射值。
步骤2024、所述网络侧计算机根据所述映射值,计算所述文档数据的数据可信度权重。
例如,所述网络侧计算机统计出所述文档数据的点评引用字段中包含的点评信息的数量为review_count,统计出的所述文档数据的被引用记录数量quote_count。然后,所述网络侧计算机根据所述点评信息的数量以及被引用记录数量,采用计算式reviews=review_count+quote_count/2,得出所述文档数据的总关注数量,其中reviews为所述文档数据的总关注数量。随后,所述网络侧计算机根据如下表1所示的总关注数量与映射值的对应关系,获取所述总关注数量reviews对应的映射值AB_Reviews::TagReliability(reviews)。最后,所述网络侧计算机根据所述映射值AB_Reviews::TagReliability(reviews),采用计算式doc_reliability=1+AB_Reviews::TagReliability(reviews),计算得出所述文档数据的数据可信度权重。其中,所述doc_reliability为所述文档数据的数据可信度权重。
表1、总关注数量与映射值的对应关系
例如,某文档数据的总关注数量reviews为55,通过上述的总关注数量与映射值的对应关系得出55对应的AB_Reviews::TagReliability(55)=5。通过doc_reliability=1+AB_Reviews::TagReliability(55)=1+5=6。
步骤203、所述网络侧计算机根据所述文档数据的完整度权重、类别可信度权重和数据可信度权重,计算所述文档数据的类别匹配权重。
具体地,所述网络侧计算机根据所述文档数据的的完整度权重、类别可信度权重和数据可信度权重,采用如下第一预设计算公式计算所述文档数据的类别匹配权重,
ranktag_weight=ranktag_tf×ranktag_idf×detail_level
×doc_reliability×ranktag_ratio
其中,ranktag_tf为预设的类别信息重要度值,idf为预设的类别信息逆向文件频率,detail_level为文档数据的完整度权重,doc_reliability为数据可信度权重,ranktag_ratio为类别可信度权重。
相应地,上述实施例一中所述的步骤105,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:
步骤204、所述网络侧计算机根据所述文档数据的类别匹配权重,修正所述文档数据的排序权重。
所述网络侧计算机根据所述文档数据的类别匹配权重,采用如下第二预设计算公式修正所述文档数据的排序权重,得出修正后的所述文档数据的排序权重:
keyword_weight_after=keyword_weight+ranktag_weight
其中,keyword_weight为所述文档数据的排序权重,keyword_weight_after为修正后的所述文档数据的排序权重,ranktag_weight为所述文档数据的类别匹配权重。
本实施例基于实施例一的基础上,进一步的增加了文档数据与用户欲搜索关键词所包含的类型信息相关的类别匹配权重,并根据类别匹配权重修正所述文档数据的排序权重,以进一步地提高网络侧计算机处理后生成的排序结果的的有效性。
如图3所示,本发明提供的所述网络侧计算机对搜索结果进行排序的数据处理方法实施例三的流程示意图。如图所示,本发明实施例基于实施例一,除包括实施例一所提供的所有步骤外,还包括如下步骤:
步骤301、若所述网络侧计算机识别出所述关键词包含有地址信息,则查询空间数据库以获取所述地址信息对应的第一地理坐标。
步骤302、若所述文档数据包含有地理坐标字段,则所述网络侧计算机提取所述地理坐标字段中的第二地理坐标。
步骤303、所述网络侧计算机根据所述第一地理坐标和所述第二地理坐标,计算两地理坐标确定的两地点间的距离。
步骤304、所述网络侧计算机根据所述距离,计算所述包含有地理坐标字段的文档数据的距离权重。
具体地,所述网络侧计算机根据所述距离,采用预设距离权重计算公式得出所述包含有地理坐标字段的文档数据的距离权重。其中,所述预设距离权重计算公式可以是具体的计算公式,即表征为range_weight=f(distance)的函数式,该函数式可依据实际的设计需求人为设定。其中,range_weight为所述距离权重,distance为所述距离。或者,所述预设距离权重计算公式可以是距离与距离权重的对应关系,通过查表获得通过步骤303计算得出的所述距离对应的距离权重。或者,所述预设的计算公式还可以是按照预设计算规则执行的程序。具体地,该执行程序的处理过程描述如下:
若所述网络侧计算机对用户欲搜索关键词进行分词处理后,得到的所有单元数据均与文档数据中的主题字段包含的对应文本数据相同,该文档数据的主题字段中还包含有连锁店标识,通过所述步骤303计算得出的所述距离小于零,且所述用户欲搜索关键词包含的地址信息的字符串与文档数据的地址描述字段中包含的地址描述字符串相同,则直接给所述距离权重赋值为-1500。
若所述网络侧计算机对用户欲搜索关键词进行分词处理后,得到的所有单元数据均与文档数据中的主题字段包含的对应文本数据相同,该文档数据的主题字段中还包含有连锁店标识,通过所述步骤303计算得出的所述距离小于零,且所述用户欲搜索关键词包含的地址信息的字符串与文档数据的地址描述字段中包含的地址描述字符串不相同,则采用如下计算公式得出所述距离权重:range_weight=-keyword_weight。其中,range_weight为距离权重,keyword_weight为采用上述各实施例计算得出的所述文档数据的排序权重。
若所述网络侧计算机对用户欲搜索关键词进行分词处理后,得到的所有单元数据均与文档数据中的主题字段包含的对应文本数据相同,该文档数据的主题字段中还包含有连锁店标识,且通过所述步骤303计算得出的所述距离大于零且小于采用上述各实施例计算得出的所述文档数据的排序权重,则采用如下计算公式得出所述距离权重:range_weight=-distance。其中,distance为通过所述步骤303计算得出的所述距离,range_weight为距离权重。
若所述网络侧计算机对用户欲搜索关键词进行分词处理后,得到的所有单元数据均与文档数据中的主题字段包含的对应文本数据相同,该文档数据的主题字段中还包含有连锁店标识,且通过所述步骤303计算得出的所述距离大于采用上述各实施例计算得出的所述文档数据的排序权重,则采用如下计算公式得出所述距离权重:range_weight=-keyword_weight。其中,range_weight为距离权重,keyword_weight为采用上述各实施例计算得出的所述文档数据的排序权重。
相应地,上述实施例一所述的步骤105、所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:
步骤305、所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重。
具体地,所述网络侧计算机根据所述距离权重,采用如下第三预设计算公式修正所述文档数据的排序权重,得出修正后的所述文档数据的排序权重:
keyword_weight_after=keyword_weight+range_weight
其中,keyword_weight为所述文档数据的排序权重,keyword_weight_after为修正后的所述文档数据的排序权重,range_weight为所述距离权重。
这里需要说明的是:当所述用户欲搜索关键词除包括用于表征具体搜索内容的关键词外,还包括地址信息(即地址关键词),如,用户欲搜索关键词为“曼巴名典咖啡亚运村”,此时,所述网络侧计算机还可以根据用于表征具体搜索内容的关键词,采用上述各实施例提供的方法计算各文档数据的第一排序权重。所述网络侧计算机再根据地址关键词,采用上述各实施例提供的方法计算各文档数据的第二排序权重。最后,所述网络侧计算机将所述第一排序权重和第二排序权重求和,计算得到最终的所述文档数据的排序权重。这里需要补充的是:若所述根据所述地址关键词计算出的第二排序权重大于所述第一排序权重,则说明所述地址关键词对文档数据的排序权重的影响程度过大,致使得出的所述文档数据的排序权重存在误差,因此所述网络侧计算机需对所述第二排序权重进行修正,以保证其得出的排序结果的准确性。例如,当所述第二排序权重大于所述第一排序权重的一半,则所述网络侧计算机将所述第一排序权重的一半赋值给所述第二排序权重。
当然,本实施例三也可基于上述实施例二所述的方法,即除包括实施例二所提供的所有步骤外,还包括上述步骤301~305。这里需要说明的是:上述步骤305具体应理解为:在经实施例二所述步骤204修正后,所述网络侧计算机进一步的根据所述距离权重,修正所述文档数据的排序权重。这里需要说明的是:当本实施例三基于实施例二所述的方法时,若所述网络侧计算机也采用上述的方法,即所述网络侧计算机根据用于表征具体搜索内容的关键词,采用上述各实施例提供的方法计算各文档数据的第一排序权重。所述网络侧计算机再根据地址关键词,采用上述各实施例提供的方法计算各文档数据的第二排序权重。最后,所述网络侧计算机将所述第一排序权重和第二排序权重求和,计算得到最终的所述文档数据的排序权重,则此时同样会遇到同样的问题,即地址关键词对文档数据的排序权重的影响程度过大,致使得出的所述文档数据的排序权重存在误差,因此所述网络侧计算机需对所述第二排序权重进行修正,以保证其得出的排序结果的准确性。例如,所述网络侧计算机可采用如下的方法对所述第二排序权重进行修正:
首先,所述网络侧计算机根据上述实施例二中获得的类别可信度权重以及上述实施例三中计算得出的距离权重,采用如下计算式得出第一判定值:
tmp_weight1=(ranktag_weight+range_weight)/2
其中,tmp_weight1为所述第一判定值,ranktag_weight为所述类别可信度权重,range_weight为所述距离权重。
然后,若所述网络侧计算机判断出所述第一判定值大于零,且所述第二排序权重大于所述第一判定值,则所述网络侧计算机将所述第一判定值赋值给所述第二排序权重。
若本实施例三基于上述实施例二的基础上,则本实施例三中步骤304、所述网络侧计算机根据所述距离,计算所述包含有地理坐标字段的文档数据的距离权重,具体地,还可采用如下的方式实现:
若所述距离大于预设类别距离经验值,则采用如下计算公式计算所述range_weight:
range_weight=-ranktag_weight×(1-ranktag_distance_base/distance)。
其中,ranktag_distance_base为所述预设类别距离经验值,该预设类别距离经验值可根据经验人为设定,所述ranktag_weight为上述实施例二中所述网络侧计算机提取到的所述类别可信度权重。
这里需要说明的是:若本实施例三中所述网络侧计算机查询空间数据库,未获得所述地址信息对应的第一地理坐标,但所述网络侧计算机识别出所述文档数据的地址描述字段中包含的地址描述信息与用户欲搜索关键词包含的地址信息相同,则所述网络侧计算机可采用如下计算公式计算所述文档数据的距离权重:range_weight=-ranktag_weight/2。其中,range_weight为所述文档数据的距离权重,ranktag_weight为所述网络侧计算机提取出的所述类别可信度权重。
进一步可以补充的是:若所述网络侧计算机接收到所述用户终端发送的搜索请求中除携带有用户欲搜索关键词外,还携带有排序请求参数。如该排序请求参数为距离过滤参数,若该距离过滤参数为500米或1公里等等,则根据上述步骤303计算得出的所述距离,将所述网络侧计算机根据所述关键词,搜索到的文档数据中距离小于距离过滤参数的文档数据筛选出来。或者,如所述排序请求参数为按距离从近至远排序规则对应的请求参数,则所述网络侧计算机基于上述实施例得到的修正后的所述文档数据的排序权重,进一步地根据通过上述步骤303计算出的距离修正所述文档数据的排序权重,以使距离越近的文档数据的排序权重越大。
本实施例基于实施例一或实施例二的基础上,进一步地增加了文档数据与用户欲搜索关键词所包含的地址信息相关的距离权重,并根据距离权重修正所述文档数据的排序权重,以进一步地提高网络侧计算机处理后生成的排序结果的的有效性
如图4所示,本发明提供的所述网络侧计算机对搜索结果进行排序的数据处理方法实施例四的流程示意图。如图所示,本实施例四基于上述实施例一,除包括实施例一所提供的所有步骤外,还包括:
步骤401、所述网络侧计算机接收用户终端上报的终端当前所在位置的第三地理坐标。
具体地,用户可通过GPS(Global Positioning System,全球定位系统)获取所述地理坐标信息,用户将获取到的所述地址坐标信息通过终端上报值所述网络侧计算机。若用户使用的是移动终端,则用户还可通过移动运营商(如移动、联通等)的网络来获取移动终端当前所在位置的地理坐标信息,或者通过Wi-Fi网来获取移动终端当前所在位置的地理坐标信息。
步骤402、若所述文档数据包含有地理坐标字段,则所述网络侧计算机提取所述地理坐标字段中的第二地理坐标。
步骤403、所述网络侧计算机根据所述第三地理坐标和所述第二地理坐标,计算两地理坐标确定的两地点间的距离。
具体地,所述网络侧计算机可根据所述第三地理坐标和所述第二地理坐标,计算两地理坐标确定的两地点间的直线最短距离。
步骤404、所述网络侧计算机根据所述距离,计算所述包含有地理坐标字段的文档数据的距离权重。
具体地,本步骤的实现可参见上述实施例三中步骤304中所公开的相关内容,此处不再赘述。
相应地,上述实施例一所述的步骤105、所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:
步骤405、所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重。
同样地,本实施例四也可基于上述实施例二所述的方法,即除包括实施例二所提供的所有步骤外,还包括上述步骤401~405。这里需要说明的是:上述步骤405具体应理解为:在经实施例二所述步骤204修正后,所述网络侧计算机进一步的根据所述距离权重,修正所述文档数据的排序权重。
本实施例四通过所述用户终端上报的第三地理坐标,根据用户终端与包含有地址坐标字段的文档数据的距离远近,来为包含地理坐标字段文档数据进一步增加距离权重,并根据距离权重修正所述文档数据的排序权重,以进一步地提高网络侧计算机处理后生成的排序结果的的有效性。
具体地,上述各实施例中相关参数包括初始重要度值和逆向文件频率。相应地,上述各实施例中所述步骤103、网络侧计算机获取所述关键词与所述文档数据相关的相关参数,如图5所示,可采用如下方式实现:
步骤1031、所述网络侧计算机对所述关键词进行分词处理,得到至少一个单元数据。
具体地,所述网络侧计算机对所述关键词进行分词处理,以获得至少一个单元数据,即索引基本单元数据。例如,所述关键词为“曼巴名典咖啡”,所述网络侧计算机对所述关键词进行分词处理后,得到的单元数据有三个,分别为:“曼巴”“名典”和“咖啡”。
步骤1032、所述网络侧计算机提取各单元数据在所述文档数据中的初始重要度值及各单元数据对应的逆向文件频率。
其中,所述单元数据在所述文档数据中的初始重要度值和所述单元数据对应的逆向文件频率,均为所述网络侧计算机建立索引时,确定并存储的。具体地,所述网络侧计算机预先对文档数据库中存储的所有文档数据内容进行数据分析,提取文档数据中出现的单元数据,并统计单元数据在文档数据中出现的位置以及整个文档数据库中包含该单元数据的文档数据的数目等,并根据所述单元数据在所述文档数据中出现的位置,确定出所述单元数据在所述文档数据的初始重要度值,根据整个文档数据库中包含该单元数据的文档数据的数目,确定出所述关键词对应的逆向文件频率。
具体地,所述网络侧计算机根据所述单元数据在所述文档数据中出现的位置,采用预设的重要度值确定准则确定出所述单元数据在所述文档数据的初始重要度值。例如,该预设的重要度值确定准则可以是出现位置与重要度值的对应关系,所述网络侧计算机通过查询所述出现位置与重要度值的对应关系,为各单元数据确定出相应的初始重要度值。所述网络侧计算机根据整个文档数据库中包含该关键词的文档数据的数目,由总文档数目除以包含该单元数据的文档总数目,再将得到的商取对数得到所述单元数据对应的逆向文件频率。具体可表征为:
idf=min(7,log8(total_doc_num)-log8(term_doc_num))+1。
其中,total_doc_num是总文档数目,term_doc_num是指含有所述单元数据的文档总数目。本实施例计算所述单元数据的逆向文件频率的计算式并不仅限于上述计算式。计算所述逆向文件频率还可采用其他递减型函数,只要该递减型函数满足:term_doc_num越大,idf越小即可。
当所述网络侧计算机获取到所述关键词语所述文档数据相关的相关参数为上述所有单元数据在所述文档数据中的初始重要度值及所有单元数据对应的逆向文件频率时,相应地,上述各实施例中所述步骤105、所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重,如图6所示,可具体地采用如下方式实现:
步骤501、若所述网络侧计算机在所述文档数据的预指定字段中查找到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值。
其中,指定字段可以是主题字段或文档内容描述字段等。所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述单元数据在所述文档数据中的修正重要度值,具体为:
所述网络侧计算机根据所述完整度权值和所述初始重要度值,采用如下第十四预设计算公式计算所述单元数据在所述文档数据中的修正重要度值:
tf=min(4,term_tf)×detail_level
其中,tf为所述修正重要度值;term_tf为所述初始重要度值;detail_level为所述完整度权值。
步骤502、若在所述文档数据的预指定字段中查找不到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值。
具体地,所述网络侧计算机根据所述初始重要度值,采用如下第十五预设计算公式计算所述单元数据在所述文档数据中的修正重要度值:
tf=min(4,term_tf)
其中,tf为所述修正重要度值;term_tf为所述初始重要度值;detail_level为所述完整度权值。
例如:用户欲搜索关键词为“上岛咖啡”。搜索引擎对“上岛咖啡”进行查询分析,得到两个单元数据“上岛”和“咖啡”。假设“上岛”在文档数据中的初始重要度值term_tf为2,并在文档数据的主题字段中有与其相同的词。“咖啡”在所述文档数据中的初始重要度值term_tf为5,且在文档的主题字段中没有与其相同的词。若文档数据的主题字段为预指定字段,所述文档的完整度权重为5。则“上岛”单元数据在所述文档数据中的修正重要度值tf=min(4,2)×detail_level=2×5=10。“咖啡”单元数据在所述文档数据中的修正重要度值tf=min(4,5)=4。
步骤503、所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,计算所述文档数据的排序权重。
具体地,所述网络侧计算机根据所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,采用如下第八预设计算公式计算所述文档数据的排序权重:
keyword _ weight = Σ i = 1 n tf i × idf i
其中,keyword_weight为所述文档数据的排序权重,i为第i个单元数据,tfi为第i个单元数据在所述文档数据中的修正重要度值,idfi为第i个单元数据对应的逆向文本频率。
或者,本步骤503还可采用如下方法实现,具体地,包括:
步骤5031、所述网络侧计算机依次根据各单元数据对应的逆向文本频率,判定各单元数据对应的逆向文本频率是否小于频率预设值,将逆向文本频率小于频率预设值的单元数据标识为高频单元数据,将逆向文本频率大于频率预设值的单元数据标识为低频单元数据。
例如,“的”或“得”这类词,在文档数据中会较为频繁的出现,这类词即为高频单元数据。由于高频单元数据在每个文档数据中都会出现很多次,因此,为进一步提高所述网络侧计算机的处理速度,可先区分出高频单元数据和低频单元数据,以便后续计算时可统一为高频单元数据的修正重要度值赋予相同的预设修正重要度值,简化计算。
步骤5032、所述网络侧计算机提取高频单元数据在所述文档数据中的预设修正重要度值。
步骤5033、所述网络侧计算机根据所有低频单元数据在所述文档数据中的修正重要度值、所有低频单元数据对应的逆向文本频率、预设修正重要度值以及所有高频单元数据对应的逆向文本频率,采用如下第九预设计算公式计算所述文档数据的排序权重:
keyword _ weight = Σ i = 1 n c ( tf ci × idf ci ) + Σ i = 1 n g ( tf g × idf gi )
其中,keyword_weight为所述文档数据的排序权重,i为第i个低频单元数据或第i个高频单元数据,tfci为第i个低频单元数据在所述文档数据中的修正重要度值,idfci为第i个低频单元数据对应的逆向文本频率,tfg为所述预设修正重要度值,idfgi为第i个高频单元数据对应的逆向文本频率,nc为低频单元数据的个数,ng为高频单元数据的个数。
特殊地,若所述网络侧计算机对所述关键词进行分词处理,得到的单元数据为两个,且所述网络侧计算机识别出这两个单元数据分别与所述文档数据的主题字段的首词和尾词相同,则为了进一步提高该文档数据的排序权重,将其排在较前的位置,所述网络侧计算机可在通过上述各实施例提供的方法计算得出的排序权重keyword_weight的基础上再乘一个系数,以增大所述文档数据的排序权重。具体地,该系数可选1.1。进一步地,基于上述实施例二,若所述网络侧计算机对所述关键词进行分词处理,得到的单元数据为两个,所述网络侧计算机识别出这两个单元数据分别与所述文档数据的主题字段的首词和尾词相同,且所述网络侧计算机识别出所述关键词包含的类别信息与所述文档数据的类别字段中包含的类别信息匹配,则所述网络侧计算机,首先,根据上述实施例二中获得的类别可信度权重以及上述实施例三中计算得出的距离权重,采用如下计算式得出第二判定值:
tmp_weight2=(ranktag_weight+range_weight)/8
其中,tmp_weight2为所述第二判定值,ranktag_weight为所述类别可信度权重,range_weight为所述距离权重。
然后,所述网络侧计算机判断采用上述各实施例所述方法得到的所述文档数据的排序权重是否大于所述第二判定值。若所述网络侧计算机判断出所述文档数据的排序权重大于所述第二判定值,则所述网络侧计算机将所述第二判定值作为所述文档数据的排序权重。
进一步地,上述各实施例中所述相关参数除包括初始重要度值和逆向文件频率之外,还包括字间距权重。相应地,上述各实施例中所述步骤103、网络侧计算机获取所述关键词与所述文档数据相关的相关参数,如图7所示,还可采用如下方式实现:
步骤1031、所述网络侧计算机对所述关键词进行分词处理,得到至少一个单元数据。
步骤1032、所述网络侧计算机提取各单元数据在所述文档数据中的初始重要度值及各单元数据对应的逆向文件频率。
步骤1033、若所述网络侧计算机对关键词进行分词处理,得到的单元数据为两个或两个以上,则所述网络侧计算机根据两相邻单元数据在所述文档数据中的距离,得出两相邻单元数据在所述文档数据中的字间距权重。
其中,字间距权重只有当所述网络侧计算机对所述关键词进行分词处理,得到的单元数据为两个或两个以上时才计算。若所述网络侧计算机对所述关键词进行分词处理,得到的单元数据为一个单元数据时,所述字间距权重可为默认值,如值1。例如,所述网络侧计算机对所述关键词进行分词处理,得到的单元数据有A、B、C和D四个。在关键词中,这四个单元数据的相邻关系为ABCD。通过计算可分别计算出AB两相邻单元数据在文档数据中的字间距权重offsetweight1,BC两相邻单元数据在所述文档数据中的字间距权重offsetweight2,CD两相邻单元数据在所述文档数据中的字间距权重offsetweight3。具体地计算过程可以为:所述网络侧计算机获取两相邻单元数据在所述文档数据中的位置及距离。其中所述距离具体为所述文档数据中与两相邻单元数据相同的两个单元数据之间的字符个数。所述网络侧计算机根据位置、距离及字间距权重的对应关系,获取所述位置及距离对应的字间距权重。或者采用如下计算过程,得出所述两相邻单元数据在所述文档数据中的字间距权重,下面出现的offsetweight为所述字间距权重,具体地包括:
若所述网络侧计算机识别出两相邻单元数据中有一个单元数据为单个字符,且这两个相邻单元数据在文档数据的主题字段的主干字段(即前部)相邻,则所述网络侧计算机为这两相邻单元数据在所述文档中的offsetweight赋值为4;
若所述网络侧计算机识别出两相邻单元数据中有一个单元数据为单个字符,且这两个相邻单元数据在文档数据的地址字段或主题字段的后缀(即后部)字段,则所述网络侧计算机为这两相邻单元数据在所述文档中的offsetweight赋值为2;
若所述网络侧计算机识别出两相邻单元数据中没有单个字符,且这两个相邻单元数据在文档数据的主题字段的主干字段相邻,则所述网络侧计算机为这两相邻单元数据在所述文档中的offsetweight赋值为6;
若所述网络侧计算机识别出两相邻单元数据中没有单个字符,这两相邻单元数据在文档数据的主题字段的主干字段相邻,这两相邻单元数据中有一个具有类别信息,且所述类别信息与所述文档数据的类别字段中的包含的类别相同,则所述网络侧计算机为这两相邻单元数据在所述文档中的offsetweight赋值为8;
若所述网络侧计算机识别出两相邻单元数据中没有单个字符,这两相邻单元数据在文档数据的主题字段的主干字段不相邻,则所述网络侧计算机获取两相邻单元数据在所述文档数据的主题字段的距离,根据预设的距离和offsetweight的对应关系,获取所述距离对应的offsetweight。例如:offsetWeight=title_wt[min(7,offset_title)],其中,title_wt[]=[8,4,4,4,4,2,2,1],offset_title为获取到的两相邻单元数据在所述文档数据的主题字段的距离。若获取到的距离offset_title为5,则title_wt[min(7,5)]=title_wt[5]=2。这里需要补充的是:若文档数据包含有地址描述字段,且这两个相邻单元数据在所述地址描述字段中有相同的对应单元数据,则上述字间距权重offsetweight计算过程还可以采用如下方式来实现:所述网络侧计算机获取两相邻单元数据在所述文档数据的主题字段的距离offset_title和在文档数据的地址描述字段的距离offset_addr,取所述offset_title和offset_addr小的值min_offset=min(offset_title,offset_addr),若min_offset大于零,则所述网络侧计算机为这两相邻单元数据在所述文档中的offsetweight赋值为1,若min_offset小于零,则所述网络侧计算机为这两相邻单元数据在所述文档中的offsetweight赋值为2。
除上述情况以外,所述网络侧计算机为两相邻单元数据在所述文档中的offsetweight赋值为预设值,如默认值1。
当所述网络侧计算机获取到所述关键词语所述文档数据相关的相关参数为上述所有单元数据在所述文档数据中的初始重要度值、所有单元数据对应的逆向文件频率及两相邻单元数据在所述文档数据中的字间距权重时,相应地,上述各实施例中所述步骤105、所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重,如图8所示,还可采用如下方式实现:
步骤601、若所述网络侧计算机在所述文档数据的预指定字段中查找到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值。
具体地,所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述单元数据在所述文档数据中的修正重要度值的具体实现过程可采用上述实施例中所述步骤501中公开的相关内容,此处不再赘述。
步骤602、若在所述文档数据的预指定字段中查找不到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值。
具体地,所述网络侧计算机根据所述初始重要度值,计算所述单元数据在所述文档数据中的修正重要度值的具体实现过程可采用上述实施例中所述步骤502中公开的相关内容,此处不再赘述。
步骤603、所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率和所有两相邻单元数据在所述文档数据中的字间距权重,计算所述文档数据的排序权重。
具体地,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率和所有两相邻单元数据在所述文档数据中的字间距权重,采用如下第十预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf 1 × idf 1 × offset Weight 1 ) ( tf n × idf n × offset Weight n ) + Σ i = 2 n - 1 ( ( tf i × idf i + tf i + 1 × idf i + 1 ) × offset Weight i )
其中,i为第i个单元数据,tfi为第i个单元数据所述文档数据中的修正重要度值,idfi为第i个单元数据对应的逆向文本频率,offsetWeight1为第1个单元数据和与其相邻的第2个单元数据在文档数据中的字间距权重,offsetWeighti为第i个单元数据和与其相邻的第i+1个单元数据在文档数据中的字间距权重,offsetWeightn为预设值。
或者,本步骤603还可采用如下方法实现,具体地,包括:
步骤6031、所述网络侧计算机依次根据各单元数据对应的逆向文本频率,判定各单元数据对应的逆向文本频率是否小于频率预设值,将逆向文本频率小于频率预设值的单元数据标识为高频单元数据,将逆向文本频率大于频率预设值的单元数据标识为低频单元数据。
步骤6032、所述网络侧计算机提取高频单元数据在所述文档数据中的预设修正重要度值。
步骤6033、所述网络侧计算机根据所有低频单元数据在所述文档数据中的修正重要度值、所有低频单元数据对应的逆向文本频率、所有两相邻低频单元数据在所述文档数据中的字间距权重,预设修正重要度值以及所有高频单元数据对应的逆向文本频率,并采用如下第十一预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf c 1 × idf c 1 × offset Weight c 1 ) + tf cn c × idf cn c × offset Weight cn c + Σ i = 2 n c - 1 ( ( tf ci × idf ci + tf c ( i + 1 ) × idf c ( i + 1 ) ) × offset Weigh t ci )
+ Σ i = 1 n g ( tf g × idf gi )
其中,i为第i个低频单元数据或第i个高频单元数据,tfci为第i个低频单元数据在所述文档数据中的修正重要度值,idfci为第i个低频单元数据对应的逆向文本频率,tfg为所述预设修正重要度值,idfgi为第i个高频单元数据对应的逆向文本频率,nc为低频单元数据的个数,ng为高频单元数据的个数,offsetWeightc1为第1个低频单元数据和与其相邻的第2个低频单元数据在文档数据中的字间距权重,offsetWeightci为第i个低频单元数据和与其相邻的第i+1个低频单元数据在文档数据中的字间距权重,为预设值。
再进一步地,上述各实施例中所述的相关参数除包括:初始重要度值、逆向文件频率及字间距权重之外,还包括:影响因子。相应地,上述各实施例中所述步骤103、网络侧计算机获取所述关键词与所述文档数据相关的相关参数,如图9所示,还可采用如下方式实现:
步骤1031、所述网络侧计算机对所述关键词进行分词处理,得到至少一个单元数据。
步骤1032、所述网络侧计算机提取各单元数据在所述文档数据中的初始重要度值及各单元数据对应的逆向文件频率。
步骤1033、若所述网络侧计算机对关键词进行分词处理,得到的单元数据为两个或两个以上,则所述网络侧计算机根据两相邻单元数据在所述文档数据中的距离,得出两相邻单元数据在所述文档数据中的字间距权重。
步骤1034、若所述网络侧计算机对关键词进行分词处理,得到的单元数据为两个或两个以上,则所述网络侧计算机依次获取各单元数据与其相邻的其他单元数据在所述文档数据中的位置关系。
其中,所述相邻位置关系只有当所述网络侧计算机对所述关键词进行分词处理,得到的单元数据为两个或两个以上时,所述网络侧计算机才会获取。例如,所述网络侧计算机对关键词进行分词处理,得到的单元数据为五个,分别为A、B、C、D和E。在所述关键词中这四个单元数据的相邻关系为ABCDE。若在文档数据中的某一字段中包含有单元数据B、C和D,且在该字段中这三个单元数据的相邻关系为BC D。此时,所述网络侧计算机获取到的所述A与其相邻的B在所述文档数据中的相邻位置关系为不相邻;获取到的所述B与其相邻的A和C在所述文档数据中的相邻位置关系仅包括右相邻位置关系,获取到的所述C与其相邻的B和D在所述文档数据中的相邻位置关系包括右相邻位置关系和左相邻位置关系,获取到的所述D与其相邻的C和E在所述文档数据中的相邻位置关系仅包括左相邻位置关系,获取到的所述E与其相邻的D在所述文档数据中的相邻位置关系为不相邻。
步骤1035、所述网络侧计算机根据相邻位置关系,确定所述单元数据对应的影响因子。
具体地,若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系包括左相邻位置关系和右相邻位置关系,则采用如下第四预设计算公式计算所述单元数据对应的影响因子:
k=0.5×offsetWeight1×offsetWeight2
其中,k为所述单元数据对应的影响因子,offsetWeight1为所述单元数据和与其为左相邻的单元数据在所述文档数据中的字间距权重,offsetWeight2为所述单元数据和与其为右相邻的单元数据在所述文档数据中的字间距权重;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的相邻位置关系仅包括左相邻位置关系,则采用如下第五预设计算公式计算所述单元数据对应的影响因子:
k=offsetWeight1
其中,k为所述单元数据对应的影响因子,offsetWeight1为所述单元数据和与其为左相邻的单元数据在所述文档数据中的字间距权重;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的相邻位置关系仅包括右相邻位置关系,则采用如下第六预设计算公式计算所述单元数据对应的影响因子:
k=offsetWeight2
其中,k为所述单元数据对应的影响因子,offsetWeight2为所述单元数据和与其为右相邻的单元数据在所述文档数据中的字间距权重;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中均不相邻,且识别出所述单元数据为单个字符,则将所述单元数据对应的影响因子设置为第一预设影响因子;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中均不相邻,且识别出所述单元数据包含有两个或两个以上的字符,则将所述单元数据对应的影响因子设置为第二预设影响因子。
具体地,在实际应用中,所述第一预设影响因子可选为0,第二预设影响因子可选为1。
当所述网络侧计算机获取到所述关键词与所述文档数据相关的相关参数为上述所有单元数据在所述文档数据中的初始重要度值、所有单元数据对应的逆向文件频率、所有两相邻单元数据在所述文档数据中的字间距权重及所有单元数据对应的影响因子时,相应地,上述各实施例中所述步骤105、所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重,如图10所示,还可采用如下方式实现:
步骤701、若所述网络侧计算机在所述文档数据的预指定字段中查找到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值。
具体地,所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述单元数据在所述文档数据中的修正重要度值的具体实现过程可采用上述实施例中所述步骤501中公开的相关内容,此处不再赘述。
步骤702、若在所述文档数据的预指定字段中查找不到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值。
具体地,所述网络侧计算机根据所述初始重要度值,计算所述单元数据在所述文档数据中的修正重要度值的具体实现过程可采用上述实施例中所述步骤502中公开的相关内容,此处不再赘述。
步骤703、所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率、所有两相邻单元数据在所述文档数据中的字间距权重以及所述影响因子,计算所述文档数据的排序权重。
具体地,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率、所有两相邻单元数据在所述文档数据中的字间距权重以及所述影响因子,采用如下第十二预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf 1 × idf 1 × offset Weight 1 ) + ( tf n × idf n × offset Weight n ) + Σ i = 2 n - 1 ( ( tf i × idf i + tf i + 1 × idf i + 1 ) × offset Weight i )
+ Σ i = 1 n ( tf i × idf i × k i )
其中,i为第i个单元数据,n为单元数据的个数,tfi为第i个单元数据在文档数据中的修正重要度值,idfi为第i个单元数据对应的逆向文件频率,offsetWeight1为第1个单元数据和与其相邻的第2个单元数据在文档数据中的字间距权重,offsetWeighti为第i个单元数据和与其相邻的第i+1个单元数据在文档数据中的字间距权重,offsetWeightn为预设值,ki为第i个单元数据对应的影响因子。
或者,本步骤703还可采用如下方法实现,具体地,包括:
步骤7031、所述网络侧计算机依次根据各单元数据对应的逆向文本频率,判定各单元数据对应的逆向文本频率是否小于频率预设值,将逆向文本频率小于频率预设值的单元数据标识为高频单元数据,将逆向文本频率大于频率预设值的单元数据标识为低频单元数据。
步骤7032、所述网络侧计算机提取高频单元数据在所述文档数据中的预设修正重要度值。
步骤7033、所述网络侧计算机根据所有低频单元数据在所述文档数据中的修正重要度值、所有低频单元数据对应的逆向文本频率、所有两相邻低频单元数据在所述文档数据中的字间距权重、所有低频单元数据的影响因子、预设修正重要度值以及所有高频单元数据对应的逆向文本频率,采用如下第十三预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf c 1 × idf c 1 × offset Weight c 1 ) + tf cn c × idf cn c × offset Weight cn c + Σ i = 2 n c - 1 ( ( tf ci × idf ci + tf c ( i + 1 ) × idf c ( i + 1 ) ) × offset Weigh t ci )
+ Σ i = 1 n ( tf ci × idf ci × k ci ) + Σ i = 1 n g ( tf g × idf gi )
其中,i为第i个低频单元数据或第i个高频单元数据,tfci为第i个低频单元数据在所述文档数据中的修正重要度值,idfci为第i个低频单元数据对应的逆向文本频率,tfg为预设的高频单元数据在所述文档数据中的修正重要度值,idfgi为第i个高频单元数据对应的逆向文本频率,nc为低频单元数据的个数,ng为高频单元数据的个数,offsetWeightc1为第1个低频单元数据和与其相邻的第2个低频单元数据在文档数据中的字间距权重,offsetWeightci为第i个低频单元数据和与其相邻的第i+1个低频单元数据在文档数据中的字间距权重,为预设值,kci为第i个低频单元数据的影响因子。
这里需要进一步补充的是:在实际应用中还存在一些特殊的情况,例如,一种情况,如文档数据库中存储的文档数据均为商户文档数据,网络侧计算机为用户终端提供商户信息的搜索。当所述网络侧计算机接收到用户终端发送的搜索请求后,根据所述搜索请求携带的用户欲搜索关键词,搜索得到多个文档数据。若这些文档数据中包含有商户为一个连锁店分店的文档数据时,则所述网络侧计算机直接为该文档数据重新赋予一个第一预设的排序权重值,该第一预设的排序权重值为一个经验值,可人为设定,而不采用上述各实施例所述的方法进行计算。另一种情况,若某一商户已经停业,即文档数据库中描述该商户信息的文档数据可能不再能满足用户的搜索需求,则所述文档数据中还应该包括运营状态字段,用于显示该该文档数据所描述的商户在运营中还是已经停业的状态。具体地,当所述网络侧计算机接收到用户终端发送的搜索请求后,根据所述搜索请求携带的用户欲搜索关键词,搜索得到多个文档数据。所述网络侧计算机首先提取各文档数据的运营状态字段中的状态标识,若所述文档数据的状态标识为用于表征已停业的标识A,则所述网络侧计算机也不采用上述各实施例所述的方法进行排序权重的计算,直接为该文档数据重新赋予一个第二预设的排序权重值,该第二预设的排序权重值可以是所述第一预设的排序权重值的一半,也可以是其它数值,具体地可人为设定。除上述两种情况外,还可能存在其它特殊情况,本文不再一一列举。
下面结合一具体实例对本发明提供的所述网络侧计算机对搜索结果进行排序的数据处理方法作详细的说明。
步骤S1、用户终端向网络侧计算机发送搜索请求,所述搜索请求携带有用户欲搜索关键词,如“亚运村、曼巴名典的咖啡”。
步骤S2、所述网络侧计算机根据所述关键词,搜索得到多个包含有所述关键词的文档数据。
步骤S3、所述网络侧计算机对所述关键词进行分词处理,得到五个单元数据,分别为“亚运村”、“曼巴”、“名典”、“的”和“咖啡”。
步骤S4、所述网络侧计算机获取“亚运村”与上述搜索得到的各文档数据相关的相关参数,获取“曼巴”与上述搜索得到的各文档数据相关的相关参数,获取“名典”与上述搜索得到的各文档数据相关的相关参数,获取“的”与上述搜索得到的各文档数据相关的相关参数,获取“咖啡”与上述搜索得到的各文档数据相关的相关参数。
步骤S5、所述网络侧计算机搜索得到的多个文档数据的完整度权重。
步骤S6、所述网络侧计算机通过类别倾向匹配算法依次确定各单元数据是否与预设的类别匹配。具体地,所述网络侧计算机识别出所述关键词包含有餐饮类别信息,即网络侧计算机通过类别倾向匹配算法确定出单元数据“咖啡”与预设的餐饮类别匹配,则所述网络侧计算机提取所述文档数据属于所述类别信息的类别可信度权重。
步骤S7、所述网络侧计算机获取所述文档数据的数据可信度权重。
步骤S8、所述网络侧计算机根据所述文档数据的数据可信度权重和所述类别可信度权重,采用如下计算式计算所述文档数据的类别匹配权重。
ranktag_weight=ranktag_tf×ranktag_idf×detail_level
×doc_reliability×ranktag_ratio
其中,ranktag_tf=默认取值为5,ranktag_idf=默认取值为5,detail_level为文档数据的完整度权重,doc_reliability为数据可信度权重,ranktag_ratio为类别可信度权重。
步骤S9、所述网络侧计算机获取根据各单元数据的逆向文件频率,判断各单元数据的逆向文件频率是否小于预设值,若是,所述网络侧计算机将所述单元数据标识为高频单元数据,否则,所述网络侧计算机将所述单元数据标识为低频单元数据。通过判断可知,“的”为高频单元数据,在所有的文档数据中都有;其他单元数据均为为低频单元数据。
步骤S10、由于低频单元数据的个数keyword_term_num>2,“曼巴”、“名典”、“的”和“咖啡”这四个单元数据在关键词中两两相邻。所述网络侧计算机分别获取各单元数据和与其相邻的其他单元数据在文档数据中的相邻位置关系。所述网络侧计算机根据获取到的所述位置关系,计算各单元数据对应的影响因子。
步骤S11、若用户终端在向所述网络侧计算机发送所述的搜索请求时,同时向所述网络侧计算上报了当前所述用户终端所在位置的地理坐标,如经纬度坐标,则所述网络侧计算机根据所述用户终端上报的地理坐标及从包含有地理坐标字段的文档数据中提取出的地理坐标,计算两地理坐标所确定的两地点间的距离。然后,所述网络侧计算机根据所述距离,计算所述文档数据的距离权重。
步骤S12、所述网络侧计算机采用如下计算式计算得出各文档数据的排序权重:
keyword _ weight = 1 2 ( tf 1 × idf 1 × offset Weight 1 ) + tf 4 × idf 4 × offset Weight 4 + Σ i = 2 3 ( ( tf ci × idf ci + tf c ( i + 1 ) × idf c ( i + 1 ) ) × offset Weigh t ci )
+ tf g × idf g + Σ i = 1 4 ( tf ci × idf ci × k ci ) + ranktag _ weight + range _ weight
其中,i为第i个标识为低频单元数据的单元数据;tfci为第i个标识为低频单元数据的单元数据在文档数据中的重要度值;idfci为第i个标识为低频单元数据的单元数据对应的逆向文件频率;offsetWeightci为第i个单元数据和与其相邻的第i+1单元数据在文档中的字间距权重;offsetWeight4为预设字间距权重值;高频单元数据的tfg可为默认值,如1。;ki为第i个单元数据的影响因子。
进一步地,本发明各实施例提供的所述网络侧计算机对搜索结果进行排序的数据处理方法,还可包括如下步骤:根据用户输入的排序要求信息,获取各文档对应的附加排序值,根据所述附加排序值按照用户输入的排序要求信息对所述文档进行排序。例如,若数据库中存储的文档信息为商户信息,则该附加排序值可以是:距离、知名度值(或星级)、点评数、点击数或产品价格等。所述排序要求信息可以是:距离由近至远,星级由高到低,点评数由多到少,点击数由多至少等等。其中,所述距离为用户欲搜索关键词包含的点地址信息或地理坐标信息到根据文档数据信息中的地址信息确定的中心点的距离distance。用户欲搜索关键词包含的地理坐标信息可通过GPS、移动运营商网络或Wi-Fi自动获取。更进一步地,还可包括:若获取到用户输入有过滤参数或过滤区间,则根据各文档对应的附加排序值,将附加排序值为过滤参数或在所述过滤区间内的文档筛选出来,并按照所述附加排序值将筛选出来的文档进行排序。例如,若用户输入过滤参数为产品价格区间,如价格在200~500元,则根据各文档中产品价格,将产品价格在200~500元之间的文档筛选出来,并按照产品价格进行排序。同样,还可将星级为用户输入星级,点评数为用户输入点评区间,点击数为用户输入点击区间等的文档筛选出来,并按照用户输入的排序要求信息进行排序。或者,若获取到的用户输入的过滤参数为类别参数,则根据文档类别字段中的类别,将属于用户输入的类别参数的文档筛选出来,再根据用户输入的排序要求信息对筛选出的同一类型的文档进行排序。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (26)

1.一种网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,包括:
网络侧计算机接收用户终端发送的搜索请求,所述搜索请求携带有用户欲搜索关键词;
所述网络侧计算机根据所述关键词,搜索得到文档数据;
所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数;
所述网络侧计算机提取所述文档数据的完整度权重;
所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重;
所述网络侧计算机根据所述排序权重对所述文档数据进行排序,并向所述用户终端返回排序结果。
2.根据权利要求1所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,还包括:
若所述网络侧计算机识别出所述关键词包含有类别信息,则获取所述文档数据对应所述类别信息的类别可信度权重;
所述网络侧计算机获取所述文档数据的数据可信度权重;
所述网络侧计算机根据所述完整度权重、类别可信度权重和数据可信度权重,计算所述文档数据的类别匹配权重;
相应地,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:
所述网络侧计算机根据所述文档数据的类别匹配权重,修正所述文档数据的排序权重。
3.根据权利要求2所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述若所述网络侧计算机识别出所述关键词包含有类别信息,则获取所述文档数据对应所述类别信息的类别可信度权重之前,还包括:
所述网络侧计算机获取文档数据;
所述网络侧计算机设置所述文档数据对应各类别信息的类别可信度权重。
4.根据权利要求2或3所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机获取所述文档数据的数据可信度权重,包括:
所述网络侧计算机统计所述文档数据的点评引用字段中包含的点评信息的数量以及被引用记录数量;
所述网络侧计算机根据所述点评信息的数量以及被引用记录数量,得出所述文档数据的总关注数量;
所述网络侧计算机根据总关注数量与映射值的对应关系,获取所述总关注数量对应的映射值;
所述网络侧计算机根据所述映射值,计算所述文档数据的数据可信度权重。
5.根据权利要求2或3所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述文档数据的完整度权重、类别可信度权重和数据可信度权重,计算所述文档数据的类别匹配权重,包括:
所述网络侧计算机根据所述文档数据的完整度权重、类别可信度权重和数据可信度权重,采用如下第一预设计算公式计算所述文档数据的类别匹配权重:
ranktag_weight=ranktag_tf×ranktag_idf×detail_level
×doc_reliability×ranktag_ratio
其中,ranktag_tf为预设的类别信息重要度值,ranktag_idf为预设的类别信息逆向文件频率,detail_level为文档数据的完整度权重,doc_reliability为数据可信度权重,ranktag_ratio为类别可信度权重。
6.根据权利要求2或3所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述文档数据的类别匹配权重,修正所述文档数据的排序权重,具体为:
所述网络侧计算机根据所述文档数据的类别匹配权重,采用如下第二预设计算公式修正所述文档数据的排序权重,得出修正后的所述文档数据的排序权重:
keyword_weight_after=keyword_weight+ranktag_weight
其中,keyword_weight为所述文档数据的排序权重,keyword_weight_after为修正后的所述文档数据的排序权重,ranktag_weight为所述文档数据的类别匹配权重。
7.根据权利要求1~3中任一所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,还包括:
若所述网络侧计算机识别出所述关键词包含有地址信息,则查询空间数据库以获取所述地址信息对应的第一地理坐标;
若所述文档数据包含有地理坐标字段,则所述网络侧计算机提取所述地理坐标字段中的第二地理坐标;
所述网络侧计算机根据所述第一地理坐标和所述第二地理坐标,计算两地理坐标确定的两地点间的距离;
所述网络侧计算机根据所述距离,计算所述包含有地理坐标字段的文档数据的距离权重;
相应地,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:
所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重。
8.根据权利要求1~3中任一所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,还包括:
所述网络侧计算机接收用户终端上报的终端当前所在位置的第三地理坐标;
若所述文档数据包含有地理坐标字段,则所述网络侧计算机提取所述地理坐标字段中的第二地理坐标;
所述网络侧计算机根据所述第三地理坐标和所述第二地理坐标,计算两地理坐标确定的两地点间的距离;
所述网络侧计算机根据所述距离,计算所述包含有地理坐标字段的文档数据的距离权重;
相应地,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重之后,还包括:
所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重。
9.根据权利要求8所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述距离权重,修正所述文档数据的排序权重,具体为:
所述网络侧计算机根据所述距离权重,采用如下第三预设计算公式修正所述文档数据的排序权重,得出修正后的所述文档数据的排序权重:
keyword_weight_after=keyword_weight+range_weight
其中,keyword_weight为所述文档数据的排序权重,keyword_weight_after为修正后的所述文档数据的排序权重,range_weight为所述距离权重。
10.根据权利要求1~3中任一所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述相关参数包括初始重要度值和逆向文件频率;相应地,所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数,包括:
所述网络侧计算机对所述关键词进行分词处理,得到至少一个单元数据;
所述网络侧计算机提取各单元数据在所述文档数据中的初始重要度值及各单元数据对应的逆向文件频率。
11.根据权利要求10所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述相关参数还包括字间距权重;相应地,所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数,还包括:
若所述网络侧计算机对关键词进行分词处理,得到的单元数据为两个或两个以上,则所述网络侧计算机根据所述关键词中的两相邻单元数据在所述文档数据中的距离,得出两相邻单元数据在所述文档数据中的字间距权重。
12.根据权利要求11所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述相关参数还包括影响因子;相应地,所述网络侧计算机获取所述关键词与所述文档数据相关的相关参数,还包括:
若所述网络侧计算机对关键词进行分词处理,得到的单元数据为两个或两个以上,则所述网络侧计算机依次获取各单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系包括左相邻位置关系和右相邻位置关系,则采用如下第四预设计算公式计算所述单元数据对应的影响因子:
k=0.5×offsetWeight1×offsetWeight2
其中,k为所述单元数据对应的影响因子,offsetWeight1为所述单元数据和与其为左相邻的单元数据在所述文档数据中的字间距权重,offsetWeight2为所述单元数据和与其为右相邻的单元数据在所述文档数据中的字间距权重;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系仅包括左相邻位置关系,则采用如下第五预设计算公式计算所述单元数据对应的影响因子:
k=offsetWeight1
其中,k为所述单元数据对应的影响因子,offsetWeight1为所述单元数据和与其为左相邻的单元数据在所述文档数据中的字间距权重;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中的位置关系仅包括右相邻位置关系,则采用如下第六预设计算公式计算所述单元数据对应的影响因子:
k=offsetWeight2
其中,k为所述单元数据对应的影响因子,offsetWeight2为所述单元数据和与其为右相邻的单元数据在所述文档数据中的字间距权重;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中均不相邻,且识别出所述单元数据为单个字符,则将所述单元数据对应的影响因子设置为第一预设影响因子;
若所述网络侧计算机获取到的所述单元数据和在所述关键词中与其相邻的其他单元数据在所述文档数据中均不相邻,且识别出所述单元数据包含有两个或两个以上的字符,则将所述单元数据对应的影响因子设置为第二预设影响因子。
13.根据权利要求1~3中任一所述的网络侧计算机对搜索结果进行排序的方法,其特征在于,所述网络侧计算机提取所述文档数据的完整度权重之前,还包括:
所述网络侧计算机获取文档数据包含的所有字段,所有字段包括:主题字段、地址描述字段、电话字段、电话加锁字段、地理坐标字段、图片字段、文档内容描述字段和点评引用字段中的一种或任意组合;
所述网络侧计算机根据获取到的所有字段,确定所述文档数据的完整度权重;
所述网络侧计算机存储所述文档数据的完整度权重。
14.根据权利要求13所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机获取文档数据包含的所有字段之前,还包括:
所述网络侧计算机对文档数据进行解析,根据所述解析结果将所述文档数据划分为至少一个字段。
15.根据权利要求13所述的计算机基于网络数据和地理信息数据搜索排序的数据处理方法,其特征在于,所述网络侧计算机根据获取到的所有字段,确定所述文档数据的完整度权重,包括:
若所述网络侧计算机获取到的所有字段中包含有地址描述字段,则提取所述地址描述字段中的地址描述字符,并查询地址描述字符数据库,当查询出所述地址描述字符数据库中存在有所述地址描述字符时,将当前权重值更新为所述当前权重值与第一预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有电话字段,则提取所述电话字段中的号码字符串,并根据预设的电话号码编码规则判定所述号码字符串是否符合所述电话号码编码规则,若是,将当前权重值更新为所述当前权重值与第二预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有电话加锁字段,则提取所述电话加锁字段中的加锁标识,当所述加锁标识为已加锁标识时,将当前权重值更新为所述当前权重值与第三预设值之和;和/或
若所述网络侧计算机获取到的所有所述字段中包含有地理坐标字段,则将当前权重值更新为所述当前权重值与第四预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有图片字段,则将当前权重值更新为所述当前权重值与第五预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有文档内容描述字段,则将当前权重值更新为所述当前权重值与第六预设值之和;和/或
若所述网络侧计算机获取到的所有字段中包含有点评引用字段,则将当前权重值更新为所述当前权重值与第七预设值之和;
所述网络侧计算机将当前权重值作为所述文档数据的完整度权重。
16.根据权利要求10所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重,包括:
若所述网络侧计算机在所述文档数据的预指定字段中查找到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;
若在所述文档数据的预指定字段中查找不到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;
所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,计算所述文档数据的排序权重。
17.根据权利要求16所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,计算所述文档数据的排序权重,具体为:
所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,采用如下第八预设计算公式计算所述文档数据的排序权重:
keyword _ weight = Σ i = 1 n tf i × idf i
其中,keyword_weight为所述文档数据的排序权重,i为第i个单元数据,tfi为第i个单元数据在所述文档数据中的修正重要度值,idfi为第i个单元数据对应的逆向文本频率。
18.根据权利要求16所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值和所有单元数据对应的逆向文本频率,计算所述文档数据的排序权重,包括:
所述网络侧计算机依次根据所述关键词中的各单元数据对应的逆向文本频率,判定各单元数据对应的逆向文本频率是否小于频率预设值,将逆向文本频率小于频率预设值的单元数据标识为高频单元数据,将逆向文本频率大于频率预设值的单元数据标识为低频单元数据;
所述网络侧计算机提取高频单元数据在所述文档数据中的预设修正重要度值;
所述网络侧计算机根据所有低频单元数据在所述文档数据中的修正重要度值、所有低频单元数据对应的逆向文本频率、预设修正重要度值以及所有高频单元数据对应的逆向文本频率,采用如下第九预设计算公式计算所述文档数据的排序权重:
keyword _ weight = Σ i = 1 n c ( tf ci × idf ci ) + Σ i = 1 n g ( tf g × idf gi )
其中,keyword_weight为所述文档数据的排序权重,i为第i个低频单元数据或第i个高频单元数据,tfci为第i个低频单元数据在所述文档数据中的修正重要度值,idfci为第i个低频单元数据对应的逆向文本频率,tfg为所述预设修正重要度值,idfgi为第i个高频单元数据对应的逆向文本频率,nc为低频单元数据的个数,ng为高频单元数据的个数。
19.根据权利要求11所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重,包括:
若所述网络侧计算机在所述文档数据的预指定字段中查找到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;
若在所述文档数据的预指定字段中查找不到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;
所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率和所有两相邻单元数据在所述文档数据中的字间距权重,计算所述文档数据的排序权重。
20.根据权利要求19所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率和所有两相邻单元数据在所述文档数据中的字间距权重,计算所述文档数据的排序权重,具体为:
所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率和所有两相邻单元数据在所述文档数据中的字间距权重,采用如下第十预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf 1 × idf 1 × offset Weight 1 ) ( tf n × idf n × offset Weight n ) + Σ i = 2 n - 1 ( ( tf i × idf i + tf i + 1 × idf i + 1 ) × offset Weight i )
其中,i为第i个单元数据,tfi为第i个单元数据所述文档数据中的修正重要度值,idfi为第i个单元数据对应的逆向文本频率,offsetWeight1为第1个单元数据和与其相邻的第2个单元数据在文档数据中的字间距权重,offsetWeighti为第i个单元数据和与其相邻的第i+1个单元数据在文档数据中的字间距权重,offsetWeightn为预设值。
21.根据权利要求19所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率和所有两相邻单元数据在所述文档数据中的字间距权重,计算所述文档数据的排序权重,包括:
所述网络侧计算机依次根据各单元数据对应的逆向文本频率,判定各单元数据对应的逆向文本频率是否小于频率预设值,将逆向文本频率小于频率预设值的单元数据标识为高频单元数据,将逆向文本频率大于频率预设值的单元数据标识为低频单元数据;
所述网络侧计算机提取高频单元数据在所述文档数据中的预设修正重要度值;
所述网络侧计算机根据所有低频单元数据在所述文档数据中的修正重要度值、所有低频单元数据对应的逆向文本频率、所有两相邻低频单元数据在所述文档数据中的字间距权重,预设修正重要度值以及所有高频单元数据对应的逆向文本频率,并采用如下第十一预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf c 1 × idf c 1 × offset Weight c 1 ) + tf cn c × idf cn c × offset Weight cn c + Σ i = 2 n c - 1 ( ( tf ci × idf ci + tf c ( i + 1 ) × idf c ( i + 1 ) ) × offset Weigh t ci )
+ Σ i = 1 n g ( tf g × idf gi )
其中,i为第i个低频单元数据或第i个高频单元数据,tfci为第i个低频单元数据在所述文档数据中的修正重要度值,idfci为第i个低频单元数据对应的逆向文本频率,tfg为所述预设修正重要度值,idfgi为第i个高频单元数据对应的逆向文本频率,nc为低频单元数据的个数,ng为高频单元数据的个数,offsetWeightc1为第1个低频单元数据和与其相邻的第2个低频单元数据在文档数据中的字间距权重,offsetWeightci为第i个低频单元数据和与其相邻的第i+1个低频单元数据在文档数据中的字间距权重,为预设值。
22.根据权利要求12所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述相关参数及完整度权重,计算所述文档数据的排序权重,包括:
若所述网络侧计算机在所述文档数据的预指定字段中查找到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;
若在所述文档数据的预指定字段中查找不到与所述关键词中的一个单元数据相同的单元数据,则所述网络侧计算机根据所述初始重要度值,计算所述关键词中的一个单元数据在所述文档数据中的修正重要度值;
所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率、所有两相邻单元数据在所述文档数据中的字间距权重以及所有单元数据对应的影响因子,计算所述文档数据的排序权重。
23.根据权要求22所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率、所有两相邻单元数据在所述文档数据中的字间距权重以及所述影响因子,计算所述文档数据的排序权重,具体为:
所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率、所有两相邻单元数据在所述文档数据中的字间距权重以及所述影响因子,采用如下第十二预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf 1 × idf 1 × offset Weight 1 ) + ( tf n × idf n × offset Weight n ) + Σ i = 2 n - 1 ( ( tf i × idf i + tf i + 1 × idf i + 1 ) × offset Weight i )
+ Σ i = 1 n ( tf i × idf i × k i )
其中,i为第i个单元数据,n为单元数据的个数,tfi为第i个单元数据在文档数据中的修正重要度值,idfi为第i个单元数据对应的逆向文件频率,offsetWeight1为第1个单元数据和与其相邻的第2个单元数据在文档数据中的字间距权重,offsetWeighti为第i个单元数据和与其相邻的第i+1个单元数据在文档数据中的字间距权重,offsetWeightn为预设值,ki为第i个单元数据的影响因子。
24.根据权利要求22所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述关键词中的所有单元数据在所述文档数据中的修正重要度值、所有单元数据对应的逆向文本频率、所有两相邻单元数据在所述文档数据中的字间距权重以及所述影响因子,计算所述文档数据的排序权重,具体为:
所述网络侧计算机依次根据各单元数据对应的逆向文本频率,判定各单元数据对应的逆向文本频率是否小于频率预设值,将逆向文本频率小于频率预设值的单元数据标识为高频单元数据,将逆向文本频率大于频率预设值的单元数据标识为低频单元数据;
所述网络侧计算机提取高频单元数据在所述文档数据中的预设修正重要度值;
所述网络侧计算机根据所有低频单元数据在所述文档数据中的修正重要度值、所有低频单元数据对应的逆向文本频率、所有两相邻低频单元数据在所述文档数据中的字间距权重、所有低频单元数据的影响因子、预设修正重要度值以及所有高频单元数据对应的逆向文本频率,采用如下第十三预设计算公式计算所述文档数据的排序权重:
keyword _ weight = 1 2 ( tf c 1 × idf c 1 × offset Weight c 1 ) + tf cn c × idf cn c × offset Weight cn c + Σ i = 2 n c - 1 ( ( tf ci × idf ci + tf c ( i + 1 ) × idf c ( i + 1 ) ) × offset Weigh t ci )
+ Σ i = 1 n ( tf ci × idf ci × k ci ) + Σ i = 1 n g ( tf g × idf gi )
其中,i为第i个低频单元数据或第i个高频单元数据,tfci为第i个低频单元数据在所述文档数据中的修正重要度值,idfci为第i个低频单元数据对应的逆向文本频率,tfg为预设的高频单元数据在所述文档数据中的修正重要度值,idfgi为第i个高频单元数据对应的逆向文本频率,nc为低频单元数据的个数,ng为高频单元数据的个数,offsetWeightc1为第1个低频单元数据和与其相邻的第2个低频单元数据在文档数据中的字间距权重,offsetWeightci为第i个低频单元数据和与其相邻的第i+1个低频单元数据在文档数据中的字间距权重,为预设值,kci为第i个低频单元数据的影响因子。
25.根据权利要求16、19或22中任一所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述完整度权值和所述初始重要度值,计算所述单元数据在所述文档数据中的修正重要度值,具体为:
所述网络侧计算机根据所述完整度权值和所述初始重要度值,采用如下第十四预设计算公式计算所述单元数据在所述文档数据中的修正重要度值:
tf=min(4,term_tf)×detail_level
其中,tf为所述修正重要度值;term_tf为所述初始重要度值;detail_level为所述完整度权值。
26.根据权利要求16、19或22中任一所述的网络侧计算机对搜索结果进行排序的数据处理方法,其特征在于,所述网络侧计算机根据所述初始重要度值,计算所述单元数据在所述文档数据中的修正重要度值,具体为:
所述网络侧计算机根据所述初始重要度值,采用如下第十五预设计算公式计算所述单元数据在所述文档数据中的修正重要度值:
tf=min(4,term_tf)
其中,tf为所述修正重要度值;term_tf为所述初始重要度值。
CN201310029550.1A 2013-01-24 2013-01-24 网络侧计算机对搜索结果进行排序的数据处理方法 Expired - Fee Related CN103970747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310029550.1A CN103970747B (zh) 2013-01-24 2013-01-24 网络侧计算机对搜索结果进行排序的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310029550.1A CN103970747B (zh) 2013-01-24 2013-01-24 网络侧计算机对搜索结果进行排序的数据处理方法

Publications (2)

Publication Number Publication Date
CN103970747A true CN103970747A (zh) 2014-08-06
CN103970747B CN103970747B (zh) 2017-02-15

Family

ID=51240263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310029550.1A Expired - Fee Related CN103970747B (zh) 2013-01-24 2013-01-24 网络侧计算机对搜索结果进行排序的数据处理方法

Country Status (1)

Country Link
CN (1) CN103970747B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504070A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 一种搜索的方法和装置
WO2016115939A1 (zh) * 2015-01-22 2016-07-28 百度在线网络技术(北京)有限公司 一种搜索方法、装置、设备及计算机存储介质
WO2017024966A1 (zh) * 2015-08-11 2017-02-16 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置
CN106940703A (zh) * 2016-01-04 2017-07-11 腾讯科技(北京)有限公司 推送信息粗选排序方法及装置
CN107958081A (zh) * 2017-12-14 2018-04-24 泰康保险集团股份有限公司 信息处理方法与装置
CN108733848A (zh) * 2018-06-11 2018-11-02 百应科技(北京)有限公司 一种搜索知识的方法及系统
CN112084771A (zh) * 2020-07-22 2020-12-15 浙江工业大学 一种基于地址的单字权重统计方法
US20210350439A1 (en) * 2017-06-15 2021-11-11 Todd Fiore System and method for trusted contact, business selection with automated menuing using trusted friends' and family's recommendations

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067274A1 (en) * 2005-09-16 2007-03-22 International Business Machines Corporation Hybrid push-down/pull-up of unions with expensive operations in a federated query processor
CN101582070A (zh) * 2008-05-16 2009-11-18 爱帮聚信(北京)科技有限公司 本地搜索排序方法
CN102737018A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 基于非线性统一权值对检索结果进行排序的方法及装置
CN102890711A (zh) * 2012-09-13 2013-01-23 中国人民解放军国防科学技术大学 一种检索排序方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067274A1 (en) * 2005-09-16 2007-03-22 International Business Machines Corporation Hybrid push-down/pull-up of unions with expensive operations in a federated query processor
CN101582070A (zh) * 2008-05-16 2009-11-18 爱帮聚信(北京)科技有限公司 本地搜索排序方法
CN102737018A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 基于非线性统一权值对检索结果进行排序的方法及装置
CN102890711A (zh) * 2012-09-13 2013-01-23 中国人民解放军国防科学技术大学 一种检索排序方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504070B (zh) * 2014-12-22 2019-06-04 北京奇虎科技有限公司 一种搜索的方法和装置
CN104504070A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 一种搜索的方法和装置
WO2016115939A1 (zh) * 2015-01-22 2016-07-28 百度在线网络技术(北京)有限公司 一种搜索方法、装置、设备及计算机存储介质
WO2017024966A1 (zh) * 2015-08-11 2017-02-16 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置
CN106708835A (zh) * 2015-08-11 2017-05-24 阿里巴巴集团控股有限公司 一种数据表的分类方法和装置
CN106940703B (zh) * 2016-01-04 2020-09-11 腾讯科技(北京)有限公司 推送信息粗选排序方法及装置
CN106940703A (zh) * 2016-01-04 2017-07-11 腾讯科技(北京)有限公司 推送信息粗选排序方法及装置
US20210350439A1 (en) * 2017-06-15 2021-11-11 Todd Fiore System and method for trusted contact, business selection with automated menuing using trusted friends' and family's recommendations
CN107958081A (zh) * 2017-12-14 2018-04-24 泰康保险集团股份有限公司 信息处理方法与装置
CN107958081B (zh) * 2017-12-14 2021-11-30 泰康保险集团股份有限公司 信息处理方法与装置
CN108733848A (zh) * 2018-06-11 2018-11-02 百应科技(北京)有限公司 一种搜索知识的方法及系统
CN108733848B (zh) * 2018-06-11 2020-08-11 百应科技(北京)有限公司 一种搜索知识的方法及系统
CN112084771A (zh) * 2020-07-22 2020-12-15 浙江工业大学 一种基于地址的单字权重统计方法

Also Published As

Publication number Publication date
CN103970747B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN103970747A (zh) 网络侧计算机对搜索结果进行排序的数据处理方法
CN109359244B (zh) 一种个性化信息推荐方法和装置
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN108885624B (zh) 信息推荐系统及方法
CN111738628A (zh) 一种风险群组识别方法及装置
TW201935292A (zh) 投訴舉報類別的排序方法和裝置
CN110781971B (zh) 一种商户类型识别方法、装置、设备和可读介质
CN102402757A (zh) 信息提供方法及装置、综合关联度确定方法及装置
CN104462611A (zh) 信息排序模型的建模方法、排序方法及建模装置、排序装置
CN102043863B (zh) 一种Web服务聚类的方法
CN103136683A (zh) 计算产品参考价格的方法、装置及产品搜索方法、系统
CN108777004B (zh) 高速公路客运车辆跨省匹配方法及装置
CN107395680A (zh) 店铺群信息推送和输出方法及装置、设备
CN109460398A (zh) 时间序列数据的补全方法、装置及电子设备
CN106372964A (zh) 一种行为忠诚度的识别及管理方法、系统和终端
CN105335363A (zh) 一种对象推送方法及系统
CN105786810A (zh) 类目映射关系的建立方法与装置
CN103309885A (zh) 一种在电子交易平台中识别特征用户的方法及装置和搜索方法及装置
CN114139725A (zh) 业务对象的预测方法、设备及存储介质
CN113435900A (zh) 交易风险确定方法、装置和服务器
CN104751234B (zh) 一种用户资产的预测方法及装置
CN105787004A (zh) 一种文本分类方法及装置
CN106204163B (zh) 一种用户属性特征的确定方法和装置
Cheng Big data for development in China
CN101582070A (zh) 本地搜索排序方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20171226

Address after: 200433 Shanghai Pudong New Area Jinhai Road, 2449 Lane 6, 11 layer L area

Patentee after: Shanghai Betula science and Technology Co., Ltd.

Address before: 100000 Beijing city Haidian District Qingyun aromatic garden Ting Building 9, 20 storey building 2007 room contemporary Qingyun

Patentee before: Chuang Rui Xin Tong (Beijing) Co., LTD

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170215

Termination date: 20200124