CN108959644B - 搜索排序方法、装置、计算机设备和存储介质 - Google Patents

搜索排序方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108959644B
CN108959644B CN201810848395.9A CN201810848395A CN108959644B CN 108959644 B CN108959644 B CN 108959644B CN 201810848395 A CN201810848395 A CN 201810848395A CN 108959644 B CN108959644 B CN 108959644B
Authority
CN
China
Prior art keywords
weight
text similarity
time dimension
search
objective importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810848395.9A
Other languages
English (en)
Other versions
CN108959644A (zh
Inventor
彭钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201810848395.9A priority Critical patent/CN108959644B/zh
Priority to US16/760,437 priority patent/US11194822B2/en
Priority to PCT/CN2018/113418 priority patent/WO2020019563A1/zh
Publication of CN108959644A publication Critical patent/CN108959644A/zh
Application granted granted Critical
Publication of CN108959644B publication Critical patent/CN108959644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Abstract

本申请涉及一种搜索排序方法、装置、计算机设备和存储介质。所述方法包括:获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果;根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度;根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重;根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值;根据所述综合权值对所述多个初始检索结果进行排序。采用本方法能够方便用户快速查找到相关信息,简化了操作提高了查找效率。

Description

搜索排序方法、装置、计算机设备和存储介质
技术领域
本申请涉及企业即时通讯系统技术领域,特别是涉及一种搜索排序方法、装置、计算机设备和存储介质。
背景技术
随着智能设备的快速发展,聊天应用软件越来越多,聊天应用软件的使用能够方便用户进行异地沟通。其中聊天应用软件包括个人聊天应用软件和企业聊天应用软件。企业聊天应用软件的使用过程中,用户需要查找相关信息时,会启动搜索功能,如搜索聊天信息、联系人或者群聊,以便快速查找到相关信息或者快速建立聊天链接。
目前,在实现企业聊天应用软件搜索功能时,发现存在如下问题:
企业聊天应用软件的搜索结果是按不同的对象分开展示的,如联系人、群聊、消息等信息都是分栏目展示的,且显示的对象是通过时间先后来进行排序,用户根据展示的栏目来查找相关信息,操作繁琐且耗时多。
发明内容
基于此,有必要针对上述技术问题,提供一种能够反映公众评价数据的搜索排序方法、装置、计算机设备和存储介质。
一种搜索排序方法,所述方法包括:
获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果;
根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度;
根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重;
根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值;
根据所述综合权值对所述多个初始检索结果进行排序。
一种搜索排序装置,所述装置包括:
初始检索结果提取模块,用于获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果;
特征因子提取模块,用于提取每个所述初始检索结果相关的文本相似度、更新时间维度和联系人客观重要度;
权重计算模块,用于根据文本相似度、更新时间维度以及联系人客观重要度,获取文本相似度权重、更新时间维度权重和联系人客观重要度权重;
权值计算模块,根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值;
排序模块,用于根据所述综合权值对所述多个初始检索结果进行排序。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述搜索排序方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述搜索排序方法的步骤。
上述搜身排序方法、装置、计算机设备和存储介质,通过获取更新时间维度权重来确保排序是依照时间进行,通过联系人客观重要度进行排序推荐,使得公众评价数据高的搜索结果排序靠前,通过多个维度来进行搜索结果的排序,使得排序智能化,方便用户快速查找到相关信息,简化了操作提高了查找效率。
附图说明
图1为一个实施例中搜索排序方法的应用环境图;
图2为一个实施例中搜索排序方法的流程示意图;
图3为一个实施例中获取文本相似度权重步骤的流程示意图;
图4为一个实施例中获取更新时间维度权重步骤的流程示意图;
图5为一个实施例中获取联系人客观重要度权重步骤的流程示意图;
图6为一个实施例中搜索排序装置的结构框图;
图7为一个实施例中特征因子提取模块的结构框图;
图8为一个实施例中权值计算模块的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的搜索排序方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。在终端102输入搜索关键词,服务器104获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果;根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度;根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重;根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值;根据所述综合权值对所述多个初始检索结果进行排序,排序的结果显示于终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种搜索排序方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S210,获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果。
其中,搜索关键词为用户在使用搜索引擎查找相关信息时输入的字、词、符号等输入信息。本实施例中栏目包括联系人栏、群聊栏、消息栏。
具体地,在终端输入搜索关键词,终端获取用户输入的搜素关键词发送至服务器。
S220,根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度。
其中,每条初始检索结果包含的字段包括:对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门信息一种或多种。其中,对象类型包括聊天应用、邮件,对象状态包括是否注册、是否离职。
作为一个优选的实施方式,所述提取每个所述初始检索结果相关的文本相似度、更新时间维度和联系人客观重要度之前包括:对所述初始检索结果进行筛选。其中,所述对所述初始检索结果进行筛选包括:离职用户且无聊天记录的初始检索结果不进行排序;将未注册用户的初始检索结果排在最后。聊天记录可以通过聊天更新时间或最近一条消息对应位置确定。
S230,根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重。
S240,根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值。
其中,文本相似度参数用于表征搜索关键词与搜索结果匹配程度,更新时间维度参数用于表征搜索结果聊天记录更新情况,联系人客观重要度用于表征公众对所述搜索结果的评价高低。其中,所述联系人客观重要度由公众评价数据确定。
S250,根据所述综合权值对所述多个初始检索结果进行排序。
其中,进行排序时,可以依据权值从大到小来进行排序,也可以依据权值从小到大来进行排序。采用此种技术方案不依据栏目来区分排序方式,而是根据权值来进行排序,实现快速查找到相关信息。
上述搜索排序方法中,通过获取更新时间维度权重来确保排序是依照时间进行,通过联系人客观重要度进行排序推荐,使得公众评价数据高的搜索结果排序靠前,通过多个维度来进行搜索结果的排序,使得排序智能化,方便用户快速查找到相关信息,简化了操作提高了查找效率。
在一个实施例中,如图3所示,所述获取文本相似度权重包括:
S321,计算所述关键词在所述初始检索结果中的命中率、顺序一致性指标、位置紧密度和覆盖率。
S322,根据所述命中率、顺序一致性指标、位置紧密度和覆盖率,计算文本相似度权重。
在一个实施例中,所述根据所述命中率、顺序一致性指标、位置紧密度和覆盖率计算文本相似度权重的步骤包括:根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值;根据所述命中率、顺序一致性指标、位置紧密度和覆盖率和所述偏移值和修正值进行融合计算,得到文本相似度权重。其中,所述偏移值和修正值由机器学习确定。其中,根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值包括:根据所述命中率获取命中率偏移值和命中率修正值,根据所述顺序一致性指标获取顺序一致性偏移值和顺序一致性修正值,根据所述位置紧密度指标获取紧密度偏移值和紧密度修正值,根据所述覆盖率获取偏移值和修正值。
在其中一个实施例中,计算文本相似度权重具体公式为:
text_similar=(a*hit+b)*(c*sequence+d)*(e*position+f)*(g*cover+h);其中,text_similar为文本相似度权重,hit为文本命中率,sequence为顺序一致性指标,position为位置紧密度,cover为覆盖率。其中,a、b为命中率的偏移值和修正值,c、d为顺序一致性指标的偏移值和修正值,e、f为位置紧密度的偏移值和修正值,g、h为覆盖率的偏移值和修正值,其中,偏移值越大表示该项的重要程度越高。其中,文本命中率表示搜索关键词在对应的文本文档中命中的个数与搜索关键词的总个数的比率,显然所占的比率越高表示初始检索结果越接近搜索目标。顺序一致性指标表示搜索关键词的顺序与对应的文本文档的出现的搜索关键词的顺序的一致性,顺序一致性通过逆序的个数的比例来表达,如(1,2,3)逆序个数为0,即最有序的排列,(3,2,1)逆序个数为3,为最无序的排列。位置紧密度表示命中的文本文档个数与命中文本文档个数与命中的间隔数之和的比率,如关键词“张三张四李四”,命中的初始检索结果“张三”、“李四的群”,命中的关键词“张三李四”,命中文本文档个数t为2,命中的间隔数之和为1(因为中间隔了一个张四),因此,位置紧密度=2/(1+2)=2/3。覆盖率表示命中的关键字占全部命中文本文档总字段的比率。
在一个实施例中,如图4所示,所述获取更新时间维度权重包括:
S421,根据所述初始检索结果,获取最后一次聊天时间距离当前时间的时间间隔。
S422,计算衰减常数与所述时间间隔与所述衰减常数之和的比值,得到所述更新时间维度权重。
在其中一个实施例中,更新时间维度权重计算公式如下:
update_time_weight=factor/(factor+update_time_secs);
其中,update_time_weight为更新时间维度权重,factor是一个随时间衰减的常数,单位是秒,这里按照30天衰减一半来计算,factor=30*24*3600=2592000。update_time_secs是最后一次聊天时间距离现在的秒数,比如最后一次聊天时间是30天前,则update_time_secs=30*24*3600=259200,那么更新时间维度update_time_weight=259200/(259200+259200)=1/2。
在一个实施例中,如图5所示,所述获取联系人客观重要度权重包括:
S521,获取所述搜索结果职位级别、发表文章数目比值、受关注数据和点赞数据。
S522,根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度权重。
在一个实施例中,所述根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度权重包括:根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值;根据所述职位级别、发表文章数目比值、受关注数据和点赞数据和对应的所述偏移值和修正值进行融合计算,得到联系人客观重要度权重。其中,所述偏移值和修正值由机器学习确定。其中,根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值包括:根据所述职位级别获取偏移值和修正值,根据所述发表文章数目比值获取偏移值和修正值,根据所述受关注数据获取偏移值和修正值,根据所述点赞数据获取偏移值和修正值。
在其中一个实施例中,计算联系人客观重要度权重的具体公式如下:
static_weight=(i*position+j)*(k*article_num+l)*(m*concerned_num+n)*(o*liked_num+p);
其中,static_weight为联系人客观重要度的权重,position为职位级别、article_num为发表文章数目比值、concerned_num为受关注数据、liked_num为点赞数据。其中,i、j为职位级别偏移值和修正值,k、l为发表文章数目比值的偏移值和修正值,m、n为受关注数据的偏移值和修正值,o、p为点赞数据的偏移值和修正值,其中,偏移值越大表示该项的重要程度越高。其中,客观重要度是一种静态维度,和用户及搜索关键词无关,一般是大多数用户知道且希望找到的对象。在其它条件相同情况下,越被广泛熟知的人,越倾向于排在前面,其客观重要度也越高。客观重要度的权重通过离线计算得出,以一个周期更新一次(比如每周计算一次)。
在一个实施例中,所述根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值包括:将所述文本相似度权重、更新时间维度权重和联系人客观重要度权重归一化;根据所述归一化后的文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值。具体的,所述文本相似度权重、更新时间维度权重和联系人客观重要度权重归一化程0-1之间的小数。
在一个实施例中,所述根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值包括:根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重分别获取偏移值和修正值;分别计算文本相似度权重、更新时间维度权重和联系人客观重要度权重与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;将所述融合系数相乘,得到每个所述初始检索结果的综合权值。其中,所述偏移值和修正值由机器学习确定。
在一个具体的实施例中,综合权值计算公式如下:
weight=(a1*text_weight+b1)*(a2*update_time_weight+b2)*(a3*static_weight+b3)
其中,weight为初始检索结果权重,text_weight为文本相似度权重,update_time_weight为更新时间维度权重,static_weight为联系人客观重要度权重。如式中,每个括号内为一个融合系数的计算,text_weight表示文本相似度权重,a1为偏移值,b1为修正值,a1*text_weight+b1计算得到第一融合系数;update_time_weight表示更新时间维度权重,a2为偏移值,b2为修正值,a2*update_time_weight+b2计算得到第二融合系数;多个融合系数相乘得到初始检索结果的综合权值。式中,a1、a2、a3均为偏移值,b1、b2、b3均为修正值。其中,联系人客观重要度是一种静态维度,与搜索主体及关键词无关,一般是大多数用户希望找到的对象,在其它条件相同的情况下,越被广泛熟知的人,越倾向于排在前面,其客观重要度也越高,此种方法能够实现系统根据搜索结果的公众评价数据进行推荐。
在企业沟通工具中,通过本发明实施例中根据搜索结果的权重的大小进行排序,不再仅仅局限于单一的时间排序,对于联系人和群聊等多种搜索对象,能够进行混合排序,从而展示给用户最期望查找的搜索结果,提高企业沟通的效率。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种搜索排序装置,包括:初始检索结果提取模块601、特征因子提取模块602、权重计算模块603、权值计算模块604和排序模块605,其中:
初始检索结果提取模块601,获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果。
其中,搜索关键词为用户在使用搜索引擎查找相关信息时输入的字、词、符号等输入信息。本实施例中栏目包括联系人栏、群聊栏、消息栏。
具体地,在终端输入搜索关键词,终端获取用户输入的搜素关键词发送至服务器。
特征因子提取模块602,根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度。
其中,每条初始检索结果包含的字段包括:对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门信息一种或多种。其中,对象类型包括聊天应用、邮件,对象状态包括是否注册、是否离职。
作为一个优选的实施方式,所述搜索排序装置还包括:筛选模块,用于对所述初始检索结果进行筛选。其中,所述对所述初始检索结果进行筛选包括:离职用户且无聊天记录的初始检索结果不进行排序;将未注册用户的初始检索结果排在最后。聊天记录可以通过聊天更新时间或最近一条消息对应位置确定。
权重计算模块603,用于根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重。
权值计算模块604,根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值。
其中,文本相似度参数用于表征搜索关键词与搜索结果匹配程度,更新时间维度参数用于表征搜索结果聊天记录更新情况,联系人客观重要度用于表征公众对所述搜索结果的评价高低。其中,所述联系人客观重要度由公众评价数据确定。
排序模块605,根据所述综合权值对所述多个初始检索结果进行排序。
其中,进行排序时,可以依据权值从大到小来进行排序,也可以依据权值从小到大来进行排序。采用此种技术方案不依据栏目来区分排序方式,而是根据权值来进行排序,实现快速查找到相关信息。
在一个实施例中,如图7所示,特征因子提取模块602包括:文本相似度权重计算单元6021,更新时间维度权重计算单元6022,客观重要度权重计算单元6023,其中:
文本相似度权重计算单元6021,用于计算所述关键词在所述初始检索结果中的命中率、顺序一致性指标、位置紧密度和覆盖率,并根据所述命中率、顺序一致性指标、位置紧密度和覆盖率,计算文本相似度权重。
在一个实施例中,所文本相似度权重计算单元包括:第一偏移值和修正值获取子单元,用于根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值;文本相似度融合计算子单元,用于根据所述命中率、顺序一致性指标、位置紧密度和覆盖率和所述偏移值和修正值进行融合计算,得到文本相似度权重。其中,所述偏移值和修正值由机器学习确定。其中,根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值包括:根据所述命中率获取偏移值和修正值,根据所述顺序一致性指标获取偏移值和修正值,根据所述位置紧密度指标获取偏移值和修正值,根据所述覆盖率获取偏移值和修正值。
在其中一个实施例中,计算文本相似度权重具体公式为:
text_similar=(a*hit+b)*(c*sequence+d)*(e*position+f)*(g*cover+h);其中,text_similar为文本相似度权重,hit为文本命中率,sequence为顺序一致性指标,position为位置紧密度,cover为覆盖率。其中,a、b为命中率的偏移值和修正值,c、d为顺序一致性指标的偏移值和修正值,e、f为位置紧密度的偏移值和修正值,g、h为覆盖率的偏移值和修正值,其中,偏移值越大表示该项的重要程度越高。其中,文本命中率表示搜索关键词在对应的文本文档中命中的个数与搜索关键词的总个数的比率,显然所占的比率越高表示初始检索结果越接近搜索目标。顺序一致性指标表示搜索关键词的顺序与对应的文本文档的出现的搜索关键词的顺序的一致性,顺序一致性通过逆序的个数的比例来表达,如(1,2,3)逆序个数为0,即最有序的排列,(3,2,1)逆序个数为3,为最无序的排列。位置紧密度表示命中的文本文档个数与命中文本文档个数与命中的间隔数之和的比率,如关键词“张三张四李四”,命中的初始检索结果“张三”、“李四的群”,命中的关键词“张三李四”,命中文本文档个数t为2,命中的间隔数之和为1(因为中间隔了一个张四),因此,位置紧密度=2/(1+2)=2/3。覆盖率表示命中的关键字占全部命中文本文档总字段的比率。
更新时间维度权重计算单元6022,用于根据所述初始检索结果,获取最后一次聊天时间距离当前时间的时间间隔,并计算衰减常数与所述时间间隔与所述衰减常数之和的比值,得到所述更新时间维度权重。
在其中一个实施例中,计算更新时间维度权重计算公式如下:
update_time_weight=factor/(factor+update_time_secs);
其中,update_time_weight为更新时间维度权重,factor是一个随时间衰减的常数,单位是秒,这里按照30天衰减一半来计算,factor=30*24*3600=2592000。update_time_secs是最后一次聊天时间距离现在的秒数,比如最后一次聊天时间是30天前,则update_time_secs=30*24*3600=259200,那么更新时间维度update_time_weight=259200/(259200+259200)=1/2。
客观重要度权重计算单元6023,用于获取所述搜索结果职位级别、发表文章数目比值、受关注数据和点赞数据,并根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度权重。
在一个实施例中,所述客观重要度权重计算单元6023包括:第二偏移值和修正值获取子单元,用于根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值;客观重要度融合计算子单元,用于根据所述职位级别、发表文章数目比值、受关注数据和点赞数据和对应的所述偏移值和修正值进行融合计算,得到联系人客观重要度权重。其中,所述偏移值和修正值由机器学习确定。其中,根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值包括:根据所述职位级别获取偏移值和修正值,根据所述发表文章数目比值获取偏移值和修正值,根据所述受关注数据获取偏移值和修正值,根据所述点赞数据获取偏移值和修正值。
在其中一个实施例中,计算联系人客观重要度权重的具体公式如下:
static_weight=(i*position+j)*(k*article_num+l)*(m*concerned_num+n)*(o*liked_num+p);
其中,static_weight为联系人客观重要度的权重,position为职位级别、article_num为发表文章数目比值、concerned_num为受关注数据、liked_num为点赞数据。其中,i、j为职位级别偏移值和修正值,k、l为发表文章数目比值的偏移值和修正值,m、n为受关注数据的偏移值和修正值,o、p为点赞数据的偏移值和修正值,其中,偏移值越大表示该项的重要程度越高。其中,客观重要度是一种静态维度,和用户及搜索关键词无关,一般是大多数用户知道且希望找到的对象。在其它条件相同情况下,越被广泛熟知的人,越倾向于排在前面,其客观重要度也越高。客观重要度的权重通过离线计算得出,以一个周期更新一次(比如每周计算一次)。
在一个实施例中,如图8所示,所述权值计算模块包括:归一化单元801,融合计算单元802,其中:
归一化单元801,用于将所述文本相似度权重、更新时间维度权重和联系人客观重要度权重归一化。
其中,所述文本相似度权重、更新时间维度权重和联系人客观重要度权重归一化成0-1之间的小数。
融合计算单元802,用于根据所述归一化后的文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值。
在一个实施例中,所述权值计算模块包括:第三偏移值和修正值获取单元,用于根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重分别获取偏移值和修正值;融合系数计算单元,分别计算文本相似度权重、更新时间维度权重和联系人客观重要度权重与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;综合权值计算单元,用于将所述融合系数相乘,得到每个所述初始检索结果的综合权值。
在一个具体的实施例中,综合权值计算公式如下:
weight=(a1*text_weight+b1)*(a2*update_time_weight+b2)*(a3*static_weight+b3)
其中,weight为初始检索结果权重,text_weight为文本相似度权重,update_time_weight为更新时间维度权重,static_weight为联系人客观重要度权重。如式中,每个括号内为一个融合系数的计算,text_weight表示文本相似度权重,a1为偏移值,b1为修正值,a1*text_weight+b1计算得到第一融合系数;update_time_weight表示更新时间维度权重,a2为偏移值,b2为修正值,a2*update_time_weight+b2计算得到第二融合系数;多个融合系数相乘得到初始检索结果的综合权值。式中,a1、a2、a3均为偏移值,b1、b2、b3均为修正值。其中,联系人客观重要度是一种静态维度,与搜索主体及关键词无关,一般是大多数用户希望找到的对象,在其它条件相同的情况下,越被广泛熟知的人,越倾向于排在前面,其客观重要度也越高,此种方法能够实现系统根据搜索结果的公众评价数据进行推荐。
在企业沟通工具中,通过本发明实施例中根据搜索结果的权重的大小进行排序,不再仅仅局限于单一的时间排序,对于联系人和群聊等多种搜索对象,能够进行混合排序,从而展示给用户最期望查找的搜索结果,提高企业沟通的效率。
关于搜索排序装置的具体限定可以参见上文中对于搜索排序方法的限定,在此不再赘述。上述搜索排序装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储搜索排序数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种搜索排序方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果;
根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度;
根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重;
根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值;
根据所述综合权值对所述多个初始检索结果进行排序。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取搜索关键词,确定与所述多个关键词匹配的多个初始检索结果;
根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度;
根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重;
根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值;
根据所述综合权值对所述多个初始检索结果进行排序。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种搜索排序方法,其特征在于,所述方法包括:
获取搜索关键词,确定与多个所述搜索关键词匹配的多个初始检索结果;其中,所述初始检索结果包括联系人、群或消息;所述初始检索结果的字段中包括对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门中的至少一种信息;所述对象类型包括聊天应用和/或邮件;所述对象状态包括是否注册和/或是否离职;
根据所述初始检索结果,提取文本相似度、更新时间维度和联系人客观重要度;其中,所述文本相似度用于表征所述搜索关键词与搜索结果匹配程度,所述更新时间维度用于表征搜索结果聊天记录更新情况,所述联系人客观重要度用于表征公众对所述搜索结果的评价高低;所述联系人客观重要度由公众评价数据确定;
根据文本相似度、更新时间维度和联系人客观重要度,获取对应的文本相似度权重、更新时间维度权重和联系人客观重要度权重;
根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重对每个所述初始检索结果进行融合计算,得到每个所述初始检索结果的综合权值;
根据所述综合权值对所述多个初始检索结果进行排序;
其中,所述根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值包括:
根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重分别获取偏移值和修正值;
分别计算文本相似度权重、更新时间维度权重和联系人客观重要度权重与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;
将所述融合系数相乘,得到每个所述初始检索结果的综合权值;
其中,所述偏移值和修正值由机器学习确定;所述偏移值和所述修正值用于表示重要程度;
其中,在提取每个所述初始检索结果相关的文本相似度、更新时间维度和联系人客观重要度之前,包括:
对所述初始检索结果进行筛选,包括:
对离职用户且无聊天记录的初始检索结果不进行排序;
将未注册用户的初始检索结果排在最后。
2.根据权利要求1所述的方法,其特征在于,所述获取文本相似度权重包括:
计算所述关键词在所述初始检索结果中的命中率、顺序一致性指标、位置紧密度和覆盖率;
根据所述命中率、顺序一致性指标、位置紧密度和覆盖率,计算文本相似度权重。
3.根据权利要求2所述的方法,其特征在于,所述根据所述命中率、顺序一致性指标、位置紧密度和覆盖率计算文本相似度权重的步骤包括:
根据所述命中率、顺序一致性指标、位置紧密度和覆盖率分别获取偏移值和修正值;
根据所述命中率、顺序一致性指标、位置紧密度和覆盖率和对应的所述偏移值和修正值进行融合计算,得到文本相似度权重。
4.根据权利要求1所述的方法,其特征在于,所述获取更新时间维度权重包括:
根据所述初始检索结果,获取最后一次聊天时间距离当前时间的时间间隔;
计算衰减常数与所述时间间隔与所述衰减常数之和的比值,得到所述更新时间维度权重。
5.根据权利要求1所述的方法,其特征在于,所述获取联系人客观重要度权重包括:
获取所述搜索结果职位级别、发表文章数目比值、受关注数据和点赞数据;
根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度权重。
6.根据权利要求5所述的方法,其特征在于,所述根据所述职位级别、发表文章数目比值、受关注数据和点赞数据,计算联系人客观重要度权重包括:
根据所述职位级别、发表文章数目比值、受关注数据和点赞数据分别获取偏移值和修正值;
根据所述职位级别、发表文章数目比值、受关注数据和点赞数据和对应的所述偏移值和修正值进行融合计算,得到联系人客观重要度权重。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值包括:
将所述文本相似度权重、更新时间维度权重和联系人客观重要度权重归一化;
根据所述归一化后的文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值。
8.一种搜索排序装置,其特征在于,所述装置包括:
初始检索结果提取模块,用于获取搜索关键词,确定与多个所述搜索关键词匹配的多个初始检索结果;其中,所述初始检索结果包括联系人、群或消息;所述初始检索结果的字段中包括对象类型、对象状态、对象名称、初始召回搜索引擎分数、聊天更新时间、最近一条消息位置、对象拼音名、对象英文名、所在部门中的至少一种信息;所述对象类型包括聊天应用和/或邮件;所述对象状态包括是否注册和/或是否离职;
特征因子提取模块,用于提取每个所述初始检索结果相关的文本相似度、更新时间维度和联系人客观重要度;其中,所述文本相似度用于表征所述搜索关键词与搜索结果匹配程度,所述更新时间维度用于表征搜索结果聊天记录更新情况,所述联系人客观重要度用于表征公众对所述搜索结果的评价高低;所述联系人客观重要度由公众评价数据确定;
权重计算模块,用于根据文本相似度、更新时间维度以及联系人客观重要度,获取文本相似度权重、更新时间维度权重和联系人客观重要度权重;
权值计算模块,根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重进行融合计算,得到每个所述初始检索结果的综合权值;
排序模块,用于根据所述综合权值对所述多个初始检索结果进行排序;
其中,所述权值计算模块包括:第三偏移值和修正值获取单元,用于根据所述文本相似度权重、更新时间维度权重和联系人客观重要度权重分别获取偏移值和修正值;融合系数计算单元,分别计算文本相似度权重、更新时间维度权重和联系人客观重要度权重与与其对应的所述偏移值之积再与与其对应的所述修正值之和得到融合系数;综合权值计算单元,用于将所述融合系数相乘,得到每个所述初始检索结果的综合权值;
其中,所述偏移值和修正值由机器学习确定;所述偏移值和所述修正值用于表示重要程度;
筛选模块,用于对所述初始检索结果进行筛选; 其中,所述对所述初始检索结果进行筛选包括:离职用户且无聊天记录的初始检索结果不进行排序;将未注册用户的初始检索结果排在最后。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810848395.9A 2018-07-27 2018-07-27 搜索排序方法、装置、计算机设备和存储介质 Active CN108959644B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810848395.9A CN108959644B (zh) 2018-07-27 2018-07-27 搜索排序方法、装置、计算机设备和存储介质
US16/760,437 US11194822B2 (en) 2018-07-27 2018-11-01 Search ranking method and apparatus, electronic device and storage medium
PCT/CN2018/113418 WO2020019563A1 (zh) 2018-07-27 2018-11-01 搜索排序方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810848395.9A CN108959644B (zh) 2018-07-27 2018-07-27 搜索排序方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108959644A CN108959644A (zh) 2018-12-07
CN108959644B true CN108959644B (zh) 2020-04-14

Family

ID=64466362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810848395.9A Active CN108959644B (zh) 2018-07-27 2018-07-27 搜索排序方法、装置、计算机设备和存储介质

Country Status (3)

Country Link
US (1) US11194822B2 (zh)
CN (1) CN108959644B (zh)
WO (1) WO2020019563A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857938B (zh) * 2019-01-30 2020-07-28 杭州太火鸟科技有限公司 基于企业信息的搜索方法、搜索装置及计算机存储介质
CN110083677B (zh) * 2019-05-07 2021-09-17 北京字节跳动网络技术有限公司 联系人的搜索方法、装置、设备及存储介质
CN110377831B (zh) * 2019-07-25 2022-05-17 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN111680130A (zh) * 2020-06-16 2020-09-18 深圳前海微众银行股份有限公司 文本检索方法、装置、设备及存储介质
CN111966899B (zh) * 2020-08-12 2024-02-13 新华智云科技有限公司 搜索排序方法、系统及计算机可读存储介质
CN113342626B (zh) * 2021-05-28 2022-11-11 深圳市前海房极客网络科技有限公司 内容处理方法、装置、电子设备及存储介质
CN113592516B (zh) * 2021-08-04 2023-11-21 贝壳找房(北京)科技有限公司 基于偏置项的重要度确定方法与确定得分的方法
CN113392266B (zh) * 2021-08-17 2021-12-14 北京达佳互联信息技术有限公司 排序模型的训练、排序方法、装置、电子设备及存储介质
CN114666176A (zh) * 2022-03-23 2022-06-24 瓴里网络科技(上海)有限公司 基于场景的自适应人员排序方法和系统及智能终端
CN114760261B (zh) * 2022-06-13 2022-09-09 杭州安司源科技有限公司 一种即时通讯工具联系人排序方法及装置
CN114793203B (zh) * 2022-06-21 2022-08-30 北京奕千科技有限公司 一种种子下载的ip溯源方法
CN116955538B (zh) * 2023-08-16 2024-03-19 成都医星科技有限公司 医疗字典数据匹配方法及装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎
CN102436510A (zh) * 2011-12-30 2012-05-02 浙江乐得网络科技有限公司 通过离线查询提高在线实时搜索质量的方法与系统
CN107766537A (zh) * 2017-10-30 2018-03-06 北京拉勾科技有限公司 一种职位搜索排序方法及计算设备
CN108304407A (zh) * 2017-01-12 2018-07-20 阿里巴巴集团控股有限公司 一种进行对象排序的方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739418A (zh) * 2008-11-04 2010-06-16 未序网络科技(上海)有限公司 多指标综合权重音、视频专辑排序方法
CN101986306B (zh) * 2010-11-03 2013-08-28 百度在线网络技术(北京)有限公司 一种用于基于查询序列获取黄页信息的方法与设备
US9870424B2 (en) * 2011-02-10 2018-01-16 Microsoft Technology Licensing, Llc Social network based contextual ranking
CN102955813B (zh) 2011-08-29 2015-11-25 中国移动通信集团四川有限公司 一种信息搜索方法和系统
CN102508918A (zh) * 2011-11-18 2012-06-20 北京谷安天下科技有限公司 一种搜索方法及系统
CN103257982A (zh) * 2012-06-13 2013-08-21 苏州大学 基于关注关系的Blog搜索结果排序算法
CN102739869A (zh) * 2012-06-26 2012-10-17 华为终端有限公司 语音查找目标联系人的信息的方法及终端
CN104077407B (zh) 2014-07-10 2017-06-16 中国工商银行股份有限公司 一种智能数据搜索系统及方法
CN104182488B (zh) * 2014-08-08 2016-09-07 腾讯科技(深圳)有限公司 搜索方法、服务器及客户端
US10042939B2 (en) * 2014-10-31 2018-08-07 Microsoft Technology Licensing, Llc Techniques for personalizing expertise related searches
CN105653661A (zh) 2015-12-29 2016-06-08 云南电网有限责任公司电力科学研究院 一种检索结果重排方法及装置
CN106649647B (zh) 2016-12-09 2020-12-11 北京百度网讯科技有限公司 基于人工智能的搜索结果排序方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436510A (zh) * 2011-12-30 2012-05-02 浙江乐得网络科技有限公司 通过离线查询提高在线实时搜索质量的方法与系统
CN102426610A (zh) * 2012-01-13 2012-04-25 中国科学院计算技术研究所 微博搜索排名方法及微博搜索引擎
CN108304407A (zh) * 2017-01-12 2018-07-20 阿里巴巴集团控股有限公司 一种进行对象排序的方法和系统
CN107766537A (zh) * 2017-10-30 2018-03-06 北京拉勾科技有限公司 一种职位搜索排序方法及计算设备

Also Published As

Publication number Publication date
WO2020019563A1 (zh) 2020-01-30
US20200356572A1 (en) 2020-11-12
CN108959644A (zh) 2018-12-07
US11194822B2 (en) 2021-12-07

Similar Documents

Publication Publication Date Title
CN108959644B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN109033386B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN109086394B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN109063108B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN108228873B (zh) 对象推荐、发布内容推送方法、装置、存储介质和设备
CN110866181B (zh) 资源推荐的方法、装置及存储介质
CN108334632B (zh) 实体推荐方法、装置、计算机设备和计算机可读存储介质
CN110674319A (zh) 标签确定方法、装置、计算机设备及存储介质
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
CN109245996B (zh) 邮件推送方法、装置、计算机设备和存储介质
CN110580278B (zh) 根据用户画像的个性化搜索方法、系统、设备及存储介质
JPWO2012118087A1 (ja) レコメンダシステム、レコメンド方法、及びプログラム
CN111192025A (zh) 职业信息匹配方法、装置、计算机设备和存储介质
CN111080398A (zh) 商品推荐方法、装置、计算机设备和存储介质
CN111178949B (zh) 服务资源匹配参考数据确定方法、装置、设备和存储介质
CN112955883A (zh) 应用推荐方法、装置、服务器和计算机可读存储介质
US20210248202A1 (en) System and method for improved searching across multiple databases
CN111967914A (zh) 基于用户画像的推荐方法、装置、计算机设备和存储介质
CN111127152A (zh) 基于用户偏好预测的商品推荐方法、装置、设备及可读介质
CN110555165B (zh) 信息识别方法、装置、计算机设备和存储介质
CN112102002A (zh) 基于知识图谱的商品推荐方法、装置、计算机和存储介质
CN112732898A (zh) 文献摘要生成方法、装置、计算机设备及存储介质
CN110363580B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN112732927A (zh) 基于知识图谱的内容相似性分析方法和装置
CN110688516A (zh) 图像检索方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190606

Address after: Room B0035, 2nd floor, No. 3 Courtyard, 30 Shixing Street, Shijingshan District, Beijing, 100041

Applicant after: BEIJING ZIJIE TIAODONG NETWORK TECHNOLOGY CO., LTD.

Address before: 300457 Tianjin Binhai New Area 9-3-401, No. 39, Binhai Science Park, Tianjin Binhai High-tech Zone

Applicant before: Tianjin bytes pulsation Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant