CN112559895B - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents
一种数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112559895B CN112559895B CN202110188502.1A CN202110188502A CN112559895B CN 112559895 B CN112559895 B CN 112559895B CN 202110188502 A CN202110188502 A CN 202110188502A CN 112559895 B CN112559895 B CN 112559895B
- Authority
- CN
- China
- Prior art keywords
- word
- search
- user
- expansion
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例涉及数据处理领域,公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括:获取用户输入的搜索词,确定搜索词对应的候选扩展词集;根据搜索词的第一词性信息和各个候选扩展词的第二词性信息,确定一个或多个目标扩展词;获取用户的用户特征,根据用户特征确定搜索词与各个目标扩展词之间的关联度;获取与搜索词和各个目标扩展词对应的多个搜索结果,确定各个搜索结果的调整系数;根据关联度和调整系数确定各个搜索结果的搜索得分,根据各个搜索结果的搜索得分展示各个搜索结果。可以使搜索结果的排序更加符合用户意图,提高搜索引擎的推荐效率。本申请涉及区块链技术,如可将上述数据写入区块链中,以用于数据搜索等场景。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的快速发展,搜索引擎在人们的工作、学习以及生活中的应用越来越广泛。目前,搜索引擎的搜索结果的推荐方法通常是根据搜索结果的内容热度来对搜索结果进行从高到低的排序展示。例如某个搜索结果的搜索频率或点击频率或浏览频率越高,该搜索结果也会展示在越前面。
但是,对于企业中的搜索引擎而言,企业中的员工利用搜索引擎对信息的检索大多数是涉及业务场景信息检索,不同员工对不同搜索结果的需求程度和搜索倾向性通常是不一样的,若将上述搜索结果的推荐方法应用在企业中的搜索引擎,内容热度较高的搜索结果往往是排在前面的,而可能会导致员工所需的搜索结果排在后面,因此,如何提高企业中搜索引擎的推荐效率成为当前搜索引擎的研究热点。
发明内容
本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质,可以结合对搜索词的语义理解以及用户的用户特征对搜索结果进行排序,从而使得搜索结果的排序更加符合用户意图,提高搜索引擎的推荐效率。
第一方面,本申请实施例公开了一种数据处理方法,所述方法包括:
获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;
根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;
获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;
获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;
根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果。
第二方面,本申请实施例公开了一种数据处理装置,所述装置包括:
第一获取单元,用于获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;
第一确定单元,用于根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;
第二获取单元,用于获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;
第二确定单元,用于获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;
第三确定单元,用于根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果。
第三方面,本申请实施例公开了一种电子设备,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本申请实施例公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例中,电子设备可以获取用户输入的搜索词,并确定搜索词对应的包括一个或多个候选扩展词的候选扩展词集,再根据搜索词的第一词性信息和候选扩展词集中各个候选扩展词的第二词性信息,从各个候选扩展词中确定一个或多个目标扩展词,接着,获取用户的用户特征,并根据用户的用户特征确定搜索词与一个或多个目标扩展词中各个目标扩展词之间的关联度,进一步的,获取与搜索词和各个目标扩展词对应的多个搜索结果,并确定多个搜索结果中各个搜索结果的调整系数,再根据关联度和调整系数确定各个搜索结果的搜索得分,并根据各个搜索结果的搜索得分展示各个搜索结果。可以结合对搜索词的语义理解以及用户的用户特征对搜索结果进行排序,从而使得搜索结果的排序更加符合用户意图,提高搜索引擎的推荐效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图2是本申请实施例提供的另一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种确定参考用户的结构示意图;
图4是本申请实施例提供的一种两个用户的搜索词的关系示意图;
图5是本申请实施例提供的一种数据处理装置的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请实施例提供的一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,应用于电子设备,可由电子设备执行,其中,该电子设备可以是服务器,也可以是终端。如图1所示,该数据处理方法包括以下步骤:
S101:获取用户输入的搜索词,并确定搜索词对应的候选扩展词集。
其中,候选扩展词集中可以包括一个或多个候选扩展词。
在一种实现方式中,可以获取用户在某一搜索引擎输入搜索词,该搜索引擎可以是某一企业用于员工进行信息搜索的搜索引擎,那么在获取到用户的搜索词之后,即可根据对搜索词的语义理解确定搜索词对应的一个或多个第一扩展词。具体实现中,可以根据预设扩展词算法确定搜索词对应的第一扩展词,该预设扩展词算法可以是词向量(Word2vec)模型,即利用Word2vec模型获得搜索词对应的第一扩展词。其中,Word2vec模型可以根据预先整理好的企业管理和行业有关术语以及百科知识数据进行训练。而在根据预设扩展词算法确定搜索词对应的一个或多个第一扩展词之后,还可以对第一扩展词进行过滤得到候选扩展词,以便使得候选扩展词是根据符合用户可选和意图的词。
在一种实现方式中,从一个或多个第一扩展词中确定候选扩展词集的具体实现可以是:确定搜索词对应的第一词向量,以及一个或多个第一扩展词中各个第一扩展词分别对应的第二词向量。其中,搜索词对应的第一词向量,以及一个或多个第一扩展词中各个第一扩展词分别对应的第二词向量可以利用Word2vec模型来获得,即可以直接获取利用Word2vec模型获得搜索词对应的第一扩展词时,获取搜索词的词向量和各个第一扩展词的词向量,获取到的搜索词的词向量即是第一词向量,获取到的各个第一扩展词的词向量即是第二词向量。确定第一词向量和各个第一扩展词分别对应的第二词向量之后,再根据第一词向量和各个第一扩展词分别对应的第二词向量,利用第一相似度算法确定搜索词与各个第一扩展词之间的第一相似度。其中,第一相似度算法可以是计算两个向量之间的余弦距离,即第一相似度可以是余弦相似度。那么,在确定第一相似度之后,即可将多个第一相似度与预设相似阈值进行比较,将第一相似度大于或等于预设相似阈值的第一扩展词确定为搜索词对应的候选扩展词。
举例来说,企业A中的用户A在搜索引擎中输入的搜索词为人力,根据Word2vec模型可以确定搜索词对应的第一扩展词是薪酬、福利、休假等与人力相关的词,又如,用户A在搜索引擎中输入的搜索词为财务,根据Word2vec模型可以确定搜索词对应的第一扩展词可以是报销、发票、预算等与财务相关的词。假设搜索词为人力,搜索词为人力对应的第一扩展词是薪酬、福利、休假,且人力、薪酬、福利和休假的词向量为V1、V2、V3和V4,预设相似阈值为0.5,若根据第一相似度算法,即是计算两个向量之间的余弦距离,可以得到人力和薪酬之间的第一相似度为0.6、人力和福利之间的第一相似度为0.4、人力和休假之间的第一相似度为0.3,那么,将上述3个第一相似度分别与0.5比较,可以看出,人力和薪酬之间的第一相似度为0.6时,第一相似度是大于0.5的,即人力的候选扩展词为薪酬。
S102:根据搜索词的第一词性信息和候选扩展词集中各个候选扩展词的第二词性信息,从各个候选扩展词中确定一个或多个目标扩展词。
在一种实现方式中,考虑到上述通过第一相似度对第一扩展词进行过滤之后得到的候选扩展词,还存在结构上与搜索词相似,但内容上与搜索词无关的候选扩展词,那么在步骤S102中利用预设扩展词算法以及第一相似度算法确定搜索词与第一扩展词之间的第一相似度时有可能会出现较高的相关度,但是其内容上是没有关联性的,那么,可以根据对搜索词和各个候选扩词进行词性分析,以根据搜索词和各个候选扩词的词性信息对在内容上与搜索词无关的候选扩展词进行进一步的过滤。
在一种实现方式中,可以根据预设词性算法模型对搜索词和各个候选扩展词进行词性分析,以得到搜索词对应的第一词性信息,以及各个候选扩展词分别对应的第二词性信息。其中,第一词性信息包括搜索词的第一词性以及搜索词的词性为第一词性的第一概率,第二词性信息包括各个候选扩展词的第二词性以及各个候选扩展词的词性为第二词性的第二概率。那么,在确定搜索词对应的第一词性信息,以及各个候选扩展词分别对应的第二词性信息之后,即可根据搜索词的第一词性和各个候选扩展词的第二词性从多个各个候选扩展词中确定一个或多个第二扩展词,具体地,可以从各个候选扩展词中确定第一词性与第二词性相同的一个或多个第二扩展词。而在确定一个或多个第二扩展词之后,再根据搜索词的词性为第一词性的第一概率,以及各个候选扩展词的词性为第二词性的第二概率从一个或多个第二扩展词中确定目标扩展词,具体地,当确定搜索词对应的第一概率与一个或多个第二扩展词中的一个第二扩展词对应的第二概率的乘积大于预设阈值时,即确定一个第二扩展词为搜索词对应的目标扩展词。其中,预设阈值可以预先设置,例如数值0.25、0.5等等,在本申请不做限定。
举例来说,假设搜索词A对应有5个候选扩展词(候选扩展词1、候选扩展词2、候选扩展词3、候选扩展词4、候选扩展词5),根据预设词性算法模型对搜索词A和5个候选扩展词分别进行词性分析后,得到搜索词A对应的第一词性信息中的第一词性为S,以及第一词性为S的第一概率为T,5个候选扩展词分别对应的第二词性为S1、S2、S3、S4、S5,以及第二概率分别为T1、T2、T3、T4、T5,预设阈值为T0。首先根据搜索词A的第一词性,以及5个候选扩展词的第二词性确定第二扩展词,若S1、S3以及S4是与S相同的,即候选扩展词1、候选扩展词3以及候选扩展词4的第二词性是与搜索词A的第一词性是相同的,那么确定候选扩展词1、候选扩展词3以及候选扩展词4为第二扩展词。然后再确定搜索词的第一概率T与候选扩展词1的第二概率T1的乘积是否大于T0,确定搜索词的第一概率T与候选扩展词3的第二概率T3的乘积是否大于T0,确定搜索词的第一概率T与候选扩展词4的第二概率T4的乘积是否大于T0,若、,即可确定候选扩展词1和候选扩展词4为目标扩展词。
可选的,上述的预设词性算法模型可以是条件随机场(Conditional RandomField,CRF)算法模型,其中,若是针对某一企业的搜索引擎,CRF模型可以基于该企业管理中常用的文本进行训练,其中训练文本可以有对应的单词词性标注结果。在CRF模型训练完成后,将待检测文本输入训练后的CRF模型,即可进行文本的词性分析,输出待检测文本的词性为某一词性以及待检测文本的词性为某一词性的概率。例如将某个词输入到训练后的CRF模型,训练后的CRF模型即可输出与该词对应的词性和概率。那么,在本申请实施例中,可以将搜索词与各个候选扩展词输入训练后的CRF模型,即可以得到搜索词对应的第一词性以及搜索词的词性为第一词性的第一概率,以及各个候选扩展词的第二词性以及各个候选扩展词的词性为第二词性的第二概率。
S103:获取用户的用户特征,并根据用户的用户特征确定搜索词与一个或多个目标扩展词中各个目标扩展词之间的关联度。
在一种实现方式中,可以获取用户的用户特征,并根据用户的用户特征确定搜索词与一个或多个目标扩展词中各个目标扩展词之间的关联度。其中,用户的用户特征可以是用户所属的业务线条、工作职能、岗位名称、岗位级别等等,还可以包括其他用户特征,本申请实施例只要以业务线条、工作职能、岗位名称、岗位级别为进行说明。用户的用户特征获得方式可以是:在用户使用搜索引擎时,是需要进行身份校验的,即用户需要输入进行身份校验的身份信息,该身份信息中可以包括业务线条、工作职能、岗位名称、岗位级别,则在用户输入身份信息之后,即可获得用户的用户特征。
在一种实现方式中,针对一个或多个目标扩展词中任一目标扩展词而言,其中,可以将任一目标扩展词称之为第一目标扩展词,那么,确定搜索词与第一目标扩展词的关联度的具体实现过程可以是:根据搜索词和第一目标扩展词确定多个参考用户,其中,多个参考用户包括第一用户、第二用户、第三用户,第一用户包括搜索过搜索词和第一目标扩展词的用户,第二用户包括搜索过搜索词的用户,第三用户包括搜索过第一目标扩展词的用户。例如,如图3所示,图3是本申请实施例提供的一种确定参考用户的结构示意图,从图3可知,用户A的搜索词为a,第一目标扩展词为b,用户B的搜索词为b和c,那么可以确定用户B为第一用户。确定多个参考用户之后,即可确定多个参考用户中各个参考用户的用户特征,进一步的,根据用户的用户特征和各个参考用户的用户特征,确定搜索词与第一目标扩展词之间的关联度。
S104:获取与搜索词和各个目标扩展词对应的多个搜索结果,并确定多个搜索结果中各个搜索结果的调整系数。
在一个实施例中,在确定搜索词对应的目标扩展词之后,可以获取到针对搜索词和各个目标扩展词对应的多个搜索结果,而搜索引擎在得到多个搜索结果后,是可以将搜索结果进行排序的,即呈现给用户的搜索结果是根据该排序结果呈现的。现有的搜索结果的排序方法通常是结合相关度和热度(搜索或点击或浏览频率)得到排序结果的,这种排序方法的排序结果中前几个的搜索结果都是高度相关及高热度,但是这种排序方法可能会导致把用户所需要的搜索结果的排序位于排序结果中的后几个。这种排序方法可以运用在超大规模用户对大量信息进行搜索且用户对搜索内容的了解程度较低的场景,例如互联网类的搜索引擎,但若将该排序方法应用到用户量有限,信息量有限,且用户对搜索信息存在一定了解的场景下,例如企业中的搜索引擎,这种排序方法对用户而言不是较佳的,这种排序方法缺乏对搜索词的语义理解和用户意图上的推荐,可能会导致企业中用户需要对搜索结果进行逐一浏览,大大浪费了用户的时间,从而降低了搜索引擎使用效率。针对上述问题,本申请实施例提供了一种确定各个搜索结果的调整系数的方法,以使得后续根据该调整系数可以使得呈现给用户的搜索结果以较佳的方式排列,即将用户所需要的搜索结果排在前面。
在一个实施例中,可以根据每个搜索结果的搜索信息确定每个搜索结果的调整系数。可选的,该搜索信息可以是搜索结果的被搜索次数以及被点击次数。那么,可以先获取每个搜索结果的被搜索次数以及被点击次数,其中,可以获取预设时间段内每个搜索结果的被搜索次数以及被点击次数,该预设时间段可以预先设置,例如,该预设时间段可以是当前用户的搜索时间之前的1个月,或3个月等等。在确定每个搜索结果的被搜索次数以及被点击次数之后,即可根据指定的调整规则、以及每个搜索结果的被搜索次数和被点击次数得到每个搜索结果的调整系数。其中,该调整规则可以具体是:计算每个搜索结果的被点击次数与1的第一和值、以及每个搜索结果的被搜索次数与1的第二和值,然后,计算每个搜索结果的第一和值与第二和值之间的比值,并确定比值的均方根值为每个搜索结果的调整系数。该调整规则可以如公式1所示。
其中,Pv表示搜索结果的被搜索次数、Uv表示该搜索结果的被点击次数。
那么,在确定每个搜索结果的被搜索到次数以及被点击次数之后,将被搜索到次数以及被点击次数代入公式1后得到的值即是每个搜索结果的调整系数。
上述可知,根据上述公式1得到的调整系数可以将高曝光量(或者说被搜索到次数较多)但少点击(或者说被点击次数较少)的搜索结果进行适当的“往后排”。具体来说:往往Uv是略少于Pv的,但如果Uv远少于Pv的话,可以认为这些搜索结果对大多用户都没有吸引力(或者说没有被点击的价值),那么被点击的次数是很少的。此外,对于企业信息系统中的新的信息,Uv、Pv都为0,此时,调整系数为1。
S105:根据关联度和调整系数确定各个搜索结果的搜索得分,以及根据各个搜索结果的搜索得分展示各个搜索结果。
在一种实现方式中,可以先确定每个搜索结果的搜索得分,以根据搜索得分从高到低的顺序来对搜索结果进行展示。下述以针对多个搜索结果中的任一搜索结果为例说明该任一搜索结果的搜索得分的实现过程,可以将该任一搜索结果称之为目标搜索结果。具体实现中,可以根据第二相似度算法确定搜索词与各个目标扩展词之间的第二相似度,其中,该第二相似度算法与上述第一相似度算法不相同的,该第二相似度算法可以是词频-逆文件频率(Term Frequency-Inverse Document Frequency、TF-IDF)算法,那么,确定的每个目标扩展词的TF-IDF值即是搜索词与各个目标扩展词之间的第二相似度。而在确定搜索词与各个目标扩展词之间的第二相似度之后,即可根据搜索词与各个目标扩展词之间的关联度、搜索词与各个目标扩展词之间的第一相似度、搜索词与各个目标扩展词之间的第二相似度以及目标搜索结果的调整系数,确定目标搜索结果的搜索得分。其中,目标搜索结果的搜索得分的具体实现可以如公式2所示。
其中,Score代表目标搜索结果的搜索得分,n代表搜索词对应的n个目标扩展词,j代表n个目标扩展词中的第j个目标扩展词;Sj代表搜索词与第j个目标扩展词之间的第二相似度,Bj代表搜索词与第j个目标扩展词之间的第一相似度,Cj代表搜索词与第j个目标扩展词之间的关联度,P代表目标搜索结果的调整系数。
在一种实现方式中,考虑到用户在搜索引擎输入的搜索词可以是一个,也可以是多个,那么在搜索词为多个情况下,即可按照公式2计算每个搜索词对应的Score值,再将每个搜索词对应的Score值进行求和,那么求和结果即是目标搜索结果的搜索得分,其中,目标搜索结果的搜索得分的具体实现可以如公式3所示。
其中,m为用户所输入的m个搜索词,i代表m个搜索词中第i个搜索词;n代表第i个搜索词对应的n个目标扩展词,j代表n个目标扩展词中的第j个目标扩展词;Sj、Bj、Cj以及P与公式2作同样理解,在此处不在赘述。
上述可知,在确定每个搜索结果的搜索得分之后,可以按照搜索得分从高到低的顺序来对搜索结果进行排序,搜索得分越高的搜索结果,排在越前,对应的,搜索得分越低的搜索结果,排在越后。
本申请实施例中,电子设备可以获取用户输入的搜索词,并确定搜索词对应的包括一个或多个候选扩展词的候选扩展词集,再根据搜索词的第一词性信息和候选扩展词集中各个候选扩展词的第二词性信息,从各个候选扩展词中确定一个或多个目标扩展词,接着,获取用户的用户特征,并根据用户的用户特征确定搜索词与一个或多个目标扩展词中各个目标扩展词之间的关联度,进一步的,获取与搜索词和各个目标扩展词对应的多个搜索结果,并确定多个搜索结果中各个搜索结果的调整系数,再根据关联度和调整系数确定各个搜索结果的搜索得分,并根据各个搜索结果的搜索得分展示各个搜索结果。通过上述实施方法,可以根据对搜索词的语义理解、词性分析确定符合用户的潜在搜索词,以使得根据搜索词和潜在搜索词得到多个搜索结果,并结合历史用户的搜索记录数据,以及用户的用户特征对搜索结果进行排序,使得展示为用户的搜索结果的排序更加适合用户的搜索需求,从而可以提高搜索引擎的推荐效率。
请参阅图2,图2是本申请实施例提供的另一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,应用于电子设备,可由电子设备执行,其中,该电子设备可以是服务器,也可以是终端。如图2所示,该数据处理方法包括以下步骤:
S201:获取用户输入的搜索词,并确定搜索词对应的候选扩展词集。
S202:根据搜索词的第一词性信息和候选扩展词集中各个候选扩展词的第二词性信息,从各个候选扩展词中确定一个或多个目标扩展词。
其中,步骤S201-S202的具体实施方式可以参见上述实施例步骤S101-S102的具体描述,此处不再赘述。
S203:根据搜索词和一个或多个目标扩展词中的第一目标扩展词确定多个参考用户。
在一种实现方式中,还可以通过对历史用户的搜索记录来挖掘用户的搜索词与与各个目标扩展词的关联度。如图4所示,图4是本申请实施例提供的一种两个用户的搜索词的关系示意图,如果用户A同时输入了搜索词1、搜索词3以及搜索词4,说明搜索词1、搜索词3以及搜索词4的关联度比较高。当用户B也输入了搜索词1和搜索词3时,可以推断用户B也可能有搜索词4的需要。那么,可以对上述通过对搜索词的语义理解得到的目标扩展词进行相关度的调节(补偿),即确定搜索词与各个目标扩展词的关联度。
在一种实现方式中,可以根据搜索词和目标扩展词中的第一目标扩展词确定多个参考用户,其中,第一目标扩展词为目标扩展词中的任一目标扩展词,多个参考用户可以包括第一用户、第二用户、第三用户,第一用户可以包括搜索过搜索词和第一目标扩展词的用户,第二用户可以包括搜索过搜索词的用户,第三用户可以包括搜索过第一目标扩展词的用户。具体的,可以理解的是,在搜索引擎运作后,可以存储每个历史用户的搜索记录数据,搜索记录数据可以包括每个历史用户输入的搜索词,其中,使用过搜索引擎进行搜索的用户均可称之为历史用户。那么,根据存储中的搜索记录数据,可以确定搜索过搜索词和第一目标扩展词的用户,确定搜索过搜索词的用户,确定搜索过第一目标扩展词的用户。
S204:确定多个参考用户中各个参考用户的用户特征。
在一种实现方式中,搜索记录数据还可以包括历史用户的用户特征,其中,历史用户的用户特征可以是用户所属的业务线条、工作职能、岗位名称、岗位级别等等,还可以包括其他用户特征,本申请实施例只要以业务线条、工作职能、岗位名称、岗位级别为进行说明。历史用户的用户特征获得方式可以是:在用户使用搜索引擎时,是需要进行身份校验的,即用户需要输入进行身份校验的身份信息,该身份信息中可以包括业务线条、工作职能、岗位名称、岗位级别,则在用户输入身份信息之后,即可获得用户的用户特征。那么,在确定多个参考用户之后,还可以根据存储中搜索记录数据确定每个参考用户的用户特征。
S205:根据用户的用户特征和各个参考用户的用户特征,确定搜索词与第一目标扩展词之间的关联度。
在一种实现方式中,可以根据用户的用户特征和各个参考用户的用户特征,确定搜索词与第一目标扩展词之间的关联度,具体地,如果用户的用户特征和各个参考用户的用户特征满足第一条件,则确定搜索词与第一目标扩展词之间的关联度为1;如果用户的用户特征和各个参考用户的用户特征满足第二条件,则确定搜索词与第一目标扩展词之间的关联度为0;如果用户的用户特征和各个参考用户的用户特征满足第三条件,则根据预设关联度算法确定搜索词与第一目标扩展词之间的关联度。其中,第一条件可以是:用户的用户特征与各个参考用户的用户特征均是相同的,第二条件可以是:用户的用户特征与各个参考用户的用户特征均是不相同的,第三条件可以是:用户的用户特征与各个参考用户的用户特征存在部分相同。
例如,假设用户A的参考用户包括第一用户A1、第二用户B1、第二用户B2、第三用户C1、第三用户C2、第三用户C1、第三用户C3,如果第一用户A1、第二用户B1、第二用户B2、第三用户C1、第三用户C2、第三用户C1、第三用户C3各自的用户特征与用户A的用户特征均相同,则用户A输入的搜索词与第一目标扩展词之间的关联度为1。如果均不相同,则用户A输入的搜索词与第一目标扩展词之间的关联度为0。如果存在部分相同,则用户A输入的搜索词与第一目标扩展词之间的关联度可以根据预设关联度算法确定。
在一种实现方式中,搜索词与第一目标扩展词之间的关联度可以如公式4所示。
其中,Sim(Usera∩Userb)表示用户的用户特征与每个第一用户的用户特征之间相同特征维度(业务线条、工作职能、岗位名称、岗位级别)占比值的汇总量。占比值可以是1/4或2/4或3/4或4/4。其中,占比值为1/4表示有1个特征维度相同,即用户的业务线条、工作职能、岗位名称、岗位级别与第一用户的业务线条、工作职能、岗位名称、岗位级别相比较,只存在一个用户特征相同,例如,用户的业务线条与某一第一用户的业务线条相同,那么用户与该某一第一用户之间的占比值为1/4。占比值为2/4表示有2个特征维度相同,即用户的业务线条、工作职能、岗位名称、岗位级别与第一用户的业务线条、工作职能、岗位名称、岗位级别相比较,存在2个用户特征相同,例如,用户的业务线条与某一第一用户的业务线条和岗位级别相同,那么用户与该某一第一用户之间的占比值为2/4。占比值为3/4表示有3个特征维度相同,即用户的业务线条、工作职能、岗位名称、岗位级别与第一用户的业务线条、工作职能、岗位名称、岗位级别相比较,存在3个用户特征相同,例如,用户的业务线条与某一第一用户的业务线条、工作职能、和岗位级别相同,那么用户与该某一第一用户之间的占比值为3/4。占比值为4/4表示有4个特征维度相同,即用户的业务线条、工作职能、岗位名称、岗位级别与第一用户的业务线条、工作职能、岗位名称、岗位级别相比较,4个用户特征均相同,例如,用户的业务线条与某一第一用户的业务线条、工作职能、岗位名称、岗位级别均相同,那么用户与该某一第一用户之间的占比值为4/4。
其中,Sim(Usera∪Userb)表示用户的用户特征与每个第二用户的用户特征之间相同特征维度(业务线条、工作职能、岗位名称、岗位级别)占比值的汇总量以及用户的用户特征与每个第三用户的用户特征之间相同特征维度(业务线条、工作职能、岗位名称、岗位级别)占比值的汇总量的和。其中,占比值的确定方法可以参考上述Sim(Usera∩Userb)中占比值的确定方法,在此处不在赘述。
需要说明的是,上述确定搜索词与第一目标扩展词之间的关联度的方法是先根据存储中的搜索记录数据确定用户的多个参考用户以及每个参考用户的用户特征,再根据用户的用户特征和参考用户的用户特征来确定的。也就是需要历史用户的搜索记录数据,并且搜索记录数据的数据量要比较大,在这种情况下,适合于上述方法确定搜索词与第一目标扩展词之间的关联度。例如,当搜索引擎使用了半年或者一年后,索记录数据可能达到几千条,甚至几万条,可以利用上述方法确定搜索词与第一目标扩展词之间的关联度。而在历史用户的搜索记录数据较少的情况下,确定搜索词与第一目标扩展词之间的关联度的具体实现过程可以是:获取用户的业务线条、工作职能、岗位名称,接着,在确定搜索词与业务线条之间的相似度、搜索词与工作职能之间的相似度以及搜索词与岗位名称之间的相似度,再根据搜索词与业务线条之间的相似度、搜索词与工作职能之间的相似度、搜索词与岗位名称之间的相似度确定搜索词与第一目标扩展词之间的关联度。可选的,可以将搜索词与业务线条之间的相似度、搜索词与工作职能之间的相似度以及搜索词与岗位名称之间的相似度的乘积作为搜索词与第一目标扩展词之间的关联度。例如,搜索词与业务线条之间的相似度为K1、搜索词与工作职能之间的相似度为K2、搜索词与岗位名称之间的相似度为K3,那么,搜索词与第一目标扩展词之间的关联度为K1ÍK2ÍK3。其中,上述搜索词与业务线条之间的相似度可以是余弦相似度,具体地,可以利用Word2vec模型确定搜索词与业务线条各自对应的词向量,再根据搜索词对应的词向量和业务线条对应的词向量确定余弦相似度,其中,余弦相似度即是两个向量之间的余弦距离。搜索词与工作职能之间的相似度,以及搜索词与岗位名称之间的相似度的确定方法与上述搜索词与业务线条之间的相似度的确定方法是一样的。
S206:获取与搜索词和各个目标扩展词对应的多个搜索结果,并确定多个搜索结果中各个搜索结果的调整系数。
S207:根据关联度和调整系数确定各个搜索结果的搜索得分,以及根据各个搜索结果的搜索得分展示各个搜索结果。
其中,步骤S206-S207的具体实施方式可以参见上述实施例步骤S104-S105的具体描述,此处不再赘述。
本申请实施例中,电子设备可以获取用户输入的搜索词,并确定搜索词对应的包括一个或多个候选扩展词的候选扩展词集,再根据搜索词的第一词性信息和候选扩展词集中各个候选扩展词的第二词性信息,从各个候选扩展词中确定一个或多个目标扩展词,接着,根据搜索词和第一目标扩展词确定多个参考用户,并确定多个参考用户中各个参考用户的用户特征,根据用户的用户特征和各个参考用户的用户特征,确定搜索词与第一目标扩展词之间的关联度,进一步的,获取与搜索词和各个目标扩展词对应的多个搜索结果,并确定多个搜索结果中各个搜索结果的调整系数,再根据关联度和调整系数确定各个搜索结果的搜索得分,并根据各个搜索结果的搜索得分展示各个搜索结果。通过上述实施方法,可以根据对搜索词的语义理解、词性分析确定符合用户的潜在搜索词,以使得根据搜索词和潜在搜索词得到多个搜索结果,并结合历史用户的搜索记录数据,以及用户的用户特征对搜索结果进行排序,使得展示为用户的搜索结果的排序更加适合用户的搜索需求,从而可以提高搜索引擎的推荐效率。
请参阅图5,图5是本申请实施例提供的一种数据处理装置的结构示意图。所述数据处理装置包括:
第一获取单元501,用于获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;
第一确定单元502,用于根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;
第二获取单元503,用于获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;
第二确定单元504,用于获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;
第三确定单元505,用于根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果。
在一种实现方式中,所述第一获取单元501,具体用于:
根据预设扩展词算法确定所述搜索词对应的一个或多个第一扩展词;
确定所述搜索词对应的第一词向量,以及所述一个或多个第一扩展词中各个第一扩展词分别对应的第二词向量;
根据所述第一词向量和所述各个第一扩展词分别对应的第二词向量,利用第一相似度算法确定所述搜索词与所述各个第一扩展词之间的第一相似度;
确定所述第一相似度大于或等于预设相似阈值的第一扩展词为所述搜索词对应的候选扩展词。
在一种实现方式中,所述第一确定单元502,具体用于:
根据预设词性算法模型对所述搜索词和所述各个候选扩展词进行词性分析,得到所述搜索词对应的第一词性信息,以及所述各个候选扩展词分别对应的第二词性信息,其中,所述第一词性信息包括所述搜索词的第一词性以及所述搜索词的词性为第一词性的第一概率,所述第二词性信息包括所述各个候选扩展词的第二词性以及所述各个候选扩展词的词性为第二词性的第二概率;
从所述各个候选扩展词中确定所述第一词性与所述第二词性相同的一个或多个第二扩展词;
当确定所述搜索词对应的第一概率与所述一个或多个第二扩展词中的一个第二扩展词对应的第二概率的乘积大于预设阈值时,确定所述一个第二扩展词为所述搜索词对应的目标扩展词。
在一种实现方式中,所述目标扩展词包括第一目标扩展词;所述第二获取单元503,具体用于:
根据所述搜索词和所述第一目标扩展词确定多个参考用户,其中,所述多个参考用户包括第一用户、第二用户、第三用户,所述第一用户包括搜索过所述搜索词和所述第一目标扩展词的用户,所述第二用户包括搜索过所述搜索词的用户,所述第三用户包括搜索过所述第一目标扩展词的用户;
确定所述多个参考用户中各个参考用户的用户特征;
根据所述用户的用户特征和所述各个参考用户的用户特征,确定所述搜索词与所述第一目标扩展词之间的关联度。
在一种实现方式中,所述第二获取单元503,具体用于:
若所述用户的用户特征和所述各个参考用户的用户特征满足第一条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为1;
若所述用户的用户特征和所述各个参考用户的用户特征满足第二条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为0;
若所述用户的用户特征和所述各个参考用户的用户特征满足第三条件,则根据预设关联度算法确定所述搜索词与所述第一目标扩展词之间的关联度。
在一种实现方式中,所述第二确定单元504,具体用于:
获取预设时间段内所述多个搜索结果中每个搜索结果的被搜索次数以及被点击次数;
计算所述每个搜索结果的被点击次数与1的第一和值、以及所述每个搜索结果的被搜索次数与1的第二和值;
计算所述每个搜索结果的第一和值与所述第二和值之间的比值,并确定所述比值的均方根值为所述每个搜索结果的调整系数。
在一种实现方式中,所述搜索结果包括目标搜索结果;所述第三确定单元505,具体用于:
根据第二相似度算法确定所述搜索词与所述各个目标扩展词之间的第二相似度,其中,所述第一相似度算法与所述第二相似度算法不相同;
根据所述搜索词与所述各个目标扩展词之间的关联度、所述搜索词与所述各个目标扩展词之间的第一相似度、所述搜索词与所述各个目标扩展词之间的第二相似度以及所述目标搜索结果的调整系数,确定所述目标搜索结果的搜索得分。
可以理解的是,本申请实施例所描述的数据处理装置的各功能单元的功能可根据图1或者图2所述的方法实施例中的方法具体实现,其具体实现过程可以参照图1或者图2的方法实施例的相关描述,此处不再赘述。
本申请实施例中,第一获取单元501获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;第一确定单元502根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;第二获取单元503获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;第二确定单元504获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;第三确定单元505根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果。可以结合对搜索词的语义理解以及用户的用户特征对搜索结果进行排序,从而使得搜索结果的排序更加符合用户意图,提高搜索引擎的推荐效率。
请参阅图6,图6是本申请实施例提供的一种电子设备的结构示意图。本实施例中所描述的电子设备,可以为服务器,也可以为终端,该电子设备包括:处理器601、存储器602以及网络接口603。上述处理器601、存储器602以及网络接口603之间可以交互数据。
上述处理器601可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供程序指令和数据。存储器602的一部分还可以包括随机存取存储器。其中,所述处理器601调用所述程序指令时用于执行:
获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;
根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;
获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;
获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;
根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果。
在一种实现方式中,所述处理器601,具体用于:
根据预设扩展词算法确定所述搜索词对应的一个或多个第一扩展词;
确定所述搜索词对应的第一词向量,以及所述一个或多个第一扩展词中各个第一扩展词分别对应的第二词向量;
根据所述第一词向量和所述各个第一扩展词分别对应的第二词向量,利用第一相似度算法确定所述搜索词与所述各个第一扩展词之间的第一相似度;
确定所述第一相似度大于或等于预设相似阈值的第一扩展词为所述搜索词对应的候选扩展词。
在一种实现方式中,所述处理器601,具体用于:
根据预设词性算法模型对所述搜索词和所述各个候选扩展词进行词性分析,得到所述搜索词对应的第一词性信息,以及所述各个候选扩展词分别对应的第二词性信息,其中,所述第一词性信息包括所述搜索词的第一词性以及所述搜索词的词性为第一词性的第一概率,所述第二词性信息包括所述各个候选扩展词的第二词性以及所述各个候选扩展词的词性为第二词性的第二概率;
从所述各个候选扩展词中确定所述第一词性与所述第二词性相同的一个或多个第二扩展词;
当确定所述搜索词对应的第一概率与所述一个或多个第二扩展词中的一个第二扩展词对应的第二概率的乘积大于预设阈值时,确定所述一个第二扩展词为所述搜索词对应的目标扩展词。
在一种实现方式中,所述目标扩展词包括第一目标扩展词;所述处理器601,具体用于:
根据所述搜索词和所述第一目标扩展词确定多个参考用户,其中,所述多个参考用户包括第一用户、第二用户、第三用户,所述第一用户包括搜索过所述搜索词和所述第一目标扩展词的用户,所述第二用户包括搜索过所述搜索词的用户,所述第三用户包括搜索过所述第一目标扩展词的用户;
确定所述多个参考用户中各个参考用户的用户特征;
根据所述用户的用户特征和所述各个参考用户的用户特征,确定所述搜索词与所述第一目标扩展词之间的关联度。
在一种实现方式中,所述处理器601,具体用于:
若所述用户的用户特征和所述各个参考用户的用户特征满足第一条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为1;
若所述用户的用户特征和所述各个参考用户的用户特征满足第二条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为0;
若所述用户的用户特征和所述各个参考用户的用户特征满足第三条件,则根据预设关联度算法确定所述搜索词与所述第一目标扩展词之间的关联度。
在一种实现方式中,所述处理器601,具体用于:
获取预设时间段内所述多个搜索结果中每个搜索结果的被搜索次数以及被点击次数;
计算所述每个搜索结果的被点击次数与1的第一和值、以及所述每个搜索结果的被搜索次数与1的第二和值;
计算所述每个搜索结果的第一和值与所述第二和值之间的比值,并确定所述比值的均方根值为所述每个搜索结果的调整系数。
在一种实现方式中,所述搜索结果包括目标搜索结果;所述处理器601,具体用于:
根据第二相似度算法确定所述搜索词与所述各个目标扩展词之间的第二相似度,其中,所述第一相似度算法与所述第二相似度算法不相同;
根据所述搜索词与所述各个目标扩展词之间的关联度、所述搜索词与所述各个目标扩展词之间的第一相似度、所述搜索词与所述各个目标扩展词之间的第二相似度以及所述目标搜索结果的调整系数,确定所述目标搜索结果的搜索得分。
具体实现中,本申请实施例中所描述的处理器601和存储器602可执行本申请实施例图1或者图2提供的数据处理方法中所描述的实现方式,也可执行本申请实施例图5所描述的数据处理装置的实现方式,在此不再赘述。
本申请实施例中,处理器601可以获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果。可以结合对搜索词的语义理解以及用户的用户特征对搜索结果进行排序,从而使得搜索结果的排序更加符合用户意图,提高搜索引擎的推荐效率。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序指令,所述程序执行时可包括如图1或者图2对应实施例中的数据处理方法的部分或全部步骤。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
需要强调的是,为进一步保证上述数据的私密和安全性,上述数据还可以存储于一区块链的节点中。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上对本申请实施例所提供的一种数据处理方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种数据处理方法,其特征在于,包括:
获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;
根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;
获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;
获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;
根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果;
其中,所述目标扩展词包括第一目标扩展词;所述根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度,包括:
根据所述搜索词和所述第一目标扩展词确定多个参考用户,所述多个参考用户包括第一用户、第二用户、第三用户,所述第一用户包括搜索过所述搜索词和所述第一目标扩展词的用户,所述第二用户包括搜索过所述搜索词的用户,所述第三用户包括搜索过所述第一目标扩展词的用户;
确定所述多个参考用户中各个参考用户的用户特征;
若所述用户的用户特征和所述各个参考用户的用户特征满足第一条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为1;
若所述用户的用户特征和所述各个参考用户的用户特征满足第二条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为0;
若所述用户的用户特征和所述各个参考用户的用户特征满足第三条件,则根据预设关联度算法确定所述搜索词与所述第一目标扩展词之间的关联度。
2.根据权利要求1所述的方法,其特征在于,所述确定所述搜索词对应的候选扩展词集,包括:
根据预设扩展词算法确定所述搜索词对应的一个或多个第一扩展词;
确定所述搜索词对应的第一词向量,以及所述一个或多个第一扩展词中各个第一扩展词分别对应的第二词向量;
根据所述第一词向量和所述各个第一扩展词分别对应的第二词向量,利用第一相似度算法确定所述搜索词与所述各个第一扩展词之间的第一相似度;
确定所述第一相似度大于或等于预设相似阈值的第一扩展词为所述搜索词对应的候选扩展词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词的第一词性信息和所述一个或多个候选扩展词中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词,包括:
根据预设词性算法模型对所述搜索词和所述各个候选扩展词进行词性分析,得到所述搜索词对应的第一词性信息,以及所述各个候选扩展词分别对应的第二词性信息,其中,所述第一词性信息包括所述搜索词的第一词性以及所述搜索词的词性为第一词性的第一概率,所述第二词性信息包括所述各个候选扩展词的第二词性以及所述各个候选扩展词的词性为第二词性的第二概率;
从所述各个候选扩展词中确定所述第一词性与所述第二词性相同的一个或多个第二扩展词;
当确定所述搜索词对应的第一概率与所述一个或多个第二扩展词中的一个第二扩展词对应的第二概率的乘积大于预设阈值时,确定所述一个第二扩展词为所述搜索词对应的目标扩展词。
4.根据权利要求1所述的方法,其特征在于,所述确定所述多个搜索结果中各个搜索结果的调整系数,包括:
获取预设时间段内所述多个搜索结果中每个搜索结果的被搜索次数以及被点击次数;
计算所述每个搜索结果的被点击次数与1的第一和值、以及所述每个搜索结果的被搜索次数与1的第二和值;
计算所述每个搜索结果的第一和值与所述第二和值之间的比值,并确定所述比值的均方根值为所述每个搜索结果的调整系数。
5.根据权利要求2所述的方法,其特征在于,所述搜索结果包括目标搜索结果;所述根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,包括:
根据第二相似度算法确定所述搜索词与所述各个目标扩展词之间的第二相似度,其中,所述第一相似度算法与所述第二相似度算法不相同;
根据所述搜索词与所述各个目标扩展词之间的关联度、所述搜索词与所述各个目标扩展词之间的第一相似度、所述搜索词与所述各个目标扩展词之间的第二相似度以及所述目标搜索结果的调整系数,确定所述目标搜索结果的搜索得分。
6.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取用户输入的搜索词,并确定所述搜索词对应的候选扩展词集,所述候选扩展词集中包括一个或多个候选扩展词;
第一确定单元,用于根据所述搜索词的第一词性信息和所述候选扩展词集中各个候选扩展词的第二词性信息,从所述各个候选扩展词中确定一个或多个目标扩展词;
第二获取单元,用于获取所述用户的用户特征,并根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度;
第二确定单元,用于获取与所述搜索词和所述各个目标扩展词对应的多个搜索结果,并确定所述多个搜索结果中各个搜索结果的调整系数;
第三确定单元,用于根据所述关联度和所述调整系数确定所述各个搜索结果的搜索得分,以及根据所述各个搜索结果的搜索得分展示所述各个搜索结果;
其中,所述目标扩展词包括第一目标扩展词;所述第二获取单元根据所述用户的用户特征确定所述搜索词与所述一个或多个目标扩展词中各个目标扩展词之间的关联度时,具体用于:
根据所述搜索词和所述第一目标扩展词确定多个参考用户,所述多个参考用户包括第一用户、第二用户、第三用户,所述第一用户包括搜索过所述搜索词和所述第一目标扩展词的用户,所述第二用户包括搜索过所述搜索词的用户,所述第三用户包括搜索过所述第一目标扩展词的用户;
确定所述多个参考用户中各个参考用户的用户特征;
若所述用户的用户特征和所述各个参考用户的用户特征满足第一条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为1;
若所述用户的用户特征和所述各个参考用户的用户特征满足第二条件,则确定所述搜索词与所述第一目标扩展词之间的关联度为0;
若所述用户的用户特征和所述各个参考用户的用户特征满足第三条件,则根据预设关联度算法确定所述搜索词与所述第一目标扩展词之间的关联度。
7.一种电子设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188502.1A CN112559895B (zh) | 2021-02-19 | 2021-02-19 | 一种数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188502.1A CN112559895B (zh) | 2021-02-19 | 2021-02-19 | 一种数据处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559895A CN112559895A (zh) | 2021-03-26 |
CN112559895B true CN112559895B (zh) | 2021-05-18 |
Family
ID=75034354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110188502.1A Active CN112559895B (zh) | 2021-02-19 | 2021-02-19 | 一种数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559895B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297511B (zh) * | 2021-05-24 | 2022-09-16 | 北京三快在线科技有限公司 | 商户排序模型的构建方法、装置、服务器及存储介质 |
CN113704623B (zh) * | 2021-08-31 | 2024-04-16 | 平安银行股份有限公司 | 一种数据推荐方法、装置、设备及存储介质 |
CN113792194A (zh) * | 2021-09-16 | 2021-12-14 | 北京沃东天骏信息技术有限公司 | 搜索属性信息的排序方法、装置、电子设备和存储介质 |
CN113869948A (zh) * | 2021-09-27 | 2021-12-31 | 重庆软岛科技股份有限公司 | 一种企业数字化营销开放式系统平台 |
CN115292605A (zh) * | 2022-08-18 | 2022-11-04 | 深圳市承泽信息科技有限公司 | 一种互联网基于云数据关键词搜索方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751518B1 (en) * | 2010-02-24 | 2014-06-10 | A9.Com, Inc. | Fixed phrase detection for search |
CN104102723A (zh) * | 2014-07-21 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 搜索内容提供方法和搜索引擎 |
CN104462293A (zh) * | 2014-11-27 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 搜索处理方法、生成搜索结果排序模型的方法和装置 |
CN106294661A (zh) * | 2016-08-04 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 一种扩展搜索方法与装置 |
CN108241629A (zh) * | 2016-12-23 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 关键词分组方法和装置 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN110390052A (zh) * | 2019-07-25 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 |
CN111737560A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 内容搜索方法、领域预测模型训练方法、装置及存储介质 |
-
2021
- 2021-02-19 CN CN202110188502.1A patent/CN112559895B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8751518B1 (en) * | 2010-02-24 | 2014-06-10 | A9.Com, Inc. | Fixed phrase detection for search |
CN104102723A (zh) * | 2014-07-21 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 搜索内容提供方法和搜索引擎 |
CN104462293A (zh) * | 2014-11-27 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 搜索处理方法、生成搜索结果排序模型的方法和装置 |
CN106294661A (zh) * | 2016-08-04 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 一种扩展搜索方法与装置 |
CN108241629A (zh) * | 2016-12-23 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 关键词分组方法和装置 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN110390052A (zh) * | 2019-07-25 | 2019-10-29 | 腾讯科技(深圳)有限公司 | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 |
CN111737560A (zh) * | 2020-07-20 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 内容搜索方法、领域预测模型训练方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112559895A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559895B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
WO2021114810A1 (zh) | 基于图结构的公文推荐方法、装置、计算机设备及介质 | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109543007A (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
US20070136280A1 (en) | Factoid-based searching | |
CN110377725B (zh) | 数据生成方法、装置、计算机设备及存储介质 | |
US11507743B2 (en) | System and method for automatic key phrase extraction rule generation | |
WO2015149690A1 (en) | Media content recommendation method and apparatus | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN110909120A (zh) | 简历搜索/投递方法、装置、系统及电子设备 | |
CN111191105B (zh) | 政务信息的搜索方法、装置、系统、设备及存储介质 | |
CN108959580A (zh) | 一种标签数据的优化方法及系统 | |
CN109344246B (zh) | 一种电子问卷生成方法、计算机可读存储介质及终端设备 | |
CN108133357A (zh) | 一种人才推荐方法及计算设备 | |
CN114547257B (zh) | 类案匹配方法、装置、计算机设备及存储介质 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN110717008B (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN111160699A (zh) | 一种专家推荐方法及系统 | |
CN107766537B (zh) | 一种职位搜索排序方法及计算设备 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
US20180157744A1 (en) | Comparison table automatic generation method, device and computer program product of the same | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |