CN109582852A - 一种全文检索结果的排序方法及系统 - Google Patents

一种全文检索结果的排序方法及系统 Download PDF

Info

Publication number
CN109582852A
CN109582852A CN201811479999.7A CN201811479999A CN109582852A CN 109582852 A CN109582852 A CN 109582852A CN 201811479999 A CN201811479999 A CN 201811479999A CN 109582852 A CN109582852 A CN 109582852A
Authority
CN
China
Prior art keywords
keyword
user
ranking results
text message
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811479999.7A
Other languages
English (en)
Other versions
CN109582852B (zh
Inventor
宗宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201811479999.7A priority Critical patent/CN109582852B/zh
Publication of CN109582852A publication Critical patent/CN109582852A/zh
Application granted granted Critical
Publication of CN109582852B publication Critical patent/CN109582852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种全文检索结果的排序方法及系统,该方法包括:基于词向量技术,将用户输入的搜索内容分解成至少一个关键词,并获取关键词的相似词。利用solr对关键词和相似词进行搜索得到包含关键词和相似词的文本信息,并对文本信息进行排序得到排序结果集合。统计排序结果集合中每一条文本信息对应的其他用户的用户选择行为。基于用户选择行为对应的权重和预设的评分公式,计算排序结果集合中每一条文本信息的分数并进行排序,将得到的最终排序结果集合反馈给用户。通过用户选择行为对应的权重,利用评分公式和其他用户的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。

Description

一种全文检索结果的排序方法及系统
技术领域
本发明涉及检索技术领域,具体涉及一种全文检索结果的排序方法及系统。
背景技术
随着科学技术的发展,搜索引擎逐渐成为人们日常生活和工作中经常使用的工具。通过将需要搜索的内容输入搜索引擎,从而获取想要得到的搜索结果。
目前较为常见的搜索引擎有基于solr的全文搜索引擎。在进行全文搜索过程中,将需要搜索的内容输入基于solr的全文搜索引擎,该全文搜索引擎基于solr自带的结果排序算法对搜索到的结果进行简单的排序,最后将排序后的搜索结果反馈给用户。但是在商业银行场景下,由于银行知识中存在大量银行行业专用术语和词汇,solr自带的搜索规则和结果排序算法存在较大的局限性。当用户输入的搜索内容为银行专业词汇时,反馈给用户的结果往往不符合用户的预期期望。
因此,现有的全文搜索算法应用在银行场景下存在应用局限性大、反馈结果不符合用户预期期望和用户体验效果差等问题。
发明内容
有鉴于此,本发明实施例提供一种全文检索结果的排序方法及系统,以解决现有的全文搜索算法应用在银行场景下存在应用局限性大、反馈结果不符合用户预期期望和用户体验效果差等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开了一种全文检索结果的排序方法,所述方法包括:
获取用户输入的包含银行专业词汇的搜索内容;
基于分词算法和词向量技术,将所述搜索内容分解成至少一个关键词,并获取所述关键词的相似词;
利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合;
统计所述排序结果集合中每一条文本信息对应的其他用户的用户选择行为,所述用户选择行为至少包括点赞次数、点踩次数和选择次数;
基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数,所述权重由利用逻辑回归算法训练样本数据获得的;
基于所述排序结果集合中每一条文本信息的分数进行排序,将得到的最终排序结果集合反馈给所述用户。
可选的,所述基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数,包括:
基于所述点赞次数、点踩次数和选择次数对应的权重,使用计算所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp;
其中,X1为所述点赞次数对应的权重,X2为所述点踩次数的权重,X3为所述选择次数的权重,z为所述关键词的点赞次数,s为所述关键词的选择次数,c为所述关键词的点踩次数;
基于所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,使用计算所述每一条文本信息的分数
其中,n为所述每一条文本信息中的所述关键词的个数,i表示所述每一条文本信息中的第i个所述关键词。
可选的,所述方法还包括:
基于预设周期,周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为。
可选的,所述基于预设周期,周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为之后,还包括:
基于所述用户选择行为,按照预设周期利用所述逻辑回归算法更新所述权重。
可选的,所述将得到的最终排序结果集合反馈给所述用户之后,还包括:
记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。
可选的,所述获取所述关键词的相似词,包括:
利用所述词向量技术,将所述关键词转化成为关键词稠密向量;
搜索与所述关键词稠密向量的相似度高于阈值的稠密向量;
获取与所述稠密向量相对应的词作为所述相似词。
可选的,所述利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合,包括:
利用所述solr搜索引擎对所述关键词和相似词进行搜索获得包含所述关键词和相似词的文本信息;
基于所述solr搜索引擎自带的排序规则对所述文本信息进行第一次排序得到第一排序集合;
基于所述关键词与相似词的相似度,利用所述solr搜索引擎对所述第一排序集合中的文本信息进行第二次排序,得到所述排序结果集合。
本发明实施例第二方面公开了一种全文检索结果的排序系统,所述系统包括:
第一获取单元,用于获取用户输入的包含银行专业词汇的搜索内容;
第二获取单元,用于基于分词算法和词向量技术,将所述搜索内容分解成至少一个关键词,并获取所述关键词的相似词;
第一排序单元,用于利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合;
统计单元,用于统计所述排序结果集合中每一条文本信息对应的其他用户的用户选择行为,所述用户选择行为至少包括点赞次数、点踩次数和选择次数;
计算单元,用于基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数,所述权重由利用逻辑回归算法训练样本数据获得的;
第二排序单元,用于基于所述排序结果集合中每一条文本信息的分数进行排序,将得到的最终排序结果集合反馈给所述用户。
可选的,所述计算单元包括:
计算模块,用于基于所述点赞次数、点踩次数和选择次数对应的权重,使用计算所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,其中,X1为所述点赞次数对应的权重,X2为所述点踩次数的权重,X3为所述选择次数的权重,z为所述关键词的点赞次数,s为所述关键词的选择次数,c为所述关键词的点踩次数;
平均模块,用于基于所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,使用计算所述每一条文本信息的分数其中,n为所述每一条文本信息中的所述关键词的个数,i表示所述每一条文本信息中的第i个所述关键词。
可选的,所述系统还包括:
周期统计单元,用于基于预设周期,周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为。
基于上述本发明实施例提供的一种全文检索结果的排序算法及系统,该方法包括:基于词向量技术,将用户输入的搜索内容分解成至少一个关键词,并获取关键词的相似词。利用solr对关键词和相似词进行搜索得到包含关键词和相似词的文本信息,并对文本信息进行排序得到排序结果集合。统计排序结果集合中每一条文本信息对应的其他用户的用户选择行为。基于用户选择行为对应的权重和预设的评分公式,计算排序结果集合中每一条文本信息的分数并进行排序,将得到的最终排序结果集合反馈给用户。通过用户选择行为对应的权重,利用评分公式和其他用户的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种全文检索结果的排序方法的流程图;
图2为本发明实施例提供的计算排序结果集合中每一条文本信息的分数的流程图;
图3为本发明实施例提供的获取关键词的相似词的流程图;
图4为本发明实施例提供的得到排序结果集合的流程图;
图5为本发明实施例提供的一种全文检索结果的排序系统的结构框图;
图6为本发明实施例提供的一种全文检索结果的排序系统的结构框图;
图7为本发明实施例提供的一种全文检索结果的排序系统的结构框图;
图8为本发明实施例提供的一种全文检索结果的排序系统的结构框图;
图9为本发明实施例提供的一种全文检索结果的排序系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前较为常见的搜索引擎有基于solr的全文搜索引擎。在进行全文搜索过程中,将需要搜索的内容输入基于solr的全文搜索引擎,该全文搜索引擎基于solr自带的结果排序算法对搜索到的结果进行简单的排序,最后将排序后的搜索结果反馈给用户。但是在商业银行场景下,由于银行知识中存在大量银行行业专用术语和词汇,solr自带的搜索规则和结果排序算法存在较大的局限性。当用户输入的搜索内容为银行专业词汇时,反馈给用户的结果往往不符合用户的预期期望。
因此,本发明实施例提供了一种全文检索结果的排序方法及系统,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
参考图1,示出了本发明实施例提供的一种全文检索结果的排序方法的流程图,所述方法包括以下步骤:
步骤S101:获取用户输入的包含银行专业词汇的搜索内容。
在具体实现步骤S101的过程中,所述搜索内容为包含银行专业词汇的内容,比如包含存款单、信用卡、本金或者透支等银行专业词汇。
步骤S102:基于分词算法和词向量技术,将所述搜索内容分解成至少一个关键词,并获取所述关键词的相似词。
在具体实现步骤S102的过程中,使用分词算法将所述搜索内容分成多个具有实际意义的关键词,比如所述solr搜索引擎自带的分词功能。再利用词向量技术获取所述关键词的相似词。具体选择哪种分词算法由技术人员根据实际情况进行选择。
需要说明的是,词向量技术是一种可以将词语或者短语转化成稠密向量的技术,即将词语或者短语映射为实数域上向量的技术。
步骤S103:利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合。
在具体实现步骤S103的过程中,首先使用solr搜索引擎对所述关键词和相似词进行搜索,得到包含所述关键词和相似词的文本信息。再利用solr搜索引擎自带的排序算法对所述文本信息进行排序得到排序结果集合。
需要说明的是,solr搜索引擎是一个独立的企业级搜索应用服务器,用户可以通过超文本传输协议(Hyper Text Transfer Protocol,http)请求,向所述solr搜索引擎服务器提交一定格式的可扩展标记语言(eXtensible Markup Language,XML)文件,生成索引。也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
步骤S104:统计所述排序结果集合中每一条文本信息对应的其他用户的用户选择行为。
在具体实现步骤S104的过程中,所述用户选择行为至少包括点赞次数、点踩次数和选择次数。所述其他用户对每一条包含银行专业词汇的文本信息的用户选择行为是预先进行统计并记录的。
步骤S105:基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数。
在具体实现步骤S105的过程中,所述样本数据为预先记录的其他用户对每一条包含银行专业词汇的文本信息的用户选择行为。
优选的,所述样本数据可以采用预设周期获取的方式,将周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为作为样本数据。其中,具体周期的时长由技术人员进行设定。
所述权重是利用逻辑回归算法训练所述样本数据获得的。基于所述样本数据,使用逻辑回归算法计算所述用户选择行为的特征得到所述权重。
优选的,基于所述用户选择行为,按照预设周期利用所述逻辑回归算法更新所述权重。其中,具体周期的时长由技术人员进行设定。
需要说明的是,所述评分公式用于计算所述排序结果集合中每一文本信息的分数,所述评分公式由技术人员根据实际情况进行设置。
步骤S106:基于所述排序结果集合中每一条文本信息的分数进行排序,将得到的最终排序结果集合反馈给所述用户。
在具体实现步骤S106的过程中,将所述每一条文本信息的分数按照由高至低的顺序反馈给所述用户,以供所述用户进行选择。
优选的,记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
上述图1公开的步骤S105涉及到的使用评分公式计算排序结果集合中每一条文本信息的分数,参考图2,示出了本发明实施例提供的算排序结果集合中每一条文本信息的分数的流程图,包括以下步骤:
步骤S201:基于所述点赞次数、点踩次数和选择次数对应的权重,使用公式(1)计算所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp。
所述公式(1)为:
在具体实现步骤S201的过程中,X1为所述点赞次数对应的权重,X2为所述点踩次数的权重,X3为所述选择次数的权重,z为所述关键词的点赞次数,s为所述关键词的选择次数,c为所述关键词的点踩次数。
需要说明的是,所述权重X1、X2和X3是利用所述逻辑回归算法训练所述样本数据得到的,具体内容参见上述本发明实施例图1公开的步骤S105中对应的内容,在这就不再进行赘述。
步骤S202:基于所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,使用公式(2)计算所述每一条文本信息的分数
所述公式(2)为:
在具体实现步骤S202的过程中,n为所述每一条文本信息中的所述关键词的个数,i表示所述每一条文本信息中的第i个所述关键词。
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
上述图1公开的步骤S102涉及的获取关键词的相似词的过程,参考图3,示出了本发明实施例提供的获取关键词的相似词的流程图,包括以下步骤:
步骤S301:利用所述词向量技术,将所述关键词转化成为关键词稠密向量。
需要说明的是,稠密向量指的是向量中大部分的元素为非0值的向量。
步骤S302:搜索与所述关键词稠密向量的相似度高于阈值的稠密向量。
在具体实现步骤S302的过程中,词义和词意越相近的词,其稠密向量的相似度也高,通过这个特性,可以获取所述关键词的相似词。
需要说明的是,所述阈值由技术人员根据实际情况进行设置。
步骤S303:获取与所述稠密向量相对应的词作为所述相似词。
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
上述图1公开的步骤S103涉及到的对所述文本信息进行排序得到排序结果集合,参考图4,示出了本发明实施例提供的得到排序结果集合的流程图,包括以下步骤:
步骤S401:利用所述solr搜索引擎对所述关键词和相似词进行搜索获得包含所述关键词和相似词的文本信息。
步骤S402:基于所述solr搜索引擎自带的排序规则对所述文本信息进行第一次排序得到第一排序集合。
步骤S403:基于所述关键词与相似词的相似度,利用所述solr搜索引擎对所述第一排序集合中的文本信息进行第二次排序,得到所述排序结果集合。
在具体实现步骤S403的过程中,通过计算所述关键词的词向量和相似词的词向量之间的余弦值,得到所述相似度。
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
与上述本发明实施例提供的一种全文检索结果的排序方法相对应,参考图5,本发明实施例还提供了一种全文检索结果的排序系统的结构框图,所述系统包括:第一获取单元501、第二获取单元502、第一排序单元503、统计单元504、计算单元505和第二排序单元506。
第一获取单元501,用于获取用户输入的包含银行专业词汇的搜索内容。具体内容参见上述本发明实施例图1公开的步骤S101相对应的内容。
第二获取单元502,用于基于分词算法和词向量技术,将所述搜索内容分解成至少一个关键词,并获取所述关键词的相似词。具体内容参见上述本发明实施例图1公开的步骤S102相对应的内容。
第一排序单元503,用于利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合。具体内容参见上述本发明实施例图1公开的步骤S103相对应的内容。
统计单元504,用于统计所述排序结果集合中每一条文本信息对应的其他用户的用户选择行为,所述用户选择行为至少包括点赞次数、点踩次数和选择次数。具体内容参见上述本发明实施例图1公开的步骤S104相对应的内容。
计算单元505,用于基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数,所述权重由利用逻辑回归算法训练样本数据获得的。具体内容参见上述本发明实施例图1公开的步骤S105相对应的内容。
第二排序单元506,用于基于所述排序结果集合中每一条文本信息的分数进行排序,将得到的最终排序结果集合反馈给所述用户。具体内容参见上述本发明实施例图1公开的步骤S106相对应的内容。
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
参考图6,示出了本发明实施例提供的一种全文检索结果的排序系统的结构框图,所述计算单元505包括:计算模块5051和平均模块5052。
计算模块5051,用于基于所述点赞次数、点踩次数和选择次数对应的权重,使用所述公式(1)计算所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp。
平均模块5052,用于基于所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,使用所述公式(2)计算所述每一条文本信息的分数
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
参考图7,示出了本发明实施例提供的一种全文检索结果的排序系统的结构框图,所述第二获取单元502包括:转化模块5021、搜索模块5022和获取模块5023。
转化模块5021、用于利用所述词向量技术,将所述关键词转化成为关键词稠密向量。
搜索模块5022,用于搜索与所述关键词稠密向量的相似度高于阈值的稠密向量。
获取模块5023,用于获取与所述稠密向量相对应的词作为所述相似词。
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
参考图8,示出了本发明实施例提供的一种全文检索结果的排序系统的结构框图,所述第一排序单元503包括:搜索模块5031、第一排序模块5032和第二排序模块5033。
搜索模块5031,用于利用所述solr搜索引擎对所述关键词和相似词进行搜索获得包含所述关键词和相似词的文本信息。
第一排序模块5032,用于基于所述solr搜索引擎自带的排序规则对所述文本信息进行第一次排序得到第一排序集合。
第二排序模块5033,用于基于所述关键词与相似词的相似度,利用所述solr搜索引擎对所述第一排序集合中的文本信息进行第二次排序,得到所述排序结果集合。
在本发明实施例中,利用词向量技术将用户输入的包含银行专业词汇的搜索内容分解成一个以上的关键词并获取关键词的相似词,利用solr对关键词和相似词进行搜索并排序得到由包含关键词和相似词的文本信息构成的排序结果集合。通过用户选择行为对应的权重,利用评分公式和其他用户对排序结果集合的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
优选的,参考图9,示出了本发明实施例提供的一种全文检索结果的排序系统的结构框图,所述系统还包括:周期统计单元507、更新单元508和记录单元509。所述周期统计单元507、更新单元508和记录单元509在所述系统中的存在关系有以下情况:所述系统只包含周期统计单元507、或者所述系统只包含记录单元509、或者所述系统包含周期统计单元507和记录单元509、或者所述系统包含周期统计单元507和更新单元508、或者所述系统包含周期统计单元507和更新单元508和记录单元509。
需要说明的是,周期统计单元507,用于基于预设周期,周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为。
更新单元508,用于基于所述周期统计单元507记录的所述用户选择行为,按照预设周期利用所述逻辑回归算法更新所述权重。
记录单元509,用于记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。
综上所述,本发明提供一种全文检索结果的排序方法及系统,该方法包括:基于词向量技术,将用户输入的搜索内容分解成至少一个关键词,并获取关键词的相似词。利用solr对关键词和相似词进行搜索得到包含关键词和相似词的文本信息,并对文本信息进行排序得到排序结果集合。统计排序结果集合中每一条文本信息对应的其他用户的用户选择行为。基于用户选择行为对应的权重和预设的评分公式,计算排序结果集合中每一条文本信息的分数并进行排序,将得到的最终排序结果集合反馈给用户。通过用户选择行为对应的权重,利用评分公式和其他用户的用户选择行为,对排序结果集合中的每一文本信息进行打分和排序,使反馈给用户的结果更加符合用户期望,提高用户体验。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种全文检索结果的排序方法,其特征在于,所述方法包括:
获取用户输入的包含银行专业词汇的搜索内容;
基于分词算法和词向量技术,将所述搜索内容分解成至少一个关键词,并获取所述关键词的相似词;
利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合;
统计所述排序结果集合中每一条文本信息对应的其他用户的用户选择行为,所述用户选择行为至少包括点赞次数、点踩次数和选择次数;
基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数,所述权重由利用逻辑回归算法训练样本数据获得的;
基于所述排序结果集合中每一条文本信息的分数进行排序,将得到的最终排序结果集合反馈给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数,包括:
基于所述点赞次数、点踩次数和选择次数对应的权重,使用计算所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp;
其中,X1为所述点赞次数对应的权重,X2为所述点踩次数的权重,X3为所述选择次数的权重,z为所述关键词的点赞次数,s为所述关键词的选择次数,c为所述关键词的点踩次数;
基于所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,使用计算所述每一条文本信息的分数
其中,n为所述每一条文本信息中的所述关键词的个数,i表示所述每一条文本信息中的第i个所述关键词。
3.根据权利要求1所述的方法,其特征在于,还包括:
基于预设周期,周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为。
4.根据权利要求3所述的方法,其特征在于,所述基于预设周期,周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为之后,还包括:
基于所述用户选择行为,按照预设周期利用所述逻辑回归算法更新所述权重。
5.根据权利要求1所述的方法,其特征在于,所述将得到的最终排序结果集合反馈给所述用户之后,还包括:
记录所述用户对所述最终排序结果集合中包含的每一条文本信息的用户选择行为。
6.根据权利要求1所述的方法,其特征在于,所述获取所述关键词的相似词,包括:
利用所述词向量技术,将所述关键词转化成为关键词稠密向量;
搜索与所述关键词稠密向量的相似度高于阈值的稠密向量;
获取与所述稠密向量相对应的词作为所述相似词。
7.根据权利要求1所述的方法,其特征在于,所述利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合,包括:
利用所述solr搜索引擎对所述关键词和相似词进行搜索获得包含所述关键词和相似词的文本信息;
基于所述solr搜索引擎自带的排序规则对所述文本信息进行第一次排序得到第一排序集合;
基于所述关键词与相似词的相似度,利用所述solr搜索引擎对所述第一排序集合中的文本信息进行第二次排序,得到所述排序结果集合。
8.一种全文检索结果的排序系统,其特征在于,所述系统包括:
第一获取单元,用于获取用户输入的包含银行专业词汇的搜索内容;
第二获取单元,用于基于分词算法和词向量技术,将所述搜索内容分解成至少一个关键词,并获取所述关键词的相似词;
第一排序单元,用于利用solr搜索引擎对所述关键词和相似词进行搜索得到包含所述关键词和相似词的文本信息,并对所述文本信息进行排序得到排序结果集合;
统计单元,用于统计所述排序结果集合中每一条文本信息对应的其他用户的用户选择行为,所述用户选择行为至少包括点赞次数、点踩次数和选择次数;
计算单元,用于基于所述用户选择行为对应的权重和预设的评分公式,计算所述排序结果集合中每一条文本信息的分数,所述权重由利用逻辑回归算法训练样本数据获得的;
第二排序单元,用于基于所述排序结果集合中每一条文本信息的分数进行排序,将得到的最终排序结果集合反馈给所述用户。
9.根据权利要求8所述的系统,其特征在于,所述计算单元包括:
计算模块,用于基于所述点赞次数、点踩次数和选择次数对应的权重,使用计算所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,其中,X1为所述点赞次数对应的权重,X2为所述点踩次数的权重,X3为所述选择次数的权重,z为所述关键词的点赞次数,s为所述关键词的选择次数,c为所述关键词的点踩次数;
平均模块,用于基于所述每一条文本信息中的每一个所述关键词的赞踩访问率zcp,使用计算所述每一条文本信息的分数其中,n为所述每一条文本信息中的所述关键词的个数,i表示所述每一条文本信息中的第i个所述关键词。
10.根据权利要求8所述的系统,其特征在于,所述系统还包括:
周期统计单元,用于基于预设周期,周期性地统计并记录用户对每一条包含所述银行专业词汇的文本信息的用户选择行为。
CN201811479999.7A 2018-12-05 2018-12-05 一种全文检索结果的排序方法及系统 Active CN109582852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811479999.7A CN109582852B (zh) 2018-12-05 2018-12-05 一种全文检索结果的排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811479999.7A CN109582852B (zh) 2018-12-05 2018-12-05 一种全文检索结果的排序方法及系统

Publications (2)

Publication Number Publication Date
CN109582852A true CN109582852A (zh) 2019-04-05
CN109582852B CN109582852B (zh) 2021-04-09

Family

ID=65927261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811479999.7A Active CN109582852B (zh) 2018-12-05 2018-12-05 一种全文检索结果的排序方法及系统

Country Status (1)

Country Link
CN (1) CN109582852B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188282A (zh) * 2019-05-31 2019-08-30 广州华多网络科技有限公司 确定偏好得分的方法和装置
CN110929154A (zh) * 2019-11-27 2020-03-27 中国银行股份有限公司 一种搜索结果的排序方法及系统
CN111159461A (zh) * 2019-12-30 2020-05-15 秒针信息技术有限公司 音频文件确定方法和装置、存储介质及电子装置
CN111241319A (zh) * 2020-01-22 2020-06-05 北京搜狐新媒体信息技术有限公司 一种图文转换的方法及系统
CN112000871A (zh) * 2020-08-21 2020-11-27 北京三快在线科技有限公司 确定搜索结果列表的方法、装置、设备及存储介质
CN114238588A (zh) * 2022-02-24 2022-03-25 江西医之健科技有限公司 数据检索方法、系统、可读存储介质及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399940A (zh) * 2013-08-12 2013-11-20 北京理工大学 基于行为的领域信息检索方法
CN105930539A (zh) * 2016-06-27 2016-09-07 北京百度网讯科技有限公司 话题订阅方法和装置
US20170124081A1 (en) * 2015-11-02 2017-05-04 International Business Machines Corporation Rank-based calculation for keyword searches
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107729473A (zh) * 2017-10-13 2018-02-23 东软集团股份有限公司 文章推荐方法及其装置
CN108038133A (zh) * 2017-11-20 2018-05-15 青岛鹏海软件有限公司 个性化推荐方法
CN108304535A (zh) * 2018-01-30 2018-07-20 深圳市富途网络科技有限公司 一种社区内容智能排序估算方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399940A (zh) * 2013-08-12 2013-11-20 北京理工大学 基于行为的领域信息检索方法
US20170124081A1 (en) * 2015-11-02 2017-05-04 International Business Machines Corporation Rank-based calculation for keyword searches
CN105930539A (zh) * 2016-06-27 2016-09-07 北京百度网讯科技有限公司 话题订阅方法和装置
CN107239497A (zh) * 2017-05-02 2017-10-10 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107729473A (zh) * 2017-10-13 2018-02-23 东软集团股份有限公司 文章推荐方法及其装置
CN108038133A (zh) * 2017-11-20 2018-05-15 青岛鹏海软件有限公司 个性化推荐方法
CN108304535A (zh) * 2018-01-30 2018-07-20 深圳市富途网络科技有限公司 一种社区内容智能排序估算方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188282A (zh) * 2019-05-31 2019-08-30 广州华多网络科技有限公司 确定偏好得分的方法和装置
CN110929154A (zh) * 2019-11-27 2020-03-27 中国银行股份有限公司 一种搜索结果的排序方法及系统
CN110929154B (zh) * 2019-11-27 2022-09-20 中国银行股份有限公司 一种搜索结果的排序方法及系统
CN111159461A (zh) * 2019-12-30 2020-05-15 秒针信息技术有限公司 音频文件确定方法和装置、存储介质及电子装置
CN111159461B (zh) * 2019-12-30 2023-10-03 秒针信息技术有限公司 音频文件确定方法和装置、存储介质及电子装置
CN111241319A (zh) * 2020-01-22 2020-06-05 北京搜狐新媒体信息技术有限公司 一种图文转换的方法及系统
CN111241319B (zh) * 2020-01-22 2023-10-03 北京搜狐新媒体信息技术有限公司 一种图文转换的方法及系统
CN112000871A (zh) * 2020-08-21 2020-11-27 北京三快在线科技有限公司 确定搜索结果列表的方法、装置、设备及存储介质
CN114238588A (zh) * 2022-02-24 2022-03-25 江西医之健科技有限公司 数据检索方法、系统、可读存储介质及计算机设备
CN114238588B (zh) * 2022-02-24 2022-06-17 江西医之健科技有限公司 数据检索方法、系统、可读存储介质及计算机设备

Also Published As

Publication number Publication date
CN109582852B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN109582852A (zh) 一种全文检索结果的排序方法及系统
CN105512331B (zh) 一种视频推荐方法及装置
US6182067B1 (en) Methods and systems for knowledge management
CN108460082B (zh) 一种推荐方法及装置,电子设备
CN110377804A (zh) 培训课程数据的推送方法、装置、系统及存储介质
CN106844530A (zh) 一种问答对分类模型的训练方法和装置
WO2021184674A1 (zh) 文本关键词提取方法、电子设备及计算机可读存储介质
US8983969B2 (en) Dynamically compiling a list of solution documents for information technology queries
CN106708940A (zh) 用于处理图片的方法和装置
CN108509461A (zh) 一种基于强化学习的排序学习方法及服务器
CN110222233A (zh) 视频推荐方法、装置、服务器及存储介质
CN108509499A (zh) 一种搜索方法及装置,电子设备
CN106777282B (zh) 相关搜索的排序方法和装置
CN109168047A (zh) 视频推荐方法、装置、服务器及存储介质
CN107239564A (zh) 一种基于监督主题模型的文本标签推荐方法
CN106919588A (zh) 一种应用程序搜索系统及方法
US9058328B2 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
US20140164116A1 (en) Searching for and creating an adaptive content
CN106919587A (zh) 应用程序搜索系统及方法
CN109065015A (zh) 一种数据采集方法、装置、设备及可读存储介质
Larsen References and citations in automatic indexing and retrieval systems-experiments with the boomerang effect
CN103312584B (zh) 一种在网络社区中发布信息的方法与设备
CN110837553B (zh) 搜索邮件的方法及相关产品
CN108038001A (zh) 垃圾文件清理策略生成方法、装置及服务器
WO2013028893A1 (en) Research recommendation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant