CN113434789A - 基于多维度文本特征的搜索排序方法及相关设备 - Google Patents
基于多维度文本特征的搜索排序方法及相关设备 Download PDFInfo
- Publication number
- CN113434789A CN113434789A CN202110728669.2A CN202110728669A CN113434789A CN 113434789 A CN113434789 A CN 113434789A CN 202110728669 A CN202110728669 A CN 202110728669A CN 113434789 A CN113434789 A CN 113434789A
- Authority
- CN
- China
- Prior art keywords
- candidate
- score
- user input
- scores
- results
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例属于数据处理领域,应用于智慧城市领域中,涉及一种基于多维度文本特征的搜索排序方法,包括当接收到用户输入,对用户输入进行分词处理,得到多个分词;获取各分词之间的依存关系,根据依存关系得到所述用户输入的语法结构;并根据语法结构对具有关联关系的用户输入进行实体替换,得到替换后的用户输入;基于替换后的用户输入搜索得到对应的候选结果列表;收集各候选结果的在线点击信息和候选质量得分;计算用户输入、候选结果列表中的候选结果的多维度特征得分;融合各特征得分得到各候选结果相对于用户输入的最终得分,并根据最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果。采用本方法大大提升了搜索准确率。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种基于多维度文本特征的搜索排序方法、装置、计算机设备和存储介质。
背景技术
搜索是目前互联网不可缺少的功能,在互联网内容越来越多的今天,搜索的内容和搜索技术也在快速发展。搜索技术主要有以下使用场景:搜索引擎,例如百度、谷歌。搜索引擎是用户根据用户的查询词,从海量的信息中搜索返回满足用户需求的文档doc,而输入关键词得到网络结果,主要使用pageRank等搜索排序技术;APP内部搜索,例如支付宝、微信等APP的搜索输入框,输入关键词,返回对应的功能或者文章内容,主要使用文本相似度进行排序。
在传统的搜索排序方法中,主要考虑用户输入query和后续结果doc结果相似度进行打分,使用共现矩阵、语义相似度等方式,这种实现方式所考虑的特征较少,而多特征融合的方式在实际场景中,那么多特性若都进行建模,又很难处理。
发明内容
基于此,针对上述技术问题,本申请提供一种基于多维度文本特征的搜索排序方法、装置、计算机设备及存储介质,以解决现有技术中将对多特征计算融合难以处理的技术问题。
一种基于多维度文本特征的搜索排序方法,所述方法包括:
当接收到用户输入,对所述用户输入进行分词处理,得到多个分词;
获取各所述分词之间的依存关系,并根据所述依存关系得到所述用户输入的语法结构;并
根据所述语法结构对具有关联关系的用户输入进行实体替换,得到替换后的用户输入;
基于替换后的用户输入搜索得到对应的候选结果列表,其中,所述候选结果列表中包括至少一个与用户输入对应的候选结果;
收集各候选结果的在线点击信息和候选质量得分,其中,所述在线点击信息为历史用户在线点击候选结果的信息,所述候选质量得分为各候选结果的专业程度得分;
计算所述用户输入、所述候选结果列表中的候选结果的多维度特征得分,其中,多维度特征包括字级别的第一多维特征得分和词级别的第二多维特征得分;
融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,并根据所述最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果。
一种基于多维度文本特征的搜索排序装置,所述装置包括:
分词模块,用于当接收到用户输入,对所述用户输入进行分词处理,得到多个分词;
语法提取模块,用于获取各所述分词之间的依存关系,并根据所述依存关系得到所述用户输入的语法结构;并
替换模块,用于根据所述语法结构对具有关联关系的用户输入进行实体替换,得到替换后的用户输入;
搜索模块,用于基于替换后的用户输入搜索得到对应的候选结果列表,其中,所述候选结果列表中包括至少一个与用户输入对应的候选结果;
得分计算模块,用于收集各候选结果的在线点击信息和候选质量得分,其中,所述在线点击信息为历史用户在线点击候选结果的信息,所述候选质量得分为各候选结果的专业程度得分;
多维特征计算模块,用于计算所述用户输入、所述候选结果列表中的候选结果的多维度特征得分,其中,多维度特征包括字级别的第一多维特征得分和词级别的第二多维特征得分;
排序模块,用于融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,并根据所述最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果。
一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述基于多维度文本特征的搜索排序方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述基于多维度文本特征的搜索排序方法的步骤。
上述基于多维度文本特征的搜索排序方法、装置、计算机设备和存储介质,通过根据用户输入搜索到相对的候选结果后,提取候选结果的多维度特征,特别是在线点击信息、候选质量得分以及多维度特征得分,然后根据对这些特征得分的进行特征融合后,得到候选结果相对于用户输入的最终得分,并根据该得分进行排序,大大提高了候选结果得分计算的准确性,进一步提高了用户搜索结果的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为基于多维度文本特征的搜索排序方法的应用环境示意图;
图2为基于多维度文本特征的搜索排序方法的流程示意图;
图3为基于多维度文本特征的搜索排序装置的示意图;
图4为一个实施例中计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于多维度文本特征的搜索排序方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于多维度文本特征的搜索排序方法一般由服务端/终端执行,相应地,基于多维度文本特征的搜索排序装置一般设置于服务端/终端设备中。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请可应用于智慧城市领域中,例如利用于智慧商场的智能机器人上、电脑上,智慧企业的搜索引擎上,用户的微信、微博等社交软件上等等,从而推动智慧城市的建设。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
其中,终端102通过网络与服务端104进行通信。接收用户通过终端102发送的用户输入,服务端104对用户输入进行分词处理,得到多个分词,获取各分词之间的依存关系,并根据依存关系得到用户输入的语法结构,根据语法结构对具有关联关系的用户输入进行实体替换,基于替换后的用户输入搜索得到对应的候选结果列表,其中,所述候选结果列表中包括至少一个与用户输入对应的候选结果;收集各候选结果的在线点击信息和候选质量得分,其中,所述在线点击信息为历史用户在线点击候选结果的信息,所述候选质量得分为各候选结果的专业程度得分;计算所述用户输入、所述候选结果列表中的候选结果的多维度特征得分,其中,多维度特征包括字级别的第一多维特征得分和词级别的第二多维特征得分;融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,并根据所述最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果,然后将搜索排序结果显示到终端102上。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于多维度文本特征的搜索排序方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
步骤202,当接收到用户输入,对所述用户输入进行分词处理,得到多个分词。
在一个实施例中,本申请可以应用于搜索引擎、问答网站和社交软件的搜索场景中,例如在问答网站的搜索场景中,用户通过终端进行用户输入:感冒可以吃榴莲吗?辣椒呢?
一般地用户为了快速得到搜索结果,会出现输入错误的情况,例如,感冒可以吃留恋吗?辣椒呢?其中“留恋”一词会严重影响到后续的结果搜索。这种情况下就需要对用户输入进行纠错的预处理,得到预处理后的用户输入。
其中,首先对用户输入进行纠错处理,在本实施例中,可以通过词典与规则的方式进行纠错处理,该方式具有高速、高准的优点,如果词典的覆盖度高,甚至可以达到高召回的效果,因此词典基本是搜索系统中的核心存在。具体地,词典方法,主要对分词后的实体词进行查找,查找词典中有没有对应的词,如果有就改写,得到纠错结果,这种方式的最大的有点就是速度快。
可选地,还可以通过拼音纠错的方式,实现纠错。例如,用户可能存在输入错别字的情况,纠错则是对错别字/词进行修改。如“在背景哪里可以买正宗烤鸭”改为“在北京哪里可以买正宗烤鸭”。
其中,词典是搜索系统中非常常用的方法,词典具有高速、高准的优点,如果词典的覆盖度高,甚至可以达到高召回的效果,因此词典基本是搜索系统中的核心存在。词典方法,就是对query找对应词典里有没有,如果有就改写过去,这种方法的优点在于速度快,而难点在于怎么去挖掘这个词典。至于怎么挖掘词典,有很多底层数据库抽取、用户日志等,都有很多构建起这样的词典,能够大大降低耗时,复杂度至于query和单词长度有关。一般地,词典有:
拼音和拼音前缀词典,先将query或者单词转为拼音,然后通过拼音召回对应的结果,完成纠错。
别字词典,记录一些常见的错别字,例如百度的形近词表就很不错(就在百度百科里面)。
其他改写字典。一般基于具体业务来改写,例如用户输入唐人街探案,其实唐人街探案有3部,我们应该给那个,需要基于热度等方面去改写到具体最合适的一部。
词典只是能够匹配到合适的结果,但是我们需要知道的是,改写的内容不能和原来差距太远,否则会出现很多意料之外的结果,因此改写不能大改,只能改微调,否则出来的结果会让用户感到很懵逼。控制的方式主要是编辑距离,所谓的编辑距离,就是改写前到改写后,需要经过的操作多少,说人话就是两句话的不同点有几个,精确到字级别。像“深圳-森圳”的编辑距离就是1。通过编辑距离的约束,一般能够让两者的差距不是很大。
步骤204,获取各分词之间的依存关系,并根据所述依存关系得到所述用户输入的语法结构。
一般地,因为用户输入包括至少一个句子,为了提高输入效率,同一系列的句子用户一般会进行简写处理,但是计算机一般很难理解这样不完整的句子,为了提高搜索准确率,还需要对用户输入进行指代消解的预处理。指代消解是指对句子中的代词进行歧义消除,如,输入1:感冒/nhd能吃/v榴莲/nbp吗/y?输入2:那么/rzv辣椒/nhp呢/y?
对输入2进行指代消解得到输出:感冒可以吃辣椒吗?
具体地,可以继续通过结巴分词算法对各所述分词进行词性标注;基于词性标注结果,利用句法分析器得到各分词之间的依存关系,并通过所述依存关系进行依存句法分析,得到用户输入的句法结构。
句法分析判断输入的单词序列(一般为句子)的构成是否合乎给定的语法,并通过构造句法树来确定句子的结构以及各层次句法成分之间的关系,即确定一个句子中的哪些词构成一个短语,哪些词是动词的主语或宾语等问题。基于统计的方式是现阶段句法分析的主流技术。常见的概率句法分析模型包括概率上下文无关模型、基于历史的句法分析模型、层次化渐进式的句法分析模型和中心词驱动的句法分析模型。综合多种模型而实现的句法分析器种类繁多,目前在开源中文句法分析器中比较具有代表性有Stanford parser和Berkeley parser。前者基于因子模型,后者基于非词汇化分析模型。其中,Stanfordparser是由斯坦福大学自然语言处理小组开发的开源句法分析器,是基于概率统计句法分析的一个JAVA实现。分析器目前提供了5个中文文法。
通过结巴分词进行词性标注结果:感冒/nhd能吃/v榴莲/nbp吗/y?那么/rzv辣椒/nhd呢/y?然后将词性标注后的分词输入到句法分析器,即Stanford parser工具中,调用其中用于打印句法分析书的函数pennPrint得到句法分析树,得到各分词之间的依存关系,然后运用对句子进行依存句法分析的函数typedDependencies进行句型分析,最终得到是从句还是主谓宾等结果。最终进行实体替换,实现指代消解。其中,nhd指疾病、v指动词、nbp指植物名、y为语气词、rzv指谓词性指示代词。
步骤206,根据所述语法结构对具有关联关系的用户输入进行实体替换,得到替换后的用户输入。
可以将具有相同依存关系和相同词性标注的实体进行替换,得到最终替换后的用户输入。
步骤208,基于替换后的用户输入搜索得到对应的候选结果列表,其中,所述候选结果列表中包括至少一个与用户输入对应的候选结果。
在本实施例中,当将本申请的技术方案应用于服务端上的搜索平台时,搜索平台会根据用户输入在数据库中进行海选召回、粗排序的处理以筛选出满足需求的doc,即候选结果列表,该候选结果列表中包括多个候选结果。
进一步地,为了得到最精准的候选结果,还会对候选结果进行排序处理。
步骤210,收集各候选结果的在线点击信息和候选质量得分,其中,所述在线点击信息为历史用户在线点击候选结果的信息,所述候选质量得分为各候选结果的专业程度得分。
本实施例中,可以通过人工标注或在线收集用户点击信息。具体地,收集格式<query,doc,相似1/不相似0>,如果人工标注则随机抽取线上query和doc标注0/1即可,如使用用户点击信息,则将用户点击过的内容作为正样本标记为相似1,用户看过但未点击的标注为负样本不相似0。
其中,候选质量得分包括来源权威得分、时效性得分以及作者得分中的一种或多种。
其中,来源权威得分的计算方式为,判断各候选结果上是否存在历史用户的点击信息,得到所述在线点击信息;获取各所述候选结果的来源信息;基于预设的来源列表和所述来源信息计算得到所述来源权威得分。具体地,设置一个列表,只要在列表中的来源得分设置为1,否则设置为0。
可选地,时效性得分为,获取各候选结果的发布时间;基于所述来源信息和发布时间,得到所述时效性得分。因为不同的来源信息其所对应的时效也不同,例如,新闻性信息的时效较短,学术性的信息时效较长。具体地,如果是新闻类结果,将已发布天数求负数作为得分,例如-2表示已发布两天,如果是功能类或活动类结果,在有效期设置1,已过期设置为0。
可选地,获取各候选结果的作者对象的粉丝数量和点赞数量;按照所述粉丝数量和所述点赞数量的数量等级确定所述作者得分。根据作者的粉丝和点赞数量,[0,100]设置为1,[100-1000]设置为2,以此类推。
步骤212,计算所述用户输入、所述候选结果列表中的候选结果的多维度特征得分,其中,多维度特征包括字级别的第一多维特征得分和词级别的第二多维特征得分。
所述第一多维特征得分包括字级别的语义特征、jaccord得分以及编辑距离得分,所述第二多维特征得分包括词级别的语义特征、jaccord得分以及编辑距离得分。
在本实施例中,为了提高搜索排序的准确率,为用户提供更加精准的搜索结果,所以可以综合多维度的特征进行后续计算,具体地:计算query和候选doc的多维度特征打分,其中,该多维度特征包括但不限于字级别的语义特征、Jaccord得分、编辑距离得分,词级别的语义特征、term权重得分、Jaccord得分、编辑距离得分等等。
为了方便计算,本实施例中可以将query和doc分别用q1和q2表示,各个特征计算方法如下:
通过word2vec训练词向量,将词向量叠加求平均作为句向量信息,再通过对句向量计算余弦相似度(或矩阵点乘、点积、attention)作为语义相似度特征。
Jaccord得分:
编辑距离:定义替换、插入、删除三种方式,如果q1需要经过n步得到q2,那么q1、q2的编辑距离为n。
编辑距离相似度:1-编辑距离/Math.Max(q1长度,q2长度),得到编辑距离相似度。
Term权重得分:直接通过词典匹配,保险实体、疾病实体得分高于普通单次;
例如:
我1想1吃1榴莲5
新鲜榴莲5怎么1购买1
步骤214,融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,并根据所述最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果。
有一定线上数据后,S得分=a*语义相似度+b*Jaccord+cTerm权重得分+…+k*doc时效性得分,使用LR和GBDT学习特征权重a、b、c、d,并使用CTR做点击调权,充分利用线上用户行为特征。例如,其中一个具体实施例为:
S=0.2*语义相似度+0.2*jaccord+0.1term+…+0.1*doc时效性得分。
最终得分Sall=S*(1.0+α*Sctr),α为可调整的可调参数,Sctr=点击/曝光,即各候选结果的点击数量与曝光数量的比值。其中,曝光数量为该候选结果被搜索到的次数。
进一步地,为了提高搜索效率,对于候选结果的静态特征,例如候选结果的来源、时效等,可以美美定时计算得分并存放到Redis中,key为doc id,value为特征得分列表,例如{doc来源得分:1.0,doc时效得分:-2}。这样可以在搜索时,直接从Redis中获取这些静态特征。一般可以通过每一候选结果的唯一标识获取静态特征的方式。通过这种方式可以大大提升搜索排序的效率。
最后,分别计算多个doc相对于query的得分,根据得分进行排序,得分越高越靠前。
本实施例,综合了词和字级别的文本语义特征、字面特征、doc特征(时间、来源、权威性)、query-doc交互特征(点乘、点积、attention)等多个维度特征,实现搜索排序算法;还将特征离线计算并存储,提升在线推断速度。本申请还使用线上用户交互行为作为特征,实现了一种可不断提升搜索效果指标的自监督学习方法:通过用户线上行为收集正负样本,训练搜索排序模型,可持续优化搜索效果指标(CTR、转化率、用户停留等)。
上述基于多维度文本特征的搜索排序方法中,通过根据用户输入搜索到相对的候选结果后,提取候选结果的多维度特征,特别是在线点击信息、候选质量得分以及多维度特征得分,然后根据对这些特征得分的进行特征融合后,得到候选结果相对于用户输入的最终得分,并根据该得分进行排序,大大提高了候选结果得分计算的准确性,进一步提高了用户搜索结果的准确性。
需要强调的是,为进一步保证上述用户输入信息的私密和安全性,上述用户输入信息还可以存储于一区块链的节点中。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于多维度文本特征的搜索排序装置,该基于多维度文本特征的搜索排序装置与上述实施例中基于多维度文本特征的搜索排序方法一一对应。该基于多维度文本特征的搜索排序装置包括:
分词模块302,用于当接收到用户输入,对所述用户输入进行分词处理,得到多个分词;
语法提取模块304,用于获取各所述分词之间的依存关系,并根据所述依存关系得到所述用户输入的语法结构;并
替换模块306,用于根据所述语法结构对具有关联关系的用户输入进行实体替换,得到替换后的用户输入;
搜索模块308,用于基于替换后的用户输入搜索得到对应的候选结果列表,其中,所述候选结果列表中包括至少一个与用户输入对应的候选结果;
得分计算模块310,用于收集各候选结果的在线点击信息和候选质量得分,其中,所述在线点击信息为历史用户在线点击候选结果的信息,所述候选质量得分为各候选结果的专业程度得分;
多维特征计算模块312,用于计算所述用户输入、所述候选结果列表中的候选结果的多维度特征得分,其中,多维度特征包括字级别的第一多维特征得分和词级别的第二多维特征得分;
排序模块314,用于融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,并根据所述最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果。
进一步地,所述语法提取模块304,包括:
词性标注子模块,用于通过结巴分词算法对查找到的各所述分词进行词性标注;
语法分析子模块,用于基于词性标注结果,利用句法分析器得到各分词之间的依存关系,并通过所述依存关系进行依存句法分析,得到用户输入的句法结构。
进一步地,候选质量得分包括来源权威得分,得分计算模块310,包括:
点击判断子模块,用于判断各候选结果上是否存在历史用户的点击信息,得到所述在线点击信息;
来源获取子模块,用于获取各所述候选结果的来源信息;
来源得分计算子模块,用于基于预设的来源列表和所述来源信息计算得到所述来源权威得分。
进一步地,候选质量得分还包括时效性得分,在来源得分计算子模块之后,还包括:
时间获取子模块,用于获取各候选结果的发布时间;
时效计算子模块,用于基于所述来源信息和发布时间,得到所述时效性得分。
进一步地,候选质量得分还包括作者得分,在来源得分计算子模块之后,还包括:
作者特征获取子模块,用于获取各候选结果的作者对象的粉丝数量和点赞数量;
作者得分计算子模块,用于按照所述粉丝数量和所述点赞数量的数量等级确定所述作者得分。
进一步地,第一多维特征得分包括字级别的语义特征、jaccord得分以及编辑距离得分,所述第二多维特征得分包括词级别的语义特征、jaccord得分以及编辑距离得分,排序模块314,包括:
第一特征融合子模块,用于融合所述在线点击信息、候选质量得分、所述字级别的语义特征、jaccord得分以及编辑距离得分,以及词级别的语义特征、jaccord得分和编辑距离得分,得到第一融合得分S;
第二特征融合子模块,用于基于所述第一融合得分,根据融合公式:
Sall=S*(1.0+α*Sctr)
结果排序子模块,用于得到最终得分Sall,其中,α为可调参数,Sctr为各候选结果的点击数量与曝光数量的比值。
需要强调的是,为进一步保证上述用户输入信息的私密和安全性,上述用户输入信息还可以存储于一区块链的节点中。
上述基于多维度文本特征的搜索排序装置中,通过根据用户输入搜索到相对的候选结果后,提取候选结果的多维度特征,特别是在线点击信息、候选质量得分以及多维度特征得分,然后根据对这些特征得分的进行特征融合后,得到候选结果相对于用户输入的最终得分,并根据该得分进行排序,大大提高了候选结果得分计算的准确性,进一步提高了用户搜索结果的准确性。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储用户输入。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于多维度文本特征的搜索排序方法。本实施例通过根据用户输入搜索到相对的候选结果后,提取候选结果的多维度特征,特别是在线点击信息、候选质量得分以及多维度特征得分,然后根据对这些特征得分的进行特征融合后,得到候选结果相对于用户输入的最终得分,并根据该得分进行排序,大大提高了候选结果得分计算的准确性,进一步提高了用户搜索结果的准确性。
其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中基于多维度文本特征的搜索排序方法的步骤,例如图2所示的步骤202至步骤214,或者,处理器执行计算机可读指令时实现上述实施例中基于多维度文本特征的搜索排序装置的各模块/单元的功能,例如图3所示模块302至模块314的功能。本实施例通过根据用户输入搜索到相对的候选结果后,提取候选结果的多维度特征,特别是在线点击信息、候选质量得分以及多维度特征得分,然后根据对这些特征得分的进行特征融合后,得到候选结果相对于用户输入的最终得分,并根据该得分进行排序,大大提高了候选结果得分计算的准确性,进一步提高了用户搜索结果的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于多维度文本特征的搜索排序方法,其特征在于,所述方法包括:
当接收到用户输入,对所述用户输入进行分词处理,得到多个分词;
获取各所述分词之间的依存关系,并根据所述依存关系得到所述用户输入的语法结构;并
根据所述语法结构对具有关联关系的用户输入进行实体替换,得到替换后的用户输入;
基于替换后的用户输入搜索得到对应的候选结果列表,其中,所述候选结果列表中包括至少一个与用户输入对应的候选结果;
收集各候选结果的在线点击信息和候选质量得分,其中,所述在线点击信息为历史用户在线点击候选结果的信息,所述候选质量得分为各候选结果的专业程度得分;
计算所述用户输入、所述候选结果列表中的候选结果的多维度特征得分,其中,多维度特征包括字级别的第一多维特征得分和词级别的第二多维特征得分;
融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,并根据所述最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果。
2.根据权利要求1所述的方法,其特征在于,所述获取各所述分词之间的依存关系,并根据所述依存关系得到所述用户输入的语法结构,包括:
通过结巴分词算法对各所述分词进行词性标注;
基于词性标注结果,利用句法分析器得到各分词之间的依存关系,并通过所述依存关系进行依存句法分析,得到用户输入的句法结构。
3.根据权利要求1所述的方法,其特征在于,所述候选质量得分包括来源权威得分,所述收集各候选结果的在线点击信息和候选质量得分,包括:
判断各候选结果上是否存在历史用户的点击信息,得到所述在线点击信息;
获取各所述候选结果的来源信息;
基于预设的来源列表和所述来源信息计算得到所述来源权威得分。
4.根据权利要求3所述的方法,其特征在于,所述候选质量得分还包括时效性得分,在所述基于预设的来源列表和所述来源信息计算得到所述来源权威得分之后,还包括:
获取各候选结果的发布时间;
基于所述来源信息和发布时间,得到所述时效性得分。
5.根据权利要求3或4所述的方法,其特征在于,所述候选质量得分还包括作者得分,在所述基于预设的来源列表和所述来源信息计算得到所述来源权威得分之后,还包括:
获取各候选结果的作者对象的粉丝数量和点赞数量;
按照所述粉丝数量和所述点赞数量的数量等级确定所述作者得分。
6.根据权利要求1所述的方法,其特征在于,所述第一多维特征得分包括字级别的语义特征、jaccord得分以及编辑距离得分,所述第二多维特征得分包括词级别的语义特征、jaccord得分以及编辑距离得分,所述融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,包括:
融合所述在线点击信息、候选质量得分、所述字级别的语义特征、jaccord得分以及编辑距离得分,以及词级别的语义特征、jaccord得分和编辑距离得分,得到第一融合得分S;
基于所述第一融合得分,根据融合公式:
Sall=S*(1.0+a*Sctr)
得到最终得分Sall,其中,α为可调参数,Sctr为各候选结果的点击数量与曝光数量的比值。
7.一种基于多维度文本特征的搜索排序装置,其特征在于,包括:
分词模块,用于当接收到用户输入,对所述用户输入进行分词处理,得到多个分词;
语法提取模块,用于获取各所述分词之间的依存关系,并根据所述依存关系得到所述用户输入的语法结构;并
替换模块,用于根据所述语法结构对具有关联关系的用户输入进行实体替换,得到替换后的用户输入;
搜索模块,用于基于替换后的用户输入搜索得到对应的候选结果列表,其中,所述候选结果列表中包括至少一个与用户输入对应的候选结果;
得分计算模块,用于收集各候选结果的在线点击信息和候选质量得分,其中,所述在线点击信息为历史用户在线点击候选结果的信息,所述候选质量得分为各候选结果的专业程度得分;
多维特征计算模块,用于计算所述用户输入、所述候选结果列表中的候选结果的多维度特征得分,其中,多维度特征包括字级别的第一多维特征得分和词级别的第二多维特征得分;
排序模块,用于融合所述在线点击信息、候选质量得分、所述第一多维特征得分以及所述第二多维特征得分,得到各候选结果相对于所述用户输入的最终得分,并根据所述最终得分对所述候选结果按从大到小的顺序排列,得到搜索排序结果。
8.根据权利要求7所述的装置,其特征在于,所述语法提取模块,包括:
词性标注子模块,用于通过结巴分词算法对查找到的各所述分词进行词性标注;
语法分析子模块,用于基于词性标注结果,利用句法分析器得到各分词之间的依存关系,并通过所述依存关系进行依存句法分析,得到用户输入的句法结构。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110728669.2A CN113434789B (zh) | 2021-06-29 | 2021-06-29 | 基于多维度文本特征的搜索排序方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110728669.2A CN113434789B (zh) | 2021-06-29 | 2021-06-29 | 基于多维度文本特征的搜索排序方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434789A true CN113434789A (zh) | 2021-09-24 |
CN113434789B CN113434789B (zh) | 2023-01-24 |
Family
ID=77757683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110728669.2A Active CN113434789B (zh) | 2021-06-29 | 2021-06-29 | 基于多维度文本特征的搜索排序方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434789B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515940A (zh) * | 2021-07-14 | 2021-10-19 | 上海芯翌智能科技有限公司 | 一种用于文本搜索的方法及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999625A (zh) * | 2012-12-05 | 2013-03-27 | 北京海量融通软件技术有限公司 | 一种检索请求语义扩展方法 |
CN109032375A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 候选文本排序方法、装置、设备及存储介质 |
US20180365220A1 (en) * | 2017-06-15 | 2018-12-20 | Microsoft Technology Licensing, Llc | Method and system for ranking and summarizing natural language passages |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
CN112052297A (zh) * | 2020-09-07 | 2020-12-08 | 北京字节跳动网络技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN112507196A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 融合排序模型的训练方法、搜索排序方法、装置和设备 |
CN112906377A (zh) * | 2021-03-25 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于实体限制的问答方法、装置、电子设备及存储介质 |
CN112988969A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 用于文本检索的方法、装置、设备以及存储介质 |
-
2021
- 2021-06-29 CN CN202110728669.2A patent/CN113434789B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999625A (zh) * | 2012-12-05 | 2013-03-27 | 北京海量融通软件技术有限公司 | 一种检索请求语义扩展方法 |
US20180365220A1 (en) * | 2017-06-15 | 2018-12-20 | Microsoft Technology Licensing, Llc | Method and system for ranking and summarizing natural language passages |
CN109032375A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 候选文本排序方法、装置、设备及存储介质 |
CN111475623A (zh) * | 2020-04-09 | 2020-07-31 | 北京北大软件工程股份有限公司 | 基于知识图谱的案件信息语义检索方法及装置 |
CN112052297A (zh) * | 2020-09-07 | 2020-12-08 | 北京字节跳动网络技术有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN112507196A (zh) * | 2020-12-18 | 2021-03-16 | 北京百度网讯科技有限公司 | 融合排序模型的训练方法、搜索排序方法、装置和设备 |
CN112988969A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 用于文本检索的方法、装置、设备以及存储介质 |
CN112906377A (zh) * | 2021-03-25 | 2021-06-04 | 平安科技(深圳)有限公司 | 基于实体限制的问答方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113515940A (zh) * | 2021-07-14 | 2021-10-19 | 上海芯翌智能科技有限公司 | 一种用于文本搜索的方法及设备 |
CN113515940B (zh) * | 2021-07-14 | 2022-12-13 | 上海芯翌智能科技有限公司 | 一种用于文本搜索的方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113434789B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
US8312022B2 (en) | Search engine optimization | |
WO2023108980A1 (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN111552799B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN111552797B (zh) | 名称预测模型的训练方法、装置、电子设备及存储介质 | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN110472013B (zh) | 一种热门话题更新方法、装置和计算机存储介质 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN111552798B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
Rafail et al. | Natural language processing | |
CN114722174A (zh) | 提词方法和装置、电子设备及存储介质 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN113434789B (zh) | 基于多维度文本特征的搜索排序方法及相关设备 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN116956818A (zh) | 文本素材的处理方法、装置、电子设备以及存储介质 | |
Saravanan et al. | Extraction of Core Web Content from Web Pages using Noise Elimination. | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
CN111552890B (zh) | 基于名称预测模型的名称信息处理方法、装置、电子设备 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |