CN108509449B - 一种信息处理的方法及服务器 - Google Patents

一种信息处理的方法及服务器 Download PDF

Info

Publication number
CN108509449B
CN108509449B CN201710106965.2A CN201710106965A CN108509449B CN 108509449 B CN108509449 B CN 108509449B CN 201710106965 A CN201710106965 A CN 201710106965A CN 108509449 B CN108509449 B CN 108509449B
Authority
CN
China
Prior art keywords
ambiguous
target
word
keyword
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710106965.2A
Other languages
English (en)
Other versions
CN108509449A (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710106965.2A priority Critical patent/CN108509449B/zh
Publication of CN108509449A publication Critical patent/CN108509449A/zh
Application granted granted Critical
Publication of CN108509449B publication Critical patent/CN108509449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了一种信息处理的方法及服务器。本发明实施例方法包括:获取待查询信息,待查询信息中包括歧义关键词,歧义关键词为至少包括两个词义的关键词;根据歧义关键词进行搜索,获取包括歧义关键词的目标文档集合;通过消歧模型对目标文档集合中的每篇目标文档进行分析,确定歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,消歧模型包括歧义关键词的目标词义,及歧义关键词表示目标词义时与多个关联词的函数关系;将概率值作为一个排序因子对目标文档集合中的多篇文档进行排序处理。本发明实施例还提供了一种服务器,本发明实施例用于提高对搜索结果的排序的正确性,并提高搜索效率。

Description

一种信息处理的方法及服务器
技术领域
本发明涉及计算机领域,尤其涉及一种信息处理的方法及服务器。
背景技术
随着互联网的不断发展,用户可以通过互联网及时的了解时事新闻,查询感兴趣的知识和信息。例如,用户可以通过搜索引擎对关键词进行搜索,获取与关键词相关的信息。搜索引擎收集了万维网上几千万到几十亿个网页中的文档,并对文档中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜索出来。
传统的方法中,搜索引擎通过一定的算法将搜索到的页面进行排序,这些结果将按照与搜索关键词的相关度高低的顺序,依次排列。在搜索引擎的使用中,存在一些含有歧义的查询,如:“黎明”等,既可能用户想查看明星黎明的信息,也可能是想看有关“黎明”的诗词等等,但用户搜索“黎明”时,搜索引擎往往无法区分出以上两种意图需求,继而在排序时也无法将两种意图的结果做有效的整理。
发明内容
本发明实施例提供了一种信息处理的方法及服务器,用于将关键词的词义作为一个排序因子,提高对搜索结果的排序的正确性,并提高搜索效率。
第一方面,本发明实施例提供了一种信息处理的方法,包括:
获取待查询信息,所述待查询信息中包括歧义关键词,所述歧义关键词为包括至少两个词义的关键词;
根据所述歧义关键词进行搜索,获取包括所述歧义关键词的目标文档集合;
通过消歧模型对所述目标文档集合中的每篇目标文档进行分析,确定所述歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,所述消歧模型包括所述歧义关键词的目标词义,及所述歧义关键词表示目标词义时与多个关联词的函数关系;
将所述概率值作为一个排序因子对所述目标文档集合中的多篇文档进行排序处理。
第二方面,本发明实施例提供了一种服务器,包括:
第一获取模块,用于获取待查询信息,所述待查询信息中包括歧义关键词,所述歧义关键词为至少包括两个词义的关键词;
第二获取模块,用于根据所述第一获取模块获取的所述歧义关键词进行搜索,获取包括所述歧义关键词的目标文档集合;
消歧决策模块,用于通过消歧模型对所述第二获取模块获取的所述目标文档集合中的每篇目标文档进行分析,确定所述歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,所述消歧模型包括所述歧义关键词的目标词义,及所述歧义关键词表示目标词义时与多个关联词的函数关系;
排序模块,用于将所述消歧决策模块确定的所述概率值作为一个排序因子对所述目标文档集合中的多篇文档进行排序处理。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中提供的信息处理的方法,用于将关键词的词义也作为一个对搜索结果的排序因子,在传统的对检索结果的排序的方法的基础上加入词义这个排序因子,从而根据词义这个排序因子和其他排序因子(例如,点击量,作者,发表时间等)对检索结果进行排序处理,本发明实施例中提供的方法由于考虑到关键词本身不同词义对于搜索结果的影响,例如,可以使得关键词表示主流的词义的文章排列的顺序靠前,更符合用户的实际需求,排序处理更加准确,提高检索效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种通信系统的架构示意图;
图2为本发明实施例中一种信息处理的方法的步骤流程示意图;
图3为本发明实施例中一种信息处理的方法的方框流程示意图;
图4为本发明实施例中一种服务器的一个实施例的结构示意图;
图5为本发明实施例中一种服务器的另一个实施例的结构示意图;
图6为本发明实施例中一种服务器的另一个实施例的结构示意图;
图7为本发明实施例中一种服务器的另一个实施例的结构示意图;
图8为本发明实施例中一种服务器的另一个实施例的结构示意图;
图9为本发明实施例中一种服务器的另一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种信息处理的方法,用于将关键词的词义也作为一个对搜索结果的排序因子,更符合用户的实际需求,排序处理更加准确,提高检索效率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种信息处理的方法,该方法用于对通过关键词搜索到的文档进行排序处理,提高对搜索结果排序处理的准确率。本发明实施例中提供的方法可以应用于微博搜索,网页搜索等,对搜索结果的排序处理,对于具体的应用场景本发明并不限定。
在一种应用场景中,用户在通过关键词进行搜索的过程中,得到的结果往往是与查询关键词一一对应的。例如,当用户输入待查询的信息,该待查询的信息中包括关键词,如,该待查询的信息中包括“mouse”这个关键词,搜索到的结果为:包括“mouse”这个单词的全部文档,然后,对这些文档根据一定的排序算法进行排列,在传统的排序方法中,在搜索到的结果中并不会区分“mouse”这个词在文档中具体表达的词义进行区分,也就是说,“mouse”这个单词在某些生物类文档中表示的词义为“老鼠”,“小白鼠”,而在电子计算机类文档中的词义为“鼠标”。更不会区分“mouse”的词义对搜索结果进行排序。可能会出现这样一种情况,在用户端,根据“mouse”进行搜索的结果包括多篇文章,前10篇文章均为生物类的文章,也就是说“mouse”在这前10篇文章中表示的词义为“老鼠”。而用户想搜索的“mouse”的词义为“鼠标”。而表示“鼠标”词义的文章并不在前列。
由于某些关键词至少包括两个词义,在不同的语言环境中,同一个关键词可以表达不同的词义,而在实际应用中,用户对同一个关键词的搜索,往往集中于一个目标词义,例如,大多数用户对于“mouse”的搜索都是搜索其“鼠标”的词义。可以理解的是,对表示这个目标词义的文章访问量较表示其他词义的文章访问量大。也可以将这个目标词义理解为主流的词义,而除了这个主流词义的其他词义称为非主流的词义。若是按传统的方法对搜索结果进行排序,则对大多数用户来说,搜索的结果并不准确。
本发明实施例中提供的信息处理的方法,用于将关键词的词义也作为一个对搜索结果的排序因子,在传统的对检索结果的排序的方法的基础上加入词义这个排序因子,从而根据词义这个排序因子和其他排序因子(例如,点击量,作者,发表时间等)对检索结果进行排序处理,本发明实施例中提供的方法由于考虑到关键词本身不同词义对于搜索结果的影响,例如,可以使得关键词表示主流的词义的文章排列的顺序靠前,更符合用户的实际需求,排序处理更加准确,提高检索效率。
从上述例子可以看出,“mouse”这个词至少具有两个词义,在不同的语言环境中所表示的词义不同,本发明实施例中将类似于“mouse”这样的至少具有两个词义的关键词称为歧义关键词,例如,歧义关键词还可以为“黎明”,“文章”等等。歧义关键词在不同的语言环境中表示不同的词义举例请参阅下表1所示。
表1
Figure BDA0001232664880000051
以上述表1中的例子为例,“文章”的第一个词义(演员的姓名)可以为预置的主流的词义,而第二个,第三个和第四个词义均为非主流的词义。
需要说明的是,上述对于歧义关键词只是为了方便理解而进行的举例说明,并不造成对本发明的限定性说明。
本发明实施例提供了一种信息处理的方法,该方法应用于一种通信系统,请结合图1进行理解,图1为本发明实施例中该方法所应用的通信系统的架构示意图,该通信系统包括服务器110和用户设备120。用户设备120接收用户输入的待查询信息,并向服务器110发送该待查询信息,待查询信息中包括歧义关键词,歧义关键词为至少包括两个词义的关键词;服务器110接收待查询信息,然后,服务器110根据歧义关键词进行搜索,从互联网130获取与该歧义关键词相关联的目标文档集合;并根据消歧模型对目标文档集合中的每篇目标文档进行分析,确定歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,消歧模型包括歧义关键词的目标词义,及歧义关键词表示目标词义时与多个关联词的函数关系;服务器110将概率值作为一个排序因子对目标文档集合中的多篇文档进行排序处理。
请结合图2和图3进行理解,图2为本发明实施例中提供了一种信息处理的方法的步骤流程示意图,图3为本发明实施例中提供的一种信息处理的方法的方框流程示意图。下面从服务器对本发明实施例中提供的一种信息处理的方法进行详细说明。
步骤201、获取待查询信息,待查询信息包括关键词。
从用户设备接收待查询信息,该待查询信息可以为一个句子,该句子中包括至少一个关键词,该查询信息也可以为关键词。若该查询信息为一个句子时,可以对该句子进行拆分,得到该句子所包括的关键词。该关键词可以为一个词,例如,“黎明”;或者,该关键词也可以为一个话题,例如,“武亦姝夺冠”等。
步骤202、根据关键词进行搜索,获取与包括关键词的目标文档集合。
根据该关键词进行搜索,该目标文档集合可以为从互联网获取的包括该关键词的全部文档的集合。或者,该目标文档集合也可以为在全部文档的集合中满足预置条件的文档的集合,例如,该预置条件可以为标题中包括该关键词的文档。需要说明的是,一篇文档至少可以包括标题和正文,而且该正文中可能包括文字信息和图片信息,若该正文中附有图片信息,则通过图像识别技术,识别图片信息中的关键词信息。当根据关键词进行搜索时,是对文档的全文检索,因此该关键词可能被包括于标题中,也可能被包括于正文中,也可能被包括于该图片信息中,只要该文档中包括该关键词就会被搜索出来,而一篇文章的标题更能表示核心思想,因此可以将标题中包括该关键词的文章正排后作为目标文档集合。
该目标从互联网获取包括该关键词的文档集合。例如,该关键词为“黎明”,从互联网获取到的包括“黎明”的文档共有600篇,其中标题中包括“黎明”的文档共20篇,则这20篇文档组成目标文档集合。
需要说明的是,上述对于文档集合中包括的文档数量及目标文档集合中文档的数量,本发明实施例中只是举例说明,并不造成对本发明的限定性说明。
步骤203、查询歧义词库,确定关键词为歧义关键词,该歧义关键词是指歧义关键词为至少包括两个词义的关键词。
该歧义词库存储了大量的歧义关键词,通过查询该歧义词库可以确定该关键词是否为歧义关键词。需要说明的是,该歧义词库可以集成于该服务器设置,也独立于该服务器而单独设置,本发明实施例中,以该歧义词库与该服务器集成设置为例进行说明,在实际应用中,对于该歧义词库的部署方式本发明并不限定。
步骤204、根据消歧模型对目标文档集合中的每篇目标文档进行分析,确定歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值。消歧模型包括歧义关键词的目标词义,及歧义关键词表示目标词义时与多个关联词的函数关系。
首先,对该消歧模型进行说明,该消歧模型为对大量的包括歧义关键词及该歧义关键词的上下文语境进行学习训练得到的,该消歧模型包括歧义关键词的目标词义,及歧义关键词表示目标词义时与多个关联词的函数关系。
为了方便理解,首先对消歧模型进行说明,该消歧模型中包括该歧义关键词的至少两个词义,并且歧义关键词对应的词义中的目标词义具有标识,该标识用于标示该词义为主流的词义。例如,请参阅表1进行理解,“黎明”包括两个词义,其中第一个词义(演员的姓名)为目标词义,该标识可以为序号,也可以为标签,具体的本发明不限定。
该消歧模型是通过对大量的文档进行离线学习训练而得到的,该文档中包括该歧义关键词及与该歧义关键词相关联的词。例如,大量的文档中包括“黎明”,“导演”,“电视剧”,“电影”,“音乐会现场”,“春晚”等等,则“导演”,“电视剧”,“音乐会现场”,“音乐”,“春晚”这些词均为与该歧义关键词相关联的词。
消歧模型构建“黎明”与“导演”、“电视剧”、“电影”、“音乐会现场”、“春晚”等这些词的函数关系,且当“黎明”与这些词建立函数关系时,表示的词义为“演员的姓名”。需要说明的是,与该歧义关键词相关联的词,可以为属于同一个本文类型的词,例如,该文本类型为“娱乐”,例如,与“黎明”属于同一个文本类型的词有“影视”,“明星”“演唱会现场”等等。
需要说明的是,该与歧义关键词相关联的词可以为与该歧义关键词属于同一个文本类型的词,也包括该歧义关键词的同义词,反义词,近义词等等,具体的,在实际应用中,在不同的语言环境中,应用不同的关联词,本发明实施例中为了方便说明,以与该歧义关键词同一个文本类型的词为关联词进行举例说明。
构建该消歧模型中歧义关键词与关联词的函数关系的具体方式可以为:通过对多篇用于学习训练的语料进行统计,统计关联词与歧义关键词的出现的次数。该函数关系可以用关联度进行表示,关联度可以为关联词出现的次数与歧义关键词出现次数的比值,若歧义关键词与关联词出现的次数相同,则该关联词与该歧义关键词的关联度为1,若该关联词出现的次数大于该歧义关键词的出现的次数越大,则表示该关联词与该歧义关键词的关联度越大。例如,请参阅下表2所示。
表2
出现次数 关联度
黎明 5
春晚 5 1
导演 8 1.6
现场 1 0.2
需要说明的是,本发明实施例中对于该函数关系以关联度进行表示只是为了方便理解进行的简单说明,并不造成对本发明的限定性说明。
根据消歧模型对目标文档集合中的每篇目标文档进行分析,确定歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值的具体方法进行说明。
本发明实施例中,服务器中的消歧决策模型通过对消歧模型计算歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值的具体方法可以为:
首先,提取目标文档集合中的每篇文档中的关键词,例如,目标文档集合中包括2篇文档。本实施例中,该目标文档为标题中包括该歧义关键词的文档进行举例说明。
然后,判断每篇文档中的关键词中是否包括多个关联词中的至少一个目标关联词。结合下表3中的例子进行理解。
表3
Figure BDA0001232664880000091
以上表3中的所示的例子进行说明,例如,提取该目标文档的标题为:“黎明执导演处女作加盟江苏春晚”中的关键词,该关键词包括“导演”“江苏”,“春晚”等,将目标文档中的关键词与消歧模型中的关联词进行匹配,从表3中的例子可以看出,该目标文档中的关键词包括的“导演”和“春晚”这两个关键词与消歧模型中的“黎明”对应的关联词相匹配,则该“导演”和“春晚”为目标关联词。
然后,消歧决策模型根据消歧模型中的目标关联词及该目标关联词与歧义关联词的函数关系确定:歧义关键词在目标文档中表示该目标词义的概率值。
可以理解的是,该消歧模型存储有“黎明”表示“演员的姓名”时,与其具有关联关系的关联词,及各个关联词与“黎明”的函数关系。消歧决策模型就可以根据目标文档中“导演”和“春晚”这些关联词及这个关联词与歧义关键词在“黎明执导演处女作加盟江苏春晚”表示“演员的姓名”这个词义时的概率值。
该消歧决策模型可以为神经网络模型,歧义关键词作为输入,则输出为歧义关键词表示目标词义时的概率值。例如,在表3的例子中,第一个例子中,“黎明”在“黎明执导演处女作加盟江苏春晚”这个文档中表示“演员的姓名”这个词义的概率值为0.7。而在第二个例子中,“黎明”在“黎明店(清风产品)满额现场抓钱”这个目标文档中表示“演员的姓名”这个词义的概率值为0.2。
需要说明的是,本实施例中对于概率值及关联度值仅是为了方便说明而举的例子,并不造成对本发明的限定性说明。
步骤205、将概率值作为一个排序因子对目标文档集合中的多篇文档进行排序处理。
在实际应用中,该概率值可以作为一个排序因子,对目标文档集合中的多篇文档进行排序处理,可以还包括其他的排序因子。例如,其他的排序因子可以为:文档的转发次数、历史访问量,作者、发表时间等。
对目标文档集合中的多篇文档进行排序处理,可以目标文档集合中的多篇文档对上述的排序因子进行加权处理后,对该多篇文档进行排序。例如,在表3中的例子中“黎明执导演处女作加盟江苏春晚”中“黎明”表示演员这个词义的概率值比在“黎明店(清风产品)满额现场抓钱”中的概率值要大,因此“黎明执导演处女作加盟江苏春晚”的排列顺序靠前,更符合用户对于主流的词义的搜索。
需要说明的是,确定歧义关键词中的目标词义的具体方法可以是:
在一种简单的实现方式中,可以预先设定歧义关键词的一个词义为目标词义。
在一种可能实现的方式中,统计包括歧义关键词的文档及对应的历史访问量;根据歧义关键词所表达的不同词义,确定不同词义所对应的文档的历史访问量;将不同词义所对应的文档的历史访问量按照从大到小的顺序进行排列;确定最大历史访问量对应的词义为歧义关键词的目标词义。
举个例子,统计包括“黎明”的文档对应的第一历史访问量为500,根据“黎明”的不同词义,其中,当表示“演员”这个词义时的第二历史访问量为400,而当表示“天亮的时候”这个词义时,历史访问量为100,对历史访问量进行排序,第一历史访问量大于第二历史访问量,则确定第一历史访问量对应的词义(演员的姓名)为“黎明”的目标词义(也就是主流的词义)。
在另一种可能实现的方式中,在客户端,当用户输入该歧义关键词时,客户端显示该歧义关键词的目标词义,用户设备接收用户输入的对目标词义的确定指令,然后该用户设备将指令向服务器发送,该服务去接收用于确定目标词义的指令;然后,根据指令从歧义关键词包括的至少两个词义中确定目标词义。进一步的,可以统计用户点击歧义关键词表示不同词义的点击量,例如,对于“演员”这个词义的点击量为500,对于“天亮的时候”的点击量为100,也可以确定用户对“黎明”这个词的搜索的词义集中在“演员”这个词义上,也可以确定“演员”这个词义为目标词义。
进一步的,在这种可能的实现方式中,该目标词义时相对的,变化的,例如,在客户端,当用户输入该歧义关键词时,客户端显示该歧义关键词对应的全部词义,歧义关键词还是以“黎明”为例,当用户输入该歧义关键词时,用户设备显示“演员”和“天亮的时候”这两个词义,用户设备根据用户的选择指令确定目标词义,例如,该用户可能选择“天亮的时候”这个词义,然后用户设备将该歧义关键词及该词义发送至服务器,服务器确定“天亮的时候”这个词义为目标词义,然后,通过消歧模型确定每个目标文档中用于表示“天亮的时候”这个词义时的概率值。本实施例中,可以根据用户的实际需求对用户确定的歧义关键词的词义进行搜索,进行确定目标文章的排列顺序,提高检索效率。
本发明实施例中,本发明实施例中提供的信息处理的方法,用于将关键词的词义也作为一个对搜索结果的排序因子,在传统的对检索结果的排序的方法的基础上加入词义这个排序因子,从而根据词义这个排序因子和其他排序因子(例如,点击量,作者,发表时间等)对检索结果进行排序处理,本发明实施例中提供的方法由于考虑到关键词本身不同词义对于搜索结果的影响,例如,可以使得关键词表示主流的词义的文章排列的顺序靠前,更符合用户的实际需求,排序处理更加准确,提高检索效率。
上面对一种信息处理的方法进行描述,下面对该方法应用的服务器进行描述,请参阅图4所示,一种服务器400的一个实施例包括:
第一获取模块401,用于获取待查询信息,待查询信息中包括歧义关键词,歧义关键词为至少包括两个词义的关键词。
第二获取模块402,用于根据第一获取模块401获取的歧义关键词进行搜索,获取包括歧义关键词的目标文档集合。
消歧决策模块403,用于通过消歧模型对第二获取模块402获取的目标文档集合中的每篇目标文档进行分析,确定歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,消歧模型包括歧义关键词的目标词义,及歧义关键词表示目标词义时与多个关联词的函数关系;
排序模块404,用于将消歧决策模块403确定的概率值作为一个排序因子对目标文档集合中的多篇文档进行排序处理。
在图4对应的实施例的基础上,请参阅图5所示,本发明实施例还提供了一种服务器500的另一个实施例包括:
消歧决策模块403包括提取单元4031、判断单元4032和第一确定单元4033;
提取单元4031,用于提取目标文档集合中的每篇文档中的关键词;
判断单元4032,用于判断提取单元4031提取的每篇文档中的关键词中是否包括多个关联词中的至少一个目标关联词;
第一确定单元4033,用于当判断单元4032确定关键词中包括目标关联词时,根据目标关联词及对应的函数关系确定歧义关键词表示目标词义的概率值。
在图4对应的实施例的基础上,请参阅图6所示,本发明实施例还提供了一种服务器600的另一个实施例包括:
该服务器还包括确定模块405;
确定模块405,用于确定歧义关键词包括的至少两个词义中的目标词义。
在图6对应的实施例的基础上,请参阅图7所示,本发明实施例还提供了一种服务器700的另一个实施例包括:
确定模块405包括统计单元4051,第二确定单元4052,排序单元4053和第三确定单元4054;
统计单元4051,用于统计包括歧义关键词的文档及对应的历史访问量;
第二确定单元4052,用于根据歧义关键词所表达的不同词义,确定在统计单元4051统计的历史访问量中不同词义所对应的文档的访问量;
排序单元4053,用于将第二确定单元4052确定的不同词义所对应的文档的访问量按照从大到小的顺序进行排列;
第三确定单元4054,用于根据排序单元4053的访问量的排序确定最大历史访问量对应的词义为歧义关键词的目标词义。
在图6对应的实施例的基础上,请参阅图8所示,本发明实施例还提供了一种服务器800的另一个实施例包括:
确定模块405包括接收单元4055和第四确定单元4056;
接收单元4055,用于接收用于确定目标词义的指令;
第四确定单元4056,用于根据接收单元4055接收的指令从歧义关键词包括的至少两个词义中确定目标词义。
进一步的,图4至图8中的服务器是以功能模块的形式来呈现。这里的“模块”可以指特定应用集成电路(application-specific integrated circuit,ASIC),电路,执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。在一个简单的实施例中,图4至图8中的装置可以采用图9所示的形式。
图9是本发明实施例提供的一种服务器结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器922和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。
输入输出接口,用于获取待查询信息,待查询信息中包括歧义关键词,歧义关键词为至少包括两个词义的关键词;
处理器922,用于执行如下步骤:根据歧义关键词进行搜索,获取包括歧义关键词的目标文档集合;通过消歧模型对目标文档集合中的每篇目标文档进行分析,确定歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,消歧模型包括歧义关键词的目标词义,及歧义关键词表示目标词义时与多个关联词的函数关系;将概率值作为一个排序因子对目标文档集合中的多篇文档进行排序处理。
进一步的,处理器,还用于执行图2对应的实施例中服务器所执行的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种信息处理的方法,其特征在于,包括:
获取待查询信息,所述待查询信息中包括歧义关键词,所述歧义关键词为包括至少两个词义的关键词;
根据所述歧义关键词进行搜索,获取包含所述歧义关键词的目标文档集合,所述目标文档集合为从互联网获取的包括所述歧义关键词的全部文档的集合,或者为在全部文档的集合中满足预置条件的文档的集合;
通过消歧模型对所述目标文档集合中的每篇目标文档进行分析,确定所述歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,所述消歧模型包括所述歧义关键词的目标词义,及所述歧义关键词表示所述目标词义时与多个关联词的函数关系,所述函数关系用关联度表示,所述关联度为关联词出现的次数与所述歧义关键词出现次数的比值;
将所述概率值作为一个排序因子对所述目标文档集合中的多篇文档进行排序处理。
2.根据权利要求1所述的方法,其特征在于,所述通过消歧模型对所述目标文档集合中的每篇目标文档进行分析,确定所述歧义关键词在对应的所述目标文档中所表达的词义为目标词义的概率值,包括:
提取所述目标文档集合中的每篇文档中的关键词;
判断所述每篇文档中的关键词中是否包括所述多个关联词中的至少一个目标关联词;
若所述关键词中包括所述目标关联词,则根据所述目标关联词及对应的函数关系确定所述歧义关键词表示目标词义时的概率值。
3.根据权利要求1或2所述的方法,其特征在于,所述根据消歧模型对所述目标文档集合中的每条目标文档进行分析之前,所述方法还包括:
确定所述歧义关键词包括的至少两个词义中的目标词义。
4.根据权利要求3所述的方法,其特征在于,所述确定所述歧义关键词包括的至少两个词义中的目标词义,包括:
统计包括所述歧义关键词的文档及对应的历史访问量;
根据所述歧义关键词所表达的不同词义,确定不同词义所对应的文档的历史访问量;
将不同词义所对应的文档的历史访问量按照从大到小的顺序进行排列;
确定最大历史访问量对应的词义为所述歧义关键词的目标词义。
5.根据权利要求3所述的方法,其特征在于,所述确定所述歧义关键词包括的至少两个词义中的目标词义,包括:
接收用于确定所述目标词义的指令;
根据所述指令从所述歧义关键词包括的至少两个词义中确定所述目标词义。
6.一种服务器,其特征在于,包括:
第一获取模块,用于获取待查询信息,所述待查询信息中包括歧义关键词,所述歧义关键词为包括至少两个词义的关键词;
第二获取模块,用于根据所述第一获取模块获取的所述歧义关键词进行搜索,获取包括所述歧义关键词的目标文档集合,所述目标文档集合为从互联网获取的包括所述歧义关键词的全部文档的集合,或者为在全部文档的集合中满足预置条件的文档的集合;
消歧决策模块,用于通过消歧模型对所述第二获取模块获取的所述目标文档集合中的每篇目标文档进行分析,确定所述歧义关键词在对应的目标文档中所表达的词义为目标词义的概率值,所述消歧模型包括所述歧义关键词的目标词义,及所述歧义关键词表示目标词义时与多个关联词的函数关系,所述函数关系用关联度表示,所述关联度为关联词出现的次数与所述歧义关键词出现次数的比值;
排序模块,用于将所述消歧决策模块确定的所述概率值作为一个排序因子对所述目标文档集合中的多篇文档进行排序处理。
7.根据权利要求6所述的服务器,其特征在于,消歧决策模块包括提取单元、判断单元和第一确定单元;
所述提取单元,用于提取所述目标文档集合中的每篇文档中的关键词;
所述判断单元,用于判断所述提取单元提取的每篇文档中的关键词中是否包括所述多个关联词中的至少一个目标关联词;
所述第一确定单元,用于当所述判断单元确定所述关键词中包括所述目标关联词时,根据所述目标关联词及对应的函数关系确定所述歧义关键词表示目标词义的概率值。
8.根据权利要求6或7所述的服务器,其特征在于,还包括确定模块;
所述确定模块,用于确定所述歧义关键词包括的至少两个词义中的目标词义。
9.根据权利要求8所述的服务器,其特征在于,所述确定模块包括统计单元,第二确定单元,排序单元和第三确定单元;
所述统计单元,用于统计包括所述歧义关键词的文档及对应的历史访问量;
所述第二确定单元,用于根据所述歧义关键词所表达的不同词义,确定在所述统计单元统计的所述历史访问量中不同词义所对应的文档的访问量;
所述排序单元,用于将所述第二确定单元确定的不同词义所对应的文档的访问量按照从大到小的顺序进行排列;
所述第三确定单元,用于根据所述排序单元的访问量的排序确定最大历史访问量对应的词义为所述歧义关键词的目标词义。
10.根据权利要求8所述的服务器,其特征在于,所述确定模块包括接收单元和第四确定单元;
所述接收模块,用于接收用于确定所述目标词义的指令;
所述第四确定单元,用于根据所述接收单元接收的所述指令从所述歧义关键词包括的至少两个词义中确定所述目标词义。
CN201710106965.2A 2017-02-24 2017-02-24 一种信息处理的方法及服务器 Active CN108509449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710106965.2A CN108509449B (zh) 2017-02-24 2017-02-24 一种信息处理的方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710106965.2A CN108509449B (zh) 2017-02-24 2017-02-24 一种信息处理的方法及服务器

Publications (2)

Publication Number Publication Date
CN108509449A CN108509449A (zh) 2018-09-07
CN108509449B true CN108509449B (zh) 2022-07-08

Family

ID=63373060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710106965.2A Active CN108509449B (zh) 2017-02-24 2017-02-24 一种信息处理的方法及服务器

Country Status (1)

Country Link
CN (1) CN108509449B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902306B (zh) * 2019-03-12 2021-02-02 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及语音设备
CN112800321B (zh) * 2021-01-05 2023-01-20 百威投资(中国)有限公司 基于关键词检索的歧义帖子识别方法和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
CN1839386A (zh) * 2003-08-21 2006-09-27 伊迪利亚公司 使用语义歧义消除与扩展的因特网搜索
CN102033961A (zh) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其多义词展现方法
WO2015080559A2 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated word sense disambiguation
CN106202033A (zh) * 2016-06-29 2016-12-07 齐鲁工业大学 一种基于依存约束和知识的副词词义消歧方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136251A1 (en) * 2003-08-21 2007-06-14 Idilia Inc. System and Method for Processing a Query
CN101334768B (zh) * 2008-08-05 2010-12-08 北京学之途网络科技有限公司 一种利用计算机对词义进行排歧的方法、系统及检索方法
CN103229137B (zh) * 2010-09-29 2016-01-20 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
CN105740225B (zh) * 2016-01-19 2019-02-01 齐鲁工业大学 一种融合句子局部上下文与文档领域信息的词义消歧方法
CN105718443A (zh) * 2016-01-26 2016-06-29 齐鲁工业大学 一种基于依存词汇关联度的形容词词义消歧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1839386A (zh) * 2003-08-21 2006-09-27 伊迪利亚公司 使用语义歧义消除与扩展的因特网搜索
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
CN102033961A (zh) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其多义词展现方法
WO2015080559A2 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated word sense disambiguation
CN106202033A (zh) * 2016-06-29 2016-12-07 齐鲁工业大学 一种基于依存约束和知识的副词词义消歧方法和装置

Also Published As

Publication number Publication date
CN108509449A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US8719262B1 (en) Identification of semantic units from within a search query
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US9110971B2 (en) Method and system for ranking intellectual property documents using claim analysis
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
US20110093455A1 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US20180189614A1 (en) Method and device for classifying webpages
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
KR20150036117A (ko) 쿼리 확장
CN113297457A (zh) 一种高精准性的信息资源智能推送系统及推送方法
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
CN104615723B (zh) 查询词权重值的确定方法和装置
CN108509449B (zh) 一种信息处理的方法及服务器
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
Satokar et al. Web search result personalization using web mining
CN116610853A (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
Batra et al. Content based hidden web ranking algorithm (CHWRA)
Gupta et al. Document summarisation based on sentence ranking using vector space model
CN112883143A (zh) 一种基于Elasticsearch的数字展会搜索方法与系统
Selvan et al. ASE: Automatic search engine for dynamic information retrieval
Zhang et al. Research and implementation of keyword extraction algorithm based on professional background knowledge
Zhang et al. An efficient algorithm for clustering search engine results
Fu et al. Query clustering using a hybrid query similarity measure.
CN113486232B (zh) 查询方法、装置、服务器、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant