CN107180087A - 一种搜索方法及装置 - Google Patents

一种搜索方法及装置 Download PDF

Info

Publication number
CN107180087A
CN107180087A CN201710322885.0A CN201710322885A CN107180087A CN 107180087 A CN107180087 A CN 107180087A CN 201710322885 A CN201710322885 A CN 201710322885A CN 107180087 A CN107180087 A CN 107180087A
Authority
CN
China
Prior art keywords
target
senses
word
dictionary entry
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710322885.0A
Other languages
English (en)
Other versions
CN107180087B (zh
Inventor
苗艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710322885.0A priority Critical patent/CN107180087B/zh
Publication of CN107180087A publication Critical patent/CN107180087A/zh
Application granted granted Critical
Publication of CN107180087B publication Critical patent/CN107180087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种搜索方法及装置,方法包括:获取目标搜索词,并对目标搜索词进行分词处理,获得目标分词结果,目标分词结果包括至少一个关键词;判断目标分词结果中是否有记录在预先设置的歧义实体词库中的关键词;如果是,从目标分词结果中确定各个目标歧义实体词的目标特征词;分别根据每一目标歧义实体词的目标特征词,确定每一目标歧义实体词的义项;在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息;基于搜索得到的信息,获得针对目标搜索词的搜索结果。应用本发明实施例提供的搜索方法,能够提高搜索结果的准确性。

Description

一种搜索方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种搜索方法及装置。
背景技术
随着互联网技术的发展,人们可以通过网络获取自身所需要的信息。这里所说的信息包括文本信息、声音信息、图像信息及视频信息等各种类型的信息。然而,网络中的信息呈几何增长,如何在互联网上的海量信息中快速寻找到符合用户需求的信息成为一个棘手的问题。
为了解决上述问题,基于搜索词的搜索方式应运而生,该搜索方式为:获取搜索词,对获取到的搜索词进行分词处理,得到分词结果,分词结果中包括至少一个关键词;在分词结果中关键词分别确定目标关键词,在海量的信息中确定包含该目标关键词的信息,根据信息的点击率,将搜索到的信息混排,从而获得搜索结果。然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:现有技术中的搜索方式通常会因为分词结果中的关键词可能对应着多个义项,造成搜索结果不准确。
发明内容
本发明实施例的目的在于提供一种搜索方法及装置,以实现提高用户体验。具体技术方案如下:
第一方面,为了达到上述目的,本发明实施例公开了一种搜索方法,所述方法包括:
获取目标搜索词,并对所述目标搜索词进行分词处理,获得目标分词结果,其中,所述目标分词结果包括至少一个关键词;
判断所述目标分词结果中是否有记录在预先设置的歧义实体词库中的关键词,其中,所述歧义实体词库,用于存储存在至少两种义项的词;
如果是,从所述目标分词结果中确定各个目标歧义实体词的目标特征词,其中,所述目标歧义实体词为:所述目标分词结果中记录在所述歧义实体词库中的关键词,所述目标特征词为:用于确定所述目标歧义实体词对应义项的关键词;
分别根据每一目标歧义实体词的目标特征词,确定每一目标歧义实体词的义项;
在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,其中,所述目标词为:确定一义项时所采用的目标歧义实体词,所述目标关键词为:所述目标分词结果中除目标词之外的关键词;
基于搜索得到的信息,获得针对所述目标搜索词的搜索结果。
可选的,在所述目标分词结果中不存在该目标歧义实体词的目标特征词的情况下,所述方法还包括:
根据预先建立的歧义实体词与义项之间的对应关系,确定与该目标歧义实体词具有对应关系的所有义项;
基于该目标歧义实体词和所确定的义项,生成并展示搜索提示,其中,所述搜索提示,用于提示目标歧义实体词对应的义项;
获取针对所述搜索提示确定的义项,并执行所述在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息的步骤。
可选的,所述在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,包括:
针对每一所确定的义项,根据预先建立的义项与第一倒排表之间的对应关系,确定与该义项具有对应关系的第一倒排表,并在所确定的第一倒排表中,搜索包含该义项对应的目标词的第一倒排表,作为目标倒排表;其中,所述第一倒排表是预先建立的表,一张第一倒排表中存储有一个关键词基于一个义项确定的待搜索信息的标识;
针对每一目标关键词,确定针对该目标关键词建立的第二倒排表;其中,一张第二倒排表中存储基于一个关键词确定的待搜索信息的标识;
所述基于搜索得到的信息,获得针对所述目标搜索词的搜索结果,包括:
基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果。
可选的,所述第一倒排表是通过以下方式建立的:
获取各个目标样本信息的标识;
将所获取的标识输入到预先训练好的义项分类模型,获得每一目标样本信息对应的义项,其中,所述义项分类模型是根据样本信息的标识与该样本信息对应的义项二者之间的关联关系建立的;
对各个样本信息进行分词处理,获得每一样本信息的分词结果;
根据所获得的义项,确定属于同一个义项的目标样本信息;
在所确定的属于同一义项的目标样本信息中,确定包含有同一个关键词的目标样本信息,作为分类样本信息;
对于每一类分类样本信息,基于该分类样本信息中各个目标样本信息的标识、共同对应的关键词以及所属义项,建立第一倒排表。
可选的,所述义项分类模型是通过以下方式训练的:
确定义项的所有类型;
收集针对每一类型义项的样本信息;
将收集到的样本信息的标识和样本信息对应的义项输入到预先建立好的义项分类模型中,对所述义项分类模型进行训练。
可选的,所述基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果,包括:
针对每一目标词,确定该目标词除所确定的义项之外的所有义项,并在所确定的每一义项对应的第一倒排表中,搜索包含该目标词的第一倒排表,作为第三倒排表;
针对每一所确定的目标倒排表、第二倒排表和第三倒排表,分别设置权重,其中,对每一目标倒排表设置的权重大于对任意一个第二倒排表和第三倒排表设置的权重;
基于设置权重的大小,对所确定的目标倒排表、第二倒排表和第三倒排表进行排序,获得针对所述目标搜索词的搜索结果。
第二方面,为了达到上述目的,本发明还公开了一种搜索装置,所述装置包括:
第一获取模块,用于获取目标搜索词,并对所述目标搜索词进行分词处理,获得目标分词结果,其中,所述目标分词结果包括至少一个关键词;
第一判断模块,用于判断所述目标分词结果中是否有记录在预先设置的歧义实体词库中的关键词,其中,所述歧义实体词库,用于存储存在至少两种义项的词;
第一确定模块,用于在所述第一判断模块的判断结果为是的情况下从所述目标分词结果中确定各个目标歧义实体词的目标特征词,其中,所述目标歧义实体词为:所述目标分词结果中记录在所述歧义实体词库中的关键词,所述目标特征词为:用于确定所述目标歧义实体词对应义项的关键词;
第二确定模块,用于分别根据每一目标歧义实体词的目标特征词,确定每一目标歧义实体词的义项;
搜索模块,用于在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,其中,所述目标词为:确定一义项时所采用的目标歧义实体词,所述目标关键词为:所述目标分词结果中除目标词之外的关键词;
获得模块,用于基于搜索得到的信息,获得针对所述目标搜索词的搜索结果。
可选的,所述装置还包括:
第三确定模块,用于在所述目标分词结果中不存在该目标歧义实体词的目标特征词的情况下,根据预先建立的歧义实体词与义项之间的对应关系,确定与该目标歧义实体词具有对应关系的所有义项;
展示模块,用于基于该目标歧义实体词和所确定的义项,生成并展示搜索提示,其中,所述搜索提示,用于提示目标歧义实体词对应的义项;
第二获取模块,用于获取针对所述搜索提示确定的义项,并执行所述搜索模块。
可选的,第一搜索子模块,用于针对每一所确定的义项,根据预先建立的义项与第一倒排表之间的对应关系,确定与该义项具有对应关系的第一倒排表,并在所确定的第一倒排表中,搜索包含该义项对应的目标词的第一倒排表,作为目标倒排表;其中,所述第一倒排表是预先建立的表,一张第一倒排表中存储有一个关键词基于一个义项确定的待搜索信息的标识;
确定子模块,用于针对每一目标关键词,确定针对该目标关键词建立的第二倒排表;其中,一张第二倒排表中存储基于一个关键词确定的待搜索信息的标识;
所述获得模块,具体用于基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果。
可选的,所述装置还包括:
建立模块,用于获取各个目标样本信息的标识;将所获取的标识输入到预先训练好的义项分类模型,获得每一目标样本信息对应的义项,其中,所述义项分类模型是根据样本信息的标识与该样本信息对应的义项二者之间的关联关系建立的;对各个样本信息进行分词处理,获得每一样本信息的分词结果;根据所获得的义项,确定属于同一个义项的目标样本信息;在所确定的属于同一义项的目标样本信息中,确定包含有同一个关键词的目标样本信息,作为分类样本信息;对于每一类分类样本信息,基于该分类样本信息中各个目标样本信息的标识、共同对应的关键词以及所属义项,建立第一倒排表。
可选的,所述装置还包括:
训练模块,用于确定义项的所有类型;收集针对每一类型义项的样本信息;将收集到的样本信息的标识和样本信息对应的义项输入到预先建立好的义项分类模型中,对所述义项分类模型进行训练。
可选的,所述获得模块,包括:
第二搜索子模块,用于针对每一目标词,确定该目标词除所确定的义项之外的所有义项,并在所确定的每一义项对应的第一倒排表中,搜索包含该目标词的第一倒排表,作为第三倒排表;
设置子模块,针对每一所确定的目标倒排表、第二倒排表和第三倒排表,分别设置权重,其中,对每一目标倒排表设置的权重大于对任意一个第二倒排表和第三倒排表设置的权重;
获得子模块,用于基于设置权重的大小,对所确定的目标倒排表、第二倒排表和第三倒排表进行排序,获得针对所述目标搜索词的搜索结果。
第三方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的搜索方法。
第四方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的搜索方法。
本发明实施例提供的一种搜索方法及装置,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的搜索方法的第一种流程示意图;
图2为本发明实施例提供的搜索方法的第二种流程示意图;
图3为本发明实施例提供的搜索方法的第三种流程示意图;
图4为建立的倒排表的结构示意图;
图5为本发明实施例提供的搜索方法的第四种流程示意图;
图6为本发明实施例提供的搜索装置的第一种结构示意图;
图7为本发明实施例提供的搜索装置的第二种结构示意图;
图8为本发明实施例提供的搜索装置的第三种结构示意图;
图9为本发明实施例提供的搜索装置的第四种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
图1为本发明实施例提供的搜索方法的第一种流程示意图,该方法包括:
S101:获取目标搜索词,并对所述目标搜索词进行分词处理,获得目标分词结果,其中,所述目标分词结果包括至少一个关键词。
本领域人员可以理解的是,目标搜索词可以是用户发送的,也可以是客户端发送的,在本发明实施例中对此不进行限定。分词处理是将连续的字序列按照一定的规范重新组合成词序列的过程。具体的,对目标搜索词进行分词处理可以采用基于理解的分词方法或基于统计的分词方法等等。示例性的,目标搜索词是“非诚勿扰20161224”,对该目标搜索词进行分词处理,获得的目标分词结果为“非诚勿扰”和“20161224”。在对目标搜索词进行分词的时候,还会对分词结果中每一关键词进行词性标注,词性标注目的就是给关键词确定一种词性,这样有利于快速地确定目标关键词和目标特征词。具体的,词性标注是现有技术,在这里不进行赘述。
关键词是从信息标题、内容提要或正文中提取的、能表达信息主题的、具有实质意义的词语,可以是任何中文、英文、数字,或中文英文数字的混合。人名、地名、产品名称、文章名称、游戏名称、星座、品牌等等均可以为关键词。示例性的,关键词可以为“大话西游”、“windows(视窗)”或“F-1赛车”。
在目标分析结果中,并不每一个词都是关键词。当目标分词结果中实词,则可以确定虚词不是关键词,实词为名词、动词、形容词、数量词、代词,目标分词结果中的助词、叹词等不是关键词。示例性的,目标分词结果中包括“的”和“啊”都不是关键词。在实际应用中,副词、介词、连词或拟声词中的部分词可以是关键词,部分词不是关键词,具体的,需要根据实际情况确定。示例性的,副词中的“都”、介词中的“因”、连词中的“那么”或拟声词中的“呜”不是关键词,拟声词中的“潺潺”、副词中的“非常”等是关键词。需要说明的是,目标分词结果可以为目标搜索词本身,示例性的,目标搜索词是“一蹴而就”,则目标分词结果是“一蹴而就”。
S102:判断所述目标分词结果中是否有记录在预先设置的歧义实体词库中的关键词,如果是,执行S103,如果否,则结束;其中,所述歧义实体词库,用于存储存在至少两种义项的词。
在本发明实施例中,歧义实体词是带有歧义的实体词。这里所说的实体词可以理解为命名实体,命名实体是指具有特定含义的实体的名称,进一步地,可以理解为实体。最常见的实体为人名、地名、组织机构名;在视频行业,主要是视频名称、主演、角色名、导演、制片;在音乐行业,主要是歌曲名、演唱者等等,在游戏行业,主要是游戏名、角色名等等。义项为每一个不同概念意义事物的叙述内容,示例性的,义项可以为小说、电影、音乐、主演、电视剧、角色名、文章、历史事件等等。
本领域技术人员可以理解的是,造成实体词有歧义的原因是该实体词包含了至少两个义项,示例性的,“翻译官”是一个歧义实体词,有三个义项,分别为电视剧义项、小说义项和普通词义项,因为存在小说翻译官,还存在电视剧翻译官,当然翻译官为普通词义项的时候,是专司翻译的官员。
对于搜索服务提供方来说,会有专门的信息库用于搜索。例如,视频搜索服务提供方有由视频组成的信息库。歧义实体词库中的实体词确定方法为:如果信息库中,针对不同类型的信息中包含了相同的实体词,则可以确定该实体词确定为歧义实体词,将该实体词记录在歧义实体词库中。例如,如果电影和电视剧的核心剧名相同,则确定该核心剧名是歧义实体词;如果一个视频中的角色名与另一个视频中的主演名字相同,确定该角色名是歧义实体词。当然,还可以通过其他的方法,确定歧义实体词,从而得到歧义实体词库,在这里不进行一一赘述。
如果一个关键词记录在实体词库中,说明该关键词是歧义实体词,否则,则不是歧义实体词。如果目标分词结果中没有记录在歧义实体词库中的关键词,则按照现有技术中的方法进行信息的搜索,获得搜索结果。
S103:从所述目标分词结果中确定各个目标歧义实体词的目标特征词,其中,所述目标歧义实体词为:所述目标分词结果中记录在所述歧义实体词库中的关键词,所述目标特征词为:用于确定所述目标歧义实体词对应义项的关键词。
在本发明实施例中,目标分词结果中记录在歧义实体词库中的关键词确定为目标歧义实体词,为了消除目标歧义实体词的歧义,需要确定目标歧义实体词的义项,在本发明实施例中,是利用目标特征词确定目标歧义实体词的义项。可以理解为将目标歧义实体词和该目标歧义实体词的目标特征词相结合,就可以确定目标歧义实体词的义项。示例性的,目标分词结果包含的关键词为“非诚勿扰”和“20161224”,“非诚勿扰”是目标歧义实体词,“20161224”是目标特征词。当然,如果目标分词结果中包括孟非、综艺、灭灯等关键词,孟非、综艺、灭灯中的任意一个关键词均可以作为“非诚勿扰”这个目标歧义实体词的目标特征词。
需要说明的是,目标歧义实体词也可以作为目标特征词,一个目标歧义实体词可以作为另一个目标歧义实体词的目标特征词。在可以确定目标歧义实体词的义项的关键词为多个的情况下,可以在这些关键词中选择一个确定为目标歧义实体词的目标特征词。
S104:分别根据每一目标歧义实体词的目标特征词,确定每一目标歧义实体词的义项。
当确定了目标歧义实体词的目标特征词的时候,可以将目标歧义实体词与目标特征词相结合,确定目标歧义实体词的义项。延续上述示例,确定目标歧义实体词“非诚勿扰”的义项为综艺,。因为只有综艺非诚勿扰有很多期节目,目标特征词是和节目播出日期有关的信息,则可以确定非诚勿扰对应的义项是综艺。确定了目标义项,就可以实现对目标关键词的消岐,从而可以确定真实的搜索意图。如果目标特征词为“葛优”,则确定目标歧义实体词“非诚勿扰”的义项为电影,因为葛优是电影“非诚勿扰”的主演。
S105:在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,其中,所述目标词为:确定一义项时所采用的目标歧义实体词,所述目标关键词为:所述目标分词结果中除目标词之外的关键词。
在本发明实施例中,每一义项对应了很多待搜索信息,在确定目标歧义实体词的义项之后,在所确定的义项对应的待搜索信息中,搜索该目标歧义实体词的待搜索信息。目标词为确定义项时所采用的目标歧义实体词,可以理解为确定了义项的目标歧义实体词,因为可能存在有些目标歧义实体词没有确定义项,进一步地,是无法对该目标歧义实体词进行消岐。
在义项对应的待搜索信息中,搜索包含目标词的信息,这样搜索更具有针对性,搜索的信息是想要搜索的信息,在获得的搜索结果中包含了大量的想要搜索的信息,从而提高了搜索结果的准确性。
在本发明实施例中,目标关键词是目标分词结果中除目标词之外的关键词,不需要确定目标关键词的义项。因为目标关键词要么不存在歧义,不需要通过确定义项进行消岐;要么存在歧义,但是根据目前得到的信息无法确定目标关键词的义项。针对目标关键词,是在用于存储待搜索信息的信息库中搜索包含有该目标关键词的待搜索信息。
S106:基于搜索得到的信息,获得针对所述目标搜索词的搜索结果。
在实际应用中,可以将搜索得到的信息作为搜索结果,也可以在将去重后的搜索得到的信息作为搜索结果,还可以对搜索得到的信息进行处理,获得搜索结果。
在现有技术中,以搜索视频为例,假设搜索词为“非诚勿扰电影”,对该搜索词进行分词处理后,可确定其中一个关键词是“非诚勿扰”。根据搜索词可知,用户的搜索意图是电影版的非诚勿扰。但因为非诚勿扰是一个有歧义的实体词,包含了综艺、电影等义项,利用现有的搜索方法进行搜索时,不会确定非诚勿扰对应的义项,并且由于搜索结果是根据搜索到的视频的点击率进行混排得到的,导致在搜索结果中排在前面的视频中可能包含了大量的综艺版非诚勿扰,给用户体验带来了负面影响,降低了用户体验。在本发明实施例中,在确定关键词是歧义实体词的情况下,确定该关键词对应的义项,在所确定的义项中搜索包含有该关键词的信息,获得搜索结果,在提高了搜索结果的准确性的同时,因为确定了用户的真实搜索意图,更加准确地搜索出用户感兴趣的信息,进而,相较于现有技术,提高了用户体验。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
图2为本发明实施例所提供的搜索方法的第二种流程示意图。基于图1所提供的实施例,本发明实施例所提供的一种搜索方法,在所述目标分词结果中不存在该目标歧义实体词的目标特征词的情况下,在S102之后,还包括S107、S108和S109,其中,
S107:根据预先建立的歧义实体词与义项之间的对应关系,确定与该目标歧义实体词具有对应关系的所有义项。
如果关键词是歧义实体词,则该关键词有至少两个义项。在设置歧义实体词库的时候,同时也建立了歧义实体词库中每一实体词与其对应的义项之间的对应关系。具体地,建立方法为:在确定一个实体词是歧义实体词后,确定该实体词的所有义项。示例性的,确定非诚勿扰是歧义实体词后,发现存在非诚勿的综艺的信息、电影的信息和普通词的信息,则可以确定非诚勿扰对应的义项分别为:综艺、电影和普通词,建立非诚勿扰与确定的义项之间的对应关系。如果一个词有普通词义项,说明在作为普通词义项使用时,使用的是该词的本意。建立的对应关系可以存储在歧义实体词库中,也可以存储在其他的地方。
针对一个目标歧义实体词,如果目标分词结果中不包含目标特征词,就无法确定真实的搜索意图。为了提高用户体验,需要确定用户的真实搜索意图,以确定具体搜索哪些信息,因此本发明实施例提供了另一种确定目标歧义实体词的义项的方法。
本领域技术人员可以理解的是,根据建立的歧义实体词与义项对应的关系,就可以确定该目标歧义实体词的所有义项。示例性的,目标分词结果中只包含了非诚勿扰这个关键词,非诚勿扰是目标歧义实体词,根据预先建立的歧义实体词与义项之间的关联关系,则可以确定非诚勿扰的义项有:综艺、电影和电视剧。
S108:基于该目标歧义实体词和所确定的义项,生成并展示搜索提示,其中,所述搜索提示,用于提示目标歧义实体词对应的义项。
需要说明的是,搜索提示中包含了目标歧义实体词和该目标歧义实体词对应的义项,延续上述示例,搜索提示可以为:您是不是想搜:“非诚勿扰电影”、“非诚勿扰综艺”或“非诚勿扰电视剧”。当然,生成的搜索提示不止上述示例的提示形式,还包括其他的形式,在这里不进行限定。
S109:获取针对所述搜索提示确定的目标义项,并执行S105。
在获取针对搜索提示确定的目标义项后,就确定了待搜索信息,则执行S105。获取目标义项的方法可以为:获取用户基于展示的搜索提示所选择的义项,该用户所选择的义项就是目标义项。
如果目标关键词在歧义实体库中,但无法确定目标义项的情况下,可以利用现有技术会中的搜索方法,获得搜索信息。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,可以确定目标特征词或者生成搜索提示,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
在本发明的另一个具体实施例中,参见图3,提供了搜索方法的第三种流程示意图,与图1所示实施例相比,本实施例中,在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息(S105),包括:
S1051:针对每一所确定的义项,根据预先建立的义项与第一倒排表之间的对应关系,确定与该义项具有对应关系的第一倒排表,并在所确定的第一倒排表中,搜索包含该义项对应的目标词的第一倒排表,作为目标倒排表;其中,所述第一倒排表是预先建立的表,一张第一倒排表中存储有一个关键词基于一个义项确定的待搜索信息的标识。
在实际应用中,一个义项对应很多第一倒排表,示例性的,电影这个义项对应了针对“非诚勿扰”这个关键词建立的第一倒排表、针对“小时代”这个关键词建立的第一倒排表、针对“三生三世十里桃花”这个关键词建立的第一倒排表。在确定义项是哪个义项后,根据义项与第一倒排表之间的对应关系,就可以确定与该义项具有对应关系的第一倒排表。在所确定的第一倒排表中,搜索包含该义项对应的目标词的第一倒排表,作为目标倒排表。
在本发明的一个具体实施例中,所述第一倒排表是通过以下方式建立的:
获取各个目标样本信息的标识;
将所获取的标识输入到预先训练好的义项分类模型,获得每一目标样本信息对应的义项,其中,所述义项分类模型是根据样本信息的标识与该样本信息对应的义项二者之间的关联关系建立的;
对各个样本信息进行分词处理,获得每一样本信息的分词结果;
根据所获得的义项,确定属于同一个义项的目标样本信息;
在所确定的属于同一义项的目标样本信息中,确定包含有同一个关键词的目标样本信息,作为分类样本信息;
对于每一类分类样本信息,基于该分类样本信息中各个目标样本信息的标识、共同对应的关键词以及所属义项,建立倒排表。
需要说明的是,倒排表是按照关键词建立的索引表。标识用于确定待搜索信息对应的义项,可以为待搜索信息的标题或者摘要等等。
在本发明实施例中,各个目标样本信息可以理解为是上述所提到的信息库中的信息。义项分类模型是为了对义项进行分类而建立的模型,进一步地,是根据样本信息的标识与该样本信息对应的义项二者之间的关联关系建立的。在本发明实施例中,该义项分类模型的输入是标识,输出是该标识所属的目标样本对应的义项,这样就可以确定样本信息对应的义项,从而实现对义项的分类。具体的,义项分类模型对样本信息进行分词处理得到分词结果,确定分词结果中的歧义实体词的义项。
在本发明实施例中,对目标样本信息进行分词处理,是对目标样本信息的标题或摘要进行分词处理,获得分词结果。每一个目标样本信息通过义项分类模型进行分类后,获得了该目标样本信息的义项,具体的,是获得了针对目标样本信息的分词结果中的歧义实体词的义项。根据所获得的义项,就可以确定同属于一个义项的目标样本信息,即每一个义项对应的信息。
在所确定的属于同一个义项的目标样本信息中,对包含有同一个关键词的目标样本信息进行聚类,从而确定分类样本信息,即同一个义项中,根据关键词,对该义项对应的目标样本信息进行分类,获得分类样本信息。然后,对于所确定的分类样本信息,基于该分类样本信息中各个目标样本信息的标识、共同对应的关键词以及所属义项,建立第一倒排表。示例性的,以非诚勿扰为关键词,建立的倒排表的结构示意图可以如图4所示。
在本发明的一个具体实施例中,所述义项分类模型是通过以下方式训练的:
确定义项的所有类型;
收集针对每一类型义项的样本信息;
将收集到的样本信息的标识和样本信息对应的义项输入到预先建立好的义项分类模型中,对所述义项分类模型进行训练。
在本发明实施例中,确定义项的所有类型可以为:确定歧义实体词库中的每一实体词对应的义项类型;基于所确定的每一实体词对应的义项类型,确定义项的所有义项。还可以根据信息库中的信息所属的行业确定义项的所有类型,示例性的,信息库中的信息都属于音乐行业,义项可以为歌曲名、演唱者、曲作者、词作者、专辑名等等,根据音乐行业中的信息的特点,可以确定义项的所有类型。
收集针对每一类型义项的样本信息可以为:在歧义实体词库中,确定每一类型的义项对应的实体词。然后,对包含有该实体词的信息进行聚类,从而获得针对每一类型义项的样本信息。为了提高训练结果的精确度,可以在收集样本信息的时候适当加入一些人工干预,使得训练好的义项分类模型的分类结果可以更加准确。收集的针对每一类型义项的样本信息的标识,就是训练语料。
在本发明实施例中,可以采用机器学习的方法对义项分类模型进行训练。具体的,是使用机器学习的方法对收集到的样本信息的标识进行特征抽取和分类,确定该标识对应的样本信息对应的义项。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心。使用机器学习的方法对义项分类模型进行训练是现有技术,具体的训练过程在这里不进行赘述。
S1052:针对每一目标关键词,确定针对该目标关键词建立的第二倒排表;其中,一张第二倒排表中存储基于一个关键词确定的待搜索信息的标识。
需要说明的是,如果目标关键词是歧义实体词,则针对该目标关键词建立的第二倒排表是由针对该关键词建立的所有第一倒排表组成。
具体的,所述基于搜索得到的信息,获得针对所述目标搜索词的搜索结果(S106),包括:
S106A:基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果。
在实际应用中,可以获得所确定的目标倒排表和第二倒排表中对应的信息,作为搜索结果。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
在本发明的另一个具体实施例中,参见图5,提供了搜索方法的第四种流程示意图,与图3所示实施例相比,本实施例中,所述基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果(S106A),包括:
S1061:针对每一目标词,确定该目标词除所确定的义项之外的所有义项,并在所确定的每一义项对应的第一倒排表中,搜索包含该目标词的第一倒排表,作为第三倒排表。
目标词在歧义实体库中,说明该目标词除了已经确定的义项以外,还存在其他的义项。可以根据歧义实体词与义项之间的对应关系,确定目标词除所确定的义项之外的所有义项。
S1062:针对每一所确定的目标倒排表、第二倒排表和第三倒排表,分别设置权重,其中,对每一目标倒排表设置的权重大于对任意一个第二倒排表和第三倒排表设置的权重。
为了进一步提高搜索结果的准确性,需要目标倒排表需要排在搜索结果中的前面,这样显示搜索结果,目标信息就排在前面了,因此,需要对目标倒排表设置的权重大于任意一个对任意一个第二倒排表和第三倒排表设置的权重。权重的具体值可以根据实际情况而定。
S1063:基于设置权重的大小,对所确定的目标倒排表、第二倒排表和第三倒排表进行排序,获得针对所述目标搜索词的搜索结果。
在本发明实施例中,可以基于设置的权重,计算目标倒排表、第二倒排表和第三倒排表分别与目标搜索词的相关性。根据计算得到的相关性,对所确定的目标倒排表、第二倒排表和第三倒排表中的信息进行排序,获得针对目标搜索词的搜索结果。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
与图1所示的方法实施例相对应,图6为本发明实施例提供的搜索装置的第一种结构示意图,该装置包括:第一获取模块201、第一判断模块202、第一确定模块203、第二确定模块204、搜索模块205和获得模块206,其中,
第一获取模块201,用于获取目标搜索词,并对所述目标搜索词进行分词处理,获得目标分词结果,其中,所述目标分词结果包括至少一个关键词;
第一判断模块202,用于判断所述目标分词结果中是否有记录在预先设置的歧义实体词库中的关键词,其中,所述歧义实体词库,用于存储存在至少两种义项的词;
第一确定模块203,用于在所述第一判断模块202的判断结果为是的情况下从所述目标分词结果中确定各个目标歧义实体词的目标特征词,其中,所述目标歧义实体词为:所述目标分词结果中记录在所述歧义实体词库中的关键词,所述目标特征词为:用于确定所述目标歧义实体词对应义项的关键词;
第二确定模块204,用于分别根据每一目标歧义实体词的目标特征词,确定每一目标歧义实体词的义项;
搜索模块205,用于在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,其中,所述目标词为:确定一义项时所采用的目标歧义实体词,所述目标关键词为:所述目标分词结果中除目标词之外的关键词;
获得模块206,用于基于搜索得到的信息,获得针对所述目标搜索词的搜索结果。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
与图2所示的方法实施例相对应,图7为本发明实施例提供的搜索装置的第二种结构示意图,该装置还可以包括:第三确定模块207、展示模块208和第二获取模块209,其中,
第三确定模块207,用于在所述目标分词结果中不存在该目标歧义实体词的目标特征词的情况下,根据预先建立的歧义实体词与义项之间的对应关系,确定与该目标歧义实体词具有对应关系的所有义项;
展示模块208,用于基于该目标歧义实体词和所确定的义项,生成并展示搜索提示,其中,所述搜索提示,用于提示目标歧义实体词对应的义项;
第二获取模块209,用于获取针对所述搜索提示确定的义项,并执行所述搜索模块205。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,可以确定目标特征词或者生成搜索提示,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
与图3所示的方法实施例相对应,图8为本发明实施例提供的搜索装置的第三种结构示意图,搜索模块205包括:第一搜索子模块2051和确定子模块2052,其中,
第一搜索子模块2051,用于针对每一所确定的义项,根据预先建立的义项与第一倒排表之间的对应关系,确定与该义项具有对应关系的第一倒排表,并在所确定的第一倒排表中,搜索包含该义项对应的目标词的第一倒排表,作为目标倒排表;其中,所述第一倒排表是预先建立的表,一张第一倒排表中存储有一个关键词基于一个义项确定的待搜索信息的标识;
确定子模块2052,用于针对每一目标关键词,确定针对该目标关键词建立的第二倒排表;其中,一张第二倒排表中存储基于一个关键词确定的待搜索信息的标识。
所述获得模块206,具体用于基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果。
具体的,所述装置还包括建立模块(图中未示出)。
建立模块,用于获取各个目标样本信息的标识;将所获取的标识输入到预先训练好的义项分类模型,获得每一目标样本信息对应的义项,其中,所述义项分类模型是根据样本信息的标识与该样本信息对应的义项二者之间的关联关系建立的;对各个样本信息进行分词处理,获得每一样本信息的分词结果;根据所获得的义项,确定属于同一个义项的目标样本信息;在所确定的属于同一义项的目标样本信息中,确定包含有同一个关键词的目标样本信息,作为分类样本信息;对于每一类分类样本信息,基于该分类样本信息中各个目标样本信息的标识、共同对应的关键词以及所属义项,建立第一倒排表。
具体的,所述装置还包括训练模块(图中未示出)。
所述训练模块,用于确定义项的所有类型;收集针对每一类型义项的样本信息;将收集到的样本信息的标识和样本信息对应的义项输入到预先建立好的义项分类模型中,对所述义项分类模型进行训练。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
与图5所示的方法实施例相对应,图9为本发明实施例提供的搜索装置的第四种结构示意图,获得模块206包括:第二搜索子模块2061、设置子模块2062和获得子模块2063,其中,
第二搜索子模块2061,用于针对每一目标词,确定该目标词除所确定的义项之外的所有义项,并在所确定的每一义项对应的第一倒排表中,搜索包含该目标词的第一倒排表,作为第三倒排表;
设置子模块2062,针对每一所确定的目标倒排表、第二倒排表和第三倒排表,分别设置权重,其中,对每一目标倒排表设置的权重大于对任意一个第二倒排表和第三倒排表设置的权重;
获得子模块2063,用于基于设置权重的大小,对所确定的目标倒排表、第二倒排表和第三倒排表进行排序,获得针对所述目标搜索词的搜索结果。
应用本发明实施例,可以通过判断目标分词结果中所包含的关键词是否记录在歧义实体词库中,在确定该关键词为歧义实体词后,确定该目标歧义实体词的义项,在义项对应有待搜索信息中搜索,获得搜索结果,相较于现有技术,提高了搜索结果的准确性,因为确定了用户的真实搜索意图,进而提高了用户体验。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的搜索方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的搜索方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (12)

1.一种搜索方法,其特征在于,所述方法包括:
获取目标搜索词,并对所述目标搜索词进行分词处理,获得目标分词结果,其中,所述目标分词结果包括至少一个关键词;
判断所述目标分词结果中是否有记录在预先设置的歧义实体词库中的关键词,其中,所述歧义实体词库,用于存储存在至少两种义项的词;
如果是,从所述目标分词结果中确定各个目标歧义实体词的目标特征词,其中,所述目标歧义实体词为:所述目标分词结果中记录在所述歧义实体词库中的关键词,所述目标特征词为:用于确定所述目标歧义实体词对应义项的关键词;
分别根据每一目标歧义实体词的目标特征词,确定每一目标歧义实体词的义项;
在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,其中,所述目标词为:确定一义项时所采用的目标歧义实体词,所述目标关键词为:所述目标分词结果中除目标词之外的关键词;
基于搜索得到的信息,获得针对所述目标搜索词的搜索结果。
2.根据权利要求1所述的方法,其特征在于,在所述目标分词结果中不存在该目标歧义实体词的目标特征词的情况下,所述方法还包括:
根据预先建立的歧义实体词与义项之间的对应关系,确定与该目标歧义实体词具有对应关系的所有义项;
基于该目标歧义实体词和所确定的义项,生成并展示搜索提示,其中,所述搜索提示,用于提示目标歧义实体词对应的义项;
获取针对所述搜索提示确定的义项,并执行所述在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息的步骤。
3.根据权利要求1或2所述的方法,其特征在于,所述在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,包括:
针对每一所确定的义项,根据预先建立的义项与第一倒排表之间的对应关系,确定与该义项具有对应关系的第一倒排表,并在所确定的第一倒排表中,搜索包含该义项对应的目标词的第一倒排表,作为目标倒排表;其中,所述第一倒排表是预先建立的表,一张第一倒排表中存储有一个关键词基于一个义项确定的待搜索信息的标识;
针对每一目标关键词,确定针对该目标关键词建立的第二倒排表;其中,一张第二倒排表中存储基于一个关键词确定的待搜索信息的标识;
所述基于搜索得到的信息,获得针对所述目标搜索词的搜索结果,包括:
基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果。
4.根据权利要求3所述的方法,其特征在于,所述第一倒排表是通过以下方式建立的:
获取各个目标样本信息的标识;
将所获取的标识输入到预先训练好的义项分类模型,获得每一目标样本信息对应的义项,其中,所述义项分类模型是根据样本信息的标识与该样本信息对应的义项二者之间的关联关系建立的;
对各个样本信息进行分词处理,获得每一样本信息的分词结果;
根据所获得的义项,确定属于同一个义项的目标样本信息;
在所确定的属于同一义项的目标样本信息中,确定包含有同一个关键词的目标样本信息,作为分类样本信息;
对于每一类分类样本信息,基于该分类样本信息中各个目标样本信息的标识、共同对应的关键词以及所属义项,建立第一倒排表。
5.根据权利要求4所述的方法,其特征在于,所述义项分类模型是通过以下方式训练的:
确定义项的所有类型;
收集针对每一类型义项的样本信息;
将收集到的样本信息的标识和样本信息对应的义项输入到预先建立好的义项分类模型中,对所述义项分类模型进行训练。
6.根据权利要求3所述的方法,其特征在于,所述基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果,包括:
针对每一目标词,确定该目标词除所确定的义项之外的所有义项,并在所确定的每一义项对应的第一倒排表中,搜索包含该目标词的第一倒排表,作为第三倒排表;
针对每一所确定的目标倒排表、第二倒排表和第三倒排表,分别设置权重,其中,对每一目标倒排表设置的权重大于对任意一个第二倒排表和第三倒排表设置的权重;
基于设置权重的大小,对所确定的目标倒排表、第二倒排表和第三倒排表进行排序,获得针对所述目标搜索词的搜索结果。
7.一种搜索装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标搜索词,并对所述目标搜索词进行分词处理,获得目标分词结果,其中,所述目标分词结果包括至少一个关键词;
第一判断模块,用于判断所述目标分词结果中是否有记录在预先设置的歧义实体词库中的关键词,其中,所述歧义实体词库,用于存储存在至少两种义项的词;
第一确定模块,用于在所述第一判断模块的判断结果为是的情况下,从所述目标分词结果中确定各个目标歧义实体词的目标特征词,其中,所述目标歧义实体词为:所述目标分词结果中记录在所述歧义实体词库中的关键词,所述目标特征词为:用于确定所述目标歧义实体词对应义项的关键词;
第二确定模块,用于分别根据每一目标歧义实体词的目标特征词,确定每一目标歧义实体词的义项;
搜索模块,用于在每一义项对应的待搜索信息中,搜索包含该义项对应的目标词的待搜索信息,并针对每一目标关键词,在用于存储待搜索信息的信息库中搜索包含该目标关键词的待搜索信息,其中,所述目标词为:确定一义项时所采用的目标歧义实体词,所述目标关键词为:所述目标分词结果中除目标词之外的关键词;
获得模块,用于基于搜索得到的信息,获得针对所述目标搜索词的搜索结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于在所述目标分词结果中不存在该目标歧义实体词的目标特征词的情况下,根据预先建立的歧义实体词与义项之间的对应关系,确定与该目标歧义实体词具有对应关系的所有义项;
展示模块,用于基于该目标歧义实体词和所确定的义项,生成并展示搜索提示,其中,所述搜索提示,用于提示目标歧义实体词对应的义项;
第二获取模块,用于获取针对所述搜索提示确定的义项,并执行所述搜索模块。
9.根据权利要求7或8所述的装置,其特征在于,所述搜索模块,包括:
第一搜索子模块,用于针对每一所确定的义项,根据预先建立的义项与第一倒排表之间的对应关系,确定与该义项具有对应关系的第一倒排表,并在所确定的第一倒排表中,搜索包含该义项对应的目标词的第一倒排表,作为目标倒排表;其中,所述第一倒排表是预先建立的表,一张第一倒排表中存储有一个关键词基于一个义项确定的待搜索信息的标识;
确定子模块,用于针对每一目标关键词,确定针对该目标关键词建立的第二倒排表;其中,一张第二倒排表中存储基于一个关键词确定的待搜索信息的标识;
所述获得模块,具体用于基于所确定的目标倒排表和第二倒排表,获得针对所述目标搜索词的搜索结果。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
建立模块,用于获取各个目标样本信息的标识;将所获取的标识输入到预先训练好的义项分类模型,获得每一目标样本信息对应的义项,其中,所述义项分类模型是根据样本信息的标识与该样本信息对应的义项二者之间的关联关系建立的;对各个样本信息进行分词处理,获得每一样本信息的分词结果;根据所获得的义项,确定属于同一个义项的目标样本信息;在所确定的属于同一义项的目标样本信息中,确定包含有同一个关键词的目标样本信息,作为分类样本信息;对于每一类分类样本信息,基于该分类样本信息中各个目标样本信息的标识、共同对应的关键词以及所属义项,建立第一倒排表。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
训练模块,用于确定义项的所有类型;收集针对每一类型义项的样本信息;将收集到的样本信息的标识和样本信息对应的义项输入到预先建立好的义项分类模型中,对所述义项分类模型进行训练。
12.根据权利要求9所述的装置,其特征在于,所述获得模块,包括:
第二搜索子模块,用于针对每一目标词,确定该目标词除所确定的义项之外的所有义项,并在所确定的每一义项对应的第一倒排表中,搜索包含该目标词的第一倒排表,作为第三倒排表;
设置子模块,针对每一所确定的目标倒排表、第二倒排表和第三倒排表,分别设置权重,其中,对每一目标倒排表设置的权重大于对任意一个第二倒排表和第三倒排表设置的权重;
获得子模块,用于基于设置权重的大小,对所确定的目标倒排表、第二倒排表和第三倒排表进行排序,获得针对所述目标搜索词的搜索结果。
CN201710322885.0A 2017-05-09 2017-05-09 一种搜索方法及装置 Active CN107180087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710322885.0A CN107180087B (zh) 2017-05-09 2017-05-09 一种搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710322885.0A CN107180087B (zh) 2017-05-09 2017-05-09 一种搜索方法及装置

Publications (2)

Publication Number Publication Date
CN107180087A true CN107180087A (zh) 2017-09-19
CN107180087B CN107180087B (zh) 2019-11-15

Family

ID=59832496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710322885.0A Active CN107180087B (zh) 2017-05-09 2017-05-09 一种搜索方法及装置

Country Status (1)

Country Link
CN (1) CN107180087B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255806A (zh) * 2017-12-22 2018-07-06 北京奇艺世纪科技有限公司 一种人名识别方法及装置
CN109960760A (zh) * 2019-03-26 2019-07-02 北京字节跳动网络技术有限公司 特征描述信息的获取方法、装置及其相关设备
CN111460095A (zh) * 2020-03-17 2020-07-28 北京百度网讯科技有限公司 问答处理方法、装置、电子设备及存储介质
CN113343028A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 意图确定模型的训练方法和装置
CN113486253A (zh) * 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2536270A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. Internet searching using semantic disambiguation and expansion
CN1750002A (zh) * 2005-10-26 2006-03-22 孙斌 提供搜索结果的方法
CN103279504A (zh) * 2013-05-10 2013-09-04 百度在线网络技术(北京)有限公司 一种基于歧义消解的搜索方法及装置
CN103365834A (zh) * 2012-03-29 2013-10-23 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
CN103914476A (zh) * 2013-01-05 2014-07-09 北京百度网讯科技有限公司 搜索引导方法和搜索引擎

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2536270A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. Internet searching using semantic disambiguation and expansion
CN1750002A (zh) * 2005-10-26 2006-03-22 孙斌 提供搜索结果的方法
CN103365834A (zh) * 2012-03-29 2013-10-23 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
CN103914476A (zh) * 2013-01-05 2014-07-09 北京百度网讯科技有限公司 搜索引导方法和搜索引擎
CN103279504A (zh) * 2013-05-10 2013-09-04 百度在线网络技术(北京)有限公司 一种基于歧义消解的搜索方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255806A (zh) * 2017-12-22 2018-07-06 北京奇艺世纪科技有限公司 一种人名识别方法及装置
CN108255806B (zh) * 2017-12-22 2021-12-17 北京奇艺世纪科技有限公司 一种人名识别方法及装置
CN109960760A (zh) * 2019-03-26 2019-07-02 北京字节跳动网络技术有限公司 特征描述信息的获取方法、装置及其相关设备
CN111460095A (zh) * 2020-03-17 2020-07-28 北京百度网讯科技有限公司 问答处理方法、装置、电子设备及存储介质
CN113343028A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 意图确定模型的训练方法和装置
CN113486253A (zh) * 2021-07-30 2021-10-08 北京字节跳动网络技术有限公司 搜索结果展示方法、装置、设备和介质
CN113486253B (zh) * 2021-07-30 2024-03-19 抖音视界有限公司 搜索结果展示方法、装置、设备和介质

Also Published As

Publication number Publication date
CN107180087B (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
Leban et al. Event registry: learning about world events from news
CN107180087B (zh) 一种搜索方法及装置
Regelson et al. Predicting click-through rate using keyword clusters
Wang et al. Automatic online news issue construction in web environment
Wang et al. Understanding evolution of research themes: a probabilistic generative model for citations
Zhang et al. Narrative text classification for automatic key phrase extraction in web document corpora
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
KR20200096402A (ko) 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체
Kong et al. Semantic analysis and organization of spoken documents based on parameters derived from latent topics
Bergam et al. Legal and political stance detection of SCOTUS language
Shehata et al. An efficient concept-based retrieval model for enhancing text retrieval quality
Zhang et al. A comparative study on key phrase extraction methods in automatic web site summarization
Poornima et al. Text preprocessing on extracted text from audio/video using R
Camelin et al. Frnewslink: a corpus linking tv broadcast news segments and press articles
US9305103B2 (en) Method or system for semantic categorization
Das et al. Semantic segmentation of MOOC lecture videos by analyzing concept change in domain knowledge graph
Agrawal et al. Enrichment and reductionism: Two approaches for web query classification
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Tohalino et al. Using citation networks to evaluate the impact of text length on the identification of relevant concepts
Das et al. Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos
Mallek et al. An Unsupervised Approach for Precise Context Identification from Unstructured Text Documents
Pandi et al. Reputation based online product recommendations
Abdolahi et al. Textual Coherence improvement of extractive document summarization using greedy approach and word vectors
CN117407511B (zh) 一种基于Bert模型的电力安全规程智能问答方法及系统
Akbari et al. Sentiment Analysis Using Learning Vector Quantization Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant