CN105956137B - 一种搜索方法、搜索装置及一种搜索引擎系统 - Google Patents

一种搜索方法、搜索装置及一种搜索引擎系统 Download PDF

Info

Publication number
CN105956137B
CN105956137B CN201610311962.8A CN201610311962A CN105956137B CN 105956137 B CN105956137 B CN 105956137B CN 201610311962 A CN201610311962 A CN 201610311962A CN 105956137 B CN105956137 B CN 105956137B
Authority
CN
China
Prior art keywords
search
word
real
matching
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610311962.8A
Other languages
English (en)
Other versions
CN105956137A (zh
Inventor
郎皓
唐超
张小洵
薛贵荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610311962.8A priority Critical patent/CN105956137B/zh
Publication of CN105956137A publication Critical patent/CN105956137A/zh
Application granted granted Critical
Publication of CN105956137B publication Critical patent/CN105956137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种搜索方法、搜索装置及一种搜索引擎系统,以解决现有技术在识别用户搜索意图时不够准确,进而影响搜索精度的问题。所述方法包括:接收实时搜索字符串;将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;如果所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上,则将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。本申请可显著提高搜索精度,提供更加精确的搜索结果数据。

Description

一种搜索方法、搜索装置及一种搜索引擎系统
技术领域
本申请涉及网络技术,特别是涉及一种搜索方法、搜索装置及一种搜索引擎系统。
背景技术
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎的出现,为用户使用网络信息提供了便利性,用户可以从互联网提供的海量数据中检索出自己需要的信息。
利用现有的搜索引擎系统,如果用户想从网上下载“王菲”演唱的“萤火虫”这首歌,若在搜索主页的搜索框中输入关键词“萤火虫”,大多数搜索引擎网站会给出如图1所示或类似图1的搜索结果。在这些搜索结果中,排在最前位置的是介绍“萤火虫”这种动物的网页链接,这个结果显然不符合用户的搜索意图。
为了改善这种情况,有些搜索引擎系统提供了分类搜索功能,利用这种搜索引擎系统,用户可进入音乐类的搜索页面,然后在搜索框中输入关键词“萤火虫”,此时多数搜索引擎网站又会给出如图2或图3所示的类似搜索结果。这些搜索结果虽然列出了歌曲的链接,但是,在歌曲名同名而歌手不同或多个歌手演唱同一首歌的情况下,搜索结果中排在最前位置的歌曲链接并不是流传度最广、多数用户最想找的王菲演唱的“萤火虫”,而是其他歌手演唱的“萤火虫”。此时,用户需要在搜索结果中一条一条地查找王菲演唱的“萤火虫”,非常麻烦。此外,有些搜索结果还不是针对歌曲“萤火虫”的链接,而是其他的歌曲,只是这些歌曲的名字或歌词中出现了“萤火虫”一词,如图2所示。这样,搜索的准确度就更难保证了。
因此,目前的搜索引擎在识别用户搜索意图时还不够准确,进而影响了搜索精度。
发明内容
本申请提供了一种搜索方法、搜索装置及一种搜索引擎系统,以解决现有技术在识别用户搜索意图时不够准确,进而影响搜索精度的问题。
为了解决上述问题,本申请公开了一种搜索方法,包括:
接收实时搜索字符串;
将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;
如果所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上,则将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;
依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。
优选地,所述预生成的模式由元数据类别的标签组成,和/或由意图词和元数据类别的标签组成;所述词典中的第一类词是所述模式中的意图词;所述词典中的第二类词是关系数据中的元数据。
优选地,所述方法还包括预生成模式的步骤:将历史搜索数据中的历史搜索字符串依次与关系数据中的元数据进行匹配,如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;统计匹配完成后的历史搜索字符串出现的频次,并基于该统计的频次进行排序,将频次超过阈值的匹配完成后的历史搜索字符串作为模式。
优选地,将所述实时搜索字符串与预生成的词典进行匹配,包括:将所述实时搜索字符串从左至右顺次与预生成的词典进行完全匹配。
优选地,所述依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,包括:如果匹配完成后的实时搜索字符串由第二类词所属类别的标签组成,和/或,由第一类词和第二类词所属类别的标签组成,则所述匹配完成后的实时搜索字符串与预生成的某个模式相匹配,所述匹配完成后的实时搜索字符串具有该模式表示的特定搜索意图。
优选地,依据所述的特定搜索意图返回搜索结果数据,包括:将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回。
优选地,所述的特定结果数据包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。
本申请还提供了一种搜索装置,包括:
输入模块,用于接收实时搜索字符串;
实时匹配模块,用于将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;
替换模块,用于当所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上时,将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;
实时输出模块,用于依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。
优选地,所述预生成的模式由元数据类别的标签组成,和/或由意图词和元数据类别的标签组成;所述词典中的第一类词是所述模式中的意图词;
所述词典中的第二类词是关系数据中的元数据。
优选地,所述装置还包括:模式生成模块,具体包括:替换子模块,用于将历史搜索数据中的历史搜索字符串依次与关系数据中的元数据进行匹配,如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;统计子模块,用于统计匹配完成后的历史搜索字符串出现的频次,并基于该统计的频次进行排序,将频次超过阈值的匹配完成后的历史搜索字符串作为模式。
本申请还提供了一种搜索引擎系统,包括如上所述的搜索装置。
与现有技术相比,本申请包括以下优点:
首先,本申请从大规模的历史搜索数据和特定领域的关系数据出发,事先计算出特定搜索意图包含的意图词及其模式,并结合相关领域的关系数据,实时地判断给定的搜索字符串是否具有其特定的搜索意图。本申请可准确识别搜索字符串中每个部分的特定意图,进而精准确定该搜索字符串的搜索意图,显著提高搜索精度,提供更加精确的搜索结果数据。而且,本申请还可确保自动识别用户特定搜索意图的三个条件,即:很高的实时响应速度、很高的正确率以及较高的召回率。
其次,本申请在实时判断给定的搜索字符串是否具有其特定的搜索意图时,优选采用完全匹配的方法,进一步提高了搜索精度。
再次,本申请根据识别出的特定搜索意图返回的搜索结果数据与现有技术不同,本申请是将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回,并且特定结果数据包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。这种展现方式给出的搜索结果更加精准、给出的与结果相关的信息更加丰富,方便了用户操作。
当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
附图说明
图1、图2和图3是现有技术中搜索结果页面的示意图;
图4是本申请实施例所述一种搜索方法的总体流程示意图;
图5是本申请实施例所述离线生成搜索意图模式的示意图;
图6是本申请实施例所述在线进行模式匹配的示意图;
图7是本申请实施例所述在线搜索的流程图;
图8.1至8.4是本申请实施例所述搜索结果页面的示意图;
图9是本申请实施例所述一种搜索装置的结构图;
图10是本申请另一实施例所述一种搜索装置的结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为了提供更加准确的针对特定搜索意图的搜索触发服务,提高用户的搜索体验,本申请从大规模的历史搜索数据和特定领域的关系数据出发,事先计算出特定搜索意图包含的意图词及其模式,并结合相关领域的关系数据,实时地判断给定的搜索字符串是否具有其特定的搜索意图。
例如,用户若输入搜索“萤火虫MP3下载”,本申请会基于搜索触发服务自动识别出用户的搜索意图是得到歌曲“萤火虫”的直接相关信息服务。据此分析,本申请会在搜索返回首页直接给出歌曲“萤火虫”的相关信息,包括:歌手名、专辑名、可免费下载的链接等。
下面通过实施例对本申请进行详细说明。
参照图4,是本申请实施例所述一种搜索方法的总体流程示意图。
本实施例所述的搜索方法是基于关系数据的无结构查询触发的流程图。基本的,可分为离线处理和在线处理两部分,具体如下:
1)离线处理部分
基于大规模的历史搜索数据(百万数量级以上)和特定领域的关系数据(例如,歌曲名以及对应的歌手名),利用数据挖掘技术,挖掘出特定领域的搜索意图词及其模式。例如,搜音乐意图的查询,其意图词包括:“mp3下载”、“免费下载”;其搜索意图模式包括:“<Song>mp3下载”、“<Song>免费下载”、“<Song><Singer>”。其中,标签<Song>和<Singer>分别表示一个歌曲名和一个歌手名。
2)在线处理部分
针对用户实时提交的搜索字符串,基于离线处理挖掘出的特定意图的模式以及其相关领域的关系数据,判断该搜索是否具有特定的搜索意图。
下面通过图5和图6分别详细说明上述的离线处理部分和在线处理部分。
参照图5,是本申请实施例所述离线生成搜索意图模式的示意图。
如前所述,在离线部分,是基于大规模的历史搜索数据和特定领域的关系数据挖掘出特定领域的搜索意图词及其模式。
其中,所述历史搜索数据可以采用搜索引擎系统的日志数据,日志数据中记载了用户的历史搜索字符串。所述历史搜索字符串可以是一个关键词,也可以是多个关键词的组合,还可以是一个短语、一句话。
所述特定领域的关系数据是指特定领域的采用关系型数据结构的数据,特定领域可以是新闻、图片、视频、地图、音乐、购物等等划分出来的领域,对于每个领域中的搜索数据,可采用关系型数据结构进行存储。其中,关系型数据是以关系数学模型来表示的数据,关系数学模型中以二维表的形式来描述数据。例如,在音乐领域,歌曲名以及对应的歌手名就是一对关系数据。
如图5所示,挖掘过程可分为以下两步:
S1,改写查询;
将大规模历史搜索数据中的历史搜索字符串依次与特定领域的关系数据中的元数据进行匹配,如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;
例如,将历史搜索字符串“萤火虫王菲MP3下载”与音乐领域的元数据(歌曲名及对应的歌手名)进行匹配,匹配到歌曲名“萤火虫”和歌手名“王菲”,则可将该查询改写为“<Song><Singer>MP3下载”,其中<Song>和<Singer>分别是对应歌曲名及歌手名的标签。
S2,统计排序;
统计匹配完成后的历史搜索字符串出现的频次,并基于该统计的频次进行排序,将频次超过阈值(即高频)的匹配完成后的历史搜索字符串作为模式。相应地,模式中的词即为意图词。
例如,基于真实大规模搜索数据挖掘出的音乐意图模式包括:“<Song><Singer>”、“<Song>mp3下载”、“<Song>铃声<Singer>”等。
由上可知,对于匹配完成后的所有历史搜索字符串,本实施例只是从中选取高频出现的作为模板。并且,生成的模式由元数据类别的标签组成(如“<Song><Singer>”),和/或由意图词和元数据类别的标签组成(“<Song>mp3下载”、“<Song>铃声<Singer>”)。意即:生成的模式中可能全部是标签或标签的组合,也可能是标签和意图词的组合,但单独的意图词不会构成模式。而且,模式中出现的词才是意图词,不是模式中出现的词不能成为意图词。
基于以上生成的意图词及其模式,实时的模式匹配过程如图6所示。
参照图6,是本申请实施例所述在线进行模式匹配的示意图。
在线匹配过程是:将挖掘出的意图词以及关系数据中的元数据的集合作为词典,将用户输入的搜索字符串从左至右与词典进行匹配。匹配过程中,用户输入的搜索字符串无需进行分词,直接以单个词为单位进行匹配,如果搜索字符串是中文,则以单个字为单位,如果搜索字符串是英文等外文,则通过空格可以区分出一个个的单词,并以单词为单位进行匹配。现有技术中的搜索一般都先进行分词处理,但分词的处理速度较慢,而且对于未出现过程的新词还可能存在分词不准确的问题。但本申请实施例不经过分词的处理,所以可以避免这些问题。
如果搜索字符串中的某部分匹配上关系数据中的元数据,则将该部分替换为元数据类别的标签;如果搜索字符串中的某部分匹配不上词典,也即:这部分既匹配不上词典中的元数据,也匹配不上词典中的意图词,则表明该搜索字符串与任何一个模式都不匹配,失败退出。如果搜索字符串能成功地从左至右匹配上词典,并且其改写后的字符串匹配完全匹配上离线挖掘出的一个模式,则判断该搜索具有某特定的搜索意图。
举例来说,通常搜索系统会参考用户的关注度对特定领域的关系数据进行分类,如分为音乐、小说、电影等不同领域的关系数据,并结合不同领域的意图词构成不同类型的词典。搜索时,优先考虑热门领域的词典,对于冷门的领域,一般不予考虑,只有在热门领域的搜索中查询不到时才会考虑。基于此,假设当前系统中有音乐、小说和电影三个热门领域的词典,当用户输入“MP3萤火虫王菲”后,不进行分词,根据空格或简单地语义分析(目前的搜索系统基本都具有此功能)就可以确定出一个个单独的词,然后分别与热门领域的三个词典进行匹配。
匹配过程为:先将“MP3”一词分别与音乐、小说和电影这三个词典中的元数据和意图词进行匹配,假设在音乐和电影这两个词典中找到MP3一词,结合现有的模式,MP3是意图词,不进行标签的替换。然后,继续将“莹”字在音乐和电影这两个词典中进行匹配,假设在这两个词典中都找到“莹”字,则继续匹配“火”字,如果也同时找到,继续匹配“虫”字,假设还是同时在两个词典中找到。此时,结合现有的模式,在音乐类的模式中,可以将“萤火虫”替换为标签<Song>;而在电影类的模式中,可以将“萤火虫”替换为标签<Film>。替换之后,继续依次匹配“王”字和“菲”字。最后,在匹配“菲”字时,只在音乐类的词典中找到,而且结合音乐类的现有模式,可以将“王菲”一词替换为标签<Singer>。至此,匹配并替换之后得到“MP3<Song><Singer>”,现有的模式中存在这种模式,因此最后得到可以推测出用户的搜索意图是希望找到王菲演唱的萤火虫这首歌。
上述在线匹配过程中,虽然“萤火虫”一词也可能在昆虫类的词典中出现,但是昆虫类是较冷门的分类,匹配时不会考虑,即不会把“萤火虫”与昆虫类的词典进行匹配。因此,实际应用中,出现多个匹配结果的可能性非常低,可以忽略不计。
综上所述,由图6可知,通过匹配识别搜索意图的过程中,将用户输入的搜索字符串与特定领域的关系数据、意图词及模式的匹配过程是一个自动一体化的过程,通过自左至右的逐个匹配,如果能全部匹配上,则原始输入的搜索字符串被改写为一个由意图词和标签,或者仅由标签构成的字符串,此时该搜索字符串已成为一个模式,因为如果有匹配不上的部分,则不属于模式的范畴,所以当匹配结束时,就已经确定出该搜索字符串是不是与预生成的模式相匹配。
在线匹配的详细处理流程如图7所示。
参照图7,是本申请实施例所述在线搜索的流程图。
步骤701,接收实时搜索字符串;
所述实时搜索字符串即为用户在搜索框中输入的查询信息;
步骤702,将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;
具体的,所述词典中的第一类词可以是模式中的意图词,所述词典中的第二类词可以是关系数据中的元数据。
优选的,可以将所述实时搜索字符串从左至右顺次与预生成的词典进行完全匹配,匹配过程中无需对实时搜索字符串进行分词,而是以单个词为单位顺次匹配。所述完全匹配是指实时搜索字符串中的所有内容均与词典中的意图词或原数据匹配,没有不匹配的部分。这种完全匹配策略可以使搜索意图的识别准确度更高。当然,在准确度要求不高的情况下,也可以采用部分匹配或权值匹配等方法。此外,本实施例中,由于生成的模式中各个元素有先后顺序之分,如“<Song><Singer>”和“<Singer><Song>”是两个模式,所以所述匹配还有顺序的要求(从左至右)。当然,如果模式中的元素没有顺序之分,如将上述两个模式合并为一个模式,则匹配时也无需要求搜索字符串中各部分的顺序与模式中各元素的顺序一致。
步骤703,如果所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上,则将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;
例如,搜索字符串“萤火虫王菲MP3下载”与元数据中的歌曲名“萤火虫”和歌手名“王菲”相匹配,则使用标签替换该字符串为“<Song><Singer>MP3下载”。
步骤704,依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。
其中,依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,具体可以理解为:
如果匹配完成后的实时搜索字符串由第二类词(元数据)所属类别的标签组成,和/或,由第一类词(意图词)和第二类词(元数据)所属类别的标签组成,则所述匹配完成后的实时搜索字符串与预生成的某个模式相匹配,所述匹配完成后的实时搜索字符串具有该模式表示的特定搜索意图。
例如,搜索字符串“萤火虫王菲MP3下载”与元数据中的歌曲名“萤火虫”和歌手名“王菲”,以及意图词“MP3下载”依次相匹配,因此搜索字符串“萤火虫王菲MP3下载”与模式“<Song><Singer>MP3下载”相匹配,进而识别出该搜索字符串表示的搜索意图是“下载王菲演唱的萤火虫这首歌”。相反的,如果搜索字符串是“萤火虫王菲免费”,而预生成的模式中没有“<Song><Singer>免费”这样的模式,那么该搜索字符串就与模式不匹配。
此外,步骤704中依据所述的特定搜索意图返回搜索结果数据,具体可以理解为:
将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回。而且,所述的特定结果数据可以包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。
例如,假设特定结果数据是“王菲”演唱的“萤火虫”这首歌,那么就把这首歌的一些相关信息放在返回首页的第一位。所述相关信息如歌曲名、歌手名、专辑名、歌词、文件大小等信息,每个信息都是一个元数据,这些元数据之间具有关联关系。而且,每个元数据都可以做成链接的形式,点击链接,即可进入相应的详情页面。这种展现方式给出的搜索结果更加精准、给出的与结果相关的信息更加丰富,方便了用户操作。
下面通过举例说明搜索结果数据的展现形式。
例1,参照图8.1所示,搜索关键词是“萤火虫”,返回的结果页面中第一条数据如图8.1中左侧的显示内容,若继续点击歌曲名“萤火虫”的链接,则打开如右侧显示的详情页。其中,“歌曲名”链至音乐详情页,与旁边的“免费下载”链接指向同一个音乐资源。
需要说明的是,图中左侧未显示出排在第一条数据之后的其他搜索结果数据。
例2,参照图8.2所示,继续例1,若继续点击歌手名“王菲”的链接,则链至相关搜索结果页面如图8.2的右侧显示。
例3,参照图8.3所示,继续例1,点击歌曲名“萤火虫”的链接,打开如右侧上面显示的详情页;点击歌词的链接,打开如右侧下面显示的歌词页。此时,点击“歌词链接”等同于在歌词页中搜索“萤火虫王菲”。
例4,参照图8.4所示,继续例1,若直接点击“免费下载”,则链接至的音乐下载提示页如图8.4所示。
上述实施例是以音乐领域的搜索为例进行说明,但具体应用中也可以应用到其他特定领域的搜索中,其实施原理与上述实施例相似,故不再赘述。
综上所述,对于搜索引擎系统,目前评价这些搜索引擎系统一般从以下三方面考虑:
第一,实时响应速度:一个实时响应速度很高的搜索引擎系统每秒可以处理万级以上的查询;
第二,正确率:也即精度,精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。一个精度很高的搜索引擎系统需要识别用户真正的查询意图,否则会严重损害用户的搜索体验;
第三,召回率:召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。用户的背景千差万别,对于特定搜索意图的查询表达也往往不一样,因此一个召回率较高的搜索引擎系统需要自动识别出不同表现形式的特定查询意图。
但是,在平衡以上三点的过程中,现有技术中的很多搜素引擎系统都未能做到尽善尽美,尤其是在正确率和召回率上还很欠缺。
而本申请实施例可准确识别搜索字符串中每个部分的特定意图,进而精准确定该搜索字符串的搜索意图,显著提高搜索精度。提供更加精确的搜索结果数据。而且,本申请实施例还可确保自动识别用户特定搜索意图的三个条件,即:很高的实时响应速度、很高的正确率以及较高的召回率。
例如,用户输入“萤火虫”进行搜索,使用本申请实施例所述方法,由于离线生成的模式是根据大量的历史搜索数据统计生成,因此会将“萤火虫”识别为音乐类而且是王菲演唱的歌曲,并将该歌曲的相关信息展现在结果页面的第一位。再如,用户输入“萤火虫王菲MP3下载”,本申请会快速识别出每个关键词的搜索意图,会将“萤火虫”定位为歌曲名,将“王菲”定位为歌手名,将“MP3下载”定位为模式中的意图词。因此,与现有技术相比,本申请的识别准确度更高。
需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
基于上述方法实施例的说明,本申请还提供了相应的搜索装置实施例。
参照图9,是本申请实施例所述一种搜索装置的结构图。
所述搜索装置可以包括输入模块10、实时匹配模块20、替换模块30和实时输出模块40,其中:
输入模块10,用于接收实时搜索字符串;
实时匹配模块20,用于将所述实时搜索字符串与预生成的词典进行匹配,所述词典是第一类词和第二类词的集合;
替换模块30,用于当所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上时,将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分;
实时输出模块40,用于依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所述的特定搜索意图返回搜索结果数据。
其中,所述预生成的模式可以由元数据类别的标签组成,和/或由意图词和元数据类别的标签组成。
相应的,所述词典中的第一类词可以是所述模式中的意图词,所述词典中的第二类词可以是关系数据中的元数据。
优选的,在本申请的另一装置实施例中,参照图10所示,所述装置还可以包括:模式生成模块50,所述模式生成模块50具体包括:
替换子模块,用于将历史搜索数据中的历史搜索字符串依次与关系数据中的元数据进行匹配,如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;
统计子模块,用于统计匹配完成后的历史搜索字符串出现的频次,并基于该统计的频次进行排序,将频次超过阈值的匹配完成后的历史搜索字符串作为模式。
优选的,所述实时匹配模块20可以将所述实时搜索字符串从左至右顺次与预生成的词典进行完全匹配。
其中,所述实时输出模块40中,依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,可以理解为:如果匹配完成后的实时搜索字符串由第二类词所属类别的标签组成,和/或,由第一类词和第二类词所属类别的标签组成,则所述匹配完成后的实时搜索字符串与预生成的某个模式相匹配,所述匹配完成后的实时搜索字符串具有该模式表示的特定搜索意图。
所述实时输出模块40中,依据所述的特定搜索意图返回搜索结果数据,进一步可以理解为:将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回。
并且,可选的,所述的特定结果数据包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。
基于上述搜索装置实施例的内容,本申请还提供了一种搜索引擎系统的实施例。在该实施例中,所述搜索引擎系统包含上述任一实施例所述的搜索装置。
对于上述的搜索装置和搜索引擎系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请各个实施例所述的内容均适用于搜素领域,尤其适用于全网搜索和移动搜索领域。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,上文中的“和/或”表示本文既包含了“和”的关系,也包含了“或”的关系,其中:如果方案A与方案B是“和”的关系,则表示某实施例中可以同时包括方案A和方案B;如果方案A与方案B是“或”的关系,则表示某实施例中可以单独包括方案A,或者单独包括方案B。
以上对本申请所提供的一种搜索方法、搜索装置及一种搜索引擎系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种搜索方法,其特征在于,包括:
接收实时搜索字符串;
如果所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上,则将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分,所述词典是第一类词和第二类词的集合;
如果匹配完成后的实时搜索字符串由第二类词所属类别的标签组成,和/或,由第一类词和第二类词所属类别的标签组成,则所述匹配完成后的实时搜索字符串与预生成的某个模式相匹配,所述匹配完成后的实时搜索字符串具有该模式表示的特定搜索意图;并
依据所述的特定搜索意图返回搜索结果数据。
2.根据权利要求1所述的方法,其特征在于,还包括预生成模式的步骤:
将历史搜索数据中的历史搜索字符串依次与关系数据中的元数据进行匹配;
如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;
统计匹配完成后的历史搜索字符串出现的频次;
基于统计的频次将匹配完成后的历史搜索字符串作为模式。
3.根据权利要求2所述的方法,其特征在于,基于统计的频次将匹配完成后的历史搜索字符串作为模式,包括:
基于该统计的频次对匹配完成后的历史搜索字符串进行排序;
将频次超过阈值的匹配完成后的历史搜索字符串作为模式。
4.根据权利要求2所述的方法,其特征在于,所述关系数据包括特定领域的采用关系型数据结构的数据。
5.根据权利要求4所述的方法,其特征在于,所述特定领域至少包括:新闻、图片、视频、地图、音乐。
6.根据权利要求1至3任一所述的方法,其特征在于,依据所述的特定搜索意图返回搜索结果数据,包括:
将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回,其中,所述的特定结果数据包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。
7.根据权利要求2所述的方法,其特征在于:
所述预生成的模式由元数据类别的标签组成,和/或由意图词和元数据类别的标签组成;
所述词典中的第一类词是所述模式中的意图词;
所述词典中的第二类词是关系数据中的元数据。
8.一种搜索装置,其特征在于,包括:
输入模块,用于接收实时搜索字符串;
替换模块,用于当所述实时搜索字符串中的某部分与词典中的某个类别的第二类词匹配上时,将该部分替换为所述第二类词所属类别的标签,匹配完成后的实时搜索字符串包含第一类词和/或第二类词所属类别的标签和/或未匹配上的部分,所述词典是第一类词和第二类词的集合;
实时输出模块,用于如果匹配完成后的实时搜索字符串由第二类词所属类别的标签组成,和/或,由第一类词和第二类词所属类别的标签组成,则所述匹配完成后的实时搜索字符串与预生成的某个模式相匹配,所述匹配完成后的实时搜索字符串具有该模式表示的特定搜索意图;并依据所述的特定搜索意图返回搜索结果数据。
9.根据权利要求8所述的装置,其特征在于,还包括:模式生成模块,具体包括:
替换子模块,用于将历史搜索数据中的历史搜索字符串依次与关系数据中的元数据进行匹配,如果历史搜索字符串中的某部分与某个类别的元数据匹配上,则将该部分替换为所述元数据类别的标签;
统计子模块,用于
统计匹配完成后的历史搜索字符串出现的频次;基于统计的频次将匹配完成后的历史搜索字符串作为模式。
10.根据权利要求9所述的装置,其特征在于,
所述统计子模块,用于基于该统计的频次对匹配完成后的历史搜索字符串进行排序,将频次超过阈值的匹配完成后的历史搜索字符串作为模式。
11.根据权利要求9所述的装置,其特征在于,所述关系数据包括特定领域的采用关系型数据结构的数据。
12.根据权利要求11所述的装置,其特征在于,所述特定领域至少包括:新闻、图片、视频、地图、音乐。
13.根据权利要求8至10任一所述的装置,其特征在于,
所述实时输出模块,用于将与所述的特定搜索意图相对应的特定结果数据排在所有搜索结果数据的第一位返回,其中,所述的特定结果数据包括多个相关联的元数据信息,点击每个元数据信息的链接可进入相应的详情页面。
14.根据权利要求13所述的装置,其特征在于,所述预生成的模式由元数据类别的标签组成,和/或由意图词和元数据类别的标签组成;
所述词典中的第一类词是所述模式中的意图词;
所述词典中的第二类词是关系数据中的元数据。
15.一种搜索引擎系统,其特征在于,包括:如权利要求8至14任一权利要求所述的搜索装置。
CN201610311962.8A 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统 Active CN105956137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610311962.8A CN105956137B (zh) 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110361975.3A CN103106220B (zh) 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统
CN201610311962.8A CN105956137B (zh) 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201110361975.3A Division CN103106220B (zh) 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统

Publications (2)

Publication Number Publication Date
CN105956137A CN105956137A (zh) 2016-09-21
CN105956137B true CN105956137B (zh) 2019-10-01

Family

ID=47594974

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201110361975.3A Active CN103106220B (zh) 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统
CN201610311962.8A Active CN105956137B (zh) 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201110361975.3A Active CN103106220B (zh) 2011-11-15 2011-11-15 一种搜索方法、搜索装置及一种搜索引擎系统

Country Status (7)

Country Link
US (2) US8959080B2 (zh)
EP (1) EP2780837A1 (zh)
JP (2) JP6006327B2 (zh)
CN (2) CN103106220B (zh)
HK (1) HK1181132A1 (zh)
TW (1) TW201319842A (zh)
WO (1) WO2013074685A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544266B (zh) * 2013-10-16 2017-05-31 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置
US9418103B2 (en) * 2013-12-06 2016-08-16 Quixey, Inc. Techniques for reformulating search queries
CN105446982A (zh) * 2014-06-30 2016-03-30 国际商业机器公司 用于管理数据存储系统的方法和装置
CN104462575B (zh) * 2014-12-29 2019-03-08 北京奇虎科技有限公司 音乐综合搜索的实现方法和装置
CN105138535A (zh) * 2015-06-30 2015-12-09 百度在线网络技术(北京)有限公司 一种搜索结果的展示方法及装置
CN104991943A (zh) * 2015-07-10 2015-10-21 百度在线网络技术(北京)有限公司 音乐搜索方法及装置
GB2567390B (en) * 2016-09-02 2021-10-06 Hitachi High Tech Corp Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary
US11170005B2 (en) * 2016-10-04 2021-11-09 Verizon Media Inc. Online ranking of queries for sponsored search
CN106446235B (zh) * 2016-10-10 2021-04-06 Tcl科技集团股份有限公司 视频的搜索方法和装置
TWI645303B (zh) * 2016-12-21 2018-12-21 財團法人工業技術研究院 字串驗證方法、字串擴充方法與驗證模型訓練方法
CN106844482B (zh) * 2016-12-23 2021-01-29 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN106933947B (zh) * 2017-01-20 2018-12-04 北京三快在线科技有限公司 一种搜索方法及装置、电子设备
CN107480162B (zh) * 2017-06-15 2021-09-21 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
CN107256267B (zh) 2017-06-19 2020-07-24 北京百度网讯科技有限公司 查询方法和装置
CN107704525A (zh) * 2017-09-04 2018-02-16 优酷网络技术(北京)有限公司 视频搜索方法和装置
CN110472058B (zh) * 2018-05-09 2023-03-03 华为技术有限公司 实体搜索方法、相关设备及计算机存储介质
US10585922B2 (en) 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words
US11379487B2 (en) 2018-08-27 2022-07-05 International Business Machines Corporation Intelligent and interactive knowledge system
CN109543016A (zh) * 2018-11-15 2019-03-29 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109902149B (zh) * 2019-02-21 2021-08-13 北京百度网讯科技有限公司 查询处理方法和装置、计算机可读介质
CN110162535B (zh) * 2019-03-26 2023-11-07 腾讯科技(深圳)有限公司 用于执行个性化的搜索方法、装置、设备以及存储介质
CN109977294B (zh) * 2019-04-03 2020-04-28 三角兽(北京)科技有限公司 信息/查询处理装置、查询处理/文本查询方法、存储介质
CN110489032B (zh) * 2019-08-14 2021-08-24 掌阅科技股份有限公司 用于电子书的词典查询方法及电子设备
CN111090771B (zh) * 2019-10-31 2023-08-25 腾讯音乐娱乐科技(深圳)有限公司 歌曲搜索方法、装置及计算机存储介质
CN111782962B (zh) * 2020-09-04 2021-01-12 浙江口碑网络技术有限公司 模式匹配方法、装置及电子设备
CN112182321B (zh) * 2020-09-28 2023-12-15 严永存 一种基于地图技术的互联网信息发布搜索方法
CN112163104B (zh) * 2020-09-29 2022-04-15 北京字跳网络技术有限公司 搜索目标内容的方法、装置、电子设备及存储介质
CN112434072B (zh) * 2021-01-27 2021-04-30 浙江口碑网络技术有限公司 搜索方法、装置、电子设备及存储介质
CN112965992B (zh) * 2021-03-22 2023-08-15 三门核电有限公司 多参数约束数据检索人机交互方法及装置
US20220398251A1 (en) * 2021-06-14 2022-12-15 Bank Of America Corporation Data processing system and method for implementing a search engine based on detecting intent from a search string
CN113312523B (zh) * 2021-07-30 2021-12-14 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器
CN117493641B (zh) * 2024-01-02 2024-03-22 中国电子科技集团公司第二十八研究所 一种基于语义元数据的二次模糊搜索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145153A (zh) * 2006-09-13 2008-03-19 阿里巴巴公司 一种搜索信息的方法及系统
CN101770499A (zh) * 2009-01-07 2010-07-07 上海聚力传媒技术有限公司 搜索引擎中的信息检索方法及相应搜索引擎
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102214208A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种基于非结构化文本生成结构化信息实体的方法与设备

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999063425A1 (fr) * 1998-06-02 1999-12-09 Sony Corporation Procede et appareil de traitement d'informations et support de fourniture d'informations
JP2002288201A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 質問応答処理方法,質問応答処理プログラム,質問応答処理プログラム記録媒体および質問応答処理装置
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
JP2003108584A (ja) * 2001-09-28 2003-04-11 Casio Comput Co Ltd 情報検索システム及びプログラム
US7840547B1 (en) * 2004-03-31 2010-11-23 Google Inc. Methods and systems for efficient query rewriting
US7519581B2 (en) * 2004-04-30 2009-04-14 Yahoo! Inc. Method and apparatus for performing a search
US7860875B2 (en) 2004-05-26 2010-12-28 International Business Machines Corporation Method for modifying a query by use of an external system for managing assignment of user and data classifications
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7401073B2 (en) 2005-04-28 2008-07-15 International Business Machines Corporation Term-statistics modification for category-based search
US7844599B2 (en) 2005-08-24 2010-11-30 Yahoo! Inc. Biasing queries to determine suggested queries
US8676868B2 (en) * 2006-08-04 2014-03-18 Chacha Search, Inc Macro programming for resources
US7860886B2 (en) * 2006-09-29 2010-12-28 A9.Com, Inc. Strategy for providing query results based on analysis of user intent
US8010529B2 (en) * 2006-10-23 2011-08-30 Yahoo! Inc. System and method for determining a relationship between available content and current interests to identify a need for content
US20080313142A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Categorization of queries
US20090094224A1 (en) * 2007-10-05 2009-04-09 Google Inc. Collaborative search results
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
US8041733B2 (en) * 2008-10-14 2011-10-18 Yahoo! Inc. System for automatically categorizing queries
US20100094826A1 (en) * 2008-10-14 2010-04-15 Omid Rouhani-Kalleh System for resolving entities in text into real world objects using context
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search
CN101770498A (zh) * 2009-01-05 2010-07-07 李铭 分步搜索法
US8745076B2 (en) * 2009-01-13 2014-06-03 Red Hat, Inc. Structured query language syntax rewriting
US8533181B2 (en) * 2009-04-29 2013-09-10 Oracle International Corporation Partition pruning via query rewrite
US20100299342A1 (en) 2009-05-22 2010-11-25 Nbc Universal, Inc. System and method for modification in computerized searching
US8161035B2 (en) * 2009-06-04 2012-04-17 Oracle International Corporation Query optimization by specifying path-based predicate evaluation in a path-based query operator
US9405841B2 (en) 2009-10-15 2016-08-02 A9.Com, Inc. Dynamic search suggestion and category specific completion
WO2011079415A1 (en) 2009-12-30 2011-07-07 Google Inc. Generating related input suggestions
US8719246B2 (en) 2010-06-28 2014-05-06 Microsoft Corporation Generating and presenting a suggested search query
US20120117102A1 (en) * 2010-11-04 2012-05-10 Microsoft Corporation Query suggestions using replacement substitutions and an advanced query syntax
US8219575B2 (en) * 2010-11-12 2012-07-10 Business Objects Software Ltd. Method and system for specifying, preparing and using parameterized database queries
US8515986B2 (en) * 2010-12-02 2013-08-20 Microsoft Corporation Query pattern generation for answers coverage expansion
US8799312B2 (en) * 2010-12-23 2014-08-05 Microsoft Corporation Efficient label acquisition for query rewriting
US20120179705A1 (en) * 2011-01-11 2012-07-12 Microsoft Corporation Query reformulation in association with a search box
US8667007B2 (en) * 2011-05-26 2014-03-04 International Business Machines Corporation Hybrid and iterative keyword and category search technique
US20130086509A1 (en) 2011-09-29 2013-04-04 Microsoft Corporation Alternative query suggestions by dropping query terms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145153A (zh) * 2006-09-13 2008-03-19 阿里巴巴公司 一种搜索信息的方法及系统
CN101770499A (zh) * 2009-01-07 2010-07-07 上海聚力传媒技术有限公司 搜索引擎中的信息检索方法及相应搜索引擎
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102214208A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种基于非结构化文本生成结构化信息实体的方法与设备

Also Published As

Publication number Publication date
JP2014533407A (ja) 2014-12-11
EP2780837A1 (en) 2014-09-24
JP2016201153A (ja) 2016-12-01
US20150161263A1 (en) 2015-06-11
JP6006327B2 (ja) 2016-10-12
TW201319842A (zh) 2013-05-16
CN103106220B (zh) 2016-08-03
CN103106220A (zh) 2013-05-15
HK1181132A1 (zh) 2013-11-01
US9477761B2 (en) 2016-10-25
JP6291001B2 (ja) 2018-03-14
WO2013074685A1 (en) 2013-05-23
US20130124493A1 (en) 2013-05-16
CN105956137A (zh) 2016-09-21
US8959080B2 (en) 2015-02-17

Similar Documents

Publication Publication Date Title
CN105956137B (zh) 一种搜索方法、搜索装置及一种搜索引擎系统
CN103678576B (zh) 基于动态语义分析的全文检索系统
US10552467B2 (en) System and method for language sensitive contextual searching
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
Baysal et al. Correlating social interactions to release history during software evolution
Ramirez et al. ACE: improving search engines via Automatic Concept Extraction
CN103020311A (zh) 一种用户检索词的处理方法及系统
Potey et al. A survey of query log processing techniques and evaluation of web query intent identification
Murata Visualizing the structure of web communities based on data acquired from a search engine
Cetintas et al. Learning from past queries for resource selection
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
Qorina et al. Comparative analysis of the performance of the fasttext and word2vec methods on the semantic similarity query of sirah nabawiyah information retrieval system: A systematic literature review
Dinucă Web structure mining
Buey et al. An approach for automatic query expansion based on NLP and semantics
Brauer et al. RankIE: document retrieval on ranked entity graphs
KR20100068964A (ko) 연관 질의어 추천 장치 및 방법
Muthmann et al. Detecting near-duplicate relations in user generated forum content
WO2019142094A1 (en) System and method for semantic text search
Kale et al. A new suffix tree similarity measure and labeling for web search results clustering
De Virgilio RDFa based annotation of Web pages through keyphrases extraction
Kim et al. Subtopic mining based on head-modifier relation and co-occurrence of intents using web documents
Escudero et al. Obtaining knowledge from the web using fusion and summarization techniques
Budura et al. Deriving expertise profiles from tags
Prakash et al. Design and Implementation of Novel Techniques for Content-Based Ranking of Web Documents
Lee et al. Learning to predict the need of summarization on news articles

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant