CN107885875A - 检索词的同义变换方法、装置及服务器 - Google Patents
检索词的同义变换方法、装置及服务器 Download PDFInfo
- Publication number
- CN107885875A CN107885875A CN201711216118.8A CN201711216118A CN107885875A CN 107885875 A CN107885875 A CN 107885875A CN 201711216118 A CN201711216118 A CN 201711216118A CN 107885875 A CN107885875 A CN 107885875A
- Authority
- CN
- China
- Prior art keywords
- word
- term
- retrieved
- candidate search
- search word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种检索词的同义变换方法、装置及服务器,所述方法包括:获取待检索词,所述待检索词为没有卡片召回的检索词;根据所述待检索词,采用共现分析方法获取候选检索词;计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。本发明实施例通过采用共现分析方法获取候选检索词,然后计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词,能够更好的覆盖长尾检索词,确保变换检索词后的卡片召回率。
Description
技术领域
本发明涉及信息搜索技术领域,具体涉及一种检索词的同义变换方法、装置及服务器。
背景技术
随着信息技术的飞速发展,当今社会进入了信息爆炸的时代,人们越来越多地借助网络来寻找自己需要的信息,因此检索成为人们工作、生活不可或缺的一部分。人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
用户进行检索操作时,服务器根据用户输入的检索词(query)识别出用户需求的实体,并将它的多个相关实体组成带有图片、推荐理由、主题的推荐卡片展示给用户,目的是通过检索词关联的实体知识,为用户提供扩展知识的阅读体验。
在检索操作时,对于很多长尾检索词不能够召回实体卡片,为了解决这一技术问题,传统技术中利用检索词同义变换技术将无卡片召回的检索词变换到主意图相同且有卡片召回的检索词上。例如,通过为检索词配置模板,将命中模板的同义检索词变换为目标检索词,或者通过同义词替换的方式,提取出检索词的特征词与中心词,再通过特征词库与同义词库得到检索词的变换规则。但是,上述方法的核心都是进行检索词的同义变换,这样会导致产品覆盖较小。
发明内容
本发明实施例提供一种检索词的同义变换方法、装置及服务器,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种检索词的同义变换方法,包括:
获取待检索词,所述待检索词为没有卡片召回的检索词;
根据所述待检索词,采用共现分析方法获取候选检索词;
计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。
结合第一方面,本发明在第一方面的第一实施方式中,采用共现分析方法获取候选检索词,包括:
获取网络日志中的记载的统一资源定位符记录;
获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
结合第一方面的第一实施方式,获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词,包括:
获取所述统一资源定位符记录中曾经被点击打开的,且有卡片召回的检索词,以确定候选检索词;
提取所述网络日志中的网络检索的历史记录。
本发明在第一方面的第二实施方式中,或与第一方面的第一实施方式相结合,采用共现分析方法获取候选检索词,还包括:
获取网络日志中记载的会话中的所有检索词记录;
获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
结合第一方面,本发明在第一方面的第三实施方式中,计算所述候选检索词与所述待检索词的相关性,包括:
计算所述候选检索词与所述待检索词的共现来源和共现频次;
计算所述检索词和所述待检索词的语意相似度;
获取每个所述待检索词的相对于所述检索词的代表度;
根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性。
第二方面,本发明实施例提供了一种检索词的同义变换装置,包括:
第一获取模块,配置为获取待检索词,所述待检索词为没有卡片召回的检索词;
第二获取模块,配置为根据所述待检索词,采用共现分析方法获取候选检索词;
计算模块,配置为计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。
结合第二方面,本发明第二方面的第一实施方式中,所述第二获取模块,包括:
第一获取子模块,配置为获取网络日志中的记载的统一资源定位符记录;
第二获取子模块,配置为获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
结合第二方面的第一实施方式,所述第二获取子模块,包括:
第三获取子模块,配置为获取所述统一资源定位符记录中曾经被点击打开的,且有卡片召回的检索词,以确定候选检索词;
提取子模块,配置为提取所述网络日志中的网络检索的历史记录。
结合第二方面,本发明第二方面的第二实施方式中,所述第二获取子模块,还包括:
第四获取子模块,配置为获取网络日志中记载的会话中的所有检索词记录;
第五获取子模块,配置为获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
结合第二方面,本发明第二方面的第三实施方式中,所述计算模块,包括:
第一计算子模块,配置为计算所述候选检索词的共现来源和共现频次;
第二计算子模块,配置为计算所述检索词和所述待检索词的语意相似度;
第六获取子模块,配置为获取每个所述待检索词的相对于所述检索词的代表度;
第三计算子模块,配置为根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性,以确定所述与所述待检索词对应的变换候选检索词。
第三方面,本发明提供一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权上所述的方法。
第四方面,本发明供一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过采用共现分析方法获取候选检索词,然后计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词,能够更好的覆盖长尾检索词,确保变换检索词后的卡片召回率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例一的一种检索词的同义变换方法的流程图;
图2为本发明实施例二的一种检索词的同义变换方法的流程图;
图3为本发明实施例三的一种检索词的同义变换方法的流程图;
图4为本发明实施例四的一种检索词的同义变换方法的流程图;
图5为本发明实施例五的一种检索词的同义变换装置的示意图;
图6为本发明实施例六的一种服务器的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
实施例一
本发明实施例提供一种检索词的同义变换方法。如图1所示,为本发明实施例的检索词的同义变换方法的流程图。本发明实施例的检索词的同义变换方法,包括如下步骤:
S101,获取待检索词,所述待检索词为没有卡片召回的检索词。
具体地,当用户在检索网站上输入检索词时,基于服务器的检索策略的局限性,并非所有检索词都可以检索到相关信息,这种向用户发送的检索到的相关信息可以称之为卡片,向用户发送应该检索到相关信息这一事件称为有卡片召回,没卡片召回的检索词称为长尾检索词。召回率(Recall Rate)是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。
S102,根据所述待检索词,采用共现分析方法获取候选检索词。
具体地,共现分析是将各种信息载体中的共现信息定理化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意。例如,根据用户的网络日志可以确定其历史访问记录,根据记录中记载的用户曾输入的检索词,分析用户的喜好,这种方法就是共现分析方法。共现分析方法在数据情报领域已广泛使用。
S103,计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。
具体地,可以根据预定公式计算候选检索词与待检索词的相关性,将相关性值最高的作为与所述待检索词对应的变换候选检索词。然后检索变换候选检索词,将根据变换候选检索词检索到的相关信息发送给用户。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过采用共现分析方法获取候选检索词,然后计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词,能够更好的覆盖长尾检索词,确保变换检索词后的卡片召回率。
实施例二
在实施例一的基础上,本发明实施例提供一种检索词的同义变换方法。如图2所示,为本发明实施例的检索词的同义变换方法的流程图。本发明实施例的检索词的同义变换方法,包括如下步骤:
S201,获取待检索词,所述待检索词为没有卡片召回的检索词。
S202,获取网络日志中的记载的统一资源定位符(Uniform Resoure Locator,URL)记录。
具体地,网络日志存储于搜索网站的服务器中。该网络日志记载了所有通过搜索网站进行搜索时的URL记录信息,可以通过URL记录信息中与待检索词相关的记录,确定候选检索词。
S203,获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
这种确定候选检索词的方法为URL共现分析方法,将没有卡片召回的检索词和有卡片召回的检索词通过URL关联,并筛选出没有卡片召回的强关联检索词。例如,在检索界面的会话框中输入“鹜笔画”时,没有卡片召回,然后在URL记录搜索与“鹜笔画”相关的且有卡片召回的检索词,如存在“鹜的笔顺”和“鹜的拼音”,然后将“鹜的笔顺”和“鹜的拼音”作为候选检索词。如表1所示:
表1:
没有卡片召回的检索词 | 候选检索词 |
鹜笔画 | 鹜的笔顺 |
鹜笔画 | 鹜的拼音 |
在本发明实施例的一个变形实施例中,可以仅选择用户曾经点击过的URL链接,因为这类URL链接与待检索词存在强关联关系的概率较大。优选地,步骤S203包括:A,获取所述统一资源定位符记录中曾经被点击打开的,且有卡片召回的检索词,以确定候选检索词;B,提取所述网络日志中的网络检索的历史记录。
S204,计算所述候选检索词与所述待检索词的共现特征,所述共现特征包括共现来源和共现频次。
具体地,在网络日志中拉取候选检索词的集合的同时,获取检索词和候选检索词之间的共现来源和共现频次等特征。
S205,计算所述检索词和所述待检索词的语意相似度。
具体地,提取检索词的语意特征,并计算检索词和候选检索词和语意相似度。计算语意相似度可以采用传统技术中的算法。在此不再赘述。对于相似度的举例如表2所示:
表2:
没有卡片召回的检索词 | 候选检索词 | 语意相似度 |
“年”的来历 | 年的来历 | 1.96066 |
“年”的来历 | 年的来历和传说 | 1028128 |
“年”的来历 | 年的来历20字 | 1014219 |
“年”的来历 | 年的来历50字 | 1.24749 |
S206,获取每个所述待检索词的相对于所述检索词的代表度。
具体地,为向用户推荐实体卡片,需要计算检索词的相关实体。假设所有候选检索词都和用户输入的检索词有明显的相关性,这些候选词的实体集合交集部分在很多概率上都与检索词相关。因此计算出每个候选检索词在候选检索词集合中同所有其他候选检索词的杰卡德距离(Jaccard Distance)(也称QE代表度)。设n个候选检索词为:tq1、tq2、tq3、tq4……tqn,对于每个候选检索词的QE代表度计算公式如下:
其中,设当前候选检索词为tqk,Stqk为QE代表度,i,n为正整数。
例如,用户输入的检索词为“16款川崎z1000”,候选检索词为“2016款川崎z1000”、“16款川崎z1000图片”和“川崎16款z1000参数”。计算出的QE代表度如表3所示:
表3:
没有卡片召回的检索词 | 候选检索词 | QE代表度 |
16款川崎z1000 | 2016款川崎z1000 | 3.243182 |
16款川崎z1000 | 16款川崎z1000图片 | 3.20994 |
16款川崎z1000 | 川崎16款z1000参数 | 3.650998 |
S207,根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性。
获取上述的三个特征后,可以通过一线性模型计算候选检索词与检索词的相关性,选择相关性最高且符合相关性要求的候选检索词作为变换候选检索词。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过采用URL共现分析方法获取候选检索词,然后计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词,能够更好的覆盖长尾检索词,确保变换检索词后的卡片召回率。
实施例三
在实施例一的基础上,本发明实施例提供一种检索词的同义变换方法。如图3所示,为本发明实施例的检索词的同义变换方法的流程图。本发明实施例的检索词的同义变换方法,包括如下步骤:
S301,获取待检索词,所述待检索词为没有卡片召回的检索词。
S302,获取网络日志中记载的会话中的所有检索词记录。
具体地,网络日志中记载了所有会话(session)中输入的检索词,由于热门话题复现率较高,因此可以根据会话中的所有历史检索词来确定候选检索词。
S303,获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
具体地,根据历史检索词出现次数,按照出现次数对历史检索词进行排序,出现次数多于预设次数的,例如出现次数大于三次的可以认为是高频共现的检索词,作为候选检索词。例如,在会话框中输出“16款川崎z1000”,没有卡片召回,历史检索词中出现三次以上的检索词包括“2016款川崎z1000”、“16款川崎z1000图片”和“川崎16款z1000参数”。因此,可将地这三个词作为候选检索词。如表4所示:
表4:
没有卡片召回的检索词 | 候选检索词 |
16款川崎z1000 | 2016款川崎z1000 |
16款川崎z1000 | 16款川崎z1000图片 |
16款川崎z1000 | 川崎16款z1000参数 |
S304,计算所述候选检索词与所述待检索词的共现来源和共现频次。
S305,计算所述检索词和所述待检索词的语意相似度;
S306,获取每个所述待检索词的相对于所述检索词的代表度;
S307,根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过采用会话(session)共现分析方法获取候选检索词,然后计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词,能够更好的覆盖长尾检索词,确保变换检索词后的卡片召回率。
实施例四
在实施例一的基础上,本发明实施例提供一种检索词的同义变换方法。如图4所示,为本发明实施例的检索词的同义变换方法的流程图。本发明实施例的检索词的同义变换方法,包括如下步骤:
S401,获取待检索词,所述待检索词为没有卡片召回的检索词。
S402,获取网络日志中的记载的统一资源定位符记录。
S403,获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
具体地,步骤S402包括:A,获取所述用户的网络日志;B,提取所述网络日志中的网络检索的历史记录。
S404,获取网络日志中记载的会话中的所有检索词记录。
S405,获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
S406,计算所述候选检索词的共现特征,所述共现特征包括共现来源和共现频次。
具体地,在网络日志中拉取候选检索词的集合的同时,获取检索词和候选检索词之间的共现来源和共现频次等特征。
S407,计算所述检索词和所述待检索词的语意相似度。
S408,获取每个所述待检索词的相对于所述检索词的代表度。
S409,根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性,以确定所述与所述待检索词对应的变换候选检索词。
本实施例结合如图2和图3所示的实施例进行实施。这样所得到的候选检索词将更加全面,对于长尾检索词的覆盖率更高。
实施例五
本发明实施例提供一种检索词的同义变换装置。如图5所示,为本发明实施例的检索词的同义变换装置的示意图。本发明实施例的检索词的同义变换装置,包括:
第一获取模块51,配置为获取待检索词,所述待检索词为没有卡片召回的检索词;
第二获取模块52,配置为根据所述待检索词,采用共现分析方法获取候选检索词;
计算模块53,配置为计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。
进一步地,所述第二获取模块52,包括:
第一获取子模块521,配置为获取网络日志中的记载的统一资源定位符记录;
第二获取子模块522,配置为获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
进一步地,所述第二获取子模块321,包括:
第三获取子模块(图中未示出),配置为获取所述统一资源定位符记录中曾经被点击打开的,且有卡片召回的检索词,以确定候选检索词;
提取子模块(图中未示出),配置为提取所述网络日志中的网络检索的历史记录。
进一步地,所述第二获取子模块522,还包括:
第四获取子模块(图中未示出),配置为获取网络日志中记载的会话中的所有检索词记录;
第五获取子模块(图中未示出),配置为获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
进一步地,所述计算模块53,包括:
第一计算子模块521,配置为计算所述候选检索词的共现来源和共现频次;
第二计算子模块522,配置为计算所述检索词和所述待检索词的语意相似度;
第六获取子模块523,配置为获取每个所述待检索词的相对于所述检索词的代表度;
第三计算子模块524,配置为根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性,以确定所述与所述待检索词对应的变换候选检索词。
本发明检索词的同义变换装置,能够实现更好的覆盖长尾检索词的技术效果与实施例一的技术效果一致,在此不再赘述。
实施例六
本发明实施例六提供一种信息分类设备,如图6所示,该设备包括:存储器61和处理器62,存储器61内存储有可在处理器62上运行的计算机程序。处理器62执行所述计算机程序时实现上述实施例中的信息分类方法。存储器61和处理器62的数量可以为一个或多个。
该设备还包括:
通信接口63,用于存储器61和处理器62与外部设备之间的通信。
存储器61可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器61、处理器62和通信接口63独立实现,则存储器61、处理器62和通信接口63可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器61、处理器62及通信接口63集成在一块芯片上,则存储器61、处理器62及通信接口63可以通过内部接口完成相互间的通信。
实施例七
一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如图1至4中任一实施例所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种检索词的同义变换方法,其特征在于,所述方法包括:
获取待检索词,所述待检索词为没有卡片召回的检索词;
根据所述待检索词,采用共现分析方法获取候选检索词;
计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。
2.根据权利要求1所述的方法,其特征在于,采用共现分析方法获取候选检索词,包括:
获取网络日志中的记载的统一资源定位符记录;
获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
3.根据权利要求2所述的方法,其特征在于,获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词,包括:
获取所述统一资源定位符记录中曾经被点击打开过的,且有卡片召回的检索词,以确定候选检索词;
提取所述网络日志中的网络检索的历史记录。
4.根据权利要求1或2所述的方法,其特征在于,采用共现分析方法获取候选检索词,包括:
获取网络日志中记载的会话中的所有检索词记录;
获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
5.根据权利要求1所述的方法,其特征在于,计算所述候选检索词与所述待检索词的相关性,包括:
计算所述候选检索词与所述待检索词的共现特征,所述共现特征包括共现来源和共现频次;
计算所述检索词和所述待检索词的语意相似度;
获取每个所述待检索词的相对于所述检索词的代表度;
根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性。
6.一种检索词的同义变换装置,其特征在于,包括:
第一获取模块,配置为获取待检索词,所述待检索词为没有卡片召回的检索词;
第二获取模块,配置为根据所述待检索词,采用共现分析方法获取候选检索词;
计算模块,配置为计算所述候选检索词与所述待检索词的相关性,根据所述相关性确定与所述待检索词对应的变换候选检索词。
7.根据权利要求6所述的装置,其特征在于,所述第二获取模块,包括:
第一获取子模块,配置为获取网络日志中的记载的统一资源定位符记录;
第二获取子模块,配置为获取所述统一资源定位符记录中与所述待检索词相关的且有卡片召回的检索词,以确定候选检索词。
8.根据权利要求7所述的装置,其特征在于,所述第二获取子模块,包括:
第三获取子模块,配置为获取所述统一资源定位符记录中曾经被点击打开的,且有卡片召回的检索词,以确定候选检索词;
提取子模块,配置为提取所述网络日志中的网络检索的历史记录。
9.根据权利要求6或7所述的装置,其特征在于,所述第二获取子模块,还包括:
第四获取子模块,配置为获取网络日志中记载的会话中的所有检索词记录;
第五获取子模块,配置为获取所述所有检索词记录中的高频共现的检索词作为候选检索词。
10.根据权利要求6所述的装置,其特征在于,所述计算模块,包括:
第一计算子模块,配置为计算所述候选检索词与所述待检索词的共现特征,所述共现特征包括共现来源和共现频次;
第二计算子模块,配置为计算所述检索词和所述待检索词的语意相似度;
第六获取子模块,配置为获取每个所述待检索词的相对于所述检索词的代表度;
第三计算子模块,配置为根据所述共现来源和共现频次、所述语意相似度和所述代表度,计算所述候选检索词与所述检索词的相关性,以确定所述与所述待检索词对应的变换候选检索词。
11.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711216118.8A CN107885875B (zh) | 2017-11-28 | 2017-11-28 | 检索词的同义变换方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711216118.8A CN107885875B (zh) | 2017-11-28 | 2017-11-28 | 检索词的同义变换方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885875A true CN107885875A (zh) | 2018-04-06 |
CN107885875B CN107885875B (zh) | 2022-07-08 |
Family
ID=61775771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711216118.8A Active CN107885875B (zh) | 2017-11-28 | 2017-11-28 | 检索词的同义变换方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107885875B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
CN110889050A (zh) * | 2018-09-07 | 2020-03-17 | 北京搜狗科技发展有限公司 | 一种泛品牌词的挖掘方法及装置 |
CN111353016A (zh) * | 2018-12-24 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 文本处理方法及装置 |
CN113486071A (zh) * | 2021-07-27 | 2021-10-08 | 掌阅科技股份有限公司 | 基于电子书的搜索方法、服务端、客户端及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
CN102609433A (zh) * | 2011-12-16 | 2012-07-25 | 北京大学 | 基于用户日志进行查询推荐的方法及系统 |
CN102855252A (zh) * | 2011-06-30 | 2013-01-02 | 北京百度网讯科技有限公司 | 一种基于需求的数据检索方法和装置 |
CN103049443A (zh) * | 2011-10-12 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种挖掘热点词的方法与装置 |
CN103106189A (zh) * | 2011-11-11 | 2013-05-15 | 北京百度网讯科技有限公司 | 一种挖掘同义属性词的方法和装置 |
US8589429B1 (en) * | 2011-07-11 | 2013-11-19 | Amazon Technologies, Inc. | System and method for providing query recommendations based on search activity of a user base |
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN103577416A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 扩展查询方法及系统 |
CN105095433A (zh) * | 2015-07-22 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 实体推荐方法及装置 |
US20170068683A1 (en) * | 2015-09-04 | 2017-03-09 | Google Inc. | Context based instant search suggestions |
-
2017
- 2017-11-28 CN CN201711216118.8A patent/CN107885875B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
CN102855252A (zh) * | 2011-06-30 | 2013-01-02 | 北京百度网讯科技有限公司 | 一种基于需求的数据检索方法和装置 |
US8589429B1 (en) * | 2011-07-11 | 2013-11-19 | Amazon Technologies, Inc. | System and method for providing query recommendations based on search activity of a user base |
CN103049443A (zh) * | 2011-10-12 | 2013-04-17 | 腾讯科技(深圳)有限公司 | 一种挖掘热点词的方法与装置 |
CN103106189A (zh) * | 2011-11-11 | 2013-05-15 | 北京百度网讯科技有限公司 | 一种挖掘同义属性词的方法和装置 |
CN102609433A (zh) * | 2011-12-16 | 2012-07-25 | 北京大学 | 基于用户日志进行查询推荐的方法及系统 |
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN103577416A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 扩展查询方法及系统 |
CN105095433A (zh) * | 2015-07-22 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 实体推荐方法及装置 |
US20170068683A1 (en) * | 2015-09-04 | 2017-03-09 | Google Inc. | Context based instant search suggestions |
Non-Patent Citations (6)
Title |
---|
ROI BLANCO等: "Entity Recommendations in Web Search", 《PROCEEDINGS OF THE 12TH INTERNATIONAL SEMANTIC WEB CONFERENCE - PART II》 * |
李亚楠: "基于加权SimRank的中文查询推荐研究", 《中文信息学报》 * |
李亚楠: "搜索引擎查询推荐技术综述", 《中文信息学报》 * |
王继民: "《Web用户查询日志挖掘与应用》", 31 March 2014, 知识产权出版社 * |
翟海军等: "基于线性回归的相关查询推荐", 《高技术通讯》 * |
邱莉榕: "《算法设计与优化》", 30 June 2017, 中央名族大学出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733766A (zh) * | 2018-04-17 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置和可读介质 |
CN110889050A (zh) * | 2018-09-07 | 2020-03-17 | 北京搜狗科技发展有限公司 | 一种泛品牌词的挖掘方法及装置 |
CN111353016A (zh) * | 2018-12-24 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 文本处理方法及装置 |
CN111353016B (zh) * | 2018-12-24 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 文本处理方法及装置 |
CN113486071A (zh) * | 2021-07-27 | 2021-10-08 | 掌阅科技股份有限公司 | 基于电子书的搜索方法、服务端、客户端及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107885875B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bugliarello et al. | Multimodal pretraining unmasked: A meta-analysis and a unified framework of vision-and-language BERTs | |
CN107346336B (zh) | 基于人工智能的信息处理方法和装置 | |
CN107609186A (zh) | 信息处理方法及装置、终端设备及计算机可读存储介质 | |
CN107885875A (zh) | 检索词的同义变换方法、装置及服务器 | |
CN102693272B (zh) | 从统一资源定位符(url)的关键字提取 | |
CN108153876A (zh) | 智能问答方法及系统 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN107506402A (zh) | 搜索结果的排序方法、装置、设备及计算机可读存储介质 | |
CN103400054A (zh) | 计算机辅助心理咨询自动问答机器人系统 | |
WO2014126657A1 (en) | Latent semantic analysis for application in a question answer system | |
US20130006975A1 (en) | System and method for matching entities and synonym group organizer used therein | |
CN103577452A (zh) | 用于丰富网站内容的方法和装置、网站服务器 | |
CN112784063B (zh) | 一种成语知识图谱构建方法及装置 | |
CN116737915B (zh) | 基于知识图谱的语义检索方法、装置、设备及存储介质 | |
CN106844341A (zh) | 基于人工智能的新闻摘要提取方法及装置 | |
CN102968417A (zh) | 一种应用于计算机网络中的搜索方法和系统 | |
US10949452B2 (en) | Constructing content based on multi-sentence compression of source content | |
CN107885873A (zh) | 用于输出信息的方法和装置 | |
CN107958039A (zh) | 一种检索词纠错方法、装置及服务器 | |
CN112836057B (zh) | 知识图谱的生成方法、装置、终端以及存储介质 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
CN103235773B (zh) | 基于关键词的文本的标签提取方法及装置 | |
US20150302088A1 (en) | Method and System for Providing Personalized Content | |
CN109977292A (zh) | 搜索方法、装置、计算设备和计算机可读存储介质 | |
CN110245357A (zh) | 主实体识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |