CN103853722A - 一种基于检索串的关键词扩展方法、装置和系统 - Google Patents

一种基于检索串的关键词扩展方法、装置和系统 Download PDF

Info

Publication number
CN103853722A
CN103853722A CN201210497241.2A CN201210497241A CN103853722A CN 103853722 A CN103853722 A CN 103853722A CN 201210497241 A CN201210497241 A CN 201210497241A CN 103853722 A CN103853722 A CN 103853722A
Authority
CN
China
Prior art keywords
keyword
string
retrieval string
expanded
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210497241.2A
Other languages
English (en)
Other versions
CN103853722B (zh
Inventor
王艳敏
王迪
赫南
张文斌
胡立新
刘小兵
胡景贺
朱建朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210497241.2A priority Critical patent/CN103853722B/zh
Publication of CN103853722A publication Critical patent/CN103853722A/zh
Application granted granted Critical
Publication of CN103853722B publication Critical patent/CN103853722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施方式提出了一种基于检索串的关键词扩展方法、装置和系统。方法包括:设置预设关键词集合,将预设关键词集合中的预设关键词作为模式串,并且将预设关键词集合建为键树;接收检索串,并基于检索串获取网页搜索结果;利用键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的模式串确定基于该检索串的扩展关键词。本发明实施方式丰富了关键词匹配结果,扩展了检索串的关键词,提高了展示内容的全面性。而且,量化了检索串与关键词之间的相似度,保证了展示内容的相关性。

Description

一种基于检索串的关键词扩展方法、装置和系统
技术领域
本发明实施方式涉及信息处理技术领域,更具体地,涉及一种基于检索串的关键词扩展方法、装置和系统。
背景技术
在当今的信息时代中,各种信息设备应运而生:有用于话音传输的固定电话、移动电话;有用于信息资源共享、处理的服务器和个人电脑;有用于视频数据显示的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。随着电子消费、计算机、通信(3C)融合的到来,人们越来越多地将注意力放到了对各个不同领域的信息设备进行综合利用的研究上,以充分利用现有资源设备来为人们更好的服务。
搜索引擎广告就是一种针对信息综合利用的示范性应用。搜索引擎广告也称为关键词广告,是指广告主根据自己的产品或服务的内容、特点等确定关键词,撰写广告内容并自主定价投放在搜索引擎上的广告。当用户搜索的内容与广告主的关键词匹配时,相应的广告就可能会被展示,并在用户点击后按照广告主对该关键词的出价收费。
搜索引擎广告展示的过程概括如下:广告主向搜索引擎广告系统提交有效关键词,连同出价、广告物料(标题、描述)等信息以倒排索引的形式,加载到匹配系统中,匹配系统对用户提交的检索串(query)进行在线分析,找到对应各种匹配类型的关键词;再通过关键词的倒排信息,完成后续的广告拉取、精选、排序等竞价排名过程,最终展示给用户。
然而,现有技术中仅从检索串字面抽取关键词,所获得的关键词数量有限,因此难以保证展示内容的全面性。
而且,现有技术中所提取的关键词与检索串仅局限于文本上的关联,其他语义上相关的关键词很难被找到。从检索串本身抽取出来的关键词往往是检索串的一部分,两者字面上虽然有一定的相关性,然而很难保证意图上的一致。比如从检索串“北京鲜花快递哪里最便宜”里可以找到关键词“最便宜”,但是这两者的意图不完全匹配。如果直接用关键词“最便宜”去查询展示内容,容易展示出与用户本意相差较多的展示内容,从而导致展示内容并不相关。
发明内容
本发明实施方式提出一种基于检索串的关键词扩展方法,从而扩展关键词,提高展示内容的全面性。
本发明实施方式提出一种基于检索串的关键词扩展装置,从而扩展关键词,提高展示内容的全面性。
本发明实施方式提出一种基于检索串的关键词扩展系统,从而扩展关键词,提高展示内容的全面性。
本发明实施方式的具体方案如下:
一种基于检索串的关键词扩展方法,该方法包括:
设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;
接收检索串,并基于所述检索串获取网页搜索结果;
利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
一种基于检索串的关键词扩展装置,该装置包括键树建立单元、搜索结果获取单元和关键词扩展单元,其中:
键树建立单元,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;
搜索结果获取单元,用于接收检索串,并基于所述检索串获取网页搜索结果;
关键词扩展单元,用于利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
一种基于检索串的关键词扩展系统,其特征在于,包括客户端、搜索引擎、关键词扩展装置,其中:
客户端,用于接收检索串,并基于所述检索串向搜索引擎查询网页搜索结果;
搜索引擎,用于向客户端提供对应于检索串的网页搜索结果;
关键词扩展装置,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树,利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
从上述技术方案可以看出,在本发明实施方式中,设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;接收检索串,并基于所述检索串获取网页搜索结果;利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。由此可见,应用本发明实施方式以后,使用搜索结果对原始检索串进行扩充(比如文本扩充和语义扩充),通过模式算法在搜索结果中查找关键词,从而极大地丰富了关键词匹配结果,扩展了检索串的相关关键词,提高了展示内容的全面性。
而且,在本发明实施方式中,利用网页搜索结果表征检索串和关键词的语义特征,结合文本相关性和分类等特征,通过机器学习方法训练得到相似度计算模型,量化了检索串与关键词之间的相似度,从而保证了展示内容的相关性。
另外,可以将本发明实施方式可以应用到各种终端中,可以跨平台跨终端使用本发明实施方式,适用范围非常广泛。
附图说明
图1为根据本发明实施方式的基于检索串的关键词扩展方法流程图;
图2为根据本发明实施方式的关键词扩展示意图;
图3为根据本发明实施方式的关键词与检索串相关性度量示意图;
图4为根据本发明实施方式的关键词扩展以及关键词与检索串相关性度量的示意图;
图5为根据本发明实施方式的逻辑回归模型的训练流程图;
图6为根据本发明实施方式的基于检索串的关键词扩展装置结构图;
图7为根据本发明实施方式的基于检索串的关键词扩展系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在现有技术中,经常涉及到由检索串到关键词的映射,也就是检索串的匹配。现有技术常见的检索串匹配方法主要包括:
(1)从检索串本身匹配关键词,如精确匹配、词组匹配和广泛匹配(这里特指有语素删除的广泛匹配,抽取出的关键词是检索串的一个或几个子串的组合)。例如有广告主提交了如下关键词:
<ABCDEF、ABC、CDE、ACD、CA>(其中A、B、C、D、E、F是单个语素);
当有用户输入检索串ABCDEF,则搜索引擎的广告匹配系统通过精确匹配,可以找到关键词ABCDEF;通过词组匹配,可以找到关键词ABC和CDE;通过广泛匹配,可以找到关键词ACD和CA。
(2)利用特定的分析技术,如word删除、检索串替换(querysubstitution)、纠错、词干抽取、共同点击等方法,对变换后的检索串(query)匹配关键词。例如,检索串替换可以利用会话日志(session log)数据,通过统计方法得到相似检索串或片段(phrase),对检索串进行改写替换,并给出改写后的串和原串之间的相似度衡量。某些情况下,用户在使用搜索引擎的过程中出现拼写错误或不规范的输入,导致没有合适的关键词触发出来,纠错就是针对性地对输入检索串进行修正、改写,正确表达检索意图。
然而,上述方式中都是仅从检索串字面抽出关键词,因此关键词数量有限,从而难于保证展示内容的全面性。而且,通过上述方式所找到的关键词仅仅局限于文本上的关联,很难找到其他语义上相关的关键词,因此容易展示出与用户本意相差较多的展示内容,导致展示内容并不相关。
在本发明实施方式中,可以根据检索串的自然搜索结果,将搜索结果全文,或者预定数目的标题和/或摘要汇集在一起,以作为检索串扩展内容,并从中找出扩展关键词。
图1为根据本发明实施方式的基于检索串的关键词扩展方法流程图。
如图1所示,该方法包括:
步骤101:设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树。
在这里,可以预先设置预设关键词集合,在该预设关键词集合中包含有预设的关键词。比如,在广告搜索引擎应用中,该预设关键词可以具体为广告商预先提供的关键词。可以将预设关键词集合中的预设关键词作为模式串,并且将预设关键词集合建为键树(trie)。
步骤102:接收检索串,并基于所述检索串获取网页搜索结果。
在这里,可以从用户接收检索串,并基于所述检索串获取网页搜索结果。比如,可以由搜索引擎基于该检索串从互联网上爬取对应于检索串的网页搜索结果。
步骤103:利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
在这里,可以根据检索串的自然搜索结果,将网页搜索结果的全文作为检索串扩展内容,从中找出扩展关键词;或者将网页搜索结果中预定数目的标题和/或摘要汇集在一起以作为检索串扩展内容,从中找出扩展关键词。
具体地,网页搜索结果的全文或者网页搜索结果中的预定数目的标题和摘要汇集通常为较长的文本,而从较长的文本中找出关键词,可以将整块内容切词,判断每个语素是否为包含于预设关键词集合中的关键词,如果是作为扩展关键词,不是,则丢弃该语素并继续判断下一个语素。不过,这种方式只能找出单语素(关键词切词后是其自身)的关键词,而预设关键词集合中的关键词(比如:广告系统中的关键词)大部分由多语素组成。
在本发明实施方式中,还可以将单语素组合在一起,如A、B、C组合成ABC,并判断ABC是否为关键词,如果是,则认定找到了多语素的关键词ABC。不过,由于长文本中可能有几百个单语素,通过排列组合的方式进行验证,可能复杂度会较高。
在本发明实施方式中,优选根据多模式匹配算法(比如AC算法)从检索串的扩展知识中抽取出扩展关键词。
下面以AC算法为例对多模式匹配算法从检索串的扩展知识中抽取出扩展关键词进行示范性详细说明。
AC算法即Aho-Corasick算法,是一个经典的多模式匹配算法。对于给定的长度为n的文本,和模式集合P{p1,p2,...pm},可以在O(n)时间复杂度内,找到文本中的所有目标模式,而与模式集合的规模m无关。AC算法的原理是用多模式串建立一个确定性的树形有限状态机,以被抽取串作为该有限状态机的输入,使状态机进行状态转换。当到达某些特定的状态时,说明发生模式匹配,获得的模式串即可确定为基于该检索串的扩展关键词,即找到了扩展关键词。
本发明实施方式中,可以将预设关键词集合中的每个预设关键词作为一个模式串,所有的预设关键词建成一棵键树,检索串及其网页扩展内容作为有限状态机的输入,在状态转换过程中,当匹配到某一个模式时,该模式对应的关键词就是检索串扩展的扩展关键词。
以上虽然以AC算法为实例对本发明实施方式进行了详细描述,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于对本发明实施方式进行限定。
而且,在本发明实施方式中,既可以针对该网页搜索结果执行多模式匹配以获得多个模式串,也可以每次针对该网页搜索结果执行单模式匹配以获得单个模式串。
在一个实施方式中,还可以进一步从所述检索串本身提取扩展关键词,再将所述由模式串确定的基于该检索串的扩展关键词以及从所述检索串本身提取的扩展关键词相聚合,以获得扩展关键词集合。
在一个实施方式中,还可以进一步利用检索串变换(rewrite)方式获取扩展关键词;再将所述由模式串确定的基于该检索串的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
在一个实施方式中,还可以进一步从所述检索串本身提取扩展关键词,以及利用检索串变换方式获取扩展关键词,再将所述由模式串确定的基于该检索串的扩展关键词、从所述检索串本身提取的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
图2为根据本发明实施方式的关键词扩展示意图。
比如,可以利用AC算法从检索串的网页搜索结果中扩展出关键词,这些关键词形成集合E,<e1...en>;再从检索串本身扩展出关键词Z,<z1..zm>;还可以利用检索串变换技术扩展的关键词S,<s1...s>。然后将这三种方式扩展出来的关键词聚合在一起,经过去重,就形成了关键词的最终候选集K,<k1....kt>。
即K=E∪Z∪S,其中,n、m、j为相应方法扩展出的关键词数,t为聚合后关键词总数。
通过本发明实施方式可以找到较多的扩展关键词,从而可以提高展示内容的全面性。
进一步地,为了保证扩展关键词的质量,即保证扩展关键词与搜索串之间的相关性,本发明还可以利用网页搜索结果对检索串和关键词进行语义表示,结合文本相似度和分类相似度等特征,通过机器学习的方法训练出相关性模型,从而实现对关键词匹配质量的量化度量。
图3为根据本发明实施方式的关键词与检索串相关性度量示意图。
由图3可见,在本发明实施方式中,进一步包括:从扩展关键词集合中的扩展关键词和检索串,分别提取至少两个比较特征,所述比较特征包括文本特征、分类特征或语义特征。
然后,基于所述扩展关键词集合中的扩展关键词和检索串的每个比较特征,计算所述扩展关键词集合中的扩展关键词和检索串之间的每个比较特征的相关性;再根据逻辑回归模型对各个比较特征的相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;然后,基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
其中,比较特征具体可以为文本特征、分类特征或语义特征,等等。
在本发明实施方式中,可以由至少两个比较特征来计算扩展关键词和检索串的相关性指标。比如:可以根据文本特征和分类特征来计算扩展关键词和检索串的相关性指标;也可以根据分类特征和语义特征来计算扩展关键词和检索串的相关性指标;还可以根据文本特征和语义特征来计算扩展关键词和检索串的相关性指标,还可以根据文本特征、分类特征和语义特征来计算扩展关键词和检索串的相关性指标。
比如,可以从扩展关键词集合中的扩展关键词和检索串分别提取文本特征、分类特征和语义特征;再基于所述扩展关键词集合中的扩展关键词和检索串的文本特征,计算所述扩展关键词集合中的扩展关键词和检索串的文本相关性;基于所述扩展关键词集合中的扩展关键词和检索串的分类特征,计算所述扩展关键词集合中的扩展关键词和检索串的分类相关性;基于所述扩展关键词集合中的扩展关键词和检索串的语义特征,计算所述扩展关键词集合中的扩展关键词和检索串的语义相关性。
然后,根据逻辑回归模型对所述文本相关性、分类相关性和语义相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标。最后,基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
具体地,本发明实施方式可以使用有监督的机器学习方法,通过训练、评测和对比优化,得到衡量检索串和扩展关键词相关性的逻辑回归模型,并应用到各种工业系统中。其中有两处关键技术:
(1)特征选取:
本发明实施方式可以选用三类特征,包括文本特征、分类特征和语义特征。
文本特征是从检索串和关键词本身的字面相似度进行衡量,主要包括公共子串、共有语素、编辑距离等。
分类特征是检索串和关键词在类别上的重合程度。
语义特征,顾名思义,是跟检索串和关键词的语义相关的。检索串和关键词本身都是短文本,蕴含的语义信息有限,因此需要外部知识的补充。和检索串一样,关键词的语义特征也是从其对应的网页搜索结果中提取出来的。
具体地,获取检索串/关键词的网页搜索结果的预设数目标题和摘要,将这些内容中重要的语素提取出来,形成一个向量,以表示其语义信息,其中重要语素的选取是根据语素本身的重要性和语素在搜索结果中出现的频率来进行的,语素本身越重要、出现的频率越高,越能代表检索串的语义。这样每一对检索串和关键词,都有了代表各自语义的向量,通过向量的余弦相似度,就可以得到检索串和关键词间的语义相似度。
本发明实施方式中,优选的语义特征可以有六个,分别是标题域的语义特征、摘要域的语义特征、标题域和摘要域整合后的语义特征、去掉检索串和关键词共有语素后标题域的语义特征、去掉检索串和关键词的共有语素后摘要域的语义特征及去掉检索串和关键词的共有语素后标题域和摘要域整合后的语义特征。
(2)逻辑回归模型的训练:
基于上述技术(1)确定特征后,就可以进行逻辑回归模型的训练和测试。在训练逻辑回归模型之前,选取出训练数据和测试数据由编辑人员进行标注。标注完毕后,获取标注数据的各个子特征,再利用逻辑回归算法对训练数据进行训练,得到模型各个特征的权重,然后再利用测试数据进行评测,评测效果符合预期则可应用,不符合预期则对特征进行调整后再次训练。
图4为根据本发明实施方式的关键词扩展以及关键词与检索串相关性度量的示意图。图5为根据本发明实施方式的逻辑回归模型的训练流程图。
如图5所示,该方法包括:
步骤501:确定所使用的逻辑回归模型及其特征。
步骤502:选取针对该逻辑回归模型的训练数据以及测试数据。
步骤503:制定评测标准,并由用户进行评测。
步骤504:获取训练数据和测试数据的子特征。
步骤505:训练该逻辑回归模型,以得到逻辑回归模型各个参数值。
步骤506:使用评测数据对该逻辑回归模型进行评测。
步骤507:判断评测结果是否已经达到预期,如果是则执行步骤508并结束本流程,如果不是则执行步骤509并结束本流程。
步骤508:输出该逻辑回归模型。
步骤509:增加、删除或优化该逻辑回归模型算法,或者补充评测数据。
在本发明实施方式中,利用逻辑回归模型,计算出来的是检索串和关键词的综合相似度,这个相似度可以作为衡量扩展关键词跟检索串是否相关的标准。针对扩展关键词,可以按综合相似度排序,其中得分较高的,作为最终的匹配结果。特别的,对于相似度得分较低的关键词,如果是原始检索串的子串,还可以用来过滤坏词,不让其作为传统的匹配结果触发其他的匹配流程。
可以将本发明实施方式的相似度计算方法应用到各种应用情形中,比如网络搜索广告系统。而且,可以利用本发明实施方式的相似度计算方法实现任意两个短串之间的相似度衡量。
另外,本发明实施方式可以应用于各种终端实体。比如,终端可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等。
基于上述详细分析,本发明实施方式还提出了一种基于检索串的关键词扩展装置。
图6为根据本发明实施方式的基于检索串的关键词扩展装置结构图。
如图6所示,该装置包括键树建立单元601、搜索结果获取单元602和关键词扩展单元603,其中:
键树建立单元601,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;
搜索结果获取单元602,用于接收检索串,并基于所述检索串获取网页搜索结果;
关键词扩展单元603,用于利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
在一个实施方式中,关键词扩展单元603,用于针对该网页搜索结果执行多模式匹配以获得多个模式串,或者针对该网页搜索结果执行单模式匹配以获得单个模式。
优选地,进一步包括关键词提取单元604和关键词聚合单元605;
关键词提取单元604,用于从所述检索串本身提取扩展关键词;
关键词聚合单元605,用于将所述由模式串确定的基于该检索串的扩展关键词以及从所述检索串本身提取的扩展关键词相聚合,以获得扩展关键词集合。
在一个实施方式中,进一步包括检索串变换单元606和关键词聚合单元605;
检索串变换单元606,用于利用检索串变换(rewrite)方式获取扩展关键词;
关键词聚合单元605,用于将所述由模式串确定的基于该检索串的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
在一个实施方式中,进一步包括关键词提取单元604、检索串变换单元606和关键词聚合单元605;其中:
关键词提取单元604,用于从所述检索串本身提取扩展关键词;
检索串变换单元606,用于利用检索串变换(rewrite)方式获取扩展关键词;
关键词聚合单元605,用于将所述由模式串确定的基于该检索串的扩展关键词、从所述检索串本身提取的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
进一步地,该装置还可以包括相关性指标确定单元607,其中:
相关性指标确定单元607,用于从所述扩展关键词集合中的扩展关键词和检索串,分别提取至少两个比较特征,所述比较特征包括文本特征、分类特征或语义特征;基于所述扩展关键词集合中的扩展关键词和检索串的每个比较特征,计算所述扩展关键词集合中的扩展关键词和检索串之间的每个比较特征的相关性;根据逻辑回归模型对各个比较特征的相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
优选地,相关性指标确定单元607,用于从所述扩展关键词集合中的扩展关键词和检索串分别提取文本特征、分类特征和语义特征;基于所述扩展关键词集合中的扩展关键词和检索串的文本特征,计算所述扩展关键词集合中的扩展关键词和检索串的文本相关性;基于所述扩展关键词集合中的扩展关键词和检索串的分类特征,计算所述扩展关键词集合中的扩展关键词和检索串的分类相关性;基于所述扩展关键词集合中的扩展关键词和检索串的语义特征,计算所述扩展关键词集合中的扩展关键词和检索串的语义相关性;根据逻辑回归模型对所述文本相关性、分类相关性和语义相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
基于上述详细分析,本发明实施方式还提出了一种基于检索串的关键词扩展系统。
图7为根据本发明实施方式的基于检索串的关键词扩展系统结构图。
如图7所示,包括客户端701、搜索引擎702和关键词扩展装置703,其中:
客户端701,用于接收检索串,并基于所述检索串向搜索引擎查询网页搜索结果;
搜索引擎702,用于向客户端提供对应于检索串的网页搜索结果;
关键词扩展装置703,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树,利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
在一个实施方式中,关键词扩展装置703,进一步用于从所述检索串本身提取扩展关键词,以及利用检索串变换方式获取扩展关键词;将所述由模式串确定的基于该检索串的扩展关键词、从所述检索串本身提取的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
优选地,关键词扩展装置703,进一步用于从所述扩展关键词集合中的扩展关键词和检索串,分别提取至少两个比较特征,所述比较特征包括文本特征、分类特征或语义特征;基于所述扩展关键词集合中的扩展关键词和检索串的每个比较特征,计算所述扩展关键词集合中的扩展关键词和检索串之间的每个比较特征的相关性;根据逻辑回归模型对各个比较特征的相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
更优选地,关键词扩展装置703,进一步用于从所述扩展关键词集合中的扩展关键词和检索串分别提取文本特征、分类特征和语义特征;基于所述扩展关键词集合中的扩展关键词和检索串的文本特征,计算所述扩展关键词集合中的扩展关键词和检索串的文本相关性;基于所述扩展关键词集合中的扩展关键词和检索串的分类特征,计算所述扩展关键词集合中的扩展关键词和检索串的分类相关性;基于所述扩展关键词集合中的扩展关键词和检索串的语义特征,计算所述扩展关键词集合中的扩展关键词和检索串的语义相关性;根据逻辑回归模型对所述文本相关性、分类相关性和语义相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
可以将图7所示系统应用于各种应用场景中,比如应用于搜索引擎广告系统中。
而且,客户端701、搜索引擎702和关键词扩展装置703相互之间可以采用的通信协议包括但是不局限于:传输控制协议/网际协议(TCP/IP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)、邮局协议的第3个版本(POP3),等等。
还可以将图6所示装置集成到各种通信网络的硬件实体当中。比如,可以将事务提醒装置集成到:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA)、网络服务器、广告服务器、搜索引擎等等设备之中。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的基于检索串的关键词扩展装置。比如,可以遵循一定规范的应用程序接口,将基于检索串的关键词扩展装置编写为安装到移动终端、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA)、网络服务器、广告服务器、搜索引擎中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的基于检索串的关键词扩展装置。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于检索串的关键词扩展方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的基于检索串的关键词扩展方法应用到基于闪存(Nand fash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;接收检索串,并基于所述检索串获取网页搜索结果;利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。由此可见,应用本发明实施方式以后,使用搜索结果对原始检索串进行文本和语义扩充,通过模式算法在搜索结果中查找关键词,从而极大地丰富了关键词匹配结果,扩展了检索串的关键词,提高了展示内容的全面性。
而且,在本发明实施方式中,利用网页搜索结果表征检索串和关键词的语义特征,结合文本相关性和分类等特征,通过机器学习方法训练得到相似度计算模型,量化了检索串与关键词之间的相似度,从而保证了展示内容的相关性。
另外,可以将本发明实施方式可以应用到各种终端中,可以跨平台跨终端使用本发明实施方式,适用范围非常广泛。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种基于检索串的关键词扩展方法,其特征在于,该方法包括:
设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;
接收检索串,并基于所述检索串获取网页搜索结果;
利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
2.根据权利要求1所述的关键词扩展方法,其特征在于,所述针对该网页搜索结果执行模式匹配以获得模式串包括:
针对该网页搜索结果执行多模式匹配以获得多个模式串,或者针对该网页搜索结果执行单模式匹配以获得单个模式串。
3.根据权利要求1所述的关键词扩展方法,其特征在于,该方法进一步包括:
从所述检索串本身提取扩展关键词;
将所述由模式串确定的基于该检索串的扩展关键词以及从所述检索串本身提取的扩展关键词相聚合,以获得扩展关键词集合。
4.根据权利要求1所述的关键词扩展方法,其特征在于,该方法进一步包括:利用检索串变换方式获取扩展关键词;
将所述由模式串确定的基于该检索串的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
5.根据权利要求1所述的关键词扩展方法,其特征在于,该方法进一步包括:
从所述检索串本身提取扩展关键词,以及利用检索串变换方式获取扩展关键词;
将所述由模式串确定的基于该检索串的扩展关键词、从所述检索串本身提取的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
6.根据权利要求5所述的关键词扩展方法,其特征在于,该方法进一步包括:
从所述扩展关键词集合中的扩展关键词和检索串,分别提取至少两个比较特征,所述比较特征包括文本特征、分类特征或语义特征;
基于所述扩展关键词集合中的扩展关键词和检索串的每个比较特征,计算所述扩展关键词集合中的扩展关键词和检索串之间的每个比较特征的相关性;
根据逻辑回归模型对各个比较特征的相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;
基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
7.根据权利要求6所述的关键词扩展方法,其特征在于,
所述文本特征包括公共子串、共有语素或编辑距离;所述语义特征包括标题域的语义特征、摘要域的语义特征、标题域和摘要域整合后的语义特征、去掉检索串和关键词共有语素表示后标题域的语义特征、去掉检索串和关键词的共有语素后摘要域的语义特征及去掉检索串和关键词的共有语素后标题域和摘要域整合后的语义特征。
8.一种基于检索串的关键词扩展装置,其特征在于,该装置包括键树建立单元、搜索结果获取单元和关键词扩展单元,其中:
键树建立单元,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树;
搜索结果获取单元,用于接收检索串,并基于所述检索串获取网页搜索结果;
关键词扩展单元,用于利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
9.根据权利要求8所述的基于检索串的关键词扩展装置,其特征在于,
关键词扩展单元,用于针对该网页搜索结果执行多模式匹配以获得多个模式串,或者针对该网页搜索结果执行单模式匹配以获得单个模式。
10.根据权利要求8所述的基于检索串的关键词扩展装置,其特征在于,进一步包括关键词提取单元和关键词聚合单元;
关键词提取单元,用于从所述检索串本身提取扩展关键词;
关键词聚合单元,用于将所述由模式串确定的基于该检索串的扩展关键词以及从所述检索串本身提取的扩展关键词相聚合,以获得扩展关键词集合。
11.根据权利要求8所述的基于检索串的关键词扩展装置,其特征在于,进一步包括检索串变换单元和关键词聚合单元;
检索串变换单元,用于利用检索串变换方式获取扩展关键词;
关键词聚合单元,用于将所述由模式串确定的基于该检索串的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
12.根据权利要求8所述的基于检索串的关键词扩展装置,其特征在于,进一步包括关键词提取单元、检索串变换单元和关键词聚合单元;其中:
关键词提取单元,用于从所述检索串本身提取扩展关键词;
检索串变换单元,用于利用检索串变换方式获取扩展关键词;
关键词聚合单元,用于将所述由模式串确定的基于该检索串的扩展关键词、从所述检索串本身提取的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
13.根据权利要求12所述的基于检索串的关键词扩展装置,其特征在于,进一步包括相关性指标确定单元,其中:
相关性指标确定单元,用于从所述扩展关键词集合中的扩展关键词和检索串,分别提取至少两个比较特征,所述比较特征包括文本特征、分类特征或语义特征;基于所述扩展关键词集合中的扩展关键词和检索串的每个比较特征,计算所述扩展关键词集合中的扩展关键词和检索串之间的每个比较特征的相关性;根据逻辑回归模型对各个比较特征的相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
14.一种基于检索串的关键词扩展系统,其特征在于,包括客户端、搜索引擎和关键词扩展装置,其中:
客户端,用于接收检索串,并基于所述检索串向搜索引擎查询网页搜索结果;
搜索引擎,用于向客户端提供对应于检索串的网页搜索结果;
关键词扩展装置,用于设置预设关键词集合,将所述预设关键词集合中的预设关键词作为模式串,并且将所述预设关键词集合建为键树,利用所述键树,针对该网页搜索结果执行模式匹配以获得模式串,并由获得的所述模式串确定基于该检索串的扩展关键词。
15.根据权利要求14所述的基于检索串的关键词扩展系统,其特征在于,
关键词扩展装置,进一步用于从所述检索串本身提取扩展关键词,以及利用检索串变换方式获取扩展关键词;将所述由模式串确定的基于该检索串的扩展关键词、从所述检索串本身提取的扩展关键词以及利用检索串变换方式获取的扩展关键词相聚合,以获得扩展关键词集合。
16.根据权利要求15所述的基于检索串的关键词扩展系统,其特征在于,
关键词扩展装置,进一步用于从所述扩展关键词集合中的扩展关键词和检索串,分别提取至少两个比较特征,所述比较特征包括文本特征、分类特征或语义特征;基于所述扩展关键词集合中的扩展关键词和检索串的每个比较特征,计算所述扩展关键词集合中的扩展关键词和检索串之间的每个比较特征的相关性;根据逻辑回归模型对各个比较特征的相关性进行特征拟合,以得到扩展关键词集合中的扩展关键词和检索串的相关性指标;基于所述扩展关键词集合中的扩展关键词和检索串的相关性指标,从所述扩展关键词集合中确定符合预定相关性指标门限值的扩展关键词。
CN201210497241.2A 2012-11-29 2012-11-29 一种基于检索串的关键词扩展方法、装置和系统 Active CN103853722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210497241.2A CN103853722B (zh) 2012-11-29 2012-11-29 一种基于检索串的关键词扩展方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210497241.2A CN103853722B (zh) 2012-11-29 2012-11-29 一种基于检索串的关键词扩展方法、装置和系统

Publications (2)

Publication Number Publication Date
CN103853722A true CN103853722A (zh) 2014-06-11
CN103853722B CN103853722B (zh) 2017-09-22

Family

ID=50861390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210497241.2A Active CN103853722B (zh) 2012-11-29 2012-11-29 一种基于检索串的关键词扩展方法、装置和系统

Country Status (1)

Country Link
CN (1) CN103853722B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090963A (zh) * 2014-07-14 2014-10-08 百度在线网络技术(北京)有限公司 查询信息推荐方法和装置
CN104699851A (zh) * 2015-04-08 2015-06-10 上海理想信息产业(集团)有限公司 一种大数据环境下业务标签的扩展方法
CN105677931A (zh) * 2016-04-07 2016-06-15 北京百度网讯科技有限公司 信息搜索方法和装置
CN106057199A (zh) * 2016-05-31 2016-10-26 广东美的制冷设备有限公司 控制方法、控制装置和终端
CN106339399A (zh) * 2015-07-13 2017-01-18 阿里巴巴集团控股有限公司 关键词推荐方法及装置
CN106685972A (zh) * 2016-12-30 2017-05-17 中广热点云科技有限公司 一种增强容错网络视频信息处理系统及方法
CN107168943A (zh) * 2017-04-07 2017-09-15 平安科技(深圳)有限公司 话题预警的方法和装置
CN107665222A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的拓展方法和装置
CN107885717A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN108182200A (zh) * 2017-11-29 2018-06-19 有米科技股份有限公司 基于语义相似度的关键词拓展方法和装置
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN109189931A (zh) * 2018-09-05 2019-01-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
CN109508390A (zh) * 2018-12-28 2019-03-22 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109829115A (zh) * 2019-02-14 2019-05-31 上海晓材科技有限公司 搜索引擎关键词优化方法
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110795615A (zh) * 2019-10-28 2020-02-14 百度在线网络技术(北京)有限公司 搜索方法、装置、设备和存储介质
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154225A (zh) * 2006-09-29 2008-04-02 西门子公司 一种模式匹配方法及装置
JP2009026254A (ja) * 2007-07-24 2009-02-05 Hitachi Ltd 車両画像検索方法、そのシステム及びそのプログラム
CN101807183A (zh) * 2009-02-18 2010-08-18 财团法人资讯工业策进会 关键词汇实时扩展方法、系统及其计算机可擦写记录媒体
US8086554B1 (en) * 2005-11-29 2011-12-27 Tilera Corporation Pattern matching in a multiprocessor environment
CN102646103A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
CN102722501A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086554B1 (en) * 2005-11-29 2011-12-27 Tilera Corporation Pattern matching in a multiprocessor environment
CN101154225A (zh) * 2006-09-29 2008-04-02 西门子公司 一种模式匹配方法及装置
JP2009026254A (ja) * 2007-07-24 2009-02-05 Hitachi Ltd 車両画像検索方法、そのシステム及びそのプログラム
CN101807183A (zh) * 2009-02-18 2010-08-18 财团法人资讯工业策进会 关键词汇实时扩展方法、系统及其计算机可擦写记录媒体
CN102646103A (zh) * 2011-02-18 2012-08-22 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
CN102722501A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何文华: "基于海量数据的多模式匹配算法研究", 《计算机应用与软件》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090963A (zh) * 2014-07-14 2014-10-08 百度在线网络技术(北京)有限公司 查询信息推荐方法和装置
CN104699851A (zh) * 2015-04-08 2015-06-10 上海理想信息产业(集团)有限公司 一种大数据环境下业务标签的扩展方法
CN106339399A (zh) * 2015-07-13 2017-01-18 阿里巴巴集团控股有限公司 关键词推荐方法及装置
CN106339399B (zh) * 2015-07-13 2019-07-23 阿里巴巴集团控股有限公司 关键词推荐方法及装置
CN105677931B (zh) * 2016-04-07 2018-06-19 北京百度网讯科技有限公司 信息搜索方法和装置
CN105677931A (zh) * 2016-04-07 2016-06-15 北京百度网讯科技有限公司 信息搜索方法和装置
CN106057199A (zh) * 2016-05-31 2016-10-26 广东美的制冷设备有限公司 控制方法、控制装置和终端
CN106057199B (zh) * 2016-05-31 2019-10-15 广东美的制冷设备有限公司 控制方法、控制装置和终端
CN107665222B (zh) * 2016-07-29 2020-11-06 北京国双科技有限公司 关键词的拓展方法和装置
CN107665222A (zh) * 2016-07-29 2018-02-06 北京国双科技有限公司 关键词的拓展方法和装置
CN107885717B (zh) * 2016-09-30 2020-12-29 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN107885717A (zh) * 2016-09-30 2018-04-06 腾讯科技(深圳)有限公司 一种关键词提取方法及装置
CN106685972B (zh) * 2016-12-30 2019-08-02 中广热点云科技有限公司 一种增强容错网络视频信息处理系统及方法
CN106685972A (zh) * 2016-12-30 2017-05-17 中广热点云科技有限公司 一种增强容错网络视频信息处理系统及方法
CN107168943A (zh) * 2017-04-07 2017-09-15 平安科技(深圳)有限公司 话题预警的方法和装置
CN108182200B (zh) * 2017-11-29 2020-10-23 有米科技股份有限公司 基于语义相似度的关键词拓展方法和装置
CN108182200A (zh) * 2017-11-29 2018-06-19 有米科技股份有限公司 基于语义相似度的关键词拓展方法和装置
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN108776901B (zh) * 2018-04-27 2021-01-15 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN109189931A (zh) * 2018-09-05 2019-01-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
CN109189931B (zh) * 2018-09-05 2021-05-11 腾讯科技(深圳)有限公司 一种目标语句的筛选方法及装置
CN109508390B (zh) * 2018-12-28 2021-12-14 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109508390A (zh) * 2018-12-28 2019-03-22 北京金山安全软件有限公司 基于知识图谱的输入预测方法、装置和电子设备
CN109829115A (zh) * 2019-02-14 2019-05-31 上海晓材科技有限公司 搜索引擎关键词优化方法
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110532354B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110795615A (zh) * 2019-10-28 2020-02-14 百度在线网络技术(北京)有限公司 搜索方法、装置、设备和存储介质
CN110795615B (zh) * 2019-10-28 2022-08-09 百度在线网络技术(北京)有限公司 搜索方法、装置、设备和存储介质
CN113010669A (zh) * 2020-12-24 2021-06-22 华戎信息产业有限公司 一种新闻分类方法和系统
CN113010669B (zh) * 2020-12-24 2022-06-21 华戎信息产业有限公司 一种新闻分类方法和系统

Also Published As

Publication number Publication date
CN103853722B (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN103853722A (zh) 一种基于检索串的关键词扩展方法、装置和系统
CN111241241B (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2018050022A1 (zh) 应用程序的推荐方法及服务器
CN105488024B (zh) 网页主题句的抽取方法及装置
CN102982153B (zh) 一种信息检索方法及其装置
TWI609278B (zh) Method and system for recommending search words
TWI557664B (zh) Product information publishing method and device
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN108763321A (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN109388743B (zh) 语言模型的确定方法和装置
CN104615767A (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN102033919A (zh) 文本关键词提取方法及系统
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN105630907A (zh) 一种基于应用内容的安卓应用组装方法
KR101491627B1 (ko) 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템
CN105138670A (zh) 音频文件标签生成方法和系统
WO2014040521A1 (zh) 搜索方法、系统及存储介质
CN104484380A (zh) 个性化搜索方法及装置
TW201405341A (zh) 基於產品識別的資訊分類方法及資訊分類系統
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN112508609A (zh) 人群扩量的预测方法、装置、设备及存储介质
CN111460327A (zh) 兴趣地搜索方法及装置、存储介质、计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant