CN111400577B - 一种搜索召回方法及装置 - Google Patents

一种搜索召回方法及装置 Download PDF

Info

Publication number
CN111400577B
CN111400577B CN201811533531.1A CN201811533531A CN111400577B CN 111400577 B CN111400577 B CN 111400577B CN 201811533531 A CN201811533531 A CN 201811533531A CN 111400577 B CN111400577 B CN 111400577B
Authority
CN
China
Prior art keywords
word
entity
word entity
category
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811533531.1A
Other languages
English (en)
Other versions
CN111400577A (zh
Inventor
王涛
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811533531.1A priority Critical patent/CN111400577B/zh
Publication of CN111400577A publication Critical patent/CN111400577A/zh
Application granted granted Critical
Publication of CN111400577B publication Critical patent/CN111400577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种搜索召回方法及装置,本申请通过短语切分模型和过滤策略对待识别商品标题的处理,提高了品类词挖掘的准确率,而且,通过自动化过程,大大提高了挖掘效率,也大大降低了人工成本。

Description

一种搜索召回方法及装置
技术领域
本申请涉及但不限于计算机技术,尤指一种搜索召回方法及装置。
背景技术
品类词实体包括电商标题或询问(query)中描述的对应商品实体的名称,比如:mp3player、cat eye、sport shoe、围巾等。
相关技术中挖掘品类词实体的方法主要是借助于卖家主动填写的属性信息。一方面,这些属性值都是卖家主动填写的,质量参差不齐,这种通过从属性中抽取描述产品类型的属性值来获取品类词实体的方法,对卖家填写信息依赖较大,卖家未填写的部分是覆盖不到的,造成了品类词实体挖掘不全面、不准确;另一方面,抽取的词需要大量的人工审核后才能得到真正需要的品类词实体,无形中增大了成本。而且,对于如服务于东南亚买卖家的电商平台,包含英、泰、印、越、菲等5种主要语言,每种语言在平台都会有对应的搜索入口,在东南亚的买家在平台上购物时,买家通常会优先使用自己熟悉的语言,如泰语、印尼语等输入检索关键词,搜索展示时,需要根据每种语言返回相关的商品,也就是说在多语言环境下搜索召回是有一定问题的。
发明内容
本申请提供一种搜索召回方法及装置,能够提高品类词全面挖掘的准确率,降低成本。
本发明实施例提供了一种搜索召回方法,包括:
获取待识别商品标题的品类词实体正样例和品类词实体负样例,作为候选品类词实体;
将候选品类词实体输入短语切分模型,获取第一品类词实体;
按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。
可选地,所述方法还包括获取命名实体识别NER模型,包括:
从多语言商品库中获取第一数量的商品标题样本,通过标注获取每个商品标题样本的正样例样本和负样例样本;
将正样例样本和负样例样本输入预先设置的条件随机场CRF模型进行训练,确定模型的参数以得到所述NER模型。
可选地,所述获取品类词实体正样例包括:
将所述待识别商品标题输入所述NER模型,经过所述NER模型的处理得到的品类词实体作为所述品类词实体正样例。
可选地,所述获取品类词实体正样例包括:
通过对所述待识别商品标题进行标注来获取所述品类词实体正样例。
可选地,所述获取品类词实体负样例包括:
利用N元N-Gram模型对所述待识别商品标题进行分析,获取所述品类词实体负样例。
可选地,所述方法还包括:利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成所述短语切分模型;其中,训练生成短语切分模型包括:
根据短语质量策略对所述正样例样本和所述负样例样本分别计算短语质量得分,根据词性质量策略对所述正样例样本和所述负样例样本分别计算词性质量得分;
将所有得分输入预先设置的最大化整体得分目标函数,使用动态规划算法计算得到目标函数的参数,以学习得到所述短语切分模型;
其中,短语质量得分,用于衡量一个词序列构成短语的概率;词性质量得分,用于考察语法层面的信息。
可选地,所述获取第一品类词实体,可以包括:
将获取的每个所述候选品类词实体输入所述短语切分模型,分别计算短语质量得分和词性质量得分;
按照得分从高到低排序后,将第一数目个得分高的品类词实体作为所述第一品类词实体。
可选地,所述过滤策略包括以下至少一项:
所述第一品类词实体是否被用户在搜索引擎中大量搜索过,如果所述第一品类词实体出现在用户搜索信息库中且出现次数超过预先设置的次数阈值,则对所述第一品类词实体进行加分;
所述第一品类词实体是否在属性填写中被商品卖家主动填写过,如果所述第一品类词实体出现在商品卖家主动填写的属性库中,则对所述第一品类词实体进行加分;
所述第一品类词实体是否出现在类目名称中,如果所述第一品类词实体出现在类目名称中,则对所述第一品类词实体进行加分;
计算所述第一品类词实体的类目分布的词频/逆文档频率TF/IDF得分,得分越高则表明该第一品类词实体越可能是完整的词,对所述第一品类词实体进行加分。
可选地,所述多语言商品库包括以下至少一种语言:英语、泰语、印度语、越语、中文、菲律宾语。
本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的搜索召回方法。
本申请又提供了一种用于搜索召回的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的搜索召回方法的步骤。
本申请通过短语切分模型和过滤策略对待识别商品标题的处理,提高了品类词挖掘的准确率,而且,通过自动化过程,大大提高了挖掘效率,也大大降低了人工成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请搜索召回方法的流程图;
图2为本申请搜索召回装置的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本申请搜索召回方法的流程图,如图1所示,包括:
步骤100:获取待识别商品标题的品类词实体正样例和品类词实体负样例,作为候选品类词实体。
在一种示例性实例中,获取品类词实体正样例包括:
将待识别商品标题输入命名实体识别(NER,Named Entity Recognition)模型,经过NER模型的处理得到的品类词实体作为品类词实体正样例。
其中,NER模型用于识别产品、修饰、品牌、型号等电商实体和属性的模型。
在一种示例性实例中,获取品类词实体正样例包括:
通过对待识别商品标题进行标注如人工标注来获取品类词实体正样例。
可选地,在一种示例性实例中,本步骤之前还可以包括:获取NER模型。
在一种示例性实例中,获取NER模型包括:
从多语言商品库中获取第一数量的商品标题样本,通过标注如人工标注获取每个商品标题样本的正样例样本和负样例样本;将正样例样本和负样例样本输入预先设置的如条件随机场(CRF,Conditional Random Field)模型进行训练,确定模型的参数以得到NER模型。
这里,第一数量的商品标题样本可以根据实际应用场景进行选择,比如万级数量,如1万~2万等。
多语言商品库包括有大规模的非结构化的商品标题,可以是不同语言的,如英语、泰语、印度语、越语、中文、菲律宾语等语言。
在一种示例性实例中,获取品类词实体负样例包括:
利用N元(N-Gram)模型对待识别商品标题进行分析,获取品类词实体负样例。
在自然语言里有一种模型称为N-Gram模型,表示文字或语言中的N个连续的单词组成的词序列。在进行自然语言分析时,使用N-Gram寻找常用词组,可以很容易的将一句话分解成若干个文字片段。
举例来看,比如对于一条商品标题“8GB Red MP3Player”,通过本步骤的NER模型,可以得到品类词实体正样例包括:“MP3Player”,通过本步骤中的N-Gram模型,假设N=2,则可以得到品类词负样例包括:“8GB”、“8GB Red”。
步骤101:将候选品类词实体输入短语切分模型,获取第一品类词实体。
可选地,在一种示例性实例中,本步骤之前,还可以包括:利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成短语切分模型。
在一种示例性实例中,训练生成短语切分模型可以包括:
根据短语质量策略对正样例样本和负样例样本分别计算短语质量得分,根据词性质量策略对正样例样本和负样例样本分别计算词性质量得分;
将所有得分输入预先设置的最大化整体得分目标函数,使用动态规划算法计算得到目标函数的参数,以最终学习得到短语切分模型。
其中,最大化整体得分目标函数可以是一个自定义的数学函数,比如是一个句子的所有可能情况的得分相乘,也就是词性质量分和短语质量分相乘即得到总分。
在一种示例性实例中,本步骤中的获取第一品类词实体,可以包括:
将获取的每个候选品类词实体输入短语切分模型,分别计算短语质量得分和词性质量得分,最终按照得分从高到低排序后,将第一数目个得分高的品类词实体作为第一品类词实体。
其中,第一数目可以按照实际应用场景进行选取。
在一种示例性实例中,短语质量得分,用于衡量一个词序列构成短语的概率,可以根据这个词序列的各种特征进行计算得到,这些特征可以包括但不限于如:互信息、KL距离、词频(TF)/逆文档频率(IDF)等,以及特征之间如何搭配才能更好的衡量短语质量。举例来看,比如:输入的候选品类词实体是词序列“this mp3”,那么经过短语切分模型后,该候选品类词实体构成短语的概率低,短语质量得分约为0;再如:输入的候选品类词实体是词序列“mp3player”,那么经过短语切分模型后,该候选品类词实体构成短语的概率高,短语质量得分则接近1。
其中,KL距离是Kullback-Leibler Divergence的简称,也称为相对熵(RelativeEntropy)。
在一种示例性实例中,词性质量得分,用于考察语法层面的信息,即考察词序列中相邻两个词之间在语法层面的修饰关系,修饰关系越强,则这两个词构成短语的概率就越大,比如:名词修饰名词、形容词修饰名词等情况是属于修饰关系比较强的;而如动词修饰名词、名词修饰形容词等情况,则是两个词之间的修饰关系要弱一些的情况。举例来看,比如:输入的候选品类词实体是词序列“sport shoe”,其中,sport是形容词,shoe是名词,两者的修饰关系很强,因此,经过短语切分模型后,词序列“sport shoe”的词性质量得分接近1;再如:输入的候选品类词实体是词序列“watch TV”,属于动词修饰名词,两者的修饰关系比较弱,因此,经过短语切分模型后,词序列“watch TV”的词性质量得分接近0;又如:输入的候选品类词实体是词序列“dress red”,属于动词修饰名词,两者的修饰关系比较弱,因此,经过短语切分模型后,词序列“dress red”的词性质量得分接近0。
步骤102:按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。
在一种示例性实例中,过滤策略可以包括以下任意项:
第一品类词实体是否被用户在搜索引擎中大量搜索过,如果第一品类词实体出现在用户搜索信息库中且出现次数超过预先设置的次数阈值,则表明第一品类词实体是用户认为的一个完整的短语,对第一品类词实体进行加分;
第一品类词实体是否在属性填写中被商品卖家主动填写过,如果第一品类词实体出现在商品卖家主动填写的属性库中,则表明第一品类词实体是卖家认为的一个完整的词,对第一品类词实体进行加分;
第一品类词实体是否出现在类目名称中,类目名称是人工运营的高质量词,因此,如果第一品类词实体出现在类目名称中,则表明第一品类词实体很大概率上是品类词实体,对第一品类词实体进行加分;
计算第一品类词实体的类目分布的TF/IDF得分,主要计算类目内部的TF/IDF得分,得分越高则表明该第一品类词实体越可能是完整的词,对第一品类词实体进行加分。
本步骤中,将所有第一品类词实体进行过滤后,按照得分从高到低排序后,将第二数目个得分高的第一品类词实体作为待识别商品标题的品类词实体。
其中,第二数目可以按照实际应用场景进行选取。
本申请通过短语切分模型和过滤策略对待识别商品标题的处理,提高了品类词挖掘的准确率,而且,通过自动化过程,大大提高了挖掘效率,也大大降低了人工成本。
可选地,在一种示例性实例中,本申请获取品类词实体的方法还包括:
对得到的待识别商品标题的品类词实体进行人工审核,得到更高质量的品类词实体。此时的人工审核是针对高质量的品类词实体进行的,因此,一方面是进一步地提升了品类词挖掘的准确率,另一方面,也不会造成挖掘效率的降低。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上任一项的搜索召回方法。
本申请再提供一种获取品类词实体的装置,包括存储器和处理器,其中,存储器中存储有上述任一项的搜索召回方法的步骤。
图2为本申请搜索召回装置的组成结构示意图,如图2所示,至少包括:第一获取模块、第二获取模块、过滤模块;其中,
第一获取模块,用于获取待识别商品标题的品类词实体正样例和品类词实体负样例,作为候选品类词实体;
第二获取模块,用于利用短语切分模型对候选品类词实体进行分析,获取第一品类词实体;
过滤模块,用于按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体。
在一种示例性实例中,第一获取模块具体用于:
利用NER模型对待识别商品标题进行处理,得到的品类词实体作为品类词实体正样例;或者,通过对待识别商品标题进行标注如人工标注来获取品类词实体正样例;
利用N-Gram模型对待识别商品标题进行分析,获取品类词实体负样例。
在一种示例性实例中,第二获取模块具体用于:
利用短语切分模型对获取的每个候选品类词实体进行处理,分别计算短语质量得分和词性质量得分,最终按照得分从高到低排序后,将第一数目个得分高的品类词实体作为第一品类词实体。
在一种示例性实例中,过滤模块具体用于:
按照过滤策略对所有第一品类词实体进行过滤后,按照得分从高到低排序后,将第二数目个得分高的第一品类词实体作为待识别商品标题的品类词实体。
在一种示例性实例中,过滤策略可以包括以下任意项:
第一品类词实体是否被用户在搜索引擎中大量搜索过,如果第一品类词实体出现在用户搜索信息库中且出现次数超过预先设置的次数阈值,则表明第一品类词实体是用户认为的一个完整的短语,对第一品类词实体进行加分;
第一品类词实体是否在属性填写中被商品卖家主动填写过,如果第一品类词实体出现在商品卖家主动填写的属性库中,则表明第一品类词实体是卖家认为的一个完整的词,对第一品类词实体进行加分;
第一品类词实体是否出现在类目名称中,类目名称是人工运营的高质量词,因此,如果第一品类词实体出现在类目名称中,则表明第一品类词实体很大概率上是品类词实体,对第一品类词实体进行加分;
计算第一品类词实体的类目分布的TF/IDF得分,主要计算类目内部的TF/IDF得分,得分越高则表明该第一品类词实体越可能是完整的词,对第一品类词实体进行加分。
本申请通过短语切分模型和过滤策略对待识别商品标题的处理,提高了品类词挖掘的准确率,而且,通过自动化过程,大大提高了挖掘效率,也大大降低了人工成本。
可选地,在一种示例性实例中,本申请搜索召回装置还包括:审核模块,用于对得到的待识别商品标题的品类词实体进行人工审核,得到更高质量的品类词实体。此时的人工审核是针对高质量的品类词实体进行的,因此,一方面是进一步地提升了品类词挖掘的准确率,另一方面,也不会造成挖掘效率的降低。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种搜索召回方法,包括:
获取待识别商品标题的品类词实体正样例和品类词实体负样例,作为候选品类词实体;
利用第二数量的预先获得的品类词实体的正样例样本和负样例样本训练生成短语切分模型;
将候选品类词实体输入所述短语切分模型,获取第一品类词实体;
按照设置的过滤策略对第一品类词实体进行过滤得到待识别商品标题的品类词实体;
其中,所述训练生成短语切分模型包括:根据短语质量策略对所述正样例样本和所述负样例样本分别计算短语质量得分,根据词性质量策略对所述正样例样本和所述负样例样本分别计算词性质量得分;将所有得分输入预先设置的最大化整体得分目标函数,使用动态规划算法计算得到目标函数的参数,以学习得到所述短语切分模型;其中,短语质量得分,用于衡量一个词序列构成短语的概率;词性质量得分,用于考察语法层面的信息;
所述过滤策略包括以下至少一项:所述第一品类词实体是否被用户在搜索引擎中大量搜索过,如果所述第一品类词实体出现在用户搜索信息库中且出现次数超过预先设置的次数阈值,则对所述第一品类词实体进行加分;所述第一品类词实体是否在属性填写中被商品卖家主动填写过,如果所述第一品类词实体出现在商品卖家主动填写的属性库中,则对所述第一品类词实体进行加分;所述第一品类词实体是否出现在类目名称中,如果所述第一品类词实体出现在类目名称中,则对所述第一品类词实体进行加分;计算所述第一品类词实体的类目分布的词频/逆文档频率TF/IDF得分,得分越高则表明该第一品类词实体越可能是完整的词,对所述第一品类词实体进行加分。
2.根据权利要求1所述的搜索召回方法,所述方法还包括获取命名实体识别NER模型,包括:
从多语言商品库中获取第一数量的商品标题样本,通过标注获取每个商品标题样本的正样例样本和负样例样本;
将正样例样本和负样例样本输入预先设置的条件随机场CRF模型进行训练,确定模型的参数以得到所述NER模型。
3.根据权利要求2所述的搜索召回方法,其中,所述获取品类词实体正样例包括:
将所述待识别商品标题输入所述NER模型,经过所述NER模型的处理得到的品类词实体作为所述品类词实体正样例。
4.根据权利要求1所述的搜索召回方法,其中,所述获取品类词实体正样例包括:
通过对所述待识别商品标题进行标注来获取所述品类词实体正样例。
5.根据权利要求1所述的搜索召回方法,其中,所述获取品类词实体负样例包括:
利用N元N-Gram模型对所述待识别商品标题进行分析,获取所述品类词实体负样例。
6.根据权利要求1所述的搜索召回方法,其中,所述获取第一品类词实体,可以包括:
将获取的每个所述候选品类词实体输入所述短语切分模型,分别计算短语质量得分和词性质量得分;
按照得分从高到低排序后,将第一数目个得分高的品类词实体作为所述第一品类词实体。
7.根据权利要求2所述的搜索召回方法,其中,所述多语言商品库包括以下至少一种语言:英语、泰语、印度语、越语、中文、菲律宾语。
8.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求7任一项所述的搜索召回方法。
9.一种用于搜索召回的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求7任一项所述的搜索召回方法的步骤。
CN201811533531.1A 2018-12-14 2018-12-14 一种搜索召回方法及装置 Active CN111400577B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811533531.1A CN111400577B (zh) 2018-12-14 2018-12-14 一种搜索召回方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811533531.1A CN111400577B (zh) 2018-12-14 2018-12-14 一种搜索召回方法及装置

Publications (2)

Publication Number Publication Date
CN111400577A CN111400577A (zh) 2020-07-10
CN111400577B true CN111400577B (zh) 2023-06-30

Family

ID=71430119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811533531.1A Active CN111400577B (zh) 2018-12-14 2018-12-14 一种搜索召回方法及装置

Country Status (1)

Country Link
CN (1) CN111400577B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006127758A2 (en) * 2005-05-26 2006-11-30 Claria Corporation Coordinated related-search feedback that assists search refinement
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN105989125A (zh) * 2015-02-16 2016-10-05 苏宁云商集团股份有限公司 对无结果词进行标签识别的搜索方法和系统
CN106156250A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种搜索热点推荐方法及系统
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
CN106355455A (zh) * 2016-11-18 2017-01-25 北京信息科技大学 一种从网购用户评论中抽取产品特征信息的方法
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索系统
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006127758A2 (en) * 2005-05-26 2006-11-30 Claria Corporation Coordinated related-search feedback that assists search refinement
CN103425691A (zh) * 2012-05-22 2013-12-04 阿里巴巴集团控股有限公司 一种搜索方法和系统
CN105989125A (zh) * 2015-02-16 2016-10-05 苏宁云商集团股份有限公司 对无结果词进行标签识别的搜索方法和系统
CN106156250A (zh) * 2015-04-28 2016-11-23 天脉聚源(北京)科技有限公司 一种搜索热点推荐方法及系统
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
WO2017063538A1 (zh) * 2015-10-12 2017-04-20 广州神马移动信息科技有限公司 挖掘相关词的方法、搜索方法、搜索系统
CN106355455A (zh) * 2016-11-18 2017-01-25 北京信息科技大学 一种从网购用户评论中抽取产品特征信息的方法
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊玲 ; 徐增壮 ; 王潇斌 ; 洪宇 ; 朱巧明 ; .基于共指消解的实体搜索模型研究.中文信息学报.2018,(第05期),全文. *

Also Published As

Publication number Publication date
CN111400577A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN109460455B (zh) 一种文本检测方法及装置
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN109388801A (zh) 相似词集合的确定方法、装置和电子设备
WO2016114790A1 (en) Reading difficulty level based resource recommendation
CN107784069B (zh) 一种用于智能诊断学生知识能力的方法
CN110659352A (zh) 试题考点识别方法及其系统
CN112687403B (zh) 药品词典的生成及药品搜索方法及装置
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
CN108021595B (zh) 检验知识库三元组的方法及装置
CN111008519A (zh) 阅读页面的展示方法、电子设备及计算机存储介质
CN111400577B (zh) 一种搜索召回方法及装置
CN110019702B (zh) 数据挖掘方法、装置和设备
CN110019659B (zh) 裁判文书的检索方法及装置
CN112069388B (zh) 实体推荐方法、系统、计算机设备和计算机可读存储介质
TWI777163B (zh) 表單數據檢測方法、電腦裝置及儲存介質
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
CN114298048A (zh) 命名实体识别方法及装置
Lai et al. An unsupervised approach to discover media frames
CN110717029A (zh) 一种信息处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant