CN103064838B

CN103064838B - 数据搜索方法和装置

Info

Publication number: CN103064838B
Application number: CN201110319237.2A
Authority: CN
Inventors: 韩小梅; 冯景华; 宋超; 陈超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-10-19
Filing date: 2011-10-19
Publication date: 2016-03-30
Anticipated expiration: 2031-10-19
Also published as: CN103064838A

Abstract

本申请公开了一种数据搜索方法和装置，其中，该方法包括：接收包含关键词的查询信息；在数据库中搜索与关键词相对应的核心词；将搜索到的核心词所属的发布信息作为搜索结果进行返回；其中，通过以下步骤预先在数据库中存储核心词与核心词所属的发布信息：接收输入的发布信息，并对发布信息进行分词得到一个或多个词语以及与该词语对应的词性；从分词得到的所有词语中获取词性为预设词性的词语；根据词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来从所获取的词性为预设词性的词语中提取发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在数据库中。本申请解决了搜索召回率较低的问题，提高了召回率。

Description

数据搜索方法和装置

技术领域

本申请涉及互联网领域，具体而言，涉及一种数据搜索方法和装置。

背景技术

随着互联网的发展，用户越来越多地在网站上发布信息，这些发布的信息通常包括以短句的形式存在标题、信息内容等，当其他用户通过网站对某类信息进行搜索时，网站可以通过查找之前发布的信息来将符合搜索条件的信息返回给该用户。为了更快地查找出符合搜索条件的信息，网站需要对之前发布的信息提取核心词(或称为关键词)，然后基于核心词来进行搜索，这样可以缩小查找范围和提高查找的准确度。

在现有的技术中，从发布信息中的短句中提取核心词的方法主要采用的是基于词性标签模板的核心词提取方法，其包括如下步骤：

S1，人工标记大量的模板，例如，模板1为：nnn，其中，n表示名词，第三个词(Term)是核心词；模板2为：nptptn，其中，pt表示普通词，第二个n是核心词；

S2，接收用户输入的短句，并对短句进行分词，得到多个词语以及该词语对应的词性；

S3，将分词得到的词语对应的词性以及词性的位置关系与之前人工标记的模板进行匹配；

S4，若成功匹配到一个标记的模板，则按照该模板的规定来确定用户输入的短句中哪个词作为核心词。例如，当输入的短句为3G苹果手机，通过分词之后得到3个词，即“3G”、“苹果”和“手机”以及上述3个词对应的词性“nnn”；在与模板匹配的过程中，发现该短句中的3个词的词性及其位置关系与模板1相匹配，这样，按照模板1的规定，将该短句中第3个词作为核心词，即，将“手机”作为核心词；

S5，若匹配不到相应的模板，则返回提取失败消息。

然而，上述数据搜索方法存在以下缺陷：

1)上述发布信息中的核心词的提取步骤依赖于人工标识的模板，而由于汉语表达的灵活性和多样性，若要穷尽所有的表达形式，则要事先标记大量的模板，这将导致在进行用户输入的短句与模板匹配时，需要与大量的模板进行匹配，无疑将增加匹配的时间，最终降低搜索的效率。而且通常情况下人工无法标识出所有可能存在的模板，从而导致部分发布信息无法提取出核心词，以便无法将上述部分发布信息与其核心词存储在数据库中。这样，在搜索的过程，部分发布信息即使是查询信息所要搜索的对象，但是，由于预先无法提取出这些发布信息的核心词并将其存储在数据库中，因此使得通过在数据库中搜索到与查询信息中关键词相对应的核心词的方式，无法搜索到上述部分发布信息，从而不能将这些发布信息作为搜索到的结果返回，导致返回的搜索结果的数量较少，发布信息的召回率较低；

2)随着汉语表达的不断更新，需要对模板进行动态的补充和更新，这样需要持续投入大量的人力，从而造成人力成本较高，可升级性差；

3)由于人工标识的模板仅凭人为的经验来规定核心词，因此，往往会造成核心词判断不够准确，从而导致搜索结果也不够准确。

发明内容

本申请的主要目的在于提供一种数据搜索方法和装置，以至少解决现有技术中由于核心词提取不当导致的搜索召回率较低的问题。

根据本申请的一个方面，提供了一种数据搜索方法，其包括：接收包含关键词的查询信息；在数据库中搜索与关键词相对应的核心词；将搜索到的核心词所属的发布信息作为搜索结果进行返回；其中，通过以下步骤预先在数据库中存储核心词与核心词所属的发布信息：接收输入的发布信息，并对发布信息进行分词得到一个或多个词语以及与该词语对应的词性；从分词得到的所有词语中获取词性为预设词性的词语；根据词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来从所获取的词性为预设词性的词语中提取发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在数据库中。

进一步的，根据词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来从所获取的词性为预设词性的词语中提取短句的核心词的步骤包括：如果所获取的词性为预设词性的词语为1个，则将所获取的词性为预设词性的词语确定为发布信息的核心词；如果所获取的词性为预设词性的词语为2个，则根据词性为预设词性的词语的历史统计信息从2个词性为预设词性的词语中确定出发布信息的核心词；如果所获取的词性为预设词性的词语多于2个，则将发布信息中最后一个词性为预设词性的词语确定为发布信息的核心词，并计算发布信息中词性为预设词性的其他词语与最后一个词性为预设词性的词语的相似度，在词性为预设词性的其他词语中的一个与最后一个词性为预设词性的词语的相似度大于第一预定阈值时，将词性为预设词性的其他词语中的一个确定为发布信息的核心词。

进一步的，当2个词性为预设词性的词语包括第一预设词和第二预设词、且第一预设词在发布信息中位于第二预设词之前时，根据词性为预设词性的词语的历史统计信息从2个词性为预设词性的词语中确定出发布信息的核心词的步骤包括：在词性为预设词性的词语的历史统计信息中获取在存在2个词性为预设词性的预词语的情况下位置在前的预设词为核心词的概率与位置在后的预设词为核心词的概率；若位置在前的预设词为核心词的概率大于位置在后的预设词为核心词的概率，则将第一预设词确定为发布信息的核心词；若位置在前的预设词为核心词的概率小于位置在后的预设词为核心词的概率，则将第二预设词确定为发布信息的核心词；若位置在前的预设词为核心词的概率等于位置在后的预设词为核心词的概率，则将第一预设词和第二预设词确定为发布信息的核心词。

进一步的，在根据词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来从所获取的词性为预设词性的词语中提取发布信息的核心词之后，数据搜索方法还包括：判断发布信息是否具有对应的类目标识和供应商标识，其中，类目标识用于指示发布信息位于的类目，供应商标识用于指示发布发布信息的供应商；在多维度特征下对发布信息中待处理的词语进行相关性判断，其中，待处理的词语包括：核心词和词性为修饰词的词语；多维度特征包括以下至少之一：类目的点击率、类目下的词频、供应商的主营行业以及供应商的主营产品；根据相关性判断的结果将核心词的词性标识为修饰词，和/或，将词性为修饰词的词语确定为核心词。

进一步的，通过以下步骤来根据相关性判断的结果将核心词的词性标识为修饰词，和/或，将词性为修饰词的词语确定为核心词：判断待处理的词语在类目下的点击率是否大于第二预定阈值，若大于，则判断出类目的点击率相关，否则，判断出类目的点击率不相关；判断待处理的词语在类目下的词频是否大于第三预定阈值，若大于，则判断出类目的词频相关，否则，判断出类目的词频不相关；判断待处理的词语所在的行业是否属于供应商的主营行业，若属于，则判断出供应商的主营行业相关，否则，判断出供应商的主营行业不相关；判断待处理的词语所在的产品类别是否属于供应商的主营产品，若属于，则判断出供应商的主营产品相关，否则，判断出供应商的主营产品不相关；在类目的点击率相关、类目的词频相关、供应商的主营行业相关以及供应商的主营产品相关时，将待处理的词语中词性为修饰词的词语确定为核心词；在类目的点击率不相关、类目的词频不相关、供应商的主营行业不相关以及供应商的主营产品不相关时，将待处理的词语中的核心词的词性标识为修饰词。

进一步的，从分词得到的所有词语中获取词性为预设词性的词语的步骤包括：从分词得到的所有词语中识别出并列标识符；将相邻两个并列标识符之间的词语划分成一段，同时在每一段中执行获取词性为预设词性的词语的步骤。

进一步的，预设词性包括：产品词。

根据本申请的另一方面，提供了一种数据搜索装置，其包括：创建单元，用于在数据库中存储核心词与核心词所属的发布信息：接收单元，用于接收包含关键词的查询信息；搜索单元，用于在数据库中搜索与关键词相对应的核心词；发送单元，用于将搜索到的核心词所属于的发布信息作为搜索结果进行返回；其中，创建单元包括：分词单元，用于接收用户输入的发布信息，并对发布信息进行分词得到一个或多个词语以及与该词语对应的词性；获取单元，用于从分词得到的所有词语中获取词性为预设词性的词语；提取单元，用于根据词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来从所获取的词性为预设词性的词语中提取发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在数据库中。

进一步的，提取单元包括：判断模块，用于判断所获取的词性为预设词性的词语的个数；提取模块，用于在所获取的词性为预设词性的词语为1个时，将所获取的词性为预设词性的词语确定为发布信息的核心词；在所获取的词性为预设词性的词语为2个时，根据词性为预设词性的词语的历史统计信息从2个词性为预设词性的词语中确定出发布信息的核心词；在所获取的词性为预设词性的词语多于2个时，将发布信息中最后一个词性为预设词性的词语确定为发布信息的核心词，并计算发布信息中词性为预设词性的其他词语与最后一个词性为预设词性的词语的相似度，在词性为预设词性的其他词语中的一个与最后一个词性为预设词性的词语的相似度大于第一预定阈值时，将词性为预设词性的其他词语中的一个确定为发布信息的核心词。

进一步的，当2个词性为预设词性的词语为第一预设词和第二预设词、且第一预设词在发布信息中位于第二预设词之前时，提取模块用于通过以下步骤来根据预设词性的历史统计信息从2个预设词性中确定出发布信息的核心词：在词性为预设词性的词语的历史统计信息中获取在存在2个预设词的情况下位置在前的预设词为核心词的概率与位置在后的预设词为核心词的概率；若位置在前的预设词为核心词的概率大于位置在后的预设词为核心词的概率，则将第一预设词确定为发布信息的核心词；若位置在前的预设词为核心词的概率小于位置在后的预设词为核心词的概率，则将第二预设词确定为发布信息的核心词；若位置在前的预设词为核心词的概率等于位置在后的预设词为核心词的概率，则将第一预设词和第二预设词确定为发布信息的核心词。

进一步的，数据搜索装置还包括：判断单元，用于在根据词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来从所获取的词性为预设词性的词语中提取发布信息的核心词之后，判断发布信息是否具有对应的类目标识和供应商标识，其中，类目标识用于指示发布信息位于的类目，供应商标识用于指示发布发布信息的供应商；相关性处理单元，用于在多维度特征下对发布信息中待处理的词语进行相关性判断，其中，待处理的词语包括：核心词和词性为修饰词的词语；多维度特征包括以下至少之一：类目的点击率、类目下的词频、供应商的主营行业以及供应商的主营产品；根据相关性判断的结果将核心词的词性标识为修饰词，和/或，将词性为修饰词的词语确定为核心词。

进一步的，相关性处理单元用于通过以下步骤来根据相关性判断的结果将核心词的词性标识为修饰词，和/或，将词性为修饰词的词语确定为核心词：判断待处理的词语在类目下的点击率是否大于第二预定阈值，若大于，则判断出类目的点击率相关，否则，判断出类目的点击率不相关；判断待处理的词语在类目下的词频是否大于第三预定阈值，若大于，则判断出类目的词频相关，否则，判断出类目的词频不相关；判断待处理的词语所在的行业是否属于供应商的主营行业，若属于，则判断出供应商的主营行业相关，否则，判断出供应商的主营行业不相关；判断待处理的词语所在的产品类别是否属于供应商的主营产品，若属于，则判断出供应商的主营产品相关，否则，判断出供应商的主营产品不相关；在类目的点击率相关、类目的词频相关、供应商的主营行业相关以及供应商的主营产品相关时，将待处理的词语中词性为修饰词的词语确定为核心词；在类目的点击率不相关、类目的词频不相关、供应商的主营行业不相关以及供应商的主营产品不相关时，将待处理的词语中的核心词的词性标识为修饰词。

进一步的，分词单元包括：识别模块，用于从分词得到的所有词语中识别出并列标识符；获取模块，用于将相邻两个并列标识符之间的词语划分成一段，同时在每一段中获取词性为预设词性的词语。

通过本申请的技术方案，能够达到以下有益效果：

1)本申请通过词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来提取发布信息中的核心词，而不使用人为标记的模板，由于词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度并不是仅针对于某一类短语，而是适用于所有的短句的核心词提取，因此，基于词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度，可以成功地从不同的短句中提取出核心词，从而能够提取所有发布信息中的核心词，并将该核心词及其所属的发布信息存储数据库中。这样，在搜索的过程中，通过在数据库中搜索到与查询信息中关键词相对应的核心词的方式，可以搜索到所有已发布的与查询信息中关键词相对应的发布信息，并将这些发布信息作为搜索到的结果返回，从而增加了返回的搜索结果的数量，提高了发布信息的召回率。进一步，词性为预设词性的词语的历史统计信息反映了每一类的短句中的词性为预设词性的词语在历史统计中作为核心词的概率，从而可以利用该历史统计信息准确地提取出核心词，保证了利用核心词进行搜索得到的搜索结果的准确度；

2)本申请在多维度下对确定的核心词进行了进一步修正，使得在不同场景下能够提取出准确的核心词；

3)本申请对输入的短句进行分段，并同时在每一段中获取词性为产品词的词语，这样在用户输入的短句存在并列的若干段词语的情况下，能够减少提取核心词的时间，提高效率。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的数据搜索系统的一种优选的结构图；

图2是根据本申请实施例的数据搜索装置的一种优选的结构图；

图3是根据本申请实施例的数据搜索方法的一种优选的流程图；

图4是根据本申请实施例的数据搜索方法的另一种优选的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在描述本申请的各实施例的进一步细节之前，将参考图1来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本申请，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本申请。

图1示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的，所绘的体系结构仅为合适环境的一个示例，并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。

本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于，个人计算机、服务器，多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。

在其最基本的配置中，图1中的数据搜索系统100至少包括：一个网站的服务器102以及一个或多个客户端104。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置；客户端104可以包括：微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中，“数据搜索系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。数据搜索系统100甚至可以是分布式的，以实现分布式功能。

如本申请所使用的，术语“模块”、“组件”或“单元”可以指在数据搜索系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在数据搜索系统100上执行(例如，作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现，但是硬件或软件和硬件的组合的实现也是可能并被构想的。

实施例1

如图1所示，数据搜索系统100包括：网站的服务器102和客户端104。在工作过程中，客户端104向服务器102发送发布信息；在接收发布信息之后，服务器102对所述发布信息进行分词得到一个或多个词语以及与该词语对应的词性，从分词得到的所有词语中获取词性为预设词性的词语，并根据词性为所述预设词性的词语的历史统计信息和/或词性为所述预设词性的词语之间的相似度来从所获取的词性为所述预设词性的词语中提取所述发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在所述数据库中。当用户通过客户端104向服务器102发送查询信息时，服务器102在所述数据库中搜索与所述关键词相对应的核心词，并将搜索到的核心词所属于的发布信息作为搜索结果进行返回。

在上述优选的实施例中，通过词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来提取发布信息中的核心词，而不使用人为标记的模板，由于词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度并不是仅针对于某一类短语，而是适用于所有的短句的核心词提取，因此，基于词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度，可以成功地从不同的短句中提取出核心词，从而能够提取所有发布信息中的核心词，并将该核心词及其所属的发布信息存储数据库中。这样，在搜索的过程中，通过在数据库中搜索到与查询信息中关键词相对应的核心词的方式，可以搜索到所有已发布的与查询信息中关键词相对应的发布信息，并将这些发布信息作为搜索到的结果返回，从而增加了返回的搜索结果的数量，提高了发布信息的召回率。进一步，词性为预设词性的词语的历史统计信息反映了每一类的短句中的词性为预设词性的词语在历史统计中作为核心词的概率，从而可以利用该历史统计信息准确地提取出核心词，保证了利用核心词进行搜索得到的搜索结果的准确度。而且，由于本申请实施例不会像现有技术那样在大量的模板中进行匹配，而只是将查询信息中的关键词与发布信息的核心词进行匹配，因此提高了搜索的效率。

在本发明中，预设词性可以包括但不限于：产品词。以下以预设词性为产品词为例来描述各个优选的实施例，当然，可以理解的是以下各个实施例也可以适用于预设词性为其他词的场景。

本申请提出了一种优选的数据搜索装置，其位于服务器102中，如图2所示，根据本申请实施例的数据搜索装置包括：创建单元200，用于在数据库中存储核心词与核心词所属的发布信息；接收单元208，用于接收包含关键词的查询信息；搜索单元，用于在所述数据库中搜索与所述关键词相对应的核心词；发送单元210，用于将搜索到的核心词所属于的发布信息作为搜索结果进行返回。

其中，创建单元200包括：分词单元202，用于接收用户输入的发布信息，并对所述发布信息进行分词得到一个或多个词语以及与该词语对应的词性；获取单元204，用于从分词得到的所有词语中获取词性为产品词的词语；提取单元206，用于根据所述产品词的历史统计信息和/或所述产品词之间的相似度来从所获取的产品词中提取所述发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在所述数据库中。

在上述优选的实施例中，通过产品词的历史统计信息和/或产品词之间的相似度来提取发布信息中的核心词，而不使用人为标记的模板，由于产品词的历史统计信息和/或产品词之间的相似度并不是仅针对于某一类短语，而是适用于所有的短句的核心词提取，因此，基于产品词的历史统计信息和/或产品词之间的相似度，可以成功地从不同的短句中提取出核心词，从而能够提取所有发布信息中的核心词，并将该核心词及其所属的发布信息存储数据库中。这样，在搜索的过程中，通过在数据库中搜索到与查询信息中关键词相对应的核心词的方式，可以搜索到所有已发布的与查询信息中关键词相对应的发布信息，并将这些发布信息作为搜索到的结果返回，从而增加了返回的搜索结果的数量，提高了发布信息的召回率。进一步，产品词的历史统计信息反映了每一类的短句中的产品词在历史统计中作为核心词的概率，从而可以利用该历史统计信息准确地提取出核心词，保证了利用核心词进行搜索得到的搜索结果的准确度。

为了适用于所有不同类别的发布信息，本申请还对提取单元进行了改进，其对于不同个数的产品词，采用不同的提取方法，从而能够在不同应用场景下实现对发布信息的核心词的提取，避免了在不同的应用场景下开发不同的模板，提高了方案的移植性。具体而言，提取单元206包括判断模块2061，用于判断所获取的产品词的个数；提取模块2062，用于在所获取的产品词为1个时，将所获取的产品词确定为所述发布信息的核心词；在所获取的产品词为2个时，根据产品词的历史统计信息从所述2个产品词中确定出所述发布信息的核心词；在所获取的产品词多于2个时，将所述发布信息中最后一个产品词确定为所述发布信息的核心词，并计算所述发布信息中其他产品词与所述最后一个产品词的相似度，在所述其他产品词中的一个与所述最后一个产品词的相似度大于第一预定阈值时，将所述其他产品词中的所述一个确定为所述发布信息的核心词。

当然，上述实施例中提到的“在所获取的产品词为2个时，采用产品词的历史统计信息进行核心词的提取；在所获取的产品词多于2个时，采用相似度来进行核心词的提取”这只是一种示例，本申请不仅限于此，例如，可以在所获取的产品词为N个时，采用产品词的历史统计信息进行核心词的提取；在所获取的产品词多于N个时，采用相似度来进行核心词的提取，其中，N≥3。优选的，上述相似度的计算可以采用现有技术中的计算方式，本申请对此不作限定。

优选的，上述历史统计信息可以来自于服务器存储的历史上对核心词提取的统计信息。

本申请还对提取模块2062做出了进一步改进，其中，提取模块2062利用了产品词的历史统计信息来计算每一类发布信息中的产品词在历史统计中作为核心词的概率，从而可以利用该历史统计信息准确地提取出核心词，保证了利用核心词进行搜索得到的搜索结果的准确度。具体而言，当所述2个产品词为第一产品词和第二产品词、且所述第一产品词在所述发布信息中位于第二产品词之前时，提取模块2062用于通过以下步骤来根据产品词的历史统计信息从所述2个产品词中确定出所述发布信息的核心词：在产品词的历史统计信息中获取在存在2个产品词的情况下位置在前的产品词为核心词的概率与位置在后的产品词为核心词的概率；若所述位置在前的产品词为核心词的概率大于所述位置在后的产品词为核心词的概率，则将所述第一产品词确定为所述发布信息的核心词；若所述位置在前的产品词为核心词的概率小于所述位置在后的产品词为核心词的概率，则将所述第二产品词确定为所述发布信息的核心词；若所述位置在前的产品词为核心词的概率等于所述位置在后的产品词为核心词的概率，则将所述第一产品词和所述第二产品词确定为所述发布信息的核心词。

此外，本申请还在多维度下对核心词进行了进一步修正，使得在不同场景下能够提取出准确的核心词。为了实现上述目的，本申请提供了一种优选的在发布信息中提取核心词的装置，其在上述各个实施例的基础上，还包括：判断单元212，用于在根据产品词的历史统计信息和/或产品词之间的相似度来从所获取的产品词中提取所述发布信息的核心词之后，判断所述发布信息是否具有对应的类目标识和供应商标识，其中，所述类目标识用于指示所述发布信息位于的类目，所述供应商标识用于指示发布所述发布信息的供应商；相关性处理单元214，用于在多维度特征下对所述发布信息中待处理的词语进行相关性判断，其中，所述待处理的词语包括：所述核心词和词性为修饰词的词语；所述多维度特征包括以下至少之一：所述类目的点击率、所述类目的产品词频、所述供应商的主营行业以及所述供应商的主营产品；根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词。

优选的，所述相关性处理单元214用于通过以下步骤来根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词：

S1，判断所述待处理的词语在所述类目下的点击率是否大于第二预定阈值，若大于，则判断出所述类目的点击率相关，否则，判断出所述类目的点击率不相关；

S2，判断所述待处理的词语在所述类目下的产品词频次是否大于第三预定阈值，若大于，则判断出所述类目的产品词频相关，否则，判断出所述类目的产品词频不相关；

S3，判断所述待处理的词语所在的行业是否属于所述供应商的主营行业，若属于，则判断出所述供应商的主营行业相关，否则，判断出所述供应商的主营行业不相关；

S4，判断所述待处理的词语所在的产品类别是否属于所述供应商的主营产品，若属于，则判断出所述供应商的主营产品相关，否则，判断出所述供应商的主营产品不相关；

S5，在所述类目的点击率相关、所述类目的产品词频相关、所述供应商的主营行业相关以及所述供应商的主营产品相关时，将所述待处理的词语中所述词性为修饰词的词语确定为核心词；

S6，在所述类目的点击率不相关、所述类目的产品词频不相关、所述供应商的主营行业不相关以及所述供应商的主营产品不相关时，将所述待处理的词语中的所述核心词的词性标识为修饰词。

当然，本申请对S1-S4、S5-S6执行顺序不做限定，例如，还可以按照S4-S1、S6-S5的顺序来执行。

为了进一步减少提取核心词的时间，本申请对分词单元进行了进一步改进。具体而言，分词单元202可以包括：识别模块2021，用于从分词得到的所有词语中识别出并列标识符；获取模块2022，用于将相邻两个并列标识符之间的所述词语划分成一段，同时在每一段中获取词性为产品词的词语。在本优选的实施例中，在用户输入的发布信息存在并列的若干段词语的情况下，通过同时在每一段中获取词性为产品词的词语，能够减少提取核心词的时间，提高效率。

优选的，本申请中的分词方法可以采用现有技术中的分词方法，本申请对此，不做限定。

在本申请的各个实施例中，发布信息中的词语的词性主要包括但不限于：CP(产品词)、CP_CORE(产品核心词)、CP_XIUSHI(产品修饰词)、XS(一般性修饰词)、PP(品牌词)、XH(型号词)、QH(区划词)、BL(并列词)、以及PT(普通词)。

实施例2

在图1-图2所示的数据搜索系统和装置的基础上，本申请还提供了一种数据搜索方法，如图3所示，其包括如下步骤：

S302，接收包含关键词的查询信息；

S304，在数据库中搜索与关键词相对应的核心词；优选的，通过以下步骤预先在数据库中存储核心词与核心词所属的发布信息：接收输入的发布信息，并对发布信息进行分词得到一个或多个词语以及与该词语对应的词性；从分词得到的所有词语中获取词性为预设词性的词语；根据词性为所述预设词性的词语的历史统计信息和/或词性为所述预设词性的词语之间的相似度来从所获取的词性为所述预设词性的词语中提取发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在数据库中；

S306，将搜索到的核心词所属的发布信息作为搜索结果进行返回。

在上述优选的实施例中，通过词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来提取发布信息中的核心词，而不使用人为标记的模板，由于词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度并不是仅针对于某一类短语，而是适用于所有的短句的核心词提取，因此，基于词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度，可以成功地从不同的短句中提取出核心词，从而能够提取所有发布信息中的核心词，并将该核心词及其所属的发布信息存储数据库中。这样，在搜索的过程中，通过在数据库中搜索到与查询信息中关键词相对应的核心词的方式，可以搜索到所有已发布的与查询信息中关键词相对应的发布信息，并将这些发布信息作为搜索到的结果返回，从而增加了返回的搜索结果的数量，提高了发布信息的召回率。进一步，产品词的历史统计信息反映了每一类的短句中的词性为预设词性的词语在历史统计中作为核心词的概率，从而可以利用该历史统计信息准确地提取出核心词，保证了利用核心词进行搜索得到的搜索结果的准确度。而且，由于本申请实施例不会像现有技术那样在大量的模板中进行匹配，而只是将查询信息中的关键词与发布信息的核心词进行匹配，因此提高了搜索的效率。

为了适用于所有不同类别的发布信息，本申请还对上述的提取步骤进行了改进，其对于不同个数的产品词，采用不同的提取方法，从而能够在不同应用场景下实现对发布信息的核心词的提取，避免了在不同的应用场景下开发不同的模板，提高了方案的移植性。具体而言，根据产品词的历史统计信息和/或产品词之间的相似度来从所获取的产品词中提取所述发布信息的核心词的步骤包括：如果所获取的产品词为1个，则将所获取的产品词确定为所述发布信息的核心词；如果所获取的产品词为2个，则根据产品词的历史统计信息从所述2个产品词中确定出所述发布信息的核心词；如果所获取的产品词多于2个，则将所述发布信息中最后一个产品词确定为所述发布信息的核心词，并计算所述发布信息中其他产品词与所述最后一个产品词的相似度，在所述其他产品词中的一个与所述最后一个产品词的相似度大于第一预定阈值时，将所述其他产品词中的所述一个确定为所述发布信息的核心词。

本申请还对根据产品词的历史统计信息从所述2个产品词中确定出所述发布信息的核心词的步骤做出了进一步改进，其中，利用了产品词的历史统计信息来计算每一类发布信息中的产品词在历史统计中作为核心词的概率，从而可以利用该历史统计信息准确地提取出核心词，保证了利用核心词进行搜索得到的搜索结果的准确度。具体而言，当所述2个产品词为第一产品词和第二产品词、且所述第一产品词在所述发布信息中位于第二产品词之前时，根据产品词的历史统计信息从所述2个产品词中确定出所述发布信息的核心词的步骤包括：在产品词的历史统计信息中获取在存在2个产品词的情况下位置在前的产品词为核心词的概率与位置在后的产品词为核心词的概率；若所述位置在前的产品词为核心词的概率大于所述位置在后的产品词为核心词的概率，则将所述第一产品词确定为所述发布信息的核心词；若所述位置在前的产品词为核心词的概率小于所述位置在后的产品词为核心词的概率，则将所述第二产品词确定为所述发布信息的核心词；若所述位置在前的产品词为核心词的概率等于所述位置在后的产品词为核心词的概率，则将所述第一产品词和所述第二产品词确定为所述发布信息的核心词。

此外，本申请还在多维度下对核心词进行了进一步修正，使得在不同场景下能够提取出准确的核心词。为了实现上述目的，在根据产品词的历史统计信息和/或产品词之间的相似度来从所获取的产品词中提取所述发布信息的核心词之后，还包括：判断所述发布信息是否具有对应的类目标识和供应商标识，其中，所述类目标识用于指示所述发布信息位于的类目，所述供应商标识用于指示发布所述发布信息的供应商；在多维度特征下对所述发布信息中待处理的词语进行相关性判断，其中，所述待处理的词语包括：所述核心词和词性为修饰词的词语；所述多维度特征包括以下至少之一：所述类目的点击率、所述类目的产品词频、所述供应商的主营行业以及所述供应商的主营产品；根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词。

优选的，通过以下步骤来根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词：

为了进一步减少提取核心词的时间，本申请对分词步骤进行了进一步改进。具体而言，从分词得到的所有词语中获取词性为产品词的词语的步骤包括：从分词得到的所有词语中识别出并列标识符；将相邻两个并列标识符之间的所述词语划分成一段，同时在每一段中执行获取词性为产品词的词语的步骤。在本优选的实施例中，在用户输入的发布信息存在并列的若干段词语的情况下，通过同时在每一段中获取词性为产品词的词语，能够减少提取核心词的时间，提高效率。

实施例3

为了更好的理解本申请，下面结合附图来描述数据搜索方法中的一种优选的核心词提取方法，如图4所示，根据本申请实施例的提取核心词的方法包括如下步骤：

S402，接收用户输入的短句(其中，类目标识、供应商标识为可选)以作为发布信息。例如，输入的短句为：供应mp3\mp4车载发射器；

S404，对短句进行分词。优选的，本申请中的分词方法可以采用现有技术中的分词方法，本申请对此，不做限定。例如，对上述短句“供应mp3\mp4车载发射器”分词之后得到多个词语及每个词语对应的词性，如下表所示：

词语(Term)	词性
		供应	FW
Mp3	CP_XIUSHI
		\	BL
Mp4	CP_XIUSHI
		车载	XS
发射器	CP_CORE

S406，上下文无关词性计算

在本实施例中，上述上下文无关词性运维词表可以对分词过程中计算错误的词性进行修正。优选的，可以根据分词之后返回的每个词的词性，将每一个词赋予一个上下文无关词性，具体的规则如下：如果分词之后返回的词的CP成分比例大于8％，则上下文无关词性是CP，否则是XS。如果分词之后返回的词的词性是PP、XH、QH，则上下文无关词性对应也是PP、XH、QH。

S408，对短句进行分段。优选的，对于分词之后的每一个词，查找上下文无关词性运维词表(该表记录了并列标识符，例如，逗号、空格、词语“并”或“并且”等)，当该词属于上下文无关词性运维词表中的并列标识符时，将该词识别为并列词；然后，基于并列词对短句进行分段，将相邻两个并列标识符之间的所述词语划分成一段，并在每段内进行上下文相关词性计算。

S410，在每段内进行上下文相关词性计算。

对于每一段，如果段内有多个词具有CP词性，则将其中最后一个词的词性置为CP_CORE，其余词的词性置为CP_XIUSHI。每个词的重要性打分依据词性进行，具体方法是：

1)从IDF词典中获取该词的独立分(score)，没有则为0分(score＝0)；

2)如果是最后一个词，加上10分，算出当前得分score；

3)如果是产品核心词，为100+score；

4)如果是品牌词，为80+score；

5)如果是型号词，为60+score；

6)如果是产品修饰词，为40+score；

7)如果是区划词，为20+score；

8)如果是并列符合，左括号右括号，直接设置为0分；

9)如果是普通词，则为5+score。

评分的结果可以如下表所示：

词语(Term)	词性	重要性
			供应	FW	20
Mp3	CP_XIUSHI	90
			\	BL	0
Mp4	CP_XIUSHI	90
			车载	XS	40
发射器	CP_CORE	150

其中，如果一个词对于原短句的表意能力越强，则分数越高。一般来说各类词性的重要性排序为：CP_CORE＞PP＞XH＞CP_XIUSHI＞QH＞XS＞PT。

S412，在多维度下进行核心词的修正

如果用户输入的短句时还输入了对应的类目id和供应商id，则执行在多维度下进行核心词的修正。对于短句中每一个CP_CORE和CP_XIUSHI词，在以下几个特征维度下进行相关性判断，其中，本申请中的特征维度包括但不限于：所述类目的点击率、所述类目的产品词频、所述供应商的主营行业以及所述供应商的主营产品。具体判断规则如下表所示：

其中，公司库信息：公司信息，其一般包含用户名(userid)、公司名、供应商的主营行业、供应商的主营产品等字段。类目点击词典：Key是Query，Value是各个类目对应的点击率，其可以衡量产品词在类目下的相关程度。类目下产品词：Key是类目id，Value是各个产品词出现的频次，其可以衡量产品词在类目下的相关程度。

在多维度下进行核心词的修正时，如果特征维度1)到特征维度4)均相关，则把CP_XIUSHI提升为CP_CORE；如果特征维度1)到特征维度4)均不相关，则把CP_CORE降为CP_XIUSHI。如果特征维度1)到特征维度4)均相关，则把该term设为受信任词，并且把该词对应的怀疑规则中的词全部标记为CP_XIUSHI，同时修改term对应的重要性打分，从而得到最后结果。

在本实施例中，怀疑规则：根据机器挖掘和人工审核生成的一份词表。其中记录了每一个词可能对周边产品词。比如：洗衣机可以包含如下周边词：v带传感器减速器减震器出水管制动轮加热管吊杆地漏外壳定时器开关弹簧托架投币器拖架排水泵排水管。

在本实施例中，上述作为阈值的0.05和0.01只是一个示例，本申请不仅限于此，还可以根据需求来调整上述阈值。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据搜索方法，其特征在于，包括：

接收包含关键词的查询信息；

在数据库中搜索与所述关键词相对应的核心词；

将搜索到的核心词所属的发布信息作为搜索结果进行返回；

其中，通过以下步骤预先在所述数据库中存储核心词与核心词所属的发布信息：

接收输入的发布信息，并对所述发布信息进行分词得到一个或多个词语以及与该词语对应的词性；

从分词得到的所有词语中获取词性为预设词性的词语；

根据词性为所述预设词性的词语的历史统计信息和/或词性为所述预设词性的词语之间的相似度来从所获取的词性为所述预设词性的词语中提取所述发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在所述数据库中；

其中，在根据所述词性为所述预设词性的词语的历史统计信息和/或所述词性为所述预设词性的词语之间的相似度来从所获取的词性为所述预设词性的词语中提取所述发布信息的核心词之后，还包括：判断所述发布信息是否具有对应的类目标识和供应商标识，其中，所述类目标识用于指示所述发布信息位于的类目，所述供应商标识用于指示发布所述发布信息的供应商；在多维度特征下对所述发布信息中待处理的词语进行相关性判断，其中，所述待处理的词语包括：所述核心词和词性为修饰词的词语；所述多维度特征包括以下至少之一：所述类目的点击率、所述类目下的词频、所述供应商的主营行业以及所述供应商的主营产品；根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词。

2.根据权利要求1所述的方法，其特征在于，根据词性为所述预设词性的词语的历史统计信息和/或词性为所述预设词性的词语之间的相似度来从所获取的词性为所述预设词性的词语中提取所述发布信息的核心词的步骤包括：

如果所获取的词性为所述预设词性的词语为1个，则将所获取的词性为所述预设词性的词语确定为所述发布信息的核心词；

如果所获取的词性为所述预设词性的词语为2个，则根据词性为所述预设词性的词语的历史统计信息从所述2个词性为所述预设词性的词语中确定出所述发布信息的核心词；

如果所获取的词性为所述预设词性的词语多于2个，则将所述发布信息中最后一个词性为所述预设词性的词语确定为所述发布信息的核心词，并计算所述发布信息中词性为所述预设词性的其他词语与所述最后一个词性为所述预设词性的词语的相似度，在所述词性为所述预设词性的其他词语中的一个与所述最后一个词性为所述预设词性的词语的相似度大于第一预定阈值时，将所述词性为所述预设词性的其他词语中的所述一个确定为所述发布信息的核心词。

3.根据权利要求2所述的方法，其特征在于，当所述2个词性为所述预设词性的词语包括第一预设词和第二预设词、且所述第一预设词在所述发布信息中位于第二预设词之前时，根据词性为所述预设词性的词语的历史统计信息从所述2个词性为所述预设词性的词语中确定出所述发布信息的核心词的步骤包括：

在所述词性为所述预设词性的词语的历史统计信息中获取在存在2个词性为所述预设词性的预词语的情况下位置在前的预设词为核心词的概率与位置在后的预设词为核心词的概率；

若所述位置在前的预设词为核心词的概率大于所述位置在后的预设词为核心词的概率，则将所述第一预设词确定为所述发布信息的核心词；

若所述位置在前的预设词为核心词的概率小于所述位置在后的预设词为核心词的概率，则将所述第二预设词确定为所述发布信息的核心词；

若所述位置在前的预设词为核心词的概率等于所述位置在后的预设词为核心词的概率，则将所述第一预设词和所述第二预设词确定为所述发布信息的核心词。

4.根据权利要求1所述的方法，其特征在于，通过以下步骤来根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词：

判断所述待处理的词语在所述类目下的点击率是否大于第二预定阈值，若大于，则判断出所述类目的点击率相关，否则，判断出所述类目的点击率不相关；

判断所述待处理的词语在所述类目下的词频是否大于第三预定阈值，若大于，则判断出所述类目的词频相关，否则，判断出所述类目的词频不相关；

判断所述待处理的词语所在的行业是否属于所述供应商的主营行业，若属于，则判断出所述供应商的主营行业相关，否则，判断出所述供应商的主营行业不相关；

判断所述待处理的词语所在的产品类别是否属于所述供应商的主营产品，若属于，则判断出所述供应商的主营产品相关，否则，判断出所述供应商的主营产品不相关；

在所述类目的点击率相关、所述类目的词频相关、所述供应商的主营行业相关以及所述供应商的主营产品相关时，将所述待处理的词语中所述词性为修饰词的词语确定为核心词；

在所述类目的点击率不相关、所述类目的词频不相关、所述供应商的主营行业不相关以及所述供应商的主营产品不相关时，将所述待处理的词语中的所述核心词的词性标识为修饰词。

5.根据权利要求1所述的方法，其特征在于，从分词得到的所有词语中获取词性为预设词性的词语的步骤包括：

从分词得到的所有词语中识别出并列标识符；

将相邻两个并列标识符之间的所述词语划分成一段，同时在每一段中执行获取词性为预设词性的词语的步骤。

6.根据权利要求1所述的方法，其特征在于，所述预设词性包括：产品词。

7.一种数据搜索装置，其特征在于，包括：

创建单元，用于在数据库中存储核心词与核心词所属的发布信息：

接收单元，用于接收包含关键词的查询信息；

搜索单元，用于在所述数据库中搜索与所述关键词相对应的核心词；

发送单元，用于将搜索到的核心词所属于的发布信息作为搜索结果进行返回；

其中，所述创建单元包括：

分词单元，用于接收用户输入的发布信息，并对所述发布信息进行分词得到一个或多个词语以及与该词语对应的词性；

获取单元，用于从分词得到的所有词语中获取词性为预设词性的词语；

提取单元，用于根据词性为所述预设词性的词语的历史统计信息和/或词性为所述预设词性的词语之间的相似度来从所获取的词性为所述预设词性的词语中提取所述发布信息的核心词，并将该核心词与该核心词所属的发布信息存储在所述数据库中；

其中，所述装置还包括：判断单元，用于在根据词性为所述预设词性的词语的历史统计信息和/或词性为所述预设词性的词语之间的相似度来从所获取的词性为所述预设词性的词语中提取所述发布信息的核心词之后，判断所述发布信息是否具有对应的类目标识和供应商标识，其中，所述类目标识用于指示所述发布信息位于的类目，所述供应商标识用于指示发布所述发布信息的供应商；相关性处理单元，用于在多维度特征下对所述发布信息中待处理的词语进行相关性判断，其中，所述待处理的词语包括：所述核心词和词性为修饰词的词语；所述多维度特征包括以下至少之一：所述类目的点击率、所述类目下的词频、所述供应商的主营行业以及所述供应商的主营产品；根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词。

8.根据权利要求7所述的装置，其特征在于，所述提取单元包括：

判断模块，用于判断所获取的词性为所述预设词性的词语的个数；

提取模块，用于在所获取的词性为所述预设词性的词语为1个时，将所获取的词性为所述预设词性的词语确定为所述发布信息的核心词；在所获取的词性为所述预设词性的词语为2个时，根据词性为所述预设词性的词语的历史统计信息从所述2个词性为所述预设词性的词语中确定出所述发布信息的核心词；在所获取的词性为所述预设词性的词语多于2个时，将所述发布信息中最后一个词性为所述预设词性的词语确定为所述发布信息的核心词，并计算所述发布信息中词性为所述预设词性的其他词语与所述最后一个词性为所述预设词性的词语的相似度，在所述词性为所述预设词性的其他词语中的一个与所述最后一个词性为所述预设词性的词语的相似度大于第一预定阈值时，将所述词性为所述预设词性的其他词语中的所述一个确定为所述发布信息的核心词。

9.根据权利要求8所述的装置，其特征在于，当所述2个词性为所述预设词性的词语为第一预设词和第二预设词、且所述第一预设词在所述发布信息中位于第二预设词之前时，所述提取模块用于通过以下步骤来根据预设词性的历史统计信息从所述2个预设词性中确定出所述发布信息的核心词：

在词性为所述预设词性的词语的历史统计信息中获取在存在2个预设词的情况下位置在前的预设词为核心词的概率与位置在后的预设词为核心词的概率；

10.根据权利要求7所述的装置，其特征在于，所述相关性处理单元用于通过以下步骤来根据相关性判断的结果将所述核心词的词性标识为修饰词，和/或，将所述词性为修饰词的词语确定为核心词：

11.根据权利要求7所述的装置，其特征在于，所述分词单元包括：

识别模块，用于从分词得到的所有词语中识别出并列标识符；

获取模块，用于将相邻两个并列标识符之间的所述词语划分成一段，同时在每一段中获取词性为预设词性的词语。