CN111931034A

CN111931034A - 数据搜索方法、装置、设备及存储介质

Info

Publication number: CN111931034A
Application number: CN202010857993.XA
Authority: CN
Inventors: 赵铭鑫; 黄斌; 朱健琛; 李晨; 黄泽谦; 王一径; 罗勋; 朱宗磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-11-13
Anticipated expiration: 2040-08-24
Also published as: CN111931034B

Abstract

本申请实施例公开了一种数据搜索方法、装置、设备及存储介质，属于人工智能技术领域。所述方法包括：获取搜索文本；对搜索文本进行切词处理，得到至少一个单粒度词，单粒度词是指包含单个信息量的词；分别对单粒度词进行实体识别处理和相邻单粒度词合并处理，得到至少一个多粒度词，多粒度词是指包含多个单粒度词的词；基于单粒度词和多粒度词，确定搜索文本对应的搜索结果。本申请实施例通过结合单粒度词和多粒度词确定搜索结果，搜索的时候不仅考虑了单粒度词，而且还考虑了多粒度词，提高了紧邻结果被优先召回的概率，使得最终的搜索结果与搜索文本更相关，从而提高了搜索准确率。

Description

数据搜索方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种数据搜索方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，用户可以在浏览器中输入搜索文本，以使得浏览器基于该搜索文本显示搜索结果。

在相关技术中，浏览器中的搜索引擎首先会调用分词模型对用户输入的搜索文本进行切分，得到至少一个单粒度词；然后搜索引擎会基于上述至少一个单粒度词在倒排文件中进行搜索，得到上述至少一个单粒度词分别对应的倒排列表；然后搜索引擎会对上述至少一个单粒度词分别对应的倒排列表进行求交集处理，得到上述搜索文本对应的搜索结果；最后搜索引擎将该搜索结果反馈给用户。

然而，上述搜索引擎直接基于每个单粒度词分别对应的倒排列表进行搜索，由于倒排列表较长，会导致最终截取的搜索结果准确率较差。

发明内容

本申请实施例提供了一种数据搜索方法、装置、设备及存储介质，提高了搜索准确率。技术方案如下：

根据本申请实施例的一个方面，提供一种数据搜索方法，所述方法包括：

获取搜索文本；

对所述搜索文本进行切词处理，得到至少一个单粒度词，所述单粒度词是指包含单个信息量的词；

分别对所述单粒度词进行实体识别处理和相邻单粒度词合并处理，得到至少一个多粒度词，所述多粒度词是指包含多个单粒度词的词；

基于所述单粒度词和所述多粒度词，确定所述搜索文本对应的搜索结果。

根据本申请实施例的一个方面，提供一种数据搜索装置，所述装置包括：

文本获取模块，用于获取搜索文本；

文本切词模块，用于对所述搜索文本进行切词处理，得到至少一个单粒度词，所述单粒度词是指包含单个信息量的词；

多粒度词确定模块，用于分别对所述单粒度词进行实体识别处理和相邻单粒度词合并处理，得到至少一个多粒度词，所述多粒度词是指包含多个单粒度词的词；

结果确定模块，用于基于所述单粒度词和所述多粒度词，确定所述搜索文本对应的搜索结果。

根据本申请实施例的一个方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的数据搜索方法。

根据本申请实施例的一个方面，提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的数据搜索方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述数据搜索方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过结合单粒度词和多粒度词确定搜索结果，搜索的时候不仅考虑了单粒度词，而且还考虑了多粒度词，提高了紧邻结果被优先召回的概率，使得最终的搜索结果与搜索文本更相关，从而提高了搜索准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的数据搜索系统的示意图；

图2是本申请一个实施例提供的搜索界面的示意图；

图3是本申请一个实施例提供的数据搜索方法的流程图；

图4是本申请一个实施例提供的语法树的示意图；

图5是本申请另一个实施例提供的数据搜索方法的流程图；

图6是本申请一个实施例提供的多粒度词确定方法的流程图；

图7是本申请一个实施例提供的合并倒排列表的确定流程的示意图；

图8是本申请一个实施例提供的数据搜索架构的示意图；

图9是本申请一个实施例提供的数据搜索装置的框图；

图10是本申请另一个实施例提供的数据搜索装置的框图；

图11是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术，下面将对本申请实施例提供的技术方案进行介绍说明。

图1示出了本申请一个实施例提供的数据搜索系统的示意图，该数据搜索系统可以包括终端10和服务器20。

终端10可以是诸如手机、平板电脑、PC(Personal Computer，个人计算机)、可穿戴设备等电子设备。用户可以通过终端10接入服务器20，并进行数据搜索操作。例如，终端10中可以安装目标应用程序的客户端，用户可以通过该客户端接入服务器20，并进行数据搜索操作。上述目标应用程序可以是任何提供数据搜索服务的应用程序，如搜索类应用程序、社交类应用程序、即时通信类应用程序、生活服务类应用程序、新闻资讯类应用程序等，本申请实施例对此不作限定。

服务器20可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。服务器20用于为终端10中的目标应用程序的客户端提供后台服务。例如，服务器20可以是上述目标应用程序的后台服务器。

终端10和服务器20之间可以通过网络进行通信，该网络可以是无线网络，也可以是有线网络，本申请实施例对此不作限定。

示例性地，如图2所示，目标应用程序的客户端显示搜索界面21，用户在该搜索界面21的搜索输入栏22中输入了一个搜索文本“上清湾”。客户端将该搜索文本“上清湾”发送给服务器20。服务器20对该搜索文本“上清湾”进行切词处理，得到3个单粒度词：“上”、“清”、“湾”，然后服务器20根据上述“上”、“清”和“湾”得到多粒度词“上清湾”，服务器20根据“上”、“清”、“湾”和“上清湾”，得到搜索文本“上清湾”相对应的搜索结果。之后，服务器20将该搜索结果发送给客户端在搜索界面21中进行展示。

当然，在可能的实现方式中，可以由终端10对搜索文本进行切词处理，得到至少一个单粒度词，然后根据该至少一个单粒度词得到至少一个多粒度词，最后基于上述单粒度词和多粒度词确定搜索文本对应的搜索结果。示例性地，上述步骤可以由终端中的目标应用程序的客户端来执行。

为了便于说明，下面将以本申请的执行主体为计算机设备为例进行介绍说明，该计算机设备包括服务器和终端，在可能的实现方式中，本申请的执行主体可以是终端中的目标应用程序的客户端。

请参考图3，其示出了本申请一个实施例提供的数据搜索方法的流程图，该方法可以由计算机设备执行，该方法可以包括如下几个步骤：

步骤301，获取搜索文本。

搜索文本是指进行数据搜索时的搜索依据，计算机设备基于搜索文本进行数据搜索。搜索文本还可以被称之为Query(查询)。搜索文本可以是用户输入的文本，例如，搜索文本可以是用户在搜索界面的搜索输入栏中输入的文本，也可以是用户通过语音输入然后由语音转换为文字的文本。搜索文本可以包括中文、英文、法语、德语、西班牙语等任意一种语言中的至少一种，本申请实施例对搜索文本中包括的语言类型不作限定。搜索文本可以是任意长度的文本，也可以是预设长度的文本，本申请实施例对此不作限定。

步骤302，对搜索文本进行切词处理，得到至少一个单粒度词。

粒度是衡量文本所含信息量的大小，文本所含信息量多，粒度就大；文本所含信息量少，粒度就小。在本申请实施例中，单粒度词是指包含单个信息量的词，单粒度词是指粒度为单粒度的词，例如，单粒度词包括“缠绵”、“崎岖”、“葡萄”、“小”、“大”等。

在可能的实现方式中，切词处理方法包括以下任意一项：基于词典分词算法、基于统计的机器学习算法、Jieba分词。基于词典分词算法是按照一定的策略将搜索文本和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词；基于词典的分词算法包括以下任意一项：正向最大匹配法、逆向最大匹配法和双向匹配分词法。基于统计的机器学习算法包括以下任意一项：HMM(Hidden Markov Model，隐马尔科夫模型)、CRF(Conditional Random Fields，条件随机场)、SVM(Support VectorMachine，支持向量机)、深度学习。

示例性地，假设搜索文本为“上清湾”，对“上清湾”进行切词处理，得到“上”、“清”、“湾”三个单粒度词。

步骤303，分别对单粒度词进行实体识别处理和相邻单粒度词合并处理，得到至少一个多粒度词。

在本申请实施例中，多粒度词是指包含多个单粒度词的词，示例性地，多粒度词在整体上仅包含单个信息量，但该多粒度词能够拆分成多个单粒度词。例如，多粒度词“笔记本电脑”能够拆分成“笔记”、“本”和“电脑”三个单粒度词，多粒度词“跳绳”能够拆分成“跳”和“绳”两个单粒度词，“鼠标垫”能够拆分成“鼠标”和“垫”两个单粒度词。

实体识别是指判断文本是否为有特定意义的实体，例如，是否是人名、地名、机构名等。

相邻单粒度词合并处理是指将相邻的多个单粒度词合并为一个词的处理过程。示例性地，假设单粒度词包括：A、B、C，对A、B、C进行相邻单粒度词合并处理，得到AB、BC、ABC。

仍然以上述示例为例，计算机设备分别对“上”、“清”、“湾”三个单粒度词进行实体识别处理和相邻单粒度词合并处理，得到多粒度词“上清湾”。

步骤304，基于单粒度词和多粒度词，确定搜索文本对应的搜索结果。

搜索结果是指基于搜索文本确定的结果。在可能的实现方式中，搜索结果以文档的形式表现，文档涵盖不同形式。

仍然以上述示例为例，计算机设备根据“上”、“清”、“湾”、“上清湾”，确定搜索文本“上清湾”对应的搜索结果。在可能的实现方式中，计算机设备通过如图4所示的语法树根据“上”、“清”、“湾”、“上清湾”，得到搜索文本“上清湾”对应的搜索结果，计算机设备将包含“上”的文档、包含“清”的文档、包含“湾”的文档通过“and”节点进行求交集处理，得到同时包含“上”、“清”、“湾”的文档；将该同时包含“上”、“清”、“湾”的文档与包含“上清湾”的文档通过“union”节点进行联合处理，优先获取包含“上清湾”的文档，从而得到搜索文本“上清湾”对应的搜索结果。

综上所述，本申请实施例提供的技术方案中，通过结合单粒度词和多粒度词确定搜索结果，搜索的时候不仅考虑了单粒度词，而且还考虑了多粒度词，提高了紧邻结果被优先召回的概率，使得最终的搜索结果与搜索文本更相关，从而提高了搜索准确率。

请参考图5，其示出了本申请另一个实施例提供的数据搜索方法的流程图，该方法可以由计算机设备执行，该方法可以包括如下几个步骤：

步骤501，获取搜索文本。

有关步骤501的介绍说明可参见上文实施例，此处不再赘述。

步骤502，对搜索文本进行切词处理，得到至少一个单粒度词。

在本申请实施例中，单粒度词是指包含单个信息量的词。

在可能的实现方式中，在对搜索文本进行切词处理之前，先对搜索文本进行断句处理，得到断句后的搜索文本；然后对断句后的搜索文本进行切词处理，得到至少一个单粒度词。计算机设备先对搜索文本进行断句处理，然后再进行切词处理，可以提高切词处理的效率。

步骤503，对单粒度词进行实体识别处理，得到实体词集合。

在本申请实施例中，实体词集合包括单粒度实体词和多粒度实体词。单粒度实体词是指包含单个信息量的实体词，多粒度实体词是指包含多个单粒度词的实体词。

计算机设备在对单粒度词进行实体识别处理的时候，会同时判断相邻单粒度词合并后是否也是实体词，最终得到实体词集合。

在可能的实现方式中，通过NER(Named Entity Recognition，命名实体识别)算法对单粒度词进行实体识别处理，得到实体词集合。NER又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。NER通常包括如下两个过程：1、实体边界识别；2、确定实体类别(人名、地名、机构名或其它)。

步骤504，选取实体词集合中的多粒度实体词，得到多粒度实体词集合。

计算机设备在得到实体词集合之后，选取实体词集合中的多粒度实体词，去除单粒度实体词，得到多粒度实体词集合，多粒度实体词集合中包括至少一个多粒度实体词。

步骤505，对单粒度词进行相邻单粒度词合并处理，得到第一多粒度词集合。

在本申请实施例中，第一多粒度词集合包括至少一个目标多粒度词。示例性地，搜索文本包括单粒度词：A、B、C，对A、B、C进行相邻单粒度词合并处理，得到第一多粒度词集合，该第一多粒度词集合包括：AB、BC、ABC。

需要说明的是，步骤505和步骤503可以同时执行；也可以先执行步骤505，再执行步骤503，本申请实施例对此不作限定。

步骤506，选取第一多粒度词集合中在目标词典中出现的目标多粒度词，得到第二多粒度词集合。

在本申请实施例中，目标词典中包括至少一个多粒度词。假设目标词典中包括以下多粒度词：BC、BD、CD、ABC，第一多粒度词集合包括：AB、BC、ABC，则第二多粒度词集合包括BC、ABC。

在可能的实现方式中，在执行步骤506之前，需要先得到目标词典，目标词典可通过如下方式确定：

第一、确定初始词典中的各个多粒度词的分数，分数用于表征多粒度词的重要程度。

第二、去除初始词典中分数低于阈值的多粒度词，得到目标词典。

在可能的实现方式中，基于打分标准，确定初始词典中的各个多粒度词的分数。分数越高，表明该多粒度词越重要。打分标准可以包括以下至少一项：多粒度词的搜索频次、用户点击行为发生次数、实体置信度。多粒度词的搜索频次是指用户搜索该多粒度词的频率，用户点击行为发生次数是指用户群体点击该多粒度词的次数，实体置信度是指该多粒度词为实体的置信度。各个打分标准的打分权重可以一致，也可以不一致。例如，上述多粒度词的搜索频次、用户点击行为发生次数、实体置信度的打分权重都为1/3；或者，上述多粒度词的搜索频次的打分权重为2/5、用户点击行为发生次数的打分权重为2/5、实体置信度的打分权重为1/5。

计算机设备根据各个多粒度词的分数，去除分数低于阈值的多粒度词，得到目标词典。阈值可以是计算机设备默认设置的，也可以是由技术人员人为设定的，本申请实施例对此不作限定。

步骤507，根据多粒度实体词集合和第二多粒度词集合，确定至少一个多粒度词。

在可能的实现方式中，步骤507包括如下几个子步骤：

步骤507a，响应于第二多粒度词集合中存在两个目标多粒度词包括相同的单粒度词，去除两个目标多粒度词中分数较低的目标多粒度词，得到第三多粒度词集合。

仍然以上述示例为例进行介绍说明，假设第二多粒度词集合包括BC、ABC，BC和ABC包括相同的单粒度词，且BC的分数低于ABC的分数，则去除BC，第三多粒度词集合中包括ABC。

步骤507b，选取第三多粒度词集合中分数排在前n位的目标多粒度词，得到第四多粒度词集合，n为正整数。

n的大小可以是计算机设备默认设置的，也可以是由技术人员人为设定的，本申请实施例对此不作限定。

将第三多粒度词集合中包括的各个目标多粒度词按照分数由大到小进行排序，选取排在前n位的目标多粒度词，得到第四多粒度词集合。

仍然以上述示例为例，假设第三多粒度词集合中包括ABC，则第四多粒度词集合中包括ABC。

步骤507c，将多粒度实体词集合和第四多粒度词集合进行合并去重处理，得到至少一个多粒度词。

将多粒度实体词集合中包括的多粒度实体词和第四多粒度词集合中包括的目标多粒度词进行合并去重处理，得到至少一个多粒度词。

图6示出了本申请一个实施例提供的多粒度词确定方法的流程图。1、计算机设备获取搜索文本；2、计算机设备对该搜索文本进行断句处理后，再进行分词处理，得到至少一个单粒度词；3、对该至少一个单粒度词进行NER识别处理，得到实体词集合；4、去除单粒度实体词，得到多粒度实体词集合；5、对该至少一个单粒度词进行Double array(双数组)树识别处理，得到第二多粒度词集合；6、根据第二多粒度词集合中的目标多粒度词之间的包含关系，去除分数低的目标多粒度词，得到第三多粒度词集合；7、根据打分排序，选取排名前n的目标多粒度词，得到第四多粒度词集合；8、将多粒度实体词集合和第四多粒度实体词集合进行合并去重处理，得到至少一个多粒度词。在计算机设备执行第5步之前，需要先建立Double array树，Double array树通过如下流程建立：9、确定初始词典中的各个多粒度词的分数；10、去除初始词典中分数低于阈值的多粒度词，得到目标词典，建立Doublearray树。

步骤508，获取各个单粒度词分别对应的倒排列表。

倒排列表中包括了出现某个单词的所有文档的文档列表；在可能的实现方式中，倒排列表中还包括了该单词在该文档中出现的位置信息。倒排列表中的每条记录称为一个倒排项。根据倒排列表可以获取哪些文档包含某个单词。

所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件即称之为倒排文件，倒排文件是存储倒排索引的物理文件。倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要包括单词词典和倒排文件。单词词典是由文档集合中出现过的所有单词构成的字符串集合，搜索引擎的通常索引单位是单词。单词词典内每条索引项记载单词本身的一些信息(例如，单词编号)以及指向“倒排列表”的指针。单词编号是搜索引擎内部以唯一的编号来表征某个单词的形式，单词编号可以作为某个单词的唯一表征。由若干文档构成的集合称之为文档集合。在搜索引擎内部，会将文档集合内每个文档赋予一个唯一的内部编号，以此编号来作为整个文档的唯一标识，这样方便内部处理，每个文档的内部编号即称之为“文档编号”，“文档编号”即为文档的标识，用于唯一标识该文档。

在可能的实现方式中，计算机设备根据单粒度词词典，获取各个单粒度词分别对应的倒排列表。单粒度词词典中包括至少一个单粒度词的编号以及与该单粒度词的编号对应的指针的对应关系，该指针是指指向单粒度词对应的倒排列表的指针。计算机设备根据单粒度词词典，确定各个单粒度词对应的指针，从而获取各个单粒度词分别对应的倒排列表。

其中，单粒度词对应的倒排列表中包括至少一个第一文档的标识，第一文档中包括单粒度词。

步骤509，获取各个多粒度词分别对应的倒排列表。

在可能的实现方式中，计算机设备根据多粒度词词典，获取各个多粒度词分别对应的倒排列表。多粒度词词典中包括至少一个多粒度词的编号以及与该多粒度词的编号对应的指针的对应关系，该指针是指指向多粒度词对应的倒排列表的指针。计算机设备根据多粒度词词典，确定各个多粒度词对应的指针，从而获取各个多粒度词分别对应的倒排列表。

在可能的实现方式中，多粒度词词典和单粒度词词典可以是一个词典，该词典中既包括单粒度词的编号以及与该单粒度词的编号对应的指针的对应关系，又包括多粒度词的编号以及与该多粒度词的编号对应的指针的对应关系。

其中，多粒度词对应的倒排列表中包括至少一个第二文档的标识，第二文档中包括多粒度词。

步骤510，对各个单粒度词分别对应的倒排列表以及各个多粒度词分别对应的倒排列表进行处理，得到合并倒排列表。

在可能的实现方式中，步骤510包括如下几个子步骤：

步骤510a，对各个单粒度词分别对应的倒排列表进行求交集处理，得到交集倒排列表。

在可能的实现方式中，由于各个单粒度词分别对应的倒排列表较长，计算机设备不可能对倒排列表中所有第一文档的标识进行求交集处理，所以计算机设备可以基于预设长度或者搜索时间确定求交集的倒排列表的长度，例如，计算机设备对各个单粒度词分别对应的倒排列表中的预设个数的第一文档的标识进行求交集处理，得到交集倒排列表；或者，计算机设备根据获取到搜索文本的时间点至获取到各个单粒度词分别对应的倒排列表的时间点之间的目标时长确定求交集的倒排列表的长度，若目标时长没有超过预设时长，则计算机设备可以对各个单粒度词分别对应的倒排列表中所有第一文档的标识进行求交集处理；若目标时长超过预设时长，则计算机设备仅对各个单粒度词分别对应的倒排列表中的部分第一文档的标识(在预设时长内获取到的部分文档的标识)进行求交集处理。预设时长为计算机默认的搜索时长或者是技术人员规定的搜索时长，本申请实施例对此不作限定。

在本申请实施例中，交集倒排列表中包括至少一个第三文档的标识，第三文档中包括各个单粒度词。

步骤510b，对交集倒排列表和各个多粒度词分别对应的倒排列表进行求并集处理，得到合并倒排列表。

合并倒排列表中包括至少一个第三文档的标识以及至少一个第二文档的标识。

图7示出了本申请一个实施例提供的合并倒排列表的确定流程的示意图。以各个单粒度词为“上”、“清”、“湾”；多粒度词为“上清湾”为例对合并倒排列表的确定流程进行介绍说明。计算机设备首先获取“上”、“清”、“湾”分别对应的倒排列表71，以及获取“上清湾”对应的倒排列表72；其次对“上”、“清”、“湾”分别对应的倒排列表71进行求交集处理，得到交集倒排列表73；然后对“上清湾”对应的倒排列表72和上述交集倒排列表73进行求并集处理，得到合并倒排列表74。

步骤511，基于合并倒排列表确定搜索文本对应的搜索结果。

计算机设备可以根据确定的合并倒排列表中的文档的标识，获取文档，该文档中包括搜索文本对应的搜索结果。

在可能的实现方式中，步骤511包括如下几个子步骤：

步骤511a，将合并倒排列表包括的至少一个第二文档的标识排在至少一个第三文档的标识之前，得到排序后的合并倒排列表。

步骤511b，基于排序后的合并倒排列表顺序确定搜索文本对应的搜索结果。

计算机设备可以基于排序后的合并倒排列表，优先获取第二文档作为搜索文本对应的搜索结果展示给用户。

多粒度词专注于文档与Query(查询)中的隐形词组发现，对正常分词补充。搜索时先进行包含多粒度词的文档召回，如果包含多粒度词的文档不存在或结果偏少，将再次进行包含各个单粒度词的文档召回，通过这个方式来解决松散召回导致的紧邻结果截断问题。

图8示出了本申请一个实施例提供的数据搜索架构的示意图。该数据搜索架构包括前端81、接入层82、在线层83、离线层84和源数据85。接入层82中包括merge(合并)服务、QRW(Query Rewrite，查询改写)服务和RBU(Root Broker Unit，根代理单元)服务。在线层83包括FOB(Fast Objects，快速对象)集群、GOB/NOB(Good Objects，好对象)/(Not-goodObjects，坏对象)集群、WOB(Whole Objects，全部对象)集群。离线层84包括增量索引计算和历史全量索引计算。源数据85包括公众号文章、外链文章等，即文档可以从源数据85中确定。merge服务获取搜索文本。merge服务请求QRW服务。QRW服务将搜索文本下发给至少一个RBU服务。merge服务和RBU服务是一对多的关系。RBU服务去在线层83包括的各个集群检索召回搜索结果。离线层84中的增量索引计算和历史全量索引计算根据源数据建立倒排索引。

综上所述，本申请实施例提供的技术方案中，通过先获取包含多粒度的文档作为搜索文本对应的搜索结果展示给用户，使得最终显示的搜索结果与搜索文本更相关，提高了搜索准确率，同时提高了曝光结果点击率。

另外，本申请实施例通过实体识别和词典识别同时确定多粒度词，多粒度词的确定更为准确。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图9，其示出了本申请一个实施例提供的数据搜索装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置900可以包括：文本获取模块910、文本切词模块920、多粒度词确定模块930和结果确定模块940。

文本获取模块910，用于获取搜索文本；

文本切词模块920，用于对所述搜索文本进行切词处理，得到至少一个单粒度词，所述单粒度词是指包含单个信息量的词；

多粒度词确定模块930，用于分别对所述单粒度词进行实体识别处理和相邻单粒度词合并处理，得到至少一个多粒度词，所述多粒度词是指包含多个单粒度词的词；

结果确定模块940，用于基于所述单粒度词和所述多粒度词，确定所述搜索文本对应的搜索结果。

在示意性实施例中，如图10所示，所述结果确定模块940，包括：列表获取单元941、列表处理单元942和结果确定单元943。

列表获取单元941，用于获取各个所述单粒度词分别对应的倒排列表；其中，所述单粒度词对应的倒排列表中包括至少一个第一文档的标识，所述第一文档中包括所述单粒度词；

所述列表获取单元941，还用于获取各个所述多粒度词分别对应的倒排列表；其中，所述多粒度词对应的倒排列表中包括至少一个第二文档的标识，所述第二文档中包括所述多粒度词；

列表处理单元942，用于对各个所述单粒度词分别对应的倒排列表以及各个所述多粒度词分别对应的倒排列表进行处理，得到合并倒排列表；

结果确定单元943，用于基于所述合并倒排列表确定所述搜索文本对应的搜索结果。

在示意性实施例中，所述列表处理单元942，用于：

对各个所述单粒度词分别对应的倒排列表进行求交集处理，得到交集倒排列表，所述交集倒排列表中包括至少一个第三文档的标识，所述第三文档中包括各个所述单粒度词；

对所述交集倒排列表和各个所述多粒度词分别对应的倒排列表进行求并集处理，得到所述合并倒排列表。

在示意性实施例中，所述结果确定单元943，用于：

将所述合并倒排列表包括的所述至少一个第二文档的标识排在所述至少一个第三文档的标识之前，得到排序后的所述合并倒排列表；

基于排序后的所述合并倒排列表顺序确定所述搜索文本对应的搜索结果。

在示意性实施例中，所述多粒度词确定模块930，包括：单粒度词识别单元931、实体词选取单元932、单粒度词合并单元933、多粒度词选取单元934和多粒度词确定单元935。

单粒度词识别单元931，用于对所述单粒度词进行实体识别处理，得到实体词集合，所述实体词集合包括单粒度实体词和多粒度实体词；

实体词选取单元932，用于选取所述实体词集合中的所述多粒度实体词，得到多粒度实体词集合；

单粒度词合并单元933，用于对所述单粒度词进行相邻单粒度词合并处理，得到第一多粒度词集合，所述第一多粒度词集合包括至少一个目标多粒度词；

多粒度词选取单元934，用于选取所述第一多粒度词集合中在目标词典中出现的目标多粒度词，得到第二多粒度词集合，所述目标词典中包括至少一个多粒度词；

多粒度词确定单元935，用于根据所述多粒度实体词集合和所述第二多粒度词集合，确定所述至少一个多粒度词。

在示意性实施例中，所述多粒度词确定单元935，用于：

响应于所述第二多粒度词集合中存在两个目标多粒度词包括相同的单粒度词，去除所述两个目标多粒度词中分数较低的目标多粒度词，得到第三多粒度词集合；

选取所述第三多粒度词集合中分数排在前n位的目标多粒度词，得到第四多粒度词集合，所述n为正整数；

将所述多粒度实体词集合和所述第四多粒度词集合进行合并去重处理，得到所述至少一个多粒度词。

在示意性实施例中，所述多粒度词确定模块930，还包括：词典确定单元936。

所述词典确定单元936，用于：

确定初始词典中的各个多粒度词的分数，所述分数用于表征所述多粒度词的重要程度；

去除所述初始词典中分数低于阈值的多粒度词，得到所述目标词典。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图11，其示出了本申请一个实施例提供的计算机设备1100的结构示意图。该计算机设备1100可用于实施上述实施例中提供的数据搜索方法。该计算机设备1100可以是图1实施例中介绍的终端10或服务器20。具体来讲：

所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括RAM(Random Access Memory，随机存取存储器)1102和ROM(Read-Only Memory，只读存储器)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input/Output系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存(Flash Memory)或其他固态存储设备，CD-ROM、DVD(Digital Versatile Disc，数字通用光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

根据本申请的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于实现上述数据搜索方法的指令。

在示例中实施例中，还提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述数据搜索方法。

在示例中实施例中，还提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述数据搜索方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述数据搜索方法。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中提供的数据搜索方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据搜索方法，其特征在于，所述方法包括：

获取搜索文本；

2.根据权利要求1所述的方法，其特征在于，所述基于所述单粒度词和所述多粒度词，确定所述搜索文本对应的搜索结果，包括：

获取各个所述单粒度词分别对应的倒排列表；其中，所述单粒度词对应的倒排列表中包括至少一个第一文档的标识，所述第一文档中包括所述单粒度词；

获取各个所述多粒度词分别对应的倒排列表；其中，所述多粒度词对应的倒排列表中包括至少一个第二文档的标识，所述第二文档中包括所述多粒度词；

对各个所述单粒度词分别对应的倒排列表以及各个所述多粒度词分别对应的倒排列表进行处理，得到合并倒排列表；

基于所述合并倒排列表确定所述搜索文本对应的搜索结果。

3.根据权利要求2所述的方法，其特征在于，所述对各个所述单粒度词分别对应的倒排列表以及各个所述多粒度词分别对应的倒排列表进行合并处理，得到合并倒排列表，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述合并倒排列表确定所述搜索文本对应的搜索结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述分别对所述单粒度词进行实体识别处理和相邻单粒度词合并处理，得到至少一个多粒度词，包括：

对所述单粒度词进行实体识别处理，得到实体词集合，所述实体词集合包括单粒度实体词和多粒度实体词；

选取所述实体词集合中的所述多粒度实体词，得到多粒度实体词集合；

对所述单粒度词进行相邻单粒度词合并处理，得到第一多粒度词集合，所述第一多粒度词集合包括至少一个目标多粒度词；

选取所述第一多粒度词集合中在目标词典中出现的目标多粒度词，得到第二多粒度词集合，所述目标词典中包括至少一个多粒度词；

根据所述多粒度实体词集合和所述第二多粒度词集合，确定所述至少一个多粒度词。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多粒度实体词集合和所述第二多粒度词集合，确定所述至少一个多粒度词，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述选取所述第一多粒度词集合中在目标词典中出现的第一多粒度词，得到第二多粒度词集合之前，还包括：

8.一种数据搜索装置，其特征在于，所述装置包括：

文本获取模块，用于获取搜索文本；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的数据搜索方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的数据搜索方法。