CN110134760A

CN110134760A - 一种搜索方法、装置、设备及介质

Info

Publication number: CN110134760A
Application number: CN201910415267.XA
Authority: CN
Inventors: 杨溥
Original assignee: Beijing Mind Creation Information Technology Co Ltd
Current assignee: Beijing Mind Creation Information Technology Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-16

Abstract

本说明书实施例公开了一种搜索方法、装置、设备及介质，搜索方法包括：接收输入文本，根据所述输入文本确定搜索关键词条；确定与所述搜索关键词条匹配的目标内容，并根据搜索场景对所述目标内容进行排序；对排序靠前的一条或多条目标内容进行定位和/或标识。

Description

一种搜索方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种搜索方法、装置、设备及介质。

背景技术

现有技术中，常需要从海量数据中查询搜索感兴趣的数据，例如从文档库中查询感兴趣的文档或文档字段。目前的搜索技术在输入搜索词后，难以对搜索词进行有效处理，从而感兴趣内容的命中率较低，搜索效果较差。

有鉴于此，需要更有效和更高效的搜索方案。

发明内容

本说明书实施例提供一种搜索方法、装置、设备及介质，用以解决如何更有效和更高效的进行搜索的技术问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供一种搜索方法，包括：

接收输入文本，根据所述输入文本确定搜索关键词条；

确定与所述搜索关键词条匹配的目标内容，并根据搜索场景对所述目标内容进行排序；

对排序靠前的一条或多条目标内容进行定位和/或标识。

本说明书实施例提供一种搜索装置，包括：

词条确定模块，用于接收输入文本，根据所述输入文本确定搜索关键词条；

搜索处理模块，用于确定与所述搜索关键词条匹配的目标内容，并根据搜索场景对所述目标内容进行排序；

搜索展示模块，用于对排序靠前的一条或多条目标内容进行定位和/或标识。

本说明书实施例提供一种搜索设备，包括：

至少一个处理器；

以及，

与所述至少一个处理器通信连接的存储器；

其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

接收输入文本，根据所述输入文本确定搜索关键词条；

对排序靠前的一条或多条目标内容进行定位和/或标识。

本说明书实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如下的步骤：

接收输入文本，根据所述输入文本确定搜索关键词条；

对排序靠前的一条或多条目标内容进行定位和/或标识。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

对输入文本进行处理，得到搜索关键词条，根据搜索关键词条确定目标内容，使得目标内容的命中更加精准和全面，提高搜索质量；根据搜索场景对目标内容进行排序，对排序靠前的一条或多条目标内容进行定位和/或标识，能够更清晰、高效的对搜索结果进行展示，提高搜索效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书第一个实施例中搜索方法的流程示意图。

图2是本说明书第一个实施例中输入文本的预处理示意图。

图3是本说明书第二个实施例中搜索装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例一：

如图1所示，本说明书第一个实施例提供了一种搜索方法，包括：

S101：接收输入文本，根据所述输入文本确定搜索关键词条。

在本实施例中，可以通过各类终端设备上安装的应用程序等来接收输入文本，例如在手机或计算机上安装应用程序，在应用程序的相应页面上设置输入框，用户可以在输入框内输入文本进行搜索。相应的，应用程序可以接收输入文本，并将输入文本发送给其对应的服务器，即服务器也可以接收输入文本。

输入文本可以是多种语言的，例如汉语或者英语；也可以是多种形式的，比如可以是网址、数字或各种类型的字符等。总之，输入文本并不限定，可以是各种语言或者形式的结合。

在接收输入文本后，就可以对输入文本进行处理，从而根据输入文本确定搜索关键词条。其中，根据输入文本确定搜索关键词条可以包括：

S1011：预处理所述输入文本，所述预处理包括：文本过滤和/或文本拆分和/或文本扩展和/或文本删减和/或文本转换；

S1012：将所述预处理后所得词条作为搜索关键词条。

下面针对可能出现的情况对预处理输入文本进行具体说明(本实施例不限于以下列举的情况)：

1.1、文本过滤

对输入文本进行文本过滤，删除输入文本中的标记符，例如html等标记符。

1.2、文本拆分(即分词)

对输入文本按照预设粒度拆分以得到一个或多个词条(称为分词后的词条)，包括但不限于：

1.2.1、单字拆分：例如将语句拆分成单个汉字，较适合与作者，标题这种较为重要的字段进行匹配。

1.2.2、最大粒度拆分：即将一句话的词尽量切分全，例如会将“小明请小红吃苹果”拆分成“小明，小红，苹果，小，明，红，苹，果，请，吃”等，会穷尽各种可能的组合。

1.2.3、最小粒度拆分：即会做最粗粒度的拆分，例如会将“小明请小红吃苹果”拆分为“小明，小红，苹果”。

1.2.4、不拆分：直接将输入的文本或者过滤后的文本作为一个词条。

拆分粒度以及何种文本对应何种拆分粒度都可以根据需要进行设置或者变化。

1.3、文本扩展

对输入文本按照预设粒度拆分以得到一个或多个词条(同1.2，但是这里的拆分粒度可以和1.2相同或不同)；

对于对输入文本进行分词后得到的任一词条，可以确定其同义词条和/或拼音词条和/或与拆分后的词条的编辑距离小于预设值的词条，作为分词后的词条的扩展词条；

同义词条即在分词后增加同义词，例如对于分词后的词条“英国”，可以确定其同义词条“英格兰”；具体的，在完成分词后使用word2vec模型进行同义词训练,输入的是一个词和上下文中的词,例如”A dog barked at the mai lman”, 两组(input word,outputword)的训练数据就是('dog','barked')，('dog', 'A')，其先经过隐藏层转化为一个n维的input word的向量，然后经过输出层的权重矩阵获得的是词典中每个词的概率分布，尽量保证出现在其上下文中的词能有更大的概率。训练完成后保留隐藏层，其可以将每个词转化为n维向量。最终通过将两个词多维向量之间的夹角相近的词条认为是同义词。

本实施例中，还可以进行同义词收缩，具体的，同义词收缩是指在搜索之前对同义词词元的过滤过程,例如现在有三个同义词,“母亲”,“妈妈”,“Mom”，若有两个文章，其中一篇包含“妈妈”，一篇包含“Mom”，则在其进入索引的时候由于配置了同义词的词元过滤器，其都可以被收缩成为一个词“母亲”；同样在搜索的时候不管搜索的是三个词中的任一个,在经过同义词的词元过滤的情况下都可以变成“母亲”，所以不管搜索三个词中的任一词都可以将两篇文章召回。

拼音词条即在分词后增加拼音词条，如对于分词后的词条“母亲”会增加“muqin”词条作为拼音词条，也可以增加“妈妈”词条作为同义词条；拼音词条可以包括首字母和全拼，例如对于分词后的词条“刘德华”，可以增加“ldh”和“liudehua”的词条(词条大小写可以不限)；

与分词后的词条的编辑距离(Levebshtein，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数)小于预设值的词条也加入进来，从而进行搜索的模糊化，实现了搜索的容错；例如输入文本或者分词后的词条是“十万国为什么”，而在库内的文档中存在“十万个为什么”词条时,会通过容错将“十万个为什么”召回,在搜索“wenhuagangchang”时，“文化广场”可以被召回。

文本扩展还可以有其他形式，例如根据089扩展到89，根据2.0扩展到2，根据2.1扩展到21。具体的，这里对数字的这种处理可以通过正则表达式实现。正则表达式是对字符串操作的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

其有一些元字符代表不同的含义例如:

“^”:匹配输入字符串的开始位置

“\d”:匹配一个数字字符

“*”:匹配前面的子表达式零次或多次

“+”:匹配前面的子表达式一次或多次

“$”:匹配输入字符串的结束位置

例如在对数字的分词处理过程中使用的正则表达式

^0*(\\d+)$:其使用的capture的模式将括号中的数字提取出来，例如对于010，会将10分词出来，这样10也可以用于搜索。

1.4、文本删减

对输入文本按照预设粒度拆分以得到一个或多个词条(同1.2，但是这里的拆分粒度可以和1.2相同或不同)；删除分词后的词条中属于预设类型和/或预设名单的词条；例如预设类型的词条为停止词和语气词，则对于分词后的词条，可以删除其中的停止词和语气词，例如从,以,使,则等；例如若预设名单中包括停止词和语气词“从,以,使,则”，则对于分词后的词条，若其中包括“从,以, 使,则”，则可以将其删除。

1.5、文本转换

文本转换包括“繁简体转换”和/或“汉字/拼音转换”和/或“语言类型转换”，既可以先对输入文本进行文本转换，也可以对分词后的词条进行文本转换；对于繁简体转换来说，可以在后台存在简繁体转换的词表，根据词表进行繁简体的转换；汉字/拼音转换类似于前述的文本扩展中的拼音扩展，即将汉字转换为拼音或将拼音转换为汉字；语言类型转换既可以包括语种的转换(例如英汉转换)，也可以包括字符或进制的转换(例如089转换为89，2.0转换为2，2.1 转换为21等)，也可以包括其他的语言形式的转换。

上述的各种预处理形式可以使用一种或多种，各种预处理形式可以结合使用；特别的，上述的各种预处理形式可以有使用顺序，例如对输入文本先做文本过滤，再做文本拆分，然后再做文本扩展或文本删减或文本转换(这几种方式可以没有先后顺序)；可见，经过预处理后的词条的数量可以多于文本拆分后的词条数量(例如经过文本扩展获得了新词条)；也可以少于文本拆分后的词条数量(例如被删减的词条数多于扩展的词条数)。图2中示出了可以对输入文本使用的部分预处理方式的配置，例如数字处理、繁简体转换、拼音及中文单词纠错等。

经过预处理后，所得到的词条所包含的信息可以比原有的输入文本更丰富，例如经过文本扩展或文本转换后可以得到更多新的词条。通过上述的预处理，保证了在各级别(包括但不限于字符级别、词级别、拼音级别、语种级别)与输入文本相同或相似的内容都可以顾及到；将通过预处理后所得到的词条作为搜索关键词条，并用于之后的目标内容搜索，能够保证相关内容都可以召回或匹配到，能够使搜索结果更加精准和全面。

在本实施例中，可以构建词条库，词条库用于提供搜索关键词条，例如在进行文本扩展时，同义词条或者与拆分后的词条的编辑距离小于预设值的词条等可以从词条库中选择。词条库可以进行更新，更新词条库包括：

对于词条库中的任一对已有词条，确定该对词条之间的互信息和/或信息熵；

若该对词条之间的互信息和/或信息熵满足预设条件(可以是各自设定的预设值)，则将该对词条组合形成新词条，并加入到已有词条库中。

互信息体现了两个变量(即上述的一对词条，即为X和Y)之间的相互依赖程度，互信息值越高,表明X和Y相关性越高,则X和Y组成短语的可能性越大；反之,互信息值越低,X和Y之间相关性越低,则X和Y之间存在短语边界的可能性越大。例如“算法”和“工程师”的互信息较大，达到预设条件，更倾向于短语，从而可以组成“算法工程师”的新词条。

熵这个表示随机变量不确定性的量度。左右熵是多字词表达的左边界的熵和右边界的熵。当一个词左右熵越大代表其左右两边出现的词越丰富则其刚倾向于是一个词。

可以通过信息左右熵和互信息的共同计算挖掘出新词、生僻词或短语等。

另外，还可以结合百度百科等网络资源补充词条库，也可以自定义词库导入，如从各大图书网站、HanLp,jieba等进行词库导入，又比如利用在其他词库中挖掘出的作者名作为新词补充词库，或利用NLP技术从已有内容语料中挖掘出新词。其中，可以设定一些规则，例如长度超过一定条件或出现频率低于一定条件的词条过滤掉，不导入或不使用。具体的，可以通过插件形式移植进入 ES搜索引擎，ES定时通过API访问词库接口，如有词库更新便加载最新词库。词条库同步至后台搜索引擎。

通过构建词条库以及词条库更新，使得其作为搜索关键词条的来源，内容更加丰富，保证了搜索关键词条的多样性和丰富性，也保证了输入文本在各级别(包括但不限于字符级别、词级别、拼音级别、语种级别)上的充分表达。

上述词条库同样可以用于被搜索的文档的倒排索引的构建，即基于上述词条库中的词条建立文档的倒排索引，可以使倒排索引的内容更加丰富。

S102：确定与所述搜索关键词条匹配的目标内容，并根据搜索场景对所述目标内容进行排序。

在确定了搜索关键词条后，可以确定与搜索关键词条匹配的目标内容。本实施例中，确定与搜索关键词条匹配的目标内容可以是基于一定的数据库进行，例如基于某个文档库来搜索与搜索关键词条匹配的目标内容。以下以文档库为例进行说明：

对于文档库来说，可以使用BM25算法将所述搜索关键词条同库内文档的倒排索引进行匹配，以确定与所述搜索关键词匹配的目标文档或文档字段，并作为目标内容，即目标内容可以是整篇文档，也可以是文档字段。其中，文档字段包括但不限于标题、正文、作者、摘要等，这些文档字段可以单独与搜索关键词进行匹配。

另外，本实施例中，还可以对库内文档进行切分，将切分后所得的文档切块作为候选目标内容。对库内文档进行切分包括：将文档按照章节进行切分；或，将文档按照章节进行切分；对于超出预定长度的章节进行重复切分，以使重复切分后的文档切块与库内文档平均长度的差值不超过预设范围，这样有利于找到与搜索关键词条最佳匹配的切块。

可见，文档或文档字段或文档切块都可以作为目标内容的候选。由于文档切块也是来源于文档，因而文档切块也可以看作文档字段。

BM25算法总体公式:

含义:

计算一个query(输入文本)里面各个词条(包括预处理后得到的词条)和文档或文档字段(或目标内容)的相关度，然后再把分数做累加操作的总得分。

R(qi,d)是词条qi和文档或文档字段(或目标内容)的内容相关度值，其中qi可以代表各个词条，d代表相关的文档或文档字段。

Wi是词qi的权重,默认使用idf值,

公式如下:

N是文档总数，n(qi)是包含词条qi的文档数，0.5是调教系数，避免n(qi) 为0的情况，从这个公式可以看出N固定的情况下，n(qi)越小的话idf值越大，这也符合了"词条的重要程度和其出现在总文档集合里的频率成反比"的思想，取log是为了让idf的值受N和n(qi)的影响更加平滑。

R(qi,d)的公式如下

其中k1，k2，b都是调节因子，例如k1＝2，k2＝1，b＝0.75,fi是词在文档中的次数，qfi代表词在查询语句里的次数，dl是文档长度，avgdl是文档平均长度，可以看出如果其他因素一样dl越大，相关度越低，除以avgdl，是拿本篇文档长度和整体文档长度水平做比较，以免单独取dl值时过大。

一段描述中如果搜索命中的词出现的越多，就越可能是想要的结果。这就是词频TF。例如，搜索关键词条中包括词条“人工智能”，在一篇文章中出现多次“人工智能”，其分值就会更高。另外在一个词在所有文档中出频度越大的，重要性就会降低，其实也就是一个近似反比。例如“意义”这个词在所有文档中出现的频率很高，他的得分就会相应降低。故若输入文本是"今天人工智能的意义”，包含“人工智能”的文章倾向于排序靠前。

另外，在TF过大时对得分的影响会慢慢减弱，而且文档或文档字段越长，同一个词表现文档或文档字段的能力就弱，所以文档或文档字段长度也加入相关性计算中，这也是一个反比关系。

所以影响BM25公式的因数包括:

1Wi的值,即idf，idf越高分数越高

2tf的值,即fi，fi值越高分数越高

3dl/avgdl如果该文档长度在文档水平中越高则分数越低。

4.K1,K2,b的调节因子。

使用BM25算法将所述搜索关键词条同库内文档的倒排索引进行匹配，确定搜索关键词与库内文档或文档字段的内容相关度得分，可以将内容相关度得分满足预设条件(例如大于预设值)的文档或文档字段作为目标内容。

确定了目标内容之后，可以对目标内容进行排序。在本实施例中，可以根据搜索场景对所述目标内容进行排序。其中，搜索场景例如是对专题活动这种场景进行搜索，或者是对电子书这种长篇文章的场景进行搜索，当然也可以有其他场景。

根据搜索场景对所述目标内容进行排序包括：

确定搜索场景下目标内容的排序影响因子；具体的，可以根据搜索场景确定目标内容的排序影响因子，即确定搜索场景下目标内容的排序影响因子，排序影响因子意味着排序时要考虑哪些因素；例如若搜索场景是专题活动这种时效性强的场景，则排序影响因子可以包括目标内容与搜索关键词条的内容相关度以及目标内容的时间特征，时间特征包括产生时间或修改时间；若搜索场景是电子书，则排序影响因子可以是目标内容与搜索关键词条的内容相关度。

确定各目标内容的排序影响因子分值；举例，若排序影响因子为目标内容与搜索关键词条的内容相关度得分，则确定目标内容的排序影响因子分值包括：

对任一目标内容，确定各搜索关键词条与该目标内容的内容相关度得分，根据该目标内容在其所属文档中的位置确定各搜索关键词条的权重；以搜索关键词条qi为例，在利用BM25算法时，可以对文档的各个字段分别进行搜索，并为搜索关键词条qi设置不同的权重，例如若是对正文进行搜索，则搜索关键词条qi的权重可以低一些；若是对摘要或标题进行搜索，则搜索关键词条qi 的权重可以高一些(即与摘要或标题等字段匹配代表文字相关度更好，或者更被看重)；那么若目标内容是正文，则搜索关键词条qi的权重可以低一些；若目标内容是摘要或标题，则搜索关键词条qi的权重可以高一些；

根据所述内容相关度得分和所述权重确定所述输入文本与该目标内容的内容相关度得分，并将所述内容相关度得分作为该目标内容的排序影响因子分值；仍以搜索关键词条qi为例，对于两篇大致相似的文章，若其中一篇搜索关键词条qi出现在标题或摘要(或者与搜索关键词条qi匹配的目标内容是标题或摘要)，另一篇搜索关键词条qi出现在正文(或者与搜索关键词条qi匹配的目标内容是正文)，那么出现在标题或摘要的那篇文章(或者作为标题或摘要的目标内容)与搜索关键词条qi的内容相关度分数R(qi,d)会更高。

在确定了搜索关键词条qi的权重Wi，并确定了该目标内容与各个搜索关键词的内容相关度得分R(qi,d)后，根据BM25算法总体公式就可以确定该目标内容与各个搜索关键词条的相关度总得分，相当于得到该目标内容与输入文本的内容相关度总得分。这样，可以得到每个目标内容与输入文本的内容相关度总得分。

若目标内容的排序影响因子只有其与输入文本的内容相关度得分，则根据各个目标内容与输入文本的内容相关度得分可以对目标内容进行排序；若目标内容的排序影响因子还包括时间特征，则完成内容相关度的分值计算后，可以使用painless脚本进行自定义的打分排序，例如可以将专题活动中的时间拿出，将其加入到排序影响因子中，通过painless脚本在内容相关度得分基础上加上代表时间特征的分值，从而得到排序影响因子分值；例如有两个专题活动，这两个专题活动都作为目标内容，两者与输入文本的内容相关度分值，这样新开启的专题活动会通过painless脚本加上更多的分值从而获得更高的排名。

另外，还可以设置其他的排序规则，例如用户关注的账号发表的文章可以排序靠前；加v用户的文章可以排序靠前；粉丝数多的账号的文章可以排序靠前等。

S103：对排序靠前的一条或多条目标内容进行定位和/或标识。

在搜索到目标内容并对目标内容进行排序后，可以对排序靠前的一条或多条目标内容(“多条”包括搜索到的所有目标内容)进行定位和/或标识。其中标识包括对目标内容或目标内容中匹配到的搜索关键词条进行高亮标识和/或颜色标识。用户可以直接跳转至被定位位置。

本实施例中，对输入文本进行有效处理，得到搜索关键词条，根据搜索关键词条确定目标内容，使得目标内容的命中更加精准和全面，提高搜索质量；根据搜索场景对目标内容进行排序，对排序靠前的一条或多条目标内容进行定位和/或标识，能够更清晰、高效的对搜索结果进行展示，提高搜索效果。

本实施例中，对输入文本进行多种形式的预处理，保证了在各级别(包括但不限于字符级别、词级别、拼音级别、语种级别)与输入文本相同或相似的内容都可以顾及到，从而支持各级别(包括但不限于字符级别、词级别、拼音级别、语种级别)的搜索匹配，并针对数字进行了处理(如“089”->“89”，“2.0” ->“2”、“20”等)，保证了在各级别(包括但不限于字符级别、词级别、拼音级别、语种级别)相关内容都可以召回或匹配到，能够使搜索结果更加精准和全面。

本实施例中，实现了搜索的容错，进一步提高了搜索的准确性和全面性。

本实施例可以通过计算机或者服务器配合相应的应用程序实现，例如可以使用ES搜索引擎(ElasticSearch)实现搜索和匹配。

实施例二：

如图3所示，本说明书第二个实施例提供了一种搜索装置，包括：

词条确定模块201，用于接收输入文本，根据所述输入文本确定搜索关键词条；

搜索处理模块201，用于确定与所述搜索关键词条匹配的目标内容，并根据搜索场景对所述目标内容进行排序；

搜索展示模块203，用于对排序靠前的一条或多条目标内容进行定位和/或标识。

可选的，根据所述输入文本确定搜索关键词条包括：

预处理所述输入文本，所述预处理包括：文本过滤和/或文本拆分和/或文本扩展和/或文本删减和/或文本转换；

将所述预处理后所得词条作为搜索关键词条。

可选的，对输入文本进行文本过滤包括：

删除所述输入文本中的标记符；

和/或，

对输入文本进行文本拆分包括：

对输入文本按照预设粒度拆分以得到一个或多个词条，所述预设粒度包括单字拆分；

和/或，

对输入文本进行文本扩展包括：

确定拆分后的词条的扩展词条，所述扩展词条包括同义词条和/或拼音词条和/或与拆分后的词条的编辑距离小于预设值的词条；

和/或，

对输入文本进行文本删减包括：

对输入文本按照预设粒度拆分以得到一个或多个词条，并删除其中的属于预设类型和/或预设名单的词条；所述预设粒度包括单字拆分；

和/或，

所述文本转换包括繁简体转换和/或汉字/拼音转换和/或语言类型转换。

可选的，确定与所述搜索关键词条匹配的目标内容包括：

使用BM25算法将所述搜索关键词条同库内文档的倒排索引进行匹配，以确定与所述搜索关键词匹配的目标文档或文档字段，并作为目标内容。

可选的，使用BM25算法将所述搜索关键词条同库内文档的倒排索引进行匹配，确定搜索关键词与库内文档或文档字段的内容相关度得分，将内容相关度得分满足预设条件的文档或文档字段作为目标内容。

可选的，根据所述搜索场景对所述目标内容进行排序包括：

使用BM25算法将所述搜索关键词条同库内文档的倒排索引进行匹配，得到输入文本与目标内容的内容相关度得分；

根据所述内容相关度得分对所述目标内容进行排序。

可选的，根据搜索场景对所述目标内容进行排序包括：

确定搜索场景下目标内容的排序影响因子；

确定各目标内容的排序影响因子分值；

根据排序影响因子分值对各目标内容进行排序。

可选的，所述排序影响因子包括：

目标内容与输入文本的内容相关度；

和/或，

目标内容的时间特征，所述时间特征包括产生时间或修改时间。

可选的，若所述排序影响因子为目标内容与输入文本的内容相关度，则确定目标内容的排序影响因子分值包括：

对任一目标内容，确定各搜索关键词条与该目标内容的内容相关度得分，根据该目标内容在其所属文档中的位置确定各搜索关键词的权重；

根据所述内容相关度得分和所述权重确定所述输入文本与该目标内容的内容相关度得分，并将所述内容相关度得分作为该目标内容的排序影响因子分值。

可选的，所述装置还包括：

切分模块，用于对库内文档进行切分，将切分后所得的文档切块作为候选目标内容。

可选的，对库内文档进行切分包括：

将文档按照章节进行切分；

或，

将文档按照章节进行切分；

对于超出预定长度的章节进行重复切分，以使重复切分后的文档切块与库内文档平均长度的差值不超过预设范围。

可选的，所述装置还包括：

词条库模块，用于构建词条库，所述词条库用于提供所述搜索关键词条。

可选的，所述词条库模块还用于：更新所述词条库；

更新所述词条库包括：

对任一对已有词条，确定该对词条之间的互信息和/或信息熵；

若该对词条之间的互信息和/或信息熵满足预设条件，则将该对词条组合形成新词条，并加入到已有词条库中。

可选的，所述标识包括高亮标识和/或颜色标识。

实施例三：

本说明书第三个实施例提供了一种搜索设备，包括：

至少一个处理器；

以及，

与所述至少一个处理器通信连接的存储器；

其中，

接收输入文本，根据所述输入文本确定搜索关键词条；

对排序靠前的一条或多条目标内容进行定位和/或标识。

实施例四：

本说明书第四个实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如下的步骤：

接收输入文本，根据所述输入文本确定搜索关键词条；

对排序靠前的一条或多条目标内容进行定位和/或标识。

上述各实施例可以结合使用。

上述对本说明书特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray， FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescrIP地址tion Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescrIP地址tion Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware DescrIP地址tion Language)、Lava、Lola、MyHDL、 PALASM、RHDL(Ruby Hardware DescrIP地址tion Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware DescrIP地址tion Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、MicrochIP 地址PIC18F26K20以及Silicone LabsC8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM) 和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种搜索方法，包括：

接收输入文本，根据所述输入文本确定搜索关键词条；

对排序靠前的一条或多条目标内容进行定位和/或标识。

2.如权利要求1所述的方法，根据所述输入文本确定搜索关键词条包括：

将所述预处理后所得词条作为搜索关键词条。

3.如权利要求2所述的方法，对输入文本进行文本过滤包括：

删除所述输入文本中的标记符；

和/或，

对输入文本进行文本拆分包括：

和/或，

对输入文本进行文本扩展包括：

和/或，

对输入文本进行文本删减包括：

和/或，

4.如权利要求1所述的方法，确定与所述搜索关键词条匹配的目标内容包括：

5.如权利要求4所述的方法，使用BM25算法将所述搜索关键词条同库内文档的倒排索引进行匹配，确定搜索关键词与库内文档或文档字段的内容相关度得分，将内容相关度得分满足预设条件的文档或文档字段作为目标内容。

6.如权利要求1至5中任一项所述的方法，根据所述搜索场景对所述目标内容进行排序包括：

根据所述内容相关度得分对所述目标内容进行排序。

7.如权利要求1至5中任一项所述的方法，根据搜索场景对所述目标内容进行排序包括：

确定搜索场景下目标内容的排序影响因子；

确定各目标内容的排序影响因子分值；

根据排序影响因子分值对各目标内容进行排序。

8.如权利要求7所述的方法，所述排序影响因子包括：

目标内容与输入文本的内容相关度；

和/或，

9.如权利要求8所述的方法，若所述排序影响因子为目标内容与输入文本的内容相关度，则确定目标内容的排序影响因子分值包括：

10.如权利要求1至5中任一项所述的方法，所述方法还包括：

对库内文档进行切分，将切分后所得的文档切块作为候选目标内容。

11.如权利10所述的方法，对库内文档进行切分包括：

将文档按照章节进行切分；

或，

将文档按照章节进行切分；

12.如权利要求1至5中任一项所述的方法，所述方法还包括：

构建词条库，用于提供所述搜索关键词条。

13.如权利要求12所述的方法，所述方法还包括：更新所述词条库；

更新所述词条库包括：

14.如权利要求1至5中任一项所述的方法，所述标识包括高亮标识和/或颜色标识。

15.一种搜索装置，包括：

16.一种搜索设备，包括：

至少一个处理器；

以及，

与所述至少一个处理器通信连接的存储器；

其中，

接收输入文本，根据所述输入文本确定搜索关键词条；

对排序靠前的一条或多条目标内容进行定位和/或标识。

17.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如下的步骤：

接收输入文本，根据所述输入文本确定搜索关键词条；

对排序靠前的一条或多条目标内容进行定位和/或标识。