CN113495984A

CN113495984A - 一种语句检索方法以及相关装置

Info

Publication number: CN113495984A
Application number: CN202010203117.5A
Authority: CN
Inventors: 张安; 冀元祎
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2021-10-12

Abstract

本申请实施例公开了一种语句检索方法以及相关装置，从查询语句中提取第一可查询词序列，第一可查询词序列包括核心词和非核心词，核心词的语义权重大于非核心词的语义权重。在使用核心词检索原始文档集合后，以得到目标文档集合。计算第一可查询词序列与目标文档集合中各个文档的相关性，并确定查询语句的检索结果。由于核心词是查询语句中语义权重较高的词，通过使用核心词检索文档，可以保证检索结果中目标文档与查询语句的相关性，同时降低了读写资源的占用率，提升语句检索速度。

Description

一种语句检索方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种语句检索方法以及相关装置。

背景技术

信息检索装置(例如搜索引擎)，根据用户输入的查询语句(query)进行查询，并生成相关查询结果返回给用户。当信息检索装置获取了用户输入的查询语句后，可以对该查询语句进行分词，得到可查询词(term)的有序序列，该有序序列包括一个或多个可查询词。再例如，信息检索装置将网页或条目等数据中的文本信息转化为文档(document)，该文档也可以视为一个可查询词的有序序列。该文档中的每个可查询词的索引，以倒排索引列表(invertedlist)的形式进行存储。倒排索引列表用于表示某个可查询词在哪些文档中出现，以及某个可查询词在该文档中出现的位置。

现有技术方案中，首先，信息检索装置根据查询语句生成可查询词的有序序列。然后，信息检索装置将由查询语句生成的每个可查询词，在文档集合的倒排索引列表中取交集。当检索到某个文档的倒排索引列表包括该查询语句的每个可查询词时，信息检索装置计算该文档和查询语句之间的相关性，并对两者相关性进行量化打分。文档的相关性分数越高，则该文档与查询短语越匹配。

以查询语句“QWER”为例，通过分词处理，可以得到“Q”、“W”、“E”以及“R”这四个可查询词。信息检索装置对该查询语句进行检索时，该可查询词的有序列表中每个可查询词，都需要遍历文档集合所对应的倒排索引列表。对于可查询词“Q”和“W”，经过语义分析可得到该可查询词的语义权重(semantic weight)较低，该可查询词在计算文档与查询语句的相关性分数时贡献较低，而“E”和“R”语义权重较高。进行语句检索时，例如：查询到以下两个语句，A“QWTY”；B“ERUI”。对A/B进行分词，可得A的分词与查询语句中“Q”和“W”一致，B的分词与查询语句中“E”和“R”一致。

现有技术得到的检索结果中，A/B与查询语句的相关性是一致的，即均有两个可查询词一致。但是显然，B与查询语句的相关性大于A与查询语句的相关性，用户需要得到检索结果是B。综上所述，对这些语义权重较低的可查询词，当前信息检索装置仍然需要在倒排索引列表中进行检索，造成读写资源的浪费，降低语句检索速度。

发明内容

本申请实施例提供了一种语句检索方法以及相关装置，从查询语句中提取第一可查询词序列，第一可查询词序列包括核心词和非核心词，通过分级检索，省去了使用非核心词检索原始文档集合的步骤。在使用核心词检索原始文档集合后，以得到目标文档集合。计算第一可查询词序列与目标文档集合中各个文档的相关性，并确定查询语句的检索结果。在保证检索正确率的前提下，降低了读写资源的占用率，提升语句检索速度。

第一方面，本申请实施例提供了一种语句检索方法，可以包括：首先，从查询语句中提取第一可查询词序列，其中，该第一可查询词序列中各个可查询词按照该查询语句中的顺序进行排列，该第一可查询词序列包括至少一个核心词和至少一个非核心词，该核心词为该第一可查询词序列中的语义权重大于该非核心词的可查询词。以查询语句为“关于中美贸易发展”为例，则该第一可查询词序列可以为：“关于”、“中美”、“贸易”和“发展”，且，该序列的语序是“关于”-“中美”-“贸易”-“发展”，即与查询语句中这些词语排布的顺序一致。其次，根据该核心词检索原始文档集合，以得到目标文档集合，其中，该目标文档集合包括至少一个目标文档，该目标文档包括该核心词；再次，计算该第一可查询词序列与该目标文档集合中各个文档的相关性，并确定该查询语句的检索结果。

本申请实施例中，通过分级检索，使用非核心词检索原始文档集合不是必须的。在使用核心词检索原始文档集合后，以得到目标文档集合。计算第一可查询词序列与目标文档集合中各个文档的相关性，并得到查询语句的检索结果。由于核心词是查询语句中语义权重较高的词，通过使用核心词检索文档，可以保证检索结果中目标文档与查询语句的相关性，同时降低了读写资源的占用率，提升语句检索速度。

结合第一方面，在第一方面的一种可能的实现方式中，根据至少一个核心词检索原始文档集合，以得到目标文档集合，包括：根据第一可查询词序列中所有的核心词组成的核心词序列检索原始文档集合，以得到目标文档集合，目标文档包括核心词序列，核心词序列中的核心词按照核心词在查询语句中排列的顺序排列。根据第一可查询词序列中所有的核心词组成核心词序列，该核心词序列中核心词按照核心词在查询语句中排列的顺序排列，通过使用核心词序列检索文档，可以保证检索结果中目标文档与查询语句的相关性，同时降低了读写资源的占用率，提升语句检索速度。

结合第一方面，在第一方面的一种可能的实现方式中，根据该核心词检索该原始文档集合，以得到该目标文档集合，可以包括：根据该核心词检索该原始文档集合，以得到第一文档集合，该第一文档集合包括至少一个第一文档，该第一文档包括该核心词；根据该第一可查询词序列中该核心词序列检索该第一文档集合，以得到该目标文档集合，该目标文档包括该第一可查询词序列中该核心词序列。本申请实施例中，在使用核心词检索原始文档集合后，得到第一文档集合。然后，使用第一可查询词序列中该核心词序列检索该第一文档集合，以得到该目标文档集合。通过二次检索，在保证较低的读写资源占用率的前提下，由于不遗漏第一可查询词序列中所有的核心词进行检索，进一步提升检索结果中目标文档与查询语句的相关性。

结合第一方面，在第一方面的一种可能的实现方式中，第一可查询词序列中包括多个非核心词，根据至少一个核心词检索原始文档集合，以得到目标文档集合，包括：首先，根据第一可查询词序列中所有的核心词组成的核心词序列检索原始文档集合，以得到第二文档集合，第二文档集合包括至少一个第二文档，第二文档包括第一可查询词序列中核心词序列；其次，根据多个非核心词检索第二文档集合，以得到目标文档集合，其中，目标文档集合中的每个目标文档包括第一可查询词序列中核心词序列和多个非核心词中的至少一个，以及，目标文档集合中，至少两篇目标文档中包括的非核心词不完全相同。通过二次检索，首先，不遗漏第一可查询词序列中所有的核心词进行检索，其次，使用一个或多个非核心词在前次检索得到的第二文档集合中进行检索，在保证较低的读写资源占用率的前提下，进一步提升检索结果中目标文档与查询语句的相关性。

结合第一方面，在第一方面的一种可能的实现方式中，根据该核心词检索该原始文档集合，以得到该目标文档集合，可以包括：根据该核心词检索该原始文档集合，以得到第一文档集合，该第一文档集合包括至少一个第一文档，该第一文档包括该核心词；根据该第一可查询词序列中该核心词序列检索该第一文档集合，以得到第二文档集合，该第二文档集合包括至少一个第二文档，该第二文档包括该第一可查询词序列中该核心词序列；根据该非核心词检索该第二文档集合，以得到该目标文档集合，该目标文档集合中包括一个或多个目标文档。该目标文档包括第一可查询词序列中核心词序列，和，一个或多个非核心词。本申请实施例中，首先在使用核心词检索原始文档集合后，得到第一文档集合。其次，使用第一可查询词序列中该核心词序列检索该第一文档集合，以得到第二文档集合。再次，根据该非核心词检索该第二文档集合，以得到该目标文档集合，其中，该目标文档包括该第一可查询词序列中该核心词序列和至少一个该非核心词。根据查询语句检索得到的目标文档中，包括第一可查询词序列中核心词序列和至少一个非核心词。通过三次检索，首先，使用一个或多个核心词对原始文档集合进行初步筛选；其次，不遗漏第一可查询词序列中所有的核心词进行检索；再次，使用一个或多个非核心词在前次检索得到的第二文档集合中进行检索，在保证较低的读写资源占用率的前提下，进一步提升检索结果中目标文档与查询语句的相关性。

结合第一方面，在第一方面的一种可能的实现方式中，计算该第一可查询词序列与该目标文档集合中各个文档的相关性，可以包括：根据第一向量与第二向量，确定近似短语，其中，该第一向量指示该第一可查询词序列中该核心词序列在该目标文档中的位置，例如该核心词序列“中美-贸易”在目标文档中的位置分别为<13>和<15>，则第一向量为<13， 15>；该第二向量指示该非核心词在该目标文档中的位置，例如非核心词“发展”在目标文档中的位置为<16>，“关于”在目标文档中的位置为<12>，则第二向量为<12，16>。该近似短语包括该第一可查询词序列中该核心词序列和至少一个非核心词，第三向量指示该近似短语在该目标文档中的位置，以第一向量为<13，15>第二向量为<12，16>为例，则第三向量为<12,13,15,16>。近似短语中核心词与非核心词的距离小于第二阈值，第二阈值可以是2、5、8或10；根据该第三向量和第四向量，确定第一距离，其中，该第四向量指示该第一可查询词序列在该目标文档中的位置，该第一近似短语的位置向量由该第一距离为该第三向量与该第四向量之间的距离；根据该第一距离根据确定该第一可查询词序列与该目标文档集合中各个文档的相关性。使用“滑动窗口”匹配当前文档是否存在第一可查询词序列中核心词序列。

需要说明的是，若近似短语中任意非核心词并未出现在滑动窗口附近，取“dm”作为该非核心词的在第三向量中的分量，该“dm”为固定值，例如3、5或10等等。例如：第一可查询词序列“关于”、“中美”、“贸易”和“发展”，当目标文档中该近似短语的附近无非核心词“关于”，则该近似短语的第三向量为<dm,13,15,16>。

通过第一向量和第二向量确定近似短语，并根据第三向量和第四向量确定第一距离，根据该第一距离根据确定该第一可查询词序列与该目标文档集合中各个文档的相关性。在如何确定查询语句与目标文档相关性上，提升了实现灵活性。

结合第一方面，在第一方面的一种可能的实现方式中，根据该第三向量和该第四向量，确定该第一距离，可以包括：该第三向量与偏移量确定第五向量，其中，该偏移量指示该第一可查询词序列中每个可查询词语与该第一可查询词序列中第一个可查询词之间的距离，该第五向量指示该近似短语与该偏移量之间的距离；根据该第四向量和该第五向量，确定该第一距离。通过上述方法，在计算第一距离时，考虑偏移量的影响，提升了检索结果的准确性与可靠性。

结合第一方面，在第一方面的一种可能的实现方式中，从该查询语句中提取该第一可查询词序列之后，还可以包括：根据该第一可查询词序列与该第一可查询词序列中各个可查询词的权重，确定短语重心，其中，该短语重心为该权重按照该第一可查询词序列的顺序依次累加时，累加和大于第一阈值的可查询词。根据该第四向量和该第五向量，确定该第一距离，可以包括：根据该第四向量、该第五向量和该权重，确定该第一距离，其中，该权重用于对该第四向量与该第五向量之间的距离进行加权修正。通过上述方法，在计算第一距离时，考虑短语重心的影响，提升了检索结果的准确性与可靠性。

结合第一方面，在第一方面的一种可能的实现方式中，该第四向量中任意分量的值，与，该第五向量中该短语重心对应的分量大小一致。

结合第一方面，在第一方面的一种可能的实现方式中，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的切比雪夫距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的曼哈顿距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的范数距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的马氏距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的闵可夫斯基距离。

结合第一方面，在第一方面的一种可能的实现方式中，该第四向量中任意分量的值，与，该第五向量中最小的分量的值一致。

结合第一方面，在第一方面的一种可能的实现方式中，该第一距离为该第四向量与该第五向量的切比雪夫距离，或，该第一距离为该第四向量与该第五向量的曼哈顿距离，或，该第一距离为该第四向量与该第五向量的范数距离，或，该第一距离为该第四向量与该第五向量的马氏距离，或，该第一距离为该第四向量与该第五向量的闵可夫斯基距离。

结合第一方面，在第一方面的一种可能的实现方式中，以切比雪夫距离为例，通过以下方法计算第一距离：

dis_i＝max_j∈N(|p_j-q_j|)；

其中，dis_i为第i个第五向量对应的第一距离，p_j为第五向量中第J个分量，q_j为第四向量中第J个分量，i为正整数，J为正整数，N为正整数。

结合第一方面，在第一方面的一种可能的实现方式中，以曼哈顿距离为例，通过以下方法计算第一距离：

其中，dis_i为第i个第五向量对应的第一距离，p_t为第四向量中第t个分量，q_t为第五向量中第t个分量，i为正整数，w_t为第一可查询词序列中第t个可查询词的权重，Q 为第一可查询词序列的可查询词总量。

结合第一方面，在第一方面的一种可能的实现方式中，以下方法计算近似短语的分数：

其中，pf_i为第i个近似短语的分数，dis_i为第i个近似短语对应的第一距离，pos_i为第三向量中第i个分量，i为正整数，k₁为第一参数，α为第二参数，decay为衰减函数。具体的，k₁调节当前文档中各个近似短语的分数对第一可查询词序列和目标文档相关性计算时的影响程度；斜率α调节第一距离增大时pf_i减小的速度；decay(pos_i)是匹配位置为输入的衰减函数，该匹配位置为近似短语P_i在目标文档中的位置。

第二方面，本申请实施例提供了一种信息检索装置，该信息检索装置可以包括：提取模块，用于从查询语句中提取第一可查询词序列，其中，该第一可查询词序列指示按照该查询语句的语序排列的多个词语，该第一可查询词序列包括至少一个核心词，以及一个或多个非核心词，该至少一个核心词为该第一可查询词序列中的语义权重大于该非核心词的可查询词；

检索模块，用于根据该至少一个核心词检索原始文档集合，以得到目标文档集合，其中，该目标文档集合包括至少一个目标文档，该目标文档包括该至少一个核心词；

计算模块，用于计算该第一可查询词序列与该目标文档集合中各个文档的相关性，以基于该相关性从该目标文档集合中得到该查询语句的检索结果。

结合第二方面，在第二方面的一种可能的实现方式中，该信息检索装置可以包括：该检索模块，具体用于根据该核心词检索该原始文档集合，以得到第一文档集合，该第一文档集合包括至少一个第一文档，该第一文档包括该核心词；

根据该第一可查询词序列中该核心词序列检索该第一文档集合，以得到该目标文档集合，该目标文档包括该第一可查询词序列中该核心词序列。

根据该第一可查询词序列中该核心词序列检索该第一文档集合，以得到第二文档集合，该第二文档集合包括至少一个第二文档，该第二文档包括该第一可查询词序列中该核心词序列；

该检索模块，具体用于根据该非核心词检索该第二文档集合，以得到该目标文档集合，其中，该目标文档包括该第一可查询词序列中该核心词序列和至少一个该非核心词。

结合第二方面，在第二方面的一种可能的实现方式中，该信息检索装置可以包括：该检索模块，具体用于根据该第一可查询词序列中所有的核心词组成的核心词序列检索该原始文档集合，以得到该目标文档集合，该目标文档包括该核心词序列，该核心词序列中的核心词按照该核心词在该查询语句中排列的顺序排列。

结合第二方面，在第二方面的一种可能的实现方式中，该检索模块，具体用于根据该第一可查询词序列中所有的核心词组成的核心词序列检索该原始文档集合，以得到第二文档集合，该第二文档集合包括至少一个第二文档，该第二文档包括该第一可查询词序列中该核心词序列；

该检索模块，具体用于根据该多个非核心词检索该第二文档集合，以得到该目标文档集合，其中，该目标文档集合中的每个目标文档包括该第一可查询词序列中该核心词序列和该多个非核心词中的至少一个，以及，该目标文档集合中，至少两篇目标文档中包括的非核心词不完全相同。

结合第二方面，在第二方面的一种可能的实现方式中，该信息检索装置可以包括：该计算模块，具体用于根据第一向量与第二向量，确定近似短语，其中，该第一向量指示该第一可查询词序列中该核心词序列在该目标文档中的位置，该第二向量指示该非核心词在该目标文档中的位置，该近似短语包括该第一可查询词序列中该核心词序列和至少一个非核心词，第三向量指示该近似短语在该目标文档中的位置；

根据该第三向量和第四向量，确定第一距离，其中，该第四向量指示该第一可查询词序列在该目标文档中的位置，该第一距离为该第三向量与该第四向量之间的距离；

根据该第一距离根据该目标文档中一个或多个该第一近似短语的分数，确定该第一可查询词序列与该目标文档集合中各个文档的相关性。

结合第二方面，在第二方面的一种可能的实现方式中，该信息检索装置可以包括：

该计算模块，具体用于根据该第三向量与偏移量确定第五向量，其中，该偏移量指示该第一可查询词序列中每个可查询词语与该第一可查询词序列中第一个可查询词之间的距离，该第五向量指示该近似短语与该偏移量之间的距离；

该计算模块，具体用于根据该第四向量和该第五向量，确定该第一距离。

该检索模块，还用于根据该第一可查询词序列与该第一可查询词序列中各个可查询词的权重，确定短语重心，其中，该短语重心为该权重按照该第一可查询词序列的顺序依次累加时，累加和大于第一阈值的可查询词。

该计算模块，具体用于根据该第四向量、该第五向量和该权重，确定该第一距离，其中，该权重用于对该第四向量与该第五向量之间的距离进行加权修正。

该第四向量中任意分量的值，与，该第五向量中该短语重心对应的分量大小一致。

该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的切比雪夫距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的曼哈顿距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的范数距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的马氏距离，或，该第一距离为该第四向量与该第五向量之间，经过该权重加权修正的闵可夫斯基距离。

该第四向量中任意分量的值，与，该第五向量中最小的分量的值一致。

该第一距离为该第四向量与该第五向量的切比雪夫距离，或，该第一距离为该第四向量与该第五向量的曼哈顿距离，或，该第一距离为该第四向量与该第五向量的范数距离，或，该第一距离为该第四向量与该第五向量的马氏距离，或，该第一距离为该第四向量与该第五向量的闵可夫斯基距离。

第三方面，本申请实施例提供了一种计算机设备，该终端设备包括至少一个处理器、存储器、通信端口、显示器以及存储在存储器中并可在处理器上运行的计算机执行指令，当该计算机执行指令被该处理器执行时，该处理器执行如上述第一方面或第一方面任意一种可能的实现方式。

第四方面，本申请实施例提供了一种存储一个或多个计算机执行指令的计算机可读存储介质，当该计算机执行指令被处理器执行时，该处理器执行如上述第一方面或第一方面任意一种可能的实现方式。

第五方面，本申请实施例提供一种存储一个或多个计算机执行指令的计算机程序产品 (或称计算机程序)，当该计算机执行指令被该处理器执行时，该处理器执行上述第一方面或第一方面任意一种可能的实现方式。

第六方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持计算机设备实现上述方面中所涉及的功能。在一种可能的设计中，该芯片系统还包括存储器，该存储器，用于保存计算机设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

第七方面，本申请实施例提供了一种终端设备，该终端设备包括至少一个处理器、存储器、通信端口、显示器以及存储在存储器中并可在处理器上运行的计算机执行指令，当该计算机执行指令被该处理器执行时，该处理器执行如上述第一方面或第一方面任意一种可能的实现方式。

从以上技术方案可以看出，本申请实施例具有以下优点：

从查询语句中提取第一可查询词序列，第一可查询词序列包括核心词和非核心词，核心词为语义权重大于非核心词的可查询词。通过分级检索，省去了使用非核心词检索原始文档集合的步骤。在使用核心词检索原始文档集合后，以得到目标文档集合。计算第一可查询词序列与目标文档集合中各个文档的相关性，并得到查询语句的检索结果。在保证检索正确率的前提下，降低了读写资源的占用率，提升语句检索速度。

附图说明

图1为本申请实施例提出的一种信息检索装置框架示意图；

图2为本申请实施例提出的一种语句检索方法的实施例示意图；

图3为本申请实施例提出的另一种语句检索方法的实施例示意图；

图4为本申请实施例提出的一种确定第一距离的实施例流程示意图；

图5为本申请实施例提出的另一种确定第一距离的实施例流程示意图；

图6a为本申请实施例提供的一种可查询词匹配的方法示意图；

图6b为本申请实施例提供的一种可查询词匹配的方法示意图；

图6c为本申请实施例中一种应用场景示意图；

图7为本申请实施例提出的一种近似短语分数与第一距离的函数关系示意图；

图8为本申请实施例提出的另一种近似短语分数与第一距离的函数关系示意图；

图9为本申请实施例提出的另一种近似短语分数与第一距离的函数关系示意图；

图10为本申请实施例中信息检索装置的一种实施例示意图；

图11为本申请实施例中的计算机设备的硬件结构一个示意图。

具体实施方式

本申请实施例提供了一种语句检索方法以及相关装置，从查询语句中提取第一可查询词序列(terms)，第一可查询词序列包括核心词(core words)和非核心词(non-corewords)，该核心词为第一可查询词序列中语义权重大于非核心词的可查询词，通过分级检索，省去了使用非核心词(non-core words)检索原始文档集合的步骤。在使用核心词检索原始文档集合后，以得到目标文档集合。计算第一可查询词序列与目标文档集合中各个文档的相关性，并确定查询语句的检索结果。由于核心词是查询语句中语义权重较高的词，通过使用核心词检索文档，可以保证检索结果中目标文档与查询语句的相关性，同时降低了读写资源的占用率，提升语句检索速度。该文档可以是文本文档，例如“txt”格式文档，“doc” 格式文档，该文档也可以是网页等链接，该文档还可以是数据库形式存储的数据条目，此处不作限制。

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

请参阅图1，图1为本申请实施例提出的一种信息检索装置框架示意图。该信息检索装置以基于弹性搜索(elasticsearch，ES)集群架构的搜索引擎为例进行说明，需要说明的是，本申请实施例提出的语句检索方法还可以部署于其它基于分布式架构或传统架构的信息检索引擎，此处不作限制。该信息检索装置中客户端与搜索引擎既可以同时部署于云端，也可以同时部署于终端设备中，还可以一部分部署于云端一部分部署于终端设备，此处不作限定。

图1中，该信息检索引擎包括客户端和部署于云端(或服务器)的搜索引擎。该搜索引擎中包括一个或多个协调节点(coordinator)，如图所示，协调节点1至协调节点N，N 为大于1的正整数；和一个或多个数据节点(datanode)，如图所示，数据节点1至数据节点M，M为大于1的正整数；神经网络。上述协调节点和数据节点通过集群(cluster) 网络连接。集群网络是一组相互独立的通过高速网络互联的计算机，这些计算机构成了一个组，并以单一系统的模式加以管理。一个客户端与集群网络相互作用时，该集群网络可视为一个独立的服务器。

为了便于理解，下面以协调节点1和数据节点1为例进行说明，需要说明的是，该搜索引擎中的其它节点与该协调节点1或数据节点1类似，此处不再赘述。客户端用于接收用户输入的查询语句，可选的，该客户端通过表述性状态传递(representational statetransfer，REST)接口与搜索引擎中的各个节点建立连接。在搜索引擎中，协调节点1按照功能划分可分为查询处理单元和集群管理单元，具体的，协调节点1中的查询处理单元，对来自客户端的查询语句进行领域特定语言(domain specific language，DSL)处理，解析后生成第一可查询词序列。该协调节点1中的集群管理单元用于管理当前搜索引擎中各个协调节点和数据节点，具体的，管理协调节点中的元数据。该协调节点1通过集群管理单元将第一可查询词序列发送给旗下管理的数据节点和神经网络，该数据节点可以是数据节点1，也可以是其它数据节点，还可以是多个数据节点协同工作。以该协调节点1管理数据节点1至数据节点M为例进行说明。首先，神经网络对该第一可查询词序列进行语义分析，并确定至少一个核心词和至少一个非核心词，该核心词为第一可查询词序列中语义权重大于非核心词的可查询词，需要说明的是，当第一可查询词序列中仅包括一个可查询词时，令该可查询词为核心词；当第一可查询词序列中所有的可查询词经过语义分析后，所有可查询词的语义权重均大于某一阈值，则另所有的可查询词为核心词。该神经网络可以部署于该搜索引擎内部，通过集群网络与其它节点连接(如图1所示)；该神经网络也可以独立部署于该搜索引擎外部，通过REST接口等方式与该搜索引擎建立连接。其次，该神经网络标记该第一可查询词序列中核心词并将结果返回至协调节点1，该协调节点1 将第一可查询词序列(标记核心词)发送至数据节点1至数据节点M。这些数据节点根据该第一可查询词序列进行检索，具体的，以数据节点1为例进行说明。数据节点按照功能划分可分为索引管理单元和查询管理单元，该数据节点可以选用全文检索引擎的库 (Lucene)实现。在信息检索装置中，网页或条目等数据抽象为文档(document，doc)，每个文档可视为一个可查询词的有序序列，本申请实施例提出的文档，包括但不限于文本文档或网页页面等。在数据节点的索引管理单元中存放可查询词与文档的索引关系，该可查询词与文档的索引关系称为文档检索数据，可选的，该文档检索数据以倒排列表的形式实现。下面对倒排列表进行说明：

倒排列表是一种文档的索引方法，用来存储在全文搜索下，某个可查询词在哪些文档中出现的映射关系，是一个文档序号(doc id)从小到大排列的有序列表。例如可查询词” A”在序号(id)为0,2,5的文档中出现，则A的倒排列表就可以表示为{0,2,5}。而为了能够找到文章中多个可查询词组成的短语，我们还需要记录可查询词在文档中的位置，本申请实施例中，位置指的是某个可查询词在该文档中的位置信息，该文档中所有可查询词的位置可以组成一个向量，该向量中每个分量指示对应的可查询词在该文档中的位置。假设A在文档0的11,25,46三个位置上出现，在文档2的54位置上出现，在文档5的14,39 位置上出现，则我们就有了倒排列表{(0,<11,25,46>),(2,<54>),(5,<14,39>)}。在信息检索装置使用倒排列表时，通常通过迭代器的方式来遍历倒排列表上面数据，具体的，对于一个可查询词的倒排列表应当提供以下抽象接口：

a)“nextDoc”：取出下一个含有该可查询词的doc id。例如若有上面示例的可查询词A的倒排，依次调用nextDoc三次可以的得到doc id 0,2,5；

b)“advance”：尝试将倒排的状态快进到doc x，x为输入的预期快进的目标文档序号，若该倒排列表中没有doc x，则advance后的状态为超过x的第一个doc id。例如对于倒排{0,5,7}，advance(5)操作将返回5，而advance(6)则返回7表明倒排列表中没有6。

c)“nextPosition”：取出当前doc中该可查询词下一个doc中位置。例如在上面的倒排中，若此时倒排迭代器的状态在doc id＝5处，则依次调用nextPosition两次可以得到位置14,39.

该数据节点1接收来自协调节点1的第一可查询词序列后，在查询管理单元在索引管理单元管理的文档索引数据中检索核心词。数据节点1根据预先定义的相关度匹配公式，对第一可查询词序列与文档之间的相关性进行评分。然后向协调节点1返回检索结果，该检索结果由相关性评分最高的前K个文档组成，K为正整数。该数据节点1使用第一可查询序列对文档的检索，可以是布尔(bool)查询，也可以是短语匹配(match_phrase)查询，还可以是查询树等更复杂的树状逻辑查询，此处不作限定。可选的，数据节点1的索引管理单元与查询管理单元可以通过全文检索引擎的库(Lucene)实现，“Lucene”是一个开放源代码的全文检索引擎工具包，提供了全文检索引擎的架构。

协调节点N与数据节点M的工作方式与上述数据节点1和协调节点1的工作方式类似，此处不再赘述。

下面，结合附图对本申请实施例的详细步骤进行说明，请参阅图2。图2为本申请实施例提出的一种语句检索方法的实施例示意图。本申请实施例提出的一种语句检索方法包括：

201、获取查询语句。

本实施例中，信息检索装置获取用户输入的查询语句。本实施例中，为了便于说明，以查询语句为“关于中美贸易发展”为例介绍本方案。

202、从查询语句中提取第一可查询词序列。

本实施例中，当信息检索装置获取查询语句后，对该查询语句进行分词处理提取第一可查询词序列。以英文查询语句为例，英文单词天然有空格隔开，容易按照空格分词，但是也有时候需要把多个单词做为一个可查询词，比如一些名词如“New York”，需要做为一个可查询词看待。对于中文查询语句，由于没有空格，通常可以使用基于词典的分词算法进行分词处理。也可以借助神经网络，使用隐马尔科夫模型(hidden markov model，HMM)、条件随机场(conditional random field，CRF)算法或深度学习算法等工具进行分词处理，此处不作限定。

以查询语句“关于中美贸易发展”为例，可以提取第一可查询词序列为：“关于”、“中美”、“贸易”和“发展”。

203、确定第一可查询词序列中的核心词与非核心词。

本实施例中，信息检索装置确定第一可查询词序列后，对该第一可查询词序列进行语义分析。语义分析主要目的是：研究单个词的语义(即词义)；单个词的含义是如何联合起来组成句子(或者更大的单位)的含义。从分析粒度上可以分为：词语级的语义分析、句子级语义分析以及篇章级语义分析。在词语级的语义分析中包括：词语消歧、词表示、同义词和上下位词的挖掘等。句子级语义分析包括：语义角色标注(semantic rolelabeling,SRL)，一种浅层的语义分析技术，标注句子中某些短语为给定谓词的论元(语义角色)，如施事、受事、时间和地点等；文本蕴涵(textual entailment)是指两个文本片段有指向关系。当认为一个文本片段真实时，可以推断出另一个文本片断的真实性；句表示：同词表示类似，句表示研究的是用一个多维的向量表示一句话的含义；语义依存分析(semantic dependency parsing,SDP)，分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。

具体的，通过神经网络对第一可查询词序列进行语义分析后，确定该第一可查询词序列中哪些词是核心词，哪些词是非核心词。该神经网络可以选用：基于循环神经网络(recurrent neural network，RNN)实现的“state-of-the-art语言模型”、长短期记忆(long short term memory,LSTM)模型、“N-Gram语言模型”或词袋模型(Bag-of-wordsmodel) 等。下面以信息检索装置使用词加权(term weighting)算法为例，说明如何确定第一可查询词序列中的核心词和非核心词。词加权算法中，需要对每个可查询词计算一个语义权重，重要的可查询词给予更高的权重，例如：查询语句“什么产品对减肥帮助最大”的词加权计算结果可能是：什么0.1，产品0.5，对0.1，减肥0.8，帮助0.3，最大0.2”。常见的词加权算法包括：“TF-IDF”、“Okapi”或“MI”算法，此处不作限定。

示例性的，以查询语句“关于中美贸易发展”为例，语义分析结果如表1。

可查询词	“关于”	“中美”	“贸易”	“发展”
					语义权重	0.1	0.3	0.4	0.2
核心词	-	·	·	-
					非核心词	·	-	-	·

表1

204、根据核心词检索原始文档集合，以得到第一文档集合，第一文档包括核心词。

本实施例中，根据步骤203得到的核心词检索原始文档集合，该原始文档集合中包括一个或多个原始文档。从原始文档集合中检索出第一文档集合，该第一文档集合中包括一个或多个第一文档，第一文档中包括一个或多个核心词。

具体的，以该原始文档集合包括文档1(doc1)至文档11(doc11)为例进行说明，原始文档集合的每个文档的文档序号与每个文档中可查询词的索引关系，如表2所示：

表2

表2中，以“关于:12”为例，“关于:12”表示该可查询词“关于”在文档1中的位置为12。

步骤203中，确定查询语句中包括核心词“中美”和“贸易”，非核心词“关于”和 “发展”。则使用“中美”和“贸易”对上述表2所示的原始文档集合进行检索。得到包括核心词“中美”和/或“贸易”的第一文档集合{2，4，5，6，7，8，9，10}，第一文档中包括核心词，例如文档2中包括“中美”和“贸易”；文档7中包括“贸易”。在一种可选的实现方式中，可选用抽象接口“nextDoc”检索原始文档集合。

205、根据第一可查询词序列中核心词序列检索第一文档集合，以得到第二文档集合。

本实施例中，信息检索装置以得到第一文档集合后，根据第一可选词序列中核心词序列检索第一文档集合，以以得到第二文档集合，该第二文档集合中包括一个或多个第二文档。该第二文档中包括第一可查询词序列中核心词序列。核心词序列中的核心词按照核心词在查询语句中排列的顺序排列。

具体的，以表2所示的原始文档集合为例，根据第一可查询词序列中核心词序列“中美”和“贸易”，检索第一文档集合{2，4，5，6，7，8，9，10}。得到包括核心词“中美” 和“贸易”的第二文档集合，该第二文档集合为{2，5，8，9，10}。该第二文档集合如表 3所示。

表3

206、当查询语句还包括非核心词时，根据非核心词检索第二文档集合，以得到目标文档集合。

本实施例中，当查询语句还包括非核心词时，根据非核心词检索第二文档集合，以得到目标文档集合，该目标文档集合中包括一个或多个目标文档。该目标文档包括第一可查询词序列中核心词序列，和，一个或多个非核心词。

具体的，以第二文档集合{2，5，8，9，10}为例，使用非核心词检索第二文档集合，以得到目标文档集合{2，5，8，9，10}。例如：文档2中包括第一可查询词序列中核心词序列“中美”和“贸易”，和一个非核心词“关于”。文档5中包括第一可查询词序列中核心词序列“中美”和“贸易”，和两个非核心词“关于”和“发展”。文档10中包括第一可查询词序列中核心词序列“中美”和“贸易”，和一个非核心词“发展”。

需要说明的是，当第一可查询词序列中不包括非核心词时，令步骤205得到的第二文档集合为目标文档集合。

207、根据第一向量和第二向量，确定近似短语。

本实施例中，信息检索装置以得到目标文档集合后，根据第一向量和第二向量确定近似短语(proximity phrase)。本申请实施例中，使用向量表示可查询词在文档中的位置。该向量中的每个分量分别对应某个可查询词在文档中的位置。步骤207中，第一向量指示第一可查询词序列中核心词序列在目标文档中的位置。第二向量指示第一可查询词序列中非核心词在目标文档中的位置。近似短语包括第一可查询词序列中核心词序列和至少一个非核心词。近似短语中核心词与非核心词的距离小于第二阈值，该第二阈值根据用户实际需求或“滑动窗口”的长度确定，例如，可选第二阈值为5。

在一种可选的实现方式中，使用“滑动窗口”匹配当前文档是否存在第一可查询词序列中核心词序列。具体的，请参阅图6a，图6a为本申请实施例提供的一种可查询词匹配的方法示意图。使用滑动窗口匹配文档中每个核心词附近是否存在其它的核心词，这些核心词共同组成第一可查询词序列中核心词序列。以图6a为例，该滑动窗口的大小为5，即该滑动窗口可以同时检索位置连续的5个可查询词。滑动窗口从文档8中位置为0的可查询词开始遍历该文档8。当遍历到“中美：13”时，根据向量“13”和向量“15”，确定该滑动窗口“Pc1”中同时存在“中美”和“贸易”，即第一向量为<13，15>；同理，在滑动窗口“Pc2”中确定第一向量<38，39>；在滑动窗口“Pc3”中确定第一向量<50,53>。

然后，根据文档8中非核心词“关于”和“发展”的位置，即第二向量，确定近似短语。例如，滑动窗口“Pc1”中确定的“中美：13”和“贸易：15”，附近存在多个非核心词(关于：11，关于：12，发展：16)，此时筛选与核心词最近的非核心词，由核心词序列和非核心词确定近似短语，并得到第三向量。第三向量指示近似短语在目标文档中的位置。与“中美：13”和“贸易：15”相对的第三向量为<12,13,15,16>，其中，12对应“关于”，13对应“中美”，15对应“贸易”，16对应“发展”。

需要说明的是，若任意非核心词并未出现在滑动窗口的附近，取“dm”作为该非核心词的在第三向量中的分量，该“dm”为固定值，例如5或10。

依次类推，得到文档8中可以得到如下3个近似短语对应的第三向量：<12,13,15,16>、 <dm,38,39,41>和<52,50,53,dm>。

208、确定第一距离。

本实施例中，确定第一距离存在两种方案：

(1)、根据第三向量和偏移量确定第五向量。根据第四向量、第五向量和权重确定第一距离。该第三向量为近似短语在目标文档中的位置，该第四向量指示第一可查询词序列在目标文档中的位置。第五向量指示近似短语与偏移量之间的距离。

可选的，第一距离为第四向量与第五向量的切比雪夫距离，或，第一距离为第四向量与第五向量的曼哈顿距离，或，第一距离为第四向量与第五向量的范数距离，或，第一距离为第四向量与第五向量的马氏距离，或，第一距离为第四向量与第五向量的闵可夫斯基距离。

例如，以切比雪夫距离为例，通过以下方法计算第一距离：

dis_i＝max_j∈N(|p_j-q_j|)；

(2)、根据第三向量和偏移量确定第五向量。根据第四向量、第五向量和权重确定第一距离，其中，权重用于对第四向量与第五向量之间的距离进行加权修正。该第三向量为近似短语在目标文档中的位置，该第四向量指示第一可查询词序列在目标文档中的位置。

可选的，第一距离为第四向量与第五向量之间，经过权重加权修正的切比雪夫距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的曼哈顿距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的范数距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的马氏距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的闵可夫斯基距离。

例如，以曼哈顿距离为例，通过以下方法计算第一距离：

由于第四向量指示的是第一可查询词序列在目标文档中的位置，而该第一可查询词序列在目标文档并未实际出现，因此，该第四向量中各个分量的值由信息检索装置赋值确定。可选的，第四向量中任意分量的值，与，第五向量中短语重心对应的分量大小一致。可选的，第四向量中任意分量的值，与，第三向量中最小的分量的值一致。

偏移量指示第一可查询词序列中每个可查询词与第一可查询词序列中第一个可查询词之间的距离。需要说明的是，本申请实施例中，可查询词之间的距离指的是可查询词对应的分量之差的绝对值。以表2中的文档8为例，核心词为“中美”和“贸易”。根据第一可查询词序列“关于”、“中美”、“贸易”和“发展”，可以确定每个可查询词的偏移量，如表4所示：

表4

以图6a为例，文档8中包括如下3个近似短语对应的第三向量：<12,13,15,16>、 <dm,38,39,41>和<52,50,53,dm>。分别计算每个近似短语对应的第一距离。

步骤208的详细方案，请参阅图4和图5对应的实施例。

209、根据第一距离确定近似短语的分数。

本实施例中，信息检索装置根据第一距离确定与该第一距离对应的近似短语的分数。

在一种可选的实现方式中，目标文档中各个近似短语对应的第一距离本身，作为对应近似短语的分数。

在另一种可选的实现方式中，通过以下方法计算近似短语的分数：

其中，pf_i为第i个近似短语的分数，dis_i为第i个近似短语对应的第一距离，pos_i为第三向量中第i个分量，i为正整数，k₁为第一参数，α为第二参数，decay为衰减函数。具体的，k₁调节当前文档中各个近似短语的分数对第一可查询词序列和目标文档相关性计算时的影响程度；斜率α调节第一距离增大时pf_i减小的速度；decay(pos_i)是匹配位置为输入的衰减函数，该匹配位置为近似短语P_i在目标文档中的位置，一般来说匹配位置越靠前，目标文档与第一可查询词序列就越相关。因此，P_i位置越靠后，则对相关性的惩罚就越大。该衰减函数可以根据不同应用场景选取无衰减、高斯衰减、指数衰减、线性衰减等多种衰减函数，此处不作限定。

为了便于理解，请参阅图7、图8和图9，图7-9为本申请实施例提出的一种近似短语分数与第一距离的函数关系示意图。图7中，第一参数k₁＝1，第二参数α＝2。图8中，第一参数k₁＝4，第二参数α＝1。图9中，第一参数k₁＝4，第二参数α＝0.05。由上述图7- 图9可知，α较大时，近似短语的分数pf_i偏向于各个可查询词之间完全匹配，即在第一距离较小时，pf_i下降很快，而在第一距离较大时则分数相近，下降变缓。信息检索装置根据实际需求的不同，确定第一参数的取值、第二参数的取值和衰减函数的类型。

以图6a为例，文档8中包括如下3个近似短语对应的第三向量：<12,13,15,16>、 <dm,38,39,41>和<52,50,53,dm>。根据每个近似短语对应的第一距离，分别确定近似短语的分数。

210、根据目标文档中一个或多个近似短语的分数，确定第一可查询词与目标文档集合中各个文档的相关性，并确定检索结果。

本实施例中，信息检索装置根据目标文档中一个或多个近似短语的分数，确定第一可查询词与目标文档集合中各个文档的相关性，并确定检索结果。例如当目标文档中只有一个近似短语，则根据该近似短语的分数确定当前目标文档与该第一可查询词序列的相关性。然后根据当前目标文档集合中各个目标文档与该第一可查询词序列的相关性，确定检索结果。可选的，该检索结果可以是相关性最强的第一个目标文档，该检索结果也可以是按照相关性对目标文档集合中各个文档进行排序，此处不作限定。

在一种可选的实现方式中，信息检索装置可以对目标文档中一个或多个近似短语的分数进行处理。然后根据处理结果，确定该目标文档与该第一可查询词序列的相关性。可选的，使用BM25算法对近似短语的分数进行处理，该BM25算法的处理结果为当前目标文档与该第一可查询词序列的相关性。BM25是一种用来评价查询语句和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。可选的，使用词频-逆文本频率指数(termfrequency-inverse document frequency，TF-IDF)算法对近似短语的分数进行处理。

在另一种可选的实现方式中，信息检索装置可以直接根据当前目标文档中近似短语的分数，确定该目标文档与该第一可查询词序列的相关性。例如，对一个或多个近似短语的分数进行求和。通过比较目标文档集合中不同目标文档的分数和(当前目标文档中近似短语的分数和)，确定查询语句的检索结果。

以图6a为例，文档8中包括如下3个近似短语对应的第三向量：<12,13,15,16>、 <dm,38,39,41>和<52,50,53,dm>。根据每个近似短语的分数，计算文档8与第一可查询词序列的相关性。

本申请实施例中，信息检索装置获取查询语句后，首先，从查询语句中提取第一可查询词序列。其次，确定第一可查询词序列中的核心词与非核心词。再次，根据核心词检索原始文档集合，以得到第一文档集合，第一文档包括核心词。当查询语句还包括非核心词时，根据非核心词检索第二文档集合，以得到目标文档集合。在根据非核心词检索第二文档集合的过程中，根据第一向量和第二向量，确定近似短语。第一向量指示第一可查询词序列中核心词序列在目标文档中的位置。第二向量指示第一可查询词序列中非核心词在目标文档中的位置。确定近似短语后，根据第三向量、第四向量和第五向量确定第一距离，该第三向量为近似短语在目标文档中的位置，该第四向量指示第一可查询词序列在目标文档中的位置，该第五向量指示近似短语与偏移量之间的距离。偏移量指示第一可查询词序列中每个可查询词与第一可查询词序列中第一个可查询词之间的距离。再次，根据第一距离确定查询语句的检索结果。通过分级检索，节省了大量非核心词参与的读写操作，降低了对读写资源的占用率，提升语句检索速度。同时，相较于现有技术方案，检索得到的目标文档中可以包括缺少部分非核心词的近似短语。

在图2所示实施例的基础上，请参阅图3，图3为本申请实施例提出的另一种语句检索方法的实施例示意图。当查询语句仅包括核心词时，本申请实施例提出的语句检索方法包括：

301、获取查询语句。

本实施例中，信息检索装置获取用户输入的查询语句。本实施例中，为了便于说明，以查询语句为“中美贸易”为例介绍本方案。

302、从查询语句中提取第一可查询词序列。

本实施例中，具体实现方法与前述步骤202类似，此处不再赘述。该查询语句提取的第一可查询词序列为“中美”和“贸易”。

303、确定第一可查询词序列中的核心词。

本实施例中，具体实现方法与前述步骤203类似，此处不再赘述。该查询语句提取的第一可查询词序列为“中美”和“贸易”，并确定词为“中美”和“贸易”。

304、根据核心词检索原始文档集合，以得到第一文档集合，第一文档包括核心词。

本实施例中，具体实现方法与前述步骤204类似，此处不再赘述。

305、当查询语句无非核心词时，根据第一可查询词序列中核心词序列检索第一文档集合，以得到第二文档集合，令第二文档集合为目标文档集合。

本实施例中，第一可查询词序列中核心词为“中美”和“贸易”，则根据该第一可查询词序列中核心词序列检索第一文档集合，以得到第二文档集合。由于第一可查询词序列中无非核心词，则令该第二文档集合为目标文档集合。具体实现方法与前述步骤205类似，此处不再赘述。

306、根据第一向量，和第四向量，确定第一距离，第一向量指示核心短语在目标文档的位置。

本实施例中，由于该第一可查询词序列中无非核心词，因此令第一向量指示的核心短语在目标文档中的位置，该核心短语由该第一可查询词序列中核心词序列组成。具体实现方法与前述步骤206-208类似，此处不再赘述。

307、根据第一距离确定核心短语的分数。

本实施例中，具体实现方法与前述步骤209类似，此处不再赘述。

308、根据目标文档中一个或多个核心短语的分数，确定第一可查询词与目标文档集合中各个文档的相关性，并确定检索结果。

本实施例中，具体实现方法与前述步骤210类似，此处不再赘述。

本申请实施例中，从查询语句中提取的第一可查询词序列中无非核心词时，同样可以使用本申请提出的语句检索方法。通过核心词对原始文档集合进行初步检索，然后对包含核心词的文档再使用核心词序列(核心短语)进行二次检索。通过分级检索，节省了大量计算距离所占用的计算资源，提升语句检索速度，提升信息检索装置的性能。

在图2-图3所示实施例的基础上，下面结合附图对如何确定第一距离，分别展开描述。具体的，请参阅图4，图4为本申请实施例提出的一种确定第一距离的实施例流程示意图。

401、根据第三向量和偏移量确定第五向量。

本实施例中，信息检索装置根据第三向量和偏移量确定第五向量。

在一种可选的实现方式中，通过以下方法计算第五向量：

phrase_position(J)＝position(J)–offset(J)；

其中，phrase_position(J)为第五向量中第J个分量，position(J)为第三向量中第J 个分量，offset(J)为第一可查询词序列中第J个可查询词的偏移量，J为正整数。

例如，根据第三向量<12,13,15,16>，偏移量(0，1，2，3)，确定第五向量为 <12,12,13,13>。

402、根据第四向量和第五向量确定第一距离。

本实施例中，根据第四向量和第五向量确定第一距离。第四向量中任意分量的值，与，第五向量中最小的分量的值一致。例如，根据第三向量<12,13,15,dm>，确定第四向量为 <12,12,12,12>。根据第四向量和第五向量确定第一距离。

具体的，根据第四向量和第五向量确定距离，可以选用多种向量距离的计算方法，包括但不限于：曼哈顿距离、切比雪夫距离、范数距离、马氏距离、闵可夫斯基距离或欧式距离。

以切比雪夫距离为例，通过以下方法计算第一距离：

dis_i＝max_j∈N(|p_j-q_j|)；

本申请实施例中，提供了一种第一距离的计算方法，提升了本方案的实现灵活性。

具体的，请参阅图5，图5为本申请实施例提出的另一种确定第一距离的实施例流程示意图。

501、根据第一可查询词序列和第一可查询词序列中各个可查询词的权重，确定短语重心。

本实施例中，根据第一可查询词序列与第一可查询词序列中各个可查询词的权重，确定短语重心，其中，短语重心为权重按照第一可查询词序列的顺序依次累加时，累加和大于第一阈值的可查询词。

具体的，以查询语句“关于中美贸易发展”为例，第一可查询词序列中可查询词与权重之间的对应关系，如表5所示。

可查询词	“关于”	“中美”	“贸易”	“发展”
					权重	0.1	0.3	0.4	0.2

表5

按照可查询词在第一可查询词序列中出现的顺序“关于”、“中美”、“贸易”和“发展”，依次累加，当累加至“贸易”时累加和到达0.8。令第一阈值为0.7，则此时“贸易”确定为短语重心。需要说明的是，第一阈值根据查询语句中可查询词的权重确定，也可以根据用户的实际需求确定，此处不作限制。

502、根据第三向量和偏移量确定第五向量。

本实施例中，具体实现方式与步骤401类似，此处不再赘述。

503、根据第四向量、第五向量和权重，确定第一短语距离。

本实施例中，根据第四向量、第五向量和短语重心，计算第一短语距离。第四向量中任意分量的值，与，第五向量中短语重心对应的分量大小一致。

例如，以曼哈顿距离为例，通过以下方法计算第一距离：

具体的，请参阅图6b。以滑动窗口“Pc1”为例，根据第三向量<12,13,15,16>，偏移量(0，1，2，3)，确定第五向量为<12,12,13,13>。

当第三向量为<12,13,15,16>，偏移量(0，1，2，3)，确定第五向量为<12,12,13,13>。第四向量为<13,15,15,15>。带入上式，计算得到第一距离dis1等于0.4：

dis₁＝0.1·|12-13|+0.3·|12-13|+0.4·|13-13|+0.2·|13-13|＝0.4

下面，结合附图介绍本申请实施例提出的语句检索方法的一种应用场景，请参阅图6c，图6c为本申请实施例中一种应用场景示意图。当本申请实施例提出的语句检索方法应用于终端设备时，包括：

601、获取查询语句，并从查询语句中提取第一可查询词序列。

步骤601中，用户可以通过键盘、可触摸屏幕或鼠标等输入装置向终端设备输入查询语句。用户也可以通过麦克风向终端设备输入语音指令，终端设备对该语音指令进行识别，生成查询语句。用户还可以通过摄像头等输入装置向终端设备输入待查询的图片，终端设备对该图片进行识别，并提取出查询语句。用户还可以通过其它方式向终端设备输入查询语句，此处不作限定。终端设备还可以通过识别内部媒体流，例如音频文件或视频文件，生成查询语句。

当终端设备获取查询语句后，从该查询语句中提取第一可查询词序列，具体提取第一可查询词序列的方法，与前述步骤202类似，此处不再赘述。

602、确定第一可查询词序列中的核心词与非核心词。

步骤602中，终端设备对查询语句进行分词处理后，得到第一可查询词序列，该第一可查询词序列中包括一个或多个可查询词。然后终端设备使用神经网络对该第一可查询词序列进行语义分析，确定第一可查询词序列中的核心词与非核心词。

该神经网络既可以运行于该终端设备内部的处理器中，该处理器包括：应用处理器 (application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。当该神经网络运行于终端设备内部时，终端设备通过运行于内部处理器上的神经网络，对第一可查询词序列进行语义分析。然后确定该第一可查询词序列中的核心词与非核心词。

该神经网络也可以部署于云端的服务器中，终端设备通过通信链路向部署于云端的神经网络发送第一可查询词序列，由神经网络对该第一可查询词序列进行语义分析。然后确定该第一可查询词序列中的核心词与非核心词。

具体实现方式与前述步骤203类似，此处不再赘述。

603、根据第一可查询词序列中核心词序列和至少一个非核心词检索原始文档集合，以得到第二文档集合。

步骤603中，终端设备根据核心词序列检索原始文档集合，该原始文档集合可以是与该终端设备建立通信连接的服务器中各种网页的集合，也可以是该终端设备内部存储的文本文档集合，此处不做限定。具体的使用核心词序列和至少一个非核心词进行检索的方法，与前述步骤204-206类似，此处不再赘述。

604、根据第一向量和第二向量，确定近似短语。

步骤604中，与前述步骤207类似，此处不再赘述。

605、确定第一距离。

步骤605中，与前述步骤208类似，此处不再赘述。

606、根据第一距离确定近似短语的分数。

步骤606中，与前述步骤209类似，此处不再赘述。

607、根据目标文档中一个或多个近似短语的分数，确定第一可查询词与目标文档集合中各个文档的相关性，并确定检索结果。

步骤607中，当终端设备确定第一可查询词与目标文档集合中各个文档的相关性后，通过屏幕向用户展示检索结果，例如查询语句为“关于中美贸易发展”，则检索结果中按照相关性高低排序，分别展示文档1“···关于中美贸易发展··”、文档2“···关于中美贸易···发展”、文档3“···中美···贸易···”。

本申请实施例中，通过分级检索，首先，不遗漏第一可查询词序列中所有的核心词进行检索，其次，使用一个或多个非核心词在前次检索得到的第二文档集合中进行检索，在保证较低的读写资源占用率的前提下，进一步提升检索结果中目标文档与查询语句的相关性。需要说明的是，终端设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备。该终端设备可以是移动站 (mobile station，MS)、用户模块(subscriber unit)、蜂窝电话(cellular phone)、智能电话(smart phone)、无线数据卡、个人数字助理(personal digital assistant，简称：PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(machine type communication,MTC)终端设备等。

上述主要以方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是，上述信息检索装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对信息检索装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个检索模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请中的信息检索装置进行详细描述，请参阅图10，图10为本申请实施例中信息检索装置的一种实施例示意图。信息检索装置1000包括：

提取模块1001，用于从查询语句中提取第一可查询词序列，其中，该第一可查询词序列指示按照该查询语句的语序排列的多个词语，该第一可查询词序列包括至少一个核心词，以及一个或多个非核心词，该至少一个核心词为该第一可查询词序列中的语义权重大于该非核心词的可查询词；

检索模块1002，用于根据该至少一个核心词检索原始文档集合，以得到目标文档集合，其中，该目标文档集合包括至少一个目标文档，该目标文档包括该至少一个核心词；

计算模块1003，用于计算该第一可查询词序列与该目标文档集合中各个文档的相关性，以基于该相关性从该目标文档集合中得到该查询语句的检索结果。

在本申请的一些实施例中，

检索模块1002，具体用于根据核心词检索原始文档集合，以得到第一文档集合，第一文档集合包括至少一个第一文档，第一文档包括核心词；

检索模块1002，具体用于根据第一可查询词序列中核心词序列检索第一文档集合，以得到目标文档集合，目标文档包括第一可查询词序列中核心词序列。

在本申请的一些实施例中，

检索模块1002，具体用于根据该第一可查询词序列中所有的核心词组成的核心词序列检索该原始文档集合，以得到该目标文档集合，该目标文档包括该核心词序列，该核心词序列中的核心词按照该核心词在该查询语句中排列的顺序排列。

在本申请的一些实施例中，

该检索模块1002，具体用于根据该第一可查询词序列中所有的核心词组成的核心词序列检索该原始文档集合，以得到第二文档集合，该第二文档集合包括至少一个第二文档，该第二文档包括该第一可查询词序列中该核心词序列；

该检索模块1002，具体用于根据该多个非核心词检索该第二文档集合，以得到该目标文档集合，其中，该目标文档集合中的每个目标文档包括该第一可查询词序列中该核心词序列和该多个非核心词中的至少一个，以及，该目标文档集合中，至少两篇目标文档中包括的非核心词不完全相同。

在本申请的一些实施例中，

检索模块1002，具体用于根据第一可查询词序列中核心词序列检索第一文档集合，以得到第二文档集合，第二文档集合包括至少一个第二文档，第二文档包括第一可查询词序列中核心词序列；

检索模块1002，具体用于根据非核心词检索第二文档集合，以得到目标文档集合，其中，目标文档包括第一可查询词序列中核心词序列和至少一个非核心词。

在本申请的一些实施例中，

计算模块1003，具体用于根据第一向量与第二向量，确定近似短语，其中，第一向量指示第一可查询词序列中核心词序列在目标文档中的位置，第二向量指示非核心词在目标文档中的位置，近似短语包括第一可查询词序列中核心词序列和至少一个非核心词，第三向量指示近似短语在目标文档中的位置；

计算模块1003，具体用于根据第三向量和第四向量，确定第一距离，其中，第四向量指示第一可查询词序列在目标文档中的位置，第一距离为第三向量与第四向量之间的距离；

计算模块1003，具体用于根据第一距离确定第一可查询词序列与目标文档集合中各个文档的相关性。

在本申请的一些实施例中，

计算模块1003，具体用于根据第三向量与偏移量确定第五向量，其中，偏移量指示第一可查询词序列中每个可查询词语与第一可查询词序列中第一个可查询词之间的距离，第五向量指示近似短语与偏移量之间的距离；

计算模块1003，具体用于根据第四向量和第五向量，确定第一距离。

在本申请的一些实施例中，

检索模块1002，还用于根据第一可查询词序列与第一可查询词序列中各个可查询词的权重，确定短语重心，其中，短语重心为权重按照第一可查询词序列的顺序依次累加时，累加和大于第一阈值的可查询词。

在本申请的一些实施例中，

计算模块1003，具体用于根据第四向量、第五向量和权重，确定第一距离，其中，权重用于对第四向量与第五向量之间的距离进行加权修正。

在本申请的一些实施例中，第四向量中任意分量的值，与，第五向量中短语重心对应的分量大小一致。

在本申请的一些实施例中，第一距离为第四向量与第五向量之间，经过权重加权修正的切比雪夫距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的曼哈顿距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的范数距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的马氏距离，或，第一距离为第四向量与第五向量之间，经过权重加权修正的闵可夫斯基距离。

在本申请的一些实施例中，第四向量中任意分量的值，与，第五向量中最小的分量的值一致。

在本申请的一些实施例中，第一距离为第四向量与第五向量的切比雪夫距离，或，第一距离为第四向量与第五向量的曼哈顿距离，或，第一距离为第四向量与第五向量的范数距离，或，第一距离为第四向量与第五向量的马氏距离，或，第一距离为第四向量与第五向量的闵可夫斯基距离。

需要说明的是，上述信息检索装置1000的各模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本发明方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

上面从模块化功能实体的角度对本申请实施例中的信息检索装置进行描述，下面从硬件处理的角度对本申请实施例中的信息检索装置进行描述。图11为本申请实施例中的计算机设备的硬件结构一个示意图。如图11所示，该计算机设备可以包括：

该计算机设备包括至少一个处理器1101，通信线路1107，存储器1103以及至少一个通信接口1104。

处理器1101可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1107可包括一通路，在上述组件之间传送信息。

通信接口1104，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网等。

存储器1103可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路1107 与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1103用于存储执行本申请方案的计算机执行指令，并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的计算机执行指令，从而实现本申请上述实施例提供的语句检索方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图11中的处理器1101和处理器1102。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和 /或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出装置1105和输入装置 1106。输出装置1105和处理器1101通信，可以以多种方式来显示信息。输入装置1106 和处理器1101通信，可以以多种方式接收用户的输入。例如，输入装置1106可以是鼠标、触摸屏装置或传感装置等。

当该计算机设备为终端设备时，该计算机设备中，处理器1102可以包括一个或多个处理单元，例如：处理器1102可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(imagesignal processor， ISP)，控制器，存储器，视频编解码器，数字信号处理器(digitalsignal processor，DSP)，基带处理器，和/或神经网络处理器(neural-networkprocessing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是计算机设备1000的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器1102中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器1102中的存储器为高速缓冲存储器。该存储器可以保存处理器1102刚用过或循环使用的指令或数据。如果处理器1102需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器1102的等待时间，因而提高了系统的效率。

在一些实施例中，处理器1102可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I1C)接口，集成电路内置音频(inter-integrated circuitsound，I1S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus， USB)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对计算机设备1000的结构限定。在本申请另一些实施例中，计算机设备1000也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块可以通过USB接口接收有线充电器的充电输入。

电源管理模块用于连接电池，充电管理模块与处理器1102。电源管理模块接收电池和 /或充电管理模块的输入，为处理器1102，内部存储器，外部存储器，显示屏，摄像头，和无线通信模块等供电。

计算机设备1000的无线通信功能可以通过天线1，天线2，移动通信模块，无线通信模块，调制解调处理器以及基带处理器等实现。

在一些可行的实施方式中，计算机设备1000可以使用无线通信功能和其他设备通信。

天线1和天线2用于发射和接收电磁波信号。计算机设备1000中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块可以提供应用在计算机设备1000上的包括1G/3G/4G/5G等无线通信的解决方案。移动通信模块可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块还可以对经调制解调处理器调制后的信号放大，经天线2转为电磁波辐射出去。在一些实施例中，移动通信模块的至少部分功能模块可以被设置于处理器1102中。在一些实施例中，移动通信模块的至少部分功能模块可以与处理器1102的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器，受话器等)输出声音信号，或通过显示屏显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器1102，与移动通信模块或其他功能模块设置在同一个器件中。

无线通信模块可以提供应用在计算机设备1000上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块经由天线1接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器1102。无线通信模块还可以从处理器1102接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，计算机设备1000的天线1和移动通信模块耦合，天线2和无线通信模块耦合，使得计算机设备1000可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

计算机设备1000通过GPU，显示屏，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器1102可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏用于显示图像，视频等。显示屏包括显示面板。显示面板可以采用液晶显示屏 (liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organiclight emitting diode 的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed， Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，计算机设备1000可以包括1个或N个显示屏，N为大于1的正整数。

在一些可行的实施方式中，显示屏可用于显示计算机设备1000的系统输出的各个界面。计算机设备1000输出的各个界面可参考后续实施例的相关描述。

计算机设备1000可以通过ISP，摄像头，视频编解码器，GPU，显示屏以及应用处理器等实现拍摄功能。

ISP用于处理摄像头反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头中。

摄像头用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，计算机设备1000可以包括1个或N个摄像头，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。计算机设备1000可以支持一种或多种视频编解码器。这样，计算机设备1000可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG1，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现计算机设备1000的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口可以用于连接外部存储卡，例如Micro SD卡，实现扩展计算机设备 1000的存储能力。外部存储卡通过外部存储器接口与处理器1102通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器1102通过运行存储在内部存储器的指令，从而执行计算机设备1000的各种功能应用以及数据处理。内部存储器可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储计算机设备1000使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

计算机设备1000可以通过音频模块，扬声器，受话器，麦克风，耳机接口，以及应用处理器等实现音频功能。例如音乐播放，录音等。在一些可行的实施方式中，音频模块可用于播放视频对应的声音。例如，显示屏显示视频播放画面时，音频模块输出视频播放的声音。

音频模块用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。

扬声器，也称“喇叭”，用于将音频电信号转换为声音信号。

受话器，也称“听筒”，用于将音频电信号转换成声音信号。

麦克风，也称“话筒”，“传声器”，用于将声音信号转换为电信号。

耳机接口用于连接有线耳机。耳机接口可以是USB接口，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会 (cellular telecommunications industry association of the USA，CTIA)标准接口。

上述的计算机设备可以是一个通用装置或者是一个专用装置。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、无线终端装置、嵌入式装置或有图11中类似结构的装置。本申请实施例不限定计算机设备的类型。该计算机设备，既可以是云端的服务器，也可以是终端设备，此处不作限制。

可以理解的是，本申请实施例示意的结构并不构成对计算机设备1000的具体限定。在本申请另一些实施例中，计算机设备1000可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备执行本申请各个实施例所述的方法。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、XX装置、计算设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等) 方式向另一个网站站点、计算机、XX装置、计算设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的XX装置、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk， SSD))等。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语句检索方法，其特征在于，包括：

从查询语句中提取第一可查询词序列，其中，所述第一可查询词序列指示按照所述查询语句的语序排列的多个词语，所述第一可查询词序列包括至少一个核心词，以及一个或多个非核心词，所述至少一个核心词为所述第一可查询词序列中的语义权重大于所述非核心词的可查询词；

根据所述至少一个核心词检索原始文档集合，以得到目标文档集合，其中，所述目标文档集合包括至少一个目标文档，所述目标文档包括所述至少一个核心词；

计算所述第一可查询词序列与所述目标文档集合中各个文档的相关性，以基于所述相关性从所述目标文档集合中得到所述查询语句的检索结果。

2.根据权利要求1所述的方法，其特征在于，从所述查询语句中提取所述第一可查询词序列之后，所述方法还包括：

根据所述第一可查询词序列与所述第一可查询词序列中各个可查询词的权重，确定短语重心，其中，所述短语重心为按照所述第一可查询词序列的顺序依次累加可查询词的权重时，累加和大于第一阈值时最后参与累加的可查询词。

3.根据权利要求1-2中任一项所述的方法，其特征在于，根据所述至少一个核心词检索所述原始文档集合，以得到所述目标文档集合，包括：

根据所述第一可查询词序列中所有的核心词组成的核心词序列检索所述原始文档集合，以得到所述目标文档集合，所述目标文档包括所述核心词序列，所述核心词序列中的核心词按照所述核心词在所述查询语句中排列的顺序排列。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述第一可查询词序列中包括多个所述非核心词，根据所述至少一个核心词检索所述原始文档集合，以得到目标文档集合，包括：

根据所述第一可查询词序列中所有的核心词组成的核心词序列检索所述原始文档集合，以得到第二文档集合，所述第二文档集合包括至少一个第二文档，所述第二文档包括所述第一可查询词序列中所述核心词序列；

根据所述多个非核心词检索所述第二文档集合，以得到所述目标文档集合，其中，所述目标文档集合中的每个目标文档包括所述第一可查询词序列中所述核心词序列和所述多个非核心词中的至少一个，以及，所述目标文档集合中，至少两篇目标文档中包括的非核心词不完全相同。

5.根据权利要求4所述的方法，其特征在于，计算所述第一可查询词序列与所述目标文档集合中各个文档的相关性，包括：

根据第一向量与第二向量，确定近似短语，其中，

所述第一向量指示所述第一可查询词序列中所述核心词序列在所述目标文档中的位置，

所述第二向量指示所述非核心词在所述目标文档中的位置，

所述近似短语包括所述核心词序列和所述多个非核心词中的至少一个，第三向量指示所述近似短语在所述目标文档中的位置；

根据所述第三向量和第四向量，确定第一距离，其中，

所述第四向量指示所述第一可查询词序列在所述目标文档中的位置，

所述第一距离为所述第三向量与所述第四向量之间的距离；

根据所述第一距离确定所述第一可查询词序列与所述目标文档集合中各个文档的相关性。

6.根据权利要求5所述的方法，其特征在于，根据所述第三向量和所述第四向量，确定所述第一距离，包括：

根据所述第三向量与偏移量确定第五向量，其中，所述偏移量指示所述第一可查询词序列中每个可查询词语与所述第一可查询词序列中第一个可查询词之间的距离，所述第五向量指示所述近似短语与所述偏移量之间的距离；

根据所述第四向量和所述第五向量，确定所述第一距离。

7.根据权利要求5所述的方法，其特征在于，根据所述第四向量和所述第五向量，确定所述第一距离，包括：

根据所述第四向量、所述第五向量和所述权重，确定所述第一距离，其中，所述权重用于对所述第四向量与所述第五向量之间的距离进行加权修正。

8.根据权利要求7所述的方法，其特征在于，所述第四向量中任意分量的值，与，所述第五向量中所述短语重心对应的分量的值相等。

9.根据权利要求8所述的方法，其特征在于，

所述第一距离为所述第四向量与所述第五向量之间，经过所述权重加权修正的切比雪夫距离，

或，

所述第一距离为所述第四向量与所述第五向量之间，经过所述权重加权修正的曼哈顿距离，

或，

所述第一距离为所述第四向量与所述第五向量之间，经过所述权重加权修正的范数距离，

或，

所述第一距离为所述第四向量与所述第五向量之间，经过所述权重加权修正的马氏距离，

或，

所述第一距离为所述第四向量与所述第五向量之间，经过所述权重加权修正的闵可夫斯基距离。

10.根据权利要求5所述的方法，其特征在于，所述第四向量中任意分量的值，与，所述第五向量中最小的分量的值相等。

11.根据权利要求10所述的方法，其特征在于，

所述第一距离为所述第四向量与所述第五向量的切比雪夫距离，

或，

所述第一距离为所述第四向量与所述第五向量的曼哈顿距离，

或，

所述第一距离为所述第四向量与所述第五向量的范数距离，

或，

所述第一距离为所述第四向量与所述第五向量的马氏距离，

或，

所述第一距离为所述第四向量与所述第五向量的闵可夫斯基距离。

12.一种信息检索装置，其特征在于，包括：

提取模块，用于从查询语句中提取第一可查询词序列，其中，所述第一可查询词序列指示按照所述查询语句的语序排列的多个词语，所述第一可查询词序列包括至少一个核心词，以及一个或多个非核心词，所述至少一个核心词为所述第一可查询词序列中的语义权重大于所述非核心词的可查询词；

检索模块，用于根据所述至少一个核心词检索原始文档集合，以得到目标文档集合，其中，所述目标文档集合包括至少一个目标文档，所述目标文档包括所述至少一个核心词；

计算模块，用于计算所述第一可查询词序列与所述目标文档集合中各个文档的相关性，以基于所述相关性从所述目标文档集合中得到所述查询语句的检索结果。

13.根据权利要求12所述的信息检索装置，其特征在于，

所述计算模块，还用于根据所述第一可查询词序列与所述第一可查询词序列中各个可查询词的权重，确定短语重心，其中，所述短语重心为按照所述第一可查询词序列的顺序依次累加可查询词的权重时，累加和大于第一阈值时最后参与累加的可查询词。

14.根据权利要求12-13中任一项所述的信息检索装置，其特征在于，

所述检索模块，具体用于根据所述第一可查询词序列中所有的核心词组成的核心词序列检索所述原始文档集合，以得到所述目标文档集合，所述目标文档包括所述核心词序列，所述核心词序列中的核心词按照所述核心词在所述查询语句中排列的顺序排列。

15.根据权利要求12-14中任一项所述的信息检索装置，其特征在于，

所述检索模块，具体用于根据所述第一可查询词序列中所有的核心词组成的核心词序列检索所述原始文档集合，以得到第二文档集合，所述第二文档集合包括至少一个第二文档，所述第二文档包括所述第一可查询词序列中所述核心词序列；

所述检索模块，具体用于根据所述多个非核心词检索所述第二文档集合，以得到所述目标文档集合，其中，所述目标文档集合中的每个目标文档包括所述第一可查询词序列中所述核心词序列和所述多个非核心词中的至少一个，以及，所述目标文档集合中，至少两篇目标文档中包括的非核心词不完全相同。

16.根据权利要求15所述的信息检索装置，其特征在于，

所述计算模块，具体用于根据第一向量与第二向量，确定近似短语，其中，

所述第二向量指示所述非核心词在所述目标文档中的位置，

所述计算模块，具体用于根据所述第三向量和第四向量，确定第一距离，其中，

所述第一距离为所述第三向量与所述第四向量之间的距离；

所述计算模块，具体用于根据所述第一距离确定所述第一可查询词序列与所述目标文档集合中各个文档的相关性。

17.根据权利要求16所述的信息检索装置，其特征在于，

所述计算模块，具体用于根据所述第三向量与偏移量确定第五向量，其中，所述偏移量指示所述第一可查询词序列中每个可查询词语与所述第一可查询词序列中第一个可查询词之间的距离，所述第五向量指示所述近似短语与所述偏移量之间的距离；

所述计算模块，具体用于根据所述第四向量和所述第五向量，确定所述第一距离。

18.根据权利要求16所述的信息检索装置，其特征在于，

所述计算模块，具体用于根据所述第四向量、所述第五向量和所述权重，确定所述第一距离，其中，所述权重用于对所述第四向量与所述第五向量之间的距离进行加权修正。

19.根据权利要求18所述的信息检索装置，其特征在于，所述第四向量中任意分量的值，与，所述第五向量中所述短语重心对应的分量的值相等。

20.根据权利要求19所述的信息检索装置，其特征在于，

或，

21.根据权利要求16所述的信息检索装置，其特征在于，所述第四向量中任意分量的值，与，所述第五向量中最小的分量的值相等。

22.根据权利要求21所述的信息检索装置，其特征在于，

或，

所述第一距离为所述第四向量与所述第五向量的范数距离，

或，

所述第一距离为所述第四向量与所述第五向量的马氏距离，

或，

23.一种计算机设备，其特征在于，所述计算机设备包括：输入/输出(I/O)接口、处理器和存储器，

所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至11中任一所述的方法。

24.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至11中任一项所述的方法。

25.一种包含指令的计算机程序产品，其特征在于，当所述指令在计算机设备或处理器上运行时，使得所述计算机设备或所述处理器执行权利要求1至11中任一项所述的方法。

26.一种终端设备，其特征在于，所述终端设备包括：输入/输出(I/O)接口、处理器和存储器，

所述存储器中存储有程序指令；