CN106503175A

CN106503175A - 相似文本的查询、问题扩展方法、装置及机器人

Info

Publication number: CN106503175A
Application number: CN201610937132.6A
Authority: CN
Inventors: 李广增; 张磊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2016-11-01
Filing date: 2016-11-01
Publication date: 2017-03-15
Anticipated expiration: 2036-11-01
Also published as: CN106503175B

Abstract

一种相似文本的查询、问题扩展方法、装置及机器人，相似文本的查询方法包括：将目标文本作为查询条件在原始语料的索引中进行查询，以得到第一查询结果，所述原始语料的索引是预先建立的，所述原始语料包含多个原始文本；计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度；根据所述相似度确定所述目标文本的相似文本。本发明技术方案提高了相似文本查询的效率。

Description

相似文本的查询、问题扩展方法、装置及机器人

技术领域

本发明涉及语言处理领域，尤其涉及一种相似文本的查询、问题扩展方法、装置及机器人。

背景技术

在自然语言处理领域，用户经常会有在大量文本中寻找相似文本的需求。现有技术在寻找相似文本时，通常采用的处理方式是，对包含所有文本的语料进行笛卡尔积计算。然后采用编辑距离或杰卡德(Jaccard)距离来计算所有文本中的每一个文本与指定文本的相似度，相似度超过指定阀值时，即判定两个文本相似。

但是，一方面，在实际的应用中，并不是所有文本都与指定文本相似，采用上述方式时，会在并不相似的文本上产生大量的计算，例如，“查询银行卡余额”和“信用卡积分怎么用”两个文本并没有相似之处，对其进行计算是无用的，浪费存储和计算资源的同时降低了寻找效率。另一方面，在计算笛卡尔积后，会产生大量数据。例如，语料集中有10万个文本，做笛卡尔积后，会有10万*10万＝100亿个文本对，大量数据的存储和计算也是亟待解决的问题。

由上，如何提高寻找相似文本的效率是一个亟待解决的问题。

发明内容

本发明解决的技术问题是如何提高寻找相似文本的效率。

为解决上述技术问题，本发明实施例提供一种相似文本的查询方法，相似文本的查询方法包括：将目标文本作为查询条件在原始语料的索引中进行查询，以得到第一查询结果，所述原始语料的索引是预先建立的，所述原始语料包含多个原始文本；计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度；根据所述相似度确定所述目标文本的相似文本。

可选的，所述原始语料的索引的建立方法包括：对所述原始语料进行分词处理，以得到多个原始词汇；建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。

可选的，所述将目标文本作为查询条件在原始语料的索引中进行查询包括：对所述目标文本进行分词处理，以得到目标词汇；使用所述目标词汇在所述原始语料的索引中进行查询。

可选的，所述使用所述目标词汇在所述原始语料的索引中进行查询包括：查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。

可选的，所述关联关系包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。

可选的，所述计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度包括：计算所述第一查询结果中的所有原始文本与所述目标文本的第一相似度，其中，所述第一相似度采用第一算法计算得到；根据所述第一相似度和设定相似度阈值从所述第一查询结果筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；计算所述第二查询结果中的所有原始文本与所述目标文本的第二相似度，其中，所述第二相似度采用第二算法计算得到。

可选的，所述第一算法包括以下一种或多种：TF-IDF和Okapi BM25。

可选的，所述第二算法分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。

为解决上述技术问题，本发明实施例还公开了一种问答知识库的问题扩展方法，问答知识库的问题扩展方法包括：

提供机器人知识库，所述机器人知识库中包含至少一个预设标准问题，每一所述预设标准问题对应一个答案；将所述预设标准问题作为查询条件在原始语料的索引中进行查询，以得到第一查询结果，所述原始语料的索引是预先建立的，所述原始语料包含多个原始文本；计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度；根据所述相似度确定所述预设标准问题的相似文本，所述相似文本作为所述预设标准问题的扩展问题加入所述机器人知识库，所述扩展问题与所述预设标准问题对应同一答案。

可选的，所述将所述预设标准问题作为查询条件在原始语料的索引中进行查询包括：对所述预设标准问题进行分词处理，以得到目标词汇；使用所述目标词汇在所述原始语料的索引中进行查询。

可选的，所述计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度包括：

计算所述第一查询结果中的所有原始文本与所述预设标准问题的第一相似度，其中，所述第一相似度采用第一算法计算得到；根据所述第一相似度和设定相似度阈值筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；计算所述第二查询结果中的所有原始文本与所述预设标准问题的第二相似度，其中，所述第二相似度采用第二算法计算得到。

可选的，所述原始语料为以下一种或多种：机器人的聊天日志记录、人工客服历史记录数据和第三方网页的问答日志记录。

为解决上述技术问题，本发明实施例还公开了一种相似文本的查询装置，相似文本的查询装置包括：索引建立单元，用于建立原始语料的索引，其中，所述原始语料包含多个原始文本；查询单元，适于将目标文本作为查询条件在所述原始语料的索引中进行查询，以得到第一查询结果；相似度计算单元，适于计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度；相似文本确定单元，适于根据所述相似度确定所述目标文本的相似文本。

可选的，所述索引建立单元包括：第一分词子单元，适于对所述原始语料进行分词处理，以得到多个原始词汇；关联关系建立子单元，适于建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。

可选的，所述查询单元包括：第二分词子单元，适于对所述目标文本进行分词处理，以得到目标词汇；索引搜索子单元，适于使用所述目标词汇在所述原始语料的索引中进行查询。

可选的，所述索引搜索子单元查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。

可选的，所述相似度计算单元包括：第一计算子单元，适于计算所述第一查询结果中的所有原始文本与所述目标文本的第一相似度，其中，所述第一相似度采用第一算法计算得到；筛选子单元，适于根据所述第一相似度和设定相似度阈值从所述第一查询结果筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；第二计算子单元，适于计算所述第二查询结果中的所有原始文本与所述目标文本的第二相似度，其中，所述第二相似度采用第二算法计算得到。

为解决上述技术问题，本发明实施例还公开了一种问答知识库的问题扩展装置，问答知识库的问题扩展装置包括：

索引建立单元，用于建立原始语料的索引，其中，所述原始语料包含多个原始文本；知识库提供单元，适于提供机器人知识库，所述机器人知识库中包含至少一个预设标准问题，每一所述预设标准问题对应一个答案；查询单元，适于将所述预设标准问题作为查询条件在所述原始语料的索引中进行查询，以得到第一查询结果；相似度计算单元，适于计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度；相似文本确定单元，适于根据所述相似度确定所述预设标准问题的相似文本，所述相似文本作为所述预设标准问题的扩展问题加入所述机器人知识库，所述扩展问题与所述预设标准问题对应同一答案。

可选的，所述索引建立单元包括：语料分词子单元，适于对所述原始语料进行分词处理，以得到多个原始词汇；关联关系建立子单元，适于建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。

可选的，所述查询单元包括：问题分词子单元，适于对所述预设标准问题进行分词处理，以得到目标词汇；索引搜索子单元，适于使用所述目标词汇在所述原始语料的索引中进行查询。

可选的，所述相似度计算单元包括：

第一计算子单元，适于计算所述第一查询结果中的所有原始文本与所述预设标准问题的第一相似度，其中，所述第一相似度采用第一算法计算得到；筛选子单元，适于根据所述第一相似度和设定相似度阈值筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；第二计算子单元，适于计算所述第二查询结果中的所有原始文本与所述预设标准问题的第二相似度，其中，所述第二相似度采用第二算法计算得到。

为解决上述技术问题，本发明实施例还公开了一种问答机器人，所述问答机器人包括所述相似文本的查询装置或所述机器人知识库的问题扩展装置。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案通过将目标文本作为查询条件在原始语料的索引中进行查询，以得到第一查询结果，所述原始语料的索引是预先建立的，所述原始语料包含多个原始文本；通过在第一查询结果中计算至少一个原始文本与所述目标文本的相似度；进而根据所述相似度确定所述目标文本的相似文本。与现有技术中计算所有原始文本和目标文本的相似度相比，本发明技术方案在进行相似度计算之前，通过在预先建立的原始语料的索引中进行查询得到的第一查询结果，相比于原始语料，第一查询结果的数据量减小，因此在计算第一查询结果和目标文本的相似度时，计算量可以减小；尤其在原始语料的数据量庞大的情况下，寻找相似文本的效率将大大提高。

进一步，计算所述第一查询结果中的所有原始文本与所述目标文本的第一相似度，其中，所述第一相似度采用第一算法计算得到；根据所述第一相似度和设定相似度阈值从所述第一查询结果筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；计算所述第二查询结果中的所有原始文本与所述目标文本的第二相似度，其中，所述第二相似度采用第二算法计算得到。本发明技术方案对第一查询结果中的至少一个原始文本进行筛选，得到第二查询结果，再对第二查询结果中的至少一个原始文本进行相似度的计算，从而可以进一步减少计算量，提高寻找相似文本的效率。

附图说明

图1是本发明实施例一种相似文本的查询方法的流程图；

图2是本发明实施例一种问答知识库的问题扩展方法的流程图；

图3是本发明实施例一种相似文本的查询装置的结构示意图；

图4是本发明实施例一种问答知识库的问题扩展装置的结构示意图。

具体实施方式

如背景技术中所述，在实际的应用中，并不是所有文本都与指定文本相似，采用现有技术中的相似文本寻找方式时，会在并不相似的文本上产生大量的计算，同时还会产生大量数据，大量数据的存储和计算也是亟待解决的问题。

本发明技术方案在进行相似度计算之前，通过在预先建立的原始语料的索引中进行查询得到的第一查询结果，相比于原始语料，第一查询结果的数据量减小，因此在计算第一查询结果和目标文本的相似度时，计算量可以大大减小，提高了寻找相似文本的效率。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种相似文本的查询方法的流程图。

图1所示的相似文本的查询方法可以包括以下步骤：

步骤S101：将目标文本作为查询条件在原始语料的索引中进行查询，以得到第一查询结果；

步骤S102：计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度；

步骤S103：根据所述相似度确定所述目标文本的相似文本。

具体实施中，所述原始语料的索引是预先建立的，所述原始语料可以包含多个原始文本。每一原始文本中可以包括一个或多个句子。相应地，目标文本也可以包括一个或多个句子。

本发明一具体实施中，可以通过以下方式建立原始语料的索引：对所述原始语料进行分词处理，以得到多个原始词汇；建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。具体而言，所述关联关系可以包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。更近一步地，可以采用建立倒排索引(Inverted Index)的方式建立原始语料的索引。

以原始语料包括5个文本为例，原始语料的索引可参照表1的组织形式。

表1

请参照表1，对原始语料进行分词得到的多个原始词汇包括“谷歌”、“地图”、“之父”、“跳槽”、“加盟”和“创始人”。对于原始词汇“谷歌”，包括“谷歌”的原始文本的数量为5；在倒排列表中，(1；1；<1>)表示在文档1中出现了1次“谷歌”，在文档1中的位置为1；(2；1；<1>)表示在文档2中出现了1次“谷歌”，在文档2中的位置为1；(3；2；<1；6>)，(4；1；<1>)和(5；1；<1>)可以此类推。同理，其他原始词汇“地图”、“之父”、“跳槽”、“加盟”和“创始人”可参照上述表述。

可以理解的是，文档1、文档2可以表示原始文本，采用对原始文本进行编号来建立索引的方式，有利于索引的简洁性；原始词汇在原始文本中的位置可以采用原始词汇在原始文本中的词序来表示，例如词在文档1中的位置为1可以表示该词在文档1中的词序为1，也就是文档1的第一个词。

需要说明的是，索引的表示和组织方式可以采用任意可实施的方式，本发明实施例对此不做限制。

具体实施中，在步骤S101中，基于预先建立的原始语料的索引，对所述目标文本进行分词处理，以得到目标词汇；使用所述目标词汇在所述原始语料的索引中进行查询。查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。也就是说，基于预先建立的原始语料的索引和目标词汇，确定包括所述目标词汇的原始文本，或确定包括与目标词汇一致的原始词汇的原始文本。由此，通过查询步骤可以将包括与目标词汇不一致的原始词汇的原始文本过滤掉，以避免在后续计算步骤中浪费资源，减小计算数据量，提高相似文本寻找效率。

可以理解的是，原始词汇与所述目标词汇一致可以是指原始词汇与所述目标词汇相同或互为同义词、近义词，本发明实施例对此不做限制。

在步骤S102中，计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度。以便在步骤S103中根据相似度和预设的相似度阈值，在第一查询结果中确定目标文本的相似文本。

具体地，为了进一步提高计算效率，可以对第一查询结果进行进一步的筛选。筛选过程如下：计算所述第一查询结果中的所有原始文本与所述目标文本的第一相似度，其中，所述第一相似度采用第一算法计算得到；根据所述第一相似度和设定相似度阈值从所述第一查询结果筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；计算所述第二查询结果中的所有原始文本与所述目标文本的第二相似度，其中，所述第二相似度采用第二算法计算得到。

具体地，第一算法的计算复杂度低于第二算法的计算复杂度。也就是说，通过采用第一算法对第一查询结果中的所有原始文本与所述目标文本的第一相似度，并过滤相似度低的原始文本，得到第二查询结果。由于第二查询结果中的原始文本的数量小于第一查询结果中原始文本的数量，且第一算法的计算复杂度低于第二算法的计算复杂度，因此在计算第二相似度确定相似文本时，可以大大减小计算量，进一步提高计算效率。

具体地，第一算法可以包括以下一种或多种：TF-IDF(Term Frequency–InverseDocument Frequency)和Okapi BM25。所述第二算法可以进行笛卡尔积计算，然后采用编辑距离或Jaccard距离计算相似度。优选的，所述第二算法可以分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。通过综合两种距离，可以提高相似度计算的准确性，进而提高相似文本寻找的准确性。

本领域技术人员应当理解的是，第一算法和第二算法可以选取任意可实施的算法，本发明实施例对此不做限制。

下面以第一算法TF-IDF为例对第一相似度的计算过程进行示例性的说明。原始文本与所述目标文本的第一相似度可以通过相关性得分(relevance score)来衡量。分数越高则第一相似度越高。采用第一算法TF-IDF时，词频(Term Frequency)和文档频率(Document Frequency)是影响第一相似度的因素。其中，词频表示目标词汇在原始文本中出现的频率，词频越大则表示该目标词汇在该原始文本中越重要；文档频率表示有多少文档中出现过该目标词汇，文档频率越大表示该目标词汇越不重要。因此通过计算目标文本中所有目标词汇在各个原始文本中的词频和文档频率，则可以确定目标文本和原始文本的第一相似度。

在本发明一具体应用场景中，原始语料包括10万个原始文本，从该原始语料中查找目标文本“白羊座和什么星座般配”的相似文本。如果采用现有技术的相似文本查询方法，则需要存储10万个文本对，并进行10万次相似度计算。而通过本发明的相似文本的查询方法，基于原始语料的索引，以目标文本“白羊座和什么星座般配”为查询条件对索引进行查询，得到的第一查询结果有3267个原始文本。然后对3267个原始文本进行3267次相似度计算即可，相对于现有技术，本发明实施例的计算量和存储量都得到减小。

优选的，在得到第一查询结果后，还可以对第一查询结果集进行第一相似度计算并筛选(例如，第一相似度得分在0.5以上)，得到的第二查询结果有638个原始文本。然后将638个原始文本分别与目标文本“白羊座和什么星座般配”进行638次相似度计算即可，本实施例的计算量进一步降低，相似文本的查询效率得到进一步提升。

将现有技术的相似文本查询方法与本发明实施例的相似文本查询方法进行实验如下：给定400个目标文本，从1亿个原始文本中查询相似文本；采用现有技术的相似文本查询方法，耗时11个小时；而使用实施例的相似文本查询方法，则用时不到3分钟。由上，本发明实施例对于相似文本的查询效率有了大幅度的提升。

在本发明一具体实施例中，需要寻找相似文本的目标文本集合为A，其中包括多个目标文本，下面对寻找相似文本的过程进行详细说明。

步骤11：对于给定原始语料C，对原始语料C创建索引I。

步骤12：从目标文本集合A中取出一个目标文本A1，基于索引I对原始语料C进行查询，得到第一查询结果R。

步骤13：计算目标文本A1与第一查询结果R中每条原始文本的相似度，得到文本集合S1。

步骤14：对文本集合S1，根据指定相似度阀值进行过滤，得到文本集合S11，S11即是目标文本A1的相似文本集合。重复上述步骤12—14，直至处理完目标文本集合A中所有目标文本。

优选地，还可以采用如下步骤：步骤21：对于给定原始语料C，对原始语料C创建索引I；

步骤22：从目标文本集合A中取出一个目标文本A1，基于索引I对原始语料C进行查询，得到第一查询结果R；

步骤23：根据条数阀值或者得分阀值对第一查询结果R进行过滤，得到过滤后的第二查询结果R1；

步骤24：计算目标文本A1与第二查询结果R1中每条原始文本的相似度，得到文本集合S2。

步骤25：对文本集合S2，根据指定相似度阀值进行过滤，得到文本集合S21，S21即是目标文本A1的相似文本集合。重复上述步骤22—25，直至处理完目标文本集合A中所有目标文本。

可以理解的是，本发明实施例的具体实施方式可参照前述相应实施例，此处不再赘述。

图2是本发明实施例一种问答知识库的问题扩展方法的流程图。

图2所示的问答知识库的问题扩展方法可以用于支持问答功能的设备，例如问答机器人。所述问答知识库的问题扩展方法包括以下步骤：

步骤S201：提供机器人知识库，所述机器人知识库中包含至少一个预设标准问题；

步骤S202：将所述预设标准问题作为查询条件在原始语料的索引中进行查询，以得到第一查询结果；

步骤S203：计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度；

步骤S204：根据所述相似度确定所述预设标准问题的相似文本，所述相似文本作为所述预设标准问题的扩展问题加入所述机器人知识库。

具体实施中，所述原始语料的索引是预先建立的，所述原始语料包含多个原始文本；每一所述预设标准问题对应一个答案，所述扩展问题与所述预设标准问题对应同一答案。

具体实施中，在步骤S201中，所提供的机器人知识库中可以包括至少一个预设标准问题。以作为目标文本。所述机器人知识库还可以包括预设标准问题对应的答案。

具体实施中，用以进行知识库扩展的原始语料可以为以下一种或多种：机器人的聊天日志记录、人工客服历史记录数据和第三方网页的问答日志记录。

具体实施中，在步骤S202中，对所述预设标准问题进行分词处理，以得到目标词汇；使用所述目标词汇在所述原始语料的索引中进行查询。具体而言，查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。其中，所述关联关系可以包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。也就是说，通过预先建立的索引确定第一查询结果，从而可以过滤掉与预设标准问题不近似的原始文本，从而可以在后续计算相似度的步骤中节省计算和存储资源。

可以理解的是，原始词汇与目标词汇一致可以是指原始词汇与所述目标词汇相同或互为同义词、近义词，本发明实施例对此不做限制。

为了进一步减小计算量，提高计算效率，可以对第一查询结果进行过滤。首先计算所述第一查询结果中的所有原始文本与所述预设标准问题的第一相似度，其中，所述第一相似度采用第一算法计算得到；根据所述第一相似度和设定相似度阈值筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；计算所述第二查询结果中的所有原始文本与所述预设标准问题的第二相似度，其中，所述第二相似度采用第二算法计算得到。由于第二查询结果中的原始文本的数量小于第一查询结果中原始文本的数量，且第一算法的计算复杂度低于第二算法的计算复杂度，因此在计算第二相似度确定相似文本时，可以大大减小计算量，进一步提高计算效率。

具体地，所述第一算法可以包括以下一种或多种：TF-IDF和Okapi BM25。

具体地，所述第二算法可以进行笛卡尔乘积，然后采用编辑距离或Jaccard距离计算相似度。优选的，分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。

本发明实施例问答知识库的问题扩展方法通过寻找预设标准问题的相似文本，实现该预设标准问题及其对应答案的扩展，从而提高问答知识库匹配答案的准确性，避免了对于预设标准问题相似的问题无法匹配的情况，提高用户体验。同时，本发明实施例在进行相似度计算之前，通过在预先建立的原始语料的索引中进行查询得到的第一查询结果，过滤掉不相似文本，第一查询结果的数据量减小，进而在计算第一查询结果和预设标准问题的相似度时，计算量可以减小；尤其在原始语料的数据量庞大的情况下，寻找相似文本的效率将大大提高，提高了对问答知识库的问题扩展的效率，同时保证了扩展的准确性。

本发明实施例的具体实施方式可参照图1所示的相似文本的查询方法的实施例，此处不再赘述。

图3是本发明实施例一种相似文本的查询装置的结构示意图。

图3所示的相似文本的查询装置可以包括：索引建立单元301、查询单元302、相似度计算单元303和相似文本确定单元304。

其中，索引建立单元301用于建立原始语料的索引，其中，所述原始语料包含多个原始文本；

查询单元302适于将目标文本作为查询条件在所述原始语料的索引中进行查询，以得到第一查询结果；

相似度计算单元303适于计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度；

相似文本确定单元304适于根据所述相似度确定所述目标文本的相似文本。

可以理解的是，对于同一原始语料，索引建立单元301仅建立一次该原始语料的索引。

具体实施中，索引建立单元301可以包括第一分词子单元(图未示)和关联关系建立子单元(图未示)。其中，第一分词子单元适于对所述原始语料进行分词处理，以得到多个原始词汇；关联关系建立子单元适于建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。具体地，所述关联关系包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。

具体实施中，查询单元302可以包括第二分词子单元(图未示)和索引搜索子单元(图未示)。第二分词子单元适于对所述目标文本进行分词处理，以得到目标词汇；索引搜索子单元适于使用所述目标词汇在所述原始语料的索引中进行查询。具体而言，索引搜索子单元查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。也就是说，基于预先建立的原始语料的索引和目标词汇，确定包括所述目标词汇的原始文本，或确定包括与目标词汇一致的原始词汇的原始文本。由此，通过索引搜索子单元可以将包括与目标词汇不一致的原始词汇的原始文本过滤掉，以避免在后续计算步骤中浪费资源，减小计算数据量，提高相似文本寻找效率。

具体实施中，相似度计算单元303可以包括第一计算子单元(图未示)、筛选子单元(图未示)和第二计算子单元(图未示)。第一计算子单元适于计算所述第一查询结果中的所有原始文本与所述目标文本的第一相似度，其中，所述第一相似度采用第一算法计算得到；筛选子单元适于根据所述第一相似度和设定相似度阈值从所述第一查询结果筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；第二计算子单元适于计算所述第二查询结果中的所有原始文本与所述目标文本的第二相似度，其中，所述第二相似度采用第二算法计算得到。

由于第二查询结果中的原始文本的数量小于第一查询结果中原始文本的数量，且第一算法的计算复杂度低于第二算法的计算复杂度，因此在计算第二相似度确定相似文本时，可以大大减小计算量，进一步提高计算效率。

具体而言，第二算法的复杂度高于第一算法。更进一步地，第一算法包括以下一种或多种：TF-IDF和Okapi BM25；所述第二算法可以进行笛卡尔积计算，然后采用编辑距离或Jaccard距离计算相似度。优选的，所述第二算法可以分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。通过综合两种距离，可以提高相似度计算的准确性，进而提高相似文本寻找的准确性。

本发明实施例中相似文本的查询装置的具体实现和有益效果可参见相似文本的查询方法，在此不再赘述。

图4所示的问答知识库的问题扩展装置可以包括：索引建立单元401、知识库提供单元402、查询单元403、相似度计算单元404和相似文本确定单元405。

其中，索引建立单元401用于建立原始语料的索引，其中，所述原始语料包含多个原始文本；

知识库提供单元402适于提供机器人知识库，所述机器人知识库中包含至少一个预设标准问题，每一所述预设标准问题对应一个答案；

查询单元403适于将所述预设标准问题作为查询条件在所述原始语料的索引中进行查询，以得到第一查询结果；

相似度计算单元404适于计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度；

相似文本确定单元405适于根据所述相似度确定所述预设标准问题的相似文本，所述相似文本作为所述预设标准问题的扩展问题加入所述机器人知识库，所述扩展问题与所述预设标准问题对应同一答案。

具体实施中，索引建立单元401可以包括：语料分词子单元(图未示)和关联关系建立子单元(图未示)。语料分词子单元适于对所述原始语料进行分词处理，以得到多个原始词汇；关联关系建立子单元，适于建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。具体而言，所述关联关系可以包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。也就是说，通过预先建立的索引确定第一查询结果，确定包括所述预设标准问题的原始文本，或确定包括与预设标准问题一致的原始词汇的原始文本，从而可以过滤掉与预设标准问题不近似的原始文本，从而可以在后续计算相似度的步骤中节省计算和存储资源。

可以理解的是，原始词汇与预设标准问题一致可以是指原始词汇与所述预设标准问题所包含的词语相同或互为同义词、近义词，本发明实施例对此不做限制。查询单元403可以包括问题分词子单元(图未示)和索引搜索子单元(图未示)。问题分词子单元适于对所述预设标准问题进行分词处理，以得到目标词汇；索引搜索子单元适于使用所述目标词汇在所述原始语料的索引中进行查询。具体地，索引搜索子单元查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。

为了进一步减小计算量，提高计算效率，相似度计算单元404可以包括第一计算子单元(图未示)、筛选子单元(图未示)和第二计算子单元(图未示)。其中，第一计算子单元适于计算所述第一查询结果中的所有原始文本与所述预设标准问题的第一相似度，其中，所述第一相似度采用第一算法计算得到；筛选子单元适于根据所述第一相似度和设定相似度阈值筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；第二计算子单元适于计算所述第二查询结果中的所有原始文本与所述预设标准问题的第二相似度，其中，所述第二相似度采用第二算法计算得到。由于第二查询结果中的原始文本的数量小于第一查询结果中原始文本的数量，且第一算法的计算复杂度低于第二算法的计算复杂度，因此在计算第二相似度确定相似文本时，可以大大减小计算量，进一步提高计算效率。

具体地，第一算法可以包括以下一种或多种：TF-IDF和Okapi BM25。所述第二算法可以进行笛卡尔积计算，然后采用编辑距离或Jaccard距离计算相似度。优选的，所述第二算法可以分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。通过综合两种距离，可以提高相似度计算的准确性，进而提高相似文本寻找的准确性。

本发明实施例问答知识库的问题扩展装置通过寻找预设标准问题的相似文本，实现该预设标准问题及其对应答案的扩展，从而提高问答知识库匹配答案的准确性，避免了对于预设标准问题相似的问题无法匹配的情况，提高用户体验。同时，本发明实施例的问答知识库的问题扩展装置在进行相似度计算之前，通过在预先建立的原始语料的索引中进行查询得到的第一查询结果，过滤掉不相似文本，第一查询结果的数据量减小，进而在计算第一查询结果和预设标准问题的相似度时，计算量可以减小；尤其在原始语料的数据量庞大的情况下，寻找相似文本的效率将大大提高，提高了对问答知识库的问题扩展的效率，同时保证了扩展的准确性。

本发明实施例中问答知识库的问题扩展装置的具体实现和有益效果可参见问答知识库的问题扩展方法，在此不再赘述。

本发明实施例还公开了一种问答机器人，所述问答机器人包括图3所示的相似文本的查询装置30或图4所示的问答知识库的问题扩展装置40。具体地，所述问答机器人可以包括问答知识库，所述问答知识库中包含至少一个预设标准问题，每一所述预设标准问题对应一个答案。

可以理解的是，相似文本的查询装置30或问答知识库的问题扩展装置40可以以硬件或者软件形式集成在所述问答机器人内，以执行本发明实施例的技术方案。

本发明实施例中问答机器人的具体实现和有益效果可参见相似文本的查询装置以及问答知识库的问题扩展装置，在此不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于以计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种相似文本的查询方法，其特征在于，包括：

将目标文本作为查询条件在原始语料的索引中进行查询，以得到第一查询结果，所述原始语料的索引是预先建立的，所述原始语料包含多个原始文本；

计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度；

根据所述相似度确定所述目标文本的相似文本。

2.根据权利要求1所述的相似文本的查询方法，其特征在于，所述原始语料的索引的建立方法包括：

对所述原始语料进行分词处理，以得到多个原始词汇；

建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。

3.根据权利要求2所述的相似文本的查询方法，其特征在于，所述将目标文本作为查询条件在原始语料的索引中进行查询包括：

对所述目标文本进行分词处理，以得到目标词汇；

使用所述目标词汇在所述原始语料的索引中进行查询。

4.根据权利要求3所述的相似文本的查询方法，其特征在于，所述使用所述目标词汇在所述原始语料的索引中进行查询包括：

查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。

5.根据权利要求2至4任一项所述的相似文本的查询方法，其特征在于，所述关联关系包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。

6.根据权利要求1所述的相似文本的查询方法，其特征在于，所述计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度包括：

计算所述第一查询结果中的所有原始文本与所述目标文本的第一相似度，其中，所述第一相似度采用第一算法计算得到；

根据所述第一相似度和设定相似度阈值从所述第一查询结果筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；

计算所述第二查询结果中的所有原始文本与所述目标文本的第二相似度，其中，所述第二相似度采用第二算法计算得到。

7.根据权利要求6所述的相似文本的查询方法，其特征在于，所述第一算法包括以下一种或多种：TF-IDF和Okapi BM25。

8.根据权利要求6所述的相似文本的查询方法，其特征在于，所述第二算法分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。

9.一种问答知识库的问题扩展方法，其特征在于，包括：

提供机器人知识库，所述机器人知识库中包含至少一个预设标准问题，每一所述预设标准问题对应一个答案；

将所述预设标准问题作为查询条件在原始语料的索引中进行查询，以得到第一查询结果，所述原始语料的索引是预先建立的，所述原始语料包含多个原始文本；

计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度；

根据所述相似度确定所述预设标准问题的相似文本，所述相似文本作为所述预设标准问题的扩展问题加入所述机器人知识库，所述扩展问题与所述预设标准问题对应同一答案。

10.根据权利要求9所述的问题扩展方法，其特征在于，所述原始语料的索引的建立方法包括：

对所述原始语料进行分词处理，以得到多个原始词汇；

11.根据权利要求10所述的问题扩展方法，其特征在于，所述将所述预设标准问题作为查询条件在原始语料的索引中进行查询包括：

对所述预设标准问题进行分词处理，以得到目标词汇；

使用所述目标词汇在所述原始语料的索引中进行查询。

12.根据权利要求11所述的问题扩展方法，其特征在于，所述使用所述目标词汇在所述原始语料的索引中进行查询包括：

13.根据权利要求10至12任一项所述的问题扩展方法，其特征在于，所述关联关系包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。

14.根据权利要求9所述的问题扩展方法，其特征在于，所述计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度包括：

计算所述第一查询结果中的所有原始文本与所述预设标准问题的第一相似度，其中，所述第一相似度采用第一算法计算得到；

根据所述第一相似度和设定相似度阈值筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；

计算所述第二查询结果中的所有原始文本与所述预设标准问题的第二相似度，其中，所述第二相似度采用第二算法计算得到。

15.根据权利要求14所述的问题扩展方法，其特征在于，所述第一算法包括以下一种或多种：TF-IDF和Okapi BM25。

16.根据权利要求14所述的问题扩展方法，其特征在于，所述第二算法分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。

17.根据权利要求9至12、14至16任一项所述的问题扩展方法，其特征在于，所述原始语料为以下一种或多种：机器人的聊天日志记录、人工客服历史记录数据和第三方网页的问答日志记录。

18.一种相似文本的查询装置，其特征在于，包括：

索引建立单元，用于建立原始语料的索引，其中，所述原始语料包含多个原始文本；

查询单元，适于将目标文本作为查询条件在所述原始语料的索引中进行查询，以得到第一查询结果；

相似度计算单元，适于计算所述第一查询结果中的至少一个原始文本与所述目标文本的相似度；

相似文本确定单元，适于根据所述相似度确定所述目标文本的相似文本。

19.根据权利要求18所述的相似文本的查询装置，其特征在于，所述索引建立单元包括：

第一分词子单元，适于对所述原始语料进行分词处理，以得到多个原始词汇；

关联关系建立子单元，适于建立所述多个原始词汇和所述原始语料中所有原始文本的关联关系，以形成所述原始语料的索引。

20.根据权利要求19所述的相似文本的查询装置，其特征在于，所述查询单元包括：

第二分词子单元，适于对所述目标文本进行分词处理，以得到目标词汇；

索引搜索子单元，适于使用所述目标词汇在所述原始语料的索引中进行查询。

21.根据权利要求20所述的相似文本的查询装置，其特征在于，所述索引搜索子单元查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。

22.根据权利要求19至21任一项所述的相似文本的查询装置，其特征在于，所述关联关系包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。

23.根据权利要求18所述的相似文本的查询装置，其特征在于，所述相似度计算单元包括：

第一计算子单元，适于计算所述第一查询结果中的所有原始文本与所述目标文本的第一相似度，其中，所述第一相似度采用第一算法计算得到；

筛选子单元，适于根据所述第一相似度和设定相似度阈值从所述第一查询结果筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；

第二计算子单元，适于计算所述第二查询结果中的所有原始文本与所述目标文本的第二相似度，其中，所述第二相似度采用第二算法计算得到。

24.根据权利要求23所述的相似文本的查询装置，其特征在于，所述第一算法包括以下一种或多种：TF-IDF和Okapi BM25。

25.根据权利要求23所述的相似文本的查询装置，其特征在于，所述第二算法分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。

26.一种问答知识库的问题扩展装置，其特征在于，包括：

知识库提供单元，适于提供机器人知识库，所述机器人知识库中包含至少一个预设标准问题，每一所述预设标准问题对应一个答案；

查询单元，适于将所述预设标准问题作为查询条件在所述原始语料的索引中进行查询，以得到第一查询结果；

相似度计算单元，适于计算所述第一查询结果中的至少一个原始文本与所述预设标准问题的相似度；

相似文本确定单元，适于根据所述相似度确定所述预设标准问题的相似文本，所述相似文本作为所述预设标准问题的扩展问题加入所述机器人知识库，所述扩展问题与所述预设标准问题对应同一答案。

27.根据权利要求26所述的问题扩展装置，其特征在于，所述索引建立单元包括：

语料分词子单元，适于对所述原始语料进行分词处理，以得到多个原始词汇；

28.根据权利要求27所述的问题扩展装置，其特征在于，所述查询单元包括：

问题分词子单元，适于对所述预设标准问题进行分词处理，以得到目标词汇；

29.根据权利要求28所述的问题扩展装置，其特征在于，所述索引搜索子单元查找与所述目标词汇一致的原始词汇，并根据所述原始词汇和所述原始语料中所有原始文本的关联关系确定至少一个原始文本，以作为所述第一查询结果。

30.根据权利要求27至29任一项所述的问题扩展装置，其特征在于，所述关联关系包括以下至少一项：所述原始词汇在每一原始文本中的位置，出现的次数，以及包括所述原始词汇的所述原始文本的数量。

31.根据权利要求26所述的问题扩展装置，其特征在于，所述相似度计算单元包括：

第一计算子单元，适于计算所述第一查询结果中的所有原始文本与所述预设标准问题的第一相似度，其中，所述第一相似度采用第一算法计算得到；

筛选子单元，适于根据所述第一相似度和设定相似度阈值筛选出第二查询结果，或根据所述第一相似度对所述第一查询结果中的所有原始文本进行排序，并按照所述第一相似度的数值递减的顺序选取数量为设定数值的原始文本作为所述第二查询结果；

第二计算子单元，适于计算所述第二查询结果中的所有原始文本与所述预设标准问题的第二相似度，其中，所述第二相似度采用第二算法计算得到。

32.根据权利要求31所述的问题扩展装置，其特征在于，所述第一算法包括以下一种或多种：TF-IDF和Okapi BM25。

33.根据权利要求31所述的问题扩展装置，其特征在于，所述第二算法分别采用编辑距离和Jaccard距离计算相似度，并选取数值最大的相似度作为所述第二相似度。

34.根据权利要求26至29、31至33任一项所述的问题扩展装置，其特征在于，所述原始语料为以下一种或多种：机器人的聊天日志记录、人工客服历史记录数据和第三方网页的问答日志记录。

35.一种问答机器人，其特征在于，包括如权利要求18至25任一项所述的相似文本的查询装置或权利要求26至34任一项所述的问答知识库的问题扩展装置。