CN110727767B

CN110727767B - 一种扩展文本样本的方法及系统

Info

Publication number: CN110727767B
Application number: CN201911000025.0A
Authority: CN
Inventors: 陈晓军; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2022-05-31
Anticipated expiration: 2039-10-21
Also published as: CN110727767A

Abstract

本说明书实施例公开了一种扩展文本样本的方法及系统。所述方法包括：将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本；基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本；判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件；将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

Description

一种扩展文本样本的方法及系统

技术领域

本说明书实施例涉及数据处理领域，特别涉及一种扩展文本样本的方法及系统。

背景技术

随着社交网络平台的快速发展，网络上的文本大量积聚，例如用户在网络上提出的问题以及其他用户或网站对这些问题的解答等。然而，一个文本通常会有多种不同的表达方式，应用这些文本时只需处理其中一个表达方式的文本即可。例如，文本作为样本用于模型训练时，仅标注一种表达方式的文本，其他表达方式采用相同的标注内容即可。又例如，自动答复系统中，不同表达方式的问题对应的答案可以是类似的。

如何有效地提高文本扩展的效率和通用性成为目前亟需解决的技术问题。

发明内容

本说明书实施例的一个方面提供一种扩展文本样本的方法，所述方法包括：将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本；基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本；判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件；将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

本说明书实施例的另一方面提供一种扩展文本样本的系统，所述系统包括：检索模块，用于将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本；监督模块，用于基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本；判断模块，用于判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件；确定模块，用于将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

本说明书实施例的一个方面提供一种扩展文本样本装置。所述装置包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现扩展文本样本的方法。

本说明书实施例的一个方面提供一种计算机可读存储介质。所述存储介质存储计算机指令，当所述计算机指令被计算机执行时，实现扩展文本样本的方法。

附图说明

本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书的一些实施例所示的示例性扩展文本的示意图；

图2是根据本说明书的一些实施例所示的示例性扩展文本样本系统的模块图；

图3是根据本说明书的一些实施例所示的扩展文本样本方法的示例性流程图；

图4是根据本说明书的一些实施例所示的获取第二文本方法的示例性流程图；以及

图5是根据本说明书的一些实施例所示的确定检索结果方法的示例性流程图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是根据本说明书的一些实施例所示的示例性扩展文本的示意图。

在本说明书的一些实施例中，文本是指用于表达含义的多个文字的组合。在一些实施例中，文本可以是各类句子，例如，疑问句“这个医保犹豫期是多久”、陈述句“这个医保犹豫期是10天。”等。在一些实施例中，文本还可以带有标签，标签用于代表被标记文本的某种信息，例如，文本的类别。如，文本“这个医保犹豫期是多久”为时间类，则该文本的标签即为“时间类”。

扩展文本可以是文本的另一种表达方式，其表达的内容与该文本类似。一个文本的扩展文本可以不止一个。例如，文本为“这个医保的犹豫期是多久？”，该文本的扩展文本可以是“买了这个医保之后还可以考虑多久？”，其扩展文本还可以是“这个医保可以在多少天之内可以申请撤销？”。

在一些实施例中，所述文本和所述扩展文本可以是用户在各个行业中产生的文本，包括但不限于金融行业、保险行业、互联网行业、汽车行业、餐饮行业、电信行业、能源行业、娱乐行业、体育行业、物流行业、医疗行业、安全行业等。

文本库是指包含多个文本的集合。文本库中同一个内容可以有多个表达方式。文本库可以用于提供扩展文本。在一些实施例中，文本库可以是线上收集。例如，可以是从自动答复系统中收集大量用户提出的历史问题、系统做出的历史答复等。文本库可以随着线上系统的数据数量的增加而增大。

知识库是指对文本经过处理之后得到的集合。例如，整理、分析、统计等处理。其中，处理的方式可以是人工，也可以是基于算法、模型等智能方式。在一些实施例中，知识库至少包含多个文本。

在一些实施例中，知识库可以包括多个文本以及这些文本的相关信息。相关信息可以是经过分析、统计等处理方式得到。例如，相关信息可以包括但不限于是文本的类别、文本的关键词、文本所属的行业主题。其中，文本的类别可以根据需求设置。例如，基于文本表达的内容设置，将“好医保的犹豫期”的类别可以设置为“时间类”。在一些实施例中，一个文本的类别可以是一个或多个，例如“保单下载失败的原因”的类别可以设置为“原因类”或/和“操作失败类”。其中，文本所述的行业主题可以是文本表达内容涉及的行业。在一些实施例中，一个文本的行业主题可以是一个或多个。例如“医保与医疗行业发展的关系”的行业主题可以是“保险”或/和“医疗”。通过为知识库中文本添加相关信息可以更加全面地展示文本需要表达的内容，丰富知识库的内容。在一些实施例中，文本与文本的相关信息以相互对应的方式存储于知识库中。例如，文本的相关信息可以以标签的形式与文本共同存储于知识库中。在知识库中取某一个文本时，该文本的相关信息也可以同时获取。

知识库可以用于验证从文本库中检索得到的文本是否可以作为扩展文本。例如：知识库中可以包含文本“好医保的犹豫期”及该文本的相关信息标签“类别：时间类；关键词：好医保、犹豫期；行业主题：保险”。又例如，知识库可以包含文本“保单下载失败的原因”及该文本的相关信息标签“类别：操作失败类/原因类；关键词：保单、下载、失败；行业主题：保险类”。

在一些实施例中，文本库和知识库可以是针对一个特定的主题行业，也可以是针对多个主题行业，所述主题行业可以包括但不限于金融行业、保险行业、互联网行业、汽车行业、餐饮行业、电信行业、能源行业、娱乐行业、体育行业、物流行业、医疗行业、安全行业等。

在一些实施例中，文本库和知识库可以与被扩展的文本关联。例如，被扩展的文本、知识库和文本库都属于同一主题行业。

图2是根据本说明书的一些实施例所示的示例性扩展文本样本系统的模块图。

该系统可以用于互联网服务的线上服务平台。在一些实施例中，该系统可以用于包含智能答复系统的线上服务平台。例如，电商平台、线上咨询平台、公共服务平台等。

如图2所示，该系统可以包括检索模块210、监督模块220、判断模块230和确定模块240。

检索模块210可以用于将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本。其中，设定区间的最大值为第一阈值，最小值为第二阈值。

若扩展文本与第一文本的相似度过高，可能两者的表述方式基本一致，扩展意义不大。例如，第一文本比其扩展文本只是多了一个字(比如，吗、吧、是等)。在一些实施例中，检索模块210可以根据第一文本与文本库中文本的相似度，选取相似度大于第二阈值、小于第一阈值的文本作为所述多个第二文本。在一些实施例中，相似度可以基于模型、算法等方式确定，例如，词嵌入、词移距离等。检索的方法可以是顺查法、抽查法等。

在一些实施例中，检索模块210可以基于第一文本与文本库中文本的相似度进行排序，选取文本库中与第一文本相似度排在前N，且与第一文本的相似度小于第一阈值的文本作为第二文本，其中N为大于2的整数。在一些实施例中，N由第二阈值决定。

为了尽可能保证确定的扩展文本属于相同内容的不同表述。在一些实施例中，检索模块210可以基于上述排序结果中两个相邻文本之间的相似度确定第二文本。具体的，若排序结果中两个相邻的文本之间的相似度过高(例如，高于设定阈值)，则仅选择其中一个文本作为第二文本。

监督模块220可以用于基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本。

在一些实施例中，监督模块20可以基于第一文本在知识库中检索，将知识库中与第一文本相似度排在前X个的文本作为第一检索结果。其中，所述X为大于0的整数。在一些实施例中，监督模块20可以基于第二文本在知识库中检索，将知识库中与第二文本相似度排在前Y个的文本作为第二检索结果。其中，所述Y为大于0的整数。在一些实施例中，所述X和Y可以为1。

判断模块230可以用于判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件。在一些实施例中，所述预设条件包括所述第一检索结果中的文本和第二检索结果中的文本的相似度高于第三阈值。

确定模块240可以用于将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

在一些实施例中，所述系统还包括标记模块，可以用于为所述第一文本的所述扩展文本标记所述第一文本的标签。

应当理解，图2所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于扩展文本样本系统200及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图2中披露的检索模块210、监督模块220、判断模块230和确定模块240可以是一个系统中的不同模块，也可以是一个模块实现上述的两个模块的功能。又例如，扩展文本样本系统200中各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。

图3是根据本说明书的一些实施例所示的扩展文本样本方法的示例性流程图。如图3所示，该扩展文本样本方法300包括：

步骤302，将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本。具体的，步骤302可以由检索模块210执行。

第一文本是指需要进行文本扩展的文本。在一些实施例中，第一文本可以是带有标签的文本。例如，第一文本可以是线下人工标注标签的文本。又例如，第一文本可以是通过自动识别、统计等方式线上标注标签的文本。其中，标签用于代表被标记文本的某种信息。在一些实施例中，标签可以根据文本内容的类别进行标注，标注的内容即为文本的类别。例如，文本“这个医保犹豫期是多久”可以基于线下人工分类为时间类，则该文本的标签即为“时间类”。

在一些实施例中，可以直接从存储设备的数据库中读取所述第一文本。在一些实施例中，还可以采用其他任意方式获取第一文本，本实施例不做限制。

如图1所述，文本库用于提供扩展文本，其可以针对一个特定的主题行业。在一些实施例中，文本库可以与第一文本相关联，例如，与第一文本的主题行业相同。该实施例可以保证扩展文本与第一文本之间业务相关，进一步保证扩展的准确性。

在一些实施例中，第一文本可以在文本库中检索。在一些实施例中，检索方法可以包括但不限于顺查法、抽查法等方法。在一些实施例中，还可以采用其他任意方式进行检索，本实施例不做限制。

在一些实施例中，第一文本可以基于相似度在文本库中检索。相似度可以是指两个文本之间的相似程度，即文本相似度。在一些实施例中，可以基于算法确定文本之间相似度。例如，可以是词嵌入(Word Embedding)算法。具体的，可以通过计算文本中所有单词词嵌入的平均值，然后计算两个文本词嵌入之间的余弦相似性，得到文本之间相似度。又例如，可以是词移距离(Word Mover’s Distance)算法。具体的，通过测量其中一个文本中的单词在语义空间中移动到另一文本单词所需要的最短距离，得到文本之间相似度。在一些实施例中，可以基于模型确定文本之间的相似度。例如，短文本匹配模型(Enhanced LSTMfor Natural Language Inference,ESIM)、多链路深层网络(Deep RecursiveConvolutional Network,DRCN)、深度语义匹配模型(Deep Structured Semantic Model,DSSM)等任何可以进行文本相似度计算的算法或者模型。在一些实施例中，相似度可以用一个数值来表示，例如，可以用0～1、0～100、100～200等之间的值表示相似度。其中，值越大，文本之间越相似。

设定区间是指数值的范围，包含一个最大值(即上限)和一个最小值(即下限)。在一些实施例中，设定区间的最大值为第一阈值，设定区间的最小值为第二阈值。在一些实施例中，设定区间数值与代表相似度的数值相关。例如，用0～1代表相似度，则设定区间也被包含于0～1之间。

第二文本可以是指与第一文本的相似度在设定区间内且来源于文本库的文本。关于获取第二文本的更多细节可以参见图4及其相关描述，在此不再赘述。

第二文本作为候选扩展文本，通过对第二文本与第一文本的相似度设置区间范围，一方面可以防止出现候选扩展文本与第一文本的表达含义不一致的问题；另一方面，可以避免扩展文本与第一文本的相似度太高，扩展文本与第一文本表述方式基本一致的情况，扩展意义不明显，例如，相比于第一文本，可能扩展文本只是修改了一个字。如“这款医保的犹豫期是多久”“这款医保犹豫期是多久”。

步骤304，基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本。具体的，步骤304可以由监督模块220执行。

如图1所述，知识库可以是经过处理之后得到的文本的集合，其可以用于验证从文本库中检索得到的文本是否可以作为扩展文本。知识库也可以是针对特定主体行业。在一些实施例中，知识库中的文本可以与第一文本关联。例如，知识库中的文本与第一文本关联属于相同或者相近主题行业。在一些实施例中，知识库中的文本与第一文本还可以存在其他形式的关联，本实施例不做限制。从而，进一步保证验证的准确性。

在一些实施例中，知识库还可以是文本及文本的相关信息的集合，相关信息可以包括文本的关键词、文本的类别或/和文本的主题行业等信息。例如，文本“医保的犹豫期有多长时间”，文本的相关信息包括：时间类(类别)；医保、犹豫期(关键词)；保险行业(主题行业)。

第一检索结果可以是基于第一文本在知识库中检索得到的一个或者多个文本。第二检索结果可以是基于第二文本在知识库中检索得到的一个或多个文本。在一些实施例中，若知识库包含文本及文本的相关信息，则第一检索结果和第二检索结果可以是检索得到的一个或者多个文本及该一个或多个文本的相关信息。关于获取第一检索结果和第二检索结果的更多细节可以参见图5及其相关描述，在此不再赘述。

步骤306，判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件。具体的，步骤306可以由判断模块230执行。

第一检索结果和第二检索结果之间的关系是指第一检索结果中文本和第二检索结果中文本之间的关系。在一些实施例中，第一检索结果和第二检索结果之间的关系还可以包括第一检索结果中文本的相关信息与第二检索结果中文本的相关信息之间的关系。在一些实施例中，第一检索结果中文本和第二检索结果中文本之间关系可以是文本之间的相似度。在一些实施例中，第一检索结果中文本的相关信息与第二检索结果中文本的相关信息之间的关系可以包含文本的关键词相似度、文本的类别是否一致、文本的行业主题是否一致等。

在一些实施例中，预设条件可以包括第一检索结果中的文本和第二检索结果中的文本的相似度高于第三阈值。在一些实施例中，预设条件还可以包括文本的关键词相似度高于第四阈值、文本的类别一致(比如均为定义类、时间类等)、文本的行业主题一致(比如均为金融行业、保险行业等)中的一种或其任意组合，其中，第三阈值和第四阈值可以是提前设定，也可以根据需要调整。例如，预设条件可以是第一检索结果中的文本和第二检索结果中的文本的相似度高于第三阈值，且文本的类别一致。

在一些实施例中，若第一检索结果中的文本和第二检索结果中的文本均为一个时，判断两个文本或/和文本的相关信息之间的关系是否满足预设条件。在一些实施例中，若两个检索结果中只有一个检索结果的文本为一个，判断另一个检索结果中是否存在至少一个与该文本或/和该文本的相关信息之间的关系满足预设条件的文本。在一些实施例中，若两个检索结果文本均为多个，可以确定两个检索结果中是否存在至少一对文本满足预设条件，其中该对文本中两个文本分别来自第一检索结果和第二检索结果。

在一些实施例中，可以通过模型、算法等确定第一检索结果中的文本和第二检索结果中的文本之间的相似度、文本关键词之间的相似度。相似度的计算方式的更多细节参见步骤302及其相关描述，此处不再赘述。

步骤308，将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。具体的，步骤308可以由确定模块240执行。

扩展文本是指检索结果与第一检索结果之间的关系满足预设条件的第二文本。扩展文本可以是第一文本的另一种表达方式，其表达的内容与第一文本类似。例如，第一文本为“这个医保的犹豫期是多久？”，扩展文本可以是“买了这个医保之后还可以考虑多久？”

当文本扩展应用模型训练时，可以将扩展文本与第一文本一起输入模型中进行训练。在一些实施例中，可以为第一文本的扩展文本标记与该第一文本相同的标签。即，可以为第一文本的扩展文本标记第一文本的标签。例如，标签代表的是文本的类别，第一文本“这个医保的犹豫期是多久？”的标签为时间类，扩展文本“买了这个医保之后还可以考虑多久？”的标签也可以是时间类。

在一些实施例中，可以筛除检索结果与第一检索结果之间的关系不满足预设条件的第二文本。通过筛除不满足预设条件的第二文本，可以实现对文本库的过滤，去掉扩展价值不高的文本，减少文本库中的数据量，进一步地可以节约后续进行文本扩展的时间，提高扩展的效率。

图4是根据本说明书的一些实施例所示的获取第二文本方法的示例性流程图。如图4所示，获取第二文本方法400包括：

步骤402，将所述第一文本在所述文本库中检索，获取与所述第一文本相似的多个第三文本。具体的，步402可以由检索模块210执行。

第三文本可以是指与第一文本相似且来源于文本库的文本。即，文本库中只要与第一文本相似的文本都可以作为第三文本。第三文本与第一文本之间的相似度可以至少大于0。

在一些实施例中，基于第一文本与文本库中的文本之间的相似度进行检索确定第三文本，第三文本的数量为至少一个。关于相似度的计算和检索的方法的更多细节参见步骤302，此处不再赘述。

步骤404，选取与所述第一文本相似度大于第二阈值、小于第一阈值的所述第三文本作为所述多个第二文本；其中，所述设定区间的最大值为所述第一阈值，所述设定区间的最小值为所述第二阈值。具体的，步骤404可以由检索模块210执行。

在一些实施例中，可以计算每一个第三文本与第一文本之间的相似度，然后选取相似度在设定区间以内的第三文本作为第二文本，其中，设定区间的最大值为第一阈值，设定区间的最小值为第二阈值。即，选取相似度大于第二阈值、小于第一阈值的第三文本作为第二文本。

在一些实施例中，可以基于多个第三文本中每一个与第一文本之间的相似度，对多个第三文本进行排序，并从相似度最高的前N个(N为大于0的整数)中筛选与第一文本的相似度小于第一阈值的第三文本作为第二文本。在一些实施例中，N的值可以由第二阈值确定。具体的，排名为第N的第三样本的相似度大于第二阈值。在一些实施例中，N为大于2的整数。该实施例可以保证第二文本与第一文本的相似度在设定区间内。

在一些实施例中，可以基于上述排序结果中两个相邻第三文本之间的相似度确定第二文本。例如，在从前N个中筛选与第一文本的相似度小于第一阈值的第三文本之前，计算前N个中两个相邻第三文本之间的相似度，若该相似度高于设定阈值，则仅选择其中一个第三文本作为候选的第二文本。又例如，从前N个中筛选与第一文本的相似度小于第一阈值的第三文本之后，计算两个相邻第三文本之间的相似度，若该相似度高于设定阈值，则仅选择其中一个第三文本作为第二文本。通过该实施例，可以尽可能保证最终得到的扩展文本属于相同内容的不同表述，避免扩展文本之间表述方式基本一致的情况，如仅存在个别字差别(如，吗、呢等)。

在一些实施例中，排序可以基于算法或者模型实现，例如，可以是贝叶斯个性化排序算法(Bayesian personalized ranking,BPR)、配对法(Pairwise Approach)、逻辑回归模型(Logistic Regression,LR)等。排序还可以基于规则人工实现。在一些实施例中，N为大于2的整数(如3、4等)。

图5是根据本说明书的一些实施例所示的确定检索结果方法的示例性流程图。如图5所示，确定检索结果方法500包括：

步骤502，将所述第一文本和所述多个第二文本中的每一个分别在所述知识库中检索，分别获取与所述第一文本相似的多个第四文本、与所述第二文本相似的多个第五文本。具体的，步骤502可以由监督模块220执行。

第四文本可以是指与第一文本的相似且来源于知识库的文本。第五文本可以是指与第二文本的相似且来源于知识库的文本。

在一些实施例中，可以将第一文本在知识库中进行检索，得到多个第四文本。在一些实施例中，可以将每一个第二文本在知识库中进行检索，获取多个第五文本。关于检索方法的更多细节可以参见步骤302及其相关描述，在此不再赘述。

步骤504，基于所述第四文本与所述第一文本之间的第一相似度对所述第四文本排序，提取前X个所述第四文本及所述第四文本的相关信息作为所述第一检索结果。具体的，步骤504可以由监督模块220执行。

第一相似度可以是指第四文本与第一文本之间的相似度。

每一个第四文本与第一文本均会有一个相似度，即，每一个第四文本均会有一个第一相似度。在一些实施例中，不同的第四文本的第一相似度可能相同，也可能不同。在一些实施例中，可以基于每一个第四文本的第一相似度对第四文本排序，例如升序排序，并提取相似度最高的前X个第四文本作为第一检索结果。其中，X为大于0的整数。

在一些实施例中，对于包含文本的相关信息的知识库，第一检索结果中还包含前X个第四文本的相关信息。

在一些实施例中，X的值可以为1。具体的，当X的值为1时，将第一相似度最高的第四文本作为第一检索结果。即，第一检索结果只包含一个文本，且该文本是知识库中与第一文本的相似度最高的文本。

步骤506，基于所述第五文本与所述第二文本之间的第二相似度多所述第五样本排序，提取前Y个所述第五文本及所述第五文本的相关信息作为所述第二检索结果。具体的，步骤506可以由监督模块220执行。

第二相似度可以是指第五文本与第二文本之间的相似度。

每一个第五文本与第二文本均会有一个相似度。即，每一个第五文本均会有一个第二相似度。在一些实施例中，不同的第五文本的第二相似度可能相同，也可能不同。在一些实施例中，可以基于每个第五文本的第二相似度，对第五文本排序，例如，升序排序，并提取第二相似度最高的前Y个的第五文本作为第二检索结果。所述Y为大于0的整数。

在一些实施例中，对于包含文本的相关信息的知识库，第二检索结果中还包含前Y个第五文本的相关信息。

在一些实施例中，所述Y的值可以为1。具体的，当Y的值为1时，将第二相似度最高的第五文本作为第二检索结果。即，第二检索结果只包含一个文本及该文本的相关信息，且该文本是知识库中与第二文本的相似度最高的文本。

X和Y设置为1，即第一检索结果和第二检索结果中的文本都是知识库中与第一文本或第二文本最相似的文本，进一步地，判断与第一文本最相似的文本和与第二文本最相似的文本是否满足预设条件，从而确定第二文本能否作为第一文本的扩展文本。通过该方式，可以提高文本扩展的准确度。

应当理解的是，步骤504和步骤506不存在先后顺序，可以同步进行，也可以先进行其中一个，再进行另一个。

本说明书实施例还提供一种装置，其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时，导致所述装置实现前述的扩展文本样本的方法。所述方法可以包括：将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本；基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本以及所述多个文本的相关信息；判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件；将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

本说明书实施例还提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机实现前述的扩展文本样本的方法。所述方法可以包括：将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本；基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本以及所述多个文本的相关信息；判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件；将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

本说明书实施例可能带来的有益效果包括但不限于：(1)本说明书中的实施例通过采用自动化的方式来扩展文本，可以提高扩展文本的效率；(2)通过知识库对扩展文本进行监督，可以提高文本扩展的准确率；(3)通过选择与文本相同主题行业的文本库，并基于该文本库确定该文本的扩展文本，不仅可以保证文本与其扩展文本之间业务相关，还可以提高扩展的准确率；(4)通过对训练样本中的文本进行文本扩展，并为扩展样本添加相应标签，可以减少训练样本收集和整理的工作量，提高工作效率。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种扩展文本样本的方法，包括：

将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本；

基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本；

判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件；

将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

2.如权利要求1所述的方法，所述将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本包括：

将所述第一文本在所述文本库中检索，获取与所述第一文本相似的多个第三文本；

选取与所述第一文本相似度大于第二阈值、小于第一阈值的所述第三文本作为所述多个第二文本；其中，所述设定区间的最大值为所述第一阈值，所述设定区间的最小值为所述第二阈值。

3.如权利要求2所述的方法，所述选取与所述第一文本相似度大于第二阈值、小于第一阈值的所述第三文本作为所述多个第二文本包括：

基于所述多个第三文本中每一个与所述第一文本之间的相似度，对所述多个第三文本进行排序；

提取前N个所述第三文本，其中N为大于2的整数，N由所述第二阈值决定；

筛选所述前N个所述第三文本中与所述第一文本相似度小于所述第一阈值的文本作为所述多个第二文本。

4.如权利要求1所述的方法，所述第一文本是线下人工标注标签的文本。

5.如权利要求1所述的方法，所述文本库包含多个线上收集的文本。

6.如权利要求1所述的方法，所述基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果包括：

将所述第一文本和所述多个第二文本中的每一个分别在所述知识库中检索，分别获取与所述第一文本相似的多个第四文本、与所述第二文本相似的多个第五文本；

基于所述第四文本与所述第一文本之间的第一相似度对所述第四文本排序，提取前X个所述第四文本作为所述第一检索结果；其中，所述X为大于0的整数；

基于所述第五文本与所述第二文本之间的第二相似度对所述第五文本排序，提取前Y个所述第五文本作为所述第二检索结果；其中，所述Y为大于0的整数。

7.如权利要求1所述的方法，所述预设条件包括所述第一检索结果中的文本和第二检索结果中的文本的相似度高于第三阈值。

8.如权利要求1所述的方法，还包括：

为所述第一文本的所述扩展文本标记所述第一文本的标签。

9.一种扩展文本样本的系统，包括：

检索模块，用于将第一文本在文本库中检索，获取与所述第一文本的相似度在设定区间的多个第二文本；

监督模块，用于基于所述第一文本和所述多个第二文本中的每一个在知识库中检索，确定所述第一文本的第一检索结果和所述第二文本的第二检索结果；所述知识库至少包含与所述第一文本关联的多个文本；

判断模块，用于判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件；

确定模块，用于将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。

10.如权利要求9所述的系统，所述检索模块还用于：

11.如权利要求10所述的系统，所述检索模块还用于：

12.如权利要求9所述的系统，所述第一文本是线下人工标注标签的文本。

13.如权利要求9所述的系统，所述文本库包含多个线上收集的文本。

14.如权利要求9所述的系统，监督模块还用于：

15.如权利要求9所述的系统，所述预设条件包括所述第一检索结果中的文本和第二检索结果中的文本的相似度高于第三阈值。

16.如权利要求9所述的系统，还包括：

标记模块，用于为所述第一文本的所述扩展文本标记所述第一文本的标签。

17.一种扩展文本样本装置，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~8任一项所述的方法。

18.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行如权利要求1~8任一项所述的方法。