CN110532393B

CN110532393B - 文本处理方法、装置及其智能电子设备

Info

Publication number: CN110532393B
Application number: CN201910825661.0A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2023-09-26
Anticipated expiration: 2039-09-03
Also published as: CN110532393A

Abstract

公开了一种基于人工智能的文本处理方法、装置及其智能电子设备。该文本处理方法包括：构建给定文本的候选样本集，所述候选样本集中的每个候选样本包括所述给定文本和候选匹配文本；对于每个候选样本，提取所述候选匹配文本的关键词集；以及基于所述候选匹配文本的关键词集，从所述候选样本集中提取出目标负样本集。

Description

文本处理方法、装置及其智能电子设备

技术领域

本发明涉及文本处理领域，更具体地涉及一种基于人工智能的文本处理方法、装置及其智能电子设备。

背景技术

基于神经网络的文本匹配技术是随着机器学习技术的发展而新兴起来的技术，其被广泛应用于智能搜索、智能查询、智能推荐、智能对话、智能问答等系统。目前，文本匹配模型往往是基于较易分辨的负样本进行训练的，这导致模型并不能受到高质量的训练，一旦遇到稍微难分辨的文本，将丧失分辨能力。另一方面，为了提供更具有迷惑性的高质量负样本，则需要对大量样本进行人工筛选，这将大大增加人工成本。因此，在模型训练阶段，需要一种新颖且有效的负样本构建策略，其既能获取足够多的高质量训练负样本，又能实现获取流程的全自动化，不需要任何人工干预，从而使得同样结构的文本匹配模型在新的负样本训练集上学习出来的结果，要远远优于在现有负样本训练集上学习出来的结果。

发明内容

本发明的实施例提供了一种基于人工智能的文本处理方法，包括：构建给定文本的候选样本集，所述候选样本集中的每个候选样本包括所述给定文本和候选匹配文本；对于每个候选样本，提取所述候选匹配文本的关键词集；以及基于所述候选匹配文本的关键词集，从所述候选样本集中提取出目标负样本集。

根据本发明的实施例，所述基于所述候选匹配文本的关键词集从所述候选样本集中提取出目标负样本集包括：基于所述给定文本的关键词集和所述候选匹配文本的关键词集的关联程度来提取目标负样本集。

根据本发明的实施例，所述给定文本的关键词集和所述候选匹配文本的关键词集的关联程度为所述给定文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率：

R＝N_com/N_total，

其中，R为关键词的覆盖率，N_com为所述给定文本的关键词集和所述候选匹配文本的关键词集中的公共关键词的数量，N_total为所述给定文本的关键词集和所述候选匹配文本的关键词集中的所有关键词的数量；其中，从所述候选样本集中提取出关键词的覆盖率R大于第一阈值且小于第二阈值的候选样本，作为所述目标负样本集中的目标负样本。

根据本发明的实施例，所述基于所述候选匹配文本的关键词集从所述候选样本集中提取出目标负样本集包括：获取所述给定文本的目标匹配文本；基于所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集的关联程度来提取目标负样本集。

根据本发明的实施例，所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集的关联程度为所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率：

R＝N_com/N_total，

其中，R为关键词的覆盖率，N_com为所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的公共关键词的数量，N_total为所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的所有关键词的数量；其中，从所述候选样本集中提取出关键词的覆盖率R大于第一阈值且小于第二阈值的候选样本，作为所述目标负样本集中的目标负样本。

根据本发明的实施例，所述方法还包括：对所述目标负样本集中的每个目标负样本进行预测；以及基于预测结果从所述目标负样本集中提取出第二目标负样本集。

根据本发明的实施例，对所述目标负样本集中的每个目标负样本进行预测包括：通过二分类模型预测所述目标负样本集中的每个目标负样本的得分值，所述得分值表示所述目标负样本被识别为正样本的概率；以及从所述目标负样本集中提取出得分值大于预定得分阈值的目标负样本，作为所述第二目标负样本集中的目标负样本。

根据本发明的实施例，所述二分类模型是采用随机采样负样本方法进行训练的。

根据本发明的实施例，所述方法还包括：构建训练样本集，其中所述训练样本集包括所述第二目标负样本集和正样本集；基于所述训练样本集，训练人工智能文本处理系统中的人工智能网络，并且，所述方法还包括：在所述人工智能网络被训练完成后，接收输入待处理文本；以及输出对所述待处理文本的文本处理结果，其中，在所述待处理文本是所述给定文本的情况下，所述文本处理结果不包括所述第二目标负样本集中各目标负样本内的候选匹配文本。

根据本发明的实施例，所述人工智能文本处理系统为人工智能查询系统、人工智能问答系统、人工智能搜索引擎、人工智能推荐系统、人工智能文本理解系统、智能音箱或客服机器人。

本发明的实施例还提供了一种基于人工智能的文本处理装置，包括：候选样本构建模块，用于构建给定文本的候选样本集，所述候选样本集中的每个候选样本包括所述给定文本和候选匹配文本；关键词提取模块，用于对于每个候选样本，提取所述候选匹配文本的关键词集；和目标负样本提取模块，用于基于所述候选匹配文本的关键词集，从所述候选样本集中提取出目标负样本集。

根据本发明的实施例，所述基于所述候选匹配文本的关键词集从所述候选样本集中提取出目标负样本集包括：在所述给定文本与所述候选匹配文本存在对应关系的情况下，基于所述给定文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率；在所述给定文本的目标匹配文本与所述候选匹配文本存在对应关系的情况下，基于所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率：

R＝N_com/N_total，

其中，R为关键词的覆盖率，N_com为所述给定文本或给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的公共关键词的数量，N_total为所述给定文本或给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的所有关键词的数量；其中，从所述候选样本集中提取出关键词的覆盖率R大于第一阈值且小于第二阈值的候选样本，作为所述目标负样本集中的目标负样本。

根据本发明的实施例，所述装置还包括：预测模块，用于使用二分类模型预测所述目标负样本集中的每个目标负样本的得分值，所述得分值表示所述目标负样本被识别为正样本的概率；和第二目标负样本提取模块，用于基于所述得分值从所述目标负样本集中提取出第二目标负样本集。

本发明的实施例还提供了一种智能电子设备，包括：输入单元，用于接收输入文本；处理器；存储器，存储有可执行指令代码，所述指令代码在被处理器执行时用于实现人工智能网络，以基于所述输入文本输出文本处理结果；和输出单元，用于输出所述文本处理结果；其中，所述人工智能网络是基于上述文本处理方法获取的目标负样本集进行训练的，其中，在所述输入文本为所述给定文本的情况下，所述文本处理结果不包括所述目标负样本集中各目标负样本内的候选匹配文本。

本发明的实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现如上所述的文本处理方法。

本发明的实施例提供了一种基于人工智能的文本处理方法、装置及其智能电子设备，其既能获取足够多的高质量训练负样本，又能实现获取流程的全自动化，不需要任何人工干预。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述的附图仅仅是本发明的示例性实施例。

图1A是示出根据本发明实施例的基于神经网络的文本处理系统的应用环境的示意图。

图1B是示出根据本发明实施例的负样本获取系统的应用场景的示意图。

图2是示出根据本发明实施例的文本处理方法的流程图。

图3A是示出根据本发明实施例的另一文本处理方法的流程图。

图3B是示出根据本发明实施例的又一文本处理方法的流程图。

图4A是示出根据本发明实施例的示例性负样本获取系统的系统框图。

图4B是示出根据本发明实施例的另一示例性负样本获取系统的系统框图。

图5是示出根据本发明实施例的文本处理装置的示意图。

图6是示出根据本发明实施例的智能电子设备的示意图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

在本说明书和附图中，基本上相同或相似的步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

为便于描述本发明，以下介绍与本发明有关的概念。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

基于神经网络的文本处理技术是自然语言处理(NLP)领域非常基础且重要的技术，其被广泛应用于搜索、查询、推荐、对话、问答等系统。

图1A是示出根据本发明实施例的基于神经网络的文本处理系统105的应用环境的示意图。

如图1A所示，文本处理系统105是一种基于神经网络的针对文本进行处理(例如，文本匹配、文本转换等)的系统。以文本匹配系统为例，向文本处理系统105输入一输入文本A，经过文本处理系统105中的文本处理网络150的处理，文本处理系统105可以输出与输入文本A相匹配的输出文本B。为使得文本处理系统105具有更优效、更准确的处理能力，需要预先使用训练样本池对文本处理系统中的文本处理网络150进行训练。

此外，如图1A所示，一般地，文本处理网络150是基于正样本池和负样本池来进行训练的。基于正样本池进行训练，文本处理网络150能够学习到大量的正样本，从而针对大量的输入文本能够优效地输出与之相匹配的输出文本。然而，仅仅基于正样本进行训练后的文本处理网络150并不能具有很好的处理准确度和分辨能力。例如，对于具有一定迷惑性的、较难分辨的负样本，文本处理网络150很可能仍将其判断为正样本，从而导致文本处理系统105最终错误地输出与输入文本A并不匹配的输出文本。而进一步基于负样本池进行训练可以有效解决此问题。基于负样本池进行训练，可以使得文本处理网络150进一步学习到大量的负样本，特别地，在基于大量具有迷惑性的、较难分辨的负样本进行训练后，当再遇到相同或类似的具有迷惑性、较难分辨的负样本时，文本处理网络150可以准确地将其判断为负样本，使得文本处理系统105的准确度和分辨能力大大地提高。

上述的文本匹配，即针对一对文本<A，B>进行匹配，例如，判断<A，B>是否相似，或者<A，B>是否构成<问题，答案>。例如，在问答系统中，文本A可以指用户问题，文本B可以指问答库里的答案；在搜索系统中，文本A可以指用户搜索文本，文本B可以指待与用户搜索文本匹配的内容源，如网页、视频描述、图片描述等。文本匹配可以看成是一种二分类问题，即，可以将匹配度高的文本对看成是“正样本”，将匹配度低的文本对看成是“负样本”，从而用各种二分类模型来解决这个问题。为了能让文本匹配模型区分正负样本的能力更强，往往需要构建高质量的负样本来训练模型，直观地解释，就是构建具有一定的迷惑性、使得模型难以简单区分的负样本，从而迫使模型学习得更好，分辨能力更强。

然而目前，文本匹配模型的负样本训练往往是基于直接从大量负样本中随机采样出的负样本进行训练的。由于随机采样出的负样本大部分都是较易分辨的，很容易就能被模型学习出来，这导致模型并不能受到高质量的训练，一旦遇到稍微难分辨的文本，将丧失分辨能力。并且，通过随机采样获取的负样本，有可能其本身实际是“正样本”，例如在问答系统中，多个答案其实都可以回答同一个问题，只不过有些问答库里，问题的答案列表不全，所以很可能抽出一个看起来不在该问题的答案列表里的答案，但其实是正样本。这样的样本并不适于模型的负样本训练。

此外，还有尝试人工标注负样本的方法。例如，在搜索系统中，先用某个文本A去召回大量跟A比较相似的文本，再从中人工筛选出跟A非常相似的文本A-，这样的<A，A->就是比较好的负样本，因为A-跟A非常相似，但表达的意思可能完全不同。但这种方法的缺点也显而易见，一个缺点是人工成本太高，另一缺点是通过这种方法，很有可能一开始召回的全部都是正样本，因为不能保证里面包含了高质量的负样本。

因此，需要提供一种基于人工智能的文本处理方法、装置及其智能电子设备，其既能获取足够多的高质量训练负样本，又能实现获取流程的全自动化，不需要任何人工干预。

图1B是示出根据本发明实施例的负样本获取系统的应用场景100的示意图。

参考图1B，在场景100中，根据本发明实施例的负样本获取装置103可以有两个输入源，即文本池101和待构建的文本池102，负样本获取装置103根据本发明实施例的文本处理方法对文本池101和待构建的文本池102进行处理，从而生成负样本池104。然后，负样本池104被输入到文本处理系统105，用于对文本处理系统105中的文本处理网络模型进行训练。例如，可以如图1A所示的方式，负样本池104和正样本池组合为训练样本池，并基于该训练样本池，对文本处理系统105进行训练。

在图1B的示例中，文本处理系统105可以是人工智能查询系统、人工智能问答系统、人工智能搜索引擎、人工智能推荐系统、人工智能文本理解系统、智能音箱或客服机器人等智能系统。文本池101和待构建的文本池102可以根据文本处理系统105来确定，它们可以是相同的文本池，也可以是彼此不同的文本池。例如，在问答系统中，文本池101可以是所有问题的文本集，而待构建的文本池102可以是所有答案的文本集；在搜索系统中，文本池101可以是所有搜索文本的文本集，而待构建的文本池102也可以是这些所有搜索文本的文本集。

图2是示出根据本发明实施例的文本处理方法200的流程图。应了解，在本发明实施例中，文本处理方法200不仅可以包括文本处理系统105所进行的文本处理，而且还可以包括提供负样本池和正样本池过程所进行的文本处理。具体地，图2所示的文本处理方法200可以用于负样本池的构建。

首先，在步骤S201，构建给定文本的候选样本集，该候选样本集中的每个候选样本包括该给定文本和候选匹配文本。

在本发明的实施例中，上述给定文本可以是图1B中文本池101中的文本，其例如可以是问题文本或者可以是搜索文本，并且其可以包括作为人工智能查询系统、人工智能问答系统、人工智能搜索引擎、人工智能推荐系统、人工智能文本理解系统、智能音箱或客服机器人等智能系统的输入文本的任何文本。

下面，以搜索系统为例进行说明。在搜索系统中，给定文本可以是文本池101中某一搜索文本A，而候选匹配文本可以是该搜索系统支持的匹配库(待构建的文本池102)中的所有文本集合{B₁，B₂，B₃，…，B_N}中的任一文本B_i，1≤i≤N。这样，文本对<A，B_i>则可以构成搜索文本A的一个候选样本，而文本对集合{<A，B₁>，<A，B₂>，<A，B₃>，…，<A，B_N>}可以构成搜索文本A的候选样本集。根据本发明的实施例，给定文本可以是一个文本，也可以是包括多个文本的文本池101，如图1B所示。

在步骤S202，对于每个候选样本，提取候选匹配文本的关键词集。

具体地，可以使用自然语言处理领域中的任何一种关键词提取算法来对文本进行关键词提取，例如机械分词算法、基于N-gram的分词算法、基于隐马尔科夫模型(HiddenMarkov Model，HMM)的分词算法等。例如，对于候选样本<“小红唱歌很好听”，“小黄唱歌很好听”>，可以提取出候选匹配文本“小黄唱歌很好听”的关键词集{小黄，唱歌，好听}；对于候选样本<“小红唱歌很好听”，“小红唱歌很难听”>，可以提取出候选匹配文本“小红唱歌很难听”的关键词集{小红，唱歌，难听}。至于上述示例中的“很”词，以及中文语境中常出现的“的”、“和”、“或者”、“可以”等词是否可以被提取作为关键词，可以根据文本匹配的具体应用场景、系统复杂度或所采用的关键词提取算法等来确定。

此外，所谓一个“好”的或“高质量”的负样本，从文本匹配的角度来看，就是它们看上去很“相似”，但一些关键信息不同。例如对于文本对<A，B>，以下是比较好的示例负样本：

1)<“小红唱歌很好听”，“小黄唱歌很好听”>；

2)<“小红唱歌很好听”，“小红唱歌很难听”>；或

3)<“太阳距离地球多远”，“地球和月亮之间的距离是多少”>。

它们的共同点在于，看起来句式都很像，有些共同的关键词，比如唱歌、距离，但又有些区别，比如“小红”和“小黄”、“好听”和“难听”、“太阳”和“月亮”等。这些不同的部分决定了它们是不同的文本或问题。

以下是比较差的示例负样本：

1)<“为什么地球是圆的”，“为什么我是男的”>；或

2)<“为什么海水是蓝的”，“海的蓝色是怎么来的”>。

第1)个文本对中的句子虽然看起来像，但没有共同的关键词，第2)个文本对中的句子看起来不像，但是关键词“海”、“蓝色”是完全一样的，所以其实是正样本，而不是负样本。

在步骤S203，基于候选匹配文本的关键词集，从候选样本集中提取出目标负样本集。

在本发明的实施例中，对于搜索系统或推荐系统，给定文本与候选匹配文本存在对应关系，可以基于给定文本的关键词集和候选匹配文本的关键词集的关联程度来提取目标负样本集。例如，可以使用任何一种关键词提取算法来提取给定文本的关键词集，然后基于给定文本的关键词集和候选匹配文本的关键词集中的公共关键词的总数、或者给定文本的关键词集和候选匹配文本的关键词集中的关键词的覆盖率等来确定给定文本的关键词集和候选匹配文本的关键词集的关联程度，最后基于公共关键词总数或关键词的覆盖率和预定阈值的比较来提取目标负样本集，例如，将公共关键词总数或关键词的覆盖率小于预定阈值(公共关键词总数越少或者关键词覆盖率越小可以说明给定文本和候选匹配文本越不匹配)的候选样本提取作为目标负样本集中的目标负样本。

具体地，在基于给定文本的关键词集和候选匹配文本的关键词集中关键词的覆盖率来提取目标负样本集的实施例中，可以基于如下等式(1)来计算关键词的覆盖率：

R＝N_com/N_total (1)

其中，R为关键词的覆盖率，N_com为给定文本的关键词集和候选匹配文本的关键词集中的公共关键词(例如，交集)的数量，N_total为给定文本的关键词集和候选匹配文本的关键词集中的所有关键词(例如，并集)的数量。例如，对于候选样本<“小红唱歌很好听”，“小黄小黄唱歌很好听”>，其给定文本“小红唱歌很好听”的关键词集为{小红，唱歌，好听}，并且其候选匹配文本“小黄唱歌很好听”的关键词集为{小黄，唱歌，好听}，则它们之间的公共关键词的集合可以被确定为：{小红，唱歌，好听}∩{小黄，唱歌，好听}＝{唱歌，好听}，而它们之间的所有关键词的集合可以被确定为：{小红，唱歌，好听}∪{小黄，唱歌，好听}＝{小红，唱歌，好听，小黄}，因此，N_com＝2并且N_total＝4。所以，该候选样本的关键词覆盖率可以被确定为R＝0.5。

然后，可以将计算出的候选样本的关键词覆盖率与预先设定的一个上限阈值r₂和一个下限阈值r₁进行比较，上限阈值r₂大于下限阈值r₁，上限阈值r₂和下限阈值r₁之间的差距反映了对公共关键词在总关键词集合中所占比例的需求，并且也反映了对负样本集中负样本数量及质量的需求。如果候选样本的关键词覆盖率R的值高于上限阈值r₂，则可以认为该候选样本的候选匹配文本与给定文本的关键信息一致，因此可以将该候选样本确定为正样本，从而丢弃该候选样本；如果候选样本的关键词覆盖率R的值低于下限阈值r₁，则可以认为该候选样本的候选匹配文本与给定文本的关键信息完全不一致，因此可以将该候选样本确定为一个很容易分辨的负样本，从而直接丢弃。所以，可以从候选样本集中提取出关键词的覆盖率R大于下限阈值r₁且小于上限阈值r₂的候选样本，作为目标负样本集中的目标负样本。这样提取出来的目标负样本既不包括正样本、又不包括很容易分辨的负样本，使得负样本质量大大提升。基于这样提取出来的目标负样本进行训练，使得原本对文本处理系统具有迷惑性的样本参与到训练中，使得模型训练更具有针对性，能够有效提高模型准确度。此外，通过选择一定的阈值范围，排除了容易分辨的负样本，也使得简化训练次数，提高训练效率。

具体地，上限阈值r₂和下限阈值r₁可以根据经验来设定。例如，可以尽量将r₂的值设定得小一点，保证提取出来的都是负样本。

在本发明的另一实施例中，对于问答系统或对话系统，给定文本的目标匹配文本与候选匹配文本存在对应关系。在此情况下，根据本发明另一实施例的文本处理方法200还可以包括：获取给定文本的目标匹配文本；以及基于给定文本的目标匹配文本的关键词集和候选匹配文本的关键词集中关键词的覆盖率来提取目标负样本集。具体地，以问答系统为例进行说明。在问答系统中，给定文本可以是某一问题文本Q，而候选匹配文本可以是该问答系统的问答库中的所有答案文本中的任一答案文本D。问题文本Q的目标匹配文本T可以是与该问题文本Q完全匹配的答案文本。例如，问题文本Q可以是“小红唱歌怎么样”，其目标匹配文本T可以是“小红唱歌很好听”，而候选匹配文本可以是问答库中的某一答案文本“小黄唱歌很好听”。问题文本Q的目标匹配文本T可以从问答系统的问答库中直接获取。随后，可以根据上文所述的方法分别提取目标匹配文本和候选匹配文本的关键词、计算关键词的覆盖率以及基于关键词覆盖率对候选样本进行阈值筛选，具体过程这里不再赘述。

根据本发明的实施例，还可以对根据图2所示的方法获取的目标负样本集进行进一步处理，如图3A所示。

图3A是示出根据本发明实施例的另一文本处理方法300的流程图。

在步骤S301，对目标负样本集中的每个目标负样本进行预测。

在本发明的实施例中，目标负样本集可以是根据各种方法获取的目标负样本集。例如，目标负样本集可以是根据上文所述的基于关键词的方法提取出的目标负样本集，可以是简单地根据随机采样负样本方法获取的目标负样本集，也可以是一个没有经过任何处理的预先确定的负样本集。随机采样负样本方法，即对一个预先确定的负样本集进行随机采样，将随机采样到的负样本的集合作为目标负样本集。

在一个实施例中，可以通过一个简单的二分类模型对目标负样本集中的每个目标负样本进行预测，该简单的二分类模型例如为逻辑回归(Logistic Regression，LR)模型、fasttest模型等。可以使用二分类模型预测目标负样本集中的每个目标负样本的得分值s，预测出来的得分值s可以表示对应的目标负样本被识别为正样本的概率。所以s越大，可以认为该目标负样本质量越高，因为越可能被判断为是正样本。

在一个实施例中，二分类模型可以简单地采用上文所述的随机采样负样本方法来预先训练。因为这个模型并不是真正用于最后文本匹配任务的，而只是用于在目标负样本集中找出质量较高(例如，得分值s较大)的负样本，所以并不需要得非常完美。

在步骤S302，基于预测结果从目标负样本集中提取出第二目标负样本集。

具体地，可以基于预测出来的得分值，从目标负样本集中提取出得分值s大于预定得分阈值s₁的目标负样本，作为第二目标负样本集中的目标负样本。预定得分阈值s₁可以根据经验来设定。通过根据本发明实施例的负样本获取方法，可以进一步筛选出具有更强迷惑性的负样本，提高获取的负样本质量，并且实现负样本获取流程的全自动化，不需要任何人工干预。

根据本发明实施例的文本处理方法获取的目标负样本集可以用于训练人工智能查询系统、人工智能问答系统、人工智能搜索引擎、人工智能推荐系统、人工智能文本理解系统、智能音箱或客服机器人等智能系统。例如，在搜索系统或推荐系统中，可以用于更好地训练模型来提高用户输入的搜索内容和网页信息、产品信息等文本之间的匹配度；在问答系统或智能客服系统中，可以用于更好地训练模型来提高用户问题和问答库里的问题、答案之间的匹配度。

在本发明的实施例中，还可以基于根据图3A所示的方法获取的第二目标负样本集对目标的文本处理系统进行训练，并利用训练后的文本处理系统进行进一步的文本处理，如图3B所示。

图3B是示出根据本发明实施例的又一文本处理方法350的流程图。

在步骤S311，构建训练样本集，其中该训练样本集包括第二目标负样本集和正样本集。

在本发明的实施例中，第二目标负样本集可以是根据图2所示的方法200获取的目标负样本集，也可以是根据图2所示的方法200和图3A所示的方法300的组合获取的目标负样本集。在本发明的实施例中，正样本集可以是根据任何正样本获取方法获取到的正样本的集合。

在步骤S312，基于训练样本集，训练人工智能文本处理系统中的人工智能网络。

在本发明的实施例中，人工智能文本处理系统可以是人工智能查询系统、人工智能问答系统、人工智能搜索引擎、人工智能推荐系统、人工智能文本理解系统、智能音箱或客服机器人等。而人工智能网络可以是上述人工智能文本处理系统中用于实现相应文本处理功能的神经网络，例如，文本匹配神经网络。可以使用人工智能领域中任何形式的神经网络训练方法对其进行训练。例如，对于一个负样本，将其输入到相应的人工智能网络，然后通过调整网络参数(例如，调整权重或偏置等)来使得网络将其准确判断为负样本，从而完成对该样本的学习。

基于正样本集进行训练，文本处理系统能够学习到大量的正样本，从而针对大量的输入文本能够优效地输出与之相匹配的输出文本。基于负样本集进行训练，可以使得文本处理系统进一步学习到大量的负样本，特别地，在基于大量具有迷惑性的、较难分辨的负样本进行训练后，当再遇到相同或类似的具有迷惑性、较难分辨的负样本时，文本处理系统可以准确地将其判断为负样本，使得文本处理系统的准确度和分辨能力大大地提高。

在步骤S313，在人工智能网络被训练完成后，接收输入待处理文本。

具体地，在人工智能网络被训练完成后，可以通过任何文本接收方法接收人工智能网络的待处理文本，然后通过经训练的人工智能网络对输入的待处理文本进行后续处理(例如，文本匹配)。

在步骤S314，输出对该待处理文本的文本处理结果，其中，文本处理结果不包括与该待处理文本相关联的第二目标负样本集中各目标负样本内的候选匹配文本。

具体地，可以通过训练的人工智能网络对输入的待处理文本进行相应的文本处理，然后输出文本处理结果。例如，在问答系统中，可以将与该待处理文本相对应的答案文本作为文本处理结果输出；在搜索系统中，可以将与该待处理文本相匹配的内容文本作为文本处理结果输出。在一个实施例中，由于在步骤S312中人工智能网络已经基于包括与该待处理文本相关联的第二目标负样本集的训练样本集进行了训练，所以，在训练完成后，关于该待处理文本的文本处理结果将不会包括与该待处理文本相关联的第二目标负样本集中各目标负样本内的候选匹配文本。

图4A是示出根据本发明实施例的示例性负样本获取系统400的系统框图。该负样本获取系统400可以独立于所述文本处理系统存在，也可以被并入到所述文本处理系统中，本发明实施例不对其形式进行限定。假设该示例系统400获取的负样本是用于训练搜索系统来进行描述。

如图4A所示，示例性文本匹配负样本获取系统400有两个输入源，即文本池401和待构建的文本池402。在这种情况下，如上文所述，待构建的文本池402可以和文本池401相同，例如，可以都是所有搜索文本的文本集。然后，在403中，可以从文本池401中选取任一文本A，然后从待构建的文本池402中选取除文本A之外的任一其它文本A-，<A，A->的组合则构成了一个负样本，显然，这样构建出的负样本集可以初步排除正样本<A，A>。

在404中，对于每一个负样本，可以根据本发明上述实施例提供的方法来分别提取文本A和A-的关键词集并计算其关键词覆盖率R。在405中，对于每一个负样本，将计算出的关键词覆盖率R与根据经验预先设定的一个上限阈值r₂和一个下限阈值r₁进行比较，若R大于r₂或者小于r₁，则丢弃该负样本；若R大于r₁且小于r₂，则提取该负样本并放入负样本候选池406。经过403、404和405的处理，负样本侯选池406中的负样本已经是质量非常高的负样本。

下面，还可以继续根据本发明实施例提供的负样本获取方法来进一步对高质量的负样本进行筛选。在407中，可以根据本发明实施例提供的方法，通过简单训练后的二分类模型对负样本侯选池406中的每一个负样本进行得分值预测，预测出来的得分值s可以表示对应的负样本被识别为正样本的概率。在408中，对于每一个负样本，将其得分值s与一个预定得分阈值s₁进行比较，若s小于s₁，则丢弃该负样本；若s大于s₁，则提取该负样本并放入最终的负样本池409。由此，经过基于关键词覆盖率以及预测得分值的阈值筛选，可以排除低质量的训练负样本以及得到足够多的高质量的训练负样本，使得模型训练更具有针对性，并且能够完全实现获取流程的全自动化，不需要任何人工干预。

图4B是示出根据本发明实施例的另一示例性负样本获取系统450的系统框图。类似地，该负样本获取系统450可以独立于所述文本处理系统存在，也可以被并入到所述文本处理系统中，本发明实施例不对其形式进行限定。假设该示例系统450获取的负样本是用于训练问答系统来进行描述。

如图4B所示，示例性负样本获取系统450有两个输入源，即文本池410和待构建的文本池420。在这种情况下，如上文所述，文本池410可以是问答库中所有问题的文本集，而待构建的文本池420可以是问答库中所有答案的文本集。在该系统中，首先，在413中，可以从文本池410中选取任一问题文本Q，然后从待构建的文本池420中选取任一答案文本A-，<Q，A->的组合则构成了问答系统中关于问题文本Q的一个负样本。

然后，在415中，根据问答库中问题和答案的对应关系，获取与问题文本Q相对应的答案文本A(即，问题文本Q的目标匹配文本)。然后，在414中，对于每一个负样本<Q，A->，可以根据本发明上述实施例提供的方法来分别提取与问题文本Q相对应的答案文本A和A-的关键词集并计算其关键词覆盖率R。接下来，该系统的后续处理与图4A的示例系统中的对应处理完全相同，这里不再赘述。

图5是示出根据本发明实施例的文本处理装置500的示意图。

根据本发明实施例的文本处理装置500包括：候选样本构建模块501、关键词提取模块502、目标负样本提取模块503。其中，候选样本构建模块501用于构建给定文本的候选样本集，该候选样本集中的每个候选样本包括给定文本和候选匹配文本。关键词提取模块502用于对于每个候选样本，提取候选匹配文本的关键词集。

在本发明的实施例中，在给定文本与候选匹配文本存在对应关系的情况下，关键词提取模块502还可以用于提取给定文本的关键词集；在给定文本的目标匹配文本与候选匹配文本存在对应关系的情况下，关键词提取模块502还可以用于提取给定文本的目标匹配文本的关键词集。目标负样本提取模块503用于基于候选匹配文本的关键词集，从候选样本集中提取出目标负样本集。具体地，目标负样本提取模块503可以根据本发明实施例提供的方法，基于关键词的覆盖率和阈值筛选来提取目标负样本集。

文本处理装置500还包括：预测模块504和第二目标负样本提取模块505。其中，预测模块504用于预测目标负样本集中的每个目标负样本的得分值，该得分值表示该目标负样本被识别为正样本的概率。第二目标负样本提取模块505用于基于得分值从目标负样本集中提取出第二目标负样本集。

具体地，预测模块504可以使用二分类模型，例如逻辑回归(LR)模型、fasttest模型等，预测目标负样本集中的每个目标负样本的得分值。可选地，该二分类模型可以简单地采用上文所述的随机采样负样本方法来预先训练。

此外，根据本发明实施例的文本处理装置500还可以包括：训练样本集构建模块，用于构建训练样本集，其中该训练样本集包括第二目标负样本集和正样本集；训练模块，用于基于训练样本集，训练人工智能文本处理系统中的人工智能网络；接收模块，用于在人工智能网络被训练完成后，接收输入待处理文本；以及输出模块，用于输出对该待处理文本的文本处理结果，其中，文本处理结果不包括与该待处理文本相关联的第二目标负样本集中各目标负样本内的候选匹配文本。

图6是示出根据本发明实施例的智能电子设备600的示意图。

如图6所示，根据本发明实施例的智能电子设备600包括：输入单元601、处理器602、存储器603和输出单元604。

输入单元601可以是能够接收各种形式的输入文本的任何文本接收单元，其用于接收智能电子设备600的输入文本。输入单元接收的输入文本可以以数字文件的方式存储于存储器603中。

处理器602可以根据存储在存储器603中的程序执行各种动作和处理。具体地，处理器602可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或者是ARM架构等。

存储器603存储有可执行指令代码，该指令代码在被处理器602执行时用于实现人工智能网络，以基于输入文本输出文本处理结果。其中，该人工智能网络是基于根据本发明实施例所述的文本处理方法获取的目标负样本集进行训练的；其中该文本处理结果不包括与该输入文本相关联的目标负样本集中各目标负样本内的候选匹配文本。存储器603可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

输出单元604可以是能够以各种形式输出文本的任何文本输出单元，用于输出智能电子设备600的输出文本。

本发明还提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现文本处理方法200和文本处理方法300。类似地，本发明实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例提供的一种基于人工智能的文本处理方法、装置及其智能电子设备，通过融合关键词信息和简单分类模型，其既能获取足够多的高质量训练负样本，又能实现获取流程的全自动化，不需要任何人工干预。

需要说明的是，附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种基于人工智能的文本处理方法，包括：

构建给定文本的候选样本集，所述候选样本集中的每个候选样本包括所述给定文本和候选匹配文本；

对于每个候选样本，提取所述候选匹配文本的关键词集以及所述给定文本的关键词集；

基于所述候选匹配文本的关键词集以及所述给定文本的关键词集，确定所述给定文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率，以及

基于所述给定文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率和预定阈值的比较，从所述候选样本集中提取出目标负样本集。

2.如权利要求1所述的文本处理方法，其中，所述基于所述候选匹配文本的关键词集从所述候选样本集中提取出目标负样本集包括：

基于所述给定文本的关键词集和所述候选匹配文本的关键词集的关联程度来提取目标负样本集。

3.如权利要求2所述的文本处理方法，其中，所述给定文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率被计算为：

R＝N_com/N_total，

其中，R为关键词的覆盖率，N_com为所述给定文本的关键词集和所述候选匹配文本的关键词集中的公共关键词的数量，N_total为所述给定文本的关键词集和所述候选匹配文本的关键词集中的所有关键词的数量；

其中，从所述候选样本集中提取出关键词的覆盖率R大于第一阈值且小于第二阈值的候选样本，作为所述目标负样本集中的目标负样本。

4.如权利要求1所述的文本处理方法，其中，所述基于所述候选匹配文本的关键词集从所述候选样本集中提取出目标负样本集包括：

获取所述给定文本的目标匹配文本；

基于所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集的关联程度来提取目标负样本集。

5.如权利要求4所述的文本处理方法，其中，所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集的关联程度为所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率：

R＝N_com/N_total，

其中，R为关键词的覆盖率，N_com为所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的公共关键词的数量，N_total为所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的所有关键词的数量；

6.如权利要求1-5中的任一项所述的文本处理方法，还包括：

对所述目标负样本集中的每个目标负样本进行预测；以及

基于预测结果从所述目标负样本集中提取出第二目标负样本集。

7.如权利要求6所述的文本处理方法，其中，对所述目标负样本集中的每个目标负样本进行预测包括：

通过二分类模型预测所述目标负样本集中的每个目标负样本的得分值，所述得分值表示所述目标负样本被识别为正样本的概率；以及

从所述目标负样本集中提取出得分值大于预定得分阈值的目标负样本，作为所述第二目标负样本集中的目标负样本。

8.如权利要求7所述的文本处理方法，其中，所述二分类模型是采用随机采样负样本方法进行训练的。

9.如权利要求7所述的文本处理方法，还包括：

构建训练样本集，其中所述训练样本集包括所述第二目标负样本集和正样本集；

基于所述训练样本集，训练人工智能文本处理系统中的人工智能网络，

并且，所述文本处理方法还包括：在所述人工智能网络被训练完成后，

接收输入待处理文本；以及

输出对所述待处理文本的文本处理结果，其中，在所述待处理文本是所述给定文本的情况下，所述文本处理结果不包括所述第二目标负样本集中各目标负样本内的候选匹配文本。

10.如权利要求9所述的文本处理方法，其中，所述人工智能文本处理系统为人工智能查询系统、人工智能问答系统、人工智能搜索引擎、人工智能推荐系统、人工智能文本理解系统、智能音箱或客服机器人。

11.一种基于人工智能的文本处理装置，包括：

候选样本构建模块，用于构建给定文本的候选样本集，所述候选样本集中的每个候选样本包括所述给定文本和候选匹配文本；

关键词提取模块，用于对于每个候选样本，提取所述候选匹配文本的关键词集以及所述给定文本的关键词集；和

目标负样本提取模块，用于基于所述候选匹配文本的关键词集以及所述给定文本的关键词集，确定所述给定文本的关键词集和所述候选匹配文本的关键词集中的关键词的覆盖率，以及基于所述给定文本的关键词集和所述候选匹配文本的关键词集中的关键词的覆盖率和预定阈值的比较，从所述候选样本集中提取出目标负样本集。

12.如权利要求11所述的文本处理装置，其中，所述基于所述候选匹配文本的关键词集从所述候选样本集中提取出目标负样本集包括：

在所述给定文本与所述候选匹配文本存在对应关系的情况下，基于所述给定文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率；在所述给定文本的目标匹配文本与所述候选匹配文本存在对应关系的情况下，所述给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中关键词的覆盖率被计算为：

R＝N_com/N_total，

其中，R为关键词的覆盖率，N_com为所述给定文本或给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的公共关键词的数量，N_total为所述给定文本或给定文本的目标匹配文本的关键词集和所述候选匹配文本的关键词集中的所有关键词的数量；

13.如权利要求11或12所述的文本处理装置，还包括：

预测模块，用于使用二分类模型预测所述目标负样本集中的每个目标负样本的得分值，所述得分值表示所述目标负样本被识别为正样本的概率；和

第二目标负样本提取模块，用于基于所述得分值从所述目标负样本集中提取出第二目标负样本集。

14.一种智能电子设备，包括：

输入单元，用于接收输入文本；

处理器；

存储器，存储有可执行指令代码，所述指令代码在被处理器执行时用于实现人工智能网络，以基于所述输入文本输出文本处理结果；和

输出单元，用于输出所述文本处理结果；

其中，所述人工智能网络是基于如权利要求1-9中的任一项所述的方法获取的目标负样本集进行训练的，

其中，在所述输入文本为所述给定文本的情况下，所述文本处理结果不包括所述目标负样本集中各目标负样本内的候选匹配文本。

15.一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-9中的任一项所述的方法。