CN109284383A

CN109284383A - 文本处理方法及装置

Info

Publication number: CN109284383A
Application number: CN201811174916.3A
Authority: CN
Inventors: 梅杰; 汪冠春; 胡川; 胡一川; 张海雷
Original assignee: Beijing Laiye Network Technology Co Ltd
Current assignee: Beijing Laiye Network Technology Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-01-29

Abstract

本申请公开了一种文本处理方法及装置。该方法包括：根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本；通过正负样本训练得到含有领域知识的文本分类器；以及将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。本申请解决了对于文本处理时缺少领域知识的技术问题。通过本申请的文本处理方法，可以获得富含有特定领域知识的文本。进一步可以扩充知识库，建立新的富含特定领域知识文本的使用场景。

Description

文本处理方法及装置

技术领域

本申请涉及文本处理领域，具体而言，涉及一种文本处理方法及装置。

背景技术

通过构建知识库可以让智能机器人回答用户的问题。

发明人发现，当用户的提问涉及专业领域时，机器人在知识库中无法找到相关富含领域知识的文本进行有效地回复，进一步不能够满足客户的问答要求。

针对相关技术中对于文本处理时缺少领域知识的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文本处理方法及装置，以解决对于文本处理时缺少领域知识的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文本处理方法。

根据本申请的文本处理方法包括：根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本；通过正负样本训练得到含有领域知识的文本分类器；以及将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。

进一步地，将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本包括：根据所述预设领域文本语料的数据量确定分类算法；使用训练好的文本分类器将语料分类；其中，分类算法包括：传统分类算法或者神经网络分类算法。

进一步地，通过正负样本训练得到含有领域知识的文本分类器时还包括：收集领域无关的语料；将所述领域无关的语料作为负面样本；以及将所述负面样本作为输入训练含有领域知识的文本分类器。

进一步地，将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本之后还包括：将提取出的正面样本作为含有预设领域知识的文本；对得到的所述含有预设领域知识的文本执行如下任意一种的操作：补充所述含有预设领域知识的文本的对应问题得到问答对，并将所述问答对加入知识库；在包括问答对的知识库中通过检索含有预设领域知识的文本回答用户的问题。

进一步地，根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本包括：将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本；将所述预设领域词汇中不包含专业词汇的语料作为负面样本；以及将预设领域文本语料中问题作为负面样本，将预设领域文本语料中答案作为正面样本，将不含有专业词汇的语料作为负面样本。

为了实现上述目的，根据本申请的另一方面，提供了一种文本处理装置。

根据本申请的文本处理装置包括：正负样本模块，用于根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本；训练模块，用于通过正负样本训练得到含有领域知识的文本分类器；以及输出模块，用于将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。

进一步地，所述输出模块包括：算法确定单元，根据所述预设领域文本语料的数据量确定分类算法；语料训练单元，用于使用训练好的文本分类器将语料分类；其中，分类算法包括：传统分类算法或者神经网络分类算法。

进一步地，所述训练模块包括：收集单元，用于收集领域无关的语料；负面样本单元，用于将所述领域无关的语料作为负面样本；以及输入单元，用于将所述负面样本作为输入训练含有领域知识的文本分类器。

进一步地，还包括：样本补充模块，所述样本补充模块包括：正面样本提取单元，用于将提取出的正面样本作为含有预设领域知识的文本；样本补充单元，用于对得到的所述含有预设领域知识的文本执行如下任意一种的操作：补充所述含有预设领域知识的文本的对应问题得到问答对，并将所述问答对加入知识库；在包括问答对的知识库中通过检索含有预设领域知识的文本回答用户的问题。

进一步地，所述正负样本模块包括：第一负面样本处理单元，用于将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本；第二负面样本处理单元，用于将所述预设领域词汇中不包含专业词汇的语料作为负面样本；以及样本区分处理单元，将预设领域文本语料中问题作为负面样本，将预设领域文本语料中答案作为正面样本，将不含有专业词汇的语料作为负面样本。

在本申请实施例中，采用根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本的方式，通过正负样本训练得到含有领域知识的文本分类器，达到了将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本的目的，从而实现了扩充知识库、增加富含领域知识文本的技术效果，进而解决了对于文本处理时缺少领域知识的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的文本处理方法示意图；

图2是根据本申请第二实施例的文本处理方法示意图；

图3是根据本申请第三实施例的文本处理方法示意图；

图4是根据本申请第四实施例的文本处理方法示意图；

图5是根据本申请第五实施例的文本处理方法示意图；

图6是根据本申请第一实施例的文本处理装置示意图；

图7是根据本申请第二实施例的文本处理装置示意图；

图8是根据本申请第三实施例的文本处理装置示意图；

图9是根据本申请第四实施例的文本处理装置示意图；以及

图10是根据本申请第五实施例的文本处理装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S106：

步骤S102，根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本；

预设领域是指根据实际需要指定或者特定的领域。

预设领域文本语料可以是，特定领域中收集积累的文章、资料或者问答对等。

预设领域问答对可以是，特定领域中的已有问答系统、FAQ、客服手册等。

预设领域词汇可以是，特定领域中的专业词汇。

通过上述的预设领域文本语料、预设领域问答、预设领域词汇按照预设规则建立正负样本。

步骤S104，通过正负样本训练得到含有领域知识的文本分类器；

得到正负样本后，通过正负样本训练得到文本分类器，其中，所述文本分类器是含有领域知识的。含有的领域知识为特定领域知识，本领域技术人员可以根据实际情况进行选择，并不作为本申请中的限定。

步骤S106，将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。

将预设领域文本语料的数据量较大的语料输入到上述步骤得到的文本分类器中，通过文本分类器对语料进行分类，得到的文本是富含有特定领域知识的文本。

富含有特定领域知识的文本通常含有大量的领域知识，覆盖面较强，可用于特定领域的使用场景。

从以上的描述中，可以看出，本申请实现了如下技术效果：

根据本申请实施例，作为本实施例中的优选，如图2所示，将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本包括：

步骤S202，根据所述预设领域文本语料的数据量确定分类算法；

分类算法包括：传统分类算法或者神经网络分类算法。可以使用正负样本有监督的训练出富含领域知识文本的分类器。优选地，可以根据语料文本的数据量的大小选择传统或神经网络的分类算法。

需要注意的是传统或神经网络的分类算法，对于本领域技术人员而言可以根据实际情况进行选择，在本申请中并不进行限定。

步骤S204，使用训练好的文本分类器将语料分类；

根据上述步骤得到的训练好的分离器可以对语料进行分类处理。优选地，对于正面样本可以将其作为富含有特定领域知识的文本。

根据本申请实施例，作为本实施例中的优选，如图3所示，过正负样本训练得到含有领域知识的文本分类器时还包括：

步骤S302，收集领域无关的语料；

收集到的领域无关的语料可以包括，补充闲聊数据、小说数据、其他领域数据。

步骤S304，将所述领域无关的语料作为负面样本；

将收集到的领域无关的语料作为负面样本，作为负面样本的扩充。

步骤S306，将所述负面样本作为输入训练含有领域知识的文本分类器。

将负面样本作为输入，并且在分类器中训练富含有知识文本分类器。

根据本申请实施例，作为本实施例中的优选，如图4所示，将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本之后还包括：

步骤S402，将提取出的正面样本作为含有预设领域知识的文本；

将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本之后，需要将通过文本分类器提取到的正面样本作为含有特定领域知识的文本。

对得到的所述含有预设领域知识的文本执行如下任意一种的操作：

步骤S404，补充所述含有预设领域知识的文本的对应问题得到问答对，并将所述问答对加入知识库；

具体地，可以补充所述含有预设领域知识的文本的对应问题进一步得到问答对，以及将得到的问到对加入知识库。

步骤S406，在包括问答对的知识库中通过检索含有预设领域知识的文本回答用户的问题。

具体地，可以在包括了问答对的知识库中通过提供数据接口的方式，检索出含有特定领域知识的文本后回答用户的相关问题。

需要注意的是，在不同条件下，上述多种来源的正负样本不可能全部可以搜集到，具体实施时可以只用其中的一种或几种正负样本来源仍可以保证相关后台系统的正常运行。

根据本申请实施例，作为本实施例中的优选，如图5所示，根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本包括：

步骤S502，将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本；

将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本可以从已有问答系统、客服手册、FAQ、文档等来源收集到的特定领域的问答对。将其中的问题及在本申请人认为是包含知识较少的作为负面样本；答案即在本申请人认为是包含领域知识较多的作为正面样本。

需要注意的是，已有问答系统、客服手册、FAQ、文档等来源收集到的特定领域的问答对可以根据实际使用场景进行扩充，在本申请中并不进行限定。

步骤S504，将所述预设领域词汇中不包含专业词汇的语料作为负面样本；

将所述预设领域词汇中不包含专业词汇的语料作为负面样本时，由于在特定领域的专业词汇中，一般情况下包含领域词汇越多，越可能包含领域的专业知识，当没有专业词汇时，很少或几乎不包含领域知识，或者包含的知识不是感兴趣的内容。在本申请中按照如上的规则对专业词汇中的语料进行区分。

比如，葡萄酒领域包含酒庄、酒款、产区、葡萄种类、酒香、年份、气候、杯型等等方面的词汇。

步骤S506，将预设领域文本语料中问题作为负面样本，将预设领域文本语料中答案作为正面样本，将不含有专业词汇的语料作为负面样本。

由于在特定领域积累下的文章、问答对、资料等文本语料，一般数据量较大，可以从中提取出富含知识的文本。

具体地，对于特定领域文本语料可以将预设领域文本语料中问题作为负面样本，对于特定领域文本语料可以将预设领域文本语料中答案作为正面样本。对于特定领域专业词汇可以将不含有专业词汇的语料作为负面样本。

需要注意的是，在特定领域的文本语料中获取问题对的答案或者问题时，可以选取不同分类器，在本申请中并不进行限定。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述文本处理方法的装置，如图6所示，该装置包括：正负样本模块10，用于根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本；训练模块20，用于通过正负样本训练得到含有领域知识的文本分类器；以及输出模块30，用于将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。

本申请实施例的正负样本模块10中预设领域是指根据实际需要指定或者特定的领域。

预设领域词汇可以是，特定领域中的专业词汇。

本申请实施例的训练模块20中得到正负样本后，通过正负样本训练得到文本分类器，其中，所述文本分类器是含有领域知识的。含有的领域知识为特定领域知识，本领域技术人员可以根据实际情况进行选择，并不作为本申请中的限定。

本申请实施例的输出模块30中将预设领域文本语料的数据量较大的语料输入到上述步骤得到的文本分类器中，通过文本分类器对语料进行分类，得到的文本是富含有特定领域知识的文本。

根据本申请实施例，作为本实施例中的优选，如图7所示，所述输出模块30包括：算法确定单元301，根据所述预设领域文本语料的数据量确定分类算法；语料训练单元302，用于使用训练好的文本分类器将语料分类；其中，分类算法包括：传统分类算法或者神经网络分类算法。

本申请实施例的算法确定单元301中分类算法包括：传统分类算法或者神经网络分类算法。可以使用正负样本有监督的训练出富含领域知识文本的分类器。优选地，可以根据语料文本的数据量的大小选择传统或神经网络的分类算法。

本申请实施例的语料训练单元302中根据上述步骤得到的训练好的分离器可以对语料进行分类处理。优选地，对于正面样本可以将其作为富含有特定领域知识的文本。

根据本申请实施例，作为本实施例中的优选，如图8所示，所述训练模块20包括：收集单元201，用于收集领域无关的语料；负面样本单元202，用于将所述领域无关的语料作为负面样本；以及输入单元203，用于将所述负面样本作为输入训练含有领域知识的文本分类器。

本申请实施例的收集单元201中收集到的领域无关的语料可以包括，补充闲聊数据、小说数据、其他领域数据。

本申请实施例的负面样本单元202中将收集到的领域无关的语料作为负面样本，作为负面样本的扩充。

本申请实施例的输入单元203中将负面样本作为输入，并且在分类器中训练富含有知识文本分类器。

根据本申请实施例，作为本实施例中的优选，如图9所示，装置还包括：样本补充模块40，所述样本补充模块40包括：正面样本提取单元401，用于将提取出的正面样本作为含有预设领域知识的文本；样本补充单元402，用于对得到的所述含有预设领域知识的文本执行如下任意一种的操作：补充所述含有预设领域知识的文本的对应问题得到问答对，并将所述问答对加入知识库；在包括问答对的知识库中通过检索含有预设领域知识的文本回答用户的问题。

本申请实施例的正面样本提取单元401中将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本之后，需要将通过文本分类器提取到的正面样本作为含有特定领域知识的文本。

本申请实施例的样本补充单元402中具体地，可以补充所述含有预设领域知识的文本的对应问题进一步得到问答对，以及将得到的问到对加入知识库。

本申请实施例的样本补充单元402中具体地，可以在包括了问答对的知识库中通过提供数据接口的方式，检索出含有特定领域知识的文本后回答用户的相关问题。

根据本申请实施例，作为本实施例中的优选，如图10所示，所述正负样本模块10包括：第一负面样本处理单元101，用于将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本；第二负面样本处理单元102，用于将所述预设领域词汇中不包含专业词汇的语料作为负面样本；以及样本区分处理单元103，将预设领域文本语料中问题作为负面样本，将预设领域文本语料中答案作为正面样本，将不含有专业词汇的语料作为负面样本。

本申请实施例的第一负面样本处理单元101中将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本可以从已有问答系统、客服手册、FAQ、文档等来源收集到的特定领域的问答对。将其中的问题及在本申请人认为是包含知识较少的作为负面样本；答案即在本申请人认为是包含领域知识较多的作为正面样本。

本申请实施例的第二负面样本处理单元102中将所述预设领域词汇中不包含专业词汇的语料作为负面样本时，由于在特定领域的专业词汇中，一般情况下包含领域词汇越多，越可能包含领域的专业知识，当没有专业词汇时，很少或几乎不包含领域知识，或者包含的知识不是感兴趣的内容。在本申请中按照如上的规则对专业词汇中的语料进行区分。

本申请实施例的样本区分处理单元103中由于在特定领域积累下的文章、问答对、资料等文本语料，一般数据量较大，可以从中提取出富含知识的文本。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本处理方法，其特征在于，包括：

根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本；

通过正负样本训练得到含有领域知识的文本分类器；以及

将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。

2.根据权利要求1所述的文本处理方法，其特征在于，将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本包括：

根据所述预设领域文本语料的数据量确定分类算法；

使用训练好的文本分类器将语料分类；

其中，分类算法包括：传统分类算法或者神经网络分类算法。

3.根据权利要求1所述的文本处理方法，其特征在于，通过正负样本训练得到含有领域知识的文本分类器时还包括：

收集领域无关的语料；

将所述领域无关的语料作为负面样本；以及

将所述负面样本作为输入训练含有领域知识的文本分类器。

4.根据权利要求1所述的文本处理方法，其特征在于，将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本之后还包括：

将提取出的正面样本作为含有预设领域知识的文本；

补充所述含有预设领域知识的文本的对应问题得到问答对，并将所述问答对加入知识库；

在包括问答对的知识库中通过检索含有预设领域知识的文本回答用户的问题。

5.根据权利要求1所述的文本处理方法，其特征在于，根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本包括：

将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本；

将所述预设领域词汇中不包含专业词汇的语料作为负面样本；以及

将预设领域文本语料中问题作为负面样本，将预设领域文本语料中答案作为正面样本，将不含有专业词汇的语料作为负面样本。

6.一种文本处理装置，其特征在于，包括：

正负样本模块，用于根据预设领域文本语料、预设领域问答对以及预设领域词汇建立正负样本；

训练模块，用于通过正负样本训练得到含有领域知识的文本分类器；以及输出模块，用于将所述预设领域文本语料输入所述文本分类器得到含有预设领域知识的文本。

7.根据权利要求6所述的文本处理装置，其特征在于，所述输出模块包括：

算法确定单元，根据所述预设领域文本语料的数据量确定分类算法；

语料训练单元，用于使用训练好的文本分类器将语料分类；

8.根据权利要求6所述的文本处理装置，其特征在于，所述训练模块包括：

收集单元，用于收集领域无关的语料；

负面样本单元，用于将所述领域无关的语料作为负面样本；以及

输入单元，用于将所述负面样本作为输入训练含有领域知识的文本分类器。

9.根据权利要求6所述的文本处理装置，其特征在于，还包括：样本补充模块，所述样本补充模块包括：

正面样本提取单元，用于将提取出的正面样本作为含有预设领域知识的文本；

样本补充单元，用于对得到的所述含有预设领域知识的文本执行如下任意一种的操作：

10.根据权利要求6所述的文本处理装置，其特征在于，所述正负样本模块包括：

第一负面样本处理单元，用于将所述预设领域问答对中的问题作为负面样本，将预设领域问答对中的答案作为正面样本；

第二负面样本处理单元，用于将所述预设领域词汇中不包含专业词汇的语料作为负面样本；以及

样本区分处理单元，将预设领域文本语料中问题作为负面样本，将预设领域文本语料中答案作为正面样本，将不含有专业词汇的语料作为负面样本。