CN112084338A

CN112084338A - 一种文档自动归类方法、系统、计算机设备及存储介质

Info

Publication number: CN112084338A
Application number: CN202010983960.XA
Authority: CN
Inventors: 侯聪; 陈运文; 纪达麒; 韩伟; 白良俊; 文敏
Original assignee: Daguan Data Chengdu Co ltd
Current assignee: Daguan Data Chengdu Co ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-15
Anticipated expiration: 2040-09-18
Also published as: CN112084338B

Abstract

本发明公开了一种文档自动归类方法、系统、计算机设备及存储介质，其中文档自动归类方法先根据相似文本数据训练语言模型：分为两个层次的预训练，首先通过未标注文本数据训练语言模型，然后根据标注数据即相似文本数据，在所述语言模型的基础上训练得到语义编码器；再基于语义编码器进行归档分类：采用最近邻的思想，基于所述语义编码器，使用无监督的方法在小数据集上对文本进行归类。本发明在大量通用领域数据上训练通用的语义编码器，可以有效编码语义，在新的实际场景的极小数据集上可以不另行训练，避免过拟合现象导致泛化能力差。增删文档或修改分类体系只需要对涉及的文档或分类进行变更操作后即可生效，不需要重新训练模型，时效性好。

Description

一种文档自动归类方法、系统、计算机设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种文档自动归类方法、系统、计算机设备及存储介质。

背景技术

文档归类系统属于文本分类应用，其通过模型将输入文本自动归类为某个分类下。文档归类常常应用于特定的较为狭窄的专业领域中，因而面对以下两种问题：

1.标注数据少。很多领域应用由于专业性较强或保密要求等因素，在公开领域中很难收集数据，在应用时，部分类别甚至只有几篇文档；

2.在实际应用中，用户在使用过程中会动态增删数据甚至改变分类体系。

普通的基于监督学习分类的分类模型如Fasttext、textCNN及基于BERT的文本分类应用均采用同一个模式：针对一个分类体系获取训练数据，然后训练模型，训练结束后方可进行文档分类的预测。在拥有充分标注数据的场景下，此方案是适用的；但这样的方案直接应用于标注数据稀少的专业领域内的文档归类则存在下列不足：

1.在小数据量情况下极容易过拟合，造成模型泛化能力下降，预测效果差；

2.在动态增删数据或分类体系的情况下需要频繁训练更改模型，对硬件造成很大压力。

发明内容

为了解决上述问题，本发明提出一种文档自动归类方法、系统、计算机设备及存储介质，将泛化能力强的基于大量数据的预训练模型语义模型应用在小数据场景，避免过拟合；同时应用了最近邻聚类的思想寻找分类，避免在实际应用中频繁重新训练模型。

本发明的一种文档自动归类方法，包括以下步骤：

S1.根据相似文本数据训练语言模型：分为两个层次的预训练，首先通过未标注文本数据训练语言模型，然后根据标注数据即相似文本数据，在所述语言模型的基础上训练得到语义编码器；

S2.基于语义编码器进行归档分类：采用最近邻的思想，基于所述语义编码器，使用无监督的方法在小数据集上对文本进行归类。

进一步的，步骤S1包括以下子步骤：

S101.采用未标注文本数据进行训练：选择基于自注意力架构的语言模型，在未标注文本数据上用所述语言模型进行训练，使所述语言模型学习到目标语言的常识；

S102.采用相似文本数据进行训练：获取通用领域的相似文本数据，形成包括锚点文本和相似文本的相似文本对，针对每一个相似文本对，在语料库中随机取一个不相似文本，组成一条包括锚点文本、相似文本和不相似文本的训练数据，使锚点文本与相似文本在语义上是相关的，且与不相似文本在语义上是不相关的；将若干条所述训练数据基于所述语言模型进行训练，锚点文本、相似文本和不相似文本分别输入同一个所述语言模型，并分别得到表征各自语义的向量V_a,V_p,V_n，然后计算三元损失函数，得到损失并以此再训练所述语言模型得到语义编码器。

进一步的，所述三元损失函数的表达式如下：

loss＝max{||V_a-V_p||₂-||V_a-V_n||₂+margin，0}

其中，loss为损失，||V_a-V_p||₂表示V_a和V_p在空间中的距离，||V_a-V_n||₂表示V_a和V_n在空间中的距离，margin为常数，表示一个期望的空间距离；所述三元损失函数会拉近锚点文本与相似文本的距离，疏远锚点文本与不相似文本间的距离。

进一步的，所述语义编码器能够学习到为文本进行语义编码的能力，即越相似的文本经过所述语义编码器编码得到的语义向量在空间中距离越近，反之则在空间中越远。

进一步的，所述获取通用领域的相似文本数据包括：通过爬虫爬取网站的相似文本推荐信息。

进一步的，步骤S2包括以下子步骤：

S201.构建分类体系并给每个分类上传若干文档：将文档按分类上传至所述语义编码器，所述语义编码器将每个文档都编码得到语义向量，并按照分类体系存入向量数据库；每个分类下的语义向量构成一个向量集合，计算出此向量集合的簇中心作为此分类的特征向量；

S202.新文档归类：使用者上传待归类文档，通过所述语义编码器进行语义向量编码，得到待归类文档的语义向量；在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量，将待归类文档归为该特征向量所对应的分类。

进一步的，使用者能够对分类体系或分类下的文档进行修改，修改后的分类的特征向量会相应改变。

本发明的一种文档自动归类系统，包括语义编码器、向量数据库和向量检索模块；

所述语义编码器，根据未标注文本数据和相似文本数据先后在语言模型的基础上训练得到，用于将已分类文档编码得到的语义向量按照分类体系存入所述向量数据库，以及将待归类文档编码得到的语义向量输出至所述向量检索模块；

所述向量数据库中，每个分类下的语义向量构成一个向量集合，此向量集合的簇中心作为此分类的特征向量；

所述向量检索模块，用于在所述向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量，并将待归类文档归为该特征向量所对应的分类。

进一步的，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述文档自动归类方法的步骤。

进一步的，一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述文档自动归类方法的步骤。

本发明的有益效果在于：

1.本发明的文档自动归类方法中，第一步是离线进行的，通过两阶段的预训练得到一个能充分表征文本语义特征的语义编码器，大量的模型训练计算是在此步骤中离线进行的；第二步是在线进行的，通过最近邻的思想，使用无监督的方法在小数据集上对文本进行归类，同时在线部分由于采用了无监督的方法，可减轻硬件的压力。

2.本发明在大量通用领域数据上训练通用的语义编码器，可以有效编码语义，在新的实际场景的极小数据集上可以不另行训练，避免过拟合现象导致泛化能力差。

3.本发明增删文档或修改分类体系只需要对涉及的文档或分类进行变更操作后即可生效，不需要重新训练模型，时效性好，且对硬件要求低。

附图说明

图1是本发明实施例中训练数据基于语言模型进行训练的示意图；

图2是本发明实施例中基于语义编码器进行归档分类的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供了一种文档自动归类方法，包括以下步骤：

S1.根据相似文本数据训练语言模型：分为两个层次的预训练，首先通过未标注文本数据训练语言模型，然后根据标注数据即相似文本数据，在语言模型的基础上训练得到语义编码器；

S2.基于语义编码器进行归档分类：采用最近邻的思想，基于语义编码器，使用无监督的方法在小数据集上对文本进行归类。

其中，步骤S1是离线进行的，通过两阶段的预训练得到一个能充分表征文本语义特征的语义编码器，大量的模型训练计算是在此步骤中离线进行的；第二步是在线进行的，通过最近邻的思想，使用无监督的方法在小数据集上对文本进行归类，同时在线部分由于采用了无监督的方法，可减轻硬件的压力。

具体的，步骤S1包括以下子步骤：

S101.采用未标注文本数据进行训练：选择基于自注意力架构的语言模型，在未标注文本数据上用语言模型进行训练，使语言模型学习到目标语言的常识；

S102.采用相似文本数据进行训练：获取通用领域的相似文本数据(例如，通过爬虫爬取网站的相似文本推荐信息)，形成包括锚点文本和相似文本的相似文本对，针对每一个相似文本对，在语料库中随机取一个不相似文本，组成一条包括锚点文本、相似文本和不相似文本的训练数据，使锚点文本与相似文本在语义上是相关的，且与不相似文本在语义上是不相关的；将若干条训练数据基于语言模型进行训练，如图1所示，锚点文本、相似文本和不相似文本分别输入同一个语言模型(图1中指语义编码器)，并分别得到表征各自语义的向量V_a,V_p,V_n，然后计算三元损失函数，得到损失并以此再训练语言模型得到语义编码器。

例如，有一对相似文本A、B，A和B之间语义上是相似的，然后有一个随机抽取的文本C，C和A、B两个文本都没有语义上相似的关系。这样就可以以A为锚点文本，在训练过程中依靠三元损失函数，将B文本(语义和A相似)的编码向量靠近A的向量，将C文本(语义和A不相似)的编码向量远离A。在这个过程中，A文本作为基准起到了“锚点″的作用。与此同理，B文本也可以作为锚点文本。

更为具体的，三元损失函数可参考如下表达式：

loss＝max{||V_a-V_p||2-||V_a-V_n||₂+margin，0}}

其中，loss为损失，a代表锚点文本(anchor)，p代表与锚点文本相似的文本(positive)，n代表与锚点文本不相似的文本(negative)，V_a,V_p,V_n分别代表三个文本通过编码器后得到的语义向量。||||₂表示某个向量的2-范数，因而||V_a-V_p||₂表示V_a和V_p在空间中的距离，||V_a-V_n||₂表示V_a和V_n在空间中的距离；margin是一个常数，表示一个期望的空间距离。优化整个三元损失函数的意思是，期望V_a和V_p的距离要大于V_a和V_n的距离，且两者差值最好超过margin。

三元损失函数会拉近锚点文本与相似文本的距离，疏远锚点文本与不相似文本间的距离。因此，语义编码器能够学习到为文本进行语义编码的能力，即越相似的文本经过语义编码器编码得到的语义向量在空间中距离越近，反之则在空间中越远。

具体的，如图2所示，步骤S2包括以下子步骤：

S201.构建分类体系并给每个分类上传若干文档：将文档按分类上传至语义编码器，语义编码器将每个文档都编码得到语义向量，并按照分类体系存入向量数据库；每个分类下的语义向量构成一个向量集合，计算出此向量集合的簇中心作为此分类的特征向量；

S202.新文档归类：使用者上传待归类文档，通过语义编码器进行语义向量编码，得到待归类文档的语义向量；在向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量，将待归类文档归为该特征向量所对应的分类。

可选的，使用者能够对分类体系或分类下的文档进行修改，修改后的分类的特征向量会相应改变。

此外，本实施例提供了一种文档自动归类系统，包括语义编码器、向量数据库和向量检索模块，其中：

语义编码器，根据未标注文本数据和相似文本数据先后在语言模型的基础上训练得到，用于将已分类文档编码得到的语义向量按照分类体系存入向量数据库，以及将待归类文档编码得到的语义向量输出至向量检索模块；

向量数据库中，每个分类下的语义向量构成一个向量集合，此向量集合的簇中心作为此分类的特征向量；

向量检索模块，用于在向量数据库中搜索离待归类文档的语义向量空间距离最近的特征向量，并将待归类文档归为该特征向量所对应的分类。

本实施例又提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述文档自动归类方法的步骤。

本实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述文档自动归类方法的步骤。

实施例2

本实施例在实施例1的基础上：

本实施例的文档自动归类方法包括以下两个阶段：

一、系统准备阶段

1.在网络上爬取大量文本，训练基于自注意力架构的语言模型。

2.在各类网站爬取大量相关问句、相关文档数据，再通过随机采样的方式构成相似文本训练数据。

3.通过大量相似文本训练数据，基于语言模型来训练得到语义编码器。

二、实施阶段

假设在用户场景下，文档可分为两类，分别为财务类和人事类文档，但分别只有三篇样例数据，实施方法如下：

1.系统将财务类三篇文档经语义编码器转化为语义向量，并计算出三个向量的簇中心向量vector_accounting，存入向量数据库。对人事类文档进行同样操作，得到人事类文档的代表向量vector_hr。经过此步骤后分类体系完成构建。

2.用户新进一篇文档D，上传至系统。D经语义编码器转化为语义向量，若通过向量搜索的方式得到距离最近的类别向量为vector_hr，系统就会将文档D归入人事类文档。

可选的，如果用户有了一类新的文档，例如报告类文档，有两篇样例数据，实施方法如下：

用户新建分类并上传样例后，语义编码器将两篇样例数据转化为语义向量，计算出两个向量的簇中心vector_report，存入向量数据库。之后用户新上传待归类文档后，进行归类时便会将报告类也加入考虑范围。

可选的，如果用户对已有分类文档有增删，实施方法如下：

1.用户删除财务类文档中的一篇，系统将自动计算财务类剩余文档语义向量的簇中心，得到新的vector_accounting，存入向量数据库。之后新文档归类时，将由新的vector_accounting代表财务类文档。

2.用户新增加一篇财务类文档，语义编码器将新文档转化为语义向量，系统将自动计算包含新增文档的财务类所有文档语义向量的簇中心，得到新的vector_accounting，存入向量数据库。之后新文档归类时，将由新的vector_accounting代表财务类文档。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种文档自动归类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种文档自动归类方法，其特征在于，步骤S1包括以下子步骤：

3.根据权利要求2所述的一种文档自动归类方法，其特征在于，所述三元损失函数的表达式如下：

loss＝max{||V_a-V_p||₂-||V_a-V_n||₂+margin，0}

4.根据权利要求3所述的一种文档自动归类方法，其特征在于，所述语义编码器能够学习到为文本进行语义编码的能力，即越相似的文本经过所述语义编码器编码得到的语义向量在空间中距离越近，反之则在空间中越远。

5.根据权利要求2所述的一种文档自动归类方法，其特征在于，所述获取通用领域的相似文本数据包括：通过爬虫爬取网站的相似文本推荐信息。

6.根据权利要求1所述的一种文档自动归类方法，其特征在于，步骤S2包括以下子步骤：

7.根据权利要求6所述的一种文档自动归类方法，其特征在于，使用者能够对分类体系或分类下的文档进行修改，修改后的分类的特征向量会相应改变。

8.一种文档自动归类系统，其特征在于，包括语义编码器、向量数据库和向量检索模块；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。