CN111813941A

CN111813941A - 结合rpa和ai的文本分类方法、装置、设备及介质

Info

Publication number: CN111813941A
Application number: CN202010718676.XA
Authority: CN
Inventors: 汪冠春; 胡一川; 莫晓晔
Original assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Current assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-23

Abstract

本发明实施例公开一种结合RPA和AI的文本分类方法、装置、设备及介质。该方法包括：获取待分类文本；根据预先训练得到的预训练词表，确定待分类文本中包括的每个目标分词对应的目标词向量；将包括各目标词向量的待分类文本输入预先训练得到的分类模型中，得到待分类文本对应的文本类型。应用本发明实施例提供的方案，能够基于预先训练得到的分类模型对待分类文本进行分类，整个文本分类过程不需要人工参与，进而能够提高文本分类的效率。并且，对待分类文本进行分类时，与直接使用待分类文本中的分词进行文本分类相比，目标词向量能够更准确的体现出各分词之间的关系，从而能够提高文本分类的准确性。

Description

结合RPA和AI的文本分类方法、装置、设备及介质

技术领域

本发明涉及文本分类技术领域，具体而言，涉及一种结合RPA和AI的的文本分类方法、装置、设备及介质。

背景技术

机器人流程自动化(Robotic Process Automation)简称RPA，是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

AI(Artificial Intelligence)是人工智能的英文缩写，它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

RPA具有独特的优势：低代码、非侵入。低代码是说，RPA不需要很高的IT水平就能操作，不懂编程的业务人员也能开发流程；非侵入是说，RPA 可以模拟人的操作，不用软件系统开放接口。但是传统的RPA具有一定的局限性：只能基于固定的规则，并且应用场景受限。随着AI技术的不断发展， RPA与AI深度融合克服了传统RPA的局限，RPA+AI＝Hand work+Head work，正在极大的改变劳动力的价值。

在实际应用中，通常需要对各种文本进行分类，如各种类型的合同、票据、稿件、需求信息、线索信息等。已知的方法中，通常为用户对文本内容进行读取之后，根据文本内容对文本进行分类，该分类过程比较繁琐，文本分类效率低。因此，为了提高文本分类效率，亟需一种文本分类方法。

发明内容

本发明提供了一种结合RPA和AI的文本分类方法、装置、设备及介质，以提高文本分类的效率。具体的技术方案如下。

第一方面，本发明实施例提供一种结合RPA和AI的文本分类方法，所述方法包括：

S1、获取待分类文本；

S2、根据预先训练得到的预训练词表，确定所述待分类文本中包括的每个目标分词对应的目标词向量；所述预训练词表中包括各分词与各预训练词向量的对应关系；

S3、将包括各所述目标词向量的所述待分类文本输入预先训练得到的分类模型中，得到所述待分类文本对应的文本类型；所述分类模型为根据各样本文件，以及所述各样本文件对应的文本类型训练得到的。

可选的，所述步骤S2具体包括：

S21、对所述待分类文本进行分词处理，得到所述待分类文本中包括的每个目标分词；

S22、获取预先训练得到的预训练词表；依次在所述预训练词表中查找所述每个目标分词对应的预训练词向量，得到所述待分类文本中包括的每个目标分词对应的目标词向量。

可选的，所述预训练词表的训练过程包括：

S4、获取源数据；

S5、将所述源数据输入预训练模型中，对所述预训练模型进行无监督训练，得到所述源数据对应的预训练词表；所述预训练词表的维数为A*B，所述A为所述预训练词表中包括的分词数量，所述B为所述预训练词表中包括的每个分词对应的预训练词向量的维数，所述B大于预设数量阈值。

可选的，所述步骤S4之后，还包括：

S6、将所述源数据中与预设正则表达式相匹配的字符替换为预设标记；

S7、剔除所述源数据中的非中文字符。

可选的，所述步骤S2之后，还包括：

S8、将所述目标分词存储至预设存储位置，并判断所述预设存储位置所存储的目标分词的数量是否大于预设阈值；

S9、在所述存储位置所存储的目标分词的数量大于所述预设阈值时，将所述预设存储位置所存储的目标分词和所述源数据输入所述预训练模型中，对所述预训练模型进行无监督训练，得到当前词表；

S10、获取多个测试文本，通过各所述测试文本确定所述当前词表和所述预训练词表的准确性，在所述当前词表的准确性大于所述预训练词表时，使用所述当前词表更新所述预训练词表。

可选的，所述步骤S10具体包括：

S101、获取多个测试文本，根据所述预训练词表确定各所述测试文本对应的预训练测试词向量，根据所述当前词表确定各所述测试文本对应的当前测试词向量；

S102、将包括各所述预训练测试词向量的各所述测试文本输入所述分类模型中，得到各所述测试文本对应的预训练测试类型；将包括各所述当前测试词向量的各所述测试文本输入所述分类模型中，得到各所述测试文本对应的当前测试类型；

S103、根据各所述测试文本的预训练测试类型和当前测试类型，以及各所述测试文本的标注类型，确定所述当前词表和所述预训练词表的准确性，在所述当前词表的准确性大于所述预训练词表时，使用所述当前词表更新所述预训练词表。

可选的，所述步骤S103具体包括：

S1031、根据各所述测试文本的预训练测试类型，以及各所述测试文本的标注类型，计算所述预训练词表对应的第一准确率和第一召回率，根据所述第一准确率和第一召回率计算所述预训练词表对应的第一准确性；

S1032、根据各所述测试文本的当前测试类型，以及各所述测试文本的标注类型，计算所述当前词表对应的第二准确率和第二召回率，根据所述第二准确率和第二召回率计算所述当前词表对应的第二准确性；

S1033、在所述第二准确性大于所述第一准确性时，使用所述当前词表更新所述预训练词表。

可选的，所述分类模型的训练过程包括：

S11、获取样本文件，并确定各所述样本文件的标注类型；

S12、根据所述预训练词表，确定各所述样本文件中包括的每个样本分词对应的样本词向量；

S13、根据包括各对应样本词向量的各所述样本文件，训练得到所述分类模型。

可选的，所述步骤S13具体包括：

S131、构建初始网络模型；

S132、接收输入的所述初始网络模型中预定参数的取值；

S133、将包括各对应样本词向量的各所述样本文件输入所述初始网络模型中，所述初始网络模型预测得到各所述样本文件的预测类型，当根据各所述样本文件的预测类型和标注类型计算得到的损失函数的取值满足预设要求时，将当前的初始网络模型作为所述分类模型。

可选的，所述预定参数包括：ngram、subword_ngram和学习率。

可选的，所述步骤S13之后，还包括：

S11、将所述分类模型的压缩方式设定为多线程压缩。

第二方面，本发明实施例提供一种结合RPA和AI的文本分类装置，所述装置包括：

文本获取模块，用于获取待分类文本；

向量确定模块，用于根据预先训练得到的预训练词表，确定所述待分类文本中包括的每个目标分词对应的目标词向量；所述预训练词表中包括各分词与各预训练词向量的对应关系；

文本分类模块，用于将包括各所述目标词向量的所述待分类文本输入预先训练得到的分类模型中，得到所述待分类文本对应的文本类型；所述分类模型为根据各样本文件，以及所述各样本文件对应的文本类型训练得到的。

可选的，所述向量确定模块具体包括：

文本分词子模块，用于对所述待分类文本进行分词处理，得到所述待分类文本中包括的每个目标分词；

向量查找子模块，用于获取预先训练得到的预训练词表；依次在所述预训练词表中查找所述每个目标分词对应的预训练词向量，得到所述待分类文本中包括的每个目标分词对应的目标词向量。

可选的，所述装置还包括：

源数据获取模块，用于获取源数据；

词表训练模块，用于将所述源数据输入预训练模型中，对所述预训练模型进行无监督训练，得到所述源数据对应的预训练词表；所述预训练词表的维数为A*B，所述A为所述预训练词表中包括的分词数量，所述B为所述预训练词表中包括的每个分词对应的预训练词向量的维数，所述B大于预设数量阈值。

可选的，所述装置还包括：

字符替换模块，用于将所述源数据中与预设正则表达式相匹配的字符替换为预设标记；

字符剔除模块，用于剔除所述源数据中的非中文字符。

可选的，所述装置还包括：

分词存储模块，用于将所述目标分词存储至预设存储位置，并判断所述预设存储位置所存储的目标分词的数量是否大于预设阈值；

当前词表训练模块，用于在所述存储位置所存储的目标分词的数量大于所述预设阈值时，将所述预设存储位置所存储的目标分词和所述源数据输入所述预训练模型中，对所述预训练模型进行无监督训练，得到当前词表；

词表更新模块，用于获取多个测试文本，通过各所述测试文本确定所述当前词表和所述预训练词表的准确性，在所述当前词表的准确性大于所述预训练词表时，使用所述当前词表更新所述预训练词表。

可选的，所述词表更新模块具体包括：

测试文本获取子模块，用于获取多个测试文本，根据所述预训练词表确定各所述测试文本对应的预训练测试词向量，根据所述当前词表确定各所述测试文本对应的当前测试词向量；

词表测试子模块，用于将包括各所述预训练测试词向量的各所述测试文本输入所述分类模型中，得到各所述测试文本对应的预训练测试类型；将包括各所述当前测试词向量的各所述测试文本输入所述分类模型中，得到各所述测试文本对应的当前测试类型；

词表更新子模块，用于根据各所述测试文本的预训练测试类型和当前测试类型，以及各所述测试文本的标注类型，确定所述当前词表和所述预训练词表的准确性，在所述当前词表的准确性大于所述预训练词表时，使用所述当前词表更新所述预训练词表。

可选的，所述词表更新子模块具体包括：

第一准确性计算子单元，用于根据各所述测试文本的预训练测试类型，以及各所述测试文本的标注类型，计算所述预训练词表对应的第一准确率和第一召回率，根据所述第一准确率和第一召回率计算所述预训练词表对应的第一准确性；

第二准确性计算子单元，用于根据各所述测试文本的当前测试类型，以及各所述测试文本的标注类型，计算所述当前词表对应的第二准确率和第二召回率，根据所述第二准确率和第二召回率计算所述当前词表对应的第二准确性；

词表更新子单元，用于在所述第二准确性大于所述第一准确性时，使用所述当前词表更新所述预训练词表。

可选的，所述装置还包括：

样本文件获取模块，用于获取样本文件，并确定各所述样本文件的标注类型；

样本词向量确定模块，用于根据所述预训练词表，确定各所述样本文件中包括的每个样本分词对应的样本词向量；

分类模型训练模块，用于根据包括各对应样本词向量的各所述样本文件，训练得到所述分类模型。

可选的，所述分类模型训练模块具体包括：

模型构建子模块，用于构建初始网络模型；

参数接收子模块，用于接收输入的所述初始网络模型中预定参数的取值；

模型训练子模块，用于将包括各对应样本词向量的各所述样本文件输入所述初始网络模型中，所述初始网络模型预测得到各所述样本文件的预测类型，当根据各所述样本文件的预测类型和标注类型计算得到的损失函数的取值满足预设要求时，将当前的初始网络模型作为所述分类模型。

可选的，所述预定参数包括：ngram、subword_ngram和学习率。

可选的，所述装置还包括：

压缩方式设定模块，用于将所述分类模型的压缩方式设定为多线程压缩。

第三方面，本发明实施例提供一种计算设备，所述设备包括：

存储有可执行程序代码的存储器；

与存储器耦合的处理器；

其中，处理器调用存储器中存储的可执行程序代码，执行如上述第一方面所述的结合RPA和AI的文本分类方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的结合RPA和 AI的文本分类方法。

由上述内容可知，本发明实施例提供的一种结合RPA和AI的文本分类方法、装置、设备及介质，可以获取待分类文本；根据预先训练得到的预训练词表，确定所述待分类文本中包括的每个目标分词对应的目标词向量；所述预训练词表中包括各分词与各预训练词向量的对应关系；将包括各所述目标词向量的所述待分类文本输入预先训练得到的分类模型中，得到所述待分类文本对应的文本类型；所述分类模型为根据各样本文件，以及所述各样本文件对应的文本类型训练得到的，因此能够基于预先训练得到的分类模型对待分类文本进行分类，整个文本分类过程不需要人工参与，进而能够提高文本分类的效率。并且，对待分类文本进行分类时，根据预先训练得到的预训练词向量得到待分类文本中包括的目标词向量，与直接使用待分类文本中的分词进行文本分类相比，目标词向量能够更准确的体现出各分词之间的关系，从而能够提高文本分类的准确性。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括：

1、基于预先训练得到的分类模型对待分类文本进行分类，整个文本分类过程不需要人工参与，进而能够提高文本分类的效率。并且，对待分类文本进行分类时，根据预先训练得到的预训练词向量得到待分类文本中包括的目标词向量，与直接使用待分类文本中的分词进行文本分类相比，目标词向量能够更准确的体现出各分词之间的关系，从而能够提高文本分类的准确性。

2、根据获取到的源数据训练得到预训练词表，从而在进行文本分类时，基于预训练词表得到待分类文本中包括的各分词的目标词向量，能够提高文本分类的准确性。并且，在得到预训练词表时，预先将源数据中的格式字符、非中文字符等不影响文本类型的字符进行预处理，能够提高得到的预训练词表的准确性，进而提高文本分类的准确性。

3、随着后台数据的积累，对预训练词表进行迭代更新，并保留效果较好的词表作为预训练词表，可以不断扩充预训练词表中的预训练词向量，并提高预训练词向量的准确性，进而根据预训练词表进行文本分类时，可以提高文本分类的准确性。

4、通过样本文件和各样本文件的标注类型训练得到分类模型，在进行文本分类时，直接将待分类文本输入分类模型中即可得到待分类文本的文本类型，从而能够提高文本分类效率。并且，在进行分类模型的训练时，通过人工经验设置预定参数的取值，可以提高模型对于字词之间关系的判断能力，从而提高文本分类的准确性。

5、将分类模型的压缩方式设定为多线程压缩，能够缩短模型压缩所需要的时间，且不影响原有的分类性能，从而在保证文本分类准确性的同时，能够提高模型压缩效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的结合RPA和AI的文本分类方法的一种应用场景图；

图2为本发明实施例的结合RPA和AI的文本分类方法的一种流程示意图；

图3为本发明实施例的结合RPA和AI的文本分类方法的另一种流程示意图；

图4为本发明实施例的结合RPA和AI的文本分类方法的另一种流程示意图；

图5为本发明实施例提供的一种结合RPA和AI的文本分类装置的结构示意图。

图6为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本发明的描述中，术语“待分类文本”是指需要对其进行分类的文本，可以是任意类型的文件，如合同文件、各类票据等。

在本发明实施例中，术语“词向量”指各分词对应的向量表示。每个分词可以对应一个唯一的词向量，该词向量可以为多维向量，如80、90、100 等。可以理解，词向量维数越大越能精确的表示不同分词之间的关系，含义越相近的分词，对应的词向量相似度也更高。

在本发明实施例中，术语“预训练词表”指预先根据源数据训练得到的表格，该表格中存储了能识别的各分词以及对应的词向量。预训练词表的大小与能识别的分词的多少有关，一般情况下，源数据越多，预训练词表中包括的分词越多。

在本发明实施例中，术语“源数据”指用来训练预训练词表的数据，可以为从任意网站、文本等获取到的文件。如，可以为通过爬虫从知乎、维基百科、百度百科、豆瓣上等获取的数据。其中，本发明实施例不对每条数据的大小和类型不作限定。

本发明实施例公开了一种结合RPA和AI的文本分类方法、装置、设备及介质，能够提高文本分类的效率。下面对本发明实施例进行详细说明。

实施例一

在实际应用中，通常需要对各种文本进行分类，如各种类型的合同、票据、稿件、需求信息、线索信息等。可以理解，对文本进行分类时，主要是基于文本中包括的各分词确定文本的类型。具体的，可以基于各分词本身的含义，以及各分词之间的联系对文本进行分类。

在本发明实施例中，为了精确的表达各分词的含义，以及各分词之间的联系，可以以向量的形式对各分词进行表示。具体的，可以预先根据大量的源数据训练得到预训练词表，该预训练词表中包括了每个分词和对应的预训练词向量的对应关系。

例如，分词“个”对应的词向量可以为：0.02006 -0.052297 -0.23237 0.084660.39357 -0.0588 -0.079871 -0.068308 -0.13886 0.10297 -0.0036951 0.032636 -0.04256 0.30496 0.12588 -0.18988 0.098519 0.23836 -0.1818 -0.098116 0.0715850.13797 0.14222 0.021193 -0.39002 -0.17029 0.13526 -0.27892 0.14168 0.029180.28066 0.27849 -0.0064621 0.16307 -0.34215 -0.30927 -0.08463 0.247070.079299 -0.0059144 -0.20933 0.19228 -0.076586 0.18463 -0.0038603 -0.000620950.091785 -0.030001 -0.29798 -0.084736 0.13998 0.071183 0.0047327 -0.147060.23045 0.12891 0.055729 -0.10523 -0.21957 -0.15078 0.17956 0.19161 -0.10660.16379 0.16259 0.33645 0.41924 -0.045188 -0.16331 -0.1299 0.26547 0.0951190.18896 -0.30175 -0.028646 -0.1993 0.20171 0.2249 -0.1814 0.13401 0.494050.10628 0.3593 0.19071 -7.838e-05 0.066515 0.10093 0.2242 0.046187 -0.234670.038879 -0.11919 -0.31941 0.031349 0.32534 -0.45606 0.11832 -0.0940030.078512 -0.0022909 。

分词“子”对应的词向量可以为：0.066987 -0.43844 -0.33315 0.27381 0.19509-0.00093384 -0.0055012 0.24435 0.09033 0.18327 0.15575 0.15107 0.211250.13745 0.21228 -0.23477 0.092693 0.12312 -0.29542 -0.30669 0.16859 0.00672840.20842 0.12648 -0.56985 0.055336 -0.06175 -0.1828 0.18368 0.0054281 0.268610.28264 0.24614 0.26136 -0.016883 -0.13094 -0.27318 0.52338 -0.083754 -0.47113 -0.47099 0.1024 -0.097562 -0.039027 -0.12981 0.15087 -0.29196 -0.30685 -0.47284 -0.14948 0.099406 -0.075046 -0.18685 0.17373 0.0216360.01559 -0.1089 -0.16225 -0.049985 -0.1714 0.48772 -0.023861 -0.089420.013624 0.37374 0.053706 -0.058026 -0.32676 -0.16238 0.079858 0.32973 -0.079531 0.20104 -0.092976 0.043813 -0.09968 -0.032796 0.12874 0.0393370.12987 0.35307 -0.10859 0.16542 0.44761 0.067955 -0.095436 0.085382 -0.058796 0.23731 -0.12876 -0.15981 -0.15929 0.20774 0.083461 0.45605 -0.31022-0.17181 -0.27477 0.099572 0.20254。

图1为本发明实施例的结合RPA和AI的文本分类方法的一种应用场景图。如图1所示，可以根据用户上传的两组样本训练得到分类模型，其中一组样本对应文本类型为类别一，另一组样本对应文本类型为类别二。也就是说，用户已上传497个文本类型为类别一的样本，以及512个文本类型为类别二的样本，用来训练分类模型。当根据上述两组样本训练得到分类模型后，对待分类文本进行分类时，将待分类文本输入分类模型后，分类模型即可输出类别一对应的置信度，和类别二对应的置信度，置信度较高的类别即为待分类文本对应的类别。

其中，在训练分类模型时，所使用的为包括各词向量的样本文件，从而，在对文本进行分类时，可以首先通过预训练词表将待分类文本中的各分词更改为对应的词向量，可以称为目标词向量；之后将包含各目标词向量的待分类文本输入预先训练得到的分类模型中，即可得到待分类文本对应的文本类型。

实施例二

图2为本发明实施例提供的结合RPA和AI的文本分类方法的一种流程示意图。该方法应用于电子设备。该方法具体包括以下步骤。

S110：获取待分类文本。

在本发明实施例中，当需要对任意文本进行分类时，用户可以将该文本传输至电子设备的预定存储位置。当电子设备检测到该预定存储位置有新增文本时，即可将该新增文本作为待分类文本。其中，该待分类文本可以为任意类型的文本，如合同、票据、稿件、需求信息、线索信息等。

在一种实现方式中，用户可以在UiBot Mage平台中输入需要进行分类的文本，作为待分类文本。

S120：根据预先训练得到的预训练词表，确定待分类文本中包括的每个目标分词对应的目标词向量；预训练词表中包括各分词与各预训练词向量的对应关系。

可以理解，对文本进行分类时，主要是基于文本中包括的各分词确定文本的类型。具体的，可以基于各分词本身的含义，以及各分词之间的联系对文本进行分类。在本发明实施例中，为了精确的表达各分词的含义，以及各分词之间的联系，可以以向量的形式对各分词进行表示。具体的，可以预先根据大量的源数据训练得到预训练词表，该预训练词表中包括了每个分词和对应的预训练词向量的对应关系。

在一种实现方式中，电子设备确定待分类文本中包括的每个目标分词对应的目标词向量时，可以首先对待分类文本进行分词处理，得到待分类文本中包括的每个目标分词；之后获取预先训练得到的预训练词表，并依次在预训练词表中查找每个目标分词对应的预训练词向量，得到待分类文本中包括的每个目标分词对应的目标词向量。

具体的，电子设备可以采用任一种已知的方法对待分类文本进行分词处理，得到待分类文本中包括的每个分词，可以称为目标分词。

S130：将包括各目标词向量的待分类文本输入预先训练得到的分类模型中，得到待分类文本对应的文本类型；分类模型为根据各样本文件，以及各样本文件对应的文本类型训练得到的。

卷积神经网络模型具有运算速度快以及计算准确等特点。在本发明实施例中，为了提高文本分类的效率和准确性，可以预先根据各样本文件，以及各样本文件对应的文本类型训练得到分类模型。

上述分类模型可以为卷积神经网络模型，卷积神经网络是一种前馈神经网络，卷积神经网络中的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型数据处理有出色表现。卷积神经网络一般由卷积层、池化层、非线性层和全连接层等网络层组成。当然，本实施例中的分类模型还可以为全卷积神经网络模型，即不包含全连接层的卷积神经网络，本发明实施例不对分类模型的类型和/或结构作限定。

如可以采用已知的任一种方法对预设的神经网络模型进行训练，本发明实施例对此不做限定。具体的分类模型的训练过程，可以在已有的深度学习网络平台上进行，也可以通过搭建的程序框架实现，这里不做限定。

训练得到分类模型后，对待分类文本进行分类时，确定待分类文本中包括的各分词对应的目标词向量后，将包括各目标词向量的待分类文本输入预先训练得到的分类模型中，分类模型即可输出待分类文本对应的文本类型。

在一种实现方式中，分类模型可以输出多种文本类型对应的权重，电子设备可以将权重最高的文本类型作为待分类文本的文本类型。

由上述内容可知，本实施例可以基于预先训练得到的分类模型对待分类文本进行分类，整个文本分类过程不需要人工参与，进而能够提高文本分类的效率。并且，对待分类文本进行分类时，根据预先训练得到的预训练词向量得到待分类文本中包括的目标词向量，与直接使用待分类文本中的分词进行文本分类相比，目标词向量能够更准确的体现出各分词之间的关系，从而能够提高文本分类的准确性。

实施例三

如图3所示，其示出了本发明实施例的结合RPA和AI的文本分类方法的另一种流程示意图，也即预训练词表的训练过程，该过程可以包括以下步骤。

S210：获取源数据。

例如，可以通过爬虫从知乎、维基百科、百度百科、豆瓣上获取数据，如可以获取约1000万条数据作为源数据。

可以理解，决定文本类型的为文本中的中文分词，其他格式字符和非中文字符对文本类型没有影响。因此，在本发明实施例中，为了提高预训练词表的准确性和训练效率，电子设备在获取到源数据后，可以对源数据进行处理。例如，可以将源数据中与预设正则表达式相匹配的字符替换为预设标记；剔除源数据中的非中文字符。上述预设标记可以为任意标志，本发明实施例对此不作限定。

其中，上述预设正则表达式可以为网址、邮箱、日期、电话号码、整数、浮点数和序号对应的正则表达式，与预设正则表达式相匹配的字符的位数可以为一位或多位。在一种实现方式中，电子设备可以预先设定多种正则表达式，获取到源数据后，在源数据中查找是否存在与设定的任一正则表达式相匹配的字符，当查找到时，即可将其替换为预设标记。

S220：将源数据输入预训练模型中，对预训练模型进行无监督训练，得到源数据对应的预训练词表；预训练词表的维数为A*B，A为预训练词表中包括的分词数量，B为预训练词表中包括的每个分词对应的预训练词向量的维数，B大于预设数量阈值。

例如，电子设备可以采用已知的任一种模型训练方法，训练得到预训练词表，本发明实施例不对此做限定。在一种实现方式中，电子设备训练得到的词表大小可以为11651，其中各分词对应的预训练词向量维度可以为100。

根据获取到的源数据训练得到预训练词表，从而在进行文本分类时，基于预训练词表得到待分类文本中包括的各分词的目标词向量，能够提高文本分类的准确性。并且，在得到预训练词表时，预先将源数据中的格式字符、非中文字符等不影响文本类型的字符进行预处理，能够提高得到的预训练词表的准确性，进而提高文本分类的准确性。

可以理解，在实际应用中，文本中各分词出现的概率并不相同，会存在出现概率较高的常用词和出现概率较低的生僻词。因此，在获取源数据时，可能会出现一些生僻词未包含在源数据中的情况，也就是说，预训练词表中可能未包括所有的分词。

作为本发明实施例的一种实施方式，为了对预训练词表进行扩充，进一步提高文本分类的准确性，可以对预训练词表进行更新。例如，可以在数据积累达到一定规模后，将新数据与原先通过爬虫获取的数据相融合重新训练词表，并在自建的几个文本长度不同、数据量不同的数据集上进行评估，保留效果较好的词表，替换原预训练词向量。

具体的，可以在对待分类文本进行分类时，得到目标分词后，将目标分词存储至预设存储位置，并判断预设存储位置所存储的目标分词的数量是否大于预设阈值；在存储位置所存储的目标分词的数量大于预设阈值时，将预设存储位置所存储的目标分词和源数据输入预训练模型中，对预训练模型进行无监督训练，得到当前词表；并获取多个测试文本，通过各测试文本确定当前词表和预训练词表的准确性，在当前词表的准确性大于预训练词表时，使用当前词表更新预训练词表。

上述预设阈值可以根据实际情况而定，本发明实施例不对其具体取值作限定。训练当前词表的方法可以与上述训练预训练词表的方法相同或不同，这都是合理的。

确定当前词表和预训练词表的准确性时，在一种实现方式中，电子设备可以获取多个测试文本，根据预训练词表确定各测试文本对应的预训练测试词向量，根据当前词表确定各测试文本对应的当前测试词向量；将包括各预训练测试词向量的各测试文本输入分类模型中，得到各测试文本对应的预训练测试类型；将包括各当前测试词向量的各测试文本输入分类模型中，得到各测试文本对应的当前测试类型；根据各测试文本的预训练测试类型和当前测试类型，以及各测试文本的标注类型，确定当前词表和预训练词表的准确性，在当前词表的准确性大于预训练词表时，使用当前词表更新预训练词表。

其中，当前词表和预训练词表的准确性可以根据各自对应的文本分类准确率和召回率确定。例如，电子设备可以根据各测试文本的预训练测试类型，以及各测试文本的标注类型，计算预训练词表对应的第一准确率和第一召回率，根据第一准确率和第一召回率计算预训练词表对应的第一准确性；根据各测试文本的当前测试类型，以及各测试文本的标注类型，计算当前词表对应的第二准确率和第二召回率，根据第二准确率和第二召回率计算当前词表对应的第二准确性；在第二准确性大于第一准确性时，使用当前词表更新预训练词表。

也就是说，可以计算当前词表和预训练词表对应的F1值：

F1＝(2*准确率*召回率)/(准确率+召回率)

在当前词表对应的F1值大于预训练词表对应的F1值时，表明使用当前词表进行文本分类时，分类准确性大于使用预训练词表进行文本分类的准确性，这种情况下，可以使用当前词表更新预训练词表。

随着后台数据的积累，对预训练词表进行迭代更新，并保留效果较好的词表作为预训练词表，可以不断扩充预训练词表中的预训练词向量，并提高预训练词向量的准确性，进而根据预训练词表进行文本分类时，可以提高文本分类的准确性。

实施例四

如图4所示，其示出了本发明实施例的结合RPA和AI的文本分类方法的另一种流程示意图，也即分类模型的训练过程，该过程包括以下步骤。

S310：获取样本文件，并确定各样本文件的标注类型。

例如，可以由用户输入样本文件，以及各样本文件的标注类型。其中，用户每输入一组样本文件，可以训练得到一个对应的分类模型，该分类模型即可对该组样本文件对应的文件类型进行分类。

S320：根据预训练词表，确定各样本文件中包括的每个样本分词对应的样本词向量。

在一种实现方式中，电子设备确定各样本文件中包括的每个样本分词对应的样本词向量时，可以首先对各样本文件进行分词处理，得到各样本文件中包括的每个样本分词；之后获取预先训练得到的预训练词表，并依次在预训练词表中查找每个样本分词对应的预训练词向量，得到各样本文件中包括的每个样本分词对应的样本词向量。

S330：根据包括各对应样本词向量的各样本文件，训练得到分类模型。

其中，上述分类模型可以为卷积神经网络模型，卷积神经网络是一种前馈神经网络，卷积神经网络中的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型数据处理有出色表现。卷积神经网络一般由卷积层、池化层、非线性层和全连接层等网络层组成。当然，本实施例中的分类模型还可以为全卷积神经网络模型，即不包含全连接层的卷积神经网络，本发明实施例不对分类模型的类型和/或结构作限定。

在一种实现方式中，分类模型的训练过程可以包括：构建初始网络模型；接收输入的初始网络模型中预定参数的取值；将包括各对应样本词向量的各样本文件输入初始网络模型中，初始网络模型预测得到各样本文件的预测类型，当根据各样本文件的预测类型和标注类型计算得到的损失函数的取值满足预设要求时，将当前的初始网络模型作为分类模型。

上述预定参数可以包括：ngram、subword_ngram和学习率。其中，ngram 参数适用来计算分词间关系，而subword_ngram适用来计算分词内字之间的字关系，通过设置这两个参数，可以提高模型对于字词之间关系的判断能力。结合中文汉字的规律，通常是两个字或四个字的词语，设置合适的数值。学习率和训练时期具有对应关系，使用较小的学习率应配合较大的训练时期，使得整个训练过程的损失函数取值更加平滑；较小的学习率能够使得模型在训练的过程中更加精细，有助于模型训练最终收敛到全局的最小值，但是会花费更多时间，因此需要配合较大的训练时期，以提供给模型更长的时间和迭代去训练。

上述损失函数可以为：

K代表文本类型总数；e代表数学常数；x代表样本词向量；x^T代表样本词向量的转置；W代表样本词向量的权重。

通过样本文件和各样本文件的标注类型训练得到分类模型，在进行文本分类时，直接将待分类文本输入分类模型中即可得到待分类文本的文本类型，从而能够提高文本分类效率。并且，在进行分类模型的训练时，通过人工经验设置预定参数的取值，可以提高模型对于字词之间关系的判断能力，从而提高文本分类的准确性。

在一种实现方式中，训练得到分类模型后，还可以将分类模型的压缩方式设定为多线程压缩。具体的，通过修改源代码，可以将原先的单线程压缩逻辑进行优化，提升为多线程。在多线程的优化下，可将原模型在数秒之内将空间从GB级别降至MB级别，并保留模型分类的性能。

将分类模型的压缩方式设定为多线程压缩，能够缩短模型压缩所需要的时间，且不影响原有的分类性能，从而在保证文本分类准确性的同时，能够提高模型压缩效率。

实施例五

如图5所示，其示出了本发明实施例提供的一种结合RPA和AI的文本分类装置的结构示意图，该装置包括：

文本获取模块410，用于获取待分类文本；

向量确定模块420，用于根据预先训练得到的预训练词表，确定所述待分类文本中包括的每个目标分词对应的目标词向量；所述预训练词表中包括各分词与各预训练词向量的对应关系；

文本分类模块430，用于将包括各所述目标词向量的所述待分类文本输入预先训练得到的分类模型中，得到所述待分类文本对应的文本类型；所述分类模型为根据各样本文件，以及所述各样本文件对应的文本类型训练得到的。

可选的，所述向量确定模块420具体包括：

可选的，所述装置还包括：

源数据获取模块，用于获取源数据；

可选的，所述装置还包括：

字符剔除模块，用于剔除所述源数据中的非中文字符。

可选的，所述装置还包括：

可选的，所述词表更新模块具体包括：

可选的，所述词表更新子模块具体包括：

可选的，所述装置还包括：

可选的，所述分类模型训练模块具体包括：

模型构建子模块，用于构建初始网络模型；

可选的，所述预定参数包括：ngram、subword_ngram和学习率。

可选的，所述装置还包括：

由上述内容可知，本发明实施例能够基于预先训练得到的分类模型对待分类文本进行分类，整个文本分类过程不需要人工参与，进而能够提高文本分类的效率。并且，对待分类文本进行分类时，根据预先训练得到的预训练词向量得到待分类文本中包括的目标词向量，与直接使用待分类文本中的分词进行文本分类相比，目标词向量能够更准确的体现出各分词之间的关系，从而能够提高文本分类的准确性。

上述装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。

实施例六

请参阅图6，图6是本发明实施例提供的一种计算设备的结构示意图。如图6所示，该计算设备可以包括：

存储有可执行程序代码的存储器701；

与存储器701耦合的处理器702；

其中，处理器702调用存储器701中存储的可执行程序代码，执行本发明任意实施例所提供的结合RPA和AI的文本分类方法。

该计算设备实施例与上述方法实施例是基于同一发明构思得到的实施例，相关之处可以相互参照。上述计算设备实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行本发明任意实施例所提供的结合RPA和AI的文本分类方法。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

该存储介质实施例与上述方法实施例是基于同一发明构思得到的实施例，相关之处可以相互参照。上述存储介质实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种结合RPA和AI的文本分类方法，其特征在于，所述方法包括：

S1、获取待分类文本；

2.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求1所述的方法，其特征在于，所述预训练词表的训练过程包括：

S4、获取源数据；

4.根据权利要求3所述的方法，其特征在于，所述步骤S4之后，还包括：

S7、剔除所述源数据中的非中文字符。

5.根据权利要求3所述的方法，其特征在于，所述步骤S2之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述步骤S10具体包括：

7.根据权利要求6所述的方法，其特征在于，所述步骤S103具体包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述分类模型的训练过程包括：

S11、获取样本文件，并确定各所述样本文件的标注类型；

9.根据权利要求8所述的方法，其特征在于，所述步骤S13具体包括：

S131、构建初始网络模型；

S132、接收输入的所述初始网络模型中预定参数的取值；

10.根据权利要求9所述的方法，其特征在于，所述预定参数包括：ngram、subword_ngram和学习率。

11.根据权利要求8所述的方法，其特征在于，所述步骤S13之后，还包括：

S11、将所述分类模型的压缩方式设定为多线程压缩。

12.一种结合RPA和AI的文本分类装置，其特征在于，所述装置包括：

文本获取模块，用于获取待分类文本；

13.一种计算设备，其特征在于，所述设备包括：

存储有可执行程序代码的存储器；

与存储器耦合的处理器；

其中，处理器调用存储器中存储的可执行程序代码，执行如权利要求1-11任一所述的结合RPA和AI的文本分类方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11任一所述的结合RPA和AI的文本分类方法。