CN111428030B

CN111428030B - 一种语料分类的方法及系统

Info

Publication number: CN111428030B
Application number: CN202010151880.8A
Authority: CN
Inventors: 白二伟; 倪合强; 宋志�; 姚寿柏
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2023-06-30
Anticipated expiration: 2040-03-06
Also published as: CN111428030A

Abstract

本发明实施例公开了一种语料分类的方法及系统，采用了模板匹配粗分类和微调预训练模型细分类相结合的方法，不需要人工进行语料标注，同时由于不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料，有效的提高了分类的准确性，同时不需要复杂的人工标注，减少了时间和人力成本。根据语料及关键词模板，获取粗分类语料；根据所述粗分类语料，构建第一语料分类模型；根据预设要求及所述第一语料分类模型，获取细分类语料。

Description

一种语料分类的方法及系统

技术领域

本发明涉及语料分类领域，具体涉及一种语料分类的方法及系统。

背景技术

随着互联网及移动端的发展，网页中包含了大量的语料信息，同时用户在浏览网站时留下了海量的评论，在终端设备，用户使用语音控制时，也会留下大量的语音和文字。收集并分类这些信息，可以做数据推送及喜好分析等大量的数据处理工作。

现有做法主要包含下列两大类：

1、确定每个分类的基础句子，计算目标语句与基础句子之间的编辑距离，从而确定目标句子的类别，

2、直接使用标注好的分类语料进行模型训练，接着利用训练好的模型进行目标语料的分类。

在上述方法中，每个分类的基础句子的选择，如果不够全面，或者两种分类的句子比较相似，就会出现分类不准确的情况，直接用标注好的语料训练模型，尽管能够保证识别精度，但是存在获取语料成本大的问题。

发明内容

本发明的实施例提供一种语料分类的方法及系统，采用了模板匹配粗分类和微调预训练模型细分类相结合的方法，不需要人工进行语料标注，同时由于不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料，有效的提高了分类的准确性，同时不需要复杂的人工标注，减少了时间和人力成本。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种语料分类的方法，根据语料及关键词模板，获取粗分类语料；根据所述粗分类语料，构建第一语料分类模型；根据预设要求及所述第一语料分类模型，获取细分类语料。

结合第一方面，在第一方面的第一种可能的实现方式中，预设要求为迭代次数。

结合第一方面，在第一方面的第二种可能的实现方式中，预设要求为精度要求。

结合第一方面，在第一方面的第三种可能的实现方式中，根据所述粗分类语料，对关键词模板进行调整；根据所述调整后的关键词模板，对粗分类语料进行匹配，获取语料分类神经网络、第一训练集和第一验证集；对所述语料分类神经网络进行调整，获取第一语料分类模型。

结合第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，步骤一，将所述第1+n训练集输入第1+n语料分类模型，结合第1+n验证集，获得第1+n调整集，n表示进入步骤二的次数；n的初始值为0；步骤二，判断n是否满足迭代次数，若n满足迭代次数，则获取细分类语料，迭代结束；若n不满足迭代次数，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数；N的初始值为0。

结合第一方面的第二种可能的实现方式，在第一方面的第五种可能的实现方式中，步骤一，将所述第1+n训练集输入第1+n语料分类模型，结合第1+n验证集，获得第1+n调整集，n表示进入步骤二的次数；n的初始值为0；步骤二，判断是否满足精度要求，若满足精度要求，则获取细分类语料，迭代结束；若不满足精度要求，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数；N的初始值为0。

第二方面，本发明的实施例提供一种语料分类的系统，粗分类语料获取模块，用于根据语料及关键词模板，获取粗分类语料；构建模块，用于根据所述粗分类语料，构建第一语料分类模型；细分类语料获取模块，用于根据预设要求及所述第一语料分类模型，获取细分类语料。

结合第二方面，在第二方面的第一种可能的实现方式中，预设要求为迭代次数。

结合第二方面，在第二方面的第二种可能的实现方式中，预设要求为精度要求。

结合第二方面，在第二方面的第三种可能的实现方式中，构建模块，包括：

关键词调整子模块，用于根据所述粗分类语料，对关键词模板进行调整；

匹配子模块，用于根据所述调整后的关键词模板，对粗分类语料进行匹配，获取语料分类神经网络、第一训练集和第一验证集；

语料分类模型获取子模块，用于对所述语料分类神经网络进行调整，获取第一语料分类模型。

结合第二方面的第一种可能的实现方式，在第二方面的第四种可能的实现方式中，细分类语料获取模块，包括：

第一子单元，用于将所述第1+n训练集输入第1+n语料分类模型，结合第1+n验证集，获得第1+n调整集，n表示进入第二子单元的次数；n的初始值为0；

第二子单元，用于判断n是否满足迭代次数，若n满足迭代次数，则获取细分类语料，迭代结束；若n不满足迭代次数，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回第一子单元，N表示返回第一子单元的次数；N的初始值为0。

结合第二方面的第二种可能的实现方式，在第二方面的第五种可能的实现方式中，细分类语料获取模块，包括：

第三子单元，用于将所述第1+n训练集输入第1+n语料分类模型，结合第1+n验证集，获得第1+n调整集，n表示进入第四子单元的次数；n的初始值为0；

第四子单元，用于判断是否满足精度要求，若满足精度要求，则获取细分类语料，迭代结束；若不满足精度要求，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回第三子单元，N表示返回第三子单元的次数；N的初始值为0。

本发明实施例提供的一种发明名称，采用了模板匹配粗分类和微调预训练模型细分类相结合的方法，不需要人工进行语料标注，同时由于不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料，有效的提高了分类的准确性，同时不需要复杂的人工标注，减少了时间和人力成本。相比于现有技术，在本发明实施中，根据语料及关键词模板，获取粗分类语料，不需要手工对语料进行类别标注，只需要根据语料写少量的模板，减少人力成本。根据所述粗分类语料，构建第一语料分类模型，对语料分类模型进行修正，提高分类精度。根据预设要求及所述第一语料分类模型，获取细分类语料，不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的另一种方法流程图；

图3为本发明实施例的流程图；

图4为本发明实施例的系统结构框图；

图5为本发明实施例的语料分类模型构建模块结构框图；

图6为本发明实施例的细分类模块结构框图；

图7为本发明实施例的另一种细分类模块结构框图；

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的提前下所获得的实施例，都应属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明实施例提供一种语料分类的方法，如图1所示，包括：

S110、根据语料及关键词模板，获取粗分类语料。

爬取相关语料，根据语料，粗略的编写相关的关键词模板，应用关键词模板，对爬取的语料进行模板匹配，得到语料的粗分类。

S120、根据所述粗分类语料，构建第一语料分类模型。

本发明还提供一种步骤S120的实施例，如图2所示，包括：

S1201、根据所述粗分类语料，对关键词模板进行调整。

S1202、根据所述调整后的关键词模板，对粗分类语料进行匹配，获取语料分类神经网络、第一训练集和第一验证集。

S1203、对所述语料分类神经网络进行调整，获取第一语料分类模型。

根据语料匹配结果调整模板中的关键字，并再执行一次模板匹配，获得语料分类神经网络，使用bert或任意预训练模型微调语料分类神经网络，构建第一语料分类模型。

S130、根据预设要求及所述第一语料分类模型，获取细分类语料。

所述预设要求为迭代次数，则：

步骤一，将所述第1+n训练集输入第1+n语料分类模型，结合第1+n验证集，获得第1+n调整集，n表示进入步骤二的次数；n的初始值为0；

步骤二，判断n是否满足迭代次数，若n满足迭代次数，则获取细分类语料，迭代结束；若n不满足迭代次数，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数。N的初始值为0。

所述预设要求为精度要求，则：

步骤二，判断是否满足精度要求，若满足精度要求，则获取细分类语料，迭代结束；若不满足精度要求，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数。N的初始值为0。

所述预设要求为迭代次数或精度要求，则：

步骤二，判断是否满足迭代次数或精度要求，若满足，则获取细分类语料，迭代结束；若不满足，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数。N的初始值为0。

不需要手工对语料进行类别标注，只需要根据语料写少量的模板，减少人力成本。经过多次迭代之后，可以有效地提高分类精度。

本发明实施例提供一种语料分类的方法，如图3所示，包括：

S1：爬取相关语料，根据语料，编写相关的关键词模板，例如：家具控制模板(home_ctrl)，音乐搜索模板(music_search)，智能问答(ques_ans)。

home_ctrl＝打开|关闭|后转|换|收|排|洗|调…，

music_search＝听|首|唱歌|播|曲|放一下|来一|放一|音乐|歌|声音|谱子…，

ques_ans＝怎么|合适|吗|什么|谁能|窗前|远|跟你|在哪…，

此处只需要粗略的将相应的关键词包含到模板中即可。

S2：应用S1中提供的关键词模板，对爬取的语料进行模板匹配，得到语料的粗分类。由于同一句语料中可能包含多个模板中的关键字，这里采取优先匹配模板的原则，语料按照事先排的模板顺序进行匹配，当匹配到模板时，给出语句所属分类，后面的模板不进行匹配。

S3：根据语料匹配结果调整模型的顺序和模板中的关键字。由于语料会优先被排列在前面的模板匹配到，结果可能存在语料分类不均，或不合理的情况，应当对语料分类神经网络进行顺序调整和关键词调整，再对S2的语料执行一次模板匹配，获得训练集与验证集。

S4：微调语言模型神经网络，构建语料分类模型，使用bert预训练模型或任意的预训练语言模型，对语料分类模型进行修正。

S5：输入训练集和验证集，使用语料分类模型进行识别，并对语料进行label更新，将得到的分类结果作为调整集。

S6：若满足迭代的精度要求或迭代M次(M为预先设定好的迭代次数)，则停止迭代，输出细分类语料，否则，将S5中的验证集作为训练集，将S5中的调整集作为验证集，重复S4、S5和S6。

本发明实施例提供的一种语料分类的方法，采用了模板匹配粗分类和微调预训练模型细分类相结合的方法，不需要人工进行语料标注，同时由于不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料，有效的提高了分类的准确性，同时不需要复杂的人工标注，减少了时间和人力成本。

本发明实施例还提供一种语料分类的系统，如图4所示，包括：

粗分类语料获取模块，用于根据语料及关键词模板，获取粗分类语料；

构建模块，用于根据所述粗分类语料，构建第一语料分类模型；

细分类语料获取模块，用于根据预设要求及所述第一语料分类模型，获取细分类语料。

所述预设要求为迭代次数或精度要求。

本发明实施例还提供一种语料分类的系统，如图5所示，构建模块，包括：

本发明实施例还提供一种语料分类的系统，如图6所示，细分类语料获取模块，包括：

第二子单元，用于判断n是否满足迭代次数，若n满足迭代次数，则获取细分类语料，迭代结束；若n不满足迭代次数，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回第一子单元，N表示返回第一子单元的次数。N的初始值为0。

本发明实施例还提供一种语料分类的系统，如图7所示，细分类语料获取模块，包括：

第四子单元，用于判断是否满足精度要求，若满足精度要求，则获取细分类语料，迭代结束；若不满足精度要求，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回第三子单元，N表示返回第三子单元的次数。N的初始值为0。

本发明实施例提供的一种语料分类的系统，采用了模板匹配粗分类和微调预训练模型细分类相结合的方法，不需要人工进行语料标注，同时由于不断地迭代模型对训练语料进行细分类，能得到精度较高的分类语料，有效的提高了分类的准确性，同时不需要复杂的人工标注，减少了时间和人力成本。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。本领域技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语料分类的方法，其特征在于，包括：

根据语料及关键词模板，获取粗分类语料；

根据所述粗分类语料，构建第一语料分类模型；

根据预设要求及所述第一语料分类模型，获取细分类语料；所述预设要求为迭代次数或精度要求；

所述根据所述粗分类语料，构建第一语料分类模型，包括：

根据所述粗分类语料，对关键词模板进行调整；

根据调整后的关键词模板，对粗分类语料进行匹配，获取语料分类神经网络、第一训练集和第一验证集；

对所述语料分类神经网络进行调整，获取第一语料分类模型。

2.根据权利要求1所述的方法，其特征在于，当所述预设要求为迭代次数时，所述根据预设要求及所述第一语料分类模型，获取细分类语料，包括：

步骤二，判断n是否满足迭代次数，若n满足迭代次数，则获取细分类语料，迭代结束；若n不满足迭代次数，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数；N的初始值为0。

3.根据权利要求1所述的方法，其特征在于，当所述预设要求为精度要求时，所述根据预设要求及所述第一语料分类模型，获取细分类语料，包括：

步骤二，判断是否满足精度要求，若满足精度要求，则获取细分类语料，迭代结束；若不满足精度要求，则调整第1+N语料分类模型，获取第1+n语料分类模型，则将第1+N调整集作为第1+n验证集，将第1+N验证集作为第1+n训练集,返回步骤一，N表示返回步骤一的次数；N的初始值为0。

4.一种语料分类的系统，其特征在于，包括：

细分类语料获取模块，用于根据预设要求及所述第一语料分类模型，获取细分类语料；所述预设要求为迭代次数或精度要求；

所述构建模块，包括：

匹配子模块，用于根据调整后的关键词模板，对粗分类语料进行匹配，获取语料分类神经网络、第一训练集和第一验证集；

5.根据权利要求4所述的系统，其特征在于，当所述预设要求为迭代次数时，所述细分类语料获取模块，包括：

6.根据权利要求4所述的系统，其特征在于，当所述预设要求为精度要求时，所述细分类语料获取模块，包括：