CN109446300A

CN109446300A - 一种语料预处理方法、语料预标注方法及电子设备

Info

Publication number: CN109446300A
Application number: CN201811036054.8A
Authority: CN
Inventors: 林志伟; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-03-08
Anticipated expiration: 2038-09-06
Also published as: CN109446300B

Abstract

本发明涉及自然语言处理技术，提供了一种语料预处理的方法，所述方法包含步骤：分别对各语料进行向量化处理，获得所述语料的文本向量；基于所述语料的文本向量进行聚类，从所述语料中确定出专用语料；对所述专用语料进行命名实体识别，确定出所述专用语料中包含的命名实体；基于目标命名实体对所述专用语料进行分类；分别从各所述分类的所述专用语料中抽取第一预设数量的所述专用语料，作为所述预处理结果。基于本实施例所提供的方法，可通过对原始语料数据进行预处理，以剔除大量重复的目标语料，供后续人工标注或其他处理，从而可大幅度的减少重复的人工处理工作。

Description

一种语料预处理方法、语料预标注方法及电子设备

技术领域

本发明涉及自然语言处理技术，尤其涉及一种语料预处理方法、语料预标注方法及电子设备。

背景技术

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展，语料库也被广泛的应用。

语料库有三点特征，语料库中存放的是在语言的实际使用中真实出现过的语言材料，例如直接从网页上获取的用户留言、客服对话等；语料库是承载语言知识的基础资源，但并不等于语言知识；真实语料需要经过加工，才能成为有用的资源，对真实语料的加工可包含除脏数据、语义标注、词性标记等，而在对语料进行标注时，往往需要主要靠人工对各个语料数据进行标注，由于语料数据中往往会包含大量的重复的语料数据，导致需要耗费大量人工在重复的语料标注上。

以意图识别分类器的训练语料为例，通常在使用监督学习算法训练一个医美行业意图识别分类器时，需要大量标注好的语料。其中标注工作多数以人工标记为主，大多数情况下，语料事先没有做一些处理，会存在大量的重复数据，如果没有对这些重复数据进行过滤，一是影响标注效率，二是浪费人力。

发明内容

为了解决上述问题，本发明的实施例，提供了一种语料预处理的方法，所述方法包含步骤：分别对各语料进行向量化处理，获得所述语料的文本向量；基于所述语料的文本向量进行聚类，从所述语料中确定出专用语料；对所述专用语料进行命名实体识别，确定出所述专用语料中包含的命名实体；基于目标命名实体对所述专用语料进行分类；分别从各所述分类的所述专用语料中抽取第一预设数量的所述专用语料，作为所述预处理结果。

在一实施中，所述对所述专用语料进行命名实体识别，确定出所述专用语料中包含的命名实体，具体包含：基于预设命名实体识别模型对所述专用语料进行命名实体识别。

在一实施中，所述专用语料为包含目标意图的所述语料。

在一实施中，在基于所述目标命名实体对所述专用语料进行分类之后，为各所述分类的所述专用语料进行标签设置，其中，所述标签内容包含所述目标命名实体。

在一实施中，在所述基于所述语料的文本向量进行聚类后，从所述语料中确定出通用语料和长尾语料。

在一实施中，所述方法更包含步骤：分别对所述通用语料和所述长尾语料进行聚类；分别从各分类的所述通用语料和所述长尾语料中抽取第二预设数量的所述通用语料和所述长尾语料，作为所述预处理结果。

在一实施中，在分别对所述通用语料和所述长尾语料进行聚类之后，为各分类的所述通用语料和所述长尾语料设置标签。

基于本实施例所提供的方法，可通过对原始语料数据进行预处理，以剔除大量重复的目标语料，供后续人工标注或其他处理，从而可大幅度的减少重复的人工处理工作。

此外，本发明还提供一种语料预标注方法，所述方法包含步骤：收集原始语料；基于上述的语料预处理方法，对所述原始语料进行预处理，获得所述预处理结果；基于所述预处理结果进行预标注。

本发明另提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述语料预处理方法。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明第一实施例所提供的语料预处理方法流程图；

图2绘示本发明第二实施例所提供的语料预处理方法流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明所提供的第一实施例为一种文本处理方法。

请参照图1，图1绘示本发明第一实施例所提供的语料预处理方法流程图。

如图1所示，本发明所提供的语料预处理的方法包含以下步骤：

步骤101，分别对各语料进行向量化处理，获得所述语料的文本向量。

具体而言，向量化处理的过程可包含如下步骤：

首先，对各语料进行分词处理，具体可使用结巴(jieba)分词技术，对语料进行分词处理。本实施例中，以医疗美容行业语料为例，对语料预处理方法步骤进行示例说明，请参照表1中的对语料的分词处理结果。

表1

在完成语料的分词处理后，可基于word2vec模型对各分词后的语料进行训练，从而得到各语料的文本向量。具体请参照表2中的示例。

表2

步骤102，基于所述语料的文本向量进行聚类，从所述语料中确定出专用语料。

具体而言，可基于K-means聚类算法对所有语料进行聚类，在设置聚类参数时，可根据语料的实际情况做预判，或者根据语料用途，设定聚类后得到的分类。在本实施例中，以对医疗美容行业的语料进行意图预标注为目的，可将语料聚类为三类，分别为通用语料、长尾语料及专用语料。

其中，通用语料可为包含意图信息，但意图与治疗项目及对应的身体部位不相关的语料，例如“你们公司地址在哪里啊”；长尾语料可为不包含非意图信息的语料，例如“你好”；专用语料可为包含与治疗项目和身体部位相关的意图信息的语料，例如“双眼皮手术要做多久”，换言之，专用语料可为在实际应用场景中，重点关注的语料数据，具体可根据实际需求进行设置，即包含目标意图的语料。

在本发明的实施例中，可基于开源的K-means算法对语料进行聚类，以初步获得实际应用场景中重点关注的语料数据，而在实际的计算中，K-means算法可基于各语料的文本向量来计算各语料间的相似度，并进行聚类，从而获得不同分类的语料数据。

请参照表3，表3中提供了基于表2进行聚类后，各语料的分类。

表3

步骤103，对所述专用语料进行命名实体识别，确定出所述专用语料中包含的命名实体。

具有而言，可基于预设命名实体识别模型对所述专用语料进行命名实体识别。其中，预设命名实体识别模型可为预先基于应用行业语料进行训练过的针对应用行业语料进行命名实体识别的模型算法，以获得识别的高准确度及专业度。在本实施例中，命名实体可包含治疗项目、身体部位等。

步骤104，基于目标命名实体对所述专用语料进行分类。

具体而言，可基于具体的分析目的，设置目标命名实体，并基于目标命名实体对专用语料进行分类。在本实施例中，以目标命名实体包含治疗项目及身体部分为例，以治疗项目及身体部位的组合作为分类基准，对专用语料进行分类。基于预设命名实体识别模型对专用语料进行命名实体识别并分类后的结果，可请参照表4，表4中为基于目标命名实体对专用语料进行分类后的结果示例。

表4

步骤105，分别从各所述分类的所述专用语料中抽取第一预设数量的所述专用语料，作为所述预处理结果。

具体而言，在完成对语料的二次分类后，可获得归属不同目标命名实体的专用语料的分类。从另一个角度来看，该些归属同一分类的专用语料中，包含了相同的治疗项目及身体部位信息，且包含了其他意图信息，例如价格询问或安全性确定等，也就是说，相同分类的专用语料中存在包含相同意图信息的重复的语料数据。在本步骤中，可基于分层抽样法，从各分类中抽取出第一预设数量的专用语料，并对抽样获得的结果进行合并，以最终获得预处理结果。

如此一来，基于本实施例所提供的方法，可通过对原始语料数据进行预处理，包含先从原始语料中确定出实际应用中所关注的专用语料，即目标语料，再基于命名实体对专用语料进行分类，从而划分出可能存在重复语料的语料集合，在基于这些分类后得到的语料集合进行分层抽样，以获得重复量较小的专用语料，并已抽样出的专用语料作为预处理结果供后续分析使用，通过上述方法不仅可剔除大量重复的目标语料，供后续人工标注或其他处理，从而大幅度的减少重复的人工处理工作，而且通过多次聚类，保证了预处理后得到的语料数据可覆盖绝大多数类型的专用语料，避免因盲目剔除而引起的语料数据不完全的问题。

图1所示的实施例中，仅对专用语料进行了预处理，可保证应用场景的根本需求。在本发明的其他实施例中，还可以对通用语料及长尾语料进行预处理，从而最终获得完整的语料预处理结果，以满足不同的应用场景需求。

具体请参照图2，图2绘示本发明第二实施例所提供的语料预处理方法流程图。

如图2所示，本实施例所提供的语料预处理方法具体包含步骤：

步骤201，分别对各语料进行向量化处理，获得所述语料的文本向量。

步骤202，基于所述语料的文本向量进行聚类，从所述语料中确定出专用语料、通用语料及长尾语料。

步骤203，对所述专用语料进行命名实体识别，确定出所述专用语料中包含的命名实体。

步骤204，基于目标命名实体对所述专用语料进行分类。

步骤205，分别对所述通用语料和所述长尾语料进行聚类。

步骤206，分别从各所述分类的所述专用语料中抽取第一预设数量的所述专用语料，分别从各分类的所述通用语料和所述长尾语料中抽取第二预设数据的所述通用语料和所述长尾语料，作为所述预处理结果。

在上述步骤中，步骤201至步骤204的具体说明可对应参照图1所示实施例中步骤101至步骤104的相应说明，本实施例与第一实施的主要差别在于，本实施例中，更包含对通用语料及长尾语料的预处理，故对应的，在步骤202中，需从语料中确定出专用语料、通用语料及长尾语料。

之后，在步骤205中，可分别对通用语料和长尾语料进行聚类。

具体而言，可基于K-means聚类算法分别对这两种语料进行聚类，具体的K值，可根据实际应用场景及语料的情况进行预先设定，例如，可设定通用语料的分类数为n，并通过K-means算法，将通用语料分为n个类别，同理，可将长尾语料聚类为m个类别。具体可参照表5中的信息。

表5

值得注意的是，在本实施例中步骤204与步骤205之间并无必然的先后顺序。

在对通用语料及长尾语料分别进行聚类后，可在步骤206中，分别从各所述分类的所述专用语料中抽取第一预设数量的所述专用语料，并分别从各分类的所述通用语料和所述长尾语料中抽取第二预设数量的所述通用语料和所述长尾语料，作为预处理结果。

同样的，可基于分层抽样法分别从各分类的通用语料及长尾语料中抽取出一定数量的样本语料，并与专用语料的抽样数据进行合并，作为预处理结果。值得注意的是，本发明实施例中所提及的第一预设数量和第二预设数量仅用于作为区分，表明不同类型语料的抽样数量可以不同，当然，在本发明的其他实施例中，抽样的数量也可以相同，具体可根据实际的应用需求进行设定。

在本实施例中，不仅可对专用语料进行重复性的剔除，同样也可以对通用语料及长尾语料进行重复性的剔除，从而满足语料多样化及完整度的需求。

值得注意的是，在上述实施例中，可在基于所述目标命名实体对所述专用语料进行分类之后，为各所述分类的所述专用语料进行标签设置，其中，所述标签内容包含所述目标命名实体，也可在分别对所述通用语料和所述长尾语料进行聚类之后，为各分类的所述通用语料和所述长尾语料设置标签，其中标签内容可为二次聚类后的类别信息。从而为后续的语料处理提供参照，以进一步节省人工需求。

基于同样的发明构思，本发明还提供了一种一种语料预标注方法，所述方法包含步骤：

收集原始语料；

基于上述第一实施例或第二实施例所述的语料预处理方法，对所述原始语料进行预处理，获得所述预处理结果；

基于所述预处理结果进行预标注。

如上所述，本发明所提供的语料预处理方法可对原始语料进行自动的重复性数据剔除，并基于语料的标签内容，再对语料进行预标注，可有效降低人工处理压力，提升语料标注工作的效率。

本发明另一实施例涉及一种电子设备，包括至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行图1或图2所示实施例中的语料预处理方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明又一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现上述方法实施例。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语料预处理的方法，其特征在于，所述方法包含步骤：

分别对各语料进行向量化处理，获得所述语料的文本向量；

基于所述语料的文本向量进行聚类，从所述语料中确定出专用语料；

对所述专用语料进行命名实体识别，确定出所述专用语料中包含的命名实体；

基于目标命名实体对所述专用语料进行分类；

分别从各所述分类的所述专用语料中抽取第一预设数量的所述专用语料，作为所述预处理结果。

2.如权利要求1所述的方法，其特征在于，所述对所述专用语料进行命名实体识别，确定出所述专用语料中包含的命名实体，具体包含：

基于预设命名实体识别模型对所述专用语料进行命名实体识别。

3.如权利要求1所述的方法，其特征在于，所述专用语料为包含目标意图的所述语料。

4.如权利要求1所述的方法，其特征在于，在基于所述目标命名实体对所述专用语料进行分类之后，为各所述分类的所述专用语料进行标签设置，其中，所述标签内容包含所述目标命名实体。

5.如权利要求1所述的方法，其特征在于，在所述基于所述语料的文本向量进行聚类后，从所述语料中确定出通用语料和长尾语料。

6.如权利要求5所述的方法，其特征在于，所述方法更包含步骤：

分别对所述通用语料和所述长尾语料进行聚类；

分别从各分类的所述通用语料和所述长尾语料中抽取第二预设数量的所述通用语料和所述长尾语料，作为所述预处理结果。

7.如权利要求6所述的方法，其特征在于，在分别对所述通用语料和所述长尾语料进行聚类之后，为各分类的所述通用语料和所述长尾语料设置标签。

8.一种语料预标注方法，其特征在于，所述方法包含步骤：

收集原始语料；

基于权利要求1至7中任一项所述的语料预处理方法，对所述原始语料进行预处理，获得所述预处理结果；

基于所述预处理结果进行预标注。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的语料预处理方法。