CN117952068A

CN117952068A - 一种文本标注方法、系统、设备及存储介质

Info

Publication number: CN117952068A
Application number: CN202311555619.4A
Authority: CN
Inventors: 曾鸿猷; 何熠; 何玄; 李隼
Original assignee: China Unicom Online Information Technology Co Ltd; Unicom Woyuedu Technology Culture Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd; Unicom Woyuedu Technology Culture Co Ltd
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-04-30

Abstract

本发明公开了一种文本标注方法、系统、设备及存储介质，包括获取待打标文本内容和已标注好的历史文本集，将待打标文本内容进行预处理，得到预处理后文本内容，构建初始文本标注模型，将已标注好的历史文本集输入初始文本标注模型进行训练，得到训练好的文本标注模型，将预处理后文本内容输入训练好的文本标注模型进行标签预测，得到标签预测结果，对标签预测结果进行人工检测，得到最终文本标注结果，降低了人力成本，提高了文本标注准确率和文本标注效率。

Description

一种文本标注方法、系统、设备及存储介质

技术领域

本发明涉及文本标注相关技术领域，尤其是涉及一种文本标注方法、系统、设备及存储介质。

背景技术

现有技术媒资系统很多要依靠大量的人力，手工或半手工给视频加标签，这样的方式不仅耗时而且耗力，对于产业需求来说效率也极其低下。

现有技术也应运而生了很多人工智能的方法来辅助现有的媒资产业需求，但是很多方法都只能治标而不治本，比如识别出电子书内容，然后进一步识别出关键字、事件、时间等很多混乱的信息，这样的信息提供给业务依然需要大量人力再次筛选，不够省时省力。另外，还有一些人工智能的算法则针对电子书内容做分析，计算量大、难度大、正确率不高。

发明内容

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明提出一种文本标注方法、系统、设备及存储介质，能够降低人力成本，提高文本标注准确率和文本标注效率。

本发明的第一方面，提供了一种文本标注方法，包括如下步骤：

获取待打标文本内容和已标注好的历史文本集；

将所述待打标文本内容进行预处理，得到预处理后文本内容；

构建初始文本标注模型，将所述已标注好的历史文本集输入所述初始文本标注模型进行训练，得到训练好的文本标注模型；

将所述预处理后文本内容输入所述训练好的文本标注模型进行标签预测，得到标签预测结果；

对所述标签预测结果进行人工检测，得到最终文本标注结果。

根据本发明实施例的控制方法，至少具有如下有益效果：

本方法通过获取待打标文本内容和已标注好的历史文本集，将待打标文本内容进行预处理，得到预处理后文本内容，构建初始文本标注模型，将已标注好的历史文本集输入初始文本标注模型进行训练，得到训练好的文本标注模型，将预处理后文本内容输入训练好的文本标注模型进行标签预测，得到标签预测结果，对标签预测结果进行人工检测，得到最终文本标注结果，降低了人力成本，提高了文本标注准确率和文本标注效率。

根据本发明的一些实施例，所述获取已标注好的历史文本集，包括：

获取历史文本数据；

通过人工智能手段对所述历史文本数据进行关键字提取，得到文本对应关键字结果；

对所述历史文本数据进行人工标注，得到历史文本数据标注结果；

将所述文本对应关键字结果与所述历史文本数据标注结果进行一一匹配，得到匹配结果；

根据所述匹配结果与所述历史文本数据进行组合，得到所述已标注好的历史文本集。

根据本发明的一些实施例，所述将所述待打标文本内容进行预处理，得到预处理后文本内容，包括：

对所述待打标文本内容根据预设的特殊数据集进行特殊数据处理，得到特殊数据处理结果；

对所述特殊数据处理结果根据预设的特殊符号集进行特殊符号处理，得到特殊符号处理结果；

对所述特殊符号处理结果根据预设的粗俗语言字眼集进行粗俗语言字眼处理，得到粗俗语言字眼处理结果；

对所述粗俗语言字眼处理结果根据预设的文本格式进行格式处理，得到所述预处理后文本内容。

根据本发明的一些实施例，所述构建初始文本标注模型，包括：

根据基于自然语言处理技术中的双向Transformers编码模型Bert构建所述初始文本标注模型。

根据本发明的一些实施例，所述将所述预处理后文本内容输入所述训练好的文本标注模型进行标签预测，得到标签预测结果，包括：

将所述预处理后文本内容输入所述训练好的文本标注模型进行标签预测，得到标签预测结果以及所述待打标文本内容的每个标签相关性最高的词组，其中，所述标签预测结果为一个或多个标签。

根据本发明的一些实施例，所述对所述标签预测结果进行人工检测，得到最终文本标注结果，包括：

根据所述标签预测结果以及所述待打标文本内容的每个标签相关性最高的词组进行人工检测，得到最终文本标注结果。

本发明的第二方面，提供一种文本标注系统，所述文本标注系统包括：

数据获取模块，用于获取待打标文本内容和已标注好的历史文本集；

数据预处理模块，用于将所述待打标文本内容进行预处理，得到预处理后文本内容；

模型训练模块，用于构建初始文本标注模型，将所述已标注好的历史文本集输入所述初始文本标注模型进行训练，得到训练好的文本标注模型；

标签预测模块，用于将所述预处理后文本内容输入所述训练好的文本标注模型进行标签预测，得到标签预测结果；

人工检测模块，用于对所述标签预测结果进行人工检测，得到最终文本标注结果。

本系统通过获取待打标文本内容和已标注好的历史文本集，将待打标文本内容进行预处理，得到预处理后文本内容，构建初始文本标注模型，将已标注好的历史文本集输入初始文本标注模型进行训练，得到训练好的文本标注模型，将预处理后文本内容输入训练好的文本标注模型进行标签预测，得到标签预测结果，对标签预测结果进行人工检测，得到最终文本标注结果，降低了人力成本，提高了文本标注准确率和文本标注效率。

根据本发明的一些实施例，所述模型训练模块还包括：

模型构建模块，用于根据基于自然语言处理技术中的双向Transformers编码模型Bert构建所述初始文本标注模型。

本发明的第三方面，提供了一种文本标注电子设备，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行上述的文本标注方法。

本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行上述的文本标注方法。

需要注意的是，本发明的第二方面至第四方面与现有技术之间的有益效果与上述的一种文本标注系统与现有技术之间的有益效果相同，此处不再细述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例的一种文本标注方法的流程图；

图2是本发明实施例提供的一种文本标注方法的获取已标注好的历史文本集流程图；

图3是本发明一实施例的一种文本标注系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，如果有描述到第一、第二等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

为了解决上述技术缺陷，参照图1，本发明提供了一种文本标注方法，包括：

步骤S101、获取待打标文本内容和已标注好的历史文本集；

步骤S102、将待打标文本内容进行预处理，得到预处理后文本内容；

步骤S103、构建初始文本标注模型，将已标注好的历史文本集输入初始文本标注模型进行训练，得到训练好的文本标注模型；

步骤S104、将预处理后文本内容输入训练好的文本标注模型进行标签预测，得到标签预测结果；

步骤S105、对标签预测结果进行人工检测，得到最终文本标注结果。

参照图2，在一些实施例中，获取已标注好的历史文本集，包括：

步骤S201、获取历史文本数据；

步骤S202、通过人工智能手段对历史文本数据进行关键字提取，得到文本对应关键字结果；

步骤S203、对历史文本数据进行人工标注，得到历史文本数据标注结果；

步骤S204、将文本对应关键字结果与历史文本数据标注结果进行一一匹配，得到匹配结果；

步骤S205、根据匹配结果与历史文本数据进行组合，得到已标注好的历史文本集。

在一些实施例中，将待打标文本内容进行预处理，得到预处理后文本内容，包括：

对待打标文本内容根据预设的特殊数据集进行特殊数据处理，得到特殊数据处理结果；

对特殊数据处理结果根据预设的特殊符号集进行特殊符号处理，得到特殊符号处理结果；

对特殊符号处理结果根据预设的粗俗语言字眼集进行粗俗语言字眼处理，得到粗俗语言字眼处理结果；

对粗俗语言字眼处理结果根据预设的文本格式进行格式处理，得到预处理后文本内容。

在一些实施例中，构建初始文本标注模型，包括：

根据基于自然语言处理技术中的双向Transformers编码模型Bert构建初始文本标注模型。

在一些实施例中，将预处理后文本内容输入训练好的文本标注模型进行标签预测，得到标签预测结果，包括：

将预处理后文本内容输入训练好的文本标注模型进行标签预测，得到标签预测结果以及待打标文本内容的每个标签相关性最高的词组，其中，标签预测结果为一个或多个标签。

在一些实施例中，对标签预测结果进行人工检测，得到最终文本标注结果，包括：

根据标签预测结果以及待打标文本内容的每个标签相关性最高的词组进行人工检测，得到最终文本标注结果。

另外，参照图3，本发明的一个实施例，提供一种文本标注系统，包括数据获取模块1100、数据预处理模块1200、模型训练模块1300、标签预测模块1400以及人工检测模块1500，其中：

数据获取模块1100用于获取待打标文本内容和已标注好的历史文本集；

数据预处理模块1200用于将待打标文本内容进行预处理，得到预处理后文本内容；

模型训练模块1300用于构建初始文本标注模型，将已标注好的历史文本集输入初始文本标注模型进行训练，得到训练好的文本标注模型；

标签预测模块1400用于将预处理后文本内容输入训练好的文本标注模型进行标签预测，得到标签预测结果；

人工检测模块1500用于对标签预测结果进行人工检测，得到最终文本标注结果。

在一些实施例中，模型训练模块还包括：

模型构建模块，用于根据基于自然语言处理技术中的双向Transformers编码模型Bert构建初始文本标注模型。

本申请还提供一种文本标注电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现：如上述的文本标注方法。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的文本标注方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的文本标注方法，例如，执行以上描述的图1中的方法步骤S101至步骤S105。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行：如上述的文本标注方法。

该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的文本标注方法，例如，执行以上描述的图1中的方法步骤S101至步骤S105。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序单元或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序单元或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种文本标注方法，其特征在于，所述文本标注方法包括：

获取待打标文本内容和已标注好的历史文本集；

2.根据权利要求1所述的一种文本标注方法，其特征在于，所述获取已标注好的历史文本集，包括：

获取历史文本数据；

3.根据权利要求2所述的一种文本标注方法，其特征在于，所述将所述待打标文本内容进行预处理，得到预处理后文本内容，包括：

4.根据权利要求3所述的一种文本标注方法，其特征在于，所述构建初始文本标注模型，包括：

5.根据权利要求4所述的一种文本标注方法，其特征在于，所述将所述预处理后文本内容输入所述训练好的文本标注模型进行标签预测，得到标签预测结果，包括：

6.根据权利要求5所述的一种文本标注方法，其特征在于，所述对所述标签预测结果进行人工检测，得到最终文本标注结果，包括：

7.一种文本标注系统，其特征在于，所述文本标注系统包括：

8.根据权利要求7所述的一种文本标注系统，其特征在于，所述模型训练模块还包括：

9.一种文本标注设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至6任一项所述的一种文本标注方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的一种文本标注方法。