CN113806477A

CN113806477A - 一种文本自动标注方法、装置、终端及存储介质

Info

Publication number: CN113806477A
Application number: CN202110991734.0A
Authority: CN
Inventors: 陈章; 林雄; 李耀坚; 庄华; 高丽丽
Original assignee: Guangdong Guangxin Communications Services Co Ltd
Current assignee: Guangdong Guangxin Communications Services Co Ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-12-17

Abstract

本发明公开了一种文本自动标注方法、装置、终端及存储介质，通过当检测到业务对象工作系统工作时，获取所述业务对象工作系统的实时工作数据；对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据；将所述第一工作数据发送到NLP处理单元中，以使所述NLP处理单元对所述第一工作数据进行标注处理，生成所述第一工作数据所对应的第一标注数据；获取所述NLP处理单元生成的所述第一标注数据，并将所述第一标注数据发送到所述业务对象工作系统，以使将所述第一标注数据实时应用到所述业务对象工作系统。相对于现有技术，通过对实时数据进行自动收集和标注，降低了对人工的依赖性，能实时应对新变化，提高了工作效率。

Description

一种文本自动标注方法、装置、终端及存储介质

技术领域

本发明涉及神经语言程序学的技术领域，特别是涉及一种文本自动标注方法、装置、终端及存储介质。

背景技术

在神经语言程序学领域，有监督深度学习的使用最为广泛的，大部分的神经语言程序学任务基本上都是有监督的。有监督的往往需要对大量的数据进行标注。从理想角度看，标注的数据数量越多，训练得到的模型效果也会越好。对数据进行标注，目前大部分采用人工的方式集中打标，需经过数据准备、数据筛选、打标人员培训等环节，才能进行相关业务的数据标注任务。人工标注不仅是一个耗费人力与时间的过程，成本非常大，而且不实时，对于变化频率快的业务，数据标注后会出现不能适应新的业务情况。

发明内容

本发明要解决的技术问题是：一种文本自动标注方法、装置、终端及存储介质，通过对实时数据进行自动收集和标注，降低了对人工的依赖性，能实时应对新变化，提高了工作效率。

为了解决上述技术问题，本发明提供了一种文本自动标注方法，包括：

当检测到业务对象工作系统工作时，获取所述业务对象工作系统的实时工作数据；

对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据；

将所述第一工作数据发送到NLP处理单元中，以使所述NLP处理单元对所述第一工作数据进行标注处理，生成所述第一工作数据所对应的第一标注数据；

获取所述NLP处理单元生成的所述第一标注数据，并将所述第一标注数据发送到所述业务对象工作系统，以使将所述第一标注数据实时应用到所述业务对象工作系统。

进一步地，在检测到业务对象工作系统工作前，还包括：

根据预设的业务规则进行数据收集设置和过滤规则设置。

进一步地，所述对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据，具体为：

对所述实时工作数据进行html标签清除，使用正则匹配的方式对清除html标签后的所述实时工作数据中的所有标签进行替换，以使所述实时工作数据只保留文本数据；

根据设置的过滤规则对所述文本数据进行筛选和过滤，获取所述文本数据中没有标注的第一工作数据。

进一步地，所述NLP处理单元对所述第一工作数据进行标注处理，具体为：

所述NLP处理单元通过中文分词及词性分析将所述第一工作数据转换为第一向量集，将所述第一向量集输入到语义匹配模型中，以使所述语义匹配模型对所述第一向量集进行分析，完成对所述第一向量集的标注。

进一步地，本发明还提供了一种文本自动标注装置，包括：第一获取模块、第二获取模块、发送模块、数据应用模块；

其中，所述第一获取模块用于当检测到业务对象工作系统工作时，获取所述业务对象工作系统的实时工作数据；

所述第二获取模块用于对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据；

所述发送模块用于将所述第一工作数据发送到NLP处理单元中，以使所述NLP处理单元对所述第一工作数据进行标注处理，生成所述第一工作数据所对应的第一标注数据；

所述数据应用模块用于获取所述NLP处理单元生成的所述第一标注数据，并将所述第一标注数据发送到所述业务对象工作系统，以使将所述第一标注数据实时应用到所述业务对象工作系统。

进一步地，所述第一获取模块用于所述在检测到业务对象工作系统工作前，还包括：设置模块；

所述设置模块用于根据预设的业务规则进行数据收集设置和过滤规则设置。

进一步地，所述第二获取模块包括清除单元和处理单元；

所述清除单元用于对所述实时工作数据进行html标签清除，使用正则匹配的方式对清除html标签后的所述实时工作数据中的所有标签进行替换，以使所述实时工作数据只保留文本数据；

所述处理单元用于根据设置的过滤规则对所述文本数据进行筛选和过滤，获取所述文本数据中没有标注的第一工作数据。

进一步地，所述发送模块用于使所述NLP处理单元对所述第一工作数据进行标注处理，具体为：

所述发送模块使所述NLP处理单元通过中文分词及词性分析将所述第一工作数据转换为第一向量集，将所述第一向量集输入到语义匹配模型中，以使所述语义匹配模型对所述第一向量集进行分析，完成对所述第一向量集的标注。

进一步地，本发明还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的文本自动标注方法。

进一步地，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的文本自动标注方法。

本发明实施例一种文本自动标注方法及装置，与现有技术相比，具有如下有益效果：

由于人工标注是一个耗费人力与时间的过程，成本非常大，因此本发明采用自动标注的方式，当检测到业务对象工作系统工作时，获取所述业务对象工作系统的实时工作数据；对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据；将所述第一工作数据发送到NLP处理单元中，以使所述NLP处理单元对所述第一工作数据进行标注处理，生成所述第一工作数据所对应的第一标注数据；获取所述NLP处理单元生成的所述第一标注数据，实现对数据进行自动打标，解决了解决人工标注的人力和时间成本高的缺点，同时基于现有技术中，业务变化频率过快的问题，并将所述第一标注数据发送到所述业务对象工作系统，以使将所述第一标注数据实时应用到所述业务对象工作系统，做到实时应对业务变化，解决数据标注后会出现不能适应新的业务情况。与现有技术相比，本发明降低了对人工的依赖性，能实时应对新变化，提高了工作效率。

附图说明

图1是本发明提供的一种文本自动标注方法的一种实施例的流程示意图；

图2是本发明提供的一种文本自动标注装置的一种实施例的结构示意图；

图3是本发明提供的一种文本自动标注方法的一种实施例的消息头定义示意图。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，图1是本发明提供的一种文本自动标注方法的一种实施例的流程示意图，如图1所示，该方法包括步骤101－步骤104，具体如下：

步骤101：当检测到业务对象工作系统工作时，获取所述业务对象工作系统的实时工作数据。

本实施例中，在检测业务对象工作系统工作前，根据预设的业务规则对浏览器扩展插件进行数据收集设置和过滤规则设置，先通过对需要进行检测的业务对象的工作系统的地址、业务收集规则和过滤规则进行整理，再将整理好的业务数据收集规则和过滤规则进行转化，形成浏览器扩展插件的配置参数，将配置好参数的浏览器扩展插件安装到浏览器内，启动安装好浏览器扩展插件的浏览器，输入业务对象工作系统的地址对业务对象工作系统进行访问，浏览器内的浏览器扩展插件根据配置的访问规划，自动进行加载并在浏览器后台运行，当业务对象工作系统被使用者操作的过程中，浏览器扩展插件不间断的监控并获取业务对象工作系统产生的实时数据。作为本实施例中的一种优先方案，通过浏览器的Plugin extension技术，无需与业务对象工作系统进行开发对接，能够快速切入并对业务对象工作系统工作过程的数据进行实时获取。

步骤102：对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据。

本实施例中，浏览器扩展插件对获取的业务对象系统的实时工作数据进行html标签清除，使用正则匹配的方式对清除html标签后的实时工作数据中的所有标签进行替换，以使实时工作数据只保留文本数据；其中，去除标签的正则表达式为：/<\/？.+？\/？>/g；根据步骤101设置的过滤规则对文本数据进行筛选和过滤，获取文本数据中没有标注的第一工作数据。

步骤103：将所述第一工作数据发送到NLP处理单元中，以使所述NLP处理单元对所述第一工作数据进行标注处理，生成所述第一工作数据所对应的第一标注数据。

本实施例中，浏览器扩展插件将步骤102中获取的文本数据中没有标注的第一工作数据通过Websocket协议发送到NLP处理单元，其中，Websocket协议发送给NLP处理模块的消息格式定义为至少包含消息头和获取的文本数据中没有标注的第一工作数据，以保证传输数据的完整性和可靠性，作为本实施例中的一种举例，消息头格式的定义如图3所示，包括消息说明和消息长度。

本实施例中，NLP处理单元接收到第一工作数据后，按照图3的消息头格式定义的对象标识来决定数据对象类型，并拆分出的第一工作数据中对应的内容进行打标处理，作为本实施例的一种举例，消息头格式定义的对象标识是一个枚举值，具体的枚举值的定义根据不同业务进行配置，如消息头格式定义的对象标识将数据的对象类型标识为在线客服业务时，根据用户的消息确认客户应答的内容是否只正确，从而对应答的内容进行达标，对于不同的对象类型，对消息处理的方式不同。通过中文分词及词性分析采用映射或词嵌入技术将拆分出的第一工作数据中的一个单词映射或嵌入到另一个数值向量空间，即将一个单词转换为用固定长度的向量表示。将同类的第一工作数据经中文分词和词性分析处理后，转换为第一向量集，将第一向量集输入到语义匹配模型中，以使语义匹配模型对第一向量集进行分析，完成对第一向量集的标注，生成第一工作数据所对应的第一标注数据。

作为本实施例的一种优选方案将第一标注数据通过Elasticsearch全文检索引擎，与已标注的数据进行匹配，将匹配成功的样例归集在一起，若对于第一标注的数据找不到相同分类的，则将第一标注数据以新分类插入数据库中，从而持续对语义匹配模型进行迭代学习的优化。

步骤104：获取所述NLP处理单元生成的所述第一标注数据，并将所述第一标注数据发送到所述业务对象工作系统，以使将所述第一标注数据实时应用到所述业务对象工作系统。

本实施例中，浏览器的扩展插件获取NLP处理单元生成的第一工作数据所对应的第一标注数据后，将第一标注数据直接发送到业务对象工作系统，使第一标注数据直接应用到业务对象工作系统。

参见图2，图2是本发明提供的一种文本自动标注装置的一种实施例的结构示意图，如图2所示，该结构包括第一获取模块201、第二获取模块202、发送模块203、数据应用模块204，具体如下：

其中，所述第一获取模块201用于当检测到业务对象工作系统工作时，获取所述业务对象工作系统的实时工作数据。

本实施例中，在第一获取模块201检测业务对象工作系统工作前，还设置有设置模块用于根据预设的业务规则对浏览器扩展插件进行数据收集设置和过滤规则设置，先通过对需要进行检测的业务对象的工作系统的地址、业务收集规则和过滤规则进行整理，再将整理好的业务数据收集规则和过滤规则进行转化，形成浏览器扩展插件的配置参数，将配置好参数的浏览器扩展插件安装到浏览器内。第一获取模块201启动安装好浏览器扩展插件的浏览器，输入业务对象工作系统的地址对业务对象工作系统进行访问，浏览器内的浏览器扩展插件根据配置的访问规划，自动进行加载并在浏览器后台运行，当业务对象工作系统被使用者操作的过程中，浏览器扩展插件不间断的监控并获取业务对象工作系统产生的实时数据。作为本实施例中的一种优先方案，通过浏览器的Plugin extension技术，无需与业务对象工作系统进行开发对接，能够快速切入并对业务对象工作系统工作过程的数据进行实时获取。

所述第二获取模块202用于对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据。

本实施例中，第二获取模块202使浏览器扩展插件对获取的业务对象系统的实时工作数据进行html标签清除，使用正则匹配的方式对清除html标签后的实时工作数据中的所有标签进行替换，以使实时工作数据只保留文本数据；其中，去除标签的正则表达式为：/<\/？.+？\/？>/g；根据第一获取模块201设置的过滤规则对文本数据进行筛选和过滤，获取文本数据中没有标注的第一工作数据。

所述发送模块203用于将所述第一工作数据发送到NLP处理单元中，以使所述NLP处理单元对所述第一工作数据进行标注处理，生成所述第一工作数据所对应的第一标注数据。

本实施例中，发送模块203使浏览器扩展插件将第二获取模块202中获取的文本数据中没有标注的第一工作数据通过Websocket协议发送到NLP处理单元，其中，Websocket协议发送给NLP处理模块的消息格式定义为至少包含消息头和获取的文本数据中没有标注的第一工作数据，以保证传输数据的完整性和可靠性，作为本实施例中的一种举例，消息头格式的定义如图3所示，包括消息说明和消息长度。

所述数据应用模块204用于获取所述NLP处理单元生成的所述第一标注数据，并将所述第一标注数据发送到所述业务对象工作系统，以使将所述第一标注数据实时应用到所述业务对象工作系统。

本实施例中，数据应用模块204使浏览器的扩展插件获取NLP处理单元生成的第一工作数据所对应的第一标注数据后，将第一标注数据直接发送到业务对象工作系统，使第一标注数据直接应用到业务对象工作系统。

本实施例中还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如步骤101至104任意一项所述的文本自动标注方法。

本实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如步骤101至104中任意一项所述的文本自动标注方法。

综上，本发明一种文本自动标注方法、装置、终端及存储介质，通过当检测到业务对象工作系统工作时，获取所述业务对象工作系统的实时工作数据；对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据；将所述第一工作数据发送到NLP处理单元中，以使所述NLP处理单元对所述第一工作数据进行标注处理，生成所述第一工作数据所对应的第一标注数据；获取所述NLP处理单元生成的所述第一标注数据，并将所述第一标注数据发送到所述业务对象工作系统，以使将所述第一标注数据实时应用到所述业务对象工作系统。相对于现有技术，通过对实时数据进行自动收集和标注，降低了对人工的依赖性，能实时应对新变化，提高了工作效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种文本自动标注方法，其特征在于，包括：

2.如权利要求1所述的一种文本自动标注方法，其特征在于，在检测到业务对象工作系统工作前，还包括：

根据预设的业务规则进行数据收集设置和过滤规则设置。

3.如权利要求2所述的一种文本自动标注方法，其特征在于，所述对所述实时工作数据进行分析处理，获取所述实时工作数据中没标注的第一工作数据，具体为：

4.如权利要求1所述的一种文本自动标注方法，其特征在于，所述NLP处理单元对所述第一工作数据进行标注处理，具体为：

5.一种文本自动标注装置，其特征在于，包括：第一获取模块、第二获取模块、发送模块、数据应用模块；

6.如权利要求5所述的一种文本自动标注装置，其特征在于，所述第一获取模块用于在检测到业务对象工作系统工作前，还包括：设置模块；

7.如权利要求6所述的一种文本自动标注装置，其特征在于，所述第二获取模块包括清除单元和处理单元；

8.如权利要求5所述的一种文本自动标注装置，其特征在于，所述发送模块用于使所述NLP处理单元对所述第一工作数据进行标注处理，具体为：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述的文本自动标注方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的文本自动标注方法。