CN112559753A

CN112559753A - 一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架

Info

Publication number: CN112559753A
Application number: CN202110045641.9A
Authority: CN
Inventors: 李传艺; 程琨; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-03-26

Abstract

本发明公开了一种基于业务过程管理技术的自然语言文本处理与分析任务管理框架，包括以下步骤：由用户上传数据集；通过系统进行数据标注，包括发布数据标注任务，众包用户进行标注数据，用户对标注结果进行管理；对数据进行特征计算，包括特征提取、特征计算和特征管理；通过系统实现模型训练，包括模型构建，选择训练数据和特征进行模型训练，选择测试数据进行模型测试；数据批处理，包括设置数据范围、选择模型进行批处理操作、保存数据批处理结果。本发明实现对不同自然语言文本处理任务的统一管理，封装了任务处理过程和数据流程，大大节省了自然语言文本分析时间，提高了自然语言文本处理的工作效率。

Description

一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架

技术领域

本发明涉及一种自然语言文本处理与分析方法，具体涉及一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架，属于自然语言处理、数据挖掘技术领域。

背景技术

自然语言文本挖掘与分析是近年来非常热门的课题，许多国内外专家学者都在这个领域有着非常活跃的研究工作。然而，随着人工智能技术的快速发展，加之数据分析需求的多样性、数据环境的复杂性、数据挖掘处理过程的复杂性、易变性和不可控性等因素的影响，自然语言处理的效率和数据挖掘质量仍无法满足人工智能产业发展的客观需求。因此，构建对自然语言处理与分析任务的管理，不仅可以对自然语言处理过程进行可控，并且可充分利用大数据等平台资源，提高数据分析效率，提供多种算法支持，优化计算资源分配。

自然语言处理涉及众多领域，包括词法分析、句子分析、语义分析、情感分析、文本分类和信息抽取等多种领域类型。词法分析主要包括分词、词性标注、形态分析和词义消歧。词性和词义标注是词法分析的主要任务。词性是词汇最基本的语法属性，使用词性标注便于判定每个词的语法范畴。词义标注和词义消歧主要解决多语境下的词义问题，在多语境下一个词可能会拥有很多含义，但在固定情境下意思往往是确定的。词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。句子分析的主要任务是为了确定句子中各组成成分之间的关系，包括成分句法分析和依存句法分析等。成分句法分析的主要任务在于对给定的句子分析出句子的短语结构句法树，依存句法分析主要分析语言单位内成分之间的依存关系以揭示其句法结构。语义分析在不同的语言单位中有着不同的意义，在词汇层面上语义分析指词义消歧，在句子层面上指语义角色标注，在篇章层面上指共指消解，不同层面的语义有着不同的理解。情感分析又称为倾向性分析，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。情感分析可以挖掘人们对事物的情绪和观点等主观倾向。文本分类是指将载有信息的文本映射到预先给定的某一类或某几类主题的过程。信息抽取是将嵌入在文本中的非结构化信息提取并转化为结构化数据的过程，包括命名实体识别、关系抽取、事件抽取等类型。命名实体识别主要任务是识别文本中具有特定意义的词语如人名、地名、时间等，并将其划分到指定类别的任务。关系抽取是指从文本中检测和识别实体之间具有的某种语义关系，对实体进行连接。事件识别和抽取研究如何从描述事件信息的文本中识别并抽取事件信息并以结构化的形式呈现，包括其发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。除了上述描述的任务类型，还有学者研究了文本摘要、文本排序学习等自然语言处理任务。

虽然这些领域的自然语言处理的实现方式和目的都各不相同，但在处理流程上都有着相同的业务处理过程，自然语言处理流程大致可分为五步：第一步获取数据集。第二步进行数据标注，针对不同的任务类型采取的标注方式也不同，但都是为了获取训练数据。第三步为特征计算，选取对结果具有影响的自变量并进行向量化，表示成计算机可计算的类型。第四步模型训练，包括传统的有监督、半监督和无监督学习模型等，可根据任务的不同需求进行选择。第五步批处理，通过训练得到的模型对未处理的数据进行批量处理，最终完成对数据集的任务处理。综上，一种可扩展、可控制、高效化的自然语言文本处理与分析的任务管理方法是必要的，用于解决对不同自然语言文本处理任务过程复杂多样化难以统一问题。

因此本发明着重描述了一种基于业务过程管理技术的自然语言文本处理与分析任务管理框架。

发明内容

本发明的目的是提供一种基于业务过程管理技术的自然语言文本处理与分析任务管理框架，包括数据集上传，数据标注，特征计算，模型训练和数据批处理。

1.一种基于业务过程管理技术的自然语言文本处理与分析任务的管理框架，其特征在于，包括：

用户角色分为管理员和普通用户，普通用户可以上传数据集、标注数据、执行数据预处理、训练模型、执行数据批处理等操作，管理员拥有普通用户的所有功能，同时可以对普通用用户执行增加、删除、修改、和查询的操作；

框架中定义了多种适用的自然语言处理和分析任务，上传的自然语言文本数据集需满足这些任务的类型，并按照规定格式记录，例如每一条数据需要包括单个语段或多个语段，使用文本文件或者Excel文件存储；

根据上传数据集的类型生成数据标注界面，用户需要配置标注任务并邀请参与者，结束后需要生成标注结果；

用户可以对标注结果数据集中的文本语段定义预处理方式和执行预处理，例如分词、特征计算等；

用户根据数据集预处理结果和数据集分析目标定义机器学习模型，并执行模型训练和测试，最终保存训练好的模型；

用户可以根据训练好的模型对未标注的数据集执行批处理，完成处理和分析目标。

2.根据权利要求1所述的框架，所述框架中定义的多种适用的自然语言处理和分析任务包括：单文本分类、单文本信息抽取、语段内句子排序、双文本匹配、双语段内句子关联分析、单文本与语段内句子关联分析(基于检索的结果排序)，和多种任务组合的任务。

3.根据权利要求1所述的框架，其特征在于根据上传数据集的类型生成数据标注界面，用户需要配置标注任务并邀请参与者，结束后需要生成标注结果包括：

数据上传成功后，框架根据所选分析目标自动构建标注数据库表，为每一个数据集单独生成标注数据库表，数据库表的格式按照分析的目标任务预先定义好；

数据集拥有者可以配置数据标注方式，例如单人标注、多人唯一标注、多人重复标注、多人随机标注等；

数据集拥有者可以配置数据标注目标，例如以某个日期为截止时间，到期后所有人不能标注，也可以使用标注量作为标注目标；

数据集拥有者可以邀请其他用户参与标注，被邀请的用户获得访问标注页面的权限，未被邀请的用户可以通过主动申请权限向数据集拥有者发送标注请求；

数据标注结束后，数据集拥有者可以通过投票方式对标注结果进行质量控制，生成最终的标注结果数据集。

4.根据权利要求1所述的框架，其特征在于用户可以对标注结果数据集中的文本语段定义预处理方式和执行预处理，例如分词、特征计算等包括：

用户可以通过编写代码实现预处理方法，也可以选择框架提供的、自己已经保存的和其他用户公开的预处理方法，对自己的标注数据集进行预处理；

对于一个数据集，可以编写或选择多个不同的预处理方法，构成预处理管道；

预处理管道可以保存和公开，供下次或他人使用；

执行预处理时，可以分步执行，也可以管道为单位一起执行；

预处理后，生成特征数据集，用户下一步的模型训练或者批处理。

5.根据权利要求1所述的框架，其特征在于用户根据数据集预处理结果和数据集分析目标定义机器学习模型，并执行模型训练和测试，最终保存训练好的模型包括：

用户可以通过编写代码实现机器学习模型，或者选择框架提供的、自己保存的和他人公开的机器学习模型；

用户根据需要配置训练数据、验证和测试数据比例；

用户根据需要选择预处理阶段生成的数据集特征，作为训练的特征集；

用户可以通过模型训练页面查看训练过程和训练结果，包括在各个数据集上的表现；

最终用户可以选择保存训练好的模型，用于后续批处理，或者选择重新训练。

6.根据权利要求1所述的框架，其特征在于用户可以根据训练好的模型对未标注的数据集执行批处理，完成处理和分析目标包括：

用户根据分析目标选择已上传的未标注数据集，并使用与训练数据集相同的预处理管道进行预处理，获得该未标注数据集的特征集；

获得特征集后，选择可以使用的已保存的模型，或者是框架提供的、他人公开的模型，对数据集进行批处理；

批处理完成后，用户可以查看批处理结果，并导出数据集。

本发明与现有技术相比，其显著优点是：实现对不同自然语言文本处理任务的统一管理和控制，提供了一站式、可扩展、可定制和黑盒化的自然语言文本处理与分析方法，提供了一站式过程学习、一站式算法学习环境，实现了数据类型可扩展、预处理过程可扩展、应用类型可扩展、算法平台可扩展，实现了标注过程可定制、预处理算法可定制、预处理过程可定制、模型算法可定制，实现了流转细节黑盒化、任务分派黑盒化。

附图说明

图1一种基于业务过程管理技术的自然语言文本处理与分析任务的管理工作流程图

图2一种基于业务过程管理技术的自然语言文本处理与分析任务管理系统总流程图

图3一种基于业务过程管理技术的自然语言文本处理与分析任务管理系统模块图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明概括来说主要包括以下步骤：

步骤(1)上传数据集；

步骤(2)数据标注；

步骤(3)特征计算；

步骤(4)模型训练；

步骤(5)数据批处理；

上述一种基于业务过程管理技术的自然语言文本处理与分析任务管理框架的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.首先由数据发布者在系统按照系统要求数据格式上传数据文件并填写数据信息，数据信息具体包括：数据名称、数据领域、任务类型以及数据描述。系统支持的自然语言处理任务类型包括通用单文本分类、情感分析\意图识别、实体抽取、关系抽取、文本关系分析、文本摘要和文本排序学习，添加任务类型可以确定数据后续进行的分析与处理任务。

2.获取高质量的数据是自然语言处理的第一步，需要将数据标注成机器学习可以使用的数据集，在步骤2中需要对上传的数据进行数据标注。具体步骤是：

步骤(2.1)发布数据标注任务。任务发布者根据数据的任务类型发布数据标注任务，任务包括数据标注任务类型、数据标注截止时间和标注数据。添加数据标注截止时间可以确定数据标注控制在一个有效时间内，截止时间过后不可在标注数据。标注数据是由数据发布者选择需要进行数据标注的数据范围，数据发布者可以将数据分为标注数据集、批处理集，同时可以根据自身需求追加数据标注任务数据和修改截止时间。

步骤(2.2)用户标注数据。在任务发布者发布数据标注任务后，众包用户可以在任务列表选择数据标注任务，根据数据任务类型跳转到对应的数据标注任务模块，用户可以根据每个数据标注任务示例提示说明进行数据标注任务。

步骤(2.3)管理标注结果。任务发布者可以查看和筛选众包用户数据标注结果，通过已完成的标注数据构建训练数据。

3.特征工程是利用数据领域的相关知识来创建能够使模型算法达到最佳性能的特征的过程，是自然语言文本分析与处理的关键，在步骤3中需要对上传的数据进行特征计算。具体步骤是：

步骤(3.1)特征选取。由用户构建能够影响结果的自变量，进行特征定义。

步骤(3.2)特征计算。对构建的特征进行处理，系统提供多种预处理方法，具体有分词、词性标注、TFIDF(Term Frequency-Inverse Document Frequency)向量、关键词、Unigram Pair、Word2Vec(字向量、词向量、句向量、文档向量)、BERT(字向量、句向量、文档向量)和其他自定义特征计算(提供数据访问API，支持特征计算代码在线编写和上传)，对计算好的各类特征进行存储并与数据进行关联。

步骤(3.3)特征管理。筛选已构建的特征。

4.本步骤用标注的训练数据和特征计算结果对模型算法进行训练。具体步骤是：

步骤(4.1)模型构建。针对特定任务类型构建模型算法，用户可以在系统填写模型信息并上传模型代码文件或在线编写模型代码，模型信息具体包括：模型名称、任务类型、模型依赖平台以及模型描述。用户可以根据任务需求对已构建的模型在系统中进行修改。

步骤(4.2)选择训练数据和特征进行模型训练。按照模型支持的任务类型从可用标注数据集，选择其中一个或根据提供的数据访问API组织新的训练数据，包括配置训练集和测试集，为数据集命名。然后选择特征计算结果进行模型训练，生成训练任务，将训练结果与所选择的特征和训练集进行关联。

步骤(4.3)选择测试数据进行模型测试。对已完成训练的模型选择已配置测试集进行模型测试，将测试结果作为本次模型训练的属性并与所选择的特征和测试集进行关联。

5.在批处理任务中，选择可用模型进行数据批处理工作，完成自然语言文本处理工作。具体步骤是：

步骤(5.1)设置数据处理范围。从批处理集中设置处理数据的范围：所有数据或没有真实标签的数据，或者指定数据范围。

步骤(5.2)选择模型进行批处理操作。从可用模型中选择模型进行数据批量处理。

步骤(5.3)保存数据批处理结果。针对不同的模型处理结果使用不同的字段记录，建立批处理结果与模型之间的关联。

6.本发明实施还公开了一种基于业务过程管理技术的自然语言文本处理与分析任务管理系统，如图2所示。所述系统各模块之间关系如图3所示，各模块具体内容如下：

(1)数据管理模块，用于用户上传数据集，需要数据信息具体包括：数据名称、数据领域、任务类型以及数据描述。系统支持的自然语言处理任务类型包括通用单文本分类、情感分析\意图识别、实体抽取、关系抽取、文本关系分析、文本摘要和文本排序学习，添加任务类型可以确定数据后续进行的分析与处理任务。在数据管理模块可查看上传的数据内容，支持对数据内容进行删除、添加、修改操作。

(2)数据标注模块，用于用户发布数据标注任务，众包用户可在任务列表中选择标注任务进行数据标注工作，用户可以对数据标注结果进行管理，包括筛选标注结果，删除标注结果和修改标注结果，可以根据数据标注结果配置训练数据和测试数据。

(3)特征计算模块，对数据进行预处理操作，构建模型训练所需的特征并支持特征计算。对已构建的特征提供统一管理，用户可筛选特征用于模型训练，支持对特征的删除和修改。

(4)模型训练模块，用户可针对特定任务类型构建模型，支持本地模型代码文件上传和在线编写模型代码。对已构建好的模型根据任务类型选择训练数据和特征进行模型训练，对已完成训练的模型支持在线测试，选择测试数据测试模型的性能。提供对模型在线修改功能。

(5)批处理模块，利用已训练好的模型对批处理数据集进行批量处理，用户需要设置批处理数据范围，然后选择支持该任务类型的模型，最后存储批处理结果。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

预处理管道可以保存和公开，供下次或他人使用；

用户根据需要配置训练数据、验证和测试数据比例；

批处理完成后，用户可以查看批处理结果，并导出数据集。