CN112199084B

CN112199084B - 基于Django的文本标注平台

Info

Publication number: CN112199084B
Application number: CN202011138791.6A
Authority: CN
Inventors: 孙科; 汪兆川; 任文波
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-07-18
Anticipated expiration: 2040-10-22
Also published as: CN112199084A

Abstract

本发明涉及一种基于Django的文本标注平台，其中，包括：算法模块、项目模块、用户模块以及标签模块；用户模块用于存储用户信息以及进行登录验证；标签模块对项目的标签进行增、删以及改，不同项目设置不同标签，同一项目标签不可重复，并用于根据标签类型进行标注；算法模块根据打包算法程序，通过项目模块在项目中选择算法，进行预标注模型训练，项目模块将项目已标注数据传入算法模块，训练出预标注模型后，通过项目模块进行预标注，将项目中未标注数据传入预标注模型，算法模块将标注后的数据存入数据库，项目模块在对项目中所有未达标文件进行预标注，预标注完成后在系统界面上查看预标注后的数据。

Description

基于Django的文本标注平台

技术领域

本发明涉及人工智能自然语言技术，特别涉及基于Django的文本标注平台。

背景技术

近几年来，随着人工智能领域的迅速发展，自然语言处理作为人工智能的重要研究方向收到了广泛关注。自然语言处理技术主要用来解决序列标注、分类等问题，其中大部分问题属于监督式学习，需要利用标注数据以训练对应的模型。数据标注过程需要依赖大量人力，通过人工判断的方式对数据进行归类。传统的人工标注通过将数据分发给各个标注人员进行标注，但存在以下缺陷：1.不同人员标注的数据格式可能会出现偏差，不便于统一处理；2.标注速度较慢，且容易出现错标漏标等情况；3.缺乏人员间的协作，没有进行交叉验证；4.管理效率低下，不能对项目进行实时调整；5.没有预标注功能，耗费更多人力。

Django是由Python编写的一个开源的Web应用框架，在Django中，只需少量的代码，Python的程序开发人员就可以轻松地完成一个正式网站所需要的大部分内容，并进一步开发出全功能的Web服务，Django本身基于MVC模型，即Model(模型)+View(视图)+Controller(控制器)设计模式，MVC模式使后续对程序的修改和扩展简化，并且使程序某一部分的重复利用成为可能。

Tensorflow是一种机器学习框架，是一个使用数据流图处理数值计算的开放源代码软件库，被广泛应用于各类机器学习(machine·learning)算法的编程实现，其前身是谷歌的神经网络算法库DistBelief，Tensorflow拥有多层级结构，可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算，被广泛应用于谷歌内部的产品开发和各领域的科学研究。

发明内容

本发明的目的在于提供一种基于Django的文本标注平台，用于解决上述现有技术的问题。

本发明一种基于Django的文本标注平台，其中，包括：算法模块、项目模块、用户模块以及标签模块；用户模块用于存储用户信息以及进行登录验证；标签模块对项目的标签进行增、删以及改，不同项目设置不同标签，同一项目标签不可重复，并用于根据标签类型进行标注；算法模块根据打包算法程序，通过项目模块在项目中选择算法，进行预标注模型训练，项目模块将项目已标注数据传入算法模块，训练出预标注模型后，通过项目模块进行预标注，将项目中未标注数据传入预标注模型，算法模块将标注后的数据存入数据库，项目模块在对项目中所有未达标文件进行预标注，预标注完成后在系统界面上查看预标注后的数据。

本发明基于Python中Django框架和深度学习Tensorflow框架的一个高效率的文本标注平台，确保标注工作的快速化、标准化。

附图说明

图1所示为文本标注平台系统的算法预标注流程图；

图2所示为文本标注平台系统架构模块图；

图3所示为用户登陆模块流程图；

图4所示为权限管理图；

图5所示为算法结构模块图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本系统是基于Django的文本标注平台，图1所示为文本标注平台系统的算法预标注流程图；图2所示为文本标注平台系统架构模块图；图3所示为用户登陆模块流程图；图4所示为权限管理图；图5所示为算法结构模块图。

如图1所示，算法预标注流程包括：将打包算法程序上传至算法模块，通过项目模块在项目中选择算法，进行预标注模型训练，项目模块将该项目已标注数据传入算法模块，训练出预标注模型后，通过项目模块进行预标注，将项目中未标注数据传入预标注模型，算法模块将标注后的数据存入数据库，项目模块在极短时间内对项目中所有未达标文件进行预标注，预标注完成后可在系统界面上查看预标注后的数据。

如图2所示，文本标注平台系统架构，包括用户模块、标签模块、项目模块、算法模块四个模块。

用户模块：标注平台系统也具备用户常用的登录注册模块。

标签模块：用户针对自身的标签模块有增删改查操作。标签模块可对项目的标签进行增、删、改，不同项目标签可以设置不同标签，同一项目标签不可重复。

项目模块：用户针对自身的项目有管理功能以及项目成员的管理

算法模块：将打包算法程序上传至算法模块，进行预标注模型训练，训练出预标注模型后，通过预标注把标注后的数据存入数据库，预标注完成后可在系统界面上查看预标注后的数据。

如图3所示，文本标注平台具备用户常用的登录注册模块，包括用户注册、用户登录、忘记密码以及修改密码以及用户的访问权限等。

如图4所示，用户管理模块中的权限管理将用户角色分为系统角色和项目角色两类；其中系统角色包括：超级管理员和普通用户，项目角色包括：项目管理员和普通用户。

1)超级管理员，权限包括：普通用户的增删改查，项目管理指定，项目的增删改查，算法的增删改查，监控各项目标注进度，对项目中的文书进行上传、下载、删除，对项目标签进行增删改查，查看所有项目的标注数据。

2)普通用户，权限包括：普通用户由超级管理员指定，可以对自身的信息(密码、个人资料)进行增删改查。

3)项目管理员，权限包括：项目管理员由超级管理员指定，可以对项目进行增删改查，添加用户到项目，设置项目中用户对应角色，在项目中对普通用户进行增加、删除操作，训练预标注模型，可通过可视化数据图表监控下辖项目以及项目成员的标注情况，通过可视化数据图表实时监控所有项目的标注情况，各项目之间进行对比，进行全局统筹。

4)项目成员，权限包括：项目成员由项目管理员指定，项目中文本的标记进行增、删，查看自己的标注数据，修改个人信息，查看自己的操作记录。也可通过可视化图表查看自己的所标注标签的分布情况，以及与其他项目成员的进度对比。系统为项目成员配置权限，各项目成员只能查看和操作自己所在项目中的文本，保证了系统的安全性和隔离性。

如图5所示，本平台的预打标算法本实施例使用的是深度学习中的BILSTM-CRF模型算法。

模型的第一层是look-up层，利用预训练或随机初始化的embedding矩阵将句子中的每个字x_i由one-hot向量映射为低维稠密的字向量(character emedding)x_i∈R^d，d是embedding的维度，在输入下一层之前，设置dropout以缓解过拟合。

模型的第二层是双向LSTM层，自动提取句子特征。将一个句子的各个字的charembedding序列(x₁,x₂,…,x_n)作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列与反向LSTM的/>在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列。

(h₁,h₂,…,h_n)∈R^x×m

模型的第三层是CRF层，进行句子级的序列标注。CRF层的参数是一个(k+2)×(k+2)的矩阵A，A_ij表示的是从第i个标签到第j个标签的转移得分，进而为在一个位置进行标注的时候可以利用此前已经标注过的标签，之所以要加2是因为要为句子首部添加一个起初状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y＝(y₁,y₂,…,y_n)，那么模型对句子x的标签等于y的打分为

可以看出整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由LSTM输出的p_i决定，另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率：

模型训练时通过最大化对数似然函数，下式给出了对一个训练样本(x,y^x)的对数似然：

模型在预测过程(解码)时使用动态规划的Vitebi算法来求解最优路径：

进一步的，算法模块包括：算法管理和模型管理，算法管理和模型管理，算法管理包括算法添加，算法修改，算法删除。由系统管理员将机器学习算法打包成exe文件，上传至默认文件夹，由项目管理员在项目中选择算法，进行模型训练，生成训练模型之后可对未标注的文本用模型进行标注。

进一步的，利用关系型数据库存储项目、用户、文本、标签、标注数据，将用户上传的文本文件经过格式转换存入数据库中，用户标注之后，可将标注后文本信息以固定格式导出。

进一步的，在交互页面中以不同颜色区别不同标签，用户能够通过颜色快速区分不同标签，系统设置标签快捷键功能，不需点击鼠标使用键盘快捷键即可给文字打上标签。对于文本中存在的相同词句，可使用全局匹配，点击全局匹配后，用鼠标扫过文字段，之后点击标签，全文中该文字段都会被打上相同标签，例如：点击全局匹配后，鼠标扫过“张三”，选择“学生”标签，全文中所有“张三”均会被打上“学生”标签。

进一步的，对于同一文本，多人可同时操作。在多人共同标注时，一人所标注标签可实时显示在他人的标注页面中，他人可实时对该标记进行修改，通过日志记录每个人的标注过程，对每个标注人员进行评估和回溯。

本发明的效果在于：

1、针对数据格式不统一的问题，本发明使用mysql数据库统一存储，后端控制上传格式，保证了数据结构化，文本数据以同一格式导出，减少了转化数据格式带来的时间和人力成本；

2、针对标注速度的问题，系统设计了友好的交互界面，标签以不同颜色区分，减少人员查找时间，设置了标签快捷键，鼠标和键盘配合快速标注；全局匹配功能，一键全局匹配，完成全文相同文字的标注，大大提高了标注效率；

3、针对难以协作的问题，系统提供了多人同时标注平台，多个项目成员可同时对同一文本进行标注，相互纠错，相互验证，设置日志功能，通过查看日志，可回溯标注过程，保证了标注的准确度，避免出现错标漏标的情况；

4、针对管理效率低下问题，系统设置了系统管理员和项目管理员，通过数据可视化面板，可实时对项目进度进行监控和管理，能够做到统筹全局和精细化管理相结合；通过权限控制，保证了项目间数据的隔离性以及数据的安全性，提高了管理效率；

5、对比传统手工文本标注方式，新增了使用算法进行预标注功能，标注人员只需标注少量样本，通过上传算法，后端将已打标数据传入算法，训练出算法模型，获取未打标数据传入模型，便可对项目中未标注的文本进行预标注，极大提高了标注效率，节省大量人力。不同项目可设置不同标签，上传不同算法，系统的可对不同类型文本完成标注，具有很好的兼容性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Django的文本标注平台，其特征在于，包括：

算法模块、项目模块、用户模块以及标签模块；

用户模块用于存储用户信息以及进行登录验证；

标签模块对项目的标签进行增、删以及改，不同项目设置不同标签，同一项目标签不可重复，并用于根据标签类型进行标注；

算法模块根据打包算法程序，通过项目模块在项目中选择算法，进行预标注模型训练，项目模块将项目已标注数据传入算法模块，训练出预标注模型后，通过项目模块进行预标注，将项目中未标注数据传入预标注模型，算法模块将标注后的数据存入数据库，项目模块在对项目中所有未打标文件进行预标注，预标注完成后在系统界面上查看预标注后的数据；

其中，

预标注算法使用的是深度学习中的BILSTM-CRF模型算法；

深度学习中的BILSTM-CRF模型算法包括：

BILSTM-CRF模型的第一层是look-up层，利用预训练或随机初始化的embedding矩阵将句子中的每个字x_i由one-hot向量映射为低维稠密的字向量x_i∈R^d，d是embedding矩阵的维度；

BILSTM-CRF模型的第二层是双向LSTM层，将一个句子的各个字的char embedding序列(x₁,x₂,…,x_n)作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列与反向LSTM的/>在各个位置输出的隐状态进行按位置拼接/>得到完整的隐状态序列；

(h₁,h₂,…,h_n)∈R^x×m；

BILSTM-CRF模型的第三层是CRF层，进行句子级的序列标注；CRF层的参数是一个(k+2)×(k+2)的矩阵A，A_ij表示的是从第i个标签到第j个标签的转移得分，进而为在一个位置进行标注的时候利用此前已经标注过的标签，如果记一个长度等于句子长度的标签序列y＝(y₁,y₂,…,y_n)，那么模型对句子x的标签等于y的打分为：

整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由LSTM输出的p_i决定，另一部分则由CRF的转移矩阵A决定，利用Softmax得到归一化后的概率：

BILSTM-CRF模型训练时通过最大化对数似然函数，给出了对一个训练样本(x,y^x)的对数似然：

BILSTM-CRF模型在预测过程时使用动态规划的Vitebi算法来求解最优路径：

y^*＝argmaxscore(x,y′)。

2.如权利要求1所述的基于Django的文本标注平台，其特征在于，登录注册模块，用于用户注册、用户登录、忘记密码以及修改密码以及用户的访问权限。

3.如权利要求1所述的基于Django的文本标注平台，其特征在于，用户管理模块中的权限管理将用户角色分为系统角色和项目角色两类；系统角色包括：超级管理员和普通用户，项目角色包括：项目管理员和普通用户。

4.如权利要求3所述的基于Django的文本标注平台，其特征在于，超级管理员权限包括：普通用户的增删改查，项目管理指定，项目的增删改查，算法的增删改查，监控各项目标注进度，对项目中的文书进行上传、下载以及删除，对项目标签进行增删改查，查看所有项目的标注数据。

5.如权利要求3所述的基于Django的文本标注平台，其特征在于，普通用户权限包括：普通用户对自身的信息进行增删改查。

6.如权利要求3所述的基于Django的文本标注平台，其特征在于，项目管理员权限包括：对项目进行增删改查，添加用户到项目，设置项目中用户对应角色，在项目中对普通用户进行增加和删除操作，训练预标注模型，通过可视化数据图表监控下辖项目以及项目成员的标注情况，通过可视化数据图表实时监控所有项目的标注情况，各项目之间进行对比，进行全局统筹。

7.如权利要求3所述的基于Django的文本标注平台，其特征在于，项目成员权限包括：项目成员由项目管理员指定，项目中文本的标记进行增和删，查看自己的标注数据，修改个人信息，查看自己的操作记录，通过可视化图表查看自己的所标注标签的分布情况，以及与其他项目成员的进度对比。