CN112199084B - 基于Django的文本标注平台 - Google Patents

基于Django的文本标注平台 Download PDF

Info

Publication number
CN112199084B
CN112199084B CN202011138791.6A CN202011138791A CN112199084B CN 112199084 B CN112199084 B CN 112199084B CN 202011138791 A CN202011138791 A CN 202011138791A CN 112199084 B CN112199084 B CN 112199084B
Authority
CN
China
Prior art keywords
project
labeling
module
algorithm
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011138791.6A
Other languages
English (en)
Other versions
CN112199084A (zh
Inventor
孙科
汪兆川
任文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN202011138791.6A priority Critical patent/CN112199084B/zh
Publication of CN112199084A publication Critical patent/CN112199084A/zh
Application granted granted Critical
Publication of CN112199084B publication Critical patent/CN112199084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/315Object-oriented languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于Django的文本标注平台,其中,包括:算法模块、项目模块、用户模块以及标签模块;用户模块用于存储用户信息以及进行登录验证;标签模块对项目的标签进行增、删以及改,不同项目设置不同标签,同一项目标签不可重复,并用于根据标签类型进行标注;算法模块根据打包算法程序,通过项目模块在项目中选择算法,进行预标注模型训练,项目模块将项目已标注数据传入算法模块,训练出预标注模型后,通过项目模块进行预标注,将项目中未标注数据传入预标注模型,算法模块将标注后的数据存入数据库,项目模块在对项目中所有未达标文件进行预标注,预标注完成后在系统界面上查看预标注后的数据。

Description

基于Django的文本标注平台
技术领域
本发明涉及人工智能自然语言技术,特别涉及基于Django的文本标注平台。
背景技术
近几年来,随着人工智能领域的迅速发展,自然语言处理作为人工智能的重要研究方向收到了广泛关注。自然语言处理技术主要用来解决序列标注、分类等问题,其中大部分问题属于监督式学习,需要利用标注数据以训练对应的模型。数据标注过程需要依赖大量人力,通过人工判断的方式对数据进行归类。传统的人工标注通过将数据分发给各个标注人员进行标注,但存在以下缺陷:1.不同人员标注的数据格式可能会出现偏差,不便于统一处理;2.标注速度较慢,且容易出现错标漏标等情况;3.缺乏人员间的协作,没有进行交叉验证;4.管理效率低下,不能对项目进行实时调整;5.没有预标注功能,耗费更多人力。
Django是由Python编写的一个开源的Web应用框架,在Django中,只需少量的代码,Python的程序开发人员就可以轻松地完成一个正式网站所需要的大部分内容,并进一步开发出全功能的Web服务,Django本身基于MVC模型,即Model(模型)+View(视图)+Controller(控制器)设计模式,MVC模式使后续对程序的修改和扩展简化,并且使程序某一部分的重复利用成为可能。
Tensorflow是一种机器学习框架,是一个使用数据流图处理数值计算的开放源代码软件库,被广泛应用于各类机器学习(machine·learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief,Tensorflow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究。
发明内容
本发明的目的在于提供一种基于Django的文本标注平台,用于解决上述现有技术的问题。
本发明一种基于Django的文本标注平台,其中,包括:算法模块、项目模块、用户模块以及标签模块;用户模块用于存储用户信息以及进行登录验证;标签模块对项目的标签进行增、删以及改,不同项目设置不同标签,同一项目标签不可重复,并用于根据标签类型进行标注;算法模块根据打包算法程序,通过项目模块在项目中选择算法,进行预标注模型训练,项目模块将项目已标注数据传入算法模块,训练出预标注模型后,通过项目模块进行预标注,将项目中未标注数据传入预标注模型,算法模块将标注后的数据存入数据库,项目模块在对项目中所有未达标文件进行预标注,预标注完成后在系统界面上查看预标注后的数据。
本发明基于Python中Django框架和深度学习Tensorflow框架的一个高效率的文本标注平台,确保标注工作的快速化、标准化。
附图说明
图1所示为文本标注平台系统的算法预标注流程图;
图2所示为文本标注平台系统架构模块图;
图3所示为用户登陆模块流程图;
图4所示为权限管理图;
图5所示为算法结构模块图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本系统是基于Django的文本标注平台,图1所示为文本标注平台系统的算法预标注流程图;图2所示为文本标注平台系统架构模块图;图3所示为用户登陆模块流程图;图4所示为权限管理图;图5所示为算法结构模块图。
如图1所示,算法预标注流程包括:将打包算法程序上传至算法模块,通过项目模块在项目中选择算法,进行预标注模型训练,项目模块将该项目已标注数据传入算法模块,训练出预标注模型后,通过项目模块进行预标注,将项目中未标注数据传入预标注模型,算法模块将标注后的数据存入数据库,项目模块在极短时间内对项目中所有未达标文件进行预标注,预标注完成后可在系统界面上查看预标注后的数据。
如图2所示,文本标注平台系统架构,包括用户模块、标签模块、项目模块、算法模块四个模块。
用户模块:标注平台系统也具备用户常用的登录注册模块。
标签模块:用户针对自身的标签模块有增删改查操作。标签模块可对项目的标签进行增、删、改,不同项目标签可以设置不同标签,同一项目标签不可重复。
项目模块:用户针对自身的项目有管理功能以及项目成员的管理
算法模块:将打包算法程序上传至算法模块,进行预标注模型训练,训练出预标注模型后,通过预标注把标注后的数据存入数据库,预标注完成后可在系统界面上查看预标注后的数据。
如图3所示,文本标注平台具备用户常用的登录注册模块,包括用户注册、用户登录、忘记密码以及修改密码以及用户的访问权限等。
如图4所示,用户管理模块中的权限管理将用户角色分为系统角色和项目角色两类;其中系统角色包括:超级管理员和普通用户,项目角色包括:项目管理员和普通用户。
1)超级管理员,权限包括:普通用户的增删改查,项目管理指定,项目的增删改查,算法的增删改查,监控各项目标注进度,对项目中的文书进行上传、下载、删除,对项目标签进行增删改查,查看所有项目的标注数据。
2)普通用户,权限包括:普通用户由超级管理员指定,可以对自身的信息(密码、个人资料)进行增删改查。
3)项目管理员,权限包括:项目管理员由超级管理员指定,可以对项目进行增删改查,添加用户到项目,设置项目中用户对应角色,在项目中对普通用户进行增加、删除操作,训练预标注模型,可通过可视化数据图表监控下辖项目以及项目成员的标注情况,通过可视化数据图表实时监控所有项目的标注情况,各项目之间进行对比,进行全局统筹。
4)项目成员,权限包括:项目成员由项目管理员指定,项目中文本的标记进行增、删,查看自己的标注数据,修改个人信息,查看自己的操作记录。也可通过可视化图表查看自己的所标注标签的分布情况,以及与其他项目成员的进度对比。系统为项目成员配置权限,各项目成员只能查看和操作自己所在项目中的文本,保证了系统的安全性和隔离性。
如图5所示,本平台的预打标算法本实施例使用的是深度学习中的BILSTM-CRF模型算法。
模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量(character emedding)xi∈Rd,d是embedding的维度,在输入下一层之前,设置dropout以缓解过拟合。
模型的第二层是双向LSTM层,自动提取句子特征。将一个句子的各个字的charembedding序列(x1,x2,…,xn)作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的/>在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列。
(h1,h2,…,hn)∈Rx×m
模型的第三层是CRF层,进行句子级的序列标注。CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,进而为在一个位置进行标注的时候可以利用此前已经标注过的标签,之所以要加2是因为要为句子首部添加一个起初状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y=(y1,y2,…,yn),那么模型对句子x的标签等于y的打分为
可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率:
模型训练时通过最大化对数似然函数,下式给出了对一个训练样本(x,yx)的对数似然:
模型在预测过程(解码)时使用动态规划的Vitebi算法来求解最优路径:
进一步的,算法模块包括:算法管理和模型管理,算法管理和模型管理,算法管理包括算法添加,算法修改,算法删除。由系统管理员将机器学习算法打包成exe文件,上传至默认文件夹,由项目管理员在项目中选择算法,进行模型训练,生成训练模型之后可对未标注的文本用模型进行标注。
进一步的,利用关系型数据库存储项目、用户、文本、标签、标注数据,将用户上传的文本文件经过格式转换存入数据库中,用户标注之后,可将标注后文本信息以固定格式导出。
进一步的,在交互页面中以不同颜色区别不同标签,用户能够通过颜色快速区分不同标签,系统设置标签快捷键功能,不需点击鼠标使用键盘快捷键即可给文字打上标签。对于文本中存在的相同词句,可使用全局匹配,点击全局匹配后,用鼠标扫过文字段,之后点击标签,全文中该文字段都会被打上相同标签,例如:点击全局匹配后,鼠标扫过“张三”,选择“学生”标签,全文中所有“张三”均会被打上“学生”标签。
进一步的,对于同一文本,多人可同时操作。在多人共同标注时,一人所标注标签可实时显示在他人的标注页面中,他人可实时对该标记进行修改,通过日志记录每个人的标注过程,对每个标注人员进行评估和回溯。
本发明的效果在于:
1、针对数据格式不统一的问题,本发明使用mysql数据库统一存储,后端控制上传格式,保证了数据结构化,文本数据以同一格式导出,减少了转化数据格式带来的时间和人力成本;
2、针对标注速度的问题,系统设计了友好的交互界面,标签以不同颜色区分,减少人员查找时间,设置了标签快捷键,鼠标和键盘配合快速标注;全局匹配功能,一键全局匹配,完成全文相同文字的标注,大大提高了标注效率;
3、针对难以协作的问题,系统提供了多人同时标注平台,多个项目成员可同时对同一文本进行标注,相互纠错,相互验证,设置日志功能,通过查看日志,可回溯标注过程,保证了标注的准确度,避免出现错标漏标的情况;
4、针对管理效率低下问题,系统设置了系统管理员和项目管理员,通过数据可视化面板,可实时对项目进度进行监控和管理,能够做到统筹全局和精细化管理相结合;通过权限控制,保证了项目间数据的隔离性以及数据的安全性,提高了管理效率;
5、对比传统手工文本标注方式,新增了使用算法进行预标注功能,标注人员只需标注少量样本,通过上传算法,后端将已打标数据传入算法,训练出算法模型,获取未打标数据传入模型,便可对项目中未标注的文本进行预标注,极大提高了标注效率,节省大量人力。不同项目可设置不同标签,上传不同算法,系统的可对不同类型文本完成标注,具有很好的兼容性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种基于Django的文本标注平台,其特征在于,包括:
算法模块、项目模块、用户模块以及标签模块;
用户模块用于存储用户信息以及进行登录验证;
标签模块对项目的标签进行增、删以及改,不同项目设置不同标签,同一项目标签不可重复,并用于根据标签类型进行标注;
算法模块根据打包算法程序,通过项目模块在项目中选择算法,进行预标注模型训练,项目模块将项目已标注数据传入算法模块,训练出预标注模型后,通过项目模块进行预标注,将项目中未标注数据传入预标注模型,算法模块将标注后的数据存入数据库,项目模块在对项目中所有未打标文件进行预标注,预标注完成后在系统界面上查看预标注后的数据;
其中,
预标注算法使用的是深度学习中的BILSTM-CRF模型算法;
深度学习中的BILSTM-CRF模型算法包括:
BILSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量xi∈Rd,d是embedding矩阵的维度;
BILSTM-CRF模型的第二层是双向LSTM层,将一个句子的各个字的char embedding序列(x1,x2,…,xn)作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的/>在各个位置输出的隐状态进行按位置拼接/>得到完整的隐状态序列;
(h1,h2,…,hn)∈Rx×m
BILSTM-CRF模型的第三层是CRF层,进行句子级的序列标注;CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,进而为在一个位置进行标注的时候利用此前已经标注过的标签,如果记一个长度等于句子长度的标签序列y=(y1,y2,…,yn),那么模型对句子x的标签等于y的打分为:
整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定,利用Softmax得到归一化后的概率:
BILSTM-CRF模型训练时通过最大化对数似然函数,给出了对一个训练样本(x,yx)的对数似然:
BILSTM-CRF模型在预测过程时使用动态规划的Vitebi算法来求解最优路径:
y*=argmaxscore(x,y′)。
2.如权利要求1所述的基于Django的文本标注平台,其特征在于,登录注册模块,用于用户注册、用户登录、忘记密码以及修改密码以及用户的访问权限。
3.如权利要求1所述的基于Django的文本标注平台,其特征在于,用户管理模块中的权限管理将用户角色分为系统角色和项目角色两类;系统角色包括:超级管理员和普通用户,项目角色包括:项目管理员和普通用户。
4.如权利要求3所述的基于Django的文本标注平台,其特征在于,超级管理员权限包括:普通用户的增删改查,项目管理指定,项目的增删改查,算法的增删改查,监控各项目标注进度,对项目中的文书进行上传、下载以及删除,对项目标签进行增删改查,查看所有项目的标注数据。
5.如权利要求3所述的基于Django的文本标注平台,其特征在于,普通用户权限包括:普通用户对自身的信息进行增删改查。
6.如权利要求3所述的基于Django的文本标注平台,其特征在于,项目管理员权限包括:对项目进行增删改查,添加用户到项目,设置项目中用户对应角色,在项目中对普通用户进行增加和删除操作,训练预标注模型,通过可视化数据图表监控下辖项目以及项目成员的标注情况,通过可视化数据图表实时监控所有项目的标注情况,各项目之间进行对比,进行全局统筹。
7.如权利要求3所述的基于Django的文本标注平台,其特征在于,项目成员权限包括:项目成员由项目管理员指定,项目中文本的标记进行增和删,查看自己的标注数据,修改个人信息,查看自己的操作记录,通过可视化图表查看自己的所标注标签的分布情况,以及与其他项目成员的进度对比。
CN202011138791.6A 2020-10-22 2020-10-22 基于Django的文本标注平台 Active CN112199084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011138791.6A CN112199084B (zh) 2020-10-22 2020-10-22 基于Django的文本标注平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011138791.6A CN112199084B (zh) 2020-10-22 2020-10-22 基于Django的文本标注平台

Publications (2)

Publication Number Publication Date
CN112199084A CN112199084A (zh) 2021-01-08
CN112199084B true CN112199084B (zh) 2023-07-18

Family

ID=74012338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011138791.6A Active CN112199084B (zh) 2020-10-22 2020-10-22 基于Django的文本标注平台

Country Status (1)

Country Link
CN (1) CN112199084B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157978B (zh) * 2021-01-15 2023-03-28 浪潮云信息技术股份公司 数据的标签建立方法和装置
CN113506075A (zh) * 2021-06-01 2021-10-15 大箴(杭州)科技有限公司 一种数据标注方法及装置、存储介质、计算机设备
CN113408290A (zh) * 2021-06-29 2021-09-17 山东亿云信息技术有限公司 一种针对中文文本的智能标注方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096480A (zh) * 2019-03-28 2019-08-06 厦门快商通信息咨询有限公司 一种文本标注系统、方法及存储介质
CN110309216A (zh) * 2019-05-10 2019-10-08 焦点科技股份有限公司 一种基于文本分类的客服语音质检方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10520782B2 (en) * 2017-02-02 2019-12-31 James David Busch Display devices, systems and methods capable of single-sided, dual-sided, and transparent mixed reality applications
CN108280062A (zh) * 2018-01-19 2018-07-13 北京邮电大学 基于深度学习的实体和实体关系识别方法及装置
US11847574B2 (en) * 2018-05-04 2023-12-19 Zestfinance, Inc. Systems and methods for enriching modeling tools and infrastructure with semantics
US20190354919A1 (en) * 2018-08-06 2019-11-21 Farrukh Mahboob Methods and systems for automating package handling tasks through deep-learning based package label parsing
CN110209824B (zh) * 2019-06-13 2021-06-22 中国科学院自动化研究所 基于组合模型的文本情感分析方法、系统、装置
CN110795072B (zh) * 2019-10-16 2021-10-29 北京航空航天大学 一种基于群体智能的群智竞赛平台框架系统及方法
CN111274817A (zh) * 2020-01-16 2020-06-12 北京航空航天大学 一种基于自然语言处理技术的智能化软件成本度量方法
CN111325029B (zh) * 2020-02-21 2023-08-22 河海大学 一种基于深度学习集成模型的文本相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096480A (zh) * 2019-03-28 2019-08-06 厦门快商通信息咨询有限公司 一种文本标注系统、方法及存储介质
CN110309216A (zh) * 2019-05-10 2019-10-08 焦点科技股份有限公司 一种基于文本分类的客服语音质检方法

Also Published As

Publication number Publication date
CN112199084A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112199084B (zh) 基于Django的文本标注平台
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
Song et al. Bi-modal progressive mask attention for fine-grained recognition
CN111078875B (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
CN112214995A (zh) 用于同义词预测的分层多任务术语嵌入学习
US20080227079A1 (en) Method, Apparatus and Computer Program Code for Automation of Assessment Using Rubrics
López et al. From process models to chatbots
US20200387635A1 (en) Anonymization of heterogenous clinical reports
Bantilan et al. Just in time crisis response: suicide alert system for telemedicine psychotherapy settings
CN110377560A (zh) 一种简历信息的结构化方法及装置
Rivas Deep Learning for Beginners: A beginner's guide to getting up and running with deep learning from scratch using Python
US20230137209A1 (en) Counterfactual Text Stylization
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
Hopkins et al. ReadMe: Software for automated content analysis
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
Shen et al. A joint model for multimodal document quality assessment
CN111581972A (zh) 文本中症状和部位对应关系识别方法、装置、设备及介质
Cutrona et al. Semantically-enabled optimization of digital marketing campaigns
KR20240012245A (ko) 자연어처리 기반의 인공지능 모델을 이용한 faq를 자동생성하기 위한 방법 및 이를 위한 장치
Jeon et al. Extraction of construction quality requirements from textual specifications via natural language processing
CN112036189A (zh) 一种金文语义识别方法和系统
Lamba et al. Text Mining for Information Professionals
CN113868419A (zh) 基于人工智能的文本分类方法、装置、设备及介质
US11880798B2 (en) Determining section conformity and providing recommendations
WO2022262113A1 (zh) 基于rpa及ai的信息抽取方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant