CN111783391A - 一种在线人工文本标记系统及方法 - Google Patents
一种在线人工文本标记系统及方法 Download PDFInfo
- Publication number
- CN111783391A CN111783391A CN202010469009.2A CN202010469009A CN111783391A CN 111783391 A CN111783391 A CN 111783391A CN 202010469009 A CN202010469009 A CN 202010469009A CN 111783391 A CN111783391 A CN 111783391A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- marking
- text
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000003058 natural language processing Methods 0.000 claims abstract description 50
- 238000003908 quality control method Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 27
- 238000007726 management method Methods 0.000 claims description 40
- 230000003993 interaction Effects 0.000 claims description 30
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000013480 data collection Methods 0.000 claims description 13
- 238000013475 authorization Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013499 data model Methods 0.000 claims description 3
- 238000013523 data management Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种在线人工文本标记系统及方法,其特征在于:系统包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块。实施本发明的技术方案可解决现有技术中缺乏自动数据管理、纯人工标记效率低、正确率低、缺少多类型文本标记支持的技术问题;方法上通过自动标记服务对于文本源进行结构化预处理以及自动标记程序,通过自然语言处理算法配合质量控制模块以及人工干预,可实现在线进行高效、高正确率、提供自动数据管理和多场景应用的技术效果。
Description
技术领域
本发明涉及数据工程领域、自然语言处理领域和计算机辅助系统领域,特别涉及一种在线人工文本标记系统及方法。
背景技术
文本标记工具的基本功能是对自然语言文本(以下简称为“文本”)中的要素进行标记,其目的是在保证正确性和效率的前提下,对文本中的要素(包括但不限于分词、实体、关系、补全成分)进行标记,并生成包含文本和标记信息的数据。
一般地,在线浏览器-服务器方式的手工标记工具,即所有文本要素的标记都需要由人工操作完成,标记的校对审核也由人工操作完成。其结构组成包括:后台服务器,前端可视化模块。这种方式的主要问题在于以下缺点:1、效率低。纯手工标记方式依赖于标记人员的熟练度,标记大量数据需要投入极高的人力成本和时间成本。2、无法保证正确性。纯手工标记式的数据质量完全依赖于人工审核,有些平台的审核过程只能在平台外部实现。这种方式不仅效率低下,也容易由人为错误而误判,甚至引入新的错误。
现有的文本标记平台主要有Brat,Anafora等。它们除了以上的缺点以外,还存在以下不足:1、可以标记的文本要素固定且有限。上述标记平台只支持简单实体标记和简单关系标记,不支持如分词和文本补全等其他文本要素的标记。2、不支持自动数据管理。所有涉及到的数据都需要手动配置和管理,由系统管理员配置任务以及导出标记数据。科研和工程人员在解决这些问题的时候往往需要结合多种工具或者根据实际需求进行二次开发,费时费力。
故,需要一种能够在线进行高效、高正确率、提供自动数据管理和多场景应用的自动文本标记系统和方法。
发明内容
为了解决上述技术问题,本发明中披露了一种在线人工文本标记系统及方法,的技术方案是这样实施的:
一种在线人工文本标记系统,包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块;其中:
所述文本数据搜集及预处理模块接收外部的文本源,按照服务器模块产生的文本需求对于所述文本源进行结构化处理,产生符合所述数据模型的所述待标记数据并存储所述待标记数据于所述数据库;
所述服务器模块从所述数据库中获得所述待标记数据,通过调用所述自然语言处理工具库的自然语言处理标记服务进行自动标记生产所述自动标记数据,并存储所述自动标记数据在所述数据库;
所述操作模块为可视化操作界面,包括数据处理互动模块,所述数据处理互动模块接收所述服务器模块中的所述待标记数据和所述自动标记数据,并用以显示、编辑和向所述服务器模块发送所述待标记数据和所述自动标记数据。
优选地,所述操作模块为图形化前端模块或客户端模块,还包括:
任务管理交互模块,用以录入任务信息和操作记录并向服务器模块发送;
用户管理交互模块,用以录入用户信息并向服务器模块发送;
标记工具交互模块,用以录入人为编辑待标记数据和人为标记数据并向服务器模块发送。
优选地,所述服务器模块包括:
自动标记模块,通过使用所述自然语言处理工具库所提供的自动标记服务对于所述待标记数据和/或所述人为编辑待标记数据进行标记处理产生所述自动标记数据,并将所述自动标记数据发送并存储于所述数据库;
标记内容管理模块,接收所述任务管理交互模块所列举的任务生成业务数据和所述文本需求,将所述业务数据发送并存储于所述数据库,将所述文本需求发送给所述文本数据搜集及预处理模块;
质量控制模块,对于所述待标记数据、所述自动标记数据、所述人为编辑待标记数据和所述人为标记数据采取质量控制方法对标记数据进行评价处理产生评价阈值,若所述评价阈值满足质量控制流程结束,否则向所述数据处理互动模块反馈所述评价阈值;
用户管理模块,用以接收所述用户信息并将所述用户信息所述数据库。
优选地,所述数据库包括:
标记文本存储模块,以存储来自所述自动标记模块的所述操作记录、所述待标记数据和所述自动标记数据;
业务信息存储模块,用以存储来自所述标记内容管理模块产生的业务数据;
系统日志存储模块,用以存储包括所述用户信息、异常信息和所述操作记录。
优选地,还包括外部接口模块,所述外部接口模块从所述服务器模块获得自然语言处理标记服务并对外提供接口。
优选地,外部接口模块还包括授权管理模块,所述授权管理模块对于外部接口模块的访问进行授权管理。
优选地,所述自然语言处理工具库还包括自动更新模块,所述自动更新模块能够根据所述数据库中的所述待标记数据和所述自动标记数据对于所述自然语言处理工具库中的算法进行更新处理。
基于上述之一的在线人工文本标记系统的一种在线人工文本标记方法,其特征在于,包括如下步骤:
S1:用户通过所述操作模块向所述服务器模块提出所述文本需求和质量控制阈值,所述文本数据搜集及预处理模块通过所述服务器模块提供的所述文本需求对于所述文本源所提供的文本机构化处理,产生结构化文本数据的所述待标记数据,并存储所述待标记数据于所述数据库,执行S2;
S2:所述服务器模块从所述数据库中读取所述待标记数据,通过使用所述自然语言处理工具库所提供的自然语言处理标记服务对于所述待标记数据进行标记处理产生所述自动标记数据,执行S3;
S3:所述服务器模块对于所述自动标记数据进行质量控制评价处理产生评价阈值,若所述评价阈值符合所述质量控制阈值范围则执行S5,否则执行S4;
S4:所述服务器模块向所述操作模块发送所述评价阈值并重新执行S1;
S5:所述服务器模块发送所述自动标记数据到所述数据库,所述数据库存储所述自动标记数据;所述服务器模块向所述操作模块发送所述自动标记数据,所述操作模块向用户展示所述自动标记数据,结束标记方法。
优选地,还包括S0和S6,
S0:用户通过登录用户账号对于系统进行操作;
S6:所述服务器模块对于本次标记步骤进行记录产生所述业务数据,发送所述业务数据到所述数据库,数据库对于所述业务数据进行储存。
实施本发明的技术方案可解决现有技术中缺乏自动数据管理、纯人工标记效率低、正确率低、缺少多类型文本标记支持的技术问题;实施本发明的技术方案,通过自动标记服务对于文本源进行结构化预处理以及自动标记程序,通过自然语言处理算法配合质量控制模块以及人工干预,可实现在线进行高效、高正确率、提供自动数据管理和多场景应用的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种在线人工文本标记系统的系统结构图;
图2为一种在线人工文本标记方法的标记流程;
图3为一种在线人工文本标记方法的质量控制流程;
图4为一种在线人工文本标记方法的文本数据搜集及预处理流程;
图5为一种在线人工文本标记方法的任务管理和发布流程;
图6为一种在线人工文本标记方法的用户操作流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
在一种具体实施例中,一种在线人工文本标记系统,包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块;其中:
文本数据搜集及预处理模块接收外部的文本源,按照服务器模块产生的文本需求对于文本源进行结构化处理,产生符合数据模型的待标记数据并存储待标记数据于数据库;
服务器模块从数据库中获得待标记数据,通过调用自然语言处理工具库的自然语言处理标记服务进行自动标记生产自动标记数据,并存储自动标记数据在数据库;
操作模块为可视化操作界面,包括数据处理互动模块,数据处理互动模块接收服务器模块中的待标记数据和自动标记数据,并用以显示、编辑和向服务器模块发送待标记数据和自动标记数据。
优选地,操作模块为图形化前端模块或客户端模块,还包括:
任务管理交互模块,用以录入任务信息和操作记录并向服务器模块发送;
用户管理交互模块,用以录入用户信息并向服务器模块发送;
标记工具交互模块,用以录入人为编辑待标记数据和人为标记数据并向服务器模块发送。
优选地,服务器模块包括:
自动标记模块,通过使用自然语言处理工具库所提供的自动标记服务对于待标记数据和/或人为编辑待标记数据进行标记处理产生自动标记数据,并将自动标记数据发送并存储于数据库;
标记内容管理模块,接收任务管理交互模块所列举的任务生成业务数据和文本需求,将业务数据发送并存储于数据库,将文本需求发送给文本数据搜集及预处理模块;
质量控制模块,对于待标记数据、自动标记数据、人为编辑待标记数据和人为标记数据采取质量控制方法对标记数据进行评价处理产生评价阈值,若评价阈值满足质量控制流程结束,否则向数据处理互动模块反馈评价阈值;
用户管理模块,用以接收用户信息并将用户信息数据库。
优选地,数据库包括:
标记文本存储模块,以存储来自自动标记模块的操作记录、待标记数据和自动标记数据;
业务信息存储模块,用以存储来自标记内容管理模块产生的业务数据;
系统日志存储模块,用以存储包括用户信息、异常信息和操作记录。
优选地,还包括外部接口模块,外部接口模块从服务器模块获得自然语言处理标记服务并对外提供接口。
优选地,外部接口模块还包括授权管理模块,授权管理模块对于外部接口模块的访问进行授权管理。
优选地,自然语言处理工具库还包括自动更新模块,自动更新模块能够根据数据库中的待标记数据和自动标记数据对于自然语言处理工具库中的算法进行更新处理。
在一种具体实施例中,如附图图1所示,系统一共分为六个模块:自然语言处理工具库(110)、数据库(120)、文本数据搜集及预处理模块(130)、服务器模块(140)、外部接口模块(160)以及图形化前端或客户端模块的操作模块(170)。其中公开或授权的文本源(150)可以由现有的各类网站以及数据源作为数据源头提供文本,因而不属于系统架构范畴之内。自然语言处理工具库(110)向服务器模块(140)提供自然语言处理服务,并根据数据库(120)内对应数据更新其算法和模型。数据库(120)存储系统内部相关数据。文本数据搜集及预处理模块(130)根据服务器模(140)的输入的文本需求,从文本源(150)中获取公开文本数据,通过本数据搜集及预处理模块(130)对于文本进行结构化处理,结构化处理完成的数据将会被存入到数据库(120)中。服务器模块(140)从数据库(120)中获取标记数据以及业务数据,通过调用自然语言处理工具库(110)中的自然语言处理服务进行自动标记;操作模块(170)进行标记数据的向数据库(120)的存储以及向操作模块(170)的展示,并根据操作模块(170)提供的标记数据进行质量控制;向操作模块(170)发送任务信息、用户信息,从操作模块(170)接收操作记录。外部接口模块(160)从服务器模块(140)获取自然语言处理服务并根据授权管理模块(161)的授权对外提供接口。操作模块(170)从服务器模块(140)接收任务信息、用户信息及标记数据,提供可视化操作界面,和用户进行交互,进行任务管理,用户管理以及具体的标记任务,并向服务器模块(140)提供标记数据和操作记录。
在本具体实施例中,自动更新模块(111)从数据库(120)中提取待标记文本数据,对自然语言处理工具库(110)中的工具进行更新,因此在框架内配置任意需要的自然语言处理工具,供多种不同应用场景和任务使用,包括但不限于:分词、语法分析、文本补全、实体识别、关系抽取等,能够极大程度上适应不同的自然语言处理场景,克服了现有技术中对于功能不全面。由于服务器模块(140)的引入,能够按照自然语言处理工具库(110)所提供的自然语言处理服务通过自动标记模块(141)实现文本的自动标记,提高标记效率,并对使用的自然语言处理算法或模型进行实时自动更新,不断提高自动标记的准确率使得自动标记进入良性循环。自然语言处理工具库(110)包含一系列自然语言处理工具(包括但不限于算法和模型)并向服务器模块(140)提供自然语言处理服务。
细分的操作模块(170)、服务器模块(140)和数据库(120)能够较为精准的应用于一般应用场景,但是操作模块(170)、服务器模块(140)和数据库(120)的细化并不局限于本实施例中所涉及的方法。外部接口模块(160)的引入不仅能够扩展本发明的功能范围,更能实现多平台的接口通信,从而实现系统资源的最大化利用,方便广大开发者调用进行开发和二次开发。
实施例2:
在一种具体实施例中,基于实施例1的在线人工文本标记系统的一种在线人工文本标记方法,包括如下步骤:
S0:用户通过登录用户账号对于系统进行操作,执行S1;
S1:用户通过操作模块向服务器模块提出文本需求和质量控制阈值,文本数据搜集及预处理模块通过服务器模块提供的文本需求对于文本源所提供的文本机构化处理,产生结构化文本数据的待标记数据,并存储待标记数据于数据库,执行S2;
S2:服务器模块从数据库中读取待标记数据,通过使用自然语言处理工具库所提供的自然语言处理标记服务对于待标记数据进行标记处理产生自动标记数据,执行S3;
S3:服务器模块对于自动标记数据进行质量控制评价处理产生评价阈值,若评价阈值符合质量控制阈值范围则执行S5,否则执行S4;
S4:服务器模块向操作模块发送评价阈值并重新执行S1;
S5:服务器模块发送自动标记数据到数据库,数据库存储自动标记数据;服务器模块向操作模块发送自动标记数据,操作模块向用户展示自动标记数据,执行S6;
S6:所述服务器模块对于本次标记步骤进行记录产生所述业务数据,发送所述业务数据到所述数据库,数据库对于所述业务数据进行储存,结束标记流程。
人工标记及自动标记的标记流程(200)如附图图2所示,用户通过操作模块(170)选择具体任务,服务器模块(140)从数据库(120)中获取对应任务数据,调用自然语言处理工具库(110)的自然语言处理服务处理这些数据,生成初始标记并发送给操作模块(170)。操作模块(170)展示标记数据,通过标记工具交互模块(173)和用户进行交互标记,用户完成修改后提交任务,标记流程结束。
质量控制流程(300)如附图图3所示,服务器模块(140)通过质量控制模块(142)实现质量控制功能。质量控制模块(142)对标记内容进行质量控制,降低数据标记的人为错误,提高标记质量,同时能够为文本数据搜集及预处理模块(130)修正文本需求,从而调整文本数据搜集及预处理模块(130)的结构化文本数据内容。用户结束标记流程之后提交标记任务,操作模块(170)将标记数据发送至服务器模块(140),质量控制模块(142)采取质量控制方法对标记数据进行评价。如果符合质量要求,则服务器模块(140)将标记数据发送至数据库(120)进行存储,质量控制流程结束;否则,服务器(140)将标记数据返回操作模块(170),操作模块(170)向用户展示必要信息,返回标记流程(200)。
文本数据搜集及预处理流程(400)如附图图4所示,文本数据搜集及预处理模块(130)的引入能够在最大程度上兼容外部文本源(150),包括但不限于公开或授权的内容。文本数据搜集及预处理流程(400)服务器模块(140)根据用户配置生成需求,发送至文本数据搜集及预处理模块(130)。文本数据搜集及预处理模块(130)根据该需求从对应的文本源提取公开文本。文本数据搜集及预处理模块(130)对提取的公开文本进行处理,生成符合系统格式的结构化文本数据,然后发送至数据库(120)存储。
任务管理和发布流程(500)如附图图5所示,由于系统搭建并不局限于某特定应用场景,客户可以根据用户实际需求在同一平台内配置多种不同的标记任务,用户管理模块(144)能够实现多个用户以及多个标记任务的并行管理。通过标记内容管理模块(143)对于标记内容进行管理,向数据库(120)或向操作模块(170)进行数据交互。服务器模块(140)通过表及内容管理模块(143)实现多标记任务管理功能。操作模块(170)通过任务管理交互模块(171)与用户交互,获得用户配置的任务信息,并将其传给服务器模块(140)。标记内容管理模块(143)从数据库(120)获取可供选择的标记文本列表,并作为任务信息发送给操作模块(170),用户通过与任务管理交互模块(171)进行交互选择任务列表,或上传新的文本数据作为任务数据的补充。操作模块(170)将这些任务信息以及文本数据传给服务器模块(140),由标记内容管理模块(143)进行汇总并对新上传的文本数据进行预处理,生成对应的业务数据及新的结构化文本。服务器模块(140)将该数据传给数据库(120)存储。其中,业务数据相互独立,因此本发明支持在一套系统内配置多种不同的标记任务。同时,操作模块(170)适配多种图形化前端或客户端以实现跨平台的需求和提供多种不同交互方案的需求。
用户操作流程(600)如附图图6所示,用户通过与操作模块(170)交互进行人工标记。用户首先与操作模块(170)交互登录平台。登陆成功后与任务管理交互模块(171)和用户管理交互模块(172)交互选择需要标记的任务。服务器模块(140)从数据库(120)中提取任务对应的标记数据并进行判断,如果是初次标记,则由自动标记模块(141)调用自然语言处理工具库(110)中的服务将待标记数据中的数据进行自动标记,生成初始标记数据,然后将该数据发送给操作模块(170);否则直接将任务数据发送给操作模块(170)。操作模块(170)获取数据以后通过标记工具交互模块(173)进行展示并和用户进行交互,修改标记内容。在标记结束之前,用户可以和标记工具交互模块(173)进行交互,修改标记数据;或者选择暂存标记进度,此时操作模块(170)向服务器模块(140)发送更新后的标记数据以及相应的操作记录,服务器模块(140)将数据发送至数据库(120)进行存储,当前标记流程结束。当用户结束了标记,选择提交标记数据,则当前标记流程结束。
需要说明的是,自然语言处理工具可采用现有技术中的任意技术方案,与本专利披露的技术方案结合,形成的技术方案,均在本专利的保护范围内。
需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种在线人工文本标记系统,其特征在于:包括自然语言处理工具库、数据库、文本数据搜集及预处理模块、服务器模块和操作模块;其中:
所述文本数据搜集及预处理模块接收外部的文本源,按照服务器模块产生的文本需求对于所述文本源进行结构化处理,产生符合所述数据模型的所述待标记数据并存储所述待标记数据于所述数据库;
所述服务器模块从所述数据库中获得所述待标记数据,通过调用所述自然语言处理工具库的自然语言处理标记服务进行自动标记生产所述自动标记数据,并存储所述自动标记数据在所述数据库;
所述操作模块为可视化操作界面,包括数据处理互动模块,所述数据处理互动模块接收所述服务器模块中的所述待标记数据和所述自动标记数据,并用以显示、编辑和向所述服务器模块发送所述待标记数据和所述自动标记数据。
2.根据权利要求1所述的一种在线人工文本标记系统,其特征在于:所述操作模块为图形化前端模块或客户端模块,还包括:
任务管理交互模块,用以录入任务信息和操作记录并向服务器模块发送;
用户管理交互模块,用以录入用户信息并向服务器模块发送;
标记工具交互模块,用以录入人为编辑待标记数据和人为标记数据并向服务器模块发送。
3.根据权利要求2所述的一种在线人工文本标记系统,其特征在于:所述服务器模块包括:
自动标记模块,通过使用所述自然语言处理工具库所提供的自动标记服务对于所述待标记数据和/或所述人为编辑待标记数据进行标记处理产生所述自动标记数据,并将所述自动标记数据发送并存储于所述数据库;
标记内容管理模块,接收所述任务管理交互模块所列举的任务生成业务数据和所述文本需求,将所述业务数据发送并存储于所述数据库,将所述文本需求发送给所述文本数据搜集及预处理模块;
质量控制模块,对于所述待标记数据、所述自动标记数据、所述人为编辑待标记数据和所述人为标记数据采取质量控制方法对标记数据进行评价处理产生评价阈值,若所述评价阈值满足质量控制流程结束,否则向所述数据处理互动模块反馈所述评价阈值;
用户管理模块,用以接收所述用户信息并将所述用户信息所述数据库。
4.根据权利要求3所述的一种在线人工文本标记系统,其特征在于:所述数据库包括:
标记文本存储模块,以存储来自所述自动标记模块的所述操作记录、所述待标记数据和所述自动标记数据;
业务信息存储模块,用以存储来自所述标记内容管理模块产生的业务数据;
系统日志存储模块,用以存储包括所述用户信息、异常信息和所述操作记录。
5.根据权利要求1所述的一种在线人工文本标记系统,其特征在于:还包括外部接口模块,所述外部接口模块通过所述服务器模块调用所述自然语言处理标记服务,并对外提供接口。
6.根据权利要求5所述的一种在线人工文本标记系统,其特征在于:外部接口模块还包括授权管理模块,所述授权管理模块对于外部接口模块的访问进行授权管理。
7.根据权利要求1所述的一种在线人工文本标记系统,其特征在于:所述自然语言处理工具库还包括自动更新模块,所述自动更新模块能够根据所述数据库中的所述待标记数据和所述自动标记数据对于所述自然语言处理工具库中的算法进行更新处理。
8.基于权利要求1-7之一所述的在线人工文本标记系统的一种在线人工文本标记方法,其特征在于,包括如下步骤:
S1:用户通过所述操作模块向所述服务器模块提出所述文本需求和质量控制阈值,所述文本数据搜集及预处理模块通过所述服务器模块提供的所述文本需求对于所述文本源所提供的文本机构化处理,产生结构化文本数据的所述待标记数据,并存储所述待标记数据于所述数据库,执行S2;
S2:所述服务器模块从所述数据库中读取所述待标记数据,通过使用所述自然语言处理工具库所提供的自然语言处理标记服务对于所述待标记数据进行标记处理产生所述自动标记数据,执行S3;
S3:所述服务器模块对于所述自动标记数据进行质量控制评价处理产生评价阈值,若所述评价阈值符合所述质量控制阈值范围则执行S5,否则执行S4;
S4:所述服务器模块向所述操作模块发送所述评价阈值并重新执行S1;
S5:所述服务器模块发送所述自动标记数据到所述数据库,所述数据库存储所述自动标记数据;所述服务器模块向所述操作模块发送所述自动标记数据,所述操作模块向用户展示所述自动标记数据。
9.根据权利要求8所述的一种在线人工文本标记方法,其特征在于:还包括S0和S6,
S0:用户通过登录用户账号对于系统进行操作;
S6:所述服务器模块对于本次标记步骤进行记录产生所述业务数据,发送所述业务数据到所述数据库,数据库对于所述业务数据进行储存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469009.2A CN111783391B (zh) | 2020-05-28 | 2020-05-28 | 一种在线人工文本标记系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469009.2A CN111783391B (zh) | 2020-05-28 | 2020-05-28 | 一种在线人工文本标记系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783391A true CN111783391A (zh) | 2020-10-16 |
CN111783391B CN111783391B (zh) | 2024-06-07 |
Family
ID=72754336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010469009.2A Active CN111783391B (zh) | 2020-05-28 | 2020-05-28 | 一种在线人工文本标记系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783391B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702704A (zh) * | 2023-08-02 | 2023-09-05 | 南庆(南通)信息科技有限公司 | 一种文档协作的信息标记系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018000269A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种基于数据挖掘和众包的数据标注方法及系统 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
CN110674295A (zh) * | 2019-09-11 | 2020-01-10 | 成都数之联科技有限公司 | 一种基于深度学习的数据标注系统 |
CN111125124A (zh) * | 2019-11-18 | 2020-05-08 | 云知声智能科技股份有限公司 | 一种基于大数据平台的语料标注的方法及装置 |
-
2020
- 2020-05-28 CN CN202010469009.2A patent/CN111783391B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018000269A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种基于数据挖掘和众包的数据标注方法及系统 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
CN110674295A (zh) * | 2019-09-11 | 2020-01-10 | 成都数之联科技有限公司 | 一种基于深度学习的数据标注系统 |
CN111125124A (zh) * | 2019-11-18 | 2020-05-08 | 云知声智能科技股份有限公司 | 一种基于大数据平台的语料标注的方法及装置 |
Non-Patent Citations (1)
Title |
---|
安郝敏: "基于图像分割算法的标注系统的设计与实现", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 01, pages 138 - 1503 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702704A (zh) * | 2023-08-02 | 2023-09-05 | 南庆(南通)信息科技有限公司 | 一种文档协作的信息标记系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111783391B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110942403B (zh) | 用于移动设备的台区拓扑模型台账采集系统和方法 | |
CN103530407B (zh) | 一种富文本文档的生成方法与装置 | |
CN111585344B (zh) | 一种基于全站ied仿真的变电站智能校核方法及装置 | |
CN113312033A (zh) | 一种模板化的协议生成、管理方法 | |
CN112364106A (zh) | 一种自动生成业务拓扑图谱的数据关联可视化方法及系统 | |
CN115221380A (zh) | 一种城建档案的批量管理方法、系统和平台 | |
CN114913376A (zh) | 基于图像的缺陷自动识别方法、装置、系统及存储介质 | |
CN111783391B (zh) | 一种在线人工文本标记系统及方法 | |
CN116894639B (zh) | 一种物联网多信息融合计划管理系统及方法 | |
CN106095740A (zh) | 页面图文报表生成方法和系统 | |
CN111311461B (zh) | 基于b-s的结构化动态病历表单的编辑器及生成方法 | |
WO2018200937A1 (en) | Systems and methods for dynamic risk modeling tagging | |
CN110765610B (zh) | Pdm集成方法、装置、计算机设备及存储介质 | |
CN111506305A (zh) | 工具包生成方法、装置、计算机设备及可读存储介质 | |
CN115509637A (zh) | 一种基于Form表单的智能填报方法、系统、设备及介质 | |
CN112100187B (zh) | 一种基于VueJS的学生学习数据存储方法及装置 | |
CN112052652B (zh) | 一种电子课件脚本自动生成方法及装置 | |
CN111176624B (zh) | 一种流式计算指标的生成方法及装置 | |
CN112612841A (zh) | 一种知识抽取构建方法、装置、设备及存储介质 | |
CN112836033A (zh) | 业务模型的管理方法、装置、设备及存储介质 | |
CN111882419B (zh) | 质检文件的方法、装置及服务器 | |
CN111159988A (zh) | 一种模型处理方法、装置、计算机设备及存储介质 | |
CN111404266A (zh) | 一种远方定值智能比对方法、系统及装置 | |
CN110309497B (zh) | 一种在线签署协议的pdf文件快速生成系统 | |
CN114363311B (zh) | 道岔智能运维监测系统仿真工具的报文上报方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |