CN115758995A - 文档数据的标注方法、装置、计算机设备和存储介质 - Google Patents
文档数据的标注方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115758995A CN115758995A CN202211616332.3A CN202211616332A CN115758995A CN 115758995 A CN115758995 A CN 115758995A CN 202211616332 A CN202211616332 A CN 202211616332A CN 115758995 A CN115758995 A CN 115758995A
- Authority
- CN
- China
- Prior art keywords
- document data
- content area
- task
- labeling
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本申请涉及一种文档数据的标注方法、装置、计算机设备、存储介质和计算机程序产品。其中方法通过响应于对标注任务的发布指令,分发标注任务,并获取对文档数据的标注请求,确定对文档数据标注的目标标签,进而根据对文档数据标注的目标标签,生成与文档数据的数据索引匹配的标注任务的标注结果。由于本实施例基于文档数据的数据索引对标注任务进行分发,从而可以实现多人在线对标注任务协同标注,以提高标注效率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种文档数据的标注方法、装5置、计算机设备、存储介质和计算机程序产品。
背景技术
随着互联网技术的快速发展,各式各样的非结构化的文档型数据越来越多。
在这些非结构化数据中PDF(Portable Document Format,便携式文档格式)类0型的文档尤为突出。如何对这些PDF文档进行信息结构化提取整合显得相当重要。
传统技术中,一般采用模型对PDF文档进行信息结构化提取整合。但是,模型训练需要大量的标注数据支持,而传统的PDF标注工具通常是基于特定的
开源软件,需要在本地安装使用,无法在线多人协同标注,且标注过程繁琐,5不直观,导致标注效率低下。
发明内容
基于此,有必要针对上述传统的PDF标注工具标注效率低的技术问题,提供一种能够提高标注效率的文档数据的标注方法、装置、计算机设备、计算机0可读存储介质和计算机程序产品。
第一方面,本申请提供了一种文档数据的标注方法。所述方法包括:
响应于对标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;5根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
在其中一个实施例中,所述响应于对标注任务的发布指令之前,所述方法还包括:获取标注任务创建请求,所述标注任务创建请求携带有多个待标注的文档数据;根据所述标注任务创建请求生成待标注的所述文档数据的数据索引;根据待标注的所述文档数据和所述数据索引创建标注任务。
在其中一个实施例中,所述获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签,包括:响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息;当检测到所述文档数据标注完成时,根据所述内容区域的标签信息确定所述文档数据的目标标签。
在其中一个实施例中,所述响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息,包括:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;显示预设的任务标签,获取对所述任务标签中目标任务标签的确定操作;根据所述目标任务标签和所述位置信息生成所述内容区域的标签信息。
在其中一个实施例中,所述响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息,包括:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;接收对所述内容区域标注的自定义标签;根据所述自定义标签和所述位置信息生成所述内容区域的标签信息。
在其中一个实施例中,所述响应于对所述文档数据中内容区域的标注请求之前,所述方法还包括:响应于对所述文档数据的展示指令,根据设定的分片大小分片渲染并展示所述文档数据的内容区域。
在其中一个实施例中,所述响应于对所述文档数据中内容区域的标注请求之后,所述方法还包括:识别所述内容区域的文本内容;所述根据所述内容区域的标签信息确定所述文档数据的目标标签,包括:根据所述内容区域的文本内容和标签信息确定所述文档数据的目标标签。
在其中一个实施例中,所述获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签,包括:获取对所述文档数据的标注请求,将所述文档数据输入结构化处理模型,得到处理结果,所述结构化处理模型用于对所述文档数据的内容区域进行结构化整合,所述处理结果包括对所述内容区域进行结构化整合后标注的标签信息和位置信息;将对所述文档数据中所述内容区域标注的标签信息和位置信息确定为所述文档数据的目标标签。
在其中一个实施例中,所述方法还包括:响应于对所述处理结果中内容区域的标签信息或位置信息的修正操作,获取修正信息;根据所述修正信息更新所述内容区域的标签信息或位置信息。
在其中一个实施例中,所述方法还包括:采用所述标注任务的标注结果对所述结构化处理模型进行训练,得到训练后的结构化处理模型。
第二方面,本申请还提供了一种文档数据的标注装置。所述装置包括:
任务分发模块,用于响应于标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
标注模块,用于获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;
标注结果生成模块,用于根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上第一方面所述方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面所述方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面所述方法的步骤。
上述文档数据的标注方法、装置、计算机设备、存储介质和计算机程序产品,通过响应于对标注任务的发布指令,分发标注任务,并获取对文档数据的标注请求,确定对文档数据标注的目标标签,进而根据对文档数据标注的目标标签,生成与文档数据的数据索引匹配的标注任务的标注结果。由于本实施例基于文档数据的数据索引对标注任务进行分发,从而可以实现多人在线对标注任务协同标注,以提高标注效率。
附图说明
图1为一个实施例中文档数据的标注方法的流程示意图;
图2为一个实施例中创建标注任务步骤的流程示意图;
图3为一个实施例中确定目标标签步骤的流程示意图;
图4为一个实施例中获取标签信息步骤的流程示意图;
图5为另一个实施例中获取标签信息步骤的流程示意图;
图6为另一个实施例中确定目标标签步骤的流程示意图;
图7为一个实施例中文档数据的标注装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
由于传统的PDF标注工具一般都基于传统的开源工具(如福晰阅读器)实现,通常需要在本地先安装,只能本地单人单机标注,没法多人协同标注,并且操作比较繁琐,且只能对单一特定的标签做标注(如表格或文本),无法基于特定的任务做定制化的复杂的多标签标注,从而导致标注工作量繁重,标注效率低下。
基于此,本申请提供了一种文档数据的标注方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。如图1所示,本实施例中,该方法可以包括以下步骤:
步骤102,响应于对标注任务的发布指令,分发标注任务。
其中,标注任务是为实现某一标注目标而制定的对文档数据进行标注的任务。标注任务中可以包括多个待标注的文档数据,每个文档数据具有对应的数据索引。具体地,文档数据可以是PDF类型的文档,数据索引则可以是对应PDF文档的标识,其用于区分任务中不同的PDF文档。发布指令则是将标注任务通过网络等形式向外界传输或公开的指示或命令。
在本实施例中,当用户制定标注任务后,可以通过终端发起对标注任务的发布指令,终端则响应于对标注任务的发布指令,并分发标注任务。具体地,终端可以根据标注任务中文档数据对应的数据索引,将标注任务中多个待标注的文档数据分发给不同的标注人员,即不同的标注人员所分到的数据索引不同,对应的文档数据也不同。从而实现多人在线对标注任务协同标注,且能够避免不同标注人员对同一文档数据进行标注的情况。
步骤104,获取对文档数据的标注请求,确定对文档数据标注的目标标签。
其中,标注请求是对文档数据进行标注的请求。目标标签则是基于标注请求而确定的对文档数据标注的标签。具体地,标签可以是对文档数据中具体内容的分类标签,包括但不限于标题、段落、图片、表格、页眉及页脚等。在一种场景下,标签可以携带在对应的标注请求中。
在本实施例中,当终端获取到对文档数据的标注请求后,则可以根据请求中携带的标签而确定对文档数据标注的目标标签。
步骤106,根据对文档数据标注的目标标签,生成与文档数据的数据索引匹配的标注任务的标注结果。
由于每个标注任务中包括多个待标注的文档数据,而每个文档数据又具有对应的数据索引,因此,每个标注任务下多个待标注的文档数据的数据索引与其标注任务具有对应关系。
基于此,在本实施例中,终端可以根据上述确定的对文档数据标注的目标标签,生成与该文档数据的数据索引匹配的标注任务的标注结果。即根据已标注的文档数据,确定与该文档数据的数据索引匹配的标注任务,并将该文档数据的目标标签作为对应的标注任务的标注结果。
上述文档数据的标注方法中,终端通过响应于对标注任务的发布指令,分发标注任务,并获取对文档数据的标注请求,确定对文档数据标注的目标标签,进而根据对文档数据标注的目标标签,生成与文档数据的数据索引匹配的标注任务的标注结果。由于本实施例基于文档数据的数据索引对标注任务进行分发,从而可以实现多人在线对标注任务协同标注,以提高标注效率。
在一个实施例中,如图2所示,在步骤102中,响应于对标注任务的发布指令之前,上述方法还可以包括如下步骤:
步骤202,获取标注任务创建请求。
其中,标注任务创建请求可以是请求终端创建标注任务的指示或命令。具体地,标注任务创建请求中可以携带有多个待标注的文档数据。在一种场景下,标注任务创建请求还可以携带有任务名称、任务描述和任务标签等信息中的至少一种。
在本实施例中,当用户需要创建标注任务时,则可以通过终端发起标注任务创建请求,例如,当用户通过终端上传待标注的文档数据时,则发起标注任务创建请求,终端则可以获取到该标注任务创建请求。
步骤204,根据标注任务创建请求生成待标注的文档数据的数据索引。
在本实施例中,终端可以根据用户上传的待标注的文档数据而生成对应的数据索引,即为每个文档数据生成一个唯一的数据索引,从而方便后续区分不同的文档数据。
步骤206,根据待标注的文档数据和数据索引创建标注任务。
具体地,终端可以根据待标注的文档数据和数据索引创建标注任务。例如,终端可以将待标注的文档数据的数据索引存储到缓存的消息队列中,从而创建标注任务,并建立待标注的文档数据与标注任务之间的对应关系,也即建立文档数据的数据索引与标注任务之间的对应关系。
上述实施例中,终端通过获取标注任务创建请求,并根据标注任务创建请求生成待标注的文档数据的数据索引,进而根据待标注的文档数据和数据索引创建标注任务,从而实现标注任务的灵活生成,并能实现定制化的标注任务的创建。
在一个实施例中,如图3所示,在步骤104中,获取对文档数据的标注请求,确定对文档数据标注的目标标签,具体可以包括:
步骤302,响应于对文档数据中内容区域的标注请求,获取内容区域的标签信息。
其中,内容区域可以是文档数据中的某一选定区域,例如,可以是文档数据中的某一段落、页眉区域、页脚区域等,即一份文档数据中可以存在多个内容区域。具体地,内容区域可以是通过Span(超文本标记语言的行内标签)方式直接选定的文档内容的区域,也可以是通过Bbox即框选方式(即截图方式)选定的文档区域。标签信息则是对内容区域进行标注的信息,例如,可以是对选定的内容区域设置的分类标签。
在本实施例中,用户在对文档数据进行标注时,可以通过终端选定具体的内容区域进行标注,当用户通过终端选定具体的内容区域时,则发起对应的标注请求,终端则响应于对文档数据中内容区域的标注请求,并获取对内容区域的标签信息。
步骤304,当检测到文档数据标注完成时,根据内容区域的标签信息确定文档数据的目标标签。
其中,目标标签包括对文档数据中所有内容区域的标签信息。具体地,当终端检测到文档数据标注完成时,则可以根据该文档数据中所有内容区域的标签信息而确定文档数据的目标标签。
在本实施例中,终端通过响应于对文档数据中内容区域的标注请求,获取内容区域的标签信息,当检测到文档数据标注完成时,从而根据内容区域的标签信息确定文档数据的目标标签,以得到文档数据中所有内容区域的标签信息,实现对文档数据的标注。
在一个实施例中,如图4所示,在步骤302中,响应于对文档数据中内容区域的标注请求,获取内容区域的标签信息,具体可以包括:
步骤402,响应于对文档数据中内容区域的标注请求,确定内容区域的位置信息。
其中,位置信息可以是内容区域的对角线坐标信息以及所在文档数据的页码信息。
具体地,当用户通过终端选定具体的内容区域时,则发起对应的标注请求,终端则响应于对文档数据中内容区域的标注请求,并基于用户选定的内容区域确定该内容区域的位置信息。
步骤404,显示预设的任务标签,获取对任务标签中目标任务标签的确定操作。
其中,预设的任务标签可以是基于标注任务的需要而预先设置的对文档数据中的内容区域进行标注的多个标签。目标任务标签则是用户从预设的任务标签中选择的对内容区域进行标注的标签。确定操作则可以是对任务标签中某一标签的选定操作。
在本实施例中,当终端响应于对文档数据中内容区域的标注请求,并基于用户选定的内容区域确定该内容区域的位置信息,同时,终端还可以显示预设的任务标签,从而便于用户直接从预设的任务标签中选择标签作为选定的内容区域的目标任务标签,以节省标注时间,提高标注效率。
步骤406,根据目标任务标签和位置信息生成内容区域的标签信息。
具体地,终端可以根据上述确定的目标任务标签和位置信息生成内容区域的标签信息。例如,可以在选定的内容区域的上方根据对应的位置信息生成canvas矢量带背景色的图,即不同标签的内容区域,其对应的矢量图的背景色不同,而对于相同标签的内容区域,其对应的矢量图的背景色相同。从而提高不同标签内容区域的识别度。
在一个实施例中,如图5所示,在步骤302中,响应于对文档数据中内容区域的标注请求,获取内容区域的标签信息,具体还可以包括:
步骤502,响应于对文档数据中内容区域的标注请求,确定内容区域的位置信息。
其中,位置信息可以是内容区域的对角线坐标信息以及所在文档数据的页码信息。
步骤504,接收对内容区域标注的自定义标签。
其中,自定义标签可以是用户自定义的对文档数据中内容区域进行标注的标签。具体地,当用户通过终端选定具体的内容区域时,则发起对应的标注请求,终端则响应于对文档数据中内容区域的标注请求,并基于用户选定的内容区域确定该内容区域的位置信息,并接收用户对内容区域标注的自定义标签。
步骤506,根据自定义标签和位置信息生成内容区域的标签信息。
具体地,终端可以根据上述接收的对内容区域标注的自定义标签和位置信息生成内容区域的标签信息,从而实现对内容区域的标注。
在一个实施例中,在步骤302中,响应于对文档数据中内容区域的标注请求之前,上述方法还可以包括:响应于对文档数据的展示指令,根据设定的分片大小分片渲染并展示文档数据的内容区域。
其中,分片大小可以是预先设定的每次渲染文档数据的大小。展示指令则可以是对文档数据进行展示的指示或命令。在本实施例中,当需要对文档数据进行标注时,则首先需要打开文档数据以进行展示,以便于对展示的文档数据进行标注。又由于当文档数据占用的存储空间较大时,若对其全部进行渲染展示则需要耗费一定的时间,从而导致展示效率低。
基于此,在本实施例中,当用户发起对文档数据的展示指令以打开文档数据时,终端则响应于对文档数据的展示指令,并根据设定的分片大小分片渲染并展示文档数据的内容区域。例如,若文档数据的大小为500Mb(兆字节),设定的分片大小为50Mb,则在打开该文档数据时,终端以50Mb为基础对文档数据进行渲染展示,即每次渲染展示50Mb,在用户对当前展示的50Mb快标注完成时,接着渲染下一片的50Mb,直到完成整个文档数据的展示及标注,从而提高展示及标注的效率。具体地,当文档数据为PDF类型的文档时,可以基于Mozilla(一种浏览器)的PDF.js引擎进行PDF文档的展示,并基于HTTP-RANGE对PDF文档进行分片分段高效动态渲染,以提升PDF渲染效率。
在一个实施例中,在步骤302中,响应于对文档数据中内容区域的标注请求之后,上述方法还可以包括:识别内容区域的文本内容。其中,文本内容可以是内容区域的具体文本信息。具体地,当内容区域是通过Span方式选定时,则可以基于PDF.js的程序接口(例如API PDF Document Proxy)识别出选定的内容区域的文本内容。而当内容区域是通过Bbox方式选定时,则基于PDF.js的程序接口(例如API PDF Document Proxy)确定选定的内容区域后,还可以调用OCR(Optical Character Recognition,即光学字符识别)接口识别选定的内容区域的文本内容,从而进一步提高标注效率。
在一种场景下,对于具有特殊格式的内容区域,例如,无线表格的内容区域,还可以通过添加辅助表格线的方式对内容区域进行处理后再进行OCR识别,从而增强OCR的识别效率。具体地,通过监听对内容区域的选定操作并截图,图片上生成相同大小的canvas矢量图,同时在canvas上注册操作事件,如mouseover(鼠标悬停)事件,mouseup(鼠标移动)事件以及mousedown(鼠标按下)事件等。通过监听操作事件而确定鼠标滑动轨迹并绘制2D线段,实现画线效果。当线段绘制完毕,将绘线后的图和canvas转换成base64(一种用于传输8Bit字节码的编码方式),并替换原来的截图,最后再进行OCR识别,从而提高OCR的识别效率,以进一步提高标注效率。
基于此,本实施例还可以根据内容区域的文本内容和标签信息确定文档数据的目标标签。从而得到文档数据中所有内容区域的文本内容以及对应的标签信息,不仅实现了对文档数据的标注,且有利于后续对文档数据进行结构化提取及整合。
在一个实施例中,如图6所示,在步骤104中,获取对文档数据的标注请求,确定对文档数据标注的目标标签,具体还可以包括:
步骤602,获取对文档数据的标注请求,将文档数据输入结构化处理模型,得到处理结果。
其中,结构化处理模型可以是初步训练的用于对文档数据的内容区域进行结构化整合的学习模型,其可以识别内容区域的分类,并标注分类标签。处理结果则可以包括结构化处理模型对文档数据的内容区域进行结构化整合后标注的标签信息和位置信息。
在本实施例中,当终端获取到对文档数据的标注请求后,可以将文档数据输入结构化处理模型,由结构化处理模型对文档数据的内容区域进行结构化整合后标注对应的标签信息和位置信息,并向终端返回处理结果,即返回标注的标签信息和位置信息。
步骤604,将对文档数据中内容区域标注的标签信息和位置信息确定为文档数据的目标标签。
在本实施例中,终端可以基于上述得到的模型输出的处理结果,将处理结果作为文档数据的目标标签,即将模型输出的对文档数据中内容区域标注的标签信息和位置信息作为文档数据的目标标签。
本实施例中,终端通过获取对文档数据的标注请求,将文档数据输入结构化处理模型,得到处理结果,并将处理结果中对文档数据内容区域标注的标签信息和位置信息确定为文档数据的目标标签。由于本实施例通过采用模型对文档数据进行标注,因此,能够极大地提高标注效率。
在一个实施例中,由于上述的结构化处理模型是初步训练的,因此,为了进一步提高对文档数据标注的准确性,还可以对模型输出的处理结果进行修正,因此,终端还可以响应于对处理结果中内容区域的标签信息或位置信息的修正操作,并获取修正信息,进而根据修正信息更新内容区域的标签信息或位置信息。
其中,修正操作包括对模型输出的处理结果中内容区域的标签信息或位置信息进行修改或校正的操作。修正信息则可以是对标签信息或位置信息进行修改或校正后的结果信息。具体地,终端可以展示模型输出的处理结果,例如,可以在文档数据选定的内容区域的上方根据对应的位置信息生成canvas矢量带背景色的图,即不同标签的内容区域,其对应的矢量图的背景色不同,而对于相同标签的内容区域,其对应的矢量图的背景色相同。从而提高不同标签内容区域的识别度,方便查看及修正。当需要对内容区域的标签进行修正时,则可以更新内容区域的标签,或者,当需要对标签对应的内容区域的范围进行修正时,则可以重新选定标签对应的内容区域的范围,以更新内容区域的位置信息。从而根据修正信息更新内容区域的标签信息或位置信息,以得到文档数据的目标标签,提高对文档数据标注的准确性。
在一个实施例中,为了进一步提高上述初步训练的结构化处理模型的准确性,还可以采用上述得到的标注任务的标注结果对该结构化处理模型进行训练,从而得到训练后的结构化处理模型,以提高结构化处理模型的鲁棒性和准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文档数据的标注方法的文档数据的标注装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文档数据的标注装置实施例中的具体限定可以参见上文中对于文档数据的标注方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种文档数据的标注装置,包括:任务分发模块702、标注模块704和标注结果生成模块706,其中:
任务分发模块702,用于响应于标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
标注模块704,用于获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;
标注结果生成模块706,用于根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
在一个实施例中,所述装置还包括标注任务创建模块,用于:获取标注任务创建请求,所述标注任务创建请求携带有多个待标注的文档数据;根据所述标注任务创建请求生成待标注的所述文档数据的数据索引;根据待标注的所述文档数据和所述数据索引创建标注任务。
在一个实施例中,所述标注模块还用于:响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息;当检测到所述文档数据标注完成时,根据所述内容区域的标签信息确定所述文档数据的目标标签。
在一个实施例中,所述标注模块还用于:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;显示预设的任务标签,获取对所述任务标签中目标任务标签的确定操作;根据所述目标任务标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,所述标注模块还用于:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;接收对所述内容区域标注的自定义标签;根据所述自定义标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,所述装置还包括展示模块,用于:响应于对所述文档数据的展示指令,根据设定的分片大小分片渲染并展示所述文档数据的内容区域。
在一个实施例中,所述装置还包括识别模块,用于识别所述内容区域的文本内容;所述标注模块还用于:根据所述内容区域的文本内容和标签信息确定所述文档数据的目标标签。
在一个实施例中,所述标注模块还用于:获取对所述文档数据的标注请求,将所述文档数据输入结构化处理模型,得到处理结果,所述结构化处理模型用于对所述文档数据的内容区域进行结构化整合,所述处理结果包括对所述内容区域进行结构化整合后标注的标签信息和位置信息;将对所述文档数据中所述内容区域标注的标签信息和位置信息确定为所述文档数据的目标标签。
在一个实施例中,所述装置还包括修正模块,用于:响应于对所述处理结果中内容区域的标签信息或位置信息的修正操作,获取修正信息;根据所述修正信息更新所述内容区域的标签信息或位置信息。
在一个实施例中,所述装置还包括模型训练模块,用于采用所述标注任务的标注结果对所述结构化处理模型进行训练,得到训练后的结构化处理模型。
上述文档数据的标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文档数据的标注方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
响应于对标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;
根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取标注任务创建请求,所述标注任务创建请求携带有多个待标注的文档数据;根据所述标注任务创建请求生成待标注的所述文档数据的数据索引;根据待标注的所述文档数据和所述数据索引创建标注任务。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息;当检测到所述文档数据标注完成时,根据所述内容区域的标签信息确定所述文档数据的目标标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;显示预设的任务标签,获取对所述任务标签中目标任务标签的确定操作;根据所述目标任务标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;接收对所述内容区域标注的自定义标签;根据所述自定义标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:响应于对所述文档数据的展示指令,根据设定的分片大小分片渲染并展示所述文档数据的内容区域。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:识别所述内容区域的文本内容;所述根据所述内容区域的标签信息确定所述文档数据的目标标签,包括:根据所述内容区域的文本内容和标签信息确定所述文档数据的目标标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取对所述文档数据的标注请求,将所述文档数据输入结构化处理模型,得到处理结果,所述结构化处理模型用于对所述文档数据的内容区域进行结构化整合,所述处理结果包括对所述内容区域进行结构化整合后标注的标签信息和位置信息;将对所述文档数据中所述内容区域标注的标签信息和位置信息确定为所述文档数据的目标标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:响应于对所述处理结果中内容区域的标签信息或位置信息的修正操作,获取修正信息;根据所述修正信息更新所述内容区域的标签信息或位置信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:采用所述标注任务的标注结果对所述结构化处理模型进行训练,得到训练后的结构化处理模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
响应于对标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;
根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取标注任务创建请求,所述标注任务创建请求携带有多个待标注的文档数据;根据所述标注任务创建请求生成待标注的所述文档数据的数据索引;根据待标注的所述文档数据和所述数据索引创建标注任务。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息;当检测到所述文档数据标注完成时,根据所述内容区域的标签信息确定所述文档数据的目标标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;显示预设的任务标签,获取对所述任务标签中目标任务标签的确定操作;根据所述目标任务标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;接收对所述内容区域标注的自定义标签;根据所述自定义标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据的展示指令,根据设定的分片大小分片渲染并展示所述文档数据的内容区域。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:识别所述内容区域的文本内容;所述根据所述内容区域的标签信息确定所述文档数据的目标标签,包括:根据所述内容区域的文本内容和标签信息确定所述文档数据的目标标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取对所述文档数据的标注请求,将所述文档数据输入结构化处理模型,得到处理结果,所述结构化处理模型用于对所述文档数据的内容区域进行结构化整合,所述处理结果包括对所述内容区域进行结构化整合后标注的标签信息和位置信息;将对所述文档数据中所述内容区域标注的标签信息和位置信息确定为所述文档数据的目标标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述处理结果中内容区域的标签信息或位置信息的修正操作,获取修正信息;根据所述修正信息更新所述内容区域的标签信息或位置信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用所述标注任务的标注结果对所述结构化处理模型进行训练,得到训练后的结构化处理模型。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
响应于对标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;
根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取标注任务创建请求,所述标注任务创建请求携带有多个待标注的文档数据;根据所述标注任务创建请求生成待标注的所述文档数据的数据索引;根据待标注的所述文档数据和所述数据索引创建标注任务。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息;当检测到所述文档数据标注完成时,根据所述内容区域的标签信息确定所述文档数据的目标标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;显示预设的任务标签,获取对所述任务标签中目标任务标签的确定操作;根据所述目标任务标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;接收对所述内容区域标注的自定义标签;根据所述自定义标签和所述位置信息生成所述内容区域的标签信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述文档数据的展示指令,根据设定的分片大小分片渲染并展示所述文档数据的内容区域。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:识别所述内容区域的文本内容;所述根据所述内容区域的标签信息确定所述文档数据的目标标签,包括:根据所述内容区域的文本内容和标签信息确定所述文档数据的目标标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取对所述文档数据的标注请求,将所述文档数据输入结构化处理模型,得到处理结果,所述结构化处理模型用于对所述文档数据的内容区域进行结构化整合,所述处理结果包括对所述内容区域进行结构化整合后标注的标签信息和位置信息;将对所述文档数据中所述内容区域标注的标签信息和位置信息确定为所述文档数据的目标标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:响应于对所述处理结果中内容区域的标签信息或位置信息的修正操作,获取修正信息;根据所述修正信息更新所述内容区域的标签信息或位置信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用所述标注任务的标注结果对所述结构化处理模型进行训练,得到训练后的结构化处理模型。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (14)
1.一种文档数据的标注方法,其特征在于,所述方法包括:
响应于对标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;
根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
2.根据权利要求1所述的方法,其特征在于,所述响应于对标注任务的发布指令之前,所述方法还包括:
获取标注任务创建请求,所述标注任务创建请求携带有多个待标注的文档数据;
根据所述标注任务创建请求生成待标注的所述文档数据的数据索引;
根据待标注的所述文档数据和所述数据索引创建标注任务。
3.根据权利要求1所述的方法,其特征在于,所述获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签,包括:
响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息;
当检测到所述文档数据标注完成时,根据所述内容区域的标签信息确定所述文档数据的目标标签。
4.根据权利要求3所述的方法,其特征在于,所述响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息,包括:
响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;
显示预设的任务标签,获取对所述任务标签中目标任务标签的确定操作;
根据所述目标任务标签和所述位置信息生成所述内容区域的标签信息。
5.根据权利要求3所述的方法,其特征在于,所述响应于对所述文档数据中内容区域的标注请求,获取所述内容区域的标签信息,包括:
响应于对所述文档数据中内容区域的标注请求,确定所述内容区域的位置信息;
接收对所述内容区域标注的自定义标签;
根据所述自定义标签和所述位置信息生成所述内容区域的标签信息。
6.根据权利要求3所述的方法,其特征在于,所述响应于对所述文档数据中内容区域的标注请求之前,所述方法还包括:
响应于对所述文档数据的展示指令,根据设定的分片大小分片渲染并展示所述文档数据的内容区域。
7.根据权利要求3所述的方法,其特征在于,所述响应于对所述文档数据中内容区域的标注请求之后,所述方法还包括:
识别所述内容区域的文本内容;
所述根据所述内容区域的标签信息确定所述文档数据的目标标签,包括:
根据所述内容区域的文本内容和标签信息确定所述文档数据的目标标签。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签,包括:
获取对所述文档数据的标注请求,将所述文档数据输入结构化处理模型,得到处理结果,所述结构化处理模型用于对所述文档数据的内容区域进行结构化整合,所述处理结果包括对所述内容区域进行结构化整合后标注的标签信息和位置信息;
将对所述文档数据中所述内容区域标注的标签信息和位置信息确定为所述文档数据的目标标签。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
响应于对所述处理结果中内容区域的标签信息或位置信息的修正操作,获取修正信息;
根据所述修正信息更新所述内容区域的标签信息或位置信息。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
采用所述标注任务的标注结果对所述结构化处理模型进行训练,得到训练后的结构化处理模型。
11.一种文档数据的标注装置,其特征在于,所述装置包括:
任务分发模块,用于响应于标注任务的发布指令,分发所述标注任务,所述标注任务中包括多个待标注的文档数据,每个所述文档数据具有对应的数据索引;
标注模块,用于获取对所述文档数据的标注请求,确定对所述文档数据标注的目标标签;
标注结果生成模块,用于根据对所述文档数据标注的目标标签,生成与所述文档数据的数据索引匹配的标注任务的标注结果。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211616332.3A CN115758995A (zh) | 2022-12-15 | 2022-12-15 | 文档数据的标注方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211616332.3A CN115758995A (zh) | 2022-12-15 | 2022-12-15 | 文档数据的标注方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115758995A true CN115758995A (zh) | 2023-03-07 |
Family
ID=85346109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211616332.3A Pending CN115758995A (zh) | 2022-12-15 | 2022-12-15 | 文档数据的标注方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115758995A (zh) |
-
2022
- 2022-12-15 CN CN202211616332.3A patent/CN115758995A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200042560A1 (en) | Automatically generating a website specific to an industry | |
CN109325213B (zh) | 用于标注数据的方法和装置 | |
US20080120257A1 (en) | Automatic online form filling using semantic inference | |
US10552525B1 (en) | Systems, methods and apparatuses for automated form templating | |
US11620444B2 (en) | Providing action associated with event detected within communication | |
WO2016018683A1 (en) | Image based search to identify objects in documents | |
CN105426508A (zh) | 网页生成方法和装置 | |
CN115758451A (zh) | 基于人工智能的数据标注方法、装置、设备及存储介质 | |
CN111475700A (zh) | 一种数据提取方法及相关设备 | |
CN115438740A (zh) | 一种多源数据的汇聚融合方法和系统 | |
CN111552903A (zh) | 基于html模板的页面生成方法、装置和计算机设备 | |
CN114049631A (zh) | 一种数据标注的方法、装置、计算机设备和存储介质 | |
CN113255767A (zh) | 票据分类方法、装置、设备及存储介质 | |
CN110162301B (zh) | 一种表单渲染方法、装置和存储介质 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN116453125A (zh) | 基于人工智能的数据录入方法、装置、设备及存储介质 | |
CN108536715B (zh) | 一种预览页面生成方法、装置、设备以及存储介质 | |
CN115758995A (zh) | 文档数据的标注方法、装置、计算机设备和存储介质 | |
CN111222065B (zh) | 一种信息展示方法、装置、电子设备及介质 | |
CN111079399A (zh) | 图文数据处理方法、装置、计算机设备和存储介质 | |
US20210407630A1 (en) | Clinical Trial Protocol Portal | |
CN115878929A (zh) | 网页渲染方法及其装置 | |
Kwak et al. | Towards Realistic Incremental Scenario in Class Incremental Semantic Segmentation | |
TWI578236B (zh) | 產生可觸發動作的條碼圖形的方法與電子文件轉換系統 | |
CN116226563A (zh) | 富文本编辑方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |