CN116860705A - 数据处理方法、装置、设备及介质 - Google Patents
数据处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116860705A CN116860705A CN202310797848.0A CN202310797848A CN116860705A CN 116860705 A CN116860705 A CN 116860705A CN 202310797848 A CN202310797848 A CN 202310797848A CN 116860705 A CN116860705 A CN 116860705A
- Authority
- CN
- China
- Prior art keywords
- text
- information
- annotated
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000002372 labelling Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/168—Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/188—Virtual file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及数据处理、医疗健康技术领域,公开了一种数据处理方法、装置、设备及介质,包括:获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;获取所述第一待标注文本的位置信息;根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本的第二待标注文本的图形标注信息。提升了对PDF文本进行标注的效率。
Description
技术领域
本发明涉及数据处理、医疗健康技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
随着科技的发展、时代的进步,在过去的几十年里,人们的生活质量得到了极大的改善,人们都开始追求更高质量的生活。想要追求高质量生活就必须要保持身体健康,于是人们就开始了解医疗健康方面的相关知识,想要了解医疗健康方面的相关知识,首先需要获取医疗健康方面的相关资料,再对获得的医疗健康方面的相关资料进行阅读理解,从而获得医疗健康方面的相关资料对应的相关知识。
在网络发达的现在,人们获取资料的主要手段是通过在互联网中搜索想要获取的资料并下载,以得到人们想要的获取的资料。由于PDF文本具有良好的可移植性以及易创作性,所以PDF(可携带文件格式)文本已经成为了广泛使用的电子文档格式,在阅读PDF文本时,例如,该PDF文本为医疗相关的文本,具体例如,医疗期刊的PDF文本、医疗宣传的PDF文本等,用户常常都会在PDF文本中勾画出重点内容或者一些暂时不能理解的内容,以便根据勾画出的重点内容对PDF文本进行更好的理解或者根据勾画出的暂时不能理解的内容在网上进行搜索以协助用户理解一些暂时不能理解的内容,所以针对PDF文本进行标注和注释也变得越来越常见。
现有方案中,用户在使用传统的PDF文本标注工具时,通常需要下载安装该PDF标注工具,以及学习如何使用该工具来进行文本的标注,使得在进行PDF文本进行标注时操作繁琐,从而导致了用户在对PDF文档进行标注时的效率较低。
发明内容
本申请实施例的一个目的旨在提供一种数据处理方法、装置、设备以及介质,旨在改善现有方案中对PDF文本进行标注时的效率较低的技术问题。
在第一方面,本申请实施例提供一种数据处理方法,所述方法包括:
获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;
接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;
获取所述第一待标注文本的位置信息;
根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;
将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
第二方面,提供了一种数据处理装置,所述数据处理装置包括:
第一获取单元,用于获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;
接收单元,用于接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;
第二获取单元,用于获取所述第一待标注文本的位置信息;
第一确定单元,用于根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;
第二确定单元,用于将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述数据处理方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述数据处理方法的步骤。
上述数据处理方法、装置、设备及介质所实现的方案中,通过获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同,接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本,获取所述第一待标注文本的位置信息,根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息,将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,从而,可以根据获得的所述第一虚拟PDF文本中用户需要进行标注的第一待标注文本并结合所述第一虚拟PDF文本中第一待标注文本的位置信息来快速的确定出第一待标注文本对应的图形标注信息,从而可以根据该图形标注信息对第一PDF文本进行标注,从而可以对所述第一PDF文本进行快速标注,从而提升了对PDF进行标注时的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中数据处理方法的一应用环境示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本发明一实施例中对PDF文本进行分隔处理时的坐标系的示意图;
图4为本发明一实施例中数据处理装置的结构示意图;
图5为本发明一实施例中计算机设备的一结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,如果不冲突,本申请实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本申请所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
本发明实施例提供的数据处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。在医疗健康场景中,例如,目标用户需要对一些医疗数据进行处理时,例如,医疗诊断数据、医疗评估数据、医疗风险预测数据等,此时,用户可以针对一些特定的医疗数据进行初步的查看、标注处理等,例如,针对一些特病(癌症等)的医疗数据进行标注等。此时,用户可能是通过PDF文本的方式对医疗数据进行查看、标注等。当然,用户也可以是阅读医疗期刊的PDF文本、医疗宣传的PDF文本时,对上述文本进行标注。在现有的方案中,用户通常是通过网络下载一个PDF文本阅读工具的安装包,下载完成后,还需要将下载好的PDF文本阅读工具的安装包进行解压、安装,在安装完成后还须阅读PDF文本阅读工具对应的使用手册才能使用PDF文本阅读工具对PDF文本进行标注,使得对PDF文本进行标注时操作繁琐,对PDF进行标注的效率低。
旨在解决上述问题,本发明提供了一种数据处理方法,该处理方法中目标用户可以将PDF文本上传至Web页面(全球广域网页面)中打开并进行阅读,当目标用户在对PDF文本进行标注时,可以直接在Web页面上进行相应的操作即可完成对PDF文本的标注,提高了对应PDF文本进行标注的效率,例如,在目标用户对医疗期刊的PDF文本(学术类型的PDF文本)进行阅读时,目标用户在对学术类型的PDF文本进行标注时,可以通过Web页面对PDF文本对应的虚拟PDF文本进行标注,具体例如可以是,当目标用户阅读到一段自己比较感兴趣或者是看到一段让自己不解的一段文本时,用户可以通过拖动指针的方式将该段文本进行选择,Web页面可以生成与该段文本对应的图形标注信息,从而通过图形标注信息对选择的文本进行标注。
因此,服务端可以辅助目标用户对PDF文本进行标注。一个具体的示例中,目标用户可以将第一PDF文本(例如,医疗期刊的PDF文本等)上传至服务端时,目标用户在选择框中完成对第一PDF文本在本地的保存路径选择,服务端会根据用户在选择框中设置的第一PDF文本在本地的保存路径,提取该第一PDF文本,然后对该第一PDF文本进行虚拟映射,以得到第一虚拟PDF文本,并将第一虚拟PDF文本在Web页面上进行展示。其中,第一虚拟PDF文本与第一PDF文本的文本内容相同,第一虚拟PDF文本与第一PDF文本的文本内容相同可以理解为第一虚拟PDF文本是第一PDF文本进行复制后进行虚拟化得到的文本。
当服务端接收到用户在Web页面对在Web页面中展示的第一虚拟PDF文本中选择第一待标注文本,服务端可以接收到目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本,服务端对第一待标注文本进行分析,以得到图形标注信息,具体例如,目标用户使用Web页面在学术类型的虚拟PDF文本中选择了一段文本,当服务端接收到目标用户在学术类型的虚拟PDF文本中选择的文本时,服务端获取该学术类型的虚拟PDF文本中摘要部分的文本内容以及目标用户在学术类型的虚拟PDF文本中选择的文本在虚拟PDF文本中对应的位置信息(该位置信息可以包括有页码等),服务端对得到的目标用户在学术类型的虚拟PDF文本中选择的文本与学术类型的虚拟PDF文本中摘要部分的文本进行关联度计算,得到关联度,并根据关联度来获取第二摘要文本,根据第二摘要文本以及位置信息确定出图形标注信息,服务端根据图形标注信息在虚拟PDF文本对应的位置将标注信息进行展示,完成对PDF文本的标注,以及将该图形标注信息确定为学术类型的PDF文本中对应的文本的图形标注信息。
其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。
请参阅图2所示,图2为本发明实施例提供的数据处理方法的一个流程示意图。如图2所示,数据处理方法可以应用于服务端,包括如下步骤:
S201:获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同。
目标用户可以在客户端上的Web页面上的“上传文件”按钮来上传第一PDF文本,服务端从而可以获取到第一PDF文本。当目标用户通过点击Web页面上的“上传文件”按钮时,当前Web页面会弹出一个选择框,目标用户可以通过在选择框中设置第一PDF文本在本地的保存路径来完成第一PDF文本的上传。
当目标用户在选择框中完成了对第一PDF文本在本地的存储路径的设置操作后,Web页面会根据用户在选择框中设置的第一PDF文本在本地的存储路径,提取该第一PDF文本,然后对该第一PDF文本进行虚拟映射,以得到第一虚拟PDF文本,并将第一虚拟PDF文本在Web页面上进行展示。
其中,第一虚拟PDF文本与第一PDF文本的文本内容相同可以理解为,第一虚拟PDF文本中的文本信息与第一PDF文本中的文本信息相同,以及第一虚拟PDF文本中的文本格式与第一PDF文本中的文本格式相同,具体可以理解为第一虚拟PDF文本是第一PDF文本进行复制后进行虚拟化得到的文本。
若目标用户想对已经删除了的PDF文本或者目标用户无法找到PDF文本的文件进行标注时,此时,可以是从服务器中获取到第一PDF文本,具体例如,可以是通过获取服务器HTML文件(超文本标记语言文件)中第一PDF文本的src标签信息(来源标签信息),根据该src标签信息来获取第一PDF文本的URL地址(标准资源地址),通过获取的第一PDF文本的URL地址在服务器中获取第一PDF文本,然后再获取第一PDF文本对应的第一虚拟PDF文本,具体可以参照前述实施例中获取第一虚拟PDF文本的方式,此处不再赘述。
将第一虚拟PDF文本在Web页面上按照预先设置的展示方式进行展示。其中具体可以为:通过预先设置的Web页面的背景、预先设置的Web页面的布局、预先设置的PDF页码的显示位置进行展示。
S202:接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本。
可以是接收目标用户在开始选择第一待标注文本时的光标的第一位置信息和目标用户在完成选择第一待标注文本时的光标的第二位置信息,获取所述第一位置信息对应的位置与第二位置信息对应的位置之间的文本,以得到第一虚拟PDF文本中的第一待标注文本。
S203:获取所述第一待标注文本的位置信息。
如图3所示,可以是通过将第一虚拟PDF文本进行网格分割,并以第一虚拟PDF文本中最后一行网格的左下角顶点作为原点,以第一虚拟PDF文本的长边方向为Y轴,以第一虚拟PDF文本的文本短边方向为X轴建立直角坐标系,该长边与短边垂直,获取第一待标注文本中每个字符所对应的最小单位网格的四个顶点的坐标位置信息,将第一待标注文本中每个字符所对应的最小单位网格的四个顶点的坐标位置信息确定为坐标位置信息集合中的元素,将上述坐标位置信息集合确定为第一待标注文本的位置信息。
S204:根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息。
其中,可以是通过获取第一PDF文本的类型信息,若第一PDF文本的类型信息为学术类,则获取第一虚拟PDF文本中的第一摘要文本,在第一摘要文本与第一待标注文本之间的关联度高于预设关联度时,获取第一虚拟PDF文本中第一待标注文本所在章节的第二摘要文本,根据第二摘要文本与第一待标注对应的位置信息确定第一待标注文本对应的图形标注信息。其中,图形标注信息可以包括有图形标注文本信息和图形标注属性信息。
若第一PDF文本的类型信息为宣传类,则获取第一待标注文本的第一关键字集合,根据第一关键字集合获取第一宣传文本集合,根据第一虚拟PDF文本中提取的多个关键字中每个关键字的在第一虚拟PDF文本中出现的次数,将出现字数最高的参考关键字确定为第一虚拟PDF文本的目标关键字,获取该目标关键字的语义信息,将该语义信息确定为第一虚拟PDF文本的主体信息,并从第一宣传文本集合中获取与主题信息对应的第一宣传文本,根据该第一宣传文本与第一待标注对应的位置信息获取第一待标注文本对应的图形标注信息。
还可以是通过获取第一待标注文本的第一语义信息来得到K个与第一待标注文本相对应的第一关联文本,根据K个第一关联文本和第一待标注文本确定出第一文本主题信息,根据第一文本主题信息与位置信息确定出第一待标注文本对应的图形标注信息。
S205:将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
可以是根据第一待标注文本的位置信息和第一待标注文本对应的页码信息获取第一PDF文本中与第一待标注文本对应的第二待标注文本,将第一待标注文本对应的图形标注信息确定为第二待标注文本的图形标注信息。当然,在确定出第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息之后,还可以将第二待标注文本对应的图形标注信息按照预先设置的样式在第一PDF文本中对应的位置展示出来。
在一个可能的实现方式中,在获取第一待标注文本的位置信息时,可以通过获取目标用户在选择第一待标注文本时第一个字符的第一坐标位置信息和最后一个字符的第二坐标位置信息来快速的获得第一待标注文本的位置信息,从而提高了获取第一待标注文本的位置信息的效率,从而提高了数据处理的效率,该方法具体包括:
A1、获取目标用户选取的第一待标注文本中第一个字符的第一坐标位置信息;
可以是通过将第一虚拟PDF文本进行网格分割,并以第一虚拟PDF文本中最后一行网格的左下角顶点作为原点,以第一虚拟PDF文本的长边方向为Y轴,以第一虚拟PDF文本的短边方向为X轴建立直角坐标系,其中,网格中的最小单位的长度与宽度与第一虚拟PDF文本中每个字符的长度与宽度相等,获取第一待标注文本中第一个字符所在的最小单位网格的4个顶点的坐标位置信息WLS1、WRS1、WLX1、WRX1,其中,WLS1对应的是第一待标注文本的第一个字符所对应的最小单位网格左上角顶点坐标,WRS1对应的是第一待标注文本的第一个字符所对应的最小单位网格右上角顶点坐标,WLX1对应的是第一待标注文本的第一个字符所对应的最小单位网格左下角顶点坐标,WRX1对应的是第一待标注文本的第一个字符所对应的最小单位网格右下角顶点坐标,WLS1=(XL1,YS1)、WRS1=(XR1,YS1)、WLX1=(XL1,YX1)、WRX1=(XR1,YX1),将WLS1、WRS1、WLX1、WRX1确定为第一待标注文本中第一个字符的第一坐标位置信息。所述XL1、XR1、YS1、YX1分别表示第一待标注文本的第一个字符所对应的最小单位网格的四个顶点对应的横、纵坐标参数
A2获取目标用户选取的第一待标注文本中最后一个字符的第二坐标位置信息;
使用获取第一待标注文本中第一个字符的第一坐标位置信息的方法获取第一待标注文本中最后一个字符所在的最小单位网格的4个顶点的坐标位置信息WLSn、WRSn、WLXn、WRXn,其中,WLSn=(XLn,YSn)、WRSn=(XRn,YSn)、WLXn=(XLn,YXn)、WRXn=(XRn,YXn),将WLSn、WRSn、WLXn、WRXn确定为第一待标注文本中最后一个字符的第二坐标位置信息。
A3、获取所述第一坐标位置信息指示的第一位置与所述第二坐标位置信息指示的第二位置之间的每个字符的坐标位置信息,以得到坐标位置信息集合;
例如:第一虚拟PDF文本的宽度为N,将第一虚拟PDF文本进行网格分割后的最小单位网格的长度为i、高度为h;则目标用户选择的第一待标注文本中第二个字符的坐标信息为WLS2、WRS2、WLX2、WRX2,其中,WLS2=(XL1,YS1)、WLX2=(XL1,YX1)、WRS2=(XR2,YS2)、WRX2=(XR2,YX2),判断XR2=XR1+i>N是否成立,若不成立,则XR2=XR1+i、XL2=XL1+i、YS2=YS1、YX2=YX1;若成立,则XL2=0、XR2=i、YS2=YS1-h、YX2=YX1-h;使用获得目标用户选择的第一待标注文本中第二个字符的坐标位置信息的方法依次获得目标用户选择的第一待标注文本中第一个字符与最后一个字符之间所有字符的坐标位置信息,从而得到坐标位置信息集合。
A4、将所述坐标位置信息集合中的坐标位置信息、所述第一坐标位置信息和所述第二坐标位置信息确定为所述第一待标注文本的位置信息。
可以将所述坐标位置信息集合中的坐标位置信息、所述第一坐标位置信息和所述第二坐标位置信息确定为所述第一待标注文本的位置信息。
通过获取目标用户在选择第一待标注文本中第一个字符和最后一个字符的坐标位置信息,可以快速准确的获得第一待标注文本的位置信息,提高了获取第一待标注文本的位置信息的效率,提高了数据处理的效率。
在一个可能的实现方式中,若所述第一PDF文本的第一类型信息为学术类,则通过获取第一虚拟PDF文本中的第一待标注文本与第一摘要文本的关联度来判断第一待标注文本与第一摘要文本的关联度来判断第一虚拟PDF文本中是否含有第二摘要文本,若第一虚拟PDF文本中含有第二摘要文本,则根据第二摘要文本和第一待标注文本对应的图形标注信息,具体可以为:
B1、获取所述第一PDF文本的第一类型信息;
可以是通过分类器获取第一待标注文本的第一类型信息,所述分类器是通过大量的文本语义信息预先训练得到的,用于对第一待标注文本进行分类的模型。
B2、若所述第一类型信息指示的类型为学术类,则获取所述第一虚拟PDF文本的第一摘要文本;
若第一类型信息指示的类型为学术类,则以“摘要”为关键字,在第一虚拟PDF文本中进行搜索,找到以“摘要”为章节题目的章节,将以“摘要”为章节题目的章节下所有的文本确定为第一摘要文本,获取以“摘要”为章节题目的章节下所有的文本,以得到第一摘要文本。
B3、获取所述第一待标注文本与所述第一摘要文本之间的目标关联度;
获取第一待标注文本与第一摘要文本的分隔符号,根据第一待标注文本与第一摘要文本的分隔符号将第一待标注文本和第一摘要文本进行分隔,以得到由第一待标注文本分隔成的M个短句和第二摘要文本集合,其中,所述第二摘要文本集合包括Q个第二子摘要文本。
对M个短句和Q个第二子摘要文本依次使用词向量的方法进行编码,以得到与M个短句相分别对应的词向量,和与Q个第二子摘要文本分别对应的词向量,使用第一Transformer模型(转换器模型)依次计算所述M个短句分别对应知识表示和Q个第二子摘要文本分别对应的知识表示,其中,第一Transformer模型用于获取Q个第二子摘要文本的知识表示,根据M个短句分别对应知识表示和Q个第二子摘要文本分别对应的知识表示获取第一待标注文本对应的语义信息和第一摘要文本对应的语义信息,其中,可以是通过将M个短句对应知识表示进行加权平均,以得到第一待标注文本的语义信息,将Q个第二摘要文本对应的知识表示进行加权平均,以得到第一摘要文本的语义信息,根据第一待标注文本对应的语义信息和第一摘要文本对应的语义信息计算第一待标注文本与第一摘要文本之间的关联度,以得到第一待标注文本与第一摘要文本之间的关联度。
B4、若所述目标关联度高于预设关联度,则获取所述第一虚拟PDF文本中所述第一待标注文本所在章节的第二摘要文本;
判断第一待标注文本与第一摘要文本之间的关联度是否高于预设关联度,若第一待标注文本与第一摘要文本之间的关联度高于预设关联度,则根据第一待标注文本对应的页码信息获取第一虚拟PDF文本中所述第一待标注文本所在章节的第二摘要文本。所述预设关联度可以是经验值或历史数据确定的。
B5、根据所述第二摘要文本和所述位置信息,确定所述图形标注信息。
所述图形标注信息包括图形标注属性信息和图形标注文本信息。将第二摘要文本对应的文本信息确定为第一待标注文本对应的图形标注信息中的图形标注文本信息,根据第一待标注文本对应的位置信息获取第一待标注文本对应的图形标注信息中的图形标注属性信息,根据第一待标注文本的图形标注文本信息和第一待标注文本对应的图形标注信息中的图形标注属性信息确定出第一待标注文本对应的图形标注信息。其中,图形标注文本信息是指图形标注信息中的文本信息,具体包括第二摘要文本的文本信息等;图形标注属性信息是指图形标注框的外观参数,具体包括图形标注信息对应的形状、大小以及在第一PDF文本的位置信息等。其中图形标注信息对应的形状和大小可以根据第一待标注文本对应的位置信息中的第一待标注文本中所有字符对应的坐标位置信息确定的,具体可以是使用直线将第一待标注文本中所有字符对应的坐标位置连接起来,直线围成的封闭图形的形状和大小就是图形标注信息对应的形状和大小。由于图形标注是展示在PDF文本的一个特定的区域中,所以图形标注属性信息中的图形标注框在第一PDF文本的位置信息是一个固定的坐标位置信息。
本示例中,通过获取第一待标注文本与第一摘要文本的相似度,使用第一待标注文本与第一摘要文本的相似度与预设相似度进行比较来判断第一虚拟PDF文本中是否存在所述第一待标注文本所在章节的第二摘要文本,若存在第二摘要文本,则根据第二摘要文本和第一待标注文本对应的位置数据来实现快速获取图形标注信息对第一PDF文本进行标注,从而实现快速对第一PDF文本进行标注。
在一个可能的实现方式中,若所述第一PDF文本的第二类型信息为宣传类,则获取第一待标注文本中的关键字集合,第一关键字集合中的每个第一关键字分别对应的第一宣传文本,以得到第一宣传文本集合,根据宣传文本集合确定出第一宣传文本,获取则根据第一宣传文本和第一待标注文本对应的图形标注信息,具体步骤如下:
C1、获取所述第一待标注文本的第二类型信息;
可以是通过分类器获取第一待标注文本的第二类型信息,所述分类器是通过大量的文本语义信息进行训练得到的,分类器可以通过获取第一待标注文本对应的语义信息得到第一待标注文本的第二类型信息。
C2、若所述第二类型信息指示的类型为宣传类,则对所述第一待标注文本进行关键字提取,以得到第一关键字集合;
可以采用通用的关键字提取方法对第一待批注文本进行关键字提取,以得到第一关键字集合。
C3、获取所述第一关键字集合中的每个第一关键字分别对应的第一宣传文本,以得到第一宣传文本集合;
使用第一关键字集合中每个第一关键字在第一虚拟PDF文本中进行匹配,将,以得到第一虚拟PDF文本中包含有第一关键字集合中的第一关键字的第一宣传文本,将第一关键字集合中每个第一关键字对应的第一宣传文本确定为第一宣传文本集合。
C4、获取所述第一虚拟PDF文本的主题信息;
可以获取第一虚拟PDF文本的多个参考关键字,并获取该多个参考关键字在第一虚拟PDF文本中出现的次数,将出现字数最高的参考关键字确定为第一虚拟PDF文本的目标关键字,获取该目标关键字的语义信息,将该语义信息确定为第一虚拟PDF文本的主体信息。例如,获取第一虚拟PDF文本的多个参考关键字的方法可以是对所述第一虚拟PDF文本的摘要段落进行关键字提取,以得到多个参考关键字。当然还可以是通过其它方法获取到多个关键字,此处仅为举例说明。
C5、从所述第一宣传文本集合中确定与所述主题信息对应的第一宣传文本;
计算第一宣传文本集合中的第一宣传文本与主题信息匹配度,获得第一宣传文本集合中的第一宣传文本与主题信息匹配度最高的第一宣传文本,其中,计算第一宣传文本集合中的第一宣传文本与主题信息匹配度可以通过计算第一宣传文本集合中的第一宣传文本的语义向量表示与主题信息的语义向量表示之间的损失值,当第一宣传文本集合中的第一宣传文本的语义向量表示与主题信息的语义向量表示之间的损失值越小,则第一宣传文本集合中的第一宣传文本与主题信息匹配度越高,反之则匹配度越低。
C6、根据所述第一宣传文本和所述位置信息,确定所述第一待标注文本对应的图形标注信息。
根据所述第一宣传文本和所述位置信息,确定所述第一待标注文本对应的图形标注信息的具体方法请参阅B5中所示的方法,此处不再赘述。
本示例中,通过获取第一待标注文本对应的第一关键字集合和第一虚拟PDF文本中第一关键字集合一一对应的第一宣传文本来确定第一待标注文本对应的图形标注信息,提高了获取图形标注信息的速度,从而提高了数据处理的效率。
在一个可能实现的方式中,可以通过获取第一待标注文本的第一语义信息来确定出第一文本主题信息,根据第一文本主题信息和第一待待标注文本的位置信息确定出第一待标注文本的图形标注信息,具体步骤如下:
D1、获取所述第一待标注文本的第一语义信息;
获取第一待标注文本中的分隔符号,其中,所述分隔符号可以是第一待标注文本中的句号、分号等,根据第一待标注文本中的分隔符号将第一待标注文本分隔为M个短句,对所述M个短句依次使用词向量的方法进行编码,以得到与所述M个与M个短句对应的词向量,使用第二Transformer模型(转换器模型)依次计算所述M个短句的知识表示,以得到M个知识表示,其中,第二Transformer模型用于获取由第一待标注文本分隔而成的M个短句的知识表示,对M个知识表示进行平均计算,以得到第一待标注文本的语义信息。
D2根据所述第一语义信息,从所述第一虚拟PDF文本中确定出与所述第一待标注文本对应的K个第一关联文本;
获取第一虚拟PDF文本的分隔符,根据第一虚拟PDF文本的分隔符将第一虚拟PDF文本分隔为N个第二文本,获取N个第二文本中每个文本对应的语义信息,计算第一待标注文本对应的语义信息与N个第二文本中每个文本对应的语义信息之间的关联度,判断第一待标注文本对应的语义信息与N个第二文本中每个文本对应的语义信息之间的关联度是否超过预设的关联度阈值,若第一待标注文本对应的语义信息与N个文本中每个文本对应的语义信息之间的关联度大于或等于预设的关联度阈值,则确定该第二文本与第一待标注文本相关联,将该第二文本确定为第一关联文本,若第一待标注文本对应的语义信息与N个文本中每个文本对应的语义信息之间的关联度小于预设的关联度阈值,则认为该第二文本与第一待标注文本不关联,以得到K个与第一待标注文本对应的第一关联文本。其中,预设的关联度阈值可以是由经验值或历史数据确定。
D3、根据所述第一待标注文本和K个所述第一关联文本,确定第一文本主题信息;
可以是通过分别对第一待标注文本进行关键字提取,以得到第二关键字集合,通过对K个所述第一关联文本分别进行关键字提取,以得到K个所述第一关联文本分别对应的第三关键字集合,根据第二关键字集合和K个所述第一关联文本分别对应的第三关键字集合确定出第一关键字集合,根据第一关键字集合确定出第一文本主题信息。
D4、根据所述第一文本主题信息和所述位置信息,确定所述第一待标注文本对应的图形标注信息。
根据所述第一文本主题信息和所述位置信息,确定所述第一待标注文本对应的图形标注信息的具体方法请参阅步骤B5中所示的方法,此处不再赘述。
本示例中,通过获取第一虚拟PDF文本对应的N个语义表示中与第一待标注文本对应的语义表示之间的关联度大于或等于预设关联度的K个第一关联文本,从而可以快速的根据K个第一关联文本确定出第一文本主题信息,根据第一文本信息和第一待标注文本信息对应的位置信息确定出图形标注信息来达到快速的完成对第一PDF文本进行标注,提高了数据处理的效率。
在一个可能的实现方式中,可以是通过获取第一待标注文本的第一目标关键字集合来确定第一待标注文本的第一文本主题,具体操作步骤如下:
E1、对所述第一待标注文本进行关键字提取,以得到第二关键字集合,以及对K个所述第一关联文本分别进行关键字提取,以得到K个所述第一关联文本分别对应的第三关键字集合;
可以是通过使用通用的文字提取方法对第一待标注文本进行关键字提取,以得到第二关键字集合;对K个第一关联文本分别进行关键字提取,以得到K个所述第一关联文本分别对应的第三关键字集合。
E2、从所述第二关键字集合以及K个所述第三关键字集合中获取第一目标关键字集合,所述第一目标关键字集合中的关键字为所述第二关键字集合以及K个所述第三关键字集合中均存在的关键字;
将K个第三关键字集合进行取交集操作,将K个第三关键字集合合并为一个关键字集合以得到第四关键字集合,将第四关键字集合与第二关键字集合进行取交集操作,以得到第一目标关键字集合,所述第一关键字集合中的第一目标关键字为第二关键字集合和K个第三关键字集合共同拥有的关键字。
E3、根据所述第一目标关键字集合中的第一目标关键字确定所述第一文本主题信息;
可以是通过对第一目标关键字集合中每个第一目标关键字进行语义计算,以得到第一目标关键字集合中每个第一目标关键字的语义信息,将第一目标关键字集合中每个第一目标关键字的语义表示确定为第一语义信息集合中的元素,以得到第一语义信息集合,根据第一语义信息集合获取第一语义信息集合中每个第一语义信息分别对应的第一参考文本主题信息,根据第一参考文本主题信息集合中的第一参考文本主题信息进行信息融合处理,以得到所述第一文本主题信息。
本示例中,可以通过获取第一待标注文本对应的第三关键字集合与K个与第一关联文本所对应的K个第三关键字集合共同拥有的关键字,以得到第一目标关键字集合,将第一目标关键字集合中的第一目标关键字的语义表示与第一待标注文本的语义表示进行关联度计算,以得到第一文本主题信息。通过提取关键字并计算关键字的语义表示,避免了在获取第一文本主题信息时需要对第一PDF文本进行语义计算,减少了计算量,从而提高了获数据处理的效率,
在一个可能实现的方式中,可以是通过获得第一目标关键字集合中每个第一目标关键字分别进行编码处理,对第一目标关键字集合中每个第一目标关键字分别进行编码处理后的第一编码向量进行语义分析,以得到第一语义信息集合,获取第一语义信息集合中每个第一语义信息分别对应的第一参考文本主题信息,以得到第一参考文本主题信息集合,通过将第一参考文本主题信息集合中的第一参考文本主题信息来快速的获取第一文本主题信息,从而根据第一文本主题信息快速的获取第一待标注文本对应的图形标注信息,提高了数据处理的效率。
F1、对所述第一目标关键字集合中每个第一目标关键字分别进行编码处理,以得到与每个第一目标关键字分别对应的第一编码向量;
对所述第一目标关键字集合中每个第一目标关键字分别使用词向量的方法进行编码,以得到第一目标关键字集合中每个第一目标关键字对应的词向量,将第一目标关键字集合中每个第一目标关键字对应的词向量确定为每个第一目标关键字分别对应的第一编码向量。
F2、对与每个第一目标关键字分别对应的第一编码向量进行语义分析,以得第二语义信息集合,所述第二语义信息集合中的第二语义信息与第一目标关键字集合中的第一目标关键字一一对应;
使用第三Transformer模型(转换器模型)对每个第一目标关键字分别对应的第一编码向量进行语义分析,以得到每个第一目标关键字分别对应语义信息,其中,第三Transformer模型用于获取每个第一目标关键字对应的语义信息,将每个第一目标关键字分别对应语义信息确定为第二语义信息集合中的元素,以得到第二语义信息集合。
F3、确定与所述第二语义信息集合中每个第二语义信息分别对应的第一参考文本主题信息,以得到第一参考文本主题信息集合;
获取第一虚拟PDF文本的分隔符,根据第一虚拟PDF文本的分隔符将第一虚拟PDF文本分隔为N个第二文本,获取N个第二文本中每个文本对应的语义信息,以得到第二文本语义信息集合,获取第二语义信息集合中每个第二语义信息与第二文本语义信息集合中匹配度最高的第二文本语义对应的第二文本,将第二文本语义信息集合中匹配度最高的第二文本语义对应的第二文本确定为第二语义信息集合中每个第二语义信息对应的第一参考文本主题信息,以得到第一参考文本主题信息集合。
F4、对所述第一参考文本主题信息集合中的第一参考文本主题信息进行信息融合处理,以得到所述第一文本主题信息。
可以是通过通用的加权平均算法对第一参考文本主题信息集合中的第一参考文本主题信息进行信息融合,以得到第一文本主题信息。
本示例中,通过获取第一目标关键字集合中每个第一目标关键字分别对应的第一编码向量,根据获取第一目标关键字集合中每个第一目标关键字分别对应的第一编码向量对每个第一关键字进行语义分析,以得到第一语义信息集合,根据第一语义信息集合获取与第一语义信息集合中每个第一语义信息一一对应的第一参考文本主题信息,以得到第一参考文本主题信息集合,根据第一参考文本主题信息集合确定出第一文本主题信息,从而快速的获取第一文本主题信息,根据第一文本主题信息并结合第一待标注文本对应的位置信息可以快速的确定出第一待标注文本对应的图形标注信息,提高了数据处理的效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据处理装置,所述装置包括:数据处理装置,该数据处理装置与上述实施例数据处理方法一一对应。如图3所示,该数据处理装置包括第一获取单元301、接收单元302、第二获取单元303、确定单元304和第二确定单元305。各功能模块详细说明如下:
第一获取单元301,用于获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过WEB页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;
接收单元302,用于接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;
第二获取单元303,用于获取所述第一待标注文本的位置信息;
确定单元304,用于根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;
第二确定单元305,用于将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
在一个可能的实现方式中,所述第二获取单元303具体用于:
获取目标用户选取的第一待标注文本中第一个字符的第一坐标位置信息;
获取目标用户选取的第一待标注文本中最后一个字符的第二坐标位置信息;
获取所述第一坐标位置信息指示的第一位置与所述第二坐标位置信息指示的第二位置之间的每个字符的坐标位置信息,以得到坐标位置信息集合;
将所述坐标位置信息集合中的坐标位置信息、所述第一坐标位置信息和所述第二坐标位置信息确定为所述第一待标注文本的位置信息。
在一个可能的实现方式中,确定单元304用于:
获取所述第一PDF文本的第一类型信息;
若所述第一类型信息指示的类型为学术类,则获取所述第一虚拟PDF文本的第一摘要文本;
获取所述第一待标注文本与所述第一摘要文本之间的目标关联度;
若所述目标关联度高于预设关联度,则获取所述第一虚拟PDF文本中所述第一待标注文本所在章节的第二摘要文本;
根据所述第二摘要文本和所述位置信息,确定所述图形标注信息。
在一个可能的实现方式中,确定单元304还用于:
获取所述第一待标注文本的第二类型信息;
若所述第二类型信息指示的类型为宣传类,则对所述第一待标注文本进行关键字提取,以得到第一关键字集合;
获取所述第一关键字集合中的每个第一关键字分别对应的第一宣传文本,以得到第一宣传文本集合;
获取所述第一虚拟PDF文本的主题信息;
从所述第一宣传文本集合中确定与所述主题信息对应的第一宣传文本;
根据所述第一宣传文本和所述位置信息,确定所述第一待标注文本对应的图形标注信息。
在一个可能的实现方式中,确定单元304还用于:
获取所述第一待标注文本的第一语义信息;
根据所述第一语义信息,从所述第一虚拟PDF文本中确定出与所述第一待标注文本对应的K个第一关联文本;
根据所述第一待标注文本和K个所述第一关联文本,确定第一文本主题信息;
根据所述第一文本主题信息和所述位置信息,确定所述第一待标注文本对应的图形标注信息。
在一个可能的实现方式中,在所述根据所述第一待标注文本和K个所述第一关联文本,确定第一文本主题信息方面,确定单元304用于:
对所述第一待标注文本进行关键字提取,以得到第二关键字集合,以及对K个所述第一关联文本分别进行关键字提取,以得到K个所述第一关联文本分别对应的第三关键字集合;
从所述第二关键字集合以及K个所述第三关键字集合中获取第一目标关键字集合,所述第一目标关键字集合中的关键字为所述第二关键字集合以及K个所述第三关键字集合中均存在的关键字;
根据所述第一目标关键字集合中的第一目标关键字确定所述第一文本主题信息。
在一个可能的实现方式中,在所述根据所述第一目标关键字集合中的第一目标关键字确定所述第一文本主题信息方面,确定单元304用于:
对所述第一目标关键字集合中每个第一目标关键字分别进行编码处理,以得到与每个第一目标关键字分别对应的第一编码向量;
对与每个第一目标关键字分别对应的第一编码向量进行语义分析,以得第二语义信息集合,所述第二语义信息集合中的第二语义信息与第一目标关键字集合中的第一目标关键字一一对应;
确定与所述第二语义信息集合中每个第二语义信息分别对应的第一参考文本主题信息,以得到第一参考文本主题信息集合;
对所述第一参考文本主题信息集合中的第一参考文本主题信息进行信息融合处理,以得到所述第一文本主题信息
本示例中,通过获取第一PDF文本在Web页面上展示的第一虚拟PDF文本,接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本,以得到所述第一虚拟PDF文本中的第一待标注文本,获取所述第一待标注文本的位置信息,根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息,将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,以得到所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,从而,可用通过获取第一待标注文本的位置信息并结合第一待标注文本确定出与第一待标注信息对应的图形标注信息,将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,从而实现对所述第一PDF文本进行快速标注,提高了数据处理的效率。
关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;
接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;
获取所述第一待标注文本的位置信息;
根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;
将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
本示例中,通过获取第一PDF文本在Web页面上展示的第一虚拟PDF文本,接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本,以得到所述第一虚拟PDF文本中的第一待标注文本,获取所述第一待标注文本的位置信息,根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息,将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,以得到所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,从而,可用通过获取第一待标注文本的位置信息并结合第一待标注文本确定出与第一待标注信息对应的图形标注信息,将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,从而实现对所述第一PDF文本进行快速标注,提高了数据处理的效率。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;
接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;
获取所述第一待标注文本的位置信息;
根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;
将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
本示例中,通过获取第一PDF文本在Web页面上展示的第一虚拟PDF文本,接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本,以得到所述第一虚拟PDF文本中的第一待标注文本,获取所述第一待标注文本的位置信息,根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息,将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,以得到所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,从而,可用通过获取第一待标注文本的位置信息并结合第一待标注文本确定出与第一待标注信息对应的图形标注信息,将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息,从而实现对所述第一PDF文本进行快速标注,提高了数据处理的效率。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;
接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;
获取所述第一待标注文本的位置信息;
根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;
将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
2.如权利要求1所述的数据处理方法,其特征在于,获取所述第一待标注文本的位置信息,包括:
获取目标用户选取的第一待标注文本中第一个字符的第一坐标位置信息;
获取目标用户选取的第一待标注文本中最后一个字符的第二坐标位置信息;
获取所述第一坐标位置信息指示的第一位置与所述第二坐标位置信息指示的第二位置之间的每个字符的坐标位置信息,以得到坐标位置信息集合;
将所述坐标位置信息集合中的坐标位置信息、所述第一坐标位置信息和所述第二坐标位置信息确定为所述第一待标注文本的位置信息。
3.如权利要求2所述的数据处理方法,其特征在于,所述根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息,包括:
获取所述第一PDF文本的第一类型信息;
若所述第一类型信息指示的类型为学术类,则获取所述第一虚拟PDF文本的第一摘要文本;
获取所述第一待标注文本与所述第一摘要文本之间的目标关联度;
若所述目标关联度高于预设关联度,则获取所述第一虚拟PDF文本中所述第一待标注文本所在章节的第二摘要文本;
根据所述第二摘要文本和所述位置信息,确定所述图形标注信息。
4.如权利要求2所述的数据处理方法,其特征在于,所述根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息,包括:
获取所述第一待标注文本的第二类型信息;
若所述第二类型信息指示的类型为宣传类,则对所述第一待标注文本进行关键字提取,以得到第一关键字集合;
获取所述第一关键字集合中的每个第一关键字分别对应的第一宣传文本,以得到第一宣传文本集合;
获取所述第一虚拟PDF文本的主题信息;
从所述第一宣传文本集合中确定与所述主题信息对应的第一宣传文本;
根据所述第一宣传文本和所述位置信息,确定所述第一待标注文本对应的图形标注信息。
5.如权利要求2所述的数据处理方法,其特征在于,所述根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息,包括:
获取所述第一待标注文本的第一语义信息;
根据所述第一语义信息,从所述第一虚拟PDF文本中确定出与所述第一待标注文本对应的K个第一关联文本;
根据所述第一待标注文本和K个所述第一关联文本,确定第一文本主题信息;
根据所述第一文本主题信息和所述位置信息,确定所述第一待标注文本对应的图形标注信息。
6.如权利要求5所述的数据处理方法,其特征在于,所述根据所述第一待标注文本和K个所述第一关联文本,确定第一文本主题信息,包括:
对所述第一待标注文本进行关键字提取,以得到第二关键字集合,以及对K个所述第一关联文本分别进行关键字提取,以得到K个所述第一关联文本分别对应的第三关键字集合;
从所述第二关键字集合以及K个所述第三关键字集合中获取第一目标关键字集合,所述第一目标关键字集合中的关键字为所述第二关键字集合以及K个所述第三关键字集合中均存在的关键字;
根据所述第一目标关键字集合中的第一目标关键字确定所述第一文本主题信息。
7.如权利要求6所述的数据处理方法,其特征在于,所述根据所述第一目标关键字集合中的第一目标关键字确定所述第一文本主题信息,包括:
对所述第一目标关键字集合中每个第一目标关键字分别进行编码处理,以得到与每个第一目标关键字分别对应的第一编码向量;
对与每个第一目标关键字分别对应的第一编码向量进行语义分析,以得第二语义信息集合,所述第二语义信息集合中的第二语义信息与第一目标关键字集合中的第一目标关键字一一对应;
确定与所述第二语义信息集合中每个第二语义信息分别对应的第一参考文本主题信息,以得到第一参考文本主题信息集合;
对所述第一参考文本主题信息集合中的第一参考文本主题信息进行信息融合处理,以得到所述第一文本主题信息。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
第一获取单元,用于获取第一PDF文本在Web页面中进行展示的第一虚拟PDF文本,以及通过Web页面展示所述第一虚拟PDF文本,所述第一虚拟PDF文本与所述第一PDF文本的文本内容相同;
接收单元,用于接收目标用户在Web页面中展示的第一虚拟PDF文本中的第一待标注文本;
第二获取单元,用于获取所述第一待标注文本的位置信息;
第一确定单元,用于根据所述位置信息和所述第一待标注文本,确定所述第一待标注文本对应的图形标注信息;
第二确定单元,用于将所述图形标注信息确定为所述第一PDF文本中与所述第一待标注文本对应的第二待标注文本的图形标注信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述数据处理方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797848.0A CN116860705A (zh) | 2023-06-30 | 2023-06-30 | 数据处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310797848.0A CN116860705A (zh) | 2023-06-30 | 2023-06-30 | 数据处理方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116860705A true CN116860705A (zh) | 2023-10-10 |
Family
ID=88220973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310797848.0A Pending CN116860705A (zh) | 2023-06-30 | 2023-06-30 | 数据处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860705A (zh) |
-
2023
- 2023-06-30 CN CN202310797848.0A patent/CN116860705A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
EP3570208A1 (en) | Two-dimensional document processing | |
CN109190049B (zh) | 关键词推荐方法、系统、电子设备和计算机可读介质 | |
US10528649B2 (en) | Recognizing unseen fonts based on visual similarity | |
US11023503B2 (en) | Suggesting text in an electronic document | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
CN111428457A (zh) | 数据表的自动格式化 | |
CN111783508A (zh) | 用于处理图像的方法和装置 | |
US7984379B2 (en) | Standard schema and user interface for website maps | |
CN115496820A (zh) | 图像文案的生成方法、设备及计算机存储介质 | |
CN113283432A (zh) | 图像识别、文字排序方法及设备 | |
CN113869371A (zh) | 模型训练方法、服装细粒度分割方法及相关装置 | |
EP3341917B1 (en) | Smart flip operation for grouped objects | |
CN115809325B (zh) | 文档处理模型训练方法、文档处理方法、装置及设备 | |
CN116774973A (zh) | 数据渲染方法、装置、计算机设备及存储介质 | |
CN111597336A (zh) | 训练文本的处理方法、装置、电子设备及可读存储介质 | |
CN112883218A (zh) | 一种图文联合表征的搜索方法、系统、服务器和存储介质 | |
CN112784189A (zh) | 一种识别页面图像的方法和装置 | |
CN116860705A (zh) | 数据处理方法、装置、设备及介质 | |
WO2022105120A1 (zh) | 图片文字检测方法、装置、计算机设备及存储介质 | |
CN114331932A (zh) | 目标图像生成方法和装置、计算设备以及计算机存储介质 | |
CN117095422B (zh) | 文档信息解析方法、装置、计算机设备、存储介质 | |
CN108733304A (zh) | 一种自动识别及处理手写字符方法、装置 | |
US20240126978A1 (en) | Determining attributes for elements of displayable content and adding them to an accessibility tree | |
US20240169144A1 (en) | Methods and apparatus for selecting, high lighting and/or processing, text included in a pdf document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |