CN117313663A

CN117313663A - 文本处理方法、装置、计算机设备、存储介质及产品

Info

Publication number: CN117313663A
Application number: CN202210733662.4A
Authority: CN
Inventors: 金元浩; 王宇; 赵嗣齐; 杜啸楠; 张勇; 杨师; 李可先; 蔡雄; 陈春辉; 刘付彩文; 陈宸; 刘波; 褚宏鑫; 裴亚琳; 曹涛; 郭婧; 黄凯; 杨涛; 庞敏; 李坤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2023-12-29

Abstract

本申请提出一种文本处理方法、装置、计算机设备、存储介质及产品，该文本处理方法包括：获取目标文本的多媒体对象；获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征；按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，每一个候选编辑组件用于表示相应的编辑元素和编辑标记文本内容；对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于对目标文本中各目标编辑组件对应的编辑对象进行编辑。通过本申请，可较为高效地对电子档的文本进行编辑功能设置。

Description

文本处理方法、装置、计算机设备、存储介质及产品

技术领域

本申请涉及计算机技术领域，具体涉及一种文本处理方法、一种文本处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

随着社会科技技术的不断发展，在人们的日常工作中，常常涉及到对各式各样的文档文件、表格、合同文件等电子档的文本进行处理、编辑，为满足不同对象在编辑文本时的不同需求，文件模板(电子档的文本)应运而生。通过对电子档的文本设置相应的处理逻辑，使不同对象可以自适应编辑所需的文本内容。例如，对于需要电子签章的合同文本，需要先人工确定签章区域在合同文本中的位置，开发者可以在找到的位置除添加一个已经开发设计好的签章控件，当该签章控件接收到诸如点击等操作之后，可以显示一个界面供用户签章使用，对象在该界面上完成电子签章后，在合同文本中则会自动添加上该电子签章，完成网上签约。

而如何更好地对电子档的文本中需要编辑的内容进行自适应编辑功能设置，成为研究的热点问题。

发明内容

本申请实施例提供了一种文本处理方法、装置、设备及计算机可读存储介质，能够综合多媒体对象的编辑元素特征和编辑标记文本特征，从而识别得到目标编辑组件，可较为高效地对电子档的文本进行编辑功能设置。

一方面，本申请实施例体提供了一种文本处理方法，该方法包括：

获取目标文本的多媒体对象；

获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置；

按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，每一个候选编辑组件用于表示相应的编辑元素和编辑标记文本内容；

对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于对目标文本中各目标编辑组件对应的编辑对象进行编辑。

显示目标文本的编辑界面，编辑界面中包括文本显示区域；

响应于对文本显示区域中的目标编辑对象的选择操作，显示编辑区域，编辑区域用于接收对目标文本中目标编辑对象的编辑操作；

响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，编辑操作包括：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合；

在编辑界面中显示编辑后的目标文本。

一方面，本申请实施例体提供了一种文本处理装置，该装置包括：

获取单元，用于获取目标文本的多媒体对象；

处理单元，用于获取对所述多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置；

处理单元，还用于按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，每一个候选编辑组件用于表示相应的编辑元素和编辑标记文本内容；

处理单元，还用于对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于对目标文本中各目标编辑组件对应的编辑对象进行编辑。

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符；处理单元获取对多媒体对象进行特征提取得到的编辑元素特征，用于执行以下操作：

根据目标文本中各文字字符在目标文本中的文本位置，在多媒体对象中将目标文本中的各个文字字符删除，得到预处理图像；

在预处理图像中确定有效像素点，其中，预处理图像中有效像素点的值大于自适应阈值，自适应阈值是根据有效像素点的临近区域内的像素点的值确定的；

根据各有效像素点进行轮廓识别处理，得到多个编辑元素特征。

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符；处理单元获取目标文本的编辑标记文本特征，用于执行以下操作：

调用文本解析模块对目标文本进行文本识别处理，得到目标文本中各文字字符在目标文本中的文本位置；

调用文本规则引擎模块对目标文本进行文本规则匹配处理，提取出目标文本中的关键字符，将得到的关键字符作为编辑标记文本内容；

根据关键字符和关键字符对应的在目标文本中的文本位置，得到目标文本的编辑标记文本特征。

在一种可能的实现方式中，处理单元按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，用于执行以下操作：

按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，对各编辑元素和各编辑标记文本内容进行平移匹配，得到多个初始候选编辑组件；

对各初始候选编辑组件中的编辑元素进行字符编码，得到多个候选编辑组件。

在一种可能的实现方式中，处理单元对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，用于执行以下操作：

获取每一个候选编辑组件的组件特征向量表示，并获取每一个候选编辑组件中编辑标记文本内容在多媒体对象中对应的关联区域图像的图像特征向量表示；

根据组件特征向量表示和图像特征向量表示，确定各个候选编辑组件的组件类型；

根据确定的组件类型从各个候选编辑组件中确定出目标编辑组件。

在一种可能的实现方式中，组件特征向量表示是通过调用第一网络模型对每个候选编辑组件进行分析识别后得到的；图像特征向量表示是通过调用第二网络模型对关联区域图像进行图像识别后确定的；

处理单元根据组件特征向量表示和图像特征向量表示，确定各个候选编辑组件的组件类型，用于执行以下操作：

对组件特征向量表示和图像特征向量表示进行拼接处理，得到拼接特征向量表示；

调用分类模型对拼接特征向量表示进行分类识别，得到各个候选编辑组件的组件类型。

在一种可能的实现方式中，处理单元还用于执行以下操作：

基于各编辑标记文本内容在目标文本中的文本位置，获取目标编辑标记文本内容在目标文本的多媒体对象中对应的文本范围；

在多媒体对象中对文本范围进行延展处理，以从多媒体对象中得到与目标编辑标记文本内容相对应的关联区域图像。

显示单元，用于显示目标文本的编辑界面，编辑界面中包括文本显示区域；

显示单元，还用于响应于对文本显示区域中的目标编辑对象的选择操作，显示编辑区域，编辑区域用于接收对目标文本中目标编辑对象的编辑操作；

处理单元，用于响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，编辑操作包括：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合；

显示单元，还用于在编辑界面中显示编辑后的目标文本。

在一种可能的实现方式中，编辑操作包括属性设置操作；处理单元响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，用于执行以下操作：

响应于针对目标编辑对象的选中操作，在编辑区域中输出属性编辑框，属性编辑框中显示有关于目标编辑对象的至少一个属性设置项，属性设置项包括：填写方设置项、文本内容设置项、文本格式设置项中的任意一种或多种；

响应于在属性编辑框中针对目标属性设置项的填写操作，设置目标编辑对象的内容属性信息。

在一种可能的实现方式中，处理单元还用于执行以下操作：

响应于在编辑界面中检测到的预览操作，显示预览界面，预览界面用于显示已经为目标文本编辑确定的内容属性信息，预览界面还用于接收对内容属性信息的调整操作；

响应于对目标属性信息的调整操作，显示关于目标属性信息的编辑界面。

在一种可能的实现方式中，编辑操作包括尺寸调整操作、对象删除操作中的任一种；处理单元响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，用于执行以下操作：

响应于对目标编辑对象的尺寸调整操作，输出尺寸调整按钮，尺寸调整按钮用于调整目标编辑对象的尺寸信息；或者，

响应于对目标编辑对象的对象删除操作，在编辑界面中删除目标编辑对象。

在一种可能的实现方式中，编辑界面中还包括功能显示区域；处理单元还用于执行以下操作中任意一个或多个：

若在功能显示区域中接收到填写区添加操作，生成填写编辑对象，并在编辑界面中显示所述填写编辑对象；

若在功能显示区域中接收到签署区添加操作，生成签署编辑对象，并在编辑界面中显示所述签署编辑对象。

在一种可能的实现方式中，编辑界面中设置有编辑入口；处理单元还用于执行以下操作：

响应于对编辑入口的触发操作，输出编辑菜单栏，编辑菜单栏中显示有一个或多个编辑操作功能项，一个编辑操作功能项对应一个编辑操作；

当检测到针对目标编辑操作功能项的选择操作时，显示编辑对象列表，编辑对象列表中显示有多个编辑对象；

响应于针对目标编辑对象的选择操作，生成针对目标编辑对象的目标编辑操作。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的文本处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的文本处理方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的文本处理方法。

本申请实施例中，可以基于对包含目标文本的多媒体对象进行特征提取，确定编辑元素特征和编辑标记文本特征，从而确定出目标编辑组件，确定目标编辑组件后，即可在编辑界面中显示与目标编辑组件对应的编辑对象(例如操作控件)，并支持在编辑界面中对各编辑对象进行编辑(例如尺寸调整、位置拖拽等操作)。由此可见，本申请可以提取编辑元素特征和编辑标记文本特征，从而自动识别得到目标编辑组件，相比于人工总结匹配规则而言，本申请实施例可以自动化地匹配出可以被设置的编辑对象的位置；进一步地，通过界面来便捷地完成诸如尺寸、内容等设置的方式更加便捷、高效。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种文本处理系统的结构示意图；

图1b是本申请实施例提供的一种文本处理方法的交互流程图；

图2是本申请实施例提供的一种文本处理方法的流程示意图；

图3a是本申请实施例提供的一种编辑界面的界面示意图；

图3b是本申请实施例提供的一种显示编辑区域的界面示意图；

图3c是本申请实施例提供的一种属性编辑的界面示意图；

图4a是本申请实施例提供的另一种属性编辑的界面示意图；

图4b是本申请实施例提供的一种尺寸编辑的界面示意图；

图4c是本申请实施例提供的一种对象删除的界面示意图；

图4d是本申请实施例提供的一种预览界面的示意图；

图5是本申请实施例提供的一种文本处理系统的架构示意图；

图6是本申请实施例提供的一种文本处理方法的流程示意图；

图7是本申请实施例提供的一种图像预处理的流程示意图；

图8是本申请实施例提供的一种确定编辑元素的流程示意图；

图9是本申请实施例提供的一种编辑元素特征的示意图；

图10是本申请实施例提供的一种确定候选编辑组件的流程示意图；

图11是本申请实施例提供的一种平移匹配过程的示意图；

图12是本申请实施例提供的一种组件类型预测模型的结构示意图；

图13是本申请实施例提供的一种关联区域图像的示意图；

图14是本申请实施例提供的一种文本处理装置的结构示意图；

图15是本申请实施例提供的另一种文本处理装置的结构示意图；

图16是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，将对本申请实施例涉及的关键技术术语进行介绍：

一、编辑组件：

本申请中主要涉及候选编辑组件和目标编辑组件，目标编辑组件是指从候选编辑组件中进行筛选后得到的编辑组件，例如可以按照预设筛选规则从候选编辑组件中筛选得到目标编辑组件，其中，预设筛选规则可以用户自定义设置，例如按照组件类型进行筛选等等。

所谓编辑组件是指用于生成多媒体对象中的编辑对象(例如操作控件)的元素。其中，多媒体对象可以包括文件对象，文件对象的格式例如可以包括但不限于：pdf(PortableDocument Format，便携式文档格式)、jpg(Joint Photographic Experts Group，一种压缩标准图像格式)、png(Portable Network Graphic Format，一种图片文件存储格式)、doc、docx、rar、zip等等；多媒体对象的类型例如可以包括文档文件、合同文件(房屋租赁合同文件、员工劳动合同文件、买卖合同文件、车位租赁合同文件、装饰装修合同文件、家政服务合同文件等)。本申请实施例中的多媒体对象的类型主要为合同文件，编辑对象是指用于对合同文件中的一个或多个文本内容进行编辑处理的操作对象，编辑对象的类型可以包括但不限于：按钮、功能项、选择器、勾选框、表格等等。

具体来说，根据本申请实施例所涉及的文本处理方案，可以对该房屋租赁合同进行文本处理后，生成用于对该房屋租赁合同中的文本内容进行编辑的编辑对象。举例来说，若合同文件为员工劳动合同，那么对应生成的编辑对象的类型可以包括但不限于：员工姓名、入职时间、身份标识(例如身份证号码)。后续，用户可以通过对应的编辑对象对该员工劳动合同中的文本内容进行编辑操作，所谓编辑操作例如可以为：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合。同时，该劳动合同中的任一编辑对象支持被编辑，例如可以对任一编辑对象的属性信息(尺寸大小、位置信息等)进行编辑。

二、编辑元素特征：

所谓编辑元素特征是指用于表示目标文本中的各个编辑元素的位置属性的特征。其中，上述所提及的编辑元素可以是通过图像识别方法得到的多边形对象，例如多边形对象的类型可以包括但不限于：线条、矩形框、表格等。上述所提及的位置属性可以包括但不限于：位置坐标、经纬度等。在一种可能的实现方式中，编辑元素特征还可以用于表示各个编辑元素的其它属性，例如表示各个编辑元素的元素类型(下划线、表格等)，可以理解的是，本申请中所涉及的编辑元素特征可以是指图像维度的特征。

三、编辑标记文本特征：

编辑标记文本特征可以包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。其中，所谓编辑标记文本内容是指：在目标文本中，用于标记可支持编辑的文本内容。例如，目标文本为：2022年6月22日，那么，该目标文本对应的编辑标记文本内容可以为：“年”、“月”、“日”等。可以理解的是，本申请中所涉及的编辑元素特征可以是指文本维度的特征。

四、云技术：

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

在一种可能的实现方式中，在执行本申请的模型分析方案时，按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件；以及，对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件。上述两个过程涉及较大规模计算，需要较大的算力和存储空间，因此可以由计算机设备通过云计算技术获取足够算力和存储空间，进而执行本申请中所涉及到的生成对各目标编辑组件的编辑对象的具体过程。

五、人工智能：

人工智能(Artificial Intelligence，AI)人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一种可能的实现方式中，本申请实施例提供的模型分析方案可以与人工智能领域下属的机器学习技术相结合。具体来说，可以通过机器学习技术训练神经网络模型(例如特征提取模型、组件识别模型等)，例如，通过调用训练好的特征提取模型获取对多媒体对象进行特征提取得到的编辑元素特征，以及调用训练好的特征提取模型获取目标文本的编辑标记文本特征；又如，调用组件识别模型对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件。

其中，所谓机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于上述描述，本申请提供了一种文本处理方案，该文本处理方案的原理如下：首先，可以获取目标文本的多媒体对象。在一种可能的实现方式中，在获取了多媒体对象之后，可以基于预处理模块(例如可以包括文本解析模块和切分与格式转换模块)对该多媒体对象进行预处理，然后得到预处理后的多媒体对象。接下来，可以调用特征提取模块(例如可以包括图像特征提取模块和文本规则引擎模块)对多媒体对象进行特征提取获取编辑元素特征，以及获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。具体来说，编辑元素特征可以是通过调用图像特征提取模块处理得到的，编辑标记文本特征可以是通过调用文本规则引擎模块处理得到的。接下来，按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，调用特征融合模块进行特征融合处理，得到多个候选编辑组件，其中，每一个候选编辑组件包括：编辑元素和各编辑标记文本内容。最后，基于类型预测模型对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于生成对各目标编辑组件的编辑对象。其中，在确定目标编辑组件的过程中，还可以调用结果融合模块对特征融合模块得到的结果和类型预测模型得到的结果进行融合处理，从而更加准确地确定出目标编辑组件。

由此可见，本申请可以提取编辑元素特征和编辑标记文本特征，从而自动识别得到目标编辑组件，相比于人工总结匹配规则而言，提高了对多媒体对象的处理效率；进一步地，由于确定候选编辑组件的过程中融合了综合编辑元素特征和编辑标记文本特征，基于更丰富的特征来确定目标编辑组件的方式，可以提高对多媒体对象的处理过程的准确性。

特别需要说明的是，在本申请的后续具体实施方式中，涉及到对象信息(例如对象的标识、昵称)等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

接下来，结合上述的视频编辑方法对本申请提供的文本处理系统进行相关介绍。请参见图1a，图1a是本申请实施例提供的一种文本处理系统的结构示意图。如图1a所示，该文本处理系统至少可以包括终端设备1001和服务器1002，需要说明的是，本申请并不对终端设备1001和服务器1002的数量进行具体限定。其中，文本处理系统中的终端设备1001与服务器1002之间可以通过有线或无线通信方式进行直接或间接地连接。另外，终端设备1001可以是指运行有操作系统的智能设备，本申请实施例对终端设备的操作系统并不进行具体限定。

其中，图1a所示的文本处理系统中的终端设备1001可以包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端、智能可穿戴设备等等，往往配置有显示装置，显示装置可以为显示器、显示屏、触摸屏等等，触摸屏可以为触控屏、触控面板等等。

其中，图1a所示的文本处理系统中的服务器1002可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一种可能的实现方式中，终端设备1001中运行有客户端，如文本客户端、视频客户端、浏览器客户端、信息流客户端、游戏客户端等，在本申请各实施例中，以文本客户端为例进行说明。其中，终端设备1001可以在文本客户端中向用户展示目标文本的编辑界面，该编辑界面中显示有对目标文本的多媒体对象进行处理后生成的至少一个编辑对象。服务器1002可用于为终端设备1001在文本处理过程中提供所需的后台技术支持，例如对目标文本的多媒体对象的解析处理，从而识别得到目标文本的目标编辑组件。

请参见图1b，图1b是本申请实施例提供的一种文本处理方法的交互流程图。接下来，结合附图1b本申请上述提及的文本处理方案对终端设备1001和服务器1002之间的交互过程进行相关说明：

S101、终端设备1001可以向服务器1002发送包含目标文本的多媒体对象。其中，多媒体对象可以包括文件对象，文件对象的格式例如可以包括但不限于：pdf、jpg、png、doc、docx、rar、zip等等；多媒体对象的类型例如可以包括文档文件、合同文件(房屋租赁合同文件、员工劳动合同文件、买卖合同文件、车位租赁合同文件、装饰装修合同文件、家政服务合同文件等)。

S102、服务器1002可以对多媒体对象进行处理，得到目标编辑组件。

具体来说，首先，服务器1002可以获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征。其中，该编辑元素特征用于表示目标文本中的各编辑元素的位置属性，该编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。然后，服务器1002按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，每一个候选编辑组件用于表示相应的编辑元素和各编辑标记文本内容。最后，服务器1002对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件。

S103、服务器1002可以向终端设备1001发送目标文本的目标编辑组件。

S104、终端设备1001基于服务器1002所发送的目标编辑组件，可以通过渲染器生成各目标编辑组件对应的编辑对象(即操作控件)。

在一种可能的实现方式中，终端设备1001可以显示目标文本的编辑界面，该编辑界面中包括文本显示区域，文本显示区域显示有对目标文本的多媒体对象进行处理后生成的至少一个编辑对象，任一编辑对象支持被编辑。

S105、终端设备1001响应于对目标编辑对象的编辑操作，该编辑操作包括以下任一种或多种：对象拖拽操作、尺寸调整操作、对象删除操作。并向服务器发送属性信息获取请求，该属性信息获取请求携带有目标编辑对象的控件标识。

S106、服务器1002响应属性信息获取请求，根据目标编辑对象的控件标识获取于目标编辑对象相匹配的属性信息。

S107、服务器1002将该属性信息发送至终端设备1001。

S108、终端设备1001基于接收到的属性信息，在编辑界面中显示编辑后的目标文本以及目标编辑对象。

通过本申请实施例提供的文本处理系统，针对服务器而言，首先可以获取目标文本的多媒体对象；以及，获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。接下来，按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，其中，每一个候选编辑组件包括：编辑元素和各编辑标记文本内容。最后，对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于生成对各目标编辑组件的编辑对象。由此可见，本申请可以综合编辑元素特征和编辑标记文本特征，从而识别得到目标编辑组件，相比于人工确定而言，提高了对多媒体对象的处理效率；进一步地，由于确定候选编辑组件的过程中融合了综合编辑元素特征和编辑标记文本特征，基于更丰富的特征来确定目标编辑组件的方式，可以提高对多媒体对象的处理过程的准确性。针对终端设备侧而言，终端设备可显示目标文本的编辑界面，且在该编辑界面中还可以显示由服务器对目标文本对应的多媒体对象进行解析后得到的至少一个编辑对象(例如操作控件)，并支持用户在目标文本的编辑界面中对编辑对象的属性信息进行编辑操作，例如设置编辑对象的内容属性信息、调整编辑对象在编辑界面中的尺寸信息、在编辑界面中删除某个编辑对象、以及在编辑界面中调整编辑对象的位置，编辑操作简单、快捷，可以提高编辑效率，并且多样化的编辑操作也可以提升趣味性。

接下来，结合相关产品附图对本申请实施例提供的文本处理方法进行详细描述。请参见图2，图2是本申请实施例提供的一种文本处理方法的流程示意图。本实施例中，该文本处理方法可由计算机设备执行，该计算机设备可以是图1b所示文本处理系统中的终端设备1001。如图2所示，该文本处理方法可包括以下步骤S201-S204：

S201、显示目标文本的编辑界面，编辑界面中包括文本显示区域。

本申请实施例中，编辑界面中所显示的目标文本可以是指多媒体对象中的全部文本或部分文本。其中，多媒体对象可以包括文件对象，文件对象的格式例如可以包括但不限于：pdf、jpg、png、doc、docx、rar、zip等等；多媒体对象的类型例如可以包括文档文件、合同文件(房屋租赁合同文件、员工劳动合同文件、买卖合同文件、车位租赁合同文件、装饰装修合同文件、家政服务合同文件等)。例如，多媒体对象为pdf格式的合同文件(简称pdf文件)，那么，此处的目标文本可以包括pdf文件中的任一页的文本内容，或者，目标文本也可以包括pdf文件中全部的文本内容。

在一种可能的实现方式中，编辑界面中所显示的目标文本的文本内容可以根据中终端设备的屏幕显示尺寸来确定。例如，终端设备的屏幕显示尺寸为尺寸1，那么编辑界面中可以显示包括100个文字字符的目标文本；又如，终端设备的屏幕显示尺寸为尺寸2，那么编辑界面中可以显示包括200个文字字符的目标文本，等等，本申请实施例对此不做具体限定。

举例来说，请参见图3a，图3a是本申请实施例提供的一种编辑界面的界面示意图，如图3a所示，该编辑界面S301中包括文本显示区域3011，其中，该文本显示区域3011中显示有目标文本的文本内容3013。

在一种可能的实现方式中，编辑界面中还包括功能显示区域，该功能显示区域用于接收填写区添加操作、签署区添加操作、预览操作中的任意一种或者多种。其中，若在功能显示区域中接收到填写区添加操作，生成填写编辑对象，并在编辑界面中显示填写编辑对象。以及，若在功能显示区域中接收到签署区添加操作，生成签署编辑对象，并在编辑界面中显示签署编辑对象。如图3a所示，编辑界面S301中还显示有功能显示区域3014，该功能显示区域3014中显示有至少一个功能控件，例如功能控件可以包括但不限于：填写区添加控件3015、签署区添加控件3016、预览控件3017中的任一种或多种。其中，触发填写区添加控件3015后可以生成填写区添加操作；触发填写签署区添加控件3016后可以生成签署区添加操作；触发预览控件3017后可以生成预览操作。

S202、响应于对文本显示区域中的目标编辑对象的选择操作，显示编辑区域，编辑区域用于接收对目标文本中目标编辑对象的编辑操作。

如图3a所示，该文本显示区域3011中还显示有各目标编辑组件对应的编辑对象，例如目标编辑对象可以为操作控件3012。其中，选择操作可以包括但不限于：点击操作、双击操作、长按操作、预设手势操作(例如画一个“S”型的手势)等。

具体来说，响应于对文本显示区域中的目标编辑对象的选择操作，显示编辑区域。该编辑区域可以是独立于编辑界面的一个单独界面，也可以是编辑界面中的一部分，本申请实施例对此不做具体限定。

进一步地，请参见图3b，图3b是本申请实施例提供的一种显示编辑区域的界面示意图。如图3b所示，若点击编辑界面S302中的文本显示区域中的目标编辑对象3021，则可以在该编辑界面中显示编辑区域，例如编辑界面S303中所示的编辑区域3031。

S203、响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，编辑操作包括：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合。

在一种可能的实现方式中，编辑操作包括属性设置操作；响应于对目标编辑对象的编辑操作，对所述目标编辑对象进行编辑，具体可以包括：首先，响应于针对目标编辑对象的选中操作，在编辑区域中输出属性编辑框，属性编辑框中显示有关于目标编辑对象的至少一个属性设置项，属性设置项包括：填写方设置项、文本内容设置项、文本格式设置项中的任意一种或多种。然后，响应于在属性编辑框中针对目标属性设置项的填写操作，设置目标编辑对象的内容属性信息。其中，所谓的填写操作可以包括：在已显示的相关内容中选择操作、键盘输入相关内容中的任一种。

举例来说，请参见图3c，图3c是本申请实施例提供的一种属性编辑的界面示意图。如图3c所示，编辑界面S304中所显示的属性编辑框中包括填写方设置项3041，该填写方设置项3041用于设置目标编辑对象对应的填写方，例如，响应于在属性编辑框在针对填写方设置项3041的填写操作，该填写操作可以包括：在属性编辑框中从已显示的多个填写方的标识(例如甲方(XX公司)、乙方(XX员工)、丙方(XX员工)等昵称)中选择；或者，在属性编辑框中输入需要填写方的标识，等等。同理，编辑界面S305中所显示的属性编辑框中包括文本内容设置项3051，该文本内容设置项3051用于设置目标编辑对象对应的名称、内容类型等等；编辑界面S306中所显示的属性编辑框中包括文本格式设置项3061，该文本格式设置项3061用于设置目标编辑对象对应的文本内容的格式、字体大小等等。通过这种方式，可以对目标编辑对象的内容属性信息进行自适应的设置，从而适应不同用户的需求，提高文本编辑的趣味性。

在一种可能的实现方式中，编辑界面中设置有编辑入口，该编辑入口例如可以为编辑控件、编辑功能项等等，本申请并不对该编辑入口的类型进行具体限定，可以理解的是，编辑入口可以为一级入口，也可以为二级入口，所谓一级入口是指可以直接显示于编辑界面中的入口；所谓二级入口是指隐藏显示(不直接显示)于编辑界面中的入口。响应于对所述编辑入口的触发操作，输出编辑菜单栏，该编辑菜单栏中显示有一个或多个编辑操作功能项，例如编辑操作功能项可以包括但不限于：对象拖拽操作功能项、尺寸调整操作功能项、对象删除操作功能项、属性设置操作功能项中的任一种或多种。其中，对象拖拽功能项用于指示生成对象拖拽操作；尺寸调整操作功能项用于指示生成尺寸调整操作；对象删除操作功能项用于指示生成对象删除操作；属性设置操作功能项用于指示生成属性设置操作。

举例来说，请参见图4a，图4a是本申请实施例提供的另一种属性编辑的界面示意图。如图4a所示，该编辑界面S401中设有编辑入口4011，响应于该编辑入口被触发(例如单击、双击、或长按中的任一种操作)，输出编辑菜单栏，如图界面S402所示，该编辑菜单栏中显示有一个或多个编辑操作功能项，例如编辑操作功能项可以包括但不限于：对象拖拽操作功能项4021、对象删除操作功能项4022、尺寸调整操作功能项4023、属性设置操作功能项4024中的任一种或多种。进一步地，若用户点击对象删除操作功能项4022，可以输出编辑对象列表(如图界面S403中的4031)，该编辑对象列表中显示有所述目标文本对应的至少一个编辑对象，例如编辑对象1、编辑对象2、编辑对象3、编辑对象4。若用户点击编辑对象1，则可以生成针对编辑对象1的对象删除操作，即在编辑界面中删除编辑对象1。通过这种方式，可以针对目标文本中所有的编辑对象开放一个统一的编辑入口，然后通过该编辑入口对目标编辑对象(例如编辑对象1)执行相应的编辑操作。

在一种可能的实现方式中，编辑操作包括尺寸调整操作。响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，具体包括：响应于对目标编辑对象的尺寸调整操作，输出尺寸调整按钮，尺寸调整按钮用于调整目标编辑对象的尺寸信息。其中，尺寸调整操作可以包括但不限于：双击、长按、固定手势中的任一种。举例来说，请参见图4b，图4b是本申请实施例提供的一种尺寸编辑的界面示意图。如图4b所示，在编辑界面S404中响应于对目标编辑对象4041的尺寸调整操作，输出尺寸调整按钮，如图界面S405中的4051。然后，用户可以拖动该尺寸调整按钮4051以对目标编辑对象的尺寸信息进行调整，例如可以增大目标编辑对象的尺寸或减小目标编辑对象的尺寸，从而得到尺寸调整后的目标编辑对象，并在编辑界面S406中显示尺寸调整后的目标编辑对象4061。

在一种可能的实现方式中，编辑操作包括对象删除操作。响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，具体包括：响应于对目标编辑对象的对象删除操作，输出对象删除按钮，对象删除按钮用于在编辑界面中删除目标编辑对象。其中，对象删除操作可以包括但不限于：双击、长按、固定手势中的任一种。举例来说，请参见图4c，图4c是本申请实施例提供的一种对象删除的界面示意图。如图4c所示，在编辑界面S404中响应于对目标编辑对象4041的对象删除操作，输出对象删除按钮，如图界面S407中的4071。然后，用户可以点击(例如点击、双击、或长按中的任一种)该对象删除按钮4071，从而在编辑界面S408中删除目标编辑对象。

需要说明的是，对象删除操作的操作类型与尺寸调整操作的操作类型可以相同，也可以不相同。若对象删除操作与尺寸调整操作相同，例如均为长按操作，那么可以在检测到针对目标编辑对象的长按操作后，同时输出尺寸调整按钮和删除按钮。

S204、在编辑界面中显示编辑后的目标文本。

在一种可能的实现方式中，响应于在编辑界面中检测到的预览操作，显示预览界面，预览界面用于显示已经为目标文本编辑确定的内容属性信息，预览界面还用于接收对内容属性信息的调整操作；响应于对目标属性信息的调整操作，显示关于该目标属性信息的编辑界面。

举例来说，请参见图4d，图4d是本申请实施例提供的一种预览界面的示意图。如图4d所示，若用户点击编辑界面S400中的预览控件，可以生成预览操作，从而显示预览界面S409。其中，该预览界面S409中显示有已编辑的目标编辑对象的内容属性信息，例如目标编辑对象为新添加的签署方，那么该签署方对应的内容属性信息可以包括但不限于：名称(丙方补充说明)、签署方类别(丙方)、填写限制等信息。另外，该预览界面S409中还设置有调整控件4091和模板导出控件4092。其中，调整控件4091用于调整已编辑的目标编辑对象的内容属性信息，例如，点击签署方对应的目标属性信息(如名称)，可以显示关于该目标属性信息(如名称)的编辑界面，从而在该编辑界面中再次编辑该目标属性信息。其中，模板导出控件4092用于导出已编辑好的模板文件，所述模板文本中包含目标文件以及已编辑好的各编辑对象。后续，可以基于导出的模板文件进行业务应用，例如模板文件的类型为房屋租赁合同，那么可以在租房场景中，使用该模板文件；又如模板文件的类型为员工劳动合同，那么可以在求职应聘场景中，使用该模板文件。

通过本申请实施例，终端设备可显示目标文本的编辑界面，且在该编辑界面中还可以显示由服务器对目标文本对应的多媒体对象进行解析后得到的至少一个编辑对象(例如操作控件)，并支持用户在目标文本的编辑界面中对编辑对象的属性信息进行编辑操作，例如设置编辑对象的内容属性信息、调整编辑对象在编辑界面中的尺寸信息、在编辑界面中删除某个编辑对象、以及在编辑界面中调整编辑对象的位置，编辑操作简单、快捷，可以提高编辑效率，并且多样化的编辑操作也可以提升趣味性。

基于图2对文本处理方法所涉及的产品附图的相关描述，下面将对本申请产品实施例所涉及的后台技术进行详细说明。

首先，结合附图对执行该文本处理方法的后台架构示意图进行相关介绍。请参见图5，图5是本申请实施例提供的一种文本处理方法的后台架构示意图。如图5所示，该后台架构示意图可以包括至少一个模块，具体来说可以包括但不限于：预处理模块、特征提取模块、特征融合模块、类型预测模块、结果融合模块。其中，预处理模块又可以包括文本解析模块、切分与格式转换模块；特征提取模块又可以包括图像特征提取模块、文本规则引擎模块。接下来，分别对各个模块依次进行详细介绍：

1)文本解析模块：本申请实施例中，多媒体对象的格式若为PDF格式，那么文本解析模块具体可以为PDF文本解析模块，该PDF文本解析模块主要用于解析PDF文件(PDF格式的多媒体对象)中与文本相关的信息。主要包括文本内容识别，文本位置识别、文本范围识别，所谓文本位置识别是指识别得到目标文本中的文字字符的具体位置(例如一个坐标)，可以理解为文本位置识别后得到的结果为一个点；所谓文本范围识别是指识别得到目标文本中一个或多个文字字符的范围(例如在PDF文件中的顶部、底部、中间位置等等)，可以理解为文本范围识别后得到的结果为一个区域(例如矩形区域)。需要说明的是，该模块可以通过采用PDF解析工具、以及通用印刷体识别服务来实现上述方法。

2)切分与格式转换模块：主要用于将PDF文件(PDF格式的多媒体对象)按页进行切分处理，得到至少一个PDF子文件。例如PDF文件包括10页，则切分后可以分别得到第1页PDF子文件、第2页PDF子文件...第10页PDF子文件。最后，将得到的每一页PDF子文件进行格式转换，具体可以将PDF格式转换为图片格式(例如jpg格式、png格式等)。需要说明的是，该模块主要依赖于PDF文件转换工具来实现。

3)图像特征提取模块：用于提取关于目标文本的多媒体对象的图像特征，图像特征例如可以为编辑元素特征，该编辑元素特征用于表示目标文本中的各编辑元素的位置属性。具体来说，可以采用图像特征增强算法、图像特征筛选算法等得到编辑元素特征。

4)文本规则引擎模块：基于目标文本中的各编辑元素的位置属性，可以通过文本匹配规则(例如可以为正则匹配规则、命名实体识别规则等)提取目标文本的编辑标记文本特征。其中，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。其中，编辑标记文本内容可以是指目标文本中的关键文本内容，例如“年”、“月”、“日”、“姓名”、“身份证号码”等等内容，该编辑标记文本内容可以用于标记可进行编辑的文本内容。

5)特征融合模块：基于特征提取模块所提取到的编辑元素特征、以及编辑标记文本特征，可以对上述特征进行特征融合处理，从而可以基于融合处理后的特征来确定候选编辑组件。

6)类型预测模块：用于预测候选编辑组件的组件类型，具体可以为类型预测模型，该类型预测模型可以包括任何结构的神经网络模型。具体来说，该模块可以预测候选编辑组件是否为有效组件，若是，则进一步确定得到该候选编辑组件的组件类型。其中，组件类型例如可以包括但不限于：名称、证件号码、电话号码、位置、文本类型、签名区类型、印章区类型、数字类型、非有效组件类型等等。

7)结果融合模块：可以综合类型预测模块和特征融合模块分别输出的结果，并结合筛选规则，从多个候选编辑组件中确定出目标文本的目标编辑组件。例如，针对PDF文件中的一条“横线”而言，类型预测模块输出得到的结果为一个有效编辑组件，但基于特征融合模块输出的结果确定该“横线”为页眉横线或页脚横线，那么综合类型预测模块和特征融合模块分别输出的结果后，可以进一步确定该候选编辑组件是一个非有效编辑组件。通过这种方式，可以更加准确的识别出目标编辑组件，提高文本处理过程的准确性。

可以理解的是，本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

接下来，请参见图6，图6是本申请实施例提供的一种文本处理方法的流程示意图。本实施例中，该文本处理方法可由计算机设备执行，该计算机设备可以是图1b所示文本处理系统中的服务器1002。如图6所示，该文本处理方法可包括以下步骤S601-S604：

S601、获取目标文本的多媒体对象。

本申请实施例中，多媒体对象可以包括文件对象，文件对象的格式例如可以包括但不限于：pdf、jpg、png、doc、docx、rar、zip等等；多媒体对象的类型例如可以包括文档文件、合同文件(房屋租赁合同文件、员工劳动合同文件、买卖合同文件、车位租赁合同文件、装饰装修合同文件、家政服务合同文件等)。

其中，目标文本可以是指多媒体对象中的全部文本，目标文本也可以是指多媒体对象中的部分文本。例如，多媒体对象为员工劳动合同文件，那么此处的目标文本可以包括：员工劳动合同中的协议内容、员工姓名、身份证号码、手机号码等等文本内容。

在一种可能的实现方式中，多媒体对象为PDF文件，即多媒体对象的格式为PDF格式。那么，计算机设备在获取该PDF文件之后，还可以对该PDF文件进行预处理操作。具体来说，可以通过调用预处理模块对该PDF文件进行预处理操作，其中，预处理模块可以包括切分与格式转换模块。例如，可以通过切分与格式转换模块将该PDF文件(例如10页)按页进行切分处理，从而得到10个PDF子文件。其中，切分后得到的每一个PDF子文件可以作为一个多媒体对象。进一步地，还可以对多媒体对象进行格式转换，例如可以将PDF格式转换为jpg、png等图片格式，从而方便后续的图像特征识别以及特征提取。

在一种可能的实现方式中，预处理模块可以包括切分与格式转换模块。可以通过调用文本解析模块对目标文本进行文本识别处理，其中，文本识别处理主要包括文本内容识别，文本位置识别、文本范围识别，所谓文本位置识别是指识别得到目标文本中的文字字符的具体位置(例如一个坐标)，可以理解为文本位置识别后得到的结果为一个点；所谓文本范围识别是指识别得到目标文本中一个或多个文字字符的范围(例如在PDF文件中的顶部、底部、中间位置等等)，可以理解为文本范围识别后得到的结果为一个区域(例如矩形区域)。

S602、获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。

其中，编辑元素特征可以用于反映多媒体对象的图像特征。所谓编辑元素是指可以被编辑的元素，例如编辑元素可以包括但不限于：下划线、表格、冒号加空白、方框(例如矩形框)等。可以理解的是，编辑元素特征除了用于表示目标文本中的各编辑元素的位置属性(例如位置坐标)，还可以用于表示其它属性，例如用于指示编辑元素的元素类型(下划线、表格等类型)，以便于后续基于编辑元素特征生成对应的编辑对象。其中，位置属性还可以包括位置范围，例如编辑元素特征可以用于表征一个可以被用户编辑的位置范围，在这个位置范围内，是可以被编辑的。

其中，编辑标记文本特征可以用于反映多媒体对象的文本特征。编辑标记文本特征可以包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。其中，所谓编辑标记文本内容是指：在目标文本中，用于标记可支持编辑的文本内容。例如，目标文本为：2022年6月22日，那么，该目标文本对应的编辑标记文本内容可以为：“年”、“月”、“日”等。又如，编辑标记文本内容还可以为：姓名、身份证号码等。

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符。计算机设备获取对多媒体对象进行特征提取得到的编辑元素特征，可以包括：首先，根据目标文本中各文字字符在目标文本中的文本位置，在多媒体对象中将目标文本中的各个文字字符删除，得到预处理图像；然后，在预处理图像中确定有效像素点，其中，预处理图像中有效像素点的值大于自适应阈值，自适应阈值是根据有效像素点的临近区域内的像素点的值确定的；最后，根据各有效像素点进行轮廓识别处理，得到多个编辑元素特征。

接下来，结合附图对如何确定编辑元素特征的过程进行详细说明：

请参见图7，图7是本申请实施例提供的一种图像预处理的流程示意图。如图7所示，在对多媒体对象进行图像预处理的过程中，首先可以对多媒体图像进行灰度处理，具体可以包括：加载该图像，并将多媒体对象转换为灰度图像，从而去除图像中色彩的影响，便于后续进行图像特征提取。其中，多媒体对象为彩色图像，所谓彩色图像是指通道数为3(R(Red)，G(Green)，B(Blue))的图像，所谓灰度图像是指通道数为1的图像。具体来说，可以通过平均算法、最大最小平均算法、加权平均算法等方式将彩色图像转换为灰度图像。接下来，调用文本解析模块对目标文本进行文本识别处理，得到目标文本中各文字字符在目标文本中的文本位置，并在灰度处理后的多媒体对象(灰度图像)中将目标文本中的各个文字字符删除，从而得到预处理图像。其中，文字字符可以包括但不限于：中文文字、英文文字、阿拉伯数字、日语文字等等各种类型的文字。因此，所确定的预处理图像为不包括文本内容的图像。

请参见图8，图8是本申请实施例提供的一种确定编辑元素的流程示意图。如图8所示，确定编辑元素的具体过程可以包括：阈值化处理(例如可以为自适应阈值化处理)、腐蚀-膨胀处理、轮廓识别处理(可以包括轮廓点识别算法、多边形拟合算法)这几个步骤。接下来，分别对每个步骤所执行的具体过程进行相关说明：

①自适应阈值化处理：可以通过使用高斯方程的进行自适应阈值化处理，从而提高预处理图像中编辑元素的边缘特征。其中，所谓自适应阈值化是指给定一个自适应阈值，若预处理图像中像素点的值大于该自适应阈值，则将该像素点的值置为255；若预处理图像中像素点的值小于或等于该自适应阈值，则将该像素点的值置为0。在一种可能的实现方式中，自适应阈值可以根据有效像素点的临近区域内的像素点的值来确定，其中，临近区域可以包括：对于目标像素点而言，距离该目标像素点为N个像素点内包括的区域视为临近区域；临近区域还可以包括：以该目标像素点为几何中心，面积为S的区域视为临近区域。需要说明的是，N和S可以根据需求自定义设置，例如N＝2、4等，S＝5个像素点*5个像素点的面积。具体来说，根据有效像素点的临近区域内的像素点的值来确定自适应阈值的方式，具体可以包括：将有效像素点的临近区域内的像素点的值输入至高斯方程中，基于高斯方程的处理后，输出则为目标像素点对应的自适应阈值，上述方式具体可以通过采用Open CV(Open Source Computer Vision Library，一种开源的计算机视觉库)库中的adaptiveThreshold函数来实现。

②腐蚀-膨胀处理：通过采用图像腐蚀操作去除预处理图像中的毛刺或噪声像素点，以及通过采用图像膨胀操作提升特征边缘的连贯性。其中，腐蚀-膨胀处理原理具体如下：由于预处理图像为二值图像，所谓二值图像是指前景物体为1，背景为0。假设预处理图像中有一个前景物体，那么可以采用一个结构元素去腐蚀预处理图像，具体过程可以包括：遍历预处理图像中的每一个像素点，然后用结构元素的中心点对准当前正在遍历的这个像素点，然后取当前结构元素所覆盖下的预处理图像对应区域内的所有像素点的最小值(图像腐蚀操作)/最大值(图像膨胀操作)，用这个最小值(图像腐蚀操作)/最大值(图像膨胀操作)替换当前像素值。具体来说，可以通过使用[1，100]和[100，1]形状的矩阵作为核矩阵，并利用Open CV库中的erode\dilate函数实现。

③轮廓点识别算法：通过判断预处理图像中像素点之间的平滑连线得到预处理图像中编辑元素的轮廓锚点，该算法部分可以利用Open CV库中的findContours函数实现。

④多边形拟合算法：基于轮廓点识别过程输出的锚点集合，用多边形拟合预处理图像中的轮廓，从而得到多个编辑元素，例如可以得到诸如：下划线、表格、冒号加空白、方框等用于表示可以被编辑的编辑元素。该算法部分可以利用Open CV库中的approxPolyDP函数实现。

基于上述步骤，可以根据提取得到的各编辑元素，确定各编辑元素对应的位置属性，从而得到多个编辑元素特征。请参见图9，图9是本申请实施例提供的一种编辑元素特征的示意图。如图9所示，该编辑元素特征可以用于表示各编辑元素的位置属性，例如编辑元素为表格，该表格对应的位置属性可以包括：位置坐标、长度范围、宽度范围等等属性；又如，编辑元素为下划线，该下划线对应的位置属性可以包括：位置坐标、长度范围等等属性。

接下来，对如何确定编辑标记文本特征的过程进行详细说明：

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符。计算机设备获取目标文本的编辑标记文本特征，可以包括：首先，调用文本解析模块对目标文本进行文本识别处理，得到目标文本中各文字字符在目标文本中的文本位置；然后，调用文本规则引擎模块对目标文本的进行文本规则匹配处理，提取出目标文本中的关键字符，将得到的关键字符作为编辑标记文本内容；根据关键字符和关键字符对应的在目标文本中的文本位置，得到目标文本的编辑标记文本特征。其中，文本规则匹配处理可以包括：正则匹配处理、命名实体识别处理等方式。

S603、按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，每一个候选编辑组件用于表示相应的编辑元素和各编辑标记文本内容。

在一种可能的实现方式中，计算机设备按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，可以包括：首先，按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，对各编辑元素和各编辑标记文本内容进行平移匹配，得到多个初始候选编辑组件；然后，对各初始候选编辑组件中的编辑元素进行字符编码，得到多个候选编辑组件。

请参见图10，图10是本申请实施例提供的一种确定候选编辑组件的流程示意图。如图10所示，编辑元素特征和编辑标记文本特征进行特征融合处理的具体过程可以包括：文本-线条匹配处理、文本-结构信息编码处理，从而得到多个候选编辑组件。接下来，分别对上述两个过程进行相应说明：

1)文本-线条匹配处理：用于匹配与编辑标记文本内容相关的编辑元素。具体来说，计算机设备按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，对各编辑元素和各编辑标记文本内容进行平移匹配，得到多个初始候选编辑组件。请参见图11，图11是本申请实施例提供的一种平移匹配过程的示意图。如图11所示，所谓平移匹配过程具体如下：虚线框表示目标文本的文本范围，实线线条是提取的编辑元素特征，平移匹配过程中，可以将虚线框的高度降低再上下左右平移，平移长度可以设置(例如可以取虚线框高度的1/4)得到平移匹配后的虚线框，基于平移匹配后的虚线框范围内匹配到的实线线条会给更高的权重。

2)文本-结构信息编码处理：相匹配的编辑元素和编辑标记文本内容可以视为一个初始候选编辑组件。例如，编辑元素为下划线时，对应的初始候选编辑组件可以为：“姓名___”、“性别____”、“__年__月__日”等等；又如，编辑元素为冒号加空白时，对应的初始候选编辑组件可以为：“身份证号：”、“手机号：”。然后，对各初始候选编辑组件中的编辑元素进行字符编码，得到多个候选编辑组件。具体来说，字符编码具体可以包括Unicode编码，为了避免字符编码后出现字符碰撞(例如编码后的字符映射为一个中文文字，则代表发生字符碰撞)，可以取F0000-FFFFF范围进行特殊字符编码，这样可以保证编码后的字符不能与任何字符相对应，则避免了字符碰撞的情况。例如初始候选编辑组件为：“__年__月__日”，那么可以对该初始候选编辑组件中的下划线(编辑元素)进行特殊字符编码，例如特殊字符编码后得到的候选编辑组件可以为：<\uF0001>年<\uF0002>月<\uF0003>日<\uF1001>。

在一种可能的实现方式中，不同类型的编辑元素可以对应不同的编码规则，例如，编辑元素为下划线，可以采用“\uF0”为开头进行编码；又如，编辑元素为冒号加空格，可以采用“\uF1”为开头进行编码；还如，编辑元素为表格，可以采用“\uF2”为开头进行编码，等等。需要说明的是，可以将文本对象中每段换行处也进行特殊字符编码，使得换行处也可以视为一个候选编辑组件。

可以理解的是，候选编辑组件用于表示相应的编辑元素和对应的编辑标记文本内容，由于编辑元素被字符编码，因此本申请实施例中候选编辑组件是指经过特殊字符编码的文本。

S604、对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于生成对各目标编辑组件的编辑对象。

具体来说，在确定了目标编辑组件之后，可以设置对应的处理逻辑。当用户点击了目标编辑组件对应的编辑对象之后，即可显示相应的编辑界面，从而支持用户在该编辑界面中对编辑对象进行编辑操作，编辑操作具体可以包括：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合。

在一种可能的实现方式中，计算机设备对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，可以包括：首先，获取每一个候选编辑组件的组件特征向量表示，并获取每一个候选编辑组件中编辑标记文本内容在多媒体对象中对应的关联区域图像的图像特征向量表示；然后，根据组件特征向量表示和图像特征向量表示，确定各个候选编辑组件的组件类型；最后，根据确定的组件类型从各个候选编辑组件中确定出目标编辑组件。

具体来说，计算机设备可以调用组件类型预测模型对多个候选编辑组件进行识别处理，从而确定出各个候选编辑组件的组件类型。举例来说，请参见图12，图12是本申请实施例提供的一种组件类型预测模型的结构示意图。如图12所示，该组件类型预测模型的输入可以包括：预处理文本、预处理图片。其中，预处理文本是指上述基于特征融合处理后确定的经过特殊字符编码后得到的候选编辑组件，预处理图片是指与预处理文本相对应的图片，即编辑标记文本内容在多媒体对象中对应的关联区域图像。

在一种可能的实现方式中，计算机设备确定关联区域图像的过程，可以包括：首先，基于各编辑标记文本内容在目标文本中的文本位置，获取目标编辑标记文本内容在目标文本的多媒体对象中对应的文本范围；然后，在多媒体对象中对文本范围进行延展处理，以从多媒体对象中得到与目标编辑标记文本内容相对应的关联区域图像。其中，目标编辑标记文本内容是指各个编辑标记文本内容中的任一个。所谓延展处理是指以文本范围为基础，朝目标方向进行n倍(n为整数，例如n＝3)放大处理，例如文本范围为一个矩形框范围，那么可以朝四周(上、下、左、右各方向)对该矩形框进行放大处理。请参见图13，图13是本申请实施例提供的一种关联区域图像的示意图。如图13所示，在该多媒体对象中，假设目标编辑标记文本内容为：“社会信用统一代码或工商登记注册号”，那么，虚线框表示该目标编辑标记文本内容在目标文本的多媒体对象中对应的文本范围，经过三倍延展处理后得到的关联区域图像可以为实现框对应的图像，通过延展处理，可以包括关联区域图像中包含目标编辑标记文本内容。

接下来，对如何确定各个候选编辑组件的组件类型的过程进行详细说明：

具体来说，该组件类型预测模型可以包括第一网络模型和第二网络模型。其中，组件特征向量表示是通过调用第一网络模型对每个候选编辑组件进行分析识别后得到的；图像特征向量表示是通过调用第二网络模型对关联区域图像进行图像识别后确定的。需要说明的是，上述所提及的第一网络模型和第二网络模型均可以为任何结构的神经网络模型，并且，第一网络模型的模型结构和第二网络模型的模型结构可以相同，也可以不相同，本申请实施例对此模型结构并不做具体限定。例如，第一网络模型可以为Transformer模型、或者RNN(Recurrent Neural Networks，循环神经网络)模型等，第二网络模型可以为CNN(Convolutional Neural Network，卷积神经网络)模型。

1)将任一个候选编辑组件(待处理文本)输入至第一网络模型(例如Transformer模型)后，经过Transformer模型的识别处理，可以输出各个文字字符对应的embedding向量表示，然后将特殊位置字符对应的embedding向量表示作为当前候选编辑组件对应的组件特征向量。举例来说，假设候选编辑组件表示为：<\uF0001>年<\uF0002>月<\uF0003>日<\uF1001>。那么，经过Transformer模型的识别处理后，可以得到：<\uF0001>对应的embedding向量表示为embedding1，“年”对应的embedding向量表示为embedding2，<\uF0002>对应的embedding向量表示为embedding3，“月”对应的embedding向量表示为embedding4，<\uF0003>对应的embedding向量表示为embedding5、“日”对应的embedding向量表示为embedding6，<\uF1001>对应的embedding向量表示为embedding7。那么，组件特征向量可以为：embedding1、embedding3、embedding5、embedding7。其中，组件特征向量的尺寸维度可以为[批量大小，transformer隐藏层向量维度值]，所谓批量大小是指：同时输入至组件类型预测模型的待处理文本-待处理图片对的数量，transformer隐藏层向量维度值例如可以为768，若同时输入至组件类型预测模型的待处理文本-待处理图片对的数量为10，则组件特征向量表示是尺寸维度为10×768的矩阵。

2)将任一个关联区域图像(待处理图片)输入至第二网络模型(例如CNN模型)后，经过CNN模型的识别处理，可以输出该关联区域图像特征的embedding向量表示，然后将输出的embedding向量表示作为图像特征向量表示。其中，图像特征向量表示的尺寸维度可以为[批量大小，卷积层对应的维度值]，卷积层对应的维度值例如可以为648，若同时输入至组件类型预测模型的待处理文本-待处理图片对的数量为10，则图像特征向量表示是尺寸维度为10×648的矩阵。

3)接下来，可以将组件特征向量表示和图像特征向量表示进行拼接处理，得到拼接特征向量表示，然后通过调用分类模型(全连接层、分类回归层)对拼接特征向量表示进行分类识别，得到各个候选编辑组件的组件类型。具体来说，拼接特征向量表示的尺寸维度为[批量大小，transformer隐藏层向量维度值+卷积层对应的维度值]。例如，组件特征向量表示为10×768的矩阵，图像特征向量表示为10×648的矩阵，那么拼接特征向量表示为10×1416的矩阵。然后，将拼接特征向量表示输入至全连接层(又可称为稠密层，例如为dense层)后，可以输出组件类型表示向量，该组件类型向量表示的尺寸维度为：[批量大小，组件类型的种类数]，例如批量大小为10，分类模型可识别的组件类型的种类数为20，那么组件类型向量表示是尺寸维度为10×20的矩阵。最后，经过分类回归层(softmax)的处理，即可输出目标候选编辑组件(任一个候选编辑组件)的类型概率，然后取概率最大值对应的组件类型作为目标候选编辑组件的目标组件类型。

可以理解的是，任一个候选编辑组件均可以通过上述方式确定相应的组件类型。这种组件类型的确定方式既参考了文本维度的特征(组件特征向量表示)，又参考了图像维度的特征(图像特征向量表示)，从而使得确定候选编辑组建的组件类型的准确性较高。

最后，对组件类型预测模型的训练过程进行相关说明：

在一种可能的实现方式中，计算机设备还可以获取训练数据集，该训练数据集用于训练初始神经网络模型。其中，训练数据集中包括多个样本数据对，一个样本数据对对应一个样本编辑组件。任一个样本数据对可以包括样本编辑组件对应的样本文本和样本图片，任一个样本数据对携带有样本标签，样本标签用于指示样本编辑组件的组件类型。举例来说，训练数据集中可以包括3000条人工标注的样本数据对，且任一个样本数据对的格式可以为：<样本文本><\SEP><样本图片链接><\SEP><文本目标位置><\SEP><样本标签>。

具体来说，任一个样本数据对而言，首先，可以通过初始神经网络模型识别得到样本数据对的样本文本特征，以及通过初始神经网络模型识别得到样本数据对的样本图像特征；然后，基于样本文本特征和样本图像特征可以确定样本拼接特征；最后，识别该样本拼接特征，即可确定样本编辑组件的预测组件类型。举例来说，组件类型例如可以为：名称、证件号码、电话号码、位置、文本类型、签名区类型、印章区类型、数字类型、非有效组件类型等等。

接下来，基于每个样本编辑组件的预测组件类型和样本标签之间的差异，可以调整初始神经网络模型的模型参数，若调整后的初始神经网络模型满足模型收敛条件，那么可以将调整后的初始神经网络模型作为组件类型预测模型。其中，所谓模型收敛条件可以是指：当初始神经网络模型的训练次数达到预设训练阈值时，例如100次，则初始神经网络模型满足模型收敛条件；当每个样本编辑组件对应的预测组件类型和样本标签之间的误差小于误差阈值时，则初始神经网络模型满足模型收敛条件；当初始神经网络模型相邻两次训练得到的每个样本编辑组件的预测组件类型之间的变化小于变化阈值时，则初始神经网络模型满足模型收敛条件。

本申请实施例中，首先可以获取目标文本的多媒体对象；以及，获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。接下来，按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，其中，每一个候选编辑组件包括：编辑元素和各编辑标记文本内容。最后，对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于对目标文本中各目标编辑组件对应的编辑对象(例如例如操作控件)进行编辑。由此可见，本申请可以提取编辑元素特征和编辑标记文本特征，从而自动识别得到目标编辑组件，相比于人工总结匹配规则而言，提高了对多媒体对象的处理效率；进一步地，由于确定候选编辑组件的过程中融合了综合编辑元素特征和编辑标记文本特征，基于更丰富的特征来确定目标编辑组件的方式，可以提高对多媒体对象的处理过程的准确性。

请参见图14，图14是本申请实施例提供的一种文本处理装置的结构示意图。文本处理装置1400可以是运行于计算机设备(例如服务器)中的一个计算机程序(包括程序代码)，例如该文本处理装置1400为一个应用软件；该文本处理装置1400可以用于执行本申请实施例提供的方法中的相应步骤。该文本处理装置1400可包括：

获取单元1401，用于获取目标文本的多媒体对象；

处理单元1402，用于获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置；

处理单元1402，还用于按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，每一个候选编辑组件用于表示相应的编辑元素和编辑标记文本内容；

处理单元1402，还用于对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于对目标文本中各目标编辑组件对应的编辑对象进行编辑。

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符；处理单元1402获取对多媒体对象进行特征提取得到的编辑元素特征，用于执行以下操作：

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符；处理单元1402获取目标文本的编辑标记文本特征，用于执行以下操作：

在一种可能的实现方式中，处理单元1402按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，用于执行以下操作：

在一种可能的实现方式中，处理单元1402对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，用于执行以下操作：

处理单元1402根据组件特征向量表示和图像特征向量表示，确定各个候选编辑组件的组件类型，用于执行以下操作：

在一种可能的实现方式中，处理单元1402还用于执行以下操作：

本申请实施例中，首先可以获取目标文本的多媒体对象；以及，获取对多媒体对象进行特征提取得到的编辑元素特征，并获取目标文本的编辑标记文本特征，编辑元素特征用于表示目标文本中的各编辑元素的位置属性，编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置。接下来，按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，其中，每一个候选编辑组件包括：编辑元素和各编辑标记文本内容。最后，对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，以便于对目标文本中各目标编辑组件对应的编辑对象(例如操作控件)进行编辑。由此可见，本申请可以提取编辑元素特征和编辑标记文本特征，从而自动识别得到目标编辑组件，相比于人工总结匹配规则而言，提高了对多媒体对象的处理效率；进一步地，由于确定候选编辑组件的过程中融合了综合编辑元素特征和编辑标记文本特征，基于更丰富的特征来确定目标编辑组件的方式，可以提高对多媒体对象的处理过程的准确性。

请参见图15，图15是本申请实施例提供的另一种文本处理装置的结构示意图。文本处理装置1500可以是运行于计算机设备(例如终端设备)中的一个计算机程序(包括程序代码)，例如该文本处理装置1500为一个应用软件；该文本处理装置1500可以用于执行本申请实施例提供的方法中的相应步骤。该文本处理装置1500可包括：

显示单元1501，用于显示目标文本的编辑界面，编辑界面中包括文本显示区域；

显示单元1501，还用于响应于对文本显示区域中的目标编辑对象的选择操作，显示编辑区域，编辑区域用于接收对目标文本中目标编辑对象的编辑操作；

处理单元1502，用于响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，编辑操作包括：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合；

显示单元1501，还用于在编辑界面中显示编辑后的目标文本。

在一种可能的实现方式中，编辑操作包括属性设置操作；处理单元1502响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，用于执行以下操作：

在一种可能的实现方式中，处理单元1502还用于执行以下操作：

在一种可能的实现方式中，编辑操作包括尺寸调整操作、对象删除操作中的任一种；处理单元1502响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，用于执行以下操作：

在一种可能的实现方式中，编辑界面中还包括功能显示区域；处理单元1502还用于执行以下操作中任意一个或多个：

在一种可能的实现方式中，编辑界面中设置有编辑入口；处理单元1502还用于执行以下操作：

请参见图16，图16是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备1600用于执行前述方法实施例中终端设备或服务器所执行的步骤，该计算机设备1600包括：一个或多个处理器1610；一个或多个输入设备1620，一个或多个输出设备1630和存储器1640。上述处理器1610、输入设备1620、输出设备1630和存储器1640通过总线1650连接。存储器1640用于存储计算机程序，所述计算机程序包括程序指令，处理器1610用于调用存储器1640存储的程序指令，执行以下操作：

获取目标文本的多媒体对象；

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符；处理器1610获取对多媒体对象进行特征提取得到的编辑元素特征，用于执行以下操作：

在一种可能的实现方式中，多媒体对象为图像，目标文本包括多个文字字符；处理器1610获取目标文本的编辑标记文本特征，用于执行以下操作：

在一种可能的实现方式中，处理器1610按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，用于执行以下操作：

在一种可能的实现方式中，处理器1610对多个候选编辑组件进行识别处理，确定出目标文本的目标编辑组件，用于执行以下操作：

处理器1610根据组件特征向量表示和图像特征向量表示，确定各个候选编辑组件的组件类型，用于执行以下操作：

在一种可能的实现方式中，处理器1610还用于执行以下操作：

可以理解的是，处理器1610用于调用存储器1640存储的程序指令，还用于执行以下操作：

显示目标文本的编辑界面，编辑界面中包括文本显示区域；

在编辑界面中显示编辑后的目标文本。

在一种可能的实现方式中，编辑操作包括属性设置操作；处理器1610响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，用于执行以下操作：

在一种可能的实现方式中，处理器1610还用于执行以下操作：

在一种可能的实现方式中，编辑操作包括尺寸调整操作、对象删除操作中的任一种；处理器1610响应于对目标编辑对象的编辑操作，对目标编辑对象进行编辑，用于执行以下操作：

在一种可能的实现方式中，编辑界面中还包括功能显示区域；处理器1610还用于执行以下操作中任意一个或多个：

在一种可能的实现方式中，编辑界面中设置有编辑入口；处理器1610还用于执行以下操作：

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文所对应实施例中的方法，因此，这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，计算机设备的处理器从计算机程序产品读取到该计算机程序后，该处理器可以执行该计算机程序，使得该计算机设备可以执行前文所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种文本处理方法，其特征在于，包括：

获取目标文本的多媒体对象；

获取对所述多媒体对象进行特征提取得到的编辑元素特征，并获取所述目标文本的编辑标记文本特征，所述编辑元素特征用于表示所述目标文本中的各编辑元素的位置属性，所述编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置；

对所述多个候选编辑组件进行识别处理，确定出所述目标文本的目标编辑组件，以便于对所述目标文本中各目标编辑组件对应的编辑对象进行编辑。

2.如权利要求1所述的方法，其特征在于，所述多媒体对象为图像，所述目标文本包括多个文字字符；所述获取对所述多媒体对象进行特征提取得到的编辑元素特征，包括：

根据目标文本中各文字字符在目标文本中的文本位置，在所述多媒体对象中将所述目标文本中的各个文字字符删除，得到预处理图像；

在所述预处理图像中确定有效像素点，其中，预处理图像中所述有效像素点的值大于自适应阈值，所述自适应阈值是根据有效像素点的临近区域内的像素点的值确定的；

3.如权利要求1所述的方法，其特征在于，所述多媒体对象为图像，所述目标文本包括多个文字字符；所述获取所述目标文本的编辑标记文本特征，包括：

调用文本规则引擎模块对所述目标文本进行文本规则匹配处理，提取出所述目标文本中的关键字符，将得到的关键字符作为编辑标记文本内容；

根据关键字符和关键字符对应的在目标文本中的文本位置，得到所述目标文本的编辑标记文本特征。

4.如权利要求1所述的方法，其特征在于，所述按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述多个候选编辑组件进行识别处理，确定出所述目标文本的目标编辑组件，包括：

6.如权利要求5所述的方法，其特征在于，所述组件特征向量表示是通过调用第一网络模型对每个候选编辑组件进行分析识别后得到的；所述图像特征向量表示是通过调用第二网络模型对关联区域图像进行图像识别后确定的；

所述根据组件特征向量表示和图像特征向量表示，确定各个候选编辑组件的组件类型，包括：

对所述组件特征向量表示和所述图像特征向量表示进行拼接处理，得到拼接特征向量表示；

调用分类模型对所述拼接特征向量表示进行分类识别，得到各个候选编辑组件的组件类型。

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

基于各编辑标记文本内容在目标文本中的文本位置，获取目标编辑标记文本内容在所述目标文本的多媒体对象中对应的文本范围；

在所述多媒体对象中对所述文本范围进行延展处理，以从所述多媒体对象中得到与所述目标编辑标记文本内容相对应的关联区域图像。

8.一种文本处理方法，其特征在于，包括：

显示目标文本的编辑界面，所述编辑界面中包括文本显示区域；

响应于对所述文本显示区域中的目标编辑对象的选择操作，显示编辑区域，所述编辑区域用于接收对所述目标文本中目标编辑对象的编辑操作；

响应于对所述目标编辑对象的编辑操作，对所述目标编辑对象进行编辑，所述编辑操作包括：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合；

在所述编辑界面中显示编辑后的目标文本。

9.如权利要求8所述的方法，其特征在于，所述编辑操作包括属性设置操作；所述响应于对所述目标编辑对象的编辑操作，对所述目标编辑对象进行编辑，包括：

响应于针对所述目标编辑对象的选中操作，在所述编辑区域中输出属性编辑框，所述属性编辑框中显示有关于所述目标编辑对象的至少一个属性设置项，所述属性设置项包括：填写方设置项、文本内容设置项、文本格式设置项中的任意一种或多种；

响应于在所述属性编辑框中针对目标属性设置项的填写操作，设置所述目标编辑对象的内容属性信息。

10.如权利要求8所述的方法，其特征在于，所述方法还包括：

响应于在所述编辑界面中检测到的预览操作，显示预览界面，所述预览界面用于显示已经为所述目标文本编辑确定的内容属性信息，所述预览界面还用于接收对内容属性信息的调整操作；

响应于对目标属性信息的调整操作，显示关于所述目标属性信息的编辑界面。

11.如权利要求8所述的方法，其特征在于，所述编辑操作包括尺寸调整操作、对象删除操作中的任一种；所述响应于对所述目标编辑对象的编辑操作，对所述目标编辑对象进行编辑，包括：

响应于对所述目标编辑对象的尺寸调整操作，输出尺寸调整按钮，所述尺寸调整按钮用于调整所述目标编辑对象的尺寸信息；或者，

响应于对所述目标编辑对象的对象删除操作，在所述编辑界面中删除所述目标编辑对象。

12.如权利要求8所述的方法，其特征在于，所述编辑界面中还包括功能显示区域；所述方法还包括以下步骤的任意一个或多个：

若在所述功能显示区域中接收到填写区添加操作，生成填写编辑对象，并在所述编辑界面中显示所述填写编辑对象；

若在所述功能显示区域中接收到签署区添加操作，生成签署编辑对象，并在所述编辑界面中显示所述签署编辑对象。

13.如权利要求8所述的方法，其特征在于，所述编辑界面中设置有编辑入口；所述方法还包括：

响应于对所述编辑入口的触发操作，输出编辑菜单栏，所述编辑菜单栏中显示有一个或多个编辑操作功能项，一个编辑操作功能项对应一个编辑操作；

当检测到针对目标编辑操作功能项的选择操作时，显示编辑对象列表，所述编辑对象列表中显示有多个编辑对象；

响应于针对目标编辑对象的选择操作，生成针对所述目标编辑对象的目标编辑操作。

14.一种文本处理装置，其特征在于，包括：

获取单元，用于获取目标文本的多媒体对象；

处理单元，用于获取对所述多媒体对象进行特征提取得到的编辑元素特征，并获取所述目标文本的编辑标记文本特征，所述编辑元素特征用于表示所述目标文本中的各编辑元素的位置属性，所述编辑标记文本特征包括：编辑标记文本内容和编辑标记文本内容在目标文本中的文本位置；

所述处理单元，还用于按照各编辑元素的位置属性和各编辑标记文本内容在目标文本中的文本位置，进行特征融合处理，得到多个候选编辑组件，每一个候选编辑组件用于表示相应的编辑元素和编辑标记文本内容；

所述处理单元，还用于对所述多个候选编辑组件进行识别处理，确定出所述目标文本的目标编辑组件，以便于对所述目标文本中各目标编辑组件对应的编辑对象进行编辑。

15.一种文本处理装置，其特征在于，包括：

显示单元，用于显示目标文本的编辑界面，所述编辑界面中包括文本显示区域；

所述显示单元，还用于响应于对所述文本显示区域中的目标编辑对象的选择操作，显示编辑区域，所述编辑区域用于接收对所述目标文本中目标编辑对象的编辑操作；

处理单元，用于响应于对所述目标编辑对象的编辑操作，对所述目标编辑对象进行编辑，所述编辑操作包括：对象拖拽操作、尺寸调整操作、对象删除操作、属性设置操作中的任意一种或者多种的组合；

所述显示单元，还用于在所述编辑界面中显示编辑后的目标文本。

16.一种计算机设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-7任一项所述的文本处理方法或如权利要求8-13任一项所述的文本处理方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的文本处理方法或如权利要求8-13任一项所述的文本处理方法。

18.一种计算机程序产品，其特征在于，所述计算程序产品包括计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-7任一项所述的文本处理方法或如权利要求8-13任一项所述的文本处理方法。