CN114282517A - 文档处理方法、装置、电子设备及存储介质 - Google Patents

文档处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114282517A
CN114282517A CN202111422878.0A CN202111422878A CN114282517A CN 114282517 A CN114282517 A CN 114282517A CN 202111422878 A CN202111422878 A CN 202111422878A CN 114282517 A CN114282517 A CN 114282517A
Authority
CN
China
Prior art keywords
text
information
character
line
text line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111422878.0A
Other languages
English (en)
Inventor
吴思瑾
刘涵
胡腾
陈永锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111422878.0A priority Critical patent/CN114282517A/zh
Publication of CN114282517A publication Critical patent/CN114282517A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本公开提供了一种文档处理方法、装置、电子设备及存储介质,涉及人工智能领域,具体为深度学习和自然语言处理技术领域。实现方案为:获取文档,从文档中解析得到第一文本行和第二文本行,确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息,确定第一文本行的第一布局信息,并确定第二文本行的第二布局信息,根据第一语义信息、第一布局信息、第二语义信息,第二布局信息确定第一文本行和第二文本行是否是连续折行。由此,能够充分地联合文本行语义信息与文本行在文档中的布局信息,对不同文本行是否为连续折行进行判定,能够有效地提升对文档中不同文本行是否为连续折行的判定准确性,有效提升针对文档的连续折行的判定效率。

Description

文档处理方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,具体涉及深度学习和自然语言处理技术,尤其涉及一种文档处理方法、装置、电子设备及存储介质。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
相关技术中,通常针对不同类型文档独立定制对应的文档中连续折行的判定处理规则,不同类型文档例如,不同业务场景中的文档,或不同文档格式的文档,或者相同文档格式下不同垂类的文档。
发明内容
本公开提供了一种文档处理方法、装置、电子设备、存储介质及计算机程序产品。
根据本公开的第一方面,提供了一种文档处理方法,包括:获取文档;从所述文档中解析得到第一文本行和第二文本行;确定所述第一文本行的第一语义信息,并确定所述第二文本行的第二语义信息;确定所述第一文本行的第一布局信息,并确定所述第二文本行的第二布局信息;以及根据所述第一语义信息、所述第一布局信息、所述第二语义信息,以及所述第二布局信息确定所述第一文本行和所述第二文本行是否是连续折行。
根据本公开的第二方面,提供了一种文档处理装置,包括:获取模块,用于获取文档;解析模块,用于从所述文档中解析得到第一文本行和第二文本行;第一确定模块,用于确定所述第一文本行的第一语义信息,并确定所述第二文本行的第二语义信息;第二确定模块,用于确定所述第一文本行的第一布局信息,并确定所述第二文本行的第二布局信息;以及第三确定模块,用于根据所述第一语义信息、所述第一布局信息、所述第二语义信息,以及所述第二布局信息确定所述第一文本行和所述第二文本行是否是连续折行。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例的文档处理方法。
根据本公开的第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开第一方面实施例的文档处理方法。
根据本公开的第五方面,提出了一种计算机程序产品,包括计算机程序,当计算机程序由处理器执行时实现本公开第一方面实施例的文档处理方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是本公开实施例中文档的文本行位置示意图;
图3是根据本公开第二实施例的示意图;
图4是根据本公开第三实施例的示意图;
图5是根据本公开第四实施例的示意图;
图6是本公开实施例中的文本预训练模型结构示意图;
图7是本公开实施例中的第一连续折行识别模型结构示意图;
图8是本公开实施例中的第二连续折行识别模型结构示意图;
图9是根据本公开第五实施例的示意图;
图10是根据本公开第六实施例的示意图;
图11示出了可以用来实施本公开的实施例的文档处理方法的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开第一实施例的示意图。
其中,需要说明的是,本实施例的文档处理方法的执行主体为文档处理装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
本公开实施例涉及人工智能技术领域,具体涉及深度学习和自然语言处理技术领域。
其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
深度学习,是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
自然语言处理(Natural Language Processing,NLP),即计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。是以语言为对象,利用计算机技术来分析、理解和处理自然语言,即把计算机作为语言研究工具,在计算机的支持下对语言信息进行定量化的研究处理,并提供可供人与计算机之间能共同使用的语言描写。
如图1所示,该文档处理方法,包括:
S101:获取文档。
其中,该文档的格式可以是包含文本内容的多种格式,例如可以是便携式文档格式(Portable Document Format,PDF)文档、文本文档、扫描件,或者也可以是图片以及网页等格式的文档,对此不做限制。
本公开实施例中,在获取文档时,可以针对文档处理装置预先配置相应的文档采集装置,文档采集装置可以采集包含文本内容的文档,例如可以获取PDF文档、文本文档,或者可以预先针对文档处理装置配置数据传输接口,经由该数据传输接口接收扫描仪等装置采集到的扫描件,对此不做限制。
另一些实施例中,还可以经由数据传输接口接收其他电子设备传输的图片等来获取文档,或者还可以通过对网页进行爬取和解析以获取文档,对此不做限制。
S102:从文档中解析得到第一文本行和第二文本行。
其中,文本行是由多个字符排列组成的,可以从文档中解析得到,第一文本行可以是在文档中的位置相对于第二文本行较前的文本行,第二文本行为排列在第一文本行之后的文本行。
本公开实施例中,在从文档中解析得到第一文本行和第二文本行时,可以利用智能文档分析平台TextMind对获取到的文档进行分析处理,提取文档中的文本内容以及文本内容所在的位置,从而将文档解析为文本行的形式,或者可以将文档处理为多个样本文本行的形式,该样本文本行中可以包含两个文本行,在文档中位置相对排列较前的为第一文本行,第一文本行后面的文本行可以为第二文本行,对此不做限制。
如图2所示,图2是本公开实施例中文档的文本行位置示意图,文档标题下的第一行正文文本即可作为第一文本行,第二文本行可以为第一文本行的下一行文本,此时第一文本行与第二文本行为连续折行,或者第一文本行可以为分栏前正文的最后一行,第二文本行为分栏的第一行文本,则此时第一文本行与第二文本行不是连续折行。
S103:确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息。
其中,语义信息用于描述文本行的文本内容含义,第一文本行的文本内容含义可以被称为第一语义信息,第二文本行的文本内容含义可以被称为第二语义信息。
本公开实施例中,在确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息时,可以通过文本预训练语言模型分别对第一文本行和第二文本行进行语义分析处理,以理解第一文本行和第二文本行的语义信息,并将模型的输出分别作为第一文本行的第一语义信息和第二文本行的第二语义信息。
举例而言,第一语义信息例如可以为第一文本行中的词汇以及文本结构在对应的文档语义背景下的文本内容含义,第二语义信息例如可以为第二文本行中的词汇以及文本结构在对应的文档语义背景下的文本内容含义。
S104:确定第一文本行的第一布局信息,并确定第二文本行的第二布局信息。
其中,布局信息用于描述文本行在文档中的空间位置信息,第一文本行在文档中的空间位置信息可以被称为第一布局信息,第二文本行在文档中的空间位置信息可以被称为第二布局信息。
举例而言,空间位置信息可以例如为文本行在文档中布局模块位置以及文本行顺序编号等,其中,文档中的布局模块可以例如为文档中的标题模块、正文模块、表格模块或者分栏模块等,第一布局信息可以例如为第一文本行在文档中的分栏模块中,位于分栏模块的第一行,第二布局信息可以例如为第二文本行在文档中分栏模块中,位于分栏模块的第二行。
本公开实施例中,在确定第一文本行的第一布局信息,并确定第二文本行的第二布局信息时,可以利用智能文档分析平台TextMind对获取到的文档进行分析处理,以获取到文档页面的尺寸以及每个字符的文本内容和在二维空间的相对坐标,而后可以根据文本行中的字符的相对坐标确定文本行在文档中的空间位置信息,分别确定得到第一文本行在文档中的空间位置信息作为第一文本行的第一布局信息,确定得到第二文本行在文档中的空间位置信息作为第二布局信息。
另一些实施例中,可以利用文本预训练语言模型根据文本行中的字符在二维空间中的位置处理得到文档的整体布局信息,可以根据每个字符的尺寸信息和位置信息分析文档的整体布局信息,对此不做限制。
例如,可以根据文本行中字符的尺寸信息和位置信息判断出该文本行是否为标题、分栏或者是表格等整体布局信息,而后根据文档的整体布局信息对第一文本行和第二文本行的布局信息进行提取,并将获取得到的布局信息分别作为第一文本行对应的第一布局信息以及第二文本行对应的第二布局信息,或者也可以采用其他任意可能的方式确定第一文本行的第一布局信息,并确定第二文本行的第二布局信息,对此不做限制。
S105:根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行。
在上述获取第一文本行的第一语义信息和第一布局信息,以及第二文本行的第二语义信息和第二布局信息之后,可以根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行。
本公开实施例中,在根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行时,可以利用文本预训练语言模型根据第一语义信息与第二语义信息判断第一文本行与第二文本行连接之后,相应整体语义是否合理,并联合第一布局信息与第二布局信息进行综合判断第一文本行与第二文本行是否为不同布局模块的文本行,该不同布局模块例如可以是标题或者是分栏处等,如果第一文本行与第二文本行连接之后,相应整体语义合理,且第一文本行与第二文本行不存在位于不同模块的情况,则表明第一文本行和第二文本行是连续折行,如果第一文本行与第二文本行连接之后,相应整体语义不合理,且第一文本行与第二文本行位于不同模块,则表明第一文本行和第二文本行不是连续折行。
本实施例中,通过获取文档,从文档中解析得到第一文本行和第二文本行,确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息,确定第一文本行的第一布局信息,并确定第二文本行的第二布局信息,根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行,能够充分地联合文本行语义信息与文本行在文档中的布局信息,对不同文本行是否为连续折行进行判定,能够有效地提升对文档中不同文本行是否为连续折行的判定准确性,有效提升针对文档的连续折行的判定效率。
图3是根据本公开第二实施例的示意图。
如图3所示,该文档处理方法,包括:
S301:获取文档。
S302:从文档中解析得到第一文本行和第二文本行。
S301-S302的描述说明可以示例参见上述实施例,在此不再赘述。
S303:确定文档的整体语义。
其中,文档的整体语义用于对文档文本的整体文本含义进行描述。
本公开实施例中,在确定文档的整体语义时,可以对文档中的文本内容进行提取,以得到流式的文本内容,而后将流式的文本内容输入至文本预训练语言模型中,利用文本预训练语言模型对文档的文本内容进行理解处理,以得到模型的输出作为文档的整体语义。
S304:确定第一文本行的第一局部语义,并确定第二文本行的第二局部语义。
本公开实施例在上述确定了文档的整体语义之后,可以分别确定第一文本行的第一局部语义和第二文本行的第二局部语义。
其中,第一局部语义是指第一文本行中的词汇以及文本结构在本行文本语义背景下的文本内容含义,第二局部语义是指第二文本行中的词汇以及文本结构在本行文本语义背景下的文本内容含义。
本公开实施例中,在确定第一文本行的第一局部语义并确定第二文本行的第二局部语义时,可以利用自然语言处理模型对文档中的文本行进行分别语义理解处理,对第一文本行进行语义理解处理以得到第一文本行的第一局部语义,对第二文本行进行语义理解处理以得到第二文本行的第二局部语义。
S305:获取第一局部语义相对于整体语义的第一上下文语义,并获取第二局部语义相对于整体语义的第二上下文语义。
其中,上下文语义是指文本行的局部语义在文档的整体语义环境下的文本内容含义,第一文本行的第一局部语义在文档的整体语义环境下的文本含义可以称为第一上下文语义,第二文本行的第二局部语义在文档的整体语义环境下的文本含义可以被称为第二上下文语义。
本公开实施例中,在获取第一局部语义相对于整体语义的第一上下文语义,并获取第二局部语义相对于整体语义的第二上下文语义时,可以利用上下文搜索算法对第一文本行的第一局部语义在文档的整体语义背景下进行语义分析处理,以得到第一局部语义相对于整体语义的第一上下文语义,利用上下文搜索算法对第二文本行的第二局部语义在文档的整体语义背景下进行语义分析处理,以得到第二局部语义相对于整体语义的第二上下文语义。
S306:将第一局部语义和第一上下文语义作为第一语义信息,并将第二局部语义和第二上下文语义作为第二语义信息。
本公开实施例在上述获取第一局部语义相对于整体语义的第一上下文语义,并获取第二局部语义相对于整体语义的第二上下文语义之后,可以将第一局部语义和第一上下文语义共同作为第一文本行的第一语义信息,并将第二局部语义和第二上下文语义共同作为第二语义信息,第一语义信息和第二语义信息可以用于联合第一布局信息和第二布局信息对第一文本行与第二文本行是否为连续折行进行判断。
本实施例中,通过确定文档的整体语义,确定第一文本行的第一局部语义,并确定第二文本行的第二局部语义,获取第一局部语义相对于整体语义的第一上下文语义,并获取第二局部语义相对于整体语义的第二上下文语义,并将第一局部语义和第一上下文语义作为第一语义信息,并将第二局部语义和第二上下文语义作为第二语义信息,从而可以通过获取第一局部语义和第二局部语义,并根据文档的整体语义对第一文本行和第二文本行的上下文语义进行获取,丰富了获取得到的第一文本行和第二文本行的语义信息,使得可以获得较多维度的语义信息,提升语义信息在对第一文本行与第二文本行是否连续进行判定时的表征能力,辅助提升对文档中的文本行进行折行判定处理的准确率。
S307:确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息。
其中,一维位置信息用于表征文本行在文档中的文本行序列中的编号信息,例如可以表示文档中的一个文本行是文档的第一个文本行,其中,第一文本行在文档中的文本行序列中的编号信息可以为第一文本行在文档中的第一一维位置信息,第二文本行在文档中的文本行序列中的编号信息可以为第二文本行在文档中的第二一维位置信息。
本公开实施例中,可以对文档中的文本行进行标识处理,以得到各个文本行在文档中的编号信息,在确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息时,可以根据第一文本行的编号信息确定第一文本行在文档中的第一一维位置信息,并根据第二文本行的编号信息确定第二文本行在文档中的第二一维位置信息。
可选地,另一些实施例中,第一一维位置信息还可以是第一文本行在文档中的布局模块位置,例如第一文本行可以位于文档的标题模块,第二一维位置信息还可以是第二文本行在文档中的布局模块位置,例如第二文本行可以位于文档的正文模块等,对此不做限制。
S308:确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息。
其中,第一文本行在文档中的第一空间位置信息可以由第一文本行中的各个字符的空间位置信息确定,第二文本行在文档中的第二空间位置信息可以由第二文本行中的各个字符的空间位置信息确定。
其中,空间位置信息是指文本行在文档中的二维位置信息,第一空间位置信息是指第一文本行在文档中的二维位置信息,第二空间位置信息是指第二文本行在文档中的二维位置信息。
本公开实施例中,在确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息,可以对第一文本行中的字符进行框选处理,提取第一文本行中的字符所在的字符框的坐标信息,并对坐标信息进行处理,以得到第一文本行在文档中的第一空间位置信息,对第二文本行中的字符进行框选处理,提取第二文本行中的字符所在的字符框的坐标信息,并对坐标信息进行处理,以得到第二文本行在文档中的第二空间位置信息。
S309:将第一一维位置信息和第一空间位置信息作为第一布局信息,并将第二一维位置信息和第二空间位置信息作为第二布局信息。
本公开实施例中,在确定第一文本行在文档中的第一一维位置信息,和第二文本行在文档中的第二一维位置信息,并确定第一文本行在文档中的第一空间位置信息和第二文本行在文档中的第二空间位置信息之后,可以将第一一维位置信息和第一空间位置信息作为第一布局信息,将第二一维位置信息和第二空间位置信息作为第二布局信息。
其中,第一布局信息和第二布局信息可以用于联合第一语义信息和第二语义信息对第一文本行与第二文本行是否为连续折行进行判断。
本实施例中,通过确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息,确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息,并将第一一维位置信息和第一空间位置信息作为第一布局信息,并将第二一维位置信息和第二空间位置信息作为第二布局信息,可以较大程度上丰富对文本行布局信息的获取,从而利用较为丰富的布局信息对第一文本行与第二文本行是否为连续折行进行判定,使得可以更好的学习到文档中文本行的全局特征,有效提升对文档中的文本行进行折行判定处理的准确率。
S310:根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行。
S310的描述说明可以示例参见上述实施例,在此不再赘述。
本实施例中,通过确定文档的整体语义,确定第一文本行的第一局部语义,并确定第二文本行的第二局部语义,获取第一局部语义相对于整体语义的第一上下文语义,并获取第二局部语义相对于整体语义的第二上下文语义,并将第一局部语义和第一上下文语义作为第一语义信息,并将第二局部语义和第二上下文语义作为第二语义信息,从而可以通过获取第一局部语义和第二局部语义,并根据文档的整体语义对第一文本行和第二文本行的上下文语义进行获取,丰富了第一文本行和第二文本行的语义信息,使得可以获得较多维度的语义信息,提升语义信息在对第一文本行与第二文本行是否连续进行判定时的表征能力,辅助提升对文档中的文本行进行折行判定处理的准确率,通过确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息,确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息,并将第一一维位置信息和第一空间位置信息作为第一布局信息,并将第二一维位置信息和第二空间位置信息作为第二布局信息,可以较大程度上丰富对文本行布局信息的获取,从而利用较为丰富的布局信息对第一文本行与第二文本行是否为连续折行进行判定,使得可以更好的学习到文档中文本行的全局特征,有效提升对文档中的文本行进行折行判定处理的准确率。
图4是根据本公开第三实施例的示意图。
如图4所示,该文档处理方法,包括:
S401:获取文档。
S402:从文档中解析得到第一文本行和第二文本行。
S403:确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息。
S404:确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息。
S401-S404的描述说明可以示例参见上述实施例,在此不再赘述。
S405:确定第一文本行的多个第一字符,并确定第二文本行的多个第二字符。
其中,文档中的文本行是由多个字符组成的,组成第一文本行的字符可以被称为第一字符,第一字符例如可以为第一文本行中的中文字符、英文字符或者标点符号等字符,组成第二文本行的多个字符可以被称为第二字符,第二字符例如可以为第二文本行中的中文字符、英文字符或者标点符号等字符。
本公开实施例中,在确定第一文本行的多个第一字符时,可以对第一文本行进行分割框选处理,以得到处理后被字符框包裹的多个字符,并将该分割框选处理后的多个字符作为第一文本行的多个第一字符,对第二文本行进行分割框选处理,以得到处理后被字符框包裹的多个字符,并将该分割框选处理后的多个字符作为第二文本行的多个第二字符。
S406:获取与多个第一字符分别对应的多个第一字符空间信息,并获取与多个第二字符分别对应的多个第二字符空间信息。
其中,字符空间信息用于描述字符在文档中的位置信息,该位置信息可以由字符所在的字符框的二位空间坐标以及字符框的尺寸信息表示,第一字符在文档中的位置信息可以称为第一字符空间信息,第二字符在文档中的位置信息可以称为第二字符空间信息。
举例而言,第一字符空间信息可以为第一字符的字符框的二维空间坐标信息和字符框的尺寸信息,第二字符空间信息可以为第二字符的字符框的二维空间坐标信息和字符框的尺寸信息。
本公开实施例中,在获取与多个第一字符分别对应的多个第一字符空间信息时,可以分别获取多个第一字符所在的字符框的二维空间坐标以及字符框的尺寸信息,将对应的多个二维空间坐标以及尺寸信息作为个第一字符分别对应的多个第一字符空间信息,分别获取多个第二字符所在的字符框的二维空间坐标以及字符框的尺寸信息,将对应的多个二维空间坐标以及尺寸信息作为个第二字符分别对应的多个第二字符空间信息。
可选地,一些实施例中,获取与多个第一字符分别对应的多个第一字符空间信息,并获取与多个第二字符分别对应的多个第二字符空间信息,可以获取与多个第一字符分别对应的多个第一字符位置,并获取与多个第二字符分别对应的多个第二字符位置,获取与多个第一字符分别对应的多个第一字符尺寸,并获取与多个第二字符分别对应的多个第二字符尺寸,以及将第一字符位置和第一字符尺寸作为相应第一字符的第一字符空间信息,并将第二字符位置和第二字符尺寸作为相应第二字符的第二字符空间信息,从而可以获取字符的字符位置和字符尺寸作为字符空间信息,引入较为全面的字符空间信息,使得可以获得更为全面的字符空间特征,从而可以实现与语义信息的深度结合进行文档中的文本行是否为连续折行进行判定,辅助提升对文档中的文本行进行折行判定处理的准确率。
其中,第一字符位置可以用于表示第一字符所在的字符框在文档中的空间位置信息,第二字符位置可以用于表示第二字符所在的字符框在文档中的空间位置信息。
举例而言,第一字符位置可以为第一字符所在字符框的左上角坐标和右下角坐标,第二字符位置可以为第二字符所在字符框的左上角坐标和右下角坐标。
其中,第一字符尺寸是指第一字符所在字符框的宽度和高度,第二字符尺寸是指第二字符所在字符框的宽度和高度。
本公开实施例中,在获取与多个第一字符分别对应的多个第一字符位置,并获取与多个第二字符分别对应的多个第二字符位置时,可以分别获取多个第一字符所在字符框的左上角二维空间位置坐标和右下角二维空间位置坐标,并将该左上角二维空间位置坐标和右下角二维空间位置坐标作为对应的第一字符的第一字符位置,可以分别获取多个第二字符所在字符框的左上角二维空间位置坐标和右下角二维空间位置坐标,并将该左上角二维空间位置坐标和右下角二维空间位置坐标作为对应的第二字符的第二字符位置。
本公开实施例中,在获取与多个第一字符分别对应的多个第一字符尺寸并获取与多个第二字符分别对应的多个第二字符尺寸时,可以分别获取多个第一字符所在字符框的宽度信息和高度信息,并将该宽度信息和高度信息作为多个第一字符的第一字符尺寸,分别获取多个第二字符所在字符框的宽度信息和高度信息,并将该宽度信息和高度信息作为多个第二字符的第二字符尺寸。
举例而言,可以分别获取多个第一字符所在字符框的左上角二维空间位置坐标(x0,y0)和右下角二维空间位置坐标(x1,y1)以及多个第一字符所在字符框的宽度w和高度h,并将x0,y0,x1,y1,w以及h作为多个第一字符分别对应的多个第一字符空间信息,分别获取多个第二字符所在字符框的左上角二维空间位置坐标(x0,y0)和右下角二维空间位置坐标(x1,y1)以及多个第二字符所在字符框的宽度w和高度h,并将x0,y0,x1,y1,w以及h作为多个第二字符分别对应的多个第二字符空间信息。
在上述获取了与多个第一字符分别对应的多个第一字符位置和与多个第二字符分别对应的多个第二字符位置,并获取了与多个第一字符分别对应的多个第一字符尺寸和与多个第二字符分别对应的多个第二字符尺寸之后,可以将第一字符位置和第一字符尺寸作为相应第一字符的第一字符空间信息,并将第二字符位置和第二字符尺寸作为相应第二字符的第二字符空间信息。
S407:根据多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息。
其中,第一空间位置信息用于表示第一文本行在文档中的空间位置信息,第二空间位置信息用于表示第二文本行在文档中的空间位置信息。
举例而言,第一空间位置信息可以为第一文本行在文档中的二维空间位置信息以及第一文本行尺寸信息,第二空间位置信息可以为第二文本行在文档中的二维空间位置信息以及第二文本行尺寸信息。
在上述将第一字符位置和第一字符尺寸作为相应第一字符的第一字符空间信息,并将第二字符位置和第二字符尺寸作为相应第二字符的第二字符空间信息之后,可以根据多个字符多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息。
本公开实施例中,在根据多个字符多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息时,可以对第一字符空间信息中的第一字符位置和第一字符尺寸进行处理,以得到第一字符的第一字符空间信息,对第二字符空间信息中的第二字符位置和第二字符尺寸进行处理,以得到第二字符的第二字符空间信息。
可选地,一些实施例中,根据多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息,对多个第一字符位置进行拼接处理,以得到第一文本位置,并对多个第二字符位置进行拼接处理,以得到第二文本位置,对多个第一字符尺寸进行拼接处理,以得到第一文本尺寸,并对多个第二字符尺寸进行拼接处理,以得到第二文本尺寸,以及将第一文本位置和第一文本尺寸作为第一空间位置信息,并将第二文本位置和第二文本尺寸作为第二空间位置信息,从而可以根据多个字符空间信息确定文本行的空间位置信息,由于第一文本行的第一空间位置信息和第二文本行的第二空间位置信息可以用于获取对应的文本特征,则可以辅助提升获取文本特征的准确性。
其中,第一文本位置用于表示第一文本行的位置信息,第一文本尺寸用于表示第一文本行的尺寸信息,第一文本位置和第一文本尺寸可以用于表示第一文本行在文档中的空间位置信息,第二文本位置用于表示第二文本行的位置信息,第二文本尺寸用于表示第二文本行的尺寸信息,第二文本位置和第二文本尺寸可以用于表示第二文本行在文档中的空间位置信息。
本公开实施例中,在对多个第一字符位置进行拼接处理,以得到第一文本位置,并对多个第二字符位置进行拼接处理,以得到第二文本位置时,可以对多个第一字符位置进行矢量相加处理,以得到第一文本位置,并对多个第二字符位置进行矢量相加处理,以得到第二文本位置。
本公开实施例中,在对多个第一字符尺寸进行拼接处理,以得到第一文本尺寸,并对多个第二字符尺寸进行拼接处理得到第二文本尺寸时,可以对多个第一字符尺寸中的字符框的宽度和高度进行对应的矢量拼接处理,以得到对应的第一文本尺寸,并对多个第二字符尺寸中的字符框的宽度和高度进行对应的矢量拼接处理,以得到对应的第二文本尺寸。
本公开实施例中,在上述对多个第一字符位置进行拼接处理得到第一文本位置,并对多个第二字符位置进行拼接处理得到第二文本位置,对多个第一字符尺寸进行拼接处理得到第一文本尺寸,并对多个第二字符尺寸进行拼接处理得到第二文本尺寸之后,可以将第一文本位置和第一文本尺寸作为第一空间位置信息,并将第二文本位置和第二文本尺寸作为第二空间位置信息。
举例而言,可以分别将多个第一字符的左上角所在字符框的左上角二维空间位置坐标(x0,y0)和右下角二维空间位置坐标(x1,y1)以及多个第一字符所在字符框的宽度w和高度h,分别建立映射表,并通过文本预训练对其进行学习处理,分别为第一字符的x0,y0,x1,y1以及w和h建立对应的表示向量,可以对多个第一字符的位置表示向量进行矢量相加处理,以得到第一文本位置,对多个第一字符的尺寸表示向量进行矢量相加处理,以得到第一文本尺寸。
本实施例中,通过确定第一文本行的多个第一字符,并确定第二文本行的多个第二字符,获取与多个第一字符分别对应的多个第一字符空间信息,并获取与多个第二字符分别对应的多个第二字符空间信息,并根据多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息,从而可以利用文本行中的多个字符的字符空间信息确定得到文本行的空间位置信息,同时也丰富了从空间维度上对文本进行处理得到的空间位置信息的全面性,文本行的空间位置信息可以用于对文本行的文本特征的提取以对文档中的文本行是否为连续折行进行折行判定,从而可以辅助提升对文档中的文本行进行折行判定处理的准确率。
S408:确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息。
S409:将第一一维位置信息和第一空间位置信息作为第一布局信息,并将第二一维位置信息和第二空间位置信息作为第二布局信息。
S410:根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行。
S408-S410的描述说明可以示例参见上述实施例,在此不再赘述。
本实施例中,通过确定第一文本行的多个第一字符,并确定第二文本行的多个第二字符,获取与多个第一字符分别对应的多个第一字符空间信息,并获取与多个第二字符分别对应的多个第二字符空间信息,并根据多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息,从而可以利用文本行中的多个字符的字符空间信息确定得到文本行的空间位置信息,同时也丰富了从空间维度上对文本进行处理得到的空间位置信息的全面性,文本行的空间位置信息可以用于对文本行的文本特征的提取,以对文档中的文本行是否为连续折行进行折行判定,从而可以辅助提升对文档中的文本行进行折行判定处理的准确率,通过确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息,确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息,并将第一一维位置信息和第一空间位置信息作为第一布局信息,并将第二一维位置信息和第二空间位置信息作为第二布局信息,可以较大程度上丰富对文本行布局信息的获取,从而利用较为丰富的布局信息对第一文本行与第二文本行是否为连续折行进行判定,使得可以更好的学习到文档中文本行的全局特征,有效提升对文档中的文本行进行折行判定处理的准确率。
图5是根据本公开第四实施例的示意图。
如图5所示,该文档处理方法,包括:
S501:获取文档。
S502:从文档中解析得到第一文本行和第二文本行。
S503:确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息。
S504:确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息。
S505:确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息。
S506:将第一一维位置信息和第一空间位置信息作为第一布局信息,并将第二一维位置信息和第二空间位置信息作为第二布局信息。
S501-S506的描述说明可以示例参见上述实施例,在此不再赘述。
S507:对第一语义信息、第一一维位置信息,以及第一空间位置信息进行融合处理,以得到第一文本行的第一文本融合特征。
其中,第一文本融合特征用于表征第一文本行的语义及空间位置特征。
本公开实施例中,在对第一语义信息、第一一维位置信息,以及第一空间位置信息进行融合处理,以得到第一文本行的第一文本融合特征时,可以将第一文本行中的多个第一字符按顺序拼接起来,并使用间隔符号进行间隔,而后将第一文本行的第一语义信息、第一一维位置信息,以及第一空间位置信息输入至文心语义理解技术与平台(EnhancedLanguage Representation with Informative Entities,ERNIE)中,利用ERNIE内置的多层转换结构,对第一文本行的第一语义信息、第一一维位置信息,以及第一空间位置信息进行融合处理,以提取得到第一文本行的第一文本融合特征。
S508:对第二语义信息、第二一维位置信息,以及第二空间位置信息进行融合处理,以得到第二文本行的第二文本融合特征。
其中,第二文本融合特征用于表征第二文本行的语义及空间位置特征。
本公开实施例中,在对第二语义信息、第二一维位置信息,以及第二空间位置信息进行融合处理,以得到第二文本行的第二文本融合特征时,可以将第二文本行中的多个第二字符按顺序拼接起来,并使用间隔符号进行间隔,而后将第二文本行的第二语义信息、第二一维位置信息,以及第二空间位置信息输入至ERNIE中,利用ERNIE内置的多层转换结构,对第二文本行的第二语义信息、第二一维位置信息,以及第二空间位置信息进行融合处理,以提取得到第二文本行的第二文本融合特征。
S509:获取第一文本行中的尾字符表示特征,并获取第二文本行中的首字符表示特征。
在上述获取得到第一文本行的第一融合特征和第二文本行的第二融合特征之后,可以获取第一文本行中的尾字符表示特征,并获取第二文本行中的首字符表示特征。
本公开实施例中,在获取第一文本行中的尾字符表示特征,并获取第二文本行中的首字符表示特征时,可以根据第一文本行与第二文本行间的间隔符查找到第一文本行中的尾字符与第二文本行中的首字符,而后可以对第一文本行的尾字符标识特征进行提取,并对第二文本行中的首字符特征进行提取,获取第一文本行中的尾字符表示特征和第二文本行中的首字符特征。
S510:根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行。
在上述获取了第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征之后,可以根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行。
本公开实施例中,在根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行时,可以将第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征进行拼接处理,输入至ERNIE的线性层中,而后经过模型中分类器的处理得到最终的二分类结果,该二分类结果即是第一文本行和第二文本行是否是连续折行的判断结果。
举例而言,如图6所示,图6是本公开实施例中的文本预训练模型结构示意图,可以将输入的第一文本行的多个第一字符和第二文本行的多个第二字符按顺序拼接起来,并使用间隔符号进行间隔处理,将每个字符的位置信息进行分别相加处理并逐一输入到文本预训练模型ERNIE模型中,通过文本预训练模型ERNIE模型内置的多层转换结构,对第一文本行和第二文本行的特征进行进一步的融合和提取,并提取第一句文本行的尾字符表示特征和第二文本行的首字符表示特征,并对多个特征进行拼接处理输入至文本预训练模型的线性层之中,并利用softmax分类器来得到二分类结果该二分类结果即是第一文本行和第二文本行是否是连续折行的判断结果。
可选地,一些实施例中,根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行,可以对第一文本融合特征和第二文本融合特征进行拼接处理,以得到目标融合特征,将目标融合特征、尾字符表示特征,以及首字符表示特征输入至第一连续折行识别模型中,以得到第一连续折行识别模型输出的第一判定结果,其中,第一连续折行识别模型包括:用于处理目标融合特征的第一神经网络结构,从而可以利用目标融合特征、尾字符表示特征以及首字符标识特征对第一文本行与第二文本行是否是连续折行进行判断,由于目标融合特征是对第一文本融合特征和第二文本融合特征拼接处理得到的,从而可以对第一文本行和第二文本行的整体特征进行整体建模,同时可以有效提升折行识别处理模型的通用性和折行处理的准确率。
其中,第一连续折行识别模型用于对第一文本行与第二文本行是否为连续折行进行判断,第一连续折行识别模型包括用于处理目标融合特征的第一神经网络结构。
本公开实施例中,在根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行时,可以对第一文本融合特征和第二文本融合特征进行拼接处理,以得到拼接处理后的目标融合特征,并将目标融合特征、尾字符表示特征,以及首字符表示特征输入至第一连续折行识别模型中,利用第一连续折行识别模型中的第一神经网络结构对目标融合特征进行处理,并联合首字符表示特征和尾字符表示特征进行判断处理,以得到第一连续折行识别模型的输出结果作为第一判定结果,第一判定结果即是第一文本行和第二文本行是否是连续折行的判断结果。
举例而言,如图7所示,图7是本公开实施例中的第一连续折行识别模型结构示意图,该第一连续折行识别模型为单塔结构,可以在模型中先后输入第一文本行与第二文本行,并对第一文本行和第二文本行的文本特征进行建模,而后可以对第一文本融合特征和第二文本融合特征进行拼接处理,以得到拼接处理后的目标融合特征,并将目标融合特征、尾字符表示特征,以及首字符表示特征输入至第一连续折行识别模型中的线性层中进行处理,以得到第一连续折行识别模型的分类器的输出结果作为第一判定结果,第一判定结果即是第一文本行和第二文本行是否是连续折行的判断结果,该第一连续折行识别模型的可以建模的文本最大长度为设置为N,注意力机制矩阵规模为N2
可选地,一些实施例中,可以将第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征输入至第二连续折行识别模型中,以得到第二连续折行识别模型输出的第二判定结果,其中,第二连续折行识别模型包括:用于处理第一文本融合特征的第二神经网络结构,和用于处理第二文本融合特征的第三神经网络结构,从而可以根据共享参数利用第二神经网络结构和第三神经网络结构分别对第一文本融合特征和第二文本融合特征进行处理,减小了连续折行识别模型的参数规模,从而可以有效提升连续折行识别模型的折行判定处理效率。
其中,第二连续折行识别模型用于对第一文本行与第二文本行是否为连续折行进行判断,第二连续折行识别模型包括用于处理第一文本融合特征的第二神经网络结构,和用于处理第二文本融合特征的第三神经网络结构。
本公开实施例中,在根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行时,可以将第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征输入至第二连续折行识别模型中,利用第二连续折行识别模型中的第二神经网络结构对第一文本融合特征进行处理,利用第二连续折行识别模型中的第三神经网络结构对第二文本融合特征进行处理,并联合尾字符表示特征与尾字符表示特征进行判断处理,以得到第二连续折行识别模型输出的第二判定结果。
举例而言,如图8所示,图8是本公开实施例中的第二连续折行识别模型结构示意图,该第二连续折行识别模型为双塔结构,利用共享参数对输入的第一文本行和第二文本行的文本特征进行建模,可以分别利用第二神经网络结构对第一文本融合特征进行处理,利用第三神经网络结构对第二文本融合特征进行处理,并联合尾字符表示特征与首字符表示特征进行判断,以得到第二连续折行识别模型的第二判断结果,第二判定结果即是第一文本行与第二文本行是否为连续折行的判断结果,该第二连续折行识别模型的参数规模与输入文本的长度呈线性关系,较大程度上减少了参数量,提升了第二连续折行识别模型的推理速度,便于第二连续折行识别模型在生产环境中更好的存储和部署。
本实施例中,通过对第一语义信息、第一一维位置信息,以及第一空间位置信息进行融合处理,以得到第一文本行的第一文本融合特征,对第二语义信息、第二一维位置信息,以及第二空间位置信息进行融合处理,以得到第二文本行的第二文本融合特征,获取第一文本行中的尾字符表示特征,并获取第二文本行中的首字符表示特征,并根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行,从而可以实现对第一文本行和第二文本行的特征进行建模提取,并联合尾字符表示特征和首字符表示特征确定第一文本行和第二文本行是否是连续折行,可以实现文本语义信息和二维空间位置信息的深度结合处理,从而可以有效提升对文档中的文本行进行折行判定处理的准确率。
本实施例中,通过确定第一文本行的多个第一字符,并确定第二文本行的多个第二字符,获取与多个第一字符分别对应的多个第一字符空间信息,并获取与多个第二字符分别对应的多个第二字符空间信息,并根据多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息,从而可以利用文本行中的多个字符的字符空间信息确定得到文本行的空间位置信息,同时也丰富了从空间维度上对文本进行处理得到的空间位置信息的全面性,文本行的空间位置信息可以用于对文本行的文本特征的提取,以对文档中的文本行是否为连续折行进行折行判定,从而可以辅助提升对文档中的文本行进行折行判定处理的准确率,通过对第一语义信息、第一一维位置信息,以及第一空间位置信息进行融合处理,以得到第一文本行的第一文本融合特征,对第二语义信息、第二一维位置信息,以及第二空间位置信息进行融合处理,以得到第二文本行的第二文本融合特征,获取第一文本行中的尾字符表示特征,并获取第二文本行中的首字符表示特征,并根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行,从而可以实现对第一文本行和第二文本行的特征进行建模提取,并联合尾字符表示特征和首字符表示特征确定第一文本行和第二文本行是否是连续折行,可以实现文本语义信息和二维空间位置信息的深度结合处理,从而可以有效提升对文档进行折行判定处理准确率。
图9是根据本公开第五实施例的示意图。
如图9所示,该文档处理装置90,包括:
获取模块901,用于获取文档;
解析模块902,用于从文档中解析得到第一文本行和第二文本行;
第一确定模块903,用于确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息;
第二确定模块904,用于确定第一文本行的第一布局信息,并确定第二文本行的第二布局信息;以及
第三确定模块905,用于根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行。
在本公开的一些实施例中,如图10所示,图10是根据本公开第六实施例的示意图,该文档处理装置100,包括:获取模块1001,解析模块1002,第一确定模块1003,第二确定模块1004,第三确定模块1005,其中,第一确定模块1003,具体用于:
确定文档的整体语义;
确定第一文本行的第一局部语义,并确定第二文本行的第二局部语义;
获取第一局部语义相对于整体语义的第一上下文语义,并获取第二局部语义相对于整体语义的第二上下文语义;以及
将第一局部语义和第一上下文语义作为第一语义信息,并将第二局部语义和第二上下文语义作为第二语义信息。
在本公开的一些实施例中,其中,第二确定模块1004,包括:
第一确定子模块10041,用于确定第一文本行在文档中的第一一维位置信息,并确定第二文本行在文档中的第二一维位置信息;
第二确定子模块10042,用于确定第一文本行在文档中的第一空间位置信息,并确定第二文本行在文档中的第二空间位置信息;以及
第三确定子模块10043,用于将第一一维位置信息和第一空间位置信息作为第一布局信息,并将第二一维位置信息和第二空间位置信息作为第二布局信息。
在本公开的一些实施例中,其中,第二确定子模块10042,具体用于:
确定第一文本行的多个第一字符,并确定第二文本行的多个第二字符;
获取与多个第一字符分别对应的多个第一字符空间信息,并获取与多个第二字符分别对应的多个第二字符空间信息;以及
根据多个第一字符空间信息确定第一空间位置信息,并根据多个第二字符空间信息确定第二空间位置信息。
在本公开的一些实施例中,其中,第二确定子模块10042,还用于:
获取与多个第一字符分别对应的多个第一字符位置,并获取与多个第二字符分别对应的多个第二字符位置;
获取与多个第一字符分别对应的多个第一字符尺寸,并获取与多个第二字符分别对应的多个第二字符尺寸;以及
将第一字符位置和第一字符尺寸作为相应第一字符的第一字符空间信息,并将第二字符位置和第二字符尺寸作为相应第二字符的第二字符空间信息。
在本公开的一些实施例中,其中,第二确定子模块10042,还用于:
对多个第一字符位置进行拼接处理,以得到第一文本位置,并对多个第二字符位置进行拼接处理,以得到第二文本位置;
对多个第一字符尺寸进行拼接处理,以得到第一文本尺寸,并对多个第二字符尺寸进行拼接处理,以得到第二文本尺寸;以及
将第一文本位置和第一文本尺寸作为第一空间位置信息,并将第二文本位置和第二文本尺寸作为第二空间位置信息。
在本公开的一些实施例中,其中,第三确定模块1005,包括:
第一融合子模块10051,用于对第一语义信息、第一一维位置信息,以及第一空间位置信息进行融合处理,以得到第一文本行的第一文本融合特征;
第二融合子模块10052,用于对第二语义信息、第二一维位置信息,以及第二空间位置信息进行融合处理,以得到第二文本行的第二文本融合特征;
获取子模块10053,用于获取第一文本行中的尾字符表示特征,并获取第二文本行中的首字符表示特征;以及
第四确定子模块10054,根据第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征确定第一文本行和第二文本行是否是连续折行。
在本公开的一些实施例中,其中,第四确定子模块10054,具体用于:
对第一文本融合特征和第二文本融合特征进行拼接处理,以得到目标融合特征;
将目标融合特征、尾字符表示特征,以及首字符表示特征输入至第一连续折行识别模型中,以得到第一连续折行识别模型输出的第一判定结果;
其中,第一连续折行识别模型包括:用于处理目标融合特征的第一神经网络结构。
在本公开的一些实施例中,其中,第四确定子模块10054,还用于:
将第一文本融合特征、第二文本融合特征、尾字符表示特征,以及首字符表示特征输入至第二连续折行识别模型中,以得到第二连续折行识别模型输出的第二判定结果;
其中,第二连续折行识别模型包括:用于处理第一文本融合特征的第二神经网络结构,和用于处理第二文本融合特征的第三神经网络结构。
可以理解的是,本实施例附图10中的文档处理装置100与上述实施例中的文档处理装置90,获取模块1001与上述实施例中的获取模块901,解析模块1002与上述实施例中的解析模块902,第一确定模块1003与上述实施例中的第一确定模块903,第二确定模块1004与上述实施例中的第二确定模块904,第三确定模块1005与上述实施例中的第三确定模块905可以具有相同的功能和结构。
需要说明的是,前述对文档处理方法的解释说明也适用于本实施例的文档处理装置,在此不再赘述。
本实施例中,通过获取文档,从文档中解析得到第一文本行和第二文本行,确定第一文本行的第一语义信息,并确定第二文本行的第二语义信息,确定第一文本行的第一布局信息,并确定第二文本行的第二布局信息,根据第一语义信息、第一布局信息、第二语义信息,以及第二布局信息确定第一文本行和第二文本行是否是连续折行,能够充分地联合文本行语义信息与文本行在文档中的布局信息,对不同文本行是否为连续折行进行判定,能够有效地提升对文档中不同文本行是否为连续折行的判定准确性,有效提升针对文档的连续折行的判定效率。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其他适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其他类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如文档处理方法。例如,在一些实施例中,文档处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的文档处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其他种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网及区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (21)

1.一种文档处理方法,包括:
获取文档;
从所述文档中解析得到第一文本行和第二文本行;
确定所述第一文本行的第一语义信息,并确定所述第二文本行的第二语义信息;
确定所述第一文本行的第一布局信息,并确定所述第二文本行的第二布局信息;以及
根据所述第一语义信息、所述第一布局信息、所述第二语义信息,以及所述第二布局信息确定所述第一文本行和所述第二文本行是否是连续折行。
2.根据权利要求1所述的方法,其中,所述确定所述第一文本行的第一语义信息,并确定所述第二文本行的第二语义信息,包括:
确定所述文档的整体语义;
确定所述第一文本行的第一局部语义,并确定所述第二文本行的第二局部语义;
获取所述第一局部语义相对于所述整体语义的第一上下文语义,并获取所述第二局部语义相对于所述整体语义的第二上下文语义;以及
将所述第一局部语义和所述第一上下文语义作为所述第一语义信息,并将所述第二局部语义和所述第二上下文语义作为所述第二语义信息。
3.根据权利要求1所述的方法,其中,所述确定所述第一文本行的第一布局信息,并确定所述第二文本行的第二布局信息,包括:
确定所述第一文本行在所述文档中的第一一维位置信息,并确定所述第二文本行在所述文档中的第二一维位置信息;
确定所述第一文本行在所述文档中的第一空间位置信息,并确定所述第二文本行在所述文档中的第二空间位置信息;以及
将所述第一一维位置信息和所述第一空间位置信息作为所述第一布局信息,并将所述第二一维位置信息和所述第二空间位置信息作为所述第二布局信息。
4.根据权利要求3所述的方法,其中,所述确定所述第一文本行在所述文档中的第一空间位置信息,并确定所述第二文本行在所述文档中的第二空间位置信息,包括:
确定所述第一文本行的多个第一字符,并确定所述第二文本行的多个第二字符;
获取与所述多个第一字符分别对应的多个第一字符空间信息,并获取与所述多个第二字符分别对应的多个第二字符空间信息;以及
根据所述多个第一字符空间信息确定所述第一空间位置信息,并根据所述多个第二字符空间信息确定所述第二空间位置信息。
5.根据权利要求4所述的方法,其中,所述获取与所述多个第一字符分别对应的多个第一字符空间信息,并获取与所述多个第二字符分别对应的多个第二字符空间信息,包括:
获取与所述多个第一字符分别对应的多个第一字符位置,并获取与所述多个第二字符分别对应的多个第二字符位置;
获取与所述多个第一字符分别对应的多个第一字符尺寸,并获取与所述多个第二字符分别对应的多个第二字符尺寸;以及
将所述第一字符位置和所述第一字符尺寸作为相应所述第一字符的所述第一字符空间信息,并将所述第二字符位置和所述第二字符尺寸作为相应所述第二字符的所述第二字符空间信息。
6.根据权利要求5所述的方法,其中,所述根据所述多个第一字符空间信息确定所述第一空间位置信息,并根据所述多个第二字符空间信息确定所述第二空间位置信息,包括:
对所述多个第一字符位置进行拼接处理,以得到第一文本位置,并对所述多个第二字符位置进行拼接处理,以得到第二文本位置;
对所述多个第一字符尺寸进行拼接处理,以得到第一文本尺寸,并对所述多个第二字符尺寸进行拼接处理,以得到第二文本尺寸;以及
将所述第一文本位置和所述第一文本尺寸作为所述第一空间位置信息,并将所述第二文本位置和所述第二文本尺寸作为所述第二空间位置信息。
7.根据权利要求3所述的方法,其中,所述根据所述第一语义信息、所述第一布局信息、所述第二语义信息,以及所述第二布局信息确定所述第一文本行和所述第二文本行是否是连续折行,包括:
对所述第一语义信息、所述第一一维位置信息,以及所述第一空间位置信息进行融合处理,以得到所述第一文本行的第一文本融合特征;
对所述第二语义信息、所述第二一维位置信息,以及所述第二空间位置信息进行融合处理,以得到所述第二文本行的第二文本融合特征;
获取所述第一文本行中的尾字符表示特征,并获取所述第二文本行中的首字符表示特征;以及
根据所述第一文本融合特征、所述第二文本融合特征、所述尾字符表示特征,以及所述首字符表示特征确定所述第一文本行和所述第二文本行是否是连续折行。
8.根据权利要求7所述的方法,其中,所述根据所述第一文本融合特征、所述第二文本融合特征、所述尾字符表示特征,以及所述首字符表示特征确定所述第一文本行和所述第二文本行是否是连续折行,包括:
对所述第一文本融合特征和所述第二文本融合特征进行拼接处理,以得到目标融合特征;
将所述目标融合特征、所述尾字符表示特征,以及所述首字符表示特征输入至第一连续折行识别模型中,以得到所述第一连续折行识别模型输出的第一判定结果;
其中,所述第一连续折行识别模型包括:用于处理所述目标融合特征的第一神经网络结构。
9.根据权利要求7所述的方法,其中,所述根据所述第一文本融合特征、所述第二文本融合特征、所述尾字符表示特征,以及所述首字符表示特征确定所述第一文本行和所述第二文本行是否是连续折行,包括:
将所述第一文本融合特征、所述第二文本融合特征、所述尾字符表示特征,以及所述首字符表示特征输入至第二连续折行识别模型中,以得到所述第二连续折行识别模型输出的第二判定结果;
其中,所述第二连续折行识别模型包括:用于处理所述第一文本融合特征的第二神经网络结构,和用于处理所述第二文本融合特征的第三神经网络结构。
10.一种文档处理装置,包括:
获取模块,用于获取文档;
解析模块,用于从所述文档中解析得到第一文本行和第二文本行;
第一确定模块,用于确定所述第一文本行的第一语义信息,并确定所述第二文本行的第二语义信息;
第二确定模块,用于确定所述第一文本行的第一布局信息,并确定所述第二文本行的第二布局信息;以及
第三确定模块,用于根据所述第一语义信息、所述第一布局信息、所述第二语义信息,以及所述第二布局信息确定所述第一文本行和所述第二文本行是否是连续折行。
11.根据权利要求10所述的装置,其中,所述第一确定模块,具体用于:
确定所述文档的整体语义;
确定所述第一文本行的第一局部语义,并确定所述第二文本行的第二局部语义;
获取所述第一局部语义相对于所述整体语义的第一上下文语义,并获取所述第二局部语义相对于所述整体语义的第二上下文语义;以及
将所述第一局部语义和所述第一上下文语义作为所述第一语义信息,并将所述第二局部语义和所述第二上下文语义作为所述第二语义信息。
12.根据权利要求10所述的装置,其中,所述第二确定模块,包括:
第一确定子模块,用于确定所述第一文本行在所述文档中的第一一维位置信息,并确定所述第二文本行在所述文档中的第二一维位置信息;
第二确定子模块,用于确定所述第一文本行在所述文档中的第一空间位置信息,并确定所述第二文本行在所述文档中的第二空间位置信息;以及
第三确定子模块,用于将所述第一一维位置信息和所述第一空间位置信息作为所述第一布局信息,并将所述第二一维位置信息和所述第二空间位置信息作为所述第二布局信息。
13.根据权利要求12所述的装置,其中,所述第二确定子模块,具体用于:
确定所述第一文本行的多个第一字符,并确定所述第二文本行的多个第二字符;
获取与所述多个第一字符分别对应的多个第一字符空间信息,并获取与所述多个第二字符分别对应的多个第二字符空间信息;以及
根据所述多个第一字符空间信息确定所述第一空间位置信息,并根据所述多个第二字符空间信息确定所述第二空间位置信息。
14.根据权利要求13所述的装置,其中,所述第二确定子模块,还用于:
获取与所述多个第一字符分别对应的多个第一字符位置,并获取与所述多个第二字符分别对应的多个第二字符位置;
获取与所述多个第一字符分别对应的多个第一字符尺寸,并获取与所述多个第二字符分别对应的多个第二字符尺寸;以及
将所述第一字符位置和所述第一字符尺寸作为相应所述第一字符的所述第一字符空间信息,并将所述第二字符位置和所述第二字符尺寸作为相应所述第二字符的所述第二字符空间信息。
15.根据权利要求14所述的装置,其中,所述第二确定子模块,还用于:
对所述多个第一字符位置进行拼接处理,以得到第一文本位置,并对所述多个第二字符位置进行拼接处理,以得到第二文本位置;
对所述多个第一字符尺寸进行拼接处理,以得到第一文本尺寸,并对所述多个第二字符尺寸进行拼接处理,以得到第二文本尺寸;以及
将所述第一文本位置和所述第一文本尺寸作为所述第一空间位置信息,并将所述第二文本位置和所述第二文本尺寸作为所述第二空间位置信息。
16.根据权利要求12所述的装置,其中,所述第三确定模块,包括:
第一融合子模块,用于对所述第一语义信息、所述第一一维位置信息,以及所述第一空间位置信息进行融合处理,以得到所述第一文本行的第一文本融合特征;
第二融合子模块,用于对所述第二语义信息、所述第二一维位置信息,以及所述第二空间位置信息进行融合处理,以得到所述第二文本行的第二文本融合特征;
获取子模块,用于获取所述第一文本行中的尾字符表示特征,并获取所述第二文本行中的首字符表示特征;以及
第四确定子模块,根据所述第一文本融合特征、所述第二文本融合特征、所述尾字符表示特征,以及所述首字符表示特征确定所述第一文本行和所述第二文本行是否是连续折行。
17.根据权利要求16所述的装置,其中,所述第四确定子模块,具体用于:
对所述第一文本融合特征和所述第二文本融合特征进行拼接处理,以得到目标融合特征;
将所述目标融合特征、所述尾字符表示特征,以及所述首字符表示特征输入至第一连续折行识别模型中,以得到所述第一连续折行识别模型输出的第一判定结果;
其中,所述第一连续折行识别模型包括:用于处理所述目标融合特征的第一神经网络结构。
18.根据权利要求16所述的装置,其中,所述第四确定子模块,还用于:
将所述第一文本融合特征、所述第二文本融合特征、所述尾字符表示特征,以及所述首字符表示特征输入至第二连续折行识别模型中,以得到所述第二连续折行识别模型输出的第二判定结果;
其中,所述第二连续折行识别模型包括:用于处理所述第一文本融合特征的第二神经网络结构,和用于处理所述第二文本融合特征的第三神经网络结构。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述方法的步骤。
CN202111422878.0A 2021-11-26 2021-11-26 文档处理方法、装置、电子设备及存储介质 Pending CN114282517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111422878.0A CN114282517A (zh) 2021-11-26 2021-11-26 文档处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111422878.0A CN114282517A (zh) 2021-11-26 2021-11-26 文档处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114282517A true CN114282517A (zh) 2022-04-05

Family

ID=80870055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111422878.0A Pending CN114282517A (zh) 2021-11-26 2021-11-26 文档处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114282517A (zh)

Similar Documents

Publication Publication Date Title
US10275712B2 (en) Automatic data interpretation and answering analytical questions with tables and charts
KR102275413B1 (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
US11861919B2 (en) Text recognition method and device, and electronic device
JP7295189B2 (ja) ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN111240669B (zh) 界面生成方法、装置、电子设备及计算机存储介质
CN113204615A (zh) 实体抽取方法、装置、设备和存储介质
CN111680491B (zh) 文档信息的抽取方法、装置和电子设备
CN114218889A (zh) 文档处理及文档模型的训练方法、装置、设备和存储介质
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
CN112269872A (zh) 简历解析方法、装置、电子设备及计算机存储介质
CN113656590A (zh) 行业图谱的构建方法、装置、电子设备及存储介质
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
US11929100B2 (en) Video generation method, apparatus, electronic device, storage medium and program product
JP7390442B2 (ja) 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム
CN114937277B (zh) 基于图像的文本获取方法、装置、电子设备及存储介质
CN116416640A (zh) 文档元素确定的方法、装置、设备以及存储介质
CN114282517A (zh) 文档处理方法、装置、电子设备及存储介质
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
CN113221566A (zh) 实体关系抽取方法、装置、电子设备和存储介质
CN114792423B (zh) 文档图像的处理方法、装置和存储介质
Fayzrakhmanov et al. Web objects identification for web automation: objects and their features
CN113378511B (zh) 页面的显示方法、装置、电子设备和存储介质
CN113360636B (zh) 一种内容显示方法、装置、设备以及存储介质
US20230377225A1 (en) Method and apparatus for editing an image and method and apparatus for training an image editing model, device and medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination