CN116738934B - 一种文书自动排版方法及系统 - Google Patents

一种文书自动排版方法及系统 Download PDF

Info

Publication number
CN116738934B
CN116738934B CN202310992933.2A CN202310992933A CN116738934B CN 116738934 B CN116738934 B CN 116738934B CN 202310992933 A CN202310992933 A CN 202310992933A CN 116738934 B CN116738934 B CN 116738934B
Authority
CN
China
Prior art keywords
document
typesetting
typeset
preset
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310992933.2A
Other languages
English (en)
Other versions
CN116738934A (zh
Inventor
蓝建敏
李锦洲
李观春
张旭君
徐泳坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excellence Information Technology Co ltd
Original Assignee
Excellence Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Excellence Information Technology Co ltd filed Critical Excellence Information Technology Co ltd
Priority to CN202310992933.2A priority Critical patent/CN116738934B/zh
Publication of CN116738934A publication Critical patent/CN116738934A/zh
Application granted granted Critical
Publication of CN116738934B publication Critical patent/CN116738934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种文书自动排版方法及系统,根据预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,获得所述待排版文书的文书特征,并根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板,再根据所述文书实例模板对预设的深度学习模型进行训练,以使所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型,以使根据所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档,实现了文书的自动排版,提高排版的效率及准确度。

Description

一种文书自动排版方法及系统
技术领域
本发明涉及数字处理技术领域,尤其涉及一种文书自动排版方法及系统。
背景技术
现有技术中,文书文件只是文字符号的堆积,其本身不具有一定的编排格式,为了方便用户的阅读又或者使其具有一定的严肃性,需要对文书文件而进行一定的排版使其形成具有特定格式的文字材料,其有较强的规范性及表现形式,而所述排版过程往往需要对字符、段落和页面格式统一进行编辑排版,并且所述文书文件还可以存在图形、表格和图像等元素。
现有技术中对文书进行排版的方式包括两种类型,一种为人工排版,另一种为使用排版软件进行排版。其中,人工排版对用户的要求比较高,需要用户熟悉各类文件的排版要求并保持长时间的注意力集中,容易造成排版失误,同时使用人工排版往往需要不同的用户进行排版文件的复查,造成排版效率低下,而另一类使用排版软件进行排版需要用户提前在排版软件上设置排版参数,一是根据所述排版参数进行排版,往往造成若排版的文件类型不同,则需要用户不断地调式所述排版软件的设置参数,进而造成效率低下及精准度过低。
因此,现有技术中存在人工排版效率低下、软件排版中造成若排版的文件类型不同,而造成效率低下及精准度过低的技术问题,目前市面上亟需一种新的文书自动排版策略,以解决上述现有技术中的技术问题。
发明内容
本发明公开了一种文书自动排版方法及系统,基于深度学习模型学习不同类型的文书文件的排版规则,进而实现自动排版,提高排版的效率及准确度。
为了实现上述目的,本发明公开了一种文书自动排版方法,包括:
根据预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,获得所述待排版文书的文书特征;
根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板;
根据所述文书实例模板对预设的深度学习模型进行训练,以使所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型;
根据所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档。
本发明公开了一种文书自动排版方法,包括提取所述待排版文书的关键词及语义特征,并融合所述关键词及所述语义特征获得所述待排版文书的文书特征,以使得根据所述文书特征包含的关键词及语义特征同预设在文书实例数据库中的文书实例模板进行特征比对,以使精准的获得所述待排版文书对应的文书实例模板,进而提高所述待排版文书排版的准确度,接着利用预设的深度学习模型学习所述精准获得的文书实例模板的排版规则,并根据所述排版规则生成所述排版模型,以使得根据训练后的排版模型对所述待排版文书进行排版,本发明通过所述深度学习模型可以自动学习不同类型的文书实例模板的排版规则,进而形成不同类型文书的排版模型,以此避免了现有技术中用户不断调试不同的排版参数以适应不同类型文书而造成的效率低下,提高了文书的排版效率,同时本发明通过学习输入的待排版文书的对应的文书实例模板的排版规则对所述待排版文书进行排版,提高了文书排版的精准度。
作为优选例子,在所述通过预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,具体包括:
通过所述双流神经网络模型中的时间流的第一卷积层,提取所述待排版文书的语义特征数据,并对所述语义特征数据进行卷积处理,获得所述待排版文书的语义特征;
利用所述双流神经网络模型的空间流中预设的文本关键词提取算法,提取所述待排版文书的关键词数据,并对所述关键词数据进行卷积处理,获得所述待排版文书的关键词;
根据所述关键词及所述语义特征,通过所述双流神经网络模型的全连接层中预设的融合公式,对所述语义特征及所述关键词进行线性组合,获得所述待排版文书的文书特征。
本发明利用改进的双流神经网络模型的空间流及时间流,分别提取所述待排版文书的关键词数据及语义特征数据,并利用所述神经网络模型中的卷积层对所述提取的关键词数据及语义特征数据进行进一步的处理,以使提高所述关键词及所述语义特征的精确度,在获得所述关键词及所述语义特征后,利用预设在所述双流神经网络模型的全连接层中的融合方式对所述关键词及所述语义特征进行融合,以使提高所述文书特征的定向性,以使提高后续匹配文书实例模板的准确度。
作为优选例子,在所述根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板,具体包括:
根据所述文书特征,查询所述文书实例数据库设置的实例特征表,并通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度,获得若干个文本特征相似度;
通过对所述若干个文本特征相似度分别进行比较,获得所述文本特征相似度最高的第一实例特征,并根据所述第一实例特征获得对应的文书实例模板。
本发明通过计算所述待排版文书的文书特征与实例特征表中的若干个实例特征的若干个相似度,避免了现有技术中文书与文书之间进行匹配造成的计算量过大的技术问题,降低了计算量,提高了匹配效率,同时通过对所述若干个相似度之间进行一一比较,选择出相似度最高的第一实例特征,再获得所述第一实例特征对应的文书实例模板,进而为所述待排版文书提供了一个精确的排版模板,提高了排版的精确度。
作为优选例子,所述通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度的步骤,具体包括:
对所述文书特征进行二进制转换,得到第一数列;
分别对提取得到的若干个实例特征进行二进制转换,得到多个第二数列;
将所述第一数列分别与所有的第二数列进行空间距离计算,得到对应的相似值作为所述文书特征分别与所述实例特征的相似度;
将所述相似值最大的第二数列所对应的实例特征作为相似度最高的实例特征并获取对应的文书实例模板。
作为优选例子,在所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型,具体包括:
通过将所述文书实例模板作为所述深度学习模型的训练数据,以使所述深度学习模型提取所述文书实例模板的排版规则;
根据所述排版规则,通过预设的监督学习方法对所述深度学习模型不断训练,生成所述排版模型。
本发明利用预设的深度学习模型可以自动学习不同类型的文书实例模板的不同排版规则,并根据所述排版规则及预设的监督学习方法对所述深度学习模型不断训练,生成不同文书类型对应的不同的排版模型,以此解决了现有技术中人工调整排版参数而造成的效率低下,利用深度学习模型自动学习的特性,提高了文书排版的效率。
作为优选例子,在所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档,具体包括:
根据所述排版模型中预设的卷积层对所述待排版文书进行逻辑划分,生成若干个第一段落文本片,并分别提取所述若干个第一段落文本片的特殊字段以使根据所述特殊字段分别匹配所述若干个第一段落文本片对应处理的池化层;
通过所述池化层分别对所述若干个第一段落文本片进行字体设置及段落设置,生成若干个第二段落文本片;所述段落设置包括存储样式,对齐方式、左右缩进、行距、首行缩进类型;所述字体设置包括存储样式,字体、字号、样式、颜色及字符间距;
通过所述排版模型中预设的编码器定义所述若干个第二段落文本片的上下文关系,并通过所述排版模型中预设的解码器根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
本发明根据所述深度学习模型学习文本实例模板的逻辑关系、段落设置及字体设置以及上下文关系,获得排版规则,再根据所述逻辑关系、段落设置及字体设置以及上下文关系对所述待排版文书进行段落拆分,文字排版,进而生成排版后的文书文档,提高排版的效率及准确度。
另一方面,本发明公开了一种文书自动排版系统,包括特征提取模块、文书匹配模块、模型训练模块及文书排版模块。
所述特征提取模块用于根据预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,获得所述待排版文书的文书特征;
所述文书匹配模块用于根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板;
所述模型训练模块用于根据所述文书实例模板对预设的深度学习模型进行训练,以使所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型;
所述文书排版模块用于根据所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档。
本发明公开的一种文书自动排版系统,包括提取所述待排版文书的关键词及语义特征,并融合所述关键词及所述语义特征获得所述待排版文书的文书特征,以使得根据所述文书特征包含的关键词及语义特征同预设在文书实例数据库中的文书实例模板进行特征比对,以使精准的获得所述待排版文书对应的文书实例模板,进而提高所述待排版文书排版的准确度,接着利用预设的深度学习模型学习所述精准获得的文书实例模板的排版规则,并根据所述排版规则生成所述排版模型,以使得根据训练后的排版模型对所述待排版文书进行排版,本发明通过所述深度学习模型可以自动学习不同类型的文书实例模板的排版规则,进而形成不同类型文书的排版模型,以此避免了现有技术中用户不断调试不同的排版参数以适应不同类型文书而造成的效率低下,提高了文书的排版效率,同时本发明通过学习输入的待排版文书的对应的文书实例模板的排版规则对所述待排版文书进行排版,提高了文书排版的精准度。
作为优选例子,所述特征提取模块包括提取单元及融合单元;
所述提取单元用于通过所述双流神经网络模型中的时间流的第一卷积层,提取所述待排版文书的语义特征数据,并对所述语义特征数据进行卷积处理,获得所述待排版文书的语义特征;利用所述双流神经网络模型的空间流中预设的文本关键词提取算法,提取所述待排版文书的关键词数据,并对所述关键词数据进行卷积处理,获得所述待排版文书的关键词;
所述融合单元用于根据所述关键词及所述语义特征,通过所述双流神经网络模型的全连接层中预设的融合公式,对所述语义特征及所述关键词进行线性组合,获得所述待排版文书的文书特征。
本发明利用改进的双流神经网络模型的空间流及时间流,分别提取所述待排版文书的关键词数据及语义特征数据,并利用所述神经网络模型中的卷积层对所述提取的关键词数据及语义特征数据进行进一步的处理,以使提高所述关键词及所述语义特征的精确度,在获得所述关键词及所述语义特征后,利用预设在所述双流神经网络模型的全连接层中的融合方式对所述关键词及所述语义特征进行融合,以使提高所述文书特征的定向性,以使提高后续匹配文书实例模板的准确度。
作为优选例子,所述文书匹配模块包括计算单元及选择单元;
所述计算单元用于根据所述文书特征,查询所述文书实例数据库设置的实例特征表,并通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度,获得若干个文本特征相似度;其中,所述通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度的步骤,具体包括:对所述文书特征进行二进制转换,得到第一数列;分别对提取得到的若干个实例特征进行二进制转换,得到多个第二数列;将所述第一数列分别与所有的第二数列进行空间距离计算,得到对应的相似值作为所述文书特征分别与所述实例特征的相似度;将所述相似值最大的第二数列所对应的实例特征作为相似度最高的实例特征并获取对应的文书实例模板。
所述选择单元用于通过对所述若干个文本特征相似度分别进行比较,获得所述文本特征相似度最高的第一实例特征,并根据所述第一实例特征获得对应的文书实例模板。
本发明通过计算所述待排版文书的文书特征与实例特征表中的若干个实例特征的若干个相似度,避免了现有技术中文书与文书之间进行匹配造成的计算量过大的技术问题,降低了计算量,提高了匹配效率,同时通过对所述若干个相似度之间进行一一比较,选择出相似度最高的第一实例特征,再获得所述第一实例特征对应的文书实例模板,进而为所述待排版文书提供了一个精确的排版模板,提高了排版的精确度。
作为优选例子,所述模型训练模块包括学习单元及训练单元;
所述学习单元用于通过将所述文书实例模板作为所述深度学习模型的训练数据,以使所述深度学习模型提取所述文书实例模板的排版规则;
所述训练单元用于根据所述排版规则,通过预设的监督学习方法对所述深度学习模型不断训练,生成所述排版模型。
本发明利用预设的深度学习模型可以自动学习不同类型的文书实例模板的不同排版规则,并根据所述排版规则及预设的监督学习方法对所述深度学习模型不断训练,生成不同文书类型对应的不同的排版模型,以此解决了现有技术中人工调整排版参数而造成的效率低下,利用深度学习模型自动学习的特性,提高了文书排版的效率。
作为优选例子,所述文书排版模块包括划分单元、设置单元及组合单元;
所述划分单元用于根据所述排版模型中预设的卷积层对所述待排版文书进行逻辑划分,生成若干个第一段落文本片,并分别提取所述若干个第一段落文本片的特殊字段以使根据所述特殊字段分别匹配所述若干个第一段落文本片对应处理的池化层;
所述设置单元用于通过所述池化层分别对所述若干个第一段落文本片进行字体设置及段落设置,生成若干个第二段落文本片;所述段落设置包括存储样式,对齐方式、左右缩进、行距、首行缩进类型;所述字体设置包括存储样式,字体、字号、样式、颜色及字符间距;
所述组合单元用于通过所述排版模型中预设的编码器定义所述若干个第二段落文本片的上下文关系,并通过所述排版模型中预设的解码器根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
本发明根据所述深度学习模型学习文本实例模板的逻辑关系、段落设置及字体设置以及上下文关系,获得排版规则,再根据所述逻辑关系、段落设置及字体设置以及上下文关系对所述待排版文书进行段落拆分,文字排版,进而生成排版后的文书文档,提高排版的效率及准确度。
附图说明
图1:为本发明实施例提供的一种文书自动排版方法的流程示意图;
图2:为本发明实施例提供的一种文书自动排版系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,本发明实施例提供了一种文书自动排版方法,该方法的具体实施流程请参照图1,主要包括步骤101至步骤104,所述步骤具体包括:
步骤101:根据预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,获得所述待排版文书的文书特征。
在本实施例中,步骤101具体包括:通过所述双流神经网络模型中的时间流的第一卷积层,提取所述待排版文书的语义特征数据,并对所述语义特征数据进行卷积处理,获得所述待排版文书的语义特征;利用所述双流神经网络模型的空间流中预设的文本关键词提取算法,提取所述待排版文书的关键词数据,并对所述关键词数据进行卷积处理,获得所述待排版文书的关键词;根据所述关键词及所述语义特征,通过所述双流神经网络模型的全连接层中预设的融合公式,对所述语义特征及所述关键词进行线性组合,获得所述待排版文书的文书特征。
在本实施例中,利用所述双流神经网络模型进行文书特征提取时,先构建初始神经网络模型,并在所述神经网络模型中引入时间流及空间流构建初始双流神经网络模型,并利用所述预设的文本实例数据库作为训练集训练所述初始神经网路模型以使获得本实施例提供的所述双流神经网络模型。
在获得所述双流神经网络模型时,将所述待排版文书输入所述双流神经网络模型中,以使通过所述双流神经网络模型中预设的时间流及空间流分别提取所述待排版文书的关键词及语义特征,在本实施例中,所述双流卷积神经网络模型的双流网络结构包括卷积层及全连接层,将所述待排版文书输入到所述时间流中,根据所述时间流中的卷积层提取文书上下的语义关系,再利用所述卷积层中预设的数个卷积核将所述获得的语义关系卷积化,获得所述语义特征,在本实施例中,通过所述空间流中预设的关键词提取算法提取所述待排版文书的关键词数据,所述关键词提取算法包括TFIDF算法、TextRank算法、LDA算法等等用于关键词的提取的算法,在获得所述关键词数据后,利用所述卷积层中预设的数个卷积核将所述获得的关键词数据进行卷积,获得所述关键词。
在利用所述双流神经网络模型获得所述关键词及所述语义特征后,采用中期融合策略将提取的外观特征向量与运动特征向量进行线性组合,即分别对提取到的关键词及语义特征进行特征的整合,再将所述关键词及所述语义特征进行融合,获得文本特征,
所述融合公式为:
其中,代表关键词,/>代表语义特征,/>代表融合的文本特征代表所述关键词及所述语义特征对应的权重系数,融合的文本特征/>通过以下公式进行归一化处理,所述归一化处理包括规范化处理、正规化处理及归一化处理,所述规范化处理包括:
其中,所述代表融合的文本特征,/>代表融合的文本特征最大值代表融合的文本特征最小值。
本步骤利用改进的双流神经网络模型的空间流及时间流,分别提取所述待排版文书的关键词数据及语义特征数据,并利用所述神经网络模型中的卷积层对所述提取的关键词数据及语义特征数据进行进一步的处理,以使提高所述关键词及所述语义特征的精确度,在获得所述关键词及所述语义特征后,利用预设在所述双流神经网络模型的全连接层中的融合方式对所述关键词及所述语义特征进行融合,以使提高所述文书特征的定向性,以使提高后续匹配文书实例模板的准确度。
步骤102:根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板。
在本实施例中,步骤102具体包括:根据所述文书特征,查询所述文书实例数据库设置的实例特征表,并通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度,获得若干个文本特征相似度;通过对所述若干个文本特征相似度分别进行比较,获得所述文本特征相似度最高的第一实例特征,并根据所述第一实例特征获得对应的文书实例模板。
具体地,在获得所述文书特征后,查询所述文书实例数据库设置的实例特征表,所述实例特征表包含若干个实例特征及所述实例特征对应的文书实例模板,接着提取所述实例特征表中包含的若干个实例特征,接着利用预设的特征匹配算法分别计算所述文书特征与所述若干个实例特征的相似度,从所述若干个实例特征中选择出所述相似度最高的实例特征,再获得所述实例特征对应的文书实例模板。可以理解的是,在实际应用中,文书实例模板中的内容包括对实例标题、落款和字号等元素的位置设置和对应的格式设置等等,为了适应不同的用户需求,我们还可以根据用户的实际情况对实例的格式和内容进行人工设置或直接对现有格式进行内容的重新排版等调整。
在本实施例中,所述通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度的步骤,具体包括:对所述文书特征进行二进制转换,得到第一数列;分别对提取得到的若干个实例特征进行二进制转换,得到多个第二数列;将所述第一数列分别与所有的第二数列进行空间距离计算,得到对应的相似值作为所述文书特征分别与所述实例特征的相似度;将所述相似值最大的第二数列所对应的实例特征作为相似度最高的实例特征并获取对应的文书实例模板。具体地,通过上述相似度判断手段,可以准确地确定文书特征与实例特征之间的相似性,起到数据降噪的作用。
本步骤通过计算所述待排版文书的文书特征与实例特征表中的若干个实例特征的若干个相似度,避免了现有技术中文书与文书之间进行匹配造成的计算量过大的技术问题,降低了计算量,提高了匹配效率,同时通过对所述若干个相似度之间进行一一比较,选择出相似度最高的第一实例特征,再获得所述第一实例特征对应的文书实例模板,进而为所述待排版文书提供了一个精确的排版模板,提高了排版的精确度。
步骤103:根据所述文书实例模板对预设的深度学习模型进行训练,以使所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型。
在本实施例中,该步骤具体包括:通过将所述文书实例模板作为所述深度学习模型的训练数据,以使所述深度学习模型提取所述文书实例模板的排版规则;根据所述排版规则,通过预设的监督学习方法对所述深度学习模型不断训练,生成所述排版模型。
在本实施例中,所述深度学习模型包括卷积神经网络模型及循环神经网络模型等深度学习模型,利用所述深度学习模型预设的卷积层学习所述文书实例模板的逻辑关系,并根据所述逻辑关系对所述文书实例模板进行段落划分,并生成所述文书实例模板的若干个段落对应的特殊字段,根据所述文书实例模板的段落数量生成若干个池化层,并通过所述若干个池化层提取所述段落分别对应的段落设置及字体设置,接着利用所述编码器定义所述文书实例模板的上下文关系,同时在所述深度学习模型训练完成后通常使用指标,如均方根误差(RMSE)或反向传播算法等优化算法,对所述训练后获得深度学习模型进行优化进而获得所述排版模型。
本步骤利用预设的深度学习模型可以自动学习不同类型的文书实例模板的不同排版规则,并根据所述排版规则及预设的监督学习方法对所述深度学习模型不断训练,生成不同文书类型对应的不同的排版模型,以此解决了现有技术中人工调整排版参数而造成的效率低下,利用深度学习模型自动学习的特性,提高了文书排版的效率。
步骤104:根据所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档。
在本实施例中,该步骤具体包括:根据所述排版模型中预设的卷积层对所述待排版文书进行逻辑划分,生成若干个第一段落文本片,并分别提取所述若干个第一段落文本片的特殊字段以使根据所述特殊字段分别匹配所述若干个第一段落文本片对应处理的池化层;通过所述池化层分别对所述若干个第一段落文本片进行字体设置及段落设置,生成若干个第二段落文本片;所述段落设置包括存储样式,对齐方式、左右缩进、行距、首行缩进类型;所述字体设置包括存储样式,字体、字号、样式、颜色及字符间距;通过所述排版模型中预设的编码器定义所述若干个第二段落文本片的上下文关系,并通过所述排版模型中预设的解码器根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
加载所述训练好的排版模型,将所述待排版文书输入到所述排版模型中,利用所述排版模型的卷积层对所述待排版文书进行逻辑划分,生成若干个第一段落文本片,并分别提取所述若干个第一段落文本片的特殊字段并根据所述特殊字段将其匹配到对应的处理的池化层,通过所述池化层中设置的段落设置及字体设置对所述第一段落文本片进行排版处理,生成若干个第二段落文本片,所述段落设置包括存储样式,对齐方式、左右缩进、行距、首行缩进类型;所述字体设置包括存储样式,字体、字号、样式、颜色及字符间距,接着通过所述排版模型中预设的编码器定义所述若干个第二段落文本片的上下文关系,并通过所述排版模型中预设的解码器根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。可以理解的是,
可以根据模板实例中人工设置和调整后的格式内容进行排版,结合用户的实际需求, 实例标题、落款和字号等元素的位置设置和对应的格式设置等等,生成对应的实例。
本步骤根据所述深度学习模型学习文本实例模板的逻辑关系、段落设置及字体设置以及上下文关系,获得排版规则,再根据所述逻辑关系、段落设置及字体设置以及上下文关系对所述待排版文书进行段落拆分,文字排版,进而生成排版后的文书文档,提高排版的效率及准确度。
另一方面,本实施例还提供了一种文书自动排版系统,包括特征提取模块201、文书匹配模块202、模型训练模块203及文书排版模块204。
所述特征提取模块201用于根据预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,获得所述待排版文书的文书特征。
所述文书匹配模块202用于根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板。
所述模型训练模块203用于根据所述文书实例模板对预设的深度学习模型进行训练,以使所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型。
所述文书排版模块204用于根据所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档。
在本实施例中,所述特征提取模块201包括提取单元及融合单元。
所述提取单元用于通过所述双流神经网络模型中的时间流的第一卷积层,提取所述待排版文书的语义特征数据,并对所述语义特征数据进行卷积处理,获得所述待排版文书的语义特征;利用所述双流神经网络模型的空间流中预设的文本关键词提取算法,提取所述待排版文书的关键词数据,并对所述关键词数据进行卷积处理,获得所述待排版文书的关键词。
所述融合单元用于根据所述关键词及所述语义特征,通过所述双流神经网络模型的全连接层中预设的融合公式,对所述语义特征及所述关键词进行线性组合,获得所述待排版文书的文书特征。
在本实施例中,所述文书匹配模块202包括计算单元及选择单元。
所述计算单元用于根据所述文书特征,查询所述文书实例数据库设置的实例特征表,并通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度,获得若干个文本特征相似度。其中,所述通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度的步骤,具体包括:对所述文书特征进行二进制转换,得到第一数列;分别对提取得到的若干个实例特征进行二进制转换,得到多个第二数列;将所述第一数列分别与所有的第二数列进行空间距离计算,得到对应的相似值作为所述文书特征分别与所述实例特征的相似度;将所述相似值最大的第二数列所对应的实例特征作为相似度最高的实例特征并获取对应的文书实例模板。
所述选择单元用于通过对所述若干个文本特征相似度分别进行比较,获得所述文本特征相似度最高的第一实例特征,并根据所述第一实例特征获得对应的文书实例模板。
在本实施例中,所述模型训练模块203包括学习单元及训练单元。
所述学习单元用于通过将所述文书实例模板作为所述深度学习模型的训练数据,以使所述深度学习模型提取所述文书实例模板的排版规则。
所述训练单元用于根据所述排版规则,通过预设的监督学习方法对所述深度学习模型不断训练,生成所述排版模型。
在本实施例中,所述文书排版模块204包括划分单元、设置单元及组合单元。
所述划分单元用于根据所述排版模型中预设的卷积层对所述待排版文书进行逻辑划分,生成若干个第一段落文本片,并分别提取所述若干个第一段落文本片的特殊字段以使根据所述特殊字段分别匹配所述若干个第一段落文本片对应处理的池化层。
所述设置单元用于通过所述池化层分别对所述若干个第一段落文本片进行字体设置及段落设置,生成若干个第二段落文本片;所述段落设置包括存储样式,对齐方式、左右缩进、行距、首行缩进类型;所述字体设置包括存储样式,字体、字号、样式、颜色及字符间距。
所述组合单元用于通过所述排版模型中预设的编码器定义所述若干个第二段落文本片的上下文关系,并通过所述排版模型中预设的解码器根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
本实施例公开的一种文书自动排版方法及系统,包括提取所述待排版文书的关键词及语义特征,并融合所述关键词及所述语义特征获得所述待排版文书的文书特征,以使得根据所述文书特征包含的关键词及语义特征同预设在文书实例数据库中的文书实例模板进行特征比对,以使精准的获得所述待排版文书对应的文书实例模板,进而提高所述待排版文书排版的准确度,接着利用预设的深度学习模型学习所述精准获得的文书实例模板的排版规则,并根据所述排版规则生成所述排版模型,以使得根据训练后的排版模型对所述待排版文书进行排版,本发明通过所述深度学习模型可以自动学习不同类型的文书实例模板的排版规则,进而形成不同类型文书的排版模型,以此避免了现有技术中用户不断调试不同的排版参数以适应不同类型文书而造成的效率低下,提高了文书的排版效率,同时本发明通过学习输入的待排版文书的对应的文书实例模板的排版规则对所述待排版文书进行排版,提高了文书排版的精准度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文书自动排版方法,其特征在于,包括:
根据预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,获得所述待排版文书的文书特征;其中,通过预设在所述双流神经网络模型中的时间流和空间流分别提取所述待排版文书的关键词及语义特征,并对所述关键词及语义特征进行线性组合,获得所述待排版文书的文书特征;
根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板;其中,通过预设的特征匹配算法计算所述文书特征与所述文书实例数据库中每一个实例特征的相似度,并根据所述相似度确定所述待排版文书对应的文书实例模板;
根据所述文书实例模板对预设的深度学习模型进行训练,以使所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型;
根据所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档;其中,通过所述排版模型对所述待排版文书进行逻辑划分,获得若干个第一段落文本片,并对所述若干个第一段落文本片中的每一个第一段落文片进行字体设置和段落设置,获得若干个第二段落文本片,再定义所述若干个第二段落文本片的上下文关系,并根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
2.如权利要求1所述的一种文书自动排版方法,其特征在于,所述通过预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,具体包括:
通过所述双流神经网络模型中的时间流的第一卷积层,提取所述待排版文书的语义特征数据,并对所述语义特征数据进行卷积处理,获得所述待排版文书的语义特征;
利用所述双流神经网络模型的空间流中预设的文本关键词提取算法,提取所述待排版文书的关键词数据,并对所述关键词数据进行卷积处理,获得所述待排版文书的关键词;
根据所述关键词及所述语义特征,通过所述双流神经网络模型的全连接层中预设的融合公式,对所述语义特征及所述关键词进行线性组合,获得所述待排版文书的文书特征。
3.如权利要求1所述的一种文书自动排版方法,其特征在于,所述根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板,具体包括:
根据所述文书特征,查询所述文书实例数据库设置的实例特征表,并通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度,获得若干个文本特征相似度;
通过对所述若干个文本特征相似度分别进行比较,获得所述文本特征相似度最高的第一实例特征,并根据所述第一实例特征获得对应的文书实例模板。
4.如权利要求1所述的一种文书自动排版方法,其特征在于,所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型,具体包括:
通过将所述文书实例模板作为所述深度学习模型的训练数据,以使所述深度学习模型提取所述文书实例模板的排版规则;
根据所述排版规则,通过预设的监督学习方法对所述深度学习模型不断训练,生成所述排版模型。
5.如权利要求1所述的一种文书自动排版方法,其特征在于,所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档,具体包括:
根据所述排版模型中预设的卷积层对所述待排版文书进行逻辑划分,生成若干个第一段落文本片,并分别提取所述若干个第一段落文本片的特殊字段以使根据所述特殊字段分别匹配所述若干个第一段落文本片对应处理的池化层;
通过所述池化层分别对所述若干个第一段落文本片进行字体设置及段落设置,生成若干个第二段落文本片;所述段落设置包括存储样式,对齐方式、左右缩进、行距、首行缩进类型;所述字体设置包括存储样式,字体、字号、样式、颜色及字符间距;
通过所述排版模型中预设的编码器定义所述若干个第二段落文本片的上下文关系,并通过所述排版模型中预设的解码器根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
6.一种文书自动排版系统,其特征在于,包括特征提取模块、文书匹配模块、模型训练模块及文书排版模块;
所述特征提取模块用于根据预设的双流神经网络模型提取待排版文书的关键词及语义特征,并对所述关键词及所述语义特征进行融合,获得所述待排版文书的文书特征;其中,通过预设在所述双流神经网络模型中的时间流和空间流分别提取所述待排版文书的关键词及语义特征,并对所述关键词及语义特征进行线性组合,获得所述待排版文书的文书特征;
所述文书匹配模块用于根据所述文书特征,查询预设的文书实例数据库,获得与所述待排版文书对应的文书实例模板;其中,通过预设的特征匹配算法计算所述文书特征与所述文书实例数据库中每一个实例特征的相似度,并根据所述相似度确定所述待排版文书对应的文书实例模板;
所述模型训练模块用于根据所述文书实例模板对预设的深度学习模型进行训练,以使所述深度学习模型学习所述文书实例模板对应的排版规则,生成训练后的排版模型;
所述文书排版模块用于根据所述排版模型对所述待排版文书进行自动排版,输出所述待排版文书排版后的文书文档;其中,通过所述排版模型对所述待排版文书进行逻辑划分,获得若干个第一段落文本片,并对所述若干个第一段落文本片中的每一个第一段落文片进行字体设置和段落设置,获得若干个第二段落文本片,再定义所述若干个第二段落文本片的上下文关系,并根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
7.如权利要求6所述的一种文书自动排版系统,其特征在于,所述特征提取模块包括提取单元及融合单元;
所述提取单元用于通过所述双流神经网络模型中的时间流的第一卷积层,提取所述待排版文书的语义特征数据,并对所述语义特征数据进行卷积处理,获得所述待排版文书的语义特征;利用所述双流神经网络模型的空间流中预设的文本关键词提取算法,提取所述待排版文书的关键词数据,并对所述关键词数据进行卷积处理,获得所述待排版文书的关键词;
所述融合单元用于根据所述关键词及所述语义特征,通过所述双流神经网络模型的全连接层中预设的融合公式,对所述语义特征及所述关键词进行线性组合,获得所述待排版文书的文书特征。
8.如权利要求6所述的一种文书自动排版系统,其特征在于,所述文书匹配模块包括计算单元及选择单元;
所述计算单元用于根据所述文书特征,查询所述文书实例数据库设置的实例特征表,并通过预设的特征匹配算法分别计算所述文书特征与预设在所述实例特征表中若干个实例特征的相似度,获得若干个文本特征相似度;
所述选择单元用于通过对所述若干个文本特征相似度分别进行比较,获得所述文本特征相似度最高的第一实例特征,并根据所述第一实例特征获得对应的文书实例模板。
9.如权利要求6所述的一种文书自动排版系统,其特征在于,所述模型训练模块包括学习单元及训练单元;
所述学习单元用于通过将所述文书实例模板作为所述深度学习模型的训练数据,以使所述深度学习模型提取所述文书实例模板的排版规则;
所述训练单元用于根据所述排版规则,通过预设的监督学习方法对所述深度学习模型不断训练,生成所述排版模型。
10.如权利要求6所述的一种文书自动排版系统,其特征在于,所述文书排版模块包括划分单元、设置单元及组合单元;
所述划分单元用于根据所述排版模型中预设的卷积层对所述待排版文书进行逻辑划分,生成若干个第一段落文本片,并分别提取所述若干个第一段落文本片的特殊字段以使根据所述特殊字段分别匹配所述若干个第一段落文本片对应处理的池化层;
所述设置单元用于通过所述池化层分别对所述若干个第一段落文本片进行字体设置及段落设置,生成若干个第二段落文本片;所述段落设置包括存储样式,对齐方式、左右缩进、行距、首行缩进类型;所述字体设置包括存储样式,字体、字号、样式、颜色及字符间距;
所述组合单元用于通过所述排版模型中预设的编码器定义所述若干个第二段落文本片的上下文关系,并通过所述排版模型中预设的解码器根据所述上下文关系对所述若干个第二段落文本片进行文本组合,输出所述待排版文书排版后的文书文档。
CN202310992933.2A 2023-08-09 2023-08-09 一种文书自动排版方法及系统 Active CN116738934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310992933.2A CN116738934B (zh) 2023-08-09 2023-08-09 一种文书自动排版方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310992933.2A CN116738934B (zh) 2023-08-09 2023-08-09 一种文书自动排版方法及系统

Publications (2)

Publication Number Publication Date
CN116738934A CN116738934A (zh) 2023-09-12
CN116738934B true CN116738934B (zh) 2024-03-19

Family

ID=87909865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310992933.2A Active CN116738934B (zh) 2023-08-09 2023-08-09 一种文书自动排版方法及系统

Country Status (1)

Country Link
CN (1) CN116738934B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669493B (zh) * 2023-12-08 2024-10-11 安徽省医学情报研究所 基于显著性检测的智能图文排版方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582946A (zh) * 2018-11-28 2019-04-05 龙马智芯(珠海横琴)科技有限公司 文字区域排版方向的确定方法及装置
CN110765754A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 文本数据排版方法、装置、计算机设备及存储介质
CN113569530A (zh) * 2021-07-29 2021-10-29 北京法意科技有限公司 文书智能排版方法及系统
CN113901764A (zh) * 2021-09-30 2022-01-07 数坤(北京)网络科技股份有限公司 一种内容排版方法、装置、电子设备和存储介质
CN115098673A (zh) * 2022-05-23 2022-09-23 北京计算机技术及应用研究所 基于变体注意力及层次结构的业务文书信息抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914443B (zh) * 2013-01-09 2018-06-12 北大方正集团有限公司 一种多语种文字的混排方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582946A (zh) * 2018-11-28 2019-04-05 龙马智芯(珠海横琴)科技有限公司 文字区域排版方向的确定方法及装置
CN110765754A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 文本数据排版方法、装置、计算机设备及存储介质
CN113569530A (zh) * 2021-07-29 2021-10-29 北京法意科技有限公司 文书智能排版方法及系统
CN113901764A (zh) * 2021-09-30 2022-01-07 数坤(北京)网络科技股份有限公司 一种内容排版方法、装置、电子设备和存储介质
CN115098673A (zh) * 2022-05-23 2022-09-23 北京计算机技术及应用研究所 基于变体注意力及层次结构的业务文书信息抽取方法

Also Published As

Publication number Publication date
CN116738934A (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Drobac et al. Optical character recognition with neural networks and post-correction with finite state methods
CN111737969B (zh) 一种基于深度学习的简历解析方法和系统
Palm et al. Cloudscan-a configuration-free invoice analysis system using recurrent neural networks
CN109582972B (zh) 一种基于自然语言识别的光学字符识别纠错方法
US20200151591A1 (en) Information extraction from documents
CN106776564B (zh) 一种基于知识图谱的语义识别方法及系统
WO2019205308A1 (zh) 信息的输入方法、装置、终端设备及介质
CN116738934B (zh) 一种文书自动排版方法及系统
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN105225657B (zh) 多音字标注模板生成方法和装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN110147534B (zh) 一种LaTeX文档向Word文档转换的方法及系统
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
Thammarak et al. Automated data digitization system for vehicle registration certificates using google cloud vision API
CN111737507A (zh) 一种单模态图像哈希检索方法
Ramel et al. Interactive layout analysis, content extraction, and transcription of historical printed books using Pattern Redundancy Analysis
CN116561594A (zh) 一种基于Word2vec的法律文件相似度分析方法
Philips et al. Historical document processing: historical document processing: a survey of techniques, tools, and trends
CN113297485B (zh) 一种生成跨模态的表示向量的方法以及跨模态推荐方法
Sindu et al. Recurrent neural network for content based image retrieval using image captioning model
Kokaze Using Transkribus to Transcribe Eighteenth-Century French Historical Manuscripts
CN113609861B (zh) 基于食品文献数据的多维度特征命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant