CN110457659B - 条款文档生成方法及终端设备 - Google Patents

条款文档生成方法及终端设备 Download PDF

Info

Publication number
CN110457659B
CN110457659B CN201910603823.6A CN201910603823A CN110457659B CN 110457659 B CN110457659 B CN 110457659B CN 201910603823 A CN201910603823 A CN 201910603823A CN 110457659 B CN110457659 B CN 110457659B
Authority
CN
China
Prior art keywords
text
document
clause
rich
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910603823.6A
Other languages
English (en)
Other versions
CN110457659A (zh
Inventor
陈文平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910603823.6A priority Critical patent/CN110457659B/zh
Publication of CN110457659A publication Critical patent/CN110457659A/zh
Application granted granted Critical
Publication of CN110457659B publication Critical patent/CN110457659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明适用于计算机应用技术领域,提供了一种条款文档生成方法、终端设备及计算机可读存储介质,包括:获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。确定富文本文档中文字的文本样式,并根据文字内容及其文本样式生成条款文档,提高了文档编写人员的编写效率。

Description

条款文档生成方法及终端设备
技术领域
本发明属于计算机应用技术领域,尤其涉及一种条款文档生成方法、终端设备及计算机可读存储介质。
背景技术
伴随着计算机技术的不断发展,文本的表现形式越来越丰富。出于功能实现以及商业目的,很多企业、组织或联盟制定了各种适用于特定系统或特定程序的文档格式。这些文档格式常常与应用系统或应用程序关联,导致了文档的不统一、不规范、封闭性和互不兼容,很大程度上缩小了用户选择应用系统和应用程序的范围,给用户造成大量的困扰。当前很多行业都有一些规则条款文档,而这些条款文档在最开始基本都是富文本文档格式,编辑人员需要花大量的时间在富文本文本的内容排版上,才能得到最后格式统一的条款文档。
现有工具无法满足文本文本样式随用户交互式自动匹配,尤其是在处理条款文档时,其中包含各条款对应的父子菜单标题自动编号、标题、正文样式、图片、底纹、关键字自动匹配释义等,很难有对应的样式来进行统一。这样导致编辑条款文档时将花费较多时间在调整条款的文本样式上,而降低条款文档的开发效率。
发明内容
有鉴于此,本发明实施例提供了一种条款文档生成方法、终端设备及计算机可读存储介质,以解决现有技术中条款文档的开发效率较低的问题。
本发明实施例的第一方面提供了一种条款文档生成方法,包括:
获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;
识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;
若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;
根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;
识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;
若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;
根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。
本发明实施例的第三方面提供了一种终端设备,包括:
获取单元,用于获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;
识别单元,用于识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;
确定单元,用于若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;
生成单元,用于根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例与现有技术相比存在的有益效果是:
本发明实施例通过获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。确定富文本文档中文字的文本样式,并根据文字内容及其文本样式生成条款文档,提高了文档编写人员的编写效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的条款文档生成方法的流程图;
图2是本发明实施例二提供的条款文档生成方法的流程图;
图3是本发明实施例三提供的终端设备的示意图;
图4是本发明实施例四提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,图1是本发明实施例一提供的条款文档生成方法的流程图。本实施例中条款文档生成方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的条款文档生成方法可以包括以下步骤:
S101:获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档。
在当前法律、交通、教育以及商业等很多领域中,都或多或少存在使用规范的条款文档来做出行为或者制度标准,以保证行业中各个流程的正常运行,并在发生问题的时候,可以参考这些条款文档进行查询,并根据条款文档确定解决方案。在实际应用中,条款文档都对应有相应的格式,以通过统一的文档格式,使查询者清楚的确定文件中的各个目录及其对应的文本内容,提高文档内容信息获取的效率。
在生成条款文档时,先获取条款文档中的文档内容,这个可以是通过用户终端发送的富文本文档,本实施例中的富文本文档用于表示文档中的文档格式不符合预设的条款模板、待进行格式处理的文档。同时本实施例中预设有条款模板,以通过条款模板将富文本文档中的文本内容的格式统一为预设的条款格式。
具体的,富文本文档是用标准化的方法来对不同的文本属性、格式以及结构等信息进行编码的文本。富文本文档可以包含丰富的文字格式和段落格式。本实施例中,富文本文档的文本可以具有不同的字体、字形、字号、颜色、下划线、着重号以及其他效果,也可以具有对齐方式、缩进方式、段前段后间距、行间距等段落格式。富文本文档中颜色、字形和字体等格式的变化对文档内容的把握有显著的突出作用,因此在设计富文本文档的文本样式时,应该把文本的格式考虑在内。再具体的,还可以将富文本文档中的元素分为物理结构和逻辑结构,其中,文本的物理结构包括标题、段落、句子和词语。文本的逻辑结构则更侧重于表示文本所包含的思想内容和表达的逻辑方式,包括了主题、区域、段落和正文。逻辑结构中的区域是一个或多个段落的组合,也可以是各个规则、条款的目录或者文字细化,是作者对内容在结构上有意识的安排。本实施例中可以先根据条款模板来调整富文本文档的物理结构,之后再通过人为调整的方式来调整文档的逻辑结构。
示例性地,在本实施例中获取富文本文档的方式可以是通过用户在浏览器中输入的文字。示例性的,通过Squire进行富文本文档的编辑,其中的富文本文档块控件可以自定义块内容,可以自定义内嵌图像的属性,如尺寸缩放、色调、对齐等。
需要说明的是,本实施例中所获取的富文本文档是带格式的文本文档,由于在浏览器中文本文档的编辑处理较为方便,因此可以在浏览器中编辑富文本文档及其样式,以根据该富文本文档中的文字文本样式生成对应的文档,供普通用户阅读。
S102:识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档。
富文本文档中包括文档正文、注释、一级标题、二级标题等文字形式,通过识别富文本文档中的文档目录,来确定该富文本文档是够可以进行条款转换。其中,若识别富文本文档得到的文档目录中各个等级的标题都是紧密连接,未出现编号间断或者标题丢失等情况,则判定该富文本文档的文档目录完整,为可进行条款转换的文档。若文档目录中出现编号间断或者标题丢失等情况,则判定该富文本文档的文档目录不完整,无法进行条款转换。
具体的,在识别富文本文档的文档目录时,先识别富文本文档中的文档标题,文档标题中包含了各章、小节的编号,通过识别文档标题中的编号,确定所有文档目录中各个标题的目录等级,再根据各个标题及其目录等级构建文档目录。
S103:若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式。
若该富文本文档为可进行条款转换的文档,则根据富文本文档中的文本内容和预设的条款模板,确定富文本文档中的文本内容对应的文本样式,以根据每个文本内容对应的文本样式,确定最终格式统一的条款文档。若富文本文档为不可进行条款转换的文档,则根据识别出的文档目录确定发生编号间断或者标题丢失的文档位置,并在这些文档位置处自动添加批注,以供用户参考和修改。
具体的,在本实施例中预设有富文本文档中的每个样式对应的条款模板,例如,父子菜单标题自动编号、标题、正文样式、图片、底纹、关键字自动匹配释义等。
根据富文本文档中的格式,将该格式与条款模板中的格式进行一一对应,确定该富文本文档中的文本内容对应的文本样式。进一步的,本实施例中可以根据编辑富文本文档的浏览器中的样式情况,以及现有的文本文档中的样式情况,建立样式对应表。同时,由于浏览器中的样式可能与文本文档中的样式不能一一对应,富文本文档浏览器中的样式在文本文档中可能不存在,因此通过将不同的富文本文档的文本样式与条款模板中的样式进行一一对应的方式,确定每个富文本文档的样式在条款文档中应显示的样式。
由于富文本文档浏览器和文本文档中的样式数量有限,因此可以采用人工设置条款模板的方式,进行两个版本样式之间的一一对应,只要确定富文本文档在浏览器中的文字样式,便可以通过条款模板,确定这些文字所对应的文本样式。
S104:根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。
在确定了富文本文档中的文本内容对应的文本样式之后,根据文本内容及其对应的文本样式,生成与条款模板格式对应的条款文档。
进一步的,步骤S104可以具体包括S1041~S1042:
S1041:生成一个空文档。
首先生成一个空文档,这个空文档中没有任何数据,只是对应有一个创建时间和文档属性。同时,这个文档的文档属性可以是预先设定的,可以是Word文档,还可以是PDF等形式,此处不做限定。
S1042:根据所述文本内容对应的所述文本样式,将所述文本内容写入所述空文档,得到与所述条款模板格式一致的所述条款文档。
在生成空文档之后,根据富文本文档中文本内容对应的文本样式,将文本内容写入空文档中,得到与条款模板格式一致的条款文档。
可选的,可以按照文本格式的顺序写入,先写入相同格式的文本内容,再根据富文本文档中的文字顺序,写入其他格式的文本内容。除此之外,还可以根据富文本文档中的文字顺序,和每部分文字内容对应的文字样式,按照文字顺序写入到空文档中。
进一步的,写入完成之后,可以将写入完成生成的条款文档和之前的富文本文档进行对比,检查富文本文档中所有的文字信息是否被写入条款文档中,以保证文档信息的完整性。
上述方案,通过获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。确定富文本文档中文字的文本样式,并根据文字内容及其文本样式生成条款文档,提高了文档编写人员的编写效率。
参见图2,图2是本发明实施例二提供的条款文档生成方法的流程图。本实施例中条款文档生成方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的条款文档生成方法可以包括以下步骤:
S201:获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档。
在本实施例中S201与图1对应的实施例中S101的实现方式完全相同,具体可参考图1对应的实施例中的S101的相关描述,在此不再赘述。
S202:识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档。
富文本文档中包括文档正文、注释、一级标题、二级标题等文字形式,通过识别富文本文档中的文档目录,来确定该富文本文档是够可以进行条款转换。其中,若识别富文本文档得到的文档目录中各个等级的标题都是紧密连接,未出现编号间断或者标题丢失等情况,则判定该富文本文档的文档目录完整,为可进行条款转换的文档。若文档目录中出现编号间断或者标题丢失等情况,则判定该富文本文档的文档目录不完整,无法进行条款转换。
S203:若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式。
在获取到用户通过浏览器输入的带格式的富文本文档之后,根据该富文本文档中的文字内容和文字样式,确定该富文本文档中每个文字的标签样式。
示例性地,在保险类的应用环境中,在富文本文档中可以确定父菜单为保险责任,其下的子菜单包括:生存保险金、祝寿保险金以及身故保险金,这些文字样式在富文本文档中可以按照浏览器中的样式进行排版和编辑,通过这些文字在富文本文档中的样式和预设的条款模板,确定这文本及其样式在Word文档中对应的文本样式,并进行调整,得到与条款模板中的样式对应的显示格式,最后便可以通过这些显示格式和富文本文档生成保险条款文档。
进一步的,步骤S203可以具体包括步骤S2031~S2033,并且,在步骤S2031之前,还可以包括步骤S20311~S20312:
S20311:获取所述条款模板中的每个条款级别对应的文字内容筛选条件。
本实施例中预设有条款模板,以通过条款模板将富文本文档中的文本内容的格式统一为预设的条款格式。其中,条款格式可以包括父子菜单标题自动编号、标题、正文样式、图片、底纹、关键字自动匹配释义等。
本实施例中针对条款模板中的每个条款级别都设定了对应的文字内容筛选条件。例如,针对不同条款级别对应的内容,可以通过字数来作为限定的文字内容筛选条件,示例性地,在文字内容筛选条件中,设定一级标题的字数为四个或者四个以下,设定二级标题的字数为四个到六个,其余文字内容则为正文文档。
S20312:根据所述文字内容筛选条件,从所述条款模板中筛选出符合每个条款级别对应的文字内容筛选条件的文字内容,生成每个条款级别对应的文字内容集合。
在获取条款模板中的每个条款级别对应的文字内容筛选条件之后,根据文字内容筛选条件,从条款模板中筛选出符合每个条款级别对应的文字内容筛选条件的文字内容。
示例性地,基于步骤S20311中的示例,当不同等级的标题对应的文字内容筛选条件为不同字数的限定时,从条款模板中筛选出符合不同字数限定的文字内容,将满足相同字数限定的文字内容归结为一个集合,作为对应的条款级别对应的文字内容集合。
S2031:若所述富文本文档为可进行条款转换的文档,则获取所述条款模板中的每个条款级别对应的文字样式和文字内容集合;所述文字内容集合中包含其对应的条款级别对应的所有文字内容。
在本实施例中,存在不同的条款模板,用户可以在生成条款文档时,根据富文本文档的文档内容确定对应的条款模板。同时,每个条款模板中都包含有各种不同的文字样式,且不同的文字样式对应有不同的文字内容集合。
示例性地,条款模板中可以包括一级标题、二级标题以及正文文本对应的文字格式和文字内容集合,其中文字格式可以包括文字大小、字体样式以及段落样式等,文字内容集合中可以包括各种详细、明确的文字内容,除此之外,还可以是文字筛选条件等,可以通过文字帅选条件来确定与每个条款级别匹配的文字内容。
S2032:根据每个所述文字内容集合中的文字内容和所述富文本文档中的文本内容,确定所述富文本文档包含的所有文本内容分别对应的条款级别。
在获取到条款模板中的每个条款级别对应的文字样式和文字内容集合之后,根据每个文字集合中的文字内容和富文本文档中的文本内容,确定富文本文档中包含的所有文本内容分别对应的条款级别。
在确定富文本文档包含的所有文本内容分别对应的条款级别时,可以通过将富文本文档中的文本内容与文字内容集合进行匹配的方式,确定富文本文档中的文本内容所对应的条款级别,即确定富文本文档所包含的所有文本内容分别对应的条款级别。
具体的,可以通过文字匹配的方式来确定富文本文档包含的所有文本内容分别对应的条款级别。通过将文字内容集合与富文本文档中的文字进行文字匹配,便可以确定富文本文档中的文本内容所对应的文字内容集合,即确定富文本文档中的文本内容所对应的条款级别。除此之外,当文字内容集合是文字条件的形式时,例如该部分文字少于8个字且其中包含“章节”字样的集合,可以通过这些条件来识别出满足条件的文本内容,并将这些文本内容作为与该条件及其条款级别对应的文本内容。通过这种方式,便可以根据每个文字内容集合中的文字内容和富文本文档中的文本内容,确定富文本文档包含的所有文本内容分别对应的条款级别。
S2033:根据所述富文本文档包含的所有文本内容分别对应的条款级别,以及每个所述条款级别对应的文字样式,确定所述富文本文档中所有条款级别分别对应的文本内容所对应的文本样式。
由于在预先设定的条款模板中,条款级别和文字样式是一一对应的关系。因此,在确定了富文本文档包含的所有文本内容分别对应的条款级别,以及每个条款级别对应的文字样式之后,便可以根据文本内容和文字样式,确定富文本文档中所有条款级别分别对应的文本内容所对应的文本样式。
S204:根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。
在确定了富文本文档中的文本内容对应的文本样式之后,根据文本内容及其对应的文本样式,生成与条款模板格式对应的条款文档。具体的生成条款文档的方式可以是直接根据确定好文本样式的文档内容,直接生成条款文档。
进一步的,步骤S204之后,还可以包括S2041~S2044:
S2041:获取用户终端发送的修改请求;所述修改请求中包括修改位置、修改文字内容和待修改样式。
在生成了条款文档之后,用户看到条款文档之后,可能对其中的一些格式、文字进行修改,但是很多情况下,用户修改又会破坏原先的条款格式,这种情况下,还是依照原来的条款文档生成方式来进行修改。
首先获取用户终端发送的修改请求,其中可以包括修改位置、修改文字内容和待修改样式。具体的,修改位置用于表示需要修改文字内容在条款文档中的位置,如第6页第13行等;修改文字内容用于表示需要进行修改的文字;待修改样式用于表示待修改文字内容的文字样式。
进一步的,本实施例中的修改只包括对文字样式的修改,不包括对文字内容本身的修改,若用户想修改文字内容,或者接收到的修改请求中的修改文字内容包括了文字内容本身,则不进行处理,具体的处理方式为直接将原来的富文本文档中的文字进行修改,生成新的条款文档。
S2042:根据所述修改位置确定所述修改文字内容在所述条款文档中对应的文字样式。
在获取到用户终端发送的修改请求之后,根据修改请求中的修改位置,在条款文档中进行定位,确定条款文档在该修改位置出的文字内容对应的文字样式。
进一步的,在确定了修改位置在条款文档中的定位之后,还可以获取条款文档中该位置处的文字内容,并将条款文档中该位置处的文字内容与待修改文字内容进行对比,判断两者是否相同,若相同,则进行下一步的文字样式修改,若不同相同,则生成错误报告,不予修改。
S2043:若所述待修改样式与所述修改文字内容在所述条款文档中对应的文字样式相同,则根据所述待修改样式对所述修改文字内容进行修改。
若待修改样式与修改文字内容在条款文档中对应的文字样式相同,则说明待修改样式符合条款模板,根据待修改样式对修改文字内容进行修改。具体的,其修改方式可以是根据待修改样式和修改文字内容生成最后的修改目标,并用修改目标替换原条款文档中的修改文字内容。
S2044:若所述待修改样式与所述修改文字内容在所述条款文档中对应的文字样式不同,则向所述用户终端发送不予修改的通知。
若待修改样式与修改文字内容在条款文档中对应的文字样式不同,则说明待修改样式不符合条款模板,则向用户终端发送不予修改的通知。
S205:根据预设的关键字词典,识别所述条款文档中的关键字;所述关键字用于表示待注释的文本内容。
由于在很多条款文档中,存在一些名词需要解释清楚,以防止因为歧义造成的误解。因此,本实施例中设有关键字库,用来收集和管理这些需要解释清楚的名词及其释义。通过关键字库中的关键字来进行识别,确定条款文档中的关键字。具体的识别方法是检测当前的条款文档中是否包含这些关键字,如果包含就确定这些关键字,并选取这些关键字库中对该关键字的注释。
具体的,可以通过将关键字词典中所有的关键字与条款文档中的文字进行强匹配,将每个关键字在条款文档的文字串中从右到左开始比较,如果在条款文档的文字没有出现则直接跳过,即移动步长=关键字长度+1,说明这个关键字不存在于条款文档中;否则,移动步长=关键字中最右端的该字符到末尾的距离+1,直至完整的关键字出现,便可确定出条款文档中的关键字。
S206:从所述关键字词典中获取所述关键字的注释,以及所述关键字及其注释在所述条款文档中的文本样式。
本实施例中的关键字词典中包括了每个关键字对应的注释,以及每个关键字及其注释的文本样式,以保证整个文档中文字的协调性和一致性。在确定了条款文档中的关键词之后,从关键字词典获取每个关键词对应的注释,以及每个关键字及其注释在条款文档中的文本样式。
S207:根据每个所述关键字的所述文本样式、每个所述关键字对应的注释的文本样式,将所述关键字及其所述注释关联添加进所述条款文档中预设的注释区域中。
在确定了关键字对应的文本样式,以及与该关键字的注释的文本样式之后,根据关键字及其文本样式、所述注释及其文本样式,显示所述关键字和所述注释。
示例性的,当从条款文档中识别得到的关键字有“毒品”、“酒后驾车”以及“机动车”时,说明这些词语的含义或者与其相关的一些处理方式需要被解释说明。并且,本实施例中的关键字词典中也包括了这些关键字对应的文本样式、与这些关键字相关的注释及其文本样式。根据每个关键字的文本样式,以及与该关键字的注释的文本样式,将关键字及其所述注释添加进所述条款文档中预设的注释区域中,起到对关键词的注释作用。其中,注释区域是预先设定的,可以为每一页底部、所有正文文档之后等,此处不做限定。
上述方案,通过获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。根据预设的关键字词典,识别所述条款文档中的关键字;所述关键字用于表示待注释的文本内容;从所述关键字词典中获取所述关键字的注释,以及所述关键字及其注释在所述条款文档中的文本样式;根据每个所述关键字的所述文本样式、每个所述关键字对应的注释的文本样式,将所述关键字及其所述注释关联添加进所述条款文档中预设的注释区域中。通过根据富文本文档中的文字内容、文字样式以及预设的条款模板,确定富文本文档中文字的标签样式,并根据文字内容及其标签样式,生成文本文档,通过识别文本文档中的关键字及其注释,同时通过关键字样式库确定对应的文本样式,并根据该文本样式进行在最后的文本文档中显示,提高了文档编写人员的编写效率。
参见图3,图3是本发明实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1~图2对应的实施例中的各步骤。具体请参阅图1~图2各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。本实施例的终端设备300包括:
获取单元301,用于获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;
识别单元302,用于识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;
确定单元303,用于若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;
生成单元304,用于根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。
进一步的,所述确定单元303可以包括:
第一获取单元,用于若所述富文本文档为可进行条款转换的文档,则获取所述条款模板中的每个条款级别对应的文字样式和文字内容集合;所述文字内容集合中包含其对应的条款级别对应的所有文字内容;
内容确定单元,用于根据每个所述文字内容集合中的文字内容和所述富文本文档中的文本内容,确定所述富文本文档包含的所有文本内容分别对应的条款级别;
样式确定单元,用于根据所述富文本文档包含的所有文本内容分别对应的条款级别,以及每个所述条款级别对应的文字样式,确定所述富文本文档中所有条款级别分别对应的文本内容所对应的文本样式。
进一步的,所述终端设备还可以包括:
识别单元,用于根据预设的关键字词典,识别所述条款文档中的关键字;所述关键字用于表示待注释的文本内容;
注释单元,用于从所述关键字词典中获取所述关键字的注释,以及所述关键字及其注释在所述条款文档中的文本样式;
添加单元,用于根据每个所述关键字的所述文本样式、每个所述关键字对应的注释的文本样式,将所述关键字及其所述注释关联添加进所述条款文档中预设的注释区域中。
进一步的,所述终端设备还可以包括:
条件获取单元,用于获取所述条款模板中的每个条款级别对应的文字内容筛选条件;
内容筛选单元,用于根据所述文字内容筛选条件,从所述条款模板中筛选出符合每个条款级别对应的文字内容筛选条件的文字内容,生成每个条款级别对应的文字内容集合。
进一步的,所述终端设备还可以包括:
第二获取单元,用于获取用户终端发送的修改请求;所述修改请求中包括修改位置、修改文字内容和待修改样式;
第三获取单元,用于根据所述修改位置确定所述修改文字内容在所述条款文档中对应的文字样式;
第一修改单元,用于若所述待修改样式与所述修改文字内容在所述条款文档中对应的文字样式相同,则根据所述待修改样式对所述修改文字内容进行修改;
第二修改单元,用于若所述待修改样式与所述修改文字内容在所述条款文档中对应的文字样式不同,则向所述用户终端发送不予修改的通知。
进一步的,所述生成单元303可以包括:
空文档单元,用于生成一个空文档;
写入单元,用于根据所述文本内容对应的所述文本样式,将所述文本内容写入所述空文档,得到与所述条款模板格式一致的所述条款文档。
上述方案,通过获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档。确定富文本文档中文字的文本样式,并根据文字内容及其文本样式生成条款文档,提高了文档编写人员的编写效率。
图4是本发明实施例四提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个条款文档生成方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示单元301至303的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card,FC)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (6)

1.一种条款文档生成方法,其特征在于,包括:
获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;
识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;
若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;
根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档;
所述若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式,包括:
若所述富文本文档为可进行条款转换的文档,则获取所述条款模板中的每个条款级别对应的文字样式和文字内容集合;所述文字内容集合中包含其对应的条款级别对应的所有文字内容;
根据每个所述文字内容集合中的文字内容和所述富文本文档中的文本内容,确定所述富文本文档包含的所有文本内容分别对应的条款级别;
根据所述富文本文档包含的所有文本内容分别对应的条款级别,以及每个所述条款级别对应的文字样式,确定所述富文本文档中所有条款级别分别对应的文本内容所对应的文本样式;
所述若所述富文本文档为可进行条款转换的文档,则获取所述条款模板中的每个条款级别对应的文字样式和文字内容集合之前,还包括:
获取所述条款模板中的每个条款级别对应的文字内容筛选条件;
根据所述文字内容筛选条件,从所述条款模板中筛选出符合每个条款级别对应的文字内容筛选条件的文字内容,生成每个条款级别对应的文字内容集合;
所述根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档之后,还包括:
根据预设的关键字词典,识别所述条款文档中的关键字;所述关键字用于表示待注释的文本内容;
从所述关键字词典中获取所述关键字的注释,以及所述关键字及其注释在所述条款文档中的文本样式;
根据每个所述关键字的所述文本样式、每个所述关键字的注释的文本样式,将所述关键字及其所述注释关联添加进所述条款文档中预设的注释区域中。
2.如权利要求1所述的条款文档生成方法,其特征在于,所述根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档之后,还包括:
获取用户终端发送的修改请求;所述修改请求中包括修改位置、修改文字内容和待修改样式;
根据所述修改位置确定所述修改文字内容在所述条款文档中对应的文字样式;
若所述待修改样式与所述修改文字内容在所述条款文档中对应的文字样式相同,则根据所述待修改样式对所述修改文字内容进行修改;
若所述待修改样式与所述修改文字内容在所述条款文档中对应的文字样式不同,则向所述用户终端发送不予修改的通知。
3.如权利要求1-2任一项所述的条款文档生成方法,其特征在于,所述根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档,包括:
生成一个空文档;
根据所述文本内容对应的所述文本样式,将所述文本内容写入所述空文档,得到与所述条款模板格式一致的所述条款文档。
4.一种终端设备,其特征在于,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如下步骤:
获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;
识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;
若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;
根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档;
所述若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式,包括:
若所述富文本文档为可进行条款转换的文档,则获取所述条款模板中的每个条款级别对应的文字样式和文字内容集合;所述文字内容集合中包含其对应的条款级别对应的所有文字内容;
根据每个所述文字内容集合中的文字内容和所述富文本文档中的文本内容,确定所述富文本文档包含的所有文本内容分别对应的条款级别;
根据所述富文本文档包含的所有文本内容分别对应的条款级别,以及每个所述条款级别对应的文字样式,确定所述富文本文档中所有条款级别分别对应的文本内容所对应的文本样式;
所述若所述富文本文档为可进行条款转换的文档,则获取所述条款模板中的每个条款级别对应的文字样式和文字内容集合之前,还包括:
获取所述条款模板中的每个条款级别对应的文字内容筛选条件;
根据所述文字内容筛选条件,从所述条款模板中筛选出符合每个条款级别对应的文字内容筛选条件的文字内容,生成每个条款级别对应的文字内容集合;
所述根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档之后,还包括:
根据预设的关键字词典,识别所述条款文档中的关键字;所述关键字用于表示待注释的文本内容;
从所述关键字词典中获取所述关键字的注释,以及所述关键字及其注释在所述条款文档中的文本样式;
根据每个所述关键字的所述文本样式、每个所述关键字的注释的文本样式,将所述关键字及其所述注释关联添加进所述条款文档中预设的注释区域中。
5.一种终端设备,其特征在于,包括:
获取单元,用于获取用户终端发送的富文本文档;所述富文本文档用于表示文档格式不符合预设的条款模板、待进行格式处理的文档;
识别单元,用于识别所述富文本文档的文档目录,根据所述文档目录判断所述富文本文档是否为可进行条款转换的文档;
确定单元,用于若所述富文本文档为可进行条款转换的文档,则根据所述富文本文档中的文本内容与所述条款模板,确定所述富文本文档中的所述文本内容对应的文本样式;
生成单元,用于根据所述文本内容及其对应的所述文本样式,生成所述富文本文档对应的符合所述条款模板的条款文档;
所述确定单元包括:
第一获取单元,用于若所述富文本文档为可进行条款转换的文档,则获取所述条款模板中的每个条款级别对应的文字样式和文字内容集合;所述文字内容集合中包含其对应的条款级别对应的所有文字内容;
内容确定单元,用于根据每个所述文字内容集合中的文字内容和所述富文本文档中的文本内容,确定所述富文本文档包含的所有文本内容分别对应的条款级别;
样式确定单元,用于根据所述富文本文档包含的所有文本内容分别对应的条款级别,以及每个所述条款级别对应的文字样式,确定所述富文本文档中所有条款级别分别对应的文本内容所对应的文本样式;
所述终端设备还包括:
识别单元,用于根据预设的关键字词典,识别所述条款文档中的关键字;所述关键字用于表示待注释的文本内容;
注释单元,用于从所述关键字词典中获取所述关键字的注释,以及所述关键字及其注释在所述条款文档中的文本样式;
添加单元,用于根据每个所述关键字的所述文本样式、每个所述关键字对应的注释的文本样式,将所述关键字及其所述注释关联添加进所述条款文档中预设的注释区域中;
条件获取单元,用于获取所述条款模板中的每个条款级别对应的文字内容筛选条件;
内容筛选单元,用于根据所述文字内容筛选条件,从所述条款模板中筛选出符合每个条款级别对应的文字内容筛选条件的文字内容,生成每个条款级别对应的文字内容集合。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
CN201910603823.6A 2019-07-05 2019-07-05 条款文档生成方法及终端设备 Active CN110457659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910603823.6A CN110457659B (zh) 2019-07-05 2019-07-05 条款文档生成方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910603823.6A CN110457659B (zh) 2019-07-05 2019-07-05 条款文档生成方法及终端设备

Publications (2)

Publication Number Publication Date
CN110457659A CN110457659A (zh) 2019-11-15
CN110457659B true CN110457659B (zh) 2023-07-25

Family

ID=68482185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910603823.6A Active CN110457659B (zh) 2019-07-05 2019-07-05 条款文档生成方法及终端设备

Country Status (1)

Country Link
CN (1) CN110457659B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122829A (ja) * 2008-11-18 2010-06-03 Loval Communications Inc 文書整形装置および文書整形方法
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质
CN109918635A (zh) * 2017-12-12 2019-06-21 中兴通讯股份有限公司 一种合同文本风险检测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1126379A1 (en) * 2000-02-16 2001-08-22 Sun Microsystems, Inc. Conversion of directly assigned document format attributes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122829A (ja) * 2008-11-18 2010-06-03 Loval Communications Inc 文書整形装置および文書整形方法
CN109918635A (zh) * 2017-12-12 2019-06-21 中兴通讯股份有限公司 一种合同文本风险检测方法、装置、设备及存储介质
CN109685056A (zh) * 2019-01-04 2019-04-26 达而观信息科技(上海)有限公司 获取文档信息的方法及装置
CN109902288A (zh) * 2019-01-17 2019-06-18 深圳壹账通智能科技有限公司 智能条款分析方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110457659A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
US11822880B2 (en) Enabling flexible processing of semantically-annotated documents
US8155444B2 (en) Image text to character information conversion
US7673235B2 (en) Method and apparatus for utilizing an object model to manage document parts for use in an electronic document
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
CN110347953B (zh) 页面生成方法、装置、计算机设备及存储介质
CN110738037B (zh) 用于自动生成电子表格的方法、装置、设备及存储介质
US20130254239A1 (en) Storage of a Document Using Multiple Representations
EP2291010A1 (en) Structure processing method and apparatus for layout file
US20100287188A1 (en) Method and system for publishing a document, method and system for verifying a citation, and method and system for managing a project
CN105631393A (zh) 信息识别方法及装置
CN1702617A (zh) 用于在起始模板和目标模板之间映射内容的方法和系统
US20140304579A1 (en) Understanding Interconnected Documents
US9311338B2 (en) Method and apparatus for analyzing and associating behaviors to image content
WO2021055102A1 (en) Cross-document intelligent authoring and processing assistant
Basoglu et al. Inline XBRL versus XBRL for SEC reporting
CN115917613A (zh) 文档中文本的语义表示
CN111930976B (zh) 演示文稿生成方法、装置、设备及存储介质
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN110457659B (zh) 条款文档生成方法及终端设备
US9946698B2 (en) Inserting text and graphics using hand markup
CN112906359A (zh) 基于人机交互的叠加信息处理方法及相关装置
CN114637505A (zh) 一种页面内容提取方法和装置
CN111222310A (zh) 一种不规则表单的录入和展示的方法及系统
US20240160838A1 (en) System and Methods for Enabling User Interaction with Scan or Image of Document
Semerikov et al. How to format your paper for CTE Workshop

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant