CN110427614A - 段落层级的构建方法、装置、电子设备及存储介质 - Google Patents
段落层级的构建方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110427614A CN110427614A CN201910642091.1A CN201910642091A CN110427614A CN 110427614 A CN110427614 A CN 110427614A CN 201910642091 A CN201910642091 A CN 201910642091A CN 110427614 A CN110427614 A CN 110427614A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- text
- document
- level
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种段落层级的构建方法、装置、电子设备及存储介质。该方法包括:获取待构建的文档中的任意两个段落文本;提取任意两个段落文本的语义信息以及格式信息;将语义信息以及格式信息输入预先训练好的段落层级解析模型,以确定任意两个段落文本之间的段落层级关系,并返回执行获取待构建的文档中的任意两个段落文本,直到文档中的每个段落文本对应的段落层级信息都确定;根据每个段落文本对应的段落层级信息,构建文档中的每个段落文本对应的段落层级;根据文档中的每个段落文本对应的段落层级,生成已构建的文档。本申请实施例可充分考虑段落间的语义信息,大大提升段落层级的构建准确度,而且还减少了人工干预,提高构建效率。
Description
技术领域
本申请实施例涉及技术领域,更具体地,涉及一种段落层级的构建方法、装置、电子设备及存储介质。
背景技术
文本是书面语言的表现形式,从文学的角度,文本通常是具有完整、系统含义的一个或多个句子的组合。文本结构是一种天然的文本语义信息,可以辅助阅读者理解文本的层次。文本写作者通常利用多种格式来设计文本的结构,例如通过字体样式、页面布局、多级标题等。
一个文档的文本结构构建得是否准确,对文档的语义理解以及信息提取有着至关重要的影响,但是目前在划分不具有清晰文本结构的文档中的段落时,仍然采用人工的方式来实现,例如需要人工阅读并总结归纳出格式规则来进行段落划分,这种方式不仅需要投入大量的人力资源,而且效率较低。
发明内容
鉴于上述问题,本申请实施例提供一种段落层级的构建方法、装置、电子设备及存储介质,可以减少人工干预,提高了构建段落层级的准确性和效率。
第一方面,本申请实施例提供了一种段落层级的构建方法,该段落层级的构建方法可包括:获取待构建的文档中的任意两个段落文本;提取所述任意两个段落文本的语义信息以及格式信息;将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,以确定所述任意两个段落文本之间的段落层级关系,并返回执行所述获取待构建的文档中的任意两个段落文本,直到所述文档中的每个段落文本对应的段落层级信息都确定,所述段落层级关系用于确定段落文本对应的段落层级信息;根据所述每个段落文本对应的段落层级信息,构建所述文档中的每个段落文本对应的段落层级;根据所述文档中的每个段落文本对应的段落层级,生成已构建的文档。
可选地,所述获取待构建的文档中的任意两个段落文本,包括:判断待构建段落队列中是否存在段落文本,所述待构建段落队列用于存放所述待构建的文档中的段落文本;若所述待构建段落队列中不存在段落文本,将所述文档中的相邻两个段落文本写入待构建段落队列中;若所述待构建段落队列中存在段落文本时,根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中;从待构建段落队列中获取任意两个段落文本。
可选地,所述预设顺序为由后往前的顺序。
可选地,所述提取所述任意两个段落文本的语义信息以及格式信息,包括:分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息以及格式信息;或分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息、且从所述任意两个段落文本中的前一段落文本的段尾区域以及后一段落文本的段首区域,提取格式信息。
可选地,所述将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,以确定所述任意两个段落文本之间的段落层级关系,并返回执行所述获取待构建的文档中的任意两个段落文本,直到确定所述文档中的每个段落文本对应的段落层级信息父级段落文本都确定,包括:将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,判断所确定的段落层级关系中是否存在父子关系;若所确定的段落层级关系中存在父子关系,将属于父子关系的两个段落文本中的子段落移出所述待构建段落队列,并执行递归操作;若所确定的段落层级关系中不存在父子关系,执行递归操作;其中,所述递归操作为返回执行根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中,直到所述文档中的每个段落文本对应的段落层级信息都确定。
可选地,所述预先训练好的段落层级解析模型通过如下步骤训练得到:获取训练样本集合,所述训练样本集合包括第一样本段落文本、第二样本段落文本以及所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系;将所述第一样本段落文本与所述第二样本段落文本作为所述段落层级解析模型的输入,将所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系作为所述段落层级解析模型的期望输出,基于机器学习算法训练得到所述预先训练好的段落层级解析模型。
可选地,所述段落层级解析模型包括多层神经网络分类器。
第二方面,本申请实施例提供了一种段落层级的构建装置,该段落层级的构建装置可包括:文本获取模块,用于获取待构建的文档中的任意两个段落文本;信息提取模块,用于提取所述任意两个段落文本的语义信息以及格式信息;层级确定模块,用于将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,以确定所述任意两个段落文本之间的段落层级关系,并返回执行所述获取待构建的文档中的任意两个段落文本,直到所述文档中的每个段落文本对应的段落层级信息都确定,所述段落层级关系用于确定段落文本对应的段落层级信息;层级构建模块,用于根据所述每个段落文本对应的段落层级信息,构建所述文档中的每个段落文本对应的段落层级;文档生成模块,用于根据所述文档中的每个段落文本对应的段落层级,生成已构建的文档。
可选地,所述文本获取模块510包括:文本判断单元,用于判断待构建段落队列中是否存在段落文本,所述待构建段落队列用于存放所述待构建的文档中的段落文本;第一写入单元,用于若所述待构建段落队列中不存在段落文本,将所述文档中的相邻两个段落文本写入待构建段落队列中;第二写入单元,用于若所述待构建段落队列中存在段落文本,根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中;文本获取单元,用于从待构建段落队列中获取任意两个段落文本。
可选地,所述预设顺序为由后往前的顺序。
可选地,所述信息提取模块520包括:第一提取单元,用于分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息以及格式信息;或第二提取单元,用于分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息、且从所述任意两个段落文本中的前一段落文本的段尾区域以及后一段落文本的段首区域,提取格式信息。
可选地,所述层级确定模块530包括:信息输入单元,用于将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,判断所确定的段落层级关系中是否存在父子关系;第一递归单元,用于若所确定的段落层级关系中存在父子关系,将属于父子关系的两个段落文本中的子段落移出所述待构建段落队列,并执行递归操作;第二递归单元,用于若所确定的段落层级关系中不存在父子关系,执行递归操作。
可选地,所述递归操作为返回执行根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中,直到所述文档中的每个段落文本对应的段落层级信息都确定。
可选地,所述段落层级的构建装置500还包括:样本获取模块,用于获取训练样本集合,所述训练样本集合包括第一样本段落文本、第二样本段落文本以及所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系;样本训练模块,用于将所述第一样本段落文本与所述第二样本段落文本作为所述段落层级解析模型的输入,将所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系作为所述段落层级解析模型的期望输出,基于机器学习算法训练得到所述预先训练好的段落层级解析模型。
可选地,所述段落层级解析模型包括多层神经网络分类器。
第三方面,本申请实施例提供了一种电子设备,该电子设备可包括:存储器;一个或多个处理器,与存储器连接;一个或多个程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如上述第一方面所述的方法。
在本申请实施例中,通过获取待构建的文档中的任意两个段落文本;提取任意两个段落文本的语义信息以及格式信息;将语义信息以及格式信息输入预先训练好的段落层级解析模型,以确定任意两个段落文本之间的段落层级关系,并返回执行获取待构建的文档中的任意两个段落文本,直到文档中的每个段落文本对应的段落层级信息都确定,段落层级关系用于确定段落文本对应的段落层级信息;根据每个段落文本对应的段落层级信息,构建文档中的每个段落文本对应的段落层级;根据文档中的每个段落文本对应的段落层级,生成已构建的文档。由此,本申请实施例通过将段落文本的格式信息以及语义信息输入段落层级解析模型,充分考虑段落间的语义信息,大大提升了段落层级的构建准确度,而且还减少了人工干预,提高了构建效率。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本发明保护的范围。
图1示出了本申请一个实施例提供的段落层级的构建方法的流程示意图;
图2示出了本申请另一个实施例提供的段落层级的构建方法的流程示意图;
图3示出了本申请另一个实施例提供的段落层级的构建方法的应用示意图;
图4示出了本申请一个实施例提供的段落层级解析模型的训练方法的流程示意图;
图5示出了本申请一个实施例提供的段落层级的构建装置的模块框图;
图6示出了本申请实施例用于执行根据本申请实施例的段落层级的构建方法的电子设备的结构框图;
图7示出了本申请实施例用于执行根据本申请实施例的段落层级的构建方法的计算机可读存储介质的模块框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。应当理解,此处描述的具体实施例仅用于解释本申请,并不用于限定本申请。
一个文档的文本结构构建得是否准确,对文档的语义理解以及信息提取有着至关重要的影响,如果一个文档使用不正确的段落层级结构,将会降低对文档进行语义理解和信息抽取的准确性。
随着大数据时代的发展,各领域的文档数量都在以难以估量的速度不断增多,不同文档中对段落层级结构的表述千变万化。目前,在对不具有清晰文本结构的文档进行段落划分时,仍然采用人工的方式来实现,使用格式信息划分段落层级结构的方法需要人力来制定格式信息规则,不仅需要投入大量的人力资源,并且人工制定的格式信息规则的鲁棒性差,覆盖范围不全,难以迁移复用到其他领域的文档中,对其他领域的文档进行段落划分。此外,上述方式还很难处理格式信息特征不强的文档。
基于上述分析,发明人研究了目前文档段落层级划分的困难点,更是综合考虑实际场景的使用需求,提出了本申请实施例的段落层级的构建方法、装置、电子设备及存储介质。
下面将通过具体实施例对本申请实施例提供的段落层级的构建方法、装置、电子设备及存储介质进行详细说明。
请参阅图1,本申请一个实施例提供了一种段落层级的构建方法,可应用于电子设备,其中,电子设备可以是服务器、PC、也可以是个人数字助理,还可以是其他的终端设备如平板电脑、手机等等,服务器可以是云端或传统服务器。下面将针对图1所示的流程进行详细的阐述,上述段落层级的构建方法具体地可以包括以下步骤:
步骤S101:获取待构建的文档中的任意两个段落文本。
其中,待构建的文档包括但不限于文本文档、代码文档、配置文档等各种可以使用结构化或非结构化技术存储的信息载体文件,例如保险文档、法律文书、合同文件、免责声明等。待构建的文档可以仅包括两个段落文本,也可以包括两个以上的段落文本,在此不作限定。
在一种实施方式中,获取的任意两个段落文本可以是相邻的,也可以是不相邻的,在此不做限定。
步骤S102:提取任意两个段落文本的语义信息以及格式信息。
其中,格式信息包括但不限于字体、字号、是否加粗、空格数、是否居中、序号等。例如提取到段落文本A的段尾包含冒号“:”、段落文本B的段首是序号,可以得到段落文本B是段落文本A的子段落的可能性参考,从而通过提取格式信息可以辅助判断两个段落文本之间的段落层级关系。由于单独使用格式信息进行判断的方法需要依赖于人工制定的模板,并且忽略了上下文的语义信息,而其中模板需要通过大量罗列格式特征之间存在的组合情况来制定的,且往往是按领域制定模板,不难看出此法需要大量耗费大量人力,制定的模板也难以复用迁移到其他领域(如针对保险文档制定的格式模板在用于构建法律文书的段落层级时正确率不高),且其对段落层级关系的判断准确性也难以得到保证,再者,对于格式信息不明显的文档,更是无法单纯利用格式信息来进行判断,因此,在一种实施方式中,本实施例还可直接使用通过现有工具即可提取的格式信息,免去人工编写模板的大量工作。
进一步地,本实施例除了提取格式信息外还从段落文本中提取语义信息,由于格式信息随任务的不同即文档所属领域的不同,一般存在较大差异,但即便是不同领域的文档,多数文档中段落文本之间的语义信息往往基于相似的逻辑,所以考虑语义信息对段落层级进行划分的方法可比较容易迁移复用到其他领域,因此,综合语义信息以及格式信息对段落文本之间的段落层级关系进行判断,不仅可提高判断准确率、降低人力成本,而且还提高了复用迁移性。
其中,语义信息可以通过从段落文本提取词向量得到,具体地,将每个词表示为一个向量,向量间存在语义信息,例如“国王”+“儿子”与“王后”+“公主”的相似度很高,这就是语义的一种表现,本实施例可以通过提取相似度高于预设阈值的词向量来提取段落文本之间的语义信息。进一步地,可以从段落文本中提取预设数量个词向量,也可以提取整个段落文本的词向量。
具体地,语料可以通过爬虫技术获得,通过爬虫技术获得大量语料,爬虫技术是一种自动获取网页内容的程序,通过爬虫技术从贴吧、社区、论坛、百科、新闻等来源中获取包含丰富语义信息的文本作为基础语料。可以理解的是,语料的选择会影响训练模型的好坏,也会影响词向量的提取,进而影响本实施例对语义信息的提取,因此在爬取基础语料前可以筛选语料的来源,在爬取基础语料后可对基础语料进行预处理。
进一步地,通过对基础语料进行预处理得到训练语料,其中预处理可包括但不限于过滤广告、低分回答等,繁体字转换为简体字,将标点符号去掉并用空格代替等。
在一些实施方式中,在预处理后,可以通过word2vec模型训练得到每个词的词向量,word2vec训练工具是一种神经网络模型,这种模型训练方法获得的词向量的语义信息是根据词的贡献来捕获的,并通过人工标注关键词向量,使得通过word2vec提取包含语义信息的词向量的准确度更高。在其他实施方式中,提取词向量的方式可以不限于word2vec,还可以是其它现有技术或将来出现的技术,例如Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)等。
步骤S103:将语义信息以及格式信息输入预先训练好的段落层级解析模型,以确定任意两个段落文本之间的段落层级关系,并返回执行获取待构建的文档中的任意两个段落文本,直到文档中的每个段落文本对应的段落层级信息都确定。
于本实施例中,段落层级关系用于确定段落文本对应的段落层级信息,段落层级关系可以包括但不限于父子关系,在一些实施方式中,段落层级关系还可包括无关系,即两个段落文本之间无关联。
其中,一个段落文本的段落层级信息可以包括该段落文本的父段落信息,即在该段落文本存在父段落时,通过段落层级信息至少可确定一个段落文本的父段落。具体地,例如段落文本B的段落层级信息包括“parent_A”,表征段落文本B的父段落为段落文本A。其中,段落文本的父段落信息可以是表征段落文本的父段落的段落标识,段落标识与段落文本一一对应,从而根据段落标识可以确定对应的段落文本。在一些实施方式中,为确定待构建的文档中段落文本之间的父子关系,段落层级信息可以只包括段落文本的父段落信息,而不必包括子段落信息,因为只要确定存在父段落的段落文本各自所对应的父段落,即可将父子关系中的父段落、子段落均确定,从而在确定待构建的文档中段落文本之间的父子关系时,仅需确定每个段落文本的父段落信息或子段落信息中的一种即可,降低了存储要求,也提高了处理效率。
另外,一个段落文本的段落层级信息还可以包括该段落文本的子段落信息。具体地,例如段落文本A的段落层级信息包括“child_B”,表征段落文本A的子段落为段落文本B。可以理解的是,根据段落层级信息可以确定段落文本在文档中与其他段落文本的段落层级关系,而对段落层级信息的形式,本实施例不作限定,可以是段落文本的子段落信息、也可以是段落文本的父段落信息、还可以为空(表征不存在与段落文本存在关联的其他段落文本)。
其中,段落层级解析模型用于根据任意两个段落文本的语义信息以及格式信息,确定该任意两个段落文本之间的段落层级关系。具体地,段落层级解析模型的输入特征信息包括段落文本的语义信息以及格式信息,段落文本的语义信息使用神经网络训练的语义向量表示,格式信息包括但不限于空格数、字体字号、序号、标点符号等。本实施例通过使用指定数量的标注好段落层级关系的样本来对段落层级解析模型进行训练,使得训练好的段落层级解析模型具备判断两两段落之间是否存在父子关系的能力,其中,指定数量的样本可以包括几千到上万个段落文本,也可以包括几十篇已标注段落层级的文档,如此数量的样本能够使训练得到的段落层级解析模型达到较佳的效果。需要说明的是,根据段落层级解析任务的难度系数可对训练样本的数量进行调整,如难度越高数量越高,使得段落层级解析模型的准确率可适应难度变化,提高系统可用性。
进一步地,在确定两个段落文本之间的段落层级关系后,从待构建的文档中获取用于下次段落层级解析的两个段落文本,其中新的两个段落文本与上次获取的两个段落文本不完全相同,即可以两个均不相同,也可以至多只有1个相同。提取新的两个段落文本的格式信息以及语义信息作为下次输入预先训练好的段落层级解析模型的输入信息,并确定新的两个段落文本之间的段落层级关系,直到文档中的每个段落文本对应的段落层级信息都确定。
具体地,例如要从如下的待构建的文档F1中构建段落层级关系,其中,待构建的文档F包括3个段落,分别为段落①、段落②、段落③(其中①、②及③仅为标识对应的段落以便于说明,实际并不存在于文档F中),具体如下:
“①免责条款如下文所示:(我们有义务向您明确说明本合同的免责条款,若您对免责条款有疑问可随时联系我们。)
②如果您提供了虚假的个人信息,或存在其它欺诈行为时,本合同终止,本公司免责;
③如果本合同被撤销、解除时,本公司免责;”
其中可使用的格式信息有字体、字号、是否加粗,标点符号、空格数等,这些信息可以辅助判断层级结构,例如,将上述三个段落文本两两输入段落层级解析模型,段落层级解析模型能够根据②③两段结尾的分号“;”和①段的冒号“:”得到②③有一定的概率是①的子段落,但并非具有前述格式的段落文本之间的段落层级关系就一定是父子关系。段落层级解析模型还可以计算②③段结尾的“本公司免责”与①段开头的“免责条款如下文所示”在语义上有层级的关联,因此综合考虑格式信息以及语义信息可以确定②③是①的子段落。
具体地,首先输入②③两段的段落文本,段落层级解析模型根据②③两段结尾的分号“;”,得到②③两段可能是并列段落,二者不存在父子关系,但并非结尾都是分号的段落文本之间就一定不是父子关系。段落层级解析模型还可提取②③两段的词向量,计算②③两段结尾的“本公司免责”在语义上具有较高相似度,因此综合考虑格式信息以及语义信息可以确定②③两段并不存在父子关系。进一步地,可以输入①②两段的段落文本,段落层级解析模型根据①结尾的冒号“:”以及②结尾的分号“;”,得到②有一定的概率是①的子段落,但并非具有前述格式的段落文本之间就一定是父子关系。段落层级解析模型还可提取①②两段的词向量,计算②结尾的“本公司免责”与①段开头的“免责条款如下文所示”在语义上有层级的关联,因此综合考虑格式信息以及语义信息可以确定②是①的子段落。同理还可将①③两段的段落文本输入段落层级解析模型确定③是①的子段落。
在一种实施方式中,训练时段落层级解析模型根据输入的信息,通过梯度下降调整网络内部超参数的策略来学习到如何对这些输入的信息统一打分衡量,从而优化段落层级解析模型,进一步提高模型判断段落层级关系的准确率。
步骤S104:根据每个段落文本对应的段落层级信息,构建文档中的每个段落文本对应的段落层级。
根据每个段落文本对应的段落层级信息,构建文档中的每个段落文本对应的段落层级,其中,段落层级可以是每个段落文本在文档中的段落层级。具体地例如,在一种实施方式中,待构建的文档中包含段落文本A、段落文本B以及段落文本C,通过段落层级解析模型确定段落文本A至段落文本C的段落层级信息,分别为段落层级A无父段落,段落层级B的父段落是段落文本A、段落文本A的父段落是段落文本C,基于前述每个段落文本的段落层级信息,可将段落层级C标记为一级段落如“class1”,段落层级A标记为二级段落且为段落层级C的二级段落如“class2_C”,段落层级B标记为三级段落且为段落层级A的三级段落如“class3_A”,从而构建出文档中的每个段落文本对应的段落层级。
步骤S105:根据文档中的每个段落文本对应的段落层级,生成已构建的文档。
其中,根据文档中的每个段落文本对应的段落层级,可以获知每个段落文本对应的段落层级及其父段落,并据此准确生成已构建的文档,使得已构建的文档中每个段落文本的段落层级明确,从而有利于提高对文档语义理解和信息抽取的准确性。
本实施例提供的段落层级的构建方法,通过获取待构建的文档中的任意两个段落文本;提取任意两个段落文本的语义信息以及格式信息;将语义信息以及格式信息输入预先训练好的段落层级解析模型,以确定任意两个段落文本之间的段落层级关系,并返回执行获取待构建的文档中的任意两个段落文本,直到文档中的每个段落文本对应的段落层级信息都确定,段落层级关系用于确定段落文本对应的段落层级信息;根据每个段落文本对应的段落层级信息,构建文档中的每个段落文本对应的段落层级;根据文档中的每个段落文本对应的段落层级,生成已构建的文档。由此,本申请实施例通过将段落文本的格式信息以及语义信息输入段落层级解析模型,充分考虑段落间的语义信息,大大提升了段落层级的构建准确度,而且还减少了人工干预,提高了构建效率。
请参阅图2,本申请另一个实施例提供了一种段落层级的构建方法,可应用于上述电子设备。下面将针对图2所示的流程进行详细的阐述,上述段落层级的构建方法具体地可以包括以下步骤:
步骤S201:判断待构建段落队列中是否存在段落文本。
其中,待构建段落队列用于存放待构建的文档中的段落文本,以管理需要判断段落层级关系的段落。具体地,待构建段落队列可以存放一个或多个段落文本,以用于输入段落层级解析模型,确定对应的段落层级关系。
在一种实施方式中,待构建段落队列可以是堆栈,即可以使用堆栈来管理需要判断段落层级关系的段落,将要判断段落层级关系的段落文本添加至堆栈里。具体地,堆栈是在存储器中开辟的一片数据存储区,这片存储区的一端固定,另一端活动,且只允许数据从活动端进出。通常将堆栈的活动端称为栈顶,固定端称为栈底。存储器的任何可用部分(只读存储器除外)均可被用来作为堆栈,本实施例对堆栈在存储器的位置不作限定。因为栈顶是活动端,所以需要有指针指示栈顶位置,该指针为堆栈指针,总指向堆栈的栈顶。往堆栈存入或从堆栈取出数据,一般通过指针从栈顶存取。当将一个字节推入堆栈时,堆栈指针自动减1,指向新的栈顶;当将一个字节弹出堆栈时,堆栈指针自动加1,指向新的栈顶。若堆栈中无数据,堆栈的栈底与栈顶重叠,是一个空栈,根据堆栈指针可判断堆栈是否存在数据,从而判断待构建段落队列中是否存在段落文本,若堆栈中不存在数据,则对应待构建段落队列中不存在段落文本,否则存在段落文本。
本实施例通过判断待构建段落队列中是否存在段落文本,可确定如何添加段落文本至待构建段落队列中,具体地,于本实施例中,判断待构建段落队列中是否存在段落文本之后,可以包括:
若待构建段落队列中不存在段落文本,可以执行步骤S203;
若待构建段落队列中存在段落文本,可以执行步骤S202。
步骤S202:根据预设顺序从文档中获取新的段落文本,并写入待构建段落队列中。
若待构建段落队列中存在段落文本,可以根据预设顺序从文档中获取新的段落文本,并写入待构建段落队列中,以从中获取段落文本输入段落层级解析模型。
在一些实施方式中,预设顺序为由后往前的顺序,即从待构建的文档中的最后一段开始,由后往前获取段落文本写入待构建段落队列中。具体地,例如待构建段落队列为堆栈,则将待构建的文档中的段落文本由后往前地添加至堆栈里。由此,可以由后往前地逐个确定段落文本的段落层级信息,方便地构建对应的段落层级。
在其他一些实施方式中,预设顺序也可以为任意顺序,只要每次从待构建的文档中不重复地获取新的段落文本写入待构建段落队列中,本实施例对此不作更多限定。
步骤S203:将文档中的相邻两个段落文本写入待构建段落队列中。
若待构建段落队列中不存在段落文本,可以将文档中的相邻两个段落文本写入待构建段落队列中。在一些实施方式中,可以按由后往前的顺序,从文档中最后一段开始由前往后地获取相邻两个段落文本写入待构建段落队列中,即首次获取的是文档中末尾两个段落的段落文本,且先写入最后一段的段落文本,再下入最后一段的前一段的段落文本,作为一种方式,在待构建段落队列为堆栈时,可先将最后一段的段落文本添加至堆栈,再将最后一段的前一段的段落文本添加至堆栈。例如文档有且仅有3个段落,由前往后分别为段落1、段落2及段落3,此时可以先添加段落3至堆栈中,再添加段落1至堆栈中。具体地,每个段落文本对应一个段落标识,根据段落标识,可通过寻址查找到对应的段落文本,以获取该段落标识对应的段落文本,由于堆栈的存储容量有限,可在堆栈中仅存储段落文本的段落标识,通过从堆栈中获取段落标识,可获取对应的段落文本。
步骤S204:从待构建段落队列中获取任意两个段落文本。
在一种实施方式中,待构建段落队列为堆栈,从待构建段落队列中获取任意两个段落文本,作为一种方式,从栈顶开始获取堆栈中的两个段落文本,以输入段落层级解析模型,用于确定两个段落文本之间的段落层级关系。
在其他实施方式中,还可以任意地从待构建段落队列中获取两个段落文本,以输入段落层级解析模型。
步骤S205:提取任意两个段落文本的语义信息以及格式信息。
由于段落间的语义信息往往集中在段落文本的段首区域和/或段尾区域的部分词中(例如可参考上述待构建的文档F),因此从段落文本的段首区域和/或段尾区域中提取一定数量词对应的词向量,可提高语义信息的提取效率。其中,从段首区域和/或段尾区域中提取的词向量的数量可以是1个、2个、5个等,在此不作限定,具体可根据文档特性进行调整,可以理解的是,提取的词向量的数量越多,提取越慢但可减少对有效的词向量的遗漏,越少则越快但可能遗漏有效的词向量。
具体地,以上述待构建的文档F1为例进行说明,待构建的文档F包括3个段落,分别为段落①、段落②、段落③,具体如下:
“①免责条款如下文所示:(我们有义务向您明确说明本合同的免责条款,若您对免责条款有疑问可随时联系我们。)
②如果您提供了虚假的个人信息,或存在其它欺诈行为时,本合同终止,本公司免责;
③如果本合同被撤销、解除时,本公司免责;”
在一种实施方式中,可分别从任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息以及格式信息,例如通过获取位于段落①段首区域的“免责条款”、段尾区域的“如下文所示”、冒号“:”,获取位于段落的段首区域的“如果”,段尾区域的“本公司免责”、分号“;”,以输入段落层级解析模型,得到段落①与段落②之间是父子关系的分数,判断这个分数是否高于预设阈值,若高于,则认为段落①是段落②的父段落。同理还可获取位于段落①与段落③的段首区域以及段尾区域的语义信息以及格式信息,在此不再赘述。
在另一种实施方式中,还可分别从任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息、且从任意两个段落文本中的前一段落文本的段尾区域以及后一段落文本的段首区域,提取格式信息。即与上述实施方式相比,提取语义信息的方式大致相同,仅提取格式信息的方式有所不同,不同之处在于,本实施方式可仅获取前一段落的段首区域与后一段落文本的段首区域。具体地,例如,在如下待构建的文档F2中,
“①免责条款如下文所示:
②(1)如果您提供了虚假的个人信息,或存在其它欺诈行为时,本合同终止,本公司免责;
③(2)如果本合同被撤销、解除时,本公司免责;”,从文档F2中提取格式信息时,可获取位于段落①的段尾区域的冒号“:”,获取位于段落②的格式信息“(1)”,通过将前述格式信息与格式信息输入段落层级解析模型,可获取,。由于两个段落文本中的前一段落文本的段尾区域以及后一段落文本的段首区域往往已存在一定的层级关系,因此通过在提取格式信息时,仅从任意两个段落文本中的前一段落文本的段尾区域以及后一段落文本的段首区域,提取格式信息,仍可提取出有效的格式信息,而且在此基础上可减小提取的数据量,进而减小输入段落层级解析模型的数据量,不仅提高了特征提取效率,还可减小模型运算量,提高模型处理效率。
步骤S206:将语义信息以及格式信息输入预先训练好的段落层级解析模型。
其中,段落层级解析模型用于根据任意两个段落文本的语义信息以及格式信息,确定该任意两个段落文本之间的段落层级关系。具体地,段落层级解析模型的输入特征信息包括段落文本的语义信息以及格式信息,段落文本的语义信息使用神经网络训练的语义向量表示,格式信息包括但不限于空格数、字体字号、序号、标点符号等。
在一种实施方式中,段落层级解析模型可以采用多层神经网络分类器(Multilayer Perceptron Classifier,MLPC),具体地,多层神经网络分类器可包括但不限于全连接网络、卷积神经网络、循环神经网络等,在此不作限定。
其中,多层神经网络分类器是一个基于前馈神经网络的分类器,它是一种在输入层与输出层之间含有一层或多层隐含节点的具有正向传播机制的神经网络模型。中间节点可以使用Sigmoid函数,输出层的节点使用Softmax函数,输出层的节点的数目表示分类器有几类,本实施例对输出层的节点数目不作限定。
具体地例如,段落层级解析模型的输入为从第一段落文本以及第二段落文本中提取的语义信息以及格式信息,从待构建段落队列中获取的两个段落文本分别作为第一段落文本、第二段落文本,经特征提取后得到语义信息以及格式信息,输入至段落层级解析模型。在一种实施方式中,输出层的节点可以有2类,具体地例如,其中1类表征输入的段落文本之间存在父子关系,另一类表征输入的段落文本之间不存在父子关系。
在另一种实施方式中,输出层的节点可以有3类,第1类表征第一段落文本是第二段落文本的父段落,第2类表征第二段落文本是第一段落文本的父段落,第3类表征第一段落文本与第二段落文本。
在其他实施方式中,输出层的节点还可以有其他更多数量的类,根据分类器的分类数量而定,在此不作限定。
步骤S207:判断所确定的段落层级关系中是否存在父子关系。
本实施例中,判断所确定的段落层级关系中是否存在父子关系之后,可以包括:
若所确定的段落层级关系中存在父子关系,可以执行步骤S208,并执行递归操作;
若所确定的段落层级关系中不存在父子关系,可以执行递归操作。
在一种实施方式中,递归操作为返回执行步骤S203,直到所述文档中的每个段落文本对应的段落层级信息都确定,即递归操作可以为返回执行根据预设顺序从文档中获取新的段落文本,并写入待构建段落队列中,直到文档中的每个段落文本对应的段落层级信息都确定。
步骤S208:将属于父子关系的两个段落文本中的子段落移出待构建段落队列。
若所确定的段落层级关系中存在父子关系,将属于父子关系的两个段落文本中的子段落移出待构建段落队列,并执行递归操作。进一步地,直到文档中的每个段落文本对应的段落层级信息都确定后,根据文档中的每个段落文本对应的段落层级,生成已构建的文档。
具体地,例如,待构建段落队列为堆栈,即使用堆栈来管理需要构建段落层级的文档的段落文本,将段落文本由后往前地添加至堆栈里,并使用段落层级解析模型比较堆栈栈顶的两个段落文本是否存在父子关系,若存在,则将属于父子关系的两个段落文本中的子段落移出堆栈,并确定该子段落的段落层级信息,如段落层级信息可包括“parent_1”,指代该段落的父段落为段落1。
进一步地,若需要判断段落1、段落2、段落3、段落4、段落5的层级结构,按照由后往前的顺序即从段落5到段落1的顺序判断是否存在父子关系,并假设5个段落之间的段落层级如图3所示。本实施例依次由下而上地,先将段落5的段落标识放入堆栈,再将段落4的段落标识放入堆栈,通过提取各自的格式信息以及语义信息并输入至段落层级解析模型,可判断出段落5为段落4的子段落,然后从堆栈中移除作为子段落的段落5;继续将段落3放入堆栈,通过段落层级解析模型判断出段落4不是段落3的子段落;再将段落2放入堆栈,通过段落层级解析模型判断出段落3是段落2的子段落,并将段落3从堆栈中移除;最后将段落1也放入堆栈,通过段落层级解析模型判断出段落2是段落1的子段落,将段落2从堆栈中移除;此时已无新的段落文本可放入堆栈,段落层级模型继续判断出堆栈中仅剩的段落4是段落1的子段落。如此就确定了每个段落文本对应的段落层级信息,从而根据每个段落文本对应的段落层级信息,构建每个段落文本的段落层级,即在本例中构建出段落1到段落5的每一级段落层级。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
进一步地,在一种实施方式中,请参阅图4,图4示出了本申请一个实施例提供的段落层级解析模型的训练方法的流程示意图,具体地可以包括以下步骤:
步骤S410:获取训练样本集合。
其中,训练样本集合包括第一样本段落文本、第二样本段落文本以及第一样本段落文本与第二样本段落文本之间的段落层级关系。具体地,样本集合的数量可以是几千条,也可以是上万条,作为一种方式,可以获取已标注段落层级信息的文档,文档数量可以是几十篇,采用如此数量级的训练样本集合对模型进行训练可达到不错的效果。需要说明的是,训练样本集合的数据量可根据任务的难度进行调整,例如难度高时对应的训练样本集合的数据量也相对较高。
其中,文档可以是pdf、doc格式的文档,文档的格式信息可以是通过目前已有的工具得到,从而无需人工指定规则,即无需人工编写模板、无需人工根据格式信息的排列组合形式来指定段落的段落层级结构,人工编写模板不仅需要耗费大量的人力,而且对编写的模板质量要求也很高,很难复用、迁移到新的领域中。因此,在一种实施方式中,本实施例直接采用现有工具能够提取的格式信息,基于现有模板对段落文本进行特征提取,提取其中的格式信息,从而减少了人工干预,避免人工指定规则的繁琐工作。并且除了格式信息,本实施例还提取段落文本之间的语义信息,由于格式信息随任务的不同即文档所属领域的不同,一般存在较大差异,但即便是不同领域的文档,多数文档中段落文本之间的语义信息往往基于相似的逻辑,所以考虑语义信息对段落层级进行划分的方法可比较容易迁移复用到其他领域,因此可综合考虑语义信息以及格式信息,使得基于语义信息以及格式信息训练出来的段落层级解析模型的可迁移性得到提高,降低了新建任务的成本和时间
步骤S420:将第一样本段落文本与第二样本段落文本作为段落层级解析模型的输入,将第一样本段落文本与第二样本段落文本之间的段落层级关系作为段落层级解析模型的期望输出,基于机器学习算法训练得到预先训练好的段落层级解析模型。
将第一样本段落文本与第二样本段落文本输入段落层级解析模型前,需通过特征提取,提取第一样本段落文本与第二样本段落文本的格式信息以及语义信息,将格式信息以及语义信息输入段落层级解析模型,以判断第一样本段落文本与第二样本段落文本之间的段落层级关系。
在一种实施方式中,段落层级解析模型基于多层神经网络分类器构建而得,对段落层级解析模型的训练过程为有监督训练过程,需要使用预设数量的数据来训练,使得段落层级解析模型具备判断两两段落文本之间是否存在父子关系的能力。经过指定数量的样本训练的段落层级解析模型不仅在当前任务中具备较高的分类准确性,对两两段落文本之间的是否存在父子关系的判断准确性,而且只需通过少量的其他任务的数据再训练就能迁移到其他任务或其他领域中。
例如,若已经训练了一个用于对法律法规任务的相关文档进行段落层级构建的段落层级解析模型,而现在需要对大量的保险文档构建段落层级,由于保险文档与法律法规任务之间存在相似点,但也存在较大差异,因此使用本实施例提供的段落层级的构建方法,只需少量保险文档作为训练样本即可将用于法律法规任务的段落层级解析模型迁移到保险文档的段落层级解析任务中,从而大大提升了工作效率。
作为一种方式,训练时段落层级解析模型根据模型的输入,通过梯度下降调整网络内部超参数的策略来学习到如何对模型的输入统一打分衡量。具体地,基于多层神经网络模型,首先将第一样本段落文本与第二样本段落文本作为初始多层神经网络模型的输入,将第一样本段落文本与第二样本段落文本之间的段落层级关系作为初始多层神经网络模型的期望输出,对初始多层神经网络模型进行训练,得到与第一样本段落文本及第二样本段落文本对应的段落层级关系。接着,基于预设损失函数,确定预设损失函数的损失值是否达到预设目标值。一方面,在响应于确定预设损失函数的损失值达到预设目标值时,可以确定初始多层神经网络模型训练完成,并将训练完成的初始多层神经网络模型确定为预先训练好的段落层级解析模型。其中,预设损失函数可以用于表征预测段落层级关系与第一样本段落文本及第二样本段落文本之间的差异。另一方面,在响应于确定预设损失函数的损失值未达到预设目标值时,调整初始多层神经网络模型的参数,以及从上述训练样本集合中重新选取样本,将调整后的初始多层神经网络模型作为初始多层神经网络模型,继续执行上述训练步骤,直至预设损失函数的损失值达到预设目标值。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
本实施例提供的段落层级的构建方法,在前述实施例的基础上,利用堆栈管理需要判断段落层级关系的段落,将段落文本由后往前地添加到堆栈里,并通过段落层级解析模型比较两个段落文本之间是否存在父子关系,并在存在父子关系时将子段落从堆栈中移除,并确定子段落对应的段落层级信息,依此类推对所有段落文本间建立层级关系,直到每个段落文本的段落层级信息都确定,根据确定的段落层级信息生成已构建的文档。由此不仅充分考虑段落文本之间的语义信息,使得文档构建段落层级结构的准确度有了很大提升,而且通过采用现有的模板提取格式信息,而不用耗费大量人力资源去标注或构建格式模板,减少了人工干预,利用数据驱动,避免人工制定规则的繁琐工作。并且本实施例提供的段落层级的构建方法可迁移性强,只需少量数据即可实现段落层级解析模型在不同任务间的迁移,降低了新建任务的成本和时间。
应该理解的是,虽然图1、图2以及图4的流程示意图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2以及图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图5,图5示出了本申请一个实施例提供的一种段落层级的构建装置的模块框图。下面将针对图5所示的模块框图进行阐述,所述段落层级的构建装置500包括:文本获取模块510、信息提取模块520、层级确定模块530、层级构建模块540以及文档生成模块550,其中:
文本获取模块510,用于获取待构建的文档中的任意两个段落文本。
信息提取模块520,用于提取任意两个段落文本的语义信息以及格式信息。
层级确定模块530,用于将语义信息以及格式信息输入预先训练好的段落层级解析模型,以确定任意两个段落文本之间的段落层级关系,并返回执行获取待构建的文档中的任意两个段落文本,直到文档中的每个段落文本对应的段落层级信息都确定,段落层级关系用于确定段落文本对应的段落层级信息。
层级构建模块540,用于根据每个段落文本对应的段落层级信息,构建文档中的每个段落文本对应的段落层级.
文档生成模块550,用于根据文档中的每个段落文本对应的段落层级,生成已构建的文档。
进一步地,所述文本获取模块510包括:文本判断单元、第一写入单元、第二写入单元以及文本获取单元,其中:
文本判断单元,用于判断待构建段落队列中是否存在段落文本,所述待构建段落队列用于存放所述待构建的文档中的段落文本。
第一写入单元,用于若所述待构建段落队列中不存在段落文本,将所述文档中的相邻两个段落文本写入待构建段落队列中。
第二写入单元,用于若所述待构建段落队列中存在段落文本,根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中。
文本获取单元,用于从待构建段落队列中获取任意两个段落文本。
在一种实施方式中,所述预设顺序为由后往前的顺序。
进一步地,所述信息提取模块520包括:第一提取单元以及第二提取单元,其中:
第一提取单元,用于分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息以及格式信息;或
第二提取单元,用于分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息、且从所述任意两个段落文本中的前一段落文本的段尾区域以及后一段落文本的段首区域,提取格式信息。
进一步地,所述层级确定模块530包括:信息输入单元、第一递归单元以及第二递归单元,其中:
信息输入单元,用于将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,判断所确定的段落层级关系中是否存在父子关系。
第一递归单元,用于若所确定的段落层级关系中存在父子关系,将属于父子关系的两个段落文本中的子段落移出所述待构建段落队列,并执行递归操作。
第二递归单元,用于若所确定的段落层级关系中不存在父子关系,执行递归操作。
在一种实施方式中,所述递归操作为返回执行根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中,直到所述文档中的每个段落文本对应的段落层级信息都确定。
进一步地,所述段落层级的构建装置500还包括:样本获取模块以及样本训练模块,其中:
样本获取模块,用于获取训练样本集合,所述训练样本集合包括第一样本段落文本、第二样本段落文本以及所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系。
样本训练模块,用于将所述第一样本段落文本与所述第二样本段落文本作为所述段落层级解析模型的输入,将所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系作为所述段落层级解析模型的期望输出,基于机器学习算法训练得到所述预先训练好的段落层级解析模型。
在一种实施方式中,所述段落层级解析模型包括多层神经网络分类器。
本申请实施例提供的段落层级的构建装置用于实现前述方法实施例中相应的段落层级的构建方法,并具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的技术人员可以清楚地了解到,本申请实施例提供的段落层级的构建装置能够实现图1到图5的方法实施例中的各个过程,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图6,其示出了本申请实施例提供的一种电子设备的结构框图。本申请中的电子设备600可以包括一个或多个如下部件:处理器610、存储器620以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器620中并被配置为由一个或多个处理器610执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。本实施例中,电子设备可以是手机、平板、电脑、可穿戴式设备等能够运行应用程序的电子设备,还可以是服务器,具体实施方式可参见上述方法实施例所描述的方法。
处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个电子设备600内的各个部分,通过运行或执行存储在存储器620内的指令、程序、代码集或指令集,以及调用存储在存储器620内的数据,执行电子设备600的各种功能和处理数据。可选地,处理器610可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器610中,单独通过一块通信芯片进行实现。
存储器620可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备600在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
进一步地,电子设备600还可以包括显示屏,所述显示屏可以为液晶显示屏(Liquid Crystal Display,LCD),可以为有机发光二极管(Organic Light-EmittingDiode,OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图6中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
请参阅图7,其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质700中存储有程序代码710,所述程序代码710可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质700包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是智能网关,手机,计算机,服务器,空调器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请各实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护范围之内。
Claims (10)
1.一种段落层级的构建方法,其特征在于,所述方法包括:
获取待构建的文档中的任意两个段落文本;
提取所述任意两个段落文本的语义信息以及格式信息;
将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,以确定所述任意两个段落文本之间的段落层级关系,并返回执行所述获取待构建的文档中的任意两个段落文本,直到所述文档中的每个段落文本对应的段落层级信息都确定,所述段落层级关系用于确定段落文本对应的段落层级信息;
根据所述每个段落文本对应的段落层级信息,构建所述文档中的每个段落文本对应的段落层级;
根据所述文档中的每个段落文本对应的段落层级,生成已构建的文档。
2.根据权利要求1所述的方法,其特征在于,所述获取待构建的文档中的任意两个段落文本,包括:
判断待构建段落队列中是否存在段落文本,所述待构建段落队列用于存放所述待构建的文档中的段落文本;
若所述待构建段落队列中不存在段落文本,将所述文档中的相邻两个段落文本写入待构建段落队列中;
若所述待构建段落队列中存在段落文本,根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中;
从待构建段落队列中获取任意两个段落文本。
3.根据权利要求2所述的方法,其特征在于,所述预设顺序为由后往前的顺序。
4.根据权利要求2所述的方法,其特征在于,所述提取所述任意两个段落文本的语义信息以及格式信息,包括:
分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息以及格式信息;或
分别从所述任意两个段落文本中每个段落文本的段首区域与段尾区域中,提取语义信息、且从所述任意两个段落文本中的前一段落文本的段尾区域以及后一段落文本的段首区域,提取格式信息。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,以确定所述任意两个段落文本之间的段落层级关系,并返回执行所述获取待构建的文档中的任意两个段落文本,直到所述文档中的每个段落文本对应的段落层级信息都确定,包括:
将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,判断所确定的段落层级关系中是否存在父子关系;
若所确定的段落层级关系中存在父子关系,将属于父子关系的两个段落文本中的子段落移出所述待构建段落队列,并执行递归操作;
若所确定的段落层级关系中不存在父子关系,执行递归操作;
其中,所述递归操作为返回执行根据预设顺序从所述文档中获取新的段落文本,并写入所述待构建段落队列中,直到所述文档中的每个段落文本对应的段落层级信息都确定。
6.根据权利要求1所述的方法,其特征在于,所述预先训练好的段落层级解析模型通过如下步骤训练得到:
获取训练样本集合,所述训练样本集合包括第一样本段落文本、第二样本段落文本以及所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系;
将所述第一样本段落文本与所述第二样本段落文本作为所述段落层级解析模型的输入,将所述第一样本段落文本与所述第二样本段落文本之间的段落层级关系作为所述段落层级解析模型的期望输出,基于机器学习算法训练得到所述预先训练好的段落层级解析模型。
7.根据权利要求1所述的方法,其特征在于,所述段落层级解析模型包括多层神经网络分类器。
8.一种段落层级的构建装置,其特征在于,所述装置包括:
文本获取模块,用于获取待构建的文档中的任意两个段落文本;
信息提取模块,用于提取所述任意两个段落文本的语义信息以及格式信息;
层级确定模块,用于将所述语义信息以及所述格式信息输入预先训练好的段落层级解析模型,以确定所述任意两个段落文本之间的段落层级关系,并返回执行所述获取待构建的文档中的任意两个段落文本,直到所述文档中的每个段落文本对应的段落层级信息都确定,所述段落层级关系用于确定段落文本对应的段落层级信息;
层级构建模块,用于根据所述每个段落文本对应的段落层级信息,构建所述文档中的每个段落文本对应的段落层级;
文档生成模块,用于根据所述文档中的每个段落文本对应的段落层级,生成已构建的文档。
9.一种电子设备,其特征在于,包括:
存储器;
一个或多个处理器,与所述存储器耦接;
一个或多个程序,其中,所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910642091.1A CN110427614B (zh) | 2019-07-16 | 2019-07-16 | 段落层级的构建方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910642091.1A CN110427614B (zh) | 2019-07-16 | 2019-07-16 | 段落层级的构建方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427614A true CN110427614A (zh) | 2019-11-08 |
CN110427614B CN110427614B (zh) | 2023-08-08 |
Family
ID=68409746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910642091.1A Active CN110427614B (zh) | 2019-07-16 | 2019-07-16 | 段落层级的构建方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427614B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079641A (zh) * | 2019-12-13 | 2020-04-28 | 科大讯飞股份有限公司 | 作答内容识别方法、相关设备及可读存储介质 |
CN111259663A (zh) * | 2020-01-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111382269A (zh) * | 2020-03-02 | 2020-07-07 | 拉扎斯网络科技(上海)有限公司 | 文本分类模型训练方法、文本分类方法及相关装置 |
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN115130435A (zh) * | 2022-06-27 | 2022-09-30 | 北京百度网讯科技有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN117034948A (zh) * | 2023-08-03 | 2023-11-10 | 合肥大智慧财汇数据科技有限公司 | 基于多特征自适应融合的段落识别方法、系统及存储介质 |
CN117436429A (zh) * | 2023-12-22 | 2024-01-23 | 珠海格力电器股份有限公司 | 文档导出方法、装置、计算机设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007164705A (ja) * | 2005-12-16 | 2007-06-28 | S Ten Nine Kyoto:Kk | 電子化文書の変換方法及びプログラム |
CN106126734A (zh) * | 2016-07-04 | 2016-11-16 | 北京奇艺世纪科技有限公司 | 文档的分类方法和装置 |
CN107145479A (zh) * | 2017-05-04 | 2017-09-08 | 北京文因互联科技有限公司 | 基于文本语义的篇章结构分析方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN109657221A (zh) * | 2018-12-13 | 2019-04-19 | 北京金山数字娱乐科技有限公司 | 一种文档段落排序方法、排序装置、电子设备及存储介质 |
CN109697291A (zh) * | 2018-12-29 | 2019-04-30 | 北京百度网讯科技有限公司 | 文本的语义段落识别方法和装置 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN109977366A (zh) * | 2017-12-27 | 2019-07-05 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
-
2019
- 2019-07-16 CN CN201910642091.1A patent/CN110427614B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007164705A (ja) * | 2005-12-16 | 2007-06-28 | S Ten Nine Kyoto:Kk | 電子化文書の変換方法及びプログラム |
CN106126734A (zh) * | 2016-07-04 | 2016-11-16 | 北京奇艺世纪科技有限公司 | 文档的分类方法和装置 |
CN107145479A (zh) * | 2017-05-04 | 2017-09-08 | 北京文因互联科技有限公司 | 基于文本语义的篇章结构分析方法 |
CN107992596A (zh) * | 2017-12-12 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种文本聚类方法、装置、服务器和存储介质 |
CN109977366A (zh) * | 2017-12-27 | 2019-07-05 | 珠海金山办公软件有限公司 | 一种目录生成方法及装置 |
CN109657221A (zh) * | 2018-12-13 | 2019-04-19 | 北京金山数字娱乐科技有限公司 | 一种文档段落排序方法、排序装置、电子设备及存储介质 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN109697291A (zh) * | 2018-12-29 | 2019-04-30 | 北京百度网讯科技有限公司 | 文本的语义段落识别方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079641A (zh) * | 2019-12-13 | 2020-04-28 | 科大讯飞股份有限公司 | 作答内容识别方法、相关设备及可读存储介质 |
CN111079641B (zh) * | 2019-12-13 | 2024-04-16 | 科大讯飞股份有限公司 | 作答内容识别方法、相关设备及可读存储介质 |
US11775776B2 (en) | 2020-01-14 | 2023-10-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing information |
CN111259663A (zh) * | 2020-01-14 | 2020-06-09 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111259663B (zh) * | 2020-01-14 | 2023-05-26 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111382269A (zh) * | 2020-03-02 | 2020-07-07 | 拉扎斯网络科技(上海)有限公司 | 文本分类模型训练方法、文本分类方法及相关装置 |
CN111382269B (zh) * | 2020-03-02 | 2021-07-23 | 拉扎斯网络科技(上海)有限公司 | 文本分类模型训练方法、文本分类方法及相关装置 |
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN115130435B (zh) * | 2022-06-27 | 2023-08-11 | 北京百度网讯科技有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN115130435A (zh) * | 2022-06-27 | 2022-09-30 | 北京百度网讯科技有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN117034948A (zh) * | 2023-08-03 | 2023-11-10 | 合肥大智慧财汇数据科技有限公司 | 基于多特征自适应融合的段落识别方法、系统及存储介质 |
CN117034948B (zh) * | 2023-08-03 | 2024-02-13 | 合肥大智慧财汇数据科技有限公司 | 基于多特征自适应融合的段落识别方法、系统及存储介质 |
CN117436429A (zh) * | 2023-12-22 | 2024-01-23 | 珠海格力电器股份有限公司 | 文档导出方法、装置、计算机设备和存储介质 |
CN117436429B (zh) * | 2023-12-22 | 2024-05-17 | 珠海格力电器股份有限公司 | 文档导出方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110427614B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hui et al. | Linguistic structure guided context modeling for referring image segmentation | |
CN110427614A (zh) | 段落层级的构建方法、装置、电子设备及存储介质 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN111291181B (zh) | 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习 | |
US10740678B2 (en) | Concept hierarchies | |
US10496749B2 (en) | Unified semantics-focused language processing and zero base knowledge building system | |
Van Ham et al. | Mapping text with phrase nets | |
CN110347894A (zh) | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 | |
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
US20160350288A1 (en) | Multilingual embeddings for natural language processing | |
WO2023108993A1 (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
Wang et al. | Neural aesthetic image reviewer | |
CN109446328A (zh) | 一种文本识别方法、装置及其存储介质 | |
CN106886580A (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN112417172B (zh) | 一种多模态情绪知识图谱的构建及展示方法 | |
Arumugam et al. | Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications | |
KR20200009117A (ko) | 텍스트 데이터 수집 및 분석을 위한 시스템 | |
WO2021207422A1 (en) | Generating cascaded text formatting for electronic documents and displays | |
CN110196945A (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN111444725B (zh) | 语句的生成方法、装置、存储介质和电子装置 | |
Kaluarachchi et al. | A systematic literature review on automatic website generation | |
CN111008267B (zh) | 智能对话方法及相关设备 | |
CN112818212A (zh) | 语料数据采集方法、装置、计算机设备和存储介质 | |
CN110069686A (zh) | 用户行为分析方法、装置、计算机装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |