CN109670162A

CN109670162A - 标题的确定方法、装置及终端设备

Info

Publication number: CN109670162A
Application number: CN201710954406.7A
Authority: CN
Inventors: 王丹; 殷延伟; 王怡然
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2019-04-23

Abstract

本申请提供一种标题的确定方法、装置及终端设备，该方法包括：获取目标原文件；根据目标原文件，获取目标原文件中目标段落的段落特征信息，段落特征信息包括多个特征字段及各特征字段对应的值；根据目标段落的段落特征信息，采用分类算法确定目标段落是否为标题段落以及标题等级。实现了自动对各式各样的标题的自动提取，提高了提取文章标题的效率和准确性，解决了现有技术中基于穷举有限的通配符进行匹配查找来确定文章标题，效率较低、且通配符的限制导致一些新的标题样式不能匹配到的问题。

Description

标题的确定方法、装置及终端设备

技术领域

本申请涉及排版技术领域，尤其涉及一种标题的确定方法、装置及终端设备。

背景技术

随着排版技术的不断发展，人们对智能化自动化排版的需求愈加强烈。当前，期刊杂志等出版需求众多，而不同的期刊杂志文章标题格式各样，排版时，需要将非结构化的文件(比如word格式的文件)转换为结构化的XML文件。

现有技术中，对于文章各级标题的识别是基于穷举有限的通配符进行匹配查找的技术，但是面临众多期刊杂志文章标题各式各样，无限制增加通配符匹配查找新出现的标题样式不能从根本上解决此类问题。因此，如何能准确有效地提取文章标题成为亟需解决的技术问题。

发明内容

本申请提供一种标题的确定方法、装置及终端设备，以解决现有技术基于穷举有限的通配符进行匹配查找来确定文章标题，效率较低、且通配符的限制导致一些新的标题样式不能匹配到等缺陷。

本申请第一个方面提供一种标题的确定方法，包括：

获取目标原文件；

根据所述目标原文件，获取所述目标原文件中每个段落的段落特征信息，所述段落特征信息包括多个特征字段及各特征字段对应的值；

根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及所述标题段落的标题等级。

根据如上所述的方法，可选地，

所述根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及所述标题段落的标题等级，包括：

根据目标原文件中各段落的段落特征信息以及预设规则，计算获得各段落的各特征字段对应的代表值；

根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及所述标题段落的标题等级。

根据如上所述的方法，可选地，

所述根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及所述标题段落的标题等级，包括：

根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及所述标题段落的标题等级。

根据如上所述的方法，可选地，

在获取目标原文件之前，所述方法还包括：

获取多个原文件中的标题段落特征信息以及各标题段落的标题等级；

采用所述多个原文件中的标题段落特征信息以及各标题段落的标题等级，训练贝叶斯分类模型，获得所述训练好的贝叶斯分类模型。

根据如上所述的方法，可选地，

所述根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及所述标题段落的标题等级，包括：

将每个段落的各特征字段对应的代表值与对应预设特征权重值相乘，获得每个段落的各特征字段对应的乘积值；

分别将各段落的各特征字段对应的乘积值相加，获得各段落的待判定值；

根据训练贝叶斯分类模型获得的经验等级范围，确定出标题段落以及所述标题段落的标题等级。

根据如上所述的方法，可选地，

在根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及所述标题段落的标题等级之后，所述方法还包括：

根据预设等级规则，采用递归算法验证对所述目标原文件中标题段落以及所述标题段落的标题等级的确定是否正确。

本申请的另一个方面提供一种标题的确定装置，包括：

获取模块，用于获取目标原文件；

提取模块，用于根据所述目标原文件，获取所述目标原文件中每个段落的段落特征信息，所述段落特征信息包括多个特征字段及各特征字段对应的值；

处理模块，用于根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及所述标题段落的标题等级。

根据如上所述的装置，可选地，所述处理模块，包括：

计算子模块，用于根据目标原文件中各段落的段落特征信息以及预设规则，计算获得各段落的各特征字段对应的代表值；

确定子模块，用于根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及所述标题段落的标题等级。

根据如上所述的装置，可选地，所述确定子模块，具体用于：根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及所述标题段落的标题等级。

根据如上所述的装置，可选地，还包括：训练模块；

所述获取模块，还用于获取多个原文件中的标题段落特征信息以及各标题段落的标题等级；

所述训练模块，用于采用所述多个原文件中的标题段落特征信息以及各标题段落的标题等级，训练贝叶斯分类模型，获得所述训练好的贝叶斯分类模型。

根据如上所述的装置，可选地，

所述确定子模块，具体用于：

根据如上所述的装置，可选地，还包括：

验证模块，用于根据预设等级规则，采用递归算法验证对所述目标原文件中标题段落以及所述标题段落的标题等级的确定是否正确。

本申请的再一个方面提供一种终端设备，包括：如上所述的装置。

本申请提供的标题的确定方法、装置及终端设备，通过提取原文件中各段落的段落特征信息，并根据段落特征信息，采用分类算法确定出标题段落以及所述标题段落的标题等级，实现了对各式各样的标题的自动提取，提高了提取文章标题的效率和准确性，解决了现有技术中基于穷举有限的通配符进行匹配查找来确定文章标题，效率较低、且通配符的限制导致一些新的标题样式不能匹配到的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的标题的确定方法的流程示意图；

图2为本申请一实施例提供的标题的确定装置的结构示意图；

图3为本申请另一实施例提供的标题的确定装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请所涉及的名词进行解释：

段落特征信息：是指原文件(比如word文件)中一个段落的属性，具体可以包括段落长度(有多少个字或字符)、段落结束符号、段落是否数字开头、以哪种数字开头、段落字号、是否粗体、段落字体、是否常用标题、前面是否有文字段、与上下段的相对字号差等特征字段。

标题等级：是指某一标题段落是几级标题，原文件中通常包括一级标题、二级标题、三级标题、四级标题等，同一文件中不同等级的标题对应的段落特征信息不同，比如一级标题可能为二号宋体、加粗，而二级标题则可能为三号宋体、不加粗。

贝叶斯分类模型：是贝叶斯分类算法的模型。贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法，是机器学习领域有监督学习算法。该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。贝叶斯分类模型算法的原理在于：一个数据集，假设各个事件的发生都是相对独立的，算法经过学习这个数据集输入\输出之间的联合概率分布，训练模型，应用这个模型，给定一个未知的输入X，输出相应结果最大的可能性，起到预测的作用。

代表值：是指将特征字段对应的值转化成的0到1之间(包含0和1)的值，比如：特征字段“段落长度”，某一段落的段落长度可能为65个字，可以设置小于30个字的段落的段落长度对应的代表值设为0，大于100个字的段落的段落长度对应的代表值设为1，而段落长度介于30到100个字之间的段落长度对应的代表值则按照比例计算其值(比如(段落实际字数-30)/(100-30))，比如65个字则代表值为0.5；再比如，若特征字段“是否粗体”对应的值为1(即该段落是粗体)，则该特征字段对应的代表值设为1，若不是粗体，则代表值设为0。根据这些预设规则计算获得段落的特征字段对应的代表值。

本申请的应用场景是在对各式各样的期刊杂志等进行排版前，需要从原原文件中提取相应的标题，以及标题等级，以便确定其在期刊杂志版面的版式样式。

实施例一

本实施例提供一种标题的确定方法，用于自动提取原文件中的标题及标题的等级。本实施例的执行主体为标题的确定装置，该标题的确定装置可以设置在终端设备上，该终端设备可以为服务器、PC电脑、打印机设备等等，具体不做限制。

如图1所示，为本实施例提供的方法的流程示意图，该方法包括：

步骤101，获取目标原文件。

步骤102，根据目标原文件，获取目标原文件中每个段落的段落特征信息，段落特征信息包括多个特征字段及各特征字段对应的值。

步骤103，根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及标题段落的标题等级。

具体的，当需要对某一期刊、杂志或论文等进行排版时，先获取其对应的目标原文件(比如word格式的文件)，该目标原文件中包括一级标题段落、二级标题段落、三级标题段落、正文段落等多种不同的段落。则可以根据该目标原文件，获取各段落的段落特征信息，该段落特征信息可以包括多个特征字段及各特征字段对应的值，比如，可以包括段落长度(有多少个字或字符)、段落结束符号、段落是否数字开头、以哪种数字开头、段落字号、是否粗体、段落字体、是否常用标题、前面是否有文字段、与上下段的相对字号差等特征字段，其中，段落长度的值为10个字，段落是否数字开头的值为1(表示是数字开头)，段落字号的值为2号，是否粗体的值为1(表示是粗体)等等。具体的段落特征信息的存储可以矢量化存储到CSV文件中，在这个过程中，会通过结构体构件段落的文本信息，记录段落的位置和文本内容，生成的中间文件与存储段落特征的CSV文件相对应，便于后续分类结果的统计与跟踪定位。

在获取到各段落的段落特征信息后，则可以根据各段落的段落特征信息确定出各段落中的标题段落以及标题段落的标题等级。具体可以根据各段落的段落特征信息，采用分类算法确定出各段落中的标题段落以及标题段落的标题等级。

本实施例提供的标题的确定方法，通过提取原文件中各段落的段落特征信息，并根据段落特征信息，采用分类算法确定出标题段落以及该标题段落的标题等级，实现了对各式各样的标题的自动提取，提高了提取文章标题的效率和准确性，解决了现有技术中基于穷举有限的通配符进行匹配查找来确定文章标题，效率较低、且通配符的限制导致一些新的标题样式不能匹配到的问题。

实施例二

本实施例对实施例一提供的标题的确定方法做进一步补充说明。

在上述实施例一的基础上，可选地，步骤103具体包括：

根据目标原文件中各段落的段落特征信息以及预设规则，计算获得各段落的各特征字段对应的代表值；根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及标题段落的标题等级。

可选地，根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及标题段落的标题等级，包括：根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及标题段落的标题等级。

具体的，在确定标题段落以及标题段落的标题等级时，根据获取到的各段落的段落特征信息以及预设规则，计算获得各段落各特征字段对应的代表值，即将特征字段对应的值转化成的0到1之间(包含0和1)的值，比如，特征字段“段落长度”，某一段落的段落长度可能为65个字，可以设置小于30个字的段落的段落长度对应的代表值设为0，大于100个字的段落的段落长度对应的代表值设为1，而段落长度介于30到100个字之间的段落长度对应的代表值则按照比例计算其值(比如(段落实际字数-30)/(100-30))，比如65个字则代表值为0.5；再比如，若特征字段“是否粗体”对应的值为1(即该段落是粗体)，则该特征字段对应的代表值设为1，若不是粗体，则代表值设为0。根据这些预设规则计算获得各段落的各特征字段对应的代表值。在获得各特征字段对应的代表值后，根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及标题段落的标题等级。可选地，具体分类算法可以是训练好的贝叶斯分类模型。

可选地，在获取目标原文件之前，需要训练贝叶斯分类模型，则该方法还可以包括：

获取多个原文件中的标题段落特征信息以及各标题段落的标题等级；采用多个原文件中的标题段落特征信息以及各标题段落的标题等级，训练贝叶斯分类模型，获得训练好的贝叶斯分类模型。

示例性的，预先给出2万个原文件，该2万个原文件包括了现有的各种期刊杂志论文的word格式文件，并且已经知道每个原文件中的标题段落以及标题段落的段落特征信息以及标题等级。采用这些信息去训练贝叶斯分类模型，由贝叶斯分类模型将这些标题段落的段落特征信息根据已知的标题等级进行分类，具体的，也需要首先根据各段落的段落特征信息计算获得各特征字段对应的代表值，并为各特征字段设置对应的权重值。分别将每个段落作为目标段落进行如下计算处理：

将该目标段落的各特征字段的代表值与其对应的权重值相乘，各特征字段对应的乘积进行加和，计算获得该目标段落的待判定值，比如，选取的特征字段包括段落长度、是否粗体、段落字号三个，计算获得的代表值分别为1、1、1，预设特征权重分别为0.4、0.3、0.2，由于已知道该段落对应的标题等级，比如待判定值为0.9，该段落的标题等级为一级标题，则贝叶斯分类模型将学习到待判定值等于该值的是一级标题。依此，经过大量数据的学习，训练好的贝叶斯分类模型可以总结出一级标题对应的待判定值的一个范围，比如0.9-1.0对应一级标题，0.8-0.9对应二级标题，0.7-0.8对应三级标题等等。在训练好贝叶斯分类模型之后，则可以采用该模型对一个未知的原文件进行标题及等级的确定，提取出其中的标题以及确定标题等级。可以理解地，在训练好贝叶斯分类模型之后，还可以测试其确定的标题的准确性，并不断进行优化。

其中，用于确定标题段落的特征字段的选取以及各特征字段对应的权重值的确定可以根据对这2万个原文件中标题段落的段落特征属性的统计获得，比如在所有标题段落中，段落长度在20个字的有多少个，是粗体的有多少个，没有段落结束符号的有多少个等等，根据统计的量确定各特征字段对该段落是标题段落的影响程度，从而确定选取的特征字段以及其对应的权重值。

需要说明的是，上述训练过程仅为示例性的，并不是对本申请的限定。

应用有监督学习的贝叶斯算法进行标题分类，无论是模型的训练过程抑或是结果的预测过程(即确定出标题段落以及标题段落的标题等级的过程)，算法的输入参数都是矢量化的段落特征信息参数，不同之处在于训练模型需要将提取的矢量化的word文件段落特征进行预先的标题等级的标记，用于标题分类模型的训练。而结果的预测是将提取的矢量化的word文件段落特征结合已训练好的模型进行标题的预测分类与定级。

可选地，根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及标题段落的标题等级，具体可以包括：

根据训练贝叶斯分类模型获得的经验等级范围，确定出标题段落以及标题段落的标题等级。

具体的，分别将每个段落作为目标段落进行如下计算处理：

将该目标段落的各特征字段的代表值与其对应的权重值相乘，获得该目标段落的各特征字段对应的乘积值，并将该目标段落的各特征字段对应的乘积值进行加和，计算获得该目标段落的待判定值。最终可获得每个段落的待判定值。具体计算过程与上述训练模型的过程一致，在此不再赘述。

在获得每个段落的待判定值之后，进一步根据训练贝叶斯分类模型获得的经验等级范围，确定出标题段落以及标题段落的标题等级。

示例性的，目标原文件包括4个段落：段落1、段落2、段落3和段落4，计算获得各段落的待判定值分别为段落1-0.95、段落2-0.85、段落3-0.78、段落4-0.56，训练贝叶斯分类模型获得的经验等级范围为：一级标题对应待判定值范围0.9-1.0，二级标题对应待判定值范围0.8-0.9，三级标题对应待判定值范围0.7-0.8，则可确定出标题段落为段落1、段落2和段落3，对应的标题等级为：段落1为一级标题、段落2为二级标题、段落3为三级标题。

可选地，在根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及标题段落的标题等级之后，该方法还可以包括：

根据预设等级规则，采用递归算法验证对目标原文件中标题段落以及标题段落的标题等级的确定是否正确。

具体的，为保证文章标题等级识别结果的准确性，排除因文章各级标题本身顺序位置错误而造成的冗余干扰，对预测的结果类别进行等级递归的调用，输出对应的标题等级，结合生成中间文件过程中结构体存储的段落信息进行文章整体信息段落的标记，即对标题段落的标识。

本实施例提供的标题的确定方法，通过提取原文件中各段落的段落特征信息，并根据段落特征信息，采用分类算法确定出标题段落以及标题段落的标题等级，实现了对各式各样的标题的自动提取，提高了提取文章标题的效率和准确性，解决了现有技术中基于穷举有限的通配符进行匹配查找来确定文章标题，效率较低、且通配符的限制导致一些新的标题样式不能匹配到的问题。

实施例三

本实施例提供一种标题的确定装置，用于执行上述实施例一提供的标题的确定方法。

如图2所示，为本实施例提供的标题的确定装置的结构示意图。该标题的确定装置30包括获取模块31、提取模块32和处理模块33。

其中，获取模块31用于获取目标原文件；提取模块32用于根据目标原文件，获取目标原文件中每个段落的段落特征信息，段落特征信息包括多个特征字段及各特征字段对应的值；处理模块33用于根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及标题段落的标题等级。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本实施例提供的标题的确定装置，通过提取原文件中各段落的段落特征信息，并根据段落特征信息，采用分类算法确定出标题段落以及标题段落的标题等级，实现了对各式各样的标题的自动提取，提高了提取文章标题的效率和准确性，解决了现有技术中基于穷举有限的通配符进行匹配查找来确定文章标题，效率较低、且通配符的限制导致一些新的标题样式不能匹配到的问题。

实施例四

本实施例对上述实施例三提供的标题的确定装置做进一步补充说明。

如图3所示，为本实施例提供的标题的确定装置的结构示意图。在上述实施例三的基础上，可选地，该标题的确定装置30还可以包括训练模块34和验证模块35。

可选地，处理模块33可以包括计算子模块和确定子模块。

其中，计算子模块用于根据目标原文件中各段落的段落特征信息以及预设规则，计算获得各段落的各特征字段对应的代表值；确定子模块用于根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及标题段落的标题等级。

可选地，确定子模块，具体可以用于：根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及标题段落的标题等级。

可选地，获取模块31还用于获取多个原文件中的标题段落特征信息以及各标题段落的标题等级；训练模块34用于采用多个原文件中的标题段落特征信息以及各标题段落的标题等级，训练贝叶斯分类模型，获得训练好的贝叶斯分类模型。

可选地，确定子模块，具体用于：将每个段落的各特征字段对应的代表值与对应预设特征权重值相乘，获得每个段落的各特征字段对应的乘积值；分别将各段落的各特征字段对应的乘积值相加，获得各段落的待判定值；根据训练贝叶斯分类模型获得的经验等级范围，确定出标题段落以及标题段落的标题等级。

可选地，验证模块用于根据预设等级规则，采用递归算法验证对目标原文件中标题段落以及标题段落的标题等级的确定是否正确。

实施例五

本实施例提供一种终端设备，用于执行上述实施例提供的标题的确定方法。

该终端设备包括上述实施例三或实施例四提供的标题的确定装置。

根据本实施例提供的终端设备，通过提取原文件中各段落的段落特征信息，并根据段落特征信息，采用分类算法确定出标题段落以及标题段落的标题等级，实现了对各式各样的标题的自动提取，提高了提取文章标题的效率和准确性，解决了现有技术中基于穷举有限的通配符进行匹配查找来确定文章标题，效率较低、且通配符的限制导致一些新的标题样式不能匹配到的问题。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种标题的确定方法，其特征在于，包括：

获取目标原文件；

2.根据权利要求1所述的方法，其特征在于，所述根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及所述标题段落的标题等级，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用分类算法确定出标题段落以及所述标题段落的标题等级，包括：

4.根据权利要求3所述的方法，其特征在于，在获取目标原文件之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及所述标题段落的标题等级，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在根据目标原文件中各段落的段落特征信息，采用分类算法确定出标题段落以及所述标题段落的标题等级之后，所述方法还包括：

7.一种标题的确定装置，其特征在于，包括：

获取模块，用于获取目标原文件；

8.根据权利要求7所述的装置，其特征在于，所述处理模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述确定子模块，具体用于：根据各特征字段对应的代表值以及各特征字段对应的预设特征权重，采用训练好的贝叶斯分类模型确定出标题段落以及所述标题段落的标题等级。

10.根据权利要求9所述的装置，其特征在于，还包括：训练模块；

11.根据权利要求10所述的装置，其特征在于，所述确定子模块，具体用于：

12.根据权利要求7-11任一项所述的装置，其特征在于，还包括：

13.一种终端设备，其特征在于，包括：如权利要求7-12任一项所述的装置。