CN106777193A

CN106777193A - 一种自动撰写特定稿件的方法

Info

Publication number: CN106777193A
Application number: CN201611207712.6A
Authority: CN
Inventors: 李鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2017-05-31
Anticipated expiration: 2036-12-23
Also published as: CN106777193B

Abstract

本发明涉及一种自动撰写特定稿件的方法，属于信息处理领域。本发明根据标题相似度对文本文档进行聚类处理，基于TF‑IDF建立VSM模型，将文本转换为向量模式，使本发明方案中考虑了词义，对中文文稿撰写来说更加合理化和准确；利用MI对向量空间模型VSM进行降维处理，选取提供给机器学习分类器的有效特征；通过机器学习分类器智能学习，获得初稿文章，通过ILP处理器对初稿文章语句进行整合，对整篇文章中的重复句子进行自动去除，形获得质量更好的终稿文章；本发明在撰写中文稿件时能够考虑语义、词义，具有智能学习的优点，通过对语句的优化以整合文章，本发明可适用于多种领域的特定稿件撰写。

Description

一种自动撰写特定稿件的方法

技术领域

本发明属于信息处理领域，具体涉及一种自动撰写特定稿件的方法。

背景技术

所谓特定稿件是指有固定写作模式的特定领域文本，如维基百科、百度百科、产品宣传材料等等。特定稿件的撰写模式是根据媒体或者宣传要求约定俗成的客观存在的，这类特定稿件由一个总标题和若干子标题组成，每个子标题后有一段或多段文字对子标题内容进行扩展。

现有技术虽然提供了特定稿件的自动撰写的方案，但却存在如下缺陷：

1、现有技术特定稿件的自动撰写是基于英文文本和wiki百科的实现，但中文而言，自然语言处理在细节上会有很多不同，所以不能直接适用；

2、现有技术特定稿件的自动撰写中采用的分类方法为最大熵分类，这样的分类不能智能地学习参数特征，然后智能分类；

3、现有技术特定稿件的自动撰写时获取参数基于统计学的内容，比如有些参数为单词数量，文本中数字的多少等，忽略一些特定领域内词义的对分类的重要影响。

4、现有技术特定稿件的自动撰写现有技术中只对美国演员和疾病两个方面做了尝试；

5、现有技术特定稿件的自动撰写时，ILP步骤基于的是段落，这样很容易把特别合适的段落删除，而选取只是相似度低但并不是最贴切的段落。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种智能化的自动撰写特定稿件的方法。

为实现以上目的，本发明采用如下技术方案：

一种自动撰写特定稿件的方法，包括如下步骤：

步骤S1、确定待撰写特定稿件的所属领域，通过网络爬虫从网络爬取所述待撰写特定稿件所属领域的k个网页，k＞2，每个所述网页具有n个子标题，n≥2，提取所述网页的第i个子标题以及第i个子标题的正文，并生成第i个文本文档，其中，第i个子标题作为第i个文本文档的标题，第i个子标题的正文作为第i个文本文档的正文，i＝1、.....、n；

步骤S2、设定标题相似度阈值，对比任意两个所述文本文档的标题相似度，将所述文本文档聚类处理为多个聚类，每个所述聚类中任意两个所述文本文档的标题相似度大于等于标题相似度阈值，每个所述聚类以所述聚类中出现频率最高的标题作为所述聚类的名称；

步骤S3、统计各个所述聚类中所述文本文档的数量，根据各个所述聚类中所述文本文档数量由多至少顺序对各个所述聚类排序，选取前m个所述聚类的名称作为所述待撰写特定稿件的子标题，其中，m＝(n₁+n₂+.....+n_k)/k，k表示从网络爬取所述网页的数量，n_k表示第k个网页的子标题数量；

步骤S4、通过TF-IDF算法分别对前m个所述聚类中的所述文本文档进行处理，获取每个所述聚类中所述文本文档的特征词，将所述聚类中的所述文本文档建立向量空间模型VSM，利用MI对向量空间模型VSM进行降维处理，选取提供给机器学习分类器的有效特征；

步骤S5、经过步骤S4处理的前m个所述聚类，将每个所述聚类对应唯一一个所述机器学习分类器，将每个所述聚类中的所述文本文档分成两个部分，其中，对一部分所述文本文档进行标注，训练所述机器学习分类器；另一部分所述文本文档用于测试训练过的所述机器学习分类器，得到相应的错误率，根据错误率对所述机器学习分类器进行调整；

步骤S6、构造所述待撰写特定稿件的查询语句，根据所述查询语句从网络爬取备选内容，将经过调整的所述机器学习分类器对爬取的所述备选内容的段落进行分类，输出形成初稿文章；

步骤S7、所述机器学习分类器对所述备选内容进行分类，输出形成所述初稿文章时，根据所述备选内容中的段落被所述机器学习分类器判定作为该所述机器学习分类器输出的概率，所述机器学习分类器对输出的段落进行评分，且将该段落的分数作为该段落内每个句子的分数；

根据所述初稿文章中各个句子的分数，建立目标函数和第一约束条件，通过ILP处理器对所述初稿文章语句进行整合，形成终稿文章；

其中，

目标函数为：

式中，表示句子指示变量，表示句子的分数，s_i表示句子编号。

第一约束条件为：

式中，和分别表示两个句子。

进一步地，步骤S2中，采用Levenshtein算法计算任意两个所述文本文档的标题相似度。

进一步地，步骤S2中，所述相似度阈值为0.5。

进一步地，步骤S2中，还包括：对未形成聚类的所述文本文档作删除处理。

进一步地，步骤S4中，利用MI对向量空间模型VSM空间降维处理的步骤方法为：

I.

II.

III.

IV.F＝P(t|c_i)

C＝P(c_i|t)

I～IV中，f_i(t)表示在c_i聚类中包含特征t的文件总数，表示平均每个聚类中包含特征t的文件数，α表示平衡因子，F代表类c_i中出现单词t的概率，C代表出现特征t的段落属于类c_i的概率。

进一步地，利用MI对向量空间模型VSM空间降维处理的步骤方法还包括：

V.BMI＝α*F*C*MI

BMI表示最终使用的带平衡因子校正的互信息标准。

进一步地，步骤S6中，设定爬取所述备选内容的长度阈值，爬取长度大于等于长度阈值的所述备选内容。

进一步地，所述备选内容的长度阈值为15个字符。

进一步地，步骤S7中，还包括第二约束条件：

式中，N(e)表示被选择的段落中句子总数，t表示每个段落最少需要保留句子的比例。

进一步地，t设置为1/3。

本发明采用以上技术方案，至少具备以下有益效果：

本发明提供一种自动撰写特定稿件的方法，根据标题相似度对文本文档进行聚类处理，基于TF-IDF建立VSM模型，将文本转换为向量模式，这样使本发明方案中考虑了词义、语义，对中文文稿撰写来说更加合理化和准确；利用MI对向量空间模型VSM进行降维处理，选取提供给机器学习分类器的有效特征；本发明通过机器学习分类器智能学习，获得初稿文章，通过ILP处理器对初稿文章语句进行整合，对整篇文章中的重复句子进行自动去除，形获得质量更好的终稿文章；本发明在撰写中文稿件时能够考虑语义、词义，具有智能学习的优点，通过对语句的优化以整合文章，本发明可适用于多领域的特定稿件撰写，如手机评测文章、汽车评测文章、房地产宣传文章等等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种自动撰写特定稿件的方法的步骤流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

名词解释：

TF-IDF，Term Frequency-Inverse Document Frequency缩写，中文叫做词频－逆文档频率。是一种用于信息检索与数据挖掘的常用加权，TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力。

VSM，Vector space model缩写，中文叫做向量空间模型。

MI，Mutual Information缩写，中文叫做互信息，在概率论和信息论中，两个随机变量的互信息。

ILP，Integer Linear Programming缩写，中文叫做整数线性规划，规划中的变量(全部或部分)限制为整数，称为整数规划。若在线性模型中，变量限制为整数，则称为整数线性规划。

如图1所示，本发明提供一种自动撰写特定稿件的方法，包括如下步骤：

通过该S1步骤可知，从网络中获取可供学习的文本库，本发明根据获取网页的子标题及子标题的正文生成文本文档，文本文档的标题对应为网页中的一个子标题，文本文档的正文为文本文档对应的子标题在网页中的正文，一方面可以通过标题对文本文档进行聚类，另一方面，文本文档的正文与其标题是互相一一对应的关系，这样文本文档经聚类处理后，文本文档的正文也属于一个聚类，而不会出现文本文档正文之间不相干的问题。

通过该S2步骤可知，本发明通过标题相似度实现文本文档的聚类处理，通过设定标题相似度阈值对文本文档进行过滤处理，保证形成聚类的文本文档的相似性更高，能够更为精确地获取用于机器学习的有效特征，保证有效特征更为集中分布，而不会出现零散的分布的缺点。本发明中可以采用Levenshtein算法计算任意两个所述文本文档的标题相似度。为了保证形成聚类的文本文档的相似性更高，能够更为精确地获取用于机器学习的有效特征，保证有效特征更为集中分布，本发明中的所述相似度阈值可设定为0.5。

另外，本发明步骤S2中，未形成聚类的所述文本文档对本发明来说，可能具有干扰性，本发明中可以对未形成聚类的所述文本文档作删除处理，实现删除干扰点，排除与本发明无关的文本文档。

通过该S3步骤可知，通过该步骤可以确定待撰写特定稿件的子标题框架，该步骤中，为了使本发明撰写出最为适合的文章，本发明对聚类按聚类中的文档数量由多至少顺序对各个聚类排序，优选前m个聚类的名称作为待撰写特定稿件的子标题，使本发明特定稿件的子标题的匹配度最高；另外，该步骤也给出了本发明待撰写特定稿件的子标题数量m的优选方案，该方案中通过将从网络爬取的网页的子标题数量的平均值作为本发明的特定稿件的子标题数量，使本发明形成的特定稿件子标题数量设置贴近现有技术的文章的子标题数量设置，保证本发明的特定稿件子标题数量合理和合适。

通过该S4步骤可知，该步骤中将文本转换为向量模式，这样使本发明更全面完善地考虑了词义、语义，克服现有技术中获取参数基于单词数量，文本中数字的多少等，忽略词义的对分类的影响的不足，使本发明对中文文稿撰写来说更加合理化和准确；利用MI对向量空间模型VSM进行降维处理，选取提供给机器学习分类器的有效特征。

对于步骤S4，本发明还提供了一种利用MI对向量空间模型VSM空间降维处理的优选步骤方法：

I.

II.

III.

IV.F＝P(t|c_i)

C＝P(c_i|t)

对于上述优选方案，没有考虑词频因素影响，会出现一味地找低频词的倾向，本发明还提供如下解决方案：

利用MI对向量空间模型VSM空间降维处理的步骤方法还包括：

V.BMI＝α*F*C*MI

BMI表示最终使用的带平衡因子校正的互信息标准，用于最终的特征选择。通过该方案，考虑了词频因素影响，平衡了一味地找低频词的倾向。

通过该S5步骤可知，该步骤中采用监督式机器学习分类器进行分类，这样的分类能够更动态的学习参数特征，进而获得更有效更智能的分类结果。该步骤中，不同的机器学习分类器可以采用同一种机器学习算法，如SVM，Naive Bayes等机器学习算法中的一种，也可以采用不同的机器学习算法。

通过该S6步骤可知，通过本步骤可获得初稿文章，为了使爬取的备选内容更加适用，本发明还提供如下改进方案，步骤S6中，设定爬取所述备选内容的长度阈值，爬取长度大于等于长度阈值的所述备选内容，该方案通过设定爬取备选内容的长度阈值，在爬取时对备选内容进行筛选过滤，仅爬取长度大于等于长度阈值的备选内容，这样一方面能较大程度地过滤到低质量的备选内容，另一方面也提高爬取效率。本发明中为了使长度阈值设定合理，获取有用的备选内容，所述备选内容的长度阈值可以设定为15个字符。

根据所述初稿文章中各个句子的分数，建立目标函数和第一约束条件，对所述初稿文章语句进行整合，形成终稿文章；

其中，

目标函数为：

式中，表示句子指示变量(句子存在表示1，不存在表示0)，表示句子的分数，s_i表示句子编号。

第一约束条件为：

式中，和分别表示两个句子。

本发明经过步骤S6获得初稿文章，由于初稿文章是有很多不同来源的段落组织而成，有可能这些段落内部有一些重复的句子，现有技术特定稿件的自动撰写时，假如有两个段落存在了重复语句，其解决方法是将存在重复语句的两个段落删除一个，这样就很容易发生把特别合适的段落删除，而选取只是相似度低但并不是最贴切的段落，现有技术基于段落处理重复语句的方法，得到的稿件质量并不是很高的。为了解决上述问题，使本发明的特定稿件质量更好，本发明设置步骤7解决该问题，对整篇文章中的重复句子本身进行自动筛选去除。

步骤7中，通过第一约束条件解决了两个句子之间相似度的问题；但有可能会出现删除太多句子导致段落过于简单的问题，对此本发明还提供如下改进方案，具体为：步骤S7中，还包括第二约束条件：

上述改进方案通过设置第二约束条件，可使每个段落中尽量保证至少有一定比例的句子能够得到保留。优选地，第二约束条件中，t可设置为1/3，可使每个段落中尽量保证至少有1/3比例的句子能够得到保留。

本发明的特定稿件可以为手机评测文章、汽车评测文章、房地产宣传文章等等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种自动撰写特定稿件的方法，其特征在于：包括如下步骤：

其中，

目标函数为：

\arg m a x \underset{s_{i}}{Σ} x_{s_{i}} e_{s_{i}}

&ForAll; s_{i} x_{s_{i}} &Element; {0, 1}

第一约束条件为：

(x_{s_{i}} + x_{s_{j}}) s i m (x_{s_{i}}, x_{s_{j}}) \leq 1

式中，和分别表示两个句子。

2.根据权利要求1所述的自动撰写特定稿件的方法，其特征在于：步骤S2中，采用Levenshtein算法计算任意两个所述文本文档的标题相似度。

3.根据权利要求2所述的自动撰写特定稿件的方法，其特征在于：步骤S2中，所述相似度阈值为0.5。

4.根据权利要求1所述的自动撰写特定稿件的方法，其特征在于：步骤S2中，还包括：对未形成聚类的所述文本文档作删除处理。

5.根据权利要求1所述的自动撰写特定稿件的方法，其特征在于：步骤S4中，利用MI对向量空间模型VSM空间降维处理的步骤方法为：

\begin{matrix} I . & M I (t, c_{i}) = \log \frac{P (t, c_{i})}{P (t) * P (c_{i})} \end{matrix} = \log \frac{P (t | c_{i})}{P (t)}

\begin{matrix} I I . & M I = P (c_{i}) Σ_{i = 1}^{m} M I (t, c_{i}) \end{matrix}

\begin{matrix} I I I . & α = \frac{| f_{i} (t) - \overset{&OverBar;}{f (t)} |}{\overset{&OverBar;}{f (t)}} \end{matrix}

IV.F＝P(t|c_i)

C＝P(c_i|t)

6.根据权利要求5所述的自动撰写特定稿件的方法，其特征在于：利用MI对向量空间模型VSM空间降维处理的步骤方法还包括：

V.BMI＝α*F*C*MI

BMI表示最终使用的带平衡因子校正的互信息标准。

7.根据权利要求1所述的自动撰写特定稿件的方法，其特征在于：步骤S6中，设定爬取所述备选内容的长度阈值，爬取长度大于等于长度阈值的所述备选内容。

8.根据权利要求7所述的自动撰写特定稿件的方法，其特征在于：所述备选内容的长度阈值为15个字符。

9.根据权利要求1至8任一项所述的自动撰写特定稿件的方法，其特征在于：步骤S7中，还包括第二约束条件：

&ForAll; e, \underset{s_{i} &Element; e}{Σ} x_{s_{i}} &GreaterEqual; N (e) t

10.根据权利要求9所述的自动撰写特定稿件的方法，其特征在于：t设置为1/3。