CN105786790A

CN105786790A - 一种纸质文本生成装置及方法

Info

Publication number: CN105786790A
Application number: CN201410785287.3A
Authority: CN
Inventors: 徐晓声
Original assignee: Zhenjiang Gaoke Technology Information Consultant Co Ltd
Current assignee: Zhenjiang Gaoke Technology Information Consultant Co Ltd
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2016-07-20

Abstract

本发明提供了一种纸质文本主题生成方法及装置；所述方法包括：扫描纸质文件，将文本正文转换为句子序列，并进行分词；从分词得到的词汇中，提取代表人名、时间、地点的词汇保存进关键词集合；对于剩余的各词汇，分别根据该词汇在文本正文中出现的频率，及包含该词汇的句子在所有句子中的比例计算该词汇的权重值；将权重值超过预定权重阈值的词汇保存进所述关键词集合；通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率，将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要，按照在所述文本正文中的出现顺序输出。本发明能够适用于纸质文本的摘要生成。

Description

一种纸质文本生成装置及方法

技术领域

本发明涉及网络领域，尤其一种纸质文本主题生成装置及方法。

背景技术

网络通信的发展，电子文本越来越多，便于人们快速查询。电子文本，是一种用电子手段提供信息交换的通信方式，是互联网应用最广的服务。通过网络的电子文本系统，用户可以以低廉的价格、快速的方式，与世界上任何一个角落的网络用户联系，而随着各种移动终端的迅速发展，更使得用户可以随时随地的收发邮件。

电子文本可以是文字、图像、声音等多种形式。同时，用户可以得到大量免费的新闻、专题文本，并实现轻松的信息搜索。电子文本的存在极大的方便了人与人之间的沟通与交流，促进了社会的发展。云技术的发展，更逐步实现了文本的云化存储、多终端附件共享、云化管理等功能。

如果当用户使用移动终端时，只发送文本的摘要供用户大概了解文本内容，用户可以根据摘要筛选出重要的文本进行接收，对于其它文本则可以等使用无线网或电脑时再接收，从而有效减少流量的使用。但是，现有的摘要生成算法通常是针对内容较长的文档设计的，生成的摘要都是基于句子形成的，考虑到文本内容大多篇幅有限，其格式也与传统书信较为相仿，正文的句子较少，如果采用现有的摘要算法提取句子作为摘要，则可能只会提取到文本正文的某一句，从而使得一些较重要的信息被忽略。使用现有的摘要算法无法提取出有效的摘要；另外云系统中需要对批量文本进行摘要提取，现有的摘要生成算法比较复杂，并不适用。

发明内容

本发明要解决的技术问题是提供一种适用于纸质文本的摘要生成方案。为了解决上述问题，本发明提供了一种文本主题生成方法，包括：

一种纸质文本主题生成装置，其特征在于，包括：扫描模块，用于将文本扫描为电子文档；转换模块，用于将文本正文转换为句子序列，并进行分词；选择模块，用于从分词得到的词汇中，提取代表人名、时间、地点的词汇保存进关键词集合；

权重筛选模块，用于对于剩余的各词汇，分别根据该词汇在文本正文中出现的频率，及包含该词汇的句子在所有句子中的比例计算该词汇的权重值；将权重值超过预定权重阈值的词汇保存进所述关键词集合；概率筛选模块，用于通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率，最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要，按照在所述文本正文中的出现顺序输出。

进一步地，所述概率筛选模块还用于在所述转换模块进行分词前，判断文本正文中是否存在部分字符具有特殊格式，且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值，如果是则将所述具有特殊格式的字符作为所述摘要的组成部分；所述转换模块对所述文本正文去除所述具有特殊格式的字符后的剩余文档进行分词。

进一步地，所述权重筛选模块计算出的权重值为：，其中，Wf(wi)表示计算得到的词汇i的权重值，F(wi)表示词汇i在所述文本正文中出现的频率，S表示所述句子序列中包含的所有句子的数目，Sf(wi)为所述句子序列中出现过词汇i的句子的数目。

一种文本主题生成方法，包括：将纸质文本进行扫描；将文本内容进行分词；

从分词得到的词汇中，提取代表人名、时间、地点的词汇保存进关键词集合；

对于剩余的各词汇，分别根据该词汇在正文中出现的频率，及包含该词汇的句子在所有句子中的比例计算该词汇的权重值；将权重值超过预定权重阈值的词汇保存进所述关键词集合；通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率，最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的题目一起作为摘要，按照在所述文本正文中的出现顺序输出。

进一步地，所述进行分词的步骤前还包括：判断文本正文中是否存在部分字符具有特殊格式，且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值，如果是则将所述具有特殊格式的字符作为所述摘要的组成部分；

从所述文本正文中去除所述具有特殊格式的字符后，对剩余文档进行所述进行分词的步骤。

进一步地，所述权重值为：其中，Wf(wi)表示计算得到的词汇i的权重值，F(wi)表示词汇i在所述文本正文中出现的频率，S表示所述句子序列中包含的所有句子的数目，Sf(wi)为所述句子序列中出现过词汇i的句子的数目。

本发明的技术方案可以批量、方便地通过扫描使纸质文本转换为电子文本，然后进行摘要提取，使用户在信号不好或文本较大等情况下可以迅速的对文本有个简要了解；其中，文本正文的摘要生成是通过抽取关键词并处理，从而形成摘要。本发明的优化方案中，对于文本正文具备的图片，根据识别出的终端的分辨率进行图片压缩，从而减小其大小并更好的匹配终端。

附图说明

图1为文本主题生成方法的流程示意图；

图2为文本主题生成引擎的架构示意图；

图3为文本主题生成的流程示意图；

图4为正文摘要生成的流程图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

实施例一、一种文本主题生成方法，如图1所示，包括：

对纸质的文件进行扫描转换；

将文本正文转换为句子序列，并进行分词；

从分词得到的词汇中，提取代表人名、时间、地点的词汇保存进关键词集

合；

对于剩余的各词汇，分别根据该词汇在文本正文中出现的频率，及包含该词

汇的句子在所有句子中的比例计算该词汇的权重值；将权重值超过预定权重阈值的词汇保存进所述关键词集合；

通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点

的关键词以外的各关键词成为摘要的概率，最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要，按照在所述文本正文中的出现顺序输出。

本实施例考虑到文本正文内容大多篇幅有限，且考虑到可能需要对批量文本进行摘要提取，必须选取快速、简洁的方法；因此本实施例采取基于特征的方法，将文本正文文本视为句子的线性序列，将句子视为词的线性序列，通过提取关键词、计算词汇的权重值及频率，来获得摘要信息。

本实施例中，如果摘要中的一个关键词在所述文本正文中多次出现，则按照出现顺序输出时，以该关键词第一次在所述文本正文中出现的位置为准。

本实施例中，上述步骤可以在文本服务器上进行，也可以基于云环境实施，比如将文本主题的生成、收发引擎构建于服务器前端，其引擎架构在云端上，利用云计算的能力可对文本主题生成、发送进行批量处理。

本实施例中，可以利用现有的文本挖掘技术实现将文本正文转换为句子序列、对文档分词、提取代表人名、时间、地点的词汇的步骤；比如可以利用标点符号将文本中的文本转换成句子序列；可以利用给定的中文词表，进行对文档分词和提取代表人名、时间、地点的词汇的步骤。

本实施例的一种实施方式中，所述进行分词的步骤前还可以包括：

判断文本正文中是否存在部分字符具有特殊格式，且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值，如果是则将所述具有特殊格式的字符作为所述摘要的组成部分；

本实施方式中，所述特殊格式可以但不限于包括：加粗、斜体、带有下划线、带有删除线等。

本实施例的一种实施方式中，所述权重值具体可以为：其中，Wf(wi)表示计算得到的词汇i的权重值，F(wi)表示词汇i在所述文本正文中出现的频率，S表示所述句子序列中包含的所有句子的数目，Sf(wi)为所述句子序列中出现过词汇i的句子的数目。

本实施方式中，通过上式计算出词汇的权重值后，根据预定权重阈值，挑选出权值较高的词汇放入关键词集合中；所述预定权重阈值可以根据经验值或实验获得。

本例子中，一次文本主题生成流程如图4所示。

根据文本服务器数据库中的文本信息，首先进行终端识别，获取终端的相应信息后，分别进行正文摘要生成和附件摘要生成，根据规则库中的相应规则分别生成正文和附件的摘要；然后对文本进行状态更新后发送给所述文本服务器数据库，并清理临时文件。

实施例二、一种文本主题生成装置，包括：

转换模块，用于将文本正文转换为句子序列，并进行分词；

选择模块，用于从分词得到的词汇中，提取代表人名、时间、地点的词汇保存进关键词集合；

权重筛选模块，用于对于剩余的各词汇，分别根据该词汇在文本正文中出现的频率，及包含该词汇的句子在所有句子中的比例计算该词汇的权重值；将权重值超过预定权重阈值的词汇保存进所述关键词集合；

概率筛选模块，用于通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率，最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要，按照在所述邮件正文中的出现顺序输出。

本实施例的一种实施方式中，所述概率筛选模块还可以用于在所述转换模块进行分词前，判断文本正文中是否存在部分字符具有特殊格式，且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值，如果是则将所述具有特殊格式的字符作为所述摘要的组成部分；

所述转换模块对所述文本正文去除所述具有特殊格式的字符后的剩余文档进行分词。

本实施例的一种实施方式中，所述权重筛选模块计算出的权重值可以为：

其中，Wf(wi)表示计算得到的词汇i的权重值，F(wi)表示词汇i在所述文本正文中出现的频率，S表示所述句子序列中包含的所有句子的数目，Sf(wi)为所述句子序列中出现过词汇i的句子的数目。

Claims

1.一种纸质文本主题生成装置，其特征在于，包括：

扫描模块，用于将文本扫描为电子文档；

转换模块，用于将文本正文转换为句子序列，并进行分词；

概率筛选模块，用于通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率，最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要，按照在所述文本正文中的出现顺序输出。

2.如权利要求1所述的装置，其特征在于，

所述概率筛选模块还用于在所述转换模块进行分词前，判断文本正文中是否存在部分字符具有特殊格式，且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值，如果是则将所述具有特殊格式的字符作为所述摘要的组成部分；

3.如权利要求1所述的装置，其特征在于，所述权重筛选模块计算出的权重值为：

4.一种文本主题生成方法，包括：

将纸质文本进行扫描；

将文本内容进行分词；

对于剩余的各词汇，分别根据该词汇在正文中出现的频率，及包含该词汇的句子在所有句子中的比例计算该词汇的权重值；将权重值超过预定权重阈值的词汇保存进所述关键词集合；

通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关

键词以外的各关键词成为摘要的概率，最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的题目一起作为摘要，按照在所述文本正文中的出现顺序输出。

5.如权利要求1所述的方法，其特征在于，所述进行分词的步骤前还包括：

6.如权利要求1所述的方法，其特征在于，所述权重值为：