CN105786790A - 一种纸质文本生成装置及方法 - Google Patents
一种纸质文本生成装置及方法 Download PDFInfo
- Publication number
- CN105786790A CN105786790A CN201410785287.3A CN201410785287A CN105786790A CN 105786790 A CN105786790 A CN 105786790A CN 201410785287 A CN201410785287 A CN 201410785287A CN 105786790 A CN105786790 A CN 105786790A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- text
- sentence
- text body
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种纸质文本主题生成方法及装置;所述方法包括:扫描纸质文件,将文本正文转换为句子序列,并进行分词;从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集合;对于剩余的各词汇,分别根据该词汇在文本正文中出现的频率,及包含该词汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率,将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要,按照在所述文本正文中的出现顺序输出。本发明能够适用于纸质文本的摘要生成。
Description
技术领域
本发明涉及网络领域,尤其一种纸质文本主题生成装置及方法。
背景技术
网络通信的发展,电子文本越来越多,便于人们快速查询。电子文本,是一种用电子手段提供信息交换的通信方式,是互联网应用最广的服务。通过网络的电子文本系统,用户可以以低廉的价格、快速的方式,与世界上任何一个角落的网络用户联系,而随着各种移动终端的迅速发展,更使得用户可以随时随地的收发邮件。
电子文本可以是文字、图像、声音等多种形式。同时,用户可以得到大量免费的新闻、专题文本,并实现轻松的信息搜索。电子文本的存在极大的方便了人与人之间的沟通与交流,促进了社会的发展。云技术的发展,更逐步实现了文本的云化存储、多终端附件共享、云化管理等功能。
如果当用户使用移动终端时,只发送文本的摘要供用户大概了解文本内容,用户可以根据摘要筛选出重要的文本进行接收,对于其它文本则可以等使用无线网或电脑时再接收,从而有效减少流量的使用。但是,现有的摘要生成算法通常是针对内容较长的文档设计的,生成的摘要都是基于句子形成的,考虑到文本内容大多篇幅有限,其格式也与传统书信较为相仿,正文的句子较少,如果采用现有的摘要算法提取句子作为摘要,则可能只会提取到文本正文的某一句,从而使得一些较重要的信息被忽略。使用现有的摘要算法无法提取出有效的摘要;另外云系统中需要对批量文本进行摘要提取,现有的摘要生成算法比较复杂,并不适用。
发明内容
本发明要解决的技术问题是提供一种适用于纸质文本的摘要生成方案。为了解决上述问题,本发明提供了一种文本主题生成方法,包括:
一种纸质文本主题生成装置,其特征在于,包括:扫描模块,用于将文本扫描为电子文档;转换模块,用于将文本正文转换为句子序列,并进行分词;选择模块,用于从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集合;
权重筛选模块,用于对于剩余的各词汇,分别根据该词汇在文本正文中出现的频率,及包含该词汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;概率筛选模块,用于通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率,最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要,按照在所述文本正文中的出现顺序输出。
进一步地,所述概率筛选模块还用于在所述转换模块进行分词前,判断文本正文中是否存在部分字符具有特殊格式,且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值,如果是则将所述具有特殊格式的字符作为所述摘要的组成部分;所述转换模块对所述文本正文去除所述具有特殊格式的字符后的剩余文档进行分词。
进一步地,所述权重筛选模块计算出的权重值为:,其中,Wf(wi)表示计算得到的词汇i的权重值,F(wi)表示词汇i在所述文本正文中出现的频率,S表示所述句子序列中包含的所有句子的数目,Sf(wi)为所述句子序列中出现过词汇i的句子的数目。
一种文本主题生成方法,包括:将纸质文本进行扫描;将文本内容进行分词;
从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集合;
对于剩余的各词汇,分别根据该词汇在正文中出现的频率,及包含该词汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率,最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的题目一起作为摘要,按照在所述文本正文中的出现顺序输出。
进一步地,所述进行分词的步骤前还包括:判断文本正文中是否存在部分字符具有特殊格式,且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值,如果是则将所述具有特殊格式的字符作为所述摘要的组成部分;
从所述文本正文中去除所述具有特殊格式的字符后,对剩余文档进行所述进行分词的步骤。
进一步地,所述权重值为:其中,Wf(wi)表示计算得到的词汇i的权重值,F(wi)表示词汇i在所述文本正文中出现的频率,S表示所述句子序列中包含的所有句子的数目,Sf(wi)为所述句子序列中出现过词汇i的句子的数目。
本发明的技术方案可以批量、方便地通过扫描使纸质文本转换为电子文本,然后进行摘要提取,使用户在信号不好或文本较大等情况下可以迅速的对文本有个简要了解;其中,文本正文的摘要生成是通过抽取关键词并处理,从而形成摘要。本发明的优化方案中,对于文本正文具备的图片,根据识别出的终端的分辨率进行图片压缩,从而减小其大小并更好的匹配终端。
附图说明
图1为文本主题生成方法的流程示意图;
图2为文本主题生成引擎的架构示意图;
图3为文本主题生成的流程示意图;
图4为正文摘要生成的流程图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
实施例一、一种文本主题生成方法,如图1所示,包括:
对纸质的文件进行扫描转换;
将文本正文转换为句子序列,并进行分词;
从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集
合;
对于剩余的各词汇,分别根据该词汇在文本正文中出现的频率,及包含该词
汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;
通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点
的关键词以外的各关键词成为摘要的概率,最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要,按照在所述文本正文中的出现顺序输出。
本实施例考虑到文本正文内容大多篇幅有限,且考虑到可能需要对批量文本进行摘要提取,必须选取快速、简洁的方法;因此本实施例采取基于特征的方法,将文本正文文本视为句子的线性序列,将句子视为词的线性序列,通过提取关键词、计算词汇的权重值及频率,来获得摘要信息。
本实施例中,如果摘要中的一个关键词在所述文本正文中多次出现,则按照出现顺序输出时,以该关键词第一次在所述文本正文中出现的位置为准。
本实施例中,上述步骤可以在文本服务器上进行,也可以基于云环境实施,比如将文本主题的生成、收发引擎构建于服务器前端,其引擎架构在云端上,利用云计算的能力可对文本主题生成、发送进行批量处理。
本实施例中,可以利用现有的文本挖掘技术实现将文本正文转换为句子序列、对文档分词、提取代表人名、时间、地点的词汇的步骤;比如可以利用标点符号将文本中的文本转换成句子序列;可以利用给定的中文词表,进行对文档分词和提取代表人名、时间、地点的词汇的步骤。
本实施例的一种实施方式中,所述进行分词的步骤前还可以包括:
判断文本正文中是否存在部分字符具有特殊格式,且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值,如果是则将所述具有特殊格式的字符作为所述摘要的组成部分;
从所述文本正文中去除所述具有特殊格式的字符后,对剩余文档进行所述进行分词的步骤。
本实施方式中,所述特殊格式可以但不限于包括:加粗、斜体、带有下划线、带有删除线等。
本实施例的一种实施方式中,所述权重值具体可以为:其中,Wf(wi)表示计算得到的词汇i的权重值,F(wi)表示词汇i在所述文本正文中出现的频率,S表示所述句子序列中包含的所有句子的数目,Sf(wi)为所述句子序列中出现过词汇i的句子的数目。
本实施方式中,通过上式计算出词汇的权重值后,根据预定权重阈值,挑选出权值较高的词汇放入关键词集合中;所述预定权重阈值可以根据经验值或实验获得。
本例子中,一次文本主题生成流程如图4所示。
根据文本服务器数据库中的文本信息,首先进行终端识别,获取终端的相应信息后,分别进行正文摘要生成和附件摘要生成,根据规则库中的相应规则分别生成正文和附件的摘要;然后对文本进行状态更新后发送给所述文本服务器数据库,并清理临时文件。
实施例二、一种文本主题生成装置,包括:
转换模块,用于将文本正文转换为句子序列,并进行分词;
选择模块,用于从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集合;
权重筛选模块,用于对于剩余的各词汇,分别根据该词汇在文本正文中出现的频率,及包含该词汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;
概率筛选模块,用于通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率,最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要,按照在所述邮件正文中的出现顺序输出。
本实施例的一种实施方式中,所述概率筛选模块还可以用于在所述转换模块进行分词前,判断文本正文中是否存在部分字符具有特殊格式,且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值,如果是则将所述具有特殊格式的字符作为所述摘要的组成部分;
所述转换模块对所述文本正文去除所述具有特殊格式的字符后的剩余文档进行分词。
本实施例的一种实施方式中,所述权重筛选模块计算出的权重值可以为:
其中,Wf(wi)表示计算得到的词汇i的权重值,F(wi)表示词汇i在所述文本正文中出现的频率,S表示所述句子序列中包含的所有句子的数目,Sf(wi)为所述句子序列中出现过词汇i的句子的数目。
Claims (6)
1.一种纸质文本主题生成装置,其特征在于,包括:
扫描模块,用于将文本扫描为电子文档;
转换模块,用于将文本正文转换为句子序列,并进行分词;
选择模块,用于从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集合;
权重筛选模块,用于对于剩余的各词汇,分别根据该词汇在文本正文中出现的频率,及包含该词汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;
概率筛选模块,用于通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关键词以外的各关键词成为摘要的概率,最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的主题一起作为摘要,按照在所述文本正文中的出现顺序输出。
2.如权利要求1所述的装置,其特征在于,
所述概率筛选模块还用于在所述转换模块进行分词前,判断文本正文中是否存在部分字符具有特殊格式,且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值,如果是则将所述具有特殊格式的字符作为所述摘要的组成部分;
所述转换模块对所述文本正文去除所述具有特殊格式的字符后的剩余文档进行分词。
3.如权利要求1所述的装置,其特征在于,所述权重筛选模块计算出的权重值为:
其中,Wf(wi)表示计算得到的词汇i的权重值,F(wi)表示词汇i在所述文本正文中出现的频率,S表示所述句子序列中包含的所有句子的数目,Sf(wi)为所述句子序列中出现过词汇i的句子的数目。
4.一种文本主题生成方法,包括:
将纸质文本进行扫描;
将文本内容进行分词;
从分词得到的词汇中,提取代表人名、时间、地点的词汇保存进关键词集合;
对于剩余的各词汇,分别根据该词汇在正文中出现的频率,及包含该词汇的句子在所有句子中的比例计算该词汇的权重值;将权重值超过预定权重阈值的词汇保存进所述关键词集合;
通过朴素贝叶斯分类模型分别计算所述关键词集合中代表人名、时间、地点的关
键词以外的各关键词成为摘要的概率,最后将概率高于预定的概率阈值的关键词、代表人名、时间、地点的关键词和所述文本的题目一起作为摘要,按照在所述文本正文中的出现顺序输出。
5.如权利要求1所述的方法,其特征在于,所述进行分词的步骤前还包括:
判断文本正文中是否存在部分字符具有特殊格式,且具有特殊格式的字符在所述文本正文中所占的比例小于预定比例阈值,如果是则将所述具有特殊格式的字符作为所述摘要的组成部分;
从所述文本正文中去除所述具有特殊格式的字符后,对剩余文档进行所述进行分词的步骤。
6.如权利要求1所述的方法,其特征在于,所述权重值为:
其中,Wf(wi)表示计算得到的词汇i的权重值,F(wi)表示词汇i在所述文本正文中出现的频率,S表示所述句子序列中包含的所有句子的数目,Sf(wi)为所述句子序列中出现过词汇i的句子的数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410785287.3A CN105786790A (zh) | 2014-12-18 | 2014-12-18 | 一种纸质文本生成装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410785287.3A CN105786790A (zh) | 2014-12-18 | 2014-12-18 | 一种纸质文本生成装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105786790A true CN105786790A (zh) | 2016-07-20 |
Family
ID=56374118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410785287.3A Pending CN105786790A (zh) | 2014-12-18 | 2014-12-18 | 一种纸质文本生成装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105786790A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888976A (zh) * | 2019-11-14 | 2020-03-17 | 北京香侬慧语科技有限责任公司 | 一种文本摘要生成方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索系统 |
JP2013030089A (ja) * | 2011-07-29 | 2013-02-07 | E-Jidai:Kk | 文書検索システムおよび文書検索プログラム |
CN104182549A (zh) * | 2014-09-15 | 2014-12-03 | 中国联合网络通信集团有限公司 | 一种电子邮件摘要生成方法及装置 |
-
2014
- 2014-12-18 CN CN201410785287.3A patent/CN105786790A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246492A (zh) * | 2008-02-26 | 2008-08-20 | 华中科技大学 | 基于自然语言的全文检索系统 |
JP2013030089A (ja) * | 2011-07-29 | 2013-02-07 | E-Jidai:Kk | 文書検索システムおよび文書検索プログラム |
CN104182549A (zh) * | 2014-09-15 | 2014-12-03 | 中国联合网络通信集团有限公司 | 一种电子邮件摘要生成方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888976A (zh) * | 2019-11-14 | 2020-03-17 | 北京香侬慧语科技有限责任公司 | 一种文本摘要生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101708508B1 (ko) | 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법 | |
JP4851763B2 (ja) | イメージキャプチャー装置を使った文書検索技術 | |
JP5775348B2 (ja) | エンティティ類似度の算出方法 | |
CN103020140B (zh) | 一种对互联网用户评论内容自动过滤的方法和装置 | |
CN101000623A (zh) | 通过手机拍照进行图像识别搜索的方法及采用该方法的装置 | |
JP2006350551A5 (zh) | ||
WO2006124473A3 (en) | System and method for capturing and processing business data | |
CN102831200A (zh) | 一种基于图像文字识别的商品推送方法和装置 | |
CN108768824B (zh) | 信息处理方法及装置 | |
US20110246562A1 (en) | visual communication method in a microblog | |
CN104919522A (zh) | 分布式nlu/nlp | |
CN104182549A (zh) | 一种电子邮件摘要生成方法及装置 | |
CN102902362A (zh) | 文字输入方法及系统 | |
CN104158945A (zh) | 通话信息获取方法、装置及系统 | |
KR102373884B1 (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
CN103546623A (zh) | 用于发送语音信息及其文本描述信息的方法、装置与设备 | |
CN103279861A (zh) | Pcb工程问题对比分析及其结果发送的方法和装置 | |
CN108712466A (zh) | 一种基于Gaussian ATM和词嵌入的语义稀疏Web服务发现方法 | |
CN112434510A (zh) | 一种信息处理方法、装置、电子设备和存储介质 | |
CN107766498A (zh) | 用于生成信息的方法和装置 | |
CN103455479A (zh) | 一种新建联系人的方法及终端 | |
CN112784011A (zh) | 一种基于cnn和lstm的情感问题处理方法、装置和介质 | |
CN106570003B (zh) | 数据推送方法及装置 | |
CN105786790A (zh) | 一种纸质文本生成装置及方法 | |
CN111353070A (zh) | 视频标题的处理方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160720 |
|
WD01 | Invention patent application deemed withdrawn after publication |