CN112685556A - 一种新闻文本自动摘要及语音播报系统 - Google Patents
一种新闻文本自动摘要及语音播报系统 Download PDFInfo
- Publication number
- CN112685556A CN112685556A CN202011591547.5A CN202011591547A CN112685556A CN 112685556 A CN112685556 A CN 112685556A CN 202011591547 A CN202011591547 A CN 202011591547A CN 112685556 A CN112685556 A CN 112685556A
- Authority
- CN
- China
- Prior art keywords
- news
- text
- summarization
- automatic
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 13
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000001308 synthesis method Methods 0.000 claims abstract description 6
- 238000007619 statistical method Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims description 10
- 241000590419 Polygonia interrogationis Species 0.000 claims description 4
- 210000001072 colon Anatomy 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006698 induction Effects 0.000 abstract 1
- 230000007547 defect Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明属于人工智能技术领域,公开了一种新闻文本自动摘要及语音播报系统及方法,基于潜在语义分析方法,实现新闻文本摘要的自动生成;基于语音合成方法,实现摘要及全文的语音播报;综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳及播报,潜在语义分析方法包括通过统计的方法,提取并量化潜在的语义结构,消除同义词、多义词的影响,提高文本准确性;新闻文本摘要的自动生成包括通过大量文本数据的训练,自动摘要系统实现对于任意长度文本,摘要的可控生成,并且可以通过参数控制输出摘要的句数。本发明有效地提升了信息的获取效率,丰富了新闻的展现形式。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种新闻文本自动摘要及语音播报系统。
背景技术
目前:为了对企业信息查询平台和平台专业版新闻舆情维度进行优化以及舆情子站的搭建,扩展新闻来源并提高新闻时效性,需要对新闻舆情维度进行全面改造。在展示新闻列表时,不仅需要展示新闻题目,同时需要显示新闻摘要作为该新闻正文的简介,方便用户对该新闻正文的大致浏览。
一般地,直接截取正文的一部分作为摘要显示,例如新闻正文的第一段内容作为新闻摘要显示给用户。可见,现有新闻摘要中,仅仅采用截取新闻正文前几百字的方式进行显示,导致新闻摘要与搜索关键词的相关度不够高,展示效果不好。为了提高新闻摘要的准确度,一般都是通过新闻编辑人员进行人为提取,但是这种方式效率低下,无法适应后互联网时代下对海量新闻内容摘要的实际需要,而且浪费人力,人员成本高。
通过上述分析,现有技术存在的问题及缺陷为:
(1)人为提取新闻摘要的方式,效率低下,无法适应后互联网时代下对海量新闻内容摘要的实际需要。
(2)浪费人力,人员成本高
解决以上问题及缺陷的难度为:
单纯凭借人工无法解决。
解决以上问题及缺陷的意义为:
解决了大量的新闻编辑人员人力成本,实现了对海量新闻内容的快速摘要,提升了用户的资讯获取效率,并且优化了新闻阅读体验(新闻简讯语音播报)。
发明内容
针对现有技术存在的问题,本发明提供了一种新闻文本自动摘要及语音播报系统。
本发明是这样实现的,一种新闻文本自动摘要及语音播报方法包括:
步骤一,基于潜在语义分析方法,实现新闻文本摘要的自动生成;
步骤二,基于语音合成方法,实现摘要及全文的语音播报;
步骤三,综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳及播报。
进一步,所述潜在语义分析方法包括:
通过统计的方法,提取并量化潜在的语义结构,消除同义词、多义词的影响,提高文本准确性。
进一步,所述新闻文本摘要的自动生成包括:
通过大量文本数据的训练,自动摘要系统实现对于任意长度文本,摘要的可控生成,并且可以通过参数控制输出摘要的句数。
进一步,所述新闻文本的获取方式为新闻页面链接、文本文件或字符串。
进一步,所述新闻文本在获取后首先进行预处理,所述预处理采用的方法具体包括:
(1)中文存在复杂的符号:将中文符号分为三类,①停顿,如逗号、顿号、冒号、句号等,在这些位置进行断句,单独成句并进行模型推理;②不停顿,如书名号、引号等,对这些符号进行删除处理;③导致语气变化,如问号,保留并导入模型进行推理;
(2)根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接;
(3)采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别采用英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率;
(4)基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。
进一步,步骤二中,所述语音合成方法采用espnet2框架,训练了新闻播报场景下的中文、英文女声语音合成模型。
本发明的另一目的在于提供一种新闻文本自动摘要及语音播报系统,所述新闻文本自动摘要及语音播报系统包括:
新闻文本自动摘要模块:采用文本自动摘要技术,从任意长度的新闻文本中抽取权重最高(最能体现新闻主旨)的3句作为摘要,实现了长文本的快速归纳。
语音播报模块:采用语音合成技术,通过模型推理,将文本内容转换成相应的音频。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明能够实现对新闻文本的自动摘要及语音播报,能够降低人力成本、优化阅读体验(特指简讯语音播报这种新颖的新闻呈现方式)、提升信息获取效率。
本发明有效地提升了信息的获取效率,丰富了新闻的展现形式。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的新闻文本自动摘要及语音播报方法流程图。
图2是本发明实施例提供的新闻文本的预处理方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种新闻文本自动摘要及语音播报系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的新闻文本自动摘要及语音播报方法包括:
S101,基于潜在语义分析方法,实现新闻文本摘要的自动生成;
S102,基于语音合成方法,实现摘要及全文的语音播报;
S103,综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳及播报。
如图2所示,本发明实施例提供的新闻文本的预处理方法包括:
S201,中文存在复杂的符号:将中文符号分为三类,①停顿,如逗号、顿号、冒号、句号等,在这些位置进行断句,单独成句并进行模型推理;②不停顿,如书名号、引号等,对这些符号进行删除处理;③导致语气变化,如问号,保留并导入模型进行推理。
S202,根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接;
S203,采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别采用英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率;
S204,基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。
下面结合具体实施例对本发明进一步进行描述:
①基于NLP--LSA(潜在语义分析)技术,实现了新闻文本摘要的自动生成
1.1自然语言处理在文本摘要中的应用
自然语言处理(NLP)是现代计算机科学和人工智能领域的一个重要分支,是一门融合了语言学、数学、计算机科学的科学。主要应用有,搜索自动更正、语言翻译、聊天机器人、定向广告等。
1.2LSA介绍(主要应用的技术)
潜在语义分析(LSA)是一种通过对大量文本集进行分析,自动生成关键字-语义映射规则的方法。通过统计的方法,提取并量化潜在的语义结构,消除同义词、多义词的影响,提高文本准确性。该技术在信息过滤、信息分类、交叉语言检索等领域得到广泛应用。
1.3文本摘要的可控生成
通过大量文本数据的训练,自动摘要系统实现了对于任意长度文本,摘要的可控生成,并且可以通过参数控制输出摘要的句数(以句号或逗号作为整句分割条件)。
1.4文本获取方式
本系统对于原始输入有良好的兼容性,通过:①新闻页面链接;②文本文件(txt格式);③字符串;均可以实现对新闻文本的快速获取。
②基于语音合成技术,实现了摘要及全文的语音播报
语音合成技术(TTS)是一种将任意文字信息实时转化为标准流畅语音的技术。采用espnet2框架,训练了新闻播报场景下的中文、英文女声语音合成(Text to Speech)模型。
1.中文存在复杂的符号。数据集中只存在逗号和句号的使用情况,对此,提出了对原始输入进行预处理的解决方案。将中文符号分为三类,①停顿,如逗号、顿号、冒号、句号等,在这些位置进行断句,单独成句并进行模型推理;②不停顿,如书名号、引号等,对这些符号进行删除处理;③导致语气变化,如问号,保留并导入模型进行推理。
2.长句的模型推理会占用大量显存资源,甚至超出显存的现有容量,针对这一问题,根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接。实际测试表明,该方法对于长句的发音规律几乎不存在影响,并且将显存占用控制在2GB以下,降低了对于长句语音合成的硬件要求。
3.新闻中,存在一定量的外来词,如app。在中文语境下,模型无法识别这些词语,对此,采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别采用英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率。
4.汉语中大量的使用阿拉伯数字,针对这一问题,基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。实际测试表明,预处理后,汉语长句中数字发音的正确率达90%以上。
③自动摘要及语音播报系统
针对新闻播报这一特定场景,综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高(最能体现新闻主旨)的3句作为摘要,实现了长文本的快速归纳及播报,提升了用户获取信息的效率,扩展了媒体新闻的展现形式。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种新闻文本自动摘要及语音播报方法,其特征在于,所述新闻文本自动摘要及语音播报方法包括:
步骤一,基于潜在语义分析方法,实现新闻文本摘要的自动生成;
步骤二,基于语音合成方法,实现摘要及全文的语音播报;
步骤三,综合采用文本自动摘要技术和语音合成技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳及播报。
2.如权利要求1所述的新闻文本自动摘要及语音播报方法,其特征在于,所述潜在语义分析方法包括:
通过统计的方法,提取并量化潜在的语义结构,消除同义词、多义词的影响,提高文本准确性。
3.如权利要求1所述的新闻文本自动摘要及语音播报方法,其特征在于,所述新闻文本摘要的自动生成包括:
通过大量文本数据的训练,自动摘要系统实现对于任意长度文本,摘要的可控生成,并且可以通过参数控制输出摘要的句数。
4.如权利要求1所述的新闻文本自动摘要及语音播报方法,其特征在于,所述新闻文本的获取方式为新闻页面链接、文本文件或字符串。
5.如权利要求1所述的新闻文本自动摘要及语音播报方法,其特征在于,所述新闻文本在获取后首先进行预处理,所述预处理采用的方法具体包括:
(1)中文存在复杂的符号:将中文符号分为三类,①停顿,如逗号、顿号、冒号、句号,在这些位置进行断句,单独成句并进行模型推理;②不停顿,如书名号、引号,对这些符号进行删除处理;③导致语气变化,如问号,保留并导入模型进行推理;
(2)根据表示停顿的符号位置,对长句进行切分,逐次进行推理,并对结果进行拼接;
(3)采用中英文模型相结合的方法,设计算法对外来词和汉字进行区分,并分别采用英文模型和中文模型处理,其中,对于出现频率较高的英文字母朗读,在本地以数组的形式保存其标准读音,实现本地调用,提升模型效率;
(4)基于cn2an库和自有算法,通过对原始数据的预处理,将阿拉伯数字转为对应的汉字,再进行模型推理。
6.如权利要求1所述的新闻文本自动摘要及语音播报方法,其特征在于,步骤二中,所述语音合成方法采用espnet2框架,训练了新闻播报场景下的中文、英文女声语音合成模型。
7.一种用于权利要求1~5任意一项所述的新闻文本自动摘要及语音播报方法的新闻文本自动摘要及语音播报系统,其特征在于,所述新闻文本自动摘要及语音播报系统包括:
新闻文本自动摘要模块:采用文本自动摘要技术,从任意长度的新闻文本中抽取权重最高的3句作为摘要,实现长文本的快速归纳;
语音播报模块:采用语音合成技术,通过模型推理,将文本内容转换成相应的音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591547.5A CN112685556A (zh) | 2020-12-29 | 2020-12-29 | 一种新闻文本自动摘要及语音播报系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591547.5A CN112685556A (zh) | 2020-12-29 | 2020-12-29 | 一种新闻文本自动摘要及语音播报系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112685556A true CN112685556A (zh) | 2021-04-20 |
Family
ID=75453794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011591547.5A Pending CN112685556A (zh) | 2020-12-29 | 2020-12-29 | 一种新闻文本自动摘要及语音播报系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685556A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116414972A (zh) * | 2023-03-08 | 2023-07-11 | 浙江方正印务有限公司 | 一种资讯内容自动播报和生成简讯的方法 |
WO2023142590A1 (zh) * | 2022-01-30 | 2023-08-03 | 腾讯科技(深圳)有限公司 | 手语视频的生成方法、装置、计算机设备及存储介质 |
CN117743630A (zh) * | 2024-02-20 | 2024-03-22 | 卓世未来(天津)科技有限公司 | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
CN107273474A (zh) * | 2017-06-08 | 2017-10-20 | 成都数联铭品科技有限公司 | 基于潜在语义分析的自动摘要抽取方法及系统 |
CN107911411A (zh) * | 2017-10-17 | 2018-04-13 | 广东广业开元科技有限公司 | 一种基于语音播报的手机新闻系统及其处理方法 |
CN108388680A (zh) * | 2018-04-17 | 2018-08-10 | 杭州政信金服互联网科技有限公司 | 一种获取新闻信息的方法及系统 |
-
2020
- 2020-12-29 CN CN202011591547.5A patent/CN112685556A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106098056A (zh) * | 2016-06-14 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
CN107273474A (zh) * | 2017-06-08 | 2017-10-20 | 成都数联铭品科技有限公司 | 基于潜在语义分析的自动摘要抽取方法及系统 |
CN107911411A (zh) * | 2017-10-17 | 2018-04-13 | 广东广业开元科技有限公司 | 一种基于语音播报的手机新闻系统及其处理方法 |
CN108388680A (zh) * | 2018-04-17 | 2018-08-10 | 杭州政信金服互联网科技有限公司 | 一种获取新闻信息的方法及系统 |
Non-Patent Citations (2)
Title |
---|
官礼和: ""Internet网络新闻文本自动摘要的研究"", 《计算机工程与设计》 * |
高扬: "《人工智能与机器人先进技术丛书 智能摘要与深度学习》", 北京理工大学出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023142590A1 (zh) * | 2022-01-30 | 2023-08-03 | 腾讯科技(深圳)有限公司 | 手语视频的生成方法、装置、计算机设备及存储介质 |
CN116561294A (zh) * | 2022-01-30 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 手语视频的生成方法、装置、计算机设备及存储介质 |
CN116414972A (zh) * | 2023-03-08 | 2023-07-11 | 浙江方正印务有限公司 | 一种资讯内容自动播报和生成简讯的方法 |
CN116414972B (zh) * | 2023-03-08 | 2024-02-20 | 浙江方正印务有限公司 | 一种资讯内容自动播报和生成简讯的方法 |
CN117743630A (zh) * | 2024-02-20 | 2024-03-22 | 卓世未来(天津)科技有限公司 | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 |
CN117743630B (zh) * | 2024-02-20 | 2024-04-26 | 卓世未来(天津)科技有限公司 | 基于语音迁移学习的新闻播报个性化音频生成系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11256882B1 (en) | Translation training with cross-lingual multi-media support | |
CN112685556A (zh) | 一种新闻文本自动摘要及语音播报系统 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
Campillos Llanos | A Spanish learner oral corpus for computer-aided error analysis | |
CN116187282B (zh) | 文本复述模型的训练方法、文本复述方法及装置 | |
Vuković | Representing variation in a spoken corpus of an endangered dialect: the case of Torlak | |
CN111144116B (zh) | 一种文档知识结构化的抽取方法及装置 | |
CN112487151A (zh) | 文案生成方法及装置、存储介质与电子设备 | |
Vij et al. | Mapping Hindi text to Indian sign language with extension using Wordnet | |
Peng et al. | Interpretation of metaphors in Chinese poetry: Where did Li Bai place his emotions? | |
CN113038175B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
Lin et al. | Corpus linguistics | |
CN112347786A (zh) | 人工智能评分训练方法和装置 | |
Trivedi | Fundamentals of Natural Language Processing | |
US20170293597A1 (en) | Methods and systems for data processing | |
Egg et al. | Metaphor annotation for German | |
KR20110044345A (ko) | 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 | |
Tran et al. | Named entity recognition for Vietnamese spoken texts and its application in smart mobile voice interaction | |
Bannò et al. | Back to grammar: Using grammatical error correction to automatically assess L2 speaking proficiency | |
Iriawan et al. | Translation techniques of the complex sentences in bilingual textbook science biology 3 for junior high school grade IX published by Erlangga | |
Emna et al. | Neural machine translation of low resource languages: Application to transcriptions of tunisian dialect | |
Zhang | Russian speech conversion algorithm based on a parallel corpus and machine translation | |
Atwell | Classical and modern Arabic corpora | |
Fagbolu et al. | Digital yoruba corpus | |
Chua et al. | An Overview of Part-of-Speech Tagging Methods and Datasets for Malay Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210420 |