CN108536655A

CN108536655A - 一种基于手持智能终端的场景化朗读音频制作方法及系统

Info

Publication number: CN108536655A
Application number: CN201711414780.4A
Authority: CN
Inventors: 孙仉茂; 纪德财
Original assignee: GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-09-14

Abstract

本发明提供一种基于手持智能终端的场景化朗读音频制作方法及系统。通过OCR识别、语音合成等新技术的应用，提出了基于手持智能终端的场景化朗读音频制作解决方案，提高信息内容的转换效率，降低信息与知识传播的成本，减少人们对获取信息与知识的代价，提升人们的用户体验。通过对OCR识别、语音合成等新技术的应用，对手持智能终端的展示内容进行采集并形成文字内容，通过对文字内容进行场景化识别，自动选择或手动设置背景音(如新闻播报的严谨、军事节目的激昂、故事文摘的轻快、校园的欢快等)，设置音频朗读速度，利用播音员音库的声音音色与背景音交叉融合生成音频文件，并提供给使用者进行保存与分享。

Description

一种基于手持智能终端的场景化朗读音频制作方法及系统

技术领域

本发明涉及文字自动播报技术领域，更具体地，涉及一种基于手持智能终端的场景化朗读音频制作方法及系统。

背景技术

以智能手机为代表的智能终端逐渐改变了人类的生活，现代人每天有海量的信息与知识均需要花费时间与精力去手动获取，双眼双手被占用加重现代人的负担，人们无法在走动或做其他事情的时候实时观看；互联网行业的自媒体人发布的优质文稿，在形成音频的过程中，找专业配音员的录制成本高，或使用常规的语音合成软件后的声音又过于机械化与乏味，降低听众的收听意愿。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是提供一种基于手持智能终端的场景化朗读音频制作方法，通过对OCR识别、语音合成等新技术的应用，对手持智能终端的展示内容进行采集并形成文字内容，通过对文字内容进行场景化识别，并且生成与使用场景相匹配的音频文件。

本发明的进一步目的是提供一种基于手持智能终端的场景化朗读音频制作系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于手持智能终端的场景化朗读音频制作方法，包括以下步骤：

S1：使用手持智能终端获取信息内容，并转化为文字格式；

S2：对文字内容进行格式化处理，包括自动分段、删除无效字符，最终获得有效的纯文本格式的内容；

S3：对文字内容的关键字进行自动识别，智能地预判该内容的使用场景；

S4：根据预判的使用场景选择播音员音库、背景音、语速和语调；

S5：生成场景化音频文件：根据所选择的播音员音库、语速和语调，通过语音合成技术将文字内容转化为音频，并加入背景音，生成MP3、AMR、WAV、WMA等文件格式的音频文件；

S6：将生成的音频文件提供给用户保存与分享。

优选地，所述手持智能终端为智能手机、iPad、平板电脑、PC电脑或智能手表。

优选地，步骤S1中，获取信息内容的途径包括以下四种方式：

通过文档文件导入，支持但不限于TXT、WORD、PPT、PDF等文件；

通过输入网页URL链接，自动识别与抓取文字内容；

通过手持智能终端在海报、杂志、报纸、电脑、平板等媒介上展示的文字、图片、视频等内容进行拍照，通过OCR技术获取文字内容；

通过编辑框录入内容，支持手动编辑文字，或复制文字后粘贴在编辑框中。

优选地，步骤S3中，所述使用场景包括但不限于新闻播报、军武介绍、故事文摘、校园广播等。

优选地，步骤S4具体包括：

S4.1：选择播音员音库：根据预判的使用场景自动选择或手动选择音库音色，如男声的低沉、女声的柔和细腻、明星的幽默等；

S4.2：选择背景音：根据预判的使用场景自动选择或手动选择背景音，如激昂的音乐、轻音乐、生日快乐歌等；

S4.3：选择语速、语调：根据预判的使用场景自动选择或手动选择朗读语速、语调，如新闻的正常朗读以及平稳语调、军武介绍的快速朗读以及激昂语调等。

优选地，步骤S6具体包括以下方式：

邮件发送：用户可输入邮箱地址，系统自动将相关内容与文件发送至用户邮箱；

直接下载到本地：用户可在终端界面直接下载音频文件到终端设备中；

社交工具发送音频文件：通过调用用户的微信、QQ、微博等社交工具进行分享，将音频文件发送给好友、群组，以及在朋友圈、个人空间分享；

社交工具分享音频信息：通过调用用户的微信、QQ等社交工具，将音频信息存储在后台服务端，生成分享卡片(带URL链接的图片，访问用户点击图片可打开音频展示页面)发送给好友，或生成二维码发送给好友，好友可通过二维码查看与下载；

网盘存储：通过调用用户的百度网盘、360云盘等第三方云存储服务，将音频文件存储在互联网网络存储空间。

一种基于手持智能终端的场景化朗读音频制作系统，包括手持智能终端的客户端和云服务端，所述云服务端包括文本格式智能处理模块、场景智能识别模块、播音员音库选择模块、背景音选择模块、语速/语调选择模块和场景化音频文件生成模块；

所述手持智能终端获取信息内容，转化为文字格式并上传到云服务器端；云服务器端的文本格式智能处理模块对文字内容进行格式化处理，包括自动分段、删除无效字符，最终获得有效的纯文本格式的内容；场景智能识别模块对文字内容的关键字进行自动识别，预判该内容的使用场景；场景智能识别模块、播音员音库选择模块、背景音选择模块分别根据预判的使用场景选择播音员音库、背景音、语速和语调；场景化音频文件生成模块根据所选择的播音员音库、语速和语调，通过语音合成技术将文字内容转化为音频，并加入背景音，生成MP3、AMR、WAV、WMA等文件格式的音频文件；手持智能终端接收将生成的音频文件提供给用户保存与分享。

与现有技术相比，本发明技术方案的有益效果是：本发明提供一种基于手持智能终端的场景化朗读音频制作方法及系统。通过OCR识别、语音合成等新技术的应用，提出了“基于手持智能终端的场景化朗读音频制作”解决方案，提高信息内容的转换效率，降低信息与知识传播的成本，减少人们对获取信息与知识的代价，提升人们的用户体验。通过对OCR识别、语音合成等新技术的应用，对手持智能终端的展示内容进行采集并形成文字内容，通过对文字内容进行场景化识别，自动选择或手动设置背景音(如新闻播报的严谨、军事节目的激昂、故事文摘的轻快、校园的欢快等)，设置音频朗读速度，利用播音员音库的声音音色与背景音交叉融合生成音频文件，并提供给使用者进行保存与分享。

附图说明

图1为实施例1基于手持智能终端的场景化朗读音频制作方法的流程图。

图2为实施例2基于手持智能终端的场景化朗读音频制作系统的框架图。

图3为场景智能识别模块原理框图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于手持智能终端的场景化朗读音频制作方法，包括以下步骤：

S1：使用智能手机、iPad、平板电脑、PC电脑或智能手表等手持智能终端获取信息内容，并转化为文字格式；

步骤S1中，获取信息内容的途径包括以下四种方式：

通过文档文件导入，支持但不限于TXT、WORD、PPT、PDF等文件；

通过输入网页URL链接，自动识别与抓取文字内容；

S3：对文字内容的关键字进行自动识别，智能地预判该内容的使用场景；使用场景包括但不限于新闻播报、军武介绍、故事文摘、校园广播等。

S4：根据预判的使用场景选择播音员音库、背景音、语速和语调；具体包括：

S6：将生成的音频文件提供给用户保存与分享。具体包括以下方式：

实施例2

如图2所示，一种基于手持智能终端的场景化朗读音频制作系统，该系统是由手持智能终端的客户端，以及云端的各类音库、场景识别模块、语音合成模块、图像文字识别模块、文件读取模块、网页取字模块、文字格式处理模块、网上支付模块、邮件服务模块组成。系统各组件简要介绍如下：

手持智能终端的客户端：该模块是用户使用服务的功能界面，负责对信息内容与知识进行采集，将采集后的图片、网页链接、文字等媒介数据传送到后台的云服务模块进行相应处理，并实时将处理后的文本内容与音频合成效果给用户进行查看与试听。客户端产品形态包括APP客户端、微信小程序、应用软件等。

播音员音库、背景音库(第三方提供)：播音员音库是第三方提供的利用真人声音的音色、音效制作成的语音包，可将文字内容合成音频，让合成音在音色、自然度等方面的表现均接近甚至超过了人声。背景音库是第三方提供的歌曲的背景音乐。

场景智能识别模块：如图3所示，场景智能识别模块是对采集的文字内容进行关键字匹配，通过后台建立的关键字组合模型进行匹配，从而实现对使用场景的识别。

语音合成模块(第三方提供)：语音合成模块是第三方云平台提供的语音合成系统，选用播音员音库的音源音色作为基础发声，将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。图像文字识别模块(第三方提供)：图像文字识别模块是第三方云平台提供的图像文字识别系统，能对图片、海报、杂志、电脑、手机等展示媒介上的混合排版图文、表格、票据、卡片、带背景图片的文字、视频进行文字识别，获取文字内容结果。

文件读取模块：文件读取模块是集成了TXT、WORD、PPT、PDF等多种常见文档的文件读取引擎与接口，能将导入文件中的文字内容进行采集。

网页取字模块：网页取字模块是用户输入一个网页链接地址，后台基于网络爬虫的原理，通过此URL链接将网页上的文本与无效字符、程序、脚本进行区分，以此获取有效的文字内容。

文本格式智能处理模块：文本格式智能处理模块是对获取的文字内容进行二次处理，对杂乱的、缺少标点符号的文本进行格式化，如自动分自然段、添加标点符号，增加停顿符号(语音合成时自动识别与停顿)等处理。

网上支付模块：网上支付模块是集成了第三方提供的网上支付接口，如微信、支付宝等，方便用户订购付费业务。

文件存储转发模块：用户可通过邮件、直接下载、社交工具分享(如通过社交工具发送文件给好友、群组、朋友圈、个人空间；或生成并发送带URL链接的卡片、二维码)、网盘存储等方式将音频文件进行保存与转发。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于手持智能终端的场景化朗读音频制作方法，其特征在于，包括以下步骤：

S1：使用手持智能终端获取信息内容，并转化为文字格式；

S3：对文字内容的关键字进行自动识别，预判该内容的使用场景；

S5：生成场景化音频文件：根据所选择的播音员音库、语速和语调，通过语音合成技术将文字内容转化为音频，并加入背景音，生成音频文件；

S6：将生成的音频文件提供给用户保存与分享。

2.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法，其特征在于，所述手持智能终端为智能手机、iPad、平板电脑、PC电脑或智能手表。

3.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法，其特征在于，步骤S1中，获取信息内容的途径包括以下四种方式：

通过文档文件导入，支持但不限于TXT、WORD、PPT、PDF文件；

通过输入网页URL链接，自动识别与抓取文字内容；

通过手持智能终端在海报、杂志、报纸、电脑、平板媒介上展示的文字、图片、视频等内容进行拍照，通过OCR技术获取文字内容；

4.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法，其特征在于，步骤S3中，所述使用场景包括但不限于新闻播报、军武介绍、故事文摘、校园广播。

5.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法，其特征在于，步骤S4具体包括：

S4.1：选择播音员音库：根据预判的使用场景自动选择或手动选择音库音色；

S4.2：选择背景音：根据预判的使用场景自动选择或手动选择背景音；

S4.3：选择语速、语调：根据预判的使用场景自动选择或手动选择朗读语速、语调。

6.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法，其特征在于，步骤S6具体包括以下方式：

社交工具分享音频信息：通过调用用户的微信、QQ等社交工具，将音频信息存储在后台服务端，生成分享卡片发送给好友，或生成二维码发送给好友，好友可通过二维码查看与下载；

网盘存储：通过调用用户的百度网盘、360云盘第三方云存储服务，将音频文件存储在互联网网络存储空间。

7.一种基于手持智能终端的场景化朗读音频制作系统，其特征在于，包括手持智能终端和云服务端，所述云服务端包括文本格式智能处理模块、场景智能识别模块、播音员音库选择模块、背景音选择模块、语速/语调选择模块和场景化音频文件生成模块；

所述手持智能终端获取信息内容，转化为文字格式并上传到云服务器端；云服务器端的文本格式智能处理模块对文字内容进行格式化处理，包括自动分段、删除无效字符，最终获得有效的纯文本格式的内容；场景智能识别模块对文字内容的关键字进行自动识别，预判该内容的使用场景；场景智能识别模块、播音员音库选择模块、背景音选择模块分别根据预判的使用场景选择播音员音库、背景音、语速和语调；场景化音频文件生成模块根据所选择的播音员音库、语速和语调，通过语音合成技术将文字内容转化为音频，并加入背景音，生成音频文件；手持智能终端接收将生成的音频文件提供给用户保存与分享。