CN108536655A - 一种基于手持智能终端的场景化朗读音频制作方法及系统 - Google Patents

一种基于手持智能终端的场景化朗读音频制作方法及系统 Download PDF

Info

Publication number
CN108536655A
CN108536655A CN201711414780.4A CN201711414780A CN108536655A CN 108536655 A CN108536655 A CN 108536655A CN 201711414780 A CN201711414780 A CN 201711414780A CN 108536655 A CN108536655 A CN 108536655A
Authority
CN
China
Prior art keywords
audio
hand
content
word
intelligent terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711414780.4A
Other languages
English (en)
Inventor
孙仉茂
纪德财
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd filed Critical GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201711414780.4A priority Critical patent/CN108536655A/zh
Publication of CN108536655A publication Critical patent/CN108536655A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于手持智能终端的场景化朗读音频制作方法及系统。通过OCR识别、语音合成等新技术的应用,提出了基于手持智能终端的场景化朗读音频制作解决方案,提高信息内容的转换效率,降低信息与知识传播的成本,减少人们对获取信息与知识的代价,提升人们的用户体验。通过对OCR识别、语音合成等新技术的应用,对手持智能终端的展示内容进行采集并形成文字内容,通过对文字内容进行场景化识别,自动选择或手动设置背景音(如新闻播报的严谨、军事节目的激昂、故事文摘的轻快、校园的欢快等),设置音频朗读速度,利用播音员音库的声音音色与背景音交叉融合生成音频文件,并提供给使用者进行保存与分享。

Description

一种基于手持智能终端的场景化朗读音频制作方法及系统
技术领域
本发明涉及文字自动播报技术领域,更具体地,涉及一种基于手持智能终端的场景化朗读音频制作方法及系统。
背景技术
以智能手机为代表的智能终端逐渐改变了人类的生活,现代人每天有海量的信息与知识均需要花费时间与精力去手动获取,双眼双手被占用加重现代人的负担,人们无法在走动或做其他事情的时候实时观看;互联网行业的自媒体人发布的优质文稿,在形成音频的过程中,找专业配音员的录制成本高,或使用常规的语音合成软件后的声音又过于机械化与乏味,降低听众的收听意愿。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
本发明的首要目的是提供一种基于手持智能终端的场景化朗读音频制作方法,通过对OCR识别、语音合成等新技术的应用,对手持智能终端的展示内容进行采集并形成文字内容,通过对文字内容进行场景化识别,并且生成与使用场景相匹配的音频文件。
本发明的进一步目的是提供一种基于手持智能终端的场景化朗读音频制作系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于手持智能终端的场景化朗读音频制作方法,包括以下步骤:
S1:使用手持智能终端获取信息内容,并转化为文字格式;
S2:对文字内容进行格式化处理,包括自动分段、删除无效字符,最终获得有效的纯文本格式的内容;
S3:对文字内容的关键字进行自动识别,智能地预判该内容的使用场景;
S4:根据预判的使用场景选择播音员音库、背景音、语速和语调;
S5:生成场景化音频文件:根据所选择的播音员音库、语速和语调,通过语音合成技术将文字内容转化为音频,并加入背景音,生成MP3、AMR、WAV、WMA等文件格式的音频文件;
S6:将生成的音频文件提供给用户保存与分享。
优选地,所述手持智能终端为智能手机、iPad、平板电脑、PC电脑或智能手表。
优选地,步骤S1中,获取信息内容的途径包括以下四种方式:
通过文档文件导入,支持但不限于TXT、WORD、PPT、PDF等文件;
通过输入网页URL链接,自动识别与抓取文字内容;
通过手持智能终端在海报、杂志、报纸、电脑、平板等媒介上展示的文字、图片、视频等内容进行拍照,通过OCR技术获取文字内容;
通过编辑框录入内容,支持手动编辑文字,或复制文字后粘贴在编辑框中。
优选地,步骤S3中,所述使用场景包括但不限于新闻播报、军武介绍、故事文摘、校园广播等。
优选地,步骤S4具体包括:
S4.1:选择播音员音库:根据预判的使用场景自动选择或手动选择音库音色,如男声的低沉、女声的柔和细腻、明星的幽默等;
S4.2:选择背景音:根据预判的使用场景自动选择或手动选择背景音,如激昂的音乐、轻音乐、生日快乐歌等;
S4.3:选择语速、语调:根据预判的使用场景自动选择或手动选择朗读语速、语调,如新闻的正常朗读以及平稳语调、军武介绍的快速朗读以及激昂语调等。
优选地,步骤S6具体包括以下方式:
邮件发送:用户可输入邮箱地址,系统自动将相关内容与文件发送至用户邮箱;
直接下载到本地:用户可在终端界面直接下载音频文件到终端设备中;
社交工具发送音频文件:通过调用用户的微信、QQ、微博等社交工具进行分享,将音频文件发送给好友、群组,以及在朋友圈、个人空间分享;
社交工具分享音频信息:通过调用用户的微信、QQ等社交工具,将音频信息存储在后台服务端,生成分享卡片(带URL链接的图片,访问用户点击图片可打开音频展示页面)发送给好友,或生成二维码发送给好友,好友可通过二维码查看与下载;
网盘存储:通过调用用户的百度网盘、360云盘等第三方云存储服务,将音频文件存储在互联网网络存储空间。
一种基于手持智能终端的场景化朗读音频制作系统,包括手持智能终端的客户端和云服务端,所述云服务端包括文本格式智能处理模块、场景智能识别模块、播音员音库选择模块、背景音选择模块、语速/语调选择模块和场景化音频文件生成模块;
所述手持智能终端获取信息内容,转化为文字格式并上传到云服务器端;云服务器端的文本格式智能处理模块对文字内容进行格式化处理,包括自动分段、删除无效字符,最终获得有效的纯文本格式的内容;场景智能识别模块对文字内容的关键字进行自动识别,预判该内容的使用场景;场景智能识别模块、播音员音库选择模块、背景音选择模块分别根据预判的使用场景选择播音员音库、背景音、语速和语调;场景化音频文件生成模块根据所选择的播音员音库、语速和语调,通过语音合成技术将文字内容转化为音频,并加入背景音,生成MP3、AMR、WAV、WMA等文件格式的音频文件;手持智能终端接收将生成的音频文件提供给用户保存与分享。
与现有技术相比,本发明技术方案的有益效果是:本发明提供一种基于手持智能终端的场景化朗读音频制作方法及系统。通过OCR识别、语音合成等新技术的应用,提出了“基于手持智能终端的场景化朗读音频制作”解决方案,提高信息内容的转换效率,降低信息与知识传播的成本,减少人们对获取信息与知识的代价,提升人们的用户体验。通过对OCR识别、语音合成等新技术的应用,对手持智能终端的展示内容进行采集并形成文字内容,通过对文字内容进行场景化识别,自动选择或手动设置背景音(如新闻播报的严谨、军事节目的激昂、故事文摘的轻快、校园的欢快等),设置音频朗读速度,利用播音员音库的声音音色与背景音交叉融合生成音频文件,并提供给使用者进行保存与分享。
附图说明
图1为实施例1基于手持智能终端的场景化朗读音频制作方法的流程图。
图2为实施例2基于手持智能终端的场景化朗读音频制作系统的框架图。
图3为场景智能识别模块原理框图。
具体实施方式
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于手持智能终端的场景化朗读音频制作方法,包括以下步骤:
S1:使用智能手机、iPad、平板电脑、PC电脑或智能手表等手持智能终端获取信息内容,并转化为文字格式;
步骤S1中,获取信息内容的途径包括以下四种方式:
通过文档文件导入,支持但不限于TXT、WORD、PPT、PDF等文件;
通过输入网页URL链接,自动识别与抓取文字内容;
通过手持智能终端在海报、杂志、报纸、电脑、平板等媒介上展示的文字、图片、视频等内容进行拍照,通过OCR技术获取文字内容;
通过编辑框录入内容,支持手动编辑文字,或复制文字后粘贴在编辑框中。
S2:对文字内容进行格式化处理,包括自动分段、删除无效字符,最终获得有效的纯文本格式的内容;
S3:对文字内容的关键字进行自动识别,智能地预判该内容的使用场景;使用场景包括但不限于新闻播报、军武介绍、故事文摘、校园广播等。
S4:根据预判的使用场景选择播音员音库、背景音、语速和语调;具体包括:
S4.1:选择播音员音库:根据预判的使用场景自动选择或手动选择音库音色,如男声的低沉、女声的柔和细腻、明星的幽默等;
S4.2:选择背景音:根据预判的使用场景自动选择或手动选择背景音,如激昂的音乐、轻音乐、生日快乐歌等;
S4.3:选择语速、语调:根据预判的使用场景自动选择或手动选择朗读语速、语调,如新闻的正常朗读以及平稳语调、军武介绍的快速朗读以及激昂语调等。
S5:生成场景化音频文件:根据所选择的播音员音库、语速和语调,通过语音合成技术将文字内容转化为音频,并加入背景音,生成MP3、AMR、WAV、WMA等文件格式的音频文件;
S6:将生成的音频文件提供给用户保存与分享。具体包括以下方式:
邮件发送:用户可输入邮箱地址,系统自动将相关内容与文件发送至用户邮箱;
直接下载到本地:用户可在终端界面直接下载音频文件到终端设备中;
社交工具发送音频文件:通过调用用户的微信、QQ、微博等社交工具进行分享,将音频文件发送给好友、群组,以及在朋友圈、个人空间分享;
社交工具分享音频信息:通过调用用户的微信、QQ等社交工具,将音频信息存储在后台服务端,生成分享卡片(带URL链接的图片,访问用户点击图片可打开音频展示页面)发送给好友,或生成二维码发送给好友,好友可通过二维码查看与下载;
网盘存储:通过调用用户的百度网盘、360云盘等第三方云存储服务,将音频文件存储在互联网网络存储空间。
实施例2
如图2所示,一种基于手持智能终端的场景化朗读音频制作系统,该系统是由手持智能终端的客户端,以及云端的各类音库、场景识别模块、语音合成模块、图像文字识别模块、文件读取模块、网页取字模块、文字格式处理模块、网上支付模块、邮件服务模块组成。系统各组件简要介绍如下:
手持智能终端的客户端:该模块是用户使用服务的功能界面,负责对信息内容与知识进行采集,将采集后的图片、网页链接、文字等媒介数据传送到后台的云服务模块进行相应处理,并实时将处理后的文本内容与音频合成效果给用户进行查看与试听。客户端产品形态包括APP客户端、微信小程序、应用软件等。
播音员音库、背景音库(第三方提供):播音员音库是第三方提供的利用真人声音的音色、音效制作成的语音包,可将文字内容合成音频,让合成音在音色、自然度等方面的表现均接近甚至超过了人声。背景音库是第三方提供的歌曲的背景音乐。
场景智能识别模块:如图3所示,场景智能识别模块是对采集的文字内容进行关键字匹配,通过后台建立的关键字组合模型进行匹配,从而实现对使用场景的识别。
语音合成模块(第三方提供):语音合成模块是第三方云平台提供的语音合成系统,选用播音员音库的音源音色作为基础发声,将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。图像文字识别模块(第三方提供):图像文字识别模块是第三方云平台提供的图像文字识别系统,能对图片、海报、杂志、电脑、手机等展示媒介上的混合排版图文、表格、票据、卡片、带背景图片的文字、视频进行文字识别,获取文字内容结果。
文件读取模块:文件读取模块是集成了TXT、WORD、PPT、PDF等多种常见文档的文件读取引擎与接口,能将导入文件中的文字内容进行采集。
网页取字模块:网页取字模块是用户输入一个网页链接地址,后台基于网络爬虫的原理,通过此URL链接将网页上的文本与无效字符、程序、脚本进行区分,以此获取有效的文字内容。
文本格式智能处理模块:文本格式智能处理模块是对获取的文字内容进行二次处理,对杂乱的、缺少标点符号的文本进行格式化,如自动分自然段、添加标点符号,增加停顿符号(语音合成时自动识别与停顿)等处理。
网上支付模块:网上支付模块是集成了第三方提供的网上支付接口,如微信、支付宝等,方便用户订购付费业务。
文件存储转发模块:用户可通过邮件、直接下载、社交工具分享(如通过社交工具发送文件给好友、群组、朋友圈、个人空间;或生成并发送带URL链接的卡片、二维码)、网盘存储等方式将音频文件进行保存与转发。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种基于手持智能终端的场景化朗读音频制作方法,其特征在于,包括以下步骤:
S1:使用手持智能终端获取信息内容,并转化为文字格式;
S2:对文字内容进行格式化处理,包括自动分段、删除无效字符,最终获得有效的纯文本格式的内容;
S3:对文字内容的关键字进行自动识别,预判该内容的使用场景;
S4:根据预判的使用场景选择播音员音库、背景音、语速和语调;
S5:生成场景化音频文件:根据所选择的播音员音库、语速和语调,通过语音合成技术将文字内容转化为音频,并加入背景音,生成音频文件;
S6:将生成的音频文件提供给用户保存与分享。
2.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法,其特征在于,所述手持智能终端为智能手机、iPad、平板电脑、PC电脑或智能手表。
3.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法,其特征在于,步骤S1中,获取信息内容的途径包括以下四种方式:
通过文档文件导入,支持但不限于TXT、WORD、PPT、PDF文件;
通过输入网页URL链接,自动识别与抓取文字内容;
通过手持智能终端在海报、杂志、报纸、电脑、平板媒介上展示的文字、图片、视频等内容进行拍照,通过OCR技术获取文字内容;
通过编辑框录入内容,支持手动编辑文字,或复制文字后粘贴在编辑框中。
4.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法,其特征在于,步骤S3中,所述使用场景包括但不限于新闻播报、军武介绍、故事文摘、校园广播。
5.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法,其特征在于,步骤S4具体包括:
S4.1:选择播音员音库:根据预判的使用场景自动选择或手动选择音库音色;
S4.2:选择背景音:根据预判的使用场景自动选择或手动选择背景音;
S4.3:选择语速、语调:根据预判的使用场景自动选择或手动选择朗读语速、语调。
6.根据权利要求1所述的基于手持智能终端的场景化朗读音频制作方法,其特征在于,步骤S6具体包括以下方式:
邮件发送:用户可输入邮箱地址,系统自动将相关内容与文件发送至用户邮箱;
直接下载到本地:用户可在终端界面直接下载音频文件到终端设备中;
社交工具发送音频文件:通过调用用户的微信、QQ、微博等社交工具进行分享,将音频文件发送给好友、群组,以及在朋友圈、个人空间分享;
社交工具分享音频信息:通过调用用户的微信、QQ等社交工具,将音频信息存储在后台服务端,生成分享卡片发送给好友,或生成二维码发送给好友,好友可通过二维码查看与下载;
网盘存储:通过调用用户的百度网盘、360云盘第三方云存储服务,将音频文件存储在互联网网络存储空间。
7.一种基于手持智能终端的场景化朗读音频制作系统,其特征在于,包括手持智能终端和云服务端,所述云服务端包括文本格式智能处理模块、场景智能识别模块、播音员音库选择模块、背景音选择模块、语速/语调选择模块和场景化音频文件生成模块;
所述手持智能终端获取信息内容,转化为文字格式并上传到云服务器端;云服务器端的文本格式智能处理模块对文字内容进行格式化处理,包括自动分段、删除无效字符,最终获得有效的纯文本格式的内容;场景智能识别模块对文字内容的关键字进行自动识别,预判该内容的使用场景;场景智能识别模块、播音员音库选择模块、背景音选择模块分别根据预判的使用场景选择播音员音库、背景音、语速和语调;场景化音频文件生成模块根据所选择的播音员音库、语速和语调,通过语音合成技术将文字内容转化为音频,并加入背景音,生成音频文件;手持智能终端接收将生成的音频文件提供给用户保存与分享。
CN201711414780.4A 2017-12-21 2017-12-21 一种基于手持智能终端的场景化朗读音频制作方法及系统 Pending CN108536655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711414780.4A CN108536655A (zh) 2017-12-21 2017-12-21 一种基于手持智能终端的场景化朗读音频制作方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711414780.4A CN108536655A (zh) 2017-12-21 2017-12-21 一种基于手持智能终端的场景化朗读音频制作方法及系统

Publications (1)

Publication Number Publication Date
CN108536655A true CN108536655A (zh) 2018-09-14

Family

ID=63489605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711414780.4A Pending CN108536655A (zh) 2017-12-21 2017-12-21 一种基于手持智能终端的场景化朗读音频制作方法及系统

Country Status (1)

Country Link
CN (1) CN108536655A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191971A (zh) * 2018-11-19 2019-01-11 哈尔滨学院 一种基于智能图像识别的学前教育互动系统
CN109616094A (zh) * 2018-12-29 2019-04-12 百度在线网络技术(北京)有限公司 语音合成方法、装置、系统及存储介质
CN109614628A (zh) * 2018-11-16 2019-04-12 广州市讯飞樽鸿信息技术有限公司 一种基于智能硬件的翻译方法与翻译系统
CN111276122A (zh) * 2020-01-14 2020-06-12 广州酷狗计算机科技有限公司 音频生成方法及装置、存储介质
CN111276118A (zh) * 2018-12-03 2020-06-12 北京京东尚科信息技术有限公司 一种实现音频电子书的方法及系统
CN111524516A (zh) * 2020-04-30 2020-08-11 青岛海信网络科技股份有限公司 一种基于语音交互的控制方法、服务器及显示设备
CN111583973A (zh) * 2020-05-15 2020-08-25 Oppo广东移动通信有限公司 一种音乐分享方法、装置及计算机可读存储介质
CN111881825A (zh) * 2020-07-28 2020-11-03 深圳市点通数据有限公司 一种基于多感知数据的交互式文本识别方法和系统
US10971133B2 (en) 2018-12-13 2021-04-06 Baidu Online Network Technology (Beijing) Co., Ltd Voice synthesis method, device and apparatus, as well as non-volatile storage medium
CN112750418A (zh) * 2020-12-28 2021-05-04 苏州思必驰信息科技有限公司 音频或音频链接的生成方法及系统
CN113779204A (zh) * 2020-06-09 2021-12-10 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
WO2023040109A1 (zh) * 2021-09-15 2023-03-23 深圳创维-Rgb电子有限公司 智能语音提示方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096932A (zh) * 2015-07-14 2015-11-25 百度在线网络技术(北京)有限公司 有声读物的语音合成方法和装置
CN105335455A (zh) * 2015-08-28 2016-02-17 广东小天才科技有限公司 一种阅读文字的方法及装置
CN106686223A (zh) * 2016-12-19 2017-05-17 中国科学院计算技术研究所 聋哑人与正常人的辅助对话系统、方法及智能手机
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096932A (zh) * 2015-07-14 2015-11-25 百度在线网络技术(北京)有限公司 有声读物的语音合成方法和装置
CN105335455A (zh) * 2015-08-28 2016-02-17 广东小天才科技有限公司 一种阅读文字的方法及装置
CN106686223A (zh) * 2016-12-19 2017-05-17 中国科学院计算技术研究所 聋哑人与正常人的辅助对话系统、方法及智能手机
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐宗昌 等: "《图形与多媒体技术在装备IETM中的应用》", 31 October 2015, 国防工业出版社 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614628A (zh) * 2018-11-16 2019-04-12 广州市讯飞樽鸿信息技术有限公司 一种基于智能硬件的翻译方法与翻译系统
CN109191971A (zh) * 2018-11-19 2019-01-11 哈尔滨学院 一种基于智能图像识别的学前教育互动系统
CN111276118A (zh) * 2018-12-03 2020-06-12 北京京东尚科信息技术有限公司 一种实现音频电子书的方法及系统
US10971133B2 (en) 2018-12-13 2021-04-06 Baidu Online Network Technology (Beijing) Co., Ltd Voice synthesis method, device and apparatus, as well as non-volatile storage medium
US11264006B2 (en) 2018-12-13 2022-03-01 Baidu Online Network Technology (Beijing) Co., Ltd. Voice synthesis method, device and apparatus, as well as non-volatile storage medium
CN109616094A (zh) * 2018-12-29 2019-04-12 百度在线网络技术(北京)有限公司 语音合成方法、装置、系统及存储介质
CN111276122A (zh) * 2020-01-14 2020-06-12 广州酷狗计算机科技有限公司 音频生成方法及装置、存储介质
CN111276122B (zh) * 2020-01-14 2023-10-27 广州酷狗计算机科技有限公司 音频生成方法及装置、存储介质
CN111524516A (zh) * 2020-04-30 2020-08-11 青岛海信网络科技股份有限公司 一种基于语音交互的控制方法、服务器及显示设备
CN111583973A (zh) * 2020-05-15 2020-08-25 Oppo广东移动通信有限公司 一种音乐分享方法、装置及计算机可读存储介质
CN113779204A (zh) * 2020-06-09 2021-12-10 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN113779204B (zh) * 2020-06-09 2024-06-11 浙江未来精灵人工智能科技有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111881825A (zh) * 2020-07-28 2020-11-03 深圳市点通数据有限公司 一种基于多感知数据的交互式文本识别方法和系统
CN111881825B (zh) * 2020-07-28 2023-10-17 深圳市点通数据有限公司 一种基于多感知数据的交互式文本识别方法和系统
CN112750418A (zh) * 2020-12-28 2021-05-04 苏州思必驰信息科技有限公司 音频或音频链接的生成方法及系统
WO2023040109A1 (zh) * 2021-09-15 2023-03-23 深圳创维-Rgb电子有限公司 智能语音提示方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108536655A (zh) 一种基于手持智能终端的场景化朗读音频制作方法及系统
KR101513888B1 (ko) 멀티미디어 이메일 합성 장치 및 방법
US20140163980A1 (en) Multimedia message having portions of media content with audio overlay
US20140164506A1 (en) Multimedia message having portions of networked media content
US20140161356A1 (en) Multimedia message from text based images including emoticons and acronyms
US9196241B2 (en) Asynchronous communications using messages recorded on handheld devices
US20140163957A1 (en) Multimedia message having portions of media content based on interpretive meaning
US20090319273A1 (en) Audio content generation system, information exchanging system, program, audio content generating method, and information exchanging method
US20130257871A1 (en) Content Customization
US20130262127A1 (en) Content Customization
WO2013148724A1 (en) Content customization
JP2008529345A (ja) 個人化メディアの生成及び配布のためのシステム及び方法
US20140164371A1 (en) Extraction of media portions in association with correlated input
US20140019137A1 (en) Method, system and server for speech synthesis
JP2020005309A (ja) 動画編集サーバおよびプログラム
WO2019245033A1 (ja) 動画編集サーバおよびプログラム
US20170177175A1 (en) System and method for editing and generating multimedia contents according to digital playbooks
US20140163956A1 (en) Message composition of media portions in association with correlated text
JP2020065307A (ja) サーバおよびプログラム、動画配信システム
TW201732639A (zh) 信息擴充系統和方法
JP2020096373A (ja) サーバおよびプログラム、動画配信システム
JP2008523759A (ja) 映像メッセージを合成する方法及びシステム
JP6713183B1 (ja) サーバおよびプログラム
JP2005062420A (ja) コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム
JP2007122561A (ja) 携帯端末装置および似顔絵データ提供システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914

RJ01 Rejection of invention patent application after publication