CN107995249A - 一种语音播报的方法和装置 - Google Patents

一种语音播报的方法和装置 Download PDF

Info

Publication number
CN107995249A
CN107995249A CN201610969867.7A CN201610969867A CN107995249A CN 107995249 A CN107995249 A CN 107995249A CN 201610969867 A CN201610969867 A CN 201610969867A CN 107995249 A CN107995249 A CN 107995249A
Authority
CN
China
Prior art keywords
language material
identification information
file
voice broadcast
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610969867.7A
Other languages
English (en)
Other versions
CN107995249B (zh
Inventor
王正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201610969867.7A priority Critical patent/CN107995249B/zh
Priority to PCT/CN2017/084581 priority patent/WO2018076664A1/zh
Publication of CN107995249A publication Critical patent/CN107995249A/zh
Application granted granted Critical
Publication of CN107995249B publication Critical patent/CN107995249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语音播报的方法,所述方法包括:对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。本发明实施例还公开了一种语音播报的装置。

Description

一种语音播报的方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音播报的方法和装置。
背景技术
目前语音处理技术包括语音识别技术和语音播报技术,传统的语音播报技术是采用语音合成的方法来实现的,即根据输入的文字信息合成出语音信息并播放给用户。然而采用语音合成方法生成的语音信息存在很多收听缺点,例如播报的语音信息使用户听起来生硬,古板,缺乏情感,在不同的环境下都是一样的效果,用户体验不佳。示例性的,当用户想听一个笑话时,希望达到的效果是播报出来的语气是轻松愉快的;当用户想听一个感人的爱情故事时,希望达到的效果是播报出来的语气是感性的,有语句停顿,轻重缓急,最好还能带有背景音乐。但是,传统语音播报技术合成出来的语音信息无法鉴别具体的应用场景,更无法用不同的语气区别播报,只能一字一眼的把文字“吐”出来,非常古板单一。因此,现有的语音播报技术无法实现用户对语音信息情感化的需求,用户体验较差。
发明内容
为解决上述技术问题,本发明实施例期望提供一种语音播报的方法和装置,以便在语音播报时,可以根据不同应用环境提供一种带有情感化的语音播报,提升用户体验。
本发明的技术方案是这样实现的:
本发明实施例提供了一种语音播报的方法,包括:
对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。
上述方案中,所述生成语音播报内容的数据包,包括:获取语音播报内容对应的文字信息,在预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与所述语音播报内容对应的文字信息对应的语料标识信息,基于获取的文字信息和语料标识信息生成语音播报内容的数据包。
上述方案中,所述数据包内的语料标识信息为:语料标签或语料编号。
上述方案中,所述方法还包括:在生成对应的语料文件后,保存利用生成的语料文件建立的语料库。
本发明实施例还提供了另一种语音播报的方法,其特征在于,所述方法包括:
对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
接收语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
解析所述数据包,得出语料标识信息;获取与得出的语料标识信息对应的语料文件;
播放所述语料文件。
上述方案中,所述数据包内的语料标识信息为:语料标签或语料编号。
上述方案中,所述方法包括:所述语料标识信息为语料标签时,依据预先确定的用于表示语料标签和语料编号之间的对应关系的映射表,确定所述语料标识信息对应的语料编号;相应地,所述获取与得出的语料标识信息对应的语料文件,包括:获取与所确定的语料编号对应的语料文件。
上述方案中,所述获取与得出的语料标识信息对应的语料文件包括:本地存在与所述语料标识信息对应的语料文件时,从本地获取所述语料标识信息对应的语料文件;本地不存在与所述语料标识信息对应的语料文件时,根据所述语料标识信息从服务器下载与将所述语料标识信息对应的语料文件。
上述方案中,在获取与得出的语料标识信息对应的语料文件后,所述方法还包括:保存获取的语料文件;
所述方法还包括:
保存的语料文件的数据大小大于等于数据大小阈值时,按照预设的语料文件删除策略删除语料文件;
或者每隔固定的时间段,按照预设的语料文件删除策略删除语料文件。
上述方案中,所述预设的语料文件删除策略为:删除所述本地内全部语料文件、按照语料文件比例删除或按照语料文件使用频率删除。
本发明实施还提供了一种语音播报的装置,所述装置包括:第一录音模块、生成模块和发送模块;其中,
第一录音模块,用于对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
生成模块,用于生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
发送模块,还用于将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。
上述方案中,所述生成模块,具体用于获取语音播报内容对应的文字信息,在预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与所述语音播报内容对应的文字信息对应的语料标识信息,基于获取的文字信息和语料标识信息生成语音播报内容的数据包。
上述方案中,所述数据包内的语料标识信息为:语料标签或语料编号。
上述方案中,所述生成模块,还用于在生成对应的语料文件后,保存利用生成的语料文件建立的语料库。
本发明实施例还提供了另一种语音播报的装置,所述装置包括:第二录音模块、接收模块和处理模块;其中,
第二录音模块,用于对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
接收模块,用于接收语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
处理模块,还用于解析所述数据包,得出语料标识信息;获取与得出的语料标识信息对应的语料文件;
处理模块,还用于播放所述语料文件。
上述方案中,所述数据包内的语料标识信息为:语料标签或语料编号。
上述方案中,所述处理模块,具体用于所述语料标识信息为语料标签时,依据预先确定的用于表示语料标签和语料编号之间的对应关系的映射表,确定所述语料标识信息对应的语料编号;相应地,所述处理模块,具体用于获取与所确定的语料编号对应的语料文件。
上述方案中,所述处理模块,具体用于所述装置内部存在与所述语料标识信息对应的语料文件时,从所述装置获取所述语料标识信息对应的语料文件;
所述装置内部不存在与所述语料标识信息对应的语料文件时,根据所述语料标识信息从服务器下载与将所述语料标识信息对应的语料文件。
上述方案中,所述处理模块,还用于保存获取的语料文件;
所述处理模块,具体用于在保存的语料文件的数据大小大于等于数据大小阈值时,按照预设的语料文件删除策略删除语料文件;
或者每隔固定的时间段,按照预设的语料文件删除策略删除语料文件。
上述方案中,所述预设的语料文件删除策略为:删除所述装置内全部语料文件、按照语料文件比例删除或按照语料文件使用频率删除。
本发明实施例中,对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。如此,实现了在语音播报时,可以根据不同应用环境提供一种带有情感化的语音播报,提升用户体验。
附图说明
图1为本发明语音播报的方法的第一实施例的流程图;
图2为本发明实施例文字信息与语料标签对应关系映射表的示意图;
图3为本发明实施例文字信息、语料标签以及语料编号三者对应关系映射表的示意图;
图4为本发明实施例语料标签与语料编号对应关系映射表的示意图;
图5为本发明语音播报的方法的第二实施例的流程图;
图6为本发明语音播报的方法的第三实施例的流程图;
图7为本发明语音播报的方法的第四实施例的流程图;
图8为本发明实施例语音播报的装置的第一组成结构示意图;
图9为本发明实施例语音播报的装置的第二组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明语音播报的方法的第一实施例的流程图,如图1所示,该方法包括:
步骤100:对需要进行语音播报的文字信息进行真人录音生成对应的语料文件。
这里,在对需要进行语音播报的文字信息进行真人声情并茂的录音生成对应的语料文件后,还可以利用生成的语料文件建立语料库,并将所述语料库保存到服务器。
在实际实施时,需要对每一个语料文件进行编号,每一个语料文件对应唯一的语料编号,例如,在对笑话1进行语料制作时,首先确定笑话1的情感表达方式,然后进行真人录音生成一个语料文件,该语料文件的语料编号为:J-001.mp3,笑话2的语料编号为:J-002.mp3,笑话n的语料编号为:J-00n.mp3。再比如,天气信息m的语料编号为:w-00m.mp3,新闻信息i的语料编号为:news-00i.mp3,这里n、m和i的取值为大于0的整数。利用这些带有语料编号的语料文件建立语料库,并将语料库保存在服务器中。
步骤101:服务器生成语音播报内容的数据包,并将数据包发送至终端;所述数据包包括:语音播报内容对应的文字信息和文字信息对应的语料标识信息。
这里,服务器生成语音播报内容的数据包,包括:服务器获取语音播报内容对应的文字信息,在预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与语音播报内容对应的文字信息对应的语料标识信息,基于获取的文字信息和语料标识信息生成语音播报内容的数据包。
可选的,数据包内的语料标识信息可以是语料标签或语料编号。语料标签是用来连接文字信息和语料编号的中间标识,方便服务器和终端对语料文件的管理和下载。
在实际实施时,终端首先获取表达用户需求的用户语音信息,然后将用户语音信息发送给服务器;服务器接收到终端发送的用户语音信息后,利用语音识别技术完成对用户语音信息的解析并提取用户需求信息服务器根据提取的用户需求信息,搜索到待回复用户的文字信息,并且根据预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与待回复的文字信息对应的语料标识信息。
示例性的,终端获取到的用户语音信息为“给我讲个笑话”,并将该语音信息发送给服务器,服务器解析并提取用户需求信息得到“笑话”这个关键信息,服务器可以根据“笑话”搜索到至少一条最热门的笑话,例如,笑话1“自打入夏以来啊,就独得蚊子恩宠,我劝蚊子一定要雨!露!均!沾!可蚊子非是不听呢!就叮我!就叮我!就叮我!”,笑话1的文字内容就是与用户语音信息所对应服务器待回复的文字信息。
这里,服务器可以根据两种方式来获取与回复的文字信息对应的语料标识信息。
方式1:服务器根据预先设置的“文字信息与语料标签对应关系映射表”,确定文字信息对应的语料标签,此时语料标识信息为语料标签。
方式2:服务器根据预先设置的“文字信息、语料标签以及语料编号三者对应关系映射表”,直接确定文字信息对应的语料编号,此时语料标识信息为语料编号。
图2为本发明实施例文字信息与语料标签对应关系映射表的示意图,如图2所示,建立需要进行语音播报的文字信息与语料标签对应关系映射表;例如,对笑话1进行声情并茂的真人录音后,给笑话1的文字信息内容如:“自打入夏以来啊,就独得蚊子恩宠,我劝蚊子一定要雨!露!均!沾!可蚊子非是不听呢!就叮我!就叮我!就叮我!”,建立唯一的语料标签voice_tag_001;通过图2所示映射表,服务器可以将待回复的文字信息和对应的语料标签同时发送给终端。
图3为本发明实施例文字信息、语料标签以及语料编号三者对应关系映射表的示意图,如图3所示,建立需要进行语音播报的文字信息与语料标签和语料编号三者对应关系映射表;例如,给笑话1的文字信息内容建立唯一的语料标签voice_tag_001和语料编号J-001.mp3;通过图3所示映射表,服务器可以直接确定需要进行语音播报的语料文件对应的语料编号。
需要说明的是,方式1和方式2中给出的对应关系映射表均存储在服务器中,以便服务器查找与回复的文字信息对应的语料标识信息,并生成数据包。
步骤102:终端接收并解析所述数据包后,得出语料标识信息;获取与得出的语料标识信息对应的语料文件。
本步骤中,服务器如果采用步骤101中的方式1获取语料标识信息,终端接收到的数据包中的语料标识信息为语料标签,此时终端需要依据预先确定的用于表示语料标签和语料编号之间的对应关系的映射表,确定所述语料标识信息对应的语料编号,终端依据语料编号获取对应的语料文件。
图4为本发明实施例语料标签与语料编号对应关系映射表的示意图,如图4所示,每一个语料文件的语料编号都对应着唯一的语料标签;例如,语料标签voice_tag_001对应的语料编号为J-001.mp3,因此,可以通过语料标签找到对应的语料编号。需要说明的是,图4中给出的“语料标签与语料编号对应关系映射表”存储在终端中,以便终端在获取到语料标签时可以依据此表确定语料编号。
此外,服务器如果采用步骤101中的方式2获取语料标识信息,那么终端接收到的数据包中的语料标识信息为语料编号,此时终端可以直接依据语料编号获得对应的语料文件。
在实际应用中,对于用户需求频率较高的语料文件,服务器可以采用方式1进行语料文件播放管理,即服务器根据图2所示映射表获取语料标识信息,即语料标签;终端再根据本地存储的“语料标签与语料编号对应关系映射表”(如图4所示)获得对应的语料编号。
由于用户对于当下热门的语料文件的实时性要求很高,且用户对其热衷的时间有限,为了实现对热门语料文件的灵活快速的管理,可以采用方式2进行语料文件播放管理,即通过更新“文字信息、语料标签以及语料编号三者对应关系映射表”来实现对最新扩展语料文件的管理,这样当终端需要最新扩展的语料文件时,服务器可以直接确定对应的语料编号并发送给终端,终端利用语料编号获取最新扩展的语料文件;当需要删除过时的语料文件时,只用更新服务器中的“文字信息、语料标签以及语料编号三者对应关系映射表”。因此,采用方式2对当下热门语料文件进行管理时,省略了对终端本地应用的更新操作,避免了用户在选择拒绝升级本地应用时,无法获得最新的语料文件,提升用户体验。
本发明实施例中,服务器如果仅采用方式1进行语料文件播放管理,服务器在对语料库进行扩展时,需要同步更新终端本地应用;服务器如果仅采用方式2进行语料文件播放管理,服务器在对语料库进行扩展时,虽然不需要同步更新终端本地应用,但服务器对“文字信息、语料标签以及语料编号三者对应关系映射表”的管理量大,会造成资源浪费;当终端对语料文件实时更新速度要求较高时,服务器可以采用方式1和方式2的结合进行语料文件播放管理。因此,本发明实施例中,可以依据终端的实际需求灵活的选择语料文件播放管理方法。
示例性地,终端获取与得出的语料标识信息对应的语料文件可以包括:终端内部存在与所述语料标识信息对应的语料文件时,从终端内部获取语料标识信息对应的语料文件;终端内部不存在与语料标识信息对应的语料文件时,根据语料标识信息从服务器下载与语料标识信息对应的语料文件。
需要说明的是,终端将从服务器下载的语料文件保存在本地存储器中,当终端获得用户需求的语料文件对应的语料编号后,首先在本地查找是否有语料编号匹配的语料文件,如果有,终端直接从本地获取;如果没有,终端再从服务器中下载。这样可以将用户使用频率较高的语料文件存储在终端本地,避免了用户每次搜索时都需要从服务器中下载,节约操作步骤,节省流量,提升用户体验。
步骤103:终端播放语料文件。
进一步地,终端还可以删除语料文件,删除语料文件的方式可以有以下两种:
方式1:终端保存的语料文件的数据大小大于等于数据大小阈值时,终端按照预设的语料文件删除策略删除语料文件。
方式2:终端每隔固定的时间段,按照预设的语料文件删除策略删除语料文件。
这里,预设的语料文件删除策略可以是:删除所述终端内全部语料文件、按照语料文件比例删除或按照语料文件使用频率删除。
按照语料文件比例删除可以是:删除个或者个语料文件,M为总的语料文件数,X为删除语料文件的百分比,X取小于等于100的正数。例如,X可以取50,当终端中语料文件总数为45时,对45乘以50%的乘积向上或者向下取整,将取整后的值作为删除个数,删除的语料文件可以是随机的也可以是由终端指定的。
按照语料文件使用频率删除可以是:删除使用频率最低的P个语料文件,P为大于0的整数。
示例性的,对于方式1,首先设置终端保存语料文件的数据大小阈值,如20M。终端执行删除语料文件的触发点为:终端从文本到语音(Text To Speech,TTS)播报完成时。每次TTS播报完成后,终端先检查保存的语料文件的数据大小,判断保存的语料文件的数据大小是否大于等于数据大小阈值,如果是,终端按照预设的语料文件删除策略删除语料文件;如果否,终端不执行删除操作。
采用方式1删除语料文件时,终端访问语料文件和删除语料文件的动作是同步执行的,不存在语料文件的并发操作,处理流程简单;然而,在每次TTS播报完以后都要判断语料文件的数据大小,一旦有删除语料文件操作,删除操作的时间消耗会影响TTS播报语料文件的速度,降低了用户的体验。
对于方式2,终端可以在本地设置一个定时器,定时时间可以依据实际情况自行设定。终端执行删除语料文件的触发点为:定时器定时时间到。每次定时器定时时间到后,终端按照预设的语料文件删除策略删除语料文件。这里,终端可以在下载第一个语料文件后启动定时器。
采用方式2删除语料文件时,终端访问语料文件和删除语料文件的动作是分开执行的,不会影响原有的语料播放流程,用户体验不受影响;然而,需要处理语料文件访问和删除的并发问题,增加了代码的复杂度,并且,如果长时间不使用语料文件,终端可能清空全部语料文件,终端再次使用语料文件时只能从云端重新下载,不仅增加了数据流量的消耗,也增加了下载时间。
本发明实施例中,对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;服务器生成语音播报内容的数据包,并将数据包发送至终端;数据包包括:语音播报内容对应的文字信息和文字信息对应的语料标识信息;终端接收并解析所述数据包后,得出语料标识信息;获取与得出的语料标识信息对应的语料文件;终端播放所述语料文件。如此,实现了在语音播报时,可以根据不同应用环境提供一种带有情感化的语音播报,提升用户体验。
第二实施例
为了能更加体现本发明的目的,在本发明第一实施例的基础上,对服务器采用第一实施例中公开的方式1确定语料标识信息的方法,进行进一步的举例说明。
图5为本发明语音播报的方法的第二实施例的流程图,该方法包括:
步骤500:对需要进行语音播报的文字信息进行真人录音生成对应的语料文件,利用生成的语料文件建立语料库,并将语料库上传到服务器中。
本发明实施时,还需要预先制作如图2所示的“文字信息与语料标签对应关系映射表”(以下简称“映射表1”),用于表示服务器待回复的语音播报内容的文字信息所对应的语料标签。将制作完成的映射表1上传到服务器中。
步骤501:终端获取用户的语音信息,并发送给服务器。
在实际实施中,终端自身可以接收用户语音信息,终端也可以通过具有语音搜索功能的应用程序获取用户输入的语音信息。
步骤502:服务器保存语料库及映射表1,接收用户语音信息,并生成语音播报内容的数据包,服务器将数据包发送给终端。
本步骤中,服务器接收到用户语音信息后,利用现有的语音识别技术完成对用户语音信息的解析并提取用户需求信息,再根据提取的用户需求信息,搜索到待回复用户的文字信息。
在实际实施时,如果服务器搜索到的文字信息存在对应的语料文件,那么服务器便可以在映射表1中找到与文字信息对应的语料标签,服务器将搜索到的文字信息和对应的语料标签封装在数据包中。如果服务器搜索到的文字信息不存在对应的语料文件,那么文字信息就不存在对应的语料标签,服务器将搜索到的文字信息封装在数据包中。
步骤503:终端接收并解析数据包。
本步骤中,终端接收并解析数据包后,得到数据包中包含与用户需求对应的文字信息,也可能含有对应的语料标签。
步骤504:判断数据包中是否包含语料标签,如果是,执行步骤505;如果否,执行步骤508。
本步骤中,如果终端接收到的数据包不包含语料标签,说明用户需求的信息并没有进行真人情感化录音,也就不存在语料文件及语料标签,执行步骤508;如果终端接收到的数据包包含语料标签,说明服务器语料库中存在与用户需求信息对应的语料文件。
步骤505:终端根据语料标签获取对应的语料文件。
需要说明的是,终端通过获得的语料标签并不能直接找到对应的语料文件,需要依据预先制作的如图4所示的“语料标签与语料编号对应关系映射表”(以下简称“映射表2”),先确定语料标签对应的语料编号。
进一步地,终端通过确定的语料编号获取对应的语料文件。首先依据语料编号在终端本地寻找是否有之前下载并存储的语料文件,如果没有,终端再向服务器发送语料编号请求下载对应的语料文件。
步骤506:判断语料文件是否获取成功,如果是,执行步骤507;如果否,执行步骤508。
如果终端从本地获取,或从服务器下载成功对应的语料文件,便将语料文件传递给语音播放模块,再执行步骤507;否则,执行步骤508。
步骤507:播放语料文件。
在实际实施时,语音播放模块收到语料文件后,按照用户需求播放语料文件。例如,终端在提示用户可以播放语料文件后,用户可以选择立即播放语料文件,或者稍后播放。
步骤508:终端将接收到的文字信息进行语音合成并播放。
本步骤中,如果服务器搜索到的文字信息不存在对应的语料文件,或者终端没有成功获取语料文件,则终端利用语音合成方法,对接收到的文字信息进行语音合成并播放。
步骤509:删除语料文件。
需要说明的是,如果采用实施例一中公开的删除语料文件方式1进行删除操作,那么在步骤508执行完成后触发删除操作。如果采用删除语料文件方式2进行删除操作,删除的触发点是按照设定的固定时间段来确定,此时不对步骤509的执行时间进行限制。
第三实施例
基于本发明第一实施例和第二实施例,本发明第三实施例提出了一种语音播报的方法。
图6为本发明语音播报的方法的第三实施例的流程图,如图6所示,该方法包括:
步骤600:对需要进行语音播报的文字信息进行真人录音生成对应的语料文件。
进一步地,在生成对应的语料文件后,保存利用生成的语料文件建立的语料库。
步骤601:生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息。
本步骤中,生成语音播报内容的数据包,还可以包括:获取语音播报内容对应的文字信息,在预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与所述语音播报内容对应的文字信息对应的语料标识信息,基于获取的文字信息和语料标识信息生成语音播报内容的数据包。
数据包内的语料标识信息可以为:语料标签或语料编号。
步骤602:将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。
第四实施例
基于本发明第一实施例和第二实施例,本发明第四实施例提出了另一种语音播报的方法。
图7为本发明语音播报的方法的第四实施例的流程图,如图7所示,该方法包括:
步骤700:对需要进行语音播报的文字信息进行真人录音生成对应的语料文件。
步骤701:接收语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息。
数据包内的语料标识信息可以为:语料标签或语料编号。
在实际实施时,语料标识信息为语料标签时,依据预先确定的用于表示语料标签和语料编号之间的对应关系的映射表,确定所述语料标识信息对应的语料编号;相应地,获取与得出的语料标识信息对应的语料文件,包括:获取与所确定的语料编号对应的语料文件。
步骤702:解析所述数据包,得出语料标识信息;获取与得出的语料标识信息对应的语料文件。
这里,获取与得出的语料标识信息对应的语料文件可以包括:本地存在与所述语料标识信息对应的语料文件时,从本地获取所述语料标识信息对应的语料文件;本地不存在与所述语料标识信息对应的语料文件时,根据所述语料标识信息从服务器下载与将所述语料标识信息对应的语料文件。
在实际实施时还包括:保存获取的语料文件。
进一步地,还包括:保存的语料文件的数据大小大于等于数据大小阈值时,按照预设的语料文件删除策略删除语料文件;或者每隔固定的时间段,按照预设的语料文件删除策略删除语料文件。
这里,预设的语料文件删除策略可以为:删除所述本地内全部语料文件、按照语料文件比例删除或按照语料文件使用频率删除。
步骤703:播放所述语料文件。
第五实施例
针对本发明实施例的方法,本发明实施例还提供了一种语音播报的装置。图8为本发明实施例语音播报的装置的第一组成结构示意图,如图8所示,该装置包括:第一录音模块800、生成模块801和发送模块802;其中,
第一录音模块800,用于对需要进行语音播报的文字信息进行真人录音生成对应的语料文件。
生成模块801,用于生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息。
发送模块802,还用于将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。
生成模块801,具体可以用于获取语音播报内容对应的文字信息,在预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与所述语音播报内容对应的文字信息对应的语料标识信息,基于获取的文字信息和语料标识信息生成语音播报内容的数据包。
数据包内的语料标识信息可以为:语料标签或语料编号。
生成模块801,还可以用于在生成对应的语料文件后,保存利用生成的语料文件建立的语料库。
第六实施例
针对本发明实施例的方法,本发明实施例还提供了另一种语音播报的装置。图9为本发明实施例语音播报的装置的第二组成结构示意图,如图9所示,该装置包括:第二录音模块900、接收模块901和处理模块902;其中,
第二录音模块900,用于对需要进行语音播报的文字信息进行真人录音生成对应的语料文件。
接收模块901,用于接收语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息。
处理模块902,还用于解析所述数据包,得出语料标识信息;获取与得出的语料标识信息对应的语料文件。
处理模块902,还用于播放所述语料文件。
数据包内的语料标识信息可以为:语料标签或语料编号。
处理模块902,具体可以用于所述语料标识信息为语料标签时,依据预先确定的用于表示语料标签和语料编号之间的对应关系的映射表,确定所述语料标识信息对应的语料编号。
相应地,所述处理模块902,具体可以用于获取与所确定的语料编号对应的语料文件。
处理模块902,具体可以用于所述装置内部存在与所述语料标识信息对应的语料文件时,从所述装置获取所述语料标识信息对应的语料文件。
所述装置内部不存在与所述语料标识信息对应的语料文件时,根据所述语料标识信息从服务器下载与将所述语料标识信息对应的语料文件。
处理模块902,还可以用于保存获取的语料文件。
处理模块902,具体可以用于在保存的语料文件的数据大小大于等于数据大小阈值时,按照预设的语料文件删除策略删除语料文件;或者,每隔固定的时间段,按照预设的语料文件删除策略删除语料文件。
预设的语料文件删除策略为:删除所述装置内全部语料文件、按照语料文件比例删除或按照语料文件使用频率删除。
在实际应用中,第一录音模块800、生成模块801、发送模块802、第二录音模块900、接收模块901和处理模块902均可由位于终端设备中的中央处理器(Central ProcessingUnit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)、或现场可编程门阵列(Field Programmable Gate Array,FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程语音播报设备的处理器以产生一个机器,使得通过计算机或其他可编程语音播报设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程语音播报设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程语音播报设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (20)

1.一种语音播报的方法,其特征在于,所述方法包括:
对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。
2.根据权利要求1所述的方法,其特征在于,所述生成语音播报内容的数据包,包括:获取语音播报内容对应的文字信息,在预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与所述语音播报内容对应的文字信息对应的语料标识信息,基于获取的文字信息和语料标识信息生成语音播报内容的数据包。
3.根据权利要求1所述的方法,其特征在于,所述数据包内的语料标识信息为:语料标签或语料编号。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在生成对应的语料文件后,保存利用生成的语料文件建立的语料库。
5.一种语音播报的方法,其特征在于,所述方法包括:
对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
接收语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
解析所述数据包,得出语料标识信息;获取与得出的语料标识信息对应的语料文件;
播放所述语料文件。
6.根据权利要求5所述的方法,其特征在于,所述数据包内的语料标识信息为:语料标签或语料编号。
7.根据权利要求5或6所述的方法,其特征在于,所述方法包括:所述语料标识信息为语料标签时,依据预先确定的用于表示语料标签和语料编号之间的对应关系的映射表,确定所述语料标识信息对应的语料编号;
相应地,所述获取与得出的语料标识信息对应的语料文件,包括:获取与所确定的语料编号对应的语料文件。
8.根据权利要求5所述的方法,其特征在于,所述获取与得出的语料标识信息对应的语料文件包括:本地存在与所述语料标识信息对应的语料文件时,从本地获取所述语料标识信息对应的语料文件;
本地不存在与所述语料标识信息对应的语料文件时,根据所述语料标识信息从服务器下载与将所述语料标识信息对应的语料文件。
9.根据权利要求5所述的方法,其特征在于,在获取与得出的语料标识信息对应的语料文件后,所述方法还包括:保存获取的语料文件;
所述方法还包括:
保存的语料文件的数据大小大于等于数据大小阈值时,按照预设的语料文件删除策略删除语料文件;
或者,每隔固定的时间段,按照预设的语料文件删除策略删除语料文件。
10.根据权利要求9所述的方法,其特征在于,所述预设的语料文件删除策略为:删除所述本地保存的全部语料文件、按照语料文件比例删除或按照语料文件使用频率删除。
11.一种语音播报的装置,其特征在于,所述装置包括:第一录音模块、生成模块和发送模块;其中,
第一录音模块,用于对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
生成模块,用于生成语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
发送模块,还用于将所述数据包发送至终端,以使终端基于所述数据包播放对应的语料文件。
12.根据权利要求11所述的装置,其特征在于,所述生成模块,具体用于获取语音播报内容对应的文字信息,在预先设置的用于表示文字信息与语料标识信息的对应关系的映射表中,获取与所述语音播报内容对应的文字信息对应的语料标识信息,基于获取的文字信息和语料标识信息生成语音播报内容的数据包。
13.根据权利要求11所述的方法,其特征在于,所述数据包内的语料标识信息为:语料标签或语料编号。
14.根据权利要求11所述的装置,其特征在于,所述生成模块,还用于在生成对应的语料文件后,保存利用生成的语料文件建立的语料库。
15.一种语音播报的装置,其特征在于,所述装置包括:第二录音模块、接收模块和处理模块;其中,
第二录音模块,用于对需要进行语音播报的文字信息进行真人录音生成对应的语料文件;
接收模块,用于接收语音播报内容的数据包,所述数据包包括:语音播报内容对应的文字信息和所述文字信息对应的语料标识信息;
处理模块,还用于解析所述数据包,得出语料标识信息;获取与得出的语料标识信息对应的语料文件;播放所述语料文件。
16.根据权利要求15所述的装置,其特征在于,所述数据包内的语料标识信息为:语料标签或语料编号。
17.根据权利要求15或16所述的装置,其特征在于,所述处理模块,具体用于所述语料标识信息为语料标签时,依据预先确定的用于表示语料标签和语料编号之间的对应关系的映射表,确定所述语料标识信息对应的语料编号;
相应地,所述处理模块,具体用于获取与所确定的语料编号对应的语料文件。
18.根据权利要求15所述的装置,其特征在于,所述处理模块,具体用于所述装置内部存在与所述语料标识信息对应的语料文件时,从所述装置获取所述语料标识信息对应的语料文件;
所述装置内部不存在与所述语料标识信息对应的语料文件时,根据所述语料标识信息从服务器下载与将所述语料标识信息对应的语料文件。
19.根据权利要求15所述的装置,其特征在于,所述处理模块,还用于在获取与得出的语料标识信息对应的语料文件后,保存获取的语料文件;
所述处理模块,还用于在保存的语料文件的数据大小大于等于数据大小阈值时,按照预设的语料文件删除策略删除语料文件;
或者,每隔固定的时间段,按照预设的语料文件删除策略删除语料文件。
20.根据权利要求19所述的装置,其特征在于,所述预设的语料文件删除策略为:删除所述装置内全部语料文件、按照语料文件比例删除或按照语料文件使用频率删除。
CN201610969867.7A 2016-10-27 2016-10-27 一种语音播报的方法和装置 Active CN107995249B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610969867.7A CN107995249B (zh) 2016-10-27 2016-10-27 一种语音播报的方法和装置
PCT/CN2017/084581 WO2018076664A1 (zh) 2016-10-27 2017-05-16 一种语音播报的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610969867.7A CN107995249B (zh) 2016-10-27 2016-10-27 一种语音播报的方法和装置

Publications (2)

Publication Number Publication Date
CN107995249A true CN107995249A (zh) 2018-05-04
CN107995249B CN107995249B (zh) 2021-01-26

Family

ID=62023030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610969867.7A Active CN107995249B (zh) 2016-10-27 2016-10-27 一种语音播报的方法和装置

Country Status (2)

Country Link
CN (1) CN107995249B (zh)
WO (1) WO2018076664A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN110017847A (zh) * 2019-03-21 2019-07-16 腾讯大地通途(北京)科技有限公司 一种自适应导航语音播报方法、装置及系统
CN110162292A (zh) * 2019-04-15 2019-08-23 阿里巴巴集团控股有限公司 语音播报方法及装置
CN110930999A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
US10990939B2 (en) 2019-04-15 2021-04-27 Advanced New Technologies Co., Ltd. Method and device for voice broadcast

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797014B (zh) * 2018-07-17 2024-06-07 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN116405801B (zh) * 2023-05-31 2023-09-08 中瑞科技术有限公司 一种可预警播报的对讲机系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094445A (zh) * 2007-06-29 2007-12-26 中兴通讯股份有限公司 一种实现文本短信语音播放的系统及方法
CN102055923A (zh) * 2009-11-06 2011-05-11 深圳Tcl新技术有限公司 具备语音播报功能的电视机及其实现方法
US8239202B2 (en) * 2008-06-12 2012-08-07 Chi Mei Communication Systems, Inc. System and method for audibly outputting text messages
CN102750365A (zh) * 2012-06-14 2012-10-24 华为软件技术有限公司 即时语音消息的检索方法和系统,以及用户设备和服务器
CN103581857A (zh) * 2013-11-05 2014-02-12 华为终端有限公司 一种语音提示的方法、语音合成服务器及终端
JP2014191030A (ja) * 2013-03-26 2014-10-06 Fuji Soft Inc 音声認識端末およびコンピュータ端末を用いる音声認識方法
CN104882143A (zh) * 2015-05-31 2015-09-02 深圳市启明创新科技开发有限公司 一种云智能学习机器人
CN104899002A (zh) * 2015-05-29 2015-09-09 深圳市锐曼智能装备有限公司 机器人基于对话预测的在线与离线的识别切换方法及系统
CN105551493A (zh) * 2015-11-30 2016-05-04 北京光年无限科技有限公司 儿童语音机器人数据处理方法、装置及儿童语音机器人

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110861B (zh) * 2006-07-18 2011-06-22 中兴通讯股份有限公司 一种在智能网中播放文本语音的系统和方法
CN101763878B (zh) * 2008-11-21 2012-10-17 北京搜狗科技发展有限公司 语音文件插播方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094445A (zh) * 2007-06-29 2007-12-26 中兴通讯股份有限公司 一种实现文本短信语音播放的系统及方法
US8239202B2 (en) * 2008-06-12 2012-08-07 Chi Mei Communication Systems, Inc. System and method for audibly outputting text messages
CN102055923A (zh) * 2009-11-06 2011-05-11 深圳Tcl新技术有限公司 具备语音播报功能的电视机及其实现方法
CN102750365A (zh) * 2012-06-14 2012-10-24 华为软件技术有限公司 即时语音消息的检索方法和系统,以及用户设备和服务器
JP2014191030A (ja) * 2013-03-26 2014-10-06 Fuji Soft Inc 音声認識端末およびコンピュータ端末を用いる音声認識方法
CN103581857A (zh) * 2013-11-05 2014-02-12 华为终端有限公司 一种语音提示的方法、语音合成服务器及终端
CN104899002A (zh) * 2015-05-29 2015-09-09 深圳市锐曼智能装备有限公司 机器人基于对话预测的在线与离线的识别切换方法及系统
CN104882143A (zh) * 2015-05-31 2015-09-02 深圳市启明创新科技开发有限公司 一种云智能学习机器人
CN105551493A (zh) * 2015-11-30 2016-05-04 北京光年无限科技有限公司 儿童语音机器人数据处理方法、装置及儿童语音机器人

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930999A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN110017847A (zh) * 2019-03-21 2019-07-16 腾讯大地通途(北京)科技有限公司 一种自适应导航语音播报方法、装置及系统
CN110017847B (zh) * 2019-03-21 2021-03-16 腾讯大地通途(北京)科技有限公司 一种自适应导航语音播报方法、装置及系统
CN110162292A (zh) * 2019-04-15 2019-08-23 阿里巴巴集团控股有限公司 语音播报方法及装置
WO2020211488A1 (zh) * 2019-04-15 2020-10-22 创新先进技术有限公司 语音播报方法及装置
US10990939B2 (en) 2019-04-15 2021-04-27 Advanced New Technologies Co., Ltd. Method and device for voice broadcast
CN113110819A (zh) * 2019-04-15 2021-07-13 创新先进技术有限公司 语音播报方法及装置
US11232420B2 (en) 2019-04-15 2022-01-25 Advanced New Technologies Co., Ltd. Method and device for voice broadcast
CN113110819B (zh) * 2019-04-15 2024-04-19 创新先进技术有限公司 语音播报方法及装置

Also Published As

Publication number Publication date
CN107995249B (zh) 2021-01-26
WO2018076664A1 (zh) 2018-05-03

Similar Documents

Publication Publication Date Title
CN107995249A (zh) 一种语音播报的方法和装置
CN104464716B (zh) 一种语音播报系统和方法
WO2019174428A1 (zh) 答复信息的获取方法及装置
CN109147802B (zh) 一种播放语速调节方法及装置
CN104538031B (zh) 智能语音服务开发云平台及方法
CN106652997A (zh) 一种音频合成的方法及终端
CN104240703B (zh) 语音信息处理方法和装置
CN110491370A (zh) 一种语音流识别方法、装置、存储介质及服务器
WO2020087655A1 (zh) 一种翻译方法、装置、设备及可读存储介质
CN103546623B (zh) 用于发送语音信息及其文本描述信息的方法、装置与设备
CN108287820A (zh) 一种文本表示的生成方法及装置
CN108234735A (zh) 一种媒体显示方法及终端
EP3944627A1 (en) Generating a playlist based on a data generation attribute
CN109213856A (zh) 一种语义识别方法及系统
CN107093421A (zh) 一种语音模拟方法和装置
CN107342088A (zh) 一种声音信息的转换方法、装置及设备
CN105551493A (zh) 儿童语音机器人数据处理方法、装置及儿童语音机器人
CN107291704A (zh) 处理方法和装置、用于处理的装置
CN108682423A (zh) 一种语音识别方法和装置
KR102357620B1 (ko) 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법
CN111105781B (zh) 语音处理方法、装置、电子设备以及介质
JPH11327872A (ja) 電子メール提示方法及び電子メール端末及び電子メール提示プログラムを格納した記憶媒体
CN109708283A (zh) 一种离线-在线混合语音识别空调系统及实现方法
CN107464558A (zh) 一种语音识别方法、终端以及服务端
CN113760962B (zh) 单领域至跨领域数据集数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant