CN110600003A - 机器人的语音输出方法、装置、机器人和存储介质 - Google Patents

机器人的语音输出方法、装置、机器人和存储介质 Download PDF

Info

Publication number
CN110600003A
CN110600003A CN201910999706.6A CN201910999706A CN110600003A CN 110600003 A CN110600003 A CN 110600003A CN 201910999706 A CN201910999706 A CN 201910999706A CN 110600003 A CN110600003 A CN 110600003A
Authority
CN
China
Prior art keywords
text
converted
temporary file
storage space
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910999706.6A
Other languages
English (en)
Inventor
支涛
王洪贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunji Technology Co Ltd
Original Assignee
Beijing Yunji Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunji Technology Co Ltd filed Critical Beijing Yunji Technology Co Ltd
Priority to CN201910999706.6A priority Critical patent/CN110600003A/zh
Publication of CN110600003A publication Critical patent/CN110600003A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本申请实施例提供一种机器人的语音输出方法、装置、机器人和存储介质,该方法包括:获取待转换文本;根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,所述存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件;在所述存储空间内存在所述目标临时文件时,读取并播放所述目标临时文件,以对所述待转换文本进行语音播放。以此可以改善现有技术中的机器人语音播放效果差的问题。

Description

机器人的语音输出方法、装置、机器人和存储介质
技术领域
本申请涉及机器人技术领域,具体而言,涉及一种机器人的语音输出方法、装置、机器人和存储介质。
背景技术
目前,离线的语音合成发音技术(Text to Speech,简称TTS)还不够成熟。
现有的离线TTS技术在应用时,常根据一个语音参考字典,从语音参考字典中找出一个个字词的发音,对多个字词进行简单拼接从而实现离线的语音合成,但会存在发音僵化、字字分离等合成效果差的现象。
发明内容
本申请实施例的目的在于提供一种机器人的语音输出方法、装置、机器人和存储介质,用以改善现有技术中的机器人语音播放效果差的问题。
第一方面,本申请实施例提供一种机器人的语音输出方法,所述方法包括:
获取待转换文本;
根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,所述存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件;
在所述存储空间内存在所述目标临时文件时,读取并播放所述目标临时文件,以对所述待转换文本进行语音播放。
在上述方法中,通过读取并播放根据合成音频数据流所生成的目标临时文件,以进行语音播放,避免了将字、词简单组合拼接所造成的字字分离、语义僵化等现象,语音合成效果将更好,且能提升机器人的发音速度,具有较好的发音流畅性。
在可选的实施方式中,所述根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,包括:
将所述待转换文本的内容与所述存储空间内的所有临时文件的名称进行匹配,得到所述待转换文本与每个临时文件之间的匹配度;
判断所述存储空间内是否存在匹配度高于匹配阈值的临时文件,在所述存储空间内存在匹配度高于匹配阈值的临时文件时,以匹配度最高的临时文件作为所述目标临时文件。
通过上述实现方式可以从机器人的本地存储空间中找到与待转换文本匹配度较高的临时文件进行语音播放。
在可选的实施方式中,在所述根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件之后,所述方法还包括:
若不存在与所述待转换文本对应的目标临时文件,则根据所述待转换文本向在线服务器发起语音合成请求;
接收所述在线服务器发送的所述待转换文本的合成音频数据流;
播放所述待转换文本的合成音频数据流,以对所述待转换文本进行语音播放。
通过上述实现方式可以实现一边接收一边播放,提升机器人的语音播放效果,用户能够较快地听到待转换文本的内容。
在可选的实施方式中,所述方法还包括:
根据所述待转换文本的合成音频数据流进行保存,得到与所述待转换文本对应的所述目标临时文件,以供在下一次获取到所述待转换文本时根据所述目标临时文件对所述待转换文本进行语音播放。
通过上述实现方式有利于下一次得到相同的待转换文本时,可以查找到对应的临时文件作为目标临时文件,基于已有的目标临时文件进行语音播放可以降低对于在线服务器的依赖。
在可选的实施方式中,所述方法还包括:
根据所述待转换文本的合成音频数据流进行格式转换,保存得到预设格式的临时文件作为所述目标临时文件,以供在下一次获取到所述待转换文本时,根据所述目标临时文件对所述待转换文本进行语音播放。
通过上述实现方式可以避免因合成音频数据流过大而占用过多的存储量,也有利于得到格式统一的临时文件。
在可选的实施方式中,所述方法还包括:
按照播放频次,对所述存储空间内播放频次最低的临时文件进行删除。
通过上述实现方式可以使得存储空间内可以有足够的容量以存储新的临时文件。
在可选的实施方式中,所述获取待转换文本,包括:
在感应到对于所述机器人的语音询问信息时,识别所述语音询问信息的语音内容以获取所述待转换文本;
或,在采集到对于所述机器人的触摸信号时,从语料库中获取与所述触摸信号匹配的文本作为所述待转换文本;
或,根据在图像扫描范围内识别出的用户行为,从所述语料库中获取与所述用户行为匹配的文本作为所述待转换文本。
通过上述实现方式,获取到的待转换文本可能具备偶然性,将上述方法应用于具备偶然性的待转换文本,可以使机器人能够在兼顾语音合成效果/流畅度、发音速度的情况下进行语音输出。
第二方面,本申请实施例提供一种机器人的语音输出装置,所述装置包括:
获取模块,用于获取待转换文本;
判断模块,用于根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,所述存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件;
语音播放模块,用于在所述存储空间内存在所述目标临时文件时,读取并播放所述目标临时文件,以对所述待转换文本进行语音播放。
通过上述装置可以执行前述第一方面提供的方法,能够改善现有技术中的机器人语音输出效果差的问题。
第三方面,本申请实施例提供一种机器人,包括:采集单元、播放单元、处理器、存储器;
所述采集单元、所述播放单元、所述存储器与所述处理器连接;
所述采集单元用于采集用户行为信息,所述处理器用于根据所述用户行为信息获取待转换文本,所述播放单元用于进行语音播放;
所述存储器存储有所述处理器可执行的机器可读指令,当所述机器人运行时,所述机器可读指令被所述处理器执行时执行前述第一方面所述的方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行前述第一方面所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种机器人的示意图。
图2为本申请实施例提供的一种机器人的语音输出方法的流程图。
图3为本申请实施例提供的一种机器人的语音输出装置的功能模块框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例提供的一种机器人的示意图,该机器人包括:采集单元110、播放单元120、处理器130、存储器140。
所述采集单元110、所述播放单元120、所述存储器140与所述处理器130连接。所述采集单元110、所述播放单元120、所述存储器140、所述处理器130之间可通过总线直接或间接连接。
所述采集单元110用于采集用户行为信息,采集单元110可包括语音采集装置、图像采集装置、温度感应装置、红外感应装置等组件。播放单元120可包括扬声器。语音采集装置可以采集用户的语音询问信息或语音指令,通过对语音询问信息或语音指令进行识别,可以识别出具体的语音内容。图像采集装置可以采集图像扫描范围内的图像数据,通过对图像数据进行识别可以识别出用户行为。温度感应装置可以采集温度信息、红外感应装置可以采集红外光,温度感应装置、红外感应装置都可以用于采集用户对于机器人的触摸信号。
处理器130具有运算处理能力,可能是中央处理器130(Central ProcessingUnit,CPU)、专用集成电路、数字信号处理器130、现场可编程门阵列或者其他可编程逻辑器件、分立组件。处理器130用于根据所述用户行为信息获取待转换文本,所述播放单元120用于进行语音播放。处理器130可根据识别出的用户行为确定待转换文本,并控制播放单元120根据待转换文本进行语音播放。处理器130还可以根据温度变化、红外光变化判断机器人所处环境是否存在异常情况,在存在异常情况时,可以控制播放单元120进行相应的语音提示。
存储器140是一种存储介质,可能是随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等能够存储机器可读指令的介质。存储器140中存储有处理器130可执行的机器可读指令,当机器人运行时,存储器140中的机器可读指令被处理器130执行时执行本申请实施例公开的方法。
其中,机器人还包括通信单元150,通信单元150可包括通信接口、通信芯片能够用于实现有线或无线通信连接的组件。机器人可通过通信单元150实现与在线服务器之间的数据交互,例如机器人可以通过通信单元150向在线服务器发送待转换文本,也可通过通信单元150接收在线服务器根据该待转换文本反馈的合成音频数据流。播放单元120可以根据待转换文本对应的合成音频数据流进行语音播放。
可以理解的是,上述图1所示的机器人结构仅为示意,机器人还可以有比图1所示更多的组件,或具有与图1不同的配置,图1中的各组件可以采用软件、硬件或其组件实现。
请参阅图2,图2为本申请实施例提供的一种机器人的语音输出方法的流程图。该方法可应用于图1所示的机器人。
如图2所示,该方法包括步骤S21-S23。
S21:获取待转换文本。
其中,待转换文本可能是一句话或多句话对应的文本。
S22:根据待转换文本的内容,判断存储空间内是否存在与待转换文本对应的目标临时文件。存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件。
其中,存储空间是指本地存储空间。存储空间内包括一个或多个临时文件。每条文本对应的合成音频数据流可来源于在线服务器。在初次获取到一条文本A时,执行S24,机器人将初次获取到的文本A发送给在线服务器,接收并播放在线服务器反馈的合成音频数据流,机器人根据该合成音频数据流还生成与文本A对应的临时文件。当再次获取到该文本A作为待转换文本时,可以从存储空间中查找到与该文本A对应的目标临时文件,执行S23。
S23:在存储空间内存在目标临时文件时,读取并播放目标临时文件,以对待转换文本进行语音播放。
当在存储空间内查找到与待转换文本对应的目标临时文件时,可以将该目标临时文件导入设定的播放器中,调用播放器的播放程序,控制机器人上的播放单元120进行语音播放。其中,播放器是一种能够播放音频数据流的应用程序。
在一些应用场景下,机器人每天可能需要“说”出上千句话,这上千句话中可能有些语句对应的文本是重复的。例如一些问候语或者常用的问答语句等可能重复出现。对于这些可能重复出现的待转换文本,可以根据文本的内容,判断存储空间内是否存在与重复出现的待转换文本相对应的目标临时文件。若查找到目标临时文件,则读取并播放目标临时文件,以对重复出现的待转换文本进行语音播放。
相较于现有技术中根据离线的语音参考字典,从语音参考字典中找出一个个字词的发音,对多个字词进行简单拼接从而实现离线的语音合成的方式,由于在本申请实施例的上述方法中,存储空间中的每个临时文件都是根据播放过的一条文本的合成音频数据流所生成的临时文件,通过读取并播放根据合成音频数据流所生产的目标临时文件,避免了将字、词简单组合拼接所造成的字字分离、语义僵化等现象,语音合成效果更好。
相较于在每次获取到待转换文本时都访问在线服务器,并接收一次在线服务器的反馈数据的方式,本申请实施例的方法无需每次都访问在线服务器,明显降低了通过网络获取发音内容所需的耗时,可以提升机器人的发音速度。
需要说明的是,若完全依赖在线服务器,即机器人每要“说”一句话就访问一次在线服务器的方式,目前的在线发音技术会存在严重的耗时弊端从而影响机器人的发音速度,且机器人的每次发音都会受到网络信号的影响,无网络则会造成发音失败,完全依赖在线服务器或在线发音人的方式会带来大量成本。而通过本申请实施例的上述方法,既可以具备较好的语音输出效果,又可以在获取到重复的待转换文本时,根据存储空间内已有的目标临时文件进行语音播放,无需每次都访问在线服务器以得到音频资源,能够提升机器人的发音速度,机器人可以更为流畅地与用户进行交互,即使在某些情况下出现网络故障,机器人也可以“说话”。
作为上述S22的一种实现方式,可以将待转换文本的内容与存储空间内的所有临时文件的名称进行匹配,以从存储空间中查找出与待转换文本对应的目标临时文件。
其中,在保存每个临时文件时,可以根据文本的全部内容或文本的部分内容进行保存。使得在S22中可以将待转换文本的内容与存储空间内所有临时文件的名称进行完全匹配或不完全匹配。
若采用完全匹配方式,可以根据待转换文本的全部内容,从存储空间中查找出一个名称与待转换文本的内容相同的临时文件,作为该待转换文本对应的目标临时文件。
例如,对于一些文本内容字数较少的待转换文本,可以采用完全匹配方式,在一个实例中,对于字数少于30字的待转换文本可以采用完全匹配方式。
若采用不完全匹配方式,可以根据待转换文本的内容、存储空间内所有临时文件的名称计算待转换文本与各个临时文件之间的匹配度,基于匹配度从存储空间中查找出一个匹配度最高的临时文件,作为该待转换文本对应的目标临时文件。
计算匹配度时,可以提取待转换文本的内容关键词和/或各个临时文件的名称关键词进行计算。例如,可以根据待转换文本的内容关键词与每个临时文件的名称全称计算匹配度,也可以根据待转换文本的内容关键词和每个临时文件的名称关键词计算匹配度,还可以根据待转换文本的内容全文与每个临时文件的名称关键词计算匹配度。
在得到待转换文本与存储空间内每个临时文件之间的匹配度后,可以判断存储空间内是否存在匹配度高于匹配阈值的临时文件。本领域技术人员可以根据实际需求任意设定匹配阈值的大小。
在存储空间内不存在匹配度高于匹配阈值的临时文件的情况下,表示存储空间内不存在与待转换文本对应的目标临时文件。
在存储空间内存在匹配度高于匹配阈值的临时文件时,以匹配度最高的临时文件作为目标临时文件。
通过上述实现方式可以从存储空间内找到与待转换文本匹配度较高的目标临时文件。
可选地,在上述S22之后,方法还包括S24-S26。
S24:若不存在与待转换文本对应的目标临时文件,则根据待转换文本向在线服务器发起语音合成请求。
其中,可以通过在线服务器提供的接口向在线服务器发起语音合成请求,语音合成请求中可以包括待转换文本。
S25:接收在线服务器发送的待转换文本的合成音频数据流。
S26:播放待转换文本的合成音频数据流,以对待转换文本进行语音播放。
其中,在首次获取到一个新的待转换文本的情况下,存储空间内可能不存在与待转换文本对应的目标临时文件。在存储空间内的部分临时文件被删除或所有临时文件被删除的情况下,即使再次获取到一条相同的待转换文本,也有可能出现存储空间内不存在目标临时文件的情况。在存储空间内无法找到目标临时文件的情况下,机器人可根据当前获取的待转换文本向在线服务器发起语音合成请求,并接收在线服务器发送的待转换文本的合成音频数据流。
在得到在线服务器发送的待转换文本的合成音频数据流后,可以调用用于播放器,通过播放器加载合成音频数据流并进行播放,以此可以实现一边接收一边播放,提升机器人的语音播放效果,提升播放流畅性,用户能够较快听到待转换文本的内容。
可选地,为了保证存储空间内能够存在临时文件,可以在接收到来自在线服务器的合成音频数据流后,根据待转换文本对相应的合成音频数据流进行保存。
其中,在保存时,可基于待转换文本的内容确定临时文件的名称。
作为一种实现方式,上述S25后,每次接收到来自在线服务器的合成音频数据流后,就对相应的合成音频数据流保存一次,每次保存过程都生成一个与待转换文本对应的临时文件,该临时文件可以作为下一次获取到相同的待转换文本时的目标临时文件。
作为另一种实现方式,在上述S26之后,对于已经播放过的合成音频数据流,根据发送给在线服务器的待转换文本对相应的合成音频数据流进行保存,得到与待转换文本对应的临时文件,该临时文件作为下一次获取到该待转换文本时的目标临时文件,以供在下一次获取到该待转换文本时,根据目标临时文件对该待转换文本进行语音播放。
通过上述实现方式可以提供用于下一次查找的临时文件,在下一次获取到相同的待转换文本时,可以根据已有的合成音频数据流、已有的目标临时文件进行语音播放,降低对于在线服务器的访问依赖。
作为另一种得到目标临时文件的实施方式,在接收到来自在线服务器的合成音频数据流后,方法还可以包括:根据待转换文本的合成音频数据流进行格式转换,保存得到预设格式的临时文件作为目标临时文件,以供在下一次获取到待转换文本时,根据目标临时文件对待转换文本进行语音播放。
其中,通过格式转换过程可以对文件尺寸进行压缩,避免因合成音频数据流过大而导致临时文件占用过多的存储量。
在一个实例中,预设格式可能是MP3、AMR、WMA、RM等格式。在将接收到的合成音频数据流进行格式转换后,可以生成MP3、AMR、WMA、RM等格式的临时文件。
通过上述实现方式,由于可以对合成音频数据流进行格式转换,有利于得到格式统一的临时文件,在后续以临时文件作为目标临时文件并进行播放时,可以降低对于播放器的调用要求。
可选地,为了保证存储空间的容量足够存储新的临时文件,方法还可以包括S27。
S27:按照播放频次,对存储空间内播放频次最低的临时文件进行删除。
作为一种实现方式,可以按照播放频次对存储空间内的所有临时文件进行排序,定期筛选并删除播放频次最低的临时文件。
在一个实例中,可以每两天对存储空间内播放频次最低的临时文件进行删除。每次可以删除一个或多个临时文件。
在其他实施例中,对于临时文件的删除时间可以是非定期删除。
通过上述S27可以避免存储空间拥堵而无法存储新的文件。
可选地,可以通过以下几种方式获取待转换文本。
第一种,在感应到对于机器人的语音询问信息时,识别语音询问信息的语音内容以获取待转换文本。
例如,若机器人的名称记为EE,在机器人感应到有用户说出“EE”一词时,视为有用户在该机器人EE进行语音询问,机器人的采集单元110采集用户的语音询问信息,并识别语音询问信息的语音内容,根据识别出的语音内容可以选择从已有的语料库中获取待转换文本,或者选择呼叫客服以协助获得用于响应语音询问信息的待转换文本。
第二种,在采集到对于机器人的触摸信号时,从语料库中获取与触摸信号匹配的文本作为待转换文本。
其中,可以通过采集单元110中的温度感应装置、红外感应装置等结构采集用户对于机器人的触摸信号,还可以通过触摸屏感应用户对于机器人的触摸信号。当接收到触摸信号后,可以从语料库获取与触摸信号匹配的文本作为待转换文本,以此可以在有用户触碰机器人时,机器人主动“说话”,与用户进行互动。
第三种,根据在图像扫描范围内识别出的用户行为,从语料库中获取与用户行为匹配的文本作为待转换文本。
其中,可以通过摄像头采集摄像头的扫描范围内的用户图像数据,根据图像数据识别出用户行为,从而基于用户行为的类型从语料库中获取与用户行为匹配的文本作为待转换文本。用户行为包括但不限于招手、划出特定的轨迹等行为。其中,通过不同的轨迹可以指示机器人“说出”不同的话、执行不同的操作。
通过上述实现方式,机器人可以根据用户的行为或用户说的话得到待转换文本,获取到的待转换文本可能会随着与用户的交互活动而改变,待转换文本具有偶然性。上述方法可以应用于具备偶然性的待转换文本,在偶然获取到新的待转换文本时,通过接收在线服务器反馈的合成音频数据流进行语音播放,在偶然获取到相同的待转换文本时,根据存储空间内已有的目标临时文件进行语音播放。以此可以使得机器人能够在兼顾语音合成效果/流畅度、发音速度的情况下进行语音输出。
基于同一发明构思,本申请实施例还提供一种机器人的语音输出装置200,该装置用于执行前述的机器人的语音输出方法。
如图3所示,该机器人的语音输出装置200包括:获取模块201、判断模块202、语音播放模块203。
获取模块201,用于获取待转换文本。
判断模块202,用于根据待转换文本的内容,判断存储空间内是否存在与待转换文本对应的目标临时文件,存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件。
语音播放模块203,用于在存储空间内存在目标临时文件时,读取并播放目标临时文件,以对待转换文本进行语音播放。
通过上述装置可以改善现有技术中的机器人语音输出效果差的问题,还可以提升发音速度,降低了网络信号对于发音效果的影响。
可选地,判断模块202还用于:将待转换文本的内容与存储空间内的所有临时文件的名称进行匹配,得到待转换文本与每个临时文件之间的匹配度;判断存储空间内是否存在匹配度高于匹配阈值的临时文件,在存储空间内存在匹配度高于匹配阈值的临时文件时,以匹配度最高的临时文件作为目标临时文件。
可选地,语音播放模块203还用于:在存储空间中不存在与待转换文本对应的目标临时文件时,根据待转换文本向在线服务器发起语音合成请求;接收在线服务器发送的待转换文本的合成音频数据流;播放待转换文本的合成音频数据流,以对待转换文本进行语音播放。
可选地,语音播放模块203还用于:根据待转换文本的合成音频数据流进行保存,得到与待转换文本对应的目标临时文件,以供在下一次获取到待转换文本时根据目标临时文件对待转换文本进行语音播放。
可选地,语音播放模块203还用于:根据待转换文本的合成音频数据流进行格式转换,保存得到预设格式的临时文件作为目标临时文件,以供在下一次获取到待转换文本时,根据目标临时文件对待转换文本进行语音播放。
可选地,语音播放模块203还用于:按照播放频次,对存储空间内播放频次最低的临时文件进行删除。
可选地,获取模块201还可用于:在感应到对于机器人的语音询问信息时,识别语音询问信息的语音内容以获取待转换文本;或,在采集到对于机器人的触摸信号时,从语料库中获取与触摸信号匹配的文本作为待转换文本;或,根据在图像扫描范围内识别出的用户行为,从语料库中获取与用户行为匹配的文本作为待转换文本。
关于本申请实施例中的机器人的语音输出装置200的其他细节,请参考前述机器人的语音输出方法中的相关描述,在此不再赘述。
除了上述实施例,本申请实施例还提供一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器130运行时执行前述实施例公开的方法。存储介质可以是U盘、移动硬盘、存储器140、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元、模块等划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另一点,连接可以是通过一些通信接口,装置或单元实现间接耦合或通信连接,连接可以是电性,机械或其它的形式。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种机器人的语音输出方法,其特征在于,所述方法包括:
获取待转换文本;
根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,所述存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件;
在所述存储空间内存在所述目标临时文件时,读取并播放所述目标临时文件,以对所述待转换文本进行语音播放。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,包括:
将所述待转换文本的内容与所述存储空间内的所有临时文件的名称进行匹配,得到所述待转换文本与每个临时文件之间的匹配度;
判断所述存储空间内是否存在匹配度高于匹配阈值的临时文件,在所述存储空间内存在匹配度高于匹配阈值的临时文件时,以匹配度最高的临时文件作为所述目标临时文件。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件之后,所述方法还包括:
若不存在与所述待转换文本对应的目标临时文件,则根据所述待转换文本向在线服务器发起语音合成请求;
接收所述在线服务器发送的所述待转换文本的合成音频数据流;
播放所述待转换文本的合成音频数据流,以对所述待转换文本进行语音播放。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述待转换文本的合成音频数据流进行保存,得到与所述待转换文本对应的所述目标临时文件,以供在下一次获取到所述待转换文本时根据所述目标临时文件对所述待转换文本进行语音播放。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述待转换文本的合成音频数据流进行格式转换,保存得到预设格式的临时文件作为所述目标临时文件,以供在下一次获取到所述待转换文本时,根据所述目标临时文件对所述待转换文本进行语音播放。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照播放频次,对所述存储空间内播放频次最低的临时文件进行删除。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述获取待转换文本,包括:
在感应到对于所述机器人的语音询问信息时,识别所述语音询问信息的语音内容以获取所述待转换文本;
或,在采集到对于所述机器人的触摸信号时,从语料库中获取与所述触摸信号匹配的文本作为所述待转换文本;
或,根据在图像扫描范围内识别出的用户行为,从所述语料库中获取与所述用户行为匹配的文本作为所述待转换文本。
8.一种机器人的语音输出装置,其特征在于,所述装置包括:
获取模块,用于获取待转换文本;
判断模块,用于根据所述待转换文本的内容,判断存储空间内是否存在与所述待转换文本对应的目标临时文件,所述存储空间中包括至少一个临时文件,每个临时文件为根据播放过的一条文本的合成音频数据流生成的临时文件;
语音播放模块,用于在所述存储空间内存在所述目标临时文件时,读取并播放所述目标临时文件,以对所述待转换文本进行语音播放。
9.一种机器人,其特征在于,包括:采集单元、播放单元、处理器、存储器;
所述采集单元、所述播放单元、所述存储器与所述处理器连接;
所述采集单元用于采集用户行为信息,所述处理器用于根据所述用户行为信息获取待转换文本,所述播放单元用于进行语音播放;
所述存储器存储有所述处理器可执行的机器可读指令,当所述机器人运行时,所述机器可读指令被所述处理器执行时执行权利要求1-7任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1-7任一项所述的方法。
CN201910999706.6A 2019-10-18 2019-10-18 机器人的语音输出方法、装置、机器人和存储介质 Pending CN110600003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910999706.6A CN110600003A (zh) 2019-10-18 2019-10-18 机器人的语音输出方法、装置、机器人和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910999706.6A CN110600003A (zh) 2019-10-18 2019-10-18 机器人的语音输出方法、装置、机器人和存储介质

Publications (1)

Publication Number Publication Date
CN110600003A true CN110600003A (zh) 2019-12-20

Family

ID=68851135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910999706.6A Pending CN110600003A (zh) 2019-10-18 2019-10-18 机器人的语音输出方法、装置、机器人和存储介质

Country Status (1)

Country Link
CN (1) CN110600003A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354334A (zh) * 2020-03-17 2020-06-30 北京百度网讯科技有限公司 语音输出方法、装置、设备和介质
CN112947859A (zh) * 2021-02-26 2021-06-11 拉卡拉支付股份有限公司 临时文件处理方法、装置、电子设备、介质及程序产品

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114446A (zh) * 2007-04-19 2008-01-30 北京中星微电子有限公司 一种嵌入式平台语音合成系统及其方法
US20080280601A1 (en) * 2007-05-09 2008-11-13 At&T Knowledge Ventures, Lp System and Method for Spoken Caller Identification in a Cellular Telephone Headset
CN102023998A (zh) * 2009-09-21 2011-04-20 创新科技有限公司 用于处理网页以便在手持设备上显示的方法和装置
CN102707798A (zh) * 2011-03-24 2012-10-03 微软公司 使用按键和手势信息的文本输入
CN103500067A (zh) * 2013-09-30 2014-01-08 北京航空航天大学 一种点击、滑动、手势识别与语音结合的触摸屏交互系统
CN104348828A (zh) * 2013-08-05 2015-02-11 三星电子株式会社 用于支持语音对话服务的交互装置和方法
CN106021504A (zh) * 2016-05-20 2016-10-12 深圳Tcl数字技术有限公司 字符串模糊匹配方法及装置
CN106101789A (zh) * 2016-07-06 2016-11-09 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
CN106415412A (zh) * 2014-05-30 2017-02-15 苹果公司 用于家庭自动化的智能助理
CN106470146A (zh) * 2015-08-17 2017-03-01 腾讯科技(深圳)有限公司 即时通信应用中文本转换为语音的方法和装置
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互系统
CN107943405A (zh) * 2016-10-13 2018-04-20 广州市动景计算机科技有限公司 语音播报装置、方法、浏览器及用户终端
CN109119066A (zh) * 2018-09-30 2019-01-01 苏州浪潮智能软件有限公司 一种快速进行语音播放的方法
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置
CN109658938A (zh) * 2018-12-07 2019-04-19 百度在线网络技术(北京)有限公司 语音与文本匹配的方法、装置、设备及计算机可读介质
CN109766457A (zh) * 2017-11-09 2019-05-17 腾讯科技(深圳)有限公司 一种媒体内容搜索方法、装置及存储介质
CN110119461A (zh) * 2018-01-25 2019-08-13 优酷网络技术(北京)有限公司 一种查询信息的处理方法及装置
CN110164411A (zh) * 2018-07-18 2019-08-23 腾讯科技(深圳)有限公司 一种语音交互方法、设备及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114446A (zh) * 2007-04-19 2008-01-30 北京中星微电子有限公司 一种嵌入式平台语音合成系统及其方法
US20080280601A1 (en) * 2007-05-09 2008-11-13 At&T Knowledge Ventures, Lp System and Method for Spoken Caller Identification in a Cellular Telephone Headset
CN102023998A (zh) * 2009-09-21 2011-04-20 创新科技有限公司 用于处理网页以便在手持设备上显示的方法和装置
CN102707798A (zh) * 2011-03-24 2012-10-03 微软公司 使用按键和手势信息的文本输入
CN104348828A (zh) * 2013-08-05 2015-02-11 三星电子株式会社 用于支持语音对话服务的交互装置和方法
CN103500067A (zh) * 2013-09-30 2014-01-08 北京航空航天大学 一种点击、滑动、手势识别与语音结合的触摸屏交互系统
CN106415412A (zh) * 2014-05-30 2017-02-15 苹果公司 用于家庭自动化的智能助理
CN106470146A (zh) * 2015-08-17 2017-03-01 腾讯科技(深圳)有限公司 即时通信应用中文本转换为语音的方法和装置
CN106021504A (zh) * 2016-05-20 2016-10-12 深圳Tcl数字技术有限公司 字符串模糊匹配方法及装置
CN106101789A (zh) * 2016-07-06 2016-11-09 深圳Tcl数字技术有限公司 终端的语音交互方法及装置
CN107943405A (zh) * 2016-10-13 2018-04-20 广州市动景计算机科技有限公司 语音播报装置、方法、浏览器及用户终端
CN107329990A (zh) * 2017-06-06 2017-11-07 北京光年无限科技有限公司 一种用于虚拟机器人的情绪输出方法以及对话交互系统
CN109766457A (zh) * 2017-11-09 2019-05-17 腾讯科技(深圳)有限公司 一种媒体内容搜索方法、装置及存储介质
CN110119461A (zh) * 2018-01-25 2019-08-13 优酷网络技术(北京)有限公司 一种查询信息的处理方法及装置
CN110164411A (zh) * 2018-07-18 2019-08-23 腾讯科技(深圳)有限公司 一种语音交互方法、设备及存储介质
CN109119066A (zh) * 2018-09-30 2019-01-01 苏州浪潮智能软件有限公司 一种快速进行语音播放的方法
CN109658938A (zh) * 2018-12-07 2019-04-19 百度在线网络技术(北京)有限公司 语音与文本匹配的方法、装置、设备及计算机可读介质
CN109448694A (zh) * 2018-12-27 2019-03-08 苏州思必驰信息科技有限公司 一种快速合成tts语音的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354334A (zh) * 2020-03-17 2020-06-30 北京百度网讯科技有限公司 语音输出方法、装置、设备和介质
CN111354334B (zh) * 2020-03-17 2023-09-15 阿波罗智联(北京)科技有限公司 语音输出方法、装置、设备和介质
CN112947859A (zh) * 2021-02-26 2021-06-11 拉卡拉支付股份有限公司 临时文件处理方法、装置、电子设备、介质及程序产品

Similar Documents

Publication Publication Date Title
US7949532B2 (en) Conversation controller
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
US20160179831A1 (en) Systems and methods for textual content creation from sources of audio that contain speech
CN103700370B (zh) 一种广播电视语音识别系统方法及系统
US7949531B2 (en) Conversation controller
US9190049B2 (en) Generating personalized audio programs from text content
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN111798833A (zh) 一种语音测试方法、装置、设备和存储介质
WO2020046387A1 (en) Dynamic adjustment of story time special effects based on contextual data
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
WO2020050822A1 (en) Detection of story reader progress for pre-caching special effects
CN116386679A (zh) 故事读者阅读中断的算法确定
CN110600003A (zh) 机器人的语音输出方法、装置、机器人和存储介质
CN114598933B (zh) 一种视频内容处理方法、系统、终端及存储介质
US8706484B2 (en) Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
US20210182488A1 (en) Reading progress estimation based on phonetic fuzzy matching and confidence interval
US20230386474A1 (en) Emotion-based voice controlled device
US9436675B2 (en) Method and device for phonetizing data sets containing text
WO2021153403A1 (ja) テキスト情報編集装置及びテキスト情報編集方法
CN113516963A (zh) 音频数据的生成方法、装置、服务器和智能音箱
CN113868445A (zh) 续播位置确定方法、续播系统
WO2023243273A1 (ja) 発話データ生成装置、対話装置及び生成モデルの作成方法
KR102656262B1 (ko) 이미지를 이용한 중국어 연상학습 콘텐츠 제공 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220