CN103236259B - 语音识别处理及反馈系统、语音回复方法 - Google Patents

语音识别处理及反馈系统、语音回复方法 Download PDF

Info

Publication number
CN103236259B
CN103236259B CN201310095659.5A CN201310095659A CN103236259B CN 103236259 B CN103236259 B CN 103236259B CN 201310095659 A CN201310095659 A CN 201310095659A CN 103236259 B CN103236259 B CN 103236259B
Authority
CN
China
Prior art keywords
voice
user
storehouse
speech
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310095659.5A
Other languages
English (en)
Other versions
CN103236259A (zh
Inventor
毛惟谦
王珏
彭培源
郑园蓁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai LG Electronics Co Ltd
Original Assignee
Shanghai LG Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai LG Electronics Co Ltd filed Critical Shanghai LG Electronics Co Ltd
Priority to CN201310095659.5A priority Critical patent/CN103236259B/zh
Publication of CN103236259A publication Critical patent/CN103236259A/zh
Application granted granted Critical
Publication of CN103236259B publication Critical patent/CN103236259B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种语音识别处理及反馈系统、语音回复方法,该方法包括:采集用户的语音信息;对用户的语音信息进行识别,将识别出的语音信息转化为文字信息;生成对应于文字信息的文字反馈;检测用户的性别;检测用户的年龄;获取并存储男性语音库、女性语音库和儿童语音库;当检测出用户为男性且不是儿童时,选择女性语音库对文字反馈进行语音合成,生成女声语音文件回复用户;当检测出用户为女性且不是儿童时,选择男性语音库对文字反馈进行语音合成,生成男声语音文件回复用户;当检测出用户为儿童时,选择儿童语音库对文字反馈进行语音合成,生成卡通语音文件回复用户。该方法能够根据说话者年龄和性别进行有差别的、不同语调的语音回复。

Description

语音识别处理及反馈系统、语音回复方法
技术领域
本发明涉及语音识别以及语音合成,具体地涉及一种语音识别处理及反馈系统、语音回复方法。
背景技术
在现有语音识别处理及反馈系统中,通常包括三个重要的组成部分:语音识别、语音理解和语音回复。在第三部分语音回复这个模块,所采用的是单一语音语调和无差别回复,基本只能分为男声和女声,用户对于不同语音的需求也只能通过提前设置来进行选择。无法满足用户对于多样性语音回复的需求,更无法针对当前说话用户来自动地转换为用户喜好的语音回复。
传统语音识别处理以及反馈系统,操作平台可为带有网络功能的各种多媒体平台如手机,或者移动终端等,此处以电视平台为例。传统语音识别处理以及反馈系统主要分为如下三个模块:语音识别模块、语音理解和处理模块、语音回复模块。系统预先设置固定语音语调回复,一般分为男声和女声,需要在系统设置由用户自行选择,回复内容男女生一致。
图1为传统语音识别处理以及反馈系统中的语音回复方法示意图。如图1所示,当任何一类用户(如男人,女人或者儿童)首先对系统进行语音输入,明确各自的指令。系统对用户的语音输入进行识别,将语音信息转化为文字信息。然后进入语音理解和处理模块,对文字信息进一步理解和分析,得出相应的文字反馈。最终转入语音回复模块,文字反馈会被输入语音合成库,语音库一般分为男声和女声,用户需要提前设置选择,被选择的语音库可以生成语音文件,最终将语音反馈给用户。这种语音回复和反馈服务是:1,同样的发音;2,同样的反馈。
发明人在实现本发明的过程中发现,现有技术存在的问题至少包括:
1、语音回复单一
传统的系统一般只会集成1到2个语音库,使用时需要用户自行选择。因此无论哪一类用户所听到的语音反馈都只有一种语音语调。用户在长期使用的过程中,会产生听觉疲劳。即使再有的语音系统中加入了身份识别功能,但是在最终的语音回复模块也只是增加了个性化服务,并没有对语音和语调进行过相应的调整。
2、无法吸引儿童群体
对于儿童群体来说,语音系统的吸引力更多的体现在听说的互动的体验上,对于当前传统的语音系统,无法满足儿童群体对于多样性和趣味性的要求。因此无法调动这个群体的使用兴趣。从某种意义上阻碍了将语音系统拓展为一种教育方式的潜在功能。
发明内容
本发明的目的在于,克服现有技术的不足,提供一种语音识别处理及反馈系统、语音回复方法,以便于在语音系统中向用户提供多种个性化的、差异化的语音回复功能,能够根据说话者年龄和性别进行有差别的、不同语调的语音回复。
一方面,为达上述目的,本发明实施例提供了一种语音识别处理及反馈系统,所述系统包括:
语音采集单元,用于采集用户的语音信息;
语音识别单元,用于对采集的用户的语音信息进行识别,将识别出的语音信息转化为文字信息;
语音理解和处理单元,所述语音理解和处理单元包括:文字反馈模块,用于生成地应于所述文字信息的文字反馈;性别检测模块,用于检测用户的性别;以及,年龄检测模块,用于检测用户的年龄;
存储单元,用于存储语音库,所述语音库包括:男性语音库、女性语音库和儿童语音库;
语音回复单元,包括语音合成模块和语音播放模块,所述语音合成模块用于当检测出的用户为男性且不是儿童时,选择所述女性语音库对所述文字反馈进行语音合成,生成女声语音文件;当检测出的用户为女性且不是儿童时,选择所述男性语音库对所述文字反馈进行语音合成,生成男声语音文件;当检测出的用户为儿童时,选择所述儿童语音库对所述文字反馈进行语音合成,生成卡通语音文件;所述语音播放模块,用于播放所述语音合成模块生成的相应的语音文件。
另一方面,为达上述目的,本发明实施例提供了一种语音识别处理及反馈系统的语音回复方法,所述方法包括:
采集用户的语音信息;
对采集的用户的语音信息进行识别,将识别出的语音信息转化为文字信息;
生成地应于所述文字信息的文字反馈;
检测用户的性别;
检测用户的年龄;
获取并存储语音库,所述语音库包括:男性语音库、女性语音库和儿童语音库;
当检测出的用户为男性且不是儿童时,选择女性语音库对所述文字反馈进行语音合成,生成女声语音文件回复所述用户;当检测出的用户为女性且不是儿童时,选择男性语音库对所述文字反馈进行语音合成,生成男声语音文件回复所述用户;当检测出的用户为儿童时,选择儿童语音库对所述文字反馈进行语音合成,生成卡通语音文件回复所述用户。
本发明实施例的上述技术方案的有益技术效果在于:
1,在语音系统中,本发明提供用户多种个性化的,差异化的语音回复功能,将原本只有2种语音回复的单一选择,提升到n种选择,增强用户的好感度和用户体验,提高用户使用该产品的兴趣,增加购买该产品的机率。
2,本发明对于儿童群体来说,多样性和趣味性的语音调动了这个群体的使用兴趣。将语音系统拓展为一种潜在的教育系统。同时在识别儿童身份信息的基础上,还可以对儿童的视听内容进行监控。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为传统语音识别处理以及反馈系统中的语音回复方式的示意图;
图2为本发明实施例的语音识别处理及反馈系统的系统功能框图;
图3为本发明另一实施例中语音识别处理及反馈系统的具体功能框图;
图4为本发明实施例的语音识别处理及反馈系统检测使用者性别及年龄来自动选择回复语音的示意图;
图5为本发明实施例的语音识别处理及反馈系统采集喜好对象的声音特征由系统合成作为回复语音的示意图;
图6为本发明实施例的语音回复方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种语音识别处理及反馈系统。图2为本发明实施例的系统功能框图,如图2所示,该系统100包括:
语音采集单元110,用于采集用户的语音信息;
语音识别(SpeechRecognition)单元120,用于对采集的用户的语音进行识别,将识别出的语音信息转化为文字信息;
语音理解和处理(LanguageUnderstandingandProcessing)单元130,其包括:文字反馈模块131,用于生成地应于所述文字信息的文字反馈;性别检测(genderdetection)模块132,用于检测用户的性别;以及,年龄检测(agedetection,儿童或者成人)模块133,用于检测用户的年龄;
存储单元140,用于存储语音库,所述语音库包括:男性语音库、女性语音库和儿童语音库;
语音回复单元150,包括语音合成(TexttoSpeech)模块151和语音播放模块152,所述语音合成模块151用于当检测出的用户为男性且不是儿童时,选择所述女性语音库对所述文字反馈进行语音合成,生成女声语音文件;当检测出的用户为女性且不是儿童时,选择所述男性语音库对所述文字反馈进行语音合成,生成男声语音文件;当检测出的用户为儿童时,选择所述儿童语音库对所述文字反馈进行语音合成,生成卡通语音文件;所述语音播放模块152,用于播放所述语音合成模块生成的相应的语音文件。
该系统100的工作过程如下:系统通过语音采集单元110接收用户的语音输入,经过语音识别单元120转换成文字,进入语音理解和处理单元130进行处理,确定用户身份并得到回复文字,然后由语音回复单元确定用哪个语音库(男声/女声/卡通声音/用户自定义声音/名人声音等),从存储单元140调用相应语音库,经语音合成模块151将回复文字合成为语音,由语音播放模块152播放出声音。
具体地,语音识别单元生成的文字信息,进入文字反馈模块后,生成回复文字;得到的声音特征信息,经性别检测模块和年龄检测模块判断用户性别和年龄段,并将检测结果输出到语音合成模块,由该语音合成模块决定采用哪个语音库。
在一较佳实施例中,所述语音回复单元150,还可以用于在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后,回复所述用户。
在又一较佳实施例中,提供了另一种语音识别处理及反馈系统200,请参阅图3,所述系统200还包括:模式设置单元160,用于接收外部指令,设置所述系统的工作模式为多语调语音回复模式、喜好对象语音回复模式、或者特色语音回复模式;在所述多语调语音回复模式下,性别检测模块132和年龄检测模块133处于工作状态,在其他模式下,性别检测模块132和年龄检测模块133处于不工作状态。
所述语音理解和处理单元130还可以进一步包括:声音特征提取及合成(speechfeatureextractionandsynthesis)模块134,用于在喜好对象语音回复模式下,采集指定用户的喜好对象的语音特征,并根据采集的语音特征生成喜好对象的语音库。所述语音合成模块151,还可以用于当所述用户为指定用户时,选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成,生成喜好对象语音文件,并由该语音播放模块152回复所述指定用户。
在又一较佳实施例中,所述存储单元140,还存储有特色语音库。所述语音合成模块151,还可以用于在特色语音回复模式下,选择所述特色语音库对所述文字反馈进行语音合成,生成特色语音文件,并由该语音播放模块152回复所述用户。
其中,该多语调语音回复模式为之前图2中所描述的工作模式,根据用户性别、年龄执行相应的多语调语音回复。
具体地,在自动选择男性/女性/儿童语音回复模式(多语调语音回复模式)中,模块131、132、133工作,模块134不工作;在喜好对象语音回复模式中,模块131、134工作,模块132、133不工作;在特殊语音(如名人)回复模式中,模块131工作,模块132、133、134不工作。
本发明实施例可以增强用户的对于整个语音识别系统的好感度和用户体验,使得整个系统的在提供服务的同时更加丰富了用户的感官体验和使用乐趣,并且衍生了新的服务模式。
以下对本发明实施例的语音识别处理及反馈系统进行更为详细的描述:
本发明实施例通过下列多种方式来实现针对用户性别、年龄、身份、喜好的多语调语音回复。
1、检测使用者性别及年龄来自动选择回复语音。通过在语音理解和处理单元中加入性别识别,年龄识别(成人或儿童),特定身份识别此类已成熟的关键技术,来获得说话人信息,并且提前集成多种语音包,针对不同身份(指年龄和性别)的人自动切换到相对符合其喜好的语音回复,例如用女声回复男用户,男声回复女用户,卡通声音回复儿童用户。
在第一种实现方式中,如图4所示,本发明实施例在语音理解和处理单元中加入性别检测、年龄检测等功能模块,同时在系统中再添加一个针对儿童喜好的卡通语音库。系统在识别语音和处理的同时,可以把说话者身份信息传给语音回复模块,语音回复单元自动根据提供的身份信息来选择对应的语音库进行语音合成。这样就可以实现针对不同群体的三种回复效果。
其中,性别检测模块、年龄检测模块、身份检测模块可分别检测出说话者的年龄、性别、身份。在该语音识别及语音处理单元中,载入三种语音包,分别为男性语音包、女性语音包和针对儿童的卡通语音包。以上都属于成熟技术。
在该具体实现方式中,系统可以自动提供针对性的语音、称谓和服务反馈。例如:
针对女性用户,自动提供男性语音回复。对女性的尊称以及针对其喜好回复。
针对男性用户,自动提供女性语音回复。对男性的尊称以及针对其喜好回复。
针对儿童用户,自动提供卡通语音回复。对儿童的称呼以及针对其喜好回复。
另外,该具体实现方式中,能够提供的个性化服务包括:1)针对不同群体的分类推荐等;2)对儿童的观看和收听进行监控和保护。
2、采集喜好对象的声音特征由系统合成作为回复语音。通过集成喜欢对象的声音来替代,在系统中加入声音合成模块,利用此系统将自己喜欢的人或者身边亲人的声音进行特征采样,然后利用样本采集发音特征,可以最大限度的模仿采样人的发声,从而来取代单一的语音回复。
在第二种实现方式中,如图5所示,针对某些用户更喜欢听到自己熟悉或者喜好者的声音作为语音回复,本发明可以提供用户选择喜好对象语音回复选项。本发明实施例加入声音特征提取及合成模块,喜好对象可以通过2种方式来对系统进行声音采样:1),非系统工作状态采样,即在不使用语音系统的情况下,打开输入端口,在系统的指导下进行语音收集。2),系统工作状态采样,即当通过方式1已采得喜好对象样本的前提下,如果喜好对象也正在使用语音系统,那么系统在在处理的过程中可以通过身份检测的功能来确认此声音来源于喜好对象,自动为其进行语音收集,由于越多语音信息的收集,可以使得最终生成的语音更接近采集者的语调,方式2)可以作为一种学习的功能。系统通过以上2种方式采集对象的语音特征并且自动生成喜好对象的语音库。在最终语音回复的模块,系统就自动采用此喜好人的语音库来生成语音,将喜欢对象的语音回复反馈给发言人。
在该具体实现方式中,语音识别及语音处理单元包括:性别检测模块、年龄检测模块、身份检测模块,分别用于检测出说话者的性别、年龄、身份;以及,语音特征采集合成模块,用于采集喜好对象的语音特征,自动生成喜好对象的语音包括,并保存在系统内。
3、提供名人或者特色语音下载服务。提供名人或者特色语音(例如机器人,外星人)下载服务,来丰富系统自身的语音回复。
在第三种实现方式中,本发明实施例在方式1,2的基础上再提供名人或者特色语音回复的选项。可以将名人或者一些有特色的语音(例如机器人发声,外星人发声等)预先合成放在云端。由用户自行在有网络的条件下下载语音库文件,并且安装到指定位置。同样,在最终语音回复的模块,系统采用下载的库文件生成语音回复给发言人。以上三种方式作为选项可以同时存在,并不互相影响,供用户选择其中一种。
第三种方式可由用户触发,即系统提供名人或特色语音库选项,用户可选择某一种特色语音作为系统回复的语音。系统根据用户所选的语音库来将反馈文本合成语音,回复让用户听到。
图6为本发明实施例的一种语音识别处理及反馈系统的语音回复方法的流程图。如图6所示,所述方法包括如下步骤:
610、采集用户的语音信息;
620、对采集的用户的语音信息进行识别,将识别出的语音信息转化为文字信息;
630、生成地应于所述文字信息的文字反馈;
640、检测用户的性别;
650、检测用户的年龄;
660、获取并存储语音库,所述语音库包括:男性语音库、女性语音库和儿童语音库;
670、当检测出的用户为男性且不是儿童时,选择女性语音库对所述文字反馈进行语音合成,生成女声语音文件回复所述用户;当检测出的用户为女性且不是儿童时,选择男性语音库对所述文字反馈进行语音合成,生成男声语音文件回复所述用户;当检测出的用户为儿童时,选择儿童语音库对所述文字反馈进行语音合成,生成卡通语音文件回复所述用户。
在一个较佳实施例中,所述方法还可以包括如下步骤:在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后,回复所述用户。
在又一个较佳实施例中,所述方法还可以包括如下步骤:
接收外部指令,设置所述系统的工作模式为多语调语音回复模式、喜好对象语音回复模式、或者特色语音回复模式;
在喜好对象语音回复模式下,采集指定用户的喜好对象的语音特征,并根据采集的语音特征生成喜好对象的语音库;当所述用户为指定用户时,选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成,生成喜好对象语音文件回复所述指定用户。
在又一个较佳实施例中,所述方法还可以包括如下步骤:在特色语音回复模式下,获取特色语音库;根据用户指令选择所述特色语音库对所述文字反馈进行语音合成,生成特色语音文件回复所述用户。
本发明实施例的有益技术效果:
1,在语音系统中,本发明提供用户多种个性化的,差异化的语音回复功能,将原本只有2种语音回复的单一选择,提升到n种选择,增强用户的好感度和用户体验,提高用户使用该产品的兴趣,增加购买该产品的机率。
2,在语音系统中,本发明提供了用户选择不同语音回复的多种选项,相对于传统的只能在选项中选择语音的方式,用户可以根据自我兴趣选择想要的语音,也可以由系统通过识别身份信息来自动为用户选择。提供了更多的选择空间,同时系统的自动选择也方便了用户的使用,使操作更便利。
3,本发明对于儿童群体来说,多样性和趣味性的语音调动了这个群体的使用兴趣。将语音系统拓展为一种潜在的教育系统。同时在识别儿童身份信息的基础上,还可以对儿童的视听内容进行监控。
4,本发明针对在传统语音回复方式种,无法针对说话者身份进行有差别的回复缺点,也进行了改进,根据身份信息识别,系统不但能够提供不同语调的语音回复,同时还可以加入不同的称谓以及使用者可能感兴趣的回复内容。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电脑、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种语音识别处理及反馈系统,其特征在于,所述系统包括:
语音采集单元,用于采集用户的语音信息;
语音识别单元,用于对采集的用户的语音信息进行识别,将识别出的语音信息转化为文字信息;
语音理解和处理单元,所述语音理解和处理单元包括:文字反馈模块,用于生成地应于所述文字信息的文字反馈;性别检测模块,用于检测用户的性别;以及,年龄检测模块,用于检测用户的年龄;
存储单元,用于存储语音库,所述语音库包括:男性语音库、女性语音库和儿童语音库;
语音回复单元,包括语音合成模块和语音播放模块,所述语音合成模块用于当检测出的用户为男性且不是儿童时,选择所述女性语音库对所述文字反馈进行语音合成,生成女声语音文件;当检测出的用户为女性且不是儿童时,选择所述男性语音库对所述文字反馈进行语音合成,生成男声语音文件;当检测出的用户为儿童时,选择所述儿童语音库对所述文字反馈进行语音合成,生成卡通语音文件;所述语音播放模块,用于播放所述语音合成模块生成的相应的语音文件;
所述语音合成模块,还用于在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后,由所述语音播放模块回复所述用户;
模式设置单元,用于接收外部指令,设置所述系统的工作模式为多语调语音回复模式、喜好对象语音回复模式、或者特色语音回复模式;
在所述多语调语音回复模式下,所述性别检测模块和所述年龄检测模块处于工作状态,在其他模式下,所述性别检测模块和所述年龄检测模块处于不工作状态;
所述语音理解和处理单元还包括:
声音特征提取及合成模块,用于在喜好对象语音回复模式下,采集指定用户的喜好对象的语音特征,并根据采集的语音特征生成喜好对象的语音库;
所述语音合成模块,还用于当所述用户为指定用户时,选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成,生成喜好对象语音文件,并由所述语音播放模块回复所述指定用户。
2.根据权利要求1所述的系统,其特征在于,所述存储单元,还存储有特色语音库;
所述语音合成模块,还用于在特色语音回复模式下,选择所述特色语音库对所述文字反馈进行语音合成,生成特色语音文件,并由所述语音播放模块回复所述用户。
3.一种语音识别处理及反馈系统的语音回复方法,其特征在于,所述方法包括:
采集用户的语音信息;
对采集的用户的语音信息进行识别,将识别出的语音信息转化为文字信息;
生成地应于所述文字信息的文字反馈;
检测用户的性别;
检测用户的年龄;
获取并存储语音库,所述语音库包括:男性语音库、女性语音库和儿童语音库;
当检测出的用户为男性且不是儿童时,选择女性语音库对所述文字反馈进行语音合成,生成女声语音文件回复所述用户;当检测出的用户为女性且不是儿童时,选择男性语音库对所述文字反馈进行语音合成,生成男声语音文件回复所述用户;当检测出的用户为儿童时,选择儿童语音库对所述文字反馈进行语音合成,生成卡通语音文件回复所述用户;
在生成的语音文件中加入与用户的身份相关联的称谓和/或用户感兴趣的回复内容后,回复所述用户;
接收外部指令,设置所述系统的工作模式为多语调语音回复模式、喜好对象语音回复模式、或者特色语音回复模式;
在喜好对象语音回复模式下,采集指定用户的喜好对象的语音特征,并根据采集的语音特征生成喜好对象的语音库;
当所述用户为指定用户时,选择所述指定用户的喜好对象的语音库对所述文字反馈进行语音合成,生成喜好对象语音文件回复所述指定用户。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在特色语音回复模式下,获取特色语音库;
根据用户指令选择所述特色语音库对所述文字反馈进行语音合成,生成特色语音文件回复所述用户。
CN201310095659.5A 2013-03-22 2013-03-22 语音识别处理及反馈系统、语音回复方法 Expired - Fee Related CN103236259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310095659.5A CN103236259B (zh) 2013-03-22 2013-03-22 语音识别处理及反馈系统、语音回复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310095659.5A CN103236259B (zh) 2013-03-22 2013-03-22 语音识别处理及反馈系统、语音回复方法

Publications (2)

Publication Number Publication Date
CN103236259A CN103236259A (zh) 2013-08-07
CN103236259B true CN103236259B (zh) 2016-06-29

Family

ID=48884295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310095659.5A Expired - Fee Related CN103236259B (zh) 2013-03-22 2013-03-22 语音识别处理及反馈系统、语音回复方法

Country Status (1)

Country Link
CN (1) CN103236259B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104795067B (zh) * 2014-01-20 2019-08-06 华为技术有限公司 语音交互方法及装置
KR102311922B1 (ko) * 2014-10-28 2021-10-12 현대모비스 주식회사 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
CN107077315B (zh) * 2014-11-11 2020-05-12 瑞典爱立信有限公司 用于选择要在与用户通信期间使用的语音的系统和方法
CN104700843A (zh) * 2015-02-05 2015-06-10 海信集团有限公司 一种年龄识别的方法及装置
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
US10102852B2 (en) * 2015-04-14 2018-10-16 Google Llc Personalized speech synthesis for acknowledging voice actions
CN106686267A (zh) * 2015-11-10 2017-05-17 中国移动通信集团公司 一种实现个性化语音服务的方法及系统
CN105498168A (zh) * 2015-12-07 2016-04-20 永康市玛马吉智能科技有限公司 一种通过语音控制跑步机的方法和装置
CN112417181B (zh) * 2016-02-26 2024-09-03 原相科技股份有限公司 主动响应的交互式服务平台及其运作方法
CN105843382B (zh) * 2016-03-18 2018-10-26 北京光年无限科技有限公司 一种人机交互方法及装置
CN105895105B (zh) * 2016-06-06 2020-05-05 北京云知声信息技术有限公司 语音处理方法及装置
CN106328128A (zh) * 2016-08-16 2017-01-11 成都市和平科技有限责任公司 一种基于语音识别技术的教学系统及方法
CN106412263A (zh) * 2016-09-19 2017-02-15 合肥视尔信息科技有限公司 一种人机交互语音系统
CN107886938B (zh) * 2016-09-29 2020-11-17 中国科学院深圳先进技术研究院 虚拟现实引导催眠语音处理方法及装置
CN106548773B (zh) * 2016-11-04 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的儿童用户搜索方法及装置
CN106649643B (zh) * 2016-12-08 2019-10-22 腾讯音乐娱乐(深圳)有限公司 一种音频数据处理方法及其装置
CN107015781B (zh) * 2017-03-28 2021-02-19 联想(北京)有限公司 语音识别方法和系统
CN109002274A (zh) * 2017-06-07 2018-12-14 塞舌尔商元鼎音讯股份有限公司 可调整输出声音的电子装置及调整输出声音的方法
CN107170456A (zh) * 2017-06-28 2017-09-15 北京云知声信息技术有限公司 语音处理方法及装置
CN107564532A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 电子设备的唤醒方法、装置、设备及计算机可读存储介质
CN107340991B (zh) * 2017-07-18 2020-08-25 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107507620A (zh) * 2017-09-25 2017-12-22 广东小天才科技有限公司 一种语音播报声音设置方法、装置、移动终端及存储介质
CN107731232A (zh) * 2017-10-17 2018-02-23 深圳市沃特沃德股份有限公司 语音翻译方法和装置
CN109725798B (zh) * 2017-10-25 2021-07-27 腾讯科技(北京)有限公司 智能角色的切换方法及相关装置
CN107832720B (zh) * 2017-11-16 2022-07-08 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
CN108053820A (zh) * 2017-12-13 2018-05-18 广东美的制冷设备有限公司 空气调节器的语音播报方法及装置
CN108154877B (zh) * 2017-12-13 2021-12-17 广东美的制冷设备有限公司 空气调节器的语音播报方法及装置
CN108364638A (zh) * 2018-01-12 2018-08-03 咪咕音乐有限公司 一种语音数据处理方法、装置、电子设备和存储介质
CN108366302B (zh) * 2018-02-06 2020-06-30 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、系统及存储装置
CN108429953A (zh) * 2018-04-11 2018-08-21 四川斐讯信息技术有限公司 一种外语口语练习用智能耳机及其人机交互方法
CN110390938A (zh) * 2018-04-20 2019-10-29 比亚迪股份有限公司 基于声纹的语音处理方法、装置和终端设备
CN108564943B (zh) * 2018-04-27 2021-02-12 京东方科技集团股份有限公司 语音交互方法及系统
CN108639057B (zh) * 2018-05-15 2022-08-26 上海博泰悦臻网络技术服务有限公司 车载控制平台及其控制方法
CN110069608B (zh) * 2018-07-24 2022-05-27 百度在线网络技术(北京)有限公司 一种语音交互的方法、装置、设备和计算机存储介质
CN109036377A (zh) * 2018-07-26 2018-12-18 中国银联股份有限公司 一种语音合成方法及装置
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
CN110930998A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
CN110930999A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
CN109377979B (zh) * 2018-12-07 2021-09-24 思必驰科技股份有限公司 更新欢迎语的方法和系统
CN113220913B (zh) * 2020-02-04 2024-07-30 阿里巴巴集团控股有限公司 多媒体文件处理方法、装置和交互系统
CN111683181B (zh) * 2020-04-27 2022-04-12 平安科技(深圳)有限公司 基于语音的用户性别年龄识别方法、装置及计算机设备
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN112489636A (zh) * 2020-10-15 2021-03-12 南京创维信息技术研究院有限公司 一种智能语音播报助手选择方法和系统
CN113091221A (zh) * 2021-03-08 2021-07-09 珠海格力电器股份有限公司 空调器及其控制方法
CN113819602B (zh) * 2021-09-06 2023-07-14 青岛海尔空调器有限总公司 一种空调控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716273A (zh) * 2004-06-28 2006-01-04 李剑华 商用迎宾机器人的外形构造及识别方法
CN101390155A (zh) * 2006-02-21 2009-03-18 索尼电脑娱乐公司 发言者适配的语音识别和利用基音的注册
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN102655001A (zh) * 2011-03-04 2012-09-05 东芝泰格有限公司 信息处理装置及信息处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409280A (zh) * 2002-08-14 2003-04-09 冯鲁民 城市智能交通和车辆导航系统
JP2010078763A (ja) * 2008-09-25 2010-04-08 Brother Ind Ltd 音声処理装置、音声処理プログラム、およびインターホンシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716273A (zh) * 2004-06-28 2006-01-04 李剑华 商用迎宾机器人的外形构造及识别方法
CN101390155A (zh) * 2006-02-21 2009-03-18 索尼电脑娱乐公司 发言者适配的语音识别和利用基音的注册
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN102655001A (zh) * 2011-03-04 2012-09-05 东芝泰格有限公司 信息处理装置及信息处理方法

Also Published As

Publication number Publication date
CN103236259A (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN103236259B (zh) 语音识别处理及反馈系统、语音回复方法
US11140459B2 (en) Generating videos with a character indicating a region of an image
US10318637B2 (en) Adding background sound to speech-containing audio data
US11159597B2 (en) Systems and methods for artificial dubbing
CN107507612B (zh) 一种声纹识别方法及装置
US11475897B2 (en) Method and apparatus for response using voice matching user category
US9928834B2 (en) Information processing method and electronic device
US20150373455A1 (en) Presenting and creating audiolinks
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和系统
CN109346076A (zh) 语音交互、语音处理方法、装置和系统
US20210280172A1 (en) Voice Response Method and Device, and Smart Device
CN109189980A (zh) 与用户进行语音交互的方法和电子设备
McGill et al. Acoustic transparency and the changing soundscape of auditory mixed reality
CN105615902A (zh) 情绪监控方法和装置
CN113010138B (zh) 文章的语音播放方法、装置、设备及计算机可读存储介质
US20220246135A1 (en) Information processing system, information processing method, and recording medium
TW202022851A (zh) 語音互動方法和裝置
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
CN110442867A (zh) 图像处理方法、装置、终端及计算机存储介质
US10347299B2 (en) Method to automate media stream curation utilizing speech and non-speech audio cue analysis
KR102226427B1 (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
KR20210108565A (ko) 가상 콘텐츠 생성 방법
JP2021149664A (ja) 出力装置、出力方法及び出力プログラム
KR101562901B1 (ko) 대화 지원 서비스 제공 시스템 및 방법
CN108573705A (zh) 智能语音聊天器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160629

Termination date: 20210322