CN111081244A - 一种语音交互方法和装置 - Google Patents
一种语音交互方法和装置 Download PDFInfo
- Publication number
- CN111081244A CN111081244A CN201911341183.2A CN201911341183A CN111081244A CN 111081244 A CN111081244 A CN 111081244A CN 201911341183 A CN201911341183 A CN 201911341183A CN 111081244 A CN111081244 A CN 111081244A
- Authority
- CN
- China
- Prior art keywords
- user
- voice
- voice input
- broadcast
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000003993 interaction Effects 0.000 title claims abstract description 39
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 241000282373 Panthera pardus Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000016776 visual perception Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 241000282324 Felis Species 0.000 description 1
- 206010026749 Mania Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
本发明实施例提供了一种语音交互方法、装置和车辆,所述的方法包括:获取用户的语音输入;针对所述语音输入为所述用户进行个性化语音反馈;进而实现为用户进行个性化语音反馈。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种语音交互方法和装置。
背景技术
随着人工智能和语音识别技术的不断发展,终端设备趋向智能化,也逐渐被应用在各个领域,如智能家居、公共服务、智能驾驶等等,进而使得用户可以与设备进行语音交互。在语音交互的过程中,终端设备(如家电、机器人、车载终端等)可以对用户发出的语音指令进行识别,然后给出对应的响应(如执行对应的操作、语音播报等)。
其中,在为用户进行语音交互的过程中,终端设备语音反馈的方式都是千篇一律,无法满足用户个性化需求。
发明内容
本发明实施例提供一种语音交互方法,以实现个性化语音反馈。
相应的,本发明实施例还提供了一种语音交互装置,用以保证上述方法的实现及应用。
为了解决上述问题,本发明公开了一种语音交互方法,包括:获取用户的语音输入;其中,所述个性化语音反馈和所述用户的用户信息相关,所述用户信息包括以下至少一种:用户语速、用户语调、用户性别、用户年龄和用户使用的语种。
可选地,所述针对所述语音输入向所述用户进行个性化语音反馈,包括:确定所述用户的用户信息;依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报。
可选地,依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:在所述用户信息包括用户语速的情况下,依据所述用户语速确定播报语速;按照所述播报语速,针对所述语音输入向所述用户进行语音播报。
可选地,所述依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:在所述用户信息包括用户语调的情况下,采用与所述用户语调相匹配的播报语调,针对所述语音输入向所述用户进行语音播报。
可选地,所述依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:在所述用户信息包括用户性别的情况下,采用与所述用户性别相同或相反性别的声音,针对所述语音输入向所述用户进行语音播报。
可选地,所述依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:在所述用户信息包括用户年龄的情况下,采用与所述用户年龄匹配的预设年龄段对应的声音,针对所述语音输入向所述用户进行语音播报。
可选地,当所述的方法应用于驾驶场景时,所述的方法还包括:当车辆内同时存在多个用户时,识别所述用户的用户身份;所述针对所述语音输入向所述用户进行个性化语音反馈,包括:依据与所述用户的用户身份匹配的历史用户信息,针对所述语音输入向所述用户进行语音播报。
可选地,所述针对所述语音输入向所述用户进行个性化语音反馈,包括:依据所述语音输入检测所述用户的用户状态;依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈。
可选地,所述依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈,包括:当所述用户状态为异常状态时,依据所述用户的历史用户信息向所述用户进行个性化语音反馈;当所述用户状态为正常状态时,依据所述用户的当前用户信息向所述用户进行个性化语音反馈。
本发明实施例还公开了一种语音交互装置,包括:语音获取模块,用于获取用户的语音输入;语音反馈模块,用于针对所述语音输入向所述用户进行个性化语音反馈;其中,所述个性化语音反馈和所述用户的用户信息相关,所述用户信息包括以下至少一种:用户语速、用户语调、用户性别、用户年龄和用户使用的语种。
可选地,所述语音反馈模块包括:信息确定子模块,用于确定所述用户的用户信息;语音播报子模块,用于依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报。
可选地,所述语音播报子模块包括:第一音频播报单元,用于在所述用户信息包括用户语速的情况下,依据所述用户语速确定播报语速;按照所述播报语速,针对所述语音输入向所述用户进行语音播报。
可选地,所述语音播报子模块包括:第二音频播报单元,用于在所述用户信息包括用户语调的情况下,采用与所述用户语调相匹配的播报语调,针对所述语音输入向所述用户进行语音播报。
可选地,所述语音播报子模块包括:第三音频播报单元,用于在所述用户信息包括用户性别的情况下,采用与所述用户性别相同或相反性别的声音,针对所述语音输入向所述用户进行语音播报。
可选地,所述语音播报子模块包括:第四音频播报单元,用于在所述用户信息包括用户年龄的情况下,采用与所述用户年龄匹配的预设年龄段对应的声音,针对所述语音输入向所述用户进行语音播报。
可选地,当所述的装置应用于驾驶场景时,所述的装置还包括:识别模块,用于当车辆内同时存在多个用户时,识别所述用户的用户身份;所述语音播报子模块,包括:第五音频播报单元,用于依据与所述用户的用户身份匹配的历史用户信息,针对所述语音输入向所述用户进行语音播报。
可选地,所述语音播报子模块,包括:第六音频播报单元,用于依据所述语音输入检测所述用户的用户状态;依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈。
可选地,第六音频播报单元,用于当所述用户状态为异常状态时,依据所述用户的历史用户信息向所述用户进行个性化语音反馈;当所述用户状态为正常状态时,依据所述用户的当前用户信息向所述用户进行个性化语音反馈。
本发明实施例还提供了一种车辆,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上实施例中所述的语音交互方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上实施例中所述的交语音交互方法。
与现有技术相比,本发明实施例包括以下优点:
本发明实施例中,终端设备获取用户的语音输入后,可以针对所述语音输入,向所述用户进行与所述用户的用户信息相关联的语音反馈;进而实现为用户进行个性化语音反馈。
附图说明
图1是本发明的一种语音交互方法实施例的步骤流程图;
图2是本发明的一种公共服务场景中语音交互过程实施例的示意图;
图3a是本发明的一种驾驶场景中语音交互方法实施例的步骤流程图;
图3b是本发明的一种驾驶场景中语音交互过程实施例的示意图;
图4是本发明的一种语音交互装置实施例的结构框图;
图5是本发明的一种语音交互装置可选实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,在语音交互的过程中,基于用户的用户信息,为用户进行个性化的语音反馈。
参照图1,示出了本发明的一种语音交互方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、获取用户的语音输入。
步骤104、针对所述语音输入向所述用户进行个性化语音反馈。
本发明实施例中,用户可以通过语音输入与终端设备进行语音交互;例如智能问答,指示终端设备执行对应的指令等。例如在智能家居的场景下,用户可以通过语音输入指示智能家电执行对应的指令,如打开空调、打开电视等。又如在驾驶场景下,用户可以通过语音输入指示车载终端进行导航、调节空调温度、调节座椅角度等等。还例如在公共智能服务的场景下,用户可以通过语音输入与智能机器人进行智能问答。
其中,所述终端设备包括但不限于移动终端、智能机器人、车载终端等。
为了解决现有技术在语音交互过程中,终端设备语音反馈方式单一的问题;本发明实施例获取用户的语音输入后,可以针对所述语音输入,向所述用户进行与所述用户的用户信息相关联的语音反馈;进而实现为所述用户进行个性化语音反馈,更好的满足用户需求,提高用户语音交互的体验。
其中,所述用户信息包括以下至少一种:用户语速、用户语调、用户性别、用户年龄和用户使用的语种。当然,所述用户信息还可以包括其他信息如兴趣信息等,本发明实施例对此不作限制。
综上,本发明实施例中,终端设备获取用户的语音输入后,可以针对所述语音输入,向所述用户进行与所述用户的用户信息相关联的语音反馈;进而实现为用户进行个性化语音反馈。
本发明实施例中,可以通过向所述用户进行语音播报的方式,为用户进行语音反馈;因此一种针对所述语音输入向所述用户进行个性化语音反馈的方式可以是:确定所述用户的用户信息;依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报。
以下分别对依据每一种用户信息,针对所述语音输入向所述用户进行个性化语音播报进行说明。
本发明实施例中,在所述用户信息包括用户语速的情况下,依据所述用户语速确定播报语速;按照所述播报语速,针对所述语音输入向所述用户进行语音播报。依据所述用户语速确定播报语速。
其中,一种依据所述用户语速确定播报语速的方式可以是,依据所述用户语速和预设的语速差值,计算语速范围;从所述语速范围中选取一个值作为所述播报语速。其中,所述语速差值可以是指用户语速与播报语速差值的绝对值,可以按照需求设置如2s,本发明实施例对此不作限制。进而可以计算所述用户语速与语速差值之差,得到端点值1,以及计算所述用户语速与语速差值之和,得到端点值2;然后将端点值1和端点值2组成的区间,确定为语速范围。当然,当所述语速差值为0时,则播报语速与用户语速相同。
其中,一种确定用户语速的方式可以是,通过对所述用户语音输入的语音数据进行语音识别(Automatic Speech Recognition,ASR)确定。其中,终端设备在进行语音识别的过程中,可以先对获取的语音数据进行语音转码、高通滤波和VAD(VoiceActivityDetection,端点检测);当识别到VAD信号时,可以确定用户进行了停顿,此时可以对语音数据进行截断。针对截断后的语音数据,一方面可以计算该段语音数据的总时长,另一方面可以识别该段语音数据对应的语音识别文本。然后依据该段语音数据的总时长、VAD检测时长和语音识别文本,确定用户语速。
本发明的一个示例中,可以先确定所述语音识别文本中的字数,以及该段语音数据的总时长与VAD检测时长的时长差值;再计算所述语音识别文本中的字数与所述时长差值的商,得到该段语音数据对应的用户语速。例如,可以参照如下公式:
V=N/(T-Tvad)
其中,V表示语速,N表示该段语音数据对应语音识别文本中的文本数量,T为该段语音数据的总时长,Tvad为VAD检测时长。
参照图2,用户语音输入“请给我来一首歌手A的歌曲S”,VAD检测时长为500ms;终端设备从接收到“请”对应的音频是开始计时,若在“S”对应的语音之后500ms接收到VAD信号,则在接收到VAD信号是停止计时。若计时时长为3100ms,则可以按照上述公式计算:13/(3100-500)*1000=5字/秒。
当然,当用户输入的语音数据被VAD检测截为多段时,可以依据各段语音数据的语速,确定用户语速,例如计算各段语音数据语速的平均值,将平均值作为用户语速。
本发明实施例中,在针对所述语音输入向所述用户进行个性化语音播报过程中,可以先确定需要进行语音播报的播报文本,然后采用TTS(Text To Speech,从文本到语音)技术,按照所述播报语速将所述播报文本转换为播报音频;再向该用户播报该播报音频,进而实现按照播报语速向所述用户进行语音播报。
本发明实施例中,可以依据所述语音识别文本,查找与所述语音识别文本匹配的播报文本。其中,当语音交互是智能问答时,终端设备可以查找与所述语音识别文本匹配的答案,将所述答案作为播报文本。例如,用户的语音输入“豹属于什么科”,可以查找对应的答案“豹是猫科豹属的一种动物”。当所述语音交互是语音指令时,可以查找与所述语音指令匹配的指令响应文本,将所述指令响应文本作为播报文本。例如:用户的语音输入为“把热水器调整55度”,若由于停水导致水箱中水量不够,则智能热水器无法调整55度;此时可以查找到对应的指令响应文本为“无法将热水器调整55度”。
然后可以确定播报文本中的字数,例如与上述示例中用户语音输入的“请给我来一首歌手A的歌曲S”,匹配的播报文本为“好的这就为你播放歌手A的歌曲S”;其对应的字数为15。再计算播报语速与所述播报文本中字数的商,可以得到播报时长。例如上述示例中播报文本中字数为15,播报语速与用户语速相同为5字/秒,计算得到播报时长为3000毫秒。然后将待播报文本“请给我来一首歌手A的歌曲S”生成时长为3000毫秒的播报音频并播报;进而能够按照播报语速向所述用户播报“请给我来一首歌手A的歌曲S”对应的语音。
本发明实施例中,在所述用户信息包括用户语调的情况下,采用与所述用户语调相匹配的播报语调,针对所述语音输入向所述用户进行语音播报。
其中,当用户情绪稳定时,用户语调可能是平稳的,此时可以采用与用户语调差异较小的语调进行语音播报。当用户情绪不稳定时,用户语调的起伏可能比较大的,此时可以采用相对平稳的语调进行语音播报,以安抚用户情绪。
本发明实施例中,针对截断后的语音数据,还可以进行语调识别,确定用户语调;当然,当用户输入的语音数据被VAD检测截为多段时,可以依据各段语音数据的语调,确定所述用户的用户语速,例如计算各段语音数据对应语调的平均值,将平均值作为用户语调。然后判断所述用户语调是否平稳,若确定所述用户语调平稳,则将与所述用户语调的语调差异值小于预设的差异阈值的语调,确定为与所述用户语调相匹配的播报语调。所述差异阈值可以按照需求设置,本发明实施例对此不作限制。
本发明实施例中,可以预先针对不平稳的语调进行分类,例如分为暴躁语调、悲伤语调和失落语调;本发明实施例对此不作限制。然后可以针对不同类型的不平稳语调,设置对应的播报语调;例如针对暴躁类调设置温柔语调,针对悲伤类调设置安慰语调,针对失落语调设置欢快语调。因此在确定用户语调不平稳时,可以从预先设置的播报语调中,查找与所述语音数据的语调匹配的播报语调。
其中,可以采用声音频率和/或声音强度表示用户语调。因此一种示例中,可以依据所述语音输入对应语音数据中的声音频率,判断用户语调是否平稳。例如判断最大声音频率和最小声音频率的差值是否大于预设频率差值,所述预设频率差值可以按照需求设置,本发明实施例对此不作限制。若最大声音频率和最小声音频率的差值大于预设频率差值,则可以确定用户语调不平稳;若最大声音频率和最小声音频率的差值小于或等于预设频率差值,则可以确定用户语调平稳。当然,另一种示例中,也可以依据所述语音输入对应语音数据中的声音强度判断用户的语调是否平稳。例如判断最大声音强度和最小声音强度的差值是否大于预设强度差值,所述预设强度差值可以按照需求设置,本发明实施例对此不作限制。若最大声音强度和最小声音强度的差值大于预设强度差值,则可以确定用户语调不平稳;若最大声音强度和最小声音强度的差值小于或等于预设强度差值,则可以确定用户语调平稳。
然后采用TTS技术,将所述播报文本转换为与所述用户语调相匹配的播报语调的播报音频并向用户播报;进而能够按照与所述用户语调相匹配的语调向所述用户语音播报。
其中,不同性别的用户可以对语音播报的需求可能不同,例如男性可能更倾向于女声的语音播报,女性可能更倾向与男声的语音播报;因此本发明实施例中,在所述用户信息包括用户性别的情况下,采用与所述用户性别相同或相反性别的声音,针对所述语音输入向所述用户进行语音播报。
本发明实施例中,一种确定用户性别的方式可以是,针对截断后的语音数据,进行声纹识别,确定所述输入语音数据的用户的声纹特征。再将所述用户的声纹特征,分别与数据库男性声纹特征和女性声纹特征进行比对。其中,可以计算所述用户的声纹特征与男性声纹特征的第一相似度,以及计算所述用户的声纹特征与女性声纹特征的第二相似度;若第一相似度大于第二相似度,则确定所述用户的用户性别为男性,若第一相似度小于第二相似度,则确定所述用户的用户性别为女性。
当然,若所述终端设备具有图像采集设备,则可以获取所述图像采集设备采集的所述用户的图像,然后采用视觉感知技术对所述图像进行分析,确定所述用户的用户性别。
然后采用TTS技术,将所述播报文本转换为,与所述用户性别相同或相反性别的声音的播报音频,并向用户播报;进而实现采用与所述用户性别相同或相反性别的声音,向所述用户语音播报。
本发明实施例中,不同年龄的用户可以对语音播报的需求可能不同,例如儿童可能更喜欢童声语音播报,成年人可能更喜欢成人语音播报等;因此本发明是实施例中,在所述用户信息包括用户年龄的情况下,采用与所述用户年龄匹配的预设年龄段对应的声音,针对所述语音输入向所述用户进行语音播报。
本发明实施例中,可以预先设置不同的预设年龄段,每个预设年龄段对应的年龄范围可以按照需求设置,本发明实施例对此不作限制。因此可以将用户年龄与各预设年龄段的年龄范围进行比对,查找与所述用户年龄匹配的预设年龄段;然后采用TTS技术,将所述播报文本转换为,与所述用户年龄匹配的预设年龄段对应的声音的播报音频并向用户播报;进而能够采用与所述用户年龄匹配的预设年龄段的声音,向所述用户语音播报。
其中,不同国家或不同地区使用的语言是不同的,因此本发明实施例中,在所述用户信息包括用户使用的语种的情况下,采用与所述用户语种相同的语种,针对所述语音输入向所述用户进行语音播报。
本发明实施例中,针对截断后的语音数据,进行语种识别,确定用户使用的语种。然后采用TTS技术,将所述播报文本转换为,与所述用户使用的语种相同的语种的播报音频并向用户播报;进而能够采用与所述用户的语种匹配的语种,向所述用户语音播报。例如,若所述用户语音输入的语种为汉语,则将所述播报文本转换为语种为汉语的播报音频;若所述用户语音输入的语种为英语,则将所述播报文本转换为语种为英语的播报音频。
当然,也可以将以上用户信息中的任意两种或两种以上的用户信息进行结合,为用户进行个性化语音播报,本发明实施例对此不作限制。
综上,本发明实施例中,获取用户的语音输入后,可以基于以下至少一种所述语音数据的语音特征信息:语速、语调、语种、用户性别、用户年龄,为所述用户进行个性化语音播报;进而能够从多个维度为用户进行个性化语音播报,提高用户体验。
本发明实施例中,由于用户处于异常状态(如剧烈运动、生病等),进行语音输入时,其声音特性如用户信息中的用户语速、用户语调等,与处于正常状态下进行语音输入时的声音特性可能会存在差异。因此在获取所述用户的语音输入后,一种针对所述语音输入向所述用户进行个性化语音反馈的方式可以是,依据所述语音输入检测所述用户的用户状态;依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈。其中,所述用户状态包括异常状态和正常状态,所述异常状态可以是指影响用户声音特征的状态;所述正常状态可以是指除异常状态之外的状态。
本发明一个示例中,可以依据所述语音输入的语音数据,确定当前用户语速;然后可以将所述当前用户语速与历史用户语速进行对比,检测所述用户的用户状态。若当前用户语速和历史用户语速的差值大于语速差异阈值,则确定用户状态为异常状态;若当前用户语速和历史用户语速的差值小于语速差异阈值,则确定用户状态为正常状态。当然,也可以依据所述语音输入的语音数据,确定当前用户语调;然后将所述当前用户语调与历史用户语调进行对比,检测所述用户的用户状态。若当前用户语调和历史用户语调的差值大于语调差异阈值,则确定用户状态为异常状态;若当前用户语调和历史用户语调的差值小于语调差异阈值,则确定用户状态为正常状态。
其中,一种所述依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈的方式可以是,当所述用户状态为异常状态时,依据所述用户的历史用户信息向所述用户进行个性化语音反馈;当所述用户状态为正常状态时,依据所述用户的当前用户信息向所述用户进行个性化语音反馈。
其中,当所述用户状态为正常状态时,还可以采用所述用户的当前用户信息更新历史用户信息。例如,针对用户语速,可以计算当前语音输入对应语音识别文本的字数与历史语音识别文本的字数总和,以及计算当前语音输入的时长与历史语音数据时长的时长总和,然后依据字数总和和时长总和计算得到的语速,更新历史用户语速。也可以计算当前用户语速与历史用户语速的平均值,采用该平均值更新历史用户语速。
本发明实施例还可以应用于驾驶场景,所述语音交互的方法可以应用于车载终端中。
参照图3a,示出一种驾驶场景中语音交互方法实施例的步骤流程图。
步骤302、获取用户的语音输入。
步骤304、当车辆内同时存在多个用户时,识别所述用户的用户身份。
步骤306、依据与所述用户的用户身份匹配的历史用户信息,针对所述语音输入向所述用户进行语音播报。
本发明实施例中,车载终端获取到用户输入的语音数据后,若检测到车辆内同时存在多个用户时,可以对所述用户进行身份识别,确定所述用户的用户身份;然后基于用户身份为用户进行个性化语音播报。
本发明的实施例中,检测车内是否同时存在多个用户的方式包括多种,例如依据各座椅的座椅传感器的压力值确定,当存在至少两个座椅的座椅传感器的压力值均大于压力阈值时,可以确定车内同时存在多个用户。又例如可以根据座椅对应安全带接口的连接状态;当至少两个座椅对应安全带接口均为已连接状态时,可以确定车内同时存在多个用户。还例如根据车内摄像头采集的图像进行识别,确定车内是否同时存在多个用户。等等,本发明实施例对此不作限制。
本发明实施例中,识别所述用户的用户身份的方式也可以包括多种:
本发明的一个示例中,可以通过声源定位确定所述用户在车辆内的位置,依据所述用户在车辆内的位置确定所述用户的用户身份。其中,车内部署了麦克风阵列,麦克风阵列中不同麦克风部署在不同的分区;一种示例中,可以通过判断不同分区的麦克,接收到的语音信号的幅值来确定声源方向。另一种示例中,可以通过不同分区的麦克,接收到的语音信号时延值和三维坐标,确定声源位置;本发明实施例对此不作限制。
本发明的又一个示例中,可以通过视觉感知技术,确定所述用户的身份。其中,可以获取车内摄像头采集的图像,然后通过视觉感知技术对获取的图像进行分析,确定说话的人(即进行语音输入的用户)是主驾,还是副驾,还是后排用户。
本发明的又一个示例中,可以依据所述语音输入对应的语音数据的声纹特征,确定所述用户的用户身份。其中,可以将所述声纹特征,分别与车载终端数据库中主驾的声纹特征、副驾的声纹特征、以及各后排用户的声纹特征进行匹配。若所述用户的声纹特征与主驾的声纹特征匹配时,则确定所述用户的用户身份为主驾;若所述用户的声纹特征与副驾的声纹特征匹配时,可以确定所述用户的用户身份为副驾;若所述用户的声纹特征与某个后排用户的声纹特征匹配时,则确定所述用户的用户身份为该后排用户。
当然还可以采用上述任意两种及以上方式的结合,来确定所述用户的用户身份;当然还可以采用其他的方式确定所述用户的用户身份,本发明实施例对此不作限制。
其中,当所述用户的用户身份是主驾时,依据主驾的历史用户信息,针对所述语音输入向所述主驾进行语音播报;如通过主驾分区的扬声器进行语音播报。当所述用户的用户身份是副驾时,依据副驾的历史用户信息,针对所述语音输入向所述副驾进行语音播报;如通过副驾分区的扬声器进行语音播报。当所述用户的用户身份是后排用户时,依据后排用户的历史用户信息,针对所述语音输入向所述后排用户进行语音播报;如通过后排分区的扬声器进行语音播报。
参照图3b,本发明的一个示例中,车辆内同时存在主驾和副驾。主驾语音输入:“请导航到饺子馆××一店”,车载终端获取该语音输入后,一方面可以进行身份识别;另一方面可以确定该语音输入对应的语音识别文本,以及按照所述语音识别文本查找导航路线,并在查找到匹配的导航路线后,查找匹配的播报文本如:“好的,已准备导航至饺子馆××一店”。当确定该用户的用户身份是主驾时,可以获取主驾的历史用户信息,然后依据主驾的历史用户信息,针对所述语音输入向所述主驾进行语音播报。例如依据主驾的语调和/或语速播报“好的,已准备导航至饺子馆××一店”。此时,若副驾突然想到饺子馆××一店经常排队,饺子馆××二店比较合适,因此可以输入语音“小P,请导航到饺子馆××二店”来更换导航路线。对应的,车载终端接获取该语音输入后,一方面可以进行身份识别;另一方面可以确定该语音输入对应的语音识别文本,以及按照所述语音识别文本查找导航路线,并在查找到匹配的导航路线后,查找匹配的播报文本如:“好的,已准备导航至饺子馆××二店”。当确定该用户的用户身份是副驾时,可以获取副驾的历史用户信息,然后依据副驾的历史用户信息,针对所述语音输入向所述副驾进行语音播报。例如依据副驾的语调和/或语速播报“好的,已准备导航至饺子馆××二店”。
当然,当检测到车内只存在主驾时,在获取用户的语音输入后,可以直接获取主驾对应的历史用户信息;然后依据主驾的历史用户信息,针对所述语音输入向所述主驾进行语音播报。
综上,在驾驶场景下,获取用户输入的语音数据后,当车辆内同时存在多个用户时,可以识别所述用户的用户身份;然后依据与所述用户的用户身份匹配的历史用户信息,针对所述语音输入向所述用户进行语音播报;进而能够分别针对车内不同位置的用户进行语音播报。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明一种语音交互装置实施例的结构框图,具体可以包括如下模块:
语音获取模块401,用于获取用户的语音输入;
语音反馈模块402,用于针对所述语音输入向所述用户进行个性化语音反馈;其中,所述个性化语音反馈和所述用户的用户信息相关,所述用户信息包括以下至少一种:用户语速、用户语调、用户性别、用户年龄和用户使用的语种。
参照图5,示出了本发明一种语音交互装置可选实施例的结构框图,具体可以包括如下模块:
本发明一个可选实施例中,所述语音反馈模块402包括:
信息确定子模块4021,用于对所述语音数据进行处理,得到对应的语音识别文本和语音特征信息;
语音播报子模块4022,用于依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报。
本发明一个可选实施例中,所述语音播报子模块4022包括:
第一音频播报单元40221,用于在所述用户信息包括用户语速的情况下,依据所述用户语速确定播报语速;按照所述播报语速,针对所述语音输入向所述用户进行语音播报。
本发明一个可选实施例中,所述语音播报子模块4022包括:
第二音频播报单元40222,用于在所述用户信息包括用户语调的情况下,采用与所述用户语调相匹配的播报语调,针对所述语音输入向所述用户进行语音播报。
本发明一个可选实施例中,所述语音播报子模块4022包括:
第三音频播报单元40223,用于在所述用户信息包括用户性别的情况下,采用与所述用户性别相同或相反性别的声音,针对所述语音输入向所述用户进行语音播报。
本发明一个可选实施例中,所述语音播报子模块4022包括:
第四音频播报单元40224,用于在所述用户信息包括用户年龄的情况下,采用与所述用户年龄匹配的预设年龄段对应的声音,针对所述语音输入向所述用户进行语音播报。
本发明一个可选实施例中,当所述的装置应用于驾驶场景时,所述的装置还包括:
识别模块403,用于当车辆内同时存在多个用户时,识别所述用户的用户身份;
所述语音播报子模块4022,包括:
第五音频播报单元40225,用于依据与所述用户的用户身份匹配的历史用户信息,针对所述语音输入向所述用户进行语音播报。
本发明一个可选实施例中,所述语音播报子模块4022,包括:
第六音频播报单元40226,用于依据所述语音输入检测所述用户的用户状态;依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈。
本发明一个可选实施例中,第六音频播报单元40226,用于当所述用户状态为异常状态时,依据所述用户的历史用户信息向所述用户进行个性化语音反馈;当所述用户状态为正常状态时,依据所述用户的当前用户信息向所述用户进行个性化语音反馈。
本发明实施例中,终端设备获取用户的语音输入后,可以针对所述语音输入,向所述用户进行与所述用户的用户信息相关联的语音反馈;进而实现为用户进行个性化语音反馈。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种车辆,可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上实施例中所述的语音交互方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上实施例中所述的语音交互方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音交互方法、一种语音交互装置和一种车辆,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种语音交互方法,其特征在于,包括:
获取用户的语音输入;
针对所述语音输入向所述用户进行个性化语音反馈;
其中,所述个性化语音反馈和所述用户的用户信息相关,所述用户信息包括以下至少一种:用户语速、用户语调、用户性别、用户年龄和用户使用的语种。
2.根据权利要求1所述的方法,其特征在于,所述针对所述语音输入向所述用户进行个性化语音反馈,包括:
确定所述用户的用户信息;
依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报。
3.根据权利要求2所述的方法,其特征在于,依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:
在所述用户信息包括用户语速的情况下,依据所述用户语速确定播报语速;
按照所述播报语速,针对所述语音输入向所述用户进行语音播报。
4.根据权利要求2所述的方法,其特征在于,所述依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:
在所述用户信息包括用户语调的情况下,采用与所述用户语调相匹配的播报语调,针对所述语音输入向所述用户进行语音播报。
5.根据权利要求2所述的方法,其特征在于,所述依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:
在所述用户信息包括用户性别的情况下,采用与所述用户性别相同或相反性别的声音,针对所述语音输入向所述用户进行语音播报。
6.根据权利要求2所述的方法,其特征在于,所述依据所述用户信息,针对所述语音输入向所述用户进行个性化语音播报,包括:
在所述用户信息包括用户年龄的情况下,采用与所述用户年龄匹配的预设年龄段对应的声音,针对所述语音输入向所述用户进行语音播报。
7.根据权利要求1所述的方法,其特征在于,当所述的方法应用于驾驶场景时,所述的方法还包括:
当车辆内同时存在多个用户时,识别所述用户的用户身份;
所述针对所述语音输入向所述用户进行个性化语音反馈,包括:
依据与所述用户的用户身份匹配的历史用户信息,针对所述语音输入向所述用户进行语音播报。
8.根据权利要求1所述的方法,其特征在于,所述针对所述语音输入向所述用户进行个性化语音反馈,包括:
依据所述语音输入检测所述用户的用户状态;
依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈。
9.根据权利要求8所述的方法,其特征在于,所述依据所述用户状态,针对所述语音输入向所述用户进行个性化语音反馈,包括:
当所述用户状态为异常状态时,依据所述用户的历史用户信息向所述用户进行个性化语音反馈;
当所述用户状态为正常状态时,依据所述用户的当前用户信息向所述用户进行个性化语音反馈。
10.一种语音交互装置,其特征在于,包括:
语音获取模块,用于获取用户的语音输入;
语音反馈模块,用于针对所述语音输入向所述用户进行个性化语音反馈;其中,所述个性化语音反馈和所述用户的用户信息相关,所述用户信息包括以下至少一种:用户语速、用户语调、用户性别、用户年龄和用户使用的语种。
11.一种车辆,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述车辆执行如权利要求1-9所述的一个或多个语音交互方法。
12.一个或多个计算机可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-9所述的一个或多个语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911341183.2A CN111081244B (zh) | 2019-12-23 | 2019-12-23 | 一种语音交互方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911341183.2A CN111081244B (zh) | 2019-12-23 | 2019-12-23 | 一种语音交互方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111081244A true CN111081244A (zh) | 2020-04-28 |
CN111081244B CN111081244B (zh) | 2022-08-16 |
Family
ID=70316956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911341183.2A Active CN111081244B (zh) | 2019-12-23 | 2019-12-23 | 一种语音交互方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081244B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071313A (zh) * | 2020-07-22 | 2020-12-11 | 特斯联科技集团有限公司 | 语音播报的方法、装置、电子设备及介质 |
CN112820289A (zh) * | 2020-12-31 | 2021-05-18 | 广东美的厨房电器制造有限公司 | 语音播放方法、语音播放系统、电器和可读存储介质 |
CN113936668A (zh) * | 2021-10-12 | 2022-01-14 | 百度在线网络技术(北京)有限公司 | 用于智能语音设备的方法、装置、设备和介质 |
WO2023273749A1 (zh) * | 2021-06-30 | 2023-01-05 | 华为技术有限公司 | 一种播报文本生成的方法、装置和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005793A (ja) * | 2001-06-19 | 2003-01-08 | Canon Inc | オーディオ信号符号化装置、オーディオ信号符号化方法、記録媒体及びプログラム |
CN107103899A (zh) * | 2017-04-24 | 2017-08-29 | 北京小米移动软件有限公司 | 输出语音消息的方法和装置 |
CN108469966A (zh) * | 2018-03-21 | 2018-08-31 | 北京金山安全软件有限公司 | 语音播报控制方法、装置、智能设备及介质 |
US10096319B1 (en) * | 2017-03-13 | 2018-10-09 | Amazon Technologies, Inc. | Voice-based determination of physical and emotional characteristics of users |
CN108847215A (zh) * | 2018-08-29 | 2018-11-20 | 北京云知声信息技术有限公司 | 基于用户音色进行语音合成的方法及装置 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN110085225A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语音交互方法、装置、智能机器人及计算机可读存储介质 |
-
2019
- 2019-12-23 CN CN201911341183.2A patent/CN111081244B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005793A (ja) * | 2001-06-19 | 2003-01-08 | Canon Inc | オーディオ信号符号化装置、オーディオ信号符号化方法、記録媒体及びプログラム |
US10096319B1 (en) * | 2017-03-13 | 2018-10-09 | Amazon Technologies, Inc. | Voice-based determination of physical and emotional characteristics of users |
CN107103899A (zh) * | 2017-04-24 | 2017-08-29 | 北京小米移动软件有限公司 | 输出语音消息的方法和装置 |
CN108469966A (zh) * | 2018-03-21 | 2018-08-31 | 北京金山安全软件有限公司 | 语音播报控制方法、装置、智能设备及介质 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN108847215A (zh) * | 2018-08-29 | 2018-11-20 | 北京云知声信息技术有限公司 | 基于用户音色进行语音合成的方法及装置 |
CN110085225A (zh) * | 2019-04-24 | 2019-08-02 | 北京百度网讯科技有限公司 | 语音交互方法、装置、智能机器人及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112071313A (zh) * | 2020-07-22 | 2020-12-11 | 特斯联科技集团有限公司 | 语音播报的方法、装置、电子设备及介质 |
CN112820289A (zh) * | 2020-12-31 | 2021-05-18 | 广东美的厨房电器制造有限公司 | 语音播放方法、语音播放系统、电器和可读存储介质 |
WO2023273749A1 (zh) * | 2021-06-30 | 2023-01-05 | 华为技术有限公司 | 一种播报文本生成的方法、装置和电子设备 |
CN113936668A (zh) * | 2021-10-12 | 2022-01-14 | 百度在线网络技术(北京)有限公司 | 用于智能语音设备的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111081244B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111081244B (zh) | 一种语音交互方法和装置 | |
US12069470B2 (en) | System and method for assisting selective hearing | |
US11687319B2 (en) | Speech recognition method and apparatus with activation word based on operating environment of the apparatus | |
US11133027B1 (en) | Context driven device arbitration | |
US10733987B1 (en) | System and methods for providing unplayed content | |
CN110100277B (zh) | 语音识别方法和装置 | |
CN102023703B (zh) | 组合唇读与语音识别的多模式界面系统 | |
US11854550B2 (en) | Determining input for speech processing engine | |
EP3090429B1 (en) | Modifying operations based on acoustic ambience classification | |
KR102249392B1 (ko) | 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법 | |
US20150363164A1 (en) | System and method for using biometrics to predict and select music preferences | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
US11398222B2 (en) | Artificial intelligence apparatus and method for recognizing speech of user in consideration of user's application usage log | |
CN112078498B (zh) | 一种车辆智能座舱的声音输出控制方法和智能座舱 | |
CN111816189A (zh) | 一种车辆用多音区语音交互方法及电子设备 | |
WO2018055898A1 (ja) | 情報処理装置、及び情報処理方法 | |
CN110520323A (zh) | 用于控制车辆音频系统的方法、装置、移动用户设备和计算机程序 | |
CN113126951B (zh) | 音频播放方法、装置、计算机可读存储介质及电子设备 | |
JP2020060861A (ja) | エージェントシステム、エージェント方法、およびプログラム | |
CN111861666A (zh) | 车辆信息的交互方法及装置 | |
US20200388268A1 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
CN115050375A (zh) | 一种设备的语音操作方法、装置和电子设备 | |
KR20200017160A (ko) | 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 | |
Inoue et al. | Enhanced speaker diarization with detection of backchannels using eye-gaze information in poster conversations | |
CN115620732A (zh) | 一种人机交互方法、系统、电子设备、存储介质及车辆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |