CN112735423A - 语音交互方法、装置、电子设备及存储介质 - Google Patents
语音交互方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112735423A CN112735423A CN202011476144.6A CN202011476144A CN112735423A CN 112735423 A CN112735423 A CN 112735423A CN 202011476144 A CN202011476144 A CN 202011476144A CN 112735423 A CN112735423 A CN 112735423A
- Authority
- CN
- China
- Prior art keywords
- voice
- reply
- instruction
- length
- interrupt signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 151
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims description 47
- 230000004044 response Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 230000002829 reductive effect Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 abstract description 76
- 230000008569 process Effects 0.000 abstract description 50
- 230000008901 benefit Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 18
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 14
- 235000013399 edible fruits Nutrition 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000036541 health Effects 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 10
- 238000003672 processing method Methods 0.000 description 10
- 239000013589 supplement Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000003825 pressing Methods 0.000 description 5
- 230000003796 beauty Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 238000004904 shortening Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000009194 climbing Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000002040 relaxant effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及智能处理技术领域,提供了一种语音交互方法、装置、电子设备及存储介质,方法包括:接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为下发指令的语音;根据所述中断信号,确定对应所述指令语音的对话策略。本发明通过在回复语音的播放过程中发送中断信号的方式对对话策略进行调整,从而使得调整后的对话策略更加匹配用户需求,从而可以为用户提供更好的语音交互服务体验。
Description
技术领域
本发明涉及智能处理技术领域,具体涉及一种语音交互方法、装置、电子设备及存储介质。
背景技术
语音交互(Voice User Interface,VUI)指的是人类与设备通过自然语音进行信息的传递。目前,以智能音箱为代表的很多家电设备中配置有语音交互模块,通过语音交互模块能够识别用户的指令语音,并以语音形式对用户的指令语音进行响应,为用户提供更加拟人化的人机交互方式。
通常情况下,一个优秀的语音交互系统的话术设计须兼顾理性和感性之间的平衡,既对客户提供有益的帮助,也要具备一定趣味性。为此,设计者在为语音交互设备的“技能(Skill)”构建话术时,为了减少所谓的“机器感”,在表达近似含义时往往就同一指令提供多样化的回复表述,以期增加与用户的亲和性。但是,并非所有的用户都对设计者设定的话术策略感到满意。
发明内容
针对现有技术中存在的问题,本发明实施例提供了一种语音交互方法、装置、电子设备及存储介质,用于解决在语音自动交互过程中的回复语音无法匹配用户需求的问题。
为解决现有技术中存在的问题,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种语音交互方法,包括:
接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为下发指令的语音;
根据所述中断信号,确定对应所述指令语音的对话策略。
进一步地,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,停止播放所述回复语音。
进一步地,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低对应所述指令语音的回复语音的播放长度。
进一步地,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低所述回复语音的使用频率。
进一步地,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低对应第一用户发出的所有或部分指令语音的回复语音的播放长度;其中,所述第一用户为被所述中断信号中断的回复语音对应的指令语音的发出者。
进一步地,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放长度。
进一步地,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
降低所述回复语音的播放长度,并将调整后的回复语音进行存储以供后续作为响应所述指令语音的回复语音。
进一步地,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
降低所述回复语音的冗余度,并将调整后的回复语音进行存储以供后续作为响应所述指令语音的回复语音。
进一步地,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
减少播放长度大于或等于所述回复语音的回复语音的使用频率;其中,减少播放长度大于或等于所述回复语音的回复语音的使用频率是指在响应所述指令语音时,从与所述指令语音对应的回复语音库中选择播放长度大于或等于所述回复语音的回复语音作为响应的概率降低。
进一步地,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一时长。
进一步地,所述控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一时长,具体包括下述方式中的任意一种或多种:
控制用于响应所述指令语音的回复语音在播放时长小于或等于所述第一时长时停止播放;
从用于响应所述指令语音的回复语音中截取部分内容进行播放;
从与所述指令语音对应的回复语音库中选择播放时长小于或等于所述第一时长的回复语音作为用于响应所述指令语音的回复语音;
控制用于响应所述指令语音的回复语音的播放速度加快。
进一步地,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值;
控制用于响应所述指令语音的回复语音的冗余度小于或等于所述比值。
进一步地,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放部分对应的第一字数;
控制用于响应所述指令语音的回复语音的回复文本的字数小于或等于所述第一字数。
进一步地,根据所述中断信号,降低所述回复语音的使用频率,具体包括:
根据所述中断信号,从与所述指令语音对应的回复语音库中选择内容主题与所述回复语音不同的回复语音进行播放。
进一步地,从与所述指令语音对应的回复语音库中选择内容主题与所述回复语音不同的回复语音进行播放,具体包括:
根据历史语音交互信息,确定第一用户习惯选择的目标内容主题;
从与所述指令语音对应的回复语音库中选择与所述目标内容主题对应的回复语音进行播放。
进一步地,所述根据所述中断信号,降低对应第一用户发出的所有或部分指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应所述第一用户发出的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长。
进一步地,所述控制用于响应所述第一用户发出的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长,具体包括下述方式中的任意一种或多种:
控制用于响应所述第一用户发出的所有或部分指令语音的回复语音在播放时长小于或等于所述第一时长时停止播放;
从用于响应所述第一用户发出的所有或部分指令语音的回复语音中截取部分内容进行播放;
从与所述第一用户发出的所有或部分指令语音对应的回复语音库中选择播放时长小于或等于所述第一时长的回复语音作为回复语音;
控制用于响应所述第一用户发出的所有或部分指令语音的回复语音的播放速度加快。
进一步地,所述根据所述中断信号,降低与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应与所述指令语音在同一指令语音组中的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长。
进一步地,所述的语音交互方法,还包括:
确定所述中断信号发生时对应的时间段信息;
相应地,在后续与所述时间段信息相对应的时间段,根据所述中断信号,确定对应所述指令语音的对话策略。
进一步地,根据所述中断信号,确定对应所述指令语音的对话策略,包括:
确定所述指令语音的长度;
根据所述中断信号和所述指令语音的长度,确定对应所述指令语音的对话策略。
进一步地,根据所述中断信号和所述指令语音的长度,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度。
进一步地,根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度,具体包括:
根据所述指令语音的长度,确定第一目标长度;
控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一目标长度。
进一步地,根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度,具体包括:
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度,确定第二目标长度;
根据所述第二目标长度,调整对应所述指令语音的回复语音的播放长度。
进一步地,根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度,确定第二目标长度,具体包括下述方式中的任意一种或多种:
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度的平均值,确定第二目标长度;
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度中的最小值,确定第二目标长度;
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度之和,确定第二目标长度;
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度,采用第一关系模型或第二关系模型确定第二目标长度;
其中,所述第一关系模型包括:T=k1(αT1+βT2);其中,T表示第二目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k1表示第一调节系数;
或,所述第二关系模型包括:T0=k2(αlnT1+βlnT2);其中,T0表示第二目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k2表示第二调节系数。
进一步地,所述中断信号包括中断语音和中断动作中的一种或两种。
进一步地,所述中断语音包括:中断词语音、唤醒词语音和新的指令语音中的一种或多种;其中,所述新的指令语音与所述指令语音相同或不同。
进一步地,所述中断动作包括:按键动作、触摸动作、敲击动作、点击动作、遥控操作和手势动作中的一种或多种。
第二方面,本发明实施例还提供了一种语音交互装置,包括:
接收模块,用于接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为下发指令的语音;
确定模块,用于根据所述中断信号,确定对应所述指令语音的对话策略。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面任一项所述语音交互方法的步骤。
进一步地,所述电子设备为智能设备、终端设备或服务器。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面任一项所述语音交互方法的步骤。
此外,本发明实施例还提供了一种语音交互方法,包括:
确定指令语音的长度;其中,所述指令语音发出指令的语音;
根据所述指令语音的长度,确定对应所述指令语音的对话策略。
进一步地,根据所述指令语音的长度,确定对应所述指令语音的对话策略,包括:
根据所述指令语音的长度对回复语音进行调整;其中,所述回复语音为响应于所述指令语音的语音。
进一步地,所述根据所述指令语音的长度对回复语音进行调整,包括:
根据所述指令语音的长度从与所述指令语音对应的回复语音库中选择长度与所述指令语音的长度匹配的回复语音进行播放;
或,
根据所述指令语音的长度对回复语音的播放时长和/或冗余度进行调整。
进一步地,根据所述指令语音的长度对回复语音的播放时长进行调整,包括:
根据所述指令语音的长度控制回复语音在播放时长与所述指令语音的长度匹配时停止播放;
或,
根据所述指令语音的长度在所述回复语音中截取部分内容进行播放,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度在所述回复语音的未播放部分中截取部分内容进行继续播放,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度调高所述回复语音的播放速度,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度调高所述回复语音的未播放部分的播放速度,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配。
进一步地,根据所述指令语音的长度对回复语音的冗余度进行调整,包括:
根据所述指令语音的长度对应的长度范围区间,确定回复语音的冗余度对应的冗余度区间。
进一步地,所述方法还包括:
确定所述指令语音发生时对应的时间段信息;
相应地,在后续与所述时间段信息相对应的时间段,根据所述指令语音的长度,确定对应所述指令语音的对话策略。
进一步地,根据所述指令语音的长度,确定对应所述指令语音的对话策略,包括:
根据所述指令语音的长度,确定第一目标长度;
控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一目标长度。
此外,本发明实施例还提供了一种语音交互装置,包括:
第一确定模块,用于确定指令语音的长度;其中,所述指令语音发出指令的语音;
第二确定模块,用于根据所述指令语音的长度,确定对应所述指令语音的对话策略。
在本实施例中,根据用户发出的指令语音的长度确定相应的对话策略,从而使得对话策略可以满足用户需求。
根据上述技术方案可知,本发明提供的语音交互方法、装置、电子设备及存储介质,根据响应于指令语音的回复语音在播放过程收到的中断信号,调整相应指令语音的对话策略,从而使得对应所述指令语音的对话策略更加匹配用户需求,从而可以为用户提供更好的语音交互服务体验。
需要说明的是,本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的语音交互方法的流程图;
图2是本发明一实施例提供的语音交互流程示意图;
图3是本发明一实施例提供的语音交互方法的实现过程交互示意图;
图4是本发明一实施例提供的在语音交互过程中的打断示意图;
图5是本发明一实施例提供的语音交互方法的另一实现过程交互示意图;
图6是本发明一实施例提供的语音交互装置的结构示意图;
图7是本发明一实施例提供的智能设备的结构示意图;
图8是本发明一实施例提供的终端设备的结构示意图;
图9是本发明一实施例提供的服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,以智能音箱为代表的,很多家电设备中配置有语音交互模块,通过语音交互模块能够识别用户的指令语音,并以语音形式对用户的指令语音进行响应,为用户提供更加拟人化的人机交互方式。
通常情况下,一个优秀的语音交互系统的话术设计须兼顾理性和感性之间的平衡,既对客户提供有益的帮助,也要具备一定趣味性。为此,设计者在为语音交互设备的“技能(Skill)”构建话术时,为了减少所谓的“机器感”,在表达近似含义时往往就同一指令提供多样化的回复表述,但是,并非所有的用户都对设计者的设定的话术策略感到满意。为此,本发明提供了一种语音交互方法、装置、电子设备及存储介质,本发明能够根据用户需求(或用户表现出来的信息或信号)为用户提供针对性的回复语音。下面将通过具体实施例对本发明提供的语音交互方法、装置、电子设备及存储介质进行详细说明。
需要说明的是,本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。此外,本发明实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
图1示出了本发明一实施例提供的语音交互方法的流程图,参见图1,本发明实施例提供的语音交互方法,包括:
步骤101:接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为指示智能设备执行任务的语音;
步骤102:根据所述中断信号,确定对应所述指令语音的对话策略。
在本实施例中,可以理解的是,在与智能设备(如智能手表、智能音箱、智能电视、智能加湿器、智能冰箱等)的交互过程中,由用户先发出指令语音,该指令语音用于指示智能设备执行相应的任务,任务内容根据指令语音内容确定,例如,当指令语音为“现在是几点”时,该指令语音用于指示智能设备执行现在是几点的查询任务。
如图2所示的语音交互流程示意图,一次完整的语音交互过程主要经历以下流程自动语音识别(Automatic Speech Recognition,ASR)→自然语言处理(Natural LanguageProcessing,NLP)→对话管理(Dialog Management,DM)→语音合成(Text-To-Speech,TTS),如图2所示,智能设备在接收到该指令语音后会进行一系列处理,包括通过自动语音识别(ASR)将指令语音转换为指令文本,然后对指令文本进行自然语言处理(NLP),分析得到用户意图,接着通过对话管理(DM)确定最后的回复文本,最后将回复文本进行语音合成(TTS),得到回复语音。这里,通过自动语音识别(ASR)将指令语音转换为指令文本是指利用语音自动识别技术将语音信息转换为文本信息的过程,由于该过程可以采用较为成熟的语音识别算法实现,故本实施例对此不再详细展开。这里,对指令文本进行自然语言处理(NLP),分析得到用户意图是指:通过对指令文本进行自然语言处理(NLP)分析的方式,获取用户的意图,具体包括对指令文本进行基于自然语言处理的分词处理,然后提取文本特征(如TF-IDF文本特征提取、基于词向量word2vec的特征提取模型进行特征提取等),然后基于提取的文本特征进行意图分类等。
可以理解的是,意图识别是通过分类的方法将句子或查询query分到相应的意图种类,举例来说,对于某智能设备上的语音交互模块来说,只有50项交互技能,那么用户向智能设备发出一个指令语音,智能设备需要通过意图识别将用户的query分到某一个或几个交互技能上,然后再进行后续的处理。对于意图识别来说,可以采用基于领域词典的规则匹配方法,也可以采用基于意图分类模型的方式对用户的意图进行判别。关于该部分内容,本实施例不作过多的介绍,具体可参见现有的或行业比较先进的意图识别算法。
接着介绍关于对话管理(DM)的相关内容,对话管理实际上控制着人机对话的过程,任务驱动的对话管理实际就是一个决策过程,在对话过程中根据当前状态决定下一步应该采取的动作(如提供结果,询问特定限制条件,澄清或确认需求等),从而最有效的辅助用户完成信息或服务获取的任务。本实施例在确定用户意图后,通过对话管理(DM)确定最后的回复文本,最后将回复文本进行语音合成(TTS),作为得到回复语音。
例如,以用户发出指令语音“现在是几点”为例,经过自动语音识别、基于自然语言处理的意图分析,以及,对话管理最终确定的回复文本为“现在是凌晨3点整”或“现在已经是凌晨3点了,失眠了吗。要不要给你唱一首摇篮曲”等,最后通过将上述回复文本进行语音合成,即可得到回复语音。
在本实施例中,需要说明的是,在根据指令语音进行语音回复时,为了增加交互互动的有趣性和亲和性,有时候会在回复语音中穿插闲聊式话术或趣味性话术或知识性话术等等,比如,当问现在是几点时,可以回复“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”。可以理解的是,这样的回复比较有亲和性,增加了交互的互动性,但是有些用户可能不喜欢这么复杂的回复,更希望追求简洁明了的回复,例如“现在是上午11点整”。基于此,本实施例提供了一种语音交互方法,在该方法中,用户可以在回复语音的播放期间发送中断信号,然后使得智能设备(也可以是终端设备,也可以是服务器),根据中断信号确定对应所述指令语音的对话策略。这里,确定对应所述指令语音的对话策略可以包括根据中断信号对回复语音的内容或回复方式进行调整等。
在本实施例中,中断信号是指在回复语音播放过程中由用户发出的信号,中断信号的作用之一在于中断回复语音的播放,作用之二在于使得智能设备/终端设备/服务器根据该中断信号捕捉用户对于语音交互对话策略的需求,从而调整为符合用户需求的对话策略。
可以理解的是,一般来说,当用户不喜欢回复语音的内容或嫌回复语音过长时,会发出中断信号。特殊情况下,也可以是用户在当前有其他更为着急的事情要处理时,会发出中断信号,中断当前的回复语音。
可以理解的是,发出中断信号时,可以采用中断语音,也可以采用中断动作,还可以是两者一起进行。
可以理解的是,由于是语音交互过程,因此采用中断语音作为中断信号的方式较为方便。不过某些情况下,当采用语音中断不方便时,也可以采用中断动作进行中断,如敲击设备上的固定位置、触发中断键或为方便操作,采用肢体做特定的动作等。
在本实施例中,中断语音可以包括:中断词语音、唤醒词语音和新的指令语音中的一种或多种。例如,可以通过中断词语音作为中断信号,也可以采用唤醒词语音作为中断信号,还可以采用新的指令语音作为中断信号,此外,还可以采用任意两者或三者的组合作为中断信号等等。这里,中断词语音可以包括停止、Stop、住嘴、Shut up、No、歇歇等等。在本实施例中,可以通过发出“中断词语音”的方式来中断当前的回复语音,比如,当用户对当前的回复语音不满意或不想继续听而想要中断该回复语音时,可以通过发出“中断词语音”,例如“Stop”的方式来中断当前的回复语音,智能设备在接收到该“中断词语音”后会将该“中断词语音”作为中断信号对回复语音进行调整。这里,唤醒词语音是指用于唤醒智能设备的语音,如“小美,小美”,对于唤醒词来说,不同的智能设备会有不同的设计。在本实施例中,可以通过发出“唤醒词语音”的方式来中断当前的回复语音,比如,当用户对当前的回复语音不满意而想要中断时,可以通过发出“唤醒词语音”,例如“小美,小美”的方式来中断当前的回复语音,智能设备在接收到该“唤醒词语音”后会将该“唤醒词语音”作为中断信号对回复语音进行调整。
在本实施例中,可以理解的是,所述指令语音为指示智能设备执行任务的语音,所述回复语音为响应于指令语音的语音,当用户在回复语音的播放期间发送中断信号时,智能设备(也可以是终端设备,也可以是服务器),接收用于请求中断回复语音的中断信号,然后根据所述中断信号调整话术策略。
在本实施例中,话术策略是指回应或响应指令语音的策略,包括:以内容简短的方式回应指令语音,或,内容丰富的方式回应指令语音,或,以活泼愉快的方式回应指令语音,或,以轻松健谈的方式回应指令语音,或,以知识输送的方式回应指令语音等等。
在本实施例中,根据所述中断信号,确定对应所述指令语音的对话策略可以指:根据中断信号对回复语音进行调整。这里,根据中断信号对回复语音进行调整可以包括多样处理方式,例如,可以根据本次中断信号对下次(或后续)回复语音进行调整。这里对下次(或后续)回复语音进行调整,既可以包括对下次(或后续)针对同样指令语音的回复语音进行调整,也可以包括对下次(或后续)由相同用户或不同用户发出类似指令语音的回复语音进行调整,也可以包括对下次(或后续)由相同用户发出部分或全部指令语音的回复语音进行调整,还可以包括对下次(或后续)在相同时间段由相同用户或不同用户发出相同或不同指令语音的回复语音进行调整等,本实施例对此不作限定。
此外,在本实施例中,根据所述中断信号对所述回复语音进行调整可以是指对回复语音的播放时长进行调整,也可以是指对回复语音的冗余度进行调整,也可以指对回复语音的播放方式(如中英文双语的、以故事型的等)进行调整,还可以指多种调整方式结合。此外,可以理解的是,对回复语音进行播放时长或冗余度的调整可以是每次进行实时调整,也可以是在某次调整后存储起来后续直接使用。
此外,对于具体的调整方式也有多种实现方式,例如,可以是缩短回复语音的内容,也可以是加快回复语音的播放速度,也可以既缩短回复语音的内容,又加快回复语音的播放速度。此外,还可以根据本次打断信号确定该用户对于回复语音长度的要求,从而后续在回复该用户的所有或部分指令语音时,都按照与该用户匹配的长度要求选择合适的回复语音进行回复。
此外,在一种处理方式下,根据所述中断信号,确定对应所述指令语音的对话策略可以指根据所述中断信号停止播放所述回复语音等。
此外,在一种处理方式下,根据所述中断信号,确定对应所述指令语音的对话策略还可以指根据所述中断信号更换新的回复语音等。这里更换新的回复语音可以指更换风格不同的回复语音,如从中文更换为英文,如从故事型的风格更换为新闻型的风格,如从调侃式的风格切换为严谨型的风格等等,此外还可以是回音语音内容的变换等。
此外,在一种处理方式下,根据所述中断信号,确定对应所述指令语音的对话策略可以指根据所述中断信号降低对应所述指令语音的回复语音的播放长度。
此外,在一种处理方式下,根据所述中断信号,确定对应所述指令语音的对话策略还可以指根据所述中断信号降低所述回复语音的使用频率等等,本实施例对此不作限定。
由此可见,通过本实施例提供的语音交互方法,使得可以通过在回复语音的播放过程中发送中断信号的方式对回复语音进行调整,比如调整回复语音的回复时长或更换回复语音等,从而使得回复语音的时长或内容更加匹配用户需求,从而可以为用户提供更好的语音交互服务体验。
这里,新的指令语音是指区别于与所述回复语音对应的指令语音的指令语音,也即表示通过重新发出指令语音的方式来中断当前的回复语音。需要说明的是,这里新的指令语音和与原来的指令语音可以相同,也可以不同。举例来说,当用户对当前的回复语音不满意而想要中断时,可以通过发出“新的指令语音”,例如“现在是几点”(与原来的指令语音相同)或“唱一首歌吧”(与原来指令语音不同)的方式来中断当前的回复语音,智能设备在接收到该“新的指令语音”后会将该“新的指令语音”作为中断信号对回复语音进行调整。
可以理解的是,当用户发出的“新的指令语音”与原来的指令语音相同时,一般意味着该智能设备是以随机的方式采用不同的回复语音回复用户,在这种情况下,用户发出与原来指令语音相同的“新的指令语音”目的是为了试图随机切换新的回复语音。
根据上述技术方案可知,本实施例提供的语音交互方法,通过在回复语音的播放过程中发送中断信号的方式对回复语音进行调整,从而使得调整后的回复语音更加匹配用户需求,从而可以为用户提供更好的语音交互服务体验。
由此可见,本实施例根据响应于指令语音的回复语音在播放过程收到的中断信号,调整相应指令语音的对话策略,从而使得对应所述指令语音的对话策略更加匹配用户需求,从而可以为用户提供更好的语音交互服务体验。
基于上述实施例的内容,在本实施例中,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,停止播放所述回复语音。
可以理解的是,当在回复语音的播放过程中收到用户发送的中断信号时,表示用户不喜欢该回复语音或认为该回复语音的长度过长或有其他需要紧急处理的事情没时间继续收听该回复语音,此时一种处理方式可以是根据中断信号结束该回复语音,也即在收到中断信号时未播放的回复语音不再继续播放,结束该回复语音,这样可以使得用户不再受到过长或不喜欢或没时间收听回复语音的困扰,使得能够在中断信号发出的同时实现回复语音停止播放的效果。可以理解的是,这里的结束所述回复语音可以指彻底结束回复语音的播放,也可以指暂时中止回复语音的播放,待接收到重启播放指令后再接着播放等,本实施例对此不作限定。
基于上述实施例的内容,在本实施例中,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低对应所述指令语音的回复语音的播放长度。
可以理解的是,当在回复语音的播放过程中收到用户发送的中断信号时,表示用户不喜欢该回复语音或认为该回复语音的长度过长,此时一种处理方式可以是调整所述回复语音的播放时长和/或冗余度(可以将降低冗余度作为降低播放时长的一种具体处理手段)。例如,可以缩短所述回复语音的播放时长,也可以降低所述回复语音的冗余度,还可以同时缩短所述回复语音的播放时长以及降低所述回复语音的冗余度。
举例来说,假设所述回复语音的播放时长最初为15s,当接收到针对该回复语音的中断信号后,可以调整该回复语音的播放时长,例如可以将播放时长由15s调整为5s。可以理解的是,调整播放时长的方式有多种多样,例如,可以通过加快播放速度的方式,也可以通过去除部分回复语音的方式,也可以是两者兼具。当调整本次正在播放的回复语音时,可以加快剩余未播放部分的播放速度,也可以在未播放部分中截取部分内容进行继续播放。当调整下次回复语音时,可以加快整个回复语音的播放速度,也可以在整个回复语音部分中截取部分内容进行继续播放(后续处理方式会有更为详细的介绍)。
举例来说,对于回复语音:“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”,它的播放总时长为15s,假设当播放3s时(假设此时播放至:现在是上午11点,工作累了吧)收到了中断信号,此时可以通过加快未播放部分播放速度的方式将播放时长调整为8s或6s(或其他时间),也可以在未播放部分中截取部分内容“记得多补充水分,多吃水果哦”进行播放,可以理解的是,截取的部分内容可以是随机的,也可以是按照时间顺序截取的。比如可以随机截取前面的一段和后面的一段,如“多吃水果,做下伸展运动有利于健康呀”,也可以是按照时间顺序截取的“记得多补充水分,多吃水果哦”。具体截取的长度可以根据需求进行调整。
在本实施例中,需要说明的是,回复语音的冗余度是指回复语音中非回复指令语音所必需的语音内容与回复语音全部语音内容的比值;这里,回复指令语音所必需的语音内容可以理解成是与指令语音直接相关的内容,非回复指令语音所必需的语音内容可以理解成是与指令语音不是直接相关的内容,而是属于主动推介的内容,如温馨提示、音乐分享、俏皮话、广告等等。
在本实施例中,可以理解的是,回复语音的内容可以长短不一,冗余度不同,有的仅包含与指令语音直接相关的内容,有的则进一步包含了设计者主动推介的内容,如温馨提示、俏皮话乃至广告等。但是由于不同用户群体的需求不同,有的用户群体追求人性化,希望整个语音交互更为自然生动,富于变化;而有的用户群体则追求简洁明了,不希望接收与指令语音无关的冗余信息,因此,在接收到用户发送的中断信号后,可以降低回复语音的冗余度,以和用户的需求相匹配。
在本实施例中,需要说明的是,由于回复语音的冗余度是指回复语音中非回复指令语音所必需的语音内容与回复语音全部语音内容的比值,因此,降低回复语音的冗余度实际上是降低回复语音中非回复指令语音所必需的语音内容。
举例来说,对于回复语音:“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”,通过降低冗余度可以调整为“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦”,也可以调整为“现在是上午11点,工作累了吧,记得多补充水分”,还可以调整为“现在是上午11点”。
基于上述实施例的内容,在本实施例中,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低所述回复语音的使用频率。
在本实施例中,降低所述回复语音的使用频率是指在后续响应所述指令语音时,从与所述指令语音对应的回复语音库中选择所述回复语音作为响应的概率降低,具体介绍如下:
在本处理方式中,侧重点在于,当某一回复语音在播放过程中被中断时,后续将减少该回复语音的使用频率,也即由于该回复语音在作为所述指令语音的回复语音时不被欢迎,因此,后续在响应所述指令语音时,将减低选择该回复语音的可能性,也即后续将从与所述指令语音对应的回复语音库中选择该回复语音作为响应的概率降低。采用本实施例的处理方式,有一个好处就是无需对回复语音库中的回复指令进行改变,而是选择比较合适或匹配的回复语音作为指令语音的响应,这种方式实现起来较为简单方便。
举例来说,与某一指令语音对应的回复语音库中存在有长短不一的回复指令,有些用户希望收到播放时长较长、冗余度较高的回复指令,有些用户希望收到播放时长较短、冗余度较低的回复指令,在这种情况下,可以根据与该用户对不同回复语音的反馈信息,确定后续为该用户选择哪一个或几个回复语音作为响应指令语音的回复语音。根据上面的描述可知,当某一回复语音在播放过程中被中断时,表明该回复语音在作为所述指令语音的回复语音时不被欢迎,那么后续将减少该回复语音的使用频率,也即后续将从与所述指令语音对应的回复语音库中选择该回复语音作为响应的概率降低。
在另外一种实现方式中,根据所述中断信号,降低所述回复语音的使用频率还可以指:根据所述中断信号从与所述指令语音对应的回复语音库中选择与所述回复语音不同的回复语音进行播放,具体介绍如下:
可以理解的是,当在回复语音的播放过程中收到用户发送的中断信号时,表示用户不喜欢该回复语音或认为该回复语音的长度过长,此时一种处理方式可以是从与所述指令语音对应的回复语音库中选择与所述回复语音不同的回复语音进行播放,也即在收到中断信号时,表示接收到了用户不喜欢该回复语音或嫌该回复语音过长的讯息,此时,可以从与指令语音对应的回复语音库中选择其他回复语音替换当前回复语音进行播放。可以理解的是,在从回复语音库中选择其他回复语音时,遵循的原则可以包括但不限于下面几种中的任意一种或多种(多种组合不矛盾的前提下):①以随机的方式选择其他回复语音;②以语音长度小于当前回复语音的标准选择其他回复语音;③以语音内容对应的主题与当前回复语音对应的主题不同为标准选择其他回复语音;④以语音内容对应的声色与当前回复语音对应的声色不同为标准选择其他回复语音(例如,男声变换为女声,或,女声变换为男声,或,成人变换为儿童,或儿童变换为成人等)。
可以理解的是,对于具备语音交互功能的智能设备,其一般具有预设数量的交互技能,当用户向智能设备发出一个指令语音时,智能设备会通过意图识别将用户的指令语音划分到某一个或几个交互技能上,然后再进行后续的处理。需要说明的是,一般情况下,每个交互技能都至少对应有一个回复语音库,当通过意图识别的方式识别出该指令语音的意图后,即可将该指令语音划分到一个或几个交互技能上,由于每个交互技能都至少对应有一个回复语音库,因此可以确定与指令语音对应的一个或多个回复语音库。
可以理解的是,与指令语音对应的一个或多个回复语音库中存储有一个或多个回复语音,这些回复语音可以为语音长短不同的回复语音,也可以为表达主题不同的回复语音,也可以为声色不同的回复语音,本实施例对此不作限定。
可以理解的是,与指令语音对应的一个或多个回复语音库中存储的一个或多个回复语音属于均能够作为指令语音的回复语音,只是在时间长短、表达主题、声色等形式或内容上呈现出不同而已。
举例来说,与指令语音对应的回复语音库中存储有不同时长的回复语音,分别为1s,3s,5s,10s,15s,20s,25s,30s,50s的回复语音。
举例来说,与指令语音对应的回复语音库中存储有不同表达主题的回复语音,表达主题包括但不限于为信息类的(仅传达信息例如现在是下午3点)、有趣类的(现在是下午3点,要不要听个笑话缓解下心情,笑话内容为:…)、知识类的(现在是下午3点,天气晴朗,下午3点属于大脑神经元比较活跃的时段,可以选择一些记忆类的工作进行处理等等)、故事类的(现在是下午3点,历史上的今天下午3点发生过什么重大事情等)、音乐类的(现在是下午3点,欢迎收听歌手A的一首老歌)、对话类的(现在是下午3点,要不要做个猜字谜的游戏等)。
举例来说,与指令语音对应的回复语音库中存储有不同声色的回复语音,例如,对于同一回复语音,可以采用男生、女生、成人和儿童分别进行录制,得到不同声色的回复语音。
可以理解的是,对于上面描述的不同时长、不同表达主题以及不同声色可以根据需要进行组合,本实施例对此不作限定。
可以理解的是,在本处理方式中,在根据所述中断信号从与所述指令语音对应的回复语音库中选择与所述回复语音不同的回复语音进行播放后,还可以进一步确定更改后的回复语音在播放过程中是否被打断,若没有,则可以选用更改后的回复语音作为后续响应所述指令语音的回复语音,若更改后的回复语音在播放过程中再次被打断,则可以继续更换新的回复语音进行播放直至不再接收到用户的打断信号为止。
此外,为进一步完善方案,还可以在确定更改后的回复语音在播放过程中未被打断时,记录当前的时间段,并在后续对应的时间段,选用更新后的回复语音作为所述指令语音的响应,以提高用户满意度。
基于上述实施例的内容,在本实施例中,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低对应第一用户发出的所有或部分指令语音的回复语音的播放长度。
在本实施例中,所述第一用户为被所述中断信号中断的回复语音所对应的指令语音的发出者。
可以理解的是,当在回复语音的播放过程中收到第一用户发送的中断信号时,表示第一用户认为该回复语音的长度过长,也即第一用户不希望接收与指令语音无关的冗余信息,因此,在这种情况下,为更加贴合用户需求,可以将与第一用户对应的所有或部分指令语音的回复语音都调整成较低的播放时长和/或冗余度,从而满足该有用户的交互需求。
在本处理方式中,调整与第一用户发出的所有或部分指令语音对应的回复语音的播放时长和/或冗余度可以包括下述中的任意一项或多项:
在检测到第一用户发出的指令语音后,从与所述指令语音对应的回复语音库中选择播放时长小于预设时长阈值和/或冗余度小于预设冗余度阈值的回复语音。
在检测到第一用户发出的指令语音后,从与所述指令语音对应的回复语音库中选择回复语音,并对该回复语音的播放时长进行调整,例如,可以控制该回复语音在播放时长小于或等于预定阈值时停止播放。另外,还可以控制该回复语音的播放速度,使得该回复语音的播放时长缩短。另外,还可以从该回复语音中截取部分内容进行播放,使得该回复语音的播放时长缩短。
在检测到第一用户发出的指令语音后,从与所述指令语音对应的回复语音库中选择回复语音,并对该回复语音的冗余度进行调整,例如,去除一些或全部与指令语音不存在直接关联的内容,从而降低冗余度。
可以理解的是,关于降低播放时长和冗余度的方式,可以参见前述处理方式或后续处理方式的介绍,本处理方式主要强调的是当检测到第一用户在某一次的回复语音播放过程中发送过中断信号时,后续将会针对第一用户发出的所有或部分指令语音均会调整其对应的回复语音使得回复语音的播放时长小于预设时长阈值和/或冗余度小于预设冗余度阈值,从而使得语音交互过程更加符合用户对回复语音时长和/冗余度的需求。举例来说,当第一用户在某一次语音交互过程中发出的语音指令为“现在是几点”,回复语音为“现在是晚上7点,您要不要听首放松的曲子或者一段相声”,假设在该回复语音的播放过程中,第一用户发出了中断信号,则表示该第一用户不喜欢接收与指令语音无关的冗余信息,那么后续针对该第一用户发出的所有或部分指令语音,例如可以是上述“现在是几点”的指令语音,也可以是其他指令语音,如“今天天气如何”、“位置A到位置B的交通路况如何”等等,均会调整其对应的回复语音使得回复语音的播放时长小于预设时长阈值和/或冗余度小于预设冗余度阈值,从而使得语音交互过程更加符合用户对回复语音时长和/冗余度的需求。
可以理解的是,前面处理方式讲述的是针对同一指令语音的回复语音的调整方式,例如针对“现在是几点”的指令语音,确定后续再次出现“现在是几点”的指令语音时的回复语音的调整方式,而本处理方式针对的是第一用户,也即针对第一用户发出的所有或部分指令语音均会调整其对应的回复语音,从而使得语音交互过程更加符合用户对回复语音时长和/冗余度的需求。当然可以理解的是,当某些指令语音对应的回复语音本身不需要调整即可满足第一用户对语音时长和/冗余度的要求时,则不需要进行调整。
基于上述实施例的内容,在本实施例中,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放长度。
在本实施例中,侧重在于调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长和/或冗余度。
在本处理方式中,指令语音组的划分方式可以是多种多样的,比如可以按照指令主题进行划分,也可以按照指令语音的长短和/或复杂度进行划分,还可以按照相似度进行划分等等,对于具体划分方式,不作限定。
举例来说,所述指令语音组可以以指令主题的方式进行划分,例如,可以按照生活指令、工作指令、学习指令中的一种或多种进行划分。相应地,得到生活指令语音组、工作指令语音组和学习指令语音组。例如,“现在是几点”、“今天天气”、“明天天气”、“交通状况”、“限号号码”、“超市打折”等指令语音属于生活指令语音组中的指令语音,而“麻烦解释下刻舟求剑的含义”、“5G手机是什么手机”、“log函数的由来”等指令语音属于学习指令语音组中的指令语音,又如“如何合理安排时间”、“出差注意事项”、“如何提高工作效率”、“人工智能算法都有哪些”等指令语音属于工作指令组中的指令语音。可以理解的是,有些用户对于生活指令的回复语音比较重视,希望回复语音较为丰富多彩,内容幽默有趣。这类用户包括家庭主妇、退休老人等,而有些用户对于学习指令的回复语音比较重视,希望回复语音能够较为详细地阐述知识背后的典故、原理等,这类用户包括学生、学者、全职妈妈等,此外,还有用户对于工作指令的回复语音比较重视,希望回复语音能够较为详细地阐述针对工作问题的答复,这类用户包括职场人士等。
可以理解的是,不同的用户对于不同指令语音组对应的回复语音的播放时长和/或冗余度的要求是不同的,例如,职业人士希望针对工作指令组的回复语音较为详实,而希望对于生活指令组的回复语音较为简短。例如,当用户对指令语音“现在是几点”的回复语音的需求是简短有效时,那么对于与“现在是几点”位于同一指令语音组的其他语音指令,如“今天天气如何”、“限行尾号”、“某路线是否堵车”的回复语音的需求也是简单有效。
在本处理方式中,当根据用户发出的中断信号确定某一指令语音对应的回复语音被打断时,表示用户希望该指令语音的回复语音是简短有效的,无需太多冗余信息。根据上面指令语音组的分析可知,用户也希望该指令语音所在的指令语音组对应的回复语音均没有太多冗余信息,因此,为提高用户使用体验,避免用户针对同一指令语音组中的不同指令语音的回复语音多次发送中断信号,本处理方式调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长和/或冗余度,使得该用户在发出同一指令语音组中的其他指令语音时,也可以得到播放时长和/冗余度较低的回复语音,从而可以避免用户针对同一指令语音组中的不同指令语音的回复语音多次发送中断信号,从而可以提高用户使用体验。
需要说明的是,在智能设备只有一个用户使用的情况下,关于语音交互处理方式无需区分不同用户,在智能设备属于多个用户共用的情况下,关于语音交互的处理方式需要区分不同的用户,具体区分时,可以通过音色识别的方式区别不同用户,进而根据相应用户的指令语音,以及,与该用户对应的语音交互处理方式确定相应的回复语音或对回复语音进行相应的调整。例如,假设用户A和用户B共用一台智能设备,且用户A为退休老人,用户B为职场人士,那么在发出同一语音“现在是几点”时,两人对回复语音的需求是不同的,用户A想要内容较为丰富,冗余度较高的回复语音,用户B想要内容简短有效,冗余度较低的回复语音,由此可见,当多个用户共有智能设备的情况下,需要区分不同的用户,具体区分时,可以通过不同用户的音色进行区分,也可以通过用户在发出指令语音前先发出指定语音(比如名字、小名、暗号)的方式进行区分,还可以通过特定的按键触发或手势触发的方式进行区分,本实施例对此不作限定。
基于上述实施例的内容,在本实施例中,所述指令语音组以指令主题的方式进行划分,所述指令主题包括:生活指令、工作指令、学习指令中的一种或多种。
在本实施例中,正如上面所描述的,工作指令组可以按照指令主题的方式进行划分,例如,可以按照生活指令、工作指令、学习指令中的一种或多种进行划分。相应地,得到生活指令语音组、工作指令语音组和学习指令语音组。
举例来说,“现在是几点”、“今天天气”、“七步洗手的方式”等指令语音属于生活指令语音组中的指令语音。
举例来说,“守株待兔的含义”、“二十四节气”、“ln函数的由来”等指令语音属于学习指令语音组中的指令语音。
举例来说,“PPT制备方法”、“如何做好工作计划”等指令语音属于工作指令组中的指令语音。
可以理解的是,有些用户对于生活指令的回复语音比较重视,希望回复语音较为丰富多彩,内容幽默有趣。这类用户包括家庭主妇、退休老人等,而有些用户对于学习指令的回复语音比较重视,希望回复语音能够较为详细地阐述知识背后的典故、原理等,这类用户包括学生、学者、全职妈妈等,此外,还有用户对于工作指令的回复语音比较重视,希望回复语音能够较为详细地阐述针对工作问题的答复,这类用户包括职场人士等。
可以理解的是,将语音指令按照指令语音组的方式进行划分后,则对属于同一指令语音组中的多个语音,智能设备(或终端设备或服务器)可以采用类似播放时长和/或冗余度的回复语音对属于同一指令语音组中的指令语音进行回复,从而省去了用户对于同一指令语音组的部分或全部语音指令的回复语音均发出中断信号进行调整的麻烦。
在本处理方式中,当根据用户发出的中断信号确定某一指令语音对应的回复语音被打断时,表示用户希望该指令语音的回复语音是简短有效的,无需太多冗余信息。根据上面指令语音组的分析可知,用户也希望该指令语音所在的指令语音组对应的回复语音均没有太多冗余信息,因此,为提高用户使用体验,避免用户针对同一指令语音组中的不同指令语音的回复语音多次发送中断信号,本处理方式调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长和/或冗余度,使得该用户在发出同一指令语音组中的其他指令语音时,也可以得到播放时长和/冗余度较低的回复语音,从而可以避免用户针对同一指令语音组中的不同指令语音的回复语音多次发送中断信号,从而可以提高用户使用体验。
基于上述实施例的内容,在本实施例中,所述降低对应所述指令语音的回复语音的播放长度,具体包括下述几种方式中的一种或多种:
A、降低所述回复语音的播放长度,并将调整后的回复语音进行存储以供后续作为响应所述指令语音的回复语音。
B、降低所述回复语音的冗余度,并将调整后的回复语音进行存储以供后续作为响应所述指令语音的回复语音。
C、减少播放长度大于或等于所述回复语音的回复语音的使用频率;其中,减少播放长度大于或等于所述回复语音的回复语音的使用频率是指在响应所述指令语音时,从与所述指令语音对应的回复语音库中选择播放长度大于或等于所述回复语音的回复语音作为响应的概率降低。
D、确定所述中断信号发生时所述回复语音已播放的第一时长,控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一时长。
在本实施例中,减少播放长度大于或等于所述回复语音的回复语音使用频率是指在后续响应所述指令语音时,从与所述指令语音对应的回复语音库中选择播放长度大于或等于所述回复语音的回复语音作为响应的概率降低。本处理方式用于减少与所述指令语音对应的回复语音库中播放长度大于或等于所述回复语音的回复语音使用频率,可以理解的是,在播放回复语音的过程中,若确认发生中断操作,则后续可以减少高时长的回复语音的推送频率。
在本实施例中,在根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的播放时长时,一种实现方式是确定所述中断信号发生时所述回复语音已播放的第一时长,并控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于所述第一时长。由于所述回复语音在播放至第一时长时用户发出中断信号,因此,表明第一时长这个长度是用户能够接受的最大长度,超过这个长度的回复语音是用户所不愿意接受的,因此,可以以此为条件,控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于所述第一时长,从而满足用户对回复语音播放时长的需求。
举例来说,假设一个回复语音完整的播放时长是15s,当在该回复语音播放至6s时接收到了用户的中断信号,则表明该用户针对该指令语音的回复语音的播放时长的需求是在6s或6s以下,因此,可以将6s作为阈值,控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于6s。
基于上述实施例的内容,在本实施例中,所述控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于所述第一时长,包括:
控制后续与所述指令语音相同的指令语音对应的回复语音在播放时长小于或等于所述第一时长时停止播放;
或,
控制后续与所述指令语音相同的指令语音对应的回复语音在播放时截取部分内容进行播放;
或,
从与所述指令语音对应的回复语音库中选择播放时长小于或等于所述第一时长的回复语音作为后续与所述指令语音相同的指令语音对应的回复语音;
或,
调高后续与所述指令语音相同的指令语音对应的回复语音的播放速度。
在本实施例中,在控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于所述第一时长时,有多种实现方式,例如可以是:A、控制后续与所述指令语音相同的指令语音对应的回复语音在播放时长小于或等于所述第一时长时停止播放;或,B、控制后续与所述指令语音相同的指令语音对应的回复语音在播放时截取部分内容进行播放;或,C、从与所述指令语音对应的回复语音库中选择播放时长小于或等于所述第一时长的回复语音作为后续与所述指令语音相同的指令语音对应的回复语音;或,D、调高后续与所述指令语音相同的指令语音对应的回复语音的播放速度。
由此可见,本实施例给出了多种实现方式,上述方式A的优势在于,控制起来简单方便,只需在回复语音的播放时长小于或等于所述第一时长时停止播放即可。上述方式B的优势在于,比较灵活,例如可以根据需要截取回复语音中相对比较重要的信息进行播放。上述方式C的优势在于,不用对回复语音库中的回复语音进行调整,实现起来简单方便,可以直接选择播放时长满足要求的回复语音作为响应。上述方式D的优势在于,不损失回复语音的信息内容,同时能够满足缩短播放时长的效果。
可以理解的是,当在回复语音的播放过程中收到用户发送的中断信号时,表示用户不喜欢该回复语音或认为该回复语音的长度过长,在这种情况下可以有如下调整方式:可以是本次调整,后续不调整,也可以是本次不调整,后续调整,还可以是本次调整,后续也调整,对于涉及到本次调整的过程,上面已经介绍过,下面主要介绍对于后续也调整的情况。这里后续调整包括下次,或者,下次以及后续时间。
在本处理方式中,调整后续与所述指令语音相同的指令语音对应的回复语音的播放时长和/或冗余度,可以包括两种情况:
①调整后续与所述指令语音相同的指令语音对应的回复语音的播放时长和/或冗余度;
②后续遇到与所述指令语音相同的指令语音时,从回复指令库中选择播放时长和/或冗余度低于本次回复语音的语音作为回复语音;
可以理解的是,对于第①种处理方式,可以在后续播放与所述指令语音相同的指令语音对应的回复语音时可以加快播放速度,进而缩短播放时长。
此外,对于第①种处理方式,可以在后续播放与所述指令语音相同的指令语音对应的回复语音时从回复语音中选择部分语音内容进行播放,进而缩短播放时长。
举例来说,对于回复语音:“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”,它的播放时长为15s,通过加快播放速度的方式将播放时长调整为8s或6s(或其他时间),也可以在回复语音中截取部分内容“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦”进行播放,可以理解的是,截取的部分内容可以是随机的,也可以是按照时间顺序截取的。比如可以随机截取最前面的一段和最后面的一段,如“现在是上午11点,做下伸展运动有利于健康呀”,也可以是按照时间顺序截取的“现在是上午11点,工作累了吧”。具体截取的长度可以根据需求进行调整。
此外,对于第①种处理方式,可以确定所述中断信号发生时所述回复语音已播放的第一时长,并控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于所述第一时长。例如,可以控制后续与所述指令语音相同的指令语音对应的回复语音在播放时长小于或等于所述第一时长时停止播放;
此外,对于第①种处理方式,还可以以预定阈值的方式,控制后续与所述指令语音相同的指令语音对应的回复语音在播放时长小于或等于所述预定阈值时停止播放。
此外,对于第①种处理方式,还可以以指定区间内的随机阈值的方式,控制后续与所述指令语音相同的指令语音对应的回复语音在播放时长小于或等于所述随机阈值时停止播放。例如,所述随机阈值可以位于指定区间3-6s内,例如可以是随机播放到3s时停止,也可以是随机播放到5s时停止,也可以是随机播放到6s时停止等等。
此外,对于第①种处理方式,还可以确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制后续与所述指令语音相同的指令语音对应的回复语音的冗余度小于或等于所述比值。
对于第②种处理方式,可以从回复指令库中选择播放时长和/或冗余度低于本次回复语音的语音作为回复语音,具体实现时,可以在回复指令库中为每个回复语音都标记上播放时长和冗余度,这样就可以根据回复指令库中每个回复语音的播放时长和冗余度,选择播放时长和/或冗余度低于本次回复语音的语音作为回复语音。
基于上述实施例的内容,在本实施例中,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值;
控制用于响应所述指令语音的回复语音的冗余度小于或等于所述比值。
调整与所述指令语音对应的回复语音库中的部分或所有回复语音的播放时长和/或冗余度,具体介绍如下:
在本处理方式中,侧重点在于强调调整与所述指令语音对应的回复语音库中的部分或所有回复语音的播放时长和/或冗余度。可以理解的是,与指令语音对应的回复语音库中存储的一个或多个回复语音都是与该指令语音对应的回复语音,当用户对其中一个回复语音发出中断信号时表明用户认为该回复语音的播放时长过长和/或冗余度过高,同时,在一定情况下,也可以反映该用户希望与该指令语音对应的其他回复语音的播放时长也不要过长和/或冗余度也不要过高。为此,在本处理方式中,当接收到用户针对某一指令语音的回复语音的中断信号时,调整与所述指令语音对应的回复语音库中的部分或所有回复语音的播放时长和/或冗余度,从而满足用户对于该指令语音的回复语音播放时长和/或冗余度的需求。举例来说,当用户发出的指令语音是“今天天气如何”时,假设在播放回复语音“今天天气晴朗,温度16-21℃,微风,适合郊外活动,可以考虑外出踏青哦”时被打断,且打断的时间点在于播放至“微风”这个时间点,那说明该用户只关心与指令语音直接相关的回复内容,而对拓展的内容不关心,不希望被过长的语音干扰。
假设与指令语音“今天天气如何”对应的回复指令库中的剩余其他回复语音分别为①“今天天气晴朗,温度16-21℃,微风,穿衣指数为1,适合穿秋衣和外套,天气干燥,注意补充水分,多吃水果”;②“今天天气晴朗,温度16-21℃,微风,推荐户外跑步,跑步之前记得做下拉伸运动,以免受伤”;③“今天天气晴朗,温度16-21℃,在这风和日丽的日子,请跟随自己的内心,读一本书或来一场说走就走的旅行吧”;④“今天天气晴朗,温度16-21℃,早上好,现在给您播报一段早间新闻…”。
根据上面的分析可知,当用户发出中断信号时,说明该用户只关心与指令语音直接相关的回复内容,而对拓展的内容不关心,不希望被过长的语音干扰,为此,在本处理方式中,根据该中断信号,可以将与指令语音“今天天气如何”对应的回复指令库中的所有或部分回复语音的播放时长和/或冗余度进行调低,从而满足用户的需求。例如可以将①缩短为“今天天气晴朗,温度16-21℃,微风,适合穿秋衣和外套”;将②缩短为“今天天气晴朗,温度16-21℃,微风,推荐户外跑步”;将③缩短为“今天天气晴朗,温度16-21℃”、将④缩短为“今天天气晴朗,温度16-21℃,早上好”等等。
基于上述实施例的内容,在本实施例中,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放部分对应的第一字数;
控制用于响应所述指令语音的回复语音的回复文本的字数小于或等于所述第一字数。
基于上述实施例的内容,在本实施例中,根据所述中断信号,降低所述回复语音的使用频率,具体包括:
根据所述中断信号,从与所述指令语音对应的回复语音库中选择内容主题与所述回复语音不同的回复语音进行播放。
基于上述实施例的内容,在本实施例中,从与所述指令语音对应的回复语音库中选择内容主题与所述回复语音不同的回复语音进行播放,具体包括:
根据历史语音交互信息,确定第一用户习惯选择的目标内容主题;
从与所述指令语音对应的回复语音库中选择与所述目标内容主题对应的回复语音进行播放。
基于上述实施例的内容,在本实施例中,所述根据所述中断信号,降低对应第一用户发出的所有或部分指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应所述第一用户发出的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长。
在本实施例中,所述控制用于响应所述第一用户发出的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长,具体包括下述方式中的任意一种或多种:
控制用于响应所述第一用户发出的所有或部分指令语音的回复语音在播放时长小于或等于所述第一时长时停止播放;
从用于响应所述第一用户发出的所有或部分指令语音的回复语音中截取部分内容进行播放;
从与所述第一用户发出的所有或部分指令语音对应的回复语音库中选择播放时长小于或等于所述第一时长的回复语音作为回复语音;
控制用于响应所述第一用户发出的所有或部分指令语音的回复语音的播放速度加快。
在本实施例中,所述根据所述中断信号,降低与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应与所述指令语音在同一指令语音组中的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长。
在本实施例中,所述的语音交互方法,还包括:
确定所述中断信号发生时对应的时间段信息;
相应地,在后续与所述时间段信息相对应的时间段,根据所述中断信号,确定对应所述指令语音的对话策略。
可以理解的是,还可以根据所述中断信号调整与所述回复语音对应的回复文本的字数和/或冗余度,具体介绍如下:
可以理解的是,当在回复语音的播放过程中收到用户发送的中断信号时,表示用户不喜欢该回复语音或认为该回复语音的长度过长,此时一种处理方式可以是调整与所述回复语音对应的回复文本的字数和/或冗余度,可以理解的是,本处理方式和上述“调整所述回复语音的播放时长和/或冗余度”的处理方式思路比较类似,区别主要在于本处理方式是将调整与回复语音对应的回复文本的字数和/或冗余度。
可以理解的是,本实施例通过调整与回复语音对应的回复文本的字数和/或冗余度的方式来调整所述回复语音的播放时长和/或冗余度,由于其实质上是类似的,故此处不再举例说明,具体例子可参见上面实施例的介绍。
可以理解的是,本实施例通过调整回复文本的字数和/或冗余度的方式来调整回复语音的长度和/或冗余度。这里的字数条件和/或冗余度条件可以根据需要进行设定。例如,可以根据字数条件从原始回复文本中选择部分文本内容。选取的方式可以是顺序的,也可以是随机的。由于本实施例的具体处理方式与上述实施例类似,因此此处不再做具体介绍。可以理解的是,回复文本的冗余度和回复语音的冗余度的定义类似,也即回复文本的冗余度指回复文本中非回复指令语音所必需的文本内容(字数)与回复指令语音所必需的文本内容(字数)的比值;这里,回复指令语音所必需的文本内容可以理解成是与指令语音直接相关的内容,非回复指令语音所必需的文本内容可以理解成是与指令语音不是直接相关的内容,而是属于主动推介的内容,如温馨提示、音乐分享、俏皮话、广告等等。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整所述回复语音的播放时长,包括:
根据所述中断信号调高所述回复语音的未播放部分的播放速度;
或,
根据所述中断信号在所述回复语音的未播放部分中截取部分内容进行继续播放。
在本实施例中,在根据所述中断信号调整所述回复语音的播放时长时,可以根据所述中断信号调高所述回复语音的未播放部分的播放速度,也可以根据所述中断信号在所述回复语音的未播放部分中截取部分内容进行继续播放。可以理解的是,调高所述回复语音的未播放部分的播放速度的方式的优势是:既可以兼顾用户对播放时长的要求可以保留完整回复语音内容,存在缺点是:对于用户的听觉体验可能不够好。
而在所述回复语音的未播放部分中截取部分内容进行继续播放的优势是:既可以兼顾用户对播放时长的要求又能够保留未播放部分中相对比较重要的内容,同时用户在听觉上的体验也比较好,不会有语音被加速压缩的感觉。
可以理解的是,加快播放速度的方式优势是不缩减信息,同时能够保证较短时间播放完。而在所述回复语音的未播放部分中截取部分内容进行继续播放的方式,可以从未播放部分中截取重要或关键的内容进行播放,因而可以避免损失回复信息中位于后面但是比较有效的信息。举例来说,当问今天天气如何时,假设回复语音为:“天气晴朗,阳光灿烂,温度15-20,大风4-5级,不适合外出游玩或爬山”,对于这种情况,假设在该回复语音播放至“天气晴朗”时被中断,此时为降低播放时长,可以选取未播放部分中比较重要的信息如“大风4-5级,不适合外出游玩或爬山”进行播放。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整所述回复语音的冗余度,包括:
根据所述中断信号降低所述回复语音的未播放部分的冗余度。
在本实施例中,除了上面实施例所介绍的根据所述中断信号调整所述回复语音的播放时长以外,还可以像本实施例这样,根据所述中断信号降低所述回复语音的未播放部分的冗余度。
在本实施例中,需要说明的是,回复语音的冗余度是指回复语音中非回复指令语音所必需的语音内容与回复语音全部语音内容的比值;同理,回复语音的未播放部分的冗余度是指回复语音的未播放部分中非回复指令语音所必需的语音内容与回复指令语音所必需的语音内容的比值。
在本实施例中,可以理解的是,回复指令语音所必需的语音内容可以理解成是与指令语音直接相关的内容,非回复指令语音所必需的语音内容可以理解成是与指令语音不是直接相关的内容,而是属于主动推介的内容,如温馨提示、音乐分享、俏皮话、广告等等。
举例来说,对于回复语音:“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”来说,“现在是上午11点”为与指令语音直接相关的内容,而“工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”为与指令语音不是直接相关的内容。
假设在上述回复语音播放至“现在是上午11点,工作累了吧”时收到了用户发送的中断信号,此时可以通过降低所述回复语音的未播放部分的冗余度的方式对回复语音进行调整,例如,可以将“记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”这句话的冗余度降低变为“记得多补充水分,做下伸展运动有利于健康”。可以理解的是,具体冗余度降低的方式,本实施例不作限定,可以是利用预设关键词确定哪些内容进行保留的方式,也可以是利用预设低效词确定哪些内容进行删除的方式,可以是将表达重复语义的内容进行删除的方式,也可以是保留重要信息的方式,也可以是随机删除部分信息的方式,也可以是其他降低冗余度的方式,本实施例对此不作限定。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整与所述回复语音对应的回复文本的字数,包括:
根据所述中断信号减少所述回复语音的未播放部分对应的回复文本的字数。
在本实施例中,跟前述实施例类似,主要区别在于本处理方式强调的是回复文本的字数,也即本处理方式是通过调整回复文本的字数的方式来调整回复语音的长度。这里的字数条件可以根据需要进行设定。例如,可以根据字数条件从回复文本中的未播放部分选择部分文本内容,选取的方式可以是顺序的,也可以是随机的。由于本实施例的具体处理方式与上述实施例类似,因此此处不再做具体介绍。
此外,可以理解的是,在通过调整回复文本的字数的方式来调整回复语音的长度并播放调整后的回复语音的同时,还可以进一步展示对应的经过调整后的回复文本或原始未经过调整的回复文本,以供用户查看相应的文本,提高用户体验。
比如,在有些场景下,当用户因接听电话没来得及听回复语音,或因为噪声等导致回复语音未听清楚,又或是因为刚听完却忘记,此时有对应的回复文本可以帮忙用户获知回复语音的内容信息。此外,显示原始未经过调整的回复文本的好处是,一方面因为不会播放,因此不会占用用户的时间,另一方面,为用户提供了查看完整回复内容的机会,若用户想要了解完整回复语音的内容,则可以通过展示的回复文本获知相关信息。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整与所述回复语音对应的回复文本的冗余度,包括:
根据所述中断信号降低所述回复语音的未播放部分对应的回复文本的冗余度。
在本实施例中,跟前述实施例类似,主要区别在于本处理方式强调的是回复文本的冗余度,也即本处理方式是通过调整回复文本的冗余度是方式来调整回复语音的冗余度。这里的冗余度条件可以根据需要进行设定。例如,可以根据冗余度条件从回复文本中的未播放部分选择部分文本内容,选取的方式可以是顺序的,也可以是随机的。由于本实施例的具体处理方式与上述实施例类似,因此此处不再做具体介绍。
此外,可以理解的是,在通过调整回复文本的冗余度的方式来调整回复语音的冗余度并播放调整后的回复语音的同时,还可以进一步展示对应的经过调整后的回复文本或原始未经过调整的回复文本,以供用户查看相应的文本,提高用户体验。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的冗余度,包括:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制后续与所述指令语音相同的指令语音对应的回复语音的冗余度小于或等于所述比值。
在本实施例中,在根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的冗余度时,可以确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制后续与所述指令语音相同的指令语音对应的回复语音的冗余度小于或等于所述比值。举例来说,假设一个回复语音完整的播放时长是15s,当在该回复语音播放至6s时接收到了用户的中断信号,则中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值为0.4,则可以控制后续与所述指令语音相同的指令语音对应的回复语音的冗余度小于或等于所述比值,也即后续在对回复语音进行控制时,保证回复语音中与指令语音不存在直接关联的部分占总的指令语音的比例小于0.4。
举例来说,对于回复语音:“现在是上午11点,工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”来说,“现在是上午11点”为与指令语音直接相关的内容,而“工作累了吧,记得多补充水分,多吃水果哦,伸下懒腰,做下伸展运动有利于健康呀”为与指令语音不是直接相关的内容。目前回复语音的冗余度为0.85,假设当在该回复语音播放至6s时接收到了用户的中断信号,则中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值为0.4,则可以控制后续与所述指令语音相同的指令语音对应的回复语音的冗余度小于或等于所述比值,也即后续在对回复语音进行控制时,保证回复语音中与指令语音不存在直接关联的部分占总的指令语音的比例小于0.4,也即可以将回复语音调整为“现在是上午11点,工作累了吧”。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的回复文本的字数,包括:
确定所述中断信号发生时所述回复语音已播放部分对应的第一字数,并控制后续与所述指令语音相同的指令语音对应的回复语音的回复文本的字数小于或等于所述第一字数。
在本实施例中,跟前述实施例类似,主要区别在于本实施例强调的是回复文本的字数,也即本处理方式是通过调整回复文本的字数的方式来调整回复语音的长度。由于本实施例的具体处理方式与上述实施例类似,因此此处不再做具体介绍。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的回复文本的冗余度,包括:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制后续与所述指令语音相同的指令语音对应的回复语音的回复文本的冗余度小于或等于所述比值。
在本实施例中,跟前述实施例类似,主要区别在于本实施例强调的是回复文本的冗余度,也即本处理方式是通过调整回复文本的冗余度的方式来调整回复语音的冗余度。由于本实施例的具体处理方式与上述实施例类似,因此此处不再做具体介绍。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整与第一用户发出的所有或部分指令语音对应的回复语音的播放时长,包括:
确定所述中断信号发生时所述回复语音已播放的第一时长,并控制与第一用户发出的所有或部分指令语音对应的回复语音的播放时长小于或等于所述第一时长。
在本实施例中,主要强调的是当检测到第一用户在某一次的回复语音播放过程中发送过中断信号时,后续将会针对第一用户发出的所有或部分指令语音均会调整其对应的回复语音使得回复语音的播放时长小于或等于所述第一时长,从而使得语音交互过程更加符合用户对回复语音时长和/冗余度的需求。
举例来说,当第一用户在某一次语音交互过程中发出的语音指令为“现在是几点”,回复语音为“现在是晚上7点,您要不要听首放松的曲子或者一段相声”,假设在该回复语音的播放过程中,第一用户在2s(也即播放现在是晚上7点时)发出了中断信号,这表示该第一用户不喜欢接收与指令语音无关的冗余信息,那么后续针对该第一用户发出的所有或部分指令语音,例如可以是上述“现在是几点”的指令语音,也可以是其他指令语音,例如“天气预报”、“洗车指数”等,均会控制其对应的回复语音使得回复语音的播放时长小于或等于2s,从而使得语音交互过程更加符合用户对回复语音时长的需求。
可以理解的是,前面处理方式讲述的是针对同一指令语音的回复语音的调整方式,而本处理方式针对的是第一用户,也即针对第一用户发出的所有或部分指令语音均会调整其对应的回复语音,从而使得语音交互过程更加符合用户对回复语音时长和/冗余度的需求,同时也避免了第一用户针对与不同指令语音的回复语音都发出中断信号的麻烦。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整与第一用户发出的所有或部分指令语音对应的回复语音的冗余度,包括:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制与第一用户发出的所有或部分指令语音对应的回复语音的冗余度小于或等于所述比值。
在本实施例中,与上述实施例“控制与第一用户发出的所有或部分指令语音对应的回复语音的播放时长小于或等于所述第一时长”类似,区别主要在于本实施例强调的是回复语音的冗余度,在本实施例中,关于冗余度的阈值为中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,此外,由于关于冗余度相关的具体原理在其他实施例中已经有较为详细的介绍,因此此处不再赘述。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长,包括:
确定所述中断信号发生时所述回复语音已播放的第一时长,并控制与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长小于或等于所述第一时长。
在本实施例中,正如上面所描述的,工作指令组可以按照指令主题的方式进行划分,例如,可以按照生活指令、工作指令、学习指令中的一种或多种进行划分。相应地,得到生活指令语音组、工作指令语音组和学习指令语音组。
举例来说,“今天限号号码”、“天气预报”、“七步洗手法”等指令语音属于生活指令语音组中的指令语音。举例来说,“英文单词pop的由来”、“十二生肖的故事”等指令语音属于学习指令语音组中的指令语音。举例来说,“如何成为靠谱的职场人”、“如何做好工作计划”等指令语音属于工作指令组中的指令语音。
可以理解的是,有些用户对于生活指令的回复语音比较重视,希望回复语音较为丰富多彩,内容幽默有趣。这类用户包括小孩、自由职业、全职主妇或老人等,而有些用户对于学习指令的回复语音比较重视,希望回复语音能够较为详细地阐述知识背后的典故、原理等,这类用户包括学生、业务学习爱好者等,此外,还有用户对于工作指令的回复语音比较重视,希望回复语音能够较为详细地阐述针对工作问题的答复,这类用户包括上班人士等。
可以理解的是,由于用户对同一指令语音组中各个指令语音具有相同的播放长度和/或冗余度诉求,因此,将语音指令按照指令语音组的方式进行划分后,则对属于同一指令语音组中的多个语音,智能设备(或终端设备或服务器)可以采用类似播放时长和/或冗余度的回复语音对属于同一指令语音组中的指令语音进行回复,从而省去了用户对于同一指令语音组的部分或全部语音指令的回复语音均发出中断信号进行调整的麻烦。
在本处理方式中,当根据用户发出的中断信号确定某一指令语音对应的回复语音被打断时,表示用户希望该指令语音的回复语音是简短有效的,无需太多冗余信息。根据上面指令语音组的分析可知,用户也希望该指令语音所在的指令语音组对应的回复语音均没有太多冗余信息,因此,为提高用户使用体验,避免用户针对同一指令语音组中的不同指令语音的回复语音多次发送中断信号,本处理方式使得与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长小于或等于所述第一时长,使得该用户在发出同一指令语音组中的其他指令语音时,也可以得到播放时长和/冗余度较低的回复语音,从而可以避免用户针对同一指令语音组中的不同指令语音的回复语音多次发送中断信号,从而可以提高用户使用体验。
基于上述实施例的内容,在本实施例中,根据所述中断信号调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的冗余度,包括:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的冗余度小于或等于所述比值。
在本实施例中,与上述实施例“与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长小于或等于所述第一时长”的原理类似,区别主要在于本实施例强调的是回复语音的冗余度,在本实施例中,控制冗余度时利用的阈值是所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,此外,由于关于回复语音的冗余度调整的具体原理在其他实施例中已经有较为详细的介绍,因此此处不再赘述。
基于上述实施例的内容,在本实施例中,所述语音交互方法还包括:
确定所述中断信号发生时对应的时间段信息;
相应地,在后续与所述时间段信息相对应的时间段,根据所述中断信号对所述回复语音进行调整。
在本实施例中,为进一步进行精细化控制,可以先确定所述中断信号发生时对应的时间段信息,然后在后续与所述时间段信息相对应的时间段,根据所述中断信号对所述回复语音进行调整。
可以理解的是,用户可能在不同时间段对于回复语音的播放长度和/或冗余度有不同的要求,例如在第一时间段(如下午16:00-17:00),更倾向于接收内容丰富的回复语音,例如,包含与指令语音直接相关以及与指令语音不直接相关的内容,而在第二时间段(如早上8:00-9:00),更倾向于接收内容简短的回复语音,例如,包含与指令语音直接相关的内容。因此,即便对于同一指令语音,可能因其所处的时间段不同,用户对该指令语音的回复语音要求也是不同的。为解决该问题,本实施例先确定所述中断信号发生时对应的时间段信息,然后在后续与所述时间段信息相对应的时间段,根据所述中断信号对所述回复语音进行调整。
例如,可以在后续与所述时间段信息相对应的时间段,执行前面实施例所述的处理方式1至处理方式13中的任意一种或多种调整方式。
可以理解是,可以将一天分为多个时间段,然后分别确定用户在各个时间段对于不同回复语音的调整方式。此外,还可以以1小时为单位分割成24个时段,分别确定用户在各个时间段对于不同回复语音的调整方式,本实施例对此不作限定。
基于上述实施例的内容,在本实施例中,根据所述中断信号对所述回复语音进行调整,包括:
确定所述指令语音的长度;
根据所述指令语音的长度对所述回复语音的播放时长和/或冗余度进行调整。
在本实施例中,采用了与前述实施例不同的方式,也即本实施例不是根据中断信号发生时回复语音已经播放的时长对回复语音进行调整,而是根据指令语音的长度对回复语音进行调整。例如,当用户发出的指令语音较长时,则对应的回复语音的播放时长也较长;当用户发出的指令语音较短时,则对应的回复语音的播放时长也较短。
可以理解的是,当用户是位希望接收简短有效的回复语音的用户时,其所发出的指令语音一般也较为简短,因此,根据该处理方式,可以较为简单有效地确定回复语音的长度。
此外,可以理解的是,由于指令语音的长度是时间值,因此在对播放时长进行调整时,可以直接利用,而在对冗余度进行调整时,可以按照预先设定的时长与冗余度的关系,确定合适的冗余度,进而对冗余度进行调整。例如,假设预先设定的时长与冗余度的关系是:当时长为2s时,冗余度为1,当时长为5s时,冗余度为2,当时长为8s时,冗余度为3等等。
在本实施例中,根据所述指令语音的长度对所述回复语音的播放时长进行调整可以指:控制所述回复语音的播放时长小于或等于所述指令语音的长度;也可以指:控制所述回复语音的播放时长与所述指令语音的长度的差值的绝对值位于预设区间内。此外,对于冗余度的调整,也可以采用类似的方式,本实施例不再赘述。
基于上述实施例的内容,在本实施例中,根据所述指令语音的长度对所述回复语音的播放时长进行调整,包括:
根据所述指令语音的长度控制所述回复语音在播放时长与所述指令语音的长度匹配时停止播放;
或,
根据所述指令语音的长度在所述回复语音的未播放部分中截取部分内容进行继续播放,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度调高所述回复语音的未播放部分的播放速度,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配。
在本实施例中,在根据所述指令语音的长度对所述回复语音的播放时长进行调整时,有多种实现方式:比如,①根据所述指令语音的长度控制所述回复语音在播放时长与所述指令语音的长度匹配时停止播放。这里的匹配包括多种情况,例如可以包括所述回复语音的播放时长小于或等于所述指令语音的长度,或所述回复语音的播放时长与所述指令语音的长度的差值的绝对值位于预设区间内等。
此外,还可以有②根据所述指令语音的长度在所述回复语音的未播放部分中截取部分内容进行继续播放,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配。此外,还可以有③根据所述指令语音的长度调高所述回复语音的未播放部分的播放速度,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配。
由此可见,本实施例给出了多种不同实现方式,具体实施时,可以根据需要选择合适的方式。
可以理解的是,对于第①种方式,根据所述指令语音的长度控制所述回复语音在播放时长与所述指令语音的长度匹配时停止播放,其优势是可以较为简单且准确地控制回复语音的播放时长。对于第②种方式,加快播放速度,其中优势是可以不缩减信息,同时能够保证较短时间播放完。而对于第③种方式,在所述回复语音的未播放部分中截取部分内容进行继续播放,其优势是可以从未播放部分中截取重要或关键的内容进行播放,因而可以避免损失回复信息中位于后面但是比较有效的信息。举例来说,当问今天天气如何时,假设回复语音为:“天气晴朗,阳光灿烂,温度15-20,大风4-5级,不适合外出游玩或爬山”,对于这种情况,假设按照第①种,也即所述回复语音在播放时长与所述指令语音的长度匹配时停止播放的方式,则有可能会错过后面的“大风4-5级,不适合外出游玩或爬山”的有效信息,因此,采用这种处理方式,可以避免这种情况的发生。
基于上述实施例的内容,在本实施例中,根据所述指令语音的长度对所述回复语音的冗余度进行调整,包括:
根据所述指令语音的长度对应的长度范围区间,确定所述回复语音的冗余度。
在本实施例中,可以理解的是,由于指令语音的长度是时间值,因此在对冗余度进行调整时,没有办法直接利用,需要转换为对应的冗余度相关信息。在本实施例中,在将指令语音的长度信息转换为冗余度相关信息,可以根据所述指令语音的长度对应的长度范围区间,确定所述回复语音的冗余度。例如,假设当所述指令语音的长度对应的长度范围区间为(0-2]s时,所述回复语音的冗余度为1,当所述指令语音的长度对应的长度范围区间为(2-5]s时,所述回复语音的冗余度为2,当所述指令语音的长度对应的长度范围区间为(5-10]s时,所述回复语音的冗余度为3等。
基于上述实施例的内容,在本实施例中,根据所述中断信号,确定对应所述指令语音的对话策略,包括:
确定所述指令语音的长度;
根据所述中断信号和所述指令语音的长度,确定对应所述指令语音的对话策略。
基于上述实施例的内容,在本实施例中,根据所述中断信号和所述指令语音的长度,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度。
在本实施例中,采用了与前述实施例不同的方式,也即本实施例不仅仅根据中断信号发生时回复语音已经播放的时长对回复语音进行调整,也不仅仅根据指令语音的长度对回复语音进行调整,而是综合两者对回复语音进行调整。例如可以根据两者的平均值进行调整,也可以根据两者中的最小值进行调整等。可以理解的是,综合两者对回复语音进行调整的优势在于:可以更加准确反映用户对于回复语音的播放时长的接受度,因此,采用这种方式确定的回复语音的播放时长和/或冗余度比较符合用户预期。
基于上述实施例的内容,在本实施例中,根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度,具体包括:
根据所述指令语音的长度,确定第一目标长度;这里的第一目标长度可以是所述指令语音的长度加减预设值确定的长度,例如,假设所述指令语音的长度为5s,则所述第一目标长度可以为5s,也可以为4s,也可以为6s等,也即所述第一目标长度接近所述指令语音的长度。
控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一目标长度。
基于上述实施例的内容,在本实施例中,根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度,具体包括:
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度,确定第二目标长度;
根据所述第二目标长度,调整对应所述指令语音的回复语音的播放长度。
基于上述实施例的内容,在本实施例中,根据所述指令语音的长度和所述中断信号发生时所述回复语音已播放的第一时长,对所述回复语音的播放时长和/或冗余度进行调整,包括下述方式中的任意一种:
根据所述指令语音的长度和第一时长的平均值,对所述回复语音的播放时长和/或冗余度进行调整;
根据所述指令语音的长度和第一时长中的最小值,对所述回复语音的播放时长和/或冗余度进行调整;
根据所述指令语音的长度和第一时长之和,对所述回复语音的播放时长和/或冗余度进行调整;
根据所述指令语音的长度和第一时长采用第一关系模型或第二关系模型,确定回复语音的目标时长,并根据所述目标时长对所述回复语音的播放时长和/或冗余度进行调整;其中,所述第一关系模型包括:T=k1(αT1+βT2);其中,T表示目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k1表示第一调节系数;
所述第二关系模型包括:T0=k2(αlnT1+βlnT2);其中,T0表示目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k2表示第二调节系数。
在本实施例中,给出了综合所述指令语音的长度和所述中断信号发生时所述回复语音已播放的第一时长,对所述回复语音的播放时长和/或冗余度进行调整的具体方式,例如可以根据两者的平均值进行调整,也可以根据两者中的最小值进行调整,还可以根据两者之和进行调整,此外,还可以采用上述第一关系模型或第二关系模型进行调整。
可以理解的是,根据两者的平均值进行调整的优势在于:用户发出指令语音的长度以及发生中断信号时用户所能接受的最长播放时长(也即第一时长)这两者的平均值比较能准确反映用户对于回复语音的播放时长的接受度,因此,采用这种方式确定的回复语音的播放时长比较符合用户预期。
可以理解的是,根据两者中的最小值进行调整的优势在于:根据两者的最小值确定回复语音的播放时长能够最大程度地使得回复语音简短精炼有效,从而可以满足用户对于回复语音简短精炼的要求。
可以理解的是,根据两者之和进行调整的优势在于:能够在基本满足用户对于回复语音的播放时长要求的前提下,尽可能多地为用户提供一些附加扩展信息,以使得回复语音不要显得过于单调。
可以理解的是,采用上述第一关系模型或第二关系模型进行调整的优势在于:可以根据需求分别为指令语音的长度以及所述中断信号发生时所述回复语音已播放的第一时长赋予不同的权重,比如更侧重于使得回复语音的播放时长偏向于与指令语音的时长接近,则可以使得与指令语音的时长对应权重增加,比如更侧重于使得回复语音的播放时长偏向于与第一时长接近,则可以使得与第一时长对应的权重增加,最后上述第一关系模型和第二关系模型还设置了调节系数,用于在最后根据指令语音的时长和第一时长共同确定出时长后,对该时长进行适当调节,比如,在倾向于更短的回复语音时,可以设置调节系数为0.5,在倾向于较长的回复语音时,可以设置调节系数为0.8或1等等。
此外,可以理解的是,不管是根据平均值,还是根据最小值,还是根据两者之和,还是根据目标时长,这些都是时间值,对播放时长进行调整时,可以直接利用,而在对冗余度进行调整时,可以按照预先设定的时长与冗余度的关系,确定合适的冗余度,进而对冗余度进行调整。例如,假设预先设定的时长与冗余度的关系是:当时长为2s时,冗余度为1,当时长为5s时,冗余度为2,当时长为8s时,冗余度为3等等。
基于上述实施例的内容,在本实施例中,所述中断信号包括中断语音和中断动作中的一种或两种。
在本实施例中,需要说明的是,所述中断信号可以包括中断语音,也可以包括中断动作(也可以指中断操作),还可以是同时包括中断语音和中断动作。
在本实施例中,可以理解的是,由于是语音交互过程,因此采用中断语音作为中断信号的方式更为方便。
此外,采用中断动作进行中断也是一种比较方便的方式,例如当发出中断语音不方便时(例如在打电话),此时可以采用中断动作进行中断。
此外,在某种情况下,为充分表达情感或为确保中断能够被检测或识别到,可以同时采用中断语音和中断动作。
基于上述实施例的内容,在本实施例中,所述中断语音包括:中断词语音、唤醒词语音和新的指令语音中的一种或多种;其中,所述新的指令语音与所述指令语音相同或不同。
在本实施例中,中断语音可以包括:中断词语音、唤醒词语音和新的指令语音中的一种或多种。例如,可以通过中断词语音作为中断信号,也可以采用唤醒词语音作为中断信号,还可以采用新的指令语音作为中断信号,此外,还可以采用任意两者或三者的组合作为中断信号。
在本实施例中,中断词语音可以包括停、停止、Stop、住嘴、Shut up、No、闭嘴、稍等、Wait等。
在本实施例中,可以通过发出“中断词语音”的方式来中断当前的回复语音,比如,当用户对当前的回复语音不满意或不想继续听而想要中断该回复语音时,可以通过发出“中断词语音”,例如“Stop”的方式来中断当前的回复语音,智能设备在接收到该“中断词语音”后会将该“中断词语音”作为中断信号对回复语音进行调整。
这里,唤醒词语音是指用于唤醒智能设备的语音,如“小美,小美”等。
在本实施例中,可以通过发出“唤醒词语音”的方式来中断当前的回复语音,比如,当用户对当前的回复语音不满意而想要中断时,可以通过发出“唤醒词语音”,例如“小美,小美”的方式来中断当前的回复语音,智能设备在接收到该“唤醒词语音”后会将该“唤醒词语音”作为中断信号对回复语音进行调整。
在本实施例中,新的指令语音是指区别于与所述回复语音对应的指令语音的指令语音,也即表示通过重新发出指令语音的方式来中断当前的回复语音。需要说明的是,这里新的指令语音和与原来的指令语音可以相同,也可以不同。举例来说,当用户对当前的回复语音不满意而想要中断时,可以通过发出“新的指令语音”,例如“现在是几点”(与原来的指令语音相同)或“麻烦唱一首歌吧”(与原来指令语音不同)的方式来中断当前的回复语音,智能设备在接收到该“新的指令语音”后会将该“新的指令语音”作为中断信号对回复语音进行调整。
可以理解的是,当用户发出的“新的指令语音”与原来的指令语音相同时,一般意味着该智能设备是以随机的方式采用不同的回复语音回复用户,在这种情况下,用户发出与原来指令语音相同的“新的指令语音”目的是为了试图随机切换新的回复语音。
基于上述实施例的内容,在本实施例中,所述中断动作包括:按键动作、触摸动作、敲击动作、点击动作、遥控操作和手势动作中的一种或多种。
在本实施例中,可以理解的是,除了利用中断语音发送中断信号外,还可以利用中断动作发送中断信号,这里的中断动作可以为:按键动作、触摸动作、敲击动作、点击动作、遥控操作和手势动作中的一种或多种。举例来说,可以通过按键的方式来中断回复语音,此外,为方便操作,也可以采用手势动作的方式来中断回复语音,此外,还可以采用其他中断动作,本实施例对此不作限定。
基于上述实施例的内容,在本实施例中,对于具备唤醒词的智能设备,所述指令语音包括唤醒词。
在本实施例中,对于具备唤醒词的智能设备,所述指令语音包括唤醒词,相应地,当某个指令语音中不包含唤醒词时,将不会被识别以及响应,从而可以减少无关语音的干扰。
需要说明的是,对于唤醒词来说,不同的智能设备会有不同的设计,本实施例对唤醒词的具体内容设置和长短设置不作要求,一般来说,唤醒词跟产品特点或昵称有关,此外,唤醒词一般不宜过长,且需要比较容易发音。
根据上述技术方案可知,本实施例提供的语音交互方法,通过在回复语音的播放过程中发送中断信号的方式对回复语音进行调整,从而使得调整后的回复语音更加匹配用户需求,从而可以为用户提供更好的语音交互服务体验。
在本实施例中,给出关于上述出现的一些名词的更为详细的解释:
指令语音:是指由用户发出的能够触发语音交互设备(可以是智能设备,也可以是终端设备,也可以是服务器,也可以是多者组合)对话管理(Diaglou Management,简称DM)的语音内容。需要说明的是,在利用唤醒词唤醒的语音交互设备中,该指令语音一般需包括唤醒词。
语音交互设备:可以为由智能设备、终端设备和服务器三者组成,例如,由智能设备接收指令语音,由终端设备进行语音识别,由服务器进行对话管理等。此外,还可以是令终端设备与智能设备连接,然后借由终端设备接收指令语音,并由服务器进行语音识别(也可以放到终端设备)、对话管理等。此外,语音交互设备也可以由智能设备和服务器两者组成,也即由智能设备接收指令语音,然后由服务器进行语音识别和对话管理等。此外,语音交互设备还可以由智能设备组成,也即在智能设备本地执行接收指令语音,同时也在本地进行语音识别和对话管理等的全过程。此外,语音交互设备可以由智能设备和终端设备组成,也即由智能设备接收指令语音,然后由终端设备进行语音识别和对话管理等的处理过程。此外,语音交互设备可以由终端设备组成,也即由终端设备接收指令语音,然后由终端设备进行语音识别和对话管理等的处理过程。可以理解的是,语音交互设备可以由智能设备、终端设备和服务器中的一个、两个或三个组成,本实施例对此不再一一举例说明。
回复语音:是指响应用户一次指令语音而由语音交互设备所播放的语音。
回复语音的时长:是指回复语音的音频长度,约等于播放完回复语音所需的时间。
中断或打断:是指在回复语音播放的过程中,用户通过插入新的语音命令,或者按键、敲击、遥控、手势等操作,强行中断回复语音的播放。
中断或打断操作:是指由用户主动发出的如上述语音命令、按键、敲击等能够中断语音交互设备的回复语音播放流程的操作。
可以理解的是,本发明提供的语音交互方法的原理是:语音交互设备在播放回复语音的过程中,若确认发生打断操作,则降低此后回复语音的播放时长或冗余度,或者减少高时长的回复语音推送频率等。下面通过几个具体实施例对本发明提供的语音交互方法进行详细解释和说明。
实施例一
在播放回复语音期间,确认用户触发中断操作(例如按下按键),则(针对本条语音指令语音、本条指令语音所在指令语音分组、或者针对本用户)语音交互设备将为其调整为时长较短的回复语音。如此反复,直到回复语音的时长满足用户要求。
以智能耳机作为例子,在语音助手回复过长时,用户敲击耳机触发中断操作,则调整话术策略,缩短此后针对该语音指令的回复语音。
实施例二
在播放回复语音期间,确认用户触发中断操作,则语音交互设备记录中断操作发生时该回复语音已播放的时长,根据该时长,调整此后的回复语音的时长(或者回复文本的字数)。
本实施例提供的语音交互方法的处理过程可参见图3所示:
用户发出指令语音,例如“小美小美(唤醒词),现在是几点”,相应地,服务器基于对话管理策略生成回复语音,然后将回复语音发送给语音终端(如智能音箱等)进行播放。当回复语音正在播放时,可以触发打断操作,除了通过按下按键方式打断外,用户还可以通过呼出唤醒词,或者发出下一个语音指令等方式,触发中断操作。此时,语音终端将触发中断操作时将回复语音的已播放时长上传至服务器,服务器则根据该已播放时长,调整当前对话管理策略(例如在下次回复该对话时,选择语音的时长小于等于该已播放时长的回复语音)。
图4给出了关于带有打断操作的语音交互过程示意图。关于确认打断操作的方法,可以通过以下方法实现:语音终端(智能音箱等)确认打断操作,反馈给服务器;服务器接收来自语音终端的指令语音或者指令文本后,确认发送至该用户或语音终端的上一次回复语音的时间和时长,从而判断是否被用户打断。
此外,正如前面实施例所介绍的,在精细化控制过程中,也可将一天分割成若干个时段(例如以1小时为单位分割成24个时段),分别调整该用户在每个时间段的对话管理策略。
实施例三
图5示出了语音交互过程的另一示意图,如图5所示,在播放回复语音期间,确认用户出发中断操作,则语音交互设备记录中断操作发生时,该回复语音已播放的时间占该回复语音的总时长的占比,根据该占比,调整此后的回复语音的播放时长或冗余度的阈值。
可以理解的是,除了通过指令语音方式打断外,用户还可以通过按下语音终端的按键等方式,触发中断操作。此时,语音终端将触发中断操作时第一回复语音的已播放时长上传至服务器。服务器则根据该已播放时长及总时长的比例,调整当前对话管理策略(例如在下次回复该用户时,根据前述比例确定第二回复语音的播放时长或冗余度)。
由此可见,本实施例给出了根据用户的打断反馈,调整回复语音的话术的相关技术方案,通过上述技术方案,使得语音交互过程能够更加符合用户对于回复语音的需求,从而可以提高用户使用体验。
基于相同的发明构思,本发明另一实施例提供了一种语音交互装置,参见图6,本实施例提供的语音交互装置,包括:接收模块21和确定模块22,其中:
接收模块21,用于接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;
确定模块22,用于根据所述中断信号,确定对应所述指令语音的对话策略。
需要说明的是,本实施例提供的语音交互装置可以用于执行上述各实施例所述的语音交互方法,其工作原理、具体技术方案以及能够实现的效果将不再赘述。
除此以外,基于上述实施例的内容,在本实施例中,确定模块22还可以用于执行下述处理方式中的一种或多种:
处理方式1:根据所述中断信号结束所述回复语音;
处理方式2:根据所述中断信号从与所述指令语音对应的回复语音库中选择与所述回复语音不同的回复语音进行播放;
处理方式3:根据所述中断信号调整所述回复语音的播放时长和/或冗余度;其中,回复语音的冗余度是指回复语音中非回复指令语音所必需的语音内容与回复语音全部语音内容的比值;
处理方式4:根据所述中断信号调整与所述回复语音对应的回复文本的字数和/或冗余度;
处理方式5:根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的播放时长和/或冗余度;
处理方式6:根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的回复文本的字数和/或冗余度;
处理方式7:根据所述中断信号调整与第一用户发出的所有或部分指令语音对应的回复语音的播放时长和/或冗余度;其中,所述第一用户为被所述中断信号中断的回复语音所对应的指令语音的发出者;
处理方式8:根据所述中断信号调整与第一用户发出的所有或部分指令语音对应的回复文本的字数和/或冗余度;
处理方式9:根据所述中断信号调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长和/或冗余度;处理方式10:根据所述中断信号调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复文本的字数和/或冗余度;
处理方式11:调整与所述指令语音对应的回复语音库中的部分或所有回复语音的播放时长和/或冗余度;
处理方式12:减少所述回复语音的使用频率;其中,减少所述回复语音的使用频率是指在后续响应所述指令语音时,从与所述指令语音对应的回复语音库中选择所述回复语音作为响应的概率降低;
处理方式13:减少播放长度大于或等于所述回复语音的回复语音使用频率;其中,减少播放长度大于或等于所述回复语音的回复语音使用频率是指在后续响应所述指令语音时,从与所述指令语音对应的回复语音库中选择播放长度大于或等于所述回复语音的回复语音作为响应的概率降低。
基于上述实施例的内容,在本实施例中,所述指令语音组以指令主题的方式进行划分,所述指令主题包括:生活指令、工作指令、学习指令中的一种或多种。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整所述回复语音的播放时长时,具体用于:
根据所述中断信号调高所述回复语音的未播放部分的播放速度;
或,
根据所述中断信号在所述回复语音的未播放部分中截取部分内容进行继续播放。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整所述回复语音的冗余度时,具体用于:
根据所述中断信号降低所述回复语音的未播放部分的冗余度。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整与所述回复语音对应的回复文本的字数时,具体用于:
根据所述中断信号减少所述回复语音的未播放部分对应的回复文本的字数。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整与所述回复语音对应的回复文本的冗余度时,具体用于:
根据所述中断信号降低所述回复语音的未播放部分对应的回复文本的冗余度。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的播放时长时,具体用于:
确定所述中断信号发生时所述回复语音已播放的第一时长,并控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于所述第一时长。
基于上述实施例的内容,在本实施例中,确定模块22在控制后续与所述指令语音相同的指令语音对应的回复语音的播放时长小于或等于所述第一时长时,具体用于:
控制后续与所述指令语音相同的指令语音对应的回复语音在播放时长小于或等于所述第一时长时停止播放;
或,
控制后续与所述指令语音相同的指令语音对应的回复语音在播放时截取部分内容进行播放;
或,
从与所述指令语音对应的回复语音库中选择播放时长小于或等于所述第一时长的回复语音作为后续与所述指令语音相同的指令语音对应的回复语音;
或,
调高后续与所述指令语音相同的指令语音对应的回复语音的播放速度。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的冗余度时,具体用于:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制后续与所述指令语音相同的指令语音对应的回复语音的冗余度小于或等于所述比值。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的回复文本的字数时,具体用于:
确定所述中断信号发生时所述回复语音已播放部分对应的第一字数,并控制后续与所述指令语音相同的指令语音对应的回复语音的回复文本的字数小于或等于所述第一字数。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整后续与所述指令语音相同的指令语音对应的回复语音的回复文本的冗余度时,具体用于:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制后续与所述指令语音相同的指令语音对应的回复语音的回复文本的冗余度小于或等于所述比值。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整与第一用户发出的所有或部分指令语音对应的回复语音的播放时长时,具体用于:
确定所述中断信号发生时所述回复语音已播放的第一时长,并控制与第一用户发出的所有或部分指令语音对应的回复语音的播放时长小于或等于所述第一时长。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整与第一用户发出的所有或部分指令语音对应的回复语音的冗余度时,具体用于:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制与第一用户发出的所有或部分指令语音对应的回复语音的冗余度小于或等于所述比值。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长时,具体用于:
确定所述中断信号发生时所述回复语音已播放的第一时长,并控制与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放时长小于或等于所述第一时长。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号调整与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的冗余度时,具体用于:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值,并控制与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的冗余度小于或等于所述比值。
基于上述实施例的内容,在本实施例中,确定模块22还用于确定所述中断信号发生时对应的时间段信息;
相应地,在后续与所述时间段信息相对应的时间段,根据所述中断信号对所述回复语音进行调整。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号对所述回复语音进行调整时,具体用于:
确定所述指令语音的长度;
根据所述指令语音的长度对所述回复语音的播放时长和/或冗余度进行调整。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述指令语音的长度对所述回复语音的播放时长进行调整时,具体用于:
根据所述指令语音的长度控制所述回复语音在播放时长与所述指令语音的长度匹配时停止播放;
或,
根据所述指令语音的长度在所述回复语音的未播放部分中截取部分内容进行继续播放,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度调高所述回复语音的未播放部分的播放速度,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述指令语音的长度对所述回复语音的冗余度进行调整时,具体用于:
根据所述指令语音的长度对应的长度范围区间,确定所述回复语音的冗余度。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述中断信号对所述回复语音进行调整时,具体用于:
确定所述指令语音的长度;
根据所述指令语音的长度和所述中断信号发生时所述回复语音已播放的第一时长,对所述回复语音的播放时长和/或冗余度进行调整。
基于上述实施例的内容,在本实施例中,确定模块22在根据所述指令语音的长度和所述中断信号发生时所述回复语音已播放的第一时长,对所述回复语音的播放时长和/或冗余度进行调整时,具体用于执行下述方式中的任意一种:
根据所述指令语音的长度和第一时长的平均值,对所述回复语音的播放时长和/或冗余度进行调整;
根据所述指令语音的长度和第一时长中的最小值,对所述回复语音的播放时长和/或冗余度进行调整;
根据所述指令语音的长度和第一时长之和,对所述回复语音的播放时长和/或冗余度进行调整;
根据所述指令语音的长度和第一时长采用第一关系模型或第二关系模型,确定回复语音的目标时长,并根据所述目标时长对所述回复语音的播放时长和/或冗余度进行调整;其中,所述第一关系模型包括:T=k1(αT1+βT2);其中,T表示目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k1表示第一调节系数;
所述第二关系模型包括:T0=k2(αlnT1+βlnT2);其中,T0表示目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k2表示第二调节系数。
基于上述实施例的内容,在本实施例中,所述中断信号包括中断语音和中断动作中的一种或两种。
基于上述实施例的内容,在本实施例中,所述中断语音包括:中断词语音、唤醒词语音和新的指令语音中的一种或多种;其中,所述新的指令语音与所述指令语音相同或不同。
基于上述实施例的内容,在本实施例中,所述中断动作包括:按键动作、触摸动作、敲击动作、点击动作、遥控操作和手势动作中的一种或多种。
基于上述实施例的内容,在本实施例中,对于具备唤醒词的智能设备,所述指令语音包括唤醒词。
由于本实施例提供的语音交互装置可以用于执行上述实施例所述的语音交互方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
此外,本发明实施例还提供了一种语音交互方法,包括:
确定指令语音的长度;其中,所述指令语音发出指令的语音;
根据所述指令语音的长度,确定对应所述指令语音的对话策略。
在本实施例中,根据用户发出的指令语音的长度确定相应的对话策略,从而使得对话策略可以满足用户需求。
例如,当用户发出的指令语音的长度较长时,表明用户是个有耐心而且比较仔细的人,此时用户可能更倾向于收到比较详细的回复语音,因此,对于这种情况,可以多增加了解释性或扩展性或其他较为丰富的扩展内容,以满足用户需求。反之,当用户发出的指令语音的长度较短时,表明用户是个做事直接和干练的人,此时用户可能更倾向于收到比较简短有效的回复语音,因此,对于这种情况,就不宜附带较多冗余信息,而是提供最为有效和直接的回复即可。
进一步地,根据所述指令语音的长度,确定对应所述指令语音的对话策略,包括:
根据所述指令语音的长度对回复语音进行调整;其中,所述回复语音为响应于所述指令语音的语音。
进一步地,所述根据所述指令语音的长度对回复语音进行调整,包括:
根据所述指令语音的长度从与所述指令语音对应的回复语音库中选择长度与所述指令语音的长度匹配的回复语音进行播放;
或,
根据所述指令语音的长度对回复语音的播放时长和/或冗余度进行调整。
进一步地,根据所述指令语音的长度对回复语音的播放时长进行调整,包括:
根据所述指令语音的长度控制回复语音在播放时长与所述指令语音的长度匹配时停止播放;
或,
根据所述指令语音的长度在所述回复语音中截取部分内容进行播放,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度在所述回复语音的未播放部分中截取部分内容进行继续播放,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度调高所述回复语音的播放速度,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配;
或,
根据所述指令语音的长度调高所述回复语音的未播放部分的播放速度,使得调整后的回复语音的总播放时长与所述指令语音的长度匹配。
进一步地,根据所述指令语音的长度对回复语音的冗余度进行调整,包括:
根据所述指令语音的长度对应的长度范围区间,确定回复语音的冗余度对应的冗余度区间。
进一步地,所述方法还包括:
确定所述指令语音发生时对应的时间段信息;
相应地,在后续与所述时间段信息相对应的时间段,根据所述指令语音的长度,确定对应所述指令语音的对话策略。
进一步地,根据所述指令语音的长度,确定对应所述指令语音的对话策略,包括:
根据所述指令语音的长度,确定第一目标长度;
控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一目标长度。
需要说明的是,由于本实施例提供的语音交互方法中很多应用场景以及处理方案跟前述实施例提供的语音交互方法类似,两者的区别仅在于一个是根据中断信号进行对话策略调整,一个是根据语音长度本身进行对话策略调整,因此,很多类似或通用的技术内容在该实施例中没有详细展开描述,具体内容可参见上述实施例的介绍。
此外,本发明实施例还提供了一种语音交互装置,包括:
第一确定模块,用于确定指令语音的长度;其中,所述指令语音发出指令的语音;
第二确定模块,用于根据所述指令语音的长度,确定对应所述指令语音的对话策略。
在本实施例中,根据用户发出的指令语音的长度确定相应的对话策略,从而使得对话策略可以满足用户需求。
基于相同的发明构思,本发明另一实施例提供了一种智能设备,该智能设备包括如上面实施例所述的语音交互装置。
在本实施例中,可以理解的是,由于上述语音交互装置的处理过程可以在智能设备上实现,因此,本实施例提供了一种包含所述语音交互装置的智能设备,进而实现上述语音交互处理过程。可以理解的是,智能设备可以是各种智能电器,如智能音箱、智能电冰箱、智能电饭煲、智能热水器、智能电视、智能洗衣机等等,本实施例对此不做限定。
由于本实施例提供的智能设备包括上面实施例所述的语音交互装置,因此其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
基于相同的发明构思,本发明另一实施例提供了一种终端设备,该终端设备包括如上面实施例所述的语音交互装置。
在本实施例中,可以理解的是,由于上述语音交互装置的处理过程可以在终端设备上实现,因此,本实施例提供了一种包含所述语音交互装置的终端设备,进而实现上述语音交互处理过程。可以理解的是,终端设备可以是各种设备,如手机、pad、智能手表、笔记本等等,本实施例对此不做限定。
由于本实施例提供的终端设备包括上面实施例所述的语音交互装置,因此其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
基于相同的发明构思,本发明另一实施例提供了一种服务器,该服务器包括如上面实施例所述的语音交互装置。
在本实施例中,可以理解的是,由于上述语音交互装置的处理过程可以在服务器上实现,因此,本实施例提供了一种包含所述语音交互装置的服务器,进而实现上述语音交互处理过程。在本实施例中,服务器可以是云服务器,也可以是其他服务器,本实施例对此不作限定。当为云服务器时,具体处理速度快,安全性高等优势。
由于本实施例提供的服务器包括上面实施例所述的语音交互装置,因此其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
基于相同的发明构思,本发明又一实施例提供了一种智能设备,参见图7,所述智能设备具体包括如下内容:处理器301、存储器302、通信接口303和通信总线304;
其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;所述通信接口303用于实现各建模软件及智能制造装备模块库等相关设备之间的传输;
所述处理器301用于调用所述存储器302中的计算机程序,所述处理器执行所述计算机程序时实现上述语音交互方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为指示智能设备执行任务的语音;根据所述中断信号对所述回复语音进行调整。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
可以理解的是,智能设备可以是各种智能电器,如智能音箱、智能电冰箱、智能电饭煲、智能热水器、智能电视、智能洗衣机等等,本实施例对此不做限定。
基于相同的发明构思,本发明又一实施例提供了一种终端设备,参见图8,所述终端设备具体包括如下内容:处理器401、存储器402、通信接口403和通信总线404;
其中,所述处理器401、存储器402、通信接口403通过所述通信总线404完成相互间的通信;所述通信接口403用于实现各建模软件及智能制造装备模块库等相关设备之间的传输;
所述处理器401用于调用所述存储器402中的计算机程序,所述处理器执行所述计算机程序时实现上述语音交互方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为指示智能设备执行任务的语音;根据所述中断信号对所述回复语音进行调整。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
可以理解的是,终端设备可以是各种设备,如手机、pad、智能手表、笔记本等等,本实施例对此不做限定。
基于相同的发明构思,本发明又一实施例提供了一种服务器,参见图9,所述服务器具体包括如下内容:处理器501、存储器502、通信接口503和通信总线504;
其中,所述处理器501、存储器502、通信接口503通过所述通信总线504完成相互间的通信;所述通信接口503用于实现各建模软件及智能制造装备模块库等相关设备之间的传输;
所述处理器501用于调用所述存储器502中的计算机程序,所述处理器执行所述计算机程序时实现上述语音交互方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为指示智能设备执行任务的语音;根据所述中断信号对所述回复语音进行调整。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
在本实施例中,服务器可以是云服务器,也可以是其他服务器,本实施例对此不作限定。当为云服务器时,具体处理速度快,安全性高等优势。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音交互方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为指示智能设备执行任务的语音;根据所述中断信号对所述回复语音进行调整。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的语音交互方法。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
此外,在本发明中,诸如“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (30)
1.一种语音交互方法,其特征在于,包括:
接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为下发指令的语音;
根据所述中断信号,确定对应所述指令语音的对话策略。
2.根据权利要求1所述的语音交互方法,其特征在于,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,停止播放所述回复语音。
3.根据权利要求1所述的语音交互方法,其特征在于,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低对应所述指令语音的回复语音的播放长度。
4.根据权利要求1所述的语音交互方法,其特征在于,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低所述回复语音的使用频率。
5.根据权利要求1所述的语音交互方法,其特征在于,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低对应第一用户发出的所有或部分指令语音的回复语音的播放长度;其中,所述第一用户为被所述中断信号中断的回复语音对应的指令语音的发出者。
6.根据权利要求1所述的语音交互方法,其特征在于,根据所述中断信号,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号,降低与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放长度。
7.根据权利要求3所述的语音交互方法,其特征在于,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
降低所述回复语音的播放长度,并将调整后的回复语音进行存储以供后续作为响应所述指令语音的回复语音。
8.根据权利要求3所述的语音交互方法,其特征在于,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
降低所述回复语音的冗余度,并将调整后的回复语音进行存储以供后续作为响应所述指令语音的回复语音。
9.根据权利要求3所述的语音交互方法,其特征在于,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
减少播放长度大于或等于所述回复语音的回复语音的使用频率;其中,减少播放长度大于或等于所述回复语音的回复语音的使用频率是指在响应所述指令语音时,从与所述指令语音对应的回复语音库中选择播放长度大于或等于所述回复语音的回复语音作为响应的概率降低。
10.根据权利要求3所述的语音交互方法,其特征在于,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一时长。
11.根据权利要求10所述的语音交互方法,其特征在于,所述控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一时长,具体包括下述方式中的任意一种或多种:
控制用于响应所述指令语音的回复语音在播放时长小于或等于所述第一时长时停止播放;
从用于响应所述指令语音的回复语音中截取部分内容进行播放;
从与所述指令语音对应的回复语音库中选择播放时长小于或等于所述第一时长的回复语音作为用于响应所述指令语音的回复语音;
控制用于响应所述指令语音的回复语音的播放速度加快。
12.根据权利要求3所述的语音交互方法,其特征在于,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长占所述回复语音总时长的比值;
控制用于响应所述指令语音的回复语音的冗余度小于或等于所述比值。
13.根据权利要求3所述的语音交互方法,其特征在于,所述降低对应所述指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放部分对应的第一字数;
控制用于响应所述指令语音的回复语音的回复文本的字数小于或等于所述第一字数。
14.根据权利要求4所述的语音交互方法,其特征在于,根据所述中断信号,降低所述回复语音的使用频率,具体包括:
根据所述中断信号,从与所述指令语音对应的回复语音库中选择内容主题与所述回复语音不同的回复语音进行播放。
15.根据权利要求14所述的语音交互方法,其特征在于,从与所述指令语音对应的回复语音库中选择内容主题与所述回复语音不同的回复语音进行播放,具体包括:
根据历史语音交互信息,确定第一用户习惯选择的目标内容主题;
从与所述指令语音对应的回复语音库中选择与所述目标内容主题对应的回复语音进行播放。
16.根据权利要求5所述的语音交互方法,其特征在于,所述根据所述中断信号,降低对应第一用户发出的所有或部分指令语音的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应所述第一用户发出的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长。
17.根据权利要求6所述的语音交互方法,其特征在于,所述根据所述中断信号,降低与所述指令语音在同一指令语音组中的所有或部分指令语音对应的回复语音的播放长度,具体包括:
确定所述中断信号发生时所述回复语音已播放的第一时长;
控制用于响应与所述指令语音在同一指令语音组中的所有或部分指令语音的回复语音的播放长度小于或等于所述第一时长。
18.根据权利要求1~17任一项所述的语音交互方法,其特征在于,还包括:
确定所述中断信号发生时对应的时间段信息;
相应地,在后续与所述时间段信息相对应的时间段,根据所述中断信号,确定对应所述指令语音的对话策略。
19.根据权利要求1所述的语音交互方法,其特征在于,根据所述中断信号,确定对应所述指令语音的对话策略,包括:
确定所述指令语音的长度;
根据所述中断信号和所述指令语音的长度,确定对应所述指令语音的对话策略。
20.根据权利要求19所述的语音交互方法,其特征在于,根据所述中断信号和所述指令语音的长度,确定对应所述指令语音的对话策略,具体包括:
根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度。
21.根据权利要求20所述的语音交互方法,其特征在于,根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度,具体包括:
根据所述指令语音的长度,确定第一目标长度;
控制用于响应所述指令语音的回复语音的播放长度小于或等于所述第一目标长度。
22.根据权利要求20所述的语音交互方法,其特征在于,根据所述中断信号和所述指令语音的长度,调整对应所述指令语音的回复语音的播放长度,具体包括:
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度,确定第二目标长度;
根据所述第二目标长度,调整对应所述指令语音的回复语音的播放长度。
23.根据权利要求22所述的语音交互方法,其特征在于,根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度,确定第二目标长度,具体包括下述方式中的任意一种或多种:
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度的平均值,确定第二目标长度;
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度中的最小值,确定第二目标长度;
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度之和,确定第二目标长度;
根据所述中断信号发生时所述回复语音已播放的第一时长以及所述指令语音的长度,采用第一关系模型或第二关系模型确定第二目标长度;
其中,所述第一关系模型包括:T=k1(αT1+βT2);其中,T表示第二目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k1表示第一调节系数;
或,所述第二关系模型包括:T0=k2(αlnT1+βlnT2);其中,T0表示第二目标时长,T1表示指令语音的长度,T2表示第一时长,α表示指令语音的权重,β表示第一时长的权重,k2表示第二调节系数。
24.根据权利要求1所述的语音交互方法,其特征在于,所述中断信号包括中断语音和中断动作中的一种或两种。
25.根据权利要求24所述的语音交互方法,其特征在于,所述中断语音包括:中断词语音、唤醒词语音和新的指令语音中的一种或多种;其中,所述新的指令语音与所述指令语音相同或不同。
26.根据权利要求24所述的语音交互方法,其特征在于,所述中断动作包括:按键动作、触摸动作、敲击动作、点击动作、遥控操作和手势动作中的一种或多种。
27.一种语音交互装置,其特征在于,包括:
接收模块,用于接收用于请求中断回复语音的中断信号;所述回复语音为响应于指令语音的语音;所述指令语音为下发指令的语音;
确定模块,用于根据所述中断信号,确定对应所述指令语音的对话策略。
28.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至26任一项所述语音交互方法的步骤。
29.根据权利要求28所述的电子设备,其特征在于,所述电子设备为智能设备、终端设备或服务器。
30.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至26任一项所述语音交互方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476144.6A CN112735423B (zh) | 2020-12-14 | 2020-12-14 | 语音交互方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011476144.6A CN112735423B (zh) | 2020-12-14 | 2020-12-14 | 语音交互方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735423A true CN112735423A (zh) | 2021-04-30 |
CN112735423B CN112735423B (zh) | 2024-04-05 |
Family
ID=75602124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011476144.6A Active CN112735423B (zh) | 2020-12-14 | 2020-12-14 | 语音交互方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735423B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220293100A1 (en) * | 2019-09-04 | 2022-09-15 | Ai Speech Co., Ltd. | Full-duplex voice dialogue method |
CN115390467A (zh) * | 2022-07-29 | 2022-11-25 | 青岛海尔科技有限公司 | 语音交互的方法和装置、存储介质及电子装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016127550A1 (zh) * | 2015-02-13 | 2016-08-18 | 百度在线网络技术(北京)有限公司 | 人机语音交互方法和装置 |
CN110557451A (zh) * | 2019-08-30 | 2019-12-10 | 北京百度网讯科技有限公司 | 对话交互处理方法、装置、电子设备和存储介质 |
US20200013403A1 (en) * | 2017-03-10 | 2020-01-09 | Nippon Telegraph And Telephone Corporation | Dialogue method, dialogue system, dialogue apparatus and program |
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN111145721A (zh) * | 2019-12-12 | 2020-05-12 | 科大讯飞股份有限公司 | 个性化提示语生成方法、装置和设备 |
CN111970409A (zh) * | 2020-10-21 | 2020-11-20 | 深圳追一科技有限公司 | 基于人机交互的语音处理方法、装置、设备和存储介质 |
-
2020
- 2020-12-14 CN CN202011476144.6A patent/CN112735423B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016127550A1 (zh) * | 2015-02-13 | 2016-08-18 | 百度在线网络技术(北京)有限公司 | 人机语音交互方法和装置 |
US20200013403A1 (en) * | 2017-03-10 | 2020-01-09 | Nippon Telegraph And Telephone Corporation | Dialogue method, dialogue system, dialogue apparatus and program |
CN110557451A (zh) * | 2019-08-30 | 2019-12-10 | 北京百度网讯科技有限公司 | 对话交互处理方法、装置、电子设备和存储介质 |
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN111145721A (zh) * | 2019-12-12 | 2020-05-12 | 科大讯飞股份有限公司 | 个性化提示语生成方法、装置和设备 |
CN111970409A (zh) * | 2020-10-21 | 2020-11-20 | 深圳追一科技有限公司 | 基于人机交互的语音处理方法、装置、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220293100A1 (en) * | 2019-09-04 | 2022-09-15 | Ai Speech Co., Ltd. | Full-duplex voice dialogue method |
CN115390467A (zh) * | 2022-07-29 | 2022-11-25 | 青岛海尔科技有限公司 | 语音交互的方法和装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112735423B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107340991B (zh) | 语音角色的切换方法、装置、设备以及存储介质 | |
CN108536802B (zh) | 基于儿童情绪的交互方法及装置 | |
EP1332491B1 (en) | User interface for the administration of an external database | |
US6728679B1 (en) | Self-updating user interface/entertainment device that simulates personal interaction | |
CN109346076A (zh) | 语音交互、语音处理方法、装置和系统 | |
CN107340865A (zh) | 多模态虚拟机器人交互方法和系统 | |
CN109147800A (zh) | 应答方法和装置 | |
CN112735423B (zh) | 语音交互方法、装置、电子设备及存储介质 | |
EP1415218A2 (en) | Environment-responsive user interface / entertainment device that simulates personal interaction | |
WO2014181524A1 (ja) | 会話処理システム及びプログラム | |
CN107293300A (zh) | 语音识别方法及装置、计算机装置及可读存储介质 | |
KR20010113919A (ko) | 소비자 전자 시스템과의 대화 방법 | |
US20190050708A1 (en) | Information processing system, information processing apparatus, information processing method, and recording medium | |
CN109599130A (zh) | 收音方法、装置及存储介质 | |
CN114464180A (zh) | 一种智能设备及智能语音交互方法 | |
Kong et al. | An analysis of conversation structure in Ellen Show | |
CN112463108B (zh) | 语音交互处理方法、装置、电子设备及存储介质 | |
CN114283820A (zh) | 多角色语音的交互方法、电子设备和存储介质 | |
CN112634886B (zh) | 一种智能设备的交互方法、服务器、计算设备及存储介质 | |
CN110086941A (zh) | 语音播放方法、装置及终端设备 | |
CN109830232A (zh) | 人机交互方法、装置和存储介质 | |
CN105303909B (zh) | 一种基于振动学习英文的方法、装置和系统 | |
WO2023185007A1 (zh) | 一种睡眠场景设置方法及装置 | |
CN116825105A (zh) | 一种基于人工智能的语音识别方法 | |
CN109040211A (zh) | 一种基于语音识别的内容推送方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |