CN110491372A - 一种反馈信息生成方法、装置、存储介质和智能设备 - Google Patents
一种反馈信息生成方法、装置、存储介质和智能设备 Download PDFInfo
- Publication number
- CN110491372A CN110491372A CN201910663300.0A CN201910663300A CN110491372A CN 110491372 A CN110491372 A CN 110491372A CN 201910663300 A CN201910663300 A CN 201910663300A CN 110491372 A CN110491372 A CN 110491372A
- Authority
- CN
- China
- Prior art keywords
- student
- emotional state
- rehearsal
- voice
- voice messaging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002996 emotional effect Effects 0.000 claims abstract description 95
- 238000013515 script Methods 0.000 claims abstract description 78
- 230000002452 interceptive effect Effects 0.000 claims abstract description 33
- 230000036651 mood Effects 0.000 claims description 57
- 230000001815 facial effect Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 16
- 238000005553 drilling Methods 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000003466 anti-cipated effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Abstract
本发明提供了一种反馈信息生成方法、装置、存储介质和智能设备,包括:获取学员选择的演练场景;获取所述学员的语音信息;提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。本发明使得模拟演练更为逼真,可提高学员演练的效率。
Description
技术领域
本发明涉及信息交互领域,尤其涉及一种反馈信息生成方法、装置、存储介质和智能设备。
背景技术
在传统的业务员产品培训中,培训老师会提供剧本供业务员练习,剧本中包括产品介绍以及产品的相关问答,业务员根据剧本进行模拟练习。然而,在资源以及时间有限的情况下,业务员一般根据剧本与老师或者其他业务员进行演练,当老师或其他学员没空时,学员不方便自己进行演练。现有的演练方式需要配合其他助演的时间,耗费他人时间,也不利于学员自己的演练效率。
发明内容
本发明实施例提供了一种反馈信息生成方法、装置、存储介质和智能设备,以解决现有的演练方式需要配合其他助演的时间,耗费他人时间,也不利于学员自己的演练效率的问题。
本发明实施例的第一方面提供了一种反馈信息生成方法,包括:
获取学员选择的演练场景;
获取所述学员的语音信息;
提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;
查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;
查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;
基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
本发明实施例的第二方面提供了一种反馈信息生成装置,包括:
选择演练场景获取单元,用于获取学员选择的演练场景;
语音信息获取单元,用于获取所述学员的语音信息;
语音信息处理单元,用于提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;
对话脚本查找单元,用于查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;
情绪状态查找单元,用于查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;
演练交互单元,用于基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
本发明实施例的第三方面提供了一种智能设备,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取学员选择的演练场景;
获取所述学员的语音信息;
提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;
查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;
查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;
基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取学员选择的演练场景;
获取所述学员的语音信息;
提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;
查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;
查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;
基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
本发明实施例中,通过获取学员选择的演练场景,获取所述学员的语音信息,然后提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义,再查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本,查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态,基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息,由于是根据对话脚本以及交互情绪状态与学员交互,使得学员的模拟演练更为逼真,学员无须寻找配合演练的其他学员,演练更为方便,学员演练的效率也可大大提高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的反馈信息生成方法的实现流程图;
图2是本发明实施例提供的反馈信息生成方法S104的具体实现流程图;
图3是本发明实施例提供的反馈信息生成方法S105的具体实现流程图;
图4是本发明实施例提供的反馈信息生成方法S105包括表情情绪状态的具体实现流程图;
图5是本发明另一实施例提供的反馈语音情绪状态的实现流程图;
图6是本发明再一实施例提供的反馈表情情绪状态的实现流程图;
图7是本发明实施例提供的反馈信息生成装置的结构框图;
图8是本发明实施例提供的智能设备的示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的反馈信息生成方法的实现流程,该方法流程包括步骤S101至S106。各步骤的具体实现原理如下:
S101:获取学员选择的演练场景。
具体地,演练场景包括电话场景、面对面场景以及多人场景。具体地,在电话场景中,智能设备提供电话模拟的场景,即与学员通过语音进行模拟演练交互;在面对面场景中,智能设备提供虚拟客户的视频图像与语音与学员进行模拟演练交互;在多人场景中,智能设备提供包括多个虚拟客户的视频图像与语音与学员进行模拟演练交互。进一步地,在本发明实施例中,设置场景标识,不同的场景标识用于标识对应不同场景下的脚本库和音频库,场景标识可以是编号。
可选地,建立产品与演练场景的映射关系。即预设产品场景对照表,在所述产品场景对照表中包括产品标识与场景标识的对应关系,所述产品标识用于标识产品,所述产品是指待推广介绍的产品,例如财产险、健康险。所述场景标识用于标识场景。在本发明实施例中,不同的产品演练对应不同的演练场景,学员确定需要演练的产品,根据学员确定需要演练的产品的产品标识与预设产品场景对照表,确定演练场景。学员通过智能设备提供的演练场景进行待推广介绍的产品的介绍演练。
进一步地,若产品对应的演练场景不止一个,则在获取学员确定需要演练的产品的产品标识后,从所述产品标识对应的演练场景中随机选择演练场景与学员进行交互。
S102:获取所述学员的语音信息。
具体地,在学员选择演练场景之后开始实时采集所述学员的语音信息。所述语音信息包括一段语音开始的时间和结束的时间,进一步地,在本发明实施例中,基于所述学员选择的演练场景,获取所述学员的语音信息。具体地,当所述学员选择的演练场景为电话场景时,使用单向麦克风实时拾取语音;当所述学员选择的演练场景为面对面场景或者多人场景时,使用麦克风阵列全方向实时拾取语音,接收语音信息。
S103:提取所述语音信息的语音特征,并将所述语音信息转换为文本信息,基于所述文本信息识别所述语音信息的语义。
具体地,所述语音特征包括语音时长、语音间隔时长、音量或语速中的一项或者多项,具体地,提取所述学员的语音信息的语音时长、语音间隔时长、音量或语速等语音特征。其中语音间隔时长是指两条语音信息之间的间隔时长。在本实施例中,将所述语音信息转换为文本信息,根据训练好的语义识别模型对所述文本信息进行语义识别,获取所述语音信息的语义。基于所述语音信息,提取语音特征。
可选地,根据训练好的语义识别模型识别所述语音信息的语义的具体步骤包括:
(1)、将所述语音信息转换为语句文本。
(2)、将语句文本输入至训练好的语义识别模型中。
(3)、所述语义识别网络模型输出所述语句文本的语义。
在本发明实施例中,所述语义识别模型是经过训练的神经网络模型,具体地,构建一个包括输入层、卷积层、激活函数层、采样层以及输出层的神经网络模型,所述输入层用于接收输入数据。所述卷积层用于对所述输入层输入的数据进行卷积处理。卷积层具有权重和偏置。权重表示一个卷积核,偏置是叠加到卷积层的输出的标量。激活函数层用于对所述卷积层的输出数据进行函数变换。采样层用于对经过卷积层进行函数变换的数据进行采样。所述语义识别模型的训练步骤包括:
获取样本语句文本,所述样本语句文本包括输入样本文本和预期输出样本文本;将所述输入样本文本输入至上述构建的神经网络模型,获取输出文本,将该输出文本与所述预期输出样本文本进行比较,计算该输出文本与所述预期输出样本文本的差值,根据所述差值,按照指定的学习规则对各层节点之间的权重和偏置进行调整,所述指定的学习规则可以是Delta学习规则,其中,Delta学习规则的学习信号规定为:r=(dj-f(wTjx))f′(wTjx)=(dj-oj))f′(netj)。再次对上述神经网络模型进行训练,直至上述神经网络模型的输出文本与所述预期输出样本文本的差值不大于预设的阈值时,完成训练,得到训练好的卷积神经网络模型。
S104:查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本。
具体地,所述对话脚本是用于与学员交互的文字内容脚本。在本发明实施例中,在不同演练场景下,预设不同的对话脚本。例如,在电话场景对应的对话脚本中,从电话沟通的角度设计对话脚本。而在多人场景对应的对话脚本中,设计包括智能设备上不同类型的交互角色同时与学员的对话内容的对话脚本。
作为本发明的一个实施例,图2示出了本发明实施例提供的反馈信息生成方法步骤S104的具体实现流程,详述如下:
A1:若所述学员选择的演练场景为多人场景,获取所述学员选择的角色;
A2:查找所述演练场景对应的脚本库中与所述学员的角色以及所述语义对应的对话脚本。
在本发明实施例中,若所述学员选择的演练场景为多人场景,则在步骤S102之前,获取学员的角色选择指令,根据所述角色选择指令确定所述学员的角色。此时,所述步骤S104具体包括:查找所述演练场景对应的脚本库中与所述学员的角色以及所述语义信息对应的对话脚本。
在本发明实施例中,多人场景中包括三种情况,第一种情况是1个学员和智能设备提供的多个虚拟客户进行对话;第二种情况是一个学员担当介绍人,另一个学员担当客户;第三种情况下,一个学员担当介绍人,一个学员担当客户,智能设备还提供其他虚拟客户。若所述学员选择的演练场景为多人场景,则在步骤S104之前,根据学员的语音信息识别学员在所述多人场景中的角色。具体地,根据语音信息的语义确定对应的角色。若采集到不止一个学员的语音信息,则根据各个学员的语音信息的语义分别确定各个学员的角色,再分别根据学员的角色,查找所述演练场景对应的脚本库中与所述角色对应的对话脚本。
S105:查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态。
作为本发明的一个实施例,根据所述学员的语音特征确定所述学员的语音情绪状态。如图3所示,所述语音特征还包括音量和语速,上述S105具体包括:
B1:根据所述语音特征中的音量和语速,查找预设的包括语音情绪状态与音量和音速对应关系的情绪状态对照表,确定所述学员的语音情绪状态。
B2:查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音情绪状态对应的交互情绪状态。
本发明实施例中,通过根据语音信息中的语音特征,确定所述学员的语音情绪状态,继而查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音情绪状态对应的交互情绪状态,使得学员的演练交互更真实,提高演练交互的效率,增强用户体验。
可选地,所述反馈信息生成方法还包括获取学员的人脸图像,根据所述人脸图像识别所述人脸的表情特征。
作为本发明的一个实施例,如图4所示,上述S105还包括:
C1:获取所述学员的人脸图像。具体地,在检测到学员的语音的同时摄取学员的人脸图像。可通过拍摄学员的视频图像,从视频图像中获取所述学员的人脸图像。
C2:根据所述学员的人脸图像,提取所述人脸图像中的表情特征。可选地,所述步骤C2具体包括:
C21:检测所述人脸图像中的人脸关键点,所述人脸关键点为预先指定的脸部特征点。具体地,使用MTCNN检测所述群体图片,在所述人脸图像中检测人脸关键点,所述人脸关键点包括左右眼,鼻尖,左右嘴角。在所述人脸图像检测到的人脸并不一定是正对的,多种角度的人脸会给特征提取算法带来困难。进一步地,根据所述人脸关键点,按照统一规则采用仿射变换对所述人脸图像中的人脸图片进行矫正,通过矫正操作可减少人脸姿势角度多样性带来的影响,从而使得人脸表情特征提取更为准确。具体地,仿射变换是一种复合变换,采用预设模板对所述人脸图像中的人脸图片进行转换,使转换后所述人脸图像中人脸图片的多个关键点分别与所述预设模板中的多个目标点相对应,从而实现对所述人脸图像中的人脸图片进行矫正。仿射变换包括对图片的平移、缩放、旋转、翻转、剪切变换,经过这些复合变换将图片中的人脸转正。从而实现人脸图片的矫正。
C22:根据所述人脸关键点进行特征提取,获取所述群体图片的人脸表情特征。
C3:根据所述表情特征确定所述学员的表情情绪状态。具体地,根据人脸表情特征概率确定学员的表情情绪状态,通过查询用于保存人脸表情特征概率与表情情绪状态对应关系的数据库确定该学员的表情情绪状态。其中,人脸表情特征概率根据如下步骤确定。
可选地,根据所述人脸表情特征和表情识别模型,确定所述人脸图像中学员的人脸表情特征概率。其中,所述表情识别模型为经训练好的SVM分类器。具体地,获取设定数量贴有标签的样本人脸图像,所述标签包括人脸图像对应的表情情绪状态,抽取样本人脸图像,将抽取的样本人脸图像作为训练样本对SVM分类器进行训练,将训练完成的SVM分类器确定为表情识别模型。将所述学员的人脸表情特征输入至所述表情识别模型中,获取所述学员的人脸表情特征概率,进而根据所述人脸表情特征概率确定所述学员的表情情绪状态。
C4:查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音特征及所述表情情绪状态对应的交互情绪状态。
本发明实施例中,在获取用户学员选择的演练场景之后,实时获取学员的人脸图像,提取所述人脸图像中的表情特征,根据所述表情特征确定所述学员的表情情绪状态,再查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音特征及所述表情情绪状态对应的交互情绪状态,智能设备与学员进行交互时采用与所述学员的语音特征及所述表情情绪状态对应的交互情绪状态,使得学员的演练交互更为真实,从而可提高演练的效率,增强用户体验。
作为本发明的一个实施例,如图5所示,在所述步骤S105之后,所述反馈信息生成方法还包括:
D1:根据所述学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的预设语音情绪状态。
D2:比较所述学员的语音情绪状态与所述预设语音情绪状态。
D3:根据比较结果,筛选出与所述预设语音情绪状态不一致不相同的语音情绪状态对应的语音信息,反馈至所述学员。
作为本发明的一个实施例,如图6所示,在所述步骤S105之后,所述反馈信息生成方法还包括:
E1:根据所述学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的预设表情情绪状态。
E2:将所述学员的表情情绪状态与所述预设表情情绪状态进行比较。
E3:根据比较结果,筛选出与所述预设表情情绪状态不一致不相同的所述学员的表情情绪状态对应的人脸图像,反馈至所述学员。
在本发明实施例中,对话脚本中包括对话内容及其预设情绪状态,所述预设情绪状态包括预设语音情绪状态和预设表情情绪状态。在执行完所述对话脚本后,根据学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的预设语音情绪状态,将根据所述学员的语音特征确定的所述学员的语音情绪状态与所述预设语音情绪状态进行比较,筛选出所述学员与所述预设语音情绪状态不相同的语音情绪状态对应的语音信息,反馈至所述学员,让学员了解自己的演练状态,供学员参考改进演练的语音情绪。根据学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的表情情绪状态,将根据所述表情特征确定的所述学员的表情情绪状态与所述预设表情情绪状态进行比较,筛选出所述学员与所述预设表情情绪状态不相同的表情情绪状态对应的人脸图像,反馈至所述学员,供所述学员参考改进演练时的表情情绪。
S106:基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
具体地,所述交互情绪状态用于交互是智能设备执行所述对话脚本时语音的情绪状态,结合所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息,所述语音信息的演练反馈信息用于反馈所述学员的语音信息,实现智能设备与所述学员的交互,从而方便学员进行场景演练。进一步地,交互情绪状态包括交互语音情绪状态,或者包括交互语音情绪状态以及交互表情情绪状态。例如,在电话场景下,查找与所述语音特征对应的交互语音情绪状态;在面对面场景下,查找与所述语音特征对应的交互语音情绪状态,同时还获取学员的表情情绪状态,以及查找与所述表情情绪状态对应的交互表情情绪状态。
在本发明实施例中,根据学员的语义与情绪状态,反馈给学员相应的对话和情绪状态,而不是仅仅播放预设的对话,从而可使得模拟演练更为逼真,有效提高学员的演练效率。
本发明实施例中,通过获取学员选择的演练场景,获取所述学员的语音信息,然后提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义,再查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本,查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态,基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息,由于是根据对话脚本以及交互情绪状态与学员交互,使得学员的模拟演练更为逼真,学员无须寻找配合演练的其他学员,演练更为方便,学员演练的效率也可大大提高。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的反馈信息生成方法,图7示出了本申请实施例提供的反馈信息生成装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图7,该反馈信息生成装置包括:选择演练场景获取单元71,语音信息获取单元72,语音信息处理单元73,对话脚本查找单元74,情绪状态查找单元75,演练交互单元76,其中:
选择演练场景获取单元71,用于获取学员选择的演练场景;
语音信息获取单元72,用于获取所述学员的语音信息;
语音信息处理单元73,用于提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;
对话脚本查找单元74,用于查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;
情绪状态查找单元75,用于查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;
演练交互单元76,用于基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
可选地,所述语音特征包括音量和语速,所述情绪状态查找单元75包括:
语音情绪状态确定模块,用于根据所述语音特征中的音量和语速,查找预设的包括语音情绪状态与音量和音速对应关系的情绪状态对照表,确定所述学员的语音情绪状态;
交互情绪查找模块,用于查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音情绪状态对应的交互情绪状态。
可选地,所述反馈信息生成装置还包括:
预设语音情绪查找单元,用于根据所述学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的预设语音情绪状态;
情绪比较单元,用于比较所述学员的语音情绪状态与所述预设语音情绪状态;
语音情绪反馈单元,用于根据比较结果,筛选出与所述预设语音情绪状态不相同的语音情绪状态对应的语音信息,反馈至所述学员。
可选地,所述反馈信息生成装置还包括:
图像获取单元,用于获取所述学员的人脸图像;
表情特征提取单元,用于根据所述学员的人脸图像,提取所述人脸图像中的表情特征;
表情情绪确定单元,用于根据所述表情特征确定所述学员的表情情绪状态;
交互情绪确定单元,用于查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音特征及所述表情情绪状态对应的交互情绪状态。
可选地,所述反馈信息生成装置还包括:
预设表情情绪查找单元,用于根据所述学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的预设表情情绪状态;
表情情绪比较单元,用于将所述学员的表情情绪状态与所述预设表情情绪状态进行比较;
表情情绪反馈单元,用于根据比较结果,筛选出与所述预设表情情绪状态不相同的所述学员的表情情绪状态对应的人脸图像,反馈至所述学员。
可选地,所述对话脚本查找单元74包括:
角色确定模块,用于若所述学员选择的演练场景为多人场景,获取所述学员选择的角色;
对话脚本确定模块,用于查找所述演练场景对应的脚本库中与所述学员的角色以及所述语义对应的对话脚本。
本发明实施例中,通过获取学员选择的演练场景,获取所述学员的语音信息,然后提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义,再查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本,查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态,基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息,由于是根据对话脚本以及交互情绪状态与学员交互,使得学员的模拟演练更为逼真,学员无须寻找配合演练的其他学员,演练更为方便,学员演练的效率也可大大提高。
图8是本发明一实施例提供的智能设备的示意图。如图8所示,该实施例的智能设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如反馈信息生成程序。所述处理器80执行所述计算机程序82时实现上述各个反馈信息生成方法实施例中的步骤,例如图1所示的步骤101至106。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能,例如图7所示单元71至76的功能。
示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述智能设备8中的执行过程。
所述智能设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述智能设备可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是智能设备8的示例,并不构成对智能设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述智能设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述智能设备8的内部存储单元,例如智能设备8的硬盘或内存。所述存储器81也可以是所述智能设备8的外部存储设备,例如所述智能设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述智能设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述智能设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种反馈信息生成方法,其特征在于,包括:
获取学员选择的演练场景;
获取所述学员的语音信息;
提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;
查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;
查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;
基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
2.根据权利要求1所述的反馈信息生成方法,其特征在于,所述语音特征包括音量和语速,所述查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态,包括:
根据所述语音特征中的音量和语速,查找预设的包括语音情绪状态与音量和音速对应关系的情绪状态对照表,确定所述学员的语音情绪状态;
查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音情绪状态对应的交互情绪状态。
3.根据权利要求2所述的反馈信息生成方法,其特征在于,在所述基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息之后,还包括:
根据所述学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的预设语音情绪状态;
比较所述学员的语音情绪状态与所述预设语音情绪状态;
根据比较结果,筛选出与所述预设语音情绪状态不相同的语音情绪状态对应的语音信息,反馈至所述学员。
4.根据权利要求1所述的反馈信息生成方法,其特征在于,所述查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态,包括:
获取所述学员的人脸图像;
根据所述学员的人脸图像,提取所述人脸图像中的表情特征;
根据所述表情特征确定所述学员的表情情绪状态;
查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音特征及所述表情情绪状态对应的交互情绪状态。
5.根据权利要求4所述的反馈信息生成方法,其特征在于,在所述基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息之后,还包括:
根据所述学员的语音信息的语义,查找在所述对话脚本中所述语音信息的语义对应的预设表情情绪状态;
将所述学员的表情情绪状态与所述预设表情情绪状态进行比较;
根据比较结果,筛选出与所述预设表情情绪状态不相同的所述学员的表情情绪状态对应的人脸图像,反馈至所述学员。
6.根据权利要求1至5任一项所述的反馈信息生成方法,其特征在于,所述查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本,包括:
若所述学员选择的演练场景为多人场景,获取所述学员选择的角色;
查找所述演练场景对应的脚本库中与所述学员的角色以及所述语义对应的对话脚本。
7.一种反馈信息生成装置,其特征在于,所述反馈信息生成装置包括:
选择演练场景获取单元,用于获取学员选择的演练场景;
语音信息获取单元,用于获取所述学员的语音信息;
语音信息处理单元,用于提取所述语音信息的语音特征,并根据训练好的语义识别模型识别所述语音信息的语义;
对话脚本查找单元,用于查找所述学员选择的演练场景对应的脚本库中与所述语义对应的对话脚本;
情绪状态查找单元,用于查找所述学员选择的演练场景对应的多媒体库中与所述语音特征对应的交互情绪状态;
演练交互单元,用于基于所述对话脚本与所述交互情绪状态,生成所述语音信息的演练反馈信息。
8.根据权利要求7所述的反馈信息生成装置,其特征在于,所述语音特征包括音量和语速,所述情绪状态查找单元包括:
语音情绪状态确定模块,用于根据所述语音特征中的音量和语速,查找预设的包括语音情绪状态与音量和音速对应关系的情绪状态对照表,确定所述学员的语音情绪状态;
交互情绪查找模块,用于查找所述学员选择的演练场景对应的多媒体库中与所述学员的语音情绪状态对应的交互情绪状态。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述反馈信息生成方法的步骤。
10.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述反馈信息生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910663300.0A CN110491372A (zh) | 2019-07-22 | 2019-07-22 | 一种反馈信息生成方法、装置、存储介质和智能设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910663300.0A CN110491372A (zh) | 2019-07-22 | 2019-07-22 | 一种反馈信息生成方法、装置、存储介质和智能设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110491372A true CN110491372A (zh) | 2019-11-22 |
Family
ID=68547958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910663300.0A Pending CN110491372A (zh) | 2019-07-22 | 2019-07-22 | 一种反馈信息生成方法、装置、存储介质和智能设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110491372A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643584A (zh) * | 2021-08-16 | 2021-11-12 | 中国人民解放军陆军特色医学中心 | 一种用于训练医患沟通能力的机器人及其工作方法 |
WO2023240943A1 (zh) * | 2022-06-15 | 2023-12-21 | 北京百度网讯科技有限公司 | 生成数字人的方法、模型的训练方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练系统及方法 |
CN105162892A (zh) * | 2015-10-15 | 2015-12-16 | 戚克明 | 话术练习处理方法、装置及系统,话术练习监督方法 |
CN106997243A (zh) * | 2017-03-28 | 2017-08-01 | 北京光年无限科技有限公司 | 基于智能机器人的演讲场景监控方法及装置 |
CN108492819A (zh) * | 2018-03-30 | 2018-09-04 | 浙江吉利控股集团有限公司 | 语言练习方法、装置、智能车载终端及存储介质 |
US20180261219A1 (en) * | 2017-03-07 | 2018-09-13 | Salesboost, Llc | Voice analysis training system |
CN109587360A (zh) * | 2018-11-12 | 2019-04-05 | 平安科技(深圳)有限公司 | 电子装置、应对话术推荐方法和计算机可读存储介质 |
-
2019
- 2019-07-22 CN CN201910663300.0A patent/CN110491372A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063903A (zh) * | 2010-09-25 | 2011-05-18 | 中国科学院深圳先进技术研究院 | 言语交互训练系统及方法 |
CN105162892A (zh) * | 2015-10-15 | 2015-12-16 | 戚克明 | 话术练习处理方法、装置及系统,话术练习监督方法 |
US20180261219A1 (en) * | 2017-03-07 | 2018-09-13 | Salesboost, Llc | Voice analysis training system |
CN106997243A (zh) * | 2017-03-28 | 2017-08-01 | 北京光年无限科技有限公司 | 基于智能机器人的演讲场景监控方法及装置 |
CN108492819A (zh) * | 2018-03-30 | 2018-09-04 | 浙江吉利控股集团有限公司 | 语言练习方法、装置、智能车载终端及存储介质 |
CN109587360A (zh) * | 2018-11-12 | 2019-04-05 | 平安科技(深圳)有限公司 | 电子装置、应对话术推荐方法和计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643584A (zh) * | 2021-08-16 | 2021-11-12 | 中国人民解放军陆军特色医学中心 | 一种用于训练医患沟通能力的机器人及其工作方法 |
WO2023240943A1 (zh) * | 2022-06-15 | 2023-12-21 | 北京百度网讯科技有限公司 | 生成数字人的方法、模型的训练方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918680B (zh) | 实体识别方法、装置及计算机设备 | |
CN108536681B (zh) | 基于情感分析的智能问答方法、装置、设备及存储介质 | |
CN109101545A (zh) | 基于人机交互的自然语言处理方法、装置、设备和介质 | |
CN107992543A (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN109522835A (zh) | 基于智能机器人的儿童读物阅读与交互方法及系统 | |
CN107766506A (zh) | 一种基于层次化注意力机制的多轮对话模型构建方法 | |
CN107885874A (zh) | 数据查询方法和装置、计算机设备及计算机可读存储介质 | |
CN110491383A (zh) | 一种语音交互方法、装置、系统、存储介质及处理器 | |
CN107589828A (zh) | 基于知识图谱的人机交互方法及系统 | |
CN111672098A (zh) | 虚拟对象标记方法、装置、电子设备以及存储介质 | |
CN109960747A (zh) | 视频描述信息的生成方法、视频处理方法、相应的装置 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN109408811A (zh) | 一种数据处理方法及服务器 | |
CN110457689A (zh) | 语义处理方法及相关装置 | |
CN110675859A (zh) | 结合语音与文本的多情感识别方法、系统、介质及设备 | |
Liu et al. | Visual question answering with dense inter-and intra-modality interactions | |
CN107665188B (zh) | 一种语义理解方法及装置 | |
CN110019712A (zh) | 多意图查询方法和装置、计算机设备及计算机可读存储介质 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN108664465A (zh) | 一种自动生成文本方法以及相关装置 | |
CN110491372A (zh) | 一种反馈信息生成方法、装置、存储介质和智能设备 | |
CN106557165A (zh) | 智能设备的动作模拟交互方法和装置及智能设备 | |
CN116797695A (zh) | 一种数字人与虚拟白板的交互方法、系统及存储介质 | |
CN110517672B (zh) | 用户意图识别方法、用户指令执行方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |