CN112558753A - 多媒体交互方式的切换方法及装置、终端、存储介质 - Google Patents
多媒体交互方式的切换方法及装置、终端、存储介质 Download PDFInfo
- Publication number
- CN112558753A CN112558753A CN201910912527.4A CN201910912527A CN112558753A CN 112558753 A CN112558753 A CN 112558753A CN 201910912527 A CN201910912527 A CN 201910912527A CN 112558753 A CN112558753 A CN 112558753A
- Authority
- CN
- China
- Prior art keywords
- voice
- interaction
- multimedia
- content
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 475
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000002452 interceptive effect Effects 0.000 claims description 57
- 238000010411 cooking Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 4
- 230000000593 degrading effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
Abstract
本发明公开了一种多媒体交互方式的切换方法及装置、终端、存储介质包括:接收采集的语音信息和/或音频操作信息;根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。包含有调整语音交互速率的语音内容往往体现了用户对目前的多媒体交互方式的直观感受,不同的多媒体交互方式又对应了不同的语交互信息,从而使终端根据用户的感受,对终端的多媒体交互方式自动进行调整,从而可以更好地与不同用户交流,提高了用户的交互体验。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种多媒体交互方式的切换方法及装置、终端、存储介质。
背景技术
随着物联网的普及和人工智能技术的成熟及语音交互技术近年来的发展和应用,越来越多的家庭配备了智能设备,通过语音的方式与智能设备交互已经成为一种比较普遍的交互方式。如一个语音智能烹饪助手可以利用云服务器端海量的菜谱知识库,指导用户一步一步的完成对食谱的烹饪。但智能设备无法与所有用户都较好地交流,影响了用户的交互体验。
发明内容
本发明实施例提供一种多媒体交互方式的切换方法及装置、终端、存储介质。
本发明的技术方案是这样实现的:
一方面,提供一种多媒体交互方式的切换方法,包括:
接收采集的语音信息和/或音频操作信息;
根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。
进一步地,所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
和/或,
所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
进一步地,所述根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换包括:
若所述语音信息和/或音频操作信息中包含调整语音交互速率的语音内容和/或操作内容,根据所述调整语音交互速率的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互速率,不同于工作在所述第二多媒体交互方式的所述终端的语音交互速率;
和/或,
若所述语音信息和/或音频操作信息中包含调整语音交互内容的语音内容和/或操作内容,根据所述调整语音交互内容的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互内容,不同于工作在所述第二多媒体交互方式的所述终端的语音交互内容;
和/或,
若所述语音信息和/或音频操作信息中包含调整交互画面的语音内容和/或操作内容,根据所述调整交互画面的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的交互画面,不同于工作在所述第二多媒体交互方式的所述终端的交互画面。
进一步地,若所述语音信息和/或音频操作信息中包含提高语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率高于所述第一多媒体交互方式的语音交互速率。
进一步地,若所述语音信息和/或音频操作信息中包含减慢语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率低于所述第一多媒体交互方式的语音交互速率。
进一步地,所述方法还包括:
确定所述终端基于第一多媒体交互方式采集的相邻两次用户操作信息的时间间隔;
若所述时间间隔位于第一多媒体交互方式对应的时间间隔范围外,根据所述时间间隔控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式。
进一步地,所述方法还包括:
确定所述终端基于第一多媒体交互方式采集的相邻两次用户操作信息的时间间隔;
若所述时间间隔大于最大间隔值的次数大于第一次数阈值,或所述时间间隔小于最小间隔值的次数大于第二次数阈值,根据所述时间间隔控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式,其中,所述最大间隔值为第一多媒体交互方式对应的时间间隔范围的最大值,所述最小间隔值为第一多媒体交互方式对应的时间间隔范围的最小值。
进一步地,所述方法还包括:获取用户的使用历史信息;
若所述使用历史信息符合预设条件,控制所述终端从所述第一多媒体交互方式切换到所述第二语音多媒体交互方式。
进一步地,所述根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换包括:
若所述音频操作信息中包含改变多媒体交互方式的操作内容,根据所述操作内容,控制多媒体交互方式的切换。
进一步地,所述音频操作信息包括以下至少之一:用户对进度条的操作信息、用户对系统的操作、用户点击“下一步”的操作。
本发明还提供了一种多媒体交互方式的切换方法,应用于终端,包括:
发送采集的语音信息和/或音频操作信息;
接收切换多媒体交互方式的指令;
根据所述包含切换多媒体交互方式的信息,进行多媒体交互方式的切换。
进一步地,所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
和/或,
所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
本发明还提供了一种多媒体交互方式的切换装置,包括:
接收单元,用于接收采集的语音信息和/或音频操作信息;
控制单元,用于根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。
本发明还提供了一种多媒体交互方式的切换装置,应用于终端,包括:
发送单元,用于发送采集的用户操作信息;
接收单元,用于接收切换语音多媒体交互方式的指令,其中,不同的语音多媒体交互方式对应于不同的语音交互速率和/或不同的语音内容;
切换单元,用于根据所述包含切换语音多媒体交互方式的信息,进行语音多媒体交互方式的切换。
本发明还提供了一种菜谱的烹饪的引导方法,所述方法通过上述多媒体交互方式的切换方法实现修正菜谱的引导方式。
本发明还提供了一种终端,包括:
存储器,用于存储计算机可执行指令;
处理器,与所述存储器连接,用于通过执行所述计算机可执行指令,实现上述多媒体交互方式的切换方法。
本发明还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现上述多媒体交互方式的切换方法。
本发明提供的多媒体交互方式的切换方法及装置、终端、存储介质,接收采集的语音信息和/或音频操作信息;根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。包含有调整语音交互速率的语音内容往往体现了用户对目前的多媒体交互方式的直观感受,不同的多媒体交互方式又对应了不同的语音交互速率,不同的语音交互内容或不同交互画面等交互信息,从而使终端根据用户的感受,对终端的多媒体交互方式自动进行调整。相比终端通过统一的多媒体交互方式对所有用户提供交互服务,本申请的技术方案可以使终端基于不同用户的用户操作信息,为不同用户提供不同多媒体交互方式,从而可以更好地与不同用户交流,提高了用户的交互体验。
附图说明
图1为本发明实施例提供的一种多媒体交互方式的切换方法的流程示意图;
图2为本发明实施例提供的另一种多媒体交互方式的切换方法的流程示意图;
图3为本发明实施例提供的一种多媒体交互方式的确定装置的结构示意图;
图4为本发明实施例提供的一种多媒体交互方式的确定装置的结构示意图;
图5为本发明实施例提供的一种终端的结构示意图;
图6为本发明实施例提供的一种系统组成结构图;
图7为本发明实施例提供的一种交互模式自动智能切换方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明实施例进行详细说明。
图1为本发明实施例提供的一种多媒体交互方式的切换方法的流程示意图,如图1所示,所述多媒体交互方式的切换方法包括以下步骤:
步骤101:接收采集的语音信息和/或音频操作信息;
步骤102:根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。
由于不同用户对当前作业的熟悉度不一,入门用户可能会觉得智能设备的播报内容太简短,交互画面太简单,不知道如何操作,很难跟上节奏;熟练用户可能会觉得智能设备的播报内容太繁琐,交互画面太复杂,不够简洁,节奏过慢,导致智能设备与用户可能无法较好地交流。
基于此,本申请实施例提供了一种多媒体交互方式的切换方法,该方法应用于服务器端,判断用户发出的用户语音信息和/或音频操作信息中是否包含有调整多媒体交互方式的语音内容和/或操作内容,并根据包含有调整多媒体交互方式的内容,控制终端切换到不同的多媒体交互方式。不同用户发出的包含有不同的交互方式的内容,通常表达了不同用户对终端目前的交互方式的评价或感受,本申请实施例所提供的方法,根据用户发出的包含有调整交互方式的内容,自动调整终端的多媒体交互方式,从而个性化满足不同用户对终端的交互方式的不同需求。
本发明实施例中,终端可采用任何带有语音功能的设备,比如:手机、平板电脑、智能音箱或智能烹饪设备。
本实施例中所述第一多媒体交互方式和第二多媒体交互方式中的“第一”和“第二”均是泛指,并不特指某种多媒体交互方式。在本实施例中所述第一多媒体交互方式和第二多媒体交互方式为终端中不同的多媒体交互方式,不同的多媒体交互方式对应了不同的语音交互速率,语音交互内容或交互画面,可根据实际需要具体设定。本发明实例通过设定不同的多媒体交互方式,使工作在不同多媒体交互方式的终端具有不同的语音交互速率,不同的语音交互内容或不同的交互画面,从而可以满足不同等级和熟练程度的用户的不同需要,提高用户的交互体验。
可选地,所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
可选地,所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
所述语音交互速率为:终端与用户之间进行语音交互的速度的衡量参数,可以用以下时间参数至少之一来表示:
相邻两条语音之间的时间间隔;
作业的相邻两个步骤之间的时间间隔,其中,所述作业的相邻两个步骤之间的时间间隔可以用终端开始播放第一个步骤对应的第一条语句的时间点,和终端开始播放第二个步骤对应的第一条语句的时间点,上述两个时间点之间的时间间隔来确定;
单条语音的不同音节之间的时间间隔。
本实施例中的语音内容为用户在和终端进行交流的过程中,向终端发出的语音内容,具体如:“帮我设置明天早上8点的闹钟”、“我要找一个有关鸡蛋的菜谱”、“帮我讲解一下勾股定理”等。包含有调整语音交互速率的语音内容,可分为两类:
第一类为用户直接发出的调整语音交互速率的命令,具体如:“请切换到初学者模式”、“请切换到专家模式”等。
如用户直接发出调整语音交互速率的命令,用户需要知道终端目前的多媒体交互方式,终端所支持的多媒体交互方式及不同多媒体交互方式对应的语音交互速率的差别,才能准确发出调整语音交互速率的命令。对于一个用户不熟悉的终端,用户可能束手无策,不知道如何调整到合适的语音交互速率。这是一种用户直接主动参与调整语音交互速率的方法,对用户要求较高,不便于不熟悉系统的用户使用。
第二类为需要服务器对语音内容进行分析,才能确定语音内容是否包含有调整语音交互速率的语音内容,具体如:“可以快一点吗”、“请重复”、“我没听清楚”、“刚才说什么”等。
如用户发出上述第二类包含有调整语音交互速率的语音内容,用户不需要了解终端所支持的各种多媒体交互方式,服务器基于语音内容进行分析,确定出用户对语音交互速率的不同需求,进而按照用户的不同需求,自动调整终端语音交互速率。即使面对陌生的终端,用户也可以轻松调整到合适的语音交互速率。与用户直接发出调整语音交互速率的命令的方法相比,上述方法并不要求用户需要熟悉终端支持的不同的多媒体交互方式,更方便用户使用。
确定所述用户操作信息包含有调整语音交互速率的语音内容,可通过如下两种方式来实现:
方式一、建立提高语音交互速率的语料库和减慢语音交互速率的语料库,通过将终端采集的用户操作信息与上述两个语料库进行匹配,确定用户操作信息是否包含有调整语音交互速率的语音内容,具体步骤如下:
步骤1021:将终端采集的用户操作信息与提高语音交互速率的语料库进行匹配,如果相匹配,则确定用户操作信息中包含提高语音交互速率的语音内容;
步骤1022:如果步骤1021的匹配结果为不匹配,将终端采集的用户操作信息与减慢语音交互速率的语料库进行匹配,如果相匹配,则确定用户操作信息中包含减慢语音交互速率的语音内容;
步骤1023:如果步骤1022的匹配结果为不匹配,则确定用户操作信息中不包含调整语音交互速率的语音内容。
方式二、通过深度学习算法,得到用户操作信息识别模型,以确定用户操作信息是否包含有调整语音交互速率的语音内容。上述用户操作信息识别模型可有如下三种结果:包含提高语音交互速率的语音内容、包含减慢语音交互速率的语音内容、不包含调整语音交互速率的语音内容。可对上述用户操作信息识别模型不断训练和优化,直到模型达到一个较理想的语音识别准确率。
进一步地,所述根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换包括:
若所述语音信息和/或音频操作信息中包含调整语音交互速率的语音内容和/或操作内容,根据所述调整语音交互速率的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互速率,不同于工作在所述第二多媒体交互方式的所述终端的语音交互速率。
同样地,若所述语音信息和/或音频操作信息中包含调整语音交互内容的语音内容和/或操作内容,根据所述调整语音交互内容的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互内容,不同于工作在所述第二多媒体交互方式的所述终端的语音交互内容。
同样地,若所述语音信息和/或音频操作信息中包含调整交互画面的语音内容和/或操作内容,根据所述调整交互画面的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的交互画面,不同于工作在所述第二多媒体交互方式的所述终端的交互画面。
进一步地,若所述语音信息和/或音频操作信息中包含提高语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率高于所述第一多媒体交互方式的语音交互速率。
如果用户发出了包含有提高语音交互速率的语音内容,如“可以快一点吗”、“太慢了”等,这些包含有提高语音交互速率的语音内容,往往体现了用户对目前的语音交互速率的直观感受,表达出用户希望终端的语音交互速率能更快些,将终端的多媒体交互方式变为语音交互速率更快的第二多媒体交互方式,使终端以较快的语音交互速率,与用户进行语音交流,符合了用户的期望,可较好地为用户提供语音服务。
若所述语音信息和/或音频操作信息中包含减慢语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率低于所述第一多媒体交互方式的语音交互速率。
如果用户发出了包含有减慢语音交互速率的语音内容,如“刚才说什么”、“可以慢一点吗”等,这些包含有减慢语音交互速率的语音内容,往往体现了用户对目前的语音交互速率的直观感受,表达出用户希望终端的语音交互速率能更慢些,将终端的多媒体交互方式变为语音交互速率更慢的第二多媒体交互方式,使终端以较慢的语音交互速率,与用户进行语音交流,符合了用户的期望,可较好地为用户提供语音服务。
进一步地,所述方法还包括:
确定所述终端基于第一多媒体交互方式采集的相邻两次用户操作信息的时间间隔;
若所述时间间隔位于第一多媒体交互方式对应的时间间隔范围外,根据所述时间间隔控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式。
不同的多媒体交互方式对应了不同的语音交互速率的同时,也对应了不同的间隔范围。多媒体交互方式对应的间隔范围,为预设的在该多媒体交互方式下工作的终端采集相邻两次用户操作信息的时间间隔。一般来说,多媒体交互方式的语音交互速率越快,多媒体交互方式的间隔范围越小;多媒体交互方式的语音交互速率越慢,多媒体交互方式的间隔范围越大。如果多媒体交互方式具有较快的语音交互速率,该多媒体交互方式适合有一定经验或是比较熟练的用户,则对应的多媒体交互方式的间隔范围也应该较小;如果多媒体交互方式具有较慢的语音交互速率,该多媒体交互方式适合新手用户,则对应的多媒体交互方式的间隔范围也应该较大。
多媒体交互方式对应的间隔范围可根据需要和经验进行设定,如:第一多媒体交互方式对应的时间间隔为Xmin至Xmax,其中,Xmin为时间间隔的最小值,Xmax为时间间隔的最大值。
如果在第一多媒体交互方式下工作的终端,实际采集的相邻两次用户操作信息的时间间隔小于Xmin,则说明用户操作速度较快,目前终端的语音交互速率可能过慢,此时将终端的多媒体交互方式变为语音交互速率更快的第二多媒体交互方式,使终端以较快的语音交互速率,与用户进行语音交流。
如果在第一多媒体交互方式下工作的终端,实际采集的相邻两次用户操作信息的时间间隔大于Xmax,则说明用户操作速度较慢,目前终端的语音交互速率可能过快,此时将终端的多媒体交互方式变为语音交互速率更慢的第二多媒体交互方式,使终端以较慢的语音交互速率,与用户进行语音交流。
如此,根据终端实际采集的不同用户的相邻两次用户操作信息的时间间隔,确定终端的语音交互方式,进而使终端以不同的交互速率与不同用户交流,符合了用户的实际需求,较好地为用户提供服务。
可选地,若所述时间间隔小于所述间隔范围的最小值的次数多于预定阀值,所述第二多媒体交互方式的语音交互速率高于所述第一多媒体交互方式的语音交互速率。
若终端多次采集的相邻两次用户操作信息的时间间隔都小于Xmin,则说明用户操作速度较快,目前终端的语音交互速率可能过慢。预定阀值可根据需要具体设定。比如,终端3次采集的相邻两次用户操作信息的时间间隔都小于Xmin,则对终端进行升级多媒体交互方式的处理,使终端以较快的交互速率与用户交流,提高用户体验。
可选地,若所述时间间隔大于所述间隔范围的最小值的次数多于预定阀值,所述第二多媒体交互方式的语音交互速率低于所述第一多媒体交互方式的语音交互速率。
若终端多次采集的相邻两次用户操作信息的时间间隔都大于Xmax,则说明用户操作速度较慢,目前终端的语音交互速率可能过快。预定阀值可根据需要具体设定。比如,终端3次采集的相邻两次用户操作信息的时间间隔都大于Xmax,则对终端进行降级多媒体交互方式的处理,使终端以较慢的交互速率与用户交流,提高用户体验。
进一步地,所述方法还包括:获取用户的使用历史信息;
若所述使用历史信息符合预设条件,控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式。
所述用户的使用历史信息为用户操作对应作业的历史信息,比如:是否完成过整个作业、完成整个作业的次数、操作作业的次数、上次操作完成整个作业的比例、上次操作所用时间、经验值等。
可根据实际需要具体设定不同的多媒体交互方式,如:初学者模式、普通模式和专家模式,其中,初学者模式对应的语音交互速率慢于普通模式对应的语音交互速率,普通模式对应的语音交互速率慢于专家模式对应的语音交互速率。
可根据用户的需求和熟练程度,将用户分成不同等级,比如:第一等级、第二等级、第三等级、第四等级等,其中,第一等级的用户的熟练程度一般低于第二等级的用户的熟练程度,第二等级的用户的熟练程度一般低于第三等级的用户的熟练程度,第三等级的用户的熟练程度一般低于第四等级的用户的熟练程度。
系统中可设定不同的用户等级对应不同的的多媒体交互方式,比如:第一等级对应了初学者模式,第二等级和第三等级都对应了普通模式,第四等级对应了专家模式。一般来说,用户等级越高,该用户的熟练程度和经验值也就越高,对应的多媒体交互方式的语音交互速率也就越高。
基于用户的使用历史信息,确定用户对应的等级,再通过用户等级可较准确地确定适合该用户的终端的多媒体交互方式。比如:用户上次操作完成整个作业的比例在30%以下,且该用户没有完成过整个作业,则该用户很可能是个初学者,确定该用户等级为第一等级,第一等级对应了初学者模式,终端切换为初学者模式,并以该模式为该用户提供语音服务。如此,依据用户的历史完成信息,确定适合该用户的语音交互速率,方便该用户依据终端发出的语音完成整个作业。
进一步地,所述多媒体交互方式至少包括三种具有不同语音交互速率的多媒体交互方式。
不同的多媒体交互方式对应了不同的语音交互速率,可根据实际需要具体设定。本发明实例通过设定至少包括三种具有不同语音交互速率的多媒体交互方式,如:初学者模式、普通模式和专家模式,其中,初学者模式对应的语音交互速率慢于普通模式对应的语音交互速率,普通模式对应的语音交互速率慢于专家模式对应的语音交互速率,可以满足不同等级和熟练程度的用户的不同需要,提高用户的交互体验。
上述步骤102包括:根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换包括:
若所述音频操作信息中包含改变多媒体交互方式的操作内容,根据所述操作内容,控制多媒体交互方式的切换。
上述音频操作信息包括以下至少之一:用户对进度条的操作信息、用户对系统的操作、用户点击“下一步”的操作。
图2为本发明实施例提供的另一种多媒体交互方式的切换方法的流程示意图,如图2所示,所述多媒体交互方式的切换方法包括以下步骤:
步骤201:发送采集的语音信息和/或音频操作信息;
步骤202:接收切换多媒体交互方式的指令;
步骤203:根据所述包含切换多媒体交互方式的信息,进行多媒体交互方式的切换。
由于不同用户对当前作业的熟悉度不一,入门用户可能会觉得智能设备的播报内容太简短,交互画面太简单,不知道如何操作,很难跟上节奏;熟练用户可能会觉得智能设备的播报内容太繁琐,交互画面太复杂,不够简洁,节奏过慢,导致智能设备与用户可能无法较好地交流。
基于此,本申请实施例提供了一种多媒体交互方式的切换方法,该方法应用于服务器端,判断用户发出的用户语音信息和/或音频操作信息中是否包含有调整多媒体交互方式的语音内容和/或操作内容,并根据包含有调整多媒体交互方式的内容,控制终端切换到不同的多媒体交互方式。不同用户发出的包含有不同的交互方式的内容,通常表达了不同用户对终端目前的交互方式的评价或感受,本申请实施例所提供的方法,根据用户发出的包含有调整交互方式的内容,自动调整终端的多媒体交互方式,从而个性化满足不同用户对终端的交互方式的不同需求。
本发明实施例中,终端可采用任何带有语音功能的设备,比如:手机、平板电脑、智能音箱或智能烹饪设备。
本实施例中所述第一多媒体交互方式和第二多媒体交互方式中的“第一”和“第二”均是泛指,并不特指某种多媒体交互方式。在本实施例中所述第一多媒体交互方式和第二多媒体交互方式为终端中不同的多媒体交互方式,不同的多媒体交互方式对应了不同的语音交互速率,语音交互内容或交互画面,可根据实际需要具体设定。本发明实例通过设定不同的多媒体交互方式,使工作在不同多媒体交互方式的终端具有不同的语音交互速率,不同的语音交互内容或不同的交互画面,从而可以满足不同等级和熟练程度的用户的不同需要,提高用户的交互体验。
可选地,所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
可选地,所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
图3为本发明实施例提供的一种多媒体交互方式的切换装置的结构示意图,包括:
接收单元301,用于接收采集的语音信息和/或音频操作信息;
控制单元302,用于根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。
进一步地,所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
和/或,
所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
进一步地,控制单元302具体用于:
若所述语音信息和/或音频操作信息中包含调整语音交互速率的语音内容和/或操作内容,根据所述调整语音交互速率的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互速率,不同于工作在所述第二多媒体交互方式的所述终端的语音交互速率;
和/或,
若所述语音信息和/或音频操作信息中包含调整语音交互内容的语音内容和/或操作内容,根据所述调整语音交互内容的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互内容,不同于工作在所述第二多媒体交互方式的所述终端的语音交互内容;
和/或,
若所述语音信息和/或音频操作信息中包含调整交互画面的语音内容和/或操作内容,根据所述调整交互画面的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的交互画面,不同于工作在所述第二多媒体交互方式的所述终端的交互画面。
进一步地,若所述语音信息和/或音频操作信息中包含提高语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率高于所述第一多媒体交互方式的语音交互速率。
进一步地,若所述语音信息和/或音频操作信息中包含减慢语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率低于所述第一多媒体交互方式的语音交互速率。
进一步地,所述控制单元302,还用于确定所述终端基于第一多媒体交互方式采集的相邻两次用户操作信息的时间间隔;
若所述时间间隔位于第一多媒体交互方式对应的时间间隔范围外,根据所述时间间隔控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式。
进一步地,所述控制单元302,还用于确定所述终端基于第一多媒体交互方式采集的相邻两次用户操作信息的时间间隔;
若所述时间间隔大于最大间隔值的次数大于第一次数阈值,或所述时间间隔小于最小间隔值的次数大于第二次数阈值,根据所述时间间隔控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式,其中,所述最大间隔值为第一多媒体交互方式对应的时间间隔范围的最大值,所述最小间隔值为第一多媒体交互方式对应的时间间隔范围的最小值。
进一步地,所述控制单元302,,还用于获取用户的使用历史信息;
若所述使用历史信息符合预设条件,控制所述终端从所述第一多媒体交互方式切换到所述第二语音多媒体交互方式。
进一步地,所述控制单元302,具体用于:若所述音频操作信息中包含改变多媒体交互方式的操作内容,根据所述操作内容,控制多媒体交互方式的切换。
进一步地,所述音频操作信息包括以下至少之一:用户对进度条的操作信息、用户对系统的操作、用户点击“下一步”的操作。
图4为本发明实施例提供的一种多媒体交互方式的确定装置的结构示意图,应用于终端,包括:
发送单元401,用于发送采集的用户操作信息;
接收单元402,用于接收切换语音多媒体交互方式的指令,其中,不同的语音多媒体交互方式对应于不同的语音交互速率和/或不同的语音内容;
切换单元403,用于根据所述包含切换语音多媒体交互方式的信息,进行语音多媒体交互方式的切换。
进一步地,所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
和/或,
所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
图5为本发明实施例提供的一种终端的结构示意图,包括:
存储器501,用于存储计算机可执行指令;
处理器502,与所述存储器501连接,用于通过执行所述计算机可执行指令,实现上述多媒体交互方式的切换方法。
本发明还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现上述多媒体交互方式的切换方法。
图6为本发明实施例提供的一种系统组成结构图。用户和智能终端交互,智能终端把用户信息传回云服务器端处理,云服务器端处理完成后向智能终端发送响应,智能终端向用户输出响应。交互模式的自动智能切换程序在云服务器端运行,并会影响后续智能终端与用户的交互过程。
为方便本发明的技术方案的理解,在使用智能厨房语音助手的场景下,以智能音箱如何指导用户完成菜谱的烹饪过程为实施例,对本发明的技术方案进行讲解。系统把用户的交互模式分成“初学者模式”、“普通模式”和“专家模式”等模式。“初学者模式”交互的内容拆分的比较细节,步骤之间停留的时间长,适合初学者。“专家模式”表达的内容简洁,步骤之间停留的时间短,适合比较有经验的用户交互,而“普通模式”则介于前两者之间。需要说明的是:本文讲的三种模式只是用于举例,实际的交互模式不限于这些模式。
交互模式的切换按用户的响应内容、用户与智能音箱的连贯性、用户的使用历史等自动触发。交互模式的切换可以分为交互模式升级和交互模式降级两大类场景。
自动升级到更高阶的交互模式(即从“初学者模式”升级到“普通模式”,或由“普通模式”升级到“专家模式”)可包括以下方式:
方式一、检测用户的输入语义内容,如用户输入“可以快一点吗”、“太慢了”、“请简洁一点”等升级关键词内容,则终端自动切换到更高阶的交互模式。
方式二、智能音箱输出下一步骤后,用户可以多次少于预期时间给出正面的回应,或智能音箱还在播报下一个步骤时,用户打断并输入“OK”、“下一步”、“可以了”等正面回应关键词内容,则终端自动切换到更高阶的交互模式。
方式三、用户有成功完成作业的记录,则下一阶段自动启用更高阶的交互模式。如用户成功按智能音箱在处于“初学者模式”的情形下,完成了上一阶段的作业后,终端自动切换到“普通模式”。
自动降级到更低阶的交互模式(即从“专家模式”降级到“普通模式”,或由“普通模式”降级到“初学者模式”)可包括以下方式:
方式一、检测用户的输入语义内容,如用户输入“请重复”、“我没听清楚”、“刚才说什么”、“可以慢一点吗”等降级关键词内容,终端自动切换到更低阶的交互模式。
方式二、智能音箱输出下一步骤后,用户多次多于预期时间给出回应,则终端自动切换到更低阶的交互模式。
图7为本发明实施例提供的一种交互模式自动智能切换方法的流程示意图。所述交互模式自动智能切换的方法在云服务器端和智能音箱完成。所述交互模式自动智能切换的方法从云服务器端接收到用户的语音输入后开始执行,直到云服务器端向智能音箱发送下一步骤的内容为止。所述交互模式自动智能切换的方法包括以下步骤:
S1:云服务器端接收到用户的语音输入。
S2:云服务器端判断用户是否存在已经完成过相同或类似作业任务的记录,如是则跳到S8。
S3:云服务器端判断用户是否在上一步骤下发后,用户的响应时间连续3次少于预期的时间,如是则跳到S8。
S4:云服务器端判断用户是否在上一步骤下发后,用户的响应时间连续3次多于预期的时间,如是则跳到S7。
S5:云服务器端判断用户输入的语义内容,如包含“可以快一点吗”、“太慢了”、“请简洁一点”等升级关键词内容,如是则跳到S8。
S6:云服务器端判断用户输入的语义内容,如包含“请重复”、“我没听清楚”、“刚才说什么”、“可以慢一点吗”等降级关键词内容,如是则跳到S7。
S7:切换到低一阶的交互模式,即从“专家模式”降级到“普通模式”,或由“普通模式”降级到“初学者模式”。
S8:切换到高一阶的交互模式,即从“初学者模式”升级到“普通模式”,或由“普通模式”升级到“专家模式”
S9:启动计时器,以记录从下发下一步骤内容到收到用户响应的时间间隔,用于S3和S4的判断。
S10:向智能音箱下发下一步骤的内容。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (17)
1.一种多媒体交互方式的切换方法,其特征在于,所述方法包括:
接收采集的语音信息和/或音频操作信息;
根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。
2.根据权利要求1所述的方法,其特征在于,
所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
和/或,
所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
3.根据权利要求2所述的方法,其特征在于,所述根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换包括:
若所述语音信息和/或音频操作信息中包含调整语音交互速率的语音内容和/或操作内容,根据所述调整语音交互速率的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互速率,不同于工作在所述第二多媒体交互方式的所述终端的语音交互速率;
和/或,
若所述语音信息和/或音频操作信息中包含调整语音交互内容的语音内容和/或操作内容,根据所述调整语音交互内容的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的语音交互内容,不同于工作在所述第二多媒体交互方式的所述终端的语音交互内容;
和/或,
若所述语音信息和/或音频操作信息中包含调整交互画面的语音内容和/或操作内容,根据所述调整交互画面的语音内容和/或操作内容,控制终端从第一多媒体交互方式切换到第二多媒体交互方式,其中,工作在所述第一多媒体交互方式的所述终端的交互画面,不同于工作在所述第二多媒体交互方式的所述终端的交互画面。
4.根据权利要求3所述的方法,其特征在于,
若所述语音信息和/或音频操作信息中包含提高语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率高于所述第一多媒体交互方式的语音交互速率。
5.根据权利要求3所述的方法,其特征在于,
若所述语音信息和/或音频操作信息中包含减慢语音交互速率的语音内容,所述第二多媒体交互方式的语音交互速率低于所述第一多媒体交互方式的语音交互速率。
6.根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
确定所述终端基于第一多媒体交互方式采集的相邻两次用户操作信息的时间间隔;
若所述时间间隔位于第一多媒体交互方式对应的时间间隔范围外,根据所述时间间隔控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式。
7.根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
确定所述终端基于第一多媒体交互方式采集的相邻两次用户操作信息的时间间隔;
若所述时间间隔大于最大间隔值的次数大于第一次数阈值,或所述时间间隔小于最小间隔值的次数大于第二次数阈值,根据所述时间间隔控制所述终端从所述第一多媒体交互方式切换到所述第二多媒体交互方式,其中,所述最大间隔值为第一多媒体交互方式对应的时间间隔范围的最大值,所述最小间隔值为第一多媒体交互方式对应的时间间隔范围的最小值。
8.根据权利要求3至5任一项所述的方法,其特征在于,所述方法还包括:
获取用户的使用历史信息;
若所述使用历史信息符合预设条件,控制所述终端从所述第一多媒体交互方式切换到所述第二语音多媒体交互方式。
9.根据权利要求1所述的方法,其特征在于,所述根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换包括:
若所述音频操作信息中包含改变多媒体交互方式的操作内容,根据所述操作内容,控制多媒体交互方式的切换。
10.根据权利要求9所述的方法,其特征在于,
所述音频操作信息包括以下至少之一:用户对进度条的操作信息、用户对系统的操作、用户点击“下一步”的操作。
11.一种多媒体交互方式的切换方法,应用于终端,其特征在于,所述方法包括:
发送采集的语音信息和/或音频操作信息;
接收切换多媒体交互方式的指令;
根据所述包含切换多媒体交互方式的信息,进行多媒体交互方式的切换。
12.根据权利要求11所述的方法,其特征在于,
所述语音信息中包括:调整语音交互速率和/或语音交互内容和/或交互画面的语音内容;
和/或,
所述音频操作信息中包括以下至少之一:
调整语音交互速率和/或语音交互内容和/或交互画面的语音内容,
调整语音交互速率和/或语音交互内容和/或交互画面的操作内容。
13.一种语音多媒体交互方式的切换装置,其特性在于,所述装置包括:
接收单元,用于接收采集的语音信息和/或音频操作信息;
控制单元,用于根据上述语音信息和/或音频操作信息控制多媒体交互方式的切换。
14.一种语音多媒体交互方式的切换装置,应用于终端,其特性在于,所述装置包括:
发送单元,用于发送采集的用户操作信息;
接收单元,用于接收切换语音多媒体交互方式的指令,其中,不同的语音多媒体交互方式对应于不同的语音交互速率和/或不同的语音内容;
切换单元,用于根据所述包含切换语音多媒体交互方式的信息,进行语音多媒体交互方式的切换。
15.一种菜谱的烹饪的引导方法,其特征在于,所述方法通过权利要求1至10任一项的方法实现修正菜谱的引导方式。
16.一种终端,其特征在于,所述终端包括:
存储器,用于存储计算机可执行指令;
处理器,与所述存储器连接,用于通过执行所述计算机可执行指令,实现权利要求11或12任一项提供的方法。
17.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现权利要求1至12任一项提供的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910912527.4A CN112558753A (zh) | 2019-09-25 | 2019-09-25 | 多媒体交互方式的切换方法及装置、终端、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910912527.4A CN112558753A (zh) | 2019-09-25 | 2019-09-25 | 多媒体交互方式的切换方法及装置、终端、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112558753A true CN112558753A (zh) | 2021-03-26 |
Family
ID=75029717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910912527.4A Pending CN112558753A (zh) | 2019-09-25 | 2019-09-25 | 多媒体交互方式的切换方法及装置、终端、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112558753A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489441A (zh) * | 2022-01-21 | 2022-05-13 | 珠海格力电器股份有限公司 | 食谱展示方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992009A (zh) * | 2017-05-03 | 2017-07-28 | 深圳车盒子科技有限公司 | 车载语音交互方法、系统及计算机可读存储介质 |
US20170221485A1 (en) * | 2014-05-29 | 2017-08-03 | Zte Corporation | Voice interaction method and apparatus |
CN107515944A (zh) * | 2017-08-31 | 2017-12-26 | 广东美的制冷设备有限公司 | 基于人工智能的交互方法、用户终端、及存储介质 |
CN108881649A (zh) * | 2018-06-08 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN109348068A (zh) * | 2018-12-03 | 2019-02-15 | 咪咕数字传媒有限公司 | 一种信息处理方法、装置及存储介质 |
US20190198019A1 (en) * | 2017-12-26 | 2019-06-27 | Baidu Online Network Technology (Beijing) Co., Ltd | Method, apparatus, device, and storage medium for voice interaction |
-
2019
- 2019-09-25 CN CN201910912527.4A patent/CN112558753A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170221485A1 (en) * | 2014-05-29 | 2017-08-03 | Zte Corporation | Voice interaction method and apparatus |
CN106992009A (zh) * | 2017-05-03 | 2017-07-28 | 深圳车盒子科技有限公司 | 车载语音交互方法、系统及计算机可读存储介质 |
CN107515944A (zh) * | 2017-08-31 | 2017-12-26 | 广东美的制冷设备有限公司 | 基于人工智能的交互方法、用户终端、及存储介质 |
US20190198019A1 (en) * | 2017-12-26 | 2019-06-27 | Baidu Online Network Technology (Beijing) Co., Ltd | Method, apparatus, device, and storage medium for voice interaction |
CN108881649A (zh) * | 2018-06-08 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN109348068A (zh) * | 2018-12-03 | 2019-02-15 | 咪咕数字传媒有限公司 | 一种信息处理方法、装置及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114489441A (zh) * | 2022-01-21 | 2022-05-13 | 珠海格力电器股份有限公司 | 食谱展示方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106328148B (zh) | 基于本地和云端混合识别的自然语音识别方法、装置和系统 | |
JP6991251B2 (ja) | アシスタントアプリケーションのための音声ユーザインタフェースショートカット | |
Weisz et al. | Sample efficient deep reinforcement learning for dialogue systems with large action spaces | |
US9583102B2 (en) | Method of controlling interactive system, method of controlling server, server, and interactive device | |
CN107146612B (zh) | 语音引导方法、装置、智能设备及服务器 | |
CN108831469B (zh) | 语音命令定制方法、装置和设备及计算机存储介质 | |
EP3956884B1 (en) | Identification and utilization of misrecognitions in automatic speech recognition | |
CN105723360A (zh) | 利用情感调节改进自然语言交互 | |
CN105702253A (zh) | 一种语音唤醒方法及装置 | |
KR20160132748A (ko) | 전자 장치 및 그 제어 방법 | |
CN104240718A (zh) | 转录支持设备和方法 | |
CN105405441B (zh) | 一种语音信息的反馈方法及装置 | |
CN108053826B (zh) | 用于人机交互的方法、装置、电子设备及存储介质 | |
EP4160363A1 (en) | Expanding physical motion gesture lexicon for an automated assistant | |
CN108897517B (zh) | 一种信息处理方法及电子设备 | |
CN113096653A (zh) | 一种基于人工智能的个性化口音语音识别方法及系统 | |
CN112558753A (zh) | 多媒体交互方式的切换方法及装置、终端、存储介质 | |
CN109741744B (zh) | 基于大数据搜索的ai机器人对话控制方法和系统 | |
CN110619888A (zh) | 一种ai语音速率调整方法、装置及电子设备 | |
CN108492826B (zh) | 音频处理方法、装置、智能设备及介质 | |
US20200410988A1 (en) | Information processing device, information processing system, and information processing method, and program | |
US11769490B2 (en) | Electronic apparatus and control method thereof | |
JP6772916B2 (ja) | 対話装置および対話方法 | |
CN111933135A (zh) | 终端控制方法、装置、智能终端及计算机可读存储介质 | |
CN115083412B (zh) | 语音交互方法及相关装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |