CN108986818A - 视频通话挂断方法、装置、设备、服务端及存储介质 - Google Patents

视频通话挂断方法、装置、设备、服务端及存储介质 Download PDF

Info

Publication number
CN108986818A
CN108986818A CN201810724577.5A CN201810724577A CN108986818A CN 108986818 A CN108986818 A CN 108986818A CN 201810724577 A CN201810724577 A CN 201810724577A CN 108986818 A CN108986818 A CN 108986818A
Authority
CN
China
Prior art keywords
user
session
intended
call
kill
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810724577.5A
Other languages
English (en)
Inventor
王峰磊
陈果果
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810724577.5A priority Critical patent/CN108986818A/zh
Publication of CN108986818A publication Critical patent/CN108986818A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明实施例公开了一种视频通话挂断方法、装置、设备、服务端及存储介质。其中,该方法包括:在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作;接收所述服务端依据所述会话内容和手势动作识别的用户意图;若所述用户意图是挂断通话,则执行挂断通话操作。本发明实施例提供的技术方案,让用户的自然表达更具功能性,同时使用户专注于视频通话过程而不被机器或界面所限,使视频通话过程更自然高效,进而提升了用户的体验。

Description

视频通话挂断方法、装置、设备、服务端及存储介质
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种视频通话挂断方法、装置、设备、服务端及存储介质。
背景技术
随着互联网技术的快速发展,视频通话成为一种常用的交流方式。目前,用户在结束一段视频通话时一般是使用单一的语音指令或触摸界面来实现挂断操作。具体的,语音挂断首先需要唤醒词唤醒设备,并说出挂断指令,设备识别正确后完成挂断操作;界面挂断是用户主动点触屏幕,呼出挂断按钮,点击按钮后实现挂断操作。
在视频通话这个场景下,因为设备的硬件约束,语音挂断或界面挂断操作过程无法跳过,使得人与人开始和结束对话时始终无法像面对面那样做到自然交互,略显多余且生硬。
发明内容
本发明实施例提供了一种视频通话挂断方法、装置、设备、服务端和存储介质,使视频通话过程更自然更高效,提升了用户的体验。
第一方面,本发明实施例提供了一种视频通话挂断方法,该方法包括:
在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作;
接收所述服务端依据所述会话内容和手势动作识别的用户意图;
若所述用户意图是挂断通话,则执行挂断通话操作。
第二方面,本发明实施例提供了一种视频通话挂断方法,该方法包括:
接收用户端上报的会话内容和手势动作,其中所述会话内容和所述手势动作是所述用户端在视频通话过程中采集的;
依据所述会话内容和手势动作识别用户意图;
若识别的用户意图是挂断通话,则向所述用户端下发挂断通话意图,使所述用户端依据挂断通话意图执行挂断通话操作。
第三方面,本发明实施例还提供了一种视频通话挂断装置,该装置包括:
内容动作采集模块,用于在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作;
意图接收模块,用于接收所述服务端依据所述会话内容和手势动作识别的用户意图;
通话挂断模块,用于若所述用户意图是挂断通话,则执行挂断通话操作。
第四方面,本发明实施例还提供了一种视频通话挂断装置,该装置包括:
内容动作接收模块,用于接收用户端上报的会话内容和手势动作,其中所述会话内容和所述手势动作是所述用户端在视频通话过程中采集的;
意图识别模块,用于依据所述会话内容和手势动作识别用户意图;
意图下发模块,用于若识别的用户意图是挂断通话,则向所述用户端下发挂断通话意图,使所述用户端依据挂断通话意图执行挂断通话操作。
第五方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面中任意所述的视频通话挂断方法。
第六方面,本发明实施例还提供了一种服务端,该服务端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第二方面中任意所述的视频通话挂断方法。
第七方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或第二方面中任意所述的视频通话挂断方法。
本发明实施例提供的技术方案,通过用户端实时采集视频通话过程中用户的会话内容和手势动作,服务端依据采集的会话内容和手势动作识别用户意图,在用户意图为挂断通话时,执行挂断通话操作。让用户的自然表达更具功能性,同时使用户专注于视频通话过程而不被机器或界面所限,使视频通话过程更自然高效,进而提升了用户的体验。
附图说明
图1A是本发明实施例一中提供的一种视频通话挂断方法的流程图;
图1B是本发明实施例所适用的一种视频通话挂断过程示意图;
图2是本发明实施例二中提供的一种视频通话挂断方法的流程图;
图3是本发明实施例三中提供的一种视频通话挂断方法的流程图;
图4是本发明实施例四中提供的一种视频通话挂断装置的结构框图;
图5是本发明实施例五中提供的一种视频通话挂断装置的结构框图;
图6是本发明实施例六中提供的一种设备的结构示意图;
图7是本发明实施例七中提供的一种服务端的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1A为本发明实施例一提供的一种视频通话挂断方法的流程图,本实施适用于结束用户之间视频通话的情况。该方法可以由本发明实施例提供的视频通话挂断装置来执行,该装置可采用软件和/或硬件的方式实现,并可集成于承载视频通话的设备如手机或应用程序中,也可以是一个具有视频通话功能的独立设备。参见图1A,该方法具体包括:
S110,在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作。
其中,会话内容是指进行视频通话用户之间的对话内容,可以是任何语种或方言的语音对话。可选的,会话内容中可以包括会话语音特征和会话语义特征等中的至少一个。会话语音特征是指在视频通话结束时经常出现的告别关键词,可以是“再见”、“拜拜”、“再会”、“挂了”及“byebye”等。会话语义特征是指基于上下文语义理解所确定的用户用意,例如会话内容中的“先不说了”,“就这样吧”,“下次再说”等。
手势动作是指视频通话过程中用户的手势行为。可以包括告别手势和对话过程中的其他手势等。告别手势是指在视频通话结束时向对方告别的一种手势;例如,告别手势可以是抬起单手(左手或右手)左右挥动等。
示例性的,可通过麦克风或麦克风阵列等语音采集单元实时采集用户的会话内容;采用摄像头或红外传感器等图像采集元件对用户的手势动作进行采集,并向服务端(云端)上报采集的会话内容和手势动作。可选的,语音采集单元和图像采集元件可集成在视频通话挂断装置内,也可以是视频通话挂断装置通过接口调用语音采集单元和图像采集元件执行相应的功能。
具体的,当视频通话挂断装置检测到存在视频通话时,通过接口调用控制麦克风开启并同步采集视频通话过程中用户的会话内容;同时通过接口调用控制摄像头开启并实时采集视频通话过程中用户的手势动作。
S120,接收所述服务端依据所述采集的会话内容和手势动作识别的用户意图。
其中,用户意图即为用户的用意,可以包括挂断通话等。具体的,服务端可以采用图像识别技术对用户端上报的手势动作进行识别,采用语音处理技术和语义处理技术对用户端上报的会话内容进行处理,并且依据动作识别结果和语音、语义处理结果中的至少一个确定用户意图。若服务端检测到用户意图是挂断通话,则向用户端下发挂断通话意图。
S130,若所述用户意图是挂断通话,则执行挂断通话操作。
具体的,当识别出用户意图是挂断通话时,视频通话挂断装置将控制摄像头和麦克风关闭,以结束视频通话。此外为了减少视频通话应用对系统内存的占用,示例性的,在执行挂断通话操作之后,还可以包括:退出视频通话所属的通话应用。
本发明实施例提供的技术方案,通过用户端实时采集视频通话过程中用户的会话内容和手势动作,服务端依据采集的会话内容和手势动作识别用户意图,在用户意图为挂断通话时,执行挂断通话操作。让用户的自然表达更具功能性,同时使用户专注于视频通话过程而不被机器或界面所限,使视频通话过程更自然高效,进而提升了用户的体验。
可选的,若所述用户意图是挂断通话,则执行挂断通话操作,包括:
若所述用户意图是挂断通话,则进入挂断倒数状态;
若在处于挂断倒数状态过程中检测到退出挂断指令,则退出挂断倒数状态。
其中,挂断倒数状态即为挂断倒计时状态,可选的从5开始倒计时。具体的,参见图1B,若服务端识别到用户的会话语音特征中有告别会话,且在告别会话的第一时间长度内有告别手势,则确定用户意图为挂断通话,并将挂断通话下发至用户端;用户端接收到服务端下发的挂断通话后,进入5s倒计时挂断状态。若在5s倒计时挂断状态内未检测到用户语音或手势,则5s之后关闭视频通话界面,进入默认界面且显示通话结束。
其中,退出挂断指令用于指示再次进入视频通话界面的指令,可以包括用户语音和触摸手势等中的至少一项。具体的,为了使视频通话更加灵活,在用户意图为挂断通话时,并不立即执行挂断通话操作,而是控制视频通话处于挂断倒数状态即图1B中的触发自动挂断界面;并在用户端检测到退出挂断指令时,退出挂断倒数状态,同时进入图1B中的视频通话界面。而不需要用户重新进行视频通话呼叫,提升了用户的体验。
实施例二
图2为本发明实施例二提供的一种视频通话挂断方法的流程图,本实施适用于结束用户之间视频通话的情况。该方法可以由本发明实施例提供的视频通话挂断装置来执行,该装置可采用软件和/或硬件的方式实现,并可集成于服务端(云端)中。参见图2,该方法具体包括:
S210,接收用户端上报的会话内容和手势动作,其中所述会话内容和所述手势动作是所述用户端在视频通话过程中采集的。
S220,依据所述会话内容和手势动作识别用户意图。
具体的,服务端可以采用图像识别技术对用户端上报的手势动作进行识别,采用语音处理技术和语义处理技术对用户端上报的会话内容进行处理,并且依据动作识别结果和语音、语义处理结果中的至少一个确定用户意图。
示例性的,依据采集的会话内容和手势动作识别用户意图可以是:将采集的会话内容和手势动作输入预先构建的意图识别模型中,得到用户意图。其中,意图识别模型是依据样本会话内容和手势动作以及样本用户意图,对初始机器学习模型进行训练得到的。可选的,意图识别模型配置于视频通话挂断装置内。另外,也可以通过预先建立存储会话内容和手势动作与用户意图的对应关系表,通过匹配的方式确定用户意图,或者采用语音识别技术结合智能识图技术来确定用户意图等。
在本实施例的一种具体实施方式中,S220可以包括:
A、基于所述会话语音内容确定用户的会话语音特征和/或语义特征。
其中,会话语音特征是指在视频通话结束时经常出现的告别关键词,可以是“再见”、“拜拜”、“再会”、“挂了”及“byebye”等。会话语义特征是指基于上下文语义理解所确定的用户用意,例如会话内容中的“先不说了”,“就这样吧”,“下次再说”等。
具体的,可以通过语音识别及语义分析确定会话语音内容中用户的会话语音特征和语义特征。例如可以采用神经网络进行训练得到语音识别模型和语义识别模型来确定。
具体的,依据大量样本会话内容以及样本会话语音特征,对初始机器学习模型进行训练得到语音识别模型。语音识别模型在识别到会话语音特征时,输出结果为1;否则,输出结果为0。
基于上述类似原理,依据大量样本会话内容以及样本会话语义特征,对初始机器学习模型进行训练得到语义识别模型。语义识别模型在识别到会话语义特征时,输出结果为1;否则,输出结果为0。
具体的,分别将会话语音内容输入至语音识别模型和语义识别模型中,经过模型训练即可得到会话语音特征和会话语义特征。
B、依据所述手势动作,以及会话语音特征和/或语义特征识别用户意图。
示例性的,可以采用三个识别模型分别对手势动作、及会话内容中的会话语音特征和语义特征进行训练,得到三个对应的输出结果,然后将三个输出结果进行加权输入到一个分类器中,最终输出用户意图。
其中,对会话语音特征训练和语义训练即S220所述。而对手势的训练过程为:依据大量样本手势动作以及挂断手势意图,对初始机器学习模型进行训练得到手势识别模型。手势识别模型在识别到挂断手势意图时,输出结果为1;否则,输出结果为0。
分类器可以是神经网络分类器,也可以是最大熵分类器等,将语音识别模型、语义识别模型及手势识别模型的输出结果加权输入分类器,最终将输出用户意图如视频通话是否结束的判断。可选的,如果加权结果大于预设阈值,输出视频通话结束;否则,输出视频通话未结束。
此外,还可以采用单独一个意图识别模型来确定用户意图,具体的将会话语音特征、会话语义特征和手势动作输入到预先构建的意图识别模型中,得到用户意图。
S230,若识别的用户意图是挂断通话,则向所述用户端下发挂断通话意图,使所述用户端依据挂断通话意图执行挂断通话操作。
本发明实施例提供的技术方案,服务端通过基于所采集的会话内容确定用户的会话语音特征和/或语义特征,再依据手势动作以及会话语音特征和/或语义特征识别用户意图,即采用两个或三个维度的特征综合考虑确定用户意图,增加了确定用意图的准确定;并向用户端下发挂断通话意图,使用户端依据挂断通话意图执行挂断通话操作,让用户的自然表达更具功能性,同时使用户专注于视频通话过程而不被机器或界面所限,使视频通话过程更自然高效,进而提升了用户的体验。
实施例三
图3为本发明实施例三提供的一种视频通话挂断方法的流程图,本实施例在上述实施例二的基础上,进一步对依据会话内容和手势动作识别用户意图进行优化。参见图3,该方法具体包括:
S310,接收用户端上报的会话内容和手势动作,其中所述会话内容和所述手势动作是所述用户端在视频通话过程中采集的。
S320,基于所述会话语音内容确定用户的会话语音特征和/或语义特征。
S330,若所述会话语音特征中包括告别会话,且在所述告别会话的第一时间长度内有告别手势,则确定用户意图是挂断通话。
其中,告别会话是指在视频通话结束时向对方告别的一种用语,可以是“再见”、“拜拜”、“再会”及“byebye”等。告别手势是指在视频通话结束时向对方告别的一种手势;例如,告别手势可以是抬起单手(左手或右手)左右挥动等。第一时间长度是预先设置的,可根据实际情况进行修正;示例性的,第一时间长度越短,所确定的用户意图越准确,例如可以是10s。
具体的,当视频通话挂断装置识别出用户的会话语音特征中包括告别会话,且在告别会话的第一时间长度内采集到用户的手势为告别手势,则确定用户意图为挂断通话。
示例性的,进行视频通话的用户至少为两个。以视频通话挂断装置配置于即时通讯应用,且用户A和用户B进行视频通话为例对确定用户意图是挂断通话的操作过程进行说明。当视频通话挂断装置识别出用户A端或用户B端的麦克风采集到用户A或用户B中任一方说再见,且在麦克风采集到再见的第一时间长度内,视频通话挂断装置识别出用户A端摄像头采集到用户A挥手告别的手势或用户B端摄像头采集到用户B挥手告别的手势,则可以确定用户意图是挂断通话。此时,视频通话挂断装置相当于中心化设备,可同时检测视频通话的双方。
若用户A同时与用户B和用户C进行视频通话,则当视频通话挂断装置识别出用户C端的麦克风采集到用户C说再见,且在麦克风采集到再见的第一时间长度内,用户C端的摄像头采集到用户C挥手告别的手势,则可以确定用户C的意图是挂断通话。此时,并不影响用户A和用户B的正常通话。
需要说明的是,若视频通话挂断装置配置于设备中,当配置于用户A端设备中的视频通话挂断装置识别出麦克风采集到用户A或用户B说再见,且在麦克风采集到再见的第一时间长度内,摄像头采集到用户A挥手告别的手势,才可以确定用户意图是挂断通话。若用户B端未配置视频通话挂断装置,在麦克风采集到再见的第一时间长度内,摄像头未采集到用户A挥手告别的手势,但视频界面中存在用户B挥手告别的手势,此时用户A通过智能识别技术识别出B的告别手势后,也可以断定用户意图是挂断通话。
为了避免出现误操作导致用户意图的误判,进一步提高确定用户意图的准确性,可采用手势动作、会话语音特征及会话语义特征三个维度的特征综合来确定用户意图。示例性的,依据手势动作,以及会话语音特征和/或语义特征识别用户意图还可以包括:若会话语音特征中包括告别会话,在告别会话的第一时间长度内有告别手势,且在告别会话和/或告别手势之前的第二时间长度内的会话语义特征中有结束会话,则确定用户意图是挂断通话;其中第一时间长度大于或等于第二时间长度。第二时间长度是预先设置的,可根据实际情况进行修正,例如可以是5s;结束会话是在基于上下文语义确定用户所表达的意图或意思完成时确定的,例如会话内容中的“先不说了”,“就这样吧”,“下次再说”等可以作为结束会话。
具体的,当视频通话挂断装置基于上下文语义分析确定所采集的会话语义特征中包括结束会话,且在5s内识别到告别会话,同时在告别会话之后10s内检测到告别手势,则确定用户意图是挂断通话。还可以是视频通话挂断装置识别出告别会话,同时在告别会话之后5s内基于上下文语义分析确定所采集的会话语义特征中包括结束会话,且在告别会话之后10s之内检测到告别手势,则确定用户意图是挂断通话等。
S340,若识别的用户意图是挂断通话,则向所述用户端下发挂断通话意图,使所述用户端依据挂断通话意图执行挂断通话操作。
本发明实施例提供的技术方案,接收用户端在视频通话过程中采集的用户的会话内容和手势动作,并基于所采集的会话内容确定用户的会话语音特征,在识别到会话语音特征中包括告别会话,同时在告别会话的第一时间长度内有告别手势时将用户意图确定为挂断通话,执行挂断通话操作。让用户的自然表达更具功能性,同时使用户专注于视频通话过程而不被机器或界面所限,使视频通话过程更自然高效,进而提升了用户的体验。
实施例四
图4为本发明实施例四提供的一种视频通话挂断装置的结构框图,该装置可集成于承载视频通话的设备如手机或应用程序中,可执行本发明任意由用户端执行的视频通话挂断方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置可以包括:
内容动作采集模块410,用于在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作;
意图接收模块420,用于接收所述服务端依据所述会话内容和手势动作识别的用户意图;
通话挂断模块430,用于若所述用户意图是挂断通话,则执行挂断通话操作。
示例性的,通话挂断模块430具体可以用于:
若所述用户意图是挂断通话,则进入挂断倒数状态;
若在处于挂断倒数状态过程中检测到退出挂断指令,则退出挂断倒数状态。
示例性的,所述装置还可以包括通话应用退出模块,用于在执行挂断通话操作之后,退出所述视频通话所属的通话应用。
实施例五
图5为本发明实施例五提供的一种视频通话挂断装置的结构框图,该装置可集成于服务端中,可执行本发明任意由服务端执行的视频通话挂断方法,具备执行方法相应的功能模块和有益效果。如图5所示,该装置可以包括:
内容动作接收模块510,用于接收用户端上报的会话内容和手势动作,其中所述会话内容和所述手势动作是所述用户端在视频通话过程中采集的;
意图识别模块520,用于依据所述会话内容和手势动作识别用户意图;
意图下发模块530,用于若识别的用户意图是挂断通话,则向所述用户端下发挂断通话意图,使所述用户端依据挂断通话意图执行挂断通话操作。
示例性的,意图识别模块520可以包括:
特征确定单元,用于基于所述会话内容确定用户的会话语音特征和/或语义特征;
意图确定单元,用于依据所述手势动作,以及会话语音特征和/或语义特征识别用户意图。
示例性的,意图确定单元具体可以用于:
若所述会话语音特征中包括告别会话,且在所述告别会话的第一时间长度内有告别手势,则确定用户意图是挂断通话。
示例性的,意图确定单元具体可以用于:
若所述会话语音特征中包括告别会话,在所述告别会话的第一时间长度内有告别手势,且在所述告别会话和/或所述告别手势之前的第二时间长度内的会话语义特征中有结束会话,则确定用户意图是挂断通话;其中第一时间长度大于或等于第二时间长度。
实施例六
图6为本发明实施例六提供的一种设备的结构示意图,图6示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图6显示的设备612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备612典型的是承担视频通话的设备如手机、计算机或其他通信设备等。
如图6所示,设备612以通用计算设备的形式表现。设备612的组件可以包括但不限于:一个或者多个处理器或者处理单元616,系统存储器628,连接不同系统组件(包括系统存储器628和处理单元616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)630和/或高速缓存存储器632。设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。系统存储器628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如系统存储器628中,这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明实施例所描述的实施例中的功能和/或方法。
设备612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信,还可与一个或者多个使得用户能与该设备612交互的设备通信,和/或与使得该设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与设备612的其它模块通信。应当明白,尽管图中未示出,可以结合设备612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元616通过运行存储在系统存储器628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的由用户端执行的视频通话挂断方法。
实施例七
图7为本发明实施例七提供的一种服务端的结构示意图,图7示出了适于用来实现本发明实施例实施方式的示例性服务端的框图。图7显示的服务端712仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。服务端712典型的是云端。
如图7所示,服务端712以通用计算服务端的形式表现。服务端712的组件可以包括但不限于:一个或者多个处理器或者处理单元716,系统存储器728,连接不同系统组件(包括系统存储器728和处理单元716)的总线718。
总线718表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务端712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务端712访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器728可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)730和/或高速缓存存储器732。服务端712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统734可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线718相连。系统存储器728可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。
具有一组(至少一个)程序模块742的程序/实用工具740,可以存储在例如系统存储器728中,这样的程序模块742包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块742通常执行本发明实施例所描述的实施例中的功能和/或方法。
服务端712也可以与一个或多个外部服务端714(例如键盘、指向服务端、显示器724等)通信,还可与一个或者多个使得用户能与该服务端712交互的服务端通信,和/或与使得该服务端712能与一个或多个其它计算服务端进行通信的任何服务端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口722进行。并且,服务端712还可以通过网络适配器720与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器720通过总线718与服务端712的其它模块通信。应当明白,尽管图中未示出,可以结合服务端712使用其它硬件和/或软件模块,包括但不限于:微代码、服务端驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元716通过运行存储在系统存储器728中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的由服务端执行的视频通话挂断方法。
实施例八
本发明实施例八还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时可实现上述任意实施例中由用户端执行的视频通话挂断方法或者实现上述任意实施例中由服务端执行的视频通话挂断方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种视频通话挂断方法,其特征在于,包括:
在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作;
接收所述服务端依据所述会话内容和手势动作识别的用户意图;
若所述用户意图是挂断通话,则执行挂断通话操作。
2.根据权利要求1所述的方法,其特征在于,若所述用户意图是挂断通话,则执行挂断通话操作,包括:
若所述用户意图是挂断通话,则进入挂断倒数状态;
若在处于挂断倒数状态过程中检测到退出挂断指令,则退出挂断倒数状态。
3.根据权利要求1所述的方法,其特征在于,执行挂断通话操作之后,还包括:
退出所述视频通话所属的通话应用。
4.一种视频通话挂断方法,其特征在于,包括:
接收用户端上报的会话内容和手势动作,其中所述会话内容和所述手势动作是所述用户端在视频通话过程中采集的;
依据所述会话内容和手势动作识别用户意图;
若识别的用户意图是挂断通话,则向所述用户端下发挂断通话意图,使所述用户端依据挂断通话意图执行挂断通话操作。
5.根据权利要求4所述的方法,其特征在于,依据采所述会话内容和手势动作识别用户意图,包括:
基于所述会话内容确定用户的会话语音特征和/或语义特征;
依据所述手势动作,以及会话语音特征和/或语义特征识别用户意图。
6.根据权利要求5所述的方法,其特征在于,依据所述手势动作,以及会话语音特征识别用户意图,包括:
若所述会话语音特征中包括告别会话,且在所述告别会话的第一时间长度内有告别手势,则确定用户意图是挂断通话。
7.根据权利要求5所述的方法,其特征在于,依据所述手势动作,以及会话语音特征和/或语义特征识别用户意图,包括:
若所述会话语音特征中包括告别会话,在所述告别会话的第一时间长度内有告别手势,且在所述告别会话和/或所述告别手势之前的第二时间长度内的会话语义特征中有结束会话,则确定用户意图是挂断通话;其中第一时间长度大于或等于第二时间长度。
8.一种视频通话挂断装置,其特征在于,包括:
内容动作采集模块,用于在视频通话过程中采集用户的会话内容和手势动作,并向服务端上报采集的会话内容和手势动作;
意图接收模块,用于接收所述服务端依据所述会话内容和手势动作识别的用户意图;
通话挂断模块,用于若所述用户意图是挂断通话,则执行挂断通话操作。
9.一种视频通话挂断装置,其特征在于,包括:
内容动作接收模块,用于接收用户端上报的会话内容和手势动作,其中所述会话内容和所述手势动作是所述用户端在视频通话过程中采集的;
意图识别模块,用于依据所述会话内容和手势动作识别用户意图;
意图下发模块,用于若识别的用户意图是挂断通话,则向所述用户端下发挂断通话意图,使所述用户端依据挂断通话意图执行挂断通话操作。
10.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一项所述的视频通话挂断方法。
11.一种服务端,其特征在于,所述服务端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求4-7中任一项所述的视频通话挂断方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的视频通话挂断方法或者实现如权利要求4-7中任一项所述的视频通话挂断方法。
CN201810724577.5A 2018-07-04 2018-07-04 视频通话挂断方法、装置、设备、服务端及存储介质 Pending CN108986818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810724577.5A CN108986818A (zh) 2018-07-04 2018-07-04 视频通话挂断方法、装置、设备、服务端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810724577.5A CN108986818A (zh) 2018-07-04 2018-07-04 视频通话挂断方法、装置、设备、服务端及存储介质

Publications (1)

Publication Number Publication Date
CN108986818A true CN108986818A (zh) 2018-12-11

Family

ID=64536108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810724577.5A Pending CN108986818A (zh) 2018-07-04 2018-07-04 视频通话挂断方法、装置、设备、服务端及存储介质

Country Status (1)

Country Link
CN (1) CN108986818A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395573A (zh) * 2020-11-25 2021-02-23 维沃移动通信有限公司 通话锁屏的解锁方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855873A (zh) * 2012-08-03 2013-01-02 海信集团有限公司 一种控制电子设备的方法及电子设备
CN103337242A (zh) * 2013-05-29 2013-10-02 华为技术有限公司 一种语音控制方法和控制设备
CN104010154A (zh) * 2013-02-27 2014-08-27 联想(北京)有限公司 信息处理方法及电子设备
CN104050966A (zh) * 2013-03-12 2014-09-17 百度国际科技(深圳)有限公司 终端设备的语音交互方法和使用该方法的终端设备
CN104382307A (zh) * 2014-12-13 2015-03-04 许昌学院 一种智能拐杖及其实现方法
CN104902115A (zh) * 2015-06-03 2015-09-09 腾讯科技(深圳)有限公司 通信方法及通信终端
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855873A (zh) * 2012-08-03 2013-01-02 海信集团有限公司 一种控制电子设备的方法及电子设备
CN104010154A (zh) * 2013-02-27 2014-08-27 联想(北京)有限公司 信息处理方法及电子设备
CN104050966A (zh) * 2013-03-12 2014-09-17 百度国际科技(深圳)有限公司 终端设备的语音交互方法和使用该方法的终端设备
CN103337242A (zh) * 2013-05-29 2013-10-02 华为技术有限公司 一种语音控制方法和控制设备
CN104382307A (zh) * 2014-12-13 2015-03-04 许昌学院 一种智能拐杖及其实现方法
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置
CN104902115A (zh) * 2015-06-03 2015-09-09 腾讯科技(深圳)有限公司 通信方法及通信终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
滕佳东 等: "《管理信息系统(第五版)》", 30 September 2015, 东北财经大学出版社 *
黄孝平: "《当代机器深度学习方法及应用研究》", 30 November 2017, 电子科技大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395573A (zh) * 2020-11-25 2021-02-23 维沃移动通信有限公司 通话锁屏的解锁方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US10805464B2 (en) System and method for monitoring and visualizing emotions in call center dialogs at call centers
US10986228B2 (en) System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors
CN103529934B (zh) 用于处理多个输入的方法和装置
CN110689889B (zh) 人机交互方法、装置、电子设备及存储介质
US20100180202A1 (en) User Interfaces for Electronic Devices
JP2021533397A (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
CN110780741B (zh) 模型训练方法、应用运行方法、装置、介质及电子设备
WO2014120291A1 (en) System and method for improving voice communication over a network
CN108962227A (zh) 语音起点和终点检测方法、装置、计算机设备及存储介质
CN110299152A (zh) 人机对话的输出控制方法、装置、电子设备及存储介质
CN109871800A (zh) 一种人体姿态估计方法、装置和存储介质
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
CN109032345A (zh) 设备控制方法、装置、设备、服务端和存储介质
CN109215646A (zh) 语音交互处理方法、装置、计算机设备及存储介质
WO2020173211A1 (zh) 图像特效的触发方法、装置和硬件装置
CN109036398A (zh) 语音交互方法、装置、设备及存储介质
CN109639908A (zh) 一种蓝牙耳机、防窃听方法、装置、设备及介质
CN105681175B (zh) 一种修改即时通信应用中联系人头像的方法和装置
CN111447325A (zh) 通话辅助方法、装置、终端及存储介质
WO2022095674A1 (zh) 用于操作移动设备的方法和装置
CN108388399B (zh) 虚拟偶像的状态管理方法及系统
CN108986818A (zh) 视频通话挂断方法、装置、设备、服务端及存储介质
JP7091745B2 (ja) 表示端末、プログラム、情報処理システム及び方法
WO2019242415A1 (zh) 位置提示方法、装置、存储介质及电子设备
WO2023231211A1 (zh) 语音识别方法、装置、电子设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210511

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211