CN109766473B - 信息交互方法、装置、电子设备及存储介质 - Google Patents

信息交互方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109766473B
CN109766473B CN201811458640.1A CN201811458640A CN109766473B CN 109766473 B CN109766473 B CN 109766473B CN 201811458640 A CN201811458640 A CN 201811458640A CN 109766473 B CN109766473 B CN 109766473B
Authority
CN
China
Prior art keywords
password
password text
action
text
semantics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811458640.1A
Other languages
English (en)
Other versions
CN109766473A (zh
Inventor
郎志东
武军晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201811458640.1A priority Critical patent/CN109766473B/zh
Publication of CN109766473A publication Critical patent/CN109766473A/zh
Priority to PCT/CN2019/106256 priority patent/WO2020108024A1/zh
Priority to US17/257,538 priority patent/US20210287011A1/en
Application granted granted Critical
Publication of CN109766473B publication Critical patent/CN109766473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4758End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for providing answers, e.g. voting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4784Supplemental services, e.g. displaying phone caller identification, shopping application receiving rewards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明实施例提供了一种信息交互方法、装置、电子设备及存储介质,该方法和装置应用于网络直播系统的服务器,用于响应与服务器长连接的第一电子设备的口令选定指令,向与服务器长连接的第二电子设备推送口令选定指令所指向的口令文本,以使第二电子设备显示口令文本;接收第二电子设备上传的与口令文本对应的动作视频;当动作视频与口令文本的语义相匹配时,执行预设匹配操作。通过上述的操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。

Description

信息交互方法、装置、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种信息交互方法、装置、电子设备及存储介质。
背景技术
在实时互动网络直播系统中,绝大部分情况下一个直播间内只有一个主播,而观众则会有很多,因此,网络直播实现的是一种以主播的影音表达为中心、以一对与多进行交流为主要模式的互动交流场景,并需要保证观众之间的平等关系。在目前的相互交流过程中,有一种方式是主播用户发送信息提示,以使观众用户根据该提示信息给出相应的结果信息,当结果信息与预设结果匹配时按预设规则对观众用户进行奖励。然而这种方式的程式固定,无法吸引更多的用户的参与,从而降低了直播的效果。
发明内容
为克服相关技术中存在的问题,本公开提供一种信息交互方法、装置、电子设备及存储介质。
第一方面,提供一种信息交互方法,包括:
响应所述第一电子设备的口令选定指令,向与所述第三电子设备长连接的第二电子设备推送所述口令选定指令所指向的口令文本,以使所述第二电子设备显示所述口令文本;
接收所述第二电子设备上传的与所述口令文本对应的动作视频;
当所述动作视频与所述口令文本的语义相匹配时,执行预设匹配操作。
可选的,还包括:
向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令;
接收所述第一电子设备根据选择事件上传的包含被选定的口令的所述口令选定指令。
可选的,在接收所述第二电子设备上传的与所述口令文本对应的动作视频之后,还包括:
接收反映所述动作视频与所述口令文本的语义是否相匹配的信息。
可选的,在接收所述第二电子设备上传的与所述口令文本对应的动作视频之后,还包括:
检测所述动作视频与所述口令文本的语义是否匹配。
可选的,所述检测所述动作视频与所述口令文本的语义是否匹配,包括:
获取所述动作视频中运动目标的多个关键点的位置和时序;
将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;
当所述距离达到预设标准时,判定所述动作视频与所述口令文本的语义相匹配。
可选的,所述检测所述动作视频与所述口令文本的语义是否匹配,还包括:
获取训练样本,所述训练样本包括多个预设口令和每个所述预设口令对应的多个关键点,以及与每个所述关键点对应的位置和时序;
利用所述训练样本对预设神经网络进行训练,得到所述动作识别模型。
可选的,所述训练样本包括正向样本和负向样本。
可选的,在所述接收所述第二电子设备上传的与所述口令文本相对应的动作视频之前,还包括:
对所述口令文本进行语义分析,得到所述口令文本的语义。
第二方面,提供一种信息交互装置,包括:
指令响应模块,被配置为响应所述第一电子设备的口令选定指令,向第二电子设备推送所述口令选定指令所指向的口令文本,以使所述第二电子设备显示所述口令文本;
视频接收模块,被配置为接收所述第二电子设备上传的与所述口令文本对应的动作视频;
第一执行模块,被配置为当所述动作视频与所述口令文本相匹配时,执行预设匹配操作。
可选的,还包括:
列表推送模块,被配置为向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令;
指令接收模块,被配置为接收所述第一电子设备根据选择事件上传的包含被选定的口令的所述口令选定指令。
可选的,还包括:
结果接收模块,被配置为在接收所述第二电子设备上传的与所述口令文本对应的动作视频之后,接收反映所述动作视频与所述口令文本的语义是否相匹配的信息。
可选的,还包括:
第一匹配检测模块,被配置为在接收所述第二电子设备上传的与所述口令文本对应的动作视频之后,检测所述动作视频与所述口令文本的语义是否匹配。
可选的,所述匹配检测模块包括:
动作获取单元,被配置为获取所述动作视频中运动目标的多个关键点的位置和时序;
动作识别单元,被配置为将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;
结果判定单元,被配置为当所述距离达到预设标准时,判定所述动作视频与所述口令文本相匹配。
可选的,所述匹配检测模块还包括:
样本获取单元,被配置为获取训练样本,所述训练样本包括多个预设口令和每个所述预设口令对应的多个关键点,以及与每个所述关键点对应的位置和时序;
模型训练单元,被配置为利用所述训练样本对预设神经网络进行训练,得到所述动作识别模型。
可选的,所述训练样本包括正向样本和负向样本。
可选的,还包括:
语义分析模块,被配置为对所述口令文本进行语义分析,得到所述口令文本的语义。
第三方面,提供一种信息交互方法,包括:
接收并显示第一电子设备根据口令选定指令所推送的口令文本;
获取与所述口令文本对应的动作视频;
检测所述动作视频与所述口令文本的语义是否匹配;
当所述动作视频与所述口令文本的语义相匹配时,执行预设匹配操作。
可选的,还包括:
向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令。
可选的,所述检测所述动作视频与所述口令文本的语义是否匹配,包括:
获取所述动作视频中运动目标的多个关键点的位置和时序;
将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;
当所述距离达到预设标准时,判定所述动作视频与所述口令文本的语义相匹配。
可选的,在所述接收并显示第一电子设备根据口令选定指令所推送的口令文本步骤之后,还包括:
对所述口令文本进行语义分析,得到所述口令文本的语义。
第四方面,提供一种信息交互装置,其特征在于包括:
信息接收模块,被配置为接收并显示第一电子设备根据口令选定指令所推送的口令文本;
视频获取模块,被配置为获取与所述口令文本对应的动作视频;
第二匹配检测模块,被配置为检测所述动作视频与所述口令文本的语义是否匹配;
第二执行模块,被配置为当所述动作视频与所述口令文本的语义相匹配时,执行预设匹配操作。
可选的,还包括:
列表发送模块,被配置为向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令,以使所述第一电子设备根据口令选定指令上传所述多个待选口令中被选定的口令所对应的口令文本。
可选的,所述第二匹配检测模块包括:
参数获取单元,被配置为获取所述动作视频中运动目标的多个关键点的位置和时序;
识别执行单元,被配置为将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;
判定执行单元,被配置为当所述距离达到预设标准时,判定所述动作视频与所述口令文本的语义相匹配。
可选的,还包括:
分析执行模块,被配置为在信息接收模块接收并显示第一电子设备根据口令选定指令所推送的口令文本之后,对所述口令文本进行语义分析,得到所述口令文本的语义。
第五方面,提供一种电子设备,应用于网络直播系统,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如第一方面或第三方面所述的信息交互方法。
第六方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如第一方面或第三方面所述的信息交互方法。
第七方面,还提供了一种计算机程序,该计算机程序包括第一方面或第三方面所述的信息交互方法。
本公开的实施例提供的技术方案可以包括以下有益效果:通过上述的操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种信息交互方法的流程图;
图2是根据一示例性实施例示出的另一种信息交互方法的流程图;
图3是根据一示例性实施例示出的又一种信息交互方法的流程图;
图4是根据一示例性实施例示出的一种匹配检测方法的流程图;
图5是根据一示例性实施例示出的一种模型训练方法的流程图;
图6是根据一示例性实施例示出的另一种信息交互方法的流程图;
图7a是根据一示例性实施例示出的一种信息交互装置的框图;
图7b是根据一示例性实施例示出的另一种信息交互装置的框图;
图7c是根据一示例性实施例示出的又一种信息交互装置的框图;
图8是根据一示例性实施例示出的另一种信息交互装置的框图;
图9是根据一示例性实施例示出的又一种信息交互装置的框图;
图10是根据一示例性实施例示出的又一种信息交互装置的框图;
图11是根据一示例性实施例示出的又一种信息交互装置的框图;
图12是根据一示例性实施例示出的又一种信息交互方法的流程图;
图13a是根据一示例性实施例示出的又一种信息交互方法的流程图;
图13b是根据一示例性实施例示出的又一种信息交互方法的流程图;
图13c是根据一示例性实施例示出的另一种匹配检测方法的流程图;
图14是根据一示例性实施例示出的又一种信息交互装置的框图;
图15a是根据一示例性实施例示出的又一种信息交互装置的框图;
图15b是根据一示例性实施例示出的又一种信息交互装置的框图;
图16是根据一示例性实施例示出的一种电子设备的框图;
图17是根据一示例性实施例示出的另一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种信息交互方法的流程图。
如图1所示,这种信息交互方法应用于第三电子设备,该第三电子设备可以理解为网络直播系统的服务器,该信息交互方法具体包括以下步骤。
S1、根据口令选定指令向第二电子设备推送口令文本。
该口令选定指令是从与第二电子设备相对的第一电子设备所发送的,对于网络直播系统来说,该第一电子设备可以理解为与服务器长连接的观众端,第二电子设备则为与服务器长连接且与观众端相对应的主播端。当观众用户通过该观众端输入相应选定操作时,观众端根据该选定操作生成相应的口令选定指令,该口令选定指令指向预存的多个口令文本中的一个。
在观众端发送相应口令选定指令时,将该指令指向的口令文本发送至该第二电子设备,即向主播端发送该口令文本,以使该主播端接收并向主播用户显示该口令文本。主播用户在读取到该口令文本、甚至包括口令文本的语义在内的信息后,可以做出与该口令文本及其语义相匹配的动作。
S2、接收与口令文本相对应的动作视频。
该动作视频是在第二电子设备显示该口令文本及其语义时,由该第二电子设备的用户、即主播用户根据该口令文本及其语义做出的,用于以相应动作匹配该口令文本及其语义。
在第二电子设备采集到其主播用户根据口令文本及其语义做出的动作的动作视频并上传时,接收该动作视频。
S3、当动作视频与口令文本的语义相匹配时执行预设操作。
即当动作视频与口令文本及其语义相匹配时,执行预先规定的操作,例如向主播用户分配相应的奖励。
从上述技术方案可以看出,本实施例提供了一种信息交互方法,该方法应用于网络直播系统的服务器,用于响应与服务器长连接的第一电子设备的口令选定指令,向与服务器长连接的第二电子设备推送口令选定指令所指向的口令文本,以使第二电子设备显示口令文本;接收第二电子设备上传的与口令文本的语义对应的动作视频;当动作视频与口令文本的语义相匹配时,执行预设匹配操作。通过上述的操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
图2是根据一示例性实施例示出的另一种信息交互方法的流程图。
如图2所示,这种信息交互方法具体包括以下步骤。
S1、根据口令选定指令向第二电子设备推送口令文本。
本步骤与上一实施例的相应操作相同,这里不再赘述。
S2、接收与口令文本相对应的动作视频。
本步骤与上一实施例的相应操作相同,这里不再赘述。
S21、接收反映动作视频与口令文本的语义是否匹配的信息。
即第二电子设备在获取到动作视频后,即检测该动作视频与相应口令文本的语义是否匹配进行检测,并将检测结果在发送动作视频的同时或之后予以发送到第三电子设备。对应的,在接收动作视频之后或同时,接收该检测结果,即反映动作视频与口令文本的语义是否匹配的信息。
S4、当动作视频与口令文本的语义相匹配时执行预设操作。
即根据接收到的匹配结果,确定动作视频与口令文本及其语义相匹配时,执行预先规定的操作,例如向主播用户分配相应的奖励。
从上述技术方案可以看出,本实施例提供了一种信息交互方法,该方法应用于网络直播系统的服务器,用于响应与服务器长连接的第一电子设备的口令选定指令,向与服务器长连接的第二电子设备推送口令选定指令所指向的口令文本,以使第二电子设备显示口令文本;接收第二电子设备上传的与口令文本对应的动作视频;接收反映动作视频与口令文本的语义是否匹配的信息;当动作视频与口令文本放入语义相匹配时,执行预设匹配操作。通过上述的操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
图3是根据一示例性实施例示出的又一种信息交互方法的流程图。
如图3所示,这种信息交互方法具体包括以下步骤。
S1、根据口令选定指令向第二电子设备推送口令文本。
本步骤与上一实施例的相应操作相同,这里不再赘述。
S2、接收与口令文本的语义相对应的动作视频。
本步骤与上一实施例的相应操作相同,这里不再赘述。
S3、检测动作视频是否与口令文本的语义相匹配。
在接收到该动作视频后,通过提取其中的动作特征对其与口令及其语义是否匹配进行检测,即检测器动作序列是否能够表达该口令文本及其语义。如图4所示,具体的检测方法如所描述:
S31、获取动作视频中多个关键点的位置和时序。
即从该动作视频中进行目标检测,确定其中运动目标、即主播用户的身体的多关键点的位置和时序,关键点可以选择主播用户的头、颈、肘、手、胯、膝盖部和脚步等关键点。然后确定每个关键点的位置和时序,时序也可以看做各个关键点的位置的时序性指标。
S32、利用动作识别模型对关键点的位置和时序进行识别。
在得到多个关键点的位置和时序后,将相应的位置和时序输入到预先训练的动作识别模型中进行识别,从而得到与预设的标准库中与口令文本对应的标准动作之间的距离,例如欧式距离。
S33、根据距离判断动作视频与口令文本是否匹配。
在得到该距离、如欧式距离后,将距离与预设标准相判断,即将该距离与一个预设距离阈值相比较,当该距离大于或等于该预设距离阈值时,判定该口令文本与该动作视频相匹配。该预设距离阈值可以根据经验参数确定。
这里还包括如下步骤,如图5所示,用于通过对深度网络的训练得到该动作识别模型。
S311、获取训练样本。
这里的训练样本包括正向样本和负向样本,正向样本是指与预设的口令文本相对应的多个关键点,以及每个关键点的位置和时序;负向样本指不符合口令文本的多个关键点的位置和时序。
S312、利用训练样本对预设神经网络进行训练。
在训练时,分别将训练样本输入到预设神经网络中进行训练,该神经网络可以由CNN和RNN构成,其中的损失函数为增加区分度的损失函数,如Contrastive Loss或tripletloss,目的是让正向样本输入这个神经网络后输出的数值(比如是一个1024维数的向量),跟标准库的标准动作输入这个神经网络后输出的数值的距离、如欧氏距离相近,且使负向样本所输出的距离不相近。
S4、当动作视频与口令文本的语义相匹配时执行预设操作。
本步骤与上一实施例的相应操作相同,这里不再赘述。
从上述技术方案可以看出,本实施例提供了一种信息交互方法,该方法应用于网络直播系统的服务器,用于响应与服务器长连接的第一电子设备的口令选定指令,向与服务器长连接的第二电子设备推送口令选定指令所指向的口令文本,以使第二电子设备显示口令文本;接收第二电子设备上传的与口令文本对应的动作视频;检测动作视频与口令文本的语义是否匹配;当动作视频与口令文本的语义相匹配时,执行预设匹配操作。通过上述的操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
另外,如图6所示,本实施例中在根据口令选定指令向第二电子设备推送口令文本之前,还包括如下操:
S01、向第一电子设备推送选择列表。
即将包括供观众用户进行选择的选择列表项第一电子设备推送,使第一电子设备显示该选择列表,当观众用户通过选择操作输入相应的口令选定指令时,产生一个选择事件,并根据该选择事件选定某个待选口令。
S02、接收第一电子设备包含待选口令的口令选定指令。
当第一电子设备上传该口令选定指令时,上传该指令,并接收该指令包括的待选口令。
还有,本实施例中在接收第二电子设备上传的多做视频之前,还包括:
对口令文本进行语义分析,从而得到相应口令文本的语义,以便第二电子设备在显示口令文本的时候还能显示其语义,从而帮助主播用户理解口令文本的确切含义。
图7a是根据一示例性实施例示出的一种信息交互装置的框图。
如图7a所示,这种信息交互装置应用于网络直播系统的服务器,具体包括指令响应模块10、视频接收模块20和第一执行模块40。
指令响应模块10用于根据口令选定指令向第二电子设备推送口令文本。
该口令选定指令是从与第二电子设备相对的第一电子设备所发送的,对于网络直播系统来说,该第一电子设备可以理解为与服务器长连接的观众端,第二电子设备则为与服务器长连接且与观众端相对应的主播端。当观众用户通过该观众端输入相应选定操作时,观众端根据该选定操作生成相应的口令选定指令,该口令选定指令指向预存的多个口令文本中的一个。
在观众端发送相应口令选定指令时,将该指令指向的口令文本发送至该第二电子设备,即向主播端发送该口令文本,以使该主播端接收并向主播用户显示该口令文本。主播用户在读取到该口令文本、甚至包括口令文本的语义在内的信息后,可以做出与该口令文本及其语义相匹配的动作。
视频接收模块20用于接收与口令文本的语义相对应的动作视频。
该动作视频是在第二电子设备显示该口令文本及其语义时,由该第二电子设备的用户、即主播用户根据该口令文本及其语义做出的,用于以相应动作匹配该口令文本及其语义。
在第二电子设备采集到其主播用户根据口令文本及其语义做出的动作的动作视频并上传时,接收该动作视频。
第一执行模块40用于当动作视频与口令文本相匹配时执行预设操作。
即当确定动作视频与口令文本及其语义相匹配时,执行预先规定的操作,例如向主播用户分配相应的奖励。
从上述技术方案可以看出,本实施例提供了一种信息交互装置,该装置应用于网络直播系统的服务器,用于响应与服务器长连接的第一电子设备的口令选定指令,向与服务器长连接的第二电子设备推送口令选定指令所指向的口令文本,以使第二电子设备显示口令文本;接收第二电子设备上传的与口令文本对应的动作视频;当动作视频与口令文本的语义相匹配时,执行预设匹配操作。通过上述的操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
另外,如图7b所示,在本申请一个具体实施方式中,还包括结果接收模块21。
第二电子设备在获取到动作视频后,即检测该动作视频与相应口令文本的语义是否匹配进行检测,并将检测结果在发送动作视频的同时或之后予以发送到第三电子设备。对应的,该结果接收模块用于在接收动作视频之后或同时,接收该检测结果,即反映动作视频与口令文本的语义是否匹配的信息。以使第一执行模块有明确的执行依据。
图7c是根据一示例性实施例示出的又一种信息交互装置的框图。
如图7c所示,这种信息交互装置应用于网络直播系统的服务器,具体包括指令响应模块10、视频接收模块20、第一匹配检测模块30和第一执行模块40。
指令响应模块10用于根据口令选定指令向第二电子设备推送口令文本。
该口令选定指令是从与第二电子设备相对的第一电子设备所发送的,对于网络直播系统来说,该第一电子设备可以理解为与服务器长连接的观众端,第二电子设备则为与服务器长连接且与观众端相对应的主播端。当观众用户通过该观众端输入相应选定操作时,观众端根据该选定操作生成相应的口令选定指令,该口令选定指令指向预存的多个口令文本中的一个。
在观众端发送相应口令选定指令时,将该指令指向的口令文本发送至该第二电子设备,即向主播端发送该口令文本,以使该主播端接收并向主播用户显示该口令文本。主播用户在读取到该口令文本、甚至包括口令文本的语义在内的信息后,可以做出与该口令文本及其语义相匹配的动作。
视频接收模块20用于接收与口令文本的语义相对应的动作视频。
该动作视频是在第二电子设备显示该口令文本及其语义时,由该第二电子设备的用户、即主播用户根据该口令文本及其语义做出的,用于以相应动作匹配该口令文本及其语义。
在第二电子设备采集到其主播用户根据口令文本及其语义做出的动作的动作视频并上传时,接收该动作视频。
第一匹配检测模块30用于检测动作视频是否与口令文本相匹配。
在接收到该动作视频后,通过提取其中的动作特征对其与口令及其语义是否匹配进行检测,即检测器动作序列是否能够表达该口令文本及其语义。如图8所示,该模块具体包括动作获取单元31、动作识别单元32和结果判定单元33。
动作获取单元31用于获取动作视频中多个关键点的位置和时序。
即从该动作视频中进行目标检测,确定其中运动目标、即主播用户的身体的多关键点的位置和时序,关键点可以选择主播用户的头、颈、肘、手、胯、膝盖部和脚步等关键点。然后确定每个关键点的位置和时序,时序也可以看做各个关键点的位置的时序性指标。
动作识别单元32用于利用动作识别模型对关键点的位置和时序进行识别。
在得到多个关键点的位置和时序后,将相应的位置和时序输入到预先训练的动作识别模型中进行识别,从而得到与预设的标准库中与口令文本对应的标准动作之间的距离,例如欧式距离。
结果判定单元33用于根据距离判断动作视频与口令文本是否匹配。
在得到该距离、如欧式距离后,将距离与预设标准相判断,即将该距离与一个预设距离阈值相比较,当该距离大于或等于该预设距离阈值时,判定该口令文本与该动作视频相匹配。该预设距离阈值可以根据经验参数确定。
另外,该模块还包括样本获取单元34和模型训练单元35,如图9所示,用于通过对深度网络的训练得到该动作识别模型。
样本获取单元34用于获取训练样本。
这里的训练样本包括正向样本和负向样本,正向样本是指与预设的口令文本相对应的多个关键点,以及每个关键点的位置和时序;负向样本指不符合口令文本的多个关键点的位置和时序。
模型训练单元35用于利用训练样本对预设神经网络进行训练。
在训练时,分别将训练样本输入到预设神经网络中进行训练,该神经网络可以由CNN和RNN构成,其中的损失函数为增加区分度的损失函数,如Contrastive Loss或tripletloss,目的是让正向样本输入这个神经网络后输出的数值(比如是一个1024维数的向量),跟标准库的标准动作输入这个神经网络后输出的数值的距离、如欧氏距离相近,且使负向样本所输出的距离不相近。
第一执行模块40用于当动作视频与口令文本相匹配时执行预设操作。
即通过上面的判断,确定动作视频与口令文本及其语义相匹配时,执行预先规定的操作,例如向主播用户分配相应的奖励。
从上述技术方案可以看出,本实施例提供了一种信息交互装置,该装置应用于网络直播系统的服务器,用于响应与服务器长连接的第一电子设备的口令选定指令,向与服务器长连接的第二电子设备推送口令选定指令所指向的口令文本,以使第二电子设备显示口令文本;接收第二电子设备上传的与口令文本对应的动作视频;检测动作视频与口令文本的语义是否匹配;当动作视频与口令文本的语义相匹配时,执行预设匹配操作。通过上述的操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
另外,如图10所示,本实施例中的信息交互装置还包括列表推送模块50和指令接收模块60。
列表推送模块50用于向第一电子设备推送选择列表。
即将包括供观众用户进行选择的选择列表项第一电子设备推送,使第一电子设备显示该选择列表,当观众用户通过选择操作输入相应的口令选定指令时,产生一个选择事件,并根据该选择事件选定某个待选口令。
指令接收模块60还用于接收第一电子设备包含待选口令的口令选定指令。
当第一电子设备上传该口令选定指令时,上传该指令,并接收该指令包括的待选口令。
还有,如图11所示,本实施例中的信息交互装置还包括语义分析模块70在视频接收模块20接收第二电子设备上传的多做视频之前,用于对口令文本进行语义分析,从而得到相应口令文本的语义,以便第二电子设备在显示口令文本的时候还能显示其语义,从而帮助主播用户理解口令文本的确切含义。
图12是根据一示例性实施例示出的又一种信息交互方法的流程图。
如图12所示,本实施例提供的信息交互方法应用于与第一电子设备直接或间接连接的第二电子设备,第一电子设备可以看做为网络直播系统的观众端,第二电子设备可以看做网络直播系统的主播端。该信息交互方法包括:
S401、接收第一电子设备根据口令选定指令推送的口令文本。
该口令选定指令为第一电子设备的用户、如观众端的用户根据该第一电子设备所显示的内容所输入的命令。当观众端的用户输入相应的口令选定指令选定相应的口令文本后,该第一电子设备将该口令文本发送出去,此时接收该口令文本。
第一电子设备和第二电子设备均可以为智能手机、平板电脑等移动终端,也可以理解为联网的个人电脑等智能设备。
S402、获取与口令文本对应的动作视频。
具体来说时获取设置在该第二电子设备上或者与该第二电子设备相连接的视频采集设备、如摄像头等所采集的视频,具体来说时使用该第二电子设备的主播用户根据该口令文本所做的动作视频,例如做出一定的姿势,或者做出一系列动作的组合等。
S403、检测动作视频与口令文本的语义是否匹配。
即检测该动作视频中所载的动作是否符合该口令文本的语义,例如,当口令文本为举手时,检测动作视频中的动作是否为举手,如果是则动作视频与该口令文本的语义相匹配,反之则不匹配。值得指出的是,这里对动作视频与口令文本的语义是否匹配的检测是在主播端完成的。当有服务器存在的情况下,信息通过服务器向第一电子设备进行交互或者信息直接与第一电子设备进行交互。
S404、当动作视频与口令文本的语义匹配时执行预设匹配操作。
这里的操作与上述实施例中的操作相同,因此不再赘述。
从上述技术方案可以看出,通过上述操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
另外,如图13a所示,本实施例中在接收第一电子设备推送口令文本之前,还包括:
S400、向第一电子设备推送选择列表。
该选择列表中包括多个供用户选择的待选口令,分别指向不同的口令文本,以使用户能够通过对待选口令的选择从中选定不同的口令文本,并使之被发送到第二电子设备。
另外,如图13b所示,本实施例中在本实施例中在接收第一电子设备推送口令文本之后,还包括:
S405、对口令文本的语义进行分析。
通过对口令文本的语义进行分析,得到该口令文本真实的语义,以便在对动作视频与口令文本是否匹配进行检测时有客观的依据。
还有,如图13c所示,本实施例中检测动作视频与口令文本的语义是否匹配包括如下步骤:
S4031、获取动作视频中多个关键点的位置和时序。
即从该动作视频中进行目标检测,确定其中运动目标、即主播用户的身体的多关键点的位置和时序,关键点可以选择主播用户的头、颈、肘、手、胯、膝盖部和脚步等关键点。然后确定每个关键点的位置和时序,时序也可以看做各个关键点的位置的时序性指标。
S4032、利用动作识别模型对关键点的位置和时序进行识别。
在得到多个关键点的位置和时序后,将相应的位置和时序输入到预先训练的动作识别模型中进行识别,从而得到与预设的标准库中与口令文本对应的标准动作之间的距离,例如欧式距离。
S4033、根据距离判断动作视频与口令文本是否匹配。
在得到该距离、如欧式距离后,将距离与预设标准相判断,即将该距离与一个预设距离阈值相比较,当该距离大于或等于该预设距离阈值时,判定该口令文本与该动作视频相匹配。该预设距离阈值可以根据经验参数确定。
图14是根据一示例性实施例示出的又一种信息交互装置的框图。
如图14所示,本实施例提供的信息交互装置应用于与第一电子设备直接或间接连接的第二电子设备,第一电子设备可以看做为网络直播系统的观众端,第二电子设备可以看做网络直播系统的主播端。该信息交互装置包括信息接收模块410、视频获取模块420、第二匹配检测模块430和第二执行模块440。
信息接收模块被配置为接收第一电子设备根据口令选定指令推送的口令文本。
该口令选定指令为第一电子设备的用户、如观众端的用户根据该第一电子设备所显示的内容所输入的命令。当观众端的用户输入相应的口令选定指令选定相应的口令文本后,该第一电子设备将该口令文本发送出去,此时接收该口令文本。
第一电子设备和第二电子设备均可以为智能手机、平板电脑等移动终端,也可以理解为联网的个人电脑等智能设备。
视频获取模块被配置为获取与口令文本对应的动作视频。
具体来说时获取设置在该第二电子设备上或者与该第二电子设备相连接的视频采集设备、如摄像头等所采集的视频,具体来说时使用该第二电子设备的主播用户根据该口令文本所做的动作视频,例如做出一定的姿势,或者做出一系列动作的组合等。
第二匹配检测模块被配置为检测动作视频与口令文本的语义是否匹配。
即检测该动作视频中所载的动作是否符合该口令文本的语义,例如,当口令文本为举手时,检测动作视频中的动作是否为举手,如果是则动作视频与该口令文本的语义相匹配,反之则不匹配。
第二执行模块被配置为当动作视频与口令文本的语义匹配时执行预设匹配操作。
这里的操作与上述实施例中的操作相同,因此不再赘述。
从上述技术方案可以看出,通过上述操作,可以对用户在不同的情况下执行预设的操作,比如奖励,从而丰富了信息交互的方式,能够吸引更多的用户的参加,提高了直播效果。
另外,如图15a所示,本实施例还包括列表发送模块450。
列表发送模块被配置为向第一电子设备推送选择列表。
该选择列表中包括多个供用户选择的待选口令,分别指向不同的口令文本,以使用户能够通过对待选口令的选择从中选定不同的口令文本,并使之被发送到第二电子设备。
另外,如图15b所示,本实施例中还包括分析执行模块460。
该分析执行模块用于在信息接收模块接收第一电子设备推送口令文本之后,对口令文本的语义进行分析。
通过对口令文本的语义进行分析,得到该口令文本真实的语义,以便在对动作视频与口令文本是否匹配进行检测时有客观的依据。
还有,本实施例中第二匹配检测模块具体包括参数获取单元、识别执行单元和判定执行单元。
参数获取单元用于获取动作视频中多个关键点的位置和时序。
即从该动作视频中进行目标检测,确定其中运动目标、即主播用户的身体的多关键点的位置和时序,关键点可以选择主播用户的头、颈、肘、手、胯、膝盖部和脚步等关键点。然后确定每个关键点的位置和时序,时序也可以看做各个关键点的位置的时序性指标。
识别执行单元用于利用动作识别模型对关键点的位置和时序进行识别。
在得到多个关键点的位置和时序后,将相应的位置和时序输入到预先训练的动作识别模型中进行识别,从而得到与预设的标准库中与口令文本对应的标准动作之间的距离,例如欧式距离。
判定执行单元用于根据距离判断动作视频与口令文本是否匹配。
在得到该距离、如欧式距离后,将距离与预设标准相判断,即将该距离与一个预设距离阈值相比较,当该距离大于或等于该预设距离阈值时,判定该口令文本与该动作视频相匹配。该预设距离阈值可以根据经验参数确定。
本实施例中还提供一种计算机程序,该计算机程序用于执行如图1~6、12、13a、13b或13c描述的信息交互方法。
图16是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备可以被提供为一服务器。参照图16,电子设备包括处理组件1622,其进一步包括一个或多个处理器,以及由存储器1632所代表的存储器资源,用于存储可由处理组件1622的执行的指令,例如应用程序。存储器1632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1622被配置为执行指令,以执行图1~6、12、13a、13b或13c中所示的信息交互方法。
电子设备还可以包括一个电源组件1626被配置为执行电子设备的电源管理,一个有线或无线网络接口1650被配置为将电子设备连接到网络,和一个输入输出(I/O)接口1658。电子设备可以操作基于存储在存储器1632的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
图17是根据一示例性实施例示出的另一种电子设备的框图。例如,电子设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等移动设备。
参照图17,电子设备可以包括以下一个或多个组件:处理组件1702,存储器1704,电力组件1706,多媒体组件1708,音频组件1710,输入/输出(I/O)的接口1712,传感器组件1714,以及通信组件1716。
处理组件1702通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1702可以包括一个或多个处理器1720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1702可以包括一个或多个模块,便于处理组件1702和其他组件之间的交互。例如,处理组件1702可以包括多媒体模块,以方便多媒体组件1708和处理组件1702之间的交互。
存储器1704被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1706为电子设备的各种组件提供电力。电源组件1706可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
多媒体组件1708包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1708包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1710被配置为输出和/或输入音频信号。例如,音频组件1710包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1704或经由通信组件1716发送。在一些实施例中,音频组件1710还包括一个扬声器,用于输出音频信号。
I/O接口1712为处理组件1702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1714包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件1714可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件1714还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件1714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述如图1~6、12、13a、13b或13c所示的信息交互方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (18)

1.一种信息交互方法,其特征在于,包括:
响应第一电子设备的口令选定指令,向第二电子设备推送所述口令选定指令所指向的口令文本,以使所述第二电子设备显示所述口令文本;
接收所述第二电子设备上传的与所述口令文本对应的动作视频;
检测所述动作视频与所述口令文本的语义是否匹配;
当所述动作视频与所述口令文本的语义相匹配时,执行预设匹配操作;
所述检测所述动作视频与所述口令文本的语义是否匹配,包括:
获取所述动作视频中运动目标的多个关键点的位置和时序;将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;当所述距离达到预设标准时,判定所述动作视频与所述口令文本的语义相匹配;和/或
获取训练样本,所述训练样本包括多个预设口令和每个所述预设口令对应的多个关键点,以及与每个所述关键点对应的位置和时序;利用所述训练样本对预设神经网络进行训练,得到所述动作识别模型。
2.如权利要求1所述的信息交互方法,其特征在于,还包括:
向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令;
接收所述第一电子设备根据选择事件上传的包含被选定的口令的所述口令选定指令。
3.如权利要求1所述的信息交互方法,其特征在于,在接收所述第二电子设备上传的与所述口令文本对应的动作视频之后,还包括:
接收反映所述动作视频与所述口令文本的语义是否相匹配的信息。
4.如权利要求1所述的信息交互方法,其特征在于,所述训练样本包括正向样本和负向样本。
5.如权利要求1所述的信息交互方法,其特征在于,在所述接收所述第二电子设备上传的与所述口令文本相对应的动作视频之前,还包括:
对所述口令文本进行语义分析,得到所述口令文本的语义。
6.一种信息交互装置,其特征在于,包括:
指令响应模块,被配置为响应第一电子设备的口令选定指令,向第二电子设备推送所述口令选定指令所指向的口令文本,以使所述第二电子设备显示所述口令文本;
视频接收模块,被配置为接收所述第二电子设备上传的与所述口令文本对应的动作视频;
第一匹配检测模块,被配置为在接收所述第二电子设备上传的与所述口令文本对应的动作视频之后,检测所述动作视频与所述口令文本的语义是否匹配;
第一执行模块,被配置为当所述动作视频与所述口令文本相匹配时,执行预设匹配操作;
所述第一匹配检测模块包括:动作获取单元、动作识别单元以及结果判定单元;和/或所述第一匹配检测模块包括:样本获取单元和模型训练单元;
其中,所述动作获取单元,被配置为获取所述动作视频中运动目标的多个关键点的位置和时序;
所述动作识别单元,被配置为将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;
所述结果判定单元,被配置为当所述距离达到预设标准时,判定所述动作视频与所述口令文本相匹配;
所述样本获取单元,被配置为获取训练样本,所述训练样本包括多个预设口令和每个所述预设口令对应的多个关键点,以及与每个所述关键点对应的位置和时序;
所述模型训练单元,被配置为利用所述训练样本对预设神经网络进行训练,得到所述动作识别模型。
7.如权利要求6所述的信息交互装置,其特征在于,还包括:
列表推送模块,被配置为向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令;
指令接收模块,被配置为接收所述第一电子设备根据选择事件上传的包含被选定的口令的所述口令选定指令。
8.如权利要求6所述的信息交互装置,其特征在于,还包括:
结果接收模块,被配置为在接收所述第二电子设备上传的与所述口令文本对应的动作视频之后,接收反映所述动作视频与所述口令文本的语义是否相匹配的信息。
9.如权利要求6所述的信息交互装置,其特征在于,所述训练样本包括正向样本和负向样本。
10.如权利要求6所述的信息交互装置,其特征在于,还包括:
语义分析模块,被配置为对所述口令文本进行语义分析,得到所述口令文本的语义。
11.一种信息交互方法,其特征在于,包括:
接收并显示第一电子设备根据口令选定指令所推送的口令文本;
获取与所述口令文本对应的动作视频;
检测所述动作视频与所述口令文本的语义是否匹配;
当所述动作视频与所述口令文本的语义相匹配时,执行预设匹配操作;
所述检测所述动作视频与所述口令文本的语义是否匹配,包括:
获取所述动作视频中运动目标的多个关键点的位置和时序;
将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;
当所述距离达到预设标准时,判定所述动作视频与所述口令文本的语义相匹配。
12.如权利要求11所述的信息交互方法,其特征在于,还包括:
向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令。
13.如权利要求11或12所述的信息交互方法,其特征在于,在所述接收并显示第一电子设备根据口令选定指令所推送的口令文本步骤之后,还包括:
对所述口令文本进行语义分析,得到所述口令文本的语义。
14.一种信息交互装置,其特征在于,包括:
信息接收模块,被配置为接收并显示第一电子设备根据口令选定指令所推送的口令文本;
视频获取模块,被配置为获取与所述口令文本对应的动作视频;
第二匹配检测模块,被配置为检测所述动作视频与所述口令文本的语义是否匹配;
第二执行模块,被配置为当所述动作视频与所述口令文本的语义相匹配时,执行预设匹配操作;
所述第二匹配检测模块包括:
参数获取单元,被配置为获取所述动作视频中运动目标的多个关键点的位置和时序;
识别执行单元,被配置为将所述多个关键点的位置和时序输入到预先训练的动作识别模型进行识别,得到与预设的标准动作库中与所述口令文本对应的标准动作的距离;
判定执行单元,被配置为当所述距离达到预设标准时,判定所述动作视频与所述口令文本的语义相匹配。
15.如权利要求14所述的信息交互装置,其特征在于,还包括:
列表发送模块,被配置为向所述第一电子设备推送选择列表,所述选择列表包括多个待选口令,以使所述第一电子设备根据口令选定指令上传所述多个待选口令中被选定的口令所对应的口令文本。
16.如权利要求14或15所述的信息交互装置,其特征在于,还包括:
分析执行模块,被配置为在信息接收模块接收并显示第一电子设备根据口令选定指令所推送的口令文本之后,对所述口令文本进行语义分析,得到所述口令文本的语义。
17.一种电子设备,应用于网络直播系统,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1~5或11~13任一项所述的信息交互方法。
18.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行如权利要求1~5或11~13任一项所述的信息交互方法。
CN201811458640.1A 2018-11-30 2018-11-30 信息交互方法、装置、电子设备及存储介质 Active CN109766473B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811458640.1A CN109766473B (zh) 2018-11-30 2018-11-30 信息交互方法、装置、电子设备及存储介质
PCT/CN2019/106256 WO2020108024A1 (zh) 2018-11-30 2019-09-17 信息交互方法、装置、电子设备及存储介质
US17/257,538 US20210287011A1 (en) 2018-11-30 2019-09-17 Information interaction method and apparatus, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811458640.1A CN109766473B (zh) 2018-11-30 2018-11-30 信息交互方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109766473A CN109766473A (zh) 2019-05-17
CN109766473B true CN109766473B (zh) 2019-12-24

Family

ID=66451214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811458640.1A Active CN109766473B (zh) 2018-11-30 2018-11-30 信息交互方法、装置、电子设备及存储介质

Country Status (3)

Country Link
US (1) US20210287011A1 (zh)
CN (1) CN109766473B (zh)
WO (1) WO2020108024A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766473B (zh) * 2018-11-30 2019-12-24 北京达佳互联信息技术有限公司 信息交互方法、装置、电子设备及存储介质
CN110087139A (zh) * 2019-05-31 2019-08-02 深圳市云歌人工智能技术有限公司 用于交互的短视频的发送方法、装置及存储介质
CN112153400B (zh) * 2020-09-22 2022-12-06 北京达佳互联信息技术有限公司 直播互动方法、装置、电子设备及存储介质
CN112819061A (zh) * 2021-01-27 2021-05-18 北京小米移动软件有限公司 口令信息识别方法、装置、设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6031549A (en) * 1995-07-19 2000-02-29 Extempo Systems, Inc. System and method for directed improvisation by computer controlled characters
US7734562B1 (en) * 2005-12-30 2010-06-08 Brainpool, Inc. Voice to text conversion with keyword parse and match to semantic and transactional concepts stored in a brain pool state machine using word distance to generate character model interaction in a plurality of dramatic modes
US9955352B2 (en) * 2009-02-17 2018-04-24 Lookout, Inc. Methods and systems for addressing mobile communications devices that are lost or stolen but not yet reported as such
US8694612B1 (en) * 2010-02-09 2014-04-08 Roy Schoenberg Connecting consumers with providers of live videos
CN101763439B (zh) * 2010-03-05 2012-09-19 中国科学院软件研究所 一种基于草图的超视频构建方法
CN101968819B (zh) * 2010-11-05 2012-05-30 中国传媒大学 面向广域网的音视频智能编目信息获取方法
CN102117313A (zh) * 2010-12-29 2011-07-06 天脉聚源(北京)传媒科技有限公司 一种视频检索方法和系统
US8761437B2 (en) * 2011-02-18 2014-06-24 Microsoft Corporation Motion recognition
CN102508923B (zh) * 2011-11-22 2014-06-11 北京大学 基于自动分类和关键字标注的自动视频注释方法
US9832519B2 (en) * 2012-04-18 2017-11-28 Scorpcast, Llc Interactive video distribution system and video player utilizing a client server architecture
US9736502B2 (en) * 2015-09-14 2017-08-15 Alan H. Barber System, device, and method for providing audiences for live video streaming
US9781174B2 (en) * 2015-09-21 2017-10-03 Fuji Xerox Co., Ltd. Methods and systems for electronic communications feedback
CN107273782B (zh) * 2016-04-08 2022-12-16 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
WO2018018482A1 (zh) * 2016-07-28 2018-02-01 北京小米移动软件有限公司 播放音效的方法及装置
CN106303732A (zh) * 2016-08-01 2017-01-04 北京奇虎科技有限公司 基于视频直播的互动方法、装置及系统
CN106412710A (zh) * 2016-09-13 2017-02-15 北京小米移动软件有限公司 直播中通过图形标签进行信息交互的方法及装置
CN107018441B (zh) * 2017-04-24 2020-12-15 武汉斗鱼网络科技有限公司 一种礼物触发转盘的方法及装置
CN107705656A (zh) * 2017-11-13 2018-02-16 北京学邦教育科技有限公司 在线教学方法、装置和服务器
CN107911724B (zh) * 2017-11-21 2020-07-07 广州华多网络科技有限公司 直播互动方法、装置及系统
US10929606B2 (en) * 2017-12-29 2021-02-23 Samsung Electronics Co., Ltd. Method for follow-up expression for intelligent assistance
CN108337568A (zh) * 2018-02-08 2018-07-27 北京潘达互娱科技有限公司 一种信息答复方法、装置及设备
CN108900867A (zh) * 2018-07-25 2018-11-27 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN108985259B (zh) * 2018-08-03 2022-03-18 百度在线网络技术(北京)有限公司 人体动作识别方法和装置
KR101994592B1 (ko) * 2018-10-19 2019-06-28 인하대학교 산학협력단 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
CN109766473B (zh) * 2018-11-30 2019-12-24 北京达佳互联信息技术有限公司 信息交互方法、装置、电子设备及存储介质
WO2020191090A1 (en) * 2019-03-18 2020-09-24 Playful Corp. System and method for content streaming interactivity
KR102430020B1 (ko) * 2019-08-09 2022-08-08 주식회사 하이퍼커넥트 단말기 및 그것의 동작 방법
CN112399192A (zh) * 2020-11-03 2021-02-23 上海哔哩哔哩科技有限公司 网络直播中的礼物展示方法和系统

Also Published As

Publication number Publication date
US20210287011A1 (en) 2021-09-16
CN109766473A (zh) 2019-05-17
WO2020108024A1 (zh) 2020-06-04

Similar Documents

Publication Publication Date Title
CN110662083B (zh) 数据处理方法、装置、电子设备及存储介质
CN109766473B (zh) 信息交互方法、装置、电子设备及存储介质
CN109446994B (zh) 手势关键点检测方法、装置、电子设备及存储介质
CN106941624B (zh) 网络视频试看的处理方法和装置
US20160028741A1 (en) Methods and devices for verification using verification code
CN111405302B (zh) 直播间关注提醒方法、装置、电子设备及存储介质
US20220013026A1 (en) Method for video interaction and electronic device
US20170118298A1 (en) Method, device, and computer-readable medium for pushing information
US10216711B2 (en) Information collection method and apparatus
CN106331761A (zh) 直播列表显示方法及装置
CN107562349B (zh) 一种执行处理的方法和装置
EP3261046A1 (en) Method and device for image processing
US20170090684A1 (en) Method and apparatus for processing information
CN106547850B (zh) 表情注释方法及装置
CN110636383A (zh) 一种视频播放方法、装置、电子设备及存储介质
CN106453528A (zh) 推送消息的方法及装置
CN112464031A (zh) 交互方法、装置、电子设备以及存储介质
CN106331328B (zh) 信息提示的方法及装置
CN112948704A (zh) 用于信息推荐的模型训练方法、装置、电子设备以及介质
CN109145878B (zh) 图像提取方法及装置
CN111629270A (zh) 一种候选项确定方法、装置及机器可读介质
CN107105311B (zh) 直播方法及装置
CN107247794B (zh) 直播中的话题引导方法、直播装置及终端设备
CN111526380B (zh) 视频处理方法、装置、服务器、电子设备及存储介质
CN109543008A (zh) 一种即时通信的通知方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant