CN106303658B - 应用于视频直播的交互方法和装置 - Google Patents

应用于视频直播的交互方法和装置 Download PDF

Info

Publication number
CN106303658B
CN106303658B CN201610697951.8A CN201610697951A CN106303658B CN 106303658 B CN106303658 B CN 106303658B CN 201610697951 A CN201610697951 A CN 201610697951A CN 106303658 B CN106303658 B CN 106303658B
Authority
CN
China
Prior art keywords
live video
keyword
client
interactive
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610697951.8A
Other languages
English (en)
Other versions
CN106303658A (zh
Inventor
郝运峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610697951.8A priority Critical patent/CN106303658B/zh
Publication of CN106303658A publication Critical patent/CN106303658A/zh
Priority to KR1020170018356A priority patent/KR101945920B1/ko
Priority to JP2017023640A priority patent/JP6629774B2/ja
Application granted granted Critical
Publication of CN106303658B publication Critical patent/CN106303658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Abstract

本申请公开了应用于视频直播的交互方法和装置。该方法的一具体实施方式包括:接收主播客户端发送的直播视频,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流;对音频流进行语音识别,得到关键词;确定关键词对应的交互指令;将直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象。一方面,简化了主播与用户的交互中主播的操作,另一方面,无需暂停当前直播的内容,保持视频直播的流畅度。

Description

应用于视频直播的交互方法和装置
技术领域
本申请涉及计算机领域,具体涉及网络技术领域,尤其涉及应用于视频直播的交互方法和装置。
背景技术
在视频直播中,主播需要与用户进行交互。目前,主播与用户之间的交互需要主播以人工方式完成。例如,当主播需要对用户赠送的虚拟礼物表示感谢时,需要暂停当前直播的内容,输入文字、图片与用户进行交互。一方面,主播与用户的交互较为繁琐,另一方面,在主播需要与用户进行交互时,需要暂停当前直播的内容,影响直播的流畅度。
发明内容
本申请提供了应用于视频直播的交互方法和装置,用于解决上述背景技术部分存在的技术问题。
第一方面,本申请提供了应用于视频直播的交互方法,该方法包括:接收主播客户端发送的直播视频,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流;对音频流进行语音识别,得到关键词;确定关键词对应的交互指令;将直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象。
第二方面,本申请提供了应用于视频直播的交互方法,该方法包括:接收服务器发送的直播视频和交互指令,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流,交互指令基于服务器对音频流进行语音识别后得到的关键词而确定;确定交互指令对应的交互对象;在直播视频中呈现交互对象。
第三方面,本申请提供了应用于视频直播的交互装置,该装置包括:直播视频接收单元,接收主播客户端发送的直播视频,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流;识别单元,配置用于对音频流进行语音识别,得到关键词;确定单元,配置用于确定关键词对应的交互指令;发送单元,配置用于将直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象。
第四方面,本申请提供了应用于视频直播的交互装置,该装置包括:接收单元,配置用户接收服务器发送的直播视频和交互指令,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流,交互指令基于服务器对音频流进行语音识别后得到的关键词而确定;交互对象确定单元,配置用于确定交互指令对应的交互对象;呈现单元,配置用于在直播界面中呈现直播视频和交互对象。
本申请提供的应用于视频直播的交互方法和装置,通过接收主播客户端发送的直播视频,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流;对音频流进行语音识别,得到关键词;确定关键词对应的交互指令;将直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象。一方面,简化了主播与用户的交互中主播的操作,另一方面,无需暂停当前直播的内容,保持视频直播的流畅度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用于本申请的应用于视频直播的交互方法或装置的实施例的示例性系统架构;
图2示出了根据本申请的应用于视频直播的交互方法的一个实施例的流程图;
图3示出了根据本申请的应用于视频直播的交互方法的另一个实施例的流程图;
图4示出了本申请的主播客户端、服务器、用户客户端的一个交互示意图;
图5示出了适用于本申请的应用于视频直播的交互方法的一个示例性架构图;
图6示出了根据本申请的应用于视频直播的交互装置的一个实施例的结构示意图;
图7示出了根据本申请的应用于视频直播的交互装置的另一个实施例的结构示意图;
图8是适于用来实现本申请实施例的应用于视频直播的交互装置的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用于本申请的应用于视频直播的交互方法或装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括主播客户端101、服务器102、用户客户端103。
网络104用以在主播客户端101和服务器102之间提供传输链路的介质。网络104可以包括各种有线、无线传输链路。网络105用以在服务器102和用户客户端103之间提供传输链路的介质。网络105可以包括各种有线、无线传输链路。
主播客户端101的用户(也可称之为网络主播)可以利用主播客户端101所在的终端上的设备例如摄像头、麦克风实时采集直播内容对应的图像、语音,实时录制直播视频。主播客户端101可以将实时录制的直播视频发送至服务器102。服务器102可以接收主播客户端101发送的直播视频,将直播视频发送至用户客户端103。用户客户端103接收到直播视频后,可以播放直播视频。
请参考图2,其示出了根据本申请的应用于视频直播的交互方法的一个实施例的流程200。需要说明的是,本申请实施例所提供的应用于视频直播的交互方法可以由图1中的服务器102执行,相应地,应用于视频直播的交互装置可以设置于服务器102中。该方法包括以下步骤:
步骤201,接收主播客户端发送的直播视频。
在本实施例中,主播客户端的用户(也可称之为网络主播)在录制直播视频时,可以利用主播客户端所在的终端的摄像头采集直播内容对应的图像,可以利用主播客户端所在的终端的麦克风采集语音(例如网络主播的语音)。主播客户端在采集图像和语音之后,可以将图像和声音进行编码,得到包含视频流和音频流的直播视频。
步骤202,对音频流进行语音识别,得到关键词。
在本实施例中,在通过步骤201接收主播客户端发送的直播视频之后,可以按照直播视频中的视频流和音频流的编码方式对直播视频进行解码,提取出直播视频中的音频流。
在本实施例中,在提取出音频流之后,可以对音频流进行语音识别,得到关键词。在本实施例中,关键词可以为与用户客户端的用户进行交互相关联的词语。例如,关键词可以为对用户的客户端的用户赠送的虚拟礼物表示感谢的词语。音频流中包含主播客户端的用户的语音,以主播客户端的用户对对用户的客户端的用户赠送的虚拟礼物表示感谢为例,音频流中包含表示感谢的关键词例如“谢谢”对应的语音信号,可以通过对音频流进行语音识别,可以得到该关键词。
在本实施例的一些可选的实现方式中,对音频流进行语音识别,得到关键词包括:对音频流进行语音识别,得到音频流对应的语句;对语句进行分词,得到词语集合;查找出词语集合中与预设关键词匹配的关键词。
在本实施例中,可以预先将主播客户端的用户与用户客户端的用户在视频直播的交互中经常会应用到的词语例如“谢谢”、“我爱你”、“鲜花”配置为预设关键词。可以对接收到的直播视频中的音频流进行语音识别,得到音频流对应的语句。然后,可以对语句进行分词,得到词语集合。可以查找出该词语集合中与预设关键词匹配的关键词。
步骤203,确定关键词对应的交互指令。
在本实施例中,在通过步骤202对直播视频中的音频流进行语音识别,得到关键词之后,可以确定关键词对应的交互指令。例如,音频流中包含主播客户端的用户的语音,该语音中包含“我爱你”、“鲜花”等词语对应的语音信号时,可以通过对音频流进行识别,识别出关键词“我爱你”、“鲜花”。关键词“我爱你”对应的交互指令可以用于触发在用户客户端的直播界面中呈现交互对象例如心形图片。关键词“鲜花”对应的交互指令可以用于触发在用户客户端的直播界面中呈现交互对象例如鲜花图片。
步骤204,将直播视频和交互指令发送至用户客户端。
在本实施例中,在通过步骤203确定关键词对应的交互指令之后,可以将交互指令和直播视频发送至用户客户端。从而,在用户客户端接收到交互指令和直播视频之后,可以在直播界面中呈现直播视频和交互指令对应的交互对象。
在本实施例的一些可选的实现方式中,交互指令对应的交互对象包括:动画、图片、表情符号。
在本实施例中,在通过步骤203确定关键词对应的交互指令之后,可以将交互指令和直播视频发送至用户客户端。从而,在用户客户端接收到交互指令和直播视频之后,可以在直播视频中呈现交互指令对应的动画、图片、表情符号。主播客户端的用户可以利用动画、图片、表情符号与用户客户端的用户进行交互。
在本实施例的一些可选的实现方式中,还包括:确定关键词对应的语音信号在直播视频中出现的时间点;生成包含时间点的时间戳信息;将时间戳信息发送给用户客户端。
在本实施例中,在对音频流进行语音识别,得到关键词的同时,可以确定关键词对应的语音信号在直播视频中出现的时间点。可以生成包含该时间点的时间戳信息发送给用户客户端。从而,用户客户端在接收到交互指令和直播视频时,可以根据该时间戳信息,确定关键词对应的语音信号在直播视频中出现的时间点,在直播界面中的直播视频中的该时间点对应的视频帧叠加显示交互指令对应的交互对象。
请参考图3,其示出了根据本申请的应用于视频直播的交互方法的另一个实施例的流程300。需要说明的是,本申请实施例所提供的应用于视频直播的交互方法可以由图1中的用户客户端103执行,相应地,应用于视频直播的交互装置可以设置于用户客户端103中。该方法包括以下步骤:
步骤301,接收服务器发送的直播视频和交互指令。
在本实施例中,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流。
在本实施例中,在利用用户客户端观看视频直播时,可以接收到服务器发送的直播视频和交互指令。交互指令可以基于服务器对直播视频中的音频流进行语音识别后得到的关键词而确定。
例如,服务器可以对接收到的主播客户端发送的直播视频进行解码,提取出直播视频中的音频流。在提取出音频流之后,服务器可以对音频流进行语音识别,得到关键词。音频流中包含主播客户端的用户的语音,以主播客户端的用户对对用户的客户端的用户赠送的虚拟礼物表示感谢为例,音频流中包含表示感谢的关键词例如“谢谢”对应的语音信号,服务器通过对对音频流进行语音识别,得到该关键词。此时,可以接收到服务器发送的该关键词对应的交互指令。
步骤302,确定交互指令对应的交互对象。
在本实施例中,在通过步骤301接收服务器发送的直播视频和交互指令之后,可以确定交互指令对应的交互对象。
例如,当直播视频的音频流中的主播客户端的用户的语音中包含“谢谢”、“我爱你”关键词时,“谢谢”、“我爱你”各自对应一个交互指令,每一个交互指令对应一个交互对象。
在本实施例中,交互指令对应的交互对象可以包括但不限于:动画、图片、表情符号。
步骤303,在直播界面中呈现直播视频和交互对象。
在本实施例中,在通过步骤302确定交互指令对应的交互对象之后,可以在直播视频中呈现交互对象。
当直播视频的音频流中的主播客户端的用户的语音中包含“谢谢”、“我爱你”关键词时,即当主播客户端的用户在视频直播中说“谢谢”、“我爱你”时,可以接收到“谢谢”、“我爱你”对应的交互指令。可以确定交互指令对应的交互对象,例如动画、图片、表情符号。可以在直播界面中呈现“谢谢”、“我爱你”对应的交互对象,即在直播视频中叠加显示“谢谢”、“我爱你”对应的动画、图片、表情符号。
在本实施例的一些可选的实现方式中,还包括:接收服务器发送的时间戳信息,时间戳信息包含关键词对应的语音信号在直播视频中出现的时间点,以在时间点在直播界面中呈现交互对象。
在本实施例中,可以接收服务器发送的时间戳信息,时间戳信息包含关键词对应的语音信号在直播视频中出现的时间点。可以根据关键词对应的语音信号在直播视频中出现的时间点,在直播视频中的该时间点对应的视频帧叠加显示交互对象。
请参考图4,其示出了本申请的主播客户端、服务器、用户客户端的一个交互示意图。
主播客户端采集图像和语音,录制直播视频。直播客户端可以实时采集直播内容对应的图像和语音,实时录制直播视频。
主播客户端将直播视频发送至服务器。
服务器从直播视频中提取出音频,对直播视频中的音频流进行语音识别,得到关键词,确定关键词对应的交互指令。每一个关键词对应一个交互指令,每一个交互指令对应一个交互对象。
服务器将交互指令和直播视频发送至用户客户端。
用户客户端呈现直播视频和交互指令。用户客户端可以在直播界面中播放直播视频,并且在直播视频中呈现交互指令对应的交互对象。
在本实施例中,主播客户端的用户在进行网络主播时,通过对主播的语音进行识别,得到交互指令,在用户客户端播放直播视频的同时,呈现交互指令对应的交互对象。从而,主播客户端的用户在无需暂停直播内容的情况下与用户客户端的用户进行交互。例如,当主播客户端的用户在视频直播中说“谢谢”、“我爱你”时,可以在用户客户端的直播界面中呈现“谢谢”、“我爱你”对应的动画、图片、表情符号。
请参考图5,其示出了示出了适用于本申请的应用于视频直播的交互方法的一个示例性架构图。
在图5中,示出了直播客户端系统、直播服务端系统。直播客户端系统包括:音视频采集模块和交互展现模块。音视频采集模块可以部署在主播客户端,可以用于在主播客户端采集音视频信息即直播内容对应的图像、语音并发送到直播服务端系统的音视频接收模块。交互展现模块可以部署在用户客户端,可以用于接收直播服务端系统交互处理模块发送来的交互指令,并按交互指令在用户客户端展示交互指令对应的交互对象。直播服务端系统可以部署在服务器,直播服务端系统包括:音视频接收模块、音视频处理模块、语音识别模块、自然语言处理模块、交互命令模块、交互处理模块。音视频接收模块可以用于接收直播客户端采集的音视频信息,并将接收到的音视频信息发送给音视频处理模块。音视频处理模块可以用于解析出音视频信息中的音频信息,将音频信息发送给语音识别模块。语音识别模块可以用于从音频信息中识别出文本信息。自然语音处理模块可以用于对文本信息进行分词,得到关键词列表。交互处理模块可以用于从交互命令模块获取关键词列表中的关键词对应的交互指令,并将获取到的交互指令发送给交互展现模块。
请参考图6,其示出了根据本申请的应用于视频直播的交互装置的一个实施例的结构示意图。该装置实施例与图2所示的方法实施例相对应。
如图6所示,本实施例的应用于视频直播的交互装置600包括:直播视频接收单元601,识别单元602,发送单元603。其中,直播视频接收单元601接收主播客户端发送的直播视频,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流;识别单元602配置用于对音频流进行语音识别,得到关键词;确定单元,配置用于确定关键词对应的交互指令;发送单元603配置用于将直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象。
在本实施例的一些可选的实现方式中,识别单元602包括:音频流识别子单元(未示出),配置用于对音频流进行语音识别,得到音频流对应的语句;分词子单元(未示出),配置用于对语句进行分词,得到词语集合;查找子单元(未示出),配置用于查找出词语集合中与预设关键词匹配的关键词。
在本实施例的一些可选的实现方式中,装置600还包括:时间点确定单元(未示出),配置用于确定关键词对应的语音信号在直播视频中出现的时间点;生成单元(未示出),配置用于生成包含时间点的时间戳信息;信息发送单元(未示出),配置用于将时间戳信息发送给用户客户端。
在本实施例的一些可选的实现方式中,交互对象包括:动画、图片、表情符号。
请参考图7,其示出了根据本申请的应用于视频直播的交互装置的另一个实施例的结构示意图。该装置实施例与图3所示的方法实施例相对应。
如图7所示,本实施例的应用于视频直播的交互装置700包括:接收单元701,交互对象确定单元702,呈现单元703。其中,接收单元701配置用户接收服务器发送的直播视频和交互指令,直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流,交互指令基于服务器对音频流进行语音识别后得到的关键词而确定;交互对象确定单元702配置用于确定交互指令对应的交互对象;呈现单元703配置用于在直播界面中呈现直播视频和交互对象。
在本实施例的一些可选的实现方式中,装置700还包括:信息接收单元(未示出),配置用于接收服务器发送的时间戳信息,时间戳信息包含关键词对应的语音信号在直播视频中出现的时间点,以在时间点在直播界面中呈现交互对象。
图8示出了适于用来实现本申请实施例的应用于视频直播的交互装置的计算机系统的结构示意图。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有系统800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述设备中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:接收主播客户端发送的直播视频,所述直播视频由主播客户端实时录制而生成,所述直播视频包括:视频流、音频流;对所述音频流进行语音识别,得到关键词;确定所述关键词对应的交互指令;将所述直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种应用于视频直播的交互方法,其特征在于,所述方法包括:
接收主播客户端发送的直播视频,所述直播视频由主播客户端实时录制而生成,所述直播视频包括:视频流、音频流;
对所述音频流进行语音识别,得到关键词;
确定所述关键词对应的交互指令,所述交互指令用于触发在用户客户端的直播界面中呈现交互对象;
将所述直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象,所述方法还包括:确定所述关键词对应的语音信号在直播视频中出现的时间点;生成包含所述时间点的时间戳信息;将所述时间戳信息发送给用户客户端。
2.根据权利要求1所述的方法,其特征在于,对所述音频流进行语音识别,得到关键词包括:
对所述音频流进行语音识别,得到音频流对应的语句;
对所述语句进行分词,得到词语集合;
查找出词语集合中与预设关键词匹配的所述关键词。
3.根据权利要求1所述的方法,其特征在于,所述交互对象包括:动画、图片、表情符号。
4.一种应用于视频直播的交互方法,其特征在于,所述方法包括:
接收服务器发送的直播视频和交互指令,所述直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流,所述交互指令基于服务器对音频流进行语音识别后得到的关键词而确定;
确定交互指令对应的交互对象;
在直播界面中呈现直播视频和所述交互对象,所述方法还包括:接收服务器发送的时间戳信息,所述时间戳信息包含所述关键词对应的语音信号在直播视频中出现的时间点,以在所述时间点在直播界面中呈现所述交互对象。
5.一种应用于视频直播的交互装置,其特征在于,所述装置包括:
直播视频接收单元,接收主播客户端发送的直播视频,所述直播视频由主播客户端实时录制而生成,所述直播视频包括:视频流、音频流;
识别单元,配置用于对所述音频流进行语音识别,得到关键词;
确定单元,配置用于确定所述关键词对应的交互指令,所述交互指令用于触发在用户客户端的直播界面中呈现交互对象;
发送单元,配置用于将所述直播视频和交互指令发送至用户客户端,以在用户客户端的直播界面中呈现直播视频和交互指令对应的交互对象;
时间点确定单元,配置用于确定所述关键词对应的语音信号在直播视频中出现的时间点;
生成单元,配置用于生成包含所述时间点的时间戳信息;
信息发送单元,配置用于将所述时间戳信息发送给用户客户端。
6.根据权利要求5所述的装置,其特征在于,识别单元包括:
音频流识别子单元,配置用于对所述音频流进行语音识别,得到音频流对应的语句;
分词子单元,配置用于对所述语句进行分词,得到词语集合;
查找子单元,配置用于查找出词语集合中与预设关键词匹配的所述关键词。
7.根据权利要求5所述的装置,其特征在于,所述交互对象包括:动画、图片、表情符号。
8.一种应用于视频直播的交互装置,其特征在于,所述装置包括:
接收单元,配置用户接收服务器发送的直播视频和交互指令,所述直播视频由主播客户端实时录制而生成,直播视频包括:视频流、音频流,所述交互指令基于服务器对音频流进行语音识别后得到的关键词而确定;
交互对象确定单元,配置用于确定交互指令对应的交互对象;
呈现单元,配置用于在直播界面中呈现直播视频和所述交互对象;
信息接收单元,配置用于接收服务器发送的时间戳信息,所述时间戳信息包含所述关键词对应的语音信号在直播视频中出现的时间点,以在所述时间点在直播界面中呈现所述交互对象。
CN201610697951.8A 2016-08-19 2016-08-19 应用于视频直播的交互方法和装置 Active CN106303658B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610697951.8A CN106303658B (zh) 2016-08-19 2016-08-19 应用于视频直播的交互方法和装置
KR1020170018356A KR101945920B1 (ko) 2016-08-19 2017-02-09 비디오 방송에 적용되는 인터랙션 방법 및 장치
JP2017023640A JP6629774B2 (ja) 2016-08-19 2017-02-10 ライブ配信に応用する対話型方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610697951.8A CN106303658B (zh) 2016-08-19 2016-08-19 应用于视频直播的交互方法和装置

Publications (2)

Publication Number Publication Date
CN106303658A CN106303658A (zh) 2017-01-04
CN106303658B true CN106303658B (zh) 2018-11-30

Family

ID=57661026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610697951.8A Active CN106303658B (zh) 2016-08-19 2016-08-19 应用于视频直播的交互方法和装置

Country Status (3)

Country Link
JP (1) JP6629774B2 (zh)
KR (1) KR101945920B1 (zh)
CN (1) CN106303658B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657951B (zh) * 2017-08-24 2020-10-30 深圳依偎控股有限公司 一种在直播过程中处理声音的方法及终端设备
CN107770624B (zh) * 2017-10-24 2021-03-05 中国移动通信集团公司 一种直播过程中多媒体文件的播放方法、装置及存储介质
CN108259983A (zh) * 2017-12-29 2018-07-06 广州市百果园信息技术有限公司 一种视频图像处理方法、计算机可读存储介质和终端
CN108171160B (zh) * 2017-12-27 2021-03-23 广州虎牙信息科技有限公司 一种任务结果识别方法、装置、存储介质及电子设备
WO2020056691A1 (zh) * 2018-09-20 2020-03-26 太平洋未来科技(深圳)有限公司 一种交互对象的生成方法、装置及电子设备
CN111182348B (zh) * 2018-11-09 2022-06-14 阿里巴巴集团控股有限公司 直播画面展示的方法、装置、存储装置和终端
CN109495763B (zh) * 2018-11-16 2020-12-01 北京达佳互联信息技术有限公司 虚拟物品记录确定方法、装置、服务器及存储介质
CN109618181B (zh) * 2018-11-28 2021-11-12 网易(杭州)网络有限公司 直播交互方法及装置、电子设备、存储介质
CN109817040A (zh) * 2019-01-07 2019-05-28 北京汉博信息技术有限公司 一种用于教学数据的处理系统
CN110784751B (zh) * 2019-08-21 2024-03-15 腾讯科技(深圳)有限公司 信息显示方法及装置
CN110572690B (zh) * 2019-09-29 2022-09-23 腾讯科技(深圳)有限公司 用在直播中的方法、装置及计算机可读存储介质
CN110881134B (zh) * 2019-11-01 2020-12-11 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN113038174B (zh) 2019-12-09 2021-12-21 上海幻电信息科技有限公司 直播视频互动方法、装置以及计算机设备
CN111147885B (zh) 2020-01-03 2021-04-02 北京字节跳动网络技术有限公司 直播间互动方法、装置、可读介质及电子设备
CN111601145A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于直播的内容展示方法、装置、设备及存储介质
CN113301436A (zh) * 2020-06-17 2021-08-24 阿里巴巴集团控股有限公司 播放控制方法、装置及计算机可读存储介质
CN111784418B (zh) * 2020-07-27 2023-08-08 网易(杭州)网络有限公司 直播间的显示控制方法及装置、计算机介质、电子设备
CN111787348B (zh) * 2020-07-28 2022-10-04 中国联合网络通信集团有限公司 基于直播的视频推送方法、推送装置及终端设备
CN114189699A (zh) * 2020-09-15 2022-03-15 阿里巴巴集团控股有限公司 政务服务信息提供方法、装置及电子设备
CN111935498B (zh) * 2020-10-16 2021-02-05 北京达佳互联信息技术有限公司 直播互动方法、装置及电子设备
CN114765691A (zh) * 2021-01-13 2022-07-19 北京字节跳动网络技术有限公司 视频直播的功能组件加载方法、数据处理方法及设备
CN115086687A (zh) * 2021-03-12 2022-09-20 北京字节跳动网络技术有限公司 信息发送方法、装置、电子设备及计算机可读存储介质
CN113824972B (zh) * 2021-05-31 2024-01-09 深圳市雅阅科技有限公司 直播视频的处理方法、装置、设备及计算机可读存储介质
CN113840152A (zh) * 2021-07-15 2021-12-24 阿里巴巴达摩院(杭州)科技有限公司 直播关键点处理方法和装置
CN113628622A (zh) * 2021-08-24 2021-11-09 北京达佳互联信息技术有限公司 语音交互方法、装置、电子设备及存储介质
CN113703767A (zh) * 2021-09-02 2021-11-26 北方工业大学 一种工程机械产品的人机交互界面设计方法和装置
CN113891104A (zh) * 2021-09-24 2022-01-04 北京沃东天骏信息技术有限公司 一种直播处理方法、直播平台、存储介质及电子设备
CN114095742A (zh) * 2021-11-09 2022-02-25 广州博冠信息科技有限公司 一种视频推荐方法、装置、计算机设备及存储介质
CN114095745A (zh) * 2021-11-16 2022-02-25 广州博冠信息科技有限公司 直播互动方法、装置、计算机存储介质和电子设备
CN115002496B (zh) * 2022-05-24 2024-04-09 广州博冠信息科技有限公司 直播平台的信息处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004228707A (ja) * 2003-01-20 2004-08-12 Ntt Data Corp コンテンツ提供システム
JP2005024736A (ja) * 2003-06-30 2005-01-27 Toshiba Corp 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2013118488A (ja) * 2011-12-02 2013-06-13 Nomura Research Institute Ltd 音声データ利用システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4513165B2 (ja) * 2000-04-20 2010-07-28 ソニー株式会社 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
JP2003244425A (ja) * 2001-12-04 2003-08-29 Fuji Photo Film Co Ltd 伝送画像の修飾パターンの登録方法および装置ならびに再生方法および装置
JP2005130356A (ja) * 2003-10-27 2005-05-19 Matsushita Electric Ind Co Ltd テレビ電話システム及びその通信方法、並びに通信端末
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
WO2010018975A2 (en) * 2008-08-13 2010-02-18 Kt Corporation System and method for providing video chat service
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
CN104363519B (zh) * 2014-11-21 2017-12-15 广州华多网络科技有限公司 一种基于在线直播的信息显示方法、相关装置及系统
CN104581221A (zh) * 2014-12-25 2015-04-29 广州酷狗计算机科技有限公司 视频直播的方法和装置
CN105228013B (zh) * 2015-09-28 2018-09-07 百度在线网络技术(北京)有限公司 弹幕信息处理方法、装置及弹幕视频播放器
CN105653167B (zh) * 2015-12-23 2019-02-12 广州华多网络科技有限公司 一种基于在线直播的信息展示方法及客户端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004228707A (ja) * 2003-01-20 2004-08-12 Ntt Data Corp コンテンツ提供システム
JP2005024736A (ja) * 2003-06-30 2005-01-27 Toshiba Corp 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2013118488A (ja) * 2011-12-02 2013-06-13 Nomura Research Institute Ltd 音声データ利用システム

Also Published As

Publication number Publication date
JP2018029325A (ja) 2018-02-22
KR20180020859A (ko) 2018-02-28
KR101945920B1 (ko) 2019-02-11
CN106303658A (zh) 2017-01-04
JP6629774B2 (ja) 2020-01-15

Similar Documents

Publication Publication Date Title
CN106303658B (zh) 应用于视频直播的交互方法和装置
US10698952B2 (en) Using digital fingerprints to associate data with a work
US10182095B2 (en) Method and system for video call using two-way communication of visual or auditory effect
US8838594B2 (en) Automatic method to synchronize the time-line of video with audio feature quantity
CN105721620B (zh) 视频信息推送方法和装置及视频信息展示方法和装置
CN103974143B (zh) 一种生成媒体数据的方法和设备
CN109493888B (zh) 漫画配音方法及装置、计算机可读存储介质、电子设备
CN108605160A (zh) 信息处理设备和信息处理方法
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
WO2019227429A1 (zh) 多媒体内容生成方法、装置和设备/终端/服务器
WO2017185601A1 (zh) 一种提供、下载视频的方法及设备
JP2019512144A (ja) 限定対話機能を用いたリアルタイムのコンテンツ編集
CN108304368A (zh) 文本信息的类型识别方法和装置及存储介质和处理器
CN104065978B (zh) 一种媒体内容定位的方法及系统
CN103270764A (zh) 用于处理视频信号的方法和设备
CN110138654A (zh) 用于处理语音的方法和装置
CN110503979B (zh) 音频输出效果的监测方法、装置、介质及电子设备
CN104980817B (zh) 一种视频流抽帧方法及装置
US8351768B2 (en) Media processing comparison system and techniques
CN111008287A (zh) 音视频处理方法、装置、服务器及存储介质
US20200111475A1 (en) Information processing apparatus and information processing method
WO2016009834A1 (ja) 送信装置、送信方法、受信装置、及び、受信方法
CN111869225B (zh) 信息处理装置、信息处理方法及非暂时性计算机可读存储介质
CN115209215A (zh) 视频处理方法、装置及设备
CN104079948B (zh) 生成铃声文件的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant