CN115174947A - 直播视频的提取方法及装置、存储介质、电子设备 - Google Patents
直播视频的提取方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN115174947A CN115174947A CN202210749587.0A CN202210749587A CN115174947A CN 115174947 A CN115174947 A CN 115174947A CN 202210749587 A CN202210749587 A CN 202210749587A CN 115174947 A CN115174947 A CN 115174947A
- Authority
- CN
- China
- Prior art keywords
- video
- event
- extraction
- extracted
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4781—Games
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8166—Monomedia components thereof involving executable data, e.g. software
- H04N21/8173—End-user applications, e.g. Web browser, game
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种直播视频的提取方法及装置、存储介质、电子设备,涉及游戏直播技术领域,该方法包括:响应在在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。本公开提高了目标直播视频的提取效率。
Description
技术领域
本公开实施例涉及游戏直播技术领域,具体而言,涉及一种直播视频的提取方法、直播视频的提取装置、计算机可读存储介质以及电子设备。
背景技术
在一些对直播中产生的精彩视频进行查找或提取的方法中,可以通过如下几种方式来实现:
一种是,是通过人工回溯的方式来实现的;也即,在游戏直播结束后,通过人工回放的方式对精彩视频进行剪辑;
另一种是,是通过AI(Artificial Intelligence)的方式来实现的;也即,可以将直播视频输入至训练完成的神经网络模型中来对精彩视频进行提取。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种直播视频的提取方法、直播视频的提取装置、计算机可读存储介质以及电子设备。,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的直播视频的提取效率较低的问题。
根据本公开的一个方面,提供一种直播视频的提取方法,包括:
响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;
根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;
在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。
在本公开的一种示例性实施例中,所述视频待提取事件是在检测到用户对图像用户界面中的特定交互控件的操控事件时生成的。
在本公开的一种示例性实施例中,根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件,包括:
计算所述弹幕信息的第一信息条数,并判断所述第一信息条数在所述视频待提取事件被触发后的指定时间内是否大于第一预设阈值,得到第一判断结果;和/或
基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息,并判断所述指定时间内的正向弹幕信息的第二信息条数在所述第一信息条数中所占的比值是否大于第二预设阈值,得到第二判断结果;
根据第一判断结果和/或第二判断结果,判断所述视频待提取事件对应的目标直播视频是否满足所述视频提取条件。
在本公开的一种示例性实施例中,如果所述第一判断结果为所述第一信息条数大于所述第一预设阈值,且所述第二判断结果为第二信息条数在第一信息条数中所占的比例大于所述第二预设阈值,则所述视频待提取事件对应的目标直播视频满足所述视频提取条件。
在本公开的一种示例性实施例中,对所述目标视频进行提取,包括:
根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,并确定结束提取的时间节点;
基于所述开始提取的时间节点以及结束提取的时间节点,提取目标直播视频。
在本公开的一种示例性实施例中,根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,包括:
获取所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,并将所述操控事件的发生时间往前平移预设时间阈值,得到所述开始提取的时间节点。
在本公开的一种示例性实施例中,确定结束提取的时间节点,包括:
获取释放与所述操控事件对应的特定交互控件所具有的特效技能所需要的释放时间,并在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间,得到所述结束提取的时间节点;或者
在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间以及所述预设时间阈值,得到所述结束提取的时间节点;或者
在操控事件的发生时间的基础上,往后平移特定时间段,得到所述结束提取的时间节点。
在本公开的一种示例性实施例中,所述直播视频的提取方法还包括:
根据所述特定交互控件以及所述特定交互控件所具有的技能属性,生成视频标签;
根据所述视频标签对提取到的目标直播视频进行标识,并对标识后的目标直播视频进行存储。
在本公开的一种示例性实施例中,所述对标识后的目标直播视频进行存储,包括:
计算所述第一信息条数与所述第一预设阈值之间的数值关系,并根据所述数值关系对标识后的目标直播视频进行分类,得到视频属性类别;
基于所述视频属性类别对标识后的目标直播视频进行分类存储。
在本公开的一种示例性实施例中,所述直播视频的提取方法还包括:
获取所述视频待提取事件被触发前的预设时间段内的历史弹幕信息,并计算所述历史弹幕信息的第三信息条数;
根据所述第三信息条数计算所述预设时间段内的平均弹幕数量,并根据所述屏幕数量得到所述第一预设阈值。
在本公开的一种示例性实施例中,基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息,包括:
根据所述预设的语义分析模型,确定弹幕信息中的分词对应的词向量,并针对每个语义属性,根据所述语义分析模型中包含该语义属性对应的注意力矩阵,以及所述分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量;
根据所述语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及所述第一特征表示向量,确定弹幕信息涉及每个语义属性的第二特征表示向量;
根据所述语义分析模型以及样本文本涉及所述第二特征表示向量,确定所述弹幕信息的分类结果;其中,所述分类结果包括所述弹幕信息的语义属性以及所述弹幕信息所属的语义属性的情感极性;
根据所述语义属性以及所述情感极性,对所述弹幕信息进行分类,得到所述正向弹幕信息以及负向弹幕信息。
在本公开的一种示例性实施例中,确定所述弹幕信息涉及该语义属性的第一特征表示向量,包括:
将每个分词对应的词向量输入所述语义分析模型的属性表征层,并通过所述属性表征层中包含该语义属性对应的注意力矩阵,对每个分词对应的词向量剂型注意力加权;
根据注意力加权后的每个分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量。
在本公开的一种示例性实施例中,确定弹幕信息涉及每个语义属性的第二特征表示向量,包括:
将所述弹幕信息涉及每个语义属性的第一特征表示向量输入所述语义分析模型中的属性相关性表示层;
通过所述属性相关性表示层中包含的用于标识不同语义属性之间的相关性的自注意力矩阵,对所述弹幕信息涉及每个语义属性的第一特征表示向量进行自注意力加权;
根据自注意力加权后的各第一特征表示向量,确定所述弹幕信息涉及每个语义属性的第二特征表示向量。
根据本公开的一个方面,提供一种直播视频的提取装置,包括:
弹幕信息获取模块,用于响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;
视频提取条件判断模块,用于根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;
视频提取模块,用于在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的直播视频的提取方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的直播视频的提取方法。
本公开实施例提供的一种直播视频的提取方法,一方面,通过响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;然后根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;最后在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取,实现了在直播过程中对目标直播视频进行提取,解决了现有技术中无法在直播的过程中直接对精彩视频进行提取,进而使得视频提取不及时,存在滞后性的问题,提高了视频提取的及时性;另一方面,通过根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;最后在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取,实现了对直播视频的自动提取,提高了视频提取的效率;再一方面,由于可以在直播过程中对目标直播视频进行实时提取,无需将所有的视频输入至训练完成的神经网络模型中实现视频的提取,进而可以避免由于直播视频的数据量过大导致的神经网络模型的负载过重进而使得视频提取效率低的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出根据本公开示例实施例的一种直播视频的提取方法的流程图。
图2示意性示出根据本公开示例实施例的一种直播视频的提取系统的示例图。
图3示意性示出根据本公开示例实施例的一种预设的语义分析模型的结构示例图。
图4示意性示出根据本公开示例实施例的一种特定交互控件被触发的具体场景示例图。
图5示意性示出根据本公开示例实施例的另一种特定交互控件被触发的具体场景示例图。
图6示意性示出根据本公开示例实施例的一种弹幕信息的场景示例图。
图7示意性示出根据本公开示例实施例的一种基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息的方法流程图。
图8示意性示出根据本公开示例实施例的一种弹幕信息的分类结果的示例图。
图9示意性示出根据本公开示例实施例的一种正向弹幕信息的示例图。
图10示意性示出根据本公开示例实施例的一种基于多侧交互的直播视频的提取方法的示例图。
图11示意性示出根据本公开示例实施例的一种直播视频的提取装置的框图。
图12示意性示出根据本公开示例实施例的一种用于实现直播视频的提取方法的电子设备。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在一些对游戏直播视频进行提取或剪辑的方法中,往往需要通过人工回溯的方式进行查找、剪辑。但是,上述方案存在如下缺陷;一方面,精彩时刻缺乏一个判定标准,人工筛选时,受各人各种主观因素影响,筛选的分类会收到影响;另一方面,人力成本较高,且无规则可循;同时,视频的处理有一定的滞后性,需要等直播完毕后,再来剪辑,不能即时的产出精彩时刻;再一方面,精彩时刻视频缺乏合理的分类标准,受人工主观因素过大,导致一般精彩、极其精彩等视频容易混乱区分。
在另一些通过AI(Artificial Intelligence,人工智能)的方式来实现的实现视频提取的方法中,由于需要将直播视频输入至训练完成的神经网络模型中来对精彩视频进行提取,但直播视频的数据量过大,进而使得神经网络模型的负担较重,视频提取效率较低;并且,AI内容识别技术对直播视频本身内容要求高,要求视频帧必须相对简单,不能出现太多干扰性画面,例如繁杂的大街、光怪陆离的特效以及遮盖视频本身的弹幕等等,但是由于直播视频存在遮盖视频本身的弹幕信息,进而使得识别结果的精确度较低,导致所提取到的目标视频不是精彩视频或者精彩视频未被提取到;进一步的,AI内容识别技术只能获取视频本身内容的有效信息,在视频内容不足以代表视频本身关键信息的情况下,容易忽略其他的关键信息,例如音乐类型MV,针对非明星类型的主唱,仅能输出歌唱、演艺、歌手等分类标签,存在标签不全面、有效性不够的问题,无法为现实业务需求提供更有意义的视频标签。
基于此,本示例实施方式中首先提供了一种直播视频的提取方法,该方法可以运行于服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本公开的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该直播视频的提取方法可以包括以下步骤:
步骤S110.响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;
步骤S120.根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;
步骤S130.根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件。
上述直播视频的提取方法中,一方面,通过响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;然后根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;最后在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取,实现了在直播过程中对目标直播视频进行提取,解决了现有技术中无法在直播的过程中直接对精彩视频进行提取,进而使得视频提取不及时,存在滞后性的问题,提高了视频提取的及时性;另一方面,通过根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;最后在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取,实现了对直播视频的自动提取,解决了现有技术中通过人工的方式进行剪辑,使得视频提取效率较低的问题,提高了视频提取的效率;再一方面,由于可以在直播过程中对目标直播视频进行实时提取,无需将所有的视频输入至训练完成的神经网络模型中实现视频的提取,进而可以避免由于直播视频的数据量过大导致的神经网络模型的负载过重进而使得视频提取效率低的问题。
以下,将结合附图对本公开示例实施例直播视频的提取方法进行详细的解释以及说明。
首先,对本公开示例实施例的发明目的以及应用场景进行解释以及说明。具体的,本公开示例实施例提供的一种直播视频的提取方法,可以用于在直播过程中,自动的对某些精彩时刻的直播视频进行自动剪辑/提取。其中,此处所记载的某些精彩时刻的直播视频,可以包括游戏直播视频、晚会直播视频、购物直播视频或者一些音乐直播以及谈话直播、日常生活直播等等。
基于此,在具体的应用过程中,以游戏直播为例,需要使用游戏客户端的API接口,进而通过直播客户端的数据得知游戏事件的触发,以及了解游戏事件发生时,直播平台的相关数据情况。为了解决该技术问题,需要基于游戏SDK和直播平台SDK,拿到相应的数据,然后进行一系列合并结算,得出当前视频的精彩质量;并且,游戏侧可以通过开放SDK的形式,将具体触发精彩时刻的游戏事件进行记录,如“合宠”“鉴定”等,当主播触发此类游戏事件时,开始上报。进一步的,通过游戏SDK可以得知,当前主播什么时候开启了“合宠”“鉴定”等导致精彩时刻的开端;例如,以鉴定装备为例,只有“鉴定”开启,才有可能导致产生精彩时刻,当游戏SDK告知主播触发“鉴定”行为后,再通过对直播间弹幕的语义正负向分析,如“厉害”“666”“牛”等,加上弹幕的数量,是否超出平均弹幕数,进而大致筛选出精彩时刻的视频片段。
其次,以游戏直播为例,对本公开示例实施例所涉及到的直播视频的提取系统进行解释以及说明。具体的,参考图2所示,该直播视频的提取系统可以包括直播客户端或者游戏客户端所在的终端设备210、游戏服务器220以及视频存储数据库230;其中,终端设备与游戏服务器可以通过有线网络或者无线网络进行通信连接,游戏服务器与视频存储数据库通信连接。并且,直播客户端或者游戏客户端中集成有预设的检测工具,该预设的检测工具是以SDK的形式集成在直播客户端或者游戏客户端中的,该检测工具可以用于检测当前用户(例如可以是主播用户,也可以是其他用户,本示例对此不做特殊限制)合适触发了特定交互控件(该特定交互控件例如可以是一般的通过概率性合成的装备打造技术实现通过的游戏中的某些装备开始合成时候的交互控件,例如可以是萌宠合成游戏中包括的“合宠”交互控件或者“鉴定”交互控件等等,也可以是主播在取得某些成就时所触发的特定交互控件,本示例对此不做特殊限制);同时,当检测到作用于特定交互控件的操控事件(此处所记载的操控事件,可以是对该特定交互控件的触控事件,也可以是对该特定交互控件的操作事件,本示例对此不做特殊限制)时,终端设备即可根据该操控事件生成视频待提取事件,并将视频待提取事件上报至游戏服务器。进一步的,游戏服务器可以用于实现本公开示例实施例所记载的直播视频的提取方法,视频存储数据库可以用于对提取到的直播视频进行存储,以便于其他用户对提取到的直播视频进行观看或者进行进一步的剪辑等等。
此处需要补充说明的是,上述特定交互控件在不同的应用场景中,所指代的交互控件也不相同;例如,在对晚会直播视频所产生的精彩视频进行提取的场景下,该特定交互控件例如可以是某个表演者、某个类型的节目或者某个特定的节目等等;在对购物直播视频所产生的精彩视频进行提取的场景下,该特定交互控件例如可以是某个物品或者某个类型的物品等等,本示例对此不做特殊限制。
以下,结合图3对本公开示例实施例所涉及到的语义分析模型进行解释以及说明。
具体的,参考图3所示,该语义分析模型可以包括语义表征层310、属性表征层320、属性相关性表示层330以及分类层340;其中,语义表征层310、属性表征层320、属性相关性表示层330以及分类层340依次连接;其中,语义表征层语义表征层中至少包括用于输出双向语义表示向量的子模型,如Bert模型,Bidirectional Encoder Representations fromTransformers模型等;属性表征层中至少包含每个语义属性各自对应的注意力矩阵;属性相关性表示层中至少包含自注意力矩阵,该自注意力矩阵用于表示不同语义属性之间的相关性,该自注意力矩阵的形式可以为:矩阵中的元素Rij表示第i个语义属性与第j个语义属性的相关性,相关性越强,Rij的值越大,反之越小;分类层至少包括隐藏层、全连接层和softmax层。
其中,该语义分析模型的具体训练过程可以通过如下方式进行实现:
首先,获取样本文本,并确定样本文本中包含的每个分词;具体的,可先从语料库中获取多个文本,确定由获取的多个文本所构成的训练集,则,针对训练集中的每个文本,可将该文本作为样本文本,并通过该样本文本对待训练的语义分析模型进行训练;此处需要补充说明的是,所获取到的样本文本,是游戏直播场景下观看游戏直播的用户针对于游戏的弹幕信息;或者与游戏关联的其他评论信息,本示例对此不做特殊限制;并且,在样本文本中,需要包括积极正向类别的文本(例如,太厉害了、真棒、666、给你点赞等等)、中性类别的文本(例如,刺激、路过、围观等等)以及消极负向类型的文本(例如,太烂了、你这不行、真是辣眼睛等等)。
其次,针对某个样本文本,确定该样本文本中包含的分词。其中,在确定样本问题中包含的分词的过程中,可先对该样本文本进行分词处理,以得到该样本文本中包含的每个分词。在对样本文本进行分词处理时,可采用任何分词方法,当然,也可将该样本文本中的每个字符都作为一个分词进行处理,即,单字成词。本说明书对分词处理的方法不作限制。
然后,根据待训练的语义分析模型,确定每个分词对应的词向量。具体的,可以将每个分词输入语义分析模型中的语义表征层,得到语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。当然,用于输出双向语义表示向量的模型除了上述的BERT模型以外,还包括其他模型,本说明书对此不作限制。
进一步的,针对每个语义属性,根据待训练的语义分析模型中包含该语义属性对应的注意力矩阵,以及每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。具体的,可以将每个分词对应的词向量输入语义分析模型中的属性表征层,通过属性表征层中包含的该语义属性对应的注意力矩阵,对每个分词对应的词向量进行注意力加权,根据注意力加权后的每个分词对应的词向量,确定样本文本涉及该语义属性的第一特征表示向量。需要说明的是,上述的第一特征表示向量可以表征该样本文本涉及该语义属性的概率以及在该语义属性上的情感极性。
更进一步的,根据待训练的语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及样本文本涉及每个语义属性的第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量。具体的,可将样本文本涉及每个语义属性的第一特征表示向量输入语音分析模型中的属性相关性表示层,通过属性相关性表示层中包含的上述自注意力矩阵,对样本文本涉及每个语义属性的第一特征表示向量进行自注意力加权,根据自注意力加权后的各第一特征表示向量,确定样本文本涉及每个语义属性的第二特征表示向量。此处需要补充说明的是,第二特征表示向量同样可以表征该样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性,但与第一特征表示向量不同的是,第一特征表示向量是采用各自独立的每个语义属性对应的注意力矩阵对词向量加权得到的,因此,其表征的样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性并未考虑不同语义属性之间的相关性。而第二特征表示向量是采用用于表示不同语义属性之间相关性的自注意力矩阵对第一特征表示向量加权得到的,相当于由自注意力矩阵引入了不同语义属性之间相关性的因素,因此,其表征的样本文本涉及每个语义属性的概率以及在该语义属性上的情感极性考虑了不同语义属性之间的相关性。
最后,根据待训练的语义分析模型以及样本文本涉及每个语义属性的第二特征表示向量,确定待训练的语义训练模型输出的分类结果,再根据分类结果和针对样本文本预设的标注,对语义分析模型中的模型参数进行调整,以完成对所述语义分析模型的训练。具体的,首先,可将样本文本涉及每个语义属性的第二特征表示向量依次输入分类层中的隐层、全连接层和Softmax层,根据每个第二特征表示向量以及分类层的隐层、全连接层和Softmax层中包含的与每个语义属性对应的分类参数,对所述样本文本进行分类,得到分类层输出的分类结果。其中,分类结果至少包括样本文本所属的语义属性以及样本文本在其所属的语义属性上对应的情感极性;该情感极性可以采用数值进行量化,例如,数值越接近于1,则表示情感极性越倾向于正面,数值越接近于-1,则表示情感极性越倾向于负面,数值接近于0,则表示情感极性倾向于中性。
此处需要补充说明的是,在对待训练的语义分析模型的参数进行调整的过程中,至少包括上述的分类参数,还可包括上述的注意力矩阵和自注意力矩阵。可采用传统的训练方法对语义分析模型中的模型参数进行调整。即,分类结果和针对样本文本预设的标注,确定分类结果对应的损失函数,并以该第一损失最小化为训练目标对语义分析模型中的模型参数进行调整,以完成对语义分析模型的训练。
至此,已经完成了语义分析模型的训练过程;其中,所得到的语义分析模型可以集成在服务器的本地磁盘中,当需要进行语义分析时,可以直接通过对应的接口对该语义分析模型调用即可。
以下,将结合图2以及图3对图1中所示出的直播视频的提取方法进行解释以及说明。同时,本公开示例实施例均以游戏直播场景为例进行解释以及说明,其他场景类似,本示例对此不做特殊限制。
在步骤S110中,响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;其中,所述视频待提取事件是在检测到用户对图像用户界面中的特定交互控件的操控事件时生成的。
具体的,在一种游戏直播的场景下,在主播对游戏进行直播的过程中,当终端设备通过设置在游戏客户端中的检测工具检测到主播用户作用于当前游戏场景中包括的特定交互控件的操控事件时,即可根据该操控事件发生的发生时间、特定交互控件的控件标识以及该特定交互控件被触发以后所具有的技能属性,生成视频待提取事件,然后再将该视频待提取事件发送至游戏服务器;其中,特定交互控件被触发的具体场景示例图,可以参考图4以及图5所示;当然,该视频待提取事件也可以是主播在进行游戏的过程中,完成了一个较为重要的任务所赢得的宝箱需要开启的时候触发的,或者主播在进行游戏的过程中需要攻打某个大Boss的时候触发的,本示例对此不做特殊限制;并且,该视频待提取事件可以是自动触发的,也可以是在检测到用户对图像界面中的特定交互控件的操控事件时触发的,本示例对此不做特殊限制。
进一步的,当游戏服务器接收到该视频待提取事件以后,即可获取该视频待提取事件被触发后该当前游戏场景中所具有的弹幕信息;其中,该弹幕信息是观看游戏直播的用户通过自身持有的客户端进行输入的,该弹幕信息包括时间轴数据以及弹幕内容数据;该时间轴数据可以用于表征该弹幕信息发送的时间;具体的弹幕信息的场景示例图,可以参考图6所示。
在步骤S120中,根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件。
在本示例实施例中,判断目标直播视频是否满足视频提取条件,具体可以通过如下方式实现:计算所述弹幕信息的第一信息条数,并判断所述第一信息条数在所述视频待提取事件被触发后的指定时间内是否大于第一预设阈值,得到第一判断结果;和/或基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息,并判断所述指定时间内的正向弹幕信息的第二信息条数在所述第一信息条数中所占的比值是否大于第二预设阈值,得到第二判断结果;根据第一判断结果和/或第二判断结果,判断所述当前游戏场景下的直播视频是否满足所述视频提取条件。其中,如果所述第一判断结果为所述第一信息条数大于所述第一预设阈值,且所述第二判断结果为第二信息条数在第一信息条数中所占的比例大于所述第二预设阈值,则所述视频待提取事件对应的目标直播视频满足所述视频提取条件。
具体的,在对目标直播视频是否满足视频提取条件的判断过程中,可以基于两方面来实现:一方面是,弹幕信息的第一信息条数来确定直播视频是否是精彩视频,另一方面是,根据弹幕信息是否绝大部分属于正向弹幕信息来确定直播视频是否是精彩视频;在此前提下,若均满足条件,也即,弹幕数量多且弹幕属于积极的正向的信息,则确定其属于精彩视频。例如,对每条弹幕信息进行语义分析,识别率达到0.80及以上,识别为积极正向类,当1分钟内的弹幕,积极正向类的弹幕占据了总弹幕的80%以上后,即可将「鉴定开启后的这段视频」标记为精彩时刻视频。通过该方法,可以在保证所提取到的直播视频的精彩程度的基础上,确保所提取到的直播视频是积极的正向的。
在一种示例实施例中,上述所述的第一预设阈值具体可以通过如下方式计算得到:首先,获取所述视频待提取事件被触发前的预设时间段内的历史弹幕信息,并计算所述历史弹幕信息的第三信息条数;其次,根据所述第三信息条数计算所述预设时间段内的平均弹幕数量,并根据所述屏幕数量得到所述第一预设阈值。也即,可以获取视频待提取事件被触发前当前直播间的前10分钟内所有的历史弹幕信息,然后计算该段时间内的历史弹幕信息的第三信息条数;然后,根据该段时间内每分钟内的平均弹幕数量,例如,每分钟平均弹幕数量为X条,以此得出本时段内直播间弹幕的平均水平,也即前述所述的第一预设阈值。通过该方法,可以避免由于第一预设阈值是根据本场直播的弹幕条数来计算的,进而可以避免由于采用其他场次的直播的弹幕条数来计算预设阈值导致的存在时间差异或者季节差异等造成的无法准确的判断是否为本场的精彩视频的问题。
图7示意性示出根据本公开示例实施例的一种基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息的方法流程图。具体的,参考图7所示,可以包括以下步骤:
步骤S710,根据所述预设的语义分析模型,确定弹幕信息中的分词对应的词向量,并针对每个语义属性,根据所述语义分析模型中包含该语义属性对应的注意力矩阵,以及所述分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量。
在本示例实施例中,首先,可将弹幕信息中每个分词输入语义分析模型中的语义表征层,得到语义表征层输出的每个分词分别对应的双向语义表示向量,作为每个分词对应的词向量。其中,用于输出双向语义表示向量的模型除了上述的Bert模型以外,还包括其他模型,本示例对此不做特殊限制;其次,当得到每个分词对应的词向量以后,即可针对每个语义属性,根据语义分析模型中包含该语义属性对应的注意力矩阵,以及每个分词对应的词向量,确定弹幕信息涉及该语义属性的第一特征表示向量。其中,第一特征表示向量的确定过程,可以通过如下方式实现:首先,将每个分词对应的词向量输入所述语义分析模型的属性表征层,并通过所述属性表征层中包含该语义属性对应的注意力矩阵,对每个分词对应的词向量剂型注意力加权;其次,根据注意力加权后的每个分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量。此处需要补充说明的是,该第一特征表示向量可以表征该弹幕信息涉及该语义属性的概率以及在该语义属性上的情感极性。
步骤S720,根据所述语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及所述第一特征表示向量,确定弹幕信息涉及每个语义属性的第二特征表示向量。
在本示例实施例中,首先,将所述弹幕信息涉及每个语义属性的第一特征表示向量输入所述语义分析模型中的属性相关性表示层;其次,通过所述属性相关性表示层中包含的用于标识不同语义属性之间的相关性的自注意力矩阵,对所述弹幕信息涉及每个语义属性的第一特征表示向量进行自注意力加权;然后,根据自注意力加权后的各第一特征表示向量,确定所述弹幕信息涉及每个语义属性的第二特征表示向量。
具体的,由于语义分析模型中的属性相关性表示层中至少包含自注意力矩阵,该自注意力矩阵用于表示不同语义属性之间的相关性,该自注意力矩阵的形式可以为:矩阵中的元素Rij表示第i个语义属性与第j个语义属性的相关性,相关性越强,Rij的值越大,反之越小。因此,可以将涉及每个语义属性的第一特征表示向量输入属性相关性表示层,通过属性相关性表示层中包含的上述自注意力矩阵,对每个语义属性的第一特征表示向量进行自注意力加权,根据自注意力加权后的各第一特征表示向量,确定第二特征表示向量。此处需要补充说明的是,第二特征表示向量同样可以表征该弹幕信息涉及每个语义属性的概率以及在该语义属性上的情感极性,但与第一特征表示向量不同的是,第一特征表示向量是采用各自独立的每个语义属性对应的注意力矩阵对词向量加权得到的,因此,其表征的弹幕信息涉及每个语义属性的概率以及在该语义属性上的情感极性并未考虑不同语义属性之间的相关性。而第二特征表示向量是采用用于表示不同语义属性之间相关性的自注意力矩阵对第一特征表示向量加权得到的,相当于由自注意力矩阵引入了不同语义属性之间相关性的因素,因此,其表征的弹幕信息涉及每个语义属性的概率以及在该语义属性上的情感极性考虑了不同语义属性之间的相关性,进而可以提高分类结果的准确性。
步骤S730,根据所述语义分析模型以及样本文本涉及所述第二特征表示向量,确定所述弹幕信息的分类结果;其中,所述分类结果包括所述弹幕信息的语义属性以及所述弹幕信息所属的语义属性的情感极性。
具体的,由于分类层至少包括隐藏层、全连接层和Softmax层;因此,可以将第二特征表示向量依次输入分类层中的隐层、全连接层和Softmax层,根据每个第二特征表示向量以及分类层的隐藏层、全连接层和Softmax层中包含的与每个语义属性对应的分类参数,对当前党睦信息进行分类,得到分类层输出的分类结果。其中,该分类结果至少包括弹幕信息所属的语义属性以及弹幕信息在其所属的语义属性上对应的情感极性。其中,该情感极性可以采用数值进行量化,例如,数值越接近于2,则表示情感极性越倾向于正面,数值越接近于0,则表示情感极性越倾向于负面,数值接近于1,则表示情感极性倾向于中性;其中,具体的分类结果可以参考图8所示。
步骤S740,根据所述语义属性以及所述情感极性,对所述弹幕信息进行分类,得到所述正向弹幕信息以及负向弹幕信息。
具体的,所得到的正向弹幕信息具体可以参考图9所示。
在步骤S130中,在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。
在本示例实施例中,在确定目标直播视频中包括的弹幕信息较多且弹幕信息大多数为正向积极的弹幕时,确定其满足视频提取条件;并且,在确定其满足视频提取条件时,即可对其进行提取。其中,具体的提取过程可以通过如下方式实现:首先,根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,并确定结束提取的时间节点;然后基于所述开始提取的时间节点以及结束提取的时间节点,提取目标直播视频。
在一种示例实施例中,根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,可以通过如下方式实现:获取所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,并将所述操控事件的发生时间往前平移预设时间阈值,得到所述开始提取的时间节点。也即,在确定开始时间节点时,需要在特定交互控件的操控事件的发生时间之前,即需要开始提取该目标视频,进而可以确保操控事件可以被完整的包括在目标视频中,进而达到提高目标视频的完整性的目的,从而提升用户的观看体验;当然,为了节省存储空间,也可以直接将操控事件的发生时间作为开始提取的时间节点,本示例对此不做特殊限制。
在一种示例实施例中,确定结束提取的时间节点,可以通过如下方式实现:获取释放与所述操控事件对应的特定交互控件所具有的特效技能所需要的释放时间,并在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间,得到所述结束提取的时间节点;或者在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间以及所述预设时间阈值,得到所述结束提取的时间节点;或者在操控事件的发生时间的基础上,往后平移特定时间段,得到所述结束提取的时间节点。也即,在一种可能的实施例中,所提取到的直播视频的时长可以限制在一定的时限内,比如从开始提取的时间节点起算,达到一定的时间长度(例如3分钟或5分钟等等)以后,即可自动的停止提取;在另一种可能的实施例中,可以根据操控事件对应的特定交互控件的释放技能所需要的时间来确定具体的时长,比如某一特定交互控件的技能释放需要3分钟,则可以在三分钟后停止,或者在三分钟的基础上增加一分钟或者30秒等等;又比如,某一特定交互控件的技能释放需要1分钟,则可以在一分钟后停止,或者在一分钟的基础上再增加一分钟或30秒等等,本示例对此不做特殊限制。
此处需要补充说明的是,关于上述目标视频的开始提取的时间节点以及结束提取的时间节点,在实际应用中,可以根据实际需要自行配置,本示例对此不做特殊限制。
在一种实施例中,当提取到直播视频以后,还需要对该直播视频进行存储。其中,具体的存储过程可以按照如下方式实现:首先,根据所述特定交互控件以及所述特定交互控件所具有的技能属性,生成视频标签;其次,根据所述视频标签对提取到的目标直播视频进行标识,并对标识后的目标直播视频进行存储。也即,可以根据所提取到的目标直播视频中所具有的技能属性,生成该目标直播视频的标签,进而便于后续在观看或者执行其他动作时,可以根据该标签进行快速的筛选。
在一种实施例中,对标识后的直播视频进行存储,还可以通过如下方式实现:计算所述第一信息条数与所述第一预设阈值之间的数值关系,并根据所述数值关系对标识后的直播视频进行分类,得到视频属性类别;基于所述视频属性类别对标识后的目标直播视频进行分类存储。例如,观众观看主播产生精彩时刻后,会刷屏以表示震惊程度,举例,合宠出一个5技能的召唤兽,就没有10技能的召唤兽反响大,所以可以根据弹幕数量来筛选视频的精彩程度。举例来说,当前直播间前10分钟,每分钟平均弹幕为X条,进而可以得出本时段内直播间弹幕的平均水平;因此,可以将平均水平的2倍(2*X)、3倍(3*X)、4倍(4*X)分别对应为一般精彩时刻、良好精彩时刻、优秀精彩时刻。例如,已识别为精彩时刻,且2倍弹幕(2*X)=一般精彩时刻;已识别为精彩时刻,且3倍弹幕(3*X)=良好精彩时刻;已识别为精彩时刻,且4倍弹幕(4*X)=优秀精彩时刻;进而可以根据具体的精彩程度,对所提取到的直播视频进行分类存储。
以下,将结合图10对本公开示例实施例的直播视频的提取方法进行进一步的解释以及说明。具体的,参考图10所示,该直播视频的提取方法可以包括以下步骤:
步骤S1001,终端设备基于检测工具检测到当前用户作用于当前游戏场景中包括的特定交互控件的操控事件;
步骤S1002,终端设备根据操控事件生成视频待提取事件,并将视频待提取事件发送至游戏服务器;
步骤S1003,游戏服务器获取视频待提取事件被触发后当前游戏场景中所具有的弹幕信息;
步骤S1004,游戏服务器根据弹幕信息判断当前游戏场景下的直播视频是否满足视频提取条件;
步骤S1005,游戏服务器在确定直播视频满足视频提取条件时,对直播视频进行提取,并对提取到的直播视频进行存储。
基于此可以得知,本公开示例实施例所记载的直播视频的提取方法,一方面,降低了人力成本,让精彩时刻的产生变的有规则可循;并且,精彩时刻的视频筛选变的有即时性,无需等待直播结束后,再人工回溯剪辑,直接识别精彩时刻并导出,节省了一一筛选等成本;再一方面,筛选出的精彩时刻视频也有了合理的分类标准,不受人工主观因素,不会导致一般精彩、极其精彩等视频混乱区分。
本公开示例实施例还提供了一种直播视频的提取装置。参考图11所示,该直播视频的提取装置可以包括弹幕信息获取模块1110、视频提取条件判断模块1120以及视频提取模块1130。其中:
弹幕信息模块1110,可以用于响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;
视频提取条件判断模块1120,可以用于根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;
视频提取模块1130,可以用于在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。
上述直播视频的提取装置中,一方面,通过响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;然后根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;最后在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取,实现了在直播过程中对目标直播视频进行提取,解决了现有技术中无法在直播的过程中直接对精彩视频进行提取,进而使得视频提取不及时,存在滞后性的问题,提高了视频提取的及时性;另一方面,通过根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;最后在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取,实现了对直播视频的自动提取,解决了现有技术中通过人工的方式进行剪辑,使得视频提取效率较低的问题,提高了视频提取的效率;再一方面,由于可以在直播过程中对目标直播视频进行实时提取,无需将所有的视频输入至训练完成的神经网络模型中实现视频的提取,进而可以避免由于直播视频的数据量过大导致的神经网络模型的负载过重进而使得视频提取效率低的问题。
在本公开的一种示例性实施例中,所述视频待提取事件是在检测到用户对图像用户界面中的特定交互控件的操控事件时生成的。
在本公开的一种示例性实施例中,根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件,包括:
计算所述弹幕信息的第一信息条数,并判断所述第一信息条数在所述视频待提取事件被触发后的指定时间内是否大于第一预设阈值,得到第一判断结果;和/或
基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息,并判断所述指定时间内的正向弹幕信息的第二信息条数在所述第一信息条数中所占的比值是否大于第二预设阈值,得到第二判断结果;
根据第一判断结果和/或第二判断结果,判断所述视频待提取事件对应的目标直播视频是否满足所述视频提取条件。
在本公开的一种示例性实施例中,如果所述第一判断结果为所述第一信息条数大于所述第一预设阈值,且所述第二判断结果为第二信息条数在第一信息条数中所占的比例大于所述第二预设阈值,则所述视频待提取事件对应的目标直播视频满足所述视频提取条件。
在本公开的一种示例性实施例中,对所述目标视频进行提取,包括:
根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,并确定结束提取的时间节点;
基于所述开始提取的时间节点以及结束提取的时间节点,提取目标直播视频。
在本公开的一种示例性实施例中,根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,包括:
获取所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,并将所述操控事件的发生时间往前平移预设时间阈值,得到所述开始提取的时间节点。
在本公开的一种示例性实施例中,确定结束提取的时间节点,包括:
获取释放与所述操控事件对应的特定交互控件所具有的特效技能所需要的释放时间,并在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间,得到所述结束提取的时间节点;或者
在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间以及所述预设时间阈值,得到所述结束提取的时间节点;或者
在操控事件的发生时间的基础上,往后平移特定时间段,得到所述结束提取的时间节点。
在本公开的一种示例性实施例中,所述直播视频的提取装置还包括:
视频标签生成模块,可以用于根据所述特定交互控件以及所述特定交互控件所具有的技能属性,生成视频标签;
视频标识存储模块,可以用于根据所述视频标签对提取到的目标直播视频进行标识,并对标识后的目标直播视频进行存储。
在本公开的一种示例性实施例中,所述对标识后的目标直播视频进行存储,包括:
计算所述第一信息条数与所述第一预设阈值之间的数值关系,并根据所述数值关系对标识后的目标直播视频进行分类,得到视频属性类别;
基于所述视频属性类别对标识后的目标直播视频进行分类存储。
在本公开的一种示例性实施例中,所述直播视频的提取装置还包括:
第一计算模块,可以用于获取所述视频待提取事件被触发前的预设时间段内的历史弹幕信息,并计算所述历史弹幕信息的第三信息条数;
第二计算模块,可以用于根据所述第三信息条数计算所述预设时间段内的平均弹幕数量,并根据所述屏幕数量得到所述第一预设阈值。
在本公开的一种示例性实施例中,基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息,包括:
根据所述预设的语义分析模型,确定弹幕信息中的分词对应的词向量,并针对每个语义属性,根据所述语义分析模型中包含该语义属性对应的注意力矩阵,以及所述分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量;
根据所述语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及所述第一特征表示向量,确定弹幕信息涉及每个语义属性的第二特征表示向量;
根据所述语义分析模型以及样本文本涉及所述第二特征表示向量,确定所述弹幕信息的分类结果;其中,所述分类结果包括所述弹幕信息的语义属性以及所述弹幕信息所属的语义属性的情感极性;
根据所述语义属性以及所述情感极性,对所述弹幕信息进行分类,得到所述正向弹幕信息以及负向弹幕信息。
在本公开的一种示例性实施例中,确定所述弹幕信息涉及该语义属性的第一特征表示向量,包括:
将每个分词对应的词向量输入所述语义分析模型的属性表征层,并通过所述属性表征层中包含该语义属性对应的注意力矩阵,对每个分词对应的词向量剂型注意力加权;
根据注意力加权后的每个分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量。
在本公开的一种示例性实施例中,确定弹幕信息涉及每个语义属性的第二特征表示向量,包括:
将所述弹幕信息涉及每个语义属性的第一特征表示向量输入所述语义分析模型中的属性相关性表示层;
通过所述属性相关性表示层中包含的用于标识不同语义属性之间的相关性的自注意力矩阵,对所述弹幕信息涉及每个语义属性的第一特征表示向量进行自注意力加权;
根据自注意力加权后的各第一特征表示向量,确定所述弹幕信息涉及每个语义属性的第二特征表示向量。
上述直播视频的提取装置中各模块的具体细节已经在对应的直播视频的提取方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图12来描述根据本公开的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230以及显示单元1240。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1210执行,使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1210可以执行如图1中所示的步骤S110:响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;步骤S120:根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;步骤S130:在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。
存储单元1220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)12201和/或高速缓存存储单元12202,还可以进一步包括只读存储单元(ROM)12203。
存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204,这样的程序模块12205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1200交互的设备通信,和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且,电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (16)
1.一种直播视频的提取方法,其特征在于,包括:
响应在直播过程中触发的视频待提取事件,获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;
根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;
在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。
2.根据权利要求1所述的直播视频的提取方法,其特征在于,所述视频待提取事件是在检测到用户对图像用户界面中的特定交互控件的操控事件时生成的。
3.根据权利要求1所述的直播视频的提取方法,其特征在于,根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件,包括:
计算所述弹幕信息的第一信息条数,并判断所述第一信息条数在所述视频待提取事件被触发后的指定时间内是否大于第一预设阈值,得到第一判断结果;和/或
基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息,并判断所述指定时间内的正向弹幕信息的第二信息条数在所述第一信息条数中所占的比值是否大于第二预设阈值,得到第二判断结果;
根据第一判断结果和/或第二判断结果,判断所述视频待提取事件对应的目标直播视频是否满足所述视频提取条件。
4.根据所述权利要求3所述的直播视频的提取方法,其特征在于,如果所述第一判断结果为所述第一信息条数大于所述第一预设阈值,且所述第二判断结果为第二信息条数在第一信息条数中所占的比例大于所述第二预设阈值,则所述视频待提取事件对应的目标直播视频满足所述视频提取条件。
5.根据权利要求2所述的直播视频的提取方法,其特征在于,对所述目标视频进行提取,包括:
根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,并确定结束提取的时间节点;
基于所述开始提取的时间节点以及结束提取的时间节点,提取目标直播视频。
6.根据权利要求5所述的直播视频的提取方法,其特征在于,根据所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,确定开始提取的时间节点,包括:
获取所述视频待提取事件中包括的特定交互控件的操控事件的发生时间,并将所述操控事件的发生时间往前平移预设时间阈值,得到所述开始提取的时间节点。
7.根据权利要求5所述的直播视频的提取方法,其特征在于,确定结束提取的时间节点,包括:
获取释放与所述操控事件对应的特定交互控件所具有的特效技能所需要的释放时间,并在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间,得到所述结束提取的时间节点;或者
在操控事件的发生时间的基础上,往后平移所述特效技能所需要的释放时间以及所述预设时间阈值,得到所述结束提取的时间节点;或者
在操控事件的发生时间的基础上,往后平移特定时间段,得到所述结束提取的时间节点。
8.根据权利要求2所述的直播视频的提取方法,其特征在于,所述直播视频的提取方法还包括:
根据所述特定交互控件以及所述特定交互控件所具有的技能属性,生成视频标签;
根据所述视频标签对提取到的目标直播视频进行标识,并对标识后的目标直播视频进行存储。
9.根据权利要求8所述的直播视频的提取方法,其特征在于,所述对标识后的目标直播视频进行存储,包括:
计算所述第一信息条数与所述第一预设阈值之间的数值关系,并根据所述数值关系对标识后的目标直播视频进行分类,得到视频属性类别;
基于所述视频属性类别对标识后的目标直播视频进行分类存储。
10.根据权利要求3所述的直播视频的提取方法,其特征在于,所述直播视频的提取方法还包括:
获取所述视频待提取事件被触发前的预设时间段内的历史弹幕信息,并计算所述历史弹幕信息的第三信息条数;
根据所述第三信息条数计算所述预设时间段内的平均弹幕数量,并根据所述屏幕数量得到所述第一预设阈值。
11.根据所述权利要求3所述的直播视频的提取方法,其特征在于,基于预设的语义分析模型,对所述弹幕信息进行语义分析,得到正向弹幕信息以及负向弹幕信息,包括:
根据所述预设的语义分析模型,确定弹幕信息中的分词对应的词向量,并针对每个语义属性,根据所述语义分析模型中包含该语义属性对应的注意力矩阵,以及所述分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量;
根据所述语义分析模型中包含的用于表示不同语义属性之间的相关性的自注意力矩阵,以及所述第一特征表示向量,确定弹幕信息涉及每个语义属性的第二特征表示向量;
根据所述语义分析模型以及样本文本涉及所述第二特征表示向量,确定所述弹幕信息的分类结果;其中,所述分类结果包括所述弹幕信息的语义属性以及所述弹幕信息所属的语义属性的情感极性;
根据所述语义属性以及所述情感极性,对所述弹幕信息进行分类,得到所述正向弹幕信息以及负向弹幕信息。
12.根据权利要求11所述的直播视频的提取方法,其特征在于,确定所述弹幕信息涉及该语义属性的第一特征表示向量,包括:
将每个分词对应的词向量输入所述语义分析模型的属性表征层,并通过所述属性表征层中包含该语义属性对应的注意力矩阵,对每个分词对应的词向量剂型注意力加权;
根据注意力加权后的每个分词对应的词向量,确定所述弹幕信息涉及该语义属性的第一特征表示向量。
13.根据权利要求11所述的直播视频的提取方法,其特征在于,确定弹幕信息涉及每个语义属性的第二特征表示向量,包括:
将所述弹幕信息涉及每个语义属性的第一特征表示向量输入所述语义分析模型中的属性相关性表示层;
通过所述属性相关性表示层中包含的用于标识不同语义属性之间的相关性的自注意力矩阵,对所述弹幕信息涉及每个语义属性的第一特征表示向量进行自注意力加权;
根据自注意力加权后的各第一特征表示向量,确定所述弹幕信息涉及每个语义属性的第二特征表示向量。
14.一种直播视频的提取装置,其特征在于,包括:
弹幕信息获取模块,用于响应在直播过程中触发的视频待提取事件,并获取所述视频待提取事件被触发后指定时间内当前直播场景中的弹幕信息;
视频提取条件判断模块,用于根据所述弹幕信息判断所述视频待提取事件对应的目标直播视频是否满足视频提取条件;
视频提取模块,用于在确定所述目标直播视频满足所述视频提取条件时,对所述目标直播视频进行提取。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-13任一项所述的直播视频的提取方法。
16.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-13任一项所述的直播视频的提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210749587.0A CN115174947A (zh) | 2022-06-28 | 2022-06-28 | 直播视频的提取方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210749587.0A CN115174947A (zh) | 2022-06-28 | 2022-06-28 | 直播视频的提取方法及装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115174947A true CN115174947A (zh) | 2022-10-11 |
Family
ID=83489655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210749587.0A Pending CN115174947A (zh) | 2022-06-28 | 2022-06-28 | 直播视频的提取方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115174947A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109089154A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频提取方法、装置、设备及介质 |
CN109089127A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109862397A (zh) * | 2019-02-02 | 2019-06-07 | 广州虎牙信息科技有限公司 | 一种视频分析方法、装置、设备和存储介质 |
CN111144126A (zh) * | 2019-12-24 | 2020-05-12 | 北京三快在线科技有限公司 | 一种语义分析模型的训练方法、语义分析方法及装置 |
US20210034708A1 (en) * | 2019-08-01 | 2021-02-04 | Oracle International Corporation | Using neural network and score weighing to incorporate contextual data in sentiment analysis |
CN114064974A (zh) * | 2021-11-15 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备、存储介质及程序产品 |
CN114339304A (zh) * | 2021-12-22 | 2022-04-12 | 中国电信股份有限公司 | 直播视频处理方法、装置和存储介质 |
-
2022
- 2022-06-28 CN CN202210749587.0A patent/CN115174947A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109089154A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频提取方法、装置、设备及介质 |
CN109089127A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109862397A (zh) * | 2019-02-02 | 2019-06-07 | 广州虎牙信息科技有限公司 | 一种视频分析方法、装置、设备和存储介质 |
US20210034708A1 (en) * | 2019-08-01 | 2021-02-04 | Oracle International Corporation | Using neural network and score weighing to incorporate contextual data in sentiment analysis |
CN111144126A (zh) * | 2019-12-24 | 2020-05-12 | 北京三快在线科技有限公司 | 一种语义分析模型的训练方法、语义分析方法及装置 |
CN114064974A (zh) * | 2021-11-15 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备、存储介质及程序产品 |
CN114339304A (zh) * | 2021-12-22 | 2022-04-12 | 中国电信股份有限公司 | 直播视频处理方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN110364146B (zh) | 语音识别方法、装置、语音识别设备及存储介质 | |
CN110263150B (zh) | 文本生成方法、装置、计算机设备及存储介质 | |
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
JP2019212290A (ja) | ビデオを処理する方法及び装置 | |
CN112533051B (zh) | 弹幕信息显示方法、装置、计算机设备和存储介质 | |
CN110557659B (zh) | 视频推荐方法、装置、服务器及存储介质 | |
CN112399258B (zh) | 直播回放视频生成播放方法、装置、存储介质及电子设备 | |
CN109275047B (zh) | 视频信息处理方法及装置、电子设备、存储介质 | |
CN110995569B (zh) | 一种智能互动方法、装置、计算机设备和存储介质 | |
CN109710799B (zh) | 语音交互方法、介质、装置和计算设备 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN113411674A (zh) | 视频的播放控制方法、装置、电子设备及存储介质 | |
CN111147871B (zh) | 直播间歌唱识别方法、装置及服务器、存储介质 | |
WO2020228349A1 (zh) | 一种基于空气成像的虚拟新闻主播系统及其实现方法 | |
CN114286169A (zh) | 视频生成方法、装置、终端、服务器及存储介质 | |
CN115174947A (zh) | 直播视频的提取方法及装置、存储介质、电子设备 | |
CN112328152B (zh) | 媒体文件的播放控制方法、装置、电子设备及存储介质 | |
CN114363664A (zh) | 生成视频合集标题的方法及装置 | |
CN111859006A (zh) | 建立语音词条树的方法、系统、电子设备、存储介质 | |
CN117575894B (zh) | 图像生成方法、装置、电子设备和计算机可读存储介质 | |
CN113468373B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN116976354A (zh) | 情感分析方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |