CN117376653A - 直播互动摘要生成方法、装置、存储介质以及电子设备 - Google Patents

直播互动摘要生成方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN117376653A
CN117376653A CN202311160883.8A CN202311160883A CN117376653A CN 117376653 A CN117376653 A CN 117376653A CN 202311160883 A CN202311160883 A CN 202311160883A CN 117376653 A CN117376653 A CN 117376653A
Authority
CN
China
Prior art keywords
live
interaction
abstract
data
audience
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311160883.8A
Other languages
English (en)
Inventor
曾松
廖胡凯
孙泽文
丁欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cubesili Information Technology Co Ltd
Original Assignee
Guangzhou Cubesili Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Cubesili Information Technology Co Ltd filed Critical Guangzhou Cubesili Information Technology Co Ltd
Priority to CN202311160883.8A priority Critical patent/CN117376653A/zh
Publication of CN117376653A publication Critical patent/CN117376653A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请实施例涉及网络直播领域,提供一种直播互动摘要生成方法、装置、存储介质以及电子设备,方法包括:响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;根据所述主播语音数据以及所述观众互动数据,获得直播互动摘要文本数据;将所述直播互动摘要文本数据在所述直播间输出。本申请实施例在观众未打开听筒或者周边环境噪音太大无法听清楚主播讲话内容,或者主播在直播间讲完重要信息后,观众中途才进入直播间等可能导致观众错过重要信息的场景下,通过在直播间显示直播互动摘要文本数据,可以方便观众了解直播内容,避免错过重要信息,提高观众的互动积极性。

Description

直播互动摘要生成方法、装置、存储介质以及电子设备
技术领域
本申请实施例涉及网络直播技术领域,特别是涉及一种直播互动摘要生成方法、装置、存储介质以及电子设备。
背景技术
网络直播是指主播通过网络直播平台在网络上向观众分享直播音视频流的技术。借助开放、共享的网络直播平台,人们可以更加方便地展示自己的才华,在才艺展示过程中,观众可以通过参与直播互动来表达对主播的喜爱,受到观众喜爱的主播可以获得网络直播平台的分成,得到一定的收益;由于直播工作不受主播学历以及直播场地影响,普通人均可以通过直播的方式实现就业,可以有效带动社会就业。
在网络直播中,主播和观众互动时,通常是主播通过讲话将语音内容传输给观众。发明人在实现本发明的过程中发现:当观众未打开听筒或者周边环境噪音太大无法听清楚主播讲话内容,或者主播在直播间讲完重要信息后,观众中途才进入直播间等场景下,将导致观众错过重要信息,影响观众与主播的互动,降低观众的互动积极性。
发明内容
为克服相关技术中存在的问题,本申请提供一种直播互动摘要生成方法、装置、存储介质以及电子设备,可以方便观众了解直播内容,避免错过重要信息,提高观众与主播的互动,提高观众的互动积极性。
根据本申请实施例的第一方面,提供一种直播互动摘要生成方法,包括如下步骤:
响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;
根据所述主播语音数据以及所述观众互动数据,获得直播互动摘要文本数据;
将所述直播互动摘要文本数据在所述直播间输出。
根据本申请实施例的第二方面,提供一种直播互动摘要生成装置,包括:
数据获取模块,用于响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;
摘要文本获得模块,用于根据所述主播语音数据以及所述观众互动数据,获得直播互动摘要文本数据;
摘要文本输出模块,用于将所述直播互动摘要文本数据在所述直播间输出。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器和存储器;所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如上述所述的直播互动摘要生成方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上述所述的直播互动摘要生成方法。
本申请实施例响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;根据所述主播语音数据以及所述观众互动数据,获得直播互动摘要文本数据;将所述直播互动摘要文本数据在所述直播间输出。本申请实施例在观众未打开听筒或者周边环境噪音太大无法听清楚主播讲话内容,或者主播在直播间讲完重要信息后,观众中途才进入直播间等可能导致观众错过重要信息的场景下,通过在直播间显示直播互动摘要文本数据,可以方便观众了解直播内容,避免错过重要信息,提高观众的互动积极性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的直播互动摘要生成方法的应用环境的示意框图;
图2为本申请第一实施例提供的直播互动摘要生成方法的流程图;
图3为本申请一个实施例提供的判断是否生成摘要文本数据方法的流程图;
图4为本申请一个实施例提供的生成摘要文本数据方法的流程图;
图5为本申请一个实施例提供的通过摘要判断模型判断是否生成摘要文本数据方法的流程图;
图6为本申请一个实施例提供的用户进入直播间的显示效果图;
图7为本申请一个实施例提供的在直播间界面展示宣传摘要功能的显示效果图;
图8为本申请一个实施例提供的在直播间界面引导通过点击入口显示摘要开启控件的显示效果图;
图9为本申请一个实施例提供的在直播间界面引导点击打开字幕的显示效果图;
图10为本申请一个实施例提供的在直播间界面显示打开字幕成功的显示效果图;
图11为本申请一个实施例提供的在直播间界面显示字幕的显示效果图;
图12为本申请一个实施例提供的在直播间界面显示摘要文本数据的显示效果图;
图13为本申请第二实施例提供的直播间的直播互动摘要生成装置的示意框图;
图14为本申请第三实施例提供的电子设备的结构示意框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域技术人员可以理解,本申请所使用的“客户端”、“终端”、“终端设备”既包括无线信号发射器的设备,其仅具备发射能力的无线信号发射器的设备,又包括无线信号接收射器的设备,其仅具备接收能力的无线信号接收器的设备,还可以包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunicationsService,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的计算机设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
请参阅图1,图1为本申请实施例提供的直播互动摘要生成方法的应用场景示意图,该应用场景包括主播客户端110、观众客户端120和服务器130。
所述主播客户端110与所述观众客户端120通过所述服务器130进行交互。具体的,所述主播客户端110和所述观众客户端120均可以通过网络接入方式接入互联网,与所述服务器130建立数据通信链路。其中,网络可以是能够在所述主播客户端110与所述服务器130之间以及所述观众客户端120与所述服务器130之间实现通信的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路或者光纤电缆等等,本申请在此不做限制。
需要说明的是,本申请实施例提出的客户端包括主播客户端110和观众客户端120。
需要指出的是,在现有技术中会存在对“客户端”这一概念的多种理解,例如:可以将其理解为安装在计算机设备中的应用程序,或者,也可以将其理解为相对应于服务器的硬件设备。
在本申请实施例中,所称的“客户端”是指相对应于服务器的硬件设备,更具体来说,是指计算机设备,例如:智能手机、智能交互平板以及个人计算机等。
在客户端为智能手机、智能交互平板等移动设备时,用户可以在客户端上安装匹配的移动端应用程序,也可以在客户端上访问Web端应用程序。
在客户端为个人计算机(PC机)等非移动设备时,用户可以在客户端上安装匹配的PC端应用程序,同样也可以在客户端上访问Web端应用程序。
其中,移动端应用程序是指可安装在移动设备中的应用程序,PC端应用程序是指可安装在非移动设备中的应用程序,Web端应用程序是指需通过浏览器访问的应用程序。
具体地,Web端应用程序依据客户端类型的差异,又可以分为移动版本和PC版本,两者的页面布局方式以及可提供的服务器支持可能存在差别。
在本申请实施例中,提供至用户的直播应用程序的类型分为移动端直播应用程序、PC端直播应用程序和Web端直播应用程序。用户可以依据其采用客户端的类型不同,自主选择其参与网络直播的方式。
本申请依据进入直播间的客户端的用户身份的不同,将客户端分为主播客户端110和观众客户端130。应当说明,在实际应用中,可以由同一个客户端在不同时间分别执行观众客户端120与主播客户端110的功能。因此,同一个客户端在观看网络直播时,可以作为观众客户端120,在发布直播视频时,可以作为主播客户端110。
主播客户端110是指发送网络直播视频的一端,通常来说是网络直播中主播用户所采用的客户端。主播客户端110所指向的硬件,本质上是指计算机设备,具体地,如图1所示,其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。
观众客户端120是指接收和观看网络直播视频的一端,通常来说是网络直播中观看视频的观众用户所采用的客户端。观众客户端120所指向的硬件,本质上是指计算机设备,具体地,如图1所示,其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。
服务器130可作为一个业务服务器,其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等,以此构成逻辑上相关联的服务机群,来为相关的终端设备,例如图1中所示的主播客户端110和观众客户端120提供服务。
本申请实施例中,主播客户端110与观众客户端120可以加入同一个直播间(即直播频道),上述的直播间是指依靠互联网技术和服务器130实现的一种聊天室,通常具备音视频播控功能。主播用户通过主播客户端110在直播间内进行直播,观众客户端120的观众用户可以登录服务器130进入直播间观看直播。
在直播间内,主播用户与观众用户之间可通过语音、视频、文字等公知的线上交互方式来实现互动,一般是主播用户以音视频流的形式为观众用户表演节目,同时,观众用户可以文字或者赠送虚拟礼物的方式与主播用户进行互动,而在互动过程中还可产生经济交易行为,当然,直播间的应用形态并不局限于在线娱乐,也可推广到其他相关场景中。
具体地,观众用户观看直播的过程如下:观众用户可以点击访问安装在观众客户端120上的直播应用程序,并选择进入任意一个直播间,触发观众客户端120为该观众用户加载直播间界面,该直播间界面内包括若干交互组件,例如:视频组件、虚拟礼物栏组件以及公屏组件等,通过加载这些交互组件可以使观众用户在直播间内观看直播,并进行多种线上互动,线上互动的方式包括但不限于赠送虚拟礼物、参加直播活动以及公屏发言聊天等。
值得一提的是,图1中的应用场景只是一种示例性应用场景,并非用于限定本发明的方案。本发明的方案还可以应用于其他形式的网络直播应用场景中,对此不再一一说明。
在网络直播中,主播和观众互动时,通常是主播通过讲话将语音内容传输给观众。发明人在实现本发明的过程中发现:当观众未打开听筒或者周边环境噪音太大无法听清楚主播讲话内容,或者主播在直播间讲完重要信息后,观众中途才进入直播间等场景下,将导致观众错过重要信息,影响观众与主播的互动,降低观众的互动积极性。
在相关技术中,虽然也有将主播语音内容转换为文本进行展示的方案,但是,观看端识别语音转化为文字时,会存在不同观看设备识别的文字不统一的问题,容易造成不同观众理解偏差。而主播语音内容通常非常多,转换的文字长篇大论,信息过于冗余,也给观看端造成了处理负担,且简单将主播语音内容转成文本的方式,过于枯燥单一,无法提升用户的直播观看意愿,无法提升观众互动积极性。
基于上述问题,本申请实施例提供了一种直播互动摘要生成方法。
请参阅图2,图2为本申请第一实施例提供的直播互动摘要生成方法的流程示意图。本申请实施例的直播互动摘要生成方法可以由服务器作为执行主体执行,也可以是观众客户端或者主播客户端作为执行主体执行,本申请并不加以限制,下面以服务器作为执行主体作示例性说明。本申请实施例的直播互动摘要生成方法包括如下步骤:
步骤S101:响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据。
在一可选的实施例中,触发事件由服务器主动触发,具体的,触发事件为服务器在直播互动摘要触发时间达到预设时间间隔时主动触发,也即,服务器按照预设时间间隔获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据,生成直播互动摘要文本数据。
其中,预设时间间隔可以是固定的时间间隔。预设时间间隔也可以是动态的时间间隔,具体的,服务器根据观众用户查看直播互动摘要文本数据的时间和频次动态调整时间间隔。
本申请实施例通过服务器在直播互动摘要触发时间达到预设时间间隔时主动触发生成摘要,可以实现对直播间互动的定时记录,方便观众用户了解直播过程。
在另一可选的实施例中,触发事件由服务器自动触发,具体的,触发事件为服务器监测到直播间状态为直播活跃状态时自动触发,也即,服务器获取直播间互动数据,根据直播间互动数据获取直播间状态,若直播间状态为直播活跃状态,则获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据,生成直播互动摘要文本数据。
其中,直播活跃状态可以是直播间观众用户在单位时间内送礼价值达到预设阈值,或者是在单位时间内观众用户的公屏发言数量达到预设阈值,或者是单位时间内进入直播间的观众用户数量达到预设阈值等。
本申请实施例通过服务器直播间状态为直播活跃状态时自动触发生成摘要,可以对直播间活跃精彩的直播过程进行记录,避免观众用户错过精彩的直播瞬间。
可以理解的是,当前时间所在的预设时间范围可以是在当前时间之前的预设时间范围,也可以是当前时间之后的预设时间范围,也可以是当前时间前后的预设时间范围。
本申请实施例中,当前所在的预设时间范围设置为当前时间前后的预设时间范围,例如当前时间之前的1分钟至当前时间之后的1分钟的时间区间。由于主播讲话以及观众互动通常是连续的过程,因此,本申请实施例通过当前所在的预设时间范围设置为当前时间前后的预设时间范围,进而获取当前时间前后的主播语音数据以及观众互动数据,可以使得生成的直播互动摘要更加准确,更加符合实际直播互动情况。
在一可选的实施例中,观众互动数据包括观众用户的公屏发言数据。公屏发言数据包括但是不限于观众用户发言内容以及观众用户身份信息,其中,观众用户身份信息包括但是不限于用户昵称、性别、地区和马甲等。
发明人在实现本发明的过程中发现:直播间互动时,观众用户会通过公屏发言与主播用户进行互动,而主播用户也会基于公屏发言来进行直播。因此,通过公屏发言数据与主播语音数据结合生成摘要,可以使生成的直播互动摘要更加准确。
在另一可选的实施例中,观众互动数据包括观众用户的送礼数据。观众用户送礼数据包括但是不限于送礼礼物信息以及送礼用户身份信息,其中,送礼礼物信息包括但是不限于送礼类似物标识、送礼礼物数量以及送礼礼物价值等,送礼用户身份信息包括但是不限于送礼用户昵称、性别、地区和马甲等。
发明人在实现本发明的过程中发现:直播间互动时,观众用户会通过送礼与主播用户进行互动。因此,通过公屏发言数据与主播语音数据结合生成摘要,可以使生成的直播互动摘要更加全面,使生成的直播互动摘要可以全面反映直播间发生的情况。
在又一可选的实施例中,观众互动数据包括观众用户的公屏发言数据以及观众用户送礼数据。观众用户的公屏发言数据以及观众用户送礼数据的具体内容与前述描述相同,此时不加以赘述。
可以理解的是,根据观众用户的公屏发言数据、观众用户送礼数据以及主播语音数据来生成直播互动摘要,可以使生成的直播互动摘要更加准确和全面,更加符合实际直播互动情况。
步骤S102:根据主播语音数据以及观众互动数据,获得直播互动摘要文本数据。
可以理解的是,摘要又称概要、内容提要,意思是摘录要点或摘录下来的要点。摘要不加评论和补充解释,简明、确切地记述重要内容的短文。本申请实施例的直播互动摘要文本数据是直播互动过程中,记录重要内容的短文。
在生成直播互动摘要文本数据时,将主播语音数据进行语音识别,获得语音文本数据;在一可选的实施例中,将语音文本数据以及观众互动数据输入至自然语言处理工具或者摘要生成模型,获得直播互动摘要文本数据。其中,摘要生成模型可以是对神经网络进行训练获得的模型,也可以是对ChatGPT进行训练获得的模型。在另一可选的实施例中,将语音文本数据以及观众互动数据进行关键词提取,获得直播互动摘要文本数据。
步骤S103:将直播互动摘要文本数据在直播间输出。
在一可选的实施例中,直播间的直播界面预设有摘要文本显示区域,在摘要文本显示区域上显示直播互动摘要文本数据,也即,服务器将直播互动摘要文本数据发送至主播端以及各个观众客户端,进而在主播端和各个观众客户端的摘要文本显示区域均显示直播互动摘要文本数据。
在另一可选的实施例中,直播间的直播界面设置有摘要开启控件,响应于用户对摘要开启控件的触发操作,服务器将直播互动摘要文本数据发送至触发摘要开启控件的终端,在该终端显示直播互动摘要文本数据。
本申请实施例响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;根据主播语音数据以及观众互动数据,获得直播互动摘要文本数据;将直播互动摘要文本数据在直播间输出。本申请实施例在观众未打开听筒或者周边环境噪音太大无法听清楚主播讲话内容,或者主播在直播间讲完重要信息后,观众中途才进入直播间等可能导致观众错过重要信息的场景下,通过在直播间显示直播互动摘要文本数据,可以方便观众了解直播内容,避免错过重要信息,提高观众与主播的互动,提高观众的互动积极性。
请参阅图3,在一可选的实施例中,步骤S102中根据主播语音数据以及观众互动数据,生成直播互动摘要文本数据的步骤,包括:
步骤S1021:根据主播语音数据以及观众互动数据,获得直播摘要判断参数;直播摘要判断参数包括:直播互动类型、互动用户身份信息、情感倾向特征以及互动逻辑关系。
其中,直播互动类型用于指示主播与观众之间和/或观众与观众之间的互动方式。直播互动类型包括但是不限于问答互动、点评互动、送礼互动、跟帖互动以及场控互动等。
其中,互动用户身份信息用于指示参与互动的主播以及观众的身份信息。互动用户身份信息包括但是不限于昵称、性别、地区、马甲等身份信息。
其中,情感倾向特征用于指示参与互动的主播以及观众的情感倾向。情感倾向特征包括但是不限于正面情绪、负面情绪或者中性情绪等。
其中,互动逻辑关系用于指示发生互动的逻辑关系。互动逻辑关系包括但是不限于因果逻辑关系、送礼逻辑关系以及话题内容变化逻辑趋势等。
在一可选的实施例中,在获得直播摘要判断参数时,将主播语音数据以及观众互动数据转换成文本数据,通过文本分类技术获得直播互动类型,通过实体识别技术,获得互动用户身份信息,通过情感分析技术获得情感倾向特征,通过时间序列分析方法,获得互动逻辑关系。
步骤S1023:若根据直播摘要判断参数判断出满足直播互动摘要生成条件,对主播语音数据以及观众互动数据进行关键词提取,获得直播互动摘要文本数据。
直播互动摘要生成条件可以根据直播间用户对直播互动摘要需求动态修改,其中,直播互动摘要生成条件可以是直播摘要判断参数中各个参数分别满足预设参数阈值,也可以是各个参数整体满足预设参数阈值,其中,预设参数阈值可以根据直播间用户对直播互动摘要需求而进行修改。直播互动摘要生成条件还可以是通过模型进行判断。本申请并不加以限制。
本申请实施例通过根据主播语音数据以及观众互动数据,获得直播摘要判断参数;在直播摘要判断参数判断出满足直播互动摘要生成条件,才对主播语音数据以及观众互动数据进行关键词提取,获得直播互动摘要文本数据,可以避免频繁或者在不需要生成摘要却生成摘要,造成摘要展示累赘,影响观众用户的体验,增大服务器负担。
请参阅图4,在一可选的实施例中,步骤S1023中对主播语音数据以及观众互动数据进行关键词提取,获得直播互动摘要文本数据的步骤,包括:
步骤S10231:将主播语音数据以及观众互动数据转换成待提取摘要文本。
步骤S10232:将待提取摘要文本进行分词处理以及停用词过滤处理,获得若干个词语文本。
步骤S10233:选取若干个词性标注模型分别对若干个词语文本进行词性标注。
步骤S10234:将经过词性标注的若干个词语文本通过若干个关键词提取算法进行关键词提取,获得权重在预设阈值范围内的目标关键词。
步骤S10235:根据目标关键词,获得直播互动摘要文本数据。
其中,在直播场景中,由于不同的词性标注模型是基于不同的语料库以及词性标注算法进行词性标注的,因此,针对同一句话会产生不同的标注结果,影响后续的处理效果。例如,文本分类中,需要对文本进行词频统计和特征提取,选择名词作为特征词可以获得更好的效果;而在情感分析中,需要对文本进行情感分析中,需要对文本进行情感极性判断,选择形容词和副词作为情感词可以获得更准确的结果,因此,通过若干种词性标注模型进行词性标注,可以使得提取的关键词更加准确。
本申请实施例中,关键词提取算法包括但是不限于基于TF-IDF(词频-逆文档频率)算法、TextRank(文本排名)算法、LDA(Latent Dirichlet Allocation,主提模型)算法,其中,TF-IDF算法可以通过计算词语在文本中的出现频率和在整个语料库中的出现频率来计算权重;TextRank算法通过计算词语之间的关系和权重来确定关键词;LDA算法,则可以帮助识别文本中的主题并提取与主题相关的关键词。
本申请实施例通过采用多种词性标注模型以及多种关键词提取算法来提取关键词,进而获得直播互动摘要文本数据,可以使得生成的摘要文本数据更加符合直播互动场景。
请参阅图5,在一可选的实施例中,步骤S1021之后还包括步骤S1022:将直播互动类型、互动用户身份信息、情感倾向特征以及互动逻辑关系以及各个判断参数对应的权重值输入至摘要判断模型,获得是否满足直播互动摘要生成条件结果。
其中,摘要判断模型可以通过现有的神经模型进行训练,也可以是由大模型例如现有的ChatGPT训练获得,本申请并不加以限制。
本申请实施例通过将直播互动类型、互动用户身份信息、情感倾向特征以及互动逻辑关系以及各个判断参数对应的权重值输入至摘要判断模型,获得是否满足直播互动摘要生成条件结果,可以提高是否进行直播互动摘要生成的准确性。
在一可选的实施例中,加入直播间的各终端的直播界面显示有摘要开启控件;步骤S103中将直播互动摘要文本数据在直播间输出的步骤,包括:步骤S1031:响应于摘要开启控件的触发操作,在触发摘要开启控件的终端的直播界面展示直播互动摘要文本数据。
可选的,请参阅图6至图12,当用户进入如图6所示的直播间时,将会触发依次跳转至如图7至图11所示的直播互动摘要使用指引特效,引导用户可以使用摘要开启控件10,之后如图12所示在直播界面展示直播互动摘要文本数据。
本申请实施例通过在直播界面显示有摘要开启控件,在触发摘要开启控件所在的终端的直播界面才展示直播互动摘要文本数据,可以方便用户查看摘要,避免不需要展示摘要而展示摘要而引起用户不适。
可选的,加入直播间的各终端将从服务器接收的各个直播互动摘要文本数据按照接收时间顺序依次存储,在响应于摘要开启控件的触发操作,在触发摘要开启控件的终端的直播界面可以按照时间顺序依次展示各个直播互动摘要文本数据,从而方便用户快捷了解整个直播内容。
在一可选的实施例中,步骤S1031之后,还包括步骤S1032:获取直播间触发摘要开启控件展示直播互动摘要文本数据的摘要使用数据,根据摘要使用数据调整各个参数的权重值,以更新直播互动摘要生成条件。
本申请实施例根据摘要使用数据调整各个参数的权重值,以更新直播互动摘要生成条件,进而判断是否生成直播互动摘要,从而使生成的直播互动摘要尽可能符合用户需求。
在一可选的实施例中,直播互动摘要生成方法还包括如下步骤:
步骤S104:将主播语音数据转换成语音文本数据;
步骤S105:将主播语音数据以及语音文本数据在直播间输出。
可选的,加入直播间的各终端的直播界面显示有字幕开启控件,响应于字幕开启控件的触发操作,在触发摘要开启控件的终端的直播界面语音文本数据。
应当理解的是,字幕开启控件和摘要开启控件可以同时触发,进而在字幕中同时穿插显示直播互动摘要文本数据。
如图7至如图10所示,在进入直播间后,直播间界面显示有引导开启字幕开启控件20的特效,如图11所示当响应于字幕开启控件20的触发操作,在直播界面语音文本数据,若此时同时触发摘要开启控件10的触发操作,则如图12所示,将在字幕中同时穿插显示直播互动摘要文本数据。
本申请实施例通过将主播语音数据以及语音文本数据在直播间输出,可以方便用户根据语音文本数据了解主播讲话内容,避免在观众未打开听筒或者周边环境噪音太大无法听清楚主播讲话内容,而错过主播直播内容。
请参见图13,其为本申请第二实施例提供的直播互动摘要生成装置的结构示意图。该装置200包括:
数据获取模块201,用于响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;
摘要文本获得模块202,用于根据主播语音数据以及观众互动数据,获得直播互动摘要文本数据;
摘要文本输出模块203,用于将直播互动摘要文本数据在直播间输出。
需要说明的是,本申请第二实施例提供的直播互动摘要生成装置在执行直播中的直播互动摘要生成方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,本申请第二实施例提供的直播互动摘要生成装置装置与本申请第一实施例直播互动摘要生成方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
本申请第二实施例的直播互动摘要生成装置的实施例可以应用在电子设备上,例如服务器上,该装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,其所在的电子设备可以包括处理器、网络接口、内存以及非易失性存储器,通过数据总线或其他公知方式互相共联。
请参阅图14,为本申请第三实施例提供的电子设备的结构示意图。如图14所示,该电子设备16可以包括:处理器160、存储器161以及存储在该存储器161并可以在该处理器160上运行的计算机程序162,例如:直播互动摘要生成方法的进场程序;该处理器160执行该计算机程序162时实现上述第一实施例的步骤。
其中,该处理器160可以包括一个或多个处理核心。处理器160利用各种接口和线路连接电子设备16内的各个部分,通过运行或执行存储在存储器161内的指令、程序、代码集或指令集,以及调用存储器161内的数据,执行电子设备16的各种功能和处理数据,可选的,处理器160可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programble LogicArray,PLA)中的至少一个硬件形式来实现。处理器160可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器160中,单独通过一块芯片进行实现。
其中,存储器161可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器161包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器161可用于存储指令、程序、代码、代码集或指令集。存储器161可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器161可选的还可以是至少一个位于远离前述处理器160的存储装置。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质可以存储有多条指令,该指令适用于由处理器加载并执行上述实施例的方法步骤,具体执行过程可以参见上述实施例的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。

Claims (13)

1.一种直播互动摘要生成方法,其特征在于,包括如下步骤:
响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;
根据所述主播语音数据以及所述观众互动数据,获得直播互动摘要文本数据;
将所述直播互动摘要文本数据在所述直播间输出。
2.根据权利要求1所述的直播互动摘要生成方法,其特征在于:
所述观众互动数据包括观众用户的公屏发言数据和/或观众用户的送礼数据。
3.根据权利要求1所述的直播互动摘要生成方法,其特征在于:
所述触发事件为所述直播间的直播互动摘要触发时间达到预设时间间隔。
4.根据权利要求1所述的直播互动摘要生成方法,其特征在于:
所述触发事件为所述直播间的直播间状态为直播活跃状态。
5.根据权利要求1至4中任一项权利要求所述的直播互动摘要生成方法,其特征在于:
所述根据所述主播语音数据以及所述观众互动数据,生成直播互动摘要文本数据的步骤,包括:
根据所述主播语音数据以及所述观众互动数据,获得直播摘要判断参数;所述直播摘要判断参数包括:直播互动类型、互动用户身份信息、情感倾向特征以及互动逻辑关系;
若根据直播摘要判断参数判断出满足直播互动摘要生成条件,对所述主播语音数据以及所述观众互动数据进行关键词提取,获得直播互动摘要文本数据。
6.根据权利要求5所述的直播互动摘要生成方法,其特征在于,还包括如下步骤:
将所述直播互动类型、所述互动用户身份信息、所述情感倾向特征、所述互动逻辑关系以及各个判断参数对应的权重值输入至摘要判断模型,获得是否满足直播互动摘要生成条件结果。
7.根据权利要求6所述的直播互动摘要生成方法,其特征在于:
加入所述直播间的各终端的直播界面显示有摘要开启控件;所述将所述直播互动摘要文本数据在所述直播间输出的步骤,包括:
响应于所述摘要开启控件的触发操作,在触发所述摘要开启控件的终端的直播界面展示所述直播互动摘要文本数据。
8.根据权利要求7所述的直播互动摘要生成方法,其特征在于:
所述响应于所述摘要开启控件的触发操作,在触发所述摘要开启控件的终端的直播界面展示直播互动摘要文本数据的步骤之后,还包括:
获取所述直播间触发所述摘要开启控件展示直播互动摘要文本数据的摘要使用数据,根据所述摘要使用数据调整各个判断参数的所述权重值,以更新直播互动摘要生成条件。
9.根据权利要求5所述的直播互动摘要生成方法,其特征在于,还包括如下步骤:
所述对所述主播语音数据以及所述观众互动数据进行关键词提取,获得直播互动摘要文本数据的步骤,包括:
将所述主播语音数据以及所述观众互动数据转换成待提取摘要文本;
将所述待提取摘要文本进行分词处理以及停用词过滤处理,获得若干个词语文本;
选取若干个词性标注模型分别对若干个所述词语文本进行词性标注;
将经过词性标注的若干个所述词语文本通过若干个关键词提取算法进行关键词提取,获得权重在预设阈值范围内的目标关键词;
根据所述目标关键词,获得直播互动摘要文本数据。
10.根据权利要求1至4中任一项权利要求所述的直播互动摘要生成方法,其特征在于,还包括如下步骤:
将所述主播语音数据转换成语音文本数据;
将所述主播语音数据以及所述语音文本数据在直播间输出。
11.一种直播互动摘要生成装置,其特征在于,包括:
数据获取模块,用于响应于直播互动摘要的触发事件,获取直播间当前时间所在的预设时间范围内的主播语音数据以及观众互动数据;
摘要文本获得模块,用于根据所述主播语音数据以及所述观众互动数据,获得直播互动摘要文本数据;
摘要文本输出模块,用于将所述直播互动摘要文本数据在所述直播间输出。
12.一种电子设备,包括处理器和存储器;其特征在于,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至10中任意一项所述的直播互动摘要生成方法。
13.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至10中任意一项所述的直播互动摘要生成方法。
CN202311160883.8A 2023-09-08 2023-09-08 直播互动摘要生成方法、装置、存储介质以及电子设备 Pending CN117376653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311160883.8A CN117376653A (zh) 2023-09-08 2023-09-08 直播互动摘要生成方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311160883.8A CN117376653A (zh) 2023-09-08 2023-09-08 直播互动摘要生成方法、装置、存储介质以及电子设备

Publications (1)

Publication Number Publication Date
CN117376653A true CN117376653A (zh) 2024-01-09

Family

ID=89406727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311160883.8A Pending CN117376653A (zh) 2023-09-08 2023-09-08 直播互动摘要生成方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN117376653A (zh)

Similar Documents

Publication Publication Date Title
JP7069778B2 (ja) ビデオベースの通信におけるコンテンツキュレーションのための方法、システム及びプログラム
CN110444197B (zh) 基于同声传译的数据处理方法、装置、系统和存储介质
US9621851B2 (en) Augmenting web conferences via text extracted from audio content
CN110741601A (zh) 具有会议功能的自动助理
CN114025186A (zh) 直播间内的虚拟语音互动方法、装置及计算机设备
CN112653902B (zh) 说话人识别方法、装置及电子设备
EP3346717A1 (en) Methods and systems for displaying contextually relevant information regarding a media asset
CN113596508B (zh) 直播间的虚拟礼物赠送方法、装置、介质以及计算机设备
CN112423081B (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN111294606B (zh) 直播处理方法、装置、直播客户端及介质
WO2019047850A1 (zh) 标识的显示方法和装置、请求的响应方法和装置
CN113938697B (zh) 直播间内的虚拟发言方法、装置及计算机设备
CN113453030A (zh) 直播中的音频交互方法、装置、计算机设备及存储介质
CN114666671B (zh) 直播点赞互动方法、装置、设备及存储介质
CN113438492B (zh) 直播中的题目生成方法、系统、计算机设备及存储介质
CN114845127A (zh) 直播间词条展示方法、系统、装置、设备及存储介质
US20220067384A1 (en) Multimodal game video summarization
CN111523343B (zh) 阅读互动方法、装置、设备、服务器及存储介质
CN113542845A (zh) 一种信息展示方法、装置、设备及存储介质
CN114449301B (zh) 物品发送方法、装置、电子设备和计算机可读存储介质
US20180176631A1 (en) Methods and systems for providing an interactive second screen experience
CN117376653A (zh) 直播互动摘要生成方法、装置、存储介质以及电子设备
CN114820034A (zh) 黑产用户识别方法、装置、存储介质以及计算机设备
CN114786028A (zh) 直播间标题生成方法、直播间推荐方法以及计算机设备
WO2024032111A9 (zh) 在线会议的数据处理方法、装置、设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination