CN117579855A - 虚拟直播方法及装置 - Google Patents

虚拟直播方法及装置 Download PDF

Info

Publication number
CN117579855A
CN117579855A CN202311534376.6A CN202311534376A CN117579855A CN 117579855 A CN117579855 A CN 117579855A CN 202311534376 A CN202311534376 A CN 202311534376A CN 117579855 A CN117579855 A CN 117579855A
Authority
CN
China
Prior art keywords
information
replied
reply
anchor
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311534376.6A
Other languages
English (en)
Inventor
缪国歌
徐浩博
陈昕元
欧阳�
聂向阳
游浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hode Information Technology Co Ltd
Original Assignee
Shanghai Hode Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hode Information Technology Co Ltd filed Critical Shanghai Hode Information Technology Co Ltd
Priority to CN202311534376.6A priority Critical patent/CN117579855A/zh
Publication of CN117579855A publication Critical patent/CN117579855A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种虚拟直播方法及装置,方法包括:监听并获取至少一个待答复信息;解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列;根据待答复信息的数量和/或已存储的答复信息数量对预设可变消息队列进行调整,丢弃存储在先的答复信息;监听主播端的答复获取请求,从预设可变消息队列中获取在先的答复信息返回给主播端,以供主播端展示对应的答复信息。对监听获取到的待答复信息自动生成对应的答复信息,无需依赖中之人。答复信息存储至预设可变消息队列,根据待答复信息的数量和/或已存储的答复信息数量可以进行调整,保障答复信息回复的及时性。

Description

虚拟直播方法及装置
技术领域
本申请涉及互联网技术领域,具体涉及一种虚拟直播方法及装置。
背景技术
直播的表现方式多样、互动性强、受众范围广、时空适应性强,使得直播,受到更多用户的青睐。直播业务的发展,带给用户(观众)更多更有趣的观看体验。主播除真人外,还可以使用虚拟形象来进行直播,即虚拟直播。
现有的虚拟直播大多采用以下形式:
1)由一位演员(以下简称中之人),采用动捕、面捕等技术隐藏其真实身份,在虚拟直播时,由中之人人工阅读直播中用户提出的弹幕并给出回复;但这种方式过度依赖中之人,当中之人无法继续直播时易导致虚拟直播无法继续等问题;
2)开发虚拟人,但依然需要中之人来充当中介,将中之人的声音转为文字后再转语音播放;但这种方式也需要依赖中之人;
3)通过如抓取弹幕接口获取弹幕信息,经过AI生成回复后转为语音播放;但这种方式会存在回复消息不及时,经常回复时间很久之前弹幕的消息,直播间新进入的用户体验较差。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的虚拟直播方法及装置。
根据本申请实施例的第一方面,提供了一种虚拟直播方法,其包括:
监听并获取至少一个待答复信息;
解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列;
根据待答复信息的数量和/或已存储的答复信息数量对预设可变消息队列进行调整,丢弃存储在先的答复信息;
监听主播端的答复获取请求,从预设可变消息队列中获取在先的答复信息返回给主播端,以供主播端展示对应的答复信息。
可选地,监听并获取至少一个待答复信息进一步包括:
监听并获取用户端的至少一个弹幕信息作为待答复信息;和/或,监听并获取连线主播端的至少一个互动信息作为待答复信息;连线主播端的主播包括真人主播和/或虚拟主播。
可选地,监听并获取至少一个待答复信息进一步包括:
根据预设比例随机获取用户端的弹幕信息和/或连线主播端的互动信息作为待答复信息。
可选地,指令包括绘图指令;
解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列进一步包括:
解析待答复信息,根据解析得到的绘图指令调用对应的绘图指令接口,生成对应的图像,将图像存储至预设可变消息队列;图像基于预设第一提示词生成。
可选地,指令包括文字指令;
解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列进一步包括:
解析待答复信息,根据解析得到的文字指令调用对应的文字指令接口,生成对应的文字答复信息;
将文字答复信息进行转换,得到对应的音频信息,并对音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列。
可选地,解析待答复信息,根据解析得到的文字指令调用对应的文字指令接口,生成对应的文字答复信息进一步包括:
解析待答复信息,根据解析得到的文字指令调用对应的文字指令接口,并根据当前虚拟主播的角色信息,生成与角色信息对应的文字答复信息;当前虚拟主播的角色信息根据第二提示词确定。
可选地,将文字答复信息进行转换,得到对应的音频信息,并对音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列进一步包括:
将文字答复信息进行转换,得到对应的音频信息;
根据当前虚拟主播的角色信息,确定角色信息对应的变声参数,利用音频变声器对音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列。
可选地,监听并获取至少一个待答复信息进一步包括:
监听并获取至少一个待答复信息以及待答复信息的发送方标识;发送方标识包括用户标识和/或连麦主播标识;
解析待答复信息进一步包括:
根据待答复信息的发送方标识,获取发送方标识的其他待答复信息,得到待答复信息的上下文信息;
根据待答复信息的上下文信息以及待答复信息,解析待答复信息。
可选地,根据待答复信息的数量和/或已存储的答复信息数量对预设可变消息队列进行调整,丢弃存储在先的答复信息进一步包括:
判断待答复信息的数量是否大于预设消息数量,和/或,判断预设可变消息队列已存储的答复信息数量是否大于预设消息存储数量;
若是,丢弃预设可变消息队列中存储在先的答复信息。
根据本申请实施例的第二方面,提供了一种虚拟直播装置,其包括:
第一监听模块,适于监听并获取至少一个待答复信息;
生成存储模块,适于解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列;
丢弃模块,适于根据待答复信息的数量和/或已存储的答复信息数量对预设可变消息队列进行调整,丢弃存储在先的答复信息;
第二监听模块,适于监听主播端的答复获取请求,从预设可变消息队列中获取在先的答复信息返回给主播端,以供主播端展示对应的答复信息。
根据本申请实施例的第三方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述虚拟直播方法对应的操作。
根据本申请实施例的第四方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述虚拟直播方法对应的操作。
根据本申请的提供的虚拟直播方法及装置,监听获取到待答复信息后,通过解析待答复信息,自动调用对应的指令接口为其生成对应的答复信息,无需依赖中之人。答复信息存储至预设可变消息队列后,可以根据待答复信息的数量和/或已存储的答复信息数量对已存储的答复信息进行调整,保障答复信息回复的及时性,避免回复时间过久的待答复信息。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的虚拟直播方法的流程图;
图2示出了根据本申请另一个实施例的虚拟直播方法的流程图;
图3示出了根据弹幕生成答复消息的时序图;
图4示出了根据本申请一个实施例的虚拟直播装置的结构示意图;
图5示出了根据本申请一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
AIGC:Artificial Intelligence Generated Content,生成式人工智能,也可以指人工智能生成的内容。
纯虚拟主播:和传统虚拟主播相对,指不需要现实中之人(类似配音演员)、一切行为动作、回复、语音都由AI生成的虚拟主播。
动捕:一般指全身动作捕捉,动捕对场地和设备的要求很高,通常需要专门的工作室,此外动捕演员还需要穿戴专门的设备。
面捕:一般指只进行面部表情、嘴部的动作捕捉技术。通常只需一个单目摄像头即可。主播利用该技术,隐藏自己的真实面容和身份,使用虚拟角色代替自己,与观众们进行互动。
RVC:Retrieval-based-Voice-Conversion,基于检索的语音转换,基于VITS的语音转换框架。
VITS:Variational Inference with adversarial learning for end-to-endText-to-Speech,一种语音合成方法,使用预先训练好的语音编码器将文本转化为语音。
TTS:Text to Speak,文本转语音。
ChatGPT:由OpenAI公司开发的大模型人工智能。
Unity:3D模型的渲染引擎。
图1示出了根据本申请一实施例的虚拟直播方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,监听并获取至少一个待答复信息。
本实施例的虚拟直播采用纯虚拟主播,无需中之人,在服务端设置监听接口,可以监听并获取到虚拟主播待答复信息,通过如大语言模型,如AIGC自动为待答复信息生成答复信息。
具体的,服务端的监听接口可以监听如用户在用户端发送的弹幕信息,或者,监听与当前虚拟主播进行连麦的主播端的互动信息,弹幕信息和互动信息均可以作为当前虚拟主播的待答复信息。与当前虚拟主播进行连麦的主播可以为真人主播,也可以为纯虚拟主播,服务端可以同时服务多个纯虚拟主播,为不同的纯虚拟主播监听待答复信息,自动生成答复信息。
步骤S102,解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列。
对于获取的待答复信息,服务端先进行解析,确定待答复信息所需的答复内容,如待答复信息需要虚拟主播绘制图片,则解析得到的指令为绘图指令,或者,待答复信息需要虚拟主播回答问题、唱歌等,则解析得到的指令为文字指令等。根据解析得到的指令可以调用对应的指令接口,指令接口可以包括如绘图接口、文本接口等,可以采用如AI绘图接口、大语言模型的ChatGPT文本接口等,以上为举例说明,具体根据实施情况设置对应的指令、指令接口,此处不做限定。
根据解析得到指令调用对应的指令接口,可以自动为待答复信息生成答复信息,然后将生成的答复信息存储至预设可变消息队列。预设可变消息队列可以采用如queue,其长度可变,方便对存储的答复消息进行调整。
步骤S103,根据待答复信息的数量和/或已存储的答复信息数量对预设可变消息队列进行调整,丢弃存储在先的答复信息。
现有技术利用AI生成答复信息时,没有考虑到当存在大量待答复信息时,生成的答复信息与待答复信息之间存在时间差,导致AI方式回复不及时,答复信息往往是对较久之前待答复信息的回复,新进入直播间的用户体验较差。考虑到上述问题,本实施例采用预设可变消息队列,可以对已存储的答复信息进行调整,如根据待答复信息的数量,若数量较大时,说明此时大量用户提出待答复信息,为保障答复的及时性,可以对预设可变消息队列进行调整,如丢弃存储在先的答复信息。服务端根据获取的待答复信息生成对应的答复信息,已经存储在预设可变消息队列中的答复信息属于之前获取的待答复信息的答复信息,丢弃到存储在先的答复信息,使用新生成的答复信息可以保障答复的及时性。当已存储的答复信息数量过多时,说明生成的答复信息过多,已经造成虚拟主播回复延迟,丢弃到存储在先的答复信息,使用新生成的答复信息可以保障答复的及时性。
步骤S104,监听主播端的答复获取请求,从预设可变消息队列中获取在先的答复信息返回给主播端,以供主播端展示对应的答复信息。
服务端监听主播端(虚拟主播的主播端)的答复获取请求,答复获取请求可以通过轮询方式,如回复完上一条答复信息后,主播端向服务端发送答复获取请求,服务端根据监听到的答复获取请求,从预设可变消息队列中获取在先的答复信息返回给主播端,主播端可以展示对应的答复信息。
进一步,主播端的虚拟主播的虚拟形象可以通过如Unity模型渲染,得到虚拟主播的虚拟形态,结合答复信息回复用户或者与连线的虚拟主播、真人主播等进行互动,实现虚拟直播。
根据本申请提供的虚拟直播方法,监听获取到待答复信息后,通过解析待答复信息,自动调用对应的指令接口为其生成对应的答复信息,无需依赖中之人。答复信息存储至预设可变消息队列后,可以根据待答复信息的数量和/或已存储的答复信息数量对已存储的答复信息进行调整,保障答复信息回复的及时性,避免回复时间过久的待答复信息。
图2示出了根据本申请一实施例的虚拟直播方法的流程图,如图2所示,该方法包括以下步骤:
步骤S201,监听并获取用户端的至少一个弹幕信息作为待答复信息;和/或,监听并获取连线主播端的至少一个互动信息作为待答复信息。
本实施例采用异步处理方式,服务端监听获取待答复信息、生成/绘制答复信息、存储、调整、返回给主播端答复信息等都可以采用异步处理,避免处理干扰,减少阻塞问题。
服务端监听获取待答复信息时,可以通过监听用户端,获取用户在用户端发送的弹幕信息作为待答复信息,也可以监听与当前虚拟主播连线主播端的互动信息作为待答复信息,连线主播端的主播可以包括真人主播、虚拟主播等,与当前虚拟主播可以进行互动,互动信息作为待答复信息,可以自动为其生成答复信息。
进一步,在获取待答复信息时,若虚拟主播存在连麦主播时,可以根据预设比例随机获取用户端的弹幕信息或者连线主播端的互动信息,以平衡与用户、连线主播间的互动,避免单一互动导致另一方互动缺少、体验较差等问题。
进一步,在监听并获取待答复信息时,还可以获取到待答复信息的发送方标识,发送方标识包括如用户标识、连麦主播标识等。若待答复信息为弹幕信息,则发送方标识为用户标识,若待答复信息为互动信息时,发送方标识为连麦主播标识。获取发送方标识,可以方便统计同一发送方的待答复信息,将同一发送方的待答复信息关联,构建待答复信息上下文,生成答复信息时可以根据待答复信息上下文,更准确的生成答复信息,也避免不同用户、不同连麦主播间的答复信息相互干扰。
服务端监听获取待答复信息,也提高了获取速度,与现有从主播端拉取弹幕信息相比,更高效快速。
步骤S202,解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列。
对于待答复信息,先将其进行解析,根据解析得到的指令,如指令为绘图指令,则调用对应的绘图指令接口,如绘图平台的接口,为其自动生成对应的图像,将图像存储至预设可变消息队列。存储时,可以存储图像对应的url地址,方便存储,在主播端展示再基于图像的url地址获取图像展示给用户观看等。在生成图像时,图像可以基于预设第一提示词生成,如利用prompt模板生成正向+反向提示词,通过大语言模型基于prompt模板的提示词来优化绘图质量。绘图指令可以是如用户在弹幕中提出绘制图片,也可以是用户互动如用户点击更换直播背景图等,根据指令生成新的直播背景图,供用户选择后更换。此处,还可以对用户进行筛选,如根据用户等级、用户赠送虚拟礼物数量等,筛选符合预设条件的用户,提供给用户更换直播背景图的功能入口等,根据用户点击入口的操作,得到待答复信息,即得到更换直播背景图的信息,对应的解析得到绘图指令,绘制直播背景图后,提供给用户来更换直播背景图。以上为举例说明,具体根据实施情况设置,此处不做限定。
或者,指令为文字指令时,如提问、点歌、打招呼等待答复信息,根据解析得到的文字指令调用对应的文字指令接口,如大语言模型,自动为其生成对应的文字答复信息。生成文字答复信息时,可以根据当前虚拟主播的角色信息,生成与角色信息对应的文字答复信息,如模拟角色的口吻、情绪等。当前虚拟主播的角色信息可以根据第二提示词确定,如基于虚拟主播的形象,为大语言模型设置第二提示词,使得大语言模型扮演虚拟主播的角色,生成的文字答复信息带有虚拟主播的角色感情色彩的文字答复信息。在生成文字答复信息后,可以通过如文本语音转换工具,如TTS将文字答复信息进行转换,得到对应的音频信息。为避免声音呆板单一的问题,还可以对音频信息进行变声处理,如根据当前虚拟主播的角色信息,确定角色信息对应的变声参数,利用音频变声器如RVC对音频信息进行变声处理,使得变声处理后的音频信息更贴合虚拟主播的角色,避免使用一成不变的声音,也提升用户的听觉体验。在变声处理后,将变声处理后的音频信息存储至预设可变消息队列,存储时,也可以存储音频信息的url地址,主播端获取时可以根据url地址获取对应的音频信息,再进行播放。
进一步,在解析待答复信息时,可以根据待答复信息的发送方标识,获取发送方标识的其他待答复信息,从而得到同一发送方的待答复信息的上下文信息。根据待答复信息的上下文信息以及待答复信息,来解析待答复信息,可以根据待答复信息的上下文联系性,生成更准确的答复信息,也提供给用户更个性化的回复。
进一步,对于待答复信息,解析时还可以对待答复信息进行检测,如解析后检测待答复信息的语句、语义等是否符合预设内容条件,若不符合,则跳过,不为其生成待答复信息。预设内容条件根据实施情况设置,此处不做限定。
步骤S203,判断待答复信息的数量是否大于预设消息数量,和/或,判断预设可变消息队列已存储的答复信息数量是否大于预设消息存储数量。
答复信息根据获取的待答复信息生成,已存储的答复信息是根据之前获取的待答复信息生成,新生成的答复信息根据新获取的待答复信息生成,当判断待答复信息的数量大于预设消息数量时,为保障回复的及时性,避免虚拟主播一直回复之前较久时间的待答复信息,可以对预设可变消息队列已存储的答复信息进行调整,即执行步骤S204。
或者,虚拟主播获取答复信息时是按照预设可变消息队列存储的顺序依次获取的,当判断预设可变消息队列已存储的答复信息数量是否大于预设消息存储数量,即已存储多个答复信息还未被播放展示时,此时虚拟主播先获取到答复消息必然会是很久之前待答复消息的回复,因此,可以对预设可变消息队列已存储的答复信息进行调整,即执行步骤S204。
预设消息数量、预设消息存储数量可以根据实施情况设置,此处不做限定。在判断时,可以对上述任一条件进行判断,当判断结果为是时,则执行步骤S204,也可以当多个条件的判断结果为是时,执行步骤S204,此处不做限定。
步骤S204,丢弃预设可变消息队列中存储在先的答复信息。
将预设可变消息队列中存储在先的答复信息直接丢弃,丢弃时可以根据预设消息存储数量保留部分已存储的答复信息,如预设消息存储数量为3,保留3条答复信息,将多于3条的存储在先的答复信息直接丢弃,方便保留新生成答复信息。
步骤S205,监听主播端的答复获取请求,从预设可变消息队列中获取在先的答复信息返回给主播端,以供主播端展示对应的答复信息。
当服务端监听到主播端的答复获取请求时,可以从预设可变消息队列中获取排序在先的答复信息返回给主播端,主播端可以根据答复信息,如播放对应的音频信息,或者展示对应的图片。
进一步,预设可变消息队列中存储答复信息可以标记为用户的弹幕信息的答复信息,或者为连麦主播的互动信息的答复信息,当服务端监听到主播端的答复获取请求时,若预设可变消息队列中已存储用户的弹幕信息的答复信息,则直接获取弹幕信息的答复信息,由主播端进行展示;若预设可变消息队列中未存储用户的弹幕信息的答复信息,已存储连麦主播的互动信息的答复信息,当前为连麦状态,则直接获取互动信息的答复信息,与连麦主播互动;若预设可变消息队列为空且上次返回答复信息时间超过空闲阈值,如30s,则可以返回随机生成的答复信息,以上为举例说明,具体根据实施情况设置,此处不做限定。
以上各步骤可以参照如图3所示的时序图,以弹幕为例,用户端发送弹幕后,服务端可以对内容检测,根据内容检测结果,对检测通过的弹幕生成对应的答复信息。本实施例采用职责链的设计模式,判断解析后为绘图指令,则调用绘图平台的api,由绘图平台生成答复信息,返回图像url地址;若判断不是绘图指令,则继续判断职责链的下一步,如判断是否对话弹幕,若是,调用文字指令接口的api,生成符合虚拟主播角色的回答并包含对应的情绪。职责链的设计模式可以随时扩展其他AIGC功能,此处不做限定。在生成回答后,通过调用api,将文字转语音,得到音频url。请求变声时利用音频变声器得到变声后的音频url,消息队列存储(即存储至预设可变消息队列)。当主播端轮询信息时,根据答复获取请求,返回对应的回答、url(即返回预设可变消息队列存储的答复信息),主播端进行播放,展示,推流给用户端,用户可以观看虚拟主播的答复信息,完成与虚拟主播的互动。以上为举例说明,具体根据实施情况设置,此处不做限定。
根据本申请提供的虚拟直播方法,监听获取到待答复信息后,通过解析待答复信息,可以调用对应的绘图指令、文字指令等为其生成对应的答复信息,一方面无需依赖中之人,另一方面还可以提供给用户更多互动方式,不仅仅只是简单的聊天,互动更丰富有趣。答复信息在生成时,根据虚拟主播的角色信息生成,更贴合虚拟主播的形象,利用音频变声器进行变声处理时,采用虚拟主播角色信息对应的变声参数,解决虚拟主播原有的声线死板、感情缺失等问题。进一步,支持连麦,使得虚拟主播的直播更具有互动性。预设可变消息队列可以根据待答复信息的数量和/或已存储的答复信息数量对已存储的答复信息进行调整,保障答复信息回复的及时性,避免回复时间过久的待答复信息。
图4示出了本申请一实施例提供的虚拟直播装置的结构示意图。如图4所示,该装置包括:
第一监听模块410,适于监听并获取至少一个待答复信息;
生成存储模块420,适于解析待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将答复信息存储至预设可变消息队列;
丢弃模块430,适于根据待答复信息的数量和/或已存储的答复信息数量对预设可变消息队列进行调整,丢弃存储在先的答复信息;
第二监听模块440,适于监听主播端的答复获取请求,从预设可变消息队列中获取在先的答复信息返回给主播端,以供主播端展示对应的答复信息。
可选地,第一监听模块410进一步适于:
监听并获取用户端的至少一个弹幕信息作为待答复信息;和/或,监听并获取连线主播端的至少一个互动信息作为待答复信息;连线主播端的主播包括真人主播和/或虚拟主播。
可选地,第一监听模块410进一步适于:
根据预设比例随机获取用户端的弹幕信息和/或连线主播端的互动信息作为待答复信息。
可选地,指令包括绘图指令;
生成存储模块420进一步适于:
解析待答复信息,根据解析得到的绘图指令调用对应的绘图指令接口,生成对应的图像,将图像存储至预设可变消息队列;图像基于预设第一提示词生成。
可选地,指令包括文字指令;
生成存储模块420进一步适于:
解析待答复信息,根据解析得到的文字指令调用对应的文字指令接口,生成对应的文字答复信息;
将文字答复信息进行转换,得到对应的音频信息,并对音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列。
可选地,生成存储模块420进一步适于:
解析待答复信息,根据解析得到的文字指令调用对应的文字指令接口,并根据当前虚拟主播的角色信息,生成与角色信息对应的文字答复信息;当前虚拟主播的角色信息根据第二提示词确定。
可选地,生成存储模块420进一步适于:
将文字答复信息进行转换,得到对应的音频信息;
根据当前虚拟主播的角色信息,确定角色信息对应的变声参数,利用音频变声器对音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列。
可选地,第一监听模块410进一步适于:监听并获取至少一个待答复信息以及待答复信息的发送方标识;发送方标识包括用户标识和/或连麦主播标识;
生成存储模块420进一步适于:
根据待答复信息的发送方标识,获取发送方标识的其他待答复信息,得到待答复信息的上下文信息;
根据待答复信息的上下文信息以及待答复信息,解析待答复信息。
可选地,丢弃模块430进一步适于:
判断待答复信息的数量是否大于预设消息数量,和/或,判断预设可变消息队列已存储的答复信息数量是否大于预设消息存储数量;
若是,丢弃预设可变消息队列中存储在先的答复信息。
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
根据本申请提供的虚拟直播装置,监听获取到待答复信息后,通过解析待答复信息,自动调用对应的指令接口为其生成对应的答复信息,无需依赖中之人。答复信息存储至预设可变消息队列后,可以根据待答复信息的数量和/或已存储的答复信息数量对已存储的答复信息进行调整,保障答复信息回复的及时性,避免回复时间过久的待答复信息。
本申请还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的虚拟直播方法。
图5示出了根据本申请一实施例的一种计算设备的结构示意图,本申请的具体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述虚拟直播方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行上述任意方法实施例中的虚拟直播方法。程序510中各步骤的具体实现可以参见上述虚拟直播实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的较佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (12)

1.一种虚拟直播方法,其包括:
监听并获取至少一个待答复信息;
解析所述待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将所述答复信息存储至预设可变消息队列;
根据待答复信息的数量和/或已存储的答复信息数量对所述预设可变消息队列进行调整,丢弃存储在先的答复信息;
监听主播端的答复获取请求,从所述预设可变消息队列中获取在先的答复信息返回给所述主播端,以供所述主播端展示对应的答复信息。
2.根据权利要求1所述的方法,其中,所述监听并获取至少一个待答复信息进一步包括:
监听并获取用户端的至少一个弹幕信息作为待答复信息;和/或,监听并获取连线主播端的至少一个互动信息作为待答复信息;所述连线主播端的主播包括真人主播和/或虚拟主播。
3.根据权利要求2所述的方法,其中,所述监听并获取至少一个待答复信息进一步包括:
根据预设比例随机获取用户端的弹幕信息和/或连线主播端的互动信息作为待答复信息。
4.根据权利要求1所述的方法,其中,所述指令包括绘图指令;
所述解析所述待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将所述答复信息存储至预设可变消息队列进一步包括:
解析所述待答复信息,根据解析得到的绘图指令调用对应的绘图指令接口,生成对应的图像,将所述图像存储至预设可变消息队列;所述图像基于预设第一提示词生成。
5.根据权利要求1所述的方法,其中,所述指令包括文字指令;
所述解析所述待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将所述答复信息存储至预设可变消息队列进一步包括:
解析所述待答复信息,根据解析得到的文字指令调用对应的文字指令接口,生成对应的文字答复信息;
将所述文字答复信息进行转换,得到对应的音频信息,并对所述音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列。
6.根据权利要求5所述的方法,其中,所述解析所述待答复信息,根据解析得到的文字指令调用对应的文字指令接口,生成对应的文字答复信息进一步包括:
解析所述待答复信息,根据解析得到的文字指令调用对应的文字指令接口,并根据当前虚拟主播的角色信息,生成与所述角色信息对应的文字答复信息;所述当前虚拟主播的角色信息根据第二提示词确定。
7.根据权利要求6所述的方法,其中,所述将所述文字答复信息进行转换,得到对应的音频信息,并对所述音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列进一步包括:
将所述文字答复信息进行转换,得到对应的音频信息;
根据当前虚拟主播的角色信息,确定所述角色信息对应的变声参数,利用音频变声器对所述音频信息进行变声处理,将变声处理后的音频信息存储至预设可变消息队列。
8.根据权利要求1-7中任一项所述的方法,其中,所述监听并获取至少一个待答复信息进一步包括:
监听并获取至少一个待答复信息以及所述待答复信息的发送方标识;所述发送方标识包括用户标识和/或连麦主播标识;
所述解析所述待答复信息进一步包括:
根据所述待答复信息的发送方标识,获取所述发送方标识的其他待答复信息,得到所述待答复信息的上下文信息;
根据所述待答复信息的上下文信息以及所述待答复信息,解析所述待答复信息。
9.根据权利要求1-8中任一项所述的方法,其中,所述根据待答复信息的数量和/或已存储的答复信息数量对所述预设可变消息队列进行调整,丢弃存储在先的答复信息进一步包括:
判断待答复信息的数量是否大于预设消息数量,和/或,判断所述预设可变消息队列已存储的答复信息数量是否大于预设消息存储数量;
若是,丢弃所述预设可变消息队列中存储在先的答复信息。
10.一种虚拟直播装置,其包括:
第一监听模块,适于监听并获取至少一个待答复信息;
生成存储模块,适于解析所述待答复信息,根据解析得到的指令调用对应的指令接口,生成答复信息,并将所述答复信息存储至预设可变消息队列;
丢弃模块,适于根据待答复信息的数量和/或已存储的答复信息数量对所述预设可变消息队列进行调整,丢弃存储在先的答复信息;
第二监听模块,适于监听主播端的答复获取请求,从所述预设可变消息队列中获取在先的答复信息返回给所述主播端,以供所述主播端展示对应的答复信息。
11.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的虚拟直播方法对应的操作。
12.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-9中任一项所述的虚拟直播方法对应的操作。
CN202311534376.6A 2023-11-16 2023-11-16 虚拟直播方法及装置 Pending CN117579855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311534376.6A CN117579855A (zh) 2023-11-16 2023-11-16 虚拟直播方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311534376.6A CN117579855A (zh) 2023-11-16 2023-11-16 虚拟直播方法及装置

Publications (1)

Publication Number Publication Date
CN117579855A true CN117579855A (zh) 2024-02-20

Family

ID=89892931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311534376.6A Pending CN117579855A (zh) 2023-11-16 2023-11-16 虚拟直播方法及装置

Country Status (1)

Country Link
CN (1) CN117579855A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118115149A (zh) * 2024-04-30 2024-05-31 厦门国际银行股份有限公司 一种超级网银来报业务自动回执方法、系统及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118115149A (zh) * 2024-04-30 2024-05-31 厦门国际银行股份有限公司 一种超级网银来报业务自动回执方法、系统及介质

Similar Documents

Publication Publication Date Title
CN108200446B (zh) 虚拟形象的线上多媒体互动系统及方法
CN104869467B (zh) 媒体播放中的信息输出方法、装置和系统
US9210372B2 (en) Communication method and device for video simulation image
US20120039382A1 (en) Experience or "sentio" codecs, and methods and systems for improving QoE and encoding based on QoE experiences
CN109951743A (zh) 弹幕信息处理方法、系统及计算机设备
JP2001245269A (ja) コミュニケーション・データ作成装置及び作成方法、コミュニケーション・データ再生装置及び再生方法、並びに、プログラム記憶媒体
CN106301811A (zh) 实现多媒体会议的方法及装置
CN117579855A (zh) 虚拟直播方法及装置
US10084829B2 (en) Auto-generation of previews of web conferences
CN111667557B (zh) 动画制作方法及装置、存储介质、终端
CN110677685B (zh) 网络直播显示方法及装置
US10425578B1 (en) Image capturing assistant
CN105847263A (zh) 视频直播的方法、装置及系统
CN113038185B (zh) 弹幕处理方法及装置
CN109640104A (zh) 基于人脸识别的直播互动方法、装置、设备及存储介质
CN111629222B (zh) 一种视频处理方法、设备及存储介质
CN114286021B (zh) 渲染方法、装置、服务器、存储介质及程序产品
CN113905254B (zh) 视频合成方法、装置、系统与可读存储介质
CN116600152A (zh) 虚拟主播直播方法、装置、设备及存储介质
KR20170127354A (ko) 페이셜 모션 캡쳐를 이용한 얼굴 변환 화상 대화 장치 및 방법
CN114449301B (zh) 物品发送方法、装置、电子设备和计算机可读存储介质
CN116016837A (zh) 一种沉浸式虚拟网络会议方法和装置
CN112565913B (zh) 视频通话方法、装置和电子设备
CN111798872B (zh) 用于在线互动平台的处理方法、装置及电子设备
CN112634879B (zh) 语音会议管理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination