CN117676009A

CN117676009A - 一种5g新通信动态背景生成方法及系统

Info

Publication number: CN117676009A
Application number: CN202311505101.XA
Authority: CN
Inventors: 罗志亮; 张晶晶; 陈家志; 乔治; 李雪欣; 汪秋波; 李韩; 邹西山; 范娴君; 罗岚; 弋翔; 温雪阳; 邓宇翔; 陈静娴; 陈星�
Original assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-03-08

Abstract

本发明公开一种5G新通信动态背景生成方法，包含以下步骤：S1，主叫终端发起通话呼叫后，经过资源预留阶段，由5G新通信动态背景生成平台透传主被叫信令，并分别完成针对主叫终端和被叫终端的资源预留；S2，被叫终端摘机后，由5G新通信动态背景生成平台完成与被叫侧的媒体协商；S3，主叫终端与被叫终端进入正常通话阶段，5G新通信动态背景生成平台实时分析主叫终端发送的音视频流，进行动态背景生成，生成新的动态背景后对音视频流中背景进行替换，并发送该视频流到被叫终端。本发明可以根据通话双方对话关键词汇、用户情感语义和面部表情，实时生成个性化动态背景，为通话增添情感元素，确保背景与通话内容的实时匹配，提升用户的参与感和满足感。

Description

一种5G新通信动态背景生成方法及系统

技术领域

本发明涉及无线通信技术领域，特别是一种通话中的动态背景生成方法及系统。

背景技术

随着5G网络的普及，通信业务有了创新发展，从通话前的彩铃到通话中新通信业务，充分利用网络资源，丰富了通话中的媒体形式。新通信业务包括通话背景、翻译、屏幕共享、白板等。当前新通信业务设置模式延续了彩铃的传统设置方式，用户预先设置通话背景视频内容，通话中根据终端和网络能力，为用户展示视频背景。现有的这种方式无法根据通话内容等关键信息进行动态背景生成，仅提供虚拟、固定背景能力，只可支持用户固定设置内容的播放，不足以支持宣传等媒体传播需求。

发明内容

本发明针对上述问题，提供一种5G新通信动态背景生成方法，其特征在于，包含以下步骤：

S1，主叫终端发起通话呼叫后，经过资源预留阶段，由5G新通信动态背景生成平台透传主被叫信令，并分别完成针对主叫终端和被叫终端的资源预留；

S2，所述被叫终端摘机后，由所述5G新通信动态背景生成平台完成与被叫侧的媒体协商，由所述5G新通信动态背景生成平台完成与主叫侧的资源确认并将ACK(SDP平台音视频)发送给被叫终端；

S3，所述主叫终端与被叫终端进入正常通话阶段，所述5G新通信动态背景生成平台实时分析主叫终端发送的音视频流，对音视频流进行内容分析后，进行动态背景生成，生成新的动态背景后对音视频流中背景进行替换，并发送该视频流到被叫终端；

S4，被叫终端挂机，所述5G新通信视频能力平台释放资源，释放通话呼叫。

作为本发明的进一步说明，所述步骤S2中主叫终端视频资源未预留成功时，执行可选步骤，待主叫侧完成资源预留后发送UPDATE资源确认消息，5G新通信动态背景生成平台支持并应答所述UPDATE资源确认消息。

更进一步地，所述步骤S3中对音视频流进行内容分析包括关键字信息提取、用户情感分析和用户表情识别中的一种或多种，并生成背景提示词，依据所述背景提示词通过背景生成模型进行动态背景生成。

更进一步地，所述关键字信息提取为通过AI语义识别技术对双方的原生对话进行实时分析，捕捉对话中的重点词汇和关键信息。

更进一步地，所述用户情感分析为利用情感分析技术，对用户的对话情感进行实时识别和分析。

更进一步地，所述用户表情识别为通过5G设备中高性能的人脸识别模块，实时捕捉用户通话过程中的面部表情。

更进一步地，所述进行动态背景生成包括将原生对话重点词汇关联、用户情感语义和面部表情的结果融合，动态选择合适的背景图片或视频素材，并结合图像合成技术，实时生成具有情感化和语义化的动态视频背景。

更进一步地，所述步骤S3中根据分析的用户多模态数据利用LLM技术并结合用户偏好的背景风格生成所述背景提示词。

更进一步地，所述背景生成模型包括若干不同风格的背景生成模型，所述步骤S3中根据用户偏好风格，或用户意图关键字等信息选择合适的生成模型进行相应风格的背景生成。

另一方面，本发明还提供一种5G新通信动态背景生成系统，用于实现上述5G新通信动态背景生成方法，包括主叫域和被叫域，其中所述被叫域中包含5G新通信动态背景生成平台，用于主叫终端与被叫终端通话的动态背景生成。

本发明的有益效果：

1.根据通话双方对话关键词汇、用户情感语义和面部表情，实时生成个性化动态背景，为通话增添情感元素，提升用户的参与感和满足感。

2、结合5G新通信动态背景生成平台逻辑处理，背景的动态生成和传输确保了背景与通话内容的实时匹配，增强了通话的真实感和代入感。

3、动态背景生成带来丰富的视觉效果，为通话增添更多趣味和吸引力。

4、动态背景的展示可以增强用户之间的情感沟通，帮助用户更好地表达情感和共鸣。

附图说明

图1为本发明5G新通信动态背景生成方法逻辑流程图；

图2为本发明生成动态背景实现流程。

具体实施方式

下面结合附图对本发明实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参见附图1所示，本发明提供一种5G新通信动态背景生成方法，包含以下步骤：

作为本发明的进一步说明，所述步骤S2中主叫终端视频资源未预留成功，需执行可选步骤18-19，待主叫侧完成资源预留后发送UPDATE资源确认消息，5G新通信动态背景生成平台需支持并应答200UPDATE(SDP_平台音视频)。

参见附图2所示，所述步骤S3中对音视频流进行内容分析包括关键字信息提取、用户情感分析和用户表情识别中的一种或多种，并生成背景提示词，依据所述背景提示词通过背景生成模型进行动态背景生成。若用户开启了关键字提取模态信息功能，则进行用户通话过程中最新的上下文关键字信息提取，根据语义获取用户意图关键字等信息；若用户开启了用户情感分析提取模态信息功能，则进行用户语义情感分析；若用户开启用户表情分析提取模态信息功能。则进行用户表情识别，分析用户情感

具体的，所述关键字信息提取为通过AI语义识别技术对双方的原生对话进行实时分析，捕捉对话中的重点词汇和关键信息。采用自然语言处理技术，对对话内容进行分词、词性标注和依存句法分析，构建对话语义图谱，实现对关键词汇的语义关联。

具体的，所述用户情感分析为利用情感分析技术，对用户的对话情感进行实时识别和分析。将对话内容和语音情感特征相结合，使用深度学习模型进行情感分类，识别用户情感状态，包括喜悦、愤怒、悲伤等，获得情感语义。

具体的，所述用户表情识别为通过5G设备中高性能的人脸识别模块，实时捕捉用户通话过程中的面部表情。引入卷积神经网络(CNN)和面部特征提取算法，对面部表情进行实时识别和跟踪，监测用户的微笑、皱眉等表情变化。

具体的，所述进行动态背景生成包括将原生对话重点词汇关联、用户情感语义和面部表情的结果融合，动态选择合适的背景图片或视频素材，并结合图像合成技术，实时生成具有情感化和语义化的动态视频背景。

本实施例中，所述步骤S3中根据分析的用户多模态数据利用LLM技术并结合用户偏好的背景风格生成所述背景提示词。

具体的，所述背景生成模型包括若干不同风格的背景生成模型，所述步骤S3中根据用户偏好风格，或用户意图关键字等信息选择合适的生成模型进行相应风格的背景生成。

另一方面，本发明还提供一种5G新通信动态背景生成系统，用于实现上述5G新通信动态背景生成方法，包括主叫域和被叫域，其中所述被叫域中包含5G新通信动态背景生成平台，用于主叫终端与被叫终端通话的动态背景生成。该系统在实现上述5G新通信动态背景生成方法时，具体流程参见附图1所示：

步骤1-6：资源预留阶段，透传主被叫信令；

步骤7：被叫振铃，透传180振铃信令；

步骤8-11：被叫55G新通信动态背景生成平台收到被叫摘机200invite，回复ACK消息；

步骤12-15：被叫5G新通信动态背景生成平台给被叫发送Reinvite()，被叫回复200ok Re-invite(SDP_被叫媒体)，完成与被叫侧的媒体协商；

步骤16-19：5G新通信动态背景生成平台给主叫发送update(SDP_平台音视频),主叫收到媒体更新后回复200update，如果第17步中主叫终端视频资源未预留成功，需执行可选步骤18-19，待主叫侧完成资源预留后发送UPDATE资源确认消息，5G新通信动态背景生成平台需支持并应答200UPDATE(SDP_平台音视频)；

步骤20-23：5G新通信动态背景生成平台向主叫侧发送摘机消息200OK invite，主叫侧回复ACK()，5G新通信动态背景生成平台收到ACK()后，替换成ACK(SDP平台音视频)发送给被叫；

步骤24-25：5G新通信动态背景生成平台实时分析UEa发送的音视频流，对音视频流进行内容分析后，进行动态背景生成。生成新的动态背景后对音视频流中背景进行替换，并发送该视频流到UEb

步骤26-27：被叫挂机，5G新通信视频能力平台释放资源，释放呼叫。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种5G新通信动态背景生成方法，其特征在于，包含以下步骤：

S2，所述被叫终端摘机后，由所述5G新通信动态背景生成平台完成与被叫侧的媒体协商，由所述5G新通信动态背景生成平台完成与主叫侧的资源确认并将ACKSDP平台音视频发送给被叫终端；

2.根据权利要求1所述5G新通信动态背景生成方法，其特征在于：所述步骤S2中主叫终端视频资源未预留成功时，执行可选步骤，待主叫侧完成资源预留后发送UPDATE资源确认消息，5G新通信动态背景生成平台支持并应答所述UPDATE资源确认消息。

3.根据权利要求1所述5G新通信动态背景生成方法，其特征在于：所述步骤S3中对音视频流进行内容分析包括关键字信息提取、用户情感分析和用户表情识别中的一种或多种，并生成背景提示词，依据所述背景提示词通过背景生成模型进行动态背景生成。

4.根据权利要求3所述5G新通信动态背景生成方法，其特征在于：所述关键字信息提取为通过AI语义识别技术对双方的原生对话进行实时分析，捕捉对话中的重点词汇和关键信息。

5.根据权利要求3所述5G新通信动态背景生成方法，其特征在于：所述用户情感分析为利用情感分析技术，对用户的对话情感进行实时识别和分析。

6.根据权利要求3所述5G新通信动态背景生成方法，其特征在于：所述用户表情识别为通过5G设备中高性能的人脸识别模块，实时捕捉用户通话过程中的面部表情。

7.根据权利要求3所述5G新通信动态背景生成方法，其特征在于：所述进行动态背景生成包括将原生对话重点词汇关联、用户情感语义和面部表情的结果融合，动态选择合适的背景图片或视频素材，并结合图像合成技术，实时生成具有情感化和语义化的动态视频背景。

8.根据权利要求3所述5G新通信动态背景生成方法，其特征在于：所述步骤S3中根据分析的用户多模态数据利用LLM技术并结合用户偏好的背景风格生成所述背景提示词。

9.根据权利要求3所述5G新通信动态背景生成方法，其特征在于：所述背景生成模型包括若干不同风格的背景生成模型，所述步骤S3中根据用户偏好风格，或用户意图关键字等信息选择合适的生成模型进行相应风格的背景生成。

10.一种5G新通信动态背景生成系统，用于实现如权利要求1-9任一所述5G新通信动态背景生成方法，其特征在于，包括主叫域和被叫域，其中所述被叫域中包含5G新通信动态背景生成平台，用于主叫终端与被叫终端通话的动态背景生成。