CN117640604A

CN117640604A - 一种基于NaaS架构的实时通话智能特效生成方法及系统

Info

Publication number: CN117640604A
Application number: CN202311572377.XA
Authority: CN
Inventors: 李韩; 贾志强; 常剑; 邹西山; 弋翔; 罗岚; 罗志亮; 温雪阳; 邓宇翔; 陈静娴; 陈星�
Original assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd; China Unicom WO Music and Culture Co Ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-03-01

Abstract

本发明公开了一种基于NaaS架构的实时通话智能特效生成方法及系统，通过智能特效生成和实时渲染，将用户通话内容转化为视觉特效，并将其同步渲染到通话双方，使得通话过程更加生动有趣；基于NaaS架构服务，用户可以进行个性化定制，使每次通话都能够根据用户的情感、话题和语气生成相应的特效，从而提升通话的个性化体验；通过实时分析通话内容并生成与之匹配的智能特效，包括情感识别、特效生成与匹配、背景融合、实时渲染和叠加等关键技术，改变传统的语音通话方式，赋予语音通话过程更多的乐趣、活力和情感，从而更好地满足用户的交流需求。

Description

一种基于NaaS架构的实时通话智能特效生成方法及系统

技术领域

本发明涉及计算机网络传输和媒体资源处理技术领域，特别是一种利用网络技术和相关算法实现的基于NaaS架构的实时通话智能特效生成方法及系统。

背景技术

语音通话是现在人们生活工作中非常常见的一种沟通通话方式，通过用户端和服务商提供的语音通信服务实现。在现有传统的语音通话中，通常只有声音信号的传递，缺乏趣味性和视觉上的交流。为了改善这一不足，现有技术中也出现了一些在语音通话中加入通话特效效果的方式，然而，现有定制化的通话特效叠加通常缺乏灵活性，无法根据通话内容进行实时调整。随着人们对通话体验的要求不断提升，提供一种能够增强语音通话趣味性和交流效果的解决方案变得至关重要。

发明内容

本发明针对上述问题，提供一种基于NaaS架构的实时通话智能特效生成方法，包含以下步骤：

S1，媒体服务器将用户语音通话中的用户实时媒体流分别发送至AI分析模块和视频渲染模块；

S2，所述AI分析模块对所述用户实时媒体流进行实时分析，得到针对该用户实时媒体流的决策信息，并将所述决策信息发送至特效生成式模型；

S3，所述特效生成式模型基于所述决策信息，生成针对所述用户实时媒体流的特效媒体流，并将所述特效媒体流发送至所述视频渲染模块；

S4，所述视频渲染模块将用户实时媒体流与其相对应的特效媒体流进行视频渲染，得到叠加特效后媒体流，并将所述叠加特效后媒体流返回至所述媒体服务器；

S5，所述媒体服务器在用户的语音通话服务中，将所述叠加特效后媒体流随着话内容的进行实时展示。

作为本发明的进一步说明，所述步骤S2中，通过语音识别将用户的通话内容进行识别，转化为文本形式，然后进行实时分析；所述实时分析包括文本话题分析和语音情感分析。

更进一步地，所述文本话题分析中，通过自然语言处理技术识别判断用户通话的内容和提及的话题。

更进一步地，所述语音情感分析中，基于文本内容和语音特征，通过自然语言处理和情感分析技术判断用户通话的情感状态，生产的特效媒体流与所述情感状态相匹配。

更进一步地，所述语音特征包括用户通话时声音的音调特征和语速特征。

更进一步地，所述叠加特效后媒体流以特效的方式在用户终端的通话屏幕上进行展示。

更进一步地，所述特效包括动态图像、图标和标签。

更进一步地，所述步骤S2中识别到用户通话中提及地点或场景时，以所述提及地点或场景作为背景图像，在所述步骤S3中将所述特效媒体流与所述背景图像相融合。

另一方面，本发明还提供一种基于NaaS架构的实时通话智能特效生成系统，包括媒体服务器、AI分析模块、特效生成式模型和视频渲染模块，其中，

所述媒体服务器用于给用户提供基本和增强业务中的媒体处理功能，包括音频、视频、数据的处理和不同编解码算法之间的转换等资源功能以及通信功能和管理维护功能；

所述AI分析模块用于用户语音通话中的用户实时媒体流的实时分析；并生成决策信息；

所述特效生成式模型用于针对用户语音通话中的用户实时媒体流生成特效媒体流；

所述视频渲染模块用于将用户语音通话中的用户实时媒体流与其相对应的特效媒体流进行视频渲染，得到叠加特效后媒体流。

更进一步地，所述AI分析模块包括语音情感分析单元和文本话题分析单元，其中，所述语音情感分析单元用于用户语音通话中的情感状态分析判断，所述文本话题分析单元用于用户语音通话中的文本内容及话题分析判断。

本发明的有益效果：

本方案通过智能特效生成和实时渲染，将用户通话内容转化为视觉特效，并将其同步渲染到通话双方，使得通话过程更加生动有趣；基于NaaS架构服务，用户可以进行个性化定制，使每次通话都能够根据用户的情感、话题和语气生成相应的特效，从而提升通话的个性化体验；通过实时分析通话内容并生成与之匹配的智能特效，包括情感识别、特效生成与匹配、背景融合、实时渲染和叠加等关键技术，改变传统的语音通话方式，赋予语音通话过程更多的乐趣、活力和情感，从而更好地满足用户的交流需求。

1、增强趣味性和个性化体验：传统语音通话变得更有趣，通过实时生成与通话内容相关的视觉特效，使通话过程更生动活泼。用户可以根据自己的情感、兴趣和话题定制特效，从而提升通话的个性化体验。

2、丰富情感表达：通过实时分析通话内容和语气，智能生成特效能更准确地表达用户情感。无论是开心、激动还是感动，特效能够有效增强情感传达，使通话更具共鸣。

3、创造独特沟通方式：用户可以通过特效与视觉元素交流，进一步丰富沟通方式。特效能够代表特定话题、场景或情感，创造独特的交流方式，增进沟通的深度和趣味性。

4、提升社交互动：特效能够引发双方的兴趣，激发更多的互动和讨论。通话双方可以在特效的基础上展开更多话题，拓展沟通范围，加强社交互动。

5、丰富通话场景：用户通话时，特效可以将通话内容与背景图像融合，为通话创造多样的场景。无论用户身处何地，特效都能让通话场景更加多彩多样。

6、提高娱乐性：通过将特效叠加到通话内容中，通话过程不再单调，变得更具娱乐性。这有助于缓解通话的紧张感，使通话更加轻松愉快。

附图说明

图1为本发明基于NaaS架构的实时通话智能特效生成方法流程示意图。

具体实施方式

下面结合附图对本发明实施例详细的说明，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参见附图1所示，为实现本发明的基于NaaS架构的实时通话智能特效生成方法，首先对本发明的基于NaaS架构的实时通话智能特效生成系统进行介绍，其具体包括媒体服务器、AI分析模块、特效生成式模型和视频渲染模块四个部分，其中，所述媒体服务器用于给用户提供基本和增强业务中的媒体处理功能，包括音频、视频、数据的处理和不同编解码算法之间的转换等资源功能以及通信功能和管理维护功能；所述AI分析模块用于用户语音通话中的用户实时媒体流的实时分析；并生成决策信息；所述特效生成式模型用于针对用户语音通话中的用户实时媒体流生成特效媒体流；所述视频渲染模块用于将用户语音通话中的用户实时媒体流与其相对应的特效媒体流进行视频渲染，得到叠加特效后媒体流。

优选的实施方式中，所述AI分析模块包括语音情感分析单元和文本话题分析单元，其中，所述语音情感分析单元用于用户语音通话中的情感状态分析判断，所述文本话题分析单元用于用户语音通话中的文本内容及话题分析判断。如此，能在生成特效的决策过程中提供更多的参考参数，以进行更为灵活多样的实时决策，生成更为趣味性和个性化的特效。

基于上述实时通话智能特效生成系统，本发明基于NaaS架构的实时通话智能特效生成方法的一种实现方法如下：

S1，媒体服务器将用户语音通话中的用户实时媒体流分别发送至AI分析模块和视频渲染模块。

S2，所述AI分析模块对所述用户实时媒体流进行实时分析，得到针对该用户实时媒体流的决策信息，并将所述决策信息发送至特效生成式模型。具体的分析过程中，首先通过语音识别将用户的通话内容进行识别，转化为文本形式，然后进行实时分析；所述实时分析包括文本话题分析和语音情感分析。通过自然语言处理技术识别判断用户通话的内容和提及的话题；基于文本内容和语音特征，使用自然语言处理和情感分析技术判断通话的情感状态，本实施例中，用于分析所述情感状态的语音特征为用户通话时声音的音调特征和语速特征。

S3，所述特效生成式模型基于所述决策信息，生成针对所述用户实时媒体流的特效媒体流，并将所述特效媒体流发送至所述视频渲染模块。在具体在特效生成的过程中，根据情感、话题和用户的个人偏好，智能生成与通话内容相匹配的特效，这些特效可以包括动态图像、图标、标签等。在本实施例的具体实施方式中，还考虑了场地背景融合和情感匹配问题，如下：

S301，场地背景融合：如果通话中提到了地点或场景，系统可以将特效与对应的背景图像融合，使通话内容更加丰富和生动。

S302，情感匹配：将生成的特效与通话内容的情感状态匹配，确保特效能够准确传达通话的情感。

S5，所述媒体服务器在用户的语音通话服务中，将所述叠加特效后媒体流随着话内容的进行实时展示。具体为将生成的特效叠加到通话内容中，确保特效与通话的同步性。特效可以显示在通话屏幕上的指定位置，可以以实时显示的方式进行展示特效随着通话内容的进行实时展示，可以在通话界面上显示出来，让双方都能看到。

通过上述基于NaaS架构的实时通话智能特效生成方法，本发明通过智能特效生成和实时渲染，将用户通话内容转化为视觉特效，并将其同步渲染到通话双方，使得通话过程更加生动有趣；用户可以进行个性化定制，使每次通话都能够根据用户的情感、话题和语气生成相应的特效，从而提升通话的个性化体验；通过实时分析通话内容并生成与之匹配的智能特效，包括情感识别、特效生成与匹配、背景融合、实时渲染和叠加等关键技术，改变传统的语音通话方式，赋予语音通话过程更多的乐趣、活力和情感，从而更好地满足用户的交流需求。

以上仅就本发明较佳的实施例作了说明，但不能理解为是对权利要求的限制。本发明不仅局限于以上实施例，其具体结构允许有变化，总之，凡在本发明独立权利要求的保护范围内所作的各种变化均在本发明的保护范围内。

Claims

1.一种基于NaaS架构的实时通话智能特效生成方法，其特征在于，包含以下步骤：

2.根据权利要求1所述基于NaaS架构的实时通话智能特效生成方法，其特征在于：所述步骤S2中，通过语音识别将用户的通话内容进行识别，转化为文本形式，然后进行实时分析；所述实时分析包括文本话题分析和语音情感分析。

3.根据权利要求2所述基于NaaS架构的实时通话智能特效生成方法，其特征在于：所述文本话题分析中，通过自然语言处理技术识别判断用户通话的内容和提及的话题。

4.根据权利要求2所述基于NaaS架构的实时通话智能特效生成方法，其特征在于：所述语音情感分析中，基于文本内容和语音特征，通过自然语言处理和情感分析技术判断用户通话的情感状态，生产的特效媒体流与所述情感状态相匹配。

5.根据权利要求4所述基于NaaS架构的实时通话智能特效生成方法，其特征在于：所述语音特征包括用户通话时声音的音调特征和语速特征。

6.根据权利要求1所述基于NaaS架构的实时通话智能特效生成方法，其特征在于：所述叠加特效后媒体流以特效的方式在用户终端的通话屏幕上进行展示。

7.根据权利要求6所述基于NaaS架构的实时通话智能特效生成方法，其特征在于：所述特效包括动态图像、图标和标签。

8.根据权利要求1所述基于NaaS架构的实时通话智能特效生成方法，其特征在于：所述步骤S2中识别到用户通话中提及地点或场景时，以所述提及地点或场景作为背景图像，在所述步骤S3中将所述特效媒体流与所述背景图像相融合。

9.一种基于NaaS架构的实时通话智能特效生成系统，其特征在于：包括媒体服务器、AI分析模块、特效生成式模型和视频渲染模块，其中，

10.根据权利要求9所述基于NaaS架构的实时通话智能特效生成系统，其特征在于：所述AI分析模块包括语音情感分析单元和文本话题分析单元，其中，所述语音情感分析单元用于用户语音通话中的情感状态分析判断，所述文本话题分析单元用于用户语音通话中的文本内容及话题分析判断。