CN117560340B

CN117560340B - 基于模拟角色的信息交互方法、装置和存储介质

Info

Publication number: CN117560340B
Application number: CN202410048579.2A
Authority: CN
Inventors: 李建勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-09
Anticipated expiration: 2044-01-12
Also published as: CN117560340A

Abstract

本申请公开了一种基于模拟角色的信息交互方法、装置和存储介质。其中，该方法包括：获取至少一个角色数据，和视频数据；利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容；利用至少一个角色数据中的原始音频数据，模拟指定角色的指定声音，以提供信息交互服务中的交互音频，其中，交互音频是指定声音对交互内容进行听觉呈现的结果；利用至少一个角色数据中的原始视频数据，模拟指定角色的表现交互习惯，以提供信息交互服务中的交互视频，可应用在人工智能场景，涉及语音识别等技术。本申请解决了基于模拟角色的信息交互准确性较低的技术问题。

Description

基于模拟角色的信息交互方法、装置和存储介质

技术领域

本申请涉及计算机领域，具体而言，涉及一种基于模拟角色的信息交互方法、装置和存储介质及电子设备。

背景技术

在基于模拟角色的信息交互场景中，用户通常只能在特定产品或者业务下与有限功能的模拟角色进行信息交互，且信息交互的方式也较为单一，如用户通常不能自定义选择文字或者语音或者同时使用两者进行交互。

但无论是文字或者语音都无法准确地还原出模拟角色的真实交互习惯，如此用户在与模拟角色进行信息交互时自然就会感到不符合预期，或者说相比真实存在的角色，模拟角色的信息交互不够准确，进而导致基于模拟角色的信息交互准确性较低的问题出现。因此，存在基于模拟角色的信息交互准确性较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种基于模拟角色的信息交互方法、装置和存储介质及电子设备，以至少解决基于模拟角色的信息交互准确性较低的技术问题。

根据本申请实施例的一个方面，提供了一种基于模拟角色的信息交互方法，包括：获取至少一个角色数据，其中，上述角色数据为指定角色实际输出的原始数据，上述原始数据包括文本数据、音频数据，和视频数据；利用上述至少一个角色数据中的原始文本数据，模拟上述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，上述交互内容与上述文本交互习惯相互匹配，上述模拟角色服务是模拟上述指定角色进行的信息交互服务；利用上述至少一个角色数据中的原始音频数据，模拟上述指定角色的指定声音，以提供上述信息交互服务中的交互音频，其中，上述交互音频是上述指定声音对上述交互内容进行听觉呈现的结果；利用上述至少一个角色数据中的原始视频数据，模拟上述指定角色的表现交互习惯，以提供上述信息交互服务中的交互视频，其中，上述交互视频与上述表现交互习惯相互匹配，上述交互视频是对上述交互内容进行视觉呈现的结果。

根据本申请实施例的另一方面，还提供了一种基于模拟角色的信息交互装置，包括：获取单元，用于获取至少一个角色数据，其中，上述角色数据为指定角色实际输出的原始数据，上述原始数据包括文本数据、音频数据，和视频数据；第一模拟单元，用于利用上述至少一个角色数据中的原始文本数据，模拟上述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，上述交互内容与上述文本交互习惯相互匹配，上述模拟角色服务是模拟上述指定角色进行的信息交互服务；第二模拟单元，用于利用上述至少一个角色数据中的原始音频数据，模拟上述指定角色的指定声音，以提供上述信息交互服务中的交互音频，其中，上述交互音频是上述指定声音对上述交互内容进行听觉呈现的结果；第三模拟单元，用于利用上述至少一个角色数据中的原始视频数据，模拟上述指定角色的表现交互习惯，以提供上述信息交互服务中的交互视频，其中，上述交互视频与上述表现交互习惯相互匹配，上述交互视频是对上述交互内容进行视觉呈现的结果。

作为一种可选的方案，上述第二模拟单元，包括：第一提取模块，用于提取上述原始音频数据对应的声纹特征，其中，上述声纹特征用于表示上述原始音频数据对应的声音特性；第一调整模块，用于在将上述交互内容转化为第一音频的情况下，利用上述声纹特征调整上述第一音频的声纹参数，得到第二音频，其中，上述交互音频包括上述第二音频。

作为一种可选的方案，上述装置还包括：第一克隆模块，用于在上述提取上述原始音频数据对应的声纹特征之前，对上述原始音频数据进行克隆，得到副本音频数据；第一识别模块，用于在上述提取上述原始音频数据对应的声纹特征之前，对上述副本音频数据进行语音识别，得到第一文本数据；上述方法还包括：第一模拟模块，用于在上述利用上述至少一个角色数据中的原始文本数据，模拟上述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，利用上述第一文本数据，协助上述原始文本数据进行上述文本交互习惯的模拟。

作为一种可选的方案，上述第三模拟单元，包括：第二提取模块，用于提取上述原始视频数据对应的行为特征，其中，上述行为特征用于表示上述指定角色在上述原始视频数据中的动作和姿态；第二调整模块，用于在将上述交互内容转化为第一视频的情况下，利用上述行为特征调整上述指定角色在上述第一视频中的动作和姿态，得到第二视频，其中，上述交互视频包括上述第二视频。

作为一种可选的方案，上述装置还包括：第二克隆模块，用于在上述提取上述原始视频数据对应的行为特征之前，对上述原始视频数据进行克隆，得到副本视频数据；第三提取模块，用于在上述提取上述原始视频数据对应的行为特征之前，对上述副本视频数据进行音频提取，得到补充音频数据；第二识别模块，用于在上述提取上述原始视频数据对应的行为特征之前，对上述补充音频数据进行语音识别，得到第二文本数据；上述方法还包括：第二模拟模块，用于在上述利用上述至少一个角色数据中的原始文本数据，模拟上述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，利用上述第二文本数据，协助上述原始文本数据进行上述文本交互习惯的模拟。

作为一种可选的方案，上述获取单元，包括：收集模块，用于收集多个候选角色数据，其中，上述候选角色数据的数据来源为至少一个候选角色，上述至少一个候选角色包括上述指定角色，上述候选角色为允许采集角色数据的角色；分类模块，用于按照上述候选角色的角色身份，对上述多个候选角色数据进行分类，得到至少一个角色数据集，其中，上述至少一个角色数据集中不同的角色数据集对应不同的候选角色；确定模块，用于从上述至少一个角色数据集中确定出上述指定角色对应的指定角色数据集，其中，上述指定角色数据集包括上述至少一个角色数据。

作为一种可选的方案，上述确定模块，包括：确定子模块，用于将上述至少一个角色数据集中，满足指定条件的角色数据集确定为上述指定角色数据集，其中，上述满足指定条件的角色数据集对应的指定分数大于或等于预设阈值，上述指定分数为第一分数、第二分数和第三分数的加权总和，上述第一分数与上述满足指定条件的角色数据集包含的文本数据量呈正向关系，上述第二分数与上述满足指定条件的角色数据集包含的音频数据量呈正向关系，上述第三分数与上述满足指定条件的角色数据集包含的视频数据量呈正向关系。

作为一种可选的方案，上述获取单元，包括：获取模块，用于响应于用户账号触发的模拟定制服务请求，获取上述用户账号上传的定制角色数据，其中，上述模拟定制服务请求用于请求定制上述指定角色专属的信息交互服务，上述模拟角色服务包括上述指定角色专属的信息交互服务，上述定制角色数据包括上述至少一个角色数据。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行如以上基于模拟角色的信息交互方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的基于模拟角色的信息交互方法。

在本申请实施例中，获取至少一个角色数据，其中，上述角色数据为指定角色实际输出的原始数据，上述原始数据包括文本数据、音频数据，和视频数据；利用上述至少一个角色数据中的原始文本数据，模拟上述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，上述交互内容与上述文本交互习惯相互匹配，上述模拟角色服务是模拟上述指定角色进行的信息交互服务；利用上述至少一个角色数据中的原始音频数据，模拟上述指定角色的指定声音，以提供上述信息交互服务中的交互音频，其中，上述交互音频是上述指定声音对上述交互内容进行听觉呈现的结果；利用上述至少一个角色数据中的原始视频数据，模拟上述指定角色的表现交互习惯，以提供上述信息交互服务中的交互视频，其中，上述交互视频与上述表现交互习惯相互匹配，上述交互视频是对上述交互内容进行视觉呈现的结果。利用原始文本数据模拟文本交互习惯，确保了模拟角色的自然准确；利用原始音频数据模拟声音，增强了模拟角色的真实感；利用原始视频数据模拟表现交互习惯，使模拟角色更符合真实存在的角色，进而达到了为用户提供更真实和个性化的模拟角色服务的目的，从而实现了提高基于模拟角色的信息交互准确性的技术效果，进而解决了基于模拟角色的信息交互准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的基于模拟角色的信息交互方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的基于模拟角色的信息交互方法的流程的示意图；

图3是根据本申请实施例的一种可选的基于模拟角色的信息交互方法的示意图；

图4是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图5是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图6是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图7是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图8是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图9是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图10是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图11是根据本申请实施例的另一种可选的基于模拟角色的信息交互方法的示意图；

图12是根据本申请实施例的一种可选的基于模拟角色的信息交互装置的示意图；

图13是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为方便理解，对下述名词进行解释：

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision，CV）计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。

语音技术（Speech Technology）的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，WavLM， UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型（Large Language Model）发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

LLM：大语言模型（Large Language Model），是一种基于深度学习的自然语言处理模型，具有强大的文本生成、理解和推理能力。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、语音技术、自然语言处理等技术，具体通过如下实施例进行说明：

根据本申请实施例的一个方面，提供了一种基于模拟角色的信息交互方法，可选地，作为一种可选的实施方式，上述基于模拟角色的信息交互方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102以及服务器112，该用户设备102上可以但不限于包括显示器104、处理器106及存储器108，该服务器112包括数据库114以及处理引擎116。

具体过程可如下步骤：

步骤S102，用户设备102获取指定角色实际输出的至少一个角色数据。

步骤S104，通过网络110将至少一个角色数据发送至服务器112。

步骤S106-S110，服务器112通过处理引擎116利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容；利用至少一个角色数据中的原始音频数据，模拟指定角色的指定声音，以提供信息交互服务中的交互音频；利用至少一个角色数据中的原始视频数据，模拟指定角色的表现交互习惯，以提供信息交互服务中的交互视频。

步骤S112，通过网络110将信息交互服务的服务数据发送至用户设备102，用户设备102通过处理器106利用该服务数据进行信息交互服务的搭建，以及将信息交互服务的服务反馈显示在显示器104，并将上述服务数据存储在存储器108，其中，服务数据包括信息交互服务中的交互内容、交互音频、交互视频。

除图1示出的示例之外，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机（如Android手机、iOS手机等）、笔记本电脑、平板电脑、掌上电脑、MID（Mobile Internet Devices，移动互联网设备）、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，基于模拟角色的信息交互方法可以由电子设备执行，该电子设备例如可以是如图1所示的用户设备或服务器，具体步骤包括：

S202，获取至少一个角色数据，其中，角色数据为指定角色实际输出的原始数据，原始数据包括文本数据、音频数据，和视频数据；

S204，利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，交互内容与文本交互习惯相互匹配，模拟角色服务是模拟指定角色进行的信息交互服务；

S206，利用至少一个角色数据中的原始音频数据，模拟指定角色的指定声音，以提供信息交互服务中的交互音频，其中，交互音频是指定声音对交互内容进行听觉呈现的结果；

S208，利用至少一个角色数据中的原始视频数据，模拟指定角色的表现交互习惯，以提供信息交互服务中的交互视频，其中，交互视频与表现交互习惯相互匹配，交互视频是对交互内容进行视觉呈现的结果。

可选地，在本实施例中，上述基于模拟角色的信息交互方法可以但不限于应用在人工智能（Artificial Intelligence，简称AI）智能模拟角色实时互动的场景中，通过获取指定角色的原始文本、音频和视频数据，AI能够精确地模拟该角色的交互习惯，包括语言风格、声音特点和肢体语言等。这使得AI智能模拟角色在实时互动中能够提供高度真实、与真实角色几乎无异的体验。用户不仅可以通过文本与AI智能模拟角色进行互动，还可以通过语音、视频等多种方式。这种多模态的交互方式增加了互动的丰富性和灵活性，满足了不同用户的需求和偏好。

再者，由于AI智能模拟角色的交互内容是根据指定角色的原始数据和交互习惯生成的，因此这些内容可以随着用户的输入和情境的变化而自适应地调整。这使得互动更加自然、流畅，并且能够保持与角色设定的一致性。而利用原始音频和视频数据，AI智能模拟角色能够呈现出与指定角色相匹配的声音和视觉效果，这种个性化的呈现方式增强了用户的沉浸感，使得互动体验更加生动和引人入胜。

AI智能模拟角色实时互动还可以应用于多种场景，如在线教育、娱乐、客户服务、游戏业务场景等。在这些场景中，AI智能模拟角色能够提供个性化、高度真实的互动体验，从而提高用户的参与度和满意度。

进一步举例说明，可选地例如将上述AI智能模拟角色实时互动应用于游戏业务场景，通过获取实际角色的文本、音频和视频数据，游戏开发者可以创建高度仿真的游戏角色。玩家可以定制游戏内角色的交互方式，包括文本风格、声音和动作，使其更接近他们喜欢的真实人物或虚构角色。同时，游戏中的NPC（非玩家角色）可以根据玩家的历史行为和喜好，以更自然、更个性化的方式与玩家互动，这种互动可以包括对话、声音反应和身体语言，提供更丰富、更沉浸式的游戏体验。

再者，本实施例还可利用原始音频数据，实现高度逼真的语音识别和合成，使玩家可以通过语音与游戏角色互动，游戏角色也可以以模拟的声音回应玩家，增加互动的逼真度和沉浸感。而通过分析原始视频数据，游戏可以模拟角色的面部表情和身体语言，使游戏角色的动作和反应更加逼真，这对于创造有深度的角色互动和故事叙述至关重要。如果角色数据来自历史人物或特定文化背景下的人物，游戏可以利用这些数据准确地重现历史和文化特征，这不仅增加了游戏的教育价值，也提高了游戏的吸引力和深度。

可选地，在本实施例中，从指定的角色那里获取其实际输出的原始数据。这些原始数据反映了角色的真实交互方式和特点，是后续模拟角色服务的基础，而文本、音频和视频数据共同构成了模拟角色所需的多模态信息，使得模拟角色在交互中能够呈现出更全面、更真实的特性。

进一步举例说明，可选地例如要模拟一个历史或作品（如小说、动漫、漫画、电影、电视剧等）里的智能角色。首先，需要收集该历史人物在实际生活中输出的各种数据。这可能包括这个历史人物的演讲稿（文本数据）、录音（音频数据）以及历史影片或照片（视频数据）。这些数据将用于后续模拟该智能角色的交互服务。

可选地，在本实施例中，文本数据可以但不限是以文字形式表示的信息，可以是句子、段落、对话或其他任何形式的书面表达。在模拟角色的上下文中，文本数据可能来源于角色的对话、演讲、写作、社交媒体帖子等。文本数据主要用于模拟角色的语言习惯和表达方式。通过分析角色的文本数据，可以了解其常用的词汇、句式、语气等，从而在模拟角色时更准确地呈现其语言风格。处理文本数据可以涉及自然语言处理（NLP）技术，如情感分析、主题建模、对话生成等，以提取有用的信息和特征。

可选地，在本实施例中，音频数据可以但不限是记录声音的信息，可以是语音、音乐、音效等。在模拟角色的场景中，音频数据可能来源于角色的语音记录、演讲录音、电话交谈等。音频数据主要用于模拟角色的声音特点和语音习惯。通过分析音频数据，可以了解角色的音调、语速、口音等语音特征，从而在模拟角色时提供更真实的声音体验。处理音频数据通常涉及语音识别、音频分析等技术，以提取语音特征和转换为文本（如果需要）。

可选地，在本实施例中，视频数据可以但不限是记录动态视觉信息的数据，通常包括图像序列和与之相关的音频。在模拟角色的上下文中，视频数据可能来源于角色的演讲录像、电影片段、电视节目等。视频数据用于模拟角色的外观、动作、表情等非语言交互习惯。通过分析视频数据，可以了解角色的身体语言、面部表情等视觉特征，从而在模拟角色时提供更逼真的视觉呈现。处理视频数据涉及计算机视觉技术，如目标检测、动作识别、表情分析等，以提取与角色行为相关的视觉特征。

可选地，在本实施例中，使用从指定角色获取的原始文本数据来模拟该角色在使用文本交互时的文本风格特性，并基于这些习惯生成与角色相匹配的交互内容，用于提供模拟角色的信息服务。通过模拟角色的真实文本交互习惯，可以为用户提供与真实角色非常接近的交互体验，生成的交互内容与角色的原始文本数据风格相匹配，确保了模拟角色在文本上的连贯性和一致性，而真实、准确在使用文本交互时的文本风格特性能够吸引用户的注意，提高用户对模拟角色服务的参与度和满意度。

进一步举例说明，可选地假设有一个角色A的原始文本数据，包括其演讲、信件和采访记录。通过分析这些数据，可以发现该角色A经常使用某些特定的词汇和句式。在模拟该角色A的角色服务中，当用户提出问题或请求时，模拟角色会基于该角色A在使用文本交互时的文本风格特性来生成回复，确保回复的文本风格、词汇选择与角色A的习惯相匹配。

可选地，在本实施例中，利用从指定角色获取的原始音频数据来模拟角色的声音特征，并在信息交互服务中提供与角色声音相匹配的交互音频。通过模拟角色的真实声音特征，可以为用户提供与真实角色非常接近的声音体验，每个角色都有独特的声音特点。通过模拟这些特点，可以使模拟角色在声音上展现出个性化特征，而与角色相匹配的声音能够增强用户在交互过程中的沉浸感，使模拟角色的感觉更加接近真实角色。

进一步举例说明，可选地假设有一个著名演员B的原始音频数据，包括其在电影中的台词录音。通过分析这些数据，可以模拟出该演员B的独特音色和语调，得到“虚拟演员”。当用户在模拟角色的信息交互服务中与“虚拟演员”进行对话时，“虚拟演员”会利用模拟出的声音特征生成与该演员B声音相似的交互音频，使得用户感觉像是与该演员B真实对话。

可选地，在本实施例中，利用从指定角色获取的原始视频数据来模拟角色的表现交互习惯，并在信息交互服务中提供与这些习惯相匹配的交互视频。通过模拟角色的真实表现交互习惯，可以为用户提供与真实角色非常接近的视觉体验。生成的交互视频与角色的原始视频数据中的行为相匹配，确保了模拟角色在视觉上的连贯性和一致性，而与角色相匹配的视频内容能够增强用户在交互过程中的沉浸感，使模拟角色的感觉更加接近真实角色。

进一步举例说明，可选地假设有一个体育明星C的原始视频数据，包括其在比赛和采访中的动作和表情。通过分析这些数据，可以模拟出该明星C在特定情境下的表现交互习惯，如庆祝动作、专注表情等，得到“虚拟体育明星”。当用户在模拟角色的信息交互服务中与“虚拟体育明星”进行互动时，会生成与该明星C表现习惯相匹配的交互视频，使得用户感觉像是与该明星C真实互动。

需要说明的是，本实施例通过模拟角色的实际交互习惯，可以为用户提供与真实角色非常接近的交互体验，而通过整合文本、音频和视频数据，可以为用户提供丰富多样的交互方式，增强用户的沉浸感。其次，每个角色都有其独特的交互习惯，通过模拟这些习惯，可以为每个角色提供个性化的服务。

进一步举例说明，可选的例如图3所示，从数据来源B中获取至少一个角色数据，其中，角色数据为指定角色302实际输出的原始数据，原始数据包括文本数据、音频数据，和视频数据；利用至少一个角色数据中的原始文本数据，模拟指定角色302在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，交互内容与文本交互习惯相互匹配，模拟角色服务是部署在用户A的客户端304上，用于模拟指定角色302进行信息交互的服务；利用至少一个角色数据中的原始音频数据，模拟指定角色302的指定声音，以提供信息交互服务中的交互音频，其中，交互音频是指定声音对交互内容进行听觉呈现的结果；利用至少一个角色数据中的原始视频数据，模拟指定角色302的表现交互习惯，以提供信息交互服务中的交互视频，其中，交互视频与表现交互习惯相互匹配，交互视频是对交互内容进行视觉呈现的结果。

通过本申请提供的实施例，获取至少一个角色数据，其中，角色数据为指定角色实际输出的原始数据，原始数据包括文本数据、音频数据，和视频数据；利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，交互内容与文本交互习惯相互匹配，模拟角色服务是模拟指定角色进行的信息交互服务；利用至少一个角色数据中的原始音频数据，模拟指定角色的指定声音，以提供信息交互服务中的交互音频，其中，交互音频是指定声音对交互内容进行听觉呈现的结果；利用至少一个角色数据中的原始视频数据，模拟指定角色的表现交互习惯，以提供信息交互服务中的交互视频，其中，交互视频与表现交互习惯相互匹配，交互视频是对交互内容进行视觉呈现的结果。利用原始文本数据模拟文本交互习惯，确保了模拟角色的自然准确；利用原始音频数据模拟声音，增强了模拟角色的真实感；利用原始视频数据模拟表现交互习惯，使模拟角色更符合真实存在的角色，进而达到了为用户提供更真实和个性化的模拟角色服务的目的，从而实现了提高基于模拟角色的信息交互准确性的技术效果。

作为一种可选的方案，利用至少一个角色数据中的原始音频数据，模拟指定角色的指定声音，以提供信息交互服务中的交互音频，包括：

S1-1，提取原始音频数据对应的声纹特征，其中，声纹特征用于表示原始音频数据对应的声音特性；

S1-2，在将交互内容转化为第一音频的情况下，利用声纹特征调整第一音频的声纹参数，得到第二音频，其中，交互音频包括第二音频。

可选地，在本实施例中，声纹特征可以但不限是用电声学仪器显示的携带言语信息的声波频谱，每个人的声纹都具有特定性和相对稳定性的特点。

需要说明的是，提取原始音频数据中的声纹特征，这些特征代表了角色的声音特性。然后，在将交互内容转化为音频时，利用这些声纹特征来调整音频的声纹参数，从而得到与角色声音相匹配的交互音频。本实施例通过提取和调整声纹特征，可以为用户提供与真实角色非常接近的声音体验。每个角色都有其独特的声音特性，通过模拟这些特性，可以使模拟的声音更加生动和个性化。而与角色声音相匹配的交互音频能够增强用户在交互过程中的沉浸感。

进一步举例说明，可选的假设有一段某著名演员的原始音频数据。首先，会从这段音频中提取出声纹特征，如音调、音色等。当用户与该模拟角色进行交互，并产生交互内容时（例如文字），这些内容会被转化为第一音频。接着，利用之前提取的声纹特征来调整第一音频的声纹参数，使其与该著名演员的声音特性更为接近，从而得到第二音频。这个第二音频就是提供给用户的交互音频。

通过本申请提供的实施例，提取原始音频数据对应的声纹特征，其中，声纹特征用于表示原始音频数据对应的声音特性；在将交互内容转化为第一音频的情况下，利用声纹特征调整第一音频的声纹参数，得到第二音频，其中，交互音频包括第二音频，进而达到了为用户提供更真实和个性化的模拟角色服务的目的，从而实现了提高基于模拟角色的信息交互准确性的技术效果。

作为一种可选的方案，在提取原始音频数据对应的声纹特征之前，方法还包括：

S2-1，对原始音频数据进行克隆，得到副本音频数据；

S2-2，对副本音频数据进行语音识别，得到第一文本数据；

作为一种可选的方案，在利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，方法还包括：利用第一文本数据，协助原始文本数据进行文本交互习惯的模拟。

可选地，在本实施例中，对原始音频数据进行克隆可以但不限指的是对原始的音频数据进行复制或拷贝，生成一个与原始数据完全相同的数据副本。而这个过程中的“复制”或“克隆”操作，旨在创建一个和原始文件内容完全一样的新文件，以保护原始数据。

需要说明的是，首先对原始音频数据进行克隆，得到副本音频数据。接着，对副本音频数据进行语音识别，转化为第一文本数据。最后，在模拟角色在使用文本交互时的文本风格特性时，本实施例不仅使用原始的文本数据，还利用这些第一文本数据来协助模拟。通过引入副本音频数据和第一文本数据，可以更全面地了解角色的交互习惯，从而提高模拟的准确性。增加了数据的多样性，使得模拟更加真实和全面，更准确的模拟可以提供更加自然和真实的交互体验，增强用户的沉浸感。

通过本申请提供的实施例，对原始音频数据进行克隆，得到副本音频数据；对副本音频数据进行语音识别，得到第一文本数据；利用第一文本数据，协助原始文本数据进行文本交互习惯的模拟，进而达到了增加数据的多样性，使得模拟更加真实和全面的目的，从而实现了提高基于模拟角色的信息交互准确性的技术效果。

作为一种可选的方案，利用至少一个角色数据中的原始视频数据，模拟指定角色的表现交互习惯，以提供信息交互服务中的交互视频，包括：

S3-1，提取原始视频数据对应的行为特征，其中，行为特征用于表示指定角色在原始视频数据中的动作和姿态；

S3-2，在将交互内容转化为第一视频的情况下，利用行为特征调整指定角色在第一视频中的动作和姿态，得到第二视频，其中，交互视频包括第二视频。

可选地，在本实施例中，在提取原始视频数据对应的行为特征之前，去除视频中的噪声和不必要的背景信息，以增强后续特征提取的准确性。从视频中抽取关键帧，通常选择能够代表动作变化的帧。

进一步使用计算机视觉库中的方法，对关键帧中的人体进行检测和检测。以及，通过识别关键点和骨骼信息来估计人体的姿态。根据姿态信息和关键点的轨迹，识别出特定的动作或姿态。从识别出的动作和姿态中提取特征，如动作的频率、幅度、速度等。

此外，还可以考虑空间特征，如人体各部位之间的相对位置、角度等，以有效地从原始视频数据中提取出与指定角色表现交互习惯相关的行为特征。

需要说明的是，首先提取原始视频数据中的行为特征，这些特征代表了角色在视频中的动作和姿态。然后，在将交互内容转化为视频时，利用这些行为特征来调整角色在视频中的动作和姿态，从而得到与角色表现习惯相匹配的交互视频。通过提取和调整行为特征，可以为用户提供与真实角色非常接近的行为表现。每个角色都有其独特的动作和姿态习惯，通过模拟这些习惯，可以使模拟的行为更加生动和个性化，而与角色行为相匹配的交互视频能够增强用户在交互过程中的沉浸感。

进一步举例说明，可选的假设有一段某著名舞蹈家的原始视频数据。首先，从这段视频中提取出舞蹈家的行为特征，如特定的舞蹈动作和姿态。当用户与舞蹈家的模拟角色进行交互，并产生交互内容时（例如请求舞蹈表演），这些内容会被转化为第一视频。接着，利用之前提取的行为特征来调整第一视频中舞蹈家的动作和姿态，使其与真实舞蹈家的表现更为接近，从而得到第二视频。这个第二视频就是提供给用户的交互视频。

通过本申请提供的实施例，提取原始视频数据对应的行为特征，其中，行为特征用于表示指定角色在原始视频数据中的动作和姿态；在将交互内容转化为第一视频的情况下，利用行为特征调整指定角色在第一视频中的动作和姿态，得到第二视频，其中，交互视频包括第二视频，进而达到了为用户提供更真实和个性化的模拟角色服务的目的，从而实现了提高基于模拟角色的信息交互准确性的技术效果。

作为一种可选的方案，在提取原始视频数据对应的行为特征之前，方法还包括：

S4-1，对原始视频数据进行克隆，得到副本视频数据；

S4-2，对副本视频数据进行音频提取，得到补充音频数据；

S4-3，对补充音频数据进行语音识别，得到第二文本数据；

在利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，方法还包括：利用第二文本数据，协助原始文本数据进行文本交互习惯的模拟。

可选地，在本实施例中，对原始视频数据进行克隆可以但不限指的是对原始的视频数据进行复制或拷贝，生成一个与原始数据完全相同的数据副本。这个过程日数字文件中的“复制”或“克隆”操作，旨在创建一个和原始文件内容完全一样的新文件，以保护原始数据。

需要说明的是，在提取原始视频数据的行为特征之前，本实施例先对原始视频数据进行克隆，得到副本视频数据。接着，从副本视频数据中提取音频，得到补充音频数据。然后，对补充音频数据进行语音识别，转化为第二文本数据。最后，在模拟角色在使用文本交互时的文本风格特性时，不仅使用原始的文本数据，还利用这些第二文本数据来协助模拟。

进一步举例说明，可选的假设有一段原始视频数据，记录了一个演讲者的演讲过程。首先，克隆这段视频，得到副本视频数据。然后，从副本视频中提取出演讲的音频，得到补充音频数据。接着，利用语音识别技术将补充音频转化为演讲的文本内容，即第二文本数据。当要模拟这位演讲者在使用文本交互时的文本风格特性时，除了参考其之前的文本数据外，还会利用这次演讲的第二文本数据来更全面地模拟其交互习惯。

通过本申请提供的实施例，对原始视频数据进行克隆，得到副本视频数据；对副本视频数据进行音频提取，得到补充音频数据；对补充音频数据进行语音识别，得到第二文本数据；利用第二文本数据，协助原始文本数据进行文本交互习惯的模拟，进而达到了增加数据的多样性，使得模拟更加真实和全面的目的，从而实现了提高基于模拟角色的信息交互准确性的技术效果。

作为一种可选的方案，获取至少一个角色数据，包括：

S5-1，收集多个候选角色数据，其中，候选角色数据的数据来源为至少一个候选角色，至少一个候选角色包括指定角色，候选角色为允许采集角色数据的角色；

S5-2，按照候选角色的角色身份，对多个候选角色数据进行分类，得到至少一个角色数据集，其中，至少一个角色数据集中不同的角色数据集对应不同的候选角色；

S5-3，从至少一个角色数据集中确定出指定角色对应的指定角色数据集，其中，指定角色数据集包括至少一个角色数据。

需要说明的是，为了获取指定角色的数据，本实施例可预先收集多个候选角色的数据。这些候选角色数据可以来源于一个或多个候选角色。接着，根据候选角色的身份对这些数据进行分类，形成不同的角色数据集。最后，从这些数据集中确定出指定角色的数据集。

而通过收集多个候选角色的数据，可以为后续的模拟或分析提供丰富的素材。根据角色身份对数据进行分类，可以更有针对性地获取与指定角色相关的数据。通过事先的分类和筛选，可以快速定位到所需的数据，提高工作效率。

进一步举例说明，可选的首先收集多个演员（如演员A、演员B、演员C）的演戏视频。这些视频就是候选角色数据。接着，根据演员A、演员B、演员C对这些视频进行分类，得到演员A、演员B、演员C各自对应的角色数据集。

通过本申请提供的实施例，收集多个候选角色数据，其中，候选角色数据的数据来源为至少一个候选角色，至少一个候选角色包括指定角色，候选角色为允许采集角色数据的角色；按照候选角色的角色身份，对多个候选角色数据进行分类，得到至少一个角色数据集，其中，至少一个角色数据集中不同的角色数据集对应不同的候选角色；从至少一个角色数据集中确定出指定角色对应的指定角色数据集，其中，指定角色数据集包括至少一个角色数据，进而达到了通过收集多个候选角色的数据，可以为后续的模拟或分析提供丰富的素材的目的，从而实现了提高角色模拟的出来效率的技术效果。

作为一种可选的方案，从至少一个角色数据集中确定出指定角色对应的指定角色数据集，包括：

将至少一个角色数据集中，满足指定条件的角色数据集确定为指定角色数据集，其中，满足指定条件的角色数据集对应的指定分数大于或等于预设阈值，指定分数为第一分数、第二分数和第三分数的加权总和，第一分数与满足指定条件的角色数据集包含的文本数据量呈正向关系，第二分数与满足指定条件的角色数据集包含的音频数据量呈正向关系，第三分数与满足指定条件的角色数据集包含的视频数据量呈正向关系。

可选地，在本实施例中，在评估角色数据集的质量或价值时，考虑多个方面或因素，如文本数据量、音频数据量和视频数据量。每个因素都对最终评估结果有影响，但影响程度可能不同，具体如下述公式所示：

指定分数=（第一分数×文本数据权重）+（第二分数×音频数据权重）+（第三分数×视频数据权重）

进一步举例说明，可选的假设有以下三个角色数据集：角色数据集A、角色数据集B、角色数据集C，其中，角色数据集A的文本数据量为100MB、音频数据量为50MB、视频数据量为200MB，角色数据集B的文本数据量为200MB、音频数据量为150MB、视频数据量为100MB，角色数据集C的文本数据量为50MB、音频数据量为200MB、视频数据量为150MB，且文本数据权重为0.3、音频数据权重为0.4、视频数据权重为0.3。

接着，为了简化计算，可以假设每种数据类型的每MB数据对应1分。这样，每个角色数据集的指定分数计算如下：

角色数据集A的分数：= （100 x 0.3） + （50 x 0.4） + （200 x 0.3）= 30 + 20 +60 = 110分

角色数据集B的分数：= （200 x 0.3） + （150 x 0.4） + （100 x 0.3）= 60 + 60+ 30 = 150分

角色数据集C的分数：= （50 x 0.3） + （200 x 0.4） + （150 x 0.3）= 15 + 80 +45 = 140分

从上面的计算中，可以看到角色数据集B的指定分数最高，为150分，其次是角色数据集C的分数为140分，而指定分数最低的是角色数据集A，为110分。这意味着，如果预设阈值是120分，那么只有角色数据集B和角色数据集C满足条件并被确定为指定角色的数据集。

需要说明的是，为了确定指定角色对应的数据集，本实施例首先评估每个角色数据集的“指定分数”。这个分数是由三个子分数（第一分数、第二分数和第三分数）加权得到的。其中，第一分数与数据集中的文本数据量有关，第二分数与音频数据量有关，第三分数与视频数据量有关。只有当某个角色数据集的指定分数大于或等于一个预设的阈值时，它才会被确定为指定角色数据集。

而通过结合文本、音频和视频三种数据量的评估，可以更全面地了解角色数据集的质量和价值。权重和阈值的可调性使得本实施例可以适应不同的场景和需求。通过设定预设阈值，可以确保选择出的数据集在数量和质量上都达到一定的标准。通过自动化的评分和筛选机制，可以快速确定满足条件的角色数据集，减少人工决策的时间和成本。

进一步举例说明，可选的假设有三个候选角色的数据集，分别包含不同量的文本、音频和视频数据。通过计算每个数据集的指定分数，我们发现第一个数据集的分数为80，第二个为60，第三个为90。如果预设阈值是70，那么只有第一个和第三个数据集满足条件，可以被确定为指定角色的数据集。

通过本申请提供的实施例，将至少一个角色数据集中，满足指定条件的角色数据集确定为指定角色数据集，其中，满足指定条件的角色数据集对应的指定分数大于或等于预设阈值，指定分数为第一分数、第二分数和第三分数的加权总和，第一分数与满足指定条件的角色数据集包含的文本数据量呈正向关系，第二分数与满足指定条件的角色数据集包含的音频数据量呈正向关系，第三分数与满足指定条件的角色数据集包含的视频数据量呈正向关系，进而达到了通过结合文本、音频和视频三种数据量的评估，可以更全面地了解角色数据集的质量和价值的目的，从而实现了提高基于模拟角色的信息交互准确性的技术效果。

作为一种可选的方案，获取至少一个角色数据，包括：

响应于用户账号触发的模拟定制服务请求，获取用户账号上传的定制角色数据，其中，模拟定制服务请求用于请求定制指定角色专属的信息交互服务，模拟角色服务包括指定角色专属的信息交互服务，定制角色数据包括至少一个角色数据。

可选地，在本实施例中，当获取用户上传的定制角色数据时，需要确保数据的安全性和隐私保护，避免数据泄露或被滥用。以及鼓励用户提供多种类型和来源的定制角色数据，以丰富模拟角色的行为和反应。此外，随着时间的推移，允许用户更新或添加新的定制角色数据，以确保模拟角色的真实性和时效性。

需要说明的是，当用户希望定制一个特定角色的信息交互服务时，可以通过自己的用户账号发起一个模拟定制服务请求。响应于这个请求，系统会获取用户上传的与该角色相关的数据，这些数据被称为“定制角色数据”。这些定制角色数据是为了更真实地模拟该角色的信息交互行为而提供的。

而通过获取用户上传的定制角色数据，可以更加真实地模拟角色的行为和反应。根据用户提供的数据，可以为每个用户定制专属的信息交互服务，提高用户体验的个性化程度。基于真实的定制角色数据，模拟角色可以更加自然地与用户进行互动，提高用户的参与度和满意度。随着数据的不断更新和增加，模拟角色的行为和反应也可以不断地进行调整和优化，使其更加适应不同用户的需求和场景。

进一步举例说明，可选的假设一个公司为其产品设置了一个虚拟助手角色。为了让这个虚拟助手更加真实，他们可能会让用户上传一些与该角色相关的数据，如该角色的常见对话、语气、习惯等。这些数据就是“定制角色数据”。当用户与这个虚拟助手互动时，会感觉这个虚拟助手就像是一个真实的人，因为虚拟助手基于用户提供的真实数据来模拟其行为和反应。

通过本申请提供的实施例，响应于用户账号触发的模拟定制服务请求，获取用户账号上传的定制角色数据，其中，模拟定制服务请求用于请求定制指定角色专属的信息交互服务，模拟角色服务包括指定角色专属的信息交互服务，定制角色数据包括至少一个角色数据，通过获取用户上传的定制角色数据，进而达到了更加真实地模拟角色的行为和反应的目的，从而实现了提高用户体验的个性化程度的技术效果。

作为一种可选的方案，为方便理解，将上述基于模拟角色的信息交互方法应用在大语言模型（LLM）服务场景，如图4所示，用户可以通过 web端，手机端，或者在终端（terminal）的应用程序上的选择自己希望交流的模拟角色，在前端交互界面上使用文字或者语音与模拟角色实时交流，模拟角色的回复内容和声音来回复用户的提问，用户可以获得流程真实的交流体验。

可选地，在本实施例中，核心内容包括数据准备阶段和大语言模型（LLM）服务化阶段。在数据准备阶段，收集角色人物的文字和语音数据，进行预处理，并将数据创建成嵌入向量（embeddings）索引存入向量数据库，其中，嵌入向量是将词汇、短语或文本转换为固定长度的向量表示，以便于计算机处理和分析。

而在LLM服务化阶段，使用Langchain集成多种大语言模型启动后端服务。后端服务接收用户文字或语音请求，将其转换为embeddings，并与向量数据库中的角色embeddings一起作为输入，让LLM生成结果并转发给用户。关键技术包括数据预处理、embeddings索引创建、向量数据库存储、Langchain后端服务框架以及生成式语音合成平台。创新方法在于将角色相关数据与用户输入数据结合，利用大语言模型实时生成角色模拟互动，提供更真实、个性化的角色模拟体验。

进一步举例说明，可选的例如图5所示，数据准备的目的在于将角色原始格式的数据转变为模型服务可以方便检索并使用的格式。原始的角色数据包括文本数据、语音数据和视频数据。对于文本数据，可以使用AI应用对数据进行丰富和润色。然后根据角色进行分类。由于原始的文本数据无法直接用于大语言模型的输入，所以需要对文本数据按照document数据快作为单位进行提取整理，然后对documents转化成embeddings，并对embeddings创建索引，最后存入向量数据库中。

而模型服务化是通过客户端（client）-服务器（server）前后端架构给用户提供AI智能模拟APP应用的。server通过语言链（langchain）集成大语言模型服务能力，并引用向量数据库中存储的角色数据作为模型的上下文（promptscontext）信息，然后结合用户输入的请求（query）作为整体的提示（prompts）输入给大语言模型（LLMs）。最后将模型的输出经过处理后返回给用户客户端。客户端可以是网页、App或者terminal等，用户通过这些形式的客户端与模型进行交互。

可选地，在本实施例中，对于文本类数据的处理，首先如图6所示，根据特定的角色或属性进行分类。例如，如果数据是关于电影角色的，那么可以根据角色的类型（如主角、配角、反派等）进行分类。一旦数据被分类，接下来的步骤是从这些数据中提取文本。这包括从各种文件格式（如TXT、PDF、DOC等）中提取文本内容。这些文件可能包含与角色相关的描述、对话或其他信息。通过LlamaIndex loader库创建LlamaIndex 文档（documents），其中，LlamaIndex loader库是一个工具或库，它允许用户将提取的文本数据转换为LlamaIndex文档格式。LlamaIndex documents可能是一种特定的数据结构或格式，用于存储和处理文本数据。

而如图7所示，本实施例可以对LlamaIndex文档（documents）进行向量化（embed），其中，embed在本实施例指的是将Llama Index文档转换为向量表示的过程。向量表示是一种将文本数据转换为数值向量的方法，这样可以使数据更易于计算和分析。这种转换通常使用深度学习或其他机器学习技术来完成。建立索引并存储在向量数据库（chroma）中，一旦LlamaIndex文档被转换为嵌入向量，这些向量会被建立索引并存储在一个名为chroma的向量数据库中。索引是为了快速检索和查询向量而创建的。向量数据库专门用于存储和查询这种高维数值数据，使得基于向量的搜索和分析变得更加高效。

可选地，在本实施例中，对于语音数据的处理，语音数据主要目的是为了在给用户交互的时候实时模拟角色声音。进而为了服务的实时性能和流畅的体验，如图8所示，语音平台提前对角色的语音数据进行克隆并经过语音技术处理并存储，方便后续文本转语音进行语音合成的时候，读取使用。

可选地，在本实施例中，如图9所示服务化的服务器端使用FastAPI构建，用于接收客户端发送的用户请求数据。服务器端将用户请求数据（查询）进行嵌入处理后，再输入给大语言模型。如果查询是语音类型的数据，则使用大语言模型将语音转换为文本类型的数据，然后再进行嵌入处理。在langchain框架下，可以很方便地替换并集成其他大语言模型。大语言模型结合用户查询和角色数据，作为输入的提示来进行推理，最终生成结果给用户，其中，FastAPI是一个现代的、快速（高性能）的Python web框架，LangChain框架是一个帮助在应用程序中使用大型语言模型（LLM）的编程框架。

而用户查询（query）和角色数据可以使用如图10所示的格式来组合大语言模型（LLM）的提示（prompt）。这意味着用户查询和角色数据被组织或格式化为一种特定的方式，以便作为输入提供给大语言模型。具体来说，图10展示了一种特定的格式或模板，用于将用户查询和角色数据结合起来，形成一个完整的提示。这个提示将作为大语言模型的输入，用于引导模型生成相应的输出。

可选地，在本实施例中，如图11所示，客户端主要负责与用户进行直接交互，包括接收和发送文字或语音类的输入与输出。当用户通过客户端将文字或语音作为查询发送给服务器端时，服务器端负责将文本类的回复内容转换为角色语音数据。为了实现这一转换，服务器端首先根据角色信息在平台上提取相应的角色语音数据。接着，结合大语言模型（LLM）生成的文本输出，服务器端将其作为语音合成平台的请求，使能够生成与角色相匹配的语音。最终，生成的角色语音/视频将返回给客户端，供用户收听和观看，也即听觉和视觉的体验。通过这一流程，客户端与服务器端协同工作，确保用户能够以自然、直观的方式与系统进行交互，并获得与角色相符的语音回复，从而提升了用户体验和系统的智能性。

通过本申请提供的实施例，通过使用大语言模型（LLM）和后端服务框架Langchain，本实施例实现了角色模拟的实时互动，用户可以与模拟角色进行即时的文字或语音对话，提高了互动体验。本实施例在数据准备阶段收集了角色人物的文字和语音数据，使得生成的模拟角色具有较高的真实性，能够更好地模拟角色的言行举止。本实施例将角色相关数据与用户输入数据结合，利用大语言模型生成针对特定角色的互动内容，使得角色模拟具有更强的个性化特征。本实施例的架构支持集成多种大语言模型，可以轻松扩展以适应不同类型的角色模拟需求，具有较高的可扩展性。本实施例不仅适用于特定角色的模拟，还可以应用于其他领域，如虚拟助手、智能客服等，具有较强的通用性。概括而言，本实施例整体带来了实时性、真实性、个性化、可扩展性和通用性等多方面的技术效果，为用户提供了更加丰富、高质量的角色模拟互动体验。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述基于模拟角色的信息交互方法的基于模拟角色的信息交互装置。如图12所示，该装置包括：

获取单元1202，用于获取至少一个角色数据，其中，角色数据为指定角色实际输出的原始数据，原始数据包括文本数据、音频数据，和视频数据；

第一模拟单元1204，用于利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，交互内容与文本交互习惯相互匹配，模拟角色服务是模拟指定角色进行的信息交互服务；

第二模拟单元1206，用于利用至少一个角色数据中的原始音频数据，模拟指定角色的指定声音，以提供信息交互服务中的交互音频，其中，交互音频是指定声音对交互内容进行听觉呈现的结果；

第三模拟单元1208，用于利用至少一个角色数据中的原始视频数据，模拟指定角色的表现交互习惯，以提供信息交互服务中的交互视频，其中，交互视频与表现交互习惯相互匹配，交互视频是对交互内容进行视觉呈现的结果。

具体实施例可以参考上述基于模拟角色的信息交互方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，第二模拟单元1206，包括：

第一提取模块，用于提取原始音频数据对应的声纹特征，其中，声纹特征用于表示原始音频数据对应的声音特性；

第一调整模块，用于在将交互内容转化为第一音频的情况下，利用声纹特征调整第一音频的声纹参数，得到第二音频，其中，交互音频包括第二音频。

作为一种可选的方案，装置还包括：

第一克隆模块，用于在提取原始音频数据对应的声纹特征之前，对原始音频数据进行克隆，得到副本音频数据；

第一识别模块，用于在提取原始音频数据对应的声纹特征之前，对副本音频数据进行语音识别，得到第一文本数据；

方法还包括：第一模拟模块，用于在利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，利用第一文本数据，协助原始文本数据进行文本交互习惯的模拟。

作为一种可选的方案，第三模拟单元1208，包括：

第二提取模块，用于提取原始视频数据对应的行为特征，其中，行为特征用于表示指定角色在原始视频数据中的动作和姿态；

第二调整模块，用于在将交互内容转化为第一视频的情况下，利用行为特征调整指定角色在第一视频中的动作和姿态，得到第二视频，其中，交互视频包括第二视频。

作为一种可选的方案，装置还包括：

第二克隆模块，用于在提取原始视频数据对应的行为特征之前，对原始视频数据进行克隆，得到副本视频数据；

第三提取模块，用于在提取原始视频数据对应的行为特征之前，对副本视频数据进行音频提取，得到补充音频数据；

第二识别模块，用于在提取原始视频数据对应的行为特征之前，对补充音频数据进行语音识别，得到第二文本数据；

方法还包括：第二模拟模块，用于在利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，利用第二文本数据，协助原始文本数据进行文本交互习惯的模拟。

作为一种可选的方案，获取单元1202，包括：

收集模块，用于收集多个候选角色数据，其中，候选角色数据的数据来源为至少一个候选角色，至少一个候选角色包括指定角色，候选角色为允许采集角色数据的角色；

分类模块，用于按照候选角色的角色身份，对多个候选角色数据进行分类，得到至少一个角色数据集，其中，至少一个角色数据集中不同的角色数据集对应不同的候选角色；

确定模块，用于从至少一个角色数据集中确定出指定角色对应的指定角色数据集，其中，指定角色数据集包括至少一个角色数据。

作为一种可选的方案，确定模块，包括：

确定子模块，用于将至少一个角色数据集中，满足指定条件的角色数据集确定为指定角色数据集，其中，满足指定条件的角色数据集对应的指定分数大于或等于预设阈值，指定分数为第一分数、第二分数和第三分数的加权总和，第一分数与满足指定条件的角色数据集包含的文本数据量呈正向关系，第二分数与满足指定条件的角色数据集包含的音频数据量呈正向关系，第三分数与满足指定条件的角色数据集包含的视频数据量呈正向关系。

作为一种可选的方案，获取单元1202，包括：

获取模块，用于响应于用户账号触发的模拟定制服务请求，获取用户账号上传的定制角色数据，其中，模拟定制服务请求用于请求定制指定角色专属的信息交互服务，模拟角色服务包括指定角色专属的信息交互服务，定制角色数据包括至少一个角色数据。

根据本申请实施例的又一个方面，还提供了一种用于实施上述基于模拟角色的信息交互方法的电子设备，该电子设备可以但不限于为图1中所示的用户设备102或服务器112，本实施例以电子设备为用户设备102为例说明，进一步如图13所示，该电子设备包括存储器1302和处理器1304，该存储器1302中存储有计算机程序，该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取至少一个角色数据，其中，角色数据为指定角色实际输出的原始数据，原始数据包括文本数据、音频数据，和视频数据；

S2，利用至少一个角色数据中的原始文本数据，模拟指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，交互内容与文本交互习惯相互匹配，模拟角色服务是模拟指定角色进行的信息交互服务；

S3，利用至少一个角色数据中的原始音频数据，模拟指定角色的指定声音，以提供信息交互服务中的交互音频，其中，交互音频是指定声音对交互内容进行听觉呈现的结果；

S4，利用至少一个角色数据中的原始视频数据，模拟指定角色的表现交互习惯，以提供信息交互服务中的交互视频，其中，交互视频与表现交互习惯相互匹配，交互视频是对交互内容进行视觉呈现的结果。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，图13其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图13中所示更多或者更少的组件（如网络接口等），或者具有与图13所示不同的配置。

其中，存储器1302可用于存储软件程序以及模块，如本申请实施例中的基于模拟角色的信息交互方法和装置对应的程序指令/模块，处理器1304通过运行存储在存储器1302内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的基于模拟角色的信息交互方法。存储器1302可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1302可进一步包括相对于处理器1304远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1302具体可以但不限于用于存储原始文本数据、原始音频数据以及原始视频数据等信息。作为一种示例，如图13所示，上述存储器1302中可以但不限于包括上述基于模拟角色的信息交互装置中的获取单元1202、第一模拟单元1204、第二模拟单元1206及第三模拟单元1208。此外，还可以包括但不限于上述基于模拟角色的信息交互装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1306包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1306为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1308，用于显示上述原始文本数据、原始音频数据以及原始视频数据等信息；和连接总线1310，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述用户设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点网络，任意形式的计算设备，比如服务器、用户设备等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

计算机系统包括中央处理器（Central Processing Unit，CPU），其可以根据存储在只读存储器（Read-Only Memory，ROM）中的程序或者从存储部分加载到随机访问存储器（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口（Input /Output接口，即I/O接口）也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的用户设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于模拟角色的信息交互方法，其特征在于，包括：

获取至少一个角色数据，其中，所述角色数据为指定角色实际输出的原始数据，所述原始数据包括文本数据、音频数据，和视频数据；

利用所述至少一个角色数据中的原始文本数据，模拟所述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，所述交互内容与所述指定角色的习惯相互匹配，所述模拟角色服务是模拟所述指定角色进行的信息交互服务；

利用所述至少一个角色数据中的原始音频数据，模拟所述指定角色的指定声音，以提供所述信息交互服务中的交互音频，其中，所述交互音频是所述指定声音对所述交互内容进行听觉呈现的结果；

利用所述至少一个角色数据中的原始视频数据，模拟所述指定角色的表现交互习惯，以提供所述信息交互服务中的交互视频，其中，所述交互视频与所述表现交互习惯相互匹配，所述交互视频是对所述交互内容进行视觉呈现的结果；

所述获取至少一个角色数据，包括：收集多个候选角色数据，其中，所述候选角色数据的数据来源为至少一个候选角色，所述至少一个候选角色包括指定角色，所述候选角色为允许采集角色数据的角色；按照所述候选角色的角色身份，对所述多个候选角色数据进行分类，得到至少一个角色数据集，其中，所述至少一个角色数据集中不同的角色数据集对应不同的候选角色；将所述至少一个角色数据集中，满足指定条件的角色数据集确定为指定角色数据集，其中，所述满足指定条件的角色数据集对应的指定分数大于或等于预设阈值，所述指定分数为第一分数、第二分数和第三分数的加权总和，所述第一分数与所述满足指定条件的角色数据集包含的文本数据量呈正向关系，所述第二分数与所述满足指定条件的角色数据集包含的音频数据量呈正向关系，所述第三分数与所述满足指定条件的角色数据集包含的视频数据量呈正向关系，所述指定角色数据集包括至少一个角色数据。

2.根据权利要求1所述的方法，其特征在于，所述利用所述至少一个角色数据中的原始音频数据，模拟所述指定角色的指定声音，以提供所述信息交互服务中的交互音频，包括：

提取所述原始音频数据对应的声纹特征，其中，所述声纹特征用于表示所述原始音频数据对应的声音特性；

在将所述交互内容转化为第一音频的情况下，利用所述声纹特征调整所述第一音频的声纹参数，得到第二音频，其中，所述交互音频包括所述第二音频。

3.根据权利要求2所述的方法，其特征在于，

在所述提取所述原始音频数据对应的声纹特征之前，所述方法还包括：

对所述原始音频数据进行克隆，得到副本音频数据；

对所述副本音频数据进行语音识别，得到第一文本数据；

在所述利用所述至少一个角色数据中的原始文本数据，模拟所述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，所述方法还包括：利用所述第一文本数据，协助所述原始文本数据进行所述指定角色的习惯的模拟。

4.根据权利要求1所述的方法，其特征在于，所述利用所述至少一个角色数据中的原始视频数据，模拟所述指定角色的表现交互习惯，以提供所述信息交互服务中的交互视频，包括：

提取所述原始视频数据对应的行为特征，其中，所述行为特征用于表示所述指定角色在所述原始视频数据中的动作和姿态；

在将所述交互内容转化为第一视频的情况下，利用所述行为特征调整所述指定角色在所述第一视频中的动作和姿态，得到第二视频，其中，所述交互视频包括所述第二视频。

5.根据权利要求4所述的方法，其特征在于，

在所述提取所述原始视频数据对应的行为特征之前，所述方法还包括：

对所述原始视频数据进行克隆，得到副本视频数据；

对所述副本视频数据进行音频提取，得到补充音频数据；

对所述补充音频数据进行语音识别，得到第二文本数据；

在所述利用所述至少一个角色数据中的原始文本数据，模拟所述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容的过程中，所述方法还包括：利用所述第二文本数据，协助所述原始文本数据进行所述指定角色的习惯的模拟。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述获取至少一个角色数据，包括：

响应于用户账号触发的模拟定制服务请求，获取所述用户账号上传的定制角色数据，其中，所述模拟定制服务请求用于请求定制所述指定角色专属的信息交互服务，所述模拟角色服务包括所述指定角色专属的信息交互服务，所述定制角色数据包括所述至少一个角色数据。

7.一种基于模拟角色的信息交互装置，其特征在于，包括：

获取单元，用于获取至少一个角色数据，其中，所述角色数据为指定角色实际输出的原始数据，所述原始数据包括文本数据、音频数据，和视频数据；

第一模拟单元，用于利用所述至少一个角色数据中的原始文本数据，模拟所述指定角色在使用文本交互时的文本风格特性，以提供模拟角色服务中的交互内容，其中，所述交互内容与所述指定角色的习惯相互匹配，所述模拟角色服务是模拟所述指定角色进行的信息交互服务；

第二模拟单元，用于利用所述至少一个角色数据中的原始音频数据，模拟所述指定角色的指定声音，以提供所述信息交互服务中的交互音频，其中，所述交互音频是所述指定声音对所述交互内容进行听觉呈现的结果；

第三模拟单元，用于利用所述至少一个角色数据中的原始视频数据，模拟所述指定角色的表现交互习惯，以提供所述信息交互服务中的交互视频，其中，所述交互视频与所述表现交互习惯相互匹配，所述交互视频是对所述交互内容进行视觉呈现的结果；

所述获取单元，包括：收集模块，用于收集多个候选角色数据，其中，所述候选角色数据的数据来源为至少一个候选角色，所述至少一个候选角色包括所述指定角色，所述候选角色为允许采集角色数据的角色；分类模块，用于按照所述候选角色的角色身份，对所述多个候选角色数据进行分类，得到至少一个角色数据集，其中，所述至少一个角色数据集中不同的角色数据集对应不同的候选角色；确定模块，用于从所述至少一个角色数据集中确定出所述指定角色对应的指定角色数据集，其中，所述指定角色数据集包括所述至少一个角色数据；

所述确定模块，包括：确定子模块，用于将所述至少一个角色数据集中，满足指定条件的角色数据集确定为所述指定角色数据集，其中，所述满足指定条件的角色数据集对应的指定分数大于或等于预设阈值，所述指定分数为第一分数、第二分数和第三分数的加权总和，所述第一分数与所述满足指定条件的角色数据集包含的文本数据量呈正向关系，所述第二分数与所述满足指定条件的角色数据集包含的音频数据量呈正向关系，所述第三分数与所述满足指定条件的角色数据集包含的视频数据量呈正向关系。

8.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序被电子设备运行时执行所述权利要求1至6任一项中所述的方法。

9.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至6任一项中所述方法的步骤。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。