CN116741143A - 基于数字分身的个性化ai名片的交互方法及相关组件 - Google Patents

基于数字分身的个性化ai名片的交互方法及相关组件 Download PDF

Info

Publication number
CN116741143A
CN116741143A CN202311018692.8A CN202311018692A CN116741143A CN 116741143 A CN116741143 A CN 116741143A CN 202311018692 A CN202311018692 A CN 202311018692A CN 116741143 A CN116741143 A CN 116741143A
Authority
CN
China
Prior art keywords
digital
text
calling
personal
sales
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311018692.8A
Other languages
English (en)
Other versions
CN116741143B (zh
Inventor
彭超
董新胜
李春建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jiatui Technology Co ltd
Original Assignee
Shenzhen Jiatui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jiatui Technology Co ltd filed Critical Shenzhen Jiatui Technology Co ltd
Priority to CN202311018692.8A priority Critical patent/CN116741143B/zh
Publication of CN116741143A publication Critical patent/CN116741143A/zh
Application granted granted Critical
Publication of CN116741143B publication Critical patent/CN116741143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于数字分身的个性化AI名片的交互方法及相关组件。方法包括:预先构建销售的个人声音模型和数字人简介视频;当用户进入客户端平台时,通过个人声音模型输出打招呼文本的打招呼音频并进行音频播放,并在打招呼后播放数字人简介视频;当用户输入的问题文本时,对问题文本进行分析并确认对应的答案文本;通过个人声音模型输出答案文本的答案音频;通过情绪分类模型输出答案文本的情绪类别,将情绪类别对应的表情动作数据输入数字人的执行接口,使数字人执行相应的表情和动作并同步播放答案音频。本发明通过创建销售的数字化表示,模拟销售个人的声音、行为等特征,通过数字人替代销售对用户进行互动,提高了与用户的交互性。

Description

基于数字分身的个性化AI名片的交互方法及相关组件
技术领域
本发明涉及AI名片技术领域,尤其涉及一种基于数字分身的个性化AI名片的交互方法及相关组件。
背景技术
随着数字化时代的发展,AI名片已经被广泛应用为一种信息分享和自我介绍的方式,现有的AI名片可以提供静态的文本信息与用户进行交互。
然而,对于各大CRM厂商的销售小程序而言,销售在小程序上的数字名片的形式呆板,没有个性化展示和互动能力,更不能做到千人千面的打招呼和对话,对用户来说,缺乏交互感,难以拉进销售与用户的距离。
发明内容
本发明的目的是提供一种基于数字分身的个性化AI名片的交互方法及相关组件,旨在解决现有销售小程序上销售的数字名片存在形式呆板、没有个性化和缺乏交互感的问题。
第一方面,本发明实施例提供一种基于数字分身的个性化AI名片的交互方法,包括:
接收销售在销售端平台录入的个人简介信息、声音数据和个人形象照,构建销售的个人声音模型和数字人简介视频;
响应于用户进入客户端平台的消息,调用数据库中的打招呼文本,将所述打招呼文本输入所述个人声音模型进行语音合成处理,输出销售的打招呼音频并进行音频播放,同时加载销售的数字人简介视频并在打招呼后进行视频播放;
响应于用户输入的问题文本,对所述问题文本进行分词处理并输出关键词,调用数据库中与所述关键词对应的问题模板,并基于所述问题模板调用数据库中对应的答案文本;
将所述答案文本输入所述个人声音模型进行语音合成处理,输出所述问题文本的答案音频;
对所述答案文本进行情绪特征提取并输出情绪类别,调用数据库中与所述情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放所述答案音频。
第二方面,本发明实施例提供一种基于数字分身的个性化AI名片的交互装置,包括:
构建单元,用于接收销售在销售端平台录入的个人简介信息、声音数据和个人形象照,构建销售的个人声音模型和数字人简介视频;
介绍单元,用于响应于用户进入客户端平台的消息,调用数据库中的打招呼文本,将所述打招呼文本输入所述个人声音模型进行语音合成处理,输出销售的打招呼音频并进行音频播放,同时加载销售的数字人简介视频并在打招呼后进行视频播放;
答案查询单元,用于响应于用户输入的问题文本,对所述问题文本进行分词处理并输出关键词,调用数据库中与所述关键词对应的问题模板,并基于所述问题模板调用数据库中对应的答案文本;
语音合成单元,用于将所述答案文本输入所述个人声音模型进行语音合成处理,输出所述问题文本的答案音频;
回应单元,用于对所述答案文本进行情绪特征提取并输出情绪类别,调用数据库中与所述情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放所述答案音频。
第三方面,本发明实施例提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于数字分身的个性化AI名片的交互方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于数字分身的个性化AI名片的交互方法。
本发明实施例公开了一种公开了基于数字分身的个性化AI名片的交互方法及相关组件。该方法包括:预先构建销售的个人声音模型和数字人简介视频;当用户进入客户端平台时,调用打招呼文本并输入个人声音模型进行语音合成,输出销售的打招呼音频并进行音频播放,并在打招呼后播放数字人简介视频;当用户输入的问题文本时,对问题文本进行分析并确认对应的答案文本;通过个人声音模型输出答案文本的答案音频;通过情绪分类模型输出答案文本的情绪类别,将情绪类别对应的表情动作数据输入数字人的执行接口,使数字人执行相应的表情和动作并同步播放答案音频。本发明实施例基于数字分身技术,使用人工智能技术来创建销售的数字化表示,可以模拟销售个人的声音、行为等特征,通过数字人替代销售对用户进行互动,提高个性化展示和交互性,以提高客户服务体验。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于数字分身的个性化AI名片的交互方法的流程示意图;
图2为本发明实施例提供的基于数字分身的个性化AI名片的交互方法的子流程示意图;
图3为本发明实施例提供的基于数字分身的个性化AI名片的交互方法的又一子流程示意图;
图4为本发明实施例提供的基于数字分身的个性化AI名片的交互方法的又一子流程示意图;
图5为本发明实施例提供的基于数字分身的个性化AI名片的交互方法的又一子流程示意图;
图6为本发明实施例提供的基于数字分身的个性化AI名片的交互方法的又一子流程示意图;
图7为本发明实施例提供的基于数字分身的个性化AI名片的交互装置的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的基于数字分身的个性化AI名片的交互方法的流程示意图;
如图1所示,该方法包括步骤S101~S105。
S101、接收销售在销售端平台录入的个人简介信息、声音数据和个人形象照,构建销售的个人声音模型和数字人简介视频;
该步骤中,基于销售的声音数据作为样本进行模型训练可以得到销售的个人声音模型,基于个人声音模型可以输出模拟销售的声音,并结合个人简介信息和个人形象照,通过视频制作生成销售的数字人简介视频;以供后续进行销售的个性化名片展示。
S102、响应于用户进入客户端平台的消息,调用数据库中的打招呼文本,将打招呼文本输入个人声音模型进行语音合成处理,输出销售的打招呼音频并进行音频播放,同时加载销售的数字人简介视频并在打招呼后进行视频播放;
该步骤中,当用户进入客户端平台(如小程序、APP等)时,若用户为首次进入客户端平台的新用户,则直接调用打招呼文本并输入个人声音模型进行语音合成处理,生成模拟销售声音的打招呼音频并进行音频播放;若用户为已授权注册的用户,则获取用户昵称,并将用户昵称加入打招呼文本,再通过个人声音模型输出含有用户昵称的打招呼文本。并且在打招呼的同时加载预先构建的数字人简介视频,并在打招呼后进行视频播放。如此,在用户进入客户端平台时提供销售的个性化AI名片展示,以提升客户服务。
S103、响应于用户输入的问题文本,对问题文本进行分词处理并输出关键词,调用数据库中与关键词对应的问题模板,并基于问题模板调用数据库中对应的答案文本;
S104、将答案文本输入个人声音模型进行语音合成处理,输出问题文本的答案音频;
S105、对答案文本进行情绪特征提取并输出情绪类别,调用数据库中与情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放答案音频。
步骤S103~S105中,用户输入的问题文本一般为咨询性的常规口语问句,需要对问题文本中进行分析并提取出与问题点相关的关键词,基于提取的关键词在数据库中确认出对应的问题模板,将该问题模板作为用户所要咨询的问题,再基于该问题模板调用数据库中对应的答案文本。而后通过个人声音模型和预先训练好的情绪分类模型分别输出答案文本对应的答案音频和情绪类别;再将情绪类别输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放答案音频。如此,可实现通过数字人模拟销售个人行为的方式,来对用户提出的问题进行个性化的答复。
由此,本实施例基于数字分身技术,使用人工智能技术来创建销售的数字化表示,可以模拟销售个人的声音、行为等特征,使得销售的AI名片的展示更为生动,通过数字人替代销售与用户进行互动,数字人可以是二维或者三维的形象,可根据与用户的对话内容表现出相应的表情和肢体动作,具有生动的自我表达和与用户的个性化交互的功能,提高了客户服务体验。
在一实施例中,如图2所示,步骤S101,包括:
S201、接收销售在销售端平台录入的个人简介信息;
该步骤中,接收销售在销售端平台上编辑的个人介绍,主要包括所在行业、所在企业、职位和工作年限等等信息并生成个人简介信息。
S202、接收销售在销售端平台录入的声音数据并对声音数据进行预处理,并对预处理后的声音数据进行声音特征提取,将提取的声音特征输入神经网络中进行声音训练,输出个人声音模型;
该步骤中,将销售录入的声音数据作为训练样本,通过SadTalker模型、Sovits AI模型、CMUSphinx工具包中的声学模型等等,对销售录入的声音数据进行声音训练,从而输出可以模拟销售声音的个人声音模型。
S203、将个人简介信息输入个人声音模型进行语音合成处理,输出销售的个人简介音频;
该步骤中,将文本文件或声音文件输出训练后得到的个人声音模型进行语音合成处理,即可输出模拟销售声音的个人简介音频。
S204、接收销售的个人形象照,并与个人简介音频进行视频合成处理,输出销售的数字人简介视频;
该步骤中,将个人形象照输入基于生成对抗网络GAN模型进行人物生成处理,输出销售的数字人形象,可实现高保真的人脸合成,实现了面部表情、手势动作、语音表达的多模态协同,从而使得数字人形象进行交互时更丰富生动。然后将数字人形象和个人简介音频输入SadTalker模型进行视频合成处理,输出销售的数字人简介视频。也可以采用Python中的MoviePy功能进行视频合成。如此,可得到销售的数字人简介视频。
本实施例中,使用销售的个人简介信息、声音数据和个人形象照,通过个人声音模型和视频合成模型进行相应的处理,最终得到销售的数字人简介视频,可在用户进入客户端平台时进行播放,以提高用户的服务体验。
本发明的AI名片还可以收集和学习基于销售增加的新信息,如新的工作经验、新的学习成果、新的业务动态等;这些新的信息会被用来更新AI名片的回应;这样,无论何时用户与AI名片交互,都能获取到最新、最准确的信息。
在一实施例中,如图3所示,步骤S202,包括:
S301、接收销售在销售端平台录入的声音数据并进行静音删除、去噪及平滑处理;
该步骤中,声音数据的预处理的过程可采用梅尔频率倒谱系数(MFCC),可在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,极好的模拟了人类听觉感知的处理。声音数据的预处理的过程也可以采用线性预测倒谱系数(LPCC),在处理过程中使用倒谱系数代表共振峰的特性可以在语音识别中取得很好的性能。即通过对声音数据进行的静音删除、去噪及平滑的处理后,更能从处理后的声音数据中提取出反映用户声音特性的特征。
S302、将处理后的声音数据输入声音特征编码器中进行声音提取,得到音频信号和音色向量;
S303、将音频信号和训练文本输入映射合成网络进行收敛处理,输出频谱特征;
S304、将音色向量和频谱特征输入语音合成网络进行语音合成处理,输出目标音频文件。
本实施例以MockingBird模型技术为例,MockingBird模型中的声音特征编码器的输入为40通道数的 log-mel spectrograms,网络结构主要由3层 256个单元的LSTM 构成;最后一层为全连接层,全连接层输出经过正则化处理后,即得到音频、音色等等声学特征表示。
MockingBird模型中的映射合成网络可采用基于Tacotron 2的映射网络,通过训练文本和声音特征编码器输出的声学特征生成频谱特征。
MockingBird模型中的语音合成网络可采用基于WaveNet的自回归语言合成模型,由30个扩张的卷积层组成,可捕捉了声音的高质量合成所需的所有相关细节,将音色向量和频谱特征转化后的时域波形进行合成处理,从而输出模拟销售的目标音频文件。
在一实施例中,如图4所示,步骤S103,包括:
S401、接收用户以文本输入或语音转文本输入的问题文本;
S402、对问题文本进行分词和词性分析处理,输出多个候选关键词;
该步骤中,可通过nlpir工具、jieba工具等等文本预处理工具对问题文本进行分词和词性分析处理,输出多个候选关键词。
S403、将多个关键词在预设关联词表中进行关联度匹配,筛选多个候选关键词中关联度最大的两个候选关键词作为目标关键词;
该步骤中,预设关联词表中存储有与问题模板库相关的所有关键词,以及各个关键词之间的关联度,关键词之间的关联度越大代表关键词之间的依存关系越大,也表示这一个或多个目标关键词在问题模板中出现或关联的权重越大,即基于目标关键词进行后续的问题模板确认具有更加精准的优点。需说明的是,目标关键词的数量不做具体限定,可一个是单个或大于两个。
S404、调用数据库中同时与两个目标关键词关联和与其中一个目标关键词关联的所有问题模板,并筛选出关联度最大的问题模板,其中,与两个目标关键词关联的问题模板的优先级大于与其中一个目标关键词关联的问题模板的优先级;
该步骤中,每一个问题模板中都有至少一个关键词,基于S403确认的目标关键词,在数据库中优选选择同时与两个目标关键词关联且关联度最大的问题模板作为目标问题模板;若不存在同时与两个目标关键词关联的问题模板,则选择与目标关键词关联度最大的问题模板作为目标问题模板;最终确认的目标问题模板则表示用户要进行咨询的问题。
S405、调用数据库中对应关联度最大的问题模板的答案文本。
该步骤中,基于S404最后确认的目标问题模板,调用数据库中对应该目标问题模板的答案文本。另外,同时可以按关联度大至小进行排序并反馈至用户端平台进行文本展示,若用户选择选择新的问题模板则将新的问题模板替换为目标问题模板。
本实施例中,基于用户输入的问题文本,按上述步骤S401~S405的过程对用户输入的口语化咨询内容进行分析,从而明确出标准的问题模板,再基于该问题模板进行答案的查询,实现准确的答复,提升用户的交互体验。
在一实施例中,如图5所示,步骤S105,包括:
S501、对答案文本进行分词并获取每一词语的词向量;
该步骤中,可采用nlpir工具、jieba工具等等文本预处理工具进行分词并输出每一词语的词向量。
S502、将词向量输入预先训练的情绪分类模型,得到答案文本在各个情绪类别上的概率分布,选择最大概率分布对应的情绪类别作为答案文本的情绪类别;
该步骤中,预先通过大量情绪类相关的词语集进行模型训练,得到情绪分类模型,具体可以采用BERT模型、基于MLP的文本情绪分类模型等等。将答案文本的词向量输入情绪分类模型进行分类处理,输出答案文本对应的最大概率的情绪类别。
S503、调用数据库中预存的情绪-表情动作表,确认当前情绪类别对应的表情数据和动作数据,并将表情数据和动作数据输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放答案音频。
本实施例中,预存的情绪-表情动作表中包括每一情绪类别下对应的表情数据和动作数据,基于步骤S502确认的情绪类别,确认对应的表情数据和动作数据,并将表情数据和动作数据输入数字人的执行接口,以使数字人执行相应的表情和动作,并同步播放答案音频。
本实施例中,基于步骤S501~S503的过程,使得得数字人可以模拟销售的声音并根据对话内容表现出相应的语气和情绪,使得交互更加真实有趣。
在一实施例中,如图6所示,基于数字分身的个性化AI名片的交互方法,还包括:
S601、接收销售在销售端平台发起与用户的对话接入请求;
S602、接收销售对问题文本的语音回复并生成回复音频,同步对语音回复进行文本转化得到回复文本;
S603、对回复文本进行情绪特征提取并输出情绪类别,调用数据库中与情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放回复音频。
本实施例中,在数字人与用户对话的过程中,销售可以主动发起与用户的对话接入的请求,即销售的使用移动端接入数字人,获取数字人的音频输出权限,可基于销售对问题文本的语音回复直接通过数字人发出销售的原声,并且同步对语音回复进行文本转化得到回复文本,通过情绪分类模型输出回复文本对应的情绪类别,再确认出对应的表情数据和动作数据,以使数字人发出销售原声的回复音频的同时,仍可同步基于销售的回复文本执行相应的表情和动作。从而实现回复更加真实准确且保持数字人个性化的优点。
本发明实施例还提供一种基于数字分身的个性化AI名片的交互装置,该基于数字分身的个性化AI名片的交互装置用于执行前述基于数字分身的个性化AI名片的交互方法的任一实施例。具体地,请参阅图7,图7是本发明实施例提供的基于数字分身的个性化AI名片的交互装置的示意性框图。
如图7所示,基于数字分身的个性化AI名片的交互装置700,包括:构建单元701、介绍单元702、答案查询单元703、语音合成单元704以及回应单元705。
构建单元701,用于接收销售在销售端平台录入的个人简介信息、声音数据和个人形象照,构建销售的个人声音模型和数字人简介视频;
介绍单元702,用于响应于用户进入客户端平台的消息,调用数据库中的打招呼文本,将打招呼文本输入个人声音模型进行语音合成处理,输出销售的打招呼音频并进行音频播放,同时加载销售的数字人简介视频并在打招呼后进行视频播放;
答案查询单元703,用于响应于用户输入的问题文本,对问题文本进行分词处理并输出关键词,调用数据库中与关键词对应的问题模板,并基于问题模板调用数据库中对应的答案文本;
语音合成单元704,用于将答案文本输入个人声音模型进行语音合成处理,输出问题文本的答案音频;
回应单元705,用于对答案文本进行情绪特征提取并输出情绪类别,调用数据库中与情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放答案音频。
该装置基于数字分身技术,使用人工智能技术来创建销售的数字化表示,可以模拟销售个人的声音、行为等特征,使得销售的AI名片的展示更为生动,通过数字人替代销售与用户进行互动,数字人可以是二维或者三维的形象,可根据与用户的对话内容表现出相应的表情和肢体动作,具有生动的自我表达和与用户的个性化交互的功能,提高了客户服务体验。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述基于数字分身的个性化AI名片的交互装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备800是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备800包括通过系统总线801连接的处理器802、存储器和网络接口805,其中,存储器可以包括非易失性存储介质803和内存储器804。
该非易失性存储介质803可存储操作系统8031和计算机程序8032。该计算机程序8032被执行时,可使得处理器802执行基于数字分身的个性化AI名片的交互方法。
该处理器802用于提供计算和控制能力,支撑整个计算机设备800的运行。
该内存储器804为非易失性存储介质803中的计算机程序8032的运行提供环境,该计算机程序8032被处理器802执行时,可使得处理器802执行基于数字分身的个性化AI名片的交互方法。
该网络接口805用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备800的限定,具体的计算机设备800可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器802可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器802还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的基于数字分身的个性化AI名片的交互方法。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于数字分身的个性化AI名片的交互方法,其特征在于,包括:
接收销售在销售端平台录入的个人简介信息、声音数据和个人形象照,构建销售的个人声音模型和数字人简介视频;
响应于用户进入客户端平台的消息,调用数据库中的打招呼文本,将所述打招呼文本输入所述个人声音模型进行语音合成处理,输出销售的打招呼音频并进行音频播放,同时加载销售的数字人简介视频并在打招呼后进行视频播放;
响应于用户输入的问题文本,对所述问题文本进行分词处理并输出关键词,调用数据库中与所述关键词对应的问题模板,并基于所述问题模板调用数据库中对应的答案文本;
将所述答案文本输入所述个人声音模型进行语音合成处理,输出所述问题文本的答案音频;
对所述答案文本进行情绪特征提取并输出情绪类别,调用数据库中与所述情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放所述答案音频。
2.根据权利要求1所述的基于数字分身的个性化AI名片的交互方法,其特征在于,所述接收销售录入的个人简介信息、声音数据和个人形象照,构建销售的个人声音模型和数字人简介视频,包括:
接收销售在销售端平台录入的个人简介信息;
接收销售在销售端平台录入的声音数据并对所述声音数据进行预处理,并对预处理后的所述声音数据进行声音特征提取,将提取的所述声音特征输入神经网络中进行声音训练,输出个人声音模型;
将所述个人简介信息输入所述个人声音模型进行语音合成处理,输出销售的个人简介音频;
接收销售的个人形象照并基于人像生成技术生成数字人,并与所述个人简介音频进行视频合成处理,输出销售的数字人简介视频。
3.根据权利要求2所述的基于数字分身的个性化AI名片的交互方法,其特征在于,所述接收销售在销售端平台录入的声音数据并对所述声音数据进行预处理,并对预处理后的所述声音数据进行声音特征提取,将提取的所述声音特征输入神经网络中进行声音训练,输出个人声音模型,包括:
接收销售在销售端平台录入的声音数据并进行静音删除、去噪及平滑处理;
将处理后的所述声音数据输入声音特征编码器中进行声音提取,得到音频信号和音色向量;
将所述音频信号和训练文本输入映射合成网络进行收敛处理,输出频谱特征;
将所述音色向量和频谱特征输入语音合成网络进行语音合成处理,输出目标音频文件。
4.根据权利要求2所述的基于数字分身的个性化AI名片的交互方法,其特征在于,所述接收销售的个人形象照并基于人像生成技术生成数字人,并与所述个人简介音频进行视频合成处理,输出销售的数字人简介视频,包括:
将所述个人形象照输入基于生成对抗网络GAN模型进行人物生成处理,输出销售的数字人形象;
将所述数字人形象和个人简介音频输入SadTalker模型进行视频合成处理,输出销售的数字人简介视频。
5.根据权利要求1所述的基于数字分身的个性化AI名片的交互方法,其特征在于,所述响应于用户输入的问题文本,对所述问题文本进行分词处理并输出关键词,调用数据库中与所述关键词对应的问题模板,并基于所述问题模板调用数据库中对应的答案文本,包括:
接收用户以文本输入或语音转文本输入的问题文本;
对所述问题文本进行分词和词性分析处理,输出多个候选关键词;
将多个关键词在预设关联词表中进行关联度匹配,筛选多个候选关键词中关联度最大的两个候选关键词作为目标关键词;
调用数据库中同时与两个目标关键词关联和与其中一个目标关键词关联的所有问题模板,并筛选出关联度最大的问题模板,其中,与两个目标关键词关联的问题模板的优先级大于与其中一个目标关键词关联的问题模板的优先级;
调用数据库中对应关联度最大的问题模板的答案文本。
6.根据权利要求1所述的基于数字分身的个性化AI名片的交互方法,其特征在于,所述对所述答案文本进行情绪特征提取并输出情绪类别,调用数据库中与所述情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放所述答案音频,包括:
对所述答案文本进行分词并获取每一词语的词向量;
将所述词向量输入预先训练的情绪分类模型,得到所述答案文本在各个情绪类别上的概率分布,选择最大概率分布对应的情绪类别作为所述答案文本的情绪类别;
调用数据库中预存的情绪-表情动作表,确认当前情绪类别对应的表情数据和动作数据,并将所述表情数据和动作数据输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放所述答案音频。
7.根据权利要求1所述的基于数字分身的个性化AI名片的交互方法,其特征在于,还包括:
接收销售在销售端平台发起与用户的对话接入请求;
接收销售对问题文本的语音回复并生成回复音频,同步对所述语音回复进行文本转化得到回复文本;
对所述回复文本进行情绪特征提取并输出情绪类别,调用数据库中与所述情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放所述回复音频。
8.一种基于数字分身的个性化AI名片的交互装置,其特征在于,包括:
构建单元,用于接收销售在销售端平台录入的个人简介信息、声音数据和个人形象照,构建销售的个人声音模型和数字人简介视频;
介绍单元,用于响应于用户进入客户端平台的消息,调用数据库中的打招呼文本,将所述打招呼文本输入所述个人声音模型进行语音合成处理,输出销售的打招呼音频并进行音频播放,同时加载销售的数字人简介视频并在打招呼后进行视频播放;
答案查询单元,用于响应于用户输入的问题文本,对所述问题文本进行分词处理并输出关键词,调用数据库中与所述关键词对应的问题模板,并基于所述问题模板调用数据库中对应的答案文本;
语音合成单元,用于将所述答案文本输入所述个人声音模型进行语音合成处理,输出所述问题文本的答案音频;
回应单元,用于对所述答案文本进行情绪特征提取并输出情绪类别,调用数据库中与所述情绪类别对应的表情动作数据并输入数字人的执行接口,以使数字人执行相应的表情和动作并同步播放所述答案音频。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于数字分身的个性化AI名片的交互方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于数字分身的个性化AI名片的交互方法。
CN202311018692.8A 2023-08-14 2023-08-14 基于数字分身的个性化ai名片的交互方法及相关组件 Active CN116741143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311018692.8A CN116741143B (zh) 2023-08-14 2023-08-14 基于数字分身的个性化ai名片的交互方法及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311018692.8A CN116741143B (zh) 2023-08-14 2023-08-14 基于数字分身的个性化ai名片的交互方法及相关组件

Publications (2)

Publication Number Publication Date
CN116741143A true CN116741143A (zh) 2023-09-12
CN116741143B CN116741143B (zh) 2023-10-31

Family

ID=87902970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311018692.8A Active CN116741143B (zh) 2023-08-14 2023-08-14 基于数字分身的个性化ai名片的交互方法及相关组件

Country Status (1)

Country Link
CN (1) CN116741143B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120259A (zh) * 2019-04-11 2019-08-13 重庆链脉网络科技有限公司 智能咨询系统及其应用方法
CN110225274A (zh) * 2019-05-07 2019-09-10 微位(深圳)网络科技有限公司 一种基于视频的数字名片展示方法、装置及存储介质
CN111290682A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN111666380A (zh) * 2020-06-12 2020-09-15 北京百度网讯科技有限公司 一种智能呼叫方法、装置、设备和介质
CN113067953A (zh) * 2021-03-22 2021-07-02 平安科技(深圳)有限公司 客户服务方法、系统、装置、服务器及存储介质
WO2021217769A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 基于情绪识别的答复方法、装置、计算机设备及存储介质
WO2022095380A1 (zh) * 2020-11-03 2022-05-12 平安科技(深圳)有限公司 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN114694224A (zh) * 2022-03-30 2022-07-01 中国工商银行股份有限公司 客服问答方法、装置、设备、存储介质和计算机程序产品
CN116152888A (zh) * 2022-12-28 2023-05-23 江苏号百科技有限公司 一种基于超短视频样本快速生成虚拟人动态名片的方法
CN116229977A (zh) * 2022-12-21 2023-06-06 国泰君安证券股份有限公司 基于虚拟数字人实现智能化实时交互问答的系统及其处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111290682A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 交互方法、装置及计算机设备
CN110120259A (zh) * 2019-04-11 2019-08-13 重庆链脉网络科技有限公司 智能咨询系统及其应用方法
CN110225274A (zh) * 2019-05-07 2019-09-10 微位(深圳)网络科技有限公司 一种基于视频的数字名片展示方法、装置及存储介质
WO2021217769A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 基于情绪识别的答复方法、装置、计算机设备及存储介质
CN111666380A (zh) * 2020-06-12 2020-09-15 北京百度网讯科技有限公司 一种智能呼叫方法、装置、设备和介质
WO2022095380A1 (zh) * 2020-11-03 2022-05-12 平安科技(深圳)有限公司 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN113067953A (zh) * 2021-03-22 2021-07-02 平安科技(深圳)有限公司 客户服务方法、系统、装置、服务器及存储介质
CN114694224A (zh) * 2022-03-30 2022-07-01 中国工商银行股份有限公司 客服问答方法、装置、设备、存储介质和计算机程序产品
CN116229977A (zh) * 2022-12-21 2023-06-06 国泰君安证券股份有限公司 基于虚拟数字人实现智能化实时交互问答的系统及其处理方法
CN116152888A (zh) * 2022-12-28 2023-05-23 江苏号百科技有限公司 一种基于超短视频样本快速生成虚拟人动态名片的方法

Also Published As

Publication number Publication date
CN116741143B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
US11450311B2 (en) System and methods for accent and dialect modification
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112819664A (zh) 用于学习外语的设备及使用其提供外语学习服务的方法
JP2000187435A (ja) 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN109389427A (zh) 问卷推送方法、装置、计算机设备和存储介质
CN114495927A (zh) 多模态交互的虚拟数字人的生成方法及装置、存储介质、终端
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN108986804A (zh) 人机交互处理方法、装置、用户终端、处理服务器及系统
CN111222854A (zh) 基于面试机器人的面试方法、装置、设备及存储介质
US20210407504A1 (en) Generation and operation of artificial intelligence based conversation systems
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
KR20200122916A (ko) 대화 시스템 및 그 제어 방법
CN113299270B (zh) 语音合成系统的生成方法、装置、设备及存储介质
US11704585B2 (en) System and method to determine outcome probability of an event based on videos
KR102605178B1 (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
CN113192484A (zh) 基于文本生成音频的方法、设备和存储介质
CN113850898A (zh) 场景渲染方法及装置、存储介质及电子设备
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN114595314A (zh) 融合情绪的对话应答方法、装置、终端及存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant