CN115499396B - 具有人格特征的信息生成方法及装置 - Google Patents
具有人格特征的信息生成方法及装置 Download PDFInfo
- Publication number
- CN115499396B CN115499396B CN202211431106.8A CN202211431106A CN115499396B CN 115499396 B CN115499396 B CN 115499396B CN 202211431106 A CN202211431106 A CN 202211431106A CN 115499396 B CN115499396 B CN 115499396B
- Authority
- CN
- China
- Prior art keywords
- personality
- target
- feature vector
- data
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000003993 interaction Effects 0.000 claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 261
- 230000003068 static effect Effects 0.000 claims description 110
- 238000012549 training Methods 0.000 claims description 58
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000002452 interceptive effect Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 abstract description 10
- 241000282414 Homo sapiens Species 0.000 description 10
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000033764 rhythmic process Effects 0.000 description 5
- 210000000697 sensory organ Anatomy 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 208000025967 Dissociative Identity disease Diseases 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004215 lattice model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/10—Multimedia information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种具有人格特征的信息生成方法及装置,涉及数据处理技术领域,该方法包括:根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人;基于所述目标虚拟人生成具有人格特征的目标信息。本申请提供的具有人格特征的信息生成方法及装置,用于为语音助手或聊天机器人赋予人格,使其在与用户的交互过程中输出具有人格特征的信息。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种具有人格特征的信息生成方法及装置。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的发展,基于AI技术创建的语音助手或者聊天机器人能够以各种形式与人类进行交互。例如,帮助人类完成特定功能的语音助手、能与人类进行聊天的陪伴型聊天机器人等。
在与人类的交互的过程中,语音助手或者聊天机器人逐渐被形象化,成为一个虚拟人,它可以具有人的外貌、声音和性格等。不同的语音助手或者聊天机器人将逐渐演化为多样化的智能个体,人机交互的形式也会更形象生动。
因此,为了使语音助手更加拟人化,需要为其设置一个人格,赋予它外貌、声音和性格等多种人的属性,使其能够更加真实。
发明内容
本申请的目的是提供一种具有人格特征的信息生成方法及装置,用于为语音助手或聊天机器人赋予人格,使其在与用户的交互过程中输出具有人格特征的信息。
本申请提供一种具有人格特征的信息生成方法,包括:
根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人;基于所述目标虚拟人生成具有人格特征的目标信息;其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构。
可选地,所述根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人之前,所述方法还包括:根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到与目标人格相关的第一特征向量以及与所述目标人格无关的第二特征向量;其中,所述目标样本数据为基于互联网用户发布的个体交互信息生成的;所述目标人格标识为基于所述目标样本数据的人格标签指示的人格标识确定的;输出所述第一特征向量的编码器为第一编码器;输出所述第二特征向量的编码器为第二编码器。
可选地,所述根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的自编码器对所述目标样本数据进行解耦,得到与所述目标人格相关的第一特征向量以及与所述目标人格无关的第二特征向量之前,所述方法还包括:获取不同互联网用户发布的个体交互信息,并基于获取的个体交互信息构建训练样本集;所述个体交互信息包括以下至少一项:音频信息,图像信息,文本信息;基于人格库中的人格标识对所述训练样本集中的每个样本数据进行人格标注,确定每个样本数据对应的人格标签;其中,所述目标样本数据为所述训练样本集中的任一样本数据;所述人格库中包括多个人格标识;每个人格标识对应一个人格,一个人格对应多个人格特征。
可选地,所述目标人格标识在所述人格库中对应多个静态特征向量;根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到与目标人格相关的第一特征向量以及与所述目标人格无关的第二特征向量之后,所述方法还包括:根据所述第一特征向量计算所述多个静态特征向量中每个静态特征向量的权重;根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量;将所述动态特征向量以及所述第二特征向量输入到与所述目标样本数据的数据类型相匹配的解码器中进行解码,得到重构后的目标样本数据;其中,所述目标样本数据与重构后的目标样本数据所表示的内容相同。
可选地,所述根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到与目标人格相关的第一特征向量以及与所述目标人格无关的第二特征向量之后,所述方法还包括:将所述第二特征向量输入第一分类器中,通过所述第一分类器识别所述第二特征向量中是否存在与人格标识相关的特征;基于所述第一分类器的识别结果调整所述第二编码器的模型参数以及所述第一分类器的模型参数,以提高所述第一分类器从所述第二编码器的输出结果中识别出与人格标识相关特征的能力,以及降低所述第二编码器输出的特征向量被所述第一分类器识别出与人格标识相关特征的概率。
可选地,所述根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量之后,所述方法还包括:将所述动态特征向量输入到第二分类器中,通过所述第二分类器识别所述目标样本数据对应的人格,并根据识别结果调整所述第一编码器的模型参数、所述第二分类器的模型参数以及所述多个静态特征向量。
可选地,所述根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量之后,所述方法还包括:将所述动态特征向量、所述第二特征向量以及第三特征向量输入到第三分类器中,通过所述第三分类器识别所述目标样本数据的人格标识,并根据识别结果调整所述第一编码器的模型参数、所述第二编码器的模型参数、所述第三分类器的模型参数以及所述多个静态特征向量;其中,所述第三特征向量为与所述目标人格无关的特征向量、且所述第三特征向量与所述第二特征向量的来源不同。
可选地,所述方法还包括:将所述多个静态特征向量进行拼接后输入第四分类器中,通过所述第四分类器识别所述多个静态特征向量对应的人格标识,并根据识别结果调整所述第四分类器的模型参数、所述第一编码器的模型参数以及所述多个静态特征向量。
可选地,所述基于所述目标虚拟人生成具有人格特征的目标信息,包括:获取所述目标虚拟人需要输出的输出内容;使用与所述输出内容的数据类型相匹配的编码器对所述输出内容进行编码,得到与所述目标人格数据对应的目标人格无关的第一目标特征向量;根据所述目标人格数据对应的多个静态特征向量中每个静态特征向量的权重对所述目标人格数据对应的多个静态特征向量进行加权计算,得到所述目标人格数据对应的目标人格相关的第二目标特征向量;将所述第一目标特征向量以及所述第二目标特征向量输入到与所述输出内容的数据类型相匹配的解码器中进行解码,得到所述目标信息;其中,所述目标信息为人格模型对所述输出内容进行重构后得到的。
本申请还提供一种具有人格特征的信息生成装置,包括:
确定模块,用于根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据;创建模块,用于根据所述目标人格数据创建目标虚拟人;生成模块,用于基于所述目标虚拟人生成具有人格特征的目标信息;其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构。
可选地,所述装置还包括:数据处理模块;所述数据处理模块,用于根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到与目标人格相关的第一特征向量以及与所述目标人格无关的第二特征向量;其中,所述目标样本数据为基于互联网用户发布的个体交互信息生成的;所述目标人格标识为基于所述目标样本数据的人格标签指示的人格标识确定的;输出所述第一特征向量的编码器为第一编码器;输出所述第二特征向量的编码器为第二编码器。
可选地,所述创建模块,还用于获取不同互联网用户发布的个体交互信息,并基于获取的个体交互信息构建训练样本集;所述个体交互信息包括以下至少一项:音频信息,图像信息,文本信息;所述确定模块,还用于基于人格库中的人格标识对所述训练样本集中的每个样本数据进行人格标注,确定每个样本数据对应的人格标签;其中,所述目标样本数据为所述训练样本集中的任一样本数据;所述人格库中包括多个人格标识;每个人格标识对应一个人格,一个人格对应多个人格特征。
可选地,所述装置还包括:计算模块;所述目标人格标识在所述人格库中对应多个静态特征向量;所述计算模块,用于根据所述第一特征向量计算所述多个静态特征向量中每个静态特征向量的权重;所述计算模块,还用于根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量;所述生成模块,还用于将所述动态特征向量以及所述第二特征向量输入到与所述目标样本数据的数据类型相匹配的解码器中进行解码,得到重构后的目标样本数据;其中,所述目标样本数据与重构后的目标样本数据所表示的内容相同。
可选地,所述装置还包括:参数调整模块;所述参数调整模块,用于将所述第二特征向量输入第一分类器中,通过所述第一分类器识别所述第二特征向量中是否存在与人格标识相关的特征;所述参数调整模块,还用于基于所述第一分类器的识别结果调整所述第二编码器的模型参数以及所述第一分类器的模型参数,以提高所述第一分类器从所述第二编码器的输出结果中识别出与人格标识相关特征的能力,以及降低所述第二编码器输出的特征向量被所述第一分类器识别出与人格标识相关特征的概率。
可选地,所述参数调整模块,还用于将所述动态特征向量输入到第二分类器中,通过所述第二分类器识别所述目标样本数据对应的人格,并根据识别结果调整所述第一编码器的模型参数、所述第二分类器的模型参数以及所述多个静态特征向量。
可选地,所述参数调整模块,还用于将所述动态特征向量、所述第二特征向量以及第三特征向量输入到第三分类器中,通过所述第三分类器识别所述目标样本数据的人格标识,并根据识别结果调整所述第一编码器的模型参数、所述第二编码器的模型参数、所述第三分类器的模型参数以及所述多个静态特征向量;其中,所述第三特征向量为与所述目标人格无关的特征向量、且所述第三特征向量与所述第二特征向量的来源不同。
可选地,所述参数调整模块,还用于将所述多个静态特征向量进行拼接后输入第四分类器中,通过所述第四分类器识别所述多个静态特征向量对应的人格标识,并根据识别结果调整所述第四分类器的模型参数、所述第一编码器的模型参数以及所述多个静态特征向量。
可选地,所述装置还包括:获取模块;所述获取模块,用于获取所述目标虚拟人需要输出的输出内容;所述数据处理模块,还用于使用与所述输出内容的数据类型相匹配的编码器对所述输出内容进行编码,得到与所述目标人格数据对应的目标人格无关的第一目标特征向量;所述数据处理模块,还用于根据所述目标人格数据对应的多个静态特征向量中每个静态特征向量的权重对所述目标人格数据对应的多个静态特征向量进行加权计算,得到所述目标人格数据对应的目标人格相关的第二目标特征向量;所述生成模块,具体用于将所述第一目标特征向量以及所述第二目标特征向量输入到与所述输出内容的数据类型相匹配的解码器中进行解码,得到所述目标信息;其中,所述目标信息为人格模型对所述输出内容进行重构后得到的。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上述任一种所述具有人格特征的信息生成方法的步骤。
本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述具有人格特征的信息生成方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述具有人格特征的信息生成方法的步骤。
本申请提供的具有人格特征的信息生成方法及装置,首先,通过人格模型对真实的个体交互信息进行训练后得到目标人格数据。之后,根据人机交互任务的任务需求,确定与任务需求相匹配的目标人格数据,并根据目标人格数据创建目标虚拟人。最后,基于创建的目标虚拟人生成具有人格特征的目标信息。如此,被赋予人格的语音助手或聊天机器人,能够更加接近真实的人类。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的具有人格特征的信息生成方法的流程示意图之一;
图2是本申请提供的人格模型的训练流程示意图;
图3是本申请提供的人格库中人格表示方式示意图;
图4是本申请提供的具有人格特征的信息生成方法的流程示意图之二;
图5是本申请提供的具有人格特征的信息生成装置的结构示意图;
图6是本申请提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
为了让基于AI技术创建的聊天机器人或者语音助手(本申请实施例中以聊天机器人为例进行描述)更加拟人化,需要为聊天机器人设置一个人格,赋予它外貌、声音和性格等多种人的属性。这个过程分为两步,一是根据交互需要获取特定的人格,二是将人格融入到交互数据中去。这种虚拟人格可以根据需求进行定制,以便赋予到特定功能的机器人上。同时,也可以批量定制,大批量投放到虚拟社区中。
在相关技术中,可以使用结构化模板或非结构化文本将人格描述出来。基于这样的方式,可以按预先设定的规则修改交互数据,例如设置聊天机器人的口头禅、设置聊天机器人的外形等。除了上述方式,还可以利用深度学习模型以编码的方式融入个性化特征,例如将人格描述通过bert模型进行编码以实现个性化对话。
然而,上述方式需要对人格进行显式的表述,但人格特性是极其复杂的,显式的描述并不能完整地表现一个人。而且要在交互中体验设定的人格特征,往往定制性很强,需要一个系统来支持,这种显式设定人格的方式也不适合大批量人格同时生成。
针对相关技术中存在的上述技术问题,本申请实施例提供了一种具有人格特征的信息生成方法,能够通过隐式学习真实人类的交互信息(包括:文本、图像、音频)的方式,基于深度学习模型来学习真实的人格特征,并将学习到的人格特征赋予聊天机器人,使其在与人类的交互过程中表现的更加拟人化。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的具有人格特征的信息生成方法进行详细地说明。
如图1所示,本申请实施例提供的一种具有人格特征的信息生成方法,该方法可以包括下述步骤101和步骤102:
步骤101、根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人。
其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构。
示例性地,上述个体交互信息可以为互联网用户在网络上发布的信息。其信息类型可以包括:文本、图像、音频等。上述人格相关特征可以为与人格相关的信息;上述人格无关特征可以为与人格无关的信息,具体可以为与输出内容相关的信息。将人格相关的信息与输出内容相关的信息进行组合后,便可以得到具有人格特征的信息。
示例性地,通过人格模型可以学习到真实的人格,不同的人格可以应对不同的交互任务。具体地,基于人机交互的任务需求,确定用于进行人机交互的虚拟人在多个维度的特征属性;基于虚拟人的多个维度的特征属性,可以在预先构建的虚拟人人格库中分别选择与每一维度特征属性相匹配的人格数据,并基于该人格数据创建上述目标虚拟人。
需要说明的是,本申请实施例中的人格库可以包括多个人格(以人格ID的形式表示),每个人格ID可以具有多个人格特征(例如,发音、发音节奏、五官、语言风格等),每个人格特征可以通过低维的特征向量进行表示。基于每个人格对应的多个人格特征,可以对多个不同的人格中每个人格对应的人格特征进行组合,生成新的人格。即上述目标人格数据可以为人格库中同一个人格的人格数据,也可以是多个人格的人格特征重新组合后得到的新人格的人格数据。
在一种可能的实现方式中,为了能够将不同人格的人格特征进行重新组合,人格库中每个人格对应的人格特征(以静态特征向量的形式表示)的数量是相同的。举例说明,以人格库中的人格对应的人格特征均包括:发音、发音节奏、五官、语言风格为例进行说明:人格1对应的人格特征可以包括:发音1、发音节奏1、五官1、语言风格1;人格2对应的人格特征可以包括:发音2、发音节奏2、五官2、语言风格2。将人格1和人格2进行组合后可以得到新的人格3,该人格3对应的人格特征可以包括:发音1、发音节奏2、五官2、语言风格1。上述目标人格数据可以为人格1的人格数据,也可以为人格2的人格数据,还可以为人格3的人格数据。
步骤102、基于所述目标虚拟人生成具有人格特征的目标信息。
示例性地,在基于人格库中的目标人格数据创建目标虚拟人后,便可以将该目标虚拟人应用在人机交互场景中,在与用户的交互过程中,生成具有目标人格数据对应的人格特征的交互信息。
具体地,该目标虚拟人可以基于用户输入的内容,生成与用户输入内容对应的具有人格特征的回复内容;也可以主动发起对话,生成具有人格特征的对话内容。
可选地,在本申请实施例中,上述人格模型可以通过获取的个体交互信息训练模型参数,以及通过对个体交互信息的学习,得到不同人格的人格特征。
示例性地,上述步骤101之前,本申请实施例提供的具有人格特征的信息生成方法还可以包括以下步骤201至步骤203:
步骤201、获取不同互联网用户发布的个体交互信息,并基于获取的个体交互信息构建训练样本集。
其中,所述个体交互信息包括以下至少一项:音频信息,图像信息,文本信息。
示例性地,人格模型的训练数据来源于互联网,通过网络爬虫获取社交网站上不同用户发布的个体交互信息,便可以得到人格模型的训练数据。
步骤202、基于人格库中的人格标识对所述训练样本集中的每个样本数据进行人格标注,确定每个样本数据对应的人格标签。
其中,所述目标样本数据为所述训练样本集中的任一样本数据;所述人格库中包括多个人格标识;每个人格标识对应一个人格,一个人格对应多个人格特征。
示例性地,在使用训练样本集中的训练样本对人格模型进行训练之前,还需要对每个样本数据进行标注,以告知人格模型每个样本数据对应的人格。每个样本数据对应的人格均可以在人格库中找到。
在一种可能的实现方式中,若某个样本数据并未被标注,则可以根据该样本数据对应的用户的人格特征对该样本数据进行标注;或者,根据该样本数据所能表示的人格特征以及人格库中的人格特征对该样本数据进行标注。
示例性地,人格库中的每个人格(对应人格库中的人格ID)并不是在训练过程中生成的,而是预先创建的,之后在训练过程中不断地对静态特征向量进行调整。即在训练人格模型之前,需要对人格库中的人格进行初始化,具体体现在初始化人格库中每个人格ID对应的静态特征向量;在人格模型的训练过程中,可以不断地调整人格库中每个人格对应的静态特征向量。
步骤203、根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到与目标人格相关的第一特征向量以及与所述目标人格无关的第二特征向量。
其中,所述目标样本数据为基于互联网用户发布的个体交互信息生成的;所述目标人格标识为基于所述目标样本数据的人格标签指示的人格标识确定的;输出所述第一特征向量的编码器为第一编码器;输出所述第二特征向量的编码器为第二编码器。
需要说明的是,上述目标样本数据为训练样本集中的任一训练样本,即训练样本集中的任一训练样本均可以按照本申请实施例中针对目标样本数据的相关描述对人格模型进行训练。
示例性地,由于样本数据的数据类型可以包括文本、图像和音频,因此,人格模型需要针对不同数据类型的样本数据采用不同的特征编码器来提取人格相关特征和人格无关特征。
示例性地,不同的数据类型对应的第一编码器不同,不同的数据类型对应的第二编码器也不同。
举例说明,如图2所示,在人格ID_0对应的样本数据(即上述目标样本数据,可以包括:ID_0文本,ID_0图像,ID_0音频)的数据类型为文本的情况下,通过有关特征编码器1得到与样本数据对应的人格相关的有关特征向量(即上述第一特征向量),以及通过无关特征编码器1得到与样本数据对应的人格相关的无关特征向量(即上述第二特征向量);在样本数据的数据类型为图像的情况下,通过有关特征编码器2得到与样本数据对应的人格相关的有关特征向量(即上述第一特征向量),以及通过无关特征编码器2得到与样本数据对应的人格相关的无关特征向量(即上述第二特征向量)。
示例性地,在得到与目标样本数据对应的目标人格有关的第一特征向量以及与目标样本数据对应的目标人格无关的第二特征向量之后,需要结合人格库中目标人格所对应的静态特征向量,计算得到目标样本数据对应的动态特征向量。
示例性地,在得到目标样本数据对应的动态特征向量之后,便可以通过与目标样本数据的数据类型对应的解码器对动态特征向量以及第二特征向量进行重构,得到重构后的目标样本数据。
举例说明,如图2所示,在目标样本数据的数据类型为文本数据的情况下,通过文本解码器得到的重构数据的数据类型依然为文本数据。
示例性地,所述目标人格标识在所述人格库中对应多个静态特征向量。基于图2,如图3所示,人格库中包括ID_0至ID_m共m+1个人格,每个人格均包括n个静态特征向量。
示例性地,上述步骤203之后,本申请实施例提供的具有人格特征的信息生成方法还可以包括以下步骤204至步骤206:
步骤204、根据所述第一特征向量计算所述多个静态特征向量中每个静态特征向量的权重。
步骤205、根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量。
步骤206、将所述动态特征向量以及所述第二特征向量输入到与所述目标样本数据的数据类型相匹配的解码器中进行解码,得到重构后的目标样本数据。
其中,所述目标样本数据与重构后的目标样本数据所表示的内容相同。
示例性地,人格库中每个人格均对应多个静态特征向量,在通过第一编码器得到目标样本数据对应的人格相关的第一特征向量之后,可以对该第一特征向量进行数据变换之后,确定人格库中目标人格对应多个静态特征向量中每个静态特征向量的权重,并根据每个静态特征向量的权重计算多个静态特征向量的加权和,进而得到目标样本数据对应的动态特征向量。
示例性地,上述第一编码器可以包括:词语切分tokenization模块、预处理模块和压缩reduce模块。上述第二编码器可以包括:词语切分tokenization模块和预处理模块。
示例性地,词语切分模块用于将输入的数据序列化,具体地,在输入数据为文本数据的情况下,词语切分模块可以使用bert模型或者roberta模型;在输入数据为图像数据的情况下,词语切分模块可以使用ResNet模型或者视觉转换器(Vision Transformer,vit)模型;在输入数据为音频数据的情况下,词语切分模块可以使用cpc模型或者hubert模型。
示例性地,预处理模块可以使用多层感知机(multi-layer perceptron,MLP)或者注意力attention模型。
示例性地,压缩模块用于将词语切分模块输出的序列化数据转换为一个固定长度的向量。该压缩模块可以为循环神经网络(Recurrent Neural Network,RNN)或者池化pool模型。
示例性地,对压缩模块输出的第一特征向量以及目标人格对应的多个静态特征向量执行注意力attention操作后,便可以得到每个静态特征向量的权重。之后,对多个静态特征向量执行加权计算(加权和)后,便可以得到目标样本数据对应的动态特征向量。
示例性地,可以通过重构损失Loss_rec调整第一编码器、第二编码器、解码器的模型参数、以及人格库中对应人格的静态特征向量。该重构损失可以为L1 loss或者L2 loss。例如,重构损失函数可以为,其中,
Ψ为解码器的模型参数,为第一编码器的模型参数,为第二编码器的模型参数,为静态特征向量。
可选地,在本申请实施例中,在人格模型的训练过程中,还需要添加合适的分类器,通过对抗学习的方式调整各个解码器以及各个编码器的模型参数。同时,还能够通过对样本数据的学习,调整人格库中各个人格对应的静态特征向量。
示例性地,上述步骤203之后,本申请实施例提供的具有人格特征的信息生成方法还可以包括以下步骤207和步骤208:
步骤207、将所述第二特征向量输入第一分类器中,通过所述第一分类器识别所述第二特征向量中是否存在与人格标识相关的特征。
步骤208、基于所述第一分类器的识别结果调整所述第二编码器的模型参数以及所述第一分类器的模型参数。
示例性地,通过对抗学习的方式,可以提高所述第一分类器从所述第二编码器的输出结果中识别出与人格标识相关特征的能力,以及降低所述第二编码器输出的特征向量被所述第一分类器识别出与人格标识相关特征的概率。
示例性地,上述第一分类器可以添加在第二解码器之后。该第一分类器仅在人格模型的训练阶段存在。
示例性地,可以通过以下公式一和公式二来计算上述第一分类器的损失函数值以及第二编码器的损失函数值,并根据损失函数值调整对应的模型参数(具体为最大化
Loss_
adv,同时最小化
Loss_dis):
(公式一)
(公式二)
其中,
loss_dis为第一分类器的损失值;
θ 1为第一分类器的模型参数;
loss_adv为第二编码器的损失值;为第二编码器的模型参数;
j为目标样本数据对的人格类别,即目标人格类别;
H代表熵。
可选地,在本申请实施例中,为了确保与目标人格对应的第一特征向量能够正常的解耦,可以在得到目标样本数据对应的动态特征向量之后,可以通过第二分类器来对动态特征向量进行人格识别,并根据识别成功率调整第一编码器和第二分类器的模型参数,以及人格库中的静态人格特征向量。
示例性地,上述步骤205之后,本申请实施例提供的具有人格特征的信息生成方法还可以包括以下步骤209:
步骤209、将所述动态特征向量输入到第二分类器中,通过所述第二分类器识别所述目标样本数据对应的人格,并根据识别结果调整所述第一编码器的模型参数、所述第二分类器的模型参数以及所述多个静态特征向量。
示例性地,上述第二分类器主要用于根据输入的动态特征向量识别目标样本数据对应的目标人格。具体地,可以根据以下公式三计算该第二分类器的损失值:
(公式三)
其中,
Loss_cls2为第二分类器的损失值;
id_0至
id_m表示人格库中的m+1个人格,
id_feature为输入的动态特征向量;
y为输入的样本数据对应的人格(在人格库中以人格ID表示);
p表示动态特征向量
id_feature对应人格的人格ID为
i的概率。
θ 2为第二分类器的模型参数;为第一编码器的模型参数;为静态特征向量。
可选地,在本申请实施例中,由于人格的类别只能由相关特征识别出来,无关特征并不会影响人格的类别,因此,可以通过拼接相关特征和无关特征来最大化输入数据的人格类别的概率。
示例性地,由于无关特征的来源并不会对人格的识别造成影响,所以无关特征可以来源于当前输入数据,也可以来源于其他输入数据。
示例性地,上述步骤205之后,本申请实施例提供的具有人格特征的信息生成方法,还可以包括以下步骤210:
步骤210、将所述动态特征向量、所述第二特征向量以及第三特征向量输入到第三分类器中,通过所述第三分类器识别所述目标样本数据的人格标识,并根据识别结果调整所述第一编码器的模型参数、所述第二编码器的模型参数、所述第三分类器的模型参数以及所述多个静态特征向量。
其中,所述第三特征向量为与所述目标人格无关的特征向量、且所述第三特征向量与所述第二特征向量的来源不同。
示例性地,可以基于以下公式四计算所述第三分类器的损失值,并根据损失值来调整第一编码器的模型参数、第二编码器的模型参数、第三分类器的模型参数以及人格库中对应人格的静态特征向量:
(公式四)
其中,
Loss_ds3为第三分类器的损失值;
id_unrelated_feature为基于当前输入样本得到的无关特征向量;
id_unrelated_feature’为基于其他输入样本得到的无关特征向量。
θ 3为第三分类器的模型参数;为第一编码器的模型参数;为
id_unrelated_
feature对应的第二编码器的模型参数;为
id_unrelated_feature’对应的第二编码器的模型参数;为静态特征向量。
示例性地,基于上述各个损失函数,可以通过以下公式五计算单一模态的损失值:
(公式五)
其中,
Loss_audio为当输入的目标样本数据的数据类型为音频时,人格模型的损失值;
Loss_img为当输入的目标样本数据的数据类型为图像时,人格模型的损失值;
Loss_
text为当输入的目标样本数据的数据类型为文本时,人格模型的损失值。
示例性地,基于人格模型的单一模态的损失值,可以调整对应模态使用的编码器的模型参数、解码器的模型参数以及人格库中对应人格的静态特征向量。
可选地,在本申请实施例中,为了能够使得人格模型能够更好地学习每个输入样本数据对应人格的人格特征,可以在人格模型的训练过程中添加第四分类器。
示例性地,本申请实施例提供的具有人格特征的信息生成方法,还可以包括以下步骤211:
步骤211、将所述多个静态特征向量进行拼接后输入第四分类器中,通过所述第四分类器识别所述多个静态特征向量对应的人格标识,并根据识别结果调整所述第四分类器的模型参数、所述第一编码器的模型参数以及所述多个静态特征向量。
示例性地,可以根据以下公式六计算第四分类器的损失值,并根据损失值调整输入样本数据对应的多个静态特征向量:
(公式六)
其中,
Loss_cls_static为第四分类器的损失值;
id_static_feature为输入到该第四分类器中的、且经过拼接后的静态特征向量;
θ 4为第四分类器的模型参数;为第一编码器的模型参数;为静态特征向量。
示例性地,基于以下公式七,可以计算三种模态的损失值:
(公式七)
其中,上述各个损失值可以以不同的权重进行加权计算,得到人格模型的损失值。
可以理解的是,在进行训练时,使用对抗训练的方式,交替训练总损失函数
Loss的损失值以及
Loss_dis_total。
Loss_dis_total为每个模态对应的公式一相加之后得到的。即针对每一步训练, 先相对于第一分类器的模型参数,最小化
Loss_dis_total。再相对于第一编码器,第二编码器,解码器,人格静态特征向量,第二分类器,第三分类器,第四分类器,最小化损失函数的损失值。
可选地,在本申请实施例中,在基于上述的训练步骤对人格模型完成训练之后,便可以使用该人格模型的编码器和解码器基于输入的样本数据合成具有人格特征的新数据。
具体地,上述步骤102,可以包括以下步骤102a1至步骤102a4:
步骤102a1、获取所述目标虚拟人需要输出的输出内容。
步骤102a2、使用与所述输出内容的数据类型相匹配的编码器对所述输出内容进行编码,得到与所述目标人格数据对应的目标人格无关的第一目标特征向量。
步骤102a3、根据所述目标人格数据对应的多个静态特征向量中每个静态特征向量的权重对所述目标人格数据对应的多个静态特征向量进行加权计算,得到所述目标人格数据对应的目标人格相关的第二目标特征向量。
步骤102a4、将所述第一目标特征向量以及所述第二目标特征向量输入到与所述输出内容的数据类型相匹配的解码器中进行解码,得到所述目标信息。
其中,所述目标信息为人格模型对所述输出内容进行重构后得到的。
可以理解的是,在目标虚拟人输出内容之前,首先需要获取输出内容,之后,再根据对应的人格,对输出内容进行重构,进而得到具有人格的目标信息。
示例性地,区别于人格模型的训练过程,上述每个静态特征向量的权重可以是随机的,也可以是用户设定的,还可以是按照训练过程中根据编码器输出的有关特征向量得到的。
举例说明,如图4所示,ID_X为目标人格数据对应的人格,将人格ID_X的数据(可以为文本、图像、音频中的任一项)输入到对应的特征编码器(第二特征编码器)后,得到与人格ID_X的人格特征无关的无关特征向量。同时,可以从人格库中查找与人格ID_X对应的多个静态特征向量,并基于每个静态特征向量对应的权重经过加权和计算后,得到动态特征向量。之后,将动态特征向量与无关特征向量输入到解码器中,得到新的数据(即上述目标信息)。
为了方便理解本申请实施例中人格模型的训练过程,以目标样本数据为音频数据为例进行描述:
1、获取人格ID_0的音频数据,并通过Wav2Vec、CPC、Hubert等方法从音频数据中提取出帧级别的音频特征。
2、再通过有关特征编码器从帧级别的音频特征中与人格ID_0对应的人格特征有关的特征向量。针对帧级别的音频特征,可以先对其进行预处理,预处理可以使用MLP模型或自注意力self-attention模型;之后,再使用RNN模型将帧级别的音频特征转化为固定长度的向量,作为整条音频的特征。最后,对人格库中人格ID_0对应的静态特征向量进行加权和计算后,得到动态特征向量。
3、在获取动态特征向量的同时,还可以从帧级别的音频特征中提取与ID_0对应的人格特征无关的无关特征向量。
4、对得到的动态特征向量和无关特征向量进行拼接等聚合操作后,将其输入到由多组卷积操作组成的音频解码器中,一组卷积操作可以包括一维卷积Conv1d,层标准化layer normalization,残差连接residual connection。经过解码后可以重构出音频的梅尔频谱(mel spectrogram)。
5、基于上述多个分类器对人格模型的模型参数进行优化。
本申请实施例提供的具有人格特征的信息生成方法,首先,通过人格模型对真实的个体交互信息进行训练后得到目标人格数据。之后,根据人机交互任务的任务需求,确定与任务需求相匹配的目标人格数据,并根据目标人格数据创建目标虚拟人。最后,基于创建的目标虚拟人生成具有人格特征的目标信息。如此,被赋予人格的语音助手或聊天机器人,能够更加接近真实的人类。
需要说明的是,本申请实施例提供的具有人格特征的信息生成方法,执行主体可以为具有人格特征的信息生成装置,或者该具有人格特征的信息生成装置中的用于执行具有人格特征的信息生成方法的控制模块。本申请实施例中以具有人格特征的信息生成装置执行具有人格特征的信息生成方法为例,说明本申请实施例提供的具有人格特征的信息生成装置。
需要说明的是,本申请实施例中,上述各个方法附图所示的。具有人格特征的信息生成方法均是以结合本申请实施例中的一个附图为例示例性的说明的。具体实现时,上述各个方法附图所示的具有人格特征的信息生成方法还可以结合上述实施例中示意的其它可以结合的任意附图实现,此处不再赘述。
下面对本申请提供的具有人格特征的信息生成装置进行描述,下文描述的与上文描述的具有人格特征的信息生成方法可相互对应参照。
图5为本申请一实施例提供的具有人格特征的信息生成装置的结构示意图,如图5所示,具体包括:
确定模块501,用于根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据;创建模块502,用于根据所述目标人格数据创建目标虚拟人;生成模块503,用于基于所述目标虚拟人生成具有人格特征的目标信息;其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构。
可选地,所述装置还包括:数据处理模块;所述数据处理模块,用于根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到与目标人格相关的第一特征向量以及与所述目标人格无关的第二特征向量;其中,所述目标样本数据为基于互联网用户发布的个体交互信息生成的;所述目标人格标识为基于所述目标样本数据的人格标签指示的人格标识确定的;输出所述第一特征向量的编码器为第一编码器;输出所述第二特征向量的编码器为第二编码器。
可选地,所述创建模块502,还用于获取不同互联网用户发布的个体交互信息,并基于获取的个体交互信息构建训练样本集;所述个体交互信息包括以下至少一项:音频信息,图像信息,文本信息;所述确定模块501,还用于基于人格库中的人格标识对所述训练样本集中的每个样本数据进行人格标注,确定每个样本数据对应的人格标签;其中,所述目标样本数据为所述训练样本集中的任一样本数据;所述人格库中包括多个人格标识;每个人格标识对应一个人格,一个人格对应多个人格特征。
可选地,所述装置还包括:计算模块;所述目标人格标识在所述人格库中对应多个静态特征向量;所述计算模块,用于根据所述第一特征向量计算所述多个静态特征向量中每个静态特征向量的权重;所述计算模块,还用于根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量;所述生成模块503,还用于将所述动态特征向量以及所述第二特征向量输入到与所述目标样本数据的数据类型相匹配的解码器中进行解码,得到重构后的目标样本数据;其中,所述目标样本数据与重构后的目标样本数据所表示的内容相同。
可选地,所述装置还包括:参数调整模块;所述参数调整模块,用于将所述第二特征向量输入第一分类器中,通过所述第一分类器识别所述第二特征向量中是否存在与人格标识相关的特征;所述参数调整模块,还用于基于所述第一分类器的识别结果调整所述第二编码器的模型参数以及所述第一分类器的模型参数,以提高所述第一分类器从所述第二编码器的输出结果中识别出与人格标识相关特征的能力,以及降低所述第二编码器输出的特征向量被所述第一分类器识别出与人格标识相关特征的概率。
可选地,所述参数调整模块,还用于将所述动态特征向量输入到第二分类器中,通过所述第二分类器识别所述目标样本数据对应的人格,并根据识别结果调整所述第一编码器的模型参数、所述第二分类器的模型参数以及所述多个静态特征向量。
可选地,所述参数调整模块,还用于将所述动态特征向量、所述第二特征向量以及第三特征向量输入到第三分类器中,通过所述第三分类器识别所述目标样本数据的人格标识,并根据识别结果调整所述第一编码器的模型参数、所述第二编码器的模型参数、所述第三分类器的模型参数以及所述多个静态特征向量;其中,所述第三特征向量为与所述目标人格无关的特征向量、且所述第三特征向量与所述第二特征向量的来源不同。
可选地,所述参数调整模块,还用于将所述多个静态特征向量进行拼接后输入第四分类器中,通过所述第四分类器识别所述多个静态特征向量对应的人格标识,并根据识别结果调整所述第四分类器的模型参数、所述第一编码器的模型参数以及所述多个静态特征向量。
可选地,所述装置还包括:获取模块;所述获取模块,用于获取所述目标虚拟人需要输出的输出内容;所述数据处理模块,还用于使用与所述输出内容的数据类型相匹配的编码器对所述输出内容进行编码,得到与所述目标人格数据对应的目标人格无关的第一目标特征向量;所述数据处理模块,还用于根据所述目标人格数据对应的多个静态特征向量中每个静态特征向量的权重对所述目标人格数据对应的多个静态特征向量进行加权计算,得到所述目标人格数据对应的目标人格相关的第二目标特征向量;所述生成模块503,具体用于将所述第一目标特征向量以及所述第二目标特征向量输入到与所述输出内容的数据类型相匹配的解码器中进行解码,得到所述目标信息;其中,所述目标信息为人格模型对所述输出内容进行重构后得到的。
本申请提供的具有人格特征的信息生成装置,首先,通过人格模型对真实的个体交互信息进行训练后得到目标人格数据。之后,根据人机交互任务的任务需求,确定与任务需求相匹配的目标人格数据,并根据目标人格数据创建目标虚拟人。最后,基于创建的目标虚拟人生成具有人格特征的目标信息。如此,被赋予人格的语音助手或聊天机器人,能够更加接近真实的人类。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行具有人格特征的信息生成方法,该方法包括:根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人;基于所述目标虚拟人生成具有人格特征的目标信息;其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的具有人格特征的信息生成方法,该方法包括:根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人;基于所述目标虚拟人生成具有人格特征的目标信息;其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构。
又一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的具有人格特征的信息生成方法,该方法包括:根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人;基于所述目标虚拟人生成具有人格特征的目标信息;其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种具有人格特征的信息生成方法,其特征在于,包括:
根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据,并根据所述目标人格数据创建目标虚拟人;
基于所述目标虚拟人生成具有人格特征的目标信息;
其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构;
所述根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据之前,所述方法还包括:
根据与目标人格相关的第一特征向量计算所述目标人格在人格库中对应的多个静态特征向量中每个静态特征向量的权重;
根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到目标样本数据对应的动态特征向量;
将所述动态特征向量以及与所述目标人格无关的第二特征向量输入到与所述目标样本数据的数据类型相匹配的解码器中进行解码,得到重构后的目标样本数据;
其中,所述目标样本数据为基于互联网用户发布的个体交互信息生成的;所述目标人格为基于所述目标样本数据的人格标签指示的人格标识确定的;所述目标样本数据与重构后的目标样本数据所表示的内容相同。
2.根据权利要求1所述的方法,其特征在于,所述根据与目标人格相关的第一特征向量计算所述目标人格在人格库中对应的多个静态特征向量中每个静态特征向量的权重之前,所述方法还包括:
根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到所述第一特征向量以及所述第二特征向量;
其中,输出所述第一特征向量的编码器为第一编码器;输出所述第二特征向量的编码器为第二编码器。
3.根据权利要求2所述的方法,其特征在于,所述根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的自编码器对所述目标样本数据进行解耦,得到所述第一特征向量以及所述第二特征向量之前,所述方法还包括:
获取不同互联网用户发布的个体交互信息,并基于获取的个体交互信息构建训练样本集;所述个体交互信息包括以下至少一项:音频信息,图像信息,文本信息;
基于人格库中的人格标识对所述训练样本集中的每个样本数据进行人格标注,确定每个样本数据对应的人格标签;
其中,所述目标样本数据为所述训练样本集中的任一样本数据;所述人格库中包括多个人格标识;每个人格标识对应一个人格,一个人格对应多个人格特征。
4.根据权利要求2或3所述的方法,其特征在于,所述根据输入的目标样本数据的数据类型,使用与所述目标样本数据的数据类型相匹配的编码器对所述目标样本数据进行解耦,得到所述第一特征向量以及所述第二特征向量之后,所述方法还包括:
将所述第二特征向量输入第一分类器中,通过所述第一分类器识别所述第二特征向量中是否存在与人格标识相关的特征;
基于所述第一分类器的识别结果调整所述第二编码器的模型参数以及所述第一分类器的模型参数,以提高所述第一分类器从所述第二编码器的输出结果中识别出与人格标识相关特征的能力,以及降低所述第二编码器输出的特征向量被所述第一分类器识别出与人格标识相关特征的概率。
5.根据权利要求2所述的方法,其特征在于,所述根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量之后,所述方法还包括:
将所述动态特征向量输入到第二分类器中,通过所述第二分类器识别所述目标样本数据对应的人格,并根据识别结果调整所述第一编码器的模型参数、所述第二分类器的模型参数以及所述多个静态特征向量。
6.根据权利要求2所述的方法,其特征在于,所述根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到所述目标样本数据对应的动态特征向量之后,所述方法还包括:
将所述动态特征向量、所述第二特征向量以及第三特征向量输入到第三分类器中,通过所述第三分类器识别所述目标样本数据的人格标识,并根据识别结果调整所述第一编码器的模型参数、所述第二编码器的模型参数、所述第三分类器的模型参数以及所述多个静态特征向量;
其中,所述第三特征向量为与所述目标人格无关的特征向量、且所述第三特征向量与所述第二特征向量的来源不同。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述多个静态特征向量进行拼接后输入第四分类器中,通过所述第四分类器识别所述多个静态特征向量对应的人格标识,并根据识别结果调整所述第四分类器的模型参数、所述第一编码器的模型参数以及所述多个静态特征向量。
8.根据权利要求1所述的方法,其特征在于,所述基于所述目标虚拟人生成具有人格特征的目标信息,包括:
获取所述目标虚拟人需要输出的输出内容;
使用与所述输出内容的数据类型相匹配的编码器对所述输出内容进行编码,得到与所述目标人格数据对应的目标人格无关的第一目标特征向量;
根据所述目标人格数据对应的多个静态特征向量中每个静态特征向量的权重对所述目标人格数据对应的多个静态特征向量进行加权计算,得到所述目标人格数据对应的目标人格相关的第二目标特征向量;
将所述第一目标特征向量以及所述第二目标特征向量输入到与所述输出内容的数据类型相匹配的解码器中进行解码,得到所述目标信息;
其中,所述目标信息为人格模型对所述输出内容进行重构后得到的。
9.一种具有人格特征的信息生成装置,其特征在于,所述装置包括:
确定模块,用于根据人机交互任务的任务需求,确定与所述任务需求相匹配的目标人格数据;
创建模块,用于根据所述目标人格数据创建目标虚拟人;
生成模块,用于基于所述目标虚拟人生成具有人格特征的目标信息;
其中,所述目标人格数据为人格模型基于对真实的个体交互信息进行训练后得到的;所述人格模型的训练过程包括:将个体交互信息解耦为与人格相关特征和人格无关特征,并基于人格相关特征和人格无关特征对输入的个体交互信息进行重构;
计算模块,用于根据与目标人格相关的第一特征向量计算所述目标人格在人格库中对应的多个静态特征向量中每个静态特征向量的权重;
所述计算模块,还用于根据每个静态特征向量的权重对所述多个静态特征向量进行加权计算,得到目标样本数据对应的动态特征向量;
所述生成模块,还用于将所述动态特征向量以及与所述目标人格无关的第二特征向量输入到与所述目标样本数据的数据类型相匹配的解码器中进行解码,得到重构后的目标样本数据;
其中,所述目标样本数据为基于互联网用户发布的个体交互信息生成的;所述目标人格为基于所述目标样本数据的人格标签指示的人格标识确定的;所述目标样本数据与重构后的目标样本数据所表示的内容相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211431106.8A CN115499396B (zh) | 2022-11-16 | 2022-11-16 | 具有人格特征的信息生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211431106.8A CN115499396B (zh) | 2022-11-16 | 2022-11-16 | 具有人格特征的信息生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115499396A CN115499396A (zh) | 2022-12-20 |
CN115499396B true CN115499396B (zh) | 2023-04-07 |
Family
ID=85115850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211431106.8A Active CN115499396B (zh) | 2022-11-16 | 2022-11-16 | 具有人格特征的信息生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115499396B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689078A (zh) * | 2019-09-29 | 2020-01-14 | 浙江连信科技有限公司 | 基于人格分类模型的人机交互方法、装置及计算机设备 |
WO2021169825A1 (zh) * | 2020-02-25 | 2021-09-02 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
CN114202402A (zh) * | 2021-06-10 | 2022-03-18 | 中国工商银行股份有限公司 | 行为特征预测方法及装置 |
CN114694081A (zh) * | 2022-04-21 | 2022-07-01 | 南京大学 | 一种基于多元属性合成的视频样本生成方法 |
-
2022
- 2022-11-16 CN CN202211431106.8A patent/CN115499396B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689078A (zh) * | 2019-09-29 | 2020-01-14 | 浙江连信科技有限公司 | 基于人格分类模型的人机交互方法、装置及计算机设备 |
WO2021169825A1 (zh) * | 2020-02-25 | 2021-09-02 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
CN114202402A (zh) * | 2021-06-10 | 2022-03-18 | 中国工商银行股份有限公司 | 行为特征预测方法及装置 |
CN114694081A (zh) * | 2022-04-21 | 2022-07-01 | 南京大学 | 一种基于多元属性合成的视频样本生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115499396A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Learning hierarchical cross-modal association for co-speech gesture generation | |
CN111897933B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
JP2022177218A (ja) | 虚像生成モデルのトレーニング方法および虚像生成方法 | |
CN112214591B (zh) | 一种对话预测的方法及装置 | |
CN115116109B (zh) | 虚拟人物说话视频的合成方法、装置、设备及存储介质 | |
CN106875940B (zh) | 一种基于神经网络的机器自学习构建知识图谱训练方法 | |
CN110209789A (zh) | 一种用户注意力引导的多模态对话系统及方法 | |
CN108595436A (zh) | 情感对话内容的生成方法和系统、存储介质 | |
CN113361251A (zh) | 一种基于多阶段生成对抗网络的文本生成图像方法及系统 | |
CN112364148B (zh) | 一种基于深度学习方法的生成型聊天机器人 | |
CN113704419A (zh) | 对话处理方法及装置 | |
Elgaar et al. | Multi-speaker and multi-domain emotional voice conversion using factorized hierarchical variational autoencoder | |
CN109800295A (zh) | 基于情感词典和词概率分布的情感会话生成方法 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN115408502A (zh) | 在同步会议中认知学习以生成模拟现场代理动作的脚本 | |
Wang et al. | Information-enhanced hierarchical self-attention network for multiturn dialog generation | |
CN117556027A (zh) | 基于数字人技术的智能交互系统及方法 | |
CN113609301A (zh) | 一种基于知识图谱的对话方法、介质及系统 | |
CN115499396B (zh) | 具有人格特征的信息生成方法及装置 | |
CN116244473B (zh) | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 | |
CN115525743B (zh) | 基于自学习白化网络的人机交互方法及电子设备 | |
CN112434143B (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 | |
Ma et al. | M3D-GAN: Multi-modal multi-domain translation with universal attention | |
CN117857892B (zh) | 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |