CN117034951A - 基于大语言模型的具有特定语言风格的数字人 - Google Patents
基于大语言模型的具有特定语言风格的数字人 Download PDFInfo
- Publication number
- CN117034951A CN117034951A CN202311060244.4A CN202311060244A CN117034951A CN 117034951 A CN117034951 A CN 117034951A CN 202311060244 A CN202311060244 A CN 202311060244A CN 117034951 A CN117034951 A CN 117034951A
- Authority
- CN
- China
- Prior art keywords
- semantic
- feature vector
- description
- text description
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 178
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000009826 distribution Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 16
- 238000003860 storage Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
公开了一种基于大语言模型的具有特定语言风格的数字人。其首先获取用户输入的问题文本描述,接着,对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量,然后,以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量,最后,基于所述性格标签语义约束下问题文本描述语义编码特征向量,生成回答文本。这样,其通过加入性格类别标签信息来使得大语言模型的回答具有特定语言风格,可以提高数字人的对话质量和用户满意度。
Description
技术领域
本公开涉及大语言模型领域,且更为具体地,涉及一种基于大语言模型的具有特定语言风格的数字人。
背景技术
随着人工智能技术的发展,数字人作为一种新型的人机交互方式,越来越受到人们的关注和喜爱。
数字人是指通过大语言模型生成的具有自然语言理解和生成能力的虚拟角色,可以与用户进行自然、流畅、智能的对话。然而,目前的数字人还存在一些问题,比如缺乏个性化的语言风格,导致对话过程中缺乏情感交流和亲和力。
因此,期待一种基于大语言模型的具有特定语言风格的数字人。
发明内容
有鉴于此,本公开提出了一种基于大语言模型的具有特定语言风格的数字人,其通过加入性格类别标签信息来使得大语言模型的回答具有特定语言风格,可以提高数字人的对话质量和用户满意度。
根据本公开的一方面,提供了一种基于大语言模型的具有特定语言风格的数字人,其包括:
问题文本描述获取模块,用于获取用户输入的问题文本描述;
语义分析模块,用于对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量;
约束模块,用于以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量;以及
回答文本生成模块,用于基于所述性格标签语义约束下问题文本描述语义编码特征向量,生成回答文本。
根据本公开的实施例,其首先获取用户输入的问题文本描述,接着,对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量,然后,以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量,最后,基于所述性格标签语义约束下问题文本描述语义编码特征向量,生成回答文本。这样,其通过加入性格类别标签信息来使得大语言模型的回答具有特定语言风格,可以提高数字人的对话质量和用户满意度。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的框图。
图2示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人中所述语义分析模块的框图。
图3示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人中所述数据预处理单元的框图。
图4示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人中所述约束模块的框图。
图5示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人中所述向量提取单元的框图。
图6示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的方法的流程图。
图7示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的方法的架构示意图。
图8示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的应用场景图。
具体实施方式
下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本公开的部分实施例,而不是全部的实施例。基于本公开实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本公开保护的范围。
如本公开和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
针对上述技术问题,本公开的技术构思为:加入性格类别标签信息来使得大语言模型的回答具有特定语言风格,从而提高数字人的对话质量和用户满意度。
基于此,图1示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的框图示意图。如图1所示,根据本公开实施例的基于大语言模型的具有特定语言风格的数字人100,包括:问题文本描述获取模块110,用于获取用户输入的问题文本描述;语义分析模块120,用于对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量;约束模块130,用于以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量;以及,回答文本生成模块140,用于基于所述性格标签语义约束下问题文本描述语义编码特征向量,生成回答文本。
更具地,在本公开的技术方案中,首先,获取用户输入的问题文本描述。接着,对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量。也就是,捕获所述问题文本描述中所蕴含的能够表征用户提问意图的隐含语义特征。
在本公开的一个具体示例中,对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量的编码过程,包括:先对所述问题文本描述进行分词处理以得到问题文本描述词的序列;随后,将所述问题文本描述词的序列通过词嵌入层以得到问题文本描述词嵌入向量的序列;再将所述问题文本描述词嵌入向量的序列通过基于转换器模块的上下文编码器以得到问题文本描述语义编码特征向量。
相应地,如图2所示,所述语义分析模块120,包括:数据预处理单元121,用于对所述问题文本描述进行数据预处理以得到问题文本描述词嵌入向量的序列;以及,语义编码单元122,用于对所述问题文本描述词嵌入向量的序列进行语义编码以得到所述问题文本描述语义编码特征向量。应可以理解,所述语义分析模块120包括两个单元:数据预处理单元121和语义编码单元122。其中,数据预处理单元121用于对问题文本描述进行数据预处理,以得到问题文本描述的词嵌入向量序列,其主要功能包括以下几个方面:分词:将问题文本描述划分为单词或子词的序列,以便进行后续处理;去除停用词:去除常见的无实际含义的词语,如介词、连词等,以减少噪音对后续处理的影响;词嵌入:将每个单词映射为一个高维向量,该向量可以捕捉到单词的语义信息,数据预处理单元将问题文本描述中的每个单词转换为对应的词嵌入向量,形成一个词嵌入向量序列。语义编码单元122用于对问题文本描述的词嵌入向量序列进行语义编码,以得到问题文本描述的语义编码特征向量。其主要功能包括以下几个方面:序列建模:将词嵌入向量序列输入到一个序列模型中,如循环神经网络(RNN)或者Transformer模型,以捕捉序列中的上下文信息;特征提取:通过序列模型的隐藏状态或其他机制,提取出问题文本描述的语义特征,这些特征向量可以表示问题文本描述的语义信息,如语义关系、重要性等;维度压缩:对得到的语义特征向量进行维度压缩,以减少向量的维度并提高计算效率。换言之,数据预处理单元负责将问题文本描述转换为词嵌入向量序列,而语义编码单元则对词嵌入向量序列进行处理和编码,提取出问题文本描述的语义编码特征向量。这些特征向量可以进一步用于语义分析任务,如问题回答、语义匹配等。
更具体地,如图3所示,所述数据预处理单元121,包括:问题描述分词处理子单元1211,用于对所述问题文本描述进行分词处理以得到问题文本描述词的序列;以及,问题描述词嵌入子单元1212,用于将所述问题文本描述词的序列通过词嵌入层以得到所述问题文本描述词嵌入向量的序列。应可以理解,在所述数据预处理单元121中,包括两个子单元:问题描述分词处理子单元1211和问题描述词嵌入子单元1212。其中,问题描述分词处理子单元1211用于对问题文本描述进行分词处理,以得到问题文本描述词的序列。其主要功能包括以下几个方面:分词:将问题文本描述划分为单词或子词的序列,即将整个文本描述拆分为有意义的词语单位,这可以通过空格、标点符号等进行划分;生成词序列:将划分后的单词或子词按照顺序组成一个词序列,以便后续处理。问题描述词嵌入子单元1212用于将问题文本描述词的序列通过词嵌入层,以得到问题文本描述词嵌入向量的序列,其主要功能包括以下几个方面:词嵌入:将每个单词映射为一个高维向量,该向量可以捕捉到单词的语义信息,问题描述词嵌入子单元将问题文本描述中的每个单词转换为对应的词嵌入向量,形成一个词嵌入向量序列;词嵌入层:词嵌入层是一个神经网络层,用于将单词转换为对应的词嵌入向量。该层可以是预训练的词向量模型(如Word2Vec、GloVe等)或者在训练过程中学习到的嵌入层。即,问题描述分词处理子单元负责将问题文本描述划分为单词或子词的序列,而问题描述词嵌入子单元则将单词序列通过词嵌入层,得到对应的词嵌入向量序列。这些词嵌入向量可以捕捉到单词的语义信息,并用于后续的语义编码和分析任务。
更具体地,所述语义编码单元122,进一步用于:将所述问题文本描述词嵌入向量的序列通过基于转换器模块的上下文编码器以得到所述问题文本描述语义编码特征向量。值得一提的是,在所述语义编码单元122中,转换器模块是一种常用的上下文编码器,用于将问题文本描述的词嵌入向量序列转换为问题文本描述的语义编码特征向量,转换器模块通常指的是Transformer模型,它是一种基于自注意力机制的序列到序列模型。转换器模块的主要作用是对输入的词嵌入向量序列进行序列建模、特征提取和维度压缩,以获得问题文本描述的语义编码特征向量。其具体功能包括以下几个方面:1.序列建模:转换器模块通过自注意力机制(self-attention)对输入的词嵌入向量序列进行序列建模,自注意力机制能够捕捉到序列中不同位置之间的依赖关系,使得模型能够更好地理解上下文信息。2.特征提取:通过自注意力机制,转换器模块可以对输入序列中的每个词嵌入向量进行加权组合,得到一个表示该词嵌入在上下文中重要性的向量,这些向量可以看作是对问题文本描述的语义特征提取。3.维度压缩:转换器模块通常会对得到的语义特征向量进行维度压缩,以减少向量的维度并提高计算效率,这可以通过线性映射或者其他降维技术来实现。即,转换器模块作为语义编码单元的一部分,通过自注意力机制对问题文本描述的词嵌入向量序列进行序列建模和特征提取,最终得到问题文本描述的语义编码特征向量。这些特征向量可以用于进一步的语义分析任务,如问题回答、语义匹配等。
然后,以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量。也就是,在基于用户的隐含语义特征生成回答文本的过程中,加入性格类别标签信息来使得大语言模型的回答具有特定语言风格。
在本公开的一个具体示例中,以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量的编码过程,包括:先提取特定性格标签的语义编码特征向量;随后,融合所述问题文本描述语义编码特征向量和所述特定性格标签的语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量。
更具体地,在本公开的实施例中,提取特定性格标签的语义编码特征向量的实现过程为:先获取所述特定性格的文本描述,以及,属于所述特定性格的说话风格语料库;接着,对所述特定性格的文本描述进行分词处理后通过包含词嵌入层的第一语义编码器以得到特定性格文本描述语义特征向量;同时,对所述属于所述特定性格的说话风格语料库进行分词处理后通过包含词嵌入层的第二语义编码器以得到特定性格语料库语义特征向量;再融合所述特定性格文本描述语义特征向量和所述特定性格语料库语义特征向量以得到所述特定性格标签的语义编码特征向量。
进一步地,将所述性格标签语义约束下问题文本描述语义编码特征向量输入基于大语言模型的数字人以得到回答文本。
相应地,如图4所示,所述约束模块130,包括:特征分布增益单元131,用于对所述问题文本描述语义编码特征向量进行特征分布增益以得到优化问题文本描述语义编码特征向量;向量提取单元132,用于提取特定性格标签的语义编码特征向量;以及,融合单元133,用于融合所述优化问题文本描述语义编码特征向量和所述特定性格标签的语义编码特征向量以得到所述性格标签语义约束下问题文本描述语义编码特征向量。应可以理解,在所述约束模块130中,包括三个单元:特征分布增益单元131、向量提取单元132和融合单元133。这些单元在处理问题文本描述的语义编码特征向量时扮演不同的角色,其中,特征分布增益单元131用于对问题文本描述的语义编码特征向量进行特征分布增益,以得到优化后的问题文本描述的语义编码特征向量。其主要功能包括通过对语义编码特征向量进行调整,使得特征分布更加合适或匹配特定的任务或条件,这可以通过调整特征的权重、缩放或平移特征值等方式来实现。向量提取单元132:用于提取特定性格标签的语义编码特征向量,其主要功能包括根据所需的特定性格标签,从问题文本描述的语义编码特征向量中提取与该标签相关的特征向量,这可以通过一些特定的模型、规则或者训练过程来实现。融合单元133用于将优化后的问题文本描述的语义编码特征向量和特定性格标签的语义编码特征向量进行融合,以得到在性格标签语义约束下的问题文本描述的语义编码特征向量,其主要功能包括以下几个方面:融合特征向量:将优化后的问题文本描述的特征向量和特定性格标签的特征向量进行融合,可以采用加权求和、拼接或其他融合策略来实现;考虑性格约束:融合单元确保融合后的特征向量符合特定性格标签的约束,以使得生成的回答或响应更符合所期望的性格特征。换言之,特征分布增益单元用于优化问题文本描述的语义编码特征向量,向量提取单元用于提取特定性格标签的特征向量,而融合单元则将优化后的特征向量和特定性格标签的特征向量融合,生成在性格标签语义约束下的问题文本描述的语义编码特征向量。
在本公开的技术方案中,所述大语言模型首先基于转换器架构从所述性格标签语义约束下问题文本描述语义编码特征向量通过基于上下文的语义编码得到编码特征向量,再通过解码器由所述编码特征向量解码得到所述回答文本,因此,所述编码特征向量的编码特征准确度就是所述回答文本的文本质量的决定因素。这里,本公开的申请人考虑到转换器架构是以所述编码特征向量的字符串化的(tokenized)文本语义特征进行上下文关联编码,由此,在单个编码特征向量字符串(token)作为前景对象特征的情况下,在进行字符串间语义分布上下文关联时,也会引入与各个局部字符串特征语义下的特征分布干涉相关的背景分布噪声,并且,所述编码特征向量也具有字符串内局部语义分布和字符串间全局语义分布下的语义空间分级特征表达,由此,期望基于所述编码特征向量的分布特性来增强其表达效果。因此,本公开的申请人对所述编码特征向量进行基于概率密度特征模仿范式的分布增益。
相应地,在一个具体示例中,所述特征分布增益单元131,进一步用于:以如下优化公式对所述问题文本描述语义编码特征向量进行特征分布增益以得到所述优化问题文本描述语义编码特征向量;其中,所述优化公式为:其中,/>是所述问题文本描述语义编码特征向量,/>是所述问题文本描述语义编码特征向量的长度,/>是所述问题文本描述语义编码特征向量的第/>个位置的特征值,/>表示所述问题文本描述语义编码特征向量的二范数的平方,且/>是加权超参数,/>表示指数运算,/>是所述优化问题文本描述语义编码特征向量的第/>个位置的特征值。
这里,基于标准柯西分布对于自然高斯分布在概率密度上的特征模仿范式,所述基于概率密度特征模仿范式的分布增益可以将特征尺度作为模仿掩码,在高维特征空间内区分前景对象特征和背景分布噪声,从而基于高维特征的空间分级语义来对高维空间进行特征空间映射的语义认知的分布软匹配,来获得高维特征分布的无约束的分布增益,提升所述编码特征向量基于特征分布特性的表达效果,也就提升了所述大语言模型得到的回答文本的文本质量。
进一步地,如图5所示,所述向量提取单元132,包括:特定性格数据获取子单元1321,用于获取所述特定性格的文本描述,以及,属于所述特定性格的说话风格语料库;性格描述分词处理子单元1322,用于对所述特定性格的文本描述进行分词处理后通过包含词嵌入层的第一语义编码器以得到特定性格文本描述语义特征向量;说话风格语料词嵌入子单元1323,用于对所述属于所述特定性格的说话风格语料库进行分词处理后通过包含词嵌入层的第二语义编码器以得到特定性格语料库语义特征向量;以及,特征向量融合子单元1324,用于融合所述特定性格文本描述语义特征向量和所述特定性格语料库语义特征向量以得到所述特定性格标签的语义编码特征向量。
进一步地,所述回答文本生成模块140,进一步用于:将所述性格标签语义约束下问题文本描述语义编码特征向量输入基于大语言模型的数字人以得到所述回答文本。值得一提的是,大语言模型是指具有大规模参数和训练数据的语言模型,它可以生成和理解自然语言文本。这些模型通过深度学习技术,如神经网络,能够从大量的文本数据中学习语言的概率分布和语义关系,从而具备生成连贯、合乎语法和语义的文本能力。大语言模型在自然语言处理领域具有广泛的应用,包括机器翻译、文本摘要、对话系统、语言生成等任务。它们可以根据输入的上下文和语义信息,生成相应的文本回答或响应。在回答文本生成模块140中,将性格标签语义约束下的问题文本描述的语义编码特征向量输入基于大语言模型的数字人,可以利用大语言模型的生成能力生成符合性格标签约束的回答文本。大语言模型能够根据输入的语义特征和上下文信息,生成连贯、合理的文本回答,使得回答具有一定的语义一致性和性格特征。通过使用大语言模型,回答文本生成模块可以根据问题文本描述的语义编码特征向量,结合性格标签的约束,生成与所期望的性格特征相符的回答文本。这样可以使得生成的回答更加符合性格标签的要求,提供更加个性化和一致性的回答体验。
综上,基于本公开实施例的基于大语言模型的具有特定语言风格的数字人100被阐明,其通过加入性格类别标签信息来使得大语言模型的回答具有特定语言风格,可以提高数字人的对话质量和用户满意度。
如上所述,根据本公开实施例的所述基于大语言模型的具有特定语言风格的数字人100可以实现在各种终端设备中,例如具有基于大语言模型的具有特定语言风格的数字人的算法的服务器等。在一个示例中,基于大语言模型的具有特定语言风格的数字人100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于大语言模型的具有特定语言风格的数字人100可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于大语言模型的具有特定语言风格的数字人100同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于大语言模型的具有特定语言风格的数字人100与该终端设备也可以是分立的设备,并且该基于大语言模型的具有特定语言风格的数字人100可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
图6示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的方法的流程图。图7示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的方法的系统架构的示意图。如图6和图7所示,根据本公开实施例的基于大语言模型的具有特定语言风格的数字人的方法,其包括:S110,获取用户输入的问题文本描述;S120,对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量;S130,以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量;以及,S140,基于所述性格标签语义约束下问题文本描述语义编码特征向量,生成回答文本。
在一种可能的实现方式中,对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量,包括:对所述问题文本描述进行数据预处理以得到问题文本描述词嵌入向量的序列;以及,对所述问题文本描述词嵌入向量的序列进行语义编码以得到所述问题文本描述语义编码特征向量。
这里,本领域技术人员可以理解,上述基于大语言模型的具有特定语言风格的数字人的方法中的各个步骤的具体操作已经在上面参考图1到图5的基于大语言模型的具有特定语言风格的数字人的描述中得到了详细介绍,并因此,将省略其重复描述。
图8示出根据本公开的实施例的基于大语言模型的具有特定语言风格的数字人的应用场景图。如图8所示,在该应用场景中,首先,获取用户输入的问题文本描述(例如,图8中所示意的D),然后,将所述问题文本描述输入至部署有基于大语言模型的具有特定语言风格的数字人的算法的服务器中(例如,图8中所示意的S),其中,所述服务器能够使用所述基于大语言模型的具有特定语言风格的数字人的算法对所述问题文本描述进行处理以生成回答文本。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器,上述计算机程序指令可由装置的处理组件执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (8)
1.一种基于大语言模型的具有特定语言风格的数字人,其特征在于,包括:
问题文本描述获取模块,用于获取用户输入的问题文本描述;
语义分析模块,用于对所述问题文本描述进行语义分析以得到问题文本描述语义编码特征向量;
约束模块,用于以特定性格标签来约束所述问题文本描述语义编码特征向量以得到性格标签语义约束下问题文本描述语义编码特征向量;以及
回答文本生成模块,用于基于所述性格标签语义约束下问题文本描述语义编码特征向量,生成回答文本。
2.根据权利要求1所述的基于大语言模型的具有特定语言风格的数字人,其特征在于,所述语义分析模块,包括:
数据预处理单元,用于对所述问题文本描述进行数据预处理以得到问题文本描述词嵌入向量的序列;以及
语义编码单元,用于对所述问题文本描述词嵌入向量的序列进行语义编码以得到所述问题文本描述语义编码特征向量。
3.根据权利要求2所述的基于大语言模型的具有特定语言风格的数字人,其特征在于,所述数据预处理单元,包括:
问题描述分词处理子单元,用于对所述问题文本描述进行分词处理以得到问题文本描述词的序列;以及
问题描述词嵌入子单元,用于将所述问题文本描述词的序列通过词嵌入层以得到所述问题文本描述词嵌入向量的序列。
4.根据权利要求3所述的基于大语言模型的具有特定语言风格的数字人,其特征在于,所述语义编码单元,进一步用于:
将所述问题文本描述词嵌入向量的序列通过基于转换器模块的上下文编码器以得到所述问题文本描述语义编码特征向量。
5.根据权利要求4所述的基于大语言模型的具有特定语言风格的数字人,其特征在于,所述约束模块,包括:
特征分布增益单元,用于对所述问题文本描述语义编码特征向量进行特征分布增益以得到优化问题文本描述语义编码特征向量;
向量提取单元,用于提取特定性格标签的语义编码特征向量;以及
融合单元,用于融合所述优化问题文本描述语义编码特征向量和所述特定性格标签的语义编码特征向量以得到所述性格标签语义约束下问题文本描述语义编码特征向量。
6.根据权利要求5所述的基于大语言模型的具有特定语言风格的数字人,其特征在于,所述特征分布增益单元,进一步用于:
以如下优化公式对所述问题文本描述语义编码特征向量进行特征分布增益以得到所述优化问题文本描述语义编码特征向量;
其中,所述优化公式为:其中,/>是所述问题文本描述语义编码特征向量,/>是所述问题文本描述语义编码特征向量的长度,/>是所述问题文本描述语义编码特征向量的第/>个位置的特征值,/>表示所述问题文本描述语义编码特征向量的二范数的平方,且/>是加权超参数,/>表示指数运算,/>是所述优化问题文本描述语义编码特征向量的第/>个位置的特征值。
7.根据权利要求6所述的基于大语言模型的具有特定语言风格的数字人,其特征在于,所述向量提取单元,包括:
特定性格数据获取子单元,用于获取所述特定性格的文本描述,以及,属于所述特定性格的说话风格语料库;
性格描述分词处理子单元,用于对所述特定性格的文本描述进行分词处理后通过包含词嵌入层的第一语义编码器以得到特定性格文本描述语义特征向量;
说话风格语料词嵌入子单元,用于对所述属于所述特定性格的说话风格语料库进行分词处理后通过包含词嵌入层的第二语义编码器以得到特定性格语料库语义特征向量;以及
特征向量融合子单元,用于融合所述特定性格文本描述语义特征向量和所述特定性格语料库语义特征向量以得到所述特定性格标签的语义编码特征向量。
8.根据权利要求7所述的基于大语言模型的具有特定语言风格的数字人,其特征在于,所述回答文本生成模块,进一步用于:
将所述性格标签语义约束下问题文本描述语义编码特征向量输入基于大语言模型的数字人以得到所述回答文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311060244.4A CN117034951A (zh) | 2023-08-22 | 2023-08-22 | 基于大语言模型的具有特定语言风格的数字人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311060244.4A CN117034951A (zh) | 2023-08-22 | 2023-08-22 | 基于大语言模型的具有特定语言风格的数字人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117034951A true CN117034951A (zh) | 2023-11-10 |
Family
ID=88633450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311060244.4A Pending CN117034951A (zh) | 2023-08-22 | 2023-08-22 | 基于大语言模型的具有特定语言风格的数字人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117034951A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117590944A (zh) * | 2023-11-28 | 2024-02-23 | 上海源庐加佳信息科技有限公司 | 实体人对象和数字虚拟人对象的绑定系统 |
-
2023
- 2023-08-22 CN CN202311060244.4A patent/CN117034951A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117590944A (zh) * | 2023-11-28 | 2024-02-23 | 上海源庐加佳信息科技有限公司 | 实体人对象和数字虚拟人对象的绑定系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN110326002B (zh) | 使用在线注意的序列处理 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111930914B (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
KR102315830B1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN111194401B (zh) | 意图识别的抽象和可移植性 | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN116246213B (zh) | 数据处理方法、装置、设备以及介质 | |
CN111382257A (zh) | 一种生成对话下文的方法和系统 | |
CN109145946B (zh) | 一种智能图像识别和描述方法 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN117034951A (zh) | 基于大语言模型的具有特定语言风格的数字人 | |
CN113240115A (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
CN112364148A (zh) | 一种基于深度学习方法的生成型聊天机器人 | |
CN116306603A (zh) | 标题生成模型的训练方法和标题生成方法、装置和介质 | |
CN112749553B (zh) | 视频文件的文本信息处理方法、装置和服务器 | |
CN110866404B (zh) | 基于lstm神经网络的词向量生成方法及装置 | |
CN113591493A (zh) | 翻译模型的训练方法及翻译模型的装置 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN117174084B (zh) | 一种训练数据构建方法及装置、电子设备和存储介质 | |
CN117727288B (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN115081459B (zh) | 口语文本生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |