CN117520592A - 表情包生成方法和装置 - Google Patents

表情包生成方法和装置 Download PDF

Info

Publication number
CN117520592A
CN117520592A CN202311551746.7A CN202311551746A CN117520592A CN 117520592 A CN117520592 A CN 117520592A CN 202311551746 A CN202311551746 A CN 202311551746A CN 117520592 A CN117520592 A CN 117520592A
Authority
CN
China
Prior art keywords
expression
expression package
equal
classifier
less
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311551746.7A
Other languages
English (en)
Inventor
彭瑞达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiarui Technology Co ltd
Original Assignee
Beijing Jiarui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiarui Technology Co ltd filed Critical Beijing Jiarui Technology Co ltd
Priority to CN202311551746.7A priority Critical patent/CN117520592A/zh
Publication of CN117520592A publication Critical patent/CN117520592A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种表情包生成方法和装置,该方法包括:获取用户设备的输入信息,其中该输入信息包括文字信息或语音信息;基于表情包生成模型根据该输入信息生成至少一个表情包,其中从获取该输入信息到生成该至少一个表情包所需时长不超过30秒;以及在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包;其中,该表情包生成模型包括神经网络和用于从该输入信息中提取情感特征的第一分类器,该神经网络用于基于该输入信息和该情感特征生成该至少一个表情包。因此,能够有效提高表情包的生成效率和灵活性,从而提高用户体验。

Description

表情包生成方法和装置
技术领域
本申请涉及信息处理技术领域,更具体地,涉及一种表情包生成方法和装置。
背景技术
随着人工智能(AI)技术的迅速发展,作为人机交互的一种方式,AI技术广泛应用于通信、娱乐等领域。
在现有的表情包生成方式中,一方面,因为涉及图像处理技术,耗时长,导致表情包制作效率较低。另一方面,表情包通常是由专业人士制作后再提供给用户使用,用户设备中的表情包通常是固定的,用户可能无法选到自己想要的表情包,降低了用户体验。
发明内容
本申请实施例提供了一种基于表情包生成方法和装置,能够有效地提高表情包的生成效率,并且根据用户需求灵活生成表情包,从而提高用户体验。
第一方面,提供了一种表情包生成方法,该方法包括:获取用户设备的输入信息,其中该输入信息包括文字信息或语音信息;基于表情包生成模型根据该输入信息生成至少一个表情包,其中从获取该输入信息到生成该至少一个表情包所需时长小于时间阈值t,t≤30秒;以及在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包;其中,该表情包生成模型包括第一分类器和神经网络,该第一分类器用于从该输入信息(如关键词或语音信息)中提取情感特征,和该神经网络用于基于该输入信息和该情感特征生成该至少一个表情包。
结合第一方面,在第一方面的一种可能的实现方式中,该表情包生成模型还可以包括第二分类器,该第二分类器可以用于从该语音信息中提取用户信息,如基于语音信息的音色、音调、音强和音长等语音特征提取用户信息。
可选地,该用户信息可以包括年龄段和/或性格特征,相应地,该至少一个表情包可以包括与该用户信息匹配的表情包。
例如,该用户年龄段可以包括多个阶段,如两个阶段,分别是青少年和中老年;或者如四个阶段,分别是童年、青年、中年和老年;或者如三个阶段,分别是青少年、中年和老年,等等。相应地,该青少年匹配的表情包可以包括卡通类型表情包,或者该中老年匹配的表情包可以包括自然风光表情包。或者,与该用户信息匹配的表情包可以包括真人类型表情包,真人类型表情包中的真人年龄阶段与用户信息的年龄段匹配。
又例如,该性格特征可以包括外向型(如幽默搞笑类型或热情开朗类型等),且与该外向型匹配的表情包包括动态表情包,或者性格特征包括内向型(如谨慎内敛类型或沉稳类型等),且与该内向型匹配的表情包包括静态表情包。
结合第一方面和上述任一种可能的实现方式中,针对同一情感特征生成的该至少一个表情包可以为多个表情包,各个表情包具有不同的表情包类型,以及该表情包类型包括卡通类型、真人类型、宠物类型、自然风光类型和/或影视截图类型。
结合第一方面和上述任一种可能的实现方式中,该神经网络可以为GPT神经网络,包括依次连接的嵌入层、N个解码模块和输出层。其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数;以及该第一分类器输出的该情感特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,其中,i为正整数且i≤N。
可选地,该第二分类器输出的用户信息作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,j为正整数且j≤N;或者该第二分类器包括第一子分类器和第二子分类器,该第一子分类器输出的年龄段特征作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,该第二子分类器输出的性格特征作为该GPT神经网络的N个解码模块中第k个解码模块的输入的一部分,其中,j为正整数且j≤N;k为正整数且k≤N。
可选地,该N≥2,i≤N/2,i≤j和i≤k;或者N≥2,i≤N/2,i≤j。
可选地,该N≥2,i=1,j≤N/2和k≤N/2;或者该N≥2,i=1和j≤N/2。
结合第一方面和上述任一种可能的实现方式中,该表情包生成方法可以应用于辅助聊天,如在用户设备的聊天界面中显示该至少一个表情包。
结合第一方面和上述任一种可能的实现方式中,在一种可能的实现方式中,情感特征可以包括“快乐”、“愤怒”、“悲哀”和“恐惧”、“厌恶”、“幸福”、“悲伤”、“疑问”、“惊讶”、“生气”、“痛苦”、“羡慕”、“赞美”、“认同”、“祝福”和/或“感恩”等。相应地,与情感特征匹配的表情包可以用于表达用户的情感特征(或心情特征),可选地,表情包可以包括输入信息。
第二方面,提供了一种表情包生成装置,该装置包括处理单元和存储单元;该处理单元,用于获取用户设备的输入信息,其中该输入信息包括文字信息或语音信息;基于该存储单元存储的表情包生成模型根据该输入信息生成至少一个表情包,其中从获取该输入信息到生成该至少一个表情包所需时长小于时间阈值t,t≤30秒;以及在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包;其中,该存储单元存储的该表情包生成模型包括第一分类器和神经网络,该第一分类器用于从该输入信息中提取情感特征,和该神经网络用于基于该输入信息和该情感特征生成该至少一个表情包。
可选地,该存储单元存储的该表情包生成模型还可以包括第二分类器,该第二分类器可以用于从该语音信息中提取用户信息,如基于语音信息的音色、音调、音强和音长等语音特征提取用户信息。
可选地,该用户信息可以包括年龄段和/或性格特征,相应地,该至少一个表情包可以包括与该用户信息匹配的表情包。
结合第二方面和上述任一种可能的实现方式中,针对同一情感特征生成的该至少一个表情包可以为多个表情包,各个表情包具有不同的表情包类型,以及该表情包类型包括卡通类型、真人类型、宠物类型、自然风光类型和/或影视截图类型。
结合第二方面和上述任一种可能的实现方式中,该神经网络可以为GPT神经网络,包括依次连接的嵌入层、N个解码模块和输出层。其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数;以及该第一分类器输出的该情感特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,其中,i为正整数且i≤N。
可选地,该第二分类器输出的用户信息作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,j为正整数且j≤N;或者该第二分类器包括第一子分类器和第二子分类器,该第一子分类器输出的年龄段特征作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,该第二子分类器输出的性格特征作为该GPT神经网络的N个解码模块中第k个解码模块的输入的一部分,其中,j为正整数且j≤N;k为正整数且k≤N。
可选地,该N≥2,i≤N/2,i≤j和i≤k;或者N≥2,i≤N/2,i≤j。
可选地,该N≥2,i=1,j≤N/2和k≤N/2;或者该N≥2,i=1和j≤N/2。
结合第二方面和上述任一种可能的实现方式中,该表情包生成方法可以应用于辅助聊天,如在用户设备的聊天界面中显示该至少一个表情包。
第三方面,提供了一种表情包生成装置,该装置包括处理器和存储器,该处理器与该存储器耦合,该处理器用于读取并执行该存储器中的指令,以实现上述第一方面中的任一种可能实现方式中的方法。
第四方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,当该计算机程序代码被执行时,实现上述第一方面中的任一种可能实现方式中的方法。
在本申请实施例中,基于神经网络结合分类器训练得到的表情包生成模型可以根据用户设备的输入信息生成至少一个表情包,所需时长不超过30秒,通过在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包,能够有效地提高表情包的生成效率和灵活性,从而提高用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本申请实施例提供的一种表情包生成方法的过程的示意性流程图。
图2是本申请实施例提供的一种基于GPT神经网络的表情包生成模型的网络结构示意图。
图3是本申请实施例提供的另一种基于GPT神经网络的表情包生成模型的网络结构示意图。
图4是本申请实施例提供的另一种基于GPT神经网络的表情包生成模型的网络结构示意图。
图5是本申请实施例提供的另一种基于GPT神经网络的表情包生成模型的网络结构示意图。
图6是本申请实施例提供的另一种基于GPT神经网络的表情包生成模型的网络结构示意图。
图7是本申请实施例提供的一种表情包生成装置的示意性结构框图。
图8是本申请实施例提供的另一种表情包生成装置的示意性结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本申请保护的范围。
应理解,本申请实施例中的“第一”以及“第二”仅为了区分,或者“第一”为了表示至少一个中的某一个或者多个中的一个等,不应对本申请构成任何限定。还应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还需要说明的是,“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请可以应用于如教育、通信、娱乐等各个领域,包括但不限于电影、电视、新闻、广告、动画、宣传、营销、游戏、影视等制作。本申请的表情包生成技术还可以广泛应用在智能问答和/或聊天等场景中,表情包还可以采用文字、图片、视频等各种形式。
下面将结合附图详细说明本申请提供的技术方案。
图1是本申请实施例提供的一种表情包生成方法的过程的示意性流程图。
101,获取用户设备的输入信息,其中该输入信息包括文字信息或语音信息。
102,基于表情包生成模型根据该输入信息生成至少一个表情包,其中从获取该输入信息到生成该至少一个表情包所需时长小于时间阈值t,t≤30秒。
103,在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包。
其中,该表情包生成模型包括第一分类器和神经网络,该第一分类器用于从输入信息中提取情感特征,和该神经网络用于基于输入信息和该情感特征生成至少一个表情包。
采用上述方案,基于神经网络结合分类器训练得到的表情包生成模型可以根据用户设备的输入信息生成至少一个表情包,所需时长不超过30秒,通过在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包,能够有效地提高表情包的生成效率和灵活性,从而提高用户体验。
可选地,神经网络可以是前馈神经网络、卷积神经网络、变换器(Transformer)、生成对抗网络(Generative Adversarial Network,GAN)、或者生成式预训练变换器(Generative Pre-Trained Transformer,GPT)神经网络,本申请对于神经网络的类型不做限制。
可选地,该表情包类型包括但不限于卡通类型、真人类型、宠物类型、自然风光类型、文字增强和/或影视截图类型等,本申请对表情包类型不做限制。
在一些实施例中,情感特征可以包括“快乐”、“愤怒”、“悲哀”和“恐惧”、“厌恶”、“幸福”、“悲伤”、“疑问”、“惊讶”、“生气”、“痛苦”、“羡慕”、“赞美”、“认同”、“祝福”和/或“感恩”等。相应地,与情感特征匹配的表情包可以用于表达用户的情感特征(或心情特征),可选地,表情包可以包括输入信息。
在一些实施例中,第一分类器可以通过如输入信息的关键词(如表达祝福、感谢、疑问等情感词语)或语音特征(如语音内容、语调和/或语气)来提取情感特征。
在一些实施例中,该表情包生成模型还可以包括第二分类器,该第二分类器可以用于从该语音信息中提取用户信息,如基于语音信息的音色、音调、音强和音长等语音特征来提取用户信息。
可选地,该用户信息可以包括年龄段和/或性格特征,相应地,该至少一个表情包可以包括与该用户信息匹配的表情包。
例如,该用户年龄段可以包括多个阶段,如两个阶段,分别是青少年和中老年;或者如四个阶段,分别是童年、青年、中年和老年;或者如三个阶段,分别是青少年、中年和老年,等等。相应地,针对某一用户年龄段,生成的至少一个表情包包括该用户年龄段专用的或最多人喜爱或倾向用的表情包(即在表情包生成模型的训练数据中可以包括与用户年龄匹配的表情包)。例如,该青少年匹配的表情包可以包括卡通类型表情包,或者该中老年匹配的表情包可以包括自然风光表情包。
又例如,与该用户信息匹配的表情包可以包括真人类型表情包,真人类型表情包中的真人年龄阶段与用户信息的年龄段匹配。
再例如,该性格特征可以包括外向型(如幽默搞笑类型或热情开朗类型等),且与该外向型匹配的表情包包括动态表情包,或者性格特征包括内向型(如谨慎内敛类型或沉稳类型等),且与该内向型匹配的表情包包括静态表情包。应理解,本申请中的性格特征可以分成外向和内向两类,当然也可以细分为更多类。
在一些实施例中,针对同一情感特征生成的该至少一个表情包可以为多个表情包,各个表情包具有不同的表情包类型,以及该表情包类型包括卡通类型、真人类型、宠物类型、自然风光类型和/或影视截图类型。例如,针对情感特征“哈哈大笑”生成卡通(动漫)类型表情包和热点人物表情包,针对情感特征“疑惑”生成动物类型表情包、真人类型和/或影视截图类型等表情包,或者针对情感特征“赞美”生成动态类型表情包和静态类型表情包。应理解,上述例子仅仅是示例性的,本申请实施例对于生成的表情包数目、表情包类型不做限定。
通过上述实施例,生成的表情包中包括与用户信息匹配的表情包或者针对同一情感特征生成多种类型的表情包以供用户选择,能够进一步满足用户的需求,提升用户体验。
在一些实施例中,该神经网络采用GPT神经网络,包括依次连接的嵌入层、N个解码模块和输出层。其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数。
可选地,该每个解码模块采用残差结构,例如,该残差结构包括将该每个解码模块的掩码注意力层的输入和输出作为该第一归一化层的输入、以及将该前向反馈层的输入和输出作为该第二归一化层的输入。可选地,每个特征提取模块可以采用残差结构,例如,该残差结构包括将该每个特征提取模块的自注意力层的输入和输出作为其归一化层的输入。可选地,该输出层可以包括第三归一化层。
本申请所述的归一化层例如均可以采用归一化指数函数实现。可选地,如输出层可以采用tansig函数和线性(linear)函数。
可选地,该第一分类器输出的该情感特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,其中,i为正整数且i≤N。换句话说,该第一分类器输出的该情感特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分。
可选地,该第二分类器输出的用户信息作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,j为正整数且j≤N。换句话说,该第二分类器输出的该用户信息作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分。
可选地,该第二分类器可以包括第一子分类器和第二子分类器,该第一子分类器输出的年龄段特征作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,该第二子分类器输出的性格特征作为该GPT神经网络的N个解码模块中第k个解码模块的输入的一部分,其中,j为正整数且j≤N;k为正整数且k≤N。换句话说,该第一子分类器输出的该年龄段特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分;以及该第二子分类器输出的该性格特征作为该GPT神经网络的N个解码模块中任一解码模块的输入的一部分。
应理解,本申请对于第一分类器和第二分类器在神经网络结构中的位置不做限制,第一分类器和第二分类器在神经网络结构中的位置可以相同或不同,且第一子分类器和第二子分类器在神经网络结构中的位置也可以相同或不同。
可选地,N≥2,i≤N/2,i≤j和i≤k;或者N≥2,i≤N/2,i≤j。即,第一分类器在GPT神经网络的N个解码模块中的前半部分接入,且第一分类器比第二分类器(或者,第一子分类器和第二子分类器)先接入GPT神经网络,或者第一分类器和第二分类器(或者,第一子分类器和第二子分类器)接入GPT神经网络的位置相同。
可选地,该N≥2,i=1,j≤N/2和k≤N/2;或者N≥2,i=1和j≤N/2。即,第一分类器的输出作为GPT神经网络的N个解码模块中的第一个解码模块的输入的一部分,以及第二分类器(或者,第一子分类器和第二子分类器)在GPT神经网络的N个解码模块中的前半部分接入。
这样,将第一分类器和/或第二分类器在在GPT神经网络的N个解码模块中的前半部分接入能够获得与分类器输出的特征更匹配且更清晰的表情包。
在一些实施例中,第一分类器和/或第二分类器可以包括至少一个包括依次连接的自注意力层和归一化层的子模块来实现特征提取。或者,第一分类器和/或第二分类器也可以采用softmax分类器、决策树(Decision Tree)、K近邻(K-Nearest Neighbors,KNN)、随机森林(Random Forest)、支持向量机、逻辑斯蒂回归和/或朴素贝叶斯等分类来实现情感特征的分类,可以参考相关技术,此处不再赘述。
为了更清楚和直观的解释本申请的技术方案,下面结合图2-图6的实施例进行说明,应注意,本申请不限于此。
在一些实施例中,基于图2示出的表情包生成模型的网络结构,可以将输入信息进行位置编码得到位置向量且将该输入信息输入该嵌入层得到嵌入向量、将该输入信息输入该第一分类器得到情感特征、将该位置向量、该嵌入向量和该情感特征叠加后(进一步地如分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出到该输出层,在该输出层输出至少一个表情包。可选地,图2示出的表情包生成模型的网络结构还可以包括第二分类器(如虚线框所示),将该输入信息输入该第二分类器得到用户信息、相应地,将位置向量、嵌入向量、情感特征和该用户信息叠加后(进一步地如分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块后的输出到该输出层,在该输出层输出至少一个表情包。
当然,第一分类器和第二分类器在神经网络结构中的位置可以不同,示意性地如图3所示,可以将输入信息进行位置编码得到位置向量且将该输入信息输入该嵌入层得到嵌入向量、将该输入信息输入该第一分类器得到情感特征、将该位置向量、该嵌入向量和该情感特征叠加后(进一步地分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M1个解码模块后与该第二分类器输出的用户信息叠加(进一步地分别乘以Q、K和V,Q表示查询向量,K表示键向量,V表示值向量)输入到第M1+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M1)个解码模块后输入到输出层,在该输出层输出至少一个表情包,其中M1为小于N的正整数。可选地,M1≤N/2。
在一些实施例中,基于图4示出的表情包生成模型的网络结构,可以将该输入信息进行位置编码得到位置向量且将该输入信息输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M2个解码模块后与该第一分类器输出的情感特征(或者与该第一分类器输出的情感特征和该第二分类器输出的用户信息)叠加,进一步地分别乘以Q、K和V(Q表示查询向量,K表示键向量,V表示值向量)输入到第M2+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M2)个解码模块后输入到输出层,在该输出层输出该第二语音数据,其中M2为小于N的正整数。
在一些实施例中,基于图5示出的表情包生成模型的网络结构,可以将该输入信息进行位置编码得到位置向量且将该输入信息输入该嵌入层得到嵌入向量、将该位置向量和该嵌入向叠加后输入该N个解码模块中第一个解码模块的掩码注意力层,经过该N个解码模块的前M4个解码模块后与该第一分类器输出的情感特征叠加输入到第M4+1个解码模块的掩码注意力层,经过该N个解码模块中剩余的解码模块中的前M5个解码模块后与该第二分类器输出的用户信息叠加后输入到第(M4+M5)+1个解码模块的掩码注意力层,经过该N个解码模块中的剩余的(N-M4-M5)个解码模块后输入到输出层,在该输出层输出至少一个表情包,其中M4和M5为小于N的正整数且M4+M5<N。可选地,M4+M5≤N/2。
当用户信息包多个特征时,相应地,可以分别采用多个分类器来提取特征,例如,年龄特征提取采用第一子分类器,和性格特征提取采用第二子分类器,示意性地如图6所示,为了简洁,此处不再赘述。
应理解,第一分类器和第二分类器可以互换网络结构中的位置。并且不同的分类器(和/或子分类器)在网络结构中的位置可以相同或不同,本申请对此不做限定。
在本申请的一些实施例中,表情包生成模型可以基于GPT神经网络对输入信息(如文字信息和/或语音数据集)及其对应的表情包数据集进行训练得到(如可以逐一或批量训练)。应理解,本申请对GPT神经网络结构的解码模块的数目不做限制,上述图2-图6的神经网络结构仅仅是示例性的,而非要限制本申请。
在本申请实施例中,采用上述基于GPT神经网络结构的表情包生成模型可以大大减少表情包生成的时长(如从获取用户的输入信息到生成表情包的时长可以是数十秒甚至是十几秒),能够提高表情包生成的效率和灵活性,且生成的表情包能够尽可能地满足用户需求,从而提高用户体验。
图7是本申请实施例提供的一种表情包生成装置装置的示意性结构框图。装置700包括处理单元701和存储单元702。
该处理单元701用于获取用户设备的输入信息,其中该输入信息包括文字信息或语音信息;基于该存储单元702存储的表情包生成模型根据该输入信息生成至少一个表情包,其中从获取该输入信息到生成该至少一个表情包所需时长小于时间阈值t,t≤30秒;以及在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包。其中,该存储单元702存储的该表情包生成模型包括第一分类器和神经网络,该第一分类器用于从该输入信息中提取情感特征,和该神经网络用于基于该输入信息和该情感特征生成该至少一个表情包。
采用上述方案,表情包生成装置可以根据用户设备的输入信息生成至少一个表情包,所需时长不超过30秒,通过在用户设备的界面中显示该至少一个表情包,以供该用户设备从该至少一个表情包中确定目标表情包,能够有效地提高表情包的生成效率和灵活性,从而提高用户体验。
可选地,该存储单元702存储的该表情包生成模型还可以包括第二分类器,该第二分类器可以用于从该语音信息中提取用户信息,如基于语音信息的音色、音调、音强和音长等语音特征提取用户信息。
可选地,该用户信息可以包括年龄段和/或性格特征,相应地,该至少一个表情包可以包括与该用户信息匹配的表情包。
可选地,针对同一情感特征生成的该至少一个表情包可以为多个表情包,各个表情包具有不同的表情包类型,以及该表情包类型包括卡通类型、真人类型、宠物类型、自然风光类型和/或影视截图类型。
通过上述实施例,生成的表情包中包括与用户信息匹配的表情包或者针对同一情感特征生成多种类型的表情包以供用户选择,能够进一步满足用户的需求,提升用户体验。
在一些实施例中,该神经网络可以为GPT神经网络,包括依次连接的嵌入层、N个解码模块和输出层。其中该N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,该N为大于1的整数;以及该第一分类器输出的该情感特征作为该GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,其中,i为正整数且i≤N。
可选地,该第二分类器输出的用户信息作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,j为正整数且j≤N;或者该第二分类器包括第一子分类器和第二子分类器,该第一子分类器输出的年龄段特征作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,该第二子分类器输出的性格特征作为该GPT神经网络的N个解码模块中第k个解码模块的输入的一部分,其中,j为正整数且j≤N;k为正整数且k≤N。
可选地,该N≥2,i≤N/2,i≤j和i≤k;或者N≥2,i≤N/2,i≤j。可选地,该N≥2,i=1,j≤N/2和k≤N/2;或者该N≥2,i=1和j≤N/2。这样,将第一分类器和/或第二分类器在在GPT神经网络的N个解码模块中的前半部分接入能够获得与分类器输出的特征更匹配且更清晰的表情包。
该表情包生成装置700可以应用于辅助聊天、智能问答等场景。
图7所示的装置700可用于执行图1-图6所涉及的方法和步骤,各个单元执行上述相应步骤的具体过程在上述方法实施例中已经详细说明,为了简洁,在此不再赘述。
图8是本申请实施例提供的另一种表情包生成装置的示意性结构框图。如图8所示,装置800包括一个或多个处理器801和一个或多个存储器802耦合,处理器801用于读取并执行该存储器802存储的指令(或计算机程序),使得该装置800可以执行本申请的方法实施例中由装置800执行的相应流程和/或操作。
图8所示的装置800可用于执行图1-图6所涉及的方法和步骤,为了简洁,此处不再赘述。
应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP(Digital SignalProcessing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是ROM(read-onlymemory,只读存储器)、PROM(programmable ROM,可编程只读存储器)、EPROM(erasablePROM,可擦除可编程只读存储器)、EEPROM(electrically EPROM,电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM(random access memory,随机存取存储器),其用作外部高速缓存。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请还提供一种计算机可读介质,该计算机可读介质存储有程序代码,当该程序代码被运行时,能够实现上述各个实施例中基于机器学习的光学器件参数的确定装置执行的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种表情包生成方法,其特征在于,包括:
获取用户设备的输入信息,其中所述输入信息包括文字信息或语音信息;
基于表情包生成模型根据所述输入信息生成至少一个表情包,其中从获取所述输入信息到生成所述至少一个表情包所需时长小于时间阈值t,t≤30秒;以及
在用户设备的界面中显示所述至少一个表情包,以供所述用户设备从所述至少一个表情包中确定目标表情包;
其中,所述表情包生成模型包括第一分类器和神经网络,所述第一分类器用于从所述输入信息中提取情感特征,和所述神经网络用于基于所述输入信息和所述情感特征生成所述至少一个表情包。
2.根据权利要求1所述的方法,其中,所述表情包生成模型还包括第二分类器,所述第二分类器用于从所述语音信息中提取用户信息,其中所述用户信息包括年龄段和/或性格特征,所述至少一个表情包包括与所述用户信息匹配的表情包。
3.根据权利要求2所述的方法,其中,
所述用户年龄段包括青少年,且与所述青少年匹配的表情包包括卡通类型表情包,或者所述用户年龄段包括中老年,且与所述中老年匹配的表情包包括自然风光表情包;和/或
与所述用户信息匹配的表情包包括真人类型表情包,所述真人类型表情包中的真人年龄阶段与用户信息的年龄段匹配;和/或
所述性格特征包括外向型,且与所述外向型匹配的表情包包括动态表情包,或者性格特征包括内向型,且与所述内向型匹配的表情包包括静态表情包。
4.根据权利要求1所述的方法,其中,针对同一情感特征生成的所述至少一个表情包为多个表情包,各个表情包具有不同的表情包类型,以及所述表情包类型包括卡通类型、真人类型、宠物类型、自然风光类型和/或影视截图类型。
5.根据权利要求1-4任一项所述的方法,其中,
所述神经网络为GPT神经网络,包括依次连接的嵌入层、N个解码模块和输出层,其中所述N个解码模块中每个解码模块包括依次连接的掩码注意力层、第一归一化层、前向反馈层和第二归一化层,所述N为大于1的整数;以及所述第一分类器输出的所述情感特征作为所述GPT神经网络的N个解码模块中第i个解码模块的输入的一部分,其中,i为正整数且i≤N。
6.根据权利要求5所述的方法,其中,
所述第二分类器输出的用户信息作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,其中,j为正整数且j≤N;或者
所述第二分类器包括第一子分类器和第二子分类器,所述第一子分类器输出的年龄段特征作为该GPT神经网络的N个解码模块中第j个解码模块的输入的一部分,所述第二子分类器输出的性格特征作为该GPT神经网络的N个解码模块中第k个解码模块的输入的一部分,其中,j为正整数且j≤N;k为正整数且k≤N。
7.根据权利要求6所述的方法,其中,
所述N≥2,i≤N/2,i≤j和i≤k;或者
所述N≥2,i≤N/2和i≤j;或者
所述N≥2,i=1,j≤N/2和k≤N/2;或者
所述N≥2,i=1和j≤N/2。
8.根据权利要求1-7任一项所述的方法,其中,所述表情包生成方法应用于辅助聊天。
9.一种表情包生成装置,其特征在于,包括:处理单元和存储单元,
所述处理单元,用于获取用户设备的输入信息,其中所述输入信息包括文字信息或语音信息;基于所述存储单元存储的表情包生成模型根据所述输入信息生成至少一个表情包,其中从获取所述输入信息到生成所述至少一个表情包所需时长小于时间阈值t,t≤30秒;以及在用户设备的界面中显示所述至少一个表情包,以供所述用户设备从所述至少一个表情包中确定目标表情包;
其中,所述存储单元存储的所述表情包生成模型包括第一分类器和神经网络,所述第一分类器用于从所述输入信息中提取情感特征,和所述神经网络用于基于所述输入信息和所述情感特征生成所述至少一个表情包。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被执行时,实现根据权利要求1-8任一项所述的方法。
CN202311551746.7A 2023-11-21 2023-11-21 表情包生成方法和装置 Pending CN117520592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311551746.7A CN117520592A (zh) 2023-11-21 2023-11-21 表情包生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311551746.7A CN117520592A (zh) 2023-11-21 2023-11-21 表情包生成方法和装置

Publications (1)

Publication Number Publication Date
CN117520592A true CN117520592A (zh) 2024-02-06

Family

ID=89762236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311551746.7A Pending CN117520592A (zh) 2023-11-21 2023-11-21 表情包生成方法和装置

Country Status (1)

Country Link
CN (1) CN117520592A (zh)

Similar Documents

Publication Publication Date Title
Whittaker et al. “All around me are synthetic faces”: the mad world of AI-generated media
Hossain et al. An emotion recognition system for mobile applications
US9672467B2 (en) Systems and methods for creating and implementing an artificially intelligent agent or system
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
EP3992924A1 (en) Machine learning based media content annotation
CN111344717B (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN111193657A (zh) 聊天表情回复方法、装置及存储介质
US20150142706A1 (en) Systems and Methods for Creating and Implementing an Artificially Intelligent Agent or System
CN116756577B (zh) 模型训练方法、装置、设备及存储介质
WO2023137922A1 (zh) 语音消息生成方法和装置、计算机设备、存储介质
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN116737938A (zh) 基于微调大模型在线数据网络细粒度情感检测方法及装置
CN114268747A (zh) 基于虚拟数字人的访谈业务处理方法及相关装置
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN114567693B (zh) 视频生成方法、装置和电子设备
CN116741149B (zh) 跨语言语音转换方法、训练方法及相关装置
CN117520592A (zh) 表情包生成方法和装置
Denning The smallness of large language models
CN108509059B (zh) 一种信息处理方法、电子设备和计算机存储介质
CN115935358A (zh) 一种恶意软件识别方法、装置、电子设备及存储介质
CN115204181A (zh) 文本检测方法、装置、电子设备以及计算机可读存储介质
CN111339786B (zh) 语音处理方法、装置、电子设备及存储介质
CN114329005A (zh) 信息处理方法、装置、计算机设备及存储介质
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质
KR20220075638A (ko) 비윤리 상황에서 사용자 특성정보 기반 챗봇 대응 제어 방법 및 그를 위한 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination