CN112015945A

CN112015945A - 一种在音箱上实时显示表情图像的方法、系统及装置

Info

Publication number: CN112015945A
Application number: CN202011114454.3A
Authority: CN
Inventors: 陈玮
Original assignee: Hansong Nanjing Technology Co ltd
Current assignee: Hansang (Nanjing) Technology Co.,Ltd.
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2020-12-01
Anticipated expiration: 2040-10-19
Also published as: CN112015945B

Abstract

本申请公开了一种在音箱上实时显示表情图像的方法、系统及装置，所述方法包括：获取预设图像以及与歌手的表情风格相关的风格信息；获取播放设备播放的音乐；基于风格信息对构建模型加载对应的参数包；基于音乐，通过构建模型确定表情特征序列；基于表情特征序列和预设图像，通过合成模型生成表情图像序列，并通过显示装置显示表情图像序列；其中，构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层；语音特征嵌入层基于音乐确定语音特征序列；旋律特征嵌入层基于音乐确定旋律特征序列；表情特征生成层包括Seq2Seq模型，用于基于语音特征序列和旋律特征序列生成表情特征序列。

Description

一种在音箱上实时显示表情图像的方法、系统及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种在音箱上实时显示表情图像的方法、系统及装置。

背景技术

便携式音箱体积小巧便于携带，可以用来播放与之相连的设备中的音频，而且还能和他人一起使用，因此备受大众欢迎。为满足用户的不同需求，便携式音箱的功能逐渐多样化，除了播放音频的基本功能，有些音箱还具有显示功能。

然而，目前音箱中有关音乐相关图片、文字以及图形的显示一般是相对固定的，无法根据音频播放的进度以及音频当前的特征进行个性化调整，使得音箱呈现出的内容比较单调。

发明内容

为了解决音箱显示的内容相对固定，无法根据音频播放进度以及音频当前特征进行个性化调整，音箱呈现内容比较单调的问题，本发明提供一种在音箱上实时显示表情图像的方法、系统及装置。

本发明的技术方案是这样实现的：

一方面，本发明提供了一种在音箱上实时显示表情图像的方法，所述方法包括：获取预设图像以及风格信息；所述风格信息包括与歌手的表情风格相关的信息；获取播放设备播放的音乐；基于所述风格信息对构建模型加载对应的参数包；基于所述音乐，通过所述构建模型确定表情特征序列；基于所述表情特征序列和所述预设图像，通过合成模型生成表情图像序列；通过显示模块显示所述表情图像序列；其中，所述构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层；所述语音特征嵌入层基于所述音乐确定语音特征序列；所述旋律特征嵌入层基于所述音乐确定旋律特征序列；所述表情特征生成层包括Seq2Seq模型，用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。

进一步的，所述构建模型通过如下方法获得：获取与所述风格信息对应的训练集；所述训练集至少包括训练歌曲和样本表情图像；将所述训练集输入初始构建模型，以与所述风格信息对应的表情特征标签序列为标签，训练初始构建模型，获得训练好的构建模型；其中，所述初始构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层；所述表情特征标签序列通过对与所述风格信息对应的样本表情图像进行关键点提取获得。

进一步的，所述合成模型通过如下方法获得：获取样本训练集；所述样本训练集包括样本表情特征序列、样本表情图像序列以及样本预设图像；将所述样本训练集输入初始合成模型，以样本表情图像序列为标签，训练初始合成模型，获得训练好的合成模型；其中，所述样本表情特征序列通过对所述样本表情图像序列提取关键点获得。

进一步的，所述播放设备为音箱，所述显示装置包括以下至少一种：所述音箱上的显示屏；所述音箱上的投影单元，所述投影单元用于将图像进行投影。

另一个方面，本发明提供一种在音箱上实时显示表情图像的系统，所述系统包括：第一获取模块，用于获取预设图像以及风格信息；所述风格信息包括与歌手的表情风格相关的信息；第二获取模块，用于获取播放设备播放的音乐；参数加载模块，用于基于所述风格信息对构建模型加载对应的参数包；特征确定模块，用于基于所述音乐，通过所述构建模型确定表情特征序列；图像生成模块，用于基于所述表情特征序列和所述预设图像，通过合成模型生成表情图像序列显示模块，用于显示所述表情图像序列；其中，所述构建模型包括语音特征嵌入层、旋律特征嵌入层、以及表情特征生成层；所述语音特征嵌入层基于所述音乐确定语音特征序列；所述旋律特征嵌入层基于所述音乐确定旋律特征序列；所述表情特征生成层包括Seq2Seq模型，用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。

另一个方面，本发明提供一种在音箱上实时显示表情图像的装置，包括处理器，所述处理器用于执行在音箱上实时显示表情图像的方法。

本发明具有以下有益效果：

通过上述在音箱上实时显示表情图像的方法、系统和装置可以针对音乐播放的进度以及音乐当前的内容以及旋律特征实时调整显示的图像，使音箱呈现的内容更加灵活和丰富。

附图说明

图1是根据本申请一些实施例所示的一种在音箱上实时显示表情图像的方法流程图；

图2是根据本申请一些实施例所示的一种构建模型训练流程图；

图3是根据本申请一些实施例所示的一种合成模型训练流程图；

图4是根据本申请一些实施例所示的在音箱上实时显示表情图像的方法的另一流程图。

具体实施方式

这里将详细地对示例性实施例或实施方式进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本申请说明书以及权利要求书中使用的“第一”“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。除非另行指出，“前部”、“后部”、“下部”和/或“上部”等类似词语只是为了便于说明，而并非限于一个位置或者一种空间定向。“包括”或者“包含”等类似词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同，并不排除其他元件或者物件。

本申请一个或多个实施例的在音箱上实时显示表情图像的方法和系统可以应用于各种场所中的音箱设备。所述各种场所中的音箱设备可以包括但不限于家用音箱、便携式音箱、会场音箱、体育馆音箱以及娱乐场所音箱。例如，家庭影院音箱、随身音箱等等。由于传统的音箱在播放音乐时，往往不能显示表情图像，或者只能显示相对固定的图像，使得传统的音箱呈现出的内容比较单调，缺少与用户之间的互动。

本发明一个或多个实施例提供的方法、系统和装置可以根据音乐的内容及旋律实时显示相对应的表情图像。在一些实施例中，当播放设备播放歌曲时，本申请实施例的在音箱上实时显示表情图像的系统可以控制播放设备的显示装置根据歌曲的歌词内容显示对应的口型。在一些实施例中，本申请实施例提供的系统还可以根据用户的喜好，控制播放设备的显示装置显示与不同歌手的风格相对应的表情图像。

图1是根据本申请一些实施例所示的一种在音箱上实时显示表情图像的方法流程图。

在一些实施例中，流程100包括：

步骤110，获取预设图像以及风格信息，所述风格信息包括与歌手的表情风格相关的信息。

具体的，步骤110可以由第一获取模块执行。

预设图像是指在播放音乐之前获取的图像。预设图像被作为生成表情图像的基础，其可以是某一个人的头像，也可以是某一类的卡通图像。例如预设图像是张三的图像，则可以在此图像基础上结合音乐生成在不同音乐下张三的多个表情。预设图像可以是一幅，也可以是多幅。

预设图像可以是虚拟脸型头像，也可以是用户的自拍头像。在一些实施例中，虚拟脸型头像预置在播放设备中，用户可根据需要自行设定想要的头像作为预设头像。例如，用户可以从预设的头像列表中选择其中一个作为预设图像，也可以根据歌曲匹配对应的歌手头像作为预设图像。在一些实施例中，用户可以基于预设的规则，自行创造出虚拟脸型头像。例如，用户可以通过预设的捏脸功能捏出想要的虚拟脸型头像。在一些实施例中，用户的自拍头像可以由用户通过与音箱连接的设备（例如，手机、平板电脑等）手动上传，上传方式可以是直接唤醒相应设备相机直接拍摄，也可以是调用相应设备中的相册进行选择，本说明书在此不做限定。

风格信息是指与歌手在演绎歌曲时在整体上呈现出的独特面貌相关的信息。例如，可以是歌手甲的特殊风格，例如演唱过程中的全程仰头，也可以是摇滚风格，等等。

风格信息可以通过获取用户输入获得，可以通过获取系统设置获得，也可以通过其他方式获得。例如，用户可以从系统中选择一预设的风格信息作为输入，还可以根据歌曲名称和\或者歌手名字自适应匹配对应的风格，不同的歌曲和\或者歌手匹配对应的风格，进而提高使用者的体验。

步骤120，获取播放设备播放的音乐。

具体的，步骤120可以由第二获取模块执行。

播放设备指的是可以播放包括音频的内容的设备。例如，音箱、手机、平板电脑、智能电视等。在一些实施例中，播放设备指的是音箱。

播放的音乐指的是播放设备正在播放的歌曲、纯音乐等，也可以包括视频中的音乐内容等。

在一些实施例中，第二获取模块从与播放设备连接的终端或服务器中直接获取正在播放的歌曲或音乐。在一些实施例中，第二获取模块可以获取歌曲的名称、歌手、作词人、作曲人、歌词、类别、相关视频等信息中的一种或多种。

在一些实施例中，第二获取模块通过识别播放设备当前播放的声音获取正在播放的歌曲。例如，第二获取模块可以识别播放设备当前播放的声音中的语音信息以及旋律信息。在一些实施例中，第二获取模块获取正在播放的歌曲后，还可以获取歌曲的名称、歌手、歌词、类别、相关视频等信息中的一种或多种。

步骤130，基于所述风格信息对构建模型加载对应的参数包。

具体的，步骤130可以由参数加载模块执行。

模型指基于处理器而进行的若干方法或算法的集合。这些方法或算法可以包括大量的参数。在执行模型时，所使用的参数可以是被预先设置好的，也可以是动态调整的。一些参数可以通过训练的方法获得，一些参数可以在模型执行的过程中获得。

构建模型是指用于根据音乐确定表情特征序列的机器学习模型，表情特征序列请参见步骤140的说明。

在一些实施例中，构建模型可以包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层。在一些实施例中，所述语音特征嵌入层用于基于所述音乐确定语音特征序列。在一些实施例中，所述旋律特征嵌入层用于基于所述音乐确定旋律特征序列。在一些实施例中，所述表情特征生成层用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。在一些实施例中，所述表情特征生成层包括Seq2Seq模型，通过该模型，表情特征生成层可以关联音乐的上下文关系，使生成的表情特征序列更准确。

参数包是指若干用于模型执行或训练的参数的集合。对应于不同的风格信息，其参数包也是不同的，通过加载不同的参数包，构建模型可以生成不同的表情特征序列。例如，风格信息包括歌手甲的风格，则其对应的参数包为歌手甲的参数包，构建模型通过加载歌手甲的参数包，可以生成与歌手甲对应的表情特征序列。风格信息包括歌手乙的风格，则其对应的参数包为歌手乙的参数包，构建模型通过加载歌手乙的参数包，可以生成与歌手乙对应的表情特征序列。

在一些实施例中，不同的参数包来源于采用不同的风格的训练数据训练得到。例如：摇滚风格得到摇滚参数包、乡村风格得到乡村风格参数包、不同风格的歌手得到不同的参数包。

有关构建模型训练的具体步骤详见图2的相关说明。

步骤140，基于所述音乐，通过所述构建模型确定表情特征序列。

具体的，步骤140可以由特征确定模块执行。

在一些实施例中，特征确定模块可以将获取到的音乐输入至构建模型中。在一些实施例中，构建模型可以基于输入的音乐输出表情特征序列。在一些实施例中，构建模型可以是神经网络模型。神经网络模型可以包括多个处理层，每个处理层由多个神经元组成，每个神经元对数据做矩阵变换。矩阵所使用的参数通过训练获得。

构建模型可以是任意能够实现对多个特征进行处理的现有模型，例如，卷积神经网络（Convolutional Neural Network，CNN）、深度神经网络（Deep Neural Networks，DNN）等。构建模型还可以是根据需求自定义的模型。

示例地，构建模型自定义的结构可以包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层。

在一些实施例中，所述音乐包括歌曲，语音特征嵌入层可以基于输入的歌曲的语音信息输出语音特征序列。语音特征序列是表达字词的向量的集合。在一些实施例中，语音特征嵌入层可以包括声学模型（Acoustic Model，AM）和语言模型（Language Model，LM）。在一些实施例中，声学模型（AM）可以是隐马尔可夫模型（Hidden Markov Model，HMM）。在一些实施例中，语言模型（LM）可以是N元模型（N-Gram）。示例性的，声学模型可以基于语音信息确定多元音素（senone），语言模型可以基于多元音素确定词向量。在一些实施例中，语音特征嵌入层可以通过训练获得，训练过程参见图2构建模型的训练过程，此处不在赘述。

在一些实施例中，旋律特征嵌入层可以基于输入的音乐的旋律信息输出旋律特征序列。旋律特征序列是表达曲调的向量的集合。在一些实施例中，旋律特征嵌入层可以包括音乐检索算法（Music Information Retriveal，MIR）。在一些实施例中，旋律特征嵌入层可以通过训练获得，训练过程参见图2构建模型的训练过程，此处不在赘述。

在一些实施例中，表情特征生成层可以基于输入的语音特征序列以及旋律特征序列，输出表情特征序列。表情特征序列是指与当前播放音乐内容、旋律相匹配的所有表情的集合。具体的，表情特征生成层可以将语音特征序列以及旋律特征序列转换为一个向量序列，再将该向量序列中的每一个向量映射为一个数值，该数值用于预测表情。在一些实施例中，构建模型加载参数包后，结合所述参数包以及每一个数值可以用于确定参数包中的一个表情。例如，构建模型加载歌手甲的参数包后，参数与向量进行计算，得到向量序列中的每个向量均对应生成歌手甲的一个表情。表情特征生成层可以基于向量序列以及参数包确定表情特征序列。在一些实施例中，表情特征生成层可以是循环神经网络（RecurrentNeural Network，RNN）。优选的，表情特征生成层可以是Seq2Seq的序列到序列模型。Seq2Seq序列到序列模型可以较好地融合语音特征序列和旋律特征序列，并能够兼顾音乐的上下文联系，从而提高生成表情特征序列的准确性。表情特征生成层的参数可以通过训练获得，表情特征生成层的参数是神经网络中神经元的矩阵，矩阵中的元素可以包括不同特征对应的权重和映射函数的参数。

在一些实施例中，表情特征序列中的表情可以包括口型以及面部表情。在一些实施例中，所述口型可以是对应于歌曲的语音信息的口型。在一些实施例中，构建模型加载参数包后，所述口型可以是包含风格信息的口型。例如，构建模型加载歌手甲的参数包后，所述口型为歌手甲的口型。在一些实施例中，所述面部表情可以是对应于歌曲的旋律信息以及语音信息的面部表情。在一些实施例中，构建模型加载参数包后，所述面部表情可以是包含风格信息的面部表情。例如，构建模型加载歌手甲的参数包后，所述面部表情为歌手甲在演唱相对应的歌曲时的面部表情。

步骤150，基于所述表情特征序列和所述预设图像，通过合成模型生成表情图像序列。

具体的，步骤150可以由图像生成模块执行。

合成模型是指用于合成表情图像序列的模型。在一些实施例中，图像生成模块可以将表情特征序列和预设图像输入至合成模型，合成模型可以输出表情图像序列。在一些实施例中，合成模型可以对表情特征序列中的每个表情和预设图像进行图像融合处理，确定表情图像序列。在一些实施例中，合成模型可以是卷积神经网络（Convolutional NeuralNetwork，CNN）模型、卷积稀疏表示（convolutional sparse representation，CSR）模型和栈式自编码神经网络（stack autoencoder，SAE）模型中的一种或多种。在一些实施例中，合成模型可以通过训练获得。有关合成模型训练的具体步骤详见图3的具体说明。

表情图像序列是指由表情特征序列和预设图像合成的表情图像的序列。所述合成的表情图像同时具有预设图像以及风格信息的特征。例如，预设图像是用户的自拍头像，风格信息为歌手甲的风格，则合成的表情图像可以是在用户的自拍头像中显示歌手甲的表情的图像。在一些实施例中，表情图像序列中的表情图像可以包括口型图像以及面部表情图像。

步骤160，通过显示装置显示所述表情图像序列。

具体的，该步骤160可以通过显示模块执行。

在一些实施例中，显示装置可以连续显示所述表情图像序列中的每一个表情图像。例如，当播放的音乐是歌曲时，显示装置可以显示连续变化的口型图像。又例如，显示装置可以根据音乐的旋律变化显示不同的面部表情图像。

在一些实施例中，显示装置还可以在音箱上显示音乐相关信息。音乐相关信息可以是文字信息、图像信息或图形信息的一种或多种。显示装置在音箱上显示音乐相关信息可以通过多种方式进行，可以是下文实施例中的方法，也可以是其他方法，本发明不做限定。

在一些实施例中，显示模块是播放设备的显示屏。具体的，该显示屏可以直接显示表情图像序列以及音乐相关信息。

在一些实施例中，显示模块是播放设备的投影单元。具体的，播放设备的投影单元可以将待显示的内容投影到目标位置。待显示的内容可以是表情图像序列以及音乐相关信息。

图2是根据本申请一些实施例所示的一种构建模型训练流程图。

在一些实施例中，流程200包括：

步骤210，获取与所述风格信息对应的训练集，所述训练集至少包括训练歌曲和样本表情图像。

训练集是指多个用于模型训练的训练样本组成的集合。在一些实施例中，训练集包括训练歌曲和样本表情图像。在一些实施例中，训练歌曲可以包括歌词、旋律、曲调以及歌曲的相关信息。例如，歌曲名称、歌曲演唱者、歌曲词作者、歌曲曲作者、歌曲类型等。在一些实施例中，所述样本表情图像可以是训练歌曲的演唱者在演唱所述训练歌曲时的表情图像或影像。在一些实施例中，所述训练集与风格信息对应。例如，对应于歌手甲的风格，训练集中可以包括歌手甲的训练歌曲，以及歌手甲在演唱训练歌曲时的样本表情图像。

在一些实施例中，训练集可以从线上平台（例如，网站、应用程序等）获取。例如，可以通过访问网站或者应用程序中有关歌曲和歌手演绎歌曲时的表情图像等相关信息。在一些实施例中，训练集可以直接从本地存储设备中获取。在一些实施例中，还可以采用其他可能的任意方式获取训练集，本说明书不做限制。

步骤220，将所述训练集输入初始构建模型，以与所述风格信息对应的表情特征标签序列为标签，训练初始构建模型，获得训练好的构建模型。

在一些实施例中，获取与所述风格信息对应的训练集后，可以对训练集进行处理。在一些实施例中，所述处理包括对与所述风格信息对应的样本表情图像进行关键点提取获得与所述风格信息对应的表情特征标签序列。

在一些实施例中，将与风格信息对应的训练集输入初始构建模型，将与所述风格信息对应的表情特征标签序列作为标签，对初始构建模型进行训练，可以得到训练好的构建模型。

在一些实施例中，初始构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层。

在一些实施例中，语音特征嵌入层基于歌曲确定语音特征序列。

在一些实施例中，旋律特征嵌入层基于歌曲确定旋律特征序列。

在一些实施例中，语音特征嵌入层和旋律特征嵌入层的输入共同作为表情特征生成层的输入。

在一些实施例中，表情特征生成层包括Seq2Seq序列到序列模型，用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。

在一些实施例中，表情特征生成层包括Seq2Seq序列到序列模型。具体的，采用该模型的编码模块对语音特征序列和旋律特征序列进行编码，使编码后的语音特征序列和旋律特征序列包含歌曲上下文中的信息，再基于包含上下文信息的语音特征序列和旋律特征序列生成表情特征序列。可选地，该编码模块可以基于神经网络（Recurrent NeuralNetwork RNN，RNN）实现，但不以此为限。

在一些实施例中，使用Seq2Seq序列到序列模型可以使生成的表情特征序列具有上下文特征，使表情序列更加连贯，整体性更强。

图3是根据本申请一些实施例所示的一种合成模型训练流程图。

在一些实施例中，流程300包括：

步骤310，获取样本训练集。

样本训练集是指用于合成模型训练的训练样本的集合。

样本训练集可以包括样本表情特征序列、样本表情图像序列以及样本预设图像。在一些实施例中，样本预设图像可以包括虚拟头像以及用户自拍头像。在一些实施例中，样本表情图像序列可以包括虚拟头像的面部表情图像和口型图像，以及用户的面部表情图像和口型图像。在一些实施例中，样本表情特征序列可以通过对所述样本表情图像序列提取关键点获得。

在一些实施例中，样本训练集可以直接从本地存储设备中获取。在一些实施例中，还可以采用其他可能的任意方式获取样本训练集，本说明书不做限制。

步骤320，将样本训练集输入初始合成模型，以样本表情图像序列为标签，训练初始合成模型，获得训练好的合成模型。

在一些实施例中，将样本表情特征序列以及样本预设图像作为初始合成模型的输入，将样本表情图像序列作为标签对初始合成模型进行训练，得到训练好的合成模型。

在一些实施例中，初始合成模型可以是卷积神经网络（Convolutional NeuralNetwork，CNN）模型、卷积稀疏表示（convolutional sparse representation，CSR）模型和栈式自编码神经网络（stack autoencoder，SAE）模型中的一种或多种。

在一些实施例中，流程400包括：

步骤410，获取播放设备播放的音频内容。

音频内容可以包括歌曲、戏曲、纯音乐、相声、新闻等所有可以通过播放设备播放的音频文件的内容。在一些实施例中，音频内容可以由播放设备的处理器获取。

在一些实施例中，处理设备还可以获取与音频内容相关的其他信息，例如，音频创作者信息、音频的分类信、音频的风格信息等和音频相关的信息，本说明书在此不做限定。

在一些实施例中，所述音频内容为歌曲，处理器获取歌曲的具体方法可以参见图1的相关描述，此处不在赘述。

步骤420，获取所述播放设备的状态信息。

状态信息是与播放设备的播放状态相关的信息。在一些实施例中，状态信息可以包括播放设备的设备状态，例如，播放设备的电量等。在一些实施例中，状态信息可以包括用户为播放设备设置的状态，例如，播放设备的音量，显示设置等。

在一些实施例中，播放设备的状态信息可以包括用户设定的预设图像。在一些实施例中，处理器可以获取预设图像，具体方法可以参见图1的相关描述，此处不在赘述。

在一些实施例中，播放设备的状态信息可以包括用户设定的风格信息。在一些实施例中，处理器可以获取风格信息，具体方法可以参见图1的相关描述，此处不在赘述。

步骤430，判断所述状态信息是否满足预设条件。

所述预设条件是对应于判断所述状态信息是否满足预定要求的条件。

在一些实施例中，所述状态信息包括播放设备的电量信息，所述预设条件可以是播放设备的电量是否大于阈值，若播放设备的电量大于阈值，则满足预设条件，反之则不满足。

在一些实施例中，所述状态信息包括预设图像，预设条件为预设图像是否符合要求，若预设图像符合要求，则满足预设条件，反之则不满足。

在一些实施例中，所述状态信息包括风格信息，所述预设条件可以是是否成功获得音频风格信息。在一些实施例中，所述预设条件还可以是是否成功加载与风格信息相对应的参数包。在一些实施例中，基于风格信息加载相对应的参数包的具体方法可以参见图1的相关描述。

在一些实施例中，若所述状态信息满足预设条件，则处理器继续执行步骤440。在一些实施例中，若所述状态信息不满足预设条件，则停止执行流程400；或者，返回步骤410；又或者，返回步骤420。

步骤440，基于所述音频内容，通过生成模型生成表情图像序列。

在一些实施例中，生成模型可以是循环神经网络（Recurrent Neural Network，RNN）模型。在一些实施例中，生成模型的输入可以是音频内容，生成模型的输出可以是表情图像序列。在一些实施例中，生成模型可以通过训练获得。在一些实施例中，生成模型的训练过程可以包括将样本音频内容输入初始生成模型，以样本表情图像序列为标签对初始生成模型进行训练，获得训练好的生成模型。

在一些实施例中，生成模型可以包括构建模型。在一些实施例中，处理器可以通过构建模型确定表情特征序列。生成模型可以基于表情特征序列生成表情图像序列。

在一些实施例中，生成模型包括构建模型和合成模型。

在一些实施例中，表情图像序列可以分两步的得到。具体的，首先通过构建模型确定表情特征序列，再基于表情特征序列和预设图像通过合成模型得到表情图像序列。

关于构建模型以及合成模型的具体使用方法可以参见图1的相关描述，此处不在赘述。

步骤450，通过显示装置显示所述表情图像序列。

在一些实施例中，显示装置可以包括播放设备的显示屏和/或播放设备的投影单元中的一种或多种。通过显示装置显示所述表情图像序列的具体方法可以参见图1的相关描述，此处不在赘述。

本说明书另一个方面提供一种在音箱上实时显示表情图像的系统。该系统包第一获取模块、第二获取模块、参数加载模块、特征确定模块、图像生成模块、显示模块。

第一获取模块，用于获取预设图像以及风格信息，风格信息包括与歌手的表情风格相关的信息。

第二获取模块，用于获取播放设备播放的音乐。

参数加载模块，用于基于风格信息对构建模型加载对应的参数包。

特征确定模块，用于基于音乐，通过构建模型确定表情特征序列。

图像生成模块，用于基于表情特征序列和所述预设图像，通过合成模型生成表情图像序列。

显示模块，用于通过显示装置显示表情图像序列。

其中，所述构建模型包括语音特征嵌入层、旋律特征嵌入层、以及表情特征生成层；所述语音特征嵌入层基于所述音乐确定语音特征序列；所述旋律特征嵌入层基于所述音乐确定旋律特征序列；所述表情特征生成层包括Seq2Seq模型，用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。

本说明书另一个方面提供一种在音箱上实时显示表情图像的装置，包括处理器，所述处理器用于执行本申请实施例所述的在音箱上实时显示表情图像的方法。

本申请实施例可能带来的有益效果包括但不限于：（1）能够音箱的播放内容实时变换显示的图像，使音箱呈现的内容更加灵活和丰富；（2）能够根据用户的喜好自定义音箱显示的表情风格，提升用户体验。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

Claims

1.一种在音箱上实时显示表情图像的方法，所述方法包括：

获取预设图像以及风格信息；所述风格信息包括与歌手的表情风格相关的信息；

获取播放设备播放的音乐；

基于所述风格信息对构建模型加载对应的参数包；

基于所述音乐，通过所述构建模型确定表情特征序列；

基于所述表情特征序列和所述预设图像，通过合成模型生成表情图像序列；

通过显示装置显示所述表情图像序列；

其中，

所述构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层；所述语音特征嵌入层基于所述音乐确定语音特征序列；所述旋律特征嵌入层基于所述音乐确定旋律特征序列；所述表情特征生成层包括Seq2Seq模型，用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。

2.根据权利要求1所述的方法，其特征在于，所述构建模型通过如下方法获得：

获取与所述风格信息对应的训练集；所述训练集至少包括训练歌曲和样本表情图像；

将所述训练集输入初始构建模型，以与所述风格信息对应的表情特征标签序列为标签，训练初始构建模型，获得训练好的构建模型；

其中，所述初始构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层；所述表情特征标签序列通过对与所述风格信息对应的样本表情图像进行关键点提取获得。

3.根据权利要求1所述的方法，其特征在于，所述合成模型通过如下方法获得：

获取样本训练集；所述样本训练集包括样本表情特征序列、样本表情图像序列以及样本预设图像；

将所述样本训练集输入初始合成模型，以样本表情图像序列为标签，训练初始合成模型，获得训练好的合成模型；

其中，所述样本表情特征序列通过对所述样本表情图像序列提取关键点获得。

4.根据权利要求1所述的方法，其特征在于，所述播放设备为音箱，所述显示装置包括以下至少一种：

所述音箱上的显示屏；

所述音箱上的投影单元，所述投影单元用于将图像进行投影。

5.一种在音箱上实时显示表情图像的系统，所述系统包括：

第一获取模块，用于获取预设图像以及风格信息；所述风格信息包括与歌手的表情风格相关的信息；

第二获取模块，用于获取播放设备播放的音乐；

参数加载模块，用于基于所述风格信息对构建模型加载对应的参数包；

特征确定模块，用于基于所述音乐，通过所述构建模型确定表情特征序列；

图像生成模块，用于基于所述表情特征序列和所述预设图像，通过合成模型生成表情图像序列；

显示模块，用于通过显示装置显示所述表情图像序列；

其中，

所述构建模型包括语音特征嵌入层、旋律特征嵌入层、以及表情特征生成层；所述语音特征嵌入层基于所述音乐确定语音特征序列；所述旋律特征嵌入层基于所述音乐确定旋律特征序列；所述表情特征生成层包括Seq2Seq模型，用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。

6.一种在音箱上实时显示表情图像的装置，包括处理器，其特征在于，所述处理器用于执行权利要求1~4中任一项所述的在音箱上实时显示表情图像的方法。