CN110262860A

CN110262860A - 一种生成个性化图像信息的方法与设备

Info

Publication number: CN110262860A
Application number: CN201910355733.XA
Authority: CN
Inventors: 高超
Original assignee: Shanghai Zhangmen Science and Technology Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-09-20

Abstract

本申请的目的是提供一种在网络设备端生成个性化图像信息的方法，该方法包括：接收用户设备发送的、关于所述用户设备对应的用户的语音信息；根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息；将所述个性化图像信息返回至所述用户设备。本申请给与用户良好的视听体验，提升了用户的体验。

Description

一种生成个性化图像信息的方法与设备

技术领域

本申请涉及通信领域，尤其涉及一种生成个性化图像信息的技术。

背景技术

随着移动互联网的快速发展，人们的社交生活发生了翻天覆地的变化。智能手机的普及，使得社交APP满足了人们新的社交需求，并迅速成为人们生活中不可或缺的一部分。现今的社交APP中，作为账户主体的用户一般都会在APP中发布状态信息(例如，图片、文字)，以此获得社交乐趣。

发明内容

本申请的一个目的是提供一种生成个性化图像信息的方法与设备。

根据本申请的一个方面，提供了一种在网络设备端生成个性化图像信息的方法，该方法包括：

接收用户设备发送的、关于所述用户设备对应的用户的语音信息；

根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息；

将所述个性化图像信息返回至所述用户设备。

根据本申请的另一个方面，提供了一种在用户设备端生成个性化图像信息的方法，该方法包括：

获取对应用户的语音信息；

向对应网络设备发送图像生成请求，其中，所述图像生成请求包括所述语音信息；

接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。

根据本申请的一个方面，提供了一种生成个性化图像信息的网络设备，该设备包括：

第一一模块，用于接收用户设备发送的、关于所述用户设备对应的用户的语音信息；

第一二模块，用于根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息；

第一三模块，用于将所述个性化图像信息返回至所述用户设备。

根据本申请的一个方面，提供了一种生成个性化图像信息的用户设备，该设备包括：

第二一模块，用于获取对应用户的语音信息；

第二二模块，用于向对应网络设备发送图像生成请求，其中，所述图像生成请求包括所述语音信息；

第二三模块，用于接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。

根据本申请的又一个方面，提供了一种在用户设备端生成个性化图像信息的方法，该方法包括：

获取对应用户的语音信息；

根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。

根据本申请的又一个方面，提供了一种生成个性化图像信息的用户设备，该设备包括：

第三一模块，用于获取对应用户的语音信息；

第三二模块，用于根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。

根据本发明的一个方面，提供了一种生成个性化图像信息的网络设备，其中，该设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行：

将所述个性化图像信息返回至所述用户设备。

根据本发明的另一个方面，提供了一种生成个性化图像信息的用户设备，其中，该设备包括：

处理器；以及

获取对应用户的语音信息；

根据本发明的又一个方面，提供了一种生成个性化图像信息的用户设备，其中，该设备包括：

处理器；以及

获取对应用户的语音信息；

根据本发明的一个方面，提供了存储指令的计算机可读介质，所述指令在被执行时使得系统进行：

将所述个性化图像信息返回至所述用户设备。

根据本发明的另一个方面，提供了存储指令的计算机可读介质，所述指令在被执行时使得系统进行：

获取对应用户的语音信息；

与现有技术相比，本申请网络设备通过接收用户设备发送的用户的语音信息，并根据所述语音信息中的所述用户的声纹特征信息生成对应的个性化图像信息，从而根据用户的语音信息个性化定制与用户相关的个性化图像信息，同时，将与用户相关的语音信息可视化与艺术化，在此基础上，网络设备将与所述语音信息相关的访问链接信息添加至所述个性化图像信息，在用户点击该图像信息后，给与用户视听结合的良好体验，提升了用户的使用体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个系统拓扑图；

图2示出了根据本申请一个实施例的个性化图像信息的一个示意图；

图3示出根据本申请一个实施例的一种在网络设备端生成个性化图像信息的方法流程图；

图4示出根据本申请一个实施例的一种在用户设备端生成个性化图像信息的方法流程图；

图5示出根据本申请另一个实施例的一种在用户设备端生成个性化图像信息的方法流程图；

图6示出根据本申请一个实施例的一种生成个性化图像信息的系统方法图；

图7示出根据本申请一个实施例的一种生成个性化图像信息的网络设备的设备示意图；

图8示出根据本申请另一个实施例的一种生成个性化图像信息的用户设备的设备示意图；

图9示出根据本申请又一个实施例的一种生成个性化图像信息的用户设备的设备示意图；

图10示出根据本申请一个实施例的一种生成个性化图像信息的系统设备的设备示意图；

图11示出可被用于实施本发明中所述各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change Memory，PCM)、可编程随机存取存储器(Programmable Random Access Memory，PRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)、动态随机存取存储器(Dynamic Random AccessMemory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如Android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在本申请的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。

图1示出了本申请的一个典型场景，用户持有用户设备，用户通过用户设备获取对应用户的语音信息，例如，用户设备包括麦克风等装置，通过麦克风获取对应用户的语音信息，或者，用户设备接收其他设备的关于用户的语音信息，其中，所述用户设备包括但不限于手机、平板、电脑等计算设备。随后，用户设备将包括所述语音信息的图像生成请求发送至网络设备，网络设备根据该语音信息提取所述用户的声纹特征信息，其中，该声纹特征信息包括关键帧和关键数据，网络设备根据该声纹特征信息结合对应的动态艺术算法(例如，OpenGL等底层图形图像算法)生成对应的个性化图像信息，并返回该信息至用户设备，其中，所述个性化图像信息包括但不限于语音信息的访问链接信息、动态图像、静态图像。如图2所示为本申请的一个实施例的个性化图像信息的一个示意图，用户通过用户设备对该个性化图像进行触发操作(例如，点击操作等)，用户设备播放特定的语音信息。

参考图1所示的系统，为进一步说明本申请实施例的方案，下面结合图3，从网络设备的角度进行举例介绍。

图3示出根据本申请一个实施例的一种在网络设备端生成个性化图像信息的方法，该方法包括步骤S11、步骤S12和步骤S13。在步骤S11中，网络设备接收用户设备发送的、关于所述用户设备对应的用户的语音信息；在步骤S12中，网络设备根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息；在步骤S13中，网络设备将所述个性化图像信息返回至所述用户设备。

具体地，在步骤S11中，网络设备接收用户设备发送的、关于所述用户设备对应的用户的语音信息。例如，用户设备通过麦克风装置获取用户的语音信息，或者用户设备接收其他设备的关于用户的语音信息，其中，所述语音信息包括与用户相关的用户的语音签名信息等。随后，用户设备将该语音信息发送至网络设备。

在步骤S12中，网络设备根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。在一些实施例中，步骤S12包括步骤S121(未示出)和步骤S122(未示出)，在步骤S121中，网络设备根据所述语音信息提取所述用户的声纹特征信息；在步骤S122中，网络设备基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息。其中，所述计算机视觉算法包括OpenGL等底层图形图像算法，例如，网络设备可以使用相关算法(例如，模板匹配方法，最近邻方法，隐式马尔可夫模型方法等)提取所述用户的声纹特征信息，在一些实施例中，网络设备利用动态时间弯折以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)，在训练过程中从每个说话人的训练语句中提取相应的特征矢量来描述各个说话人的行为，在测试阶段，从说话人的测试语音信号中用同样的方法提取测试模板，主要有动态时间规整方法和矢量量化方法，以此提取所述用户的声纹特征信息。随后，网络设备基于提取的声纹特征信息结合计算机视觉算法生成对应的个性化图像信息。在这种情况下，能更有效率地提取声纹特征信息，并高效准确地生成个性化图像信息。在一些实施例中，在步骤S122中，网络设备基于所述声纹特征信息确定对应的关键帧及关键数据信息；根据所述关键帧及关键数据信息，结合计算机视觉算法生成对应的个性化图像信息。在一些实施例中，所述基于所述声纹特征信息确定对应的关键帧及关键数据信息，包括：网络设备基于预设的时间阈值提取所述声纹特征信息对应的语音帧作为对应关键帧，基于所述关键帧确定所述关键帧的关键数据信息。例如，在所述用户的语音信息中语音时间较长的情况下，网络设备基于底层拓扑特征提取算法以预设时间阈值(例如，10s)为时间单位提取所述声纹特征信息对应的语音帧，并将每次提取的语音帧作为关键帧，同时基于所述关键帧获取所述关键帧的关键数据信息。在一些实施例中，所述关键数据信息包括以下至少任一项：

1)频谱；

2)倒频谱；

3)共振峰；

4)基音；

5)反射系数。

在一些实施例中，所述根据所述关键帧及关键数据信息，结合计算机视觉算法生成对应的个性化图像信息，包括：网络设备将所述关键帧及关键数据信息导入预设的动态艺术算法中，生成对应的个性化图像信息。其中，所述预设的动态艺术算法包括OpenGL等底层图形图像算法结合预设的艺术画等形成的算法，例如，所述关键数据信息包括频谱、倒频谱、共振峰、基音以及反射系数等数据指标，网络设备获取该关键数据信息的各个数据指标对应的value(数值)，随后将各个数据指标与各个数据指标的value的对应关系导入到预设的动态艺术算法中进行匹配，随后生成对应的个性化图像信息。在这种情况下，网络设备将用户的语音信息生成对应的个性化图像信息，使得声音具有可视化的特性，同时，基于动态艺术算法生成对应的个性化图像信息，将可视化的声音与艺术相结合，用户可以看到更精美的图像，提升了用户的体验。

在步骤S13中，网络设备将所述个性化图像信息返回至所述用户设备。在一些实施例中，网络设备还可将所述个性化图像信息提供给用户设备之外的第三方设备(例如，作为二维码，或者个人标签提供给第三方)。在用户收到网络设备发送的个性化图像后，为后续个性化图像的使用提供了基础。

例如，用户持有用户设备，用户通过用户设备的麦克风录制了一段个性语音信息，随后，用户设备将包括所述语音信息的图像生成请求发送至网络设备，网络设备基于模板匹配方法提取所述用户语音信息中的声纹特征信息，网络设备根据该声纹特征信息结合对应的动态艺术算法(例如，OpenGL等底层图形图像算法)生成对应的个性化图像，并返回该信息至用户设备。

在一些实施例中，所述个性化图像信息包括所述语音信息；其中，所述方法还包括步骤S14(未示出)，在步骤S14中，网络设备根据所述语音信息确定对应的访问链接信息，将所述访问链接信息添加至所述个性化图像信息；在步骤S13中，网络设备将添加所述访问链接信息后的个性化图像信息返回至所述用户设备。例如，网络设备接收用户设备发送的语音信息，存储后设定相应的存储地址(例如，URL地址)作为对应的访问链接信息，随后将该访问链接信息添加至生成的个性化图像信息中，并将添加所述访问链接信息后的个性化图像信息返回至所述用户设备。在这种情况下，所述个性化图像在呈现文艺图像信息的同时，可以呈现给用户良好的视听体验，提升了用户的使用体验。

在一些实施例中，所述个性化图像信息用于以下至少任一项：

1)所述用户对应的应用账号的封面信息；

2)所述用户对应的应用账号的用户动态信息；

3)所述用户对应的应用账号的表情包信息；

4)所述用户对应的应用账号标识的异形码。

例如，网络设备生成对应的个性化图像信息，该图像信息可用作用户对应的应用账号的封面信息，在一些实施例中，用户在一些社交应用中新建相册，该个性化图像信息可用作新建相册的封面信息，同时可以将该个性化图像信息作为用户首页的封面信息；在一些实施例中，用户在社交应用中发布社交状态时，可将该个性化图像信息作为用户动态信息进行发布；在一些实施例中，用户在社交应用中与其他用户进行交流时，可将该个性化图像信息作为表情包信息发送；在一些实施例中，该个性化图像信息作为用户对应的应用账号标识的异形码，通过该异形码，其他用户可扫描获取用户的简介信息。在这种情况下，所述个性化图像信息用途广泛，满足了用户不同的需求。

图4示出根据本申请一个实施例的一种在用户设备端生成个性化图像信息的方法，该方法包括步骤S21、步骤S22和步骤S23。在步骤S21中，用户设备获取对应用户的语音信息；在步骤S22中，用户设备向对应网络设备发送图像生成请求，其中，所述图像生成请求包括所述语音信息；在步骤S23中，用户设备接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。

具体地，在步骤S21中，用户设备获取对应用户的语音信息。例如，用户设备包括麦克风等装置，通过麦克风获取对应用户的语音信息，或者，用户设备接收其他设备的关于用户的语音信息。

在步骤S22中，用户设备向对应网络设备发送图像生成请求，其中，所述图像生成请求包括所述语音信息。例如，用户设备将包括所述语音信息的图像生成请求发送至网络设备。为后续网络设备生成图像信息提供基础。

在步骤S23中，用户设备接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。网络设备基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息。其中，所述计算机视觉算法包括OpenGL等底层图形图像算法，例如，网络设备可以使用相关算法(例如，模板匹配方法，最近邻方法，隐式马尔可夫模型方法等)提取所述用户的声纹特征信息，在一些实施例中，网络设备利用动态时间弯折以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)，在训练过程中从每个说话人的训练语句中提取相应的特征矢量来描述各个说话人的行为，在测试阶段，从说话人的测试语音信号中用同样的方法提取测试模板，主要有动态时间规整方法和矢量量化方法，以此提取所述用户的声纹特征信息。随后，网络设备返回用户设备基于提取的声纹特征信息结合计算机视觉算法生成对应的个性化图像信息。在这种情况下，能更有效率地提取声纹特征信息，并高效准确地生成个性化图像信息。

例如，用户持有用户设备，用户通过用户设备的麦克风录制了一段个性语音信息，随后，用户设备将包括所述语音信息的图像生成请求发送至网络设备，网络设备基于模板匹配方法提取所述用户语音信息中的声纹特征信息，网络设备根据该声纹特征信息结合对应的动态艺术算法(例如，OpenGL等底层图形图像算法)生成对应的个性化图像，并返回该信息至用户设备，用户设备接收所述网络设备返回的个性化图像信息。

在一些实施例中，所述个性化图像信息包括所述语音信息；其中，在步骤S23中，用户设备接收所述网络设备返回的、添加所述语音信息对应的访问链接信息后的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。例如，网络设备接收用户设备发送的语音信息，存储后设定相应的存储地址(例如，URL地址)作为对应的访问链接信息，随后将该访问链接信息添加至生成的个性化图像信息中，并将添加所述访问链接信息后的个性化图像信息返回至所述用户设备，用户设备接收该个性化图像信息。在这种情况下，所述个性化图像在呈现文艺图像信息的同时，可以呈现给用户良好的视听体验，提升了用户的使用体验。

在一些实施例中，所述方法还包括步骤S24(未示出)，在步骤S24中，若获取到所述用户关于所述个性化图像信息的点击操作，用户设备通过音频输出装置播放所述语音信息。其中，所述音频输出装置包括麦克风，例如，用户设备获取到用户对该个性化图像信息的触发操作(例如，点击操作)，触发用户设备播放个性化图像信息中的语音信息。可以呈现给用户良好的视听体验，提升了用户的使用体验。

在一些实施例中，所述个性化图像信息包括与所述语音信息时长相等的动态图像信息；在步骤S24中，若获取到所述用户关于所述个性化图像信息的点击操作，用户设备动态呈现所述个性化图像信息并通过音频输出装置同步播放所述语音信息。其中，所述动态图像信息包括动态GIF格式的图像信息，例如，用户设备获取到用户对该包括动态图像信息的个性化图像信息的触发操作(例如，点击操作)，触发用户设备播放个性化图像信息中的语音信息，同时动态呈现个性化图像信息。可以动态呈现给用户良好的视听体验，提升了用户的使用体验。

图5示出根据本申请又一个实施例的一种在用户设备端生成个性化图像信息的方法，该方法包括步骤S31和步骤S32。在步骤S31中，用户设备获取对应用户的语音信息；在步骤S32中，用户设备根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。

具体地，在步骤S31中，用户设备获取对应用户的语音信息。例如，用户设备包括麦克风等装置，通过麦克风获取对应用户的语音信息，或者，用户设备接收其他设备的关于用户的语音信息。

在步骤S32中，用户设备根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。例如，网络设备基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息。其中，所述计算机视觉算法包括OpenGL等底层图形图像算法，例如，网络设备可以使用相关算法(例如，模板匹配方法，最近邻方法，隐式马尔可夫模型方法等)提取所述用户的声纹特征信息，在一些实施例中，网络设备利用动态时间弯折以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)，在训练过程中从每个说话人的训练语句中提取相应的特征矢量来描述各个说话人的行为，在测试阶段，从说话人的测试语音信号中用同样的方法提取测试模板，主要有动态时间规整方法和矢量量化方法，以此提取所述用户的声纹特征信息。随后，网络设备基于提取的声纹特征信息结合计算机视觉算法生成对应的个性化图像信息。在这种情况下，能更有效率地提取声纹特征信息，并高效准确地生成个性化图像信息。

例如，用户持有用户设备，用户通过用户设备的麦克风录制了一段个性语音信息，随后，用户设备基于模板匹配方法提取所述用户语音信息中的声纹特征信息，并根据该声纹特征信息结合对应的动态艺术算法(例如，OpenGL等底层图形图像算法)生成对应的个性化图像。

图6示出根据本申请又一个实施例的一种生成个性化图像信息的系统方法，该方法包括：

用户设备获取对应用户的语音信息，并向对应网络设备发送图像生成请求，其中，所述图像生成请求包括所述语音信息；

所述网络设备接收所述用户设备发送的、关于所述用户设备对应的用户的语音信息，并根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息；

所述网络设备将所述个性化图像信息返回至所述用户设备；

所述用户设备接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。

上文主要从设备的角度对本申请实施例提供的方法进行了举例介绍，相对应的，本申请还提供了能够执行上述各方法对应的设备，该设备包括能够执行上述各方法示例中各个步骤的单元或模块，这些单元或模块可以通过硬件、软件或软硬结合的方式来实现，本申请并不限定。

图7示出根据本申请一个实施例的一种在生成个性化图像信息的网络设备，该设备包括第一一模块11、第一二模块12和第一三模块13。第一一模块11，用于接收用户设备发送的、关于所述用户设备对应的用户的语音信息；第一二模块12，用于根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息；第一三模块13，用于将所述个性化图像信息返回至所述用户设备。

具体地，第一一模块11，用于接收用户设备发送的、关于所述用户设备对应的用户的语音信息。例如，用户设备通过麦克风装置获取用户的语音信息，或者用户设备接收其他设备的关于用户的语音信息，其中，所述语音信息包括与用户相关的用户的语音签名信息等。随后，用户设备将该语音信息发送至网络设备。

第一二模块12，用于根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。在一些实施例中，第一二模块12包括第一二一模块121(未示出)和第一二二模块122(未示出)，第一二一模块121，用于根据所述语音信息提取所述用户的声纹特征信息；第一二二模块122，用于基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息。其中，所述计算机视觉算法包括OpenGL等底层图形图像算法，例如，网络设备可以使用相关算法(例如，模板匹配方法，最近邻方法，隐式马尔可夫模型方法等)提取所述用户的声纹特征信息，在一些实施例中，网络设备利用动态时间弯折以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)，在训练过程中从每个说话人的训练语句中提取相应的特征矢量来描述各个说话人的行为，在测试阶段，从说话人的测试语音信号中用同样的方法提取测试模板，主要有动态时间规整方法和矢量量化方法，以此提取所述用户的声纹特征信息。随后，网络设备基于提取的声纹特征信息结合计算机视觉算法生成对应的个性化图像信息。在这种情况下，能更有效率地提取声纹特征信息，并高效准确地生成个性化图像信息。在一些实施例中，第一二二模块122，用于基于所述声纹特征信息确定对应的关键帧及关键数据信息；根据所述关键帧及关键数据信息，结合计算机视觉算法生成对应的个性化图像信息。在一些实施例中，所述基于所述声纹特征信息确定对应的关键帧及关键数据信息，包括：网络设备基于预设的时间阈值提取所述声纹特征信息对应的语音帧作为对应关键帧，基于所述关键帧确定所述关键帧的关键数据信息。例如，在所述用户的语音信息中语音时间较长的情况下，网络设备基于底层拓扑特征提取算法以预设时间阈值(例如，10s)为时间单位提取所述声纹特征信息对应的语音帧，并将每次提取的语音帧作为关键帧，同时基于所述关键帧获取所述关键帧的关键数据信息。在一些实施例中，所述关键数据信息包括以下至少任一项：

1)频谱；

2)倒频谱；

3)共振峰；

4)基音；

5)反射系数。

第一三模块13，用于将所述个性化图像信息返回至所述用户设备。在一些实施例中，网络设备还可将所述个性化图像信息提供给用户设备之外的第三方设备(例如，作为二维码，或者个人标签提供给第三方)。在用户收到网络设备发送的个性化图像后，为后续个性化图像的使用提供了基础。

在一些实施例中，所述个性化图像信息包括所述语音信息；其中，所述设备还包括第一四模块14(未示出)，第一四模块14，用于根据所述语音信息确定对应的访问链接信息，将所述访问链接信息添加至所述个性化图像信息；第一三模块13，用于将添加所述访问链接信息后的个性化图像信息返回至所述用户设备。例如，网络设备接收用户设备发送的语音信息，存储后设定相应的存储地址(例如，URL地址)作为对应的访问链接信息，随后将该访问链接信息添加至生成的个性化图像信息中，并将添加所述访问链接信息后的个性化图像信息返回至所述用户设备。在这种情况下，所述个性化图像在呈现文艺图像信息的同时，可以呈现给用户良好的视听体验，提升了用户的使用体验。

1)所述用户对应的应用账号的封面信息；

2)所述用户对应的应用账号的用户动态信息；

3)所述用户对应的应用账号的表情包信息；

4)所述用户对应的应用账号标识的异形码。

图8示出根据本申请一个实施例的一种在生成个性化图像信息的用户设备，该设备包括第二一模块21、第二二模块22和第二三模块23。第二一模块21，用于获取对应用户的语音信息；第二二模块22，用于向对应网络设备发送图像生成请求，其中，所述图像生成请求包括所述语音信息；第二三模块23，用于接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。

具体地，第二一模块21，用于获取对应用户的语音信息。例如，用户设备包括麦克风等装置，通过麦克风获取对应用户的语音信息，或者，用户设备接收其他设备的关于用户的语音信息。

第二二模块22，用于向对应网络设备发送图像生成请求，其中，所述图像生成请求包括所述语音信息。例如，用户设备将包括所述语音信息的图像生成请求发送至网络设备。为后续网络设备生成图像信息提供基础。

第二三模块23，用于接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。网络设备基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息。其中，所述计算机视觉算法包括OpenGL等底层图形图像算法，例如，网络设备可以使用相关算法(例如，模板匹配方法，最近邻方法，隐式马尔可夫模型方法等)提取所述用户的声纹特征信息，在一些实施例中，网络设备利用动态时间弯折以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)，在训练过程中从每个说话人的训练语句中提取相应的特征矢量来描述各个说话人的行为，在测试阶段，从说话人的测试语音信号中用同样的方法提取测试模板，主要有动态时间规整方法和矢量量化方法，以此提取所述用户的声纹特征信息。随后，网络设备返回用户设备基于提取的声纹特征信息结合计算机视觉算法生成对应的个性化图像信息。在这种情况下，能更有效率地提取声纹特征信息，并高效准确地生成个性化图像信息。

在一些实施例中，所述个性化图像信息包括所述语音信息；其中，第二三模块23，用于接收所述网络设备返回的、添加所述语音信息对应的访问链接信息后的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。例如，网络设备接收用户设备发送的语音信息，存储后设定相应的存储地址(例如，URL地址)作为对应的访问链接信息，随后将该访问链接信息添加至生成的个性化图像信息中，并将添加所述访问链接信息后的个性化图像信息返回至所述用户设备，用户设备接收该个性化图像信息。在这种情况下，所述个性化图像在呈现文艺图像信息的同时，可以呈现给用户良好的视听体验，提升了用户的使用体验。

在一些实施例中，所述设备还包括第二四模块24(未示出)，第二四模块24，用于若获取到所述用户关于所述个性化图像信息的点击操作，通过音频输出装置播放所述语音信息。其中，所述音频输出装置包括麦克风，例如，用户设备获取到用户对该个性化图像信息的触发操作(例如，点击操作)，触发用户设备播放个性化图像信息中的语音信息。可以呈现给用户良好的视听体验，提升了用户的使用体验。

在一些实施例中，所述个性化图像信息包括与所述语音信息时长相等的动态图像信息；第二四模块24，用于若获取到所述用户关于所述个性化图像信息的点击操作，动态呈现所述个性化图像信息并通过音频输出装置同步播放所述语音信息。其中，所述动态图像信息包括动态GIF格式的图像信息，例如，用户设备获取到用户对该包括动态图像信息的个性化图像信息的触发操作(例如，点击操作)，触发用户设备播放个性化图像信息中的语音信息，同时动态呈现个性化图像信息。可以动态呈现给用户良好的视听体验，提升了用户的使用体验。

图9示出根据本申请又一个实施例的一种生成个性化图像信息的用户设备，该设备包括第三一模块31和第三二模块32。第三一模块31，用于获取对应用户的语音信息；第三二模块32，用于根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。

具体地，第三一模块31，用于获取对应用户的语音信息。例如，用户设备包括麦克风等装置，通过麦克风获取对应用户的语音信息，或者，用户设备接收其他设备的关于用户的语音信息。

第三二模块32，用于根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息。例如，网络设备基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息。其中，所述计算机视觉算法包括OpenGL等底层图形图像算法，例如，网络设备可以使用相关算法(例如，模板匹配方法，最近邻方法，隐式马尔可夫模型方法等)提取所述用户的声纹特征信息，在一些实施例中，网络设备利用动态时间弯折以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)，在训练过程中从每个说话人的训练语句中提取相应的特征矢量来描述各个说话人的行为，在测试阶段，从说话人的测试语音信号中用同样的方法提取测试模板，主要有动态时间规整方法和矢量量化方法，以此提取所述用户的声纹特征信息。随后，网络设备基于提取的声纹特征信息结合计算机视觉算法生成对应的个性化图像信息。在这种情况下，能更有效率地提取声纹特征信息，并高效准确地生成个性化图像信息。

图10示出根据本申请又一个实施例的一种生成个性化图像信息的系统设备，该设备包括：

所述网络设备将所述个性化图像信息返回至所述用户设备；

除上述各实施例介绍的方法和设备外，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。

图11示出了可被用于实施本申请中所述的各个实施例的示例性系统；

如图11所示在一些实施例中，系统300能够作为各所述实施例中的任意一个设备。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或NVM/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。

对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。

系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，系统控制模块310可包括一个或多个输入/输出(I/O)控制器，以向NVM/存储设备320及(一个或多个)通信接口325提供接口。

例如，NVM/存储设备320可被用于存储数据和/或指令。NVM/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。

(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM,DRAM,SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种在网络设备端生成个性化图像信息的方法，其中，该方法包括：

将所述个性化图像信息返回至所述用户设备。

2.根据权利要求1所述的方法，其中，所述个性化图像信息包括所述语音信息；其中，所述方法还包括：

根据所述语音信息确定对应的访问链接信息，将所述访问链接信息添加至所述个性化图像信息；

其中，所述将所述个性化图像信息返回至所述用户设备，包括：

将添加所述访问链接信息后的个性化图像信息返回至所述用户设备。

3.根据权利要求1或2所述的方法，其中，所述个性化图像信息用于以下至少任一项：

所述用户对应的应用账号的封面信息；

所述用户对应的应用账号的用户动态信息；

所述用户对应的应用账号的表情包信息；

所述用户对应的应用账号标识的异形码。

4.根据权利要求1至3中任一项所述的方法，其中，所述根据所述语音信息提取所述用户的声纹特征信息，并基于所述声纹特征信息生成对应的个性化图像信息，包括：

根据所述语音信息提取所述用户的声纹特征信息；

基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息。

5.根据权利要求4所述的方法，其中，所述基于所述声纹特征信息，结合计算机视觉算法生成对应的个性化图像信息，包括：

基于所述声纹特征信息确定对应的关键帧及关键数据信息；

根据所述关键帧及关键数据信息，结合计算机视觉算法生成对应的个性化图像信息。

6.根据权利要求5所述的方法，其中，所述基于所述声纹特征信息确定对应的关键帧及关键数据信息，包括：

基于预设的时间阈值提取所述声纹特征信息对应的语音帧作为对应关键帧，基于所述关键帧确定所述关键帧的关键数据信息。

7.根据权利要求6所述的方法，其中，所述关键数据信息包括以下至少任一项：

频谱；

倒频谱；

共振峰；

基音；

反射系数。

8.根据权利要求5至7中任一项所述的方法，其中，所述根据所述关键帧及关键数据信息，结合计算机视觉算法生成对应的个性化图像信息，包括：

将所述关键帧及关键数据信息导入预设的动态艺术算法中，生成对应的个性化图像信息。

9.一种在用户设备端生成个性化图像信息的方法，其中，该方法包括：

获取对应用户的语音信息；

10.根据权利要求9所述的方法，其中，所述个性化图像信息包括所述语音信息；其中，所述接收所述网络设备返回的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的，包括：

接收所述网络设备返回的、添加所述语音信息对应的访问链接信息后的个性化图像信息，其中，所述个性化图像信息由所述语音信息对应的声纹特征信息确定的。

11.根据权利要求10所述的方法，其中，所述方法还包括：

若获取到所述用户关于所述个性化图像信息的点击操作，通过音频输出装置播放所述语音信息。

12.根据权利要求11所述的方法，其中，所述个性化图像信息包括与所述语音信息时长相等的动态图像信息；所述若获取到所述用户关于所述个性化图像信息的点击操作，通过音频输出装置播放所述语音信息，包括：

若获取到所述用户关于所述个性化图像信息的点击操作，动态呈现所述个性化图像信息并通过音频输出装置同步播放所述语音信息。

13.一种在用户设备端生成个性化图像信息的方法，其中，该方法包括：

获取对应用户的语音信息；

14.一种生成个性化图像信息的方法，其中，该方法包括：

所述网络设备将所述个性化图像信息返回至所述用户设备；

15.一种生成个性化图像信息的设备，其特征在于，所述设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至12中任一项所述的方法。

16.一种在用户设备端生成个性化图像信息的设备，其特征在于，所述设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求13所述的方法。

17.一种包括指令的计算机可读介质，所述指令在被执行时使得系统进行如权利要求1至13中任一项所述方法的操作。