CN113113043A

CN113113043A - 语音转图像方法及装置

Info

Publication number: CN113113043A
Application number: CN202110381038.8A
Authority: CN
Inventors: 张楚熠; 陈堃; 罗亚明; 江文乐
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-07-13
Anticipated expiration: 2041-04-09
Also published as: CN113113043B

Abstract

本发明公开了一种语音转图像方法及装置，涉及人工智能技术领域，其中该方法包括：对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，将声学特征序列与图片素材进行关联；对输入的语音进行处理，得到输入语音的声学特征序列；确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，将最大相似度对应的图片素材作为输入语音的转换图片。本发明可以实现高效的语音转图像。

Description

语音转图像方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及语音转图像方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

语音识别是近些年来发展很快的技术，如今语音识别已经被广泛运用到人们日常生活生产之中，通过语音完成文本生成记录、操作指令识别等等。但是在语音与视觉关联应用上却并未摆脱语音识别文字的技术限制，在传统“语音转换图片”场景下还是依赖于语音识别先转换文字，再通过文字转换图片的方式，这样受限于语音识别与自然语言处理技术，效率与效果都不够好，故而提出一种高效的语音转图像系统与方法。

发明内容

本发明实施例提供一种语音转图像方法，用以解决现有技术中语音识别先转换文字，再通过文字转换图片的方式效率与效果都不够好的技术问题，该方法包括：

对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，将声学特征序列与图片素材进行关联；

对输入的语音进行处理，得到输入语音的声学特征序列；

确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，将最大相似度对应的图片素材作为输入语音的转换图片。

本发明实施例还提供一种语音转图像装置，用以解决现有技术中语音识别先转换文字，再通过文字转换图片的方式效率与效果都不够好的技术问题，该装置包括：

图像素材标注模块，用于对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，将声学特征序列与图片素材进行关联；

语音输入判别模块，用于对输入的语音进行处理，得到输入语音的声学特征序列；

语音图像匹配模块，用于确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，将最大相似度对应的图片素材作为输入语音的转换图片。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音转图像方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述语音转图像方法的步骤。

本发明实施例中，与现有技术中语音识别先转换文字，再通过文字转换图片的技术方案相比，本发明通过对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，将声学特征序列与图片素材进行关联；对输入的语音进行处理，得到输入语音的声学特征序列；确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，将最大相似度对应的图片素材作为输入语音的转换图片，这样无需语音识别先转换文字，再通过文字转换图片，而是直接通过解析语音特征与图像特性进行比对的方式，提高了识别效率，能够提供高效的转换服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中语音转图像方法流程图；

图2为本发明实施例中图像素材标注模块1的处理流程图；

图3为本发明实施例中语音输入判别模块2的处理流程图；

图4为本发明实施例中语音图像匹配模块3的处理流程图；

图5为本发明实施例中语音转图像装置结构示意图；

图6为本发明实施例中图像素材标注模块1的模块结构图；

图7为本发明实施例中语音输入判别模块2的模块结构图；

图8为本发明实施例中语音图像匹配模块3的模块结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

基于现有技术中语音识别先转换文字，再通过文字转换图片方式存在效率与效果都不够好的技术问题，本发明提出一种语音转图像方法。

图1为本发明实施例中语音转图像方法流程图，如图1所示，该方法包括：

步骤S10：对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，将声学特征序列与图片素材进行关联；

步骤S20：对输入的语音进行处理，得到输入语音的声学特征序列；

步骤S30：确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，将最大相似度对应的图片素材作为输入语音的转换图片。

在本发明实施例中，如图2所示，步骤S10对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，包括：

步骤S101：对图片素材进行多次语音标注；

步骤S102：对多次标注语音进行声学特征提取，获得多个声学特征；

步骤S103：对多个声学特征进行聚合，获得最优声学特征；

步骤S104：对所述最优声学特征进行矢量化压缩，得到矢量化的声学特征序列。

具体的，如图2所示，步骤S102还包括：

对多次标注的语音进行预处理，获得预处理后的多次标注语音。

具体的，如图2所示，步骤S101中，对一个给定的图片，由人工进行多次语音标注，将多次标注的语音作为标注输入。

步骤S102中，对所有标注输入语音进行预处理，通过滤波等操作消除噪声，将语音输入变成适合做特征提取的语音集，对语音集进行特征提取得到所有标注语音的特征；

步骤S103中，对得到的语音特征集进行聚合，通过聚合消除人工标注的脏数据影响，得到最符合人工标注的语音特征；

步骤S104中，对多维声学特征进行矢量化压缩，得到矢量化的特征序列，将得到的特征序列与图片素材进行关联。

在本发明实施例中，如图3所示，步骤S20对输入的语音进行处理，得到输入语音的声学特征序列，包括：

步骤S202：对输入的语音进行声学特征提取，得到声学特征结果；

步骤S203：对所述声学特征结果进行矢量化压缩，得到矢量化声学特征序列。

具体的，如图3所示，还包括：

步骤S201：对输入的语音进行预处理，获得预处理的语音。

具体的，如图3所示，步骤S201中，进行语音转图像时，对输入的语音首先做预处理，消除噪声及空白的影响，将语音输入转换为适合做声学特征提取的语音段；

步骤S202中，对输入的语音进行声学特征提取，得到声学特征结果；

步骤S203中，对S202中得到的声学特征，进行矢量化压缩，得到矢量化声学特征序列用于和已标注的声学特征进行匹配。

在本发明实施例中，如图4所示，步骤S30确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，包括：

步骤S301：基于隐式马尔科夫的非时序相关模型，计算输入语音的声学特征序列与图片素材对应的声学特征序列的相似度。

如图4所示，步骤S30还包括：

步骤S302：将最大相似度对应的图片素材作为输入语音的转换图片。

具体的，如图4所示，步骤S301中，对于步骤S203中得到的矢量化声学特征序列，通过基于隐式马尔科夫的非时序相关模型，对输入的特征序列计算相似度最接近的声学特征序列。

步骤S302中，对S301中计算得到的相似度最接近的声学特征序列，查找对应的标注图片素材，将该图片作为结果输出。

本发明实施例中还提供了一种语音转图像装置，如下面的实施例所述。由于该装置解决问题的原理与语音转图像方法相似，因此该装置的实施可以参见语音转图像方法的实施，重复之处不再赘述。

图5是本发明提供的一种语音转图像装置结构示意图，如图5所示，该语音转图像装置包括图像素材标注模块1、语音输入判别模块2、语音图像匹配模块3，具体来说：

图像素材标注模块1，用于对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，将声学特征序列与图片素材进行关联；

具体的，就是负责对所有作为素材的图片进行语音标注，对于每一图像，通过标注的语音输入聚合得到声学特征序列与图片素材进行关联存储。

语音输入判别模块2，用于对输入的语音进行处理，得到输入语音的声学特征序列；

具体的，就是负责对将作为转换输入的语音进行处理，得到输入语音的声学特征序列。

语音图像匹配模块3，用于确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，将最大相似度对应的图片素材作为输入语音的转换图片；

具体的，就是负责对语音输入判别模块2中获得到的声学特征序列，使用模型计算出与素材库中相似度最接近的序列，将该序列对应的图片输入作为转换得到的图片。

在本发明实施例中，图像素材标注模块1具体用于：

对图片素材进行多次语音标注；

对多次标注语音进行声学特征提取，获得多个声学特征；

对多个声学特征进行聚合，获得最优声学特征；

对所述最优声学特征进行矢量化压缩，得到矢量化的声学特征序列。

图像素材标注模块1具体用于：

若从功能单元来描述，则如图6所示，图像素材标注模块1包括语音标注获取单元11、声学特征提取单元12、特征聚合单元13、特征矢量化单元14，具体来说：

语音标注获取单元11，负责对作为素材的图片，收集人工语音标注的语音集，进行预处理消除噪声转换为适合提取声学特征的标注语音。

声学特征提取单元12，负责对图片标注的语音，进行声学特征提取，提取到的声学特征用于标识声音特征。

特征聚合单元13，负责对12中提取到的所有特征进行聚合，通过聚合得到最符合标注结果的特征，作为多个语音标注的最终特征。

特征矢量化单元14，负责对13中聚合得到的特征进行矢量化压缩，得到矢量化的声学特征序列。

在本发明实施例中，语音输入判别模块2具体用于：

对输入的语音进行声学特征提取，得到声学特征结果；

对所述声学特征结果进行矢量化压缩，得到矢量化声学特征序列。

语音输入判别模块2具体用于：

对输入的语音进行预处理，获得预处理的语音。

若从功能单元来描述，则如图7所示，语音输入判别模块2包括语音输入单元21、声学特征提取单元22、矢量转化单元23，具体来说：

语音输入单元21，负责采集需要转换图像的语音输入，对语音输入做预处理，进行噪声消除，转换为适合进行特征提取的语音。

声学特征提取单元22，负责对输入的语音进行声学特征提取，得到声学特征。

矢量转化单元23，负责对22中提取的声学特征，进行矢量化压缩得到矢量化声学特征序列。

在本发明实施例中，语音图像匹配模块3具体用于

基于隐式马尔科夫的非时序相关模型，计算输入语音的声学特征序列与图片素材对应的声学特征序列的相似度。

若从功能单元来描述，则如图8所示，语音图像匹配模块3包括特征序列对比单元31、图像选择输出单元32，具体来说：

特征序列对比单元31，负责通过模型计算将输入语音得到的特征序列与标记序列集进行比对计算，计算出与输入语音特征序列最相似的序列。

图像选择输出单元32，负责通过计算得到的与输入最相似的序列，找到素材库中对应的图片作为结果输出。

本发明实施例中，与现有技术中语音识别先转换文字，再通过文字转换图片的技术方案相比，本发明通过对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，将声学特征序列与图片素材进行关联；对输入的语音进行处理，得到输入语音的声学特征序列；确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，将最大相似度对应的图片素材作为输入语音的转换图片，这样可以在不进行语音文本识别的前提下实现语音与图像的关联，产生以下价值优点：

1、通过解析语音特征与图像特性进行比对的方式，提高了识别效率，能够提供高效的转换服务。

2、通过语音统一处理的方式，用抽象的声学特征序列进行比对，消除了语素转义难点，消除了不同类语言混合场景的识别难点，对中/外语混合语音有较好的处理结果。

3、通过语音统一处理的方式，用抽象的声学特征序列进行比对，消除了词性识别的难点，对混合短语有较好的处理结果。

使用此方法及装置可以针对一段短的语音输入高效获取素材库中对应含义的图像，可以在教育、娱乐、社交等场景的语音沟通中迅速通过语音关联图像，提升视觉观感丰富交流能力。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音转图像方法，其特征在于，包括：

对输入的语音进行处理，得到输入语音的声学特征序列；

2.如权利要求1所述的语音转图像方法，其特征在于，对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，包括：

对图片素材进行多次语音标注；

对多次标注语音进行声学特征提取，获得多个声学特征；

对多个声学特征进行聚合，获得最优声学特征；

3.如权利要求2所述的语音转图像方法，其特征在于，对图片素材进行语音标注，对标注的语音进行聚合得到声学特征序列，还包括：

4.如权利要求1所述的语音转图像方法，其特征在于，对输入的语音进行处理，得到输入语音的声学特征序列，包括：

对输入的语音进行声学特征提取，得到声学特征结果；

5.如权利要求4所述的语音转图像方法，其特征在于，对输入的语音进行处理，得到输入语音的声学特征序列，还包括：

对输入的语音进行预处理，获得预处理的语音。

6.如权利要求1所述的语音转图像方法，其特征在于，确定输入语音的声学特征序列与图片素材对应的声学特征序列的相似度，包括：

7.一种语音转图像装置，其特征在于，包括：

8.如权利要求7所述的语音转图像装置，其特征在于，图像素材标注模块具体用于：

对图片素材进行多次语音标注；

对多次标注语音进行声学特征提取，获得多个声学特征；

对多个声学特征进行聚合，获得最优声学特征；

9.如权利要求8所述的语音转图像装置，其特征在于，图像素材标注模块具体用于：

10.如权利要求7所述的语音转图像装置，其特征在于，语音输入判别模块具体用于：

对输入的语音进行声学特征提取，得到声学特征结果；

11.如权利要求10所述的语音转图像装置，其特征在于，语音输入判别模块具体用于：

对输入的语音进行预处理，获得预处理的语音。

12.如权利要求7所述的语音转图像装置，其特征在于，语音图像匹配模块具体用于

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述语音转图像方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任一所述语音转图像方法的步骤。