CN113112575A

CN113112575A - 一种口型生成方法、装置、计算机设备及存储介质

Info

Publication number: CN113112575A
Application number: CN202110378990.2A
Authority: CN
Inventors: 刘莎; 贺明泉; 杨爱; 高玥
Original assignee: Shenzhen Shanshui Original Animation Culture Co ltd
Current assignee: Shenzhen Shanshui Original Animation Culture Co ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-13
Anticipated expiration: 2041-04-08
Also published as: CN113112575B

Abstract

本申请涉及一种口型生成方法、装置、计算机设备及存储介质，口型生成方法包括以下步骤：获取语音信息；对语音信息进行识别，以得到文字信息，并确认该文字信息对应的状态信息；对文字信息进行识别，得到该文字信息对应的拼音字符串，并将拼音字符串划分为声母音素和韵母音素；从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型，并根据声母口型、韵母口型合成相应的汉字口型；根据状态信息调整汉字口型的开口幅度，并控制角色模型作出相应的口型动作。本申请具有提高口型匹配的精准度的效果。

Description

一种口型生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及动画生成技术领域，尤其是涉及一种口型生成方法、装置、计算机设备及存储介质。

背景技术

随着动画等娱乐产业的发展，在各种动画视频中，通常会涉及到一些图像显示需要与音频互相配合的对话场景，在对话场景中，常常需要播放场景角色对话的声音，及呈现与对话音频相配合的场景角色口型。

目前，一般通过声音或文字自动给场景角色配口型，最根本的是文字匹配口型。其中，声音会转换成文字，再从预存的口型库中找到对应文字的口型，然后由控制器去控制角色模型作出相应的口型动作。

针对上述中的相关技术，发明人认为存在有以下缺陷：口型库内的口型是不变的，而人们处于不同的状态时，其说话时口型会有一定的变化，导致口型匹配的精准度不高。

发明内容

为了提高口型匹配的精准度，本申请提供了一种口型生成方法、装置、计算机设备及存储介质。

第一方面，本申请提供一种口型生成方法，采用如下的技术方案：

一种口型生成方法，包括以下步骤：

获取语音信息；

对语音信息进行识别，以得到文字信息，并确认该文字信息对应的状态信息；

对文字信息进行识别，得到该文字信息对应的拼音字符串，并将拼音字符串划分为声母音素和韵母音素；

从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型，并根据声母口型、韵母口型合成相应的汉字口型；

根据状态信息调整汉字口型的开口幅度，并控制角色模型作出相应的口型动作。

通过采用上述技术方案，导入音频文件，对语音信息进行识别，得到相应的文字信息，并得到文字信息对应的拼音字符串，将拼音字符串划分为声母音素和韵母音素，根据声母口型、韵母口型合成相应的汉字口型。通过设置声母口型和韵母口型，更符合人们的日常发音，可提高口型匹配的精准度。同时，根据说话时的状态来调整口型的开口幅度，可进一步提高口型匹配的精准度。

可选的，所述确认该文字信息对应的状态信息，包括：

对文字信息进行分句，得到分句文字；

获取分句文字中的实时语速和实时音频，对实时语速和实时音频进行分析，根据分析结果得到该分句文字对应的状态信息，所述状态信息包括平常状态和激动状态。

通过采用上述技术方案，人们处于激动的时候，其说话的语速、音频与平常的不同，通过对实时语速和实时音频进行分析，进而可判断该分句文字所处的状态。

可选的，所述获取分句文字中的实时语速和实时音频，对实时语速和实时音频进行分析，根据分析结果得到该分句文字对应的状态信息，所述状态信息包括平常状态和激动状态，包括：

获取分句文字的总用时及分句文字的字数，根据总用时和字数得到该分句文字的实时语速，将该实时语速与预设语速进行对比；

识别分句文字的实时音频，将实时音频与预定音频进行比对，并记录实时音频高于预定音频的超频时间；

当实时语速大于预设语速，且超频时间大于总用时的二分之一，则判断为激动状态；否则，判断为平常状态。

通过采用上述技术方案，人们处于激动的时候，其说话的语速比平常的快，说话的音频会比平常的高，通过对实时语速进行检测，及记录超频时间，当同时满足实时语速大于预设语速和超频时间大于总用时的二分之一时，则判断此时的状态处于激动状态。通过利用两个条件进行判断，可提高判断的精准度。

可选的，所述对文字信息进行分句，得到分句文字，包括：

识别停顿信号，根据停顿信号对文字信息进行分句。

通过采用上述技术方案，人们在说话时会存在停顿，对停顿进行识别，然后对文字信息进行分句，可对文字信息进行分句匹配口型。

可选的，所述对文字信息进行分句，得到分句文字，包括：

记录分句文字中各汉字的起始帧和结束帧。

通过采用上述技术方案，记录各汉字的起始帧和结束帧，根据起始帧和结束帧进行匹配口型，使口型和语音的同步性好。

可选的，所述根据状态信息调整汉字口型的开口幅度，并控制角色模型作出相应的口型动作，具体为：

若处于平常状态，则汉字口型的开口幅度不变；若处于激动状态，则汉字口型的开口幅度为平常状态时开口幅度的120%；

根据汉字口型、开口幅度、起始帧和结束帧，控制角色模型在相应的时间点作出相应汉字的口型动作。

通过采用上述技术方案，确认状态信息，根据状态信息控制角色模型的汉字口型的开口幅度，可提高口型匹配的精准度。同时，根据起始帧、结束帧控制角色模型作出口型动作的开始与结束，可提高口型和语音的同步性。

第二方面，本申请提供一种口型生成装置，采用如下的技术方案：

一种口型生成装置，包括：

语音模块：用于获取语音信息；

文字模块：用于对语音信息进行识别，以得到文字信息，并确认该文字信息对应的状态信息；

声母韵母模块：用于对文字信息进行识别，得到该文字信息对应的拼音字符串，并将拼音字符串划分为声母音素和韵母音素；

口型生成模块：用于从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型，并根据声母口型、韵母口型合成相应的汉字口型；

处理模块：用于根据状态信息调整汉字口型的开口幅度，并控制角色模型作出相应的口型动作。

第三方面，本申请提供一种计算机设备，采用如下的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行上述任一项方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一项方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

1.对语音信息进行识别，得到相应的文字信息，并根据文字划分声母音素和韵母音素，根据声母口型、韵母口型合成相应的汉字口型；通过设置声母口型和韵母口型，更符合人们的日常发音，可提高口型匹配的精准度。同时，根据说话时的状态来调整口型的开口幅度，可进一步提高口型匹配的精准度。

2.根据起始帧、结束帧控制角色模型作出口型动作的开始与结束，可提高口型和语音的同步性。

附图说明

图1是本申请中一实施例的一种口型生成方法的流程图；

图2是本申请中另一实施例的一种口型生成方法的流程图；

图3是图2中S21和S22的流程图；

图4是图2中S5的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图1-4及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例公开一种口型生成方法。参照图1，口型生成方法包括以下步骤：

S1：获取语音信息。

具体的，导入相应对话的语音文件，语音文件的格式可以为MP3格式、MP3Pro格式和WMA格式等。

S2：对语音信息进行识别，以得到文字信息，并确认该文字信息对应的状态信息。

具体的，播放语音文件，将相应的语音翻译成文字，并对文字进行保存，进而得到文字信息。通过对语音信息中的语速和音频进行识别，进而确定对话的状态信息。

S3：对文字信息进行识别，得到该文字信息对应的拼音字符串，并将拼音字符串划分为声母音素和韵母音素。

具体的，将相应的语音翻译成文字后，通过利用了Python代码中的pypinyin模块将各文字转换成拼音字符串，同样利用pypinyin模块将拼音字符串划分为声母音素和韵母音素。其中，声母音素包括：b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w；韵母音素包括：a、o、e、i、u、ü、ai、ei、ui、ao、ou、iu、ie、üe、er、an、en、in、un、ün、ang、eng、ing、ong。

例如，由语音翻译得到的文字内容为“你”，“你”对应的拼音字符串为“ni”，“ni”对应的声母音素、韵母音素分别为“n”和“i”。由语音翻译得到的文字内容为“我们”，“我们”对应的拼音字符串为“wo，men”，“wo，men”的声母音素为“w”和“m”，韵母音素为“o”和“en”。

S4：从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型，并根据声母口型、韵母口型合成相应的汉字口型。

具体的，根据声母音素、韵母音素的发音制作相应的声母口型、韵母口型，然后将声母口型、韵母口型保存在口型库中，声母音素、韵母音素和声母口型、韵母口型一一对应。通过在口型库中查找到对应的声母口型和韵母口型，根据声母口型、韵母口型合成各个文字对应的汉字口型。角色模型的口部位置设置有不同的控制点，通过控制器控制不同的控制点，使角色模型可以作出相应口型动作。

例如，由语音翻译得到的文字为“我们的自豪”，“我们的自豪”对应的拼音字符串为“wo，men，de，zi，hao”，在口型库中，找到声母音素“w”、韵母音素“o”对应的声母口型和韵母口型，控制角色模型先后作出“w”和“o”的口型，两个口型连续起来，则合成了单个“我”的汉字口型；同理，可得到“们”、“的”、“自”、“豪”的汉字口型，将这些汉字口型连起来，即可得到“我们的自豪”对应的一系列的口型。

S5：根据状态信息调整汉字口型的开口幅度，并控制角色模型作出相应的口型动作。

具体的，状态信息包括平常状态和激动状态。当处于平常状态时，汉字口型的开口幅度与对应汉字的声母口型、韵母口型的开口幅度相同；当处于激动状态，控制角色模型，使最终的汉字口型的开口幅度大于对应汉字的声母口型、韵母口型的开口幅度。

可选的，参照图2，在S2中，确认该文字信息对应的状态信息包括以下步骤：

S21：对文字信息进行分句，得到分句文字。

S22：获取分句文字中的实时语速和实时音频，对实时语速和实时音频进行分析，根据分析结果得到该分句文字对应的状态信息，所述状态信息包括平常状态和激动状态。

具体的，通过句子中的停顿，将大段的文字分成一句句的分句文字，并保存分句文字。人们处于激动状态时，说话的语速、音频比平常状态的语速、音频高，通过分析实时语速和实时音频，得到该分句文字的说话时所处的状态信息。

可选的，参照图3，在S21中，包括以下步骤：

S211：识别停顿信号，根据停顿信号对文字信息进行分句。

具体的，人们在说话时，在换气和在句子的句尾时会停顿，通过识别到停顿信号，在有停顿信号的位置对文字信息进行分句。例如，语音内容为“问君能有几多愁，恰似一江春水向东流”，在念到“愁”字时，会停顿一下，然后再念后面的内容，此时，识别到该停顿信号，则得到分句文字分别为“愁问君能有几多愁”和“恰似一江春水向东流”。

S212：记录分句文字中各汉字的起始帧和结束帧。

具体的，帧是影像、动画中最小单位的单幅影像画面，相当于电影胶片上的每一格镜头，一帧就是一幅静止的画面，连续的帧就形成影像、动画。播放动画和语音时，起始帧是分句文字中的汉字刚发出音的那个定格的画面，结束帧是该汉字发音完毕后那个定格的画面。例如，“我”的声母音素为“w”，韵母音素为“o”，当“我”发音完毕，动画已经播放了若干张画面，当刚发出声母音素为“w”的时候，此刻的画面为起始帧，当韵母音素为“o”发音完毕的时候，此刻的画面为结束帧。

可选的，在S23中，包括以下步骤：

S221：获取分句文字的总用时及分句文字的字数，根据总用时和字数得到该分句文字的实时语速，将该实时语速与预设语速进行对比。

S222：识别分句文字的实时音频，将实时音频与预定音频进行比对，并记录实时音频高于预定音频的超频时间。

S223：当实时语速大于预设语速，且超频时间大于总用时的二分之一，则判断为激动状态；否则，判断为平常状态。

具体的，设定一个预设语速，将该预设语速存储在存储器中。播放分句文字的语音，从分句文字首个汉字的发音到该分句文字最后的汉字发音完毕，记录该过程的总用时，然后获取分句文字的总字数，实时语速=总用时/总字数；例如，“松下问童子”的总用时为2秒，“松下问童子”的字数为5个，计算得到实时语速为分钟150字。

设定一个预设音频，将该预设音频存储在存储器中。获取分句文字的声谱图，将实时的实时音频与预设音频进行对比，超频时间为实时音频高于预定音频的时间的总和。

例如，预设语速为每分钟150字，预设音频为50HZ，分句文字的总用时为2秒。若分句文字的实时语速为每分钟210字，超频时间为1.5秒，此时，210>150，1.5>1，则处于激动状态。

若分句文字的实时语速为每分钟130字，超频时间为1.5秒，此时，130<150，1.5>1，则处于平常状态。

若分句文字的实时语速为每分钟210字，超频时间为0.8秒，此时210>150，0.8<1，则处于平常状态。

若分句文字的实时语速为每分钟130字，超频时间为0.8秒，此时，130<150，0.8<1，则处于平常状态。

可选的，参照图4，在S5中，具体包括：

S51：若处于平常状态，则汉字口型的开口幅度不变；若处于激动状态，则汉字口型的开口幅度为平常状态时开口幅度的120%。

S52：根据开口幅度、起始帧和结束帧，控制角色模型在相应的时间点作出相应汉字的口型动作。

具体的，当处于平常状态时，该汉字对应的声母口型、韵母口型的开口幅度不变，融合后的汉字口型的开口幅度不变，控制角色模型作出口型动作的开口幅度也不变。当处于激动状态时，使汉字的声母口型、韵母口型的开口幅度增大到120%，融合后的汉字口型的开口幅度相应增大到120%。

例如，得到分句文字的内容为“我们的爱”，找到“我”、“们”、“的”、“爱”分别对应的声母口型和韵母口型，记录“我”、“们”、“的”、“爱”的起始帧和结束帧。若处于平常状态，回到“我”的起始帧画面位置，我”的声母口型和韵母口型的开口幅度为100%，根据“我”的声母口型和韵母口型，控制角色模型作出“我”的汉字口型，整个“我”的汉字口型动作从“我”的起始帧画面位置延续到“我”的结束帧画面，同样完成其他汉字的口型，直到“爱”的结束帧画面，进而得到平常状态的“我们的爱”的一系列口型。

若处于激动状态，回到“我”的起始帧画面位置，“我”的声母口型和韵母口型的开口幅度为120%，根据“我”的声母口型和韵母口型，控制角色模型作出“我”的汉字口型，整个“我”的汉字口型动作从“我”的起始帧画面位置延续到“我”的结束帧画面，同样完成其他汉字的口型，直到“爱”的结束帧画面，进而得到激动状态的“我们的爱”的一系列口型。

本申请实施例还公开了一种口型生成装置，包括：

语音模块：用于获取语音信息。

文字模块：用于对语音信息进行识别，以得到文字信息，并确认该文字信息对应的状态信息。

声母韵母模块：用于对文字信息进行识别，得到该文字信息对应的拼音字符串，并将拼音字符串划分为声母音素和韵母音素。

口型生成模块：用于从预存的口型库内找出与声母音素、韵母音素对应的声母口型和韵母口型，并根据声母口型、韵母口型合成相应的汉字口型。

本申请实施例还公开了一种计算机设备，包括存储器和处理器，存储器上存储有能够被处理器加载并执行上述方法的计算机程序。

本申请实施例还公开了一种计算机可读存储介质，储有能够被处理器加载并执行上述方法的计算机程序。所述计算机可读存储介质例如包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，本说明书（包括摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种口型生成方法，其特征在于，包括以下步骤：

获取语音信息；

2.根据权利要求1所述的一种口型生成方法，其特征在于：所述确认该文字信息对应的状态信息，包括：

对文字信息进行分句，得到分句文字；

3.根据权利要求2所述的一种口型生成方法，其特征在于：所述获取分句文字中的实时语速和实时音频，对实时语速和实时音频进行分析，根据分析结果得到该分句文字对应的状态信息，所述状态信息包括平常状态和激动状态，包括：

4.根据权利要求2所述的一种口型生成方法，其特征在于：所述对文字信息进行分句，得到分句文字，包括：

识别停顿信号，根据停顿信号对文字信息进行分句。

5.根据权利要求2所述的一种口型生成方法，其特征在于：所述对文字信息进行分句，得到分句文字，包括：

记录分句文字中各汉字的起始帧和结束帧。

6.根据权利要求5所述的一种口型生成方法，其特征在于：所述根据状态信息调整汉字口型的开口幅度，并控制角色模型作出相应的口型动作，具体为：

7.一种口型生成装置，其特征在于，包括：

语音模块：用于获取语音信息；

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至6中任一项方法的计算机程序。

9.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至6中任一项方法的计算机程序。