CN115482833A

CN115482833A - 语音可视化方法及装置

Info

Publication number: CN115482833A
Application number: CN202211111612.9A
Authority: CN
Inventors: 庞连宾
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-16

Abstract

本发明公开了一种语音可视化方法及装置，涉及人工智能技术领域。其中该方法包括：获取采集到的朗读第一文本的语音数据；计算语音数据在每个时段内的语音音量；在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色。本发明可以通过将朗读的音量可视化的方式增加朗读过程中的感觉维度。

Description

语音可视化方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及语音可视化方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

朗诵者在朗诵、朗读文章文档过程中，听声音与看文章是需要耳朵、眼睛两个感官器官分开完成，声音是通过听觉来感受，声音的感受来源单一。

发明内容

本发明实施例提供一种语音可视化方法，用以通过将朗读的音量可视化的方式增加朗读过程中的感觉维度，改善用户体验，该方法包括：

获取采集到的朗读第一文本的语音数据；

计算语音数据在每个时段内的语音音量；

在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色。

可选地，计算语音数据在每个时段内的语音音量可以包括：

按照预设时间间隔将语音数据划分为多个时段的语音子数据；

计算每个时段的语音子数据内语音的平均音量。

可选地，在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色可以包括：

通过语音识别将语音数据转换为第二文本；

对齐第二文本和第一文本，以对齐第一文本和语音数据；

根据第一文本和语音数据的对齐结果，计算第一文本中不同位置处对应的语音数据的语音音量；

针对不同位置标记与语音音量对应的颜色。

可选地，对齐第二文本和第一文本，以对齐第一文本和语音数据可以包括：

基于自然语言处理技术，将第一文本切分为多个分词；

确定第一文本中每个分词在第二文本中对应的文字内容，并确定对应的文字内容在语音数据中对应的起止时刻。

本发明实施例还提供一种语音可视化装置，用以通过将朗读的音量可视化的方式增加朗读过程中的感觉维度，改善用户体验，该装置包括：

获取单元，用于获取采集到的朗读第一文本的语音数据；

计算单元，用于计算语音数据在每个时段内的语音音量；

标记单元，用于在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色。

可选地，计算单元可以包括：

第一划分子单元，用于按照预设时间间隔将语音数据划分为多个时段的语音子数据；

第一计算子单元，用于计算每个时段的语音子数据内语音的平均音量。

可选地，标记单元可以包括：

转换子单元，用于通过语音识别将语音数据转换为第二文本；

对齐子单元，用于对齐第二文本和第一文本，以对齐第一文本和语音数据；

第二计算子单元，用于根据第一文本和语音数据的对齐结果，计算第一文本中不同位置处对应的语音数据的语音音量；

标记子单元，用于针对不同位置标记与语音音量对应的颜色。

可选地，对齐子单元可以包括：

第二划分子单元，用于基于自然语言处理技术，将第一文本切分为多个分词；

确定子单元，用于确定第一文本中每个分词在第二文本中对应的文字内容，并确定对应的文字内容在语音数据中对应的起止时刻。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音可视化方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音可视化方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述语音可视化方法。

本发明实施例中，通过获取采集到的朗读第一文本的语音数据，计算语音数据在每个时段内的语音音量，在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色，与现有技术中的技术方案相比，通过颜色标记朗读的语音音量，可以将朗读的音量可视化，从而增加朗读过程中的感觉维度，改善用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种语音可视化方法的流程示意图一；

图2为本发明实施例中提供的一种语音可视化方法的流程示意图二；

图3为本发明实施例中提供的一种语音可视化方法的流程示意图三；

图4为本发明实施例中提供的一种语音可视化方法的流程示意图四；

图5为本发明实施例中提供的一种语音可视化装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

本发明实施例中提供了一种语音可视化方法，图1示出了本发明一个实施例提供的语音可视化方法的流程示意图一。如图1所示，该方法可以包括如下步骤：

步骤101，获取采集到的朗读第一文本的语音数据。

本发明实施例提供的语音可视化方法可以通过电子设备执行。朗读第一文本的语音数据可以通过声音采集模块采集，可选地，声音采集模块可以集成于电子设备中，例如，可以通过手机的麦克风采集用户朗读第一文本的语音数据。可选地，第一文本可以是在显示模块上显示，例如，可以在手机的屏幕上显示第一文本，并同时通过麦克风采集语音数据。

步骤102，计算语音数据在每个时段内的语音音量。

在获取到语音数据之后，可以基于预设的时间间隔将语音数据划分为多个时段，计算每个时段的语音音量。

具体来说，步骤102计算语音数据在每个时段内的语音音量可以包括如图2所示的如下步骤：

步骤201，按照预设时间间隔将语音数据划分为多个时段的语音子数据；

步骤202，计算每个时段的语音子数据内语音的平均音量。

步骤103，在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色。

在得到每个时段的语音音量之后，可以在第一文本中不同的文字内容中标记颜色，颜色是与朗读至该文本内容时的语音音量对应的，不同音量对应不同的颜色。

例如，可以预定义音量大小与颜色的关系，将第一文本按照固定时间间隔分成N份，在采集并计算出每个时段的朗读声音(语音)音量大小之后，根据音量大小查询对应的颜色，进而，可以根据每个时段的朗读时间，确定出对应的文字内容，进而在对应的文字内容的背景位置设置与音量对应的背景颜色。

在另一个可选的实施方式中，步骤103在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色可以包括如图3所示的如下步骤：

步骤301，通过语音识别将语音数据转换为第二文本。

语音数据转换为文本可以通过语音识别技术进行识别。

步骤302，对齐第二文本和第一文本，以对齐第一文本和语音数据。

由于朗读者的口音和语音识别技术等限制，识别语音数据得到的第二文本可能和第一文本是有区别的，这时，可以基于相同的部分将第一文本和第二文本进行对齐。由于第二文本是语音数据经过语音识别转换得到的，因此时间上是对齐的，这样，将第一文本和第二文本进行对齐之后，可以对齐第一文本和语音数据。

可选地，在对齐第二文本和第一文本，以对齐第一文本和语音数据时，可以基于自然语言处理技术，将第一文本切分为多个分词，进而确定第一文本中每个分词在第二文本中对应的文字内容，并确定对应的文字内容在语音数据中对应的起止时刻。

步骤303，根据第一文本和语音数据的对齐结果，计算第一文本中不同位置处对应的语音数据的语音音量。

不同位置可以是基于对语音数据划分出的相同时间间隔区分的，也可以是基于文本划分的，例如，可以以字为单位，或者，以分词为单位，计算每个单位对应的语音数据的音量。

举例来说，可以根据第一文本的分词结果，计算朗读每个分词时的音量，具体来说，可以确定每个分词在语音数据中对应的起止时刻，进而确定用户朗读每个分词时的语音音量。

步骤304，针对不同位置标记与语音音量对应的颜色。

查找到语音音量对应的颜色之后，可以在不同位置处标记对应的颜色。

本发明实施例提供的语音可视化方法可以通过语音可视化装置实现，语音可视化装置从功能上区分，可以包括声音获取模块，音量转换模块，文字定位模块和文字背景颜色调整模块。其中，声音获取模块可以用于获取朗读者声音，计算出每个时间间隔内平均音量大小，音量转换颜色模块可以用于根据每个时间间隔的音量大小，预设的音量与颜色的关系，计算出对应的颜色，文字定位模块可以用于根据朗读时间、时间间隔设置计算定位到文字的位置，文字背景颜色调整模块可以用于根据定位到的文字，背景颜色动态设置成需转换的颜色。

通过上述的功能模块实现语音可视化方法的流程可以如图4所示，进行说明如下：

通过声音获取模块，获取朗读者声音，转化为声音文件，再以TI＝0.2秒的时间间隔为单位，截取声音文件，再对每个时间间隔内取开始时间TS、中间时间TM、结束时间TE这3个时间点的音量大小S(T)，计算时间间隔内的平均音量大小：

S(avg)＝(S(TS)+S(TM)+S(TE))/3。

通过音量转换模块，可以根据平均音量大小S(avg)，以及预设的音量与颜色的映射关系tansferColor(S)，计算出每个时间间隔对应的颜色值：

Color_i＝tansferColor(S(avg)_i)，i＝1，……，W，W＝T/TI。

通过文字定位模块，可以根据当前朗读的时间(秒)T、时间间隔TI，可以计算出位于第i个位置的背景颜色。

通过文字背景颜色调整模块可以根据音量转换模块计算得到的颜色、文字定位模块计算得到的文字位置，设置位置i的背景颜色为Color_i。

本发明实施例可以通过识别音量变化调节背景颜色可视化的方法，增加一种声音的感受来源，通过颜色变化的视觉感受来增强声音的感受性，实现朗读整体的音量变换可视化，有效提升朗读的体验。

本发明实施例中还提供了一种语音可视化装置，如下面的实施例所述。由于该装置解决的问题及原理与本发明实施例提供的语音可视化方法相似，因此该装置的实施可以参见语音可视化方法的实施，重复之处不再赘述。

如图5所示，本发明实施例提供的一种语音可视化装置可以包括获取单元10，计算单元20和标记单元30。

获取单元10用于获取采集到的朗读第一文本的语音数据；

计算单元20用于计算语音数据在每个时段内的语音音量；

标记单元30用于在第一文本中，针对每个时段对应的文字内容标记与语音音量对应的颜色。

可选地，计算单元20可以包括：

可选地，标记单元30可以包括：

可选地，对齐子单元可以包括：

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定，本申请获取的个人、客户和人群等相关的个人身份数据、操作数据、行为数据等多种类型的数据，均已获得授权。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音可视化方法，其特征在于，包括：

获取采集到的朗读第一文本的语音数据；

计算所述语音数据在每个时段内的语音音量；

在所述第一文本中，针对每个时段对应的文字内容标记与所述语音音量对应的颜色。

2.如权利要求1所述的方法，其特征在于，所述计算所述语音数据在每个时段内的语音音量，包括：

按照预设时间间隔将所述语音数据划分为多个时段的语音子数据；

计算每个时段的语音子数据内语音的平均音量。

3.如权利要求1所述的方法，其特征在于，所述在所述第一文本中，针对每个时段对应的文字内容标记与所述语音音量对应的颜色，包括：

通过语音识别将所述语音数据转换为第二文本；

对齐所述第二文本和所述第一文本，以对齐所述第一文本和所述语音数据；

根据所述第一文本和所述语音数据的对齐结果，计算所述第一文本中不同位置处对应的语音数据的语音音量；

针对不同位置标记与所述语音音量对应的颜色。

4.如权利要求3所述的方法，其特征在于，所述对齐所述第二文本和所述第一文本，以对齐所述第一文本和所述语音数据，包括：

基于自然语言处理技术，将所述第一文本切分为多个分词；

确定所述第一文本中每个分词在所述第二文本中对应的文字内容，并确定所述对应的文字内容在所述语音数据中对应的起止时刻。

5.一种语音可视化装置，其特征在于，包括：

获取单元，用于获取采集到的朗读第一文本的语音数据；

计算单元，用于计算所述语音数据在每个时段内的语音音量；

标记单元，用于在所述第一文本中，针对每个时段对应的文字内容标记与所述语音音量对应的颜色。

6.如权利要求5所述的装置，其特征在于，所述计算单元包括：

第一划分子单元，用于按照预设时间间隔将所述语音数据划分为多个时段的语音子数据；

7.如权利要求5所述的装置，其特征在于，所述标记单元包括：

转换子单元，用于通过语音识别将所述语音数据转换为第二文本；

对齐子单元，用于对齐所述第二文本和所述第一文本，以对齐所述第一文本和所述语音数据；

第二计算子单元，用于根据所述第一文本和所述语音数据的对齐结果，计算所述第一文本中不同位置处对应的语音数据的语音音量；

标记子单元，用于针对不同位置标记与所述语音音量对应的颜色。

8.如权利要求7所述的装置，其特征在于，所述对齐子单元包括：

第二划分子单元，用于基于自然语言处理技术，将所述第一文本切分为多个分词；

确定子单元，用于确定所述第一文本中每个分词在所述第二文本中对应的文字内容，并确定所述对应的文字内容在所述语音数据中对应的起止时刻。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一所述方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至4任一所述方法。