CN114615612B

CN114615612B - 文本与音频呈现处理方法及装置

Info

Publication number: CN114615612B
Application number: CN202210089504.XA
Authority: CN
Inventors: 朱风云; 陈博
Original assignee: Dalian Real Time Intelligent Technology Co ltd
Current assignee: Dalian Real Time Intelligent Technology Co ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2024-07-09
Anticipated expiration: 2042-01-26
Also published as: CN114615612A

Abstract

本发明公开了一种文本与音频呈现处理方法，包括：脚本编辑器生成混音脚本；音效处理器获取混音脚本，根据混音脚本对段落施加音效处理；混音器获取混音脚本，根据混音脚本对段落执行混音操作得到混音结果并输出至播放器；播放器播放混音结果。此外，本发明还公开了一种文本与音频呈现处理装置。采用本发明可以实现书籍听读一体的文本与音频呈现，通过混音脚本将音频数据结构化，并建立音频与文字之间的联系。

Description

文本与音频呈现处理方法及装置

技术领域

本发明涉及录音技术领域，特别涉及一种文本与音频呈现处理方法及文本与音频呈现处理装置。

背景技术

如今，一本书可能存在文字版本和音频版本两种形式。传统阅读软件只呈现文字版本。传统听书软件只能呈现音频版本。

随着听书形式的普及，用户需要一种可以在阅读和收听之间无缝切换的新模式。例如在一种日常场景中，用户晚上在家阅读书籍的文字版，第二天早上开车从昨晚读到的地方继续收听书籍的音频版，下午再从早上听到的地方继续阅读文字版。问题在于，现有技术中书籍的文字版和音频版的制作是两个独立的过程，即其音频版是独立的音频数据，和文字版之间没有任何联系。为了实现听读一体的文本与音频呈现，则需要将音频数据结构化，并建立音频与文字之间的联系。

发明内容

基于此，为解决现有技术中的技术问题，特提出了一种文本与音频呈现处理方法，包括：

步骤1，脚本编辑器生成混音脚本；所述混音脚本包括一个或多个段落；

步骤2，音效处理器获取混音脚本，根据混音脚本对段落施加音效处理；

步骤3，混音器获取混音脚本，根据混音脚本对段落执行混音操作得到混音结果并输出至播放器；

步骤4，所述播放器播放混音结果。

在一种实施例中，生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式；

所述段落包括文本段落、音频段落；所述文本段落包括所述混音脚本的正文文本，以及该文本段落对应配音员根据正文文本配音演绎的录音素材；所述文本段落包括前景文本段落、背景文本段落；

所述音频段落包括一种或多种音频素材及对音频素材的段落操作；每个音频段落对应一个音频素材；所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音；

对音频素材的段落操作包括开始操作、结束操作；音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束。

在一种实施例中，所述混音器包括主轨道、辅轨道，所述主轨道和所述辅轨道分别用于承载不同类型的段落；

在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、静音的音频段落；在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落；

所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序；所述主轨道中的段落之间不存在时间上的重叠，前一段落结束后立即播放下一段落；所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落；所述辅轨道中的段落与主轨道中的段落在时间上存在重叠，并且所述辅轨道中的段落相互之间在时间上也存在重叠；

所述辅轨道中段落播放的开始时间由混音脚本中该段落前一主轨道段落的结束时间决定；

所述辅轨道中段落播放的结束时间由混音脚本中该段落前一个主轨道段落的结束时间决定。

在一种实施例中，所述音效处理器对音频段落施加一个或多个音效处理；音效处理具有对应的操作参数；音效处理包括整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩。

在一种实施例中，所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳；所述时间戳包括开始时间戳和结束时间戳；

所述时间戳用于基于语义的音频内容定位；根据时间戳从音频时刻定位对应的文本段落，或者从文本段落定位对应的音频时刻。

此外，还提出了一种文本与音频呈现处理装置，包括依次相互连接的脚本编辑器、音效处理器、混音器、播放器；

所述脚本编辑器生成混音脚本；

其中，生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式；所述音效处理器获取混音脚本，根据混音脚本对段落施加音效处理；

所述混音器获取混音脚本，根据混音脚本执行混音操作得到混音结果并输出至所述播放器；

其中，所述混音器包括主轨道、辅轨道，所述主轨道和所述辅轨道分别用于承载不同类型的段落；

所述播放器播放混音结果。

在一种实施例中，所述段落包括文本段落、音频段落；所述文本段落包括所述混音脚本的正文文本，以及该文本段落对应配音员根据正文文本配音演绎的录音素材；所述文本段落包括前景文本段落、背景文本段落；

在一种实施例中，在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、静音的音频段落；在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落；

实施本发明实施例，将具有如下有益效果：

本发明实现了书籍听读一体的文本与音频呈现，通过混音脚本将音频数据结构化，并建立音频与文字之间的联系；输出的混音结果中包括段落时间戳，时间戳用于基于语义的音频内容定位，从而在书籍音频版的制作阶段就能够实现阅读和收听之间的无缝切换模式，而无需在后期采用语音识别等方法来实现文本定位以及文本与音频的对齐，提高了听书软件用户的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为文本与音频呈现处理方法的流程示意图；

图2为文本与音频呈现处理装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，本发明公开了一种文本与音频呈现处理方法，包括：

步骤1，脚本编辑器生成混音脚本；

其中，生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式；其中，所述段落包括文本段落、音频段落；所述文本段落及音频段落按顺序共同组成所述混音脚本的场景；

其中，所述文本段落包括所述混音脚本的正文文本，以及该文本段落对应配音员根据正文文本配音演绎的录音素材；

文本段落还包括段落和配音员之间的对应关系，以便在音频呈现阶段展示为各个文本段落配音的配音员；

特别地，所述配音员包括配音演员、配音机器人，所述配音演员或者配音机器人为文本段落配音；

特别地，所述文本段落包括前景文本段落、背景文本段落；

其中，所述音频段落包括一种或多种音频素材（Audio Clip）及对音频素材的段落操作；每个音频段落对应一个音频素材；

其中，所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音；

其中，所述对音频素材的段落操作包括开始操作、结束操作；

其中，音频素材类型为静音、前景音乐及前景音效的音频段落包括开始操作；相对应地，音频段落的类型包括前景音效、前景音乐、静音；

其中，音频素材类型为背景音效及背景音乐的音频段落包括开始操作、结束操作；相对应地，音频段落的类型还包括背景音效开始、背景音效结束、背景音乐开始、背景音乐结束；

相对应地，音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束；

特别地，对音频素材类型为背景音效及背景音乐的音频段落设置段落呈现方式，所述段落呈现方式包括循环播放和单次播放；

特别地，对音频段落施加一个或多个音效处理；

其中，音效处理具有对应的操作参数；音效处理包括但不仅限于整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩；

其中，整体增益的操作参数包括增益大小；局部增益的操作参数包括作用范围、增益大小；淡入淡出的操作参数包括曲线类型、时长；均衡的操作参数包括由多组带通滤波器定义或由频响定义的滤波器参数；环境的操作参数包括环境冲击响应；降噪的操作参数包括噪音样本的取样区域或预置噪音类型模板、降噪强度；压缩的操作参数包括阈值、压缩比、启动时间、释放时间、曲线类型、增益大小；

在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、前景音乐、静音的音频段落；在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落；

其中，背景文本段落和背景音效、背景音乐的段落操作一致，只是其用到的素材是配音员根据文本录制的录音素材；

所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序；所述主轨道中的段落之间不存在时间上的重叠，前一段落结束后立即播放下一段落；

其中，所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落；

所述辅轨道中的段落与主轨道中的段落在时间上存在重叠，并且所述辅轨道中的段落相互之间在时间上也存在重叠；

所述辅轨道中段落播放的开始时间由混音脚本中该段落的前一个主轨道段落的结束时间决定；

即，当前一个处于主轨道中的段落结束，顺序在该段落之后的连续的处于辅轨道中的段落开始；

特别地，对所述辅轨道中的段落设置开始播放时间点的延后偏移量，即将开始播放的时间点向后推移从而延后开始播放；

所述辅轨道中段落播放的结束时间由混音脚本中该段落的前一个主轨道段落的结束时间决定；

即，当前一个处于主轨道的段落结束，顺序在该段落之后的连续的处于辅轨道中的段落结束；

特别地，对所述辅轨道中的段落设置结束播放时间点的提前偏移量，即将结束播放的时间点向前推移从而提前结束播放；

其中，所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳；所述时间戳包括开始时间戳和结束时间戳；

所述时间戳用于基于语义的音频内容定位；根据时间戳从音频时刻定位对应的文本段落，或者从文本段落定位对应的音频时刻；

特别地，对混音器输出至播放器的混音结果进行母带音效处理，所述母带音效处理包括压缩、均衡；

步骤4，播放器播放混音结果；

具体地，播放器根据混音脚本定义的段落呈现顺序播放所述主轨道及所述辅轨道中段落的录音素材及音频素材；

特别地，根据文本段落与配音员的对应关系，在呈现的同时展示为各个文本段落配音的配音员；

特别地，所述播放器包括音频界面、文本界面；

具体地，在音频界面中，用户选择当前播放段落的音频时刻进行跳转，通过音频时刻的时间戳定位至该音频时刻对应的文本段落，并跳转至该文本段落对应的正文文本进行文本显示；

或者，在音频界面中，用户通过关键词搜索对应的正文文本，通过正文文本对应文本段落的时间戳定位至该文本段落的音频时刻，并跳转至该文本段落对应的音频进行播放；

或者，在文本界面中，用户选择当前显示的正文文本进行跳转，通过正文文本对应文本段落的时间戳定位至该文本段落的音频时刻，并跳转至该文本段落对应的音频进行播放；

此外，在播放器文本与音频呈现过程中，还可以添加原始文本，并建立原始文本和混音脚本、音频的对应关系；

通常，混音脚本的正文文本是原始文本（例如，原小说）的改编，其与原始文本的对应关系并非是显而易见的，因此需要通过对齐操作对原始文本的段落和混音脚本中的文本段落进行对齐；对齐后的混音脚本的文本段落和原始文本的段落之间生成对应关系，该对应关系为一一对应关系，或者一对多关系，或者多对一关系；对齐后，在播放器的文本与音频呈现过程中可以实现音频、混音脚本的正文文本、原始文本这三者之间的无缝跳转；

此外，混音结果中的音频也可以在传统的音频播放器中进行播放使用，而并非必须配合时间戳在播放器中使用。

此外，如图2，本发明还公开了一种文本与音频呈现处理装置，包括依次相互连接的脚本编辑器、混音器、音效处理器、播放器；

所述脚本编辑器生成混音脚本；

特别地，文本段落还包括还包括段落和配音员之间的对应关系，以便在音频呈现阶段展示为各个文本段落配音的配音员；

特别地，所述文本段落包括前景文本段落、背景文本段落；

其中，所述音频段落的段落操作包括开始操作、结束操作；

所述音效处理器获取混音脚本，根据混音脚本对段落施加音效处理；

特别地，所述音效处理器对音频段落施加一个或多个音效处理；

在所述主轨道中放置前景文本段落以及音频素材类型为前景音效、前景音乐、静音的音频段落；在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落；

所述辅轨道中段落播放的结束时间由混音脚本中该段落前一个主轨道段落的结束时间决定；

即，当前一个处于主轨道中的段落结束，顺序在该段落之后的连续的处于辅轨道中的段落结束；

所述播放器播放混音结果；

具体地，所述播放器根据混音脚本定义的段落呈现顺序播放所述主轨道及所述辅轨道中段落的录音素材及音频素材；

特别地，所述播放器包括音频界面、文本界面；

或者，在文本界面中，用户选择当前显示的正文文本进行跳转，通过正文文本对应文本段落的时间戳定位至该文本段落的音频时刻，并跳转至该文本段落对应的音频进行播放。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本与音频呈现处理方法，其特征在于，包括：

步骤4，所述播放器播放混音结果；

其中，生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式；

其中，所述段落包括文本段落、音频段落；所述文本段落包括所述混音脚本的正文文本，以及该文本段落对应配音员根据正文文本配音演绎的录音素材；所述文本段落包括前景文本段落、背景文本段落；

对音频素材的段落操作包括开始操作、结束操作；音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束；

其中，在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、静音的音频段落；在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落；

通过混音脚本将音频数据结构化，并建立音频与文字之间的联系；输出的混音结果中包括段落时间戳，时间戳用于基于语义的音频内容定位。

2.根据权利要求1所述的文本与音频呈现处理方法，其特征在于，

其中，所述音效处理器对音频段落施加一个或多个音效处理；音效处理具有对应的操作参数；音效处理包括整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩。

3.根据权利要求1-2任一项所述的文本与音频呈现处理方法，其特征在于，

4.一种文本与音频呈现处理装置，其特征在于，包括依次相互连接的脚本编辑器、音效处理器、混音器、播放器；

所述脚本编辑器生成混音脚本；所述混音脚本包括一个或多个段落；

所述播放器播放混音结果；

5.根据权利要求4所述的文本与音频呈现处理装置，其特征在于，

6.根据权利要求4-5任一项所述的文本与音频呈现处理装置，其特征在于，