CN114615612B - 文本与音频呈现处理方法及装置 - Google Patents
文本与音频呈现处理方法及装置 Download PDFInfo
- Publication number
- CN114615612B CN114615612B CN202210089504.XA CN202210089504A CN114615612B CN 114615612 B CN114615612 B CN 114615612B CN 202210089504 A CN202210089504 A CN 202210089504A CN 114615612 B CN114615612 B CN 114615612B
- Authority
- CN
- China
- Prior art keywords
- audio
- paragraph
- text
- sound
- paragraphs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 81
- 238000009877 rendering Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000011282 treatment Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Electrophonic Musical Instruments (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种文本与音频呈现处理方法,包括:脚本编辑器生成混音脚本;音效处理器获取混音脚本,根据混音脚本对段落施加音效处理;混音器获取混音脚本,根据混音脚本对段落执行混音操作得到混音结果并输出至播放器;播放器播放混音结果。此外,本发明还公开了一种文本与音频呈现处理装置。采用本发明可以实现书籍听读一体的文本与音频呈现,通过混音脚本将音频数据结构化,并建立音频与文字之间的联系。
Description
技术领域
本发明涉及录音技术领域,特别涉及一种文本与音频呈现处理方法及文本与音频呈现处理装置。
背景技术
如今,一本书可能存在文字版本和音频版本两种形式。传统阅读软件只呈现文字版本。传统听书软件只能呈现音频版本。
随着听书形式的普及,用户需要一种可以在阅读和收听之间无缝切换的新模式。例如在一种日常场景中,用户晚上在家阅读书籍的文字版,第二天早上开车从昨晚读到的地方继续收听书籍的音频版,下午再从早上听到的地方继续阅读文字版。问题在于,现有技术中书籍的文字版和音频版的制作是两个独立的过程,即其音频版是独立的音频数据,和文字版之间没有任何联系。为了实现听读一体的文本与音频呈现,则需要将音频数据结构化,并建立音频与文字之间的联系。
发明内容
基于此,为解决现有技术中的技术问题,特提出了一种文本与音频呈现处理方法,包括:
步骤1,脚本编辑器生成混音脚本;所述混音脚本包括一个或多个段落;
步骤2,音效处理器获取混音脚本,根据混音脚本对段落施加音效处理;
步骤3,混音器获取混音脚本,根据混音脚本对段落执行混音操作得到混音结果并输出至播放器;
步骤4,所述播放器播放混音结果。
在一种实施例中,生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式;
所述段落包括文本段落、音频段落;所述文本段落包括所述混音脚本的正文文本,以及该文本段落对应配音员根据正文文本配音演绎的录音素材;所述文本段落包括前景文本段落、背景文本段落;
所述音频段落包括一种或多种音频素材及对音频素材的段落操作;每个音频段落对应一个音频素材;所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音;
对音频素材的段落操作包括开始操作、结束操作;音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束。
在一种实施例中,所述混音器包括主轨道、辅轨道,所述主轨道和所述辅轨道分别用于承载不同类型的段落;
在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、静音的音频段落;在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落;
所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序;所述主轨道中的段落之间不存在时间上的重叠,前一段落结束后立即播放下一段落;所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落;所述辅轨道中的段落与主轨道中的段落在时间上存在重叠,并且所述辅轨道中的段落相互之间在时间上也存在重叠;
所述辅轨道中段落播放的开始时间由混音脚本中该段落前一主轨道段落的结束时间决定;
所述辅轨道中段落播放的结束时间由混音脚本中该段落前一个主轨道段落的结束时间决定。
在一种实施例中,所述音效处理器对音频段落施加一个或多个音效处理;音效处理具有对应的操作参数;音效处理包括整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩。
在一种实施例中,所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳;所述时间戳包括开始时间戳和结束时间戳;
所述时间戳用于基于语义的音频内容定位;根据时间戳从音频时刻定位对应的文本段落,或者从文本段落定位对应的音频时刻。
此外,还提出了一种文本与音频呈现处理装置,包括依次相互连接的脚本编辑器、音效处理器、混音器、播放器;
所述脚本编辑器生成混音脚本;
其中,生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式;所述音效处理器获取混音脚本,根据混音脚本对段落施加音效处理;
所述混音器获取混音脚本,根据混音脚本执行混音操作得到混音结果并输出至所述播放器;
其中,所述混音器包括主轨道、辅轨道,所述主轨道和所述辅轨道分别用于承载不同类型的段落;
所述播放器播放混音结果。
在一种实施例中,所述段落包括文本段落、音频段落;所述文本段落包括所述混音脚本的正文文本,以及该文本段落对应配音员根据正文文本配音演绎的录音素材;所述文本段落包括前景文本段落、背景文本段落;
所述音频段落包括一种或多种音频素材及对音频素材的段落操作;每个音频段落对应一个音频素材;所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音;
对音频素材的段落操作包括开始操作、结束操作;音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束。
在一种实施例中,在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、静音的音频段落;在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落;
所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序;所述主轨道中的段落之间不存在时间上的重叠,前一段落结束后立即播放下一段落;所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落;所述辅轨道中的段落与主轨道中的段落在时间上存在重叠,并且所述辅轨道中的段落相互之间在时间上也存在重叠;
所述辅轨道中段落播放的开始时间由混音脚本中该段落前一主轨道段落的结束时间决定;
所述辅轨道中段落播放的结束时间由混音脚本中该段落前一个主轨道段落的结束时间决定。
在一种实施例中,所述音效处理器对音频段落施加一个或多个音效处理;音效处理具有对应的操作参数;音效处理包括整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩。
在一种实施例中,所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳;所述时间戳包括开始时间戳和结束时间戳;
所述时间戳用于基于语义的音频内容定位;根据时间戳从音频时刻定位对应的文本段落,或者从文本段落定位对应的音频时刻。
实施本发明实施例,将具有如下有益效果:
本发明实现了书籍听读一体的文本与音频呈现,通过混音脚本将音频数据结构化,并建立音频与文字之间的联系;输出的混音结果中包括段落时间戳,时间戳用于基于语义的音频内容定位,从而在书籍音频版的制作阶段就能够实现阅读和收听之间的无缝切换模式,而无需在后期采用语音识别等方法来实现文本定位以及文本与音频的对齐,提高了听书软件用户的用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为文本与音频呈现处理方法的流程示意图;
图2为文本与音频呈现处理装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1,本发明公开了一种文本与音频呈现处理方法,包括:
步骤1,脚本编辑器生成混音脚本;
其中,生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式;其中,所述段落包括文本段落、音频段落;所述文本段落及音频段落按顺序共同组成所述混音脚本的场景;
其中,所述文本段落包括所述混音脚本的正文文本,以及该文本段落对应配音员根据正文文本配音演绎的录音素材;
文本段落还包括段落和配音员之间的对应关系,以便在音频呈现阶段展示为各个文本段落配音的配音员;
特别地,所述配音员包括配音演员、配音机器人,所述配音演员或者配音机器人为文本段落配音;
特别地,所述文本段落包括前景文本段落、背景文本段落;
其中,所述音频段落包括一种或多种音频素材(Audio Clip)及对音频素材的段落操作;每个音频段落对应一个音频素材;
其中,所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音;
其中,所述对音频素材的段落操作包括开始操作、结束操作;
其中,音频素材类型为静音、前景音乐及前景音效的音频段落包括开始操作;相对应地,音频段落的类型包括前景音效、前景音乐、静音;
其中,音频素材类型为背景音效及背景音乐的音频段落包括开始操作、结束操作;相对应地,音频段落的类型还包括背景音效开始、背景音效结束、背景音乐开始、背景音乐结束;
相对应地,音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束;
特别地,对音频素材类型为背景音效及背景音乐的音频段落设置段落呈现方式,所述段落呈现方式包括循环播放和单次播放;
步骤2,音效处理器获取混音脚本,根据混音脚本对段落施加音效处理;
特别地,对音频段落施加一个或多个音效处理;
其中,音效处理具有对应的操作参数;音效处理包括但不仅限于整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩;
其中,整体增益的操作参数包括增益大小;局部增益的操作参数包括作用范围、增益大小;淡入淡出的操作参数包括曲线类型、时长;均衡的操作参数包括由多组带通滤波器定义或由频响定义的滤波器参数;环境的操作参数包括环境冲击响应;降噪的操作参数包括噪音样本的取样区域或预置噪音类型模板、降噪强度;压缩的操作参数包括阈值、压缩比、启动时间、释放时间、曲线类型、增益大小;
步骤3,混音器获取混音脚本,根据混音脚本对段落执行混音操作得到混音结果并输出至播放器;
其中,所述混音器包括主轨道、辅轨道,所述主轨道和所述辅轨道分别用于承载不同类型的段落;
在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、前景音乐、静音的音频段落;在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落;
其中,背景文本段落和背景音效、背景音乐的段落操作一致,只是其用到的素材是配音员根据文本录制的录音素材;
所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序;所述主轨道中的段落之间不存在时间上的重叠,前一段落结束后立即播放下一段落;
其中,所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落;
所述辅轨道中的段落与主轨道中的段落在时间上存在重叠,并且所述辅轨道中的段落相互之间在时间上也存在重叠;
所述辅轨道中段落播放的开始时间由混音脚本中该段落的前一个主轨道段落的结束时间决定;
即,当前一个处于主轨道中的段落结束,顺序在该段落之后的连续的处于辅轨道中的段落开始;
特别地,对所述辅轨道中的段落设置开始播放时间点的延后偏移量,即将开始播放的时间点向后推移从而延后开始播放;
所述辅轨道中段落播放的结束时间由混音脚本中该段落的前一个主轨道段落的结束时间决定;
即,当前一个处于主轨道的段落结束,顺序在该段落之后的连续的处于辅轨道中的段落结束;
特别地,对所述辅轨道中的段落设置结束播放时间点的提前偏移量,即将结束播放的时间点向前推移从而提前结束播放;
其中,所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳;所述时间戳包括开始时间戳和结束时间戳;
所述时间戳用于基于语义的音频内容定位;根据时间戳从音频时刻定位对应的文本段落,或者从文本段落定位对应的音频时刻;
特别地,对混音器输出至播放器的混音结果进行母带音效处理,所述母带音效处理包括压缩、均衡;
步骤4,播放器播放混音结果;
具体地,播放器根据混音脚本定义的段落呈现顺序播放所述主轨道及所述辅轨道中段落的录音素材及音频素材;
特别地,根据文本段落与配音员的对应关系,在呈现的同时展示为各个文本段落配音的配音员;
特别地,所述播放器包括音频界面、文本界面;
具体地,在音频界面中,用户选择当前播放段落的音频时刻进行跳转,通过音频时刻的时间戳定位至该音频时刻对应的文本段落,并跳转至该文本段落对应的正文文本进行文本显示;
或者,在音频界面中,用户通过关键词搜索对应的正文文本,通过正文文本对应文本段落的时间戳定位至该文本段落的音频时刻,并跳转至该文本段落对应的音频进行播放;
或者,在文本界面中,用户选择当前显示的正文文本进行跳转,通过正文文本对应文本段落的时间戳定位至该文本段落的音频时刻,并跳转至该文本段落对应的音频进行播放;
此外,在播放器文本与音频呈现过程中,还可以添加原始文本,并建立原始文本和混音脚本、音频的对应关系;
通常,混音脚本的正文文本是原始文本(例如,原小说)的改编,其与原始文本的对应关系并非是显而易见的,因此需要通过对齐操作对原始文本的段落和混音脚本中的文本段落进行对齐;对齐后的混音脚本的文本段落和原始文本的段落之间生成对应关系,该对应关系为一一对应关系,或者一对多关系,或者多对一关系;对齐后,在播放器的文本与音频呈现过程中可以实现音频、混音脚本的正文文本、原始文本这三者之间的无缝跳转;
此外,混音结果中的音频也可以在传统的音频播放器中进行播放使用,而并非必须配合时间戳在播放器中使用。
此外,如图2,本发明还公开了一种文本与音频呈现处理装置,包括依次相互连接的脚本编辑器、混音器、音效处理器、播放器;
所述脚本编辑器生成混音脚本;
其中,生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式;其中,所述段落包括文本段落、音频段落;所述文本段落及音频段落按顺序共同组成所述混音脚本的场景;
其中,所述文本段落包括所述混音脚本的正文文本,以及该文本段落对应配音员根据正文文本配音演绎的录音素材;
特别地,文本段落还包括还包括段落和配音员之间的对应关系,以便在音频呈现阶段展示为各个文本段落配音的配音员;
特别地,所述配音员包括配音演员、配音机器人,所述配音演员或者配音机器人为文本段落配音;
特别地,所述文本段落包括前景文本段落、背景文本段落;
其中,所述音频段落包括一种或多种音频素材(Audio Clip)及对音频素材的段落操作;每个音频段落对应一个音频素材;
其中,所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音;
其中,所述音频段落的段落操作包括开始操作、结束操作;
其中,音频素材类型为静音、前景音乐及前景音效的音频段落包括开始操作;相对应地,音频段落的类型包括前景音效、前景音乐、静音;
其中,音频素材类型为背景音效及背景音乐的音频段落包括开始操作、结束操作;相对应地,音频段落的类型还包括背景音效开始、背景音效结束、背景音乐开始、背景音乐结束;
相对应地,音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束;
特别地,对音频素材类型为背景音效及背景音乐的音频段落设置段落呈现方式,所述段落呈现方式包括循环播放和单次播放;
所述音效处理器获取混音脚本,根据混音脚本对段落施加音效处理;
特别地,所述音效处理器对音频段落施加一个或多个音效处理;
其中,音效处理具有对应的操作参数;音效处理包括但不仅限于整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩;
其中,整体增益的操作参数包括增益大小;局部增益的操作参数包括作用范围、增益大小;淡入淡出的操作参数包括曲线类型、时长;均衡的操作参数包括由多组带通滤波器定义或由频响定义的滤波器参数;环境的操作参数包括环境冲击响应;降噪的操作参数包括噪音样本的取样区域或预置噪音类型模板、降噪强度;压缩的操作参数包括阈值、压缩比、启动时间、释放时间、曲线类型、增益大小;
所述混音器获取混音脚本,根据混音脚本执行混音操作得到混音结果并输出至所述播放器;
其中,所述混音器包括主轨道、辅轨道,所述主轨道和所述辅轨道分别用于承载不同类型的段落;
在所述主轨道中放置前景文本段落以及音频素材类型为前景音效、前景音乐、静音的音频段落;在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落;
其中,背景文本段落和背景音效、背景音乐的段落操作一致,只是其用到的素材是配音员根据文本录制的录音素材;
所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序;所述主轨道中的段落之间不存在时间上的重叠,前一段落结束后立即播放下一段落;
其中,所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落;
所述辅轨道中的段落与主轨道中的段落在时间上存在重叠,并且所述辅轨道中的段落相互之间在时间上也存在重叠;
所述辅轨道中段落播放的开始时间由混音脚本中该段落前一主轨道段落的结束时间决定;
即,当前一个处于主轨道中的段落结束,顺序在该段落之后的连续的处于辅轨道中的段落开始;
特别地,对所述辅轨道中的段落设置开始播放时间点的延后偏移量,即将开始播放的时间点向后推移从而延后开始播放;
所述辅轨道中段落播放的结束时间由混音脚本中该段落前一个主轨道段落的结束时间决定;
即,当前一个处于主轨道中的段落结束,顺序在该段落之后的连续的处于辅轨道中的段落结束;
特别地,对所述辅轨道中的段落设置结束播放时间点的提前偏移量,即将结束播放的时间点向前推移从而提前结束播放;
其中,所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳;所述时间戳包括开始时间戳和结束时间戳;
所述时间戳用于基于语义的音频内容定位;根据时间戳从音频时刻定位对应的文本段落,或者从文本段落定位对应的音频时刻;
特别地,对混音器输出至播放器的混音结果进行母带音效处理,所述母带音效处理包括压缩、均衡;
所述播放器播放混音结果;
具体地,所述播放器根据混音脚本定义的段落呈现顺序播放所述主轨道及所述辅轨道中段落的录音素材及音频素材;
特别地,根据文本段落与配音员的对应关系,在呈现的同时展示为各个文本段落配音的配音员;
特别地,所述播放器包括音频界面、文本界面;
具体地,在音频界面中,用户选择当前播放段落的音频时刻进行跳转,通过音频时刻的时间戳定位至该音频时刻对应的文本段落,并跳转至该文本段落对应的正文文本进行文本显示;
或者,在音频界面中,用户通过关键词搜索对应的正文文本,通过正文文本对应文本段落的时间戳定位至该文本段落的音频时刻,并跳转至该文本段落对应的音频进行播放;
或者,在文本界面中,用户选择当前显示的正文文本进行跳转,通过正文文本对应文本段落的时间戳定位至该文本段落的音频时刻,并跳转至该文本段落对应的音频进行播放。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种文本与音频呈现处理方法,其特征在于,包括:
步骤1,脚本编辑器生成混音脚本;所述混音脚本包括一个或多个段落;
步骤2,音效处理器获取混音脚本,根据混音脚本对段落施加音效处理;
步骤3,混音器获取混音脚本,根据混音脚本对段落执行混音操作得到混音结果并输出至播放器;
步骤4,所述播放器播放混音结果;
其中,生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式;
其中,所述段落包括文本段落、音频段落;所述文本段落包括所述混音脚本的正文文本,以及该文本段落对应配音员根据正文文本配音演绎的录音素材;所述文本段落包括前景文本段落、背景文本段落;
所述音频段落包括一种或多种音频素材及对音频素材的段落操作;每个音频段落对应一个音频素材;所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音;
对音频素材的段落操作包括开始操作、结束操作;音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束;
其中,所述混音器包括主轨道、辅轨道,所述主轨道和所述辅轨道分别用于承载不同类型的段落;
其中,在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、静音的音频段落;在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落;
所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序;所述主轨道中的段落之间不存在时间上的重叠,前一段落结束后立即播放下一段落;所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落;所述辅轨道中的段落与主轨道中的段落在时间上存在重叠,并且所述辅轨道中的段落相互之间在时间上也存在重叠;
所述辅轨道中段落播放的开始时间由混音脚本中该段落前一主轨道段落的结束时间决定;
所述辅轨道中段落播放的结束时间由混音脚本中该段落前一个主轨道段落的结束时间决定;
通过混音脚本将音频数据结构化,并建立音频与文字之间的联系;输出的混音结果中包括段落时间戳,时间戳用于基于语义的音频内容定位。
2.根据权利要求1所述的文本与音频呈现处理方法,其特征在于,
其中,所述音效处理器对音频段落施加一个或多个音效处理;音效处理具有对应的操作参数;音效处理包括整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩。
3.根据权利要求1-2任一项所述的文本与音频呈现处理方法,其特征在于,
其中,所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳;所述时间戳包括开始时间戳和结束时间戳;
所述时间戳用于基于语义的音频内容定位;根据时间戳从音频时刻定位对应的文本段落,或者从文本段落定位对应的音频时刻。
4.一种文本与音频呈现处理装置,其特征在于,包括依次相互连接的脚本编辑器、音效处理器、混音器、播放器;
所述脚本编辑器生成混音脚本;所述混音脚本包括一个或多个段落;
所述音效处理器获取混音脚本,根据混音脚本对段落施加音效处理;
所述混音器获取混音脚本,根据混音脚本执行混音操作得到混音结果并输出至所述播放器;
所述播放器播放混音结果;
其中,生成的所述混音脚本包括段落对应的录音素材、音频素材、音效处理方式、段落操作方式、段落呈现顺序、段落呈现方式;
其中,所述段落包括文本段落、音频段落;所述文本段落包括所述混音脚本的正文文本,以及该文本段落对应配音员根据正文文本配音演绎的录音素材;所述文本段落包括前景文本段落、背景文本段落;
所述音频段落包括一种或多种音频素材及对音频素材的段落操作;每个音频段落对应一个音频素材;所述音频素材的类型包括前景音效、前景音乐、背景音效、背景音乐、静音;
对音频素材的段落操作包括开始操作、结束操作;音频段落的类型包括前景音效、前景音乐、静音、背景音效开始、背景音效结束、背景音乐开始、背景音乐结束;
其中,所述混音器包括主轨道、辅轨道,所述主轨道和所述辅轨道分别用于承载不同类型的段落;
其中,在所述主轨道中放置前景文本段落以及音频段落类型为前景音效、静音的音频段落;在所述辅轨道中放置背景文本段落以及音频段落类型为背景音效开始、背景音效结束、背景音乐开始、背景音乐结束的音频段落;
所述混音脚本的段落呈现顺序为播放录音素材及音频素材的顺序;所述主轨道中的段落之间不存在时间上的重叠,前一段落结束后立即播放下一段落;所述主轨道中的文本段落之间设置有音频素材类型为静音的音频段落;所述辅轨道中的段落与主轨道中的段落在时间上存在重叠,并且所述辅轨道中的段落相互之间在时间上也存在重叠;
所述辅轨道中段落播放的开始时间由混音脚本中该段落前一主轨道段落的结束时间决定;
所述辅轨道中段落播放的结束时间由混音脚本中该段落前一个主轨道段落的结束时间决定;
通过混音脚本将音频数据结构化,并建立音频与文字之间的联系;输出的混音结果中包括段落时间戳,时间戳用于基于语义的音频内容定位。
5.根据权利要求4所述的文本与音频呈现处理装置,其特征在于,
其中,所述音效处理器对音频段落施加一个或多个音效处理;音效处理具有对应的操作参数;音效处理包括整体增益、局部增益、淡入淡出、均衡、环境、降噪、压缩。
6.根据权利要求4-5任一项所述的文本与音频呈现处理装置,其特征在于,
其中,所述混音结果包括音频文件、混音脚本及混音脚本中各个段落的时间戳;所述时间戳包括开始时间戳和结束时间戳;
所述时间戳用于基于语义的音频内容定位;根据时间戳从音频时刻定位对应的文本段落,或者从文本段落定位对应的音频时刻。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089504.XA CN114615612B (zh) | 2022-01-26 | 2022-01-26 | 文本与音频呈现处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210089504.XA CN114615612B (zh) | 2022-01-26 | 2022-01-26 | 文本与音频呈现处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114615612A CN114615612A (zh) | 2022-06-10 |
CN114615612B true CN114615612B (zh) | 2024-07-09 |
Family
ID=81857425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210089504.XA Active CN114615612B (zh) | 2022-01-26 | 2022-01-26 | 文本与音频呈现处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114615612B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011086410A1 (en) * | 2010-01-15 | 2011-07-21 | Sony Ericsson Mobile Communications Ab | Electronic device with media function and method |
CN104765714A (zh) * | 2014-01-08 | 2015-07-08 | 中国移动通信集团浙江有限公司 | 一种电子阅读与听书的切换方法及装置 |
CN105117367A (zh) * | 2015-09-21 | 2015-12-02 | 联想(北京)有限公司 | 一种电子书切换方法和电子设备 |
CN110110136A (zh) * | 2019-02-27 | 2019-08-09 | 咪咕数字传媒有限公司 | 一种文音匹配方法、电子设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020054073A1 (en) * | 2000-06-02 | 2002-05-09 | Yuen Henry C. | Electronic book with indexed text-to-audio switching capabilities |
EP2737481A4 (en) * | 2011-07-26 | 2016-06-22 | Booktrack Holdings Ltd | TONGUE FOR ELECTRONIC TEXTS |
CN104866543A (zh) * | 2015-05-06 | 2015-08-26 | 陆默 | 一种多种书籍载体切换方法和装置 |
GB2539875B (en) * | 2015-06-22 | 2017-09-20 | Time Machine Capital Ltd | Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content |
CN107657973B (zh) * | 2017-09-27 | 2020-05-08 | 风变科技(深圳)有限公司 | 文本及音频混合显示方法、装置、终端设备及存储介质 |
EP3769207A4 (en) * | 2018-03-23 | 2022-01-05 | Nedl.Com, Inc. | SYSTEM FOR AUTIO-STREAM REAL-TIME SEARCH AND PRESENTATION |
CN112331223A (zh) * | 2020-11-09 | 2021-02-05 | 合肥名阳信息技术有限公司 | 一种给配音添加背景音乐的方法 |
-
2022
- 2022-01-26 CN CN202210089504.XA patent/CN114615612B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011086410A1 (en) * | 2010-01-15 | 2011-07-21 | Sony Ericsson Mobile Communications Ab | Electronic device with media function and method |
CN104765714A (zh) * | 2014-01-08 | 2015-07-08 | 中国移动通信集团浙江有限公司 | 一种电子阅读与听书的切换方法及装置 |
CN105117367A (zh) * | 2015-09-21 | 2015-12-02 | 联想(北京)有限公司 | 一种电子书切换方法和电子设备 |
CN110110136A (zh) * | 2019-02-27 | 2019-08-09 | 咪咕数字传媒有限公司 | 一种文音匹配方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114615612A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2477697C (en) | Methods and apparatus for use in sound replacement with automatic synchronization to images | |
US6448485B1 (en) | Method and system for embedding audio titles | |
US20080275700A1 (en) | Method of and System for Modifying Messages | |
CN109068163B (zh) | 一种音视频合成系统及其合成方法 | |
US20070150082A1 (en) | Method, mechanism, implementation, and system of real time listen-sing-record STAR karaoke entertainment (STAR "Sing Through And Record") | |
CN104333802A (zh) | 一种视频播放方法及视频播放器 | |
EP2117212A1 (en) | Prompting message forming method and device for mobile terminal | |
US6292454B1 (en) | Apparatus and method for implementing a variable-speed audio data playback system | |
CN114615612B (zh) | 文本与音频呈现处理方法及装置 | |
US9014831B2 (en) | Server side audio file beat mixing | |
JP2005044409A (ja) | 情報再生装置、情報再生方法および情報再生プログラム | |
WO2018211748A1 (ja) | 情報処理装置および情報処理方法 | |
US8374712B2 (en) | Gapless audio playback | |
JP4542805B2 (ja) | 変速再生方法及び装置、並びにプログラム | |
JP3620787B2 (ja) | 音声データの符号化方法 | |
CN114595356A (zh) | 文本与音频呈现处理方法及系统 | |
WO2019051689A1 (zh) | 一种用于智能终端的声音控制方法及声音控制装置 | |
Thiele | Some Thoughts on the Dynamiics of Reproduced Sound | |
JP2000048487A (ja) | ディジタルオーディオデータの再生方法及び装置 | |
KR100775188B1 (ko) | 음악 파일의 믹싱 방법 및 이를 이용한 단말기 | |
KR20010001791A (ko) | 엠피3 캡션데이터 표시방법 | |
Imai et al. | Application of speech rate conversion technology to video editing: allows up to 5 times normal speed playback while maintaining speech intelligibility | |
JP6898823B2 (ja) | カラオケ装置 | |
JP2002197488A (ja) | リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法 | |
CN114595355A (zh) | 文本音频呈现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |