CN117690413A - 音频处理方法、装置、设备、介质和程序产品 - Google Patents
音频处理方法、装置、设备、介质和程序产品 Download PDFInfo
- Publication number
- CN117690413A CN117690413A CN202311691626.7A CN202311691626A CN117690413A CN 117690413 A CN117690413 A CN 117690413A CN 202311691626 A CN202311691626 A CN 202311691626A CN 117690413 A CN117690413 A CN 117690413A
- Authority
- CN
- China
- Prior art keywords
- audio
- text
- sound effect
- background music
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 413
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000003860 storage Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002035 prolonged effect Effects 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 13
- 238000012549 training Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000000981 bystander Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000023514 Barrett esophagus Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/01—Correction of time axis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种音频处理方法、装置、设备、介质和程序产品,涉及人工智能领域。该方法包括如下步骤:获取第一文本数据,第一文本数据中包括第一文本内容和基于第一文本内容识别得到的第一音效标签,第一音效标签用于指示与第一文本内容关联的音效类型;获取第一音效标签对应的第一音效音频;获取文本音频,文本音频中包括第一文本内容对应的第一音频内容,第一文本数据中还标注有第一音频内容在文本音频中的第一起止时间戳;基于第一起止时间戳将第一音效音频叠加至文本音频中,得到具有音效的文本音频。能够自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高音频处理的效率和准确率。
Description
技术领域
本申请实施例涉及人工智能领域,特别涉及一种音频处理方法、装置、设备、介质和程序产品。
背景技术
对表述文本内容的音频进行处理时,存在对音频增加音效的需求,根据不同文本内容对应的语境,可选择匹配的音效插入至音频中,以增加内容表达效果。
相关技术中,需要人工对音频中的文本内容进行阅读理解,并确定是否需要对音频中的句子添加音效、添加音效的目标位置等,并根据目标位置将音效插入至音频中。
然而,上述人工添加音效的方式较为繁琐,效率较低,在工作人员对长音频(音频时长较长且文本内容较多)进行音效添加的情况下,需要消耗大量时间和精力。
发明内容
本申请实施例提供了一种音频处理方法、装置、设备、介质和程序产品,能够自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高音频处理的效率和准确率。所述技术方案如下:
一方面,提供了一种音频处理方法,所述方法包括:
获取第一文本数据,所述第一文本数据中包括第一文本内容和基于所述第一文本内容识别得到的第一音效标签,所述第一音效标签用于指示与所述第一文本内容关联的音效类型;
获取所述第一音效标签对应的第一音效音频;
获取文本音频,所述文本音频中包括所述第一文本内容对应的第一音频内容,所述第一文本数据中还标注有所述第一音频内容在所述文本音频中的第一起止时间戳;
基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中,得到具有音效的文本音频。
另一方面,提供了一种音频处理装置,所述装置包括:
获取模块,用于获取第一文本数据,所述第一文本数据中包括第一文本内容和基于所述第一文本内容识别得到的第一音效标签,所述第一音效标签用于指示与所述第一文本内容关联的音效类型;
所述获取模块,还用于获取所述第一音效标签对应的第一音效音频;
所述获取模块,还用于获取文本音频,所述文本音频中包括所述第一文本内容对应的第一音频内容,所述第一文本数据中还标注有所述第一音频内容在所述文本音频中的第一起止时间戳;
音效叠加模块,用于基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中,得到具有音效的文本音频。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的音频处理方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取具有音效标签的文本数据,基于音效标签获取对应的音效音频,并基于文本数据中所指示的起止时间戳,自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高了音频处理的效率和准确率,相较于对文本音频进行手动添加音效的方式,能够节省时间和人力资源。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的将音效音频叠加至本文音频中的过程示意图;
图2是本申请一个示例性实施例提供的实施环境的示意图;
图3是本申请一个示例性实施例提供的音频处理方法的流程图;
图4是本申请一个示例性实施例提供的音效生成模型的训练方法流程图;
图5是本申请一个示例性实施例提供的对文本音频叠加背景音乐的方法流程图;
图6是本申请一个示例性实施例提供的音频处理装置的结构框图;
图7是本申请另一个示例性实施例提供的音频处理装置的结构框图;
图8是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
需要说明的是,本申请所涉及的信息、数据(包括但不限于第一文本数据、第一音效音频、文本音频等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
应当理解,尽管在本申请可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一参数也可以被称为第二参数,类似地,第二参数也可以被称为第一参数。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,针对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是智能学科重要的组成部分,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
AudioGen网络模型:一种使用公共音频训练的音频处理模型,能够生成高质量、自然且连贯的音频。能够从声学角度区分不同对象的声音,对其进行分类。
在制作高质量长音频有声专辑或处理长音频时,存在对音频增加音效的需求,根据音频中不同文本内容对应的语境,选择不同种类的音效叠加至音频中,能够增加音频中内容的表达效果。
相关技术中,音效叠加音频的过程需要人工执行,也即,工作人员根据音频所表达的内容,对其语境进行阅读理解和分析后,判断音频中的句子是否需要添加音效、所添加的音效类型以及在音频中添加音效的目标位置,选择匹配的音效叠加至音频中的目标位置。
上述方式对音频进行音效处理时流程繁琐、准确率低,且该过程需要耗费大量的时间和人力成本,叠加音频的效率较低。
本申请提供了一种音频处理方法,通过训练得到的音效生成模型,对音频对应的文本内容进行分析后自动生成匹配的音效,再将生成的音效自动叠加至音频帧,能够提高音频处理过程的效率。
示意性的,如图1所示,图1是一个将音效音频叠加至本文音频中的过程示意图。
可选地,以对文本音频103进行音效叠加为例进行说明,文本音频103用于表述指定文本内容,该指定文本内容可以是小说、散文、演讲稿、新闻等包含文字的文章或博客,该指定文本内容中可以包括中文、标点符号、数字等字符。
获取第一文本数据100,第一文本数据100中包括第一文本内容和基于第一文本内容识别得到的第一音效标签,第一音效标签用于指示与第一文本内容所关联的音效类型。
其中,第一文本内容是文本音频103对应的指定文本内容中的部分内容。也即,指定文本内容中包含第一文本内容,文本音频103中也包含与第一文本内容对应的第一音频内容。
可选地,第一文本数据100的格式如下所示。
00003-00008|<label-effect effect=“猛捶桌子”time=(10.20,15.00)>此时,一名领导模样的男子在沉默了一会之后,猛地拍向桌子几乎是咆哮的说出这句话。</label-effect>
其中,“00003-00008”用于指示第一文本数据100中的第一文本内容位于完整的指定文本内容中的位置,“一名领导模样的男子在沉默了一会之后,猛地拍向桌子几乎是咆哮的说出这句话。”为第一文本内容。
示例性的,指定文本内容为小说内容,第一文本内容为小说中的一句旁白,00003-00008指示该第一文本内容位于该小说中的具体章节和段落,如,第三章第八个段落。或者,00003-00008指示该第一文本内容位于该小说中的具体章节和第几句话,如,该小说中第三章第八句话。
<label-effect effect=“猛捶桌子”time=(10.20,15.00)>为第一音效标签,“猛捶桌子”即为第一音效标签所指示的音效类型,(10.20,15.00)用于指示叠加音效的起止时间戳。文本音频103的10.20时刻至15.00时刻之间叠加该音效,该起止时间戳也是第一文本内容对应的第一音频内容在文本音频103中的起止时间戳。
可选地,获取第一音效音频的方式包括但不限于:(1)直接从音效库101中选择与第一音效标签匹配的音效作为第一音效音频;(2)将第一文本数据100作为输入量,输入至音效生成模型104中,由音效生成模型104生成第一音效音频。
示例性的,基于第一文本数据100中的第一音效标签,与音效库101中多个候选音效对应的候选音效标签进行关键字匹配,得到对应的匹配结果,基于匹配结果确定第一音效音频。
若匹配结果表示存在与第一音效标签所匹配的候选音效标签,则将音效库101中与该候选音效标签对应的候选音效作为第一音效音频叠加至文本音频103中,得到具有音频的文本音频105。
若匹配结果表示不存在与第一音效标签所匹配的候选音效标签,则将第一文本数据100作为输入量,输入至音效生成模型104中,由音效生成模型104基于第一音效标签生成第一音效音频,叠加至文本音频103中,得到具有音频的文本音频105。
获取第一音效标签对应的第一音效音频后,将第一音效音频叠加至文本音频103中,得到具有音效的文本音频105。其中,叠加第一音效音频的位置基于上述起止时间戳确定。
值得注意的是,上述两种获取第一音效音频的方式仅用于示例,在一些实施例中也可以同时基于音效库和音效生成模型共同获取第一音效音频,基于音效标签进行匹配的方式可以是任意的,本实施例对此不加以限定。
综上所述,本申请提供的方法,能够通过获取具有音效标签的文本数据,基于音效标签获取对应的音效音频,并基于文本数据中所指示的起止时间戳自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高了音频处理的效率和准确率,相较于对文本音频进行手动添加音效的方式,能够节省时间和人力资源。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图2,该实施环境中涉及服务器220、通信网络240和终端200,其中,终端200和服务器220之间通过通信网络240连接。
终端200通过通信网络240向服务器220发送第一文本数据和文本音频,第一文本数据中包含第一文本内容和基于第一文本内容识别得到的第一音效标签,文本音频中包括与第一文本内容对应的第一音频内容。服务器220接收到第一文本数据和文本音频后,基于第一文本数据中的第一音效标签获取对应的第一音效音频,并将第一音效音频自动叠加至文本音频中,得到具有音效的文本音频。
其中,服务器220获取第一音效音频的方式包括但不限于如下几种。
1、服务器220对输入的第一文本数据进行分析,生成对应的第一音效音频。示例性的,服务器220中部署有预训练好的音效生成模型,该音效生成模型可以对输入的文本数据进行分析,基于文本数据中的音效标签所指示的音效类型,生成对应的音效音频。
2、服务器220基于第一音效标签所指示的音效类型从自身存储有候选音效的音效数据库中选择匹配的音效作为第一音效音频。
在一些实施例中,终端200也可以直接对文本数据进行分析,生成对应的音效音频;或者,终端200基于第一文本数据中的第一音效标签从音效数据库中选择匹配的音效作为第一音效音频。
值得注意的是,上述终端可以是手机、平板电脑、台式电脑、便携式笔记本电脑、智能电视、车载终端、智能家居设备等多种形式的终端设备,本申请实施例对此不加以限定。
值得注意的是,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。
结合上述名词简介和应用场景,对本申请提供的音频处理方法进行说明,该方法可以由服务器或者终端执行,也可以由服务器和终端共同执行,本申请实施例中,以该方法由服务器执行为例进行说明,如图3所示,图3是本申请一个示例性实施例提供的音频处理方法的流程图。该方法包括如下步骤。
步骤310,获取第一文本数据。
其中,第一文本数据中包括第一文本内容和基于第一文本内容识别得到的第一音效标签,第一音效标签用于指示与第一文本内容关联的音效类型。
可选地,第一文本内容可以是小说、散文、演讲稿、诗歌、新闻等内容,第一文本内容包含至少一个句子,每个句子以标点符号等隔开,第一文本内容中可以包括中文字、标点符号、数字等字符。
可选地,第一文本数据的格式如下所示。
示例1:00003-00008|<label-effect effect=“猛捶桌子”time=(10.20,15.00)>此时,一名领导模样的男子在沉默了一会之后,猛地拍向桌子几乎是咆哮的说出这句话。</label-effect>
示例2:00003-00001|<label-effect effect=“直播间的声音”time=(2.20,5.00)>此时一群市场监管人员正在看着直播间传来的画面。</label-effect>
以示例1为例进行说明,其中,“00003-00008”用于指示第一文本数据中的第一文本内容位于完整的指定文本内容中的位置,“一名领导模样的男子在沉默了一会之后,猛地拍向桌子几乎是咆哮的说出这句话。”为第一文本内容。
示例性的,第一文本内容为小说中的一句旁白,示例1中的00003-00008指示该第一文本内容位于该小说中第3章节的第8个段落。
示例性的,示例2中00003-00001指示该第一文内容位于该小说中第3章节的第1个段落。
<label-effect effect=“猛捶桌子”time=(10.20,15.00)>为第一音效标签,“猛捶桌子”即为第一音效标签所指示的音效类型,(10.20,15.00)用于指示叠加音效的起止时间戳。
</label-effect>位于第一文本内容末尾处,表示第一文本内容结束。
步骤320,获取第一音效标签对应的第一音效音频。
可选地,获取第一音效音频的方式包括但不限于如下几种:
(1)直接从音效库中选择与第一音效标签匹配的音效作为第一音效音频。
获取音效数据库,音效数据库中包含多个候选音效,候选音效对应有候选音效标签。
可选地,音效数据库中包括3个候选音效,第一个候选音效对应的候选音效标签为“雷雨”,第二个候选音效对应的候选音效标签为“钢琴曲”,第三个候选音效对应的候选音效标签为“捶桌子”。
将候选音效标签和第一音效标签进行关键字匹配,得到第一匹配结果,第一匹配结果用于表示第一音效标签中文本关键字与候选音效标签中文本关键字的匹配情况。
基于第一匹配结果获取第一音效标签对应的第一音效音频。
可选地,分别计算每个候选音效标签的关键字与第一音效标签中文本关键字的匹配度,将匹配度达到预设阈值的候选音效标签对应的候选音效作为第一音效音频,如:匹配度预设阈值为90%。
示例性的,第一音效标签为“猛捶桌子”,关键字为“捶”“桌”。
候选音效标签为“雷雨”的关键字为“雷”“雨”,候选音效标签为“钢琴曲”的关键字为“钢琴”,候选音效标签为“捶桌子”的关键字为“捶”
“桌”。
分别计算上述候选音效标签的关键字与第一音效标签对应的关键字匹配度,则第一匹配结果为:候选音效标签为“雷雨”的关键字匹配度为0,候选音效标签为“钢琴曲”的关键字匹配度为0,候选音效标签为“捶桌子”的关键字匹配度为100%。
则,第一音效标签的关键字与候选音效标签为“捶桌子”的关键字匹配度达到100%达到预设阈值90%,将该候选音效标签所对应的第三个候选音效作为第一音效音频。
在一些实施例中,第一匹配结果仅显示每个候选音效标签的关键字与第一音效标签中关键字的匹配情况,响应于第一匹配结果指示存在第一候选音效标签与第一音效表现匹配,将第一候选音效标签对应的第一候选音效作为第一音效音频。
可选地,第一匹配结果为:候选音效标签为“雷雨”的关键字与第一音效标签的关键字不匹配,候选音效标签为“钢琴曲”的关键字与第一音效标签的关键字不匹配,候选音效标签为“捶桌子”的关键字与第一音效标签的关键字匹配。
将该候选音效标签所对应的第三个候选音效作为第一音效音频。
在一些实施例中,也可以分别计算每个候选音效标签的关键字与第一音效标签中文本关键字的匹配度,将匹配度最高的候选音效标签所对应的候选音效作为第一音效音频。
在一些实施例中,也可以将每个候选音效标签和第一音效标签输入至预训练好的模型中,模型用于将音效标签中的文本内容转换成特征向量表示,并输出特征向量表示之间的相似度作为音效标签之间的匹配度。
示例性的,第一音效标签为“猛捶桌子”,候选音效标签为“猛烈捶打桌子”,将第一音效标签输入至预训练好的模型中,对其进行特征提取,得到第一音效标签对应的第一特征向量表示;将候选音效标签输入至预训练好的模型中,对其进行特征提取,得到候选音效标签对应的候选特征向量表示。
可选地,计算第一特征向量表示和候选特征向量表示之间的向量距离,基于向量距离得到特征向量表示之间的相似度,将该相似度作为第一音效标签和候选音效标签之间的匹配度。
其中,特征向量表示之间的向量距离包括但不限于如下几种:欧氏距离、余弦相似度、曼哈顿距离等。
示例性的,“猛”和“猛烈”的语义相同,“捶”和“捶打”的语义相同,则第一特征向量表示和候选特征向量表示之间的相似度为95%,第一音效标签和候选音效标签之间的匹配度为95%。以此类推,将与第一音效标签之间匹配度最高的候选音效标签所对应的候选音效作为第一音效音频。
(2)将第一文本数据作为输入量,输入至音效生成模型中,由音效生成模型生成第一音效音频。
以第一文本数据为示例2进行说明:00003-00001|<label-effect effect=“直播间的声音”time=(2.20,5.00)>此时一群市场监管人员正在看着直播间传来的画面。</label-effect>
第一文本数据中所包含的第一音效标签为“直播间的声音”,该音效标签所包含的音效类型较多,需要结合第一文本内容以及上下文语境进行分析,才能获得匹配的第一音效音频。
对第一音效标签中的多个文本关键字进行文本编码处理,得到与多个文本关键字分别对应的文本特征向量表示。
可选地,使用T5文本编码器(Transfer Text-to-Text Transformer)对第一音效标签中的多个文本关键字进行文本编码处理。其中,将预训练好的T5预训练模型中的权重作为该文本编码器的初始值。
示例性的,按照文本编码器对第一文本数据中文本关键字的处理顺序,其在时间序列上的输出分别为:T0、T1、T2、T3……Tn,n为正整数,也即,T0至Tn为多个文本关键字分别对应的文本特征向量表示。
对文本特征向量表示进行音频编码解码处理,得到与文本特征向量表示对应的音频输出序列。
可选地,使用编码解码器对文本特征向量表示进行编码解码处理,编码解码器的结构与transformer(一种基于注意力机制的深度学习模型)相同。
编码解码器参考文本编码器在时间序列上的输出,自回归的对其进行解码并生成音频的输出序列:A0、A1、A2、A3……Am,m为正整数。
其中,音频输出序列中每个序列的长度为预设时长,如:20ms(毫秒)。
对音频输出序列进行截取,得到符合预设音效时长要求的第一音效音频。
在基于文本生成音频后,音频文件的质量会随着音频长度的增加而受到影响,因此,为了保证音频文件的质量,通常只截取音频文件中的部分音频内容作为音效音频。
可选地,截取音频输出序列前3秒对应的音频作为第一音效音频。
示例性的,对音频输出序列按照时间顺序进行排列,共存在300个音频输出序列,序号分别为1至300,每个音频输出序列的单位时长为20毫秒,由于1秒=1000毫秒,则3000/20=150,截取序号为1至150对应的音频输出序列作为第一音效音频。
值得注意的是,音效时长要求可以是任意的,音频输出序列的单位时长和数量可以是任意的,根据第一文本数据中文本关键字的数量对应调整。
(3)同时基于音效库和音效生成模型确定第一音效音频。
将音效数据库中多个候选音效对应的候选音效标签,分别与第一音效标签进行关键字匹配,得到第一匹配结果,第一匹配结果中包含每个候选音效标签与第一音效标签的关键字匹配度。将第一匹配结果中匹配程度最高的候选音效标签所对应的候选音效作为第一音效。
示例性的,第一匹配结果表示关键字匹配度分别为:70%,80%,90%,100%,则将匹配度为100%的候选音效标签对应的候选音效作为第一音效。
同时,将第一文本数据作为输入量,输入至音效生成模型中,由音效生成模型生成第二音效。
对第一音效、第二音效分别与第一文本数据之间的匹配程度进行分析,将匹配程度较高的音效作为第一音效音频。
可选地,第一音效标签为“猛捶桌子”,第一音效对应的候选音效标签为“捶桌子”,而第二音效相较于第一音效体现了“猛捶”关键字中对于“捶桌子”的动作程度,则第二音效与第一文本数据之间的匹配程度更高,将第二音效作为第一音效音频。
可选地,将第一音效标签和候选音效标签输入至预训练好的模型中,预训练好的模型用于将音效标签中的文本内容转换成特征向量表示,并输出特征向量表示之间的相似度作为音效标签之间的匹配度。
示例性的,第一音效标签为“猛捶桌子”,候选音效标签为“猛烈捶打桌子”,将第一音效标签输入至预训练好的模型中,对其进行特征提取,得到第一音效标签对应的第一特征向量表示;将候选音效标签输入至预训练好的模型中,对其进行特征提取,得到候选音效标签对应的候选特征向量表示。
可选地,计算第一特征向量表示和候选特征向量表示之间的向量距离,基于向量距离得到特征向量表示之间的相似度,将该相似度作为第一音效标签和候选音效标签之间的匹配度。分别计算第一音效标签与所有候选音效标签之间的匹配度,将与第一音效标签之间匹配度最高的候选音效标签所对应的候选音效作为第一音效音频。
(4)首先基于第一音效标签从音效库中选择匹配的音效作为第一音效音频,当音效库中不存在匹配的音效时,再通过音效生成模型生成第一音效音频。
可选地,分别计算音效数据库中每个候选音效标签的关键字与第一音效标签中文本关键字的匹配度,将匹配度达到预设阈值的候选音效标签对应的候选音效作为第一音效音频,如:匹配度预设阈值为90%。
示例性的,第一匹配结果表示关键字匹配度分别为:70%,80%,75%,60%,均未达到匹配度预设阈值,则通过音效生成模型生成第一音效音频。
步骤330,获取文本音频。
文本音频中包括第一文本内容对应的第一音频内容,第一文本数据中还标注有第一音频内容在文本音频中的第一起止时间戳。
可选地,文本音频用于表述指定文本内容,该指定文本内容可以是小说、散文、演讲稿、新闻等包含文字的文章或博客,该指定文本内容中可以包括中文、标点符号、数字等字符。
第一文本数据中的第一文本内容是文本音频对应的指定文本内容中的部分内容。也即,指定文本内容中包含第一文本内容,文本音频中也包含与第一文本内容对应的第一音频内容。
其中,文本音频是对指定文本内容进行音频生成处理得到的音频,也即,将指定文本内容中的文本转换为音频,文本音频用于表述该指定文本内容。
示意性的,文本音频用于以音频形式表述指定文本内容,第一音频内容用于以音频形式表述第一文本内容。在一些实施例中,文本音频中还包括第二音频内容,第二音频内容用于以音频形式表述指定文本内容中的第二文本内容。
可选地,指定文本内容中包括对白文本内容和旁白文本内容;或者,指定文本内容中仅包括对白文本内容;或者,指定文本内容中仅包括旁白文本内容。
其中,对白文本内容是指角色对象所说的言语对应的文本内容,旁白文本内容是指解说语对应的文本内容,例如:指定文本内容为“(这一天,小明很早就下了课,正在校门口等待小红一起回家)小明:小红!我在这儿呢,我们一起回家吧。小红:好呀,我们走吧。”,其中,旁白文本内容为“这一天,小明很早就下了课,正在校门口等待小红一起回家”,对白文本内容包括小明对应的对白a“小红!我在这儿呢,我们一起回家吧”,以及小红对应的对白b“好呀,我们走吧”。
在一个示例中,当指定文本内容中包括对白文本内容和旁白文本内容的情况下,第一音频内容实现为对白文本内容,第二音频内容实现为旁白文本内容;或者,第一音频内容实现为旁白文本内容,第二音频内容实现为对白文本内容。
在另一个示例中,当指定文本内容中包括对白文本内容或者旁白文本内容的情况下,第一音频内容对应的第一文本内容和第二音频内容对应的第二文本内容在指定文本内容中所处的位置不同。
在一些实施例中,文本音频是通过对指定文本内容所对应的多个音频内容进行拼接得到的音频拼接结果。以指定文本内容包括第一文本内容和第二文本内容为例,与第一文本内容对应的音频为第一音频内容,与第二文本内容对应的音频为第二音频内容。其中,第一音频内容对应有第一位置标签,第二音频内容对应有第二位置标签,第一位置标签用于指示第一文本内容在指定文本内容中的位置,第二位置标签用于指示第二文本内容在指定内容文本中的位置,同时对第一音频内容和第二音频内容进行去混响处理,得到第一同步音频和第二同步音频,基于第一位置标签和第二位置标签将第一同步音频和第二同步音频进行音频拼接,得到音频拼接结果,该音频拼接结果即为文本音频。
步骤340,基于第一起止时间戳将第一音效音频叠加至文本音频中,得到具有音效的文本音频。
获取第一音效标签对应的第一音效音频后,将第一音效音频叠加至文本音频中,得到具有音效的文本音频。其中,叠加第一音效音频的位置基于上述起止时间戳确定。
以第一文本数据为示例2进行说明:00003-00001|<label-effect effect=“直播间的声音”time=(2.20,5.00)>此时一群市场监管人员正在看着直播间传来的画面。</label-effect>
第一起止时间戳为(2.20,5.00),在该时间区间内,文本音频用于表述第一文本数据中的第一文本内容“此时一群市场监管人员正在看着直播间传来的画面”,将第一音效音频叠加至第一起止时间戳对应的时间区间内。
由于第一音效音频的时长可能与第一起止时间戳的时长不同,因此,在将第一音效音频叠加至文本音频之前,还需要对第一音效音频进行处理。
可选地,响应于第一音效音频的时长达到第一起止时间戳对应的时长,基于第一起止时间戳对第一音效音频进行时长对齐处理,得到对齐后的第一音效音频,其中,对齐后的第一音效音频的时长与第一起止时间戳对应的时长相同。
基于第一起止时间戳将对齐后的第一音效音频叠加至文本音频中,得到具有音效的文本音频,其中,第一音效音频在文本音频中的第二起止时间戳,与第一文本内容在文本音频中的第一起止时间戳相同。
示例性的,第一音效音频的时长为3秒,第一起止时间戳为(1.00,5.00),第一起止时间戳之间的时长为4秒,第一音效音频的时长未达到第一起止时间戳对应的时长。
则直接基于第一起止时间戳的起始时间戳1.00将第一音效音频叠加至文本音频中,也即,文本音频中起始时间戳为(1.00,4.00)对应的部分叠加了第一音效音频。
示例性的,第一音效音频的时长为3秒,第一起止时间戳为(1.00,3.00),第一起止时间戳之间的时长为2秒,第一音效音频的时长达到第一起止时间戳对应的时长。
则截取第一音效音频中前2秒音频,得到对齐后的第一音效音频,基于第一起止时间戳将对齐后的第一音效音频叠加至文本音频中,也即,文本音频中起始时间戳为(1.00,3.00)对应的部分叠加了第一音效音频。
综上所述,本申请提供的方法,通过获取具有音效标签的文本数据,基于音效标签获取对应的音效音频,并基于文本数据中所指示的起止时间戳,自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高了音频处理的效率和准确率,相较于对文本音频进行手动添加音效的方式,能够节省时间和人力资源。
本实施例提供的方法,将第一音效标签与音效数据库中多个候选音效标签分别进行关键字匹配,基于匹配结果获取第一音效音频,能够提高获取第一音效音频的效率。
本实施例提供的方法,对第一音效标签中的多个文本关键字进行文本编码处理,得到对应的文本特征向量表示,并对文本特征向量表示进行音频编码解码处理,得到对应的音频输出序列,能够自动生成音效。
在一些实施例中,服务器中存在能够自动生成音效的应用程序或模型,图4是本申请一个示例性实施例提供的音效生成模型的训练方法流程图,该方法包括如下步骤。
步骤410,获取训练数据集。
其中,训练数据集中包括多个训练数据,每个训练数据中包含文本训练数据和音频数据,文本训练数据用于对音频数据中所表述的内容进行文字描述,文本训练数据和音频数据之间存在预设的映射关系。
示例性的,训练数据集中包括第一训练数据,第一训练数据为【下雨中,<音频数据1>】,其中,“下雨中”为文本训练数据,用于对音频数据1进行文字描述,表示该音频数据的内容为雨声。
示例性的,训练数据集中包括第二训练数据,第二训练数据为【一群人说话,<音频数据2>】,其中,“一群人说话”为文本训练数据,用于对音频数据2进行文字描述,表示该音频数据的内容为人声。
步骤420,通过音效生成模型对文本训练数据进行音频生成处理,得到输出音频序列。
可选地,音效生成模型是基于AudioGen网络模型(一种可以通过输入文本来生成音频或者扩展现有音频的AI模型)得到的预训练模型。
音效生成模型包括3个模块,第一个模块为文本编码器,用于对文本训练数据中的文本关键字进行文本编码处理,得到与多个文本关键字分别对应的文本特征向量表示。
可选地,使用T5文本编码器(Transfer Text-to-Text Transformer)对第一音效标签中的多个文本关键字进行文本编码处理。其中,将预训练好的T5预训练模型中的权重作为该文本编码器的初始值。
示例性的,按照文本编码器对第一文本数据中文本关键字的处理顺序,其在时间序列上的输出分别为:T0、T1、T2、T3……Tn,n为正整数,也即,T0至Tn为多个文本关键字分别对应的文本特征向量表示。
对文本特征向量表示进行音频编码解码处理,得到与文本特征向量表示对应的音频输出序列。
音效生成模型的第二个模块为音频编码解码器,其中,第一个模块(文本编码器)和第二个模块(音频编码解码器)可共同被称为生成网络。
可选地,使用编码解码器对文本特征向量表示进行编码解码处理,编码解码器的结构与transformer(一种基于注意力机制的深度学习模型)相同。
编码解码器参考文本编码器在时间序列上的输出,自回归的对其进行解码并生成音频的输出序列:A0、A1、A2、A3……Am,m为正整数。
其中,音频输出序列中每个序列的长度为预设时长,如:20ms(毫秒)。
音效生成模型的第三个模块为音频分类器,也称判别网络。判别网络的作用是为了判别音效生成模型所输出的音频是真实的目标音频序列还是由生成网络所生成的音频。
其中,目标音频序列即为训练数据中与文本训练数据建立有映射关系的音频数据,生成网络所生成的音频即为编码解码器输出的音频输出序列。
步骤430,基于输出音频序列和目标音频序列之间的差异对音效生成模型进行调整。
可选地,生成网络输出的音频输出序列与目标音频序列之间的差异为损失值L1,损失值L1会返回至生成网络作为生成网络的损失函数,对生成网络进行调整训练。该调整过程的结束基于L1损失值的大小决定,当L1损失值趋近于预设的阈值时,停止对生成网络的训练。
与此同时,音频生成模型的第三个模块音频分类器,会对音频输出序列进行分类。判断生成网络输出的音频是真实目标音频还是生成网络生成的音频,并计算其损失值L2,损失值L2作为判别网路的损失值。
生成网络的损失值L1和判别网络的损失值L2相互对抗,使整个音效生成模型得到充分的训练,生成网络也就具备了在文本特征的描述条件下,生成对应的音频文件的功能。其中,生成网络和判别网络的对抗过程与GAN(Generative Adversarial Network,生成对抗网络)对应的对抗过程相同。
示例性的,当L2损失值符合预设的对抗停止条件时,停止生成网络和判别网络的损失值对抗过程,如,对抗停止条件为L2损失值为0.5,当L2损失值达到0.5时,停止对抗过程。
训练后的音效生成模型用于生成音效音频,此时,仅使用音效生成模型中的生成网络对输入的文本数据进行处理,并输出得到音频序列,不再使用判别网络对生成网络输出的音频序列进行判定。
综上所述,本申请提供的方法,通过获取具有音效标签的文本数据,基于音效标签获取对应的音效音频,并基于文本数据中所指示的起止时间戳,自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高了音频处理的效率和准确率,相较于对文本音频进行手动添加音效的方式,能够节省时间和人力资源。
本实施例提供的方法,通过使用具有映射关系的文本训练数据和音频数据,对音效生成模型进行训练和调整,能够得到具有生成音频功能的网络模型,自动生成与文本内容对应的音效音频,提高了音效生成过程的效率。
在一些实施例中,文本音频对应的文本内容中还包含背景音乐关键词,背景音乐关键词用于指示与文本音频中对应的文本内容关联的背景音乐类型,因此,除了对文本音频叠加音效音频,还可以对文本音频叠加背景音乐音频,以提高内容表达效果。其中,音效音频和背景音乐音频可以同时叠加至文本音频中,互不干扰。图5是一个对文本音频叠加背景音乐的方法流程图,该方法包括如下步骤。
步骤510,获取背景音乐数据库。
其中,背景音乐数据库中包含多个候选背景音乐音频。
可选地,背景音乐数据库中包括i个候选背景音乐音频,i为正整数,每个候选背景音乐音频都对应有各自的音频信息。
可选地,音频信息包含如下几种信息中的至少一种:(1)背景音乐类型标签,用于指示每个候选背景音乐音频的背景音乐类型,如:表达背景音乐情绪的标签,“喜悦”、“悲伤”、“悬疑”等;或者,该候选背景音乐音频的演奏乐器种类,“小提琴”、“钢琴”、“大提琴”等;(2)音频名称:当候选背景音乐音频为歌曲或歌曲片段时,音频名称为该歌曲的名称;(3)作者名称:当候选背景音乐音频为歌曲或歌曲片段时,作者名称为该歌曲的作词人/作曲者/演唱者等。
示例性的,背景音乐数据库中包括3个候选背景音乐音频。
第一个候选背景音乐音频对应的音频信息包括:“喜悦”、“小提琴”;第二个候选背景音乐音频对应的音频信息包括:“悬疑”,第三个候选背景音乐音频对应的音频信息包括:“喜悦”、“歌曲名A”“歌手B”。
步骤520,基于文本音频对应的文本内容中的背景音乐关键词从候选背景音乐音频中确定目标背景音乐音频。
可选地,文本音频对应的文本内容中所包含的背景音乐关键词可以包含上述音频信息中的至少一种:背景音乐类型标签、音频名称、作者名称。
示例性的,背景音乐关键词为:“歌曲名A”和“歌手B”。则与上述第三个候选背景音乐音频对应的音频信息匹配,将第三个候选背景音乐音频确定为目标背景音乐音频。
在一些实施例中,上述基于背景音乐关键词确定目标背景音乐音频的方式仅用于示例,确定目标背景音乐音频的方式可以是任意的,如,分别将每个候选背景音乐音频对应的音频信息中的关键词与背景音乐关键词之间进行关键词匹配,并得到各自对应的关键字匹配度,将关键字匹配度最高的候选背景音乐音频作为目标背景音乐音频。
步骤530,将目标背景音乐音频叠加至文本音频中作为文本音频的背景音乐。
由于目标背景音乐音频的时长可能与文本音频的时长不同,因此,在将目标背景音乐音频叠加至文本音频中作为文本音频的背景音乐之前,也需要对目标背景音乐音频进行处理。
响应于目标背景音乐音频的时长达到文本音频的时长,对目标背景音乐音频进行时长对齐处理,得到对齐后的目标背景音乐音频,将对齐后的目标背景音乐音频叠加至文本音频中作为文本音频的背景音乐。
示例性的,目标背景音乐音频的时长为50分钟,文本音频的时长为40分钟,则截取目标背景音乐音频前40分钟部分的音频,得到对齐后的目标背景音乐音频,将其叠加至文本音频中,也即,文本音频从开始播放到结束播放的过程中,都会播放该目标背景音乐音频。
或者,响应于目标背景音乐音频的时长未达到文本音频的时长,对目标背景音乐音频进行延长处理,得到延长后的目标背景音乐音频,将延长后的目标背景音乐音频叠加至文本音频中作为文本音频的背景音乐;其中,延长后的目标背景音乐音频的时长与文本音频的时长相同。
示例性的,目标背景音乐音频的时长为3分钟,文本音频的时长为2小时,对目标背景音乐音频进行延长处理,包括但不限于如下几种方式:
(1)重复播放目标背景音乐音频,直至时长与文本音频的时长相同。
如,2小时=120分钟,重复播放40次目标背景音乐音频,得到延长后的目标背景音乐音频;
在一些实施例中,文本音频的时长不是目标背景音乐音频的整数倍,则此时对目标背景音乐音频进行延长,将超过文本音频时长的部分截断。如:目标背景音乐音频的时长为7分钟,文本音频的时长为2小时,120/7=17余1,则重复播放18次目标背景音乐音频,得到延长后的目标背景音乐音频,截取该延长后的目标背景音乐音频的前2小时部分的音频,叠加至文本音频中作为文本音频的背景音乐。
(2)从背景音乐数据库中选择多个相似的目标背景音乐音频,按照预设顺序播放多个目标背景音乐音频,被选中的多个目标背景音乐音频的总时长达到文本音频的总时长。
被选中的多个目标背景音乐音频的总时长超过文本音频的总时长时,截取至与文本音频总时长相同的部分音频,叠加至文本音频中作为文本音频的背景音乐。
(3)以预设倍速播放目标背景音乐音频,如:0.5倍速等。
值得注意的是,上述叠加背景音乐的方式仅用于示例,在一些实施例中,背景音乐并非贯穿文本音频全程,也可以仅对文本音频中的指定时间轴区间内叠加背景音乐,将目标背景音乐音频与文本音频对齐的方式可以是任意的,本实施例对此不加以限定。
在一些实施例中,可以对文本音频中的同一个时间轴区间内叠加多个音效音频。
可选地,除了第一音效音频,文本音频还叠加有第二音效音频,第二音效音频的获取方式可以与第一音效音频的获取方式相同,也可以不同。
响应于第一音效音频对应的第一时间轴区间和第二音效音频对应的第二时间轴区间之间存在重合,基于第一音效音频的第一起止时间戳和第二音效音频的第三起止时间戳确定与重合时长对应的第四起止时间戳。
示例性的,第一音效音频对应的第一时间轴区间为文本音频的(11.00,15.00),第二音效音频对应的第二时间轴区间为文本音频的(12.00,17.00),则第一起止时间戳与第三起止时间戳之间的重合时长为3分钟,第四起止时间戳为(12.00,15.00)。
按预设调节比例对重合音频进行音量调节,其中,重合音频中包括第一音效音频和第二音效音频各自位于第四起止时间戳之间的音频部分。
也即,重合音频是指文本音频中时间戳为(12.00,15.00)的音频部分。
示例性的,在叠加第一音效音频和第二音效音频时,对每个音效音频的重要程度进行分析,如:根据预设的关键词优先级确定音效音频的重要程度,重要程度高的音效音频,其音量大于重要程度低的音效音频。
第一文本数据中的关键词为“一群人说话”,表示第一音效音频包含人声;第二文本数据中的关键词为“雷雨”,表示第二音效音频包含自然气象声音。
预设的关键词优先级为:人声>自然气象声音,则第一音效音频的重要程度大于第二音效音频,将第一音效音频的音量调节为60%,第二音效音频的音量调节为40%,其中,调节音量的比例可以是任意的。
值得注意的是,上述按预设调节比例对重合音频进行音量调节的方式和音量调节比例仅用于示例,在一些实施例中,也可以使用其他方式。
综上所述,本申请提供的方法,通过获取具有音效标签的文本数据,基于音效标签获取对应的音效音频,并基于文本数据中所指示的起止时间戳,自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高了音频处理的效率和准确率,相较于对文本音频进行手动添加音效的方式,能够节省时间和人力资源。
本实施例提供的方法,能够在对文本音频叠加音效音频的同时,继续对文本音频叠加背景音乐,并对背景音乐进行对齐或延长处理,使得背景音乐与文本音频的时长对齐,提高文本音频表达内容的效果。
图6是本申请一个示例性实施例提供的音频处理装置的结构框图,如图6所示,该装置包括如下部分。
获取模块610,用于获取第一文本数据,所述第一文本数据中包括第一文本内容和基于所述第一文本内容识别得到的第一音效标签,所述第一音效标签用于指示与所述第一文本内容关联的音效类型;
所述获取模块610,还用于获取所述第一音效标签对应的第一音效音频;
所述获取模块610,还用于获取文本音频,所述文本音频中包括所述第一文本内容对应的第一音频内容,所述第一文本数据中还标注有所述第一音频内容在所述文本音频中的第一起止时间戳;
音效叠加模块620,用于基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中,得到具有音效的文本音频。
在一个可选的实施例中,所述获取模块610,还用于获取音效数据库,所述音效数据库中包含多个候选音效,所述候选音效对应有候选音效标签;将所述候选音效标签和所述第一音效标签进行关键字匹配,得到第一匹配结果,所述第一匹配结果用于表示所述第一音效标签中文本关键字与所述候选音效标签中文本关键字的匹配情况;基于所述第一匹配结果获取所述第一音效标签对应的第一音效音频。
在一个可选的实施例中,所述获取模块610,还用于响应于所述第一匹配结果指示存在第一候选音效标签与所述第一音效表现匹配,将所述第一候选音效标签对应的第一候选音效作为所述第一音效音频。
在一个可选的实施例中,所述获取模块610,还用于对所述第一音效标签中的多个文本关键字进行文本编码处理,得到与所述多个文本关键字分别对应的文本特征向量表示;对所述文本特征向量表示进行音频编码解码处理,得到与所述文本特征向量表示对应的音频输出序列;对所述音频输出序列进行截取,得到符合预设音效时长要求的所述第一音效音频。
在一个可选的实施例中,所述音效叠加模块620之前,如图7所示,所述装置还包括:
对齐模块630,用于响应于所述第一音效音频的时长达到所述第一起止时间戳对应的时长,基于所述第一起止时间戳对所述第一音效音频进行时长对齐处理,得到对齐后的第一音效音频,其中,所述对齐后的第一音效音频的时长与所述第一起止时间戳对应的时长相同。
在一个可选的实施例中,所述文本音频对应的文本内容中还包含背景音乐关键词,所述背景音乐关键词用于指示与所述文本音频对应的文本内容关联的背景音乐类型;
所述装置还包括:
所述获取模块610,还用于获取背景音乐数据库,所述背景音乐数据库中包含多个候选背景音乐音频;基于所述文本音频对应的文本内容中的背景音乐关键词从所述候选背景音乐音频中确定目标背景音乐音频;
背景音乐叠加模块640,用于将所述目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐。
在一个可选的实施例中,所述背景音乐叠加模块640,还用于响应于所述目标背景音乐音频的时长达到所述文本音频的时长,对所述目标背景音乐音频进行时长对齐处理,得到对齐后的目标背景音乐音频,将所述对齐后的目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐;或者,
响应于所述目标背景音乐音频的时长未达到所述文本音频的时长,对所述目标背景音乐音频进行延长处理,得到延长后的目标背景音乐音频,将所述延长后的目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐;其中,所述延长后的目标背景音乐音频的时长与所述文本音频的时长相同。
在一个可选的实施例中,所述文本音频还叠加有第二音效音频;所述装置还包括:
音量调节模块650,用于响应于所述第一音效音频对应的第一时间轴区间和所述第二音效音频对应的第二时间轴区间之间存在重合,基于所述第一音效音频的第一起止时间戳和所述第二音效音频的第三起止时间戳确定与重合时长对应的第四起止时间戳;按预设调节比例对重合音频进行音量调节,其中,所述重合音频中包括所述第一音效音频和所述第二音效音频各自位于所述第四起止时间戳之间的音频部分。
综上所述,本申请提供的音频处理装置,通过获取具有音效标签的文本数据,基于音效标签获取对应的音效音频,并基于文本数据中所指示的起止时间戳,自动将音效音频叠加至文本音频中,得到具有音效的文本音频,提高了音频处理的效率和准确率,相较于对文本音频进行手动添加音效的方式,能够节省时间和人力资源。
需要说明的是:上述实施例提供的音频处理装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本申请一个示例性实施例提供的计算机设备800的结构框图。该计算机设备800可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,计算机设备800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的音频处理方法。
在一些实施例中,计算机设备800还包括其他组件,本领域技术人员可以理解,图8中示出的结构并不构成对计算机设备800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的音频处理方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的音频处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种音频处理方法,其特征在于,所述方法包括:
获取第一文本数据,所述第一文本数据中包括第一文本内容和基于所述第一文本内容识别得到的第一音效标签,所述第一音效标签用于指示与所述第一文本内容关联的音效类型;
获取所述第一音效标签对应的第一音效音频;
获取文本音频,所述文本音频中包括所述第一文本内容对应的第一音频内容,所述第一文本数据中还标注有所述第一音频内容在所述文本音频中的第一起止时间戳;
基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中,得到具有音效的文本音频。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一音效标签对应的第一音效音频,包括:
获取音效数据库,所述音效数据库中包含多个候选音效,所述候选音效对应有候选音效标签;
将所述候选音效标签和所述第一音效标签进行关键字匹配,得到第一匹配结果,所述第一匹配结果用于表示所述第一音效标签中文本关键字与所述候选音效标签中文本关键字的匹配情况;
基于所述第一匹配结果获取所述第一音效标签对应的第一音效音频。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一匹配结果获取所述第一音效标签对应的第一音效音频,包括:
响应于所述第一匹配结果指示存在第一候选音效标签与所述第一音效表现匹配,将所述第一候选音效标签对应的第一候选音效作为所述第一音效音频。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取所述第一音效标签对应的第一音效音频,包括:
对所述第一音效标签中的多个文本关键字进行文本编码处理,得到与所述多个文本关键字分别对应的文本特征向量表示;
对所述文本特征向量表示进行音频编码解码处理,得到与所述文本特征向量表示对应的音频输出序列;
对所述音频输出序列进行截取,得到符合预设音效时长要求的所述第一音效音频。
5.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中,得到具有音效的文本音频之前,还包括:
响应于所述第一音效音频的时长达到所述第一起止时间戳对应的时长,基于所述第一起止时间戳对所述第一音效音频进行时长对齐处理,得到对齐后的第一音效音频,其中,所述对齐后的第一音效音频的时长与所述第一起止时间戳对应的时长相同。
6.根据权利要求1至3任一所述的方法,其特征在于,所述文本音频对应的文本内容中还包含背景音乐关键词,所述背景音乐关键词用于指示与所述文本音频对应的文本内容关联的背景音乐类型;
所述方法还包括:
获取背景音乐数据库,所述背景音乐数据库中包含多个候选背景音乐音频;
基于所述文本音频对应的文本内容中的背景音乐关键词从所述候选背景音乐音频中确定目标背景音乐音频;
将所述目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐。
7.根据权利要求6所述的方法,其特征在于,所述将所述目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐,包括:
响应于所述目标背景音乐音频的时长达到所述文本音频的时长,对所述目标背景音乐音频进行时长对齐处理,得到对齐后的目标背景音乐音频,将所述对齐后的目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐;或者,
响应于所述目标背景音乐音频的时长未达到所述文本音频的时长,对所述目标背景音乐音频进行延长处理,得到延长后的目标背景音乐音频,将所述延长后的目标背景音乐音频叠加至所述文本音频中作为所述文本音频的背景音乐;其中,所述延长后的目标背景音乐音频的时长与所述文本音频的时长相同。
8.根据权利要求1至3任一所述的方法,其特征在于,所述文本音频还叠加有第二音效音频;
所述方法还包括:
响应于所述第一音效音频对应的第一时间轴区间和所述第二音效音频对应的第二时间轴区间之间存在重合,基于所述第一音效音频的第一起止时间戳和所述第二音效音频的第三起止时间戳确定与重合时长对应的第四起止时间戳;
按预设调节比例对重合音频进行音量调节,其中,所述重合音频中包括所述第一音效音频和所述第二音效音频各自位于所述第四起止时间戳之间的音频部分。
9.一种音频处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一文本数据,所述第一文本数据中包括第一文本内容和基于所述第一文本内容识别得到的第一音效标签,所述第一音效标签用于指示与所述第一文本内容关联的音效类型;
所述获取模块,还用于获取所述第一音效标签对应的第一音效音频;
所述获取模块,还用于获取文本音频,所述文本音频中包括所述第一文本内容对应的第一音频内容,所述第一文本数据中还标注有所述第一音频内容在所述文本音频中的第一起止时间戳;
音效叠加模块,用于基于所述第一起止时间戳将所述第一音效音频叠加至所述文本音频中,得到具有音效的文本音频。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一所述的音频处理方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的音频处理方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一所述的音频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311691626.7A CN117690413A (zh) | 2023-12-08 | 2023-12-08 | 音频处理方法、装置、设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311691626.7A CN117690413A (zh) | 2023-12-08 | 2023-12-08 | 音频处理方法、装置、设备、介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117690413A true CN117690413A (zh) | 2024-03-12 |
Family
ID=90125896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311691626.7A Pending CN117690413A (zh) | 2023-12-08 | 2023-12-08 | 音频处理方法、装置、设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117690413A (zh) |
-
2023
- 2023-12-08 CN CN202311691626.7A patent/CN117690413A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
WO2022178969A1 (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN109920409B (zh) | 一种声音检索方法、装置、系统及存储介质 | |
CN113420556B (zh) | 基于多模态信号的情感识别方法、装置、设备及存储介质 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN118069812B (zh) | 一种基于大模型的导览方法 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN116682411A (zh) | 语音合成方法、语音合成系统、电子设备及存储介质 | |
WO2022262080A1 (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN114125506B (zh) | 语音审核方法及装置 | |
CN113850291A (zh) | 文本处理及模型训练方法、装置、设备和存储介质 | |
CN110781327B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN113762056A (zh) | 演唱视频识别方法、装置、设备及存储介质 | |
CN112233648A (zh) | 结合rpa及ai的数据的处理方法、装置、设备及存储介质 | |
CN113408292A (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
CN116665639A (zh) | 语音合成方法、语音合成装置、电子设备及存储介质 | |
CN117690413A (zh) | 音频处理方法、装置、设备、介质和程序产品 | |
CN113066473A (zh) | 一种语音合成方法、装置、存储介质及电子设备 | |
CN114093340A (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN117725153B (zh) | 文本匹配方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |