CN112786015A - 一种数据处理方法以及装置 - Google Patents
一种数据处理方法以及装置 Download PDFInfo
- Publication number
- CN112786015A CN112786015A CN201911074526.3A CN201911074526A CN112786015A CN 112786015 A CN112786015 A CN 112786015A CN 201911074526 A CN201911074526 A CN 201911074526A CN 112786015 A CN112786015 A CN 112786015A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- audio data
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 201
- 238000000034 method Methods 0.000 claims abstract description 105
- 239000013598 vector Substances 0.000 claims description 180
- 238000002372 labelling Methods 0.000 claims description 16
- 238000010191 image analysis Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000001737 promoting effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 18
- 238000003786 synthesis reaction Methods 0.000 abstract description 18
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请公开了一种数据处理方法以及装置,该方法根据目标音频数据和参考音频数据,获得音频特征信息,将该音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。通过使用本方法,可利用预先训练的音频分析模型高效准确地从大规模原始音频数据中筛选出与预定音频应用场景相匹配的音频数据,采用该音频数据训练语音合成模型,可使得预定音频应用场景中的语音合成效果得到保障。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方法。本申请同时涉及一种数据处理装置以及一种电子设备。本申请还涉及一种音频分析模型的训练方法、一种音频分析模型的训练装置以及一种电子设备。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术。文语转换技术(Textto Speech,TTS)隶属于语音合成系统,是将计算机自己产生的、或外部输入的文本信息转变为语音信息并进行输出的技术,其包括语言处理、韵律处理以及声学处理等环节。
在针对与说话主体相关的语音合成系统的训练过程中,需要预先采集说话主体的大量原始音频数据。该采集过程通常要历时数周或数月。在采集过程中,说话主体会因外部环境、身体状况以及对应用场景的理解偏差等客观和主观因素而难以保持音频数据采集的稳定性,从而产生与预定的音频应用场景不匹配的音频数据。采用该种数据训练语音合成模型,会影响预定的音频应用场景中的语音合成效果。例如在智能客服场景,用户定制了一款100%温柔的声音,因上述因素的影响,最终输出的语音只能达到80%温柔,影响用户体验。因此,需要按照与预定音频应用场景匹配与否而针对采集的原始音频数据进行检查,从而筛选出与预定音频应用场景相匹配的原始音频数据,用于训练语音合成系统。
现有技术中,无法高效准确地从大规模原始音频数据中筛选出与预定音频应用场景相匹配的音频数据,使得预定音频应用场景中的语音合成效果无法得到保障。
发明内容
本申请实施例提供一种数据处理方法、装置以及电子设备,以解决现有无法高效准确地从大规模原始音频数据中筛选出与预定音频应用场景相匹配的音频数据的问题。本申请实施例另外提供一种音频分析模型的训练方法、一种音频分析模型的训练装置以及一种电子设备。
本申请实施例提供一种数据处理方法,包括:获得目标音频数据;获得目标场景信息所对应的参考音频数据;根据所述目标音频数据和所述参考音频数据,获得音频特征信息;将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得音频特征信息,包括:根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:根据所述目标音频数据,获得所述目标音频数据的与音频使用场景相关的第一音频特征信息;根据所述参考音频数据,获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息。
可选的,所述获得所述目标音频数据的与音频使用场景相关的第一音频特征信息,包括:获得所述目标音频数据的i-vector特征矢量;
所述获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:获得所述参考音频数据的i-vector特征矢量。
可选的,所述获得所述目标音频数据的i-vector特征矢量,包括:获得所述目标音频数据的256维i-vector特征矢量;所述获得所述参考音频数据的i-vector特征矢量,包括:获得所述参考音频数据的256维i-vector特征矢量。
可选的,还包括:将所述第一音频特征信息和所述第二音频特征信息进行组合,获得组合后的音频特征信息;所述将所述音频特征信息输入音频分析模型,包括:将所述组合后的音频特征信息输入音频分析模型。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:将所述目标音频数据与所述参考音频数据进行组合,获得组合音频数据;对所述组合音频数据进行音频特征提取,获得组合音频数据的与音频使用场景相关的音频特征信息。
可选的,所述获得组合音频数据的与音频使用场景相关的音频特征信息,包括:获得所述组合音频数据的i-vector特征矢量。
可选的,所述获得目标场景信息所对应的参考音频数据,包括:获得针对目标场景预先录制的来自一个或多个发音主体的参考音频数据。
可选的,所述获得目标场景信息所对应的参考音频数据,包括:获得目标场景信息所对应的至少两个参考音频数据。
可选的,所述目标场景信息包括如下中的至少一种:与音频数据的使用场所相对应的场景信息;与音频数据的使用功能相对应的场景信息;与音频数据所面向的用户对象相对应的场景信息;与音频数据所包含的语义内容相对应的场景信息。
可选的,所述音频分析模型包括DNN结构的二分类深度学习模型。
可选的,还包括:按照预定的音频转换方式将所述目标音频数据和所述参考音频数据转换成具有预定数据量、预定长度以及预定音频格式的音频数据。
可选的,还包括:如果所述分析结果表示所述目标音频数据与所述目标场景信息不匹配,则针对所述目标音频数据进行重新录制,获得与所述目标场景信息相匹配的音频数据。
本申请另一实施例还提供一种音频分析模型的训练方法,包括:获得原始音频数据以及所述原始音频数据所对应的第一场景信息;获得第二场景信息所对应的参考音频数据;根据所述原始音频数据和所述参考音频数据,获得音频特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
可选的,所述根据所述原始音频数据和所述参考音频数据,获得音频特征信息,包括:根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
可选的,根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:根据所述原始音频数据,获得与音频使用场景相关的第一音频特征信息;根据所述参考音频数据,获得与所述第一音频特征信息具有相同类别的第二音频特征信息;将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息;
对应的,所述根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,包括:根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述合并后的音频特征信息进行标注。
可选的,所述获得与音频使用场景相关的第一音频特征信息,包括:获得所述原始音频数据的i-vector特征矢量;所述获得与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:获得所述参考音频数据的i-vector特征矢量;所述将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息,包括:将所述原始音频数据的i-vector特征矢量与所述参考音频数据的i-vector特征矢量进行合并,获得合并后的i-vector特征矢量。
可选的,所述根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据;获得所述组合音频数据的与音频使用场景相关的音频特征信息。
可选的,所述获得所述组合音频数据的与音频使用场景相关的音频特征信息,包括:获得所述组合音频数据的i-vector特征矢量。
可选的,所述将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据,包括:对所述原始音频数据进行切分,获得切分后的原始音频数据;将所述切分后的原始音频数据与所述参考音频数据进行拼接,获得组合音频数据。
可选的,所述对原始音频数据进行切分,获得切分后的原始音频数据,包括:按照任意长度对所述原始音频数据进行切分,获得切分后的原始音频数据。
本申请另一实施例还提供一种数据处理装置,包括:目标音频数据获得单元,用于获得目标音频数据;参考音频数据获得单元,用于获得目标场景信息所对应的参考音频数据;音频特征信息获得单元,用于根据所述目标音频数据和所述参考音频数据,获得音频特征信息;分析结果获得单元,用于将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
本申请另一实施例还提供一种电子设备,包括:处理器和存储器,存储器用于存储数据处理程序,所述程序在被所述处理器读取执行时,执行如下操作:获得目标音频数据;获得目标场景信息所对应的参考音频数据;根据所述目标音频数据和所述参考音频数据,获得音频特征信息;将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
本申请另一实施例还提供一种音频分析模型的训练装置,包括:原始音频数据获得单元,用于获得原始音频数据以及所述原始音频数据所对应的第一场景信息;参考音频数据获得单元,用于获得第二场景信息所对应的参考音频数据;音频特征信息获得单元,用于根据所述原始音频数据和所述参考音频数据,获得音频特征信息;模型训练数据获得单元,用于根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;模型训练单元,用于根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
本申请另一实施例还提供一种电子设备,包括:处理器和存储器,存储器用于存储音频分析模型的训练程序,所述程序在被所述处理器读取执行时,执行如下操作:获得原始音频数据以及所述原始音频数据所对应的第一场景信息;获得第二场景信息所对应的参考音频数据;根据所述原始音频数据和所述参考音频数据,获得音频特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
本申请另一实施例还提供一种新闻播报语音数据的匹配方法,包括:获得目标语音数据;获得新闻播报场景所对应的参考语音数据;根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述新闻播报场景是否匹配的分析结果;所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息。
本申请另一实施例还提供一种语音分析模型的训练方法,包括:获得原始语音数据以及所述原始语音数据所对应的第一场景信息;获得第二场景信息所对应的参考语音数据;根据所述原始语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述语音特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同语音数据是否对应相同场景信息的语音分析模型。
本申请另一实施例还提供一种宣传类语音数据的匹配方法,包括:获得目标语音数据;获得语音宣传场景所对应的参考语音数据;根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述语音宣传场景是否匹配的分析结果;所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息。
本申请另一实施例还提供一种语音数据的匹配方法,包括:获得目标语音数据;获得与目标位置的语音使用需求相匹配的参考语音数据;根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述目标位置的语音使用需求是否匹配的分析结果;所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息。
本申请另一实施例还提供一种图像数据处理方法,其特征在于,包括:获得目标图像数据;获得目标场景信息所对应的参考图像数据;根据所述目标图像数据和所述参考图像数据,获得与图像使用场景相关的图像特征信息;将所述图像特征信息输入图像分析模型,获得所述图像分析模型输出的用于表示所述目标图像数据与所述目标场景信息是否匹配的分析结果;所述图像分析模型用于根据不同图像数据的图像特征信息判断所述不同图像数据是否匹配相同的场景信息。
本申请另一实施例还提供一种图像分析模型的训练方法,包括:获得原始图像数据以及所述原始图像数据所对应的第一场景信息;获得第二场景信息所对应的参考图像数据;根据所述原始图像数据和所述参考图像数据,获得与图像使用场景相关的图像特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述图像特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同图像数据是否对应相同场景信息的图像分析模型。
本申请另一实施例还提供一种视频数据处理方法,包括;获得目标视频数据;获得目标场景信息所对应的参考视频数据;根据所述目标视频数据和所述参考视频数据,获得与视频使用场景相关的视频特征信息;将所述视频特征信息输入视频分析模型,获得所述视频分析模型输出的用于表示所述目标视频数据与所述目标场景信息是否匹配的分析结果;所述视频分析模型用于根据不同视频数据的视频特征信息判断所述不同视频数据是否匹配相同的场景信息。
本申请另一实施例还提供一种视频分析模型的训练方法,包括:获得原始视频数据以及所述原始视频数据所对应的第一场景信息;获得第二场景信息所对应的参考视频数据;根据所述原始视频数据和所述参考视频数据,获得与视频使用场景相关的视频特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述视频特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同视频数据是否对应相同场景信息的视频分析模型。
本申请另一实施例还提供一种文本数据处理方法,包括:获得目标文本数据;获得目标场景信息所对应的参考文本数据;根据所述目标文本数据和所述参考文本数据,获得与文本使用场景相关的文本特征信息;将所述文本特征信息输入文本分析模型,获得所述文本分析模型输出的用于表示所述目标文本数据与所述目标场景信息是否匹配的分析结果;所述文本分析模型用于根据不同文本数据的文本特征信息判断所述不同文本数据是否匹配相同的场景信息。
本申请另一实施例还提供一种文本分析模型的训练方法,包括:获得原始文本数据以及所述原始文本数据所对应的第一场景信息;获得第二场景信息所对应的参考文本数据;根据所述原始文本数据和所述参考文本数据,获得与文本使用场景相关的文本特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述文本特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同文本数据是否对应相同场景信息的文本分析模型。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供的数据处理方法,根据目标音频数据和参考音频数据,获得音频特征信息,将该音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。通过使用本方法,可利用预先训练的音频分析模型高效准确地从大规模原始音频数据中筛选出与预定音频应用场景相匹配的音频数据,采用该音频数据训练语音合成模型,可使得预定音频应用场景中的语音合成效果得到保障。
附图说明
图1是本申请第一实施例提供的数据处理方法流程图;
图1-A是本申请第一实施例提供的数据处理方法的示意图;
图2是本申请第二实施例提供的音频分析模型的训练方法流程图;
图3是本申请第三实施例提供的数据处理装置的单元框图;
图4是本申请第四实施例提供的电子设备的逻辑结构示意图;
图5是本申请第五实施例提供的音频分析模型的训练装置的单元框图;
图6是本申请第六实施例提供的电子设备的逻辑结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
针对语音合成系统的训练场景,为了高效准确地从大规模原始音频数据中筛选出与预定音频应用场景相匹配的音频数据,本申请提供了一种数据处理方法、与该方法相对应的数据处理装置以及电子设备,本申请还提供一种音频分析模型的训练方法、与该方法相对应的音频分析模型的训练装置以及电子设备。以下提供实施例对所述方法、装置以及电子设备进行详细说明。
本申请第一实施例提供一种数据处理方法,图1为本申请第一实施例提供的数据处理方法的流程图,以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理,不是实际使用的限定。
如图1所示,本实施例提供的数据处理方法包括如下步骤:
S101,获得目标音频数据。
目标音频数据可以是指具有场景匹配需求的音频数据,例如,在TTS(语音合成,Text To Speech)系统的语音合成模型的训练过程中,需将预先录制的原始音频数据作为训练数据进行语音合成训练,以使该语音合成模型可输出与预定的语音使用场景相匹配的语音数据,在该过程中,为了确保模型训练的准确度,需确定所录制的原始音频数据是否与预定的音频使用场景(音频数据的使用场所、音频数据的使用功能、音频数据所面向的用户对象)相匹配,该原始音频数据即可作为目标音频数据。在本实施例中,获得目标音频数据的过程可以是指从预先录制的原始语句中选取预定数量的语句作为目标音频数据。
在本实施例中,获得目标音频数据之后,还需按照预定的音频转换方式将所述目标音频数据转换成具有预定数据量、预定长度以及预定音频格式的音频数据。例如,将目标音频数据转换成16k、16bit且未经压缩的PCM(脉冲编码调制,Pulse-code modulation)音频文件格式或WAV音频文件格式的音频数据。
S102,获得目标场景信息所对应的参考音频数据。
目标场景信息指的是预定的需确定针对该场景所采集的原始音频数据是否与其相匹配的场景信息。在本实施例中,目标场景信息可以是指以下场景信息中的一种或多种:用于表示音频数据的使用场所的场景信息,例如用于表示少儿娱乐场所、老人活动场所、火车站、集会场所、学校等场所的的场景信息;用于表示音频数据的使用功能的场景信息,例如用于表示客户服务、新闻播报、广告宣传、天气播报等使用功能的场景信息;用于表示音频数据所面向的用户对象的场景信息,例如用于表示面向老人、儿童、少女、职场人士、军人、学生等特定群体的场景信息;用于表示音频数据所对应的语义内容的场景信息,例如表示小说、幽默片段、讲解资料、科普文献、历史信息的场景信息。
参考音频数据指的是预先确定的与上述目标场景信息相对应的音频数据,获取参考音频数据的方式可以为:在初始建设TTS系统的语音合成模型时,在预设的音频使用场景下,指示录音人采用与该音频使用场景相符的语音录入方式进行语音表述,并将预定数量的录入语音作为参考音频数据,用于作为衡量其它音频数据是否与该音频使用场景相匹配的参考标准。
在本实施例中,上述获得目标场景信息所对应的参考音频数据,可以是指获得针对目标场景预先录制的来自一个或多个发音主体的参考音频数据,该参考音频数据的数量至少为两个。
例如,预先针对车站、学校等场所在进行语音播报时所使用的标准语音信息进行录制,所录制的语音信息即可作为车站、学校等场所的语音播报场景所对应的参考音频数据。
再例如,特定群体中,不同身份属性的群体成员对应不同的语音表述风格,相同身份属性的群体成员的语音表述风格具有相似性,因此,特定群体中具有相同身份属性的群体成员可对应同一种音频使用场景。例如,在家庭关系中,因身份限定,不同家庭成员(父亲、母亲、子女、哥哥等)在说话时,其声波频率、声波振幅、声波振动持续时间等语音因素有所差异,导致每个家庭成员的说话风格有所区别,由于多个家庭中具有相同身份的家庭成员的说话风格趋向一致,因此,可按照家庭成员的身份属性信息设置对应的语音使用场景,并据此获得参考音频数据,例如,预先录制多个家庭中的父亲的语音数据作为家庭场景中与“父亲”这一角色相匹配的语音使用场景的参考音频数据。
在获得参考音频数据后,需将该参考音频数据转换成与上述目标音频数据相对应的具有预定数据量、预定长度以及预定音频格式的音频数据,例如将参考音频数据转换成16k、16bit且未经压缩的PCM(脉冲编码调制,Pulse-code modulation)音频文件格式或WAV音频文件格式的音频数据。
S103,根据目标音频数据和参考音频数据,获得音频特征信息。
在上述步骤获得目标音频数据以及目标场景信息所对应的参考音频数据之后,本步骤用于根据上述目标音频数据和参考音频数据,获得音频特征信息。
所述音频特征信息指的是从音频数据中提取出的可用于实现音频数据的分析、识别等数据处理过程的特征信息,例如,分别从目标音频数据以及参考音频数据中提取的可作为音频分析模型的输入数据的归一化的特征信息,例如,词级别的能量、语速、基频等信息均可作为音频特征信息。
在本实施例中,上述根据目标音频数据和参考音频数据获得音频特征信息,主要是指从目标音频数据和参考音频数据中提取出与音频数据的使用场景相关的音频特征信息,例如音频数据的i-vector特征矢量,音频数据的i-vector特征矢量包含语音主体的差异信息,其主要应用于声纹识别领域,不同语音场景下所对应的音频数据的i-vector特征矢量具有较强的区分性,且维度相对较低,可以大幅减少音频数据处理过程中的计算量,因此,可利用i-vector特征矢量的强区分性,将i-vector特征矢量与音频数据的使用场景信息建立关联关系,通过音频数据的i-vector特征矢量实现音频数据的后续处理。
在本实施例中,上述根据目标音频数据和参考音频数据,获得与音频使用场景相关的音频特征信息的过程可通过如下两种方式实现:
方式一:根据所述目标音频数据,获得所述目标音频数据的与音频使用场景相关的第一音频特征信息;根据所述参考音频数据,获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息。例如,获得所述目标音频数据的与音频使用场景相关的第一音频特征信息指的是提取所述目标音频数据的i-vector特征矢量,例如,提取所述目标音频数据的256维i-vector特征矢量;所述获得参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息,具体是指提取参考音频数据的i-vector特征矢量,例如,提取所述参考音频数据的256维i-vector特征矢量。
在上述获得第一音频特征信息和第二音频特征信息之后,可将该第一音频特征信息和第二音频特征信息进行组合,获得组合后的音频特征信息。例如,将上述提取的目标音频数据的256维i-vector特征矢量与参考音频数据的256维i-vector特征矢量进行组合,获得组合后的i-vector特征矢量。
方式二:将目标音频数据与参考音频数据进行组合,获得组合音频数据;对该组合音频数据进行音频特征提取,获得组合音频数据的与音频使用场景相关的音频特征信息,例如,获得该组合音频数据的256维i-vector特征矢量。
S104,将音频特征信息输入音频分析模型,获得音频分析模型输出的用于表示目标音频数据与目标场景信息是否匹配的分析结果。
在上述步骤获得与目标音频数据和参考音频数据的使用场景相关的音频特征信息之后,本步骤用于将该音频特征信息输入预先训练的音频分析模型,并获得该音频分析模型输出的用于表示目标音频数据与目标场景信息是否匹配的分析结果。该音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。由于参考音频数据与预定的目标场景信息相对应,因此,上述分析结果同样可用于表示目标音频数据是否为与上述目标场景信息相对应的音频数据,通过该种方式,可从大批量音频数据中筛选出与预定的目标场景信息相匹配的音频数据。例如,根据目标音频数据的i-vector特征矢量和参考音频数据的i-vector特征矢量判断所述目标音频数据与所述参考音频数据是否匹配相同的场景信息,如果匹配,则表明所述目标音频数据与所述目标场景信息相匹配。
在本实施例中,所述将音频特征信息输入音频分析模型,可以是指:将目标音频数据的i-vector特征矢量与参考音频数据的i-vector特征矢量进行组合后的i-vector特征矢量输入音频分析模型,也可以将所述目标音频数据的i-vector特征矢量与所述参考音频数据的i-vector特征矢量分别输入音频分析模型,在此不做限定。
在本实施例中,所述音频分析模型可以为深度神经网络(Deep Neural Networks,DNN)结构的二分类深度学习模型,该模型可根据输入的i-vector特征矢量输出目标音频数据与参考音频数据匹配或不匹配的分类结果,该分类结果可用于表示目标音频数据与目标场景信息是否匹配。
例如,参考音频数据为上述车站、学校等场所的语音播报场景的参考音频数据,则音频分析模型所输出的分析结果可表明输入的目标音频是否与车站、学校等场所的语音播报场景相匹配。
再例如,参考音频数据为上述预先录制多个家庭中的父亲的语音数据,则音频分析模型所输出的分析结果可表明输入的目标音频是否与家庭场景中的“父亲”这一角色所对应的语音使用场景相匹配。
在本实施例中,还可根据目标音频数据与目标场景信息是否匹配的分析结果确定对应的音频处理方式,例如,如果上述分析结果表明目标音频数据与目标场景信息不匹配,则删除可针对所述目标音频数据进行重新录制,并采用上述方法对重新录制的目标音频数据进行处理,直至获得与上述目标场景信息相匹配的音频数据。
如图1-A所示,本实施例提供的数据处理方法,根据目标音频数据和参考音频数据,获得音频特征信息,将该音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。通过使用本方法,可利用预先训练的音频分析模型高效准确地从大规模原始音频数据中筛选出与预定音频应用场景相匹配的音频数据,采用该音频数据训练语音合成模型,可使得预定音频应用场景中的语音合成效果得到保障。
本实施例还提供一种新闻播报语音数据的匹配方法,该方法可用于从大批量语音数据中匹配出与预定的新闻播报场景相对应的语音数据,其具体包括如下内容:获得目标语音数据;获得新闻播报场景所对应的参考语音数据;根据目标语音数据和参考语音数据,获得与语音使用场景相关的语音特征信息,例如获得目标语音数据的i-vector特征矢量和参考语音数据的i-vector特征矢量;将上述语音特征信息输入语音分析模型,获得该语音分析模型输出的用于表示上述目标语音数据与预定的新闻播报场景是否匹配的分析结果,上述语音分析模型用于根据不同语音数据的语音特征信息判断该不同语音数据是否匹配相同的场景信息。
本实施例还提供一种用于训练获得上述语音分析模型的模型训练方法,该模型训练方法包括如下内容:获得原始语音数据以及该原始语音数据所对应的第一场景信息,例如,获得预先录制的用于在火车站进行语音播报的原始语音数据以及用于标识火车站的语音播报场景的信息;获得第二场景信息所对应的参考语音数据,例如,获得预先录制的用于进行广告宣传的参考语音数据以及用于标识广告宣传场景的信息;根据上述原始语音数据和参考语音数据,获得与语音使用场景相关的语音特征信息,例如获得原始语音数据的i-vector特征矢量和参考语音数据的i-vector特征矢量;根据上述第一场景信息和第二场景信息是否为相同场景信息,对语音特征信息进行标注,获得模型训练数据,例如,由于上述用于标识火车站的语音播报场景的信息与用于标识广告宣传场景的信息为不同的语音使用场景信息,因此,将组合后的原始语音数据的i-vector特征矢量和参考语音数据的i-vector特征矢量标注为0,反之,如果上述第一场景信息和第二场景信息为相同场景信息,则标注为1;根据上述模型训练数据,训练用于判断不同语音数据是否对应相同场景信息的语音分析模型,例如,通过使用多组上述类型的训练数据进行模型训练后,语音分析模型可针对输入的相同语音使用场景下的语音数据、输出结果1,可针对输入的不同语音使用场景下的语音数据、输出结果0。
本实施例还提供一种宣传类语音数据的匹配方法,该方法可用于从大批量语音数据中匹配出宣传类语音数据,例如,用于商业途径或非商业途径的广告宣传类用语,该方法具体包括如下内容:获得目标语音数据;获得语音宣传场景所对应的参考语音数据;根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述语音宣传场景是否匹配的分析结果;所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息。
本实施例还提供一种语音数据的匹配方法,该方法基于地理位置与语音使用场景的对应关系,可用于从大批量语音数据中匹配出与目标位置的语音使用需求相匹配的语音数据,例如,由于来自不同地域的群体具有不同的语音使用需求,因此,使用本方法可从大批量语音数据中匹配出属于目标“乡音”的语音数据。该方法包括如下内容:获得目标语音数据;获得与目标位置的语音使用需求相匹配的参考语音数据,例如,预先录制的属于目标省份的标准“乡音”;根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述目标位置的语音使用需求是否匹配的分析结果,所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息,例如,获得上述目标语音数据是否属于上述目标省份的“乡音”的语音分析结果。
本申请第二实施例提供一种音频分析模型的训练方法,如图2所示,图2为本实施例提供的音频分析模型的训练方法的流程图,如图2所示,本实施例提供的音频分析模型的训练方法包括如下步骤:
S201,获得原始音频数据以及该原始音频数据所对应的第一场景信息。例如,获得预先录制的用于在火车站进行语音播报的原始语音数据以及用于标识火车站的语音播报场景的信息。
S202,获得第二场景信息所对应的参考音频数据。例如,获得预先录制的用于进行广告宣传的参考语音数据以及用于标识广告宣传场景的信息。
S203,根据原始音频数据和参考音频数据,获得音频特征信息。
本步骤用于根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,具体可以为:根据所述原始音频数据,获得与音频使用场景相关的第一音频特征信息;根据所述参考音频数据,获得与所述第一音频特征信息具有相同类别的第二音频特征信息;将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息。
在本实施例中,所述获得与音频使用场景相关的第一音频特征信息,具体是指获得所述原始音频数据的i-vector特征矢量;所述获得与所述第一音频特征信息具有相同类别的第二音频特征信息,具体是指:获得所述参考音频数据的i-vector特征矢量;所述将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息,具体是指:将所述原始音频数据的i-vector特征矢量与所述参考音频数据的i-vector特征矢量进行合并,获得合并后的i-vector特征矢量。
所述根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,还可以为:将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据;获得所述组合音频数据的与音频使用场景相关的音频特征信息,例如,获得所述组合音频数据的i-vector特征矢量。
上述将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据,具体可以为:对所述原始音频数据进行切分,获得切分后的原始音频数据;将所述切分后的原始音频数据与所述参考音频数据进行拼接,获得组合音频数据。采用该种方式,可增加组合音频数据的鲁棒性。在本实施例中,所述对所述原始音频数据进行切分,可以是按照任意长度对所述原始音频数据进行切分,也可以按句切分,在此不做限定。
S204,根据第一场景信息和第二场景信息是否为相同场景信息,对音频特征信息进行标注,获得模型训练数据。
该过程可以为根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对上述第一音频特征信息和所述第二音频特征信息进行合并后的音频特征信息进行标注,或者对所述原始音频数据与所述参考音频数据进行组合后所获得的组合音频数据的音频特征信息进行标注。例如,如果所述第一场景信息和所述第二场景信息为相同场景信息,则将第一音频特征信息和所述第二音频特征信息进行合并后的音频特征信息标注为1,或者将所述原始音频数据与所述参考音频数据进行组合后所获得的组合音频数据的音频特征信息标注为1;如果所述第一场景信息和所述第二场景信息为不同的场景信息,则将第一音频特征信息和所述第二音频特征信息进行合并后的音频特征信息标注为0,或者将所述原始音频数据与所述参考音频数据进行组合后所获得的组合音频数据的音频特征信息标注为0,将标注后的音频特征信息作为模型训练数据。
例如,由于上述用于标识火车站的语音播报场景的信息与用于标识广告宣传场景的信息为不同的语音使用场景信息,因此,将组合后的原始语音数据的i-vector特征矢量和参考语音数据的i-vector特征矢量标注为0;反之,如果上述第一场景信息和第二场景信息均为用于标识广告宣传场景的信息,则将组合后的原始语音数据的i-vector特征矢量和参考语音数据的i-vector特征矢量标注为1。
S205,根据模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。例如,通过使用多组上述类型的训练数据进行模型训练后,语音分析模型可针对输入的相同语音使用场景下的语音数据、输出结果1,可针对输入的不同语音使用场景下的语音数据、输出结果0。
本实施例提供的音频分析模型的训练方法,可基于音频数据所对应的音频使用场景是否相同,对音频分析模型进行训练,完成训练的音频分析模型可判断出不同音频数据是否对应相同的音频使用场景。
本申请另一实施例提供一种图像数据处理方法,该方法可用于从大批量图像数据中筛选出与预定的图像使用场景相匹配的图像数据,该方法包括如下内容:获得目标图像数据;获得目标场景信息所对应的参考图像数据;根据所述目标图像数据和所述参考图像数据,获得与图像使用场景相关的图像特征信息;将所述图像特征信息输入图像分析模型,获得所述图像分析模型输出的用于表示所述目标图像数据与所述目标场景信息是否匹配的分析结果;所述图像分析模型用于根据不同图像数据的图像特征信息判断所述不同图像数据是否匹配相同的场景信息。
本申请另一实施例提供一种用于训练获得上述图像分析模型的模型训练方法,该方法包括如下内容:获得原始图像数据以及所述原始图像数据所对应的第一场景信息;获得第二场景信息所对应的参考图像数据;根据所述原始图像数据和所述参考图像数据,获得与图像使用场景相关的图像特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述图像特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同图像数据是否对应相同场景信息的图像分析模型。
本申请另一实施例提供一种视频数据处理方法,该方法可用于从大批量视频数据中筛选出与预定的视频使用场景相匹配的视频数据,该方法包括如下内容:获得目标视频数据;获得目标场景信息所对应的参考视频数据;根据所述目标视频数据和所述参考视频数据,获得与视频使用场景相关的视频特征信息;将所述视频特征信息输入视频分析模型,获得所述视频分析模型输出的用于表示所述目标视频数据与所述目标场景信息是否匹配的分析结果;所述视频分析模型用于根据不同视频数据的视频特征信息判断所述不同视频数据是否匹配相同的场景信息。
本申请另一实施例提供一种用于训练获得上述视频分析模型的模型训练方法,该方法包括如下内容:获得原始视频数据以及所述原始视频数据所对应的第一场景信息;获得第二场景信息所对应的参考视频数据;根据所述原始视频数据和所述参考视频数据,获得与视频使用场景相关的视频特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述视频特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同视频数据是否对应相同场景信息的视频分析模型。
本申请另一实施例提供一种文本数据处理方法,该方法可用于从大批量视频数据中筛选出与预定的文本使用场景相匹配的文本数据,例如,从大批量的文章中筛选出符合某个特定作家的书写风格的文章,或者从大批量的文章中筛选出属于特定文体(小说、散文、诗歌)的文章,或者从大批量的文本信息中筛选出用于进行广告宣传的文案信息。该方法包括如下内容:获得目标文本数据;获得目标场景信息所对应的参考文本数据;根据所述目标文本数据和所述参考文本数据,获得与文本使用场景相关的文本特征信息;将所述文本特征信息输入文本分析模型,获得所述文本分析模型输出的用于表示所述目标文本数据与所述目标场景信息是否匹配的分析结果;所述文本分析模型用于根据不同文本数据的文本特征信息判断所述不同文本数据是否匹配相同的场景信息。
本申请另一实施例提供一种用于训练获得上述文本分析模型的模型训练方法,该方法包括如下内容:获得原始文本数据以及所述原始文本数据所对应的第一场景信息;获得第二场景信息所对应的参考文本数据;根据所述原始文本数据和所述参考文本数据,获得与文本使用场景相关的文本特征信息;根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述文本特征信息进行标注,获得模型训练数据;根据所述模型训练数据,训练用于判断不同文本数据是否对应相同场景信息的文本分析模型。
上述第一实施例提供了一种数据处理方法,与之相对应的,本申请第三实施例还提供了一种数据处理装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图3理解该实施例,图3为本实施例提供的装置的单元框图,如图3所示,本实施例提供的装置包括:
目标音频数据获得单元301,用于获得目标音频数据;
参考音频数据获得单元302,用于获得目标场景信息所对应的参考音频数据;
音频特征信息获得单元303,用于根据所述目标音频数据和所述参考音频数据,获得音频特征信息;
分析结果获得单元304,用于将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得音频特征信息,包括:
根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
根据所述目标音频数据,获得所述目标音频数据的与音频使用场景相关的第一音频特征信息;
根据所述参考音频数据,获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息。
可选的,所述获得所述目标音频数据的与音频使用场景相关的第一音频特征信息,包括:
获得所述目标音频数据的i-vector特征矢量;
所述获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:
获得所述参考音频数据的i-vector特征矢量。
可选的,所述获得所述目标音频数据的i-vector特征矢量,包括:获得所述目标音频数据的256维i-vector特征矢量;
所述获得所述参考音频数据的i-vector特征矢量,包括:
获得所述参考音频数据的256维i-vector特征矢量。
可选的,还包括:将所述第一音频特征信息和所述第二音频特征信息进行组合,获得组合后的音频特征信息;
所述将所述音频特征信息输入音频分析模型,包括:将所述组合后的音频特征信息输入音频分析模型。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
将所述目标音频数据与所述参考音频数据进行组合,获得组合音频数据;
对所述组合音频数据进行音频特征提取,获得组合音频数据的与音频使用场景相关的音频特征信息。
可选的,所述获得组合音频数据的与音频使用场景相关的音频特征信息,包括:
获得所述组合音频数据的i-vector特征矢量。
可选的,所述获得目标场景信息所对应的参考音频数据,包括:
获得针对目标场景预先录制的来自一个或多个发音主体的参考音频数据。
可选的,所述获得目标场景信息所对应的参考音频数据,包括:获得目标场景信息所对应的至少两个参考音频数据。
可选的,所述目标场景信息包括如下中的至少一种:
与音频数据的使用场所相对应的场景信息;
与音频数据的使用功能相对应的场景信息;
与音频数据所面向的用户对象相对应的场景信息;
与音频数据所包含的语义内容相对应的场景信息。
可选的,所述音频分析模型包括DNN结构的二分类深度学习模型。
可选的,还包括:按照预定的音频转换方式将所述目标音频数据和所述参考音频数据转换成具有预定数据量、预定长度以及预定音频格式的音频数据。
可选的,还包括:如果所述分析结果表示所述目标音频数据与所述目标场景信息不匹配,则针对所述目标音频数据进行重新录制,获得与所述目标场景信息相匹配的音频数据。
在上述的实施例中,提供了一种数据处理方法以及一种数据处理装置,此外,本申请第四实施例还提供一种电子设备,由于电子设备实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对电子设备实施例的描述仅仅是示意性的。
该电子设备实施例如下:
请参考图4理解本实施例,图4为本实施例提供的电子设备的示意图。
如图4所示,所述电子设备包括:处理器401;存储器402;
所述存储器402,用于存储数据处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标音频数据;
获得目标场景信息所对应的参考音频数据;
根据所述目标音频数据和所述参考音频数据,获得音频特征信息;
将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得音频特征信息,包括:
根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
根据所述目标音频数据,获得所述目标音频数据的与音频使用场景相关的第一音频特征信息;
根据所述参考音频数据,获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息。
可选的,所述获得所述目标音频数据的与音频使用场景相关的第一音频特征信息,包括:
获得所述目标音频数据的i-vector特征矢量;
所述获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:
获得所述参考音频数据的i-vector特征矢量。
可选的,所述获得所述目标音频数据的i-vector特征矢量,包括:获得所述目标音频数据的256维i-vector特征矢量;
所述获得所述参考音频数据的i-vector特征矢量,包括:
获得所述参考音频数据的256维i-vector特征矢量。
可选的,还包括:将所述第一音频特征信息和所述第二音频特征信息进行组合,获得组合后的音频特征信息;
所述将所述音频特征信息输入音频分析模型,包括:将所述组合后的音频特征信息输入音频分析模型。
可选的,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
将所述目标音频数据与所述参考音频数据进行组合,获得组合音频数据;
对所述组合音频数据进行音频特征提取,获得组合音频数据的与音频使用场景相关的音频特征信息。
可选的,所述获得组合音频数据的与音频使用场景相关的音频特征信息,包括:
获得所述组合音频数据的i-vector特征矢量。
可选的,所述获得目标场景信息所对应的参考音频数据,包括:
获得针对目标场景预先录制的来自一个或多个发音主体的参考音频数据。
可选的,所述获得目标场景信息所对应的参考音频数据,包括:获得目标场景信息所对应的至少两个参考音频数据。
可选的,所述目标场景信息包括如下中的至少一种:
与音频数据的使用场所相对应的场景信息;
与音频数据的使用功能相对应的场景信息;
与音频数据所面向的用户对象相对应的场景信息;
与音频数据所包含的语义内容相对应的场景信息。
可选的,所述音频分析模型包括DNN结构的二分类深度学习模型。
可选的,还包括:按照预定的音频转换方式将所述目标音频数据和所述参考音频数据转换成具有预定数据量、预定长度以及预定音频格式的音频数据。
可选的,还包括:如果所述分析结果表示所述目标音频数据与所述目标场景信息不匹配,则针对所述目标音频数据进行重新录制,获得与所述目标场景信息相匹配的音频数据。
上述第二实施例提供了一种音频分析模型的训练方法,与之相对应的,本申请第五实施例还提供了一种音频分析模型的训练装置,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对装置实施例的描述仅仅是示意性的。
请参考图5理解该实施例,图5为本实施例提供的装置的单元框图,如图5所示,本实施例提供的装置包括:
原始音频数据获得单元501,用于获得原始音频数据以及所述原始音频数据所对应的第一场景信息;
参考音频数据获得单元502,用于获得第二场景信息所对应的参考音频数据;
音频特征信息获得单元503,用于根据所述原始音频数据和所述参考音频数据,获得音频特征信息;
模型训练数据获得单元504,用于根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;
模型训练单元505,用于根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
可选的,所述根据所述原始音频数据和所述参考音频数据,获得音频特征信息,包括:
根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
可选的,根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
根据所述原始音频数据,获得与音频使用场景相关的第一音频特征信息;
根据所述参考音频数据,获得与所述第一音频特征信息具有相同类别的第二音频特征信息;
将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息;
对应的,所述根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,包括:
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述合并后的音频特征信息进行标注。
可选的,所述获得与音频使用场景相关的第一音频特征信息,包括:获得所述原始音频数据的i-vector特征矢量;
所述获得与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:获得所述参考音频数据的i-vector特征矢量;
所述将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息,包括:将所述原始音频数据的i-vector特征矢量与所述参考音频数据的i-vector特征矢量进行合并,获得合并后的i-vector特征矢量。
可选的,所述根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据;
获得所述组合音频数据的与音频使用场景相关的音频特征信息。
可选的,所述获得所述组合音频数据的与音频使用场景相关的音频特征信息,包括:获得所述组合音频数据的i-vector特征矢量。
可选的,所述将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据,包括:
对所述原始音频数据进行切分,获得切分后的原始音频数据;
将所述切分后的原始音频数据与所述参考音频数据进行拼接,获得组合音频数据。
可选的,所述对所述原始音频数据进行切分,获得切分后的原始音频数据,包括:按照任意长度对所述原始音频数据进行切分,获得切分后的原始音频数据。
在上述的实施例中,提供了一种音频分析模型的训练方法以及一种音频分析模型的训练装置,此外,本申请第六实施例还提供一种电子设备,由于电子设备实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可,下述对电子设备实施例的描述仅仅是示意性的。该电子设备实施例如下:
请参考图6理解本实施例,图6为本实施例提供的电子设备的示意图。
如图6所示,所述电子设备包括:处理器601;存储器602;
所述存储器602,用于存储音频分析模型的训练程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得原始音频数据以及所述原始音频数据所对应的第一场景信息;
获得第二场景信息所对应的参考音频数据;
根据所述原始音频数据和所述参考音频数据,获得音频特征信息;
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;
根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
可选的,所述根据所述原始音频数据和所述参考音频数据,获得音频特征信息,包括:
根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
可选的,根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
根据所述原始音频数据,获得与音频使用场景相关的第一音频特征信息;
根据所述参考音频数据,获得与所述第一音频特征信息具有相同类别的第二音频特征信息;
将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息;
对应的,所述根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,包括:
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述合并后的音频特征信息进行标注。
可选的,所述获得与音频使用场景相关的第一音频特征信息,包括:获得所述原始音频数据的i-vector特征矢量;
所述获得与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:获得所述参考音频数据的i-vector特征矢量;
所述将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息,包括:将所述原始音频数据的i-vector特征矢量与所述参考音频数据的i-vector特征矢量进行合并,获得合并后的i-vector特征矢量。
可选的,所述根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据;
获得所述组合音频数据的与音频使用场景相关的音频特征信息。
可选的,所述获得所述组合音频数据的与音频使用场景相关的音频特征信息,包括:获得所述组合音频数据的i-vector特征矢量。
可选的,所述将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据,包括:
对所述原始音频数据进行切分,获得切分后的原始音频数据;
将所述切分后的原始音频数据与所述参考音频数据进行拼接,获得组合音频数据。
可选的,所述对所述原始音频数据进行切分,获得切分后的原始音频数据,包括:按照任意长度对所述原始音频数据进行切分,获得切分后的原始音频数据。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (36)
1.一种数据处理方法,其特征在于,包括:
获得目标音频数据;
获得目标场景信息所对应的参考音频数据;
根据所述目标音频数据和所述参考音频数据,获得音频特征信息;
将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频数据和所述参考音频数据,获得音频特征信息,包括:
根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
根据所述目标音频数据,获得所述目标音频数据的与音频使用场景相关的第一音频特征信息;
根据所述参考音频数据,获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息。
4.根据权利要求3所述的方法,其特征在于,所述获得所述目标音频数据的与音频使用场景相关的第一音频特征信息,包括:
获得所述目标音频数据的i-vector特征矢量;
所述获得所述参考音频数据的与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:
获得所述参考音频数据的i-vector特征矢量。
5.根据权利要求4所述的方法,其特征在于,所述获得所述目标音频数据的i-vector特征矢量,包括:获得所述目标音频数据的256维i-vector特征矢量;
所述获得所述参考音频数据的i-vector特征矢量,包括:
获得所述参考音频数据的256维i-vector特征矢量。
6.根据权利要求3所述的方法,其特征在于,还包括:将所述第一音频特征信息和所述第二音频特征信息进行组合,获得组合后的音频特征信息;
所述将所述音频特征信息输入音频分析模型,包括:将所述组合后的音频特征信息输入音频分析模型。
7.根据权利要求2所述的方法,其特征在于,所述根据所述目标音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
将所述目标音频数据与所述参考音频数据进行组合,获得组合音频数据;
对所述组合音频数据进行音频特征提取,获得组合音频数据的与音频使用场景相关的音频特征信息。
8.根据权利要求7所述的方法,其特征在于,所述获得组合音频数据的与音频使用场景相关的音频特征信息,包括:
获得所述组合音频数据的i-vector特征矢量。
9.根据权利要求1所述的方法,其特征在于,所述获得目标场景信息所对应的参考音频数据,包括:
获得针对目标场景预先录制的来自一个或多个发音主体的参考音频数据。
10.根据权利要求1所述的方法,其特征在于,所述获得目标场景信息所对应的参考音频数据,包括:获得目标场景信息所对应的至少两个参考音频数据。
11.根据权利要求1所述的方法,其特征在于,所述目标场景信息包括如下中的至少一种:
用于表示音频数据的使用场所的场景信息;
用于表示音频数据的使用功能的场景信息;
用于表示音频数据所面向的用户对象的场景信息;
用于表示音频数据所包含的语义内容的场景信息。
12.根据权利要求1所述的方法,其特征在于,所述音频分析模型包括DNN结构的二分类深度学习模型。
13.根据权利要求1所述的方法,其特征在于,还包括:
按照预定的音频转换方式将所述目标音频数据和所述参考音频数据转换成具有预定数据量、预定长度以及预定音频格式的音频数据。
14.根据权利要求1所述的方法,其特征在于,还包括:
如果所述分析结果表示所述目标音频数据与所述目标场景信息不匹配,则针对所述目标音频数据进行重新录制,获得与所述目标场景信息相匹配的音频数据。
15.一种音频分析模型的训练方法,其特征在于,包括:
获得原始音频数据以及所述原始音频数据所对应的第一场景信息;
获得第二场景信息所对应的参考音频数据;
根据所述原始音频数据和所述参考音频数据,获得音频特征信息;
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;
根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
16.根据权利要求15所述的方法,其特征在于,所述根据所述原始音频数据和所述参考音频数据,获得音频特征信息,包括:
根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息。
17.根据权利要求16所述的方法,其特征在于,根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
根据所述原始音频数据,获得与音频使用场景相关的第一音频特征信息;
根据所述参考音频数据,获得与所述第一音频特征信息具有相同类别的第二音频特征信息;
将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息;
对应的,所述根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,包括:
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述合并后的音频特征信息进行标注。
18.根据权利要求17所述的方法,其特征在于,所述获得与音频使用场景相关的第一音频特征信息,包括:获得所述原始音频数据的i-vector特征矢量;
所述获得与所述第一音频特征信息具有相同类别的第二音频特征信息,包括:获得所述参考音频数据的i-vector特征矢量;
所述将所述第一音频特征信息和所述第二音频特征信息进行合并,获得合并后的音频特征信息,包括:将所述原始音频数据的i-vector特征矢量与所述参考音频数据的i-vector特征矢量进行合并,获得合并后的i-vector特征矢量。
19.根据权利要求16所述的方法,其特征在于,所述根据所述原始音频数据和所述参考音频数据,获得与音频使用场景相关的音频特征信息,包括:
将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据;
获得所述组合音频数据的与音频使用场景相关的音频特征信息。
20.根据权利要求19所述的方法,其特征在于,所述获得所述组合音频数据的与音频使用场景相关的音频特征信息,包括:
获得所述组合音频数据的i-vector特征矢量。
21.根据权利要求19所述的方法,其特征在于,所述将所述原始音频数据与所述参考音频数据进行组合,获得组合音频数据,包括:
对所述原始音频数据进行切分,获得切分后的原始音频数据;
将所述切分后的原始音频数据与所述参考音频数据进行拼接,获得组合音频数据。
22.根据权利要求21所述的方法,其特征在于,所述对所述原始音频数据进行切分,获得切分后的原始音频数据,包括:
按照任意长度对所述原始音频数据进行切分,获得切分后的原始音频数据。
23.一种数据处理装置,其特征在于,包括:
目标音频数据获得单元,用于获得目标音频数据;
参考音频数据获得单元,用于获得目标场景信息所对应的参考音频数据;
音频特征信息获得单元,用于根据所述目标音频数据和所述参考音频数据,获得音频特征信息;
分析结果获得单元,用于将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
24.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储数据处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得目标音频数据;
获得目标场景信息所对应的参考音频数据;
根据所述目标音频数据和所述参考音频数据,获得音频特征信息;
将所述音频特征信息输入音频分析模型,获得所述音频分析模型输出的用于表示所述目标音频数据与所述目标场景信息是否匹配的分析结果;所述音频分析模型用于根据不同音频数据的音频特征信息判断所述不同音频数据是否匹配相同的场景信息。
25.一种音频分析模型的训练装置,其特征在于,包括:
原始音频数据获得单元,用于获得原始音频数据以及所述原始音频数据所对应的第一场景信息;
参考音频数据获得单元,用于获得第二场景信息所对应的参考音频数据;
音频特征信息获得单元,用于根据所述原始音频数据和所述参考音频数据,获得音频特征信息;
模型训练数据获得单元,用于根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;
模型训练单元,用于根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
26.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储音频分析模型的训练程序,所述程序在被所述处理器读取执行时,执行如下操作:
获得原始音频数据以及所述原始音频数据所对应的第一场景信息;
获得第二场景信息所对应的参考音频数据;
根据所述原始音频数据和所述参考音频数据,获得音频特征信息;
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述音频特征信息进行标注,获得模型训练数据;
根据所述模型训练数据,训练用于判断不同音频数据是否对应相同场景信息的音频分析模型。
27.一种新闻播报语音数据的匹配方法,其特征在于,包括:
获得目标语音数据;
获得新闻播报场景所对应的参考语音数据;
根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;
将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述新闻播报场景是否匹配的分析结果;所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息。
28.一种语音分析模型的训练方法,其特征在于,包括:
获得原始语音数据以及所述原始语音数据所对应的第一场景信息;
获得第二场景信息所对应的参考语音数据;
根据所述原始语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述语音特征信息进行标注,获得模型训练数据;
根据所述模型训练数据,训练用于判断不同语音数据是否对应相同场景信息的语音分析模型。
29.一种宣传类语音数据的匹配方法,其特征在于,包括:
获得目标语音数据;
获得语音宣传场景所对应的参考语音数据;
根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;
将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述语音宣传场景是否匹配的分析结果;所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息。
30.一种语音数据的匹配方法,其特征在于,包括:
获得目标语音数据;
获得与目标位置的语音使用需求相匹配的参考语音数据;
根据所述目标语音数据和所述参考语音数据,获得与语音使用场景相关的语音特征信息;
将所述语音特征信息输入语音分析模型,获得所述语音分析模型输出的用于表示所述目标语音数据与所述目标位置的语音使用需求是否匹配的分析结果;所述语音分析模型用于根据不同语音数据的语音特征信息判断所述不同语音数据是否匹配相同的场景信息。
31.一种图像数据处理方法,其特征在于,包括:
获得目标图像数据;
获得目标场景信息所对应的参考图像数据;
根据所述目标图像数据和所述参考图像数据,获得与图像使用场景相关的图像特征信息;
将所述图像特征信息输入图像分析模型,获得所述图像分析模型输出的用于表示所述目标图像数据与所述目标场景信息是否匹配的分析结果;所述图像分析模型用于根据不同图像数据的图像特征信息判断所述不同图像数据是否匹配相同的场景信息。
32.一种图像分析模型的训练方法,其特征在于,包括:
获得原始图像数据以及所述原始图像数据所对应的第一场景信息;
获得第二场景信息所对应的参考图像数据;
根据所述原始图像数据和所述参考图像数据,获得与图像使用场景相关的图像特征信息;
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述图像特征信息进行标注,获得模型训练数据;
根据所述模型训练数据,训练用于判断不同图像数据是否对应相同场景信息的图像分析模型。
33.一种视频数据处理方法,其特征在于,包括;
获得目标视频数据;
获得目标场景信息所对应的参考视频数据;
根据所述目标视频数据和所述参考视频数据,获得与视频使用场景相关的视频特征信息;
将所述视频特征信息输入视频分析模型,获得所述视频分析模型输出的用于表示所述目标视频数据与所述目标场景信息是否匹配的分析结果;所述视频分析模型用于根据不同视频数据的视频特征信息判断所述不同视频数据是否匹配相同的场景信息。
34.一种视频分析模型的训练方法,其特征在于,包括:
获得原始视频数据以及所述原始视频数据所对应的第一场景信息;
获得第二场景信息所对应的参考视频数据;
根据所述原始视频数据和所述参考视频数据,获得与视频使用场景相关的视频特征信息;
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述视频特征信息进行标注,获得模型训练数据;
根据所述模型训练数据,训练用于判断不同视频数据是否对应相同场景信息的视频分析模型。
35.一种文本数据处理方法,其特征在于,包括:
获得目标文本数据;
获得目标场景信息所对应的参考文本数据;
根据所述目标文本数据和所述参考文本数据,获得与文本使用场景相关的文本特征信息;
将所述文本特征信息输入文本分析模型,获得所述文本分析模型输出的用于表示所述目标文本数据与所述目标场景信息是否匹配的分析结果;所述文本分析模型用于根据不同文本数据的文本特征信息判断所述不同文本数据是否匹配相同的场景信息。
36.一种文本分析模型的训练方法,其特征在于,包括:
获得原始文本数据以及所述原始文本数据所对应的第一场景信息;
获得第二场景信息所对应的参考文本数据;
根据所述原始文本数据和所述参考文本数据,获得与文本使用场景相关的文本特征信息;
根据所述第一场景信息和所述第二场景信息是否为相同场景信息,对所述文本特征信息进行标注,获得模型训练数据;
根据所述模型训练数据,训练用于判断不同文本数据是否对应相同场景信息的文本分析模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911074526.3A CN112786015B (zh) | 2019-11-06 | 2019-11-06 | 一种数据处理方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911074526.3A CN112786015B (zh) | 2019-11-06 | 2019-11-06 | 一种数据处理方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112786015A true CN112786015A (zh) | 2021-05-11 |
CN112786015B CN112786015B (zh) | 2024-09-10 |
Family
ID=75748773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911074526.3A Active CN112786015B (zh) | 2019-11-06 | 2019-11-06 | 一种数据处理方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786015B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005778A (ja) * | 2001-06-21 | 2003-01-08 | Niyuuzu Line Network Kk | 音声認識ポータルシステム |
JP2010091829A (ja) * | 2008-10-09 | 2010-04-22 | Alpine Electronics Inc | 音声合成装置、音声合成方法および音声合成プログラム |
CN103731609A (zh) * | 2012-10-11 | 2014-04-16 | 百度在线网络技术(北京)有限公司 | 一种视频播放方法及系统 |
CN104199896A (zh) * | 2014-08-26 | 2014-12-10 | 海信集团有限公司 | 基于特征分类的视频相似度确定及视频推荐方法 |
CN104810025A (zh) * | 2015-03-31 | 2015-07-29 | 天翼爱音乐文化科技有限公司 | 音频相似度检测方法及装置 |
CN108257604A (zh) * | 2017-12-08 | 2018-07-06 | 平安普惠企业管理有限公司 | 语音识别方法、终端设备及计算机可读存储介质 |
CN108766415A (zh) * | 2018-05-22 | 2018-11-06 | 清华大学 | 一种语音测评方法 |
CN108834270A (zh) * | 2018-04-27 | 2018-11-16 | 四川斐讯信息技术有限公司 | 一种母婴灯的控制方法及系统 |
CN109995799A (zh) * | 2017-12-29 | 2019-07-09 | 广东欧珀移动通信有限公司 | 信息推送方法、装置、终端及存储介质 |
CN110134830A (zh) * | 2019-04-15 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 视频信息数据处理方法、装置、计算机设备和存储介质 |
CN110148427A (zh) * | 2018-08-22 | 2019-08-20 | 腾讯数码(天津)有限公司 | 音频处理方法、装置、系统、存储介质、终端及服务器 |
CN110223673A (zh) * | 2019-06-21 | 2019-09-10 | 龙马智芯(珠海横琴)科技有限公司 | 语音的处理方法及装置、存储介质、电子设备 |
CN110278449A (zh) * | 2019-06-26 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 一种视频检测方法、装置、设备及介质 |
CN110364178A (zh) * | 2019-07-22 | 2019-10-22 | 出门问问(苏州)信息科技有限公司 | 一种语音处理方法、装置、存储介质和电子设备 |
-
2019
- 2019-11-06 CN CN201911074526.3A patent/CN112786015B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005778A (ja) * | 2001-06-21 | 2003-01-08 | Niyuuzu Line Network Kk | 音声認識ポータルシステム |
JP2010091829A (ja) * | 2008-10-09 | 2010-04-22 | Alpine Electronics Inc | 音声合成装置、音声合成方法および音声合成プログラム |
CN103731609A (zh) * | 2012-10-11 | 2014-04-16 | 百度在线网络技术(北京)有限公司 | 一种视频播放方法及系统 |
CN104199896A (zh) * | 2014-08-26 | 2014-12-10 | 海信集团有限公司 | 基于特征分类的视频相似度确定及视频推荐方法 |
CN104810025A (zh) * | 2015-03-31 | 2015-07-29 | 天翼爱音乐文化科技有限公司 | 音频相似度检测方法及装置 |
CN108257604A (zh) * | 2017-12-08 | 2018-07-06 | 平安普惠企业管理有限公司 | 语音识别方法、终端设备及计算机可读存储介质 |
CN109995799A (zh) * | 2017-12-29 | 2019-07-09 | 广东欧珀移动通信有限公司 | 信息推送方法、装置、终端及存储介质 |
CN108834270A (zh) * | 2018-04-27 | 2018-11-16 | 四川斐讯信息技术有限公司 | 一种母婴灯的控制方法及系统 |
CN108766415A (zh) * | 2018-05-22 | 2018-11-06 | 清华大学 | 一种语音测评方法 |
CN110148427A (zh) * | 2018-08-22 | 2019-08-20 | 腾讯数码(天津)有限公司 | 音频处理方法、装置、系统、存储介质、终端及服务器 |
CN110134830A (zh) * | 2019-04-15 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 视频信息数据处理方法、装置、计算机设备和存储介质 |
CN110223673A (zh) * | 2019-06-21 | 2019-09-10 | 龙马智芯(珠海横琴)科技有限公司 | 语音的处理方法及装置、存储介质、电子设备 |
CN110278449A (zh) * | 2019-06-26 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 一种视频检测方法、装置、设备及介质 |
CN110364178A (zh) * | 2019-07-22 | 2019-10-22 | 出门问问(苏州)信息科技有限公司 | 一种语音处理方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112786015B (zh) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111526382B (zh) | 一种直播视频文本生成方法、装置、设备及存储介质 | |
CN109754783B (zh) | 用于确定音频语句的边界的方法和装置 | |
Bechet et al. | DECODA: a call-centre human-human spoken conversation corpus. | |
CN109285537B (zh) | 声学模型建立、语音合成方法、装置、设备及存储介质 | |
US9318100B2 (en) | Supplementing audio recorded in a media file | |
US10607595B2 (en) | Generating audio rendering from textual content based on character models | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN112365878B (zh) | 语音合成方法、装置、设备及计算机可读存储介质 | |
CN111510765B (zh) | 基于教学视频的音频标签智能标注方法、设备及存储介质 | |
CN110599998A (zh) | 一种语音数据生成方法及装置 | |
CN111079423A (zh) | 一种听写报读音频的生成方法、电子设备及存储介质 | |
Dufour et al. | Characterizing and detecting spontaneous speech: Application to speaker role recognition | |
CN114143479A (zh) | 视频摘要的生成方法、装置、设备以及存储介质 | |
CN113923521A (zh) | 一种视频的脚本化方法 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN112885335A (zh) | 语音识别方法及相关装置 | |
CN114173191B (zh) | 一种基于人工智能的多语言答疑方法和系统 | |
Solberg et al. | A Large Norwegian Dataset for Weak Supervision ASR | |
CN113299276B (zh) | 多人多语种识别和翻译方法与装置 | |
CN112786015B (zh) | 一种数据处理方法以及装置 | |
CN109213466B (zh) | 庭审信息的显示方法及装置 | |
CN109979458A (zh) | 基于人工智能的新闻采访稿自动生成方法及相关设备 | |
CN110223206B (zh) | 课文专业方向确定方法及系统和解析课件匹配方法及系统 | |
CN110428668B (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |