CN111210811B - 一种基音混合方法及装置 - Google Patents
一种基音混合方法及装置 Download PDFInfo
- Publication number
- CN111210811B CN111210811B CN201911414847.3A CN201911414847A CN111210811B CN 111210811 B CN111210811 B CN 111210811B CN 201911414847 A CN201911414847 A CN 201911414847A CN 111210811 B CN111210811 B CN 111210811B
- Authority
- CN
- China
- Prior art keywords
- audio data
- user
- voice
- waveform
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 94
- 230000007613 environmental effect Effects 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 230000015654 memory Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 10
- 241001465754 Metazoa Species 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例提供了一种基音混合方法及装置,应用于人工智能系统,所述方法包括:当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;接收用户输入的用户音频数据;将所述环境音频数据拆分成拆分音频数据;合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。本实施例提出的方法操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,可以实现人工智能系统的基音混合,同时在混合过程中的计算量小,也降低了系统功耗,而且可以采用混合音频数据进行语音训练,也提高了人工智能系统识别的准确度,可以准确识别用户的指令。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种基音混合方法以及一种基音混合装置。
背景技术
随着互联网的不断普及,人工智能系统也逐渐进入人们的生活一部分,为人们生活提供便利。
人工智能系统可以通过识别用户的语音数据,从而执行语音数据对应的操作,为用户的生活提供便利。
目前的人工智能系统都是在获取语音数据后,执行对应的操作。为了可以提高识别识别的准确率,普遍采用人工录制以及人工标注的方式,得到用于训练深度神经元网络的语音数据。
而常用的方法只能标注人声或单一声音,混音方法单一,范围窄,只能按照单一声音进行混合利用,大大限制了人工智能系统的工作。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基音混合方法以及一种基音混合装置。
为了解决上述问题,本发明实施例公开了一种基音混合方法,所述方法应用于人工智能系统,所述方法包括;
当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;
接收用户输入的用户音频数据;
将所述环境音频数据拆分成拆分音频数据;
合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。
可选地,所述拆分音频数据包括人声数据、噪声数据,所述将所述环境音频数据拆分成拆分音频数据,包括:
采用预设的声音检测模型识别所述环境音频数据的音频波形;
计算所述音频波的幅值是否大于预设值;
若所述音频波形的幅值大于预设值,则将所述环境音频数据拆分成人声数据和噪声数据。
可选地,所述合并所述用户音频数据与所述多路拆分音频数据,包括:
获取所述用户音频数据的用户波形,与所述人声数据的人声波形;
判断所述用户波形与所述人声波形是否相同;
若所述用户波形与所述人声波形相同,则合并所述用户音频数据与所述环境音频数据,生成混合音频数据;
若所述用户波形与所述人声波形不相同,则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并,生成混合音频数据。
可选地,所述方法还包括:
若所述音频波形的幅值小于预设值,则分别从所述用户音频数据中提取用户语音特征,和从所述环境音频数据中提取环境音频特征;
合并所述用户语音特征和所述环境音频特征,生成训练语音特征;
采用所述训练语音特征进行语音训练。
本发明实施例还公开了一种基音混合装置,应用于人工智能系统,所述装置包括:
获取模块,用于当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;
接收模块,用于接收用户输入的用户音频数据;
拆分模块,用于将所述环境音频数据拆分成拆分音频数据;
合并模块,用于合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。
可选地,所述拆分音频数据包括人声数据、噪声数据,所述拆分模块,包括:
采用模块,用于采用预设的声音检测模型识别所述环境音频数据的音频波形;
计算模块,用于计算所述音频波的幅值是否大于预设值;
拆分数据模块,用于若所述音频波形的幅值大于预设值,则将所述环境音频数据拆分成人声数据和噪声数据。
可选地,所述合并模块,包括:
获取波形模块,用于获取所述用户音频数据的用户波形,与所述人声数据的人声波形;
判断波形模块,用于判断所述用户波形与所述人声波形是否相同;
波形相同模块,用于若所述用户波形与所述人声波形相同,则合并所述用户音频数据与所述环境音频数据,生成混合音频数据;
波形不相同模块,用于若所述用户波形与所述人声波形不相同,则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并,生成混合音频数据。
可选地,所述装置还包括:
提取模块,用于若所述音频波形的幅值小于预设值,则分别从所述用户音频数据中提取用户语音特征,和从所述环境音频数据中提取环境音频特征;
生成模块,用于合并所述用户语音特征和所述环境音频特征,生成训练语音特征;
训练模块,用于采用所述训练语音特征进行语音训练。
本发明实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上述实施例所述的一个或多个方法。
本发明实施例还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上述实施例所述的任一项所述方法。
本发明实施例包括以下优点:本实施例提出了一种基音混合方法,该方法可以当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;接收用户输入的用户音频数据;将所述环境音频数据拆分成拆分音频数据;合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。本实施例提出的基音混合方法,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,可以实现人工智能系统的基音混合,同时在混合过程中的计算量小,也降低了系统功耗,而且该人工智能系统可以采用混合音频数据进行语音训练,也提高了人工智能系统识别的准确度,可以准确识别用户的指令,提高用户的使用体验。
附图说明
图1是本发明的基音混合方法实施例一的步骤流程图;
图2是本发明的基音混合方法实施例二的步骤流程图;
图3是本发明的基音混合装置实施例一的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的基音混合方法实施例一的步骤流程图,在本实施例中,该方法可以应用于人工智能系统,该人工智能系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该人工智能系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、红外传感器、热源探测器、一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤101,当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据。
在本实施例中,该唤醒指令可以是用户输入的唤醒词、用户的指令信息或者触发启动信息等等。当前的环境音频数据可以是当前环境的环境声音数据,例如,动物声音,环境声音,物体的声音,例如,动物的叫声数据,汽车的声音数据,摆钟发出的声音等等。
在可选的实施例中,人工智能系统可以设有感应装置,该感应装置可以包括热源传感器、湿度传感器、通信装置、麦克风等等。当人工智能系统获取了用户的指令信息后,可以立即调用感应装置获取当前环境的环境音频数据。
在本实施例中,获取当前的环境音频数据是为了可以采用当前的环境的音频与用户的音频数据进行混合,从而可以得到混合的音频。
而不同的环境音频可以对应不同的音频波形,通过不同的音频波形可以整合不同的音频数据,从而可以采用不同的音频数据对人工智能系统进行语音训练,达到增强人工智能系统的实用性的目的。
例如,环境音频数据包括汽车声音数据,狗叫声音数据,可以获取汽车声音对应的音频波形数据,狗叫声音对应的音频波形数据。
步骤102,接收用户输入的用户音频数据。
在本实施例中,该人工智能系统可以设有语音接收设备,可以采用该语音接收设备接收用户输入的用户音频数据。具体地,该语音接收设备可以麦克风,可以采用麦克风接收用户输入的用户音频数据。
在本实施例中,当该人工智能系统接收了当前的环境音频数据后,该人工智能系统可以判断是否接收用户输入的用户音频数据,在人工智能系统确定可以接收时,可以等待用户输入。
在其中一种可选的实施例中,该人工智能系统也可以与外接设备连接,外接设备可以是智能终端或者智能设备,可以通过智能终端或智能设备接收用户的语音数据,再由智能终端或智能设备将语音数据发送至人工智能系统中。
在另一种可选的实施例中,当人工智能系统获取了当前的环境音频数据或,人工智能系统可以在预设的时间间隔中,不间断地接收用户输入的用户音频数据。预设的时间间隔可以是10秒、30秒、1分钟等等,具体地,可以根据实际需要进行调整,本发明并不在此作限定。
步骤103,将所述环境音频数据拆分成拆分音频数据。
在本实施例中,人工智能系统可以对所获取的用户音频数据进行傅里叶变换,将时域下的用户音频数据拆分成对应的拆分音频数据。
在本实施中,通过将获取的环境音频数据拆分成不同的拆分音频数据,可以分别采用不同的拆分音频数据与用户的用户音频数据进行混合,从而可以得到混合的音频波形供人工智能系统进行语音训练。可以提高人工智能系统语音训练的能力,同时也能拓展人工智能系统的语音训练音域范围。
在具体实现中,环境音频数据可以包括噪声音频数据、背景音频数据、人声音频数据、动物音频数据、物体音频数据等等。可以将环境音频数据拆分成噪声音频数据、背景音频数据、人声音频数据、动物音频数据、物体音频数据等等,在拆分后可以分别将各个音频数据与用户音频数据进行混合。
在另一可选的实施例中,可以判断拆分音频数据是否满足预设要求,当满足了预设要求,则拆分的拆分音频数据可以与用户输入的用户音频数据进行混合,可以将混合的音频数据给人工智能系统进行语音训练。
在本实施例中,所述拆分音频数据包括人声数据、噪声数据。
步骤104,合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。
在本实施例中,可以将用户音频数据与多路拆分音频数据进行合并,得到混合音频数据,可以直接将该混合音频数据输入至人工智能系统预设的语音训练模型中,在语音训练模型反复计算,得到训练结果。
步骤105,存储所述混合音频数据。
在本实施例中,在生成混合音频数据后,人工智能系统可以存储该混合音频数据至预设的数据库中。
具体地,该人工智能系统可以调用该混合音频数据进行反复的语音训练,并生成训练结果,并且可以根据训练结果调整训练的方法或者调整该人工智能系统,提高人工智能系统的灵活性与实用性。
在本发明可选的实施例中,提出了一种基音混合方法,该方法可以当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;接收用户输入的用户音频数据;将所述环境音频数据拆分成拆分音频数据;合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。本实施例提出的基音混合方法,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,可以实现人工智能系统的基音混合,同时在混合过程中的计算量小,也降低了系统功耗,而且该人工智能系统可以采用混合音频数据进行语音训练,也提高了人工智能系统识别的准确度,可以准确识别用户的指令,提高用户的使用体验。
参照图2,示出了本发明的基音混合方法实施例二的步骤流程图,在本实施例中,该方法可以应用于人工智能系统,该人工智能系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该人工智能系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、红外传感器、热源探测器、一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤201,当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据。
在本实施例中,该唤醒指令可以是用户输入的唤醒词、用户的指令信息或者触发启动信息等等。当前的环境音频数据可以是当前环境的环境声音数据,例如,动物声音,环境声音,物体的声音,例如,动物的叫声数据,汽车的声音数据,摆钟发出的声音等等。
在可选的实施例中,人工智能系统可以设有感应装置,该感应装置可以包括热源传感器、湿度传感器、通信装置、麦克风等等。当人工智能系统获取了用户的指令信息后,可以立即调用感应装置获取当前环境的环境音频数据。
在本实施例中,获取当前的环境音频数据是为了可以采用当前的环境的音频与用户的音频数据进行混合,从而可以得到混合的音频。
而不同的环境音频可以对应不同的音频波形,通过不同的音频波形可以整合不同的音频数据,从而可以采用不同的音频数据对人工智能系统进行语音训练,达到增强人工智能系统的实用性的目的。
例如,环境音频数据包括汽车声音数据,狗叫声音数据,可以获取汽车声音对应的音频波形数据,狗叫声音对应的音频波形数据。
步骤202,接收用户输入的用户音频数据。
在本实施例中,该人工智能系统可以设有语音接收设备,可以采用该语音接收设备接收用户输入的用户音频数据。具体地,该语音接收设备可以麦克风,可以采用麦克风接收用户输入的用户音频数据。
在本实施例中,当该人工智能系统接收了当前的环境音频数据后,该人工智能系统可以判断是否接收用户输入的用户音频数据,在人工智能系统确定可以接收时,可以等待用户输入。
在其中一种可选的实施例中,该人工智能系统也可以与外接设备连接,外接设备可以是智能终端或者智能设备,可以通过智能终端或智能设备接收用户的语音数据,再由智能终端或智能设备将语音数据发送至人工智能系统中。
在另一种可选的实施例中,当人工智能系统获取了当前的环境音频数据或,人工智能系统可以在预设的时间间隔中,不间断地接收用户输入的用户音频数据。预设的时间间隔可以是10秒、30秒、1分钟等等,具体地,可以根据实际需要进行调整,本发明并不在此作限定。
步骤203,将所述环境音频数据拆分成拆分音频数据。
在本实施例中,人工智能系统可以对所获取的用户音频数据进行傅里叶变换,将时域下的用户音频数据拆分成对应的拆分音频数据。
在本实施中,通过将获取的环境音频数据拆分成不同的拆分音频数据,可以分别采用不同的拆分音频数据与用户的用户音频数据进行混合,从而可以得到混合的音频波形供人工智能系统进行语音训练。可以提高人工智能系统语音训练的能力,同时也能拓展人工智能系统的语音训练音域范围。
在具体实现中,环境音频数据可以包括噪声音频数据、背景音频数据、人声音频数据、动物音频数据、物体音频数据等等。可以将环境音频数据拆分成噪声音频数据、背景音频数据、人声音频数据、动物音频数据、物体音频数据等等,在拆分后可以分别将各个音频数据与用户音频数据进行混合。
在另一可选的实施例中,可以判断拆分音频数据是否满足预设要求,当满足了预设要求,则拆分的拆分音频数据可以与用户输入的用户音频数据进行混合,可以将混合的音频数据给人工智能系统进行语音训练。
在本实施例中,所述拆分音频数据包括人声数据、噪声数据。
可选地,步骤203可以包括以下子步骤:
子步骤2031,采用预设的声音检测模型识别所述环境音频数据的音频波形。
在本实施例中,该预设的声音检测模型可以是傅里叶变换模型,可以采用傅里叶变换函数,将环境音频数据转换成对应的音频波形。
具体地,该傅里叶变换模型可以是用户预先设在人工智能系统的数据库中,也可以是人工智能系统在接收了环境音频数据后,调用外接设备计算得到音频波形。
获取音频波形可以确定该环境音频数据能否与用户输入的用户音频数据进行混合。
子步骤2032,计算所述音频波的幅值是否大于预设值。
在本实施例中,若环境音频数据幅值小,可以说明该环境音频数据没有对应的声音,可以确定只有用户输入的用户音频数据,将环境音频数据与用户音频数据也大致相同,相当于用户音频数据。当环境音频数据的幅值大于预设值时,可以确定当前的环境有非用户的声音数据,可以确定该环境音频数据可以与用户输入的用户音频数据进行混合。
子步骤2033,若所述音频波形的幅值大于预设值,则将所述环境音频数据拆分成人声数据和噪声数据。
在本实施例中,当音频波形的幅值大于预设值时,该环境音频数据可能包括人声数据和/或环境的噪声数据。可以将该环境音频数据进行拆分,从而可以分别采用人声数据与噪声数据和用户输入的用户音频数据进行混合。
具体地,可以单独采用人声数据与用户音频数据混合,可以单独采用噪声数据与用户音频数据进行混合,也可以将人声数据、噪声数据和用户音频数据共同混合。
在另一可选的实施例中,步骤203还可以包括以下子步骤:
子步骤2034,若所述音频波形的幅值小于预设值,则分别从所述用户音频数据中提取用户语音特征,和从所述环境音频数据中提取环境音频特征;
在本实施例中,该用户语音特征可以是波形特征,该环境音频特征也可以是波形特征。具体地,可以获取波形的幅值、周期、波长、分贝、声功率、声强等波形特征。
在实际操作中,可以先获取用户音频数据中的幅值、周期、波长、分贝、声功率、声强等波形特征,再获取环境音频特征的幅值、周期、波长、分贝、声功率、声强等波形特征。
通过用户音频数据和环境音频特征的波形特征进行混合,可以实现对语音混合,既可以提高人工智能系统语音训练的实用性,又可以让人工智能系统采用不同的混合语音数据进行训练。
具体地,在提取环境音频特征时可以基于过零率对语音信号进行环境音频检测,从环境音频的语音信号中提取出环境音频的波形,再分别计算该环境音频的波形的幅值、周期、波长、分贝、声功率、声强等波形特征。相类似地,也可以采用上述方法提取用户语音特征,为了避免重复,在此不赘述。
子步骤2035,合并所述用户语音特征和所述环境音频特征,生成训练语音特征。
在本实施例中,在获取了用户语音特征和环境音频特征后,可以将用户语音特征和环境音频特征进行合并,得到一个混合的训练语音特征。
具体地,可以将用户语音特征和环境音频特征合并混合,也可以是将用户语音特征和环境音频特征两个进行前后拼接合并。
子步骤2036,采用所述训练语音特征进行语音训练。
在本实施例中,人工智能系统可以采用该训练语音特征进行语音训练。具体地,可以直接将该训练语音特征输入至人工智能系统预设的语音训练模型中,在语音训练模型反复计算,得到训练结果。
通过采用训练语音特征进行语音训练,可以根据训练结果提高语音识别的能力。
步骤204,合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。
在本实施例中,可以将用户音频数据与多路拆分音频数据进行合并,得到混合音频数据,可以直接将该混合音频数据输入至人工智能系统预设的语音训练模型中,在语音训练模型反复计算,得到训练结果。
在本实施例中,步骤204可以包括以下子步骤:
子步骤2041,获取所述用户音频数据的用户波形,与所述人声数据的人声波形。
在本实施例中,在环境音频数据的幅值大于预设值时,可以确定该环境音频数据可以包括人声数据,可以用户音频数据的用户波形以及人声数据对应的人声波形。
可以比较用户波形与人声波形是否相同,可以确定该两个波形是否为相同波形,若是相同波形,将两个波形合并后也相同,可以获取用户音频数据和人声数据其中一种就可以,而无需将两个都合并。可以减少合并的难度,也可以减少合并的工作量,降低人工智能系统的能耗。
子步骤2042,判断所述用户波形与所述人声波形是否相同。
在本实施例中,可以判断用户波形与人声波形是否相同,确定用户波形与人声波形是否相同的波形。
具体地,可以分别获取用户波形和人声波形的幅值、周期、波长、分贝、声功率、声强等波形特征,判断用户波形的波形特征与人声波形的波形特征是否相同。若用户波形的波形特征与人声波形的波形特征相同,则用户波形和人声波形相同;若用户波形的波形特征与人声波形的波形特征不相同,则用户波形和人声波形不相同。
子步骤2043,若所述用户波形与所述人声波形相同,则合并所述用户音频数据与所述环境音频数据,生成混合音频数据。
在本实施例中,当用户波形和人声波形相同时,可以采用用户波形或人声波形其中一个对应的音频数据,与环境音频数据进行合并,得到混合的音频数据,可以减少合并的步骤,提高合并的效率。
具体地,可以采用用户波形或人声波形其中一个对应的音频数据,与环境音频数据的噪声数据进行合并。
子步骤2044,若所述用户波形与所述人声波形不相同,则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并,生成混合音频数据。
在本实施例中,当用户波形和人声波形不相同时,可以将所述用户音频数据、所述人声数据以及所述噪声数据依次合并。
在另一可选的实施例中,也可以将所述用户音频数据、所述人声数据以及所述噪声数据混合合并。具体的合并方式可以根据实际需要进行调整,本发明并不在此作限定。
步骤205,存储所述混合音频数据。
在本实施例中,在生成混合音频数据后,人工智能系统可以存储该混合音频数据至预设的数据库中。
具体地,该人工智能系统可以调用该混合音频数据进行反复的语音训练,并生成训练结果,并且可以根据训练结果调整训练的方法或者调整该人工智能系统,提高人工智能系统的灵活性与实用性。
在本发明优选的实施例中,提出了一种基音混合方法,该方法可以当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;接收用户输入的用户音频数据;将所述环境音频数据拆分成拆分音频数据;合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据;最后存储所述混合音频数据。本实施例提出的基音混合方法,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,可以实现人工智能系统的基音混合,同时在混合过程中的计算量小,也降低了系统功耗,而且该人工智能系统可以采用混合音频数据进行语音训练,也提高了人工智能系统识别的准确度,可以准确识别用户的指令,提高用户的使用体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的基音混合装置实施例一的结构示意图,在本实施例中,该装置可以应用于人工智能系统,所述装置可以包括:
获取模块301,用于当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;
接收模块302,用于接收用户输入的用户音频数据;
拆分模块303,用于将所述环境音频数据拆分成拆分音频数据;
合并模块304,用于合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。
可选地,所述拆分音频数据包括人声数据、噪声数据,所述拆分模块,包括:
采用模块,用于采用预设的声音检测模型识别所述环境音频数据的音频波形;
计算模块,用于计算所述音频波的幅值是否大于预设值;
拆分数据模块,用于若所述音频波形的幅值大于预设值,则将所述环境音频数据拆分成人声数据和噪声数据。
可选地,所述合并模块,包括:
获取波形模块,用于获取所述用户音频数据的用户波形,与所述人声数据的人声波形;
判断波形模块,用于判断所述用户波形与所述人声波形是否相同;
波形相同模块,用于若所述用户波形与所述人声波形相同,则合并所述用户音频数据与所述环境音频数据,生成混合音频数据;
波形不相同模块,用于若所述用户波形与所述人声波形不相同,则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并,生成混合音频数据。
可选地,所述装置还包括:
提取模块,用于若所述音频波形的幅值小于预设值,则分别从所述用户音频数据中提取用户语音特征,和从所述环境音频数据中提取环境音频特征;
生成模块,用于合并所述用户语音特征和所述环境音频特征,生成训练语音特征;
训练模块,用于采用所述训练语音特征进行语音训练。
可选地,所述装置还可以包括:
存储模块,用于存储所述混合音频数据。
本实施例提出了一种基音混合方法,该装置可以包括:获取模块301,用于当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;接收模块302,用于接收用户输入的用户音频数据;拆分模块303,用于将所述环境音频数据拆分成拆分音频数据;合并模块304,用于合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据。本实施例提出的基音混合装置,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,可以实现人工智能系统的基音混合,同时在混合过程中的计算量小,也降低了系统功耗,而且该人工智能系统可以采用混合音频数据进行语音训练,也提高了人工智能系统识别的准确度,可以准确识别用户的指令,提高用户的使用体验。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例还提供了一种装置,包括:
包括一个或多个处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的机器可读介质,该机器可读介质被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基音混合方法和一种基音混合装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基音混合方法,其特征在于,应用于人工智能系统,所述方法包括:
当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;
接收用户输入的用户音频数据;
将所述环境音频数据拆分成多路拆分音频数据;
合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据;
其中,所述将所述环境音频数据拆分成多路拆分音频数据,包括:
采用预设的声音检测模型识别所述环境音频数据的音频波形;
计算所述音频波的幅值是否大于预设值;
若所述音频波形的幅值大于预设值,则将所述环境音频数据拆分成人声数据和噪声数据;
所述合并所述用户音频数据与所述多路拆分音频数据,包括:
获取所述用户音频数据的用户波形,与所述人声数据的人声波形;
判断所述用户波形与所述人声波形是否相同;
若所述用户波形与所述人声波形相同,则合并所述用户音频数据与所述环境音频数据,生成混合音频数据;
若所述用户波形与所述人声波形不相同,则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并,生成混合音频数据。
2.根据权利要求1所述的方法,其特征在于,所述拆分音频数据包括人声数据、噪声数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述音频波形的幅值小于预设值,则分别从所述用户音频数据中提取用户语音特征,和从所述环境音频数据中提取环境音频特征;
合并所述用户语音特征和所述环境音频特征,生成训练语音特征;
采用所述训练语音特征进行语音训练。
4.一种基音混合装置,其特征在于,应用于人工智能系统,所述装置包括:
获取模块,用于当所述人工智能系统接收唤醒指令时,获取当前的环境音频数据;
接收模块,用于接收用户输入的用户音频数据;
拆分模块,用于将所述环境音频数据拆分成多路拆分音频数据;
合并模块,用于合并所述用户音频数据与所述多路拆分音频数据,生成混合音频数据;
其中,所述拆分模块,包括:
采用模块,用于采用预设的声音检测模型识别所述环境音频数据的音频波形;
计算模块,用于计算所述音频波的幅值是否大于预设值;
拆分数据模块,用于若所述音频波形的幅值大于预设值,则将所述环境音频数据拆分成人声数据和噪声数据;
所述合并模块,包括:
获取波形模块,用于获取所述用户音频数据的用户波形,与所述人声数据的人声波形;
判断波形模块,用于判断所述用户波形与所述人声波形是否相同;
波形相同模块,用于若所述用户波形与所述人声波形相同,则合并所述用户音频数据与所述环境音频数据,生成混合音频数据;
波形不相同模块,用于若所述用户波形与所述人声波形不相同,则将所述用户音频数据、所述人声数据以及所述噪声数据依次合并,生成混合音频数据。
5.根据权利要求4所述的装置,其特征在于,所述拆分音频数据包括人声数据、噪声数据。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
提取模块,用于若所述音频波形的幅值小于预设值,则分别从所述用户音频数据中提取用户语音特征,和从所述环境音频数据中提取环境音频特征;
生成模块,用于合并所述用户语音特征和所述环境音频特征,生成训练语音特征;
训练模块,用于采用所述训练语音特征进行语音训练。
7.一种基音混合处理装置,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1至3任一项所述方法。
8.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1至3任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911414847.3A CN111210811B (zh) | 2019-12-31 | 2019-12-31 | 一种基音混合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911414847.3A CN111210811B (zh) | 2019-12-31 | 2019-12-31 | 一种基音混合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111210811A CN111210811A (zh) | 2020-05-29 |
CN111210811B true CN111210811B (zh) | 2022-10-04 |
Family
ID=70784186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911414847.3A Active CN111210811B (zh) | 2019-12-31 | 2019-12-31 | 一种基音混合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111210811B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785300B (zh) * | 2020-06-12 | 2021-05-25 | 北京快鱼电子股份公司 | 一种基于深度神经网络的哭声检测方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN104184910A (zh) * | 2014-07-28 | 2014-12-03 | 小米科技有限责任公司 | 一种语音通话的控制方法及装置 |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN110021292A (zh) * | 2019-04-23 | 2019-07-16 | 四川长虹空调有限公司 | 语音处理方法、装置及智能家居设备 |
CN110246512A (zh) * | 2019-05-30 | 2019-09-17 | 平安科技(深圳)有限公司 | 声音分离方法、装置及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6234060B2 (ja) * | 2013-05-09 | 2017-11-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム |
-
2019
- 2019-12-31 CN CN201911414847.3A patent/CN111210811B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
CN104184910A (zh) * | 2014-07-28 | 2014-12-03 | 小米科技有限责任公司 | 一种语音通话的控制方法及装置 |
CN108335694A (zh) * | 2018-02-01 | 2018-07-27 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN110021292A (zh) * | 2019-04-23 | 2019-07-16 | 四川长虹空调有限公司 | 语音处理方法、装置及智能家居设备 |
CN110246512A (zh) * | 2019-05-30 | 2019-09-17 | 平安科技(深圳)有限公司 | 声音分离方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111210811A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11978440B2 (en) | Wakeword detection | |
CN109326289B (zh) | 免唤醒语音交互方法、装置、设备及存储介质 | |
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
JP4166153B2 (ja) | 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法 | |
US11393477B2 (en) | Multi-assistant natural language input processing to determine a voice model for synthesized speech | |
WO2021082572A1 (zh) | 一种唤醒模型生成方法、智能终端唤醒方法及装置 | |
CN103456299A (zh) | 一种控制语音识别的方法和装置 | |
US11393473B1 (en) | Device arbitration using audio characteristics | |
US11062708B2 (en) | Method and apparatus for dialoguing based on a mood of a user | |
US10825451B1 (en) | Wakeword detection | |
US10997971B2 (en) | Wakeword detection using a secondary microphone | |
US20240013784A1 (en) | Speaker recognition adaptation | |
CN111192588B (zh) | 一种系统唤醒方法及装置 | |
CN111816216A (zh) | 语音活性检测方法和装置 | |
CN111209380A (zh) | 对话机器人的控制方法、装置、计算机设备和存储介质 | |
CN111210811B (zh) | 一种基音混合方法及装置 | |
CN110767240B (zh) | 儿童口音识别的设备控制方法、设备、存储介质及装置 | |
CN111063356B (zh) | 电子设备响应方法及系统、音箱和计算机可读存储介质 | |
CN108924344B (zh) | 终端振动方法、装置、存储介质及电子设备 | |
CN111179913B (zh) | 一种语音处理方法及装置 | |
CN111899718A (zh) | 用于识别合成语音的方法、装置、设备和介质 | |
CN108989551B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
US12002451B1 (en) | Automatic speech recognition | |
US20240212673A1 (en) | Keyword spotting method based on neural network | |
CN111243573B (zh) | 一种语音训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |