CN116486814A - 一种改变蓝牙通话背景的方法、介质及电子设备 - Google Patents

一种改变蓝牙通话背景的方法、介质及电子设备 Download PDF

Info

Publication number
CN116486814A
CN116486814A CN202310439964.5A CN202310439964A CN116486814A CN 116486814 A CN116486814 A CN 116486814A CN 202310439964 A CN202310439964 A CN 202310439964A CN 116486814 A CN116486814 A CN 116486814A
Authority
CN
China
Prior art keywords
voice
model
user
speech
call
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310439964.5A
Other languages
English (en)
Inventor
王军
李天边
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuyun Acoustics Technology Shenzhen Co ltd
Original Assignee
Fuyun Acoustics Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuyun Acoustics Technology Shenzhen Co ltd filed Critical Fuyun Acoustics Technology Shenzhen Co ltd
Priority to CN202310439964.5A priority Critical patent/CN116486814A/zh
Publication of CN116486814A publication Critical patent/CN116486814A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及通话技术领域,具体是涉及一种改变蓝牙通话背景的方法、介质及电子设备。通过AI进行简单的语音训练,从而得出该用户的语音特征模型,该AI模型能根据文本内容发出与用户本人基本一致的语音;该AI算法及模型数据存储在耳机、手机、云设备等终端;进行通话时,进行语音识别,转化成文字内容,同时从用户语音钟提取情感因子;提取出来的文字内容及情感因子,通过上述AI算法及模型数据,转换成和用户基本一致的通话语音;通话前用户可以选定一种现场环境;耳机或设备通过AI生成仿真的现场环境声音背景;该环境背景和AI语音叠加到一起形成新的语音数据。语音通过编码或者直接传送出去,完成通话过程中的现场环境更换和仿真。

Description

一种改变蓝牙通话背景的方法、介质及电子设备
技术领域
本申请涉及通话技术领域,具体是涉及一种改变蓝牙通话背景的方法、介质及电子设备。
背景技术
现在市面上蓝牙耳机的通话效果,基本都是主打降噪效果。有些使用场景下,耳机用户可能希望通过某种技术,虚拟一种自身当前所处环境,并通过叠加到语音通话中,传达给给通话对方。例如仿真自己在菜市场、车站、会议室等。
另外,传统的降噪方式对环境噪声的过滤并不干净,在部分场合例如KTV、商场超市、火车高铁站等人流大的地方尤其明显;另外就是对抗风噪能力较差。
发明内容
(一)要解决的技术问题
本发明主要针对以上问题,提出了一种改变蓝牙通话背景的方法、介质及电子设备,其目的是解决通话过程中的无法进行现场环境更换、仿真的问题、以及降噪通话效果差的问题。
(二)技术方案
为实现上述目的,本发明提供了一种改变蓝牙通话背景的方法,包括以下步骤:
基于机器学习算法构建用户的语音特征模型;
检测语音传输设备当前的工作状态;
当语音传输设备处于通话状态时,采集用户的通话音频信息和用户所选择的现场环境;
将采集的通话音频信息转化为数字信号,并进行语音信号的特征提取;
将提取到的语音信号特征输入到用户的语音特征模型中,进行语音识别,将用户的语音转化为文本内容,并从语音特征模型中提取情感因子;
根据所确定的现场环境,通过AI算法生成仿真的现场环境声音背景;根据文本内容、情感因子,利用AI算法及语音特征模型生成用户的通话语音;
将所生成的仿真的现场环境声音背景和用户的通话语音合成为新的语音数据。
将所合成的新的语音数据进行编码或直接传输。
进一步地,构建语音特征模型的步骤包括:
采集大量的语音数据集;
对采集到的语音数据集进行预处理;
从预处理后的语音数据集中提取语音特征;
利用机器学习算法和提取到的语音特征,建立语音特征模型;
使用采集到的语音数据集对模型进行训练;
使用测试数据集对模型进行测试;
根据测试结果,对模型进行优化和调整。
进一步地,利用AI算法及语音特征模型生成用户的通话语音的步骤包括:
使用语音特征模型,输入提取到的语音信号特征,预测出当前说话者的语音特征向量;
使用已有的语音数据库生成声学模型,该模型表示了不同语音特征对应的声音特征,包括基频、共振峰的声学参数;
将所述的语音特征向量和声学模型作为输入,以已有的语音数据库为训练集,利用深度学习算法进行训练;
对于输入的文本内容,利用已经训练好的模型,将其转化为对应的声学特征;
将生成的声学特征映射回波形空间,生成与原始语音相似的语音波形。
进一步地,还包括将文本内容与通话语音对齐,将所述文本内容与通话语音进行对齐的方法包括:
收集一个包含文本和语音波形的训练数据集,对语音波形进行分帧和预加重处理,将其转化为MFCC或Mel-Spectrogram特征,并将文本序列转化为音素序列或字符序列;
使用WaveRNN的端到端语音合成模型,将文本序列和MFCC或Mel-Spectrogram特征作为输入,生成语音波形;
采用L1或L2Loss作为目标函数,通过反向传播算法更新神经网络中的权重参数,以最小化预测声学特征序列与真实语音波形之间的差异;
评估该模型的合成效果。
进一步地,所述检测语音传输设备的工作状态包括:监听传输设备的音频信号和/或检测设备状态指示灯。
进一步地,所述采集用户的通话音频信息的方式为麦克风采集。
进一步地,对采集到的语音数据集进行预处理的方式包括:去除噪声、截断语音段、标注语音文本。
进一步地,所述语音信号特征提取方法包括:
线性预测编码系数:使用线性预测模型来估计语音信号中的谐波成分和噪声成分,并提取一系列LPC系数,表示语音信号的频率特性和声学特征;或
梅尔频率倒谱系数:通过将语音信号分帧、计算每帧的功率谱密度、对谱密度进行滤波和对数化一系列处理,最终得到一组MFCC系数,表示语音信号的频率和声学特征。
为实现上述目的,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述任一改变蓝牙通话背景的方法的步骤。
为实现上述目的,本发明提供了一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一所述的改变蓝牙通话背景的方法。
(三)有益效果
与现有技术相比,本发明提供的一种改变蓝牙通话背景的方法,这种改变蓝牙通话背景的方法可以在通话过程中实现现场环境的更换和仿真、并有效地降低通话中的噪音和干扰,提高通话质量和可理解性。
首先,通过基于机器学习算法构建用户的语音特征模型,可以更好地识别和理解用户的语音信息。这可以帮助系统更好地适应不同用户的语音特征和语音习惯,提高识别和合成的准确度和自然度。
其次,在检测到语音传输设备处于通话状态时,系统会自动采集用户的通话音频信息,并将其转化为数字信号,并进行语音信号的特征提取。这可以帮助系统更好地理解用户的语音信息和情感因子,以更好地适应用户的需求。
接着,将提取到的语音信号特征输入到用户的语音特征模型中进行语音识别,并从语音特征模型中提取情感因子。这可以帮助系统更好地理解用户的意图和情感状态,以更好地适应用户的需求。
接着,根据文本内容和情感因子,利用AI算法及语音特征模型进行语音合成,生成用户的通话语音,并根据用户所确定的现场环境,通过AI算法生成仿真的现场环境声音背景。通过将所生成的仿真的现场环境声音背景和用户的通话语音叠加在一起,合成为新的语音数据,从而实现了现场环境的仿真,并达到了通话降噪的目的。
附图说明
图1为现有技术披露的一种耳机通话降噪方法框架图。
图2为本申请披露的一种改变蓝牙通话背景的方法的流程图。
图3为本申请披露的一种改变蓝牙通话背景的方法框架图。
图4为本申请披露的一种构建语音特征模型的流程图。
图5为本申请披露的一种利用AI算法及语音特征模型进行语音合成,生成通话语音的步骤流程图。
图6为本申请披露的一种文本内容与通话语音进行对齐方法的步骤流程图。
具体实施方式
为了使得本发明技术方案能够清楚、详尽的展现出来,以下结合附图对本发明进行说明,但不用来限制本发明的范围。
参见图2为本发明实施例1提供的一种改变蓝牙通话背景的方法的流程图,包括步骤:
步骤1、基于机器学习算法构建用户的语音特征模型:
该步骤是建立用户语音特征模型的过程,该模型可以通过机器学习算法进行构建。该模型可以用来识别用户的语音,并从中提取出特定的语音特征,包括音高、语速、语调等等。这些语音特征可以帮助提高语音识别的准确性,并且能够辅助情感因子的提取。
步骤2、检测语音传输设备当前的工作状态:
在这一步中,系统会检测语音传输设备当前的工作状态,以判断是否处于通话状态。如果设备处于通话状态,则会进入下一步骤。
步骤3、当语音传输设备处于通话状态时,采集用户的通话音频信息和用户所选择的现场环境:
在通话状态下,系统会采集用户的通话音频信息,这些信息可以用来进行语音识别和情感因子的提取。同时,用户可以在通话前选择一种现场环境,以改善通话环境。
步骤4、将采集用户的通话音频信息转化为数字信号,并进行语音信号的特征提取:
采集到用户的通话音频信息之后,系统会将其转化为数字信号,并进行语音信号的特征提取。这些特征包括语音频率、幅度、频带、能量等等,这些特征可以被用来进行语音识别和情感因子的提取。
步骤5、将提取到的语音信号特征输入到用户的语音特征模型中,进行语音识别,将用户的语音转化为文本内容,并从语音特征模型中提取情感因子:
在这一步骤中,系统将提取到的语音信号特征输入到用户的语音特征模型中,进行语音识别。通过识别用户的语音,可以将其转化为文本内容,并从语音特征模型中提取情感因子,从而更好地了解用户的情感状态。
步骤6、根据所确定的现场环境,通过AI算法生成仿真的现场环境声音背景;根据文本内容、情感因子,利用AI算法及语音特征模型生成用户的通话语音;
系统会利用AI算法及语音特征模型进行语音合成,生成与用户基本一致的通话语音。这些语音可以帮助提高通话质量,减少噪声的影响,并且可以更好地满足用户的需求。另外,根据用户所选择的现场环境,通过AI算法生成仿真的现场环境声音背景,以增强通话过程中在某一场景下的真实感。
步骤7、将所生成的仿真的现场环境声音背景和用户的通话语音合成为新的语音数据。
需要将环境声音和用户通话语音进行混合。具体来说,可以将语音和环境声音进行卷积或叠加,以生成一个包含环境声音和用户通话语音的音频流。这个合成过程需要利用AI算法,根据用户选择的现场环境和通话情境,生成仿真的现场环境声音背景。
步骤8、将所合成的新的语音数据进行编码或直接传输。
需要将合成的音频流进行数字信号的编码,以便在网络上进行传输。具体来说,可以使用音频编码器,例如Opus、AAC等,对合成的音频流进行压缩和编码。也可以直接传输合成的音频流。
综上所述,通过将环境背景和AI语音叠加到一起形成新的语音数据,然后将该数据进行编码或直接传送出去,就可以完成通话过程中的现场环境更换和仿真。这种方法可以提高通话的真实感和用户体验。同时,利用机器学习算法构建用户的语音特征模型和利用AI算法生成仿真的现场环境声音背景,也可以使该方法更加智能化和高效。
机器学习算法是一种能够从数据中学习规律和模式的算法。在语音识别领域,常用的机器学习算法包括基于隐马尔可夫模型(HMM)的方法、基于深度神经网络(DNN)的方法、基于卷积神经网络(CNN)的方法等。
语音特征模型是一种基于机器学习算法构建的模型,通过对特定用户的语音进行训练,可以将用户的语音特征提取出来,并用于后续的语音识别和合成中。该模型可以通过深度神经网络等方法进行构建。
构建语音特征模型的主要作用是用于语音识别和语音合成。具体来说,语音特征模型可以通过对特定用户的语音进行训练,提取出该用户的语音特征,进而实现更加准确的语音识别和语音合成。在语音识别方面,语音特征模型可以用于将用户的语音转化成文本;在语音合成方面,语音特征模型可以将文字转化成用户的语音。此外,语音特征模型还可以应用于语音唤醒、语音指令识别等方面,可以提高语音交互的用户体验。
如图4,构建语音特征模型的步骤如下:
1、采集语音数据集:首先需要采集大量的语音数据集,以供后续训练使用。数据集的质量和数量对模型的性能影响很大。
2、预处理:对采集到的语音数据集进行预处理,如去除噪声、截断语音段、标注语音文本等。
3、提取特征:从预处理后的语音数据集中提取语音特征。常用的特征包括梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)等。
4、建立模型:利用机器学习算法和提取到的语音特征,建立语音特征模型。建立模型的方法包括支持向量机(SVM)、高斯混合模型(GMM)等。
5、训练模型:使用采集到的语音数据集对模型进行训练。训练的目标是让模型能够准确地识别语音特征,并将其映射到相应的文本内容上。
6、测试模型:使用测试数据集对模型进行测试,评估模型的性能和准确率。
7、模型优化:根据测试结果,对模型进行优化和调整,以提高模型的性能和泛化能力。
通过以上步骤,可以构建出一个准确性较高的语音特征模型,用于后续的语音识别、情感因子提取和语音合成等应用。
检测语音传输设备的工作状态可以使用以下方法之一:
监听传输设备的音频信号:可以通过监听传输设备(如话筒、扬声器等)的音频信号,来判断设备是否处于工作状态。例如,可以检测传输设备是否在发送或接收音频信号;
检测设备状态指示灯:许多传输设备都会有状态指示灯,用于指示设备当前的工作状态。例如,如果话筒的指示灯亮着,就表示话筒处于工作状态。
采集通话音频信息的方式可以使用以下方法之一:
传统的麦克风采集:在通话过程中,可以使用手机、电脑等设备上的内置麦克风,采集用户的通话音频信息;
专用设备采集:可以使用专用的通话采集设备,如蓝牙耳机、话筒等,采集用户的通话音频信息。
无论采用何种方式,采集到的通话音频信息都需要进行数字化处理,将其转化为数字信号进行后续处理和分析。
采集的通话音频信息可以通过模拟-数字转换器(ADC)转化为数字信号,以便进行后续的数字信号处理和分析。该过程通常包括以下步骤:
采样:将连续的模拟信号离散化为一系列采样值,即将连续的时间信号转化为离散的时间序列。采样频率越高,采样精度就越高,但同时也需要更多的存储空间和计算资源;
量化:将采样值转化为数字表示,即将连续的模拟信号离散化为一系列离散的数字值。量化过程可以通过将采样值映射到一个固定的数字范围内来完成,通常使用的数字表示方式包括二进制、八进制和十六进制等。
编码:将量化后的数字信号编码为数字编码,以便进行存储和传输。常见的编码方式包括脉冲编码调制(PCM)、压缩编码(如MP3、AAC等)等。
以上三个步骤可以用一个模拟-数字转换器(ADC)来完成,ADC接收模拟信号作为输入,输出对应的数字信号。转化后的数字信号可以进行后续的数字信号处理和分析,例如信号增益、去噪、滤波等处理。
语音信号特征提取是将数字信号中的语音信息转换为一组有意义的特征向量的过程,以便进行后续的分析和处理,语音信号特征提取方法包括以下之一:
短时能量:计算在一定时间内语音信号的平方和,表示这段时间内语音信号的强度和活跃程度。
短时平均幅度(或平均功率):计算在一定时间内语音信号的幅度(或功率)的平均值,表示这段时间内语音信号的强度。
过零率:计算在一定时间内语音信号的零交叉点的数量,表示语音信号的频率特性。
线性预测编码系数(LPC):使用线性预测模型来估计语音信号中的谐波成分和噪声成分,并提取一系列LPC系数,表示语音信号的频率特性和声学特征。
梅尔频率倒谱系数(MFCC):通过将语音信号分帧、计算每帧的功率谱密度、对谱密度进行滤波和对数化等一系列处理,最终得到一组MFCC系数,表示语音信号的频率和声学特征。
声学特征(如基频、共振峰等):根据语音信号的声学特征,提取一系列与语音信号相关的声学特征,以便进行语音信号的分析和处理。
以上特征提取方法都可以结合机器学习算法进行训练和优化,以便更好地识别和处理语音信号。
生成仿真的现场环境声音背景的过程需要利用AI算法模拟不同环境的声音,具体的实现方法有以下几种:
基于样本的方法:该方法利用已有的环境声音样本,例如咖啡厅、公园、地铁等不同环境下的声音样本,通过机器学习算法训练生成模型,然后根据所确定的环境,利用生成模型生成相应环境的声音背景。例如,可以使用生成对抗网络(GAN)等算法来训练生成模型。
基于物理模型的方法:该方法利用声学物理学原理,建立环境声音传播的物理模型,根据环境的声学参数(例如反射、吸收、散射等),生成相应环境的声音背景。这种方法需要对环境的声学特性进行精细的建模,例如使用有限元方法或有限差分法等数值计算方法来模拟声波的传播和反射。
基于混合的方法:该方法结合了以上两种方法,既利用样本,又利用物理模型。具体来说,可以将物理模型和样本模型结合起来,根据环境的声学参数和已有的声音样本,生成相应环境的声音背景。
如图5所示,在利用AI算法和语音特征模型进行语音合成时,通常采用的是基于深度学习的语音合成方法,具体包括以下步骤:
语音特征向量的预测:使用语音特征模型,输入前面提到的各种语音信号特征,预测出当前说话者的语音特征向量;
声学模型的生成:使用已有的语音数据库,根据这些数据生成一个声学模型,该模型表示了不同语音特征对应的声音特征,包括基频、共振峰等声学参数;
模型训练:将语音特征向量和声学模型作为输入,以已有的语音数据库为训练集,利用深度学习算法进行训练;
文本转语音:对于输入的文本,利用已经训练好的模型,将其转化为对应的声学特征;
波形重构:将生成的声学特征映射回波形空间,生成与原始语音相似的语音波形;
在语音合成的过程中,可以利用深度学习中的循环神经网络(RNN)或卷积神经网络(CNN)来进行建模和训练,以实现更加准确和自然的语音合成效果。同时,还可以采用自注意力机制(Self-Attention)等技术来提高语音合成的质量。
在文本转语音的过程中,最难的技术方案之一是如何让合成语音听起来更加自然、流畅,并且能够准确地表达出文本的意思。
其中:文本与语音的对齐:要将文本转化为语音,需要将文本和语音之间进行对齐,确定文本和语音的对应关系。
文本与语音的对齐是指确定文本和语音之间的对应关系,使得文本和语音可以正确地匹配。下面是一个基于HMM的文本与语音对齐的具体方案:
首先,需要将输入的文本转化为一个带有时间轴的音素序列。这个过程可以使用文本到音素的转换工具,比如Festival等,将文本转化为音素序列,并为每个音素指定一个持续时间;
接着,需要将输入的语音信号分帧,并提取出每帧的MFCC特征,得到一个带有时间轴的MFCC特征序列;
然后,利用HMM模型,将音素序列和MFCC特征序列进行对齐。具体来说,可以采用基于Viterbi算法的HMM解码器,将音素序列和MFCC特征序列对齐,并得到对应的状态序列。在这个过程中,需要为HMM模型的状态分布和转移概率进行训练,使其能够准确地匹配音素序列和MFCC特征序列;
最后,根据对齐后的状态序列,可以得到每个MFCC特征帧对应的音素标签,从而实现文本和语音的对齐。
这种基于HMM的文本与语音对齐方案已经被广泛应用于语音识别、语音合成等领域,并取得了不错的效果。考虑到传统的文本与语音对齐方法需要进行一系列复杂的预处理和特征提取,对于一些复杂语音场景和较长的语音段可能存在一定的误差和不稳定性。因此,本实施例还提出了一种基于人工智能的端到端文本与语音对齐方案,其主要思路是利用深度学习模型,直接将文本转换为对应的语音输出,从而实现文本和语音的准确对齐。
如图6,具体实现步骤如下:
1、数据预处理:收集一个包含文本和语音波形的训练数据集,可以使用开放数据集如LJSpeech、LibriTTS等。对语音波形进行分帧和预加重处理,将其转化为MFCC或Mel-Spectrogram特征,并将文本序列转化为音素序列或字符序列;
2、搭建神经网络模型:采用WaveRNN先进的端到端语音合成模型。对于WaveRNN模型,使用WaveNet结构,直接将文本序列和MFCC/Mel-Spectrogram特征作为输入,生成语音波形。WaveRNN是一种生成离散波形的神经网络模型,能够直接从文本或声学特征中合成语音。
3、模型训练:采用L1或L2Loss作为目标函数,通过反向传播算法更新神经网络中的权重参数,以最小化预测声学特征序列与真实语音波形之间的差异。这一步是为了优化模型的预测能力,使其能够更准确地合成语音波形。
4、模型评估:评估该模型的合成效果。这一步是为了确定模型的性能和预测能力,并根据结果对模型进行改进或优化。
这种基于深度学习的端到端文本与语音对齐方案,可以减少传统文本与语音对齐方法中的一些预处理和特征提取步骤,从而提高对齐的准确性和稳定性。
上述方案实现对齐的过程主要分为两个步骤:
第一步,将文本序列转换为音素序列或字符序列,并将语音波形转换为声学特征序列(MFCC或Mel-Spectrogram)。这一步是为了将语音和文本表示为计算机可以处理的形式,使得后续的模型训练和预测可以实现;
第二步,将转换后的文本序列与语音波形进行对齐。具体而言,采用WaveRNN的端到端语音合成模型,将文本序列和声学特征序列作为输入,生成相应的语音波形。通过将生成的语音波形与原始语音波形进行比较,可以确定语音波形中每个时间点对应的文本序列位置,从而实现对齐。
在模型训练过程中,采用L1或L2Loss作为目标函数,通过反向传播算法更新神经网络中的权重参数,以最小化预测声学特征序列与真实语音波形之间的差异,从而训练出一个优秀的对齐模型。最终,通过评估模型的合成效果,可以确定模型的性能和预测能力,并根据结果对模型进行改进或优化。
具体实现时,可以采用类似于Transformer的结构,首先将输入文本通过多层自注意力网络进行编码,得到一个高维的文本特征向量。然后,将文本特征向量作为解码器的输入,解码器通过多层长短时记忆网络(LSTM)或者卷积神经网络(CNN)进行解码,输出对应的语音波形;
为了增强模型的性能,可以使用一些技巧,如mel-scale spectrogram,用于将语音信号转化为mel频谱图,然后再将其作为解码器的输入;还可以使用WaveNet或者GAN等技术进行后处理,增强语音质量和自然度;
具体而言,例如输入文本为“Hello,howareyou?”,编码器将其编码为一个高维的文本特征向量,然后解码器将其转化为对应的语音波形。最终输出的语音波形可以通过音频播放器进行播放,使用户能够听到相应的语音输出。
本发明实施例的第二方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述所述的改变蓝牙通话背景的方法的步骤。
本发明的第三方面提供一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述所述改变蓝牙通话背景的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的检测电子设备的佩戴状态的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种改变蓝牙通话背景的方法,其特征在于,包括以下步骤:
基于机器学习算法构建用户的语音特征模型;
检测语音传输设备当前的工作状态;
当语音传输设备处于通话状态时,采集用户的通话音频信息和用户所选择的现场环境;
将采集的通话音频信息转化为数字信号,并进行语音信号的特征提取;
将提取到的语音信号特征输入到用户的语音特征模型中,进行语音识别,将用户的语音转化为文本内容,并从语音特征模型中提取情感因子;
根据所确定的现场环境,通过AI算法生成仿真的现场环境声音背景;根据文本内容、情感因子,利用AI算法及语音特征模型生成用户的通话语音;
将所生成的仿真的现场环境声音背景和用户的通话语音合成为新的语音数据。
将所合成的新的语音数据进行编码或直接传输。
2.如权利要求1所述的一种改变蓝牙通话背景的方法,其特征在于,构建语音特征模型的步骤包括:
采集大量的语音数据集;
对采集到的语音数据集进行预处理;
从预处理后的语音数据集中提取语音特征;
利用机器学习算法和提取到的语音特征,建立语音特征模型;
使用采集到的语音数据集对模型进行训练;
使用测试数据集对模型进行测试;
根据测试结果,对模型进行优化和调整。
3.如权利要求1所述的一种改变蓝牙通话背景的方法,其特征在于,利用AI算法及语音特征模型生成用户的通话语音的步骤包括:
使用语音特征模型,输入提取到的语音信号特征,预测出当前说话者的语音特征向量;
使用已有的语音数据库生成声学模型,该模型表示了不同语音特征对应的声音特征,包括基频、共振峰的声学参数;
将所述的语音特征向量和声学模型作为输入,以已有的语音数据库为训练集,利用深度学习算法进行训练;
对于输入的文本内容,利用已经训练好的模型,将其转化为对应的声学特征;
将生成的声学特征映射回波形空间,生成与原始语音相似的语音波形。
4.如权利要求3所述的一种改变蓝牙通话背景的方法,其特征在于,在输入文本内容后,还包括将文本内容与通话语音对齐,将所述文本内容与通话语音进行对齐的方法包括:
收集一个包含文本和语音波形的训练数据集,对语音波形进行分帧和预加重处理,将其转化为MFCC或Mel-Spectrogram特征,并将文本序列转化为音素序列或字符序列;
使用WaveRNN的端到端语音合成模型,将文本序列和MFCC或Mel-Spectrogram特征作为输入,生成语音波形;
采用L1或L2Loss作为目标函数,通过反向传播算法更新神经网络中的权重参数,以最小化预测声学特征序列与真实语音波形之间的差异;
评估该模型的合成效果。
5.如权利要求1所述的一种改变蓝牙通话背景的方法,其特征在于,所述检测语音传输设备的工作状态包括:监听传输设备的音频信号和/或检测设备状态指示灯。
6.如权利要求1所述的一种改变蓝牙通话背景的方法,其特征在于,所述采集用户的通话音频信息的方式为麦克风采集。
7.如权利要求2所述的一种改变蓝牙通话背景的方法,其特征在于,对采集到的语音数据集进行预处理的方式包括:去除噪声、截断语音段、标注语音文本。
8.如权利要求1所述的一种改变蓝牙通话背景的方法,其特征在于,所述语音信号特征提取方法包括:
线性预测编码系数:使用线性预测模型来估计语音信号中的谐波成分和噪声成分,并提取一系列LPC系数,表示语音信号的频率特性和声学特征;或
梅尔频率倒谱系数:通过将语音信号分帧、计算每帧的功率谱密度、对谱密度进行滤波和对数化一系列处理,最终得到一组MFCC系数,表示语音信号的频率和声学特征。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理权利要求1-8任一所述的改变蓝牙通话背景的方法的步骤。
10.一种电子设备,其特征在于,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1-8任一所述的改变蓝牙通话背景的方法。
CN202310439964.5A 2023-04-23 2023-04-23 一种改变蓝牙通话背景的方法、介质及电子设备 Pending CN116486814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439964.5A CN116486814A (zh) 2023-04-23 2023-04-23 一种改变蓝牙通话背景的方法、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439964.5A CN116486814A (zh) 2023-04-23 2023-04-23 一种改变蓝牙通话背景的方法、介质及电子设备

Publications (1)

Publication Number Publication Date
CN116486814A true CN116486814A (zh) 2023-07-25

Family

ID=87217262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439964.5A Pending CN116486814A (zh) 2023-04-23 2023-04-23 一种改变蓝牙通话背景的方法、介质及电子设备

Country Status (1)

Country Link
CN (1) CN116486814A (zh)

Similar Documents

Publication Publication Date Title
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN101578659A (zh) 音质转换装置及音质转换方法
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
CN111833843B (zh) 语音合成方法及系统
Ai et al. A neural vocoder with hierarchical generation of amplitude and phase spectra for statistical parametric speech synthesis
US20190378532A1 (en) Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope
CN111508469A (zh) 一种文语转换方法及装置
CN102543073A (zh) 一种沪语语音识别信息处理方法
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN113539232B (zh) 一种基于慕课语音数据集的语音合成方法
CN111667834B (zh) 一种助听设备及助听方法
Shanthi Therese et al. Review of feature extraction techniques in automatic speech recognition
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
JP6993376B2 (ja) 音声合成装置、方法及びプログラム
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
Ai et al. Knowledge-and-data-driven amplitude spectrum prediction for hierarchical neural vocoders
WO2023116243A1 (zh) 数据转换方法及计算机存储介质
Shuang et al. A novel voice conversion system based on codebook mapping with phoneme-tied weighting
Prasad et al. Backend tools for speech synthesis in speech processing
CN116486814A (zh) 一种改变蓝牙通话背景的方法、介质及电子设备
Raju et al. Application of prosody modification for speech recognition in different emotion conditions
Othmane et al. Enhancement of esophageal speech using voice conversion techniques
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN116469405A (zh) 一种降噪通话方法、介质和电子设备
EP4205104A1 (en) System and method for speech processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination