CN114283811A - 语音转换方法、装置、计算机设备和存储介质 - Google Patents
语音转换方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114283811A CN114283811A CN202111565399.4A CN202111565399A CN114283811A CN 114283811 A CN114283811 A CN 114283811A CN 202111565399 A CN202111565399 A CN 202111565399A CN 114283811 A CN114283811 A CN 114283811A
- Authority
- CN
- China
- Prior art keywords
- voice file
- voice
- encrypted
- processing
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Storage Device Security (AREA)
Abstract
本申请涉及一种语音转换方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待识别的语音文件;对语音文件进行加密处理,得到加密处理后的语音文件;对加密处理后的语音文件进行特征提取得到特征向量;基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。采用本方法能够提高语音转换的安全性。
Description
技术领域
本申请涉及语音识别技术领域,特别是涉及一种语音转换方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
语音识别技术(Automatic Speech Recognition,ASR)是指机器自动将人的语音的内容转成文字的技术,实现“声音”到“文本”的转换。语音识别技术让日常生活更加便利,目前,该技术正在不断应用于即时通讯应用程序、搜索引擎、车载系统和家庭自动化中,通过个人计算机、笔记本电脑、平板电脑、专用的学习终端、智能手机等终端就可以完成语音-文字的转换。
因此,如何保证语音识别技术中语音转换的安全性成为本领域技术人员重点研究的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高语音转换的安全性的语音转换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种语音转换方法。所述方法包括:
获取待识别的语音文件;
对该语音文件进行加密处理,得到加密处理后的语音文件;
对该加密处理后的语音文件进行特征提取得到特征向量;
基于该特征向量,对该加密处理后的语音文件进行转换处理,得到该语音文件对应的文本信息。
在其中一个实施例中,对该语音文件进行加密处理,得到加密处理后的语音文件包括:
对该语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将该噪声添加处理后的语音文件作为该加密处理后的语音文件。
在其中一个实施例中,对该语音文件进行加密处理,得到加密处理后的语音文件包括:
识别该语音文件中语音信号的信号波形;
对该信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为该加密处理后的语音文件。
在其中一个实施例中,基于该特征向量,对该加密处理后的语音文件进行转换处理,得到该语音文件对应的文本信息包括:
将该特征向量作为声学模型的输入得到音素信息;
基于该音素信息,对该加密处理后的语音文件进行转换处理,得到该语音文件对应的文本信息。
在其中一个实施例中,基于该音素信息,对该加密处理后的语音文件进行转换处理,得到该语音文件对应的文本信息包括:
根据预设的字典,确定该音素信息对应的词组;其中,该字典中包括不同词组与不同音素信息之间的对应关系;
将该音素信息对应的词组作为语言模型的输入,得到该语音文件对应的文本信息。
在其中一个实施例中,所述方法还包括:
获取加密处理后的语音文件样本的样本特征向量;
基于该样本特征向量,训练预设声学模型,得到该声学模型。
第二方面,本申请还提供了一种语音转换装置。所述装置包括:
第一获取模块,用于获取待识别的语音文件;
加密模块,用于对该语音文件进行加密处理,得到加密处理后的语音文件;
提取模块,用于对该加密处理后的语音文件进行特征提取得到特征向量;
处理模块,用于基于该特征向量,对该加密处理后的语音文件进行转换处理,得到该语音文件对应的文本信息。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法的步骤。
上述语音转换方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待识别的语音文件,并对该语音文件进行加密处理,得到加密处理后的语音文件,进而对该加密处理后的语音文件进行特征提取得到特征向量,从而基于该特征向量,对该加密处理后的语音文件进行转换处理,得到该语音文件对应的文本信息。传统技术中,会基于待识别的语音文件直接转换为对应的文本信息,而本实施例提供的方法获取到待识别的语音文件后会对该语音文件进行加密处理,并基于加密处理后的语音文件提取的特征向量最终得到语音文件对应的文本信息。因此,本实施例提供的方法较传统技术,对数据源即待识别的语音文件进行了加密,从而保护了语音文件以及语音转换过程的安全,提高了语音转换的安全性。
附图说明
图1为本申请实施例中语音转换方法的应用环境图;
图2为本申请实施例中提供的一种语音转换方法的流程示意图;
图3为本申请实施例中提供的一种得到加密处理后的语音文件的流程示意图;
图4为本申请实施例中提供的一种得到文本信息的流程示意图;
图5为本申请实施例中提供的一种确定文本信息的流程示意图;
图6为本申请实施例中提供的一种得到声学模型的流程示意图;
图7为本申请实施例提供的一种语音转换系统的示意图;
图8为本申请实施例中提供的一种语音转换装置的结构示意图;
图9为本申请实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
传统的方法中,语音转换过程中获取到语音文件后未进行加密,从而导致存储的语音文件受到恶意破坏,或者通过未加密的语音文件破解语音内容,因此语音文件和语音转换过程的安全性不高。基于上述技术问题,本实施例能够提供一种能够提高语音转换的安全性的语音转换方法。
图1为本申请实施例中语音转换方法的应用环境图,请参考图1,本申请实施例提供的语音转换方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
图2为本申请实施例中提供的一种语音转换方法的流程示意图,该方法应用于图1所示的服务器中,在一个实施例中,如图2所示,包括以下步骤:
S201,获取待识别的语音文件。
在本实施例中,服务器获取待识别的语音文件,用户可以通过终端将已录制好的语音文件输入服务器,也可以实时向终端录入语音,终端获取到语音对应的语音文件后发送给服务器。本实施例对获取待识别的语音文件的方式与语音文件的格式不作具体限制。
为了提高后续工作的效率,获取到待识别的语音文件后,服务器还会对所语音文件中的数据进行预处理,得到预处理后的语音文件。具体地,数据预处理包括语音活动检测(Voice Activity Detection,VAD)以及声音分帧。其中,VAD是待识别的语音文件的首尾端的静音切除,以降低首尾段静音对后续步骤造成的干扰。声音分帧是将待识别的语音文件中的声音数据切开成一小段一小段,每小段称为一帧,具体得,服务器通过移动窗函数来实现声音分帧,需要说明的是,声音分帧不是简单的切分,各帧之间一般是有交叠的。
S202,对语音文件进行加密处理,得到加密处理后的语音文件。
其中,对语音文件进行加密处理,得到加密处理后的语音文件。具体可以通过如下方式实现:
对预处理后的语音文件进行加密处理,得到加密处理后的语音文件。
在本实施例中,服务器对待识别的语音文件进行加密处理,具体地,服务器可以仅使用方式一或方式二对语音文件进行加密处理,得到加密处理后的语音文件;也可先使用方式一,再使用方式二先后语音文件进行加密处理,得到加密处理后的语音文件。本实施例对具体的加密处理不作具体限制。
方式一:对待识别的语音文件进行噪声添加处理。
方式二:对待识别的语音文件中的信号波形进行波形倒置处理。
服务器得到加密处理后的语音文件,会将加密处理后的语音文件存储在服务器中,需要播放或使用该语音文件时,才会对加密处理后的语音文件进行解密,以得到该语音文件,通过将加密处理后的语音文件存储在服务器中,避免存储的语音文件受到恶意破坏,在使用的时候对加密处理后的语音文件进行解密,从而保证语音文件的正常使用。
其中,服务器对加密处理后的语音文件进行解密的过程例如为:若服务器加密时先对待识别的语音文件进行噪声添加处理,再进行波形倒置处理得到加密处理后的语音文件,则进行解密时会对加密处理后的语音文件先进行波形倒置处理,即逆向波处理,得到处理结果,再对处理结果进行噪声消除处理,消除添加的噪声。
S203,对加密处理后的语音文件进行特征提取得到特征向量。
在本实施例中,服务器对加密处理后的语音文件进行特征提取,主要算法有线性预测倒谱系数(linear predictive cepstral coefficien,LPCC)和梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC),以得到加密处理后的语音文件的特征向量,特征向量中包括声音的波频的长度和幅度。
S204,基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在本实施例中,服务器基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息,文本信息可以是即使显示在终端的显示设备上,也可以输出一个具有文本信息的文件给终端,例如文本文件(Text File,txt),本实施例对此不做限制。
本实施例通过获取待识别的语音文件,并对语音文件进行加密处理,得到加密处理后的语音文件,进而对加密处理后的语音文件进行特征提取得到特征向量,从而基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。传统技术中,会基于待识别的语音文件直接转换为对应的文本信息,而本实施例提供的方法获取到待识别的语音文件后会对该语音文件进行加密处理,并基于加密处理后的语音文件提取的特征向量最终得到语音文件对应的文本信息。因此,本实施例提供的方法较传统技术,对数据源即待识别的语音文件进行了加密,从而保护了语音文件以及语音转换过程的安全,提高了语音转换的安全性。
可选的,上述的S203还可以通过如下方式实现:
对语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将噪声添加处理后的语音文件作为加密处理后的语音文件。
在本实施例中,服务器对语音文件添加噪声,具体地,服务器可以向语音文件插入特定长度的白噪音,并将插入特定长度的白噪音后的语音文件作为加密处理后的语音文件。其中,白噪音可以从噪音特征库获取,白噪音插入的位置可以是语音文件的末尾位置,也可以是语音文件的初始位置。
本实施例通过对语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将噪声添加处理后的语音文件作为加密处理后的语音文件,进而保护了语音文件以及语音转换过程的安全,提高了语音转换的安全性。
图3为本申请实施例中提供的一种得到加密处理后的语音文件的流程示意图,参照图3,本实施例涉及的是如何得到加密处理后的语音文件的一种的可选的实现方式。在上述实施例的基础上,上述的S203还包括如下步骤:
S301,识别语音文件中语音信号的信号波形。
在本实施例中,服务器获取语音文件中语音信号的信号波形,信号波形可以是语音信号的时域波形,也可以是频域波形。
S302,对信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为加密处理后的语音文件。
在本实施例中,服务器将信号波形完全倒置,即将信号波形的整体波形逆向,并将波形倒置处理后的语音文件作为加密处理后的语音文件。此时加密处理后的语音文件已形成不可识别的人声。
本实施例通过识别语音文件中语音信号的信号波形,对信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为加密处理后的语音文件,进而保护了语音文件以及语音转换过程的安全,提高了语音转换的安全性。
本实施例中,服务器还可以对语音文件中的数据进行预设算法加密,例如预设算法使用SM4算法,SM4算法是一种分组密码算法,分组长度为128比特(binary digit,bit),密钥长度也为128bit。加密算法与密钥扩展算法均采用32轮非线性迭代结构,以字(32位)为单位进行加密运算,每一次迭代运算均为一轮变换函数。从而对语音文件中的数据进行加密。每轮加密用到了之前四轮加密的结果,进一步提高了加密的强度。服务器可以对噪声添加处理后的语音文件进行预设算法加密,也可以对噪声添加处理以及波形倒置处理后的语音文件进行预设算法加密,本实施例对预设算法和加密顺序不做限制。需要说明的是,加密时使用预设算法加密,解密时同样需要逆向加密算法。例如SM4算法加密与解密算法的结构相同,只是使用轮密钥相反,其中解密轮密钥是加密轮密钥的逆序。
图4为本申请实施例中提供的一种得到文本信息的流程示意图,参照图3,本实施例涉及的是如何基于音素信息得到语音文件对应的文本信息的一种的可选的实现方式。在上述实施例的基础上,上述的S204还包括如下步骤:
S401,将特征向量作为声学模型的输入得到音素信息。
在本实施例中,服务器将特征向量输入声学模型,得到对应的音素信息。例如输入特征向量1,得到音素信息“wo”。需要说明的是,此时的声学模型是根据预设声学模型训练好的声学模型,音素信息也可以是带声调的音素信息,如“wǒ”。
S402,基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在本实施例中,服务器基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。例如语音文件中的语音为“我是机器人”音素信息分别为“wo”、“shi”、“ji”、“qi”、“ren”,最终得到的文本信息就是“我是机器人”。
本实施例将特征向量作为声学模型的输入得到音素信息,并基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息,由于基于加密处理后的语音文件进行转换处理,从而保护了语音文件以及语音转换过程的安全,提高了语音转换的安全性。
图5为本申请实施例中提供的一种确定文本信息的流程示意图,参照图5,本实施例涉及的是如何得到语音文件对应的文本信息的一种的可选的实现方式。在上述实施例的基础上,上述的S402还包括如下步骤:
S501,根据预设的字典,确定音素信息对应的词组;其中,字典中包括不同词组与不同音素信息之间的对应关系。
在本实施例中,预设的字典包括不同词组与不同音素信息之间的对应关系,可以理解为一个发音字典,是音素信息到字和词组之间的映射,用来连接声学模型和语音模型。可以理解的是,字典包括中文中是拼音和汉字的对应关系,英文中音标与单词的对应关系。例如服务器根据字典,一个音素信息可以对应词组,词组包括单个字或词语。例如,音素信息1“shi”就可以确定“是”、“式”、“室”多个字。
S502,将音素信息对应的词组作为语言模型的输入,得到语音文件对应的文本信息。
在本实施例中,服务器将音素信息对应的词组输入给语音模型,语音模型结合字典得到词组相互关联的概率,输出最大概率的文字序列,例如根据音素信息“wo”、“shi”,结合字典,组成“我是”的概率最大,因此语言模型将会输出“我是”。
本实施例中根据预设的字典,确定音素信息对应的词组;其中,字典中包括不同词组与不同音素信息之间的对应关系,进而将音素信息对应的词组作为语言模型的输入,得到语音文件对应的文本信息。由于音素信息是基于加密处理后的语音文件提取的特征向量,进而基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息,进一步提高了语音转换的安全性。
图6为本申请实施例中提供的一种得到声学模型的流程示意图,参照图6,本实施例涉及的是如何得到声学模型的一种的可选的实现方式。在上述实施例的基础上,上述的语音转换方法还包括如下步骤:
S601,获取加密处理后的语音文件样本的样本特征向量。
在本实施例中,服务器预先获取大量的已加密处理后的语音文件,并获取大量的已加密处理后的语音文件的特征向量作为样本特征向量。需要说明的是,服务器对样本特征向量的获取过程可以是语音转换前进行,也可以是随着语音转换的过程更新样本特征向量,本实施例对此不做限制。
S602,基于样本特征向量,训练预设声学模型,得到声学模型。
在本实施例中,服务器基于样本特征向量,训练预设声学模型,得到声学模型,以供后续能够基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。更具体地,经过训练得到的声学模型可以通过输入加密处理后的语音文件的特征向量,根据声学特性计算每一个特征向量在声学特征上的得分,从而得到对应的音素信息。
本实施例通过获取加密处理后的语音文件样本的样本特征向量,并基于样本特征向量,训练预设声学模型,得到声学模型,进而能够基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息,基于所述特征向量,对所述加密处理后的语音文件进行转换处理,得到所述语音文件对应的文本信息。
在本实施例中的语音转换方是这是一种语音转文字的转换方法,为了更清楚地对本实施例提供的语音转换方法进行介绍,在此结合图7进行解释说明。参照图7,图7为本申请实施例提供的一种语音转换系统的示意图。该语音转换系统运行在图1所示的服务器上,该系统获得待识别的语音文件并进行加密处理,加密处理后的语音文件会存储在服务器中,需要播放或使用该语音文件时,才会对加密处理后的语音文件进行解密。特征提取将加密处理后的语音文件中的声音信号从时域转换到频域,并进行语音解码和搜索算法。语音解码和搜索算法包括为声学模型提供输入的特征向量;声学模型中再输入特征向量,根据声学特性计算每一个特征向量在声学特征上的得分,从而输出对应的音素信息;进而根据预设字典,对音素信息进行解码,得到对应的字或者词组;语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后得到语音文件对应的文本信息。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音转换方法的语音转换装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音转换装置实施例中的具体限定可以参见上文中对于语音转换方法的限定,在此不再赘述。
参照图8,图8为本申请实施例中提供的一种语音转换装置的结构示意图,该装置800包括:获取模块801、加密模块802、提取模块803和处理模块804,其中:
第一获取模块801,用于获取待识别的语音文件;
加密模块802,用于对所述语音文件进行加密处理,得到加密处理后的语音文件;
提取模块803,用于对所述加密处理后的语音文件进行特征提取得到特征向量;
处理模块804,用于基于所述特征向量,对所述加密处理后的语音文件进行转换处理,得到所述语音文件对应的文本信息。
本实施例提供的语音转换装置,通过获取待识别的语音文件,并对语音文件进行加密处理,得到加密处理后的语音文件,进而对加密处理后的语音文件进行特征提取得到特征向量,从而基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。传统技术中,会基于待识别的语音文件直接转换为对应的文本信息,而本实施例提供的方法获取到待识别的语音文件后会对语音文件进行加密处理,并基于加密处理后的语音文件提取的特征向量最终得到语音文件对应的文本信息。因此,本实施例提供的方法较传统技术,对数据源即待识别的语音文件进行了加密,从而保护了语音文件以及语音转换过程的安全,提高了语音转换的安全性。
可选的,加密模块802用于对语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将噪声添加处理后的语音文件作为加密处理后的语音文件。
可选的,加密模块802还可以包括:
识别单元,用于识别语音文件中语音信号的信号波形。
倒置单元,用于对信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为加密处理后的语音文件。
可选的,处理模块804包括:
输入单元,用于将特征向量作为声学模型的输入得到音素信息。
转换单元,用于基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
可选的,转换单元包括:
第一确定子单元,用于根据预设的字典,确定音素信息对应的词组;其中,字典中包括不同词组与不同音素信息之间的对应关系。
第二确定子单元,用于将音素信息对应的词组作为语言模型的输入,得到语音文件对应的文本信息。
可选的,该装置800还包括:
第二获取模块,用于获取加密处理后的语音文件样本的样本特征向量。
训练模块,用于基于样本特征向量,训练预设声学模型,得到声学模型。
上述语音转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图9为本申请实施例中计算机设备的内部结构图,在本实施例中,提供了一种计算机设备,该计算机设备可以是终端,也可以是服务器,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音转换方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待识别的语音文件;
对语音文件进行加密处理,得到加密处理后的语音文件;
对加密处理后的语音文件进行特征提取得到特征向量;
基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将噪声添加处理后的语音文件作为加密处理后的语音文件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
识别语音文件中语音信号的信号波形;
对信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为加密处理后的语音文件。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将特征向量作为声学模型的输入得到音素信息;
基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设的字典,确定音素信息对应的词组;其中,字典中包括不同词组与不同音素信息之间的对应关系;
将音素信息对应的词组作为语言模型的输入,得到语音文件对应的文本信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取加密处理后的语音文件样本的样本特征向量;
基于样本特征向量,训练预设声学模型,得到声学模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别的语音文件;
对语音文件进行加密处理,得到加密处理后的语音文件;
对加密处理后的语音文件进行特征提取得到特征向量;
基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将噪声添加处理后的语音文件作为加密处理后的语音文件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别语音文件中语音信号的信号波形;
对信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为加密处理后的语音文件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将特征向量作为声学模型的输入得到音素信息;
基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的字典,确定音素信息对应的词组;其中,字典中包括不同词组与不同音素信息之间的对应关系;
将音素信息对应的词组作为语言模型的输入,得到语音文件对应的文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取加密处理后的语音文件样本的样本特征向量;
基于样本特征向量,训练预设声学模型,得到声学模型。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待识别的语音文件;
对语音文件进行加密处理,得到加密处理后的语音文件;
对加密处理后的语音文件进行特征提取得到特征向量;
基于特征向量,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将噪声添加处理后的语音文件作为加密处理后的语音文件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别语音文件中语音信号的信号波形;
对信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为加密处理后的语音文件。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将特征向量作为声学模型的输入得到音素信息;
基于音素信息,对加密处理后的语音文件进行转换处理,得到语音文件对应的文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的字典,确定音素信息对应的词组;其中,字典中包括不同词组与不同音素信息之间的对应关系;
将音素信息对应的词组作为语言模型的输入,得到语音文件对应的文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取加密处理后的语音文件样本的样本特征向量;
基于样本特征向量,训练预设声学模型,得到声学模型。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音转换方法,其特征在于,所述方法包括:
获取待识别的语音文件;
对所述语音文件进行加密处理,得到加密处理后的语音文件;
对所述加密处理后的语音文件进行特征提取得到特征向量;
基于所述特征向量,对所述加密处理后的语音文件进行转换处理,得到所述语音文件对应的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音文件进行加密处理,得到加密处理后的语音文件,包括:
对所述语音文件进行噪声添加处理,得到噪声添加处理后的语音文件,并将所述噪声添加处理后的语音文件作为所述加密处理后的语音文件。
3.根据权利要求1所述的方法,其特征在于,所述对所述语音文件进行加密处理,得到加密处理后的语音文件,包括:
识别所述语音文件中语音信号的信号波形;
对所述信号波形进行波形倒置处理,得到波形倒置处理后的语音文件,并将波形倒置处理后的语音文件作为所述加密处理后的语音文件。
4.根据权利要求1所述的方法,其特征在于,所述基于所述特征向量,对所述加密处理后的语音文件进行转换处理,得到所述语音文件对应的文本信息,包括:
将所述特征向量作为声学模型的输入得到音素信息;
基于所述音素信息,对所述加密处理后的语音文件进行转换处理,得到所述语音文件对应的文本信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述音素信息,对所述加密处理后的语音文件进行转换处理,得到所述语音文件对应的文本信息,包括:
根据预设的字典,确定所述音素信息对应的词组;其中,所述字典中包括不同词组与不同音素信息之间的对应关系;
将所述音素信息对应的词组作为语言模型的输入,得到所述语音文件对应的文本信息。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
获取加密处理后的语音文件样本的样本特征向量;
基于所述样本特征向量,训练预设声学模型,得到所述声学模型。
7.一种语音转换装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别的语音文件;
加密模块,用于对所述语音文件进行加密处理,得到加密处理后的语音文件;
提取模块,用于对所述加密处理后的语音文件进行特征提取得到特征向量;
处理模块,用于基于所述特征向量,对所述加密处理后的语音文件进行转换处理,得到所述语音文件对应的文本信息。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111565399.4A CN114283811A (zh) | 2021-12-20 | 2021-12-20 | 语音转换方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111565399.4A CN114283811A (zh) | 2021-12-20 | 2021-12-20 | 语音转换方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114283811A true CN114283811A (zh) | 2022-04-05 |
Family
ID=80873291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111565399.4A Pending CN114283811A (zh) | 2021-12-20 | 2021-12-20 | 语音转换方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114283811A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758893A (zh) * | 2023-08-24 | 2023-09-15 | 枣庄智汇互联网小镇管理有限公司 | 一种机器人语音播放方法、系统、计算设备及存储介质 |
-
2021
- 2021-12-20 CN CN202111565399.4A patent/CN114283811A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758893A (zh) * | 2023-08-24 | 2023-09-15 | 枣庄智汇互联网小镇管理有限公司 | 一种机器人语音播放方法、系统、计算设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11196540B2 (en) | End-to-end secure operations from a natural language expression | |
US9905227B2 (en) | Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content | |
Obaid | Assessment of smart home assistants as an IoT | |
US9047868B1 (en) | Language model data collection | |
KR101991473B1 (ko) | 개인정보 보호 트레이닝 코퍼스 선택 | |
US9558743B2 (en) | Integration of semantic context information | |
CN104217149B (zh) | 基于语音的生物认证方法及设备 | |
WO2022156544A1 (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN110288980A (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
KR102081495B1 (ko) | 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
CN112786008A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
Ibrahim et al. | A study on automatic speech recognition systems | |
CN114255740A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
JP2023162265A (ja) | テキストエコー消去 | |
CN114283811A (zh) | 语音转换方法、装置、计算机设备和存储介质 | |
US10803853B2 (en) | Audio transcription sentence tokenization system and method | |
US10522135B2 (en) | System and method for segmenting audio files for transcription | |
US12003575B2 (en) | Routing of sensitive-information utterances through secure channels in interactive voice sessions | |
US20220050971A1 (en) | System and Method for Generating Responses for Conversational Agents | |
CN109036379B (zh) | 语音识别方法、设备及存储介质 | |
Saini et al. | Speaker Anonymity and Voice Conversion Vulnerability: A Speaker Recognition Analysis | |
Hu et al. | A novel hashing-inverted index for secure content-based retrieval with massive encrypted speeches | |
WO2023286139A1 (ja) | 学習方法、学習システム及び学習プログラム | |
Nema | Automatic passkey generator using speech biometric features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |