CN115132169A - 一种语音转换方法、装置及终端设备 - Google Patents
一种语音转换方法、装置及终端设备 Download PDFInfo
- Publication number
- CN115132169A CN115132169A CN202210081084.0A CN202210081084A CN115132169A CN 115132169 A CN115132169 A CN 115132169A CN 202210081084 A CN202210081084 A CN 202210081084A CN 115132169 A CN115132169 A CN 115132169A
- Authority
- CN
- China
- Prior art keywords
- dialect
- sound wave
- voice
- speech
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 22
- 230000009467 reduction Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于语音处理技术领域,提供了一种语音转换方法、装置及终端设备,该方法包括获取待转换的方言语音的第一声波;然后获取与方言语音的第一声波匹配的第二声波,第二声波为预先存储的标准语音的声波;最后基于第二声波,生成方言语音对应的标准语音;本申请可以通过声波将方言语音转换成标准语音,相较于现有的直接通过方言交流,将方言语音转换成标准语音进行交流,可以使人们交流更顺畅。
Description
技术领域
本申请属于语音处理技术领域,尤其涉及一种语音转换方法、装置及终端设备。
背景技术
方言又称地方语言,是区别于标准语的某一地区的语言,只通行于一个地区的话。由于不同地区的方言不同,一个地方的人们很难听懂另一个地区的方言,影响正常交流,尤其是在一方求救时,若使用方言求救,其他人可能由于不懂方言,造成营救延误。
普通话为我国的通用标准语言,是不同地区之间交流的通用标准语言,不同地区的人们使用普通话可以正常交流。因此,如何将方言转换成普通话以达到交流顺利的目的是目前需要考虑的问题。
发明内容
本申请实施例提供了一种语音转换方法、装置及终端设备,可以解决使用方言交流不畅的问题。
第一方面,本申请实施例提供了一种语音转换方法,包括:
获取待转换的方言语音的第一声波;
获取与所述方言语音的第一声波匹配的第二声波,所述第二声波为预先存储的标准语音的声波;
基于所述第二声波,生成所述方言语音对应的标准语音。
第二方面,本申请实施例提供了一种语音转换装置,包括:
声波获取模块,用于获取待转换的方言语音的第一声波;
查询模块,用于获取与所述方言语音的第一声波匹配的第二声波,所述第二声波为预先存储的标准语音的声波;
转换模块,用于基于所述第二声波,生成所述方言语音对应的标准语音。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的语音转换方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的语音转换方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的语音转换方法。
本申请第一方面实施例与现有技术相比存在的有益效果是:本申请获取待转换的方言语音的第一声波;然后获取与方言语音的第一声波匹配的第二声波,第二声波为预先存储的标准语音的声波;最后基于第二声波,生成方言语音对应的标准语音;本申请可以通过声波将方言语音转换成标准语音,相较于现有的直接通过方言交流,将方言语音转换成标准语音进行交流,可以使人们交流更顺畅。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的语音转换方法的应用场景示意图;
图2是本申请一实施例提供的语音转换方法的流程示意图;
图3是本申请一实施例提供的第一声波生成方法的流程示意图;
图4是本申请一实施例提供的发音特性获得方法的流程示意图;
图5是本申请另一实施例提供的发音特性获得方法的流程示意图;
图6是本申请一实施例提供的预先存储声波的方法的流程示意图;
图7是本申请另一实施例提供的预先存储声波的方法的流程示意图;
图8是本申请一实施例提供的第三声波的确定方法的流程示意图;
图9是本申请一实施例提供的语音转换装置的结构示意图;
图10是本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
随着汽车的发展,人们对汽车的安全要求越来越高。在发生事故后,车内用户如何快速发出救援信号也是用户关心的问题。基于上述问题,在车内设置紧急呼叫功能,在发生紧急情况时,紧急呼叫功能可以主动或被动的拨打紧急救援电话,以使得用户第一时间获得救援。
在用户进行语音通话时,若用户使用的是方言,接听电话的工作人员如果不懂该方言,则可能造成用户紧急求助的延误,不能保障用户第一时间得到救助,造成用户的身体伤害或财产损失。因此,如何将用户的方言转换成普通话,以便于工作人员可以清楚、准确的获得用户的求助内容是目前需要解决的问题。
图1为本申请实施例提供的语音转换方法的应用场景示意图,上述语音转换方法可以用于将方言转换成标准语音。其中,语音采集设备10用于采集用户的方言语音。语音转换设备20用于从语音采集设备10中获取方言语音,并将方言语音转换成标准语音后输出。
以下结合图1对本申请实施例的语音转换方法进行详细说明,下述语音转换方法可以应用在语音转换设备中。
图2示出了本申请提供的语音转换方法的示意性流程图,参照图2,对该方法的详述如下:
S101,获取待转换的方言语音的第一声波。
在本实施例中,在弹性介质中,只要波源所激起的纵波的频率在20-20000Hz之间,就能引起人的听觉,这一频率范围内的振动称为声振动,由声振动所激起的纵波称为声波。
在本实施例中,待转换的方言语音的声波可以从语音采集设备中获取,还可以从声波转换器中获得。具体的,可以采用数模转换芯片(CODEC芯片)将方言语音转换成声波。CODEC芯片可以将模拟信号转换成数字信号。在本申请中将方言语音的声波记为第一声波。
具体的,第一声波可以由方言语音中的字符串的声波组成。例如,方言语音为“我在干农活”,方言语音中包括“我”、“在”、“干”、“农活”四个字符串,每个字符串的声波组成第一声波。
具体的,第一声波还可以由方言语音中每个音素的声波组成。
S102,获取与所述方言语音的第一声波匹配的第二声波,所述第二声波为预先存储的标准语音的声波。
具体的,数据库中可以预存各种方言语音的声波,并将每种方言语音的声波与对应的标准语音的声波进行关联。
在数据库中查找方言语音的声波是否存在于数据库中,若方言语音的声波存在于数据库中,则可以得到与该方言语音的声波关联的声波,与该方言语音的声波关联的声波为标准语音的声波。
可选的,通过语音对比芯片确定方言语音对应的标准语音的声波。
S103,基于所述第二声波,生成所述方言语音对应的标准语音。
在本实施例中,在得到标准语音的第二声波后,可以对标准语音的第二声波进行识别,得到并播放标准语音。
具体的,在得到方言语音对应的标准语音的第二声波或标准语音后,可以通过通信网络向其他电子设备发送方言语音对应的第二声波或标准语音。
本申请实施例中,获取待转换的方言语音的第一声波;然后获取与方言语音的第一声波匹配的第二声波,第二声波为预先存储的标准语音的声波;最后基于第二声波,生成方言语音对应的标准语音;本申请可以通过声波将方言语音转换成标准语音,相较于现有的直接通过方言交流,将方言语音转换成标准语音进行交流,可以使人们交流更顺畅。
如图3所示,在一种可能的实现方式中,步骤S101的实现过程可以包括:
S1011,获取语音信息。
在本实施例中,语音信息可以从车辆中的语音采集设备中获得,还可以从用户使用的终端设备中获得,例如,手机、电话手表等。
在本实施例中,语音信息可以包括用户的声音和周围事物发出的声音,例如,车辆的鸣笛声、鸟叫声等。
S1012,对所述语音信息进行降噪处理,得到降噪后的语音信息。
在本实施例中,为了获得更清晰的用户的语音,需要对语音信息进行降噪处理。具体的,将获取的语音信息输入至神经网络模型中对语音信息进行降噪处理,得到降噪后的语音信息。在得到降噪后的语音信息后,可以对该语音信息进行识别,确定该语音信息是否包括方言语音。若语音信息中不包括方言语音,则不需要对该语音信息进行处理。具体的,将降噪后的语音信息输入方言识别模型中,确定语音信息中是否包括方言语音。
S1013,若所述降噪后的语音信息包括所述方言语音,提取所述方言语音的发音特性。
在本实施例中,发音特性包括音色和响度等。响度可以包括音高和音量等。
具体的,将方言语音输入至特性提取模型,得到方言语音的发音特性。
可选的,可以不用识别降噪后的语音信息中是否包括方言语音,直接提取降噪后的语音信息的发音特性。将降噪后的语音信息作为方言语音。
如图4所示,具体的,步骤S1013的实现过程可以包括:
S10131,对所述方言语音进行分解,得到所述方言语音包括的各个音素。
在本实施例中,音素(phone)是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。
具体的,将方言语音进行划分,得到每个字的语音,对每个字的进行分解,得到每个字中每个音素的语音,每个字包括的音素按照发音顺序进行排列。将每个字包括的音素作为一组音素组。方言语音中的字按照接收到的时间先后顺序排列,每个字对应的音素组也按照字的先后顺序进行排列。
S10132,提取所述方言语音中每个音素的发音特性,所述方言语音中各个音素的发音特性组成所述方言语音的发音特性。
在本实施例中,每个音素对应一个发音特性,方言语音中所有音素的发音特性组成方言语音的发音特性。
作为举例,方言语音包括a、b和c三个音素,音素a对应的发音特征为A,音素b对应的发音特征为B,音素c对应的发音特征为C,则方言语音的发音特性包括A、B和C。
本申请实施例中,由于每个字的发音均是由音素的发音组成的,提取音素的发音特性即可得到方言语音的发音特性,且用音素的发音特性表征方言的发音特性更准确。
如图5所示,具体的,步骤S1013的实现过程可以包括:
S201,对所述方言语音进行分解,得到所述方言语音包括的各个字符串。
在本实施例中,将方言语音输入字符串识别模型中,得到方言语音包括的各个字符串。字符串可以由一个字或一个词组成。
S202,提取所述方言语音中每个字符串的发音特性,所述方言语音中各个字符串的发音特性组成所述方言语音的发音特性。
作为举例,方言语音包括d、e和f三个字符串,字符串d对应的发音特征为D,字符串e对应的发音特征为E,字符串f对应的发音特征为F,则方言语音的发音特性包括D、E和F。
本申请实施例中,由于方言语音时由字符串组成的,提取字符串的发音特性,用字符串的发音特性表征方言语音的发音特性可以更快速的得到方言语音的发音特性。
S1014,基于所述发音特性,生成所述方言语音的第一声波。
在本实施例中,将发音特性输入声波生成模型中,得到方言语音的声波。
在本实施例中,基于所述方言语音中每个音素的发音特性,生成所述方言语音中每个音素的声波。
具体的,将各个音素的发音特性输入声波生成模型中,得到各个音素的声波。方言语音的第一声波包括方言语音包括的各个音素的声波。
可选的,每个字的各个音素对应的声波组成一个声波组,各个声波组按照字在方言语音中的排列顺序排列。
在本实施例中,基于所述方言语音中每个字符串的发音特性,生成所述方言语音中每个字符串的声波。
具体的,将各个字符串的发音特性输入声波生成模型中,得到各个字符串的声波。方言语音的第一声波包括方言语音包括的各个字符串的声波。各个字符串按照接收到的时间先后顺序排列,相应的,各个字符串对应的声波按照字符串对应的时间先后顺序进行排列。
本申请实施例中,对语音信息降噪处理,可以减少噪音的干扰,得到更清晰的语音,从降噪后的语音信息中提取方言语音的发音特性,可以使提取的方言语音的发音特性更准确,进而得到的声波更准确。
在一种可能的实现方式中,上述方法还可以包括预先存储方言声波和标准声波的过程。
如图6所示,具体的,在步骤S102之前,上述方法还可以包括:
S301,获取目标音素在目标地区的方言发音。
在本实施例中,目标地区可以是根据需要选择的地区,例如,目标地区可以是A地区、B地区或C地区。
在本实施例中,目标音素可以为多个音素。具体的,可以将普通话中包括的各个音素均作为目标音素。
在本实施例中,各个目标地区的方言中目标音素的发音可能不同,需要将每个目标地区中各个目标音素的方言发音均获得。
S302,基于所述目标音素的所述方言发音,得到所述目标音素的方言声波。
在本实施例中,基于目标音素的方言发音,得到目标音素的发音特性,基于目标音素的发音特性,得到目标音素的方言声波。
S303,获取所述目标音素的标准声波。
在本实施例中,目标音素的标准声波为根据目标音素的标准语音或标准发音确定的。目标音素的标准声波可以从存储设备中获得,还可以存云端获得。
S304,将目标音素的方言声波、所述目标音素的标准声波和所述目标地区关联存储。
在本实施例中,将目标地区与方言声波和标准声波关联存储,有利于根据地区查询方言声波,使得查询方言语音对应的标准语音的声波时更快速。
具体的,可以预先存储各个目标音素的方言声波,并将目标音素的方言声波与该目标音素的标准声波关联存储。
作为举例,若在A地区目标音素r对应发音的方言声波为R,目标音素r对应的标准发声的标准声波为R’,则将目标音素r的方言声波R和标准声波R’关联存储。
本申请实施例中,音素的方言声波、标准声波和目标地区关联存储,可以建立方言声波与标准声波的对应存储的数据库,以便于利用音素的方言声波找到对应的标准声波,进而快速的将方言语音转换成标准语音。
如图7所示,具体的,在步骤S102之前,上述方法还可以包括:
S401,获取目标字符串在目标地区中的方言发音。
在本实施例中,目标字符串可以根据需要进行设置,例如,目标字符串可以为蹲下、坐下等。
作为举例,若目标字符串为“不知道”,目标字符串在目标地区A中的方言发音为“知不道”。
S402,基于所述目标字符串的所述方言发音,得到所述目标字符串的方言声波。
具体的,提取目标字符串的发音特性,根据目标字符串的发音也行生成方言声波。
S403,获取所述目标字符串的标准声波。
S404,将所述目标字符串的方言声波、所述目标字符串的标准声波和所述目标地区关联存储。
作为举例,若目标字符串为“不知道”,目标字符串在目标地区A中的方言发音为“知不道”。将“知不道”的声波与“不知道”的声波关联存储。
在本实施例中,建立字符串的方言声波和标准声波的对应关系数据库,可以使用方言声波找到对应的标准声波,进而快速的将方言语音转换成标准语音。
在一种可能的实现方式中,步骤S201的实现过程可以包括:
S501,获取目标车型的车辆的购买地区。
在本实施例中,目标车型可以包括一个车型或多个车型。购买地区可以从用户的购买记录中获得。
S502,若在所述购买地区中购买所述目标车型的车辆的数量大于预设数量,将所述购买地区作为所述目标地区。
在本实施例中,统计各个购买地区中购买目标车型的车辆的数量,若购买地区中购买目标车型的车辆的数量大于预设数量,则确定该购买地区都买该目标车型的车辆的人数较多,可以对该购买地区的方言进行统计,并存储为方言声波。
S503,将所述目标车型与所述目标地区关联存储。
在本实施例中,将目标车型与目标地区关联存储,可以根据发送方言语音的车辆的车型锁定目标地区,进而在目标地区关联的方言声波中查找与方言语音的声波相匹配的声波,加快了查询速度。
在本实施例中,将目标车型与目标地区关联存储,在接收到目标车型上的方言语音后,可以先根据目标地区对应的数据库中搜索数据,减少数据的搜索数量,提高数据处理的速度。
在一种可能的实现方式中,步骤S102的实现过程可以包括:
S1021,确定已存储的方言声波中是否存在第三声波,其中,第三声波为方言声波中与方言语音的第一声波相匹配的声波。
在本实施例中,在得到方言语音的声波后,在数据库中查找与方言语音的第一声波相匹配的方言声波。具体的,在方言声波由目标音素的声波组成时,在数据库中查找与方言语音中各个音素的声波相匹配的方言声波,数据库中与方言语音的声波相匹配的方言声波记为第三声波。具体的,在方言声波由目标字符串的声波组成时,在数据库中查找与方言语音中各个字符串的声波相匹配的方言声波。
具体的,计算方言语音的第一声波与数据库中的方言声波的相似度,将相似度中的最大值对应的方言声波作为第三声波。
S1022,若所述已存储的方言声波中存在所述第三声波,则将与所述第三声波关联存储的标准语音的标准声波作为所述第二声波。
在本实施例中,在查找到第三声波后,与第三声波关联存储的标准语音的标准声波作为第二声波。
本申请实施例中,在数据库中查找与方言语音的声波相匹配的声波,可以快速准确的确定方言语音的声波的标准语音的声波。还可以通过查找与方言语音的声波相匹配的声波,过滤掉一些不是方言语音的声波的波形。具体的,若在数据库中不存在与方言语音的声波对应的方言声波,则说明该方言语音的声波是杂波,可以滤除,提高方言语音对应的标准语音的准确度。
如图8所示,在一种可能的实现方式中,步骤S1021的实现过程可以包括:
S10211,若待转换的方言语音为第一车辆上的语音采集设备采集的语音,根据第一车辆的车型,确定与所述第一车辆的车型关联的目标地区,将与所述第一车辆的车型关联的目标地区作为第一地区。
在本实施例中,在接收到待转换的方言语音后,先判断待转换的方言语音是否来自于车辆上。具体的,可以通过发送待转换的方言语音的设备的标识确定待转换的方言语音的来源。
若待转换的方言语音来自于第一车辆,需要确定第一车辆的车型。具体的,第一车辆在发送方言语音时可以携带车辆的车型信息,或者根据语音采集设备确定第一车辆的车型。数据库中存储语音采集设备与第一车辆的车型的关联信息。
S10212,确定已存储的与第一地区关联的方言声波中是否存在第三声波。
在本实施例中,先在与第一地区关联的方言声波中查找第三声波,若与第一地区关联的方言声波中存在第三声波,则停止查找。若与第一地区关联的方言声波中不存在第三声波,则可以在其他方言声波中继续查找第三声波,其他方言声波为数据库中除与第一地区关联的方言声波之外的方言声波。
座位距离,若与第一地区关联的方言声波包括A、B和C,与第二地区关联的方言声波为D和E。在查找第三声波时,先在A、B和C查找是否存在第三声波,若A、B和C中不存在第三声波,再在D和E中查找是否存在第三声波。
在本实施例中,根据第一车辆的车型锁定该车型对应的地区,并且在该地区对应的数据库中搜索声波,可以减少数据处理量,提高语音转换效率。
在一种可能的实现方式中,若待转换的方言语音不为车辆上的语音采集设备采集的语音,则需要在整个数据库中已存储的所有方言声波中查找第三声波。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的语音转换方法,图9示出了本申请实施例提供的语音转换装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图9,该装置600可以包括:声波获取模块610、查询模块620和转换模块630。
其中,声波获取模块610,用于获取待转换的方言语音的第一声波;
查询模块620,用于获取与所述方言语音的第一声波匹配的第二声波,所述第二声波为预先存储的标准语音的声波;
转换模块630,用于基于所述第二声波,生成所述方言语音对应的标准语音。
在一种可能的实现方式中,声波获取模块610具体可以用于:
获取语音信息;
对所述语音信息进行降噪处理,得到降噪后的语音信息;
若所述降噪后的语音信息包括所述方言语音,提取所述方言语音的发音特性,其中,所述发音特性包括音色和响度;
基于所述发音特性,生成所述方言语音的第一声波。
在一种可能的实现方式中,声波获取模块610具体还可以用于:
对所述方言语音进行分解,得到所述方言语音包括的各个音素;
提取所述方言语音中每个音素的发音特性,所述方言语音中各个音素的发音特性组成所述方言语音的发音特性;
基于所述方言语音中每个音素的发音特性,生成所述方言语音中每个音素的声波,所述方言语音中各个音素的声波组成所述方言语音的第一声波。
在一种可能的实现方式中,声波获取模块610具体还可以用于:
对所述方言语音进行分解,得到所述方言语音包括的各个字符串;
提取所述方言语音中每个字符串的发音特性,所述方言语音中各个字符串的发音特性组成所述方言语音的发音特性;
基于所述方言语音中每个字符串的发音特性,生成所述方言语音中每个字符串的声波,所述方言语音中每个字符串的声波组成所述方言语音的第一声波。
在一种可能的实现方式中,查询模块620具体可以用于:
确定已存储的方言声波中是否存在第三声波,其中,所述第三声波为方言声波中与所述方言语音的第一声波相匹配的声波;
若所述已存储的方言声波中存在所述第三声波,则将与所述第三声波关联存储的标准语音的标准声波作为所述第二声波。
在一种可能的实现方式中,与查询模块620相连的还包括:
第一方言发音获取模块,用于获取目标音素在目标地区的方言发音;
第一声波生成模块,用于基于所述目标音素的所述方言发音,得到所述目标音素的方言声波;
第一标准声波获取模块,用于获取所述目标音素的标准声波;
关联存储模块,用于将所述目标音素的方言声波、所述目标音素的标准声波和所述目标地区关联存储;
和/或,
第二方言发音获取模块,用于获取目标字符串在目标地区中的方言发音;
第二声波生成模块,用于基于所述目标字符串的所述方言发音,得到所述目标字符串的方言声波;
第一标准声波获取模块,用于获取所述目标字符串的标准声波;
关联存储模块,用于将所述目标字符串的方言声波、所述目标字符串的标准声波和所述目标地区关联存储。
在一种可能的实现方式中,该装置600还包括:
购买区域确定模块,用于获取目标车型的车辆的购买地区;
目标地区确定模块,用于若在所述购买地区中购买所述目标车型的车辆的数量大于预设数量,将所述购买地区作为所述目标地区;
关联模块,用于将所述目标车型与所述目标地区关联存储。
在一种可能的实现方式中,查询模块620具体可以用于:
若所述待转换的方言语音为第一车辆上的语音采集设备采集的语音,根据所述第一车辆的车型,确定与所述第一车辆的车型关联的目标地区,将与所述第一车辆的车型关联的目标地区作为第一地区;
确定已存储的与所述第一地区关联的方言声波中是否存在所述第三声波。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,参见图10,该终端设备700可以包括:至少一个处理器710、存储器720以及存储在所述存储器720中并可在所述至少一个处理器710上运行的计算机程序,所述处理器710执行所述计算机程序时实现上述任意各个方法实施例中的步骤,例如图2所示实施例中的步骤S101至步骤S103。或者,处理器710执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如图9所示模块610至模块630的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器720中,并由处理器710执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段,该程序段用于描述计算机程序在终端设备700中的执行过程。
本领域技术人员可以理解,图9仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如输入输出设备、网络接入设备、总线等。
处理器710可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器720可以是终端设备的内部存储单元,也可以是终端设备的外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。所述存储器720用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器720还可以用于暂时地存储已经输出或者将要输出的数据。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例提供的语音转换方法可以应用于计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的终端设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被一个或多个处理器执行时,可实现上述各个方法实施例的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被一个或多个处理器执行时,可实现上述各个方法实施例的步骤。
同样,作为一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音转换方法,其特征在于,包括:
获取待转换的方言语音的第一声波;
获取与所述方言语音的第一声波匹配的第二声波,所述第二声波为预先存储的标准语音的声波;
基于所述第二声波,生成所述方言语音对应的标准语音。
2.如权利要求1所述的语音转换方法,其特征在于,所述获取方言语音的第一声波,包括:
获取语音信息;
对所述语音信息进行降噪处理,得到降噪后的语音信息;
若所述降噪后的语音信息包括所述方言语音,提取所述方言语音的发音特性,其中,所述发音特性包括音色和响度;
基于所述发音特性,生成所述方言语音的第一声波。
3.如权利要求2所述的语音转换方法,其特征在于,所述提取所述方言语音的发音特性,包括:
对所述方言语音进行分解,得到所述方言语音包括的各个音素;
提取所述方言语音中每个音素的发音特性,所述方言语音中各个音素的发音特性组成所述方言语音的发音特性;
相应的,基于所述发音特性,生成所述方言语音的第一声波,包括:
基于所述方言语音中每个音素的发音特性,生成所述方言语音中每个音素的声波,所述方言语音中各个音素的声波组成所述方言语音的第一声波。
4.如权利要求2所述的语音转换方法,其特征在于,所述提取所述方言语音的发音特性,包括:
对所述方言语音进行分解,得到所述方言语音包括的各个字符串;
提取所述方言语音中每个字符串的发音特性,所述方言语音中各个字符串的发音特性组成所述方言语音的发音特性;
相应的,基于所述发音特性,生成所述方言语音的第一声波,包括:
基于所述方言语音中每个字符串的发音特性,生成所述方言语音中每个字符串的声波,所述方言语音中每个字符串的声波组成所述方言语音的第一声波。
5.如权利要求1至4任一项所述的语音转换方法,其特征在于,所述获取与所述方言语音的第一声波匹配的第二声波,包括:
确定已存储的方言声波中是否存在第三声波,其中,所述第三声波为方言声波中与所述方言语音的第一声波相匹配的声波;
若所述已存储的方言声波中存在所述第三声波,则将与所述第三声波关联存储的标准语音的标准声波作为所述第二声波。
6.如权利要求5所述的语音转换方法,其特征在于,在所述获取与所述方言语音的第一声波匹配的第二声波之前,还包括:
获取目标音素在目标地区的方言发音;
基于所述目标音素的所述方言发音,得到所述目标音素的方言声波;
获取所述目标音素的标准声波;
将所述目标音素的方言声波、所述目标音素的标准声波和所述目标地区关联存储;
和/或,
获取目标字符串在目标地区中的方言发音;
基于所述目标字符串的所述方言发音,得到所述目标字符串的方言声波;
获取所述目标字符串的标准声波;
将所述目标字符串的方言声波、所述目标字符串的标准声波和所述目标地区关联存储。
7.如权利要求6所述的语音转换方法,其特征在于,所述方法还包括:
获取目标车型的车辆的购买地区;
若在所述购买地区中购买所述目标车型的车辆的数量大于预设数量,将所述购买地区作为所述目标地区;
将所述目标车型与所述目标地区关联存储。
8.如权利要求7所述的语音转换方法,其特征在于,所述确定已存储的方言声波中是否存在第三声波,包括:
若所述待转换的方言语音为第一车辆上的语音采集设备采集的语音,根据所述第一车辆的车型,确定与所述第一车辆的车型关联的目标地区,将与所述第一车辆的车型关联的目标地区作为第一地区;
确定已存储的与所述第一地区关联的方言声波中是否存在所述第三声波。
9.一种语音转换装置,其特征在于,包括:
声波获取模块,用于获取待转换的方言语音的第一声波;
查询模块,用于获取与所述方言语音的第一声波匹配的第二声波,所述第二声波为预先存储的标准语音的声波;
转换模块,用于基于所述第二声波,生成所述方言语音对应的标准语音。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的语音转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081084.0A CN115132169A (zh) | 2022-01-24 | 2022-01-24 | 一种语音转换方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210081084.0A CN115132169A (zh) | 2022-01-24 | 2022-01-24 | 一种语音转换方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115132169A true CN115132169A (zh) | 2022-09-30 |
Family
ID=83375752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210081084.0A Pending CN115132169A (zh) | 2022-01-24 | 2022-01-24 | 一种语音转换方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115132169A (zh) |
-
2022
- 2022-01-24 CN CN202210081084.0A patent/CN115132169A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737667B (zh) | 语音质检方法、装置、计算机设备及存储介质 | |
CN110197655B (zh) | 用于合成语音的方法和装置 | |
US20110320203A1 (en) | Method and system for identifying and correcting accent-induced speech recognition difficulties | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN111369971A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
US20080243504A1 (en) | System and method of speech recognition training based on confirmed speaker utterances | |
JP2004037721A (ja) | 音声応答システム、音声応答プログラム及びそのための記憶媒体 | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
US7844459B2 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
US20080243499A1 (en) | System and method of speech recognition training based on confirmed speaker utterances | |
CN113611281A (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
CN115132169A (zh) | 一种语音转换方法、装置及终端设备 | |
CN116110370A (zh) | 基于人机语音交互的语音合成系统及相关设备 | |
CN113724693B (zh) | 语音判别方法、装置、电子设备及存储介质 | |
CN113421571B (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
CN113192484B (zh) | 基于文本生成音频的方法、设备和存储介质 | |
CN114462376A (zh) | 基于rpa和ai的庭审笔录生成方法、装置、设备及介质 | |
CN109671437B (zh) | 一种音频处理方法、音频处理装置及终端设备 | |
CN114765024A (zh) | 一种语音翻译的方法、装置及存储介质 | |
US20080243498A1 (en) | Method and system for providing interactive speech recognition using speaker data | |
CN112820292A (zh) | 生成会议纪要的方法、装置、电子装置及存储介质 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
CN113409763B (zh) | 语音纠正方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |