CN113409763B - 语音纠正方法、装置及电子设备 - Google Patents

语音纠正方法、装置及电子设备 Download PDF

Info

Publication number
CN113409763B
CN113409763B CN202110817302.8A CN202110817302A CN113409763B CN 113409763 B CN113409763 B CN 113409763B CN 202110817302 A CN202110817302 A CN 202110817302A CN 113409763 B CN113409763 B CN 113409763B
Authority
CN
China
Prior art keywords
voice
target
speech
correction
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110817302.8A
Other languages
English (en)
Other versions
CN113409763A (zh
Inventor
曾亮
常乐
涂贤玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202110817302.8A priority Critical patent/CN113409763B/zh
Publication of CN113409763A publication Critical patent/CN113409763A/zh
Application granted granted Critical
Publication of CN113409763B publication Critical patent/CN113409763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本公开提供一种语音纠正方法、装置及电子设备,所述方法包括:提取待处理语音的目标声音特征;基于所述目标声音特征确定所述待处理语音所属的目标地理区域;从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。本公开实施例能够提高语音纠正效果。

Description

语音纠正方法、装置及电子设备
技术领域
本发明涉及人工智能领域,尤其涉及一种语音纠正方法、装置及电子设备。
背景技术
随着经济技术的发展,设备的智能化程度越来越高,语音纠正功能在智能化设备中的应用越来越广泛。语音纠正能够检测出用户发音存在的问题,对用户的异常发音进行纠正。目前,在进行语音纠正时,由于说话人对普通话的掌握程度不同,不同地理区域的说话人的语音可能存在较大的差异,导致采用通用的语音纠正模型进行语音纠正的效果较差。
发明内容
本公开实施例提供一种语音纠正方法、装置及电子设备,以解决现有技术中由于说话人对普通话的掌握程度不同,不同地理区域的说话人的语音可能存在较大的差异,导致采用通用的语音纠正模型进行语音纠正的效果较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本公开实施例提供了一种语音纠正方法,所述方法包括:
提取待处理语音的目标声音特征;
基于所述目标声音特征确定所述待处理语音所属的目标地理区域;
从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;
基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。
第二方面,本公开实施例提供了一种语音纠正装置,所述语音纠正装置包括:
提取模块,用于提取待处理语音的目标声音特征;
第一确定模块,用于基于所述目标声音特征确定所述待处理语音所属的目标地理区域;
第一获取模块,用于从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;
纠正模块,用于基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。
第三方面,本公开实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的语音纠正方法中的步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音纠正方法中的步骤。
本公开实施例中,提取待处理语音的目标声音特征;基于所述目标声音特征确定所述待处理语音所属的目标地理区域;从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。这样,通过多个语音纠正模型中与所述目标地理区域对应的目标语音纠正模型对待处理语音进行语音纠正,从而对于不同地理区域的说话人的语音,能够采用与该地理区域对应的语音纠正模型进行语音纠正,能够提高语音纠正效果。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种语音纠正方法的流程图;
图2是本公开实施例提供的一种语音纠正装置的结构示意图之一;
图3是本公开实施例提供的一种语音纠正装置的结构示意图之二;
图4是本公开实施例提供的一种语音纠正装置的结构示意图之三;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
参见图1,图1是本公开实施例提供的一种语音纠正方法的流程图,如图1所示,包括以下步骤:
步骤101、提取待处理语音的目标声音特征。
其中,目标声音特征可以包括目标声纹特征,或者,目标声音特征可以包括目标声学特征和目标声纹特征。声纹特征可以通过特征序列的形式表现。声纹特征可以是携带言语信息的声波频谱。声学特征可以包括音素特征及发音属性等。以语音纠正方法应用于会议场景为例,待处理语音可以为会议参与人员的发言,目标声纹特征可以为任意一个会议参与人员的声纹特征,目标声学特征可以为目标声纹特征对应的会议参与人员的声学特征。
步骤102、基于所述目标声音特征确定所述待处理语音所属的目标地理区域。
其中,目标声音特征可以包括目标声纹特征,可以通过预先存储的声纹特征与地理区域的对应关系确定所述待处理语音所属的目标地理区域。
步骤103、从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应。
其中,所述多个语音纠正模型中每个语音纠正模型可以与多个地理区域中的一个或多个地理区域对应,示例地,为提高语音纠正效果,所述多个语音纠正模型可以分别与多个地理区域一一对应。语音纠正模型可以包括卷积神经网络,或者可以包括循环神经网络,或者可以包括长短期记忆神经网络,等等,凡是可以用于语音纠正的网络结构均可以作为语音纠正模型的网络结构。
另外,所述预先训练的多个语音纠正模型的训练过程可以如下:获取所述多个地理区域各自对应的训练样本;将第一地理区域对应的训练样本输入所述第一地理区域对应的语音纠正模型,对所述第一地理区域对应的语音纠正模型进行训练,所述第一地理区域为所述多个地理区域中的任意一个地理区域。
在实际应用中,可以大量采集某个方言区的人说普通话的语料,采用采集的语料训练得到该方言区对应的语音纠正模型,训练的语音纠正模型记录有对应的方言区普通话与标准普通话之间的差异声学特征。例如,某个地理区域的语音纠正模型,记录有声母“d/t”与“l”存在对转关系,若待处理语音存在发音“槟
Figure BDA0003170632080000041
”,通过语音纠正模型纠正后可得到标准的“槟榔”音。
需要说明的是,可以存储有多个对象对应的声纹特征与所述多个地理区域的对应关系,可以依据存储的多个对象对应的声纹特征与所述多个地理区域的对应关系,获取与所述目标声纹特征对应的目标地理区域,并从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型。示例地,可以存储有多个对象的声纹特征标识及语音纠正模型标识的对应关系的记录表,声纹特征标识用于标识声纹特征,语音纠正模型标识用于标识语音纠正模型,通过目标声纹特征的声纹特征标识,在记录表中查找与目标声纹特征的声纹特征标识对应的语音纠正模型标识,从而能够获取与所述目标声纹特征对应的目标语音纠正模型。
另外,所述多个对象对应的声纹特征与所述多个地理区域的对应关系的获取过程可以如下:分别采集多个对象的语音样本;提取所述多个对象中每个对象的语音样本的声纹特征,并获取所述每个对象的语音样本与预设语音之间的差异声学特征;将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域;基于所述区域语音识别模型的输出结果确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系。
以语音纠正方法应用于同声传译设备为例,可以由同声传译设备执行所述多个对象对应的声纹特征与所述多个地理区域的对应关系的获取过程;或者还可以由其他电子设备执行所述多个对象对应的声纹特征与所述多个地理区域的对应关系的获取过程,由其他电子设备向同声传译设备发送所述多个对象对应的声纹特征与所述多个地理区域的对应关系。
步骤104、基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。
其中,可以将待处理语音输入目标语音纠正模型,输出纠正后的语音。纠正后的语音可以为接近标准普通话的语音。通过所述目标语音纠正模型对所述待处理语音进行语音纠正,能够将待处理语音纠正为接近标准普通话的语音。
另外,所述待处理语音可以包括第一子语音和第二子语音,所述第一子语音为待纠正的语音,所述第二子语音为所述待处理语音中所述第一子语音以外的语音。所述纠正后的语音可以包括所述第二子语音和第三子语音,所述第三子语音可以为具有与所述第二子语音对应的音色特征的纠正后的第一子语音,可以参照所述第二子语音对应的音色特征对纠正后的第一子语音进行模拟处理,得到具有与所述第二子语音对应的音色特征的纠正后的第一子语音;或者,所述纠正后的语音可以包括所述第二子语音和第三子语音,所述第三子语音可以为具有预设音色特征的纠正后的第一子语音;或者,所述纠正后的语音可以包括第四子语音和第三子语音,所述第三子语音可以为具有预设音色特征的纠正后的第一子语音,所述第四子语音可以为具有预设音色特征的第二子语音,从而可以输出与说话人音色不同的标准普通话。
需要说明的是,汉语目前存在七大方言区:官话方言、吴方言、赣方言、湘方言、闽方言、粤方言及客家方言。每个方言区还可进一步分成若干个次方言区,例如官话方言,可分为东北方言、西北方言、西南方言等。方言区内的人在学习和掌握普通话的过程中,通常会出现某些发音缺陷,例如存在前后鼻韵母不分、平翘舌不分等。同一方言区的人说普通话,往往存在一些共性的问题。本实施例中,可以建立起七大方言区及其下属的若干个次方言区对应的语音纠正模型。每一个语音纠正模型,都记录有与之对应的方言区普通话发音较之于标准普通话发音的差异声学特征。对于不同地理区域的说话人的语音,能够采用与该地理区域对应的语音纠正模型进行语音纠正,能够提高语音纠正效果。
另外,本公开实施例中的语音纠正方法可以应用于接收投诉或建议的同声传译设备,其应用场景可为会议、公共办事大厅、学校或医院预约大厅等需要对方言纠正的场所。可以建立与多个方言区一一对应的多个语音纠正模型,采集各个方言区人员的语音样本,分别对各个方言区的语音纠正模型进行训练。在使用同声传译设备接收用户的投诉或建议的过程中,可以采集说话人的语音,利用说话人的声音特征确认与说话人的声音特征匹配的语音纠正模型,并使用与说话人的声音特征匹配的语音纠正模型对说话人的语音进行纠正。从而,对于每个说话人,均采用了与其发音特征最匹配的语音纠正模型进行语音纠正,避免工作人员与方言区人员存在沟通障碍。
需要说明的是,所述目标声音特征可以包括目标声纹特征,所述基于所述目标声音特征确定所述待处理语音所属的目标地理区域,可以包括:在预先存储的多个声纹特征中存在与所述目标声纹特征匹配的声纹特征的情况下,基于所述目标声纹特征确定所述待处理语音所属的目标地理区域。所述方法还可以包括:在预先存储的多个声纹特征中不存在与所述目标声纹特征匹配的声纹特征的情况下,可以不对待处理语音进行纠正;或者,在所述预先存储的多个声纹特征中不存在与所述目标声纹特征匹配的声纹特征的情况下,可以基于预设语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音;或者,所述基于所述目标声音特征确定所述待处理语音所属的目标地理区域,还可以包括:在所述预先存储的多个声纹特征中不存在与所述目标声纹特征匹配的声纹特征的情况下,将所述待处理语音与预设语音的差异声学特征输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域,确定所述待处理语音所属的目标地理区域,并且可以将目标声纹特征添加至所述多个声纹特征中。
本公开实施例中,提取待处理语音的目标声音特征;基于所述目标声音特征确定所述待处理语音所属的目标地理区域;从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。这样,通过多个语音纠正模型中与所述目标地理区域对应的目标语音纠正模型对待处理语音进行语音纠正,从而对于不同地理区域的说话人的语音,能够采用与该地理区域对应的语音纠正模型进行语音纠正,能够提高语音纠正效果。
可选的,所述从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型之前,所述方法还包括:
获取所述多个地理区域各自对应的训练样本;
将第一地理区域对应的训练样本输入所述第一地理区域对应的语音纠正模型,对所述第一地理区域对应的语音纠正模型进行训练,所述第一地理区域为所述多个地理区域中的任意一个地理区域。
其中,第一地理区域对应的训练样本可以包括第一地理区域内的人说普通话时收集的语料。多个地理区域可以按照方言区进行划分,可以划分为官话方言对应的地理区域、吴方言对应的地理区域、赣方言对应的地理区域、湘方言对应的地理区域、闽方言对应的地理区域、粤方言对应的地理区域及客家方言对应的地理区域。为提高语音纠正效果,可以进一步细分,示例地,对于湘方言对应的地理区域可以划分为,常德、岳阳及娄底等等。
该实施方式中,通过将第一地理区域对应的训练样本输入所述第一地理区域对应的语音纠正模型,对所述第一地理区域对应的语音纠正模型进行训练,训练得到的每个地理区域对应的语音纠正模型能够较好地对该地理区域的语音进行语音纠正,从而能够获得较好地语音纠正效果。
可选的,所述提取待处理语音的目标声音特征之前,所述方法还包括:
分别采集多个对象的语音样本;
提取所述多个对象中每个对象的语音样本的声纹特征,并获取所述每个对象的语音样本与预设语音之间的差异声学特征;
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域;
基于所述区域语音识别模型的输出结果确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系;
所述目标声音特征包括目标声纹特征,所述基于所述目标声音特征确定所述待处理语音所属的目标地理区域,包括:
基于所述多个对象对应的声纹特征与所述多个地理区域的对应关系及所述目标声纹特征确定所述待处理语音所属的目标地理区域。
其中,多个对象可以为多个说话人,以会议场景为例,多个对象可以为多个会议参与人员。所述分别采集多个对象的语音样本,可以是,分别采集多个对象针对预设文本诵读的语音样本。预设文本中可以包括能体现方言发音特征的字或词。示例地,预设文本可以包括“四”、“是”等。预设语音可以为标准普通话,示例地,可以为普通话等级高于预设等级的人员针对预设文本诵读的语音样本。可以计算所述每个对象的语音样本与所述预设语音之间的差异声学特征,得到每个对象的语音样本与预设语音之间的差异声学特征。
另外,所述待处理语音所属的目标地理区域可以为目标声纹特征对应的地理区域。区域语音识别模型可以包括卷积神经网络,或者可以包括循环神经网络,或者可以包括长短期记忆神经网络,等等,凡是可以用于识别语音归属的地理区域的网络结构均可以作为区域语音识别模型的网络结构。
需要说明的是,通过所述区域语音识别模型的输出结果可以确定每个对象的语音归属的地理区域,从而可以确定与每个对象的语音匹配的语音纠正模型。
该实施方式中,将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域,基于所述区域语音识别模型的输出结果确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系,这样,通过区域语音识别模型能够快速且准确地识别出与所述目标声纹特征对应的目标语音纠正模型。
可选的,所述区域语音识别模型包括第一区域语音识别子模型和第二区域语音识别子模型;
所述将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,包括:
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入所述第一区域语音识别子模型,确定语音归属的第一级地理区域;
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入与所述第一级地理区域对应的第二区域语音识别子模型,确定语音归属的第二级地理区域;
其中,所述多个对象对应的声纹特征与所述多个地理区域的对应关系包括所述多个对象对应的声纹特征与多个所述第二级地理区域的对应关系。
其中,所述区域语音识别模型可以包括第一区域语音识别子模型和多个第二区域语音识别子模型。第一区域语音识别子模型可以用于识别语音归属的第一级地理区域,每个第一级地理区域可以对应一个第二区域语音识别子模型,通过第二区域语音识别子模型可以识别出语音归属的第二级地理区域。所述多个语音纠正模型可以分别与多个第二级地理区域一一对应。示例地,第一级地理区域可以为省,第二级地理区域可以为市。多个所述第二级地理区域中的一个第二地理区域可以对应一个对象或多个对象的声纹特征。
该实施方式中,通过第一区域语音识别子模型确定语音归属的第一级地理区域,通过与所述第一级地理区域对应的第二区域语音识别子模型确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系,通过两级模型能够更为准确地确定所述多个对象对应的声纹特征与所述多个语音纠正模型的对应关系,且能够采用各个地区的方言更为针对性地对各个方言区的语音纠正模型进行训练,训练得到的语音纠正模型的纠正效果较好。
可选的,所述目标声音特征包括目标声纹特征,所述基于所述目标声音特征确定所述待处理语音所属的目标地理区域,包括:
在预先存储的多个声纹特征中存在与所述目标声纹特征匹配的声纹特征的情况下,基于所述目标声纹特征确定所述待处理语音所属的目标地理区域。
其中,可以存储有多个对象对应的声纹特征与所述多个地理区域的对应关系,所述预先存储的多个声纹特征可以为所述多个对象对应的声纹特征。所述多个地理区域中的一个地理区域可以对应一个对象或多个对象的声纹特征。可以将所述目标声纹特征对应的地理区域确定为所述待处理语音所属的目标地理区域,所述目标地理区域可以是预先存储的多个声纹特征中与所述目标声纹特征匹配的声纹特征对应的地理区域。每个地理区域对应的语音纠正模型可以采用所述每个地理区域对应的语音样本进行训练获得。
另外,与所述目标声纹特征匹配的声纹特征,可以是与所述目标声纹特征相同的声纹特征,或与所述目标声纹特征的相似度大于预设相似度的声纹特征,预设相似度可以为90%,95%或者98%等等,本实施例对此不进行限定。
该实施方式中,在预先存储的多个声纹特征中存在所述目标声纹特征的情况下,基于所述目标声纹特征确定所述待处理语音所属的目标地理区域,这样,对于不同的声纹特征,均可以采用对应的语音纠正模型针对性地进行语音纠正,能够进一步提高语音纠正的效果。
可选的,所述待处理语音包括第一子语音和第二子语音,所述第一子语音为待纠正的语音,所述第二子语音为所述待处理语音中所述第一子语音以外的语音;
所述纠正后的语音包括所述第二子语音和第三子语音,所述第三子语音为具有与所述第二子语音对应的音色特征的纠正后的第一子语音。
其中,可以模拟第二子语音对应的音色特征,对纠正后的第一子语音进行处理,得到具有与所述第二子语音对应的音色特征的纠正后的第一子语音。可以存储有多个声音特征与多个预设音色特征的对应关系,每个声音特征可以对应一个预设音色特征,从而可以基于目标声音特征确定第二子语音对应的音色特征,从而在对第一子语音纠正后,可以模拟第二子语音对应的音色特征,对纠正后的第一子语音进行处理;或者,可以将第二子语音和纠正后的第一子语音输入预先训练好的音色输出模型,输出所述纠正后的语音。另外,可以采集多个对象的语音样本,将每个对象的音色特征输入预先训练的音色识别模型,识别出与每个对象的音色相似程度最高的预设音色特征,从而记录每个对象的声音特征对应的预设音色特征。
该实施方式中,所述纠正后的语音包括所述第二子语音和第三子语音,所述第三子语音为具有与所述第二子语音对应的音色特征的纠正后的第一子语音,从而纠正后的语音能够较为贴近说话人的音色,能够给声音的接收者带来较好的听觉感受。
可选的,所述分别采集多个对象的语音样本,包括:
分别采集多个对象的语音样本和用户身份信息;
所述提取所述多个对象中每个对象的语音样本的声纹特征之后,所述方法还包括:
确定所述多个对象对应的声纹特征与所述用户身份信息的对应关系;
所述输出纠正后的语音之后,所述方法还包括:
存储所述目标声纹特征对应的用户身份信息与所述纠正后的语音的对应关系。
其中,所述用户身份信息可以包括姓名、工号或者身份证号等等。依据所述多个对象对应的声纹特征与所述用户身份信息的对应关系,可以获取与所述目标声纹特征对应的用户身份信息,从而可以快速地确定说话人的身份。
该实施方式中,通过确定所述多个对象对应的声纹特征与所述用户身份信息的对应关系,能够根据说话人的声纹特征识别出说话人的身份,通过存储所述目标声纹特征对应的用户身份信息与所述纠正后的语音的对应关系,从而能够对说话人的纠正后的语音进行录音,智能化程度较高。
参见图2,图2是本公开实施例提供的一种语音纠正装置的结构示意图之一,如图2所示,所述语音纠正装置200包括:
提取模块201,用于提取待处理语音的目标声音特征;
第一确定模块202,用于基于所述目标声音特征确定所述待处理语音所属的目标地理区域;
第一获取模块203,用于从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;
纠正模块204,用于基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音。
可选的,如图3所示,所述装置200还包括:
第二获取模块205,用于获取所述多个地理区域各自对应的训练样本;
训练模块206,用于将第一地理区域对应的训练样本输入所述第一地理区域对应的语音纠正模型,对所述第一地理区域对应的语音纠正模型进行训练,所述第一地理区域为所述多个地理区域中的任意一个地理区域。
可选的,如图4所示,所述装置200还包括:
采集模块207,用于分别采集多个对象的语音样本;
第三获取模块208,用于提取所述多个对象中每个对象的语音样本的声纹特征,并获取所述每个对象的语音样本与预设语音之间的差异声学特征;
输入模块209,用于将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域;
第二确定模块210,用于基于所述区域语音识别模型的输出结果确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系;
所述目标声音特征包括目标声纹特征,所述第一确定模块202具体用于:
基于所述多个对象对应的声纹特征与所述多个地理区域的对应关系及所述目标声纹特征确定所述待处理语音所属的目标地理区域。
可选的,所述区域语音识别模型包括第一区域语音识别子模型和第二区域语音识别子模型;
所述输入模块209具体用于:
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入所述第一区域语音识别子模型,确定语音归属的第一级地理区域;
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入与所述第一级地理区域对应的第二区域语音识别子模型,确定语音归属的第二级地理区域;
其中,所述多个对象对应的声纹特征与所述多个地理区域的对应关系包括所述多个对象对应的声纹特征与多个所述第二级地理区域的对应关系。
可选的,所述目标声音特征包括目标声纹特征,所述第一确定模块210具体用于:
在预先存储的多个声纹特征中存在与所述目标声纹特征匹配的声纹特征的情况下,基于所述目标声纹特征确定所述待处理语音所属的目标地理区域。
可选的,所述待处理语音包括第一子语音和第二子语音,所述第一子语音为待纠正的语音,所述第二子语音为所述待处理语音中所述第一子语音以外的语音;
所述纠正后的语音包括所述第二子语音和第三子语音,所述第三子语音为具有与所述第二子语音对应的音色特征的纠正后的第一子语音。
可选的,所述采集模块207具体用于:
分别采集多个对象的语音样本和用户身份信息;
所述第三获取模块208还用于:
确定所述多个对象对应的声纹特征与所述用户身份信息的对应关系;
所述纠正模块204还用于:
存储所述目标声纹特征对应的用户身份信息与所述纠正后的语音的对应关系。
语音纠正装置能够实现图1的方法实施例中实现的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
如图5所示,本发明实施例还提供了一种电子设备300,包括:存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序,所述程序被所述处理器301执行时实现上述语音纠正方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语音纠正方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
上面结合附图对本公开的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (9)

1.一种语音纠正方法,其特征在于,所述方法包括:
提取待处理语音的目标声音特征;
基于所述目标声音特征确定所述待处理语音所属的目标地理区域;
从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;
基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音;
所述提取待处理语音的目标声音特征之前,所述方法还包括:
分别采集多个对象的语音样本;
提取所述多个对象中每个对象的语音样本的声纹特征,并获取所述每个对象的语音样本与预设语音之间的差异声学特征;
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域;
基于所述区域语音识别模型的输出结果确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系;
所述目标声音特征包括目标声纹特征,所述基于所述目标声音特征确定所述待处理语音所属的目标地理区域,包括:
基于所述多个对象对应的声纹特征与所述多个地理区域的对应关系及所述目标声纹特征确定所述待处理语音所属的目标地理区域。
2.根据权利要求1所述的方法,其特征在于,所述从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型之前,所述方法还包括:
获取所述多个地理区域各自对应的训练样本;
将第一地理区域对应的训练样本输入所述第一地理区域对应的语音纠正模型,对所述第一地理区域对应的语音纠正模型进行训练,所述第一地理区域为所述多个地理区域中的任意一个地理区域。
3.根据权利要求1所述的方法,其特征在于,所述区域语音识别模型包括第一区域语音识别子模型和第二区域语音识别子模型;
所述将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,包括:
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入所述第一区域语音识别子模型,确定语音归属的第一级地理区域;
将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入与所述第一级地理区域对应的第二区域语音识别子模型,确定语音归属的第二级地理区域;
其中,所述多个对象对应的声纹特征与所述多个地理区域的对应关系包括所述多个对象对应的声纹特征与多个所述第二级地理区域的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述目标声音特征包括目标声纹特征,所述基于所述目标声音特征确定所述待处理语音所属的目标地理区域,包括:
在预先存储的多个声纹特征中存在与所述目标声纹特征匹配的声纹特征的情况下,基于所述目标声纹特征确定所述待处理语音所属的目标地理区域。
5.根据权利要求1所述的方法,其特征在于,所述待处理语音包括第一子语音和第二子语音,所述第一子语音为待纠正的语音,所述第二子语音为所述待处理语音中所述第一子语音以外的语音;
所述纠正后的语音包括所述第二子语音和第三子语音,所述第三子语音为具有与所述第二子语音对应的音色特征的纠正后的第一子语音。
6.根据权利要求1所述的方法,其特征在于,所述分别采集多个对象的语音样本,包括:
分别采集多个对象的语音样本和用户身份信息;
所述提取所述多个对象中每个对象的语音样本的声纹特征之后,所述方法还包括:
确定所述多个对象对应的声纹特征与所述用户身份信息的对应关系;
所述输出纠正后的语音之后,所述方法还包括:
存储所述目标声纹特征对应的用户身份信息与所述纠正后的语音的对应关系。
7.一种语音纠正装置,其特征在于,所述语音纠正装置包括:
提取模块,用于提取待处理语音的目标声音特征;
第一确定模块,用于基于所述目标声音特征确定所述待处理语音所属的目标地理区域;
第一获取模块,用于从预先训练的多个语音纠正模型中获取与所述目标地理区域对应的目标语音纠正模型,所述多个语音纠正模型分别与多个地理区域对应;
纠正模块,用于基于所述目标语音纠正模型对所述待处理语音进行语音纠正,输出纠正后的语音;
所述装置还包括:
采集模块,用于分别采集多个对象的语音样本;
第三获取模块,用于提取所述多个对象中每个对象的语音样本的声纹特征,并获取所述每个对象的语音样本与预设语音之间的差异声学特征;
输入模块,用于将所述每个对象的语音样本与所述预设语音之间的差异声学特征分别输入预先训练的区域语音识别模型,所述区域语音识别模型用于识别语音归属的地理区域;
第二确定模块,用于基于所述区域语音识别模型的输出结果确定所述多个对象对应的声纹特征与所述多个地理区域的对应关系;
所述目标声音特征包括目标声纹特征,所述第一确定模块具体用于:
基于所述多个对象对应的声纹特征与所述多个地理区域的对应关系及所述目标声纹特征确定所述待处理语音所属的目标地理区域。
8.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音纠正方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音纠正方法的步骤。
CN202110817302.8A 2021-07-20 2021-07-20 语音纠正方法、装置及电子设备 Active CN113409763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110817302.8A CN113409763B (zh) 2021-07-20 2021-07-20 语音纠正方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110817302.8A CN113409763B (zh) 2021-07-20 2021-07-20 语音纠正方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113409763A CN113409763A (zh) 2021-09-17
CN113409763B true CN113409763B (zh) 2022-10-25

Family

ID=77687071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110817302.8A Active CN113409763B (zh) 2021-07-20 2021-07-20 语音纠正方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113409763B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036435A (zh) * 2018-08-15 2018-12-18 深圳平安综合金融服务有限公司上海分公司 基于声纹信息的身份认证及识别方法
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109410664A (zh) * 2018-12-12 2019-03-01 广东小天才科技有限公司 一种发音纠正方法及电子设备
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
CN111369981A (zh) * 2020-03-02 2020-07-03 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
KR20200145776A (ko) * 2019-06-20 2020-12-30 강남구 음성보정 합성방법, 장치 및 프로그램
CN113053395A (zh) * 2021-03-05 2021-06-29 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5621783B2 (ja) * 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036435A (zh) * 2018-08-15 2018-12-18 深圳平安综合金融服务有限公司上海分公司 基于声纹信息的身份认证及识别方法
CN109410664A (zh) * 2018-12-12 2019-03-01 广东小天才科技有限公司 一种发音纠正方法及电子设备
CN109346059A (zh) * 2018-12-20 2019-02-15 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109961794A (zh) * 2019-01-14 2019-07-02 湘潭大学 一种基于模型聚类的分层说话人识别方法
KR20200145776A (ko) * 2019-06-20 2020-12-30 강남구 음성보정 합성방법, 장치 및 프로그램
CN111369981A (zh) * 2020-03-02 2020-07-03 北京远鉴信息技术有限公司 一种方言地域识别方法、装置、电子设备及存储介质
CN113053395A (zh) * 2021-03-05 2021-06-29 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度神经网络的语音识别研究;黄威等;《现代计算机(专业版)》;20160305(第07期);全文 *
江苏省方言归属地鉴别研究;严瑶等;《信息系统工程》;20160620(第06期);全文 *

Also Published As

Publication number Publication date
CN113409763A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN110648690B (zh) 一种音频评测方法及服务器
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
CN110473566A (zh) 音频分离方法、装置、电子设备及计算机可读存储介质
WO2016092807A1 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN109410664B (zh) 一种发音纠正方法及电子设备
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN105938716A (zh) 一种基于多精度拟合的样本复制语音自动检测方法
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN111986675A (zh) 语音对话方法、设备及计算机可读存储介质
CN108735200A (zh) 一种说话人自动标注方法
CN110223678A (zh) 语音识别方法及系统
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN108665901B (zh) 一种音素/音节提取方法及装置
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Singh et al. Speaker Recognition Assessment in a Continuous System for Speaker Identification
CN113409774A (zh) 语音识别方法、装置及电子设备
CN113409763B (zh) 语音纠正方法、装置及电子设备
CN111785302A (zh) 说话人分离方法、装置及电子设备
Pentapati et al. Dilated Convolution and MelSpectrum for Speaker Identification using Simple Deep Network
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Mittal et al. Age approximation from speech using Gaussian mixture models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant