CN108831438B - 语音数据生成方法及装置、电子装置和计算机可读存储介质 - Google Patents

语音数据生成方法及装置、电子装置和计算机可读存储介质 Download PDF

Info

Publication number
CN108831438B
CN108831438B CN201810816951.4A CN201810816951A CN108831438B CN 108831438 B CN108831438 B CN 108831438B CN 201810816951 A CN201810816951 A CN 201810816951A CN 108831438 B CN108831438 B CN 108831438B
Authority
CN
China
Prior art keywords
voice data
preset
tone
determining
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810816951.4A
Other languages
English (en)
Other versions
CN108831438A (zh
Inventor
郑志勇
柳明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oppo Chongqing Intelligent Technology Co Ltd
Original Assignee
Oppo Chongqing Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo Chongqing Intelligent Technology Co Ltd filed Critical Oppo Chongqing Intelligent Technology Co Ltd
Priority to CN201810816951.4A priority Critical patent/CN108831438B/zh
Publication of CN108831438A publication Critical patent/CN108831438A/zh
Application granted granted Critical
Publication of CN108831438B publication Critical patent/CN108831438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

本申请公开了一种语音数据生成方法及相关装置,应用于电子设备,所述电子设备包括麦克风,包括:电子设备通过麦克风获取第一语音数据,根据第一语音数据的音色参数确定麦克风处于堵孔状态,将第一语音数据输入预设模型生成目标语音数据,预设模型用于预测第一语音数据的数据缺失片段。本申请有利于提高电子设备进行语音数据生成的准确性和智能性。

Description

语音数据生成方法及装置、电子装置和计算机可读存储介质
技术领域
本申请涉及电子技术领域,尤其涉及一种语音数据生成方法及相关装置。
背景技术
随着智能终端(如智能手机等)技术的迅速发展,以及越来越普及,现已成为用户日常生活中不可缺少的电子产品。在越来越便利的通信中,人们已经不单进行短信、电话,还会使用其他通信方式,例如通过微信发送语音或进行视频通话等操作,在收录语音时,未免会受到各种因素的影响而造成语音缺失,进而使得通信受到影响。
发明内容
本申请实施例提供一种语音数据生成方法及相关装置,提供一种语音生成方法,有利于提高电子设备进行语音数据生成的准确性和智能性。
第一方面,本申请实施例提供一种语音数据生成方法,应用于电子设备,所述电子设备包括麦克风,所述方法包括:
通过所述麦克风获取第一语音数据;
根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态;
将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。
第二方面,本申请实施例提供一种语音数据生成装置,应用于电子设备,所述电子设备包括麦克风,所述语音数据生成装置包括获取单元、确定单元和生成单元,其中,
所述获取单元,用于通过所述麦克风获取第一语音数据;
所述确定单元,用于根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态;
所述生成单元,用于将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
可以看出,在本申请实施例中,电子设备首先通过所述麦克风获取第一语音数据,其次,根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态,最后,将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。可见,电子设备可通过解析收录语音的音色,准确判断收录的语音是否有缺失,进一步通过智能模型还原缺失的语音,有利于提高电子设备在语音生成过程中的智能性和准确性。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1是本申请实施例提供的一种电子设备的结构示意图;
图2是本申请实施例提供的一种语音数据生成方法的流程示意图;
图3是本申请实施例公开的另一种语音数据生成方法的流程示意图;
图4是本申请实施例公开的另一种语音数据生成方法的流程示意图;
图5是本申请实施例公开的一种电子设备的结构示意图;
图6是本申请实施例公开的一种语音数据生成装置的功能单元组成框图。
具体实现方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
以下分别进行详细说明。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(例如智能手表、智能手环、计步器等)、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。为方便描述,上面提到的设备统称为电子设备。
下面对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供的一种电子设备100的结构示意图,上述电子设备100包括:壳体110、设置于所述壳体110内的电路板120、设置于所述壳体110上的显示屏130和麦克风140,所述电路板120上设置有处理器121,所述处理器121连接所述显示屏130。
下面对本申请实施例进行详细介绍。
请参阅图2,图2是本申请实施例提供了一种语音数据生成方法的流程示意图,应用于电子设备,所述电子设备包括麦克风,本语音数据生成方法包括:
S201,电子设备通过所述麦克风获取第一语音数据。
其中,第一语音数据可以包括但不限于音色、音量、音频等,此处不做唯一限定。
S202,所述电子设备根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态。
其中,音色是指不同的声音的频率表现在波形方面总是有与众不同的特性,音色是由声音波形的谐波频谱和包络决定。
其中,麦克风堵孔是指电子设备的用于麦克风采集声音的通孔处于堵塞状态,如被灰尘、水等介质堵塞或手指堵塞等,此处不做唯一限定。
S203,所述电子设备将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。
其中,预设模型为智能模型,智能模型包含有多种算法,可根据多种算法预测所述第一语音数据的数据缺失片段。
可以看出,本申请实施例中,电子设备首先通过所述麦克风获取第一语音数据,其次,根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态,最后,将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。可见,电子设备可通过解析收录语音的音色,准确判断收录的语音是否有缺失,进一步通过智能模型还原缺失的语音,有利于提高电子设备在语音生成过程中的智能性和准确性。
在一个可能的示例中,所述将所述第一语音数据输入预设模型生成目标语音数据,包括:电子设备通过所述预设模型确定所述第一语音数据的完整度;当所述完整度小于预设完整度时,提取所述第一语音数据中的关键字;根据所述关键字确定所述第一语音数据的数据缺失片段;根据所述数据缺失片段和所述第一语音数据生成所述目标语音数据。
可见,本示例中,电子设备可通过预设模型,对收录的语音进行检测,进而准确的判断出该语音是否有缺失的部分,若有,进一步的根据预设模型模拟出缺失的语音,最终形成完整的语音,有利于提高电子设备在进行收录语音判断时的准确性,并提高了电子设备在进行语音数据生成时的智能性。
在一个可能的示例中,所述通过所述预设模型确定所述第一语音数据的完整度,包括:电子设备将所述第一语音数据进行滤波处理,得到所述滤波处理后的所述第一语音数据的多个振幅参数;在所述多个振幅参数中筛选出低于预设振幅参数的至少一个目标振幅参数;根据所述至少一个目标振幅参数在所述多个振幅参数中的占比,得到所述第一语音数据的完整度。
其中,滤波处理为将收录的语音进行降噪和过滤处理,以得到清晰的语音。
可见,本示例中,电子设备可通过对收录的语音的滤波处理,得到多个参数,进一步的根据参数确定收录的语音完整度,避免因收录的语音中含有噪音,而导致误判的情况发生,有利于提高电子设备在进行语音数据生成时的智能性和准确性。
在一个可能的示例中,所述根据所述关键字确定所述第一语音数据的数据缺失片段,包括:所述电子设备获取历史语音记录中含有所述关键字的至少一条参考语音数据;在含有所述关键字的所述至少一条参考语音数据中,筛选出超过预设次数的至少一条语音数据,所述预设次数为所述关键词在每条语音数据中出现的次数;根据至少一条语音数据确定所述第一语音数据的数据缺失片段。
其中,历史语音数据可以为固定时间段内的语音数据,例如三个月、六个月、半年等,此处不做唯一限定。
可见,本示例中,电子设备可在多个含有关键词的语音数据中进行筛选,得到含有关键词的语音中的用法及规律,进而根据用法和规律得到缺失的信息片段,有利于电子设备进行确定语音缺失数据时的准确定和智能性。
在一个可能的示例中,所述根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态,包括:所述电子设备检测所述第一语音数据的音色参数;确定预设音色;将所述第一语音数据的音色参数与所述预设音色进行匹配,得到匹配值;若所述匹配值低于预设匹配值时,确定所述麦克风处于堵孔状态。
其中,预设音色为基准音色,在判断收录的语音音色时,以基准音色为标准,进行比对,基准音色可由多种情况得到,如环境空间大小、户主用户嘴边状态和户主用户身体状态等,此处不做唯一限定。
可见,本示例中,电子设备通过解析收录的语音的音色参数,进一步判断出麦克风是否被堵塞,有利于电子设备进行堵孔判断的智能性和准确性。
在一个可能的示例中,所述电子设备包括超声波传感器,所述超声波传感器用于产生声场,所述确定预设音色,包括:所述电子设备根据所述声场变化信息确定所述电子设备的环境空间大小;查询第一预设数据库,确定所述第一预设数据库中与所述环境空间大小匹配的回音参数,所述第一预设数据库包括环境空间大小和回音参数的映射关系;将所述回音参数与预设的至少一个音色进行匹配,得到预设音色。
可见,本示例中,电子设备可根据超声波的特性确定预设音色,先确定当前电子设备的环境空间大小,由于环境空间大小能够收到发出声音的回音,进而得到基准音色,有利于提高电子设备在进行确定基准音色过程中的准确性和智能性。
在一个可能的示例中,所述电子设备包括摄像头,所述确定预设音色,包括:所述电子设备开启所述摄像头,采集人脸图像;识别所述人脸图像,得到人脸图像特征;提取所述人脸特征图像中的预设区域的特征点,所述预设区域为嘴巴所在的区域;查询第二预设数据库,确定所述第二预设数据库中与所述预设区域的特征点匹配的音色,所述第二预设数据库中包括预设区域的特征点和音色的映射关系。
可见,本示例中,电子设备可根据当前采集到的用户的嘴型轮廓,确定当前用户的发音的弧度,进一步的得到发音的力度,进而得到基准音量,有利于提高电子设备在进行确定基准音量时的多样性和智能性。
与所述图2所示的实施例一致的,请参阅图3,图3是本申请实施例提供的一种语音数据生成方法的流程示意图,应用于电子设备,所述电子设备包括麦克风。如图所示,本语音数据生成方法包括:
S301,电子设备通过所述麦克风获取第一语音数据。
S302,所述电子设备根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态。
S303,所述电子设备通过所述预设模型确定所述第一语音数据的完整度。
S304,所述电子设备当所述完整度小于预设完整度时,提取所述第一语音数据中的关键字。
S305,所述电子设备获取历史语音记录中含有所述关键字的至少一条参考语音数据。
S306,所述电子设备在含有所述关键字的所述至少一条参考语音数据中,筛选出超过预设次数的至少一条语音数据,所述预设次数为所述关键词在每条语音数据中出现的次数。
S307,所述电子设备根据至少一条语音数据确定所述第一语音数据的数据缺失片段。
S308,所述电子设备根据所述数据缺失片段和所述第一语音数据生成所述目标语音数据。
可以看出,本申请实施例中,电子设备首先通过所述麦克风获取第一语音数据,其次,根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态,最后,将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。可见,电子设备可准确的通过检测到的音色参数确定麦克风被堵塞,得到残缺的收录语音,进一步的对残缺的收录语音进行复原,得到完整的语音,有利于电子设备进行语音数据生成的智能性和便捷性。可见,电子设备可通过解析收录语音的音色,准确判断收录的语音是否有缺失,进一步通过智能模型还原缺失的语音,有利于提高电子设备在语音生成过程中的智能性和准确性。
此外,电子设备可通过预设模型,对收录的语音进行检测,进而准确的判断出该语音是否有缺失的部分,若有,进一步的根据预设模型模拟出缺失的语音,最终形成完整的语音,有利于提高电子设备在进行收录语音判断时的准确性,并提高了电子设备在进行语音数据生成时的智能性。
此外,电子设备可在多个含有关键词的语音数据中进行筛选,得到含有关键词的语音中的用法及规律,进而根据用法和规律得到缺失的信息片段,有利于电子设备进行确定语音缺失数据时的准确定和智能性。
与所述图2所示的实施例一致的,请参阅图4,图4是本申请实施例提供的一种语音数据生成方法的流程示意图,应用于电子设备,所述电子设备包括麦克风。如图所示,本语音数据生成方法包括:
S401,所述电子设备通过所述麦克风获取第一语音数据。
S402,所述电子设备检测所述第一语音数据的音色参数。
S403,所述电子设备根据所述声场变化信息确定所述电子设备的环境空间大小。
S404,所述电子设备查询第一预设数据库,确定所述第一预设数据库中与所述环境空间大小匹配的回音参数,所述第一预设数据库包括环境空间大小和回音参数的映射关系。
S405,所述电子设备查询将所述回音参数与预设的至少一个音色进行匹配,得到预设音色。
S406,所述电子设备将所述第一语音数据的音色参数与所述预设音色进行匹配,得到匹配值。
S407,所述电子设备若所述匹配值低于预设匹配值时,确定所述麦克风处于堵孔状态。
S408,所述电子设备通过所述预设模型确定所述第一语音数据的完整度。
S409,所述电子设备当所述完整度小于预设完整度时,提取所述第一语音数据中的关键字。
S410,所述电子设备根据所述关键字确定所述第一语音数据的数据缺失片段。
S411,所述电子设备根据所述数据缺失片段和所述第一语音数据生成所述目标语音数据。
可以看出,本申请实施例,电子设备首先通过所述麦克风获取第一语音数据,其次,根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态,最后,将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。可见,电子设备可通过解析收录语音的音色,准确判断收录的语音是否有缺失,进一步通过智能模型还原缺失的语音,有利于提高电子设备在语音生成过程中的智能性和准确性。
此外,电子设备可通过预设模型,对收录的语音进行检测,进而准确的判断出该语音是否有缺失的部分,若有,进一步的根据预设模型模拟出缺失的语音,最终形成完整的语音,有利于提高电子设备在进行收录语音判断时的准确性,并提高了电子设备在进行语音数据生成时的智能性。
此外,电子设备可根据超声波的特性确定预设音色,先确定当前电子设备的环境空间大小,由于环境空间大小能够收到发出声音的回音,进而得到基准音色,有利于提高电子设备在进行确定基准音色过程中的准确性和智能性。
与所述图2、图3、图4所示的实施例一致的,请参阅图5,图5是本申请实施例提供的一种电子设备500的结构示意图,如图所示,所述电子设备500包括应用处理器510、存储器520、通信接口530以及一个或多个程序521,其中,所述一个或多个程序521被存储在上述存储器520中,并且被配置由上述应用处理器510执行,所述一个或多个程序521包括用于执行以下步骤的指令;
通过所述麦克风获取第一语音数据;
根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态;
将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。
可以看出,本申请实施例中,电子设备首先通过所述麦克风获取第一语音数据,其次,根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态,最后,将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。可见,电子设备可通过解析收录语音的音色,准确判断收录的语音是否有缺失,进一步通过智能模型还原缺失的语音,有利于提高电子设备在语音生成过程中的智能性和准确性。
在一个可能的示例中,在所述将所述第一语音数据输入预设模型生成目标语音数据方面,所述程序中的指令具体用于执行以下操作:通过所述预设模型确定所述第一语音数据的完整度;当所述完整度小于预设完整度时,提取所述第一语音数据中的关键字;根据所述关键字确定所述第一语音数据的数据缺失片段;根据所述数据缺失片段和所述第一语音数据生成所述目标语音数据。
在一个可能的示例中,在所述通过所述预设模型确定所述第一语音数据的完整度方面,所述程序中的指令具体用于执行以下操作:将所述第一语音数据进行滤波处理,得到所述滤波处理后的所述第一语音数据的多个振幅参数;在所述多个振幅参数中筛选出低于预设振幅参数的至少一个目标振幅参数;根据所述至少一个目标振幅参数在所述多个振幅参数中的占比,得到所述第一语音数据的完整度。
在一个可能的示例中,在所述根据所述关键字确定所述第一语音数据的数据缺失片段方面,所述程序中的指令具体用于执行以下操作:获取历史语音记录中含有所述关键字的至少一条参考语音数据;在含有所述关键字的所述至少一条参考语音数据中,筛选出超过预设次数的至少一条语音数据,所述预设次数为所述关键词在每条语音数据中出现的次数;根据至少一条语音数据确定所述第一语音数据的数据缺失片段。
在一个可能的示例中,在所述根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态方面,所述程序中的指令具体用于执行以下操作:检测所述第一语音数据的音色参数;确定预设音色;将所述第一语音数据的音色参数与所述预设音色进行匹配,得到匹配值;若所述匹配值低于预设匹配值时,确定所述麦克风处于堵孔状态。
在一个可能的示例中,所述电子设备包括超声波传感器,所述超声波传感器用于产生声场,在所述确定预设音色方面,所述程序中的指令具体用于执行以下操作:根据所述声场变化信息确定所述电子设备的环境空间大小;查询第一预设数据库,确定所述第一预设数据库中与所述环境空间大小匹配的回音参数,所述第一预设数据库包括环境空间大小和回音参数的映射关系;将所述回音参数与预设的至少一个音色进行匹配,得到预设音色。
在一个可能的示例中,所述电子设备包括摄像头,在所述确定预设音色方面,所述程序中的指令具体用于执行以下操作:开启所述摄像头,采集人脸图像;识别所述人脸图像,得到人脸图像特征;提取所述人脸特征图像中的预设区域的特征点,所述预设区域为嘴巴所在的区域;查询第二预设数据库,确定所述第二预设数据库中与所述预设区域的特征点匹配的音色,所述第二预设数据库中包括预设区域的特征点和音色的映射关系。
上述实施例主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据所述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
下面为本发明装置实施例,本发明装置实施例用于执行本发明方法实施例所实现的方法。如图6所示的语音数据生成装置600,应用于电子设备,所述语音数据生成装置600包括获取单元601、确定单元602和生成单元603,其中,
所述获取单元601,用于通过所述麦克风获取第一语音数据;
所述确定单元602,用于根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态;
所述生成单元603,用于将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。
其中,所述语音数据生成装置还可以包括存储单元604,用于存储电子设备的程序代码和数据,存储单元604可以是存储器。
可以看出,本申请实施例中,电子设备首先通过所述麦克风获取第一语音数据,其次,根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态,最后,将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段。可见,电子设备可通过解析收录语音的音色,准确判断收录的语音是否有缺失,进一步通过智能模型还原缺失的语音,有利于提高电子设备在语音生成过程中的智能性和准确性。
在一个可能的示例中,在所述将所述第一语音数据输入预设模型生成目标语音数据方面,所述生成单元603具体用于:通过所述预设模型确定所述第一语音数据的完整度;当所述完整度小于预设完整度时,提取所述第一语音数据中的关键字;根据所述关键字确定所述第一语音数据的数据缺失片段;根据所述数据缺失片段和所述第一语音数据生成所述目标语音数据。
在一个可能的示例中,在所述通过所述预设模型确定所述第一语音数据的完整度方面,所述生成单元603具体用于:将所述第一语音数据进行滤波处理,得到所述滤波处理后的所述第一语音数据的多个振幅参数;在所述多个振幅参数中筛选出低于预设振幅参数的至少一个目标振幅参数;根据所述至少一个目标振幅参数在所述多个振幅参数中的占比,得到所述第一语音数据的完整度。
在一个可能的示例中,在所述根据所述关键字确定所述第一语音数据的数据缺失片段方面,所述生成单元603具体用于:获取历史语音记录中含有所述关键字的至少一条参考语音数据;在含有所述关键字的所述至少一条参考语音数据中,筛选出超过预设次数的至少一条语音数据,所述预设次数为所述关键词在每条语音数据中出现的次数;根据至少一条语音数据确定所述第一语音数据的数据缺失片段。
在一个可能的示例中,在所述根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态方面,所述确定单元602具体用于:检测所述第一语音数据的音色参数;确定预设音色;将所述第一语音数据的音色参数与所述预设音色进行匹配,得到匹配值;若所述匹配值低于预设匹配值时,确定所述麦克风处于堵孔状态。
在一个可能的示例中,所述电子设备包括超声波传感器,所述超声波传感器用于产生声场,在所述确定预设音色方面,所述确定单元602具体用于:根据所述声场变化信息确定所述电子设备的环境空间大小;查询第一预设数据库,确定所述第一预设数据库中与所述环境空间大小匹配的回音参数,所述第一预设数据库包括环境空间大小和回音参数的映射关系;将所述回音参数与预设的至少一个音色进行匹配,得到预设音色。
在一个可能的示例中,所述电子设备包括摄像头,在所述确定预设音色方面,所述确定单元602具体用于:开启所述摄像头,采集人脸图像;识别所述人脸图像,得到人脸图像特征;提取所述人脸特征图像中的预设区域的特征点,所述预设区域为嘴巴所在的区域;查询第二预设数据库,确定所述第二预设数据库中与所述预设区域的特征点匹配的音色,所述第二预设数据库中包括预设区域的特征点和音色的映射关系。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种语音数据生成方法,其特征在于,应用于电子设备,所述电子设备包括麦克风,所述方法包括:
通过所述麦克风获取第一语音数据;
根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态;
将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段;
其中,所述根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态包括:检测所述第一语音数据的音色参数;确定预设音色;将所述第一语音数据的音色参数与所述预设音色进行匹配,得到匹配值;若所述匹配值低于预设匹配值时,确定所述麦克风处于堵孔状态;
其中,
当所述电子设备包括超声波传感器,所述超声波传感器用于产生声场,所述确定预设音色,包括:根据所述声场变化信息确定所述电子设备的环境空间大小;查询第一预设数据库,确定所述第一预设数据库中与所述环境空间大小匹配的回音参数,所述第一预设数据库包括环境空间大小和回音参数的映射关系;将所述回音参数与预设的至少一个音色进行匹配,得到预设音色。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一语音数据输入预设模型生成目标语音数据,包括:
通过所述预设模型确定所述第一语音数据的完整度;
当所述完整度小于预设完整度时,提取所述第一语音数据中的关键字;
根据所述关键字确定所述第一语音数据的数据缺失片段;
根据所述数据缺失片段和所述第一语音数据生成所述目标语音数据。
3.根据权利要求2所述的方法,其特征在于,所述通过所述预设模型确定所述第一语音数据的完整度,包括:
将所述第一语音数据进行滤波处理,得到所述滤波处理后的所述第一语音数据的多个振幅参数;
在所述多个振幅参数中筛选出低于预设振幅参数的至少一个目标振幅参数;
根据所述至少一个目标振幅参数在所述多个振幅参数中的占比,得到所述第一语音数据的完整度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述关键字确定所述第一语音数据的数据缺失片段,包括:
获取历史语音记录中含有所述关键字的至少一条参考语音数据;
在含有所述关键字的所述至少一条参考语音数据中,筛选出超过预设次数的至少一条语音数据,所述预设次数为所述关键词在每条语音数据中出现的次数;
根据至少一条语音数据确定所述第一语音数据的数据缺失片段。
5.根据权利要求1所述的方法,其特征在于,所述电子设备包括摄像头,所述确定预设音色,包括:
开启所述摄像头,采集人脸图像;
识别所述人脸图像,得到人脸图像特征;
提取所述人脸特征图像中的预设区域的特征点,所述预设区域为嘴巴所在的区域;
查询第二预设数据库,确定所述第二预设数据库中与所述预设区域的特征点匹配的音色,所述第二预设数据库中包括预设区域的特征点和音色的映射关系。
6.一种语音数据生成方法,其特征在于,应用于电子设备,所述电子设备包括麦克风,所述方法包括:
通过所述麦克风获取第一语音数据;
根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态;
将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段;
其中,所述根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态包括:检测所述第一语音数据的音色参数;确定预设音色;将所述第一语音数据的音色参数与所述预设音色进行匹配,得到匹配值;若所述匹配值低于预设匹配值时,确定所述麦克风处于堵孔状态;
其中,当所述电子设备包括摄像头,所述确定预设音色,包括:开启所述摄像头,采集人脸图像;识别所述人脸图像,得到人脸图像特征;提取所述人脸特征图像中的预设区域的特征点,所述预设区域为嘴巴所在的区域;查询第二预设数据库,确定所述第二预设数据库中与所述预设区域的特征点匹配的音色,所述第二预设数据库中包括预设区域的特征点和音色的映射关系。
7.一种语音数据生成装置,其特征在于,应用于电子设备,所述电子设备包括麦克风,所述语音数据生成装置包括获取单元、确定单元和生成单元,其中,
所述获取单元,用于通过所述麦克风获取第一语音数据;
所述确定单元,用于根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态;
所述生成单元,用于将所述第一语音数据输入预设模型生成目标语音数据,所述预设模型用于预测所述第一语音数据的数据缺失片段;
其中,所述根据所述第一语音数据的音色参数确定所述麦克风处于堵孔状态包括:检测所述第一语音数据的音色参数;确定预设音色;将所述第一语音数据的音色参数与所述预设音色进行匹配,得到匹配值;若所述匹配值低于预设匹配值时,确定所述麦克风处于堵孔状态;
其中,
当所述电子设备包括超声波传感器,所述超声波传感器用于产生声场,所述确定预设音色,包括:根据所述声场变化信息确定所述电子设备的环境空间大小;查询第一预设数据库,确定所述第一预设数据库中与所述环境空间大小匹配的回音参数,所述第一预设数据库包括环境空间大小和回音参数的映射关系;将所述回音参数与预设的至少一个音色进行匹配,得到预设音色;
或者,
其中,当所述电子设备包括摄像头,所述确定预设音色,包括:开启所述摄像头,采集人脸图像;识别所述人脸图像,得到人脸图像特征;提取所述人脸特征图像中的预设区域的特征点,所述预设区域为嘴巴所在的区域;查询第二预设数据库,确定所述第二预设数据库中与所述预设区域的特征点匹配的音色,所述第二预设数据库中包括预设区域的特征点和音色的映射关系。
8.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。
9.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法。
CN201810816951.4A 2018-07-24 2018-07-24 语音数据生成方法及装置、电子装置和计算机可读存储介质 Active CN108831438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810816951.4A CN108831438B (zh) 2018-07-24 2018-07-24 语音数据生成方法及装置、电子装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810816951.4A CN108831438B (zh) 2018-07-24 2018-07-24 语音数据生成方法及装置、电子装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108831438A CN108831438A (zh) 2018-11-16
CN108831438B true CN108831438B (zh) 2021-01-08

Family

ID=64141167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810816951.4A Active CN108831438B (zh) 2018-07-24 2018-07-24 语音数据生成方法及装置、电子装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108831438B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58196822A (ja) * 1982-05-13 1983-11-16 Sumikin Coke Co Ltd 集塵装置の異常検出方法
CN102165521A (zh) * 2008-09-30 2011-08-24 苹果公司 多个麦克风切换和配置
CN105592394A (zh) * 2016-03-04 2016-05-18 南京迈宸科技有限公司 一种高灵敏拾音及定向扩音装置及其方法
CN105845138A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置
CN107393544A (zh) * 2017-06-19 2017-11-24 维沃移动通信有限公司 一种语音信号修复方法及移动终端
CN108650595A (zh) * 2018-07-24 2018-10-12 Oppo(重庆)智能科技有限公司 堵孔处理方法及相关产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4787298B2 (ja) * 2008-08-01 2011-10-05 株式会社日本自動車部品総合研究所 超音波式物体方位検出装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58196822A (ja) * 1982-05-13 1983-11-16 Sumikin Coke Co Ltd 集塵装置の異常検出方法
CN102165521A (zh) * 2008-09-30 2011-08-24 苹果公司 多个麦克风切换和配置
CN105592394A (zh) * 2016-03-04 2016-05-18 南京迈宸科技有限公司 一种高灵敏拾音及定向扩音装置及其方法
CN105845138A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置
CN107393544A (zh) * 2017-06-19 2017-11-24 维沃移动通信有限公司 一种语音信号修复方法及移动终端
CN108650595A (zh) * 2018-07-24 2018-10-12 Oppo(重庆)智能科技有限公司 堵孔处理方法及相关产品

Also Published As

Publication number Publication date
CN108831438A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN109670074B (zh) 一种节奏点识别方法、装置、电子设备及存储介质
CN105259459B (zh) 一种电子设备的自动化质检方法、装置和设备
WO2019020014A1 (zh) 解锁控制方法及相关产品
CN103546617B (zh) 一种声音调节的方法及终端
CN109493852A (zh) 一种语音识别的评测方法及装置
CN111343558B (zh) 麦克风堵孔检测方法及相关产品
CN109065017B (zh) 语音数据生成方法及相关装置
CN110515085A (zh) 超声波处理方法、装置、电子设备及计算机可读介质
CN110992963A (zh) 网络通话方法、装置、计算机设备及存储介质
CN109151148B (zh) 通话内容的记录方法、装置、终端及计算机可读存储介质
CN108881979B (zh) 信息处理方法、装置、移动终端及存储介质
CN109086796B (zh) 图像识别方法、装置、移动终端以及存储介质
CN106953962B (zh) 一种通话录音方法及装置
CN108965562B (zh) 语音数据生成方法及相关装置
CN111081275B (zh) 基于声音分析的终端处理方法、装置、存储介质及终端
CN109062648B (zh) 信息处理方法、装置、移动终端及存储介质
CN109121042B (zh) 语音数据处理方法及相关产品
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN108831438B (zh) 语音数据生成方法及装置、电子装置和计算机可读存储介质
CN108960213A (zh) 目标跟踪方法、装置、存储介质及终端
CN110188659B (zh) 健康检测方法及相关产品
CN108337371B (zh) 电子装置、跌落保护方法、装置及计算机可读存储介质
CN108650595B (zh) 堵孔处理方法、装置、电子设备及计算机可读存储介质
CN108513302B (zh) 识别伪基站的方法、装置以及移动终端
CN109040937A (zh) 麦克风堵塞提醒方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant