CN110913073A - 一种语音处理方法及相关设备 - Google Patents

一种语音处理方法及相关设备 Download PDF

Info

Publication number
CN110913073A
CN110913073A CN201911189483.3A CN201911189483A CN110913073A CN 110913073 A CN110913073 A CN 110913073A CN 201911189483 A CN201911189483 A CN 201911189483A CN 110913073 A CN110913073 A CN 110913073A
Authority
CN
China
Prior art keywords
voice
signal
voice signal
terminal device
call
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911189483.3A
Other languages
English (en)
Inventor
刘俊微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Microphone Holdings Co Ltd
Shenzhen Transsion Holdings Co Ltd
Original Assignee
Shenzhen Microphone Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Microphone Holdings Co Ltd filed Critical Shenzhen Microphone Holdings Co Ltd
Priority to CN201911189483.3A priority Critical patent/CN110913073A/zh
Publication of CN110913073A publication Critical patent/CN110913073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72484User interfaces specially adapted for cordless or mobile telephones wherein functions are triggered by incoming communication events

Abstract

本发明实施例公开了一种语音处理方法及相关设备,所述方法应用于数据处理技术领域,包括:终端设备处于通话状态时,若该终端设备处于预设环境,获取该终端设备的语音信号;对语音信号进行修复处理,并输出修复处理后的语音信号。采用这样的语音处理方式,有利于提高弱信号环境或声音异常环境下终端设备的通话质量。

Description

一种语音处理方法及相关设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语音处理方法及相关设备。
背景技术
终端设备(例如手机)作为当前社会必不可少的通讯工具,通过通话功能就能做到即时通讯、及时通讯,完成信息的传递过程。在当前5G技术蓬勃发展的大环境下,5G网络商用化一触即发。但是,5G网络的建设却是一个漫长的过程,由于不同地区的基站信号覆盖情况具有差异性,在基站信号弱的地区,终端设备的通话质量较差或发生通话异常,严重影响用户使用。因此,如何提高终端设备在弱信号环境下的通话质量,成为一个亟待解决的问题。
发明内容
本发明实施例提供了一种语音处理方法及相关设备,可以提高弱信号环境下终端设备的通话质量。
第一方面本发明实施例提供一种语音处理方法,所述方法应用于终端设备,所述方法包括:
所述终端设备处于通话状态时,若所述终端设备处于预设环境,获取所述终端设备的语音信号;
对所述语音信号进行修复处理,并输出修复处理后的语音信号。
在一个实施例中,所述语音信号包括第一语音信号和/或第二语音信号。
在一个实施例中,所述对所述语音信号进行修复处理之前,还可以提取通话对方用户的语音特征信息,并基于所述语音特征信息生成所述通话对方用户的发音模型。
在一个实施例中,所述对所述语音信号进行修复处理的具体实施方式为:
对所述第一语音信号和所述第二语音信号进行语音识别,得到所述第一语音信息对应的第一文本信息和所述第二语音信号对应的第二文本信息;
基于所述第一文本信息和/或第二文本信息对所述第二文本信息进行修复处理,调用预设发音模型对所述修复处理后的第二文本信息进行语音转换。
在一个实施例中,所述对所述语音信号进行修复处理的具体实施方式为基于所述第一语音信号和/或第二语音信号和所述发音模型对所述第二语音信号进行修复处理。
在一个实施例中,所述提取通话对方用户的语音特征信息之前,还可以当所述语音信号发生通话断续或异常,则触发执行所述提取通话对方用户的语音特征信息的步骤。
在一个实施例中,所述当所述语音信号发生通话断续的具体实施方式为:
获取所述语音信号的频谱图;
当所述频谱图不连续,则确定所述语音信号发生通话断续。
在一个实施例中,所述提取通话对方用户的语音特征信息之前,还可以当所述语音信号发生语音失真,则触发执行所述提取通话对方用户的语音特征信息的步骤。
在一个实施例中,所述当所述语音信号发生语音失真的具体实施方式为:
获取所述语音信号的语音信号特征,所述语音信号特征包括语音信噪比参数、语音衰减系数和语音失真指数中的一种或多种;
当所述语音信号特征满足语音信号特征阈值条件,则确定所述语音信号发生语音失真。
在一个实施例中,所述方法还包括获取所述终端设备在网络传输中的数据包;根据所述数据包计算所述网络传输对应的网络特征值,所述网络特征值包括网络抖动率、网络丢包率和网络时延中的一种或多种;当所述网络特征值满足网络特征阈值条件,则判断所述语音信号发生语音失真。
在一个实施例中,所述预设环境包括弱信号环境,所述若判断出所述终端设备处于预设环境,则获取所述终端设备的语音信号之前,还可以依据所述终端设备接收信号的信号强度、信号质量、信号误码率和误帧率的一种或者多种判断所述终端设备是否处于所述弱信号环境。
第二方面,本发明实施例提供了一种语音处理装置,该语音处理装置包括用于执行上述第一方面方法的模块。
第三方面,本发明实施例提供了一种终端设备,该终端设备包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例中,终端设备处于通话状态时,若该终端设备处于预设环境,则获取终端设备的语音信号。进一步地,终端设备可以对语音信号进行修复处理,并输出修复处理后的语音信号。采用这样的语音处理方式,有利于提高弱信号环境或声音异常环境下终端设备的通话质量。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音处理方法的流程示意图;
图2是本发明实施例提供的另一种语音处理方法的流程示意图;
图3是本发明实施例提供的语音处理装置的示意性框图;
图4是本发明实施例提供的一种终端设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种语音处理方法的流程示意图,该方法应用于终端设备,可由终端设备设备执行,如图所示,该语音处理方法可包括:
S101:终端设备处于通话状态,若该终端设备处于预设环境,获取该终端设备的语音信号。
其中,预设环境可以为弱信号环境和声音异常环境中的一种或两种。弱信号环境是指终端设备的通讯网络信号小于预设通讯网络信号阈值时终端设备所处的环境,该预设通讯网络信号阈值由实验数据测算得到,后期可根据实际情况进行调整。声音异常环境是指检测到终端设备当前采集到的语音信号发生语音失真、或者语音信号对应的音量过高(例如大于第一预设音量阈值)、过低(例如小于第二预设音量阈值)等声音异常情形的环境。
在一个实施例中,预设环境包括弱信号环境时,终端设备可以检测自身的通话状态,在检测到处于通话状态时,依据接收信号的信号强度、信号质量、信号误码率和误帧率中的一种或者多种来判断终端设备是否处于弱信号环境。
在一个实施例中,终端设备可以在检测到自身处于通话状态后,通过自身的定位系统定位所处的位置区域,并根据该位置区域获取位置区域码和邻区位置区域码。进一步地,终端设备可以根据该位置区域码和邻区位置区域码获取该位置区域码对应的位置区域基站信息与该邻区位置区域码对应的邻区基站信息,进而根据该位置区域基站信息与该邻区基站信息,确定接收到的信号强度、信号质量、信号误码率和误帧率等数据。
其中,位置区域码可以为区域编码,例如001编码,用于唯一表征位置区域,并唯一对应运营商网络基站中的位置区域基站信息。
示例性地,终端设备通过自身的定位系统定位所处的位置区域,获得该位置区域的经纬度信息,并将该经纬度信息传送到第三方运营商平台中,查找该位置区域码和邻区位置区域码。进一步地,终端设备可以根据该位置区域码和邻区位置区域码,在第三方运营商平台上获得相应的位置区域基站信息和相应的邻区基站信息。进而,终端设备可以根据基站信号强度随距离变化的关系,计算出自身所在地接收到的位置区域基站信号强度和自身所在地接收到的邻区基站信号强度,并将该位置区域基站信号强度和该邻区基站信号强度进行叠加,确定自身接收到的信号强度。
在一个实施例中,终端设备可以依据接收到的信号强度与预设信号强度阈值进行对比,若对比得到该接收到的信号强度小于预设信号强度阈值,则确定该终端设备处于弱信号环境,获取该终端设备的语音信号。
在另一个实施例中,终端设备可以依据接收到的信号质量、误码率和误帧率来确定终端设备是否处于弱信号环境,针对这种情况,终端设备可以将接收到的信号质量与预设信号质量阈值、误码率与预设误码率阈值和误帧率与预设误帧率阈值进行对比,若对比得到该接收到的信号质量小于预设基站信号质量阈值、该误码率大于预设误码率阈值且该误帧率大于预设误帧率阈值,则确定该终端设备处于弱信号环境,获取该终端设备的语音信号。其中,上述预设信号强度阈值、预设信号质量阈值和预设误帧率阈值均为根据实验测算数据预先设置,后续可以根据实际需求进行调整。
S102:对上述语音信号进行修复处理,并输出修复后的语音信号。
在一个实施例中,上述语音信号包括第一语音信号和/或第二语音信号。针对这种情况,终端设备可以提取第一语音信号中自身的第一通话内容(即第一文本信息)和第二语音信号中通话对方用户的第二通话内容(即第二文本信息),并获取第二语音信号中通话对方用户的发音特点。进一步地,终端设备可以将断续的第二通话内容重组成完整语句,并将重组后的完整语句以音频方式展示给用户,从而减少由于通话断续而引起的重要信息丢失的问题,提高弱信号环境下终端设备的通话质量。
其中,第一语音信号是指用户通过该终端设备上传的语音信号,第二语音信号是指在终端设备处于通话状态时,通话对方用户传输至该终端设备的语音信号。例如,用户A和用户B进行通话,对于用户A而言,第一语音信号即是用户A通过终端设备上传的语音信号,第二语音信号即是用户B通过终端设备传送给用户A的语音信号。
示例性地,用户A通过终端设备发出“早上你吃的什么?”的第一语音信号,随后通话对方用户B发出“我…早…吃…苹…”的第二语音信号。终端设备采用语音识别技术,提取第一语音信号中自身的第一通话内容为“早上你吃的什么”和第二语音信号中通话对方用户B的第二通话内容为“我…早…吃…苹…”,并获取通话对方用户B的发音特点。进一步地,终端设备结合第一通话内容“早上你吃的什么”可以将断续的第二通话内容“我…早…吃…苹…”重组成完整语句“我早上吃的苹果”,并将该完整语句以音频的方式输出展示给用户A。
在另一个实施例中,终端设备在检测到自身处于通话状态时,获取语音信号,该语音信号包括通话状态时的第一语音信号和第二语音信号。进一步地,终端设备可以对第二语音信号进行检测,检测该第二语音信号是否发生声音异常的情况,若检测到该第二语音信号发生声音异常,则对上述语音信号进行修复处理,并输出修复后的语音信号。若终端设备未检测到该第二语音信号发生声音异常,则继续对第二语音信号进行检测,在检测到该第二语音信号发生声音异常时,对上述语音信号进行修复处理,并输出修复后的语音信号,以此类推,直至本次通话结束。
本申请实施例中,终端设备在检测到自身处于通话状态时,判断自身正处于预设环境,则获取通话状态时终端设备的语音信号。进一步地,终端设备对该语音信号进行修复处理,输出修复后的语音信号。采用这种语音处理的方式,可以减少由于通话断续而引起的重要信息丢失的问题,提高弱信号环境或声音异常环境下终端设备的通话质量。
参见图2,图2是本发明实施例提供的另一种语音处理方法的示意图,该方法应用于终端设备,可由终端设备执行,如图所示,该语音处理方法可包括:
S201:终端设备处于通话状态时,若该终端设备处于预设环境,获取该终端设备的第一语音信号和/或第二语音信号。
其中,步骤S201的具体实施方式可以参见上述实施例步骤S101的具体描述,此处不再赘述。
S202:从该第二语音信号中提取通话对方用户的语音特征信息,并基于该语音特征信息生成通话对方用户的发音模型。
其中,该语音特征信息包括音色特征、音调特征、响度特征等等。
在一个实施例中,可以将该语音特征信息输入到预设的发音模型中,触发该发音模型根据上述语音特征信息进行模型参数学习更新,生成通话对方用户的发音模型。其中,预设的发音模型可以是机器学习模型、深度学习神经网络等通过实验数据库中的语音信号数据训练构建得到。
在一个实施例中,终端设备可以在从该下行语音信号中提取通话对方用户的语音特征之前,可以判断上述第二语音信号是否发生通话断续或异常,若检测到第二语音信号发生通话断续或异常,则触发执行从该第二语音信号中提取通话对方用户的语音特征信息的步骤。
若检测到第二语音信号未发生通话断续或异常,则结束本次语音处理流程,继续对第二语音信号进行检测,在检测到该第二语音信号发生通话断续或异常时,执行后续的语音处理步骤S202-S203,并输出修复后的语音信号,以此类推,直至本次通话结束。采用这种语音处理方式,在弱信号环境下未发生通话断续的情况下,停止执行后续的语音处理步骤,以减小终端设备的计算量,从而减轻计算压力。
在一个实施例中,终端设备可以获取该第二语音信号的频谱图,判断该第二语音信号频谱图是否连续,当该频谱图不连续,则确定该第二语音信号发生通话断续。
或者,若该频谱图连续,则确定该第二语音信号未发生通话断续,停止执行后续的本次语音处理步骤,并继续对通话过程中第二语音信号的频谱图进行判断,若该第二语音信号发生通话断续,则执行后续的语音处理步骤S202-S203,并输出修复后的语音信号,以此类推,直至本次通话结束。
在一个实施例中,终端设备可以在提取通话对方用户的语音特征之前,可以判断上述第二语音信号是否发生语音失真,若判断出第二语音信号发生语音失真,则触发执行从该第二语音信号中提取通话对方用户的语音特征信息的步骤。应当理解的是,语音失真为声音异常中的一种情形。
若检测到第二语音信号未发生语音失真,则结束本次语音处理流程,继续对第二语音信号进行检测,在检测到该第二语音信号发生语音失真时,执行后续的语音处理步骤S202-S203,并输出修复后的语音信号,以此类推,直至本次通话结束。采用这种语音处理方式,在弱信号环境下未发生语音失真的情况下,停止执行后续的语音处理步骤,以减小终端设备的计算量,从而减轻计算压力。
在一个实施例中,终端设备可以获取该第二语音信号的语音信号特征,该语音信号特征包括语音信噪比参数、语音衰减系数和语音失真指数中的一种或多种,当该语音信号特征满足语音信号特征阈值条件,则确定该第二语音信号发生语音失真。
或者,若语音信号特征满足语音信号特征阈值条件,则确定该第二语音信号未发生语音失真,停止执行后续的本次语音处理步骤,并继续对通话过程中第二语音信号的语音信号特征进行判断,若该第二语音信号发生语音失真,则执行后续的语音处理步骤S202-S203,并输出修复后的语音信号,以此类推,直至本次通话结束。
其中,语音信号特征阈值条件可以为语音信噪比参数小于预设信噪比阈值,语音衰减系数大于预设衰减系数阈值和语音失真指数大于预设失真指数阈值的一种情况或多种情况。语音信噪比参数可根据语音信号的输出与语音信号中噪声来获得,语音衰减系数是对语音信号衰减的量化,语音失真指数是对语音失真程度的度量。上述预设信噪比阈值、预设衰减系数阈值和预设失真指数阈值均为根据实验测算数据预先设置,后续可以根据实际需求进行调整。
在一个实施例中,终端设备可以获取自身在网络传输中的数据包,根据上述数据包计算网络传输对应的网络特征值,其中,网络特征值包括网络抖动率、网络丢包率和网络时延中的一种或多种。若该网络特征值满足网络特征阈值条件,则判断语音信号发生语音失真。
其中,网络丢包率可以通过计算丢失的数据包占所发送数据包的比率获得。网络抖动率可以根据任意两个相邻数据包延迟时间差与数据包序号差计算获得。网络时延可以根据数据包的接收时间和发送时间之差计算获得。网络特征阈值条件可以为网络抖动率大于预设抖动率阈值、网络丢包率大于预设丢包率阈值和网络时延大于预设网络时延中的一种情况或多种情况。上述预设抖动率阈值、预设丢包率阈值和预设网络时延均为根据实验测算数据预先设置,后续可以根据实际需求进行调整。
S203:基于该第一语音信号和/或第二语音信号和该发音模型对第二语音信号进行修复处理,并输出修复处理后的语音信号。
在一个实施例中,终端设备处于预设环境时,获取该终端设备的第二语音信号,从该第二语音信号中提取通话对方用户的语音特征信息,并基于该语音特征信息生成通话对方用户的发音模型。基于第二语音信号和该发音模型对第二语音信号进行修复处理,并输出修复处理后的语音信号。
示例性地,用户A通过终端设备发出“早上你吃的什么?”的第一语音信号,随后通话对方用户B发出“我早上吃的苹…”的第二语音信号。终端设备采用语音识别技术,提取第二语音信号中通话对方用户B的第二通话内容为“我早上吃的苹…”,并获取通话对方用户B的发音特点。进一步地,终端设备结合词典中的词库,将第二通话内容“我早上吃的苹…”重组成完整语句“我早上吃的苹果”,并将该完整语句以音频的方式输出展示给用户A。
在一个实施例中,终端设备对第一语音信号和第二语音信号进行语音识别,得到第一语音信号对应的第一文本信息和第二语音信号对应的第二文本信息,并基于该第一文本信息对该第二文本信息进行修复处理,得到修复处理后的第二文本信息。进一步地,终端设备可以调用预设发音模型对修复处理后的第二文本信息进行语音转换,并输出修复后的语音信号。其中,预设发音模型可以为通用发音模型或上述通话对方用户的发音模型,通用发音模型是指基于预设数据库中语音数据的语音特征信息生成的发音模型,该预设数据库由至少一人的语音数据组成。
在一个实施例中,在得到该第一语音信号对应的第一文本信息与该第二语音信号对应的第二文本信息之后,终端设备可以对第一文本信息和第二文本信息进行分词处理,并计算得到第一文本信息对应的第一语义向量和第二文本信息对应的第二语义向量。进一步地,终端设备通过计算第一语义向量与第二语义向量的关联性,得到关联性矩阵,并基于该关联性矩阵和预设的文本预测模型对第二文本信息进行修复处理,得到修复后的第二文本信息。
其中,预设的文本预测模型是根据实验数据库训练得到预设的文本预测模型是机器学习模型、深度学习神经网络等通过实验数据库中的文本语句训练构建得到的。第一语义向量表征了第一文本信息中各个分词之间的语义结构关系,第二语义向量表征了第二文本信息中各个分词之间的语义结构关系。
在一个实施例中,得到修复处理后的第二文本信息后,可以对该修复后处理的第二文本信息进行分词处理,得到至少一个分词,并对该至少一个分词中的各个分词进行词性标注,确定各个分词的词向量。进一步地,可以将对各个分词的词性标注结果和各个分词的词向量输入到预设发音模型中,得到修复后的语音信号。
在一个实施例中,上述预设环境包括声音异常环境,终端设备在检测到自身处于通话状态时,获取通话状态时的第二语音信号,从第二语音信号中提取通话对方用户的语音特征信息,并基于该语音特征信息生成通话对方用户的发音模型。进一步地,终端设备可以通过检测第二语音信号是否发生声音异常,判断终端设备是否处于声音异常环境。若判断出终端设备处于声音异常环境,则结合上述发音模型,对第二语音信号进行修复处理,并输出修复处理后的语音信号。
在一个实施例中,可以检测到第二语音信号中的音量、音调、音色中的一种或多种异于通话对方用户的发音模型中的音量、音调、音色中的一种或多种时,判断第二语音信号发生声音异常,进而确定终端设备处于声音异常环境。
示例性地,用户A和用户B进行通话时,终端设备检测到自身正处于通话状态,获取通话状态时用户B发出的语音信号(即第二语音信号),进一步地,终端设备从第二语音信号中提取用户B的音量特征信息、音调特征信息和音色特征信息,并基于用户B的音量特征信息、音调特征信息和音色特征信息生成用户B的发音模型。终端设备检测到第二语音信号中的音调的相关参数值与发音模型的音调特征信息的相关参数值之间的差值大于预设差值,则根据用户B的发音模型中的音调特征信息参数对第二语音信号进行修复处理,并输出修复处理后的第二语音信号。
本申请实施例中,终端设备在检测到自身处于通话状态时,若该终端设备处于预设环境,则获取通话状态时该终端设备的第一语音信号和第二语音信号。终端设备从该第二语音信号中提取通话对方用户的语音特征信息,并基于该语音特征信息生成所述通话对方用户的发音模型。进一步地,终端设备基于该第一语音信号和/或第二语音信号和该发音模型对第二语音信号进行修复处理,并输出修复后的语音信号。采用这样的语音处理方式,可以有利于提高弱信号环境或声音异常环境下终端设备的通话质量,并减轻该终端设备的计算压力。
本发明实施例还提供了一种语音处理装置,该装置包括执行前述图1和图2所述的方法的模块,配置于终端设备,具体的参见图3,是本发明实施例提供的语音处理装置的示意图。本实施例的语音处理装置包括:
处理模块30,用于所述终端设备处于通话状态,若所述终端设备处于预设环境;
获取模块31,用于获取所述终端设备的语音信号;
所述处理模块30,还用于对所述语音信号进行修复处理;
输出模块32,用于输出所述处理模块30修复处理后的语音信号。
在一个实施例中,所述处理模块30,还用于在检测到所述终端设备处于通话状态时,定位所述终端设备所处的位置区域,根据所述位置区域获取位置区域码与邻区位置区域码;根据所述位置区域码与所述邻区位置区域码,获取所述位置区域码对应的位置区域基站信息与所述邻区位置区域码对应的邻区基站信息;根据所述位置区域基站信息与所述邻区基站信息,确定接收到的信号数据。
在一个实施例中,所述处理模块30,还用于提取通话对方用户的语音特征信息,并基于所述语音特征信息生成所述通话对方用户的发音模型。
在一个实施例中,所述处理模块30,具体还用于对所述第一语音信号和所述第二语音信号进行语音识别,得到所述第一语音信号对应的第一文本信息和所述第二语音信号对应的第二文本信息;基于所述第一文本信息和/或第二文本信息对所述第二文本信息进行修复处理,调用预设发音模型对所述修复处理后的第二文本信息进行语音转换。
在一个实施例中,所述处理模块30,还用于基于所述第一语音信号和/或第二语音信号和所述发音模型对所述第二语音信号进行修复处理。
在一个实施例中,所述处理模块30,还用于当所述语音信号发生通话断续或异常,则触发执行所述从所述语音信号中提取通话对方用户的语音特征信息的步骤。
在一个实施例中,所述处理模块30,还用于获取所述语音信号的频谱图;当所述频谱图不连续,则确定所述语音信号发生通话断续。
在一个实施例中,所述处理模块30,还用于当所述语音信号发生语音失真,则触发执行所述提取通话对方用户的语音特征信息的步骤。
在一个实施例中,所述处理模块30,还用于获取所述语音信号的语音信号特征,所述语音信号特征包括语音信噪比参数、语音衰减系数和语音失真指数中的一种或多种;当所述语音信号特征满足语音信号特征阈值条件,则确定所述语音信号发生语音失真。
在一个实施例中,所述处理模块30,还用于获取所述终端设备在网络传输中的数据包;根据所述数据包计算所述网络传输对应的网络特征值,所述网络特征值包括网络抖动率、网络丢包率和网络时延中的一种或多种;当所述网络特征值满足网络特征阈值条件,则判断所述语音信号发生语音失真。
在一个实施例中,所述处理模块30,还用于对所述修复处理后的第二文本信息进行分词处理,得到至少一个分词;对所述至少一个分词中的各个分词进行词性标注,并确定所述各个分词的词向量;将对所述各个分词的词性标注结果和所述各个分词的词向量输入到所述预设发音模型中,得到修复后的语音信号。
在一个实施例中,所述预设环境包括弱信号环境,所述处理模块30,还用于依据所述终端设备接收信号的信号强度、基站信号质量、误码率和误帧率中的一种或者多种判断所述终端设备是否处于所述弱信号环境。
需要说明的是,本发明实施例所描述的语音处理装置的各功能模块的功能可根据图1或者图2所述的方法实施例中的方法具体实现,其具体实现过程可以参照图1或者图2的方法实施例的相关描述,此处不再赘述。
请参见图4,图4是本发明提供的一种终端设备的示意性框图。该终端设备可以包括处理器401、存储器402、输入设备403和输出设备404。上述处理器401、存储器402、输入设备403和输出设备404可通过总线或其他方式连接,在本发明实施例所示图4中以通过总线连接为例。其中,输入设备403和输出设备404受所述处理器的控制用于收发消息,存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。其中,处理器401被配置用于调用所述程序指令执行:所述终端设备处于通话状态时,若所述终端设备处于预设环境,获取所述终端设备的语音信号;对所述语音信号进行修复处理,并输出修复处理后的语音信号。
在一个实施例中,所述处理器401,还用于在检测到所述终端设备处于通话状态时,定位所述终端设备所处的位置区域,根据所述位置区域获取位置区域码与邻区位置区域码;根据所述位置区域码与所述邻区位置区域码,获取所述位置区域码对应的位置区域基站信息与所述邻区位置区域码对应的邻区基站信息;根据所述位置区域基站信息与所述邻区基站信息,确定基站信号数据。
在一个实施例中,所述处理器401,还用于提取通话对方用户的语音特征信息,并基于所述语音特征信息生成所述通话对方用户的发音模型。
在一个实施例中,所述处理器401,还用于对所述第一语音信号和所述第二语音信号进行语音识别,得到所述第一语音信号对应的第一文本信息和所述第二语音信号对应的第二文本信息;基于所述第一文本信息和/或第二文本信息对所述第二文本信息进行修复处理,调用所述发音模型对所述修复处理后的第二文本信息进行语音转换。
在一个实施例中,所述处理器401,还用于基于所述第一语音信号和/或第二语音信号和所述发音模型对所述第二语音信号进行修复处理。
在一个实施例中,所述处理器401,还用于当所述语音信号发生通话断续或异常,则触发执行所述提取通话对方用户的语音特征信息的步骤。
在一个实施例中,所述处理器401,还用于获取所述语音信号的频谱图;当所述频谱图不连续,则确定所述语音信号发生通话断续。
在一个实施例中,所述处理器401,还用于当所述语音信号发生语音失真,则触发执行所述从所述语音信号中提取通话对方用户的语音特征信息的步骤。
在一个实施例中,所述处理器401,还用于获取所述语音信号的语音信号特征,所述语音信号特征包括语音信噪比参数、语音衰减系数和语音失真指数中的一种或多种;当所述语音信号特征满足语音信号特征阈值条件,则确定所述语音信号发生语音失真。
在一个实施例中,所述处理器401,还用于获取所述终端设备在网络传输中的数据包;根据所述数据包计算所述网络传输对应的网络特征值,所述网络特征值包括网络抖动率、网络丢包率和网络时延中的一种或多种;当所述网络特征值满足网络特征阈值条件,则判断所述语音信号发生语音失真。
在一个实施例中,所述处理器401,还用于对所述修复处理后的第二文本信息进行分词处理,得到至少一个分词;对所述至少一个分词中的各个分词进行词性标注,并确定所述各个分词的词向量;将对所述各个分词的词性标注结果和所述各个分词的词向量输入到所述预设发音模型中,得到修复后的语音信号。
在一个实施例中,所述预设环境包括弱信号环境,所述处理器401,还用于依据所述终端设备接收信号的信号强度、信号质量、信号误码率和误帧率中的一种或者多种判断所述终端设备是否处于所述弱信号环境。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器401还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立a硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。该输入设备403可以包括触控板、指纹采传感器(用于采集用户的指纹信息)、麦克风、实体键盘等,输出设备404可以包括显示器(LCD等)、扬声器等。
具体实现中,本发明实施例中所描述的处理器401、存储器402、输入设备403和输出设备404可执行本发明实施例提供的图1或者图2所述的方法实施例所描述的实现方式,也可执行本发明实施例所描述的语音处理装置的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:所述终端设备处于通话状态,若所述终端设备处于预设环境,获取所述终端设备的语音信号;对所述语音信号进行修复处理,并输出修复处理后的语音信号。
所述计算机可读存储介质可以是前述任一实施例所述的终端设备的内部存储单元,例如终端设备的硬盘或内存。所述计算机可读存储介质也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (12)

1.一种语音处理方法,其特征在于,所述方法应用于终端设备,所述方法包括:
所述终端设备处于通话状态,若所述终端设备处于预设环境,获取所述终端设备的语音信号;
对所述语音信号进行修复处理,并输出修复处理后的语音信号。
2.根据权利要求1所述方法,其特征在于,所述语音信号包括第一语音信号和/或第二语音信号。
3.根据权利要求1所述方法,其特征在于,所述对所述语音信号进行修复处理之前,所述方法还包括:
提取通话对方用户的语音特征信息,并基于所述语音特征信息生成所述通话对方用户的发音模型。
4.根据权利要求2所述方法,其特征在于,所述对所述语音信号进行修复处理,包括:
对所述第一语音信号和所述第二语音信号进行语音识别,得到所述第一语音信号对应的第一文本信息和所述第二语音信号对应的第二文本信息;
基于所述第一文本信息和/或第二文本信息对所述第二文本信息进行修复处理,调用预设发音模型对所述修复处理后的第二文本信息进行语音转换。
5.根据权利要求2或权利要求4所述方法,其特征在于,所述对所述语音信号进行修复处理,包括:
基于所述第一语音信号和/或第二语音信号和所述发音模型对所述第二语音信号进行修复处理。
6.根据权利要求3所述的方法,其特征在于,所述提取通话对方用户的语音特征信息之前,所述方法还包括:
当所述语音信号发生通话断续或异常或语音失真,则触发执行所述提取通话对方用户的语音特征信息的步骤。
7.根据权利要求6所述方法,其特征在于,所述当所述语音信号发生通话断续,包括:
获取所述语音信号的频谱图;
当所述频谱图不连续,则确定所述语音信号发生通话断续。
8.根据权利要求6所述方法,其特征在于,所述当所述语音信号发生语音失真,包括:
获取所述语音信号的语音信号特征,所述语音信号特征包括语音信噪比参数、语音衰减系数和语音失真指数中的一种或多种;
当所述语音信号特征满足语音信号特征阈值条件,则确定所述语音信号发生语音失真。
9.根据权利要求6所述方法,其特征在于,所述方法还包括:
获取所述终端设备在网络传输中的数据包;
根据所述数据包计算所述网络传输对应的网络特征值,所述网络特征值包括网络抖动率、网络丢包率和网络时延中的一种或多种;
当所述网络特征值满足网络特征阈值条件,则判断所述语音信号发生语音失真。
10.根据权利要求1所述方法,其特征在于,所述预设环境包括弱信号环境,所述若所述终端设备处于预设环境,获取所述终端设备的语音信号之前,所述方法还包括:
依据所述终端设备接收到的信号强度、信号质量、信号误码率和误帧率中的一种或者多种判断所述终端设备是否处于所述弱信号环境。
11.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-10任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-10任一项所述的方法。
CN201911189483.3A 2019-11-27 2019-11-27 一种语音处理方法及相关设备 Pending CN110913073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911189483.3A CN110913073A (zh) 2019-11-27 2019-11-27 一种语音处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911189483.3A CN110913073A (zh) 2019-11-27 2019-11-27 一种语音处理方法及相关设备

Publications (1)

Publication Number Publication Date
CN110913073A true CN110913073A (zh) 2020-03-24

Family

ID=69820076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911189483.3A Pending CN110913073A (zh) 2019-11-27 2019-11-27 一种语音处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN110913073A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111629164A (zh) * 2020-05-29 2020-09-04 联想(北京)有限公司 一种视频录制生成方法及电子设备
CN111970255A (zh) * 2020-07-31 2020-11-20 中国移动通信集团江苏有限公司 通话下行质差位置的确定方法、装置及设备
CN113840034A (zh) * 2021-11-29 2021-12-24 荣耀终端有限公司 声音信号处理方法和终端设备
WO2022135237A1 (zh) * 2020-12-25 2022-06-30 华为技术有限公司 语音处理方法、终端设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038610A (zh) * 2013-03-08 2014-09-10 中兴通讯股份有限公司 一种通话语音调整方法及装置
CN107277237A (zh) * 2017-06-08 2017-10-20 努比亚技术有限公司 语音质量调节方法、移动终端及可读存储介质
CN107393544A (zh) * 2017-06-19 2017-11-24 维沃移动通信有限公司 一种语音信号修复方法及移动终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038610A (zh) * 2013-03-08 2014-09-10 中兴通讯股份有限公司 一种通话语音调整方法及装置
CN107277237A (zh) * 2017-06-08 2017-10-20 努比亚技术有限公司 语音质量调节方法、移动终端及可读存储介质
CN107393544A (zh) * 2017-06-19 2017-11-24 维沃移动通信有限公司 一种语音信号修复方法及移动终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111629164A (zh) * 2020-05-29 2020-09-04 联想(北京)有限公司 一种视频录制生成方法及电子设备
CN111970255A (zh) * 2020-07-31 2020-11-20 中国移动通信集团江苏有限公司 通话下行质差位置的确定方法、装置及设备
CN111970255B (zh) * 2020-07-31 2022-08-12 中国移动通信集团江苏有限公司 通话下行质差位置的确定方法、装置及设备
WO2022135237A1 (zh) * 2020-12-25 2022-06-30 华为技术有限公司 语音处理方法、终端设备及存储介质
CN113840034A (zh) * 2021-11-29 2021-12-24 荣耀终端有限公司 声音信号处理方法和终端设备

Similar Documents

Publication Publication Date Title
CN110913073A (zh) 一种语音处理方法及相关设备
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
US9571638B1 (en) Segment-based queueing for audio captioning
US9666186B2 (en) Voice identification method and apparatus
US9679555B2 (en) Systems and methods for measuring speech signal quality
CN104885438A (zh) 监视声学回声消除的性能的系统和方法
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
CN103578468A (zh) 一种语音识别中置信度阈值的调整方法及电子设备
MX2008016354A (es) Deteccion de una maquina contestadora utilizando reconocimiento de dialogo.
CN108833722A (zh) 语音识别方法、装置、计算机设备及存储介质
WO2015034633A1 (en) Method for non-intrusive acoustic parameter estimation
KR101944416B1 (ko) 영상 통화 분석 서비스를 제공하기 위한 방법 및 그 전자 장치
CN103391347A (zh) 一种自动录音的方法及装置
CN108039181A (zh) 一种声音信号的情感信息分析方法和装置
CN111341333B (zh) 噪声检测方法、噪声检测装置、介质及电子设备
US20200075013A1 (en) Transcription presentation
CN111326159B (zh) 一种语音识别方法、装置、系统
CN105791602B (zh) 音质测试方法及系统
CN113393844B (zh) 一种语音质检的方法、装置及网络设备
WO2007091462A1 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
CN112133324A (zh) 通话状态检测方法、装置、计算机系统和介质
CN107154996B (zh) 来电拦截方法、装置、存储介质及终端
US9355643B2 (en) Evaluation of the voice quality of a coded speech signal
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination