CN113345419A - 基于方言口音的语音转译方法、系统和可读存储介质 - Google Patents

基于方言口音的语音转译方法、系统和可读存储介质 Download PDF

Info

Publication number
CN113345419A
CN113345419A CN202110733654.5A CN202110733654A CN113345419A CN 113345419 A CN113345419 A CN 113345419A CN 202110733654 A CN202110733654 A CN 202110733654A CN 113345419 A CN113345419 A CN 113345419A
Authority
CN
China
Prior art keywords
accent
audio
dialect
target
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110733654.5A
Other languages
English (en)
Other versions
CN113345419B (zh
Inventor
赵泰龙
黄蔚
王圣竹
杨倩
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Power Grid Co Ltd
Original Assignee
Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Power Grid Co Ltd filed Critical Guangxi Power Grid Co Ltd
Priority to CN202110733654.5A priority Critical patent/CN113345419B/zh
Publication of CN113345419A publication Critical patent/CN113345419A/zh
Application granted granted Critical
Publication of CN113345419B publication Critical patent/CN113345419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开的一种基于方言口音的语音转译方法、系统和可读存储介质,其中方法包括:通过预设口音识别神经网络识别目标音频的初始口音;依据所述初始口音进行转译作业以获取目标译文;通过预设算法提取所述目标音频的音频人语速与音调;依据所述音频人语速与音调获取所述音频人的情绪结果并记录。本发明通过设置实验数据实验与验证数据验证得到初始口音,再根据设置的回归概率值的大小选择目标口音进行转译作业,保证了方言口音识别的准确率,进而保证了转译的正确率;同时可以实时采取客户的语速和音调,进而得到客户的情绪等级,便于客服人员采取针对性措施,提升客户满意度,降低投诉率。

Description

基于方言口音的语音转译方法、系统和可读存储介质
技术领域
本发明涉及语音转译技术领域,更具体的,涉及一种基于方言口音的语音转译方法、系统和可读存储介质。
背景技术
电力工业是国民经济的支柱产业,是服务于千家万户的公用事业,随着社会城市化的进展,经济大增速的环境下,我国电力工业也得以快速发展,较好的保障了全社会的用电需求,有力的支撑了经济社会的快速发展。
随着电力业务的不断扩大,带来的电力业务咨询业务也随着增多,电力是人民日常生活必备的物质,当人们家庭、公司或者工厂失去电力时,经常会通过拨打客服电话进行询问,往常都是通过客服人员接通电话一一记录电力事件的情况,导致处理效率低下,并且存在一些口音的差异导致沟通变缓或者记录出错的情况发生,尤其是面对一些情绪偏激的客户,在沟通上存在很多需要改进的地方。
发明内容
鉴于上述问题,本发明的目的是提供一种基于方言口音的语音转译方法、系统和可读存储介质,能够准确识别客户方言口音的类别,以保证转译的准确性进而进行记录,同时可以实时判别客户的情绪变化并记录。
本发明第一方面提供了一种基于方言口音的语音转译方法,包括以下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
本方案中,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
本方案中,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
从所述第一口音归属数据组中提取排序为前三位的口音数据库,记为
Figure DEST_PATH_IMAGE001
Figure 561401DEST_PATH_IMAGE002
以及
Figure DEST_PATH_IMAGE003
从所述第二口音归属数据组中提取排序为前三位的口音数据库,记为
Figure DEST_PATH_IMAGE005
Figure 605711DEST_PATH_IMAGE006
以及
Figure DEST_PATH_IMAGE007
识别数据组
Figure 380769DEST_PATH_IMAGE008
中相同的所述口音数据库并提取对应的所述回归概率值;
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
本方案中,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;
否则,则重新选择所述数据组
Figure 39284DEST_PATH_IMAGE008
中相同所述口音数据库的所述回归概率值差值最小的数据库作为所述目标口音进行转译作业得到所述目标译文。
本方案中,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
本方案中,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
本发明第二方面还提供一种基于方言口音的语音转译系统,包括存储器和处理器,所述存储器中包括基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
本方案中,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
本方案中,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
从所述第一口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 286244DEST_PATH_IMAGE001
Figure 321196DEST_PATH_IMAGE002
以及
Figure 888444DEST_PATH_IMAGE003
从所述第二口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 842493DEST_PATH_IMAGE005
Figure 432875DEST_PATH_IMAGE006
以及
Figure 68255DEST_PATH_IMAGE007
识别数据组
Figure 37479DEST_PATH_IMAGE008
中相同的所述口音数据库并提取对应的所述回归概率值;
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
本方案中,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;
否则,则重新选择所述数据组
Figure 303376DEST_PATH_IMAGE008
中相同所述口音数据库的所述回归概率值差值最小的数据库作为所述目标口音进行转译作业得到所述目标译文。
本方案中,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
本方案中,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被处理器执行时,实现如上述任一项所述的一种基于方言口音的语音转译方法的步骤。
本发明公开的一种基于方言口音的语音转译方法、系统和可读存储介质,通过设置实验数据实验与验证数据验证得到初始口音,再根据设置的回归概率值的大小选择目标口音进行转译作业,保证了方言口音识别的准确率,进而保证了转译的正确率;同时可以实时采取客户的语速和音调,进而得到客户的情绪等级,便于客服人员采取针对性措施,提升客户满意度,降低投诉率。
附图说明
图1示出了本申请一种基于方言口音的语音转译方法的流程图;
图2示出了本发明一种基于方言口音的语音转译系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本申请一种基于方言口音的语音转译方法的流程图。
如图1所示,本申请公开了一种基于方言口音的语音转译方法,包括以下步骤:
S102,通过预设口音识别神经网络识别目标音频的初始口音;
S104,依据所述初始口音进行转译作业以获取目标译文;
S106,通过预设算法提取所述目标音频的音频人语速与音调;
S108,依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
需要说明的是,对于不同客户的口音均有不同,尤其是涉及到一些客户的方言口音,在转译时,需要先识别口音的类型,例如普通话语系中的地方口音:四川话、闽南话这类口音,通过所述口音识别神经网络识别出具体的口音,以进行对应的转译作业,可以保证转译内容的准确性,进而保证客服业务数据记录的完整性;同时在客服与客户交流过程中,还可以通过识别客户语音的语速与音调来获取其情绪变化,并实时记录。
值得一提的是,在获取客户的情绪变化时,也可以获取客服的情绪变化,在新入职的客服人员的成长过程中,需要时刻关注其心理健康,在保证客服人员身心健康的基础上,进一步保证客服流水业务的合理正确进行。
具体地,所述获取客服的情绪变化具体步骤如下:
通过预设算法提取客服人员的音频语速与音调;
依据所述音频语速与音调识别所述客服人员的身份信息;
依据所述音频语速与音调获取所述客服人员的情绪结果并记录。
需要说明的是,提取到所述客服人员的音频后,根据音频的语速与音调获取所述客服人员的身份信息以及情绪变化,并将所述情绪变化记录到对应身份的所述客服人员的工作簿中,后续进行查验时,可以第一时间获取到所述客服人员的情绪波动,并根据具体情况进行解压或者督促。
根据本发明实施例,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
需要说明的是,识别口音需要一定的准确性,先截取所述目标音频在第一预设时间范围类的第一音频内容,从中提取对应的所述口音因子作为实验输入值,初步获取对应的所述第一口音归属数据组;然后再截取所述目标音频在第二预设时间范围类的第二音频内容,从中提取对应的所述口音因子作为验证输入值,以得到对应的所述第二口音归属数据组,采用先实验再验证的方式可以得到准确率高的口音识别,例如,当客户的方言口音为四川话时,所述口音因子包括对应的特殊词汇,如“锤子”、“老孩儿”等字眼及其对应的发音音调。
值得一提的是,对于一些方言口音类似的地区,有一些特殊词汇及其发音是很类似的,所以需要得到回归概率值递减的归属数据组,需要先得到方言的大类归属,再通过验证得到具体的口音来源,其中,所述回归概率值的计算公式如下:
Figure DEST_PATH_IMAGE009
其中,
Figure 771266DEST_PATH_IMAGE010
为所述回归概率值,
Figure DEST_PATH_IMAGE011
为所述口音因子的在文段中的占比,例如中国的云贵川地区,发音有些词汇是相近的,假设一个四川口音的客户打入电话时,首先得到的所述第一口音归属数据组为云贵川地区的方言,而不会是鄂豫皖地区的,再通过验证得到所述第二口音归属数据组,对比前后两个数据组的方言回归概率值,得出所述初始口音。
根据本发明实施例,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
从所述第一口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 413600DEST_PATH_IMAGE001
Figure 768489DEST_PATH_IMAGE012
以及
Figure 939707DEST_PATH_IMAGE003
从所述第二口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 301419DEST_PATH_IMAGE005
Figure 606498DEST_PATH_IMAGE006
以及
Figure 674948DEST_PATH_IMAGE007
识别数据组
Figure 79385DEST_PATH_IMAGE008
中相同的所述口音数据库并提取对应的所述回归概率值;
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
需要说明的是,假设所述第一口音归属数据组得到的为云贵川方言,即
Figure 7021DEST_PATH_IMAGE001
表示为四川方言,
Figure 459999DEST_PATH_IMAGE012
表示为贵州方言,
Figure 710851DEST_PATH_IMAGE003
表示为云南话;所述第二口音归属数据组得到的为贵川湘方言,即
Figure 348506DEST_PATH_IMAGE005
表示为贵州方言,
Figure 888072DEST_PATH_IMAGE006
表示为四川方言,
Figure 207058DEST_PATH_IMAGE007
表示为湘西方言,计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
根据本发明实施例,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;相同所述口音数据库的所述回归概率值差值最小的所述
否则,则重新选择所述数据组
Figure 122537DEST_PATH_IMAGE008
中相同所述口音数据库的所述回归概率值差值最小的数据库作为所述目标口音进行转译作业得到所述目标译文。
需要说明的是,通过计算概率和值得到所述初始口音的方法需要避免一种极端情况,即
Figure 72038DEST_PATH_IMAGE001
为四川方言对应的回归概率值为38%,
Figure 630058DEST_PATH_IMAGE006
为四川方言对应的回归概率值为88%,而客户真实的口音为贵州方言,但
Figure 815052DEST_PATH_IMAGE012
为贵州方言对应的回归概率值为62%,
Figure 774918DEST_PATH_IMAGE005
为贵州方言对应的回归概率值为63%,由于和值:
Figure DEST_PATH_IMAGE013
,会出现误判为四川方言,进而出现转译的不准确性,因此需要对应设置阈值限定,通过设置所述预设阈值为60%,来进一步确认所述目标口音。
根据本发明实施例,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
需要说明的是,口音识别神经网络需要大量的历史数据进行训练,数据量越大,则结果越准确。本申请中的口音识别神经网络可以通过历史时间的口音因子和口音类型信息作为输入进行训练,得到对应的准确率,当所述准确率高于预设的准确率阈值时,则停止训练以得到所述口音识别神经网络,其中,所述准确率阈值设置为85%。
根据本发明实施例,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
需要说明的是,加权后的方言标准语速与音调的计算公式如下:
Figure 442791DEST_PATH_IMAGE014
;
其中,
Figure DEST_PATH_IMAGE015
为所述标准语速与音调,
Figure 347162DEST_PATH_IMAGE016
为加权值,k为采集的客户人数,
Figure DEST_PATH_IMAGE017
表示为为第k个人的语速,
Figure 211212DEST_PATH_IMAGE018
表示为第k个人的音调。
进一步地,所述第一情绪表示该客户的情绪处于激动、偏激状态;所述第二情绪表示该客户的情绪处于失望、无助状态;所述第三情绪表示该客户的情绪并无明显波动。
图2示出了本发明一种基于方言口音的语音转译系统的框图。
如图2所示,本发明公开了一种基于方言口音的语音转译系统,包括存储器和处理器,所述存储器中包括基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
需要说明的是,对于不同客户的口音均有不同,尤其是涉及到一些客户的方言口音,在转译时,需要先识别口音的类型,例如普通话语系中的地方口音:四川话、闽南话这类口音,通过所述口音识别神经网络识别出具体的口音,以进行对应的转译作业,可以保证转译内容的准确性,进而保证客服业务数据记录的完整性;同时在客服与客户交流过程中,还可以通过识别客户语音的语速与音调来获取其情绪变化,并实时记录。
值得一提的是,在获取客户的情绪变化时,也可以获取客服的情绪变化,在新入职的客服人员的成长过程中,需要时刻关注其心理健康,在保证客服人员身心健康的基础上,进一步保证客服流水业务的合理正确进行。
具体地,所述获取客服的情绪变化具体步骤如下:
通过预设算法提取客服人员的音频语速与音调;
依据所述音频语速与音调识别所述客服人员的身份信息;
依据所述音频语速与音调获取所述客服人员的情绪结果并记录。
需要说明的是,提取到所述客服人员的音频后,根据音频的语速与音调获取所述客服人员的身份信息以及情绪变化,并将所述情绪变化记录到对应身份的所述客服人员的工作簿中,后续进行查验时,可以第一时间获取到所述客服人员的情绪波动,并根据具体情况进行解压或者督促。
根据本发明实施例,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
需要说明的是,识别口音需要一定的准确性,先截取所述目标音频在第一预设时间范围类的第一音频内容,从中提取对应的所述口音因子作为实验输入值,初步获取对应的所述第一口音归属数据组;然后再截取所述目标音频在第二预设时间范围类的第二音频内容,从中提取对应的所述口音因子作为验证输入值,以得到对应的所述第二口音归属数据组,采用先实验再验证的方式可以得到准确率高的口音识别,例如,当客户的方言口音为四川话时,所述口音因子包括对应的特殊词汇,如“锤子”、“老孩儿”等字眼及其对应的发音音调。
值得一提的是,对于一些方言口音类似的地区,有一些特殊词汇及其发音是很类似的,所以需要得到回归概率值递减的归属数据组,需要先得到方言的大类归属,再通过验证得到具体的口音来源,其中,所述回归概率值的计算公式如下:
Figure 104213DEST_PATH_IMAGE009
其中,
Figure 395517DEST_PATH_IMAGE010
为所述回归概率值,
Figure 928130DEST_PATH_IMAGE011
为所述口音因子的在文段中的占比,例如中国的云贵川地区,发音有些词汇是相近的,假设一个四川口音的客户打入电话时,首先得到的所述第一口音归属数据组为云贵川地区的方言,而不会是鄂豫皖地区的,再通过验证得到所述第二口音归属数据组,对比前后两个数据组的方言回归概率值,得出所述初始口音。
根据本发明实施例,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
从所述第一口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 720505DEST_PATH_IMAGE001
Figure 327067DEST_PATH_IMAGE012
以及
Figure 851589DEST_PATH_IMAGE003
从所述第二口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 950126DEST_PATH_IMAGE005
Figure 890401DEST_PATH_IMAGE006
以及
Figure 679365DEST_PATH_IMAGE007
识别数据组
Figure 702685DEST_PATH_IMAGE008
中相同的所述口音数据库并提取对应的所述回归概率值;
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
需要说明的是,假设所述第一口音归属数据组得到的为云贵川方言,即
Figure 147573DEST_PATH_IMAGE001
表示为四川方言,
Figure 859632DEST_PATH_IMAGE012
表示为贵州方言,
Figure 971944DEST_PATH_IMAGE003
表示为云南话;所述第二口音归属数据组得到的为贵川湘方言,即
Figure 635007DEST_PATH_IMAGE005
表示为贵州方言,
Figure 832770DEST_PATH_IMAGE006
表示为四川方言,
Figure 177163DEST_PATH_IMAGE007
表示为湘西方言,计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
根据本发明实施例,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;相同所述口音数据库的所述回归概率值差值最小的所述
否则,则重新选择所述数据组
Figure 753769DEST_PATH_IMAGE008
中相同所述口音数据库的所述回归概率值差值最小的数据库作为所述目标口音进行转译作业得到所述目标译文。
需要说明的是,通过计算概率和值得到所述初始口音的方法需要避免一种极端情况,即
Figure 525416DEST_PATH_IMAGE001
为四川方言对应的回归概率值为38%,
Figure 210476DEST_PATH_IMAGE006
为四川方言对应的回归概率值为88%,而客户真实的口音为贵州方言,但
Figure 420877DEST_PATH_IMAGE012
为贵州方言对应的回归概率值为62%,
Figure 242202DEST_PATH_IMAGE005
为贵州方言对应的回归概率值为63%,由于和值:
Figure 450330DEST_PATH_IMAGE013
,会出现误判为四川方言,进而出现转译的不准确性,因此需要对应设置阈值限定,通过设置所述预设阈值为60%,来进一步确认所述目标口音。
根据本发明实施例,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
需要说明的是,口音识别神经网络需要大量的历史数据进行训练,数据量越大,则结果越准确。本申请中的口音识别神经网络可以通过历史时间的口音因子和口音类型信息作为输入进行训练,得到对应的准确率,当所述准确率高于预设的准确率阈值时,则停止训练以得到所述口音识别神经网络,其中,所述准确率阈值设置为85%。
根据本发明实施例,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
需要说明的是,加权后的方言标准语速与音调的计算公式如下:
Figure 966893DEST_PATH_IMAGE014
;
其中,
Figure 856352DEST_PATH_IMAGE015
为所述标准语速与音调,
Figure 594500DEST_PATH_IMAGE016
为加权值,k为采集的客户人数,
Figure 770267DEST_PATH_IMAGE017
表示为为第k个人的语速,
Figure 164339DEST_PATH_IMAGE018
表示为第k个人的音调。
进一步地,所述第一情绪表示该客户的情绪处于激动、偏激状态;所述第二情绪表示该客户的情绪处于失望、无助状态;所述第三情绪表示该客户的情绪并无明显波动。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被处理器执行时,实现如上述任一项所述的一种基于方言口音的语音转译方法的步骤。
本发明公开的一种基于方言口音的语音转译方法和系统和可读存储介质,通过设置实验数据实验与验证数据验证得到初始口音,再根据设置的回归概率值的大小选择目标口音进行转译作业,保证了方言口音识别的准确率,进而保证了转译的正确率;同时可以实时采取客户的语速和音调,进而得到客户的情绪等级,便于客服人员采取针对性措施,提升客户满意度,降低投诉率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于方言口音的语音转译方法,其特征在于,包括以下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
2.根据权利要求1所述的一种基于方言口音的语音转译方法,其特征在于,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
3.根据权利要求2所述的一种基于方言口音的语音转译方法,其特征在于,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
从所述第一口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 147696DEST_PATH_IMAGE001
Figure 68247DEST_PATH_IMAGE002
以及
Figure 555860DEST_PATH_IMAGE003
从所述第二口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 312595DEST_PATH_IMAGE004
Figure 340594DEST_PATH_IMAGE005
以及
Figure 725439DEST_PATH_IMAGE006
识别数据组
Figure 774166DEST_PATH_IMAGE007
中相同的所述口音数据库并提取对应的所述回归概率值;
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
4.根据权利要求3所述的一种基于方言口音的语音转译方法,其特征在于,所述依据所述初始口音进行转译作业以获取目标译文,具体为:
分别判断两组口音数据库中所述初始口音的回归概率值与预设阈值的大小,其中,
若两组所述回归概率值均大于或等于预设阈值,则选择所述初始口音的口音数据库作为目标口音进行转译作业所述目标译文;
否则,则重新选择所述数据组
Figure 142830DEST_PATH_IMAGE007
中相同所述口音数据库的所述回归概率值差值最小的数据库作为所述目标口音进行转译作业得到所述目标译文。
5.根据权利要求1所述的一种基于方言口音的语音转译方法,其特征在于,所述口音识别神经网络的训练方法,具体为:
获取历史时间的口音因子和口音类型信息;
将所述历史时间的口音因子和口音类型信息进行预处理,得到训练样本集;
将所述训练样本集输入至初始化的所述口音识别神经网络中训练;
获取输出结果的准确率;
若所述准确率大于预设的准确率阈值,则停止训练,得到所述口音识别神经网络。
6.根据权利要求1所述的一种基于方言口音的语音转译方法,其特征在于,所述依据所述音频人语速与音调获取所述音频人的情绪结果并记录,具体为:
获取当前所述音频人的所属方言标准语速与音调并进行加权;
判断当前所述音频人语速与音调与加权后的方言标准语速与音调的关系;
其中,若所述音频人语速与音调均大于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第一情绪;
若所述音频人语速与音调均小于等于所述加权后的方言标准语速与音调,则所述音频人的情绪结果判断为第二情绪;
否则,所述音频人的情绪结果判断为第三情绪。
7.一种基于方言口音的语音转译系统,其特征在于,包括存储器和处理器,所述存储器中包括基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被所述处理器执行时实现如下步骤:
通过预设口音识别神经网络识别目标音频的初始口音;
依据所述初始口音进行转译作业以获取目标译文;
通过预设算法提取所述目标音频的音频人语速与音调;
依据所述音频人语速与音调获取所述音频人的情绪结果并记录。
8.根据权利要求7所述的一种基于方言口音的语音转译系统,其特征在于,所述通过预设口音识别神经网络识别目标音频的初始口音,具体为:
截取所述目标音频在第一预设时间范围类的第一音频内容;
提取所述第一音频内容的口音因子作为所述口音识别神经网络的实验输入值进行口音预识别,得到回归概率值递减的第一口音归属数据组;
截取所述目标音频在第二预设时间范围类的第二音频内容;
提取所述第二音频内容的口音因子作为所述口音识别神经网络的验证输入值进行口音再识别,得到回归概率值递减的第二口音归属数据组;
比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音。
9.根据权利要求8所述的一种基于方言口音的语音转译系统,其特征在于,所述比较所述第一口音归属数据组与所述第二口音归属数据组的内容以得到所述初始口音,具体为:
从所述第一口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 974520DEST_PATH_IMAGE001
Figure 354817DEST_PATH_IMAGE002
以及
Figure 449812DEST_PATH_IMAGE003
从所述第二口音归属数据组中提取排序为前三位的口音数据库,记为
Figure 164827DEST_PATH_IMAGE004
Figure 737891DEST_PATH_IMAGE005
以及
Figure 159645DEST_PATH_IMAGE006
识别数据组
Figure 760960DEST_PATH_IMAGE007
中相同的所述口音数据库并提取对应的所述回归概率值;
计算每组相同所述口音数据库的不同所述回归概率值的总和并降序排列,选择和值最大的所述口音数据库作为所述初始口音。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于方言口音的语音转译方法程序,所述基于方言口音的语音转译方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种基于方言口音的语音转译方法的步骤。
CN202110733654.5A 2021-06-30 2021-06-30 基于方言口音的语音转译方法、系统和可读存储介质 Active CN113345419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733654.5A CN113345419B (zh) 2021-06-30 2021-06-30 基于方言口音的语音转译方法、系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733654.5A CN113345419B (zh) 2021-06-30 2021-06-30 基于方言口音的语音转译方法、系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN113345419A true CN113345419A (zh) 2021-09-03
CN113345419B CN113345419B (zh) 2022-05-27

Family

ID=77481676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733654.5A Active CN113345419B (zh) 2021-06-30 2021-06-30 基于方言口音的语音转译方法、系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN113345419B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244023A (zh) * 2015-11-09 2016-01-13 上海语知义信息技术有限公司 课堂教学中教师情绪的提醒系统及方法
CN108877769A (zh) * 2018-06-25 2018-11-23 北京语言大学 识别方言种类的方法和装置
CN109327632A (zh) * 2018-11-23 2019-02-12 深圳前海微众银行股份有限公司 客服录音的智能质检系统、方法及计算机可读存储介质
JP2019023690A (ja) * 2017-07-24 2019-02-14 富士通株式会社 言語識別装置、言語識別方法、及び言語識別プログラム
CN110211565A (zh) * 2019-05-06 2019-09-06 平安科技(深圳)有限公司 方言识别方法、装置及计算机可读存储介质
CN110379445A (zh) * 2019-06-20 2019-10-25 深圳壹账通智能科技有限公司 基于情绪分析的业务处理方法、装置、设备及存储介质
US20200219492A1 (en) * 2019-01-09 2020-07-09 Samsung Electronics Co., Ltd. System and method for multi-spoken language detection
CN112233651A (zh) * 2020-10-10 2021-01-15 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
CN112349276A (zh) * 2020-12-03 2021-02-09 恒大新能源汽车投资控股集团有限公司 一种车载语音交互方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244023A (zh) * 2015-11-09 2016-01-13 上海语知义信息技术有限公司 课堂教学中教师情绪的提醒系统及方法
JP2019023690A (ja) * 2017-07-24 2019-02-14 富士通株式会社 言語識別装置、言語識別方法、及び言語識別プログラム
CN108877769A (zh) * 2018-06-25 2018-11-23 北京语言大学 识别方言种类的方法和装置
CN109327632A (zh) * 2018-11-23 2019-02-12 深圳前海微众银行股份有限公司 客服录音的智能质检系统、方法及计算机可读存储介质
US20200219492A1 (en) * 2019-01-09 2020-07-09 Samsung Electronics Co., Ltd. System and method for multi-spoken language detection
CN110211565A (zh) * 2019-05-06 2019-09-06 平安科技(深圳)有限公司 方言识别方法、装置及计算机可读存储介质
CN110379445A (zh) * 2019-06-20 2019-10-25 深圳壹账通智能科技有限公司 基于情绪分析的业务处理方法、装置、设备及存储介质
CN112233651A (zh) * 2020-10-10 2021-01-15 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
CN112349276A (zh) * 2020-12-03 2021-02-09 恒大新能源汽车投资控股集团有限公司 一种车载语音交互方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FRED RICHARDSON等: "Deep neural network approaches to speaker and language recognition", 《IEEE SIGNAL PROCESSING LETTERS》 *
潘复平等: "一种用于方言口音语音识别的字典自适应技术", 《计算机工程与应用》 *

Also Published As

Publication number Publication date
CN113345419B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN108737667B (zh) 语音质检方法、装置、计算机设备及存储介质
US8676586B2 (en) Method and apparatus for interaction or discourse analytics
CN109151218A (zh) 通话语音质检方法、装置、计算机设备及存储介质
CN109767787B (zh) 情绪识别方法、设备及可读存储介质
US8145482B2 (en) Enhancing analysis of test key phrases from acoustic sources with key phrase training models
CN110942229A (zh) 一种服务质量评价方法、装置、电子设备及存储介质
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
TW201935370A (zh) 從文字內容評核客戶服務品質之系統及方法
US11687946B2 (en) Systems and methods for detecting complaint interactions
CN109508402A (zh) 违规用语检测方法及装置
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
Kopparapu Non-linguistic analysis of call center conversations
CN116665676B (zh) 一种用于智能语音外呼系统的语义识别方法
CN109872714A (zh) 一种提高语音识别准确性的方法、电子设备及存储介质
CN112800743A (zh) 一种基于特定领域的语音打分模型构建系统及方法
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
CN113434670A (zh) 话术文本生成方法、装置、计算机设备和存储介质
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
CN113345419B (zh) 基于方言口音的语音转译方法、系统和可读存储介质
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
CN113555011A (zh) 电力行业客服中心语音转译建模方法、系统及介质
Pranto et al. Aims talk: Intelligent call center support in bangla language with speaker authentication
US12033163B2 (en) Systems and methods for detecting complaint interactions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant