CN115440205A - 语音处理方法、装置、终端以及程序产品 - Google Patents
语音处理方法、装置、终端以及程序产品 Download PDFInfo
- Publication number
- CN115440205A CN115440205A CN202110629095.3A CN202110629095A CN115440205A CN 115440205 A CN115440205 A CN 115440205A CN 202110629095 A CN202110629095 A CN 202110629095A CN 115440205 A CN115440205 A CN 115440205A
- Authority
- CN
- China
- Prior art keywords
- voice
- emotion
- voice data
- characteristic parameter
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 230000008451 emotion Effects 0.000 claims abstract description 88
- 239000013598 vector Substances 0.000 claims abstract description 75
- 230000004044 response Effects 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000015654 memory Effects 0.000 claims description 18
- 230000008909 emotion recognition Effects 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000036651 mood Effects 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 230000003993 interaction Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种语音处理方法、装置、终端以及程序产品,属于语音分析技术领域。本发明语音处理方法包括以下步骤:在检测到用户开始输入语音时,获取用户输入的当前语音数据;对语音数据进行预处理,获得多个声音特征参数向量;对所有声音特征参数向量聚类处理,获得当前语音数据所属的情绪类别;根据情绪类别,从预设应答库中筛选出当前语音数据对应的应答信息。本发明可以准确的对营销人员的语气进行识别从而做出符合该语气的应答,使得该应答场景较为贴合业务人员谈单时候的交谈环境,进而提高业务人员的服务质量。
Description
技术领域
本发明涉及语音分析技术领域,尤其涉及一种语音处理方法、装置、终端以及程序产品。
背景技术
相关技术中,营销人员的话术培训可通过语音交互类业务话术培训程序产品实现,通过语音识别培训人员输入的话语,然后智能语音播放相应的应答文本。
但是,该类语音交互类业务话术培训程序产品仅仅具有简单的应答功能,话术培训与实际发生的营销人员和客户的实际谈单情况相差较远。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音处理方法、装置、终端以及程序产品,旨在解决现有语音交互与实际情况不符的技术问题。
为实现上述目的,第一方面,本发明提供一种语音处理方法,所述语音处理方法包括以下步骤:
在检测到用户开始输入语音时,获取用户输入的当前语音数据;
对语音数据进行预处理,获得多个声音特征参数向量;
对所有声音特征参数向量聚类处理,获得当前语音数据所属的情绪类别;
根据情绪类别,从预设应答库中筛选出当前语音数据对应的应答信息。
在一实施例中,对所有声音特征参数向量聚类处理,获得当前语音数据所属的情绪类别的步骤包括:
对所有声音特征参数向量进行分组处理,以得到多个声音特征参数向量原始组;
通过期望最大化算法对所有声音特征参数向量原始组进行聚类处理,获得预设数量个情绪聚类组;
通过高斯混合模型对所有情绪聚类组进行处理,获得每个情绪聚类组对应的概率分布值;
将所有概率分布值中的最大值的情绪类别确定为当前语音数据所属的情绪类别。
在一实施例中,通过高斯混合模型对所有情绪聚类组,获得每个情绪聚类组对应的概率分布值的步骤,包括:
通过第一预设公式计算得到每种情绪聚类组中特征参数向量的高斯分布概率密度;
第一预设公式为:
其中,bi(x)为当前语音数据中第i组情绪聚类组中特征参数向量的高斯分布概率密度,μi为第i组情绪聚类组中所有特征参数向量的均值向量;∑i为第i组情绪聚类组中所有特征参数向量的协方差矩阵;|∑i|为∑i的行列式的值,为∑i的逆矩阵;
基于所有情绪类别的高斯分布概率密度和第二预设公式,获得每个情绪聚类组对应的概率分布值;
第二预设公式为:
其中,M为预设数量;x为当前语音数据中的特征参数向量;pi为第i组情绪聚类组的权重;λ为一个高斯模型,p为每个情绪聚类组对应的概率分布值。
在一实施例中,对语音数据进行预处理,获得多个声音特征参数向量的步骤之后,方法还包括:
基于所有声音特征向量,识别出语音数据的语义文本;
根据情绪类别,从预设应答库中筛选出当前语音数据对应的应答信息的步骤,包括:
根据情绪类别与语义文本,从预设应答库中筛选出当前语音数据对应的应答信息。
在一实施例中,基于所有声音特征向量,识别出语音数据的语义文本的步骤,包括:
构建语音数据的特征参数序列;
将特征参数序列与预设语音数据库中所有语音模板的特征参数序列模板进行匹配,得到特征参数序列所属的目标语音模板;
将目标语音模板的语义文本作为语音数据对应的语义文本。
在一实施例中,根据情绪类别与语义文本,从预设应答库中筛选出当前语音数据对应的应答信息的步骤之后,方法还包括:
通过预先训练的隐马尔可夫模型对应答信息进行处理,得到应答信息的上下文标注文件;
将上下文标准文件合成为应答语音,并输出至用户。
在一实施例中,对语音数据进行预处理,获得多个声音特征参数向量的步骤,包括:
对语音数据进行预处理,获得多帧语音片段;
从每帧语音片段进行特征提取处理,获得多个声音特征向量。
第二方面,本发明还提供了一种语音处理装置,包括:
语音获取模块,用于在检测到用户开始输入语音时,获取用户输入的当前语音数据;
语音预处理模块,用于对语音数据进行预处理,获得多个声音特征参数向量;
情绪识别模块,用于对所有声音特征参数向量聚类处理,获得当前语音数据所属的情绪类别;
应答信息确定模块,用于根据情绪类别,从预设应答库中筛选出前语音数据对应的应答信息。
第三方面,本发明还提供了一种语音处理终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的语音处理程序,语音处理程序配置为实现如上述的方法的步骤。
第四方面,本发明还提供了一种计算机程序产品,包括可执行的程序代码,其中,程序代码在由处理器执行时执行如上述的方法。
本发明实施例提出的一种语音处理方法,通过对当前语音数据预处理得到的所有声音特征参数向量进行聚类处理,得到当前语音数据所属的情绪类别,从而提高了本语音处理终端的交互水平,并可以准确的对营销人员的语气进行识别从而做出符合该语气的应答,使得该应答场景较为贴合业务人员谈单时候的交谈环境,进而提高业务人员的服务质量。
附图说明
图1为本发明语音处理终端一实施例的结构示意图;
图2为本发明语音处理方法第一实施例的流程示意图;
图3为本发明语音处理方法第一实施例的步骤S102的细化流程示意图;
图4为本发明语音处理方法第一实施例的步骤S103细化流程示意图;
图5为本发明语音处理方法第二实施例的流程示意图;
图6为本发明语音处理方法第二实施例的步骤S203的细化流程示意图;
图7为本发明语音处理装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相关技术中,营销人员的话术培训主要采用互联网形式或者进行人工培训与测试。互联网形式使用账号登陆,通过触摸屏或者鼠标进行答题。人工培训与测试形式则是通过人教人,使用专业的培训人员对移动业务人员进行一对一或一对多的培训和考察。互联网形式即可通过语音交互类业务话术培训程序产品实现,通过语音识别培训人员输入的话语,然后智能语音播放相应的应答文本。
但是,该类语音交互类业务话术培训程序产品交互性差,仅仅具有简单的应答功能,话术培训与实际发生的营销人员和客户的实际谈单情况相差较远。
为此,本发明实施例提供了一种语音处理方法,通过语音情绪识别,可以准确的对营销人员的语气进行识别从而做出相应的回应,克服了简单的答题交互缺乏对营销人员态度的培训的缺陷,进而提高了业务人员的服务质量。
下面结合一些具体实施例进一步阐述本申请的发明构思。
本发明提供一种语音处理方法第一实施例。参阅图2,图2示出了本发明语音处理方法第一实施例的流程示意图。
本实施例中,语音处理方法包括以下步骤:
步骤S101、在检测到用户开始输入语音时,获取用户输入的当前语音数据。
具体而言,检测语音处理终端的系统权限是否开启。系统权限开启后,语音处理终端的麦克风接收营销人员按照培训的固定的话术句式输入的当前语音数据。
如系统检测麦克风是否有声音,如果有声音,则将声音保存成音频文件保存至本地缓存中,如果没有声音,则继续等待语音输入。语音输入结束30s后没有语音继续输入,则语音输入结束。
步骤S102、对语音数据进行预处理,获得多个声音特征参数向量。
在一具体实施例中,参阅图3,步骤S102包括:
步骤A10、对语音数据进行预处理,获得多帧语音片段。
具体而言,预处理包括加重、分帧加窗以及端点识别等语音信号预处理过程。
对当前语音数据的高频分量进行预加重处理使得频谱变得平坦,以便于声道参数分析。其中,使用带通滤波器加重处理公式为:
y(n)=x(n)-αx(n-1);
其中,x(n)为初始信号序列,y(n)为预加重后序列,α为预加重系数,如可取0.98或1。
数字化的语音按照数组数据存储到终端的数据区,语音信号使用队列来循环提取这些数据。为了有限容量处理长时间的语音数据,还须对语音进行分帧处理,每帧时长可取10ms-30ms之间。
对取出的语音拍片段进行加窗处理,以防止出现截断效应。加窗后的语音Sw(n):Sw(n)=S(n)×w(n),其中w(n)为海明窗的高频衰减特征公式,具体为:
N为窗的长度。
然后使用谱熵法端点检测对语音片段进行增强,得到增强后的语音片段。
具体而言,将当前语音数据的频谱分为若干个频谱子带,求出每一帧子带的谱熵,以消除每一条谱线负值被背景噪音影响的问题。且谱熵的计算中引入常量K到概率分布,得到新的子带能量的概率分布密度,计算出新的子带谱熵,提高语音和噪音的区分度。
步骤A20、从每帧语音片段进行特征提取处理,获得多个声音特征向量。
每帧语音片段均通过小维度向量简洁的表示出来,即为声音特征向量。
步骤S103、对所有声音特征参数向量聚类处理,获得当前语音数据所属的情绪类别。
该步骤中,根据当前语音数据所属的情绪类别即可判断得到营销人员的当前沟通的情绪以及说话时的语气,从而可提供交互性更强的业务培训。
具体而言,参阅图4,步骤S103包括以下步骤:
步骤B10、对所有声音特征参数向量进行分组处理,以得到多个声音特征参数向量原始组。
步骤B20、通过期望最大化算法对所有声音特征参数向量原始组进行聚类处理,获得预设数量个情绪聚类组。
多个声音特征参数向量原始组的数量可大于或者等于4。该每个原数组中包括的声音特征参数向量的数量可不一致。
通过EM算法对多个声音特征参数向量原始组进行迭代处理,消去原数组中成分中声音特征参数向量的数量较少的那些原始组,使原数组之间逐步合并,直至减少到预设数量个,如减少到4个情绪聚类组,即4类情绪。
步骤B30、通过高斯混合模型对所有情绪聚类组进行处理,获得每个情绪聚类组对应的概率分布值。
具体而言,通过第一预设公式计算得到每种情绪聚类组中特征参数向量的高斯分布概率密度;
第一预设公式为:
其中,bi(x)为当前语音数据中第i组情绪聚类组中特征参数向量的高斯分布概率密度,μi为第i组情绪聚类组中所有特征参数向量的均值向量;∑i为第i组情绪聚类组中所有特征参数向量的协方差矩阵;|∑i|为∑i的行列式的值,为∑i的逆矩阵;
基于所有情绪类别的高斯分布概率密度和第二预设公式,获得每个情绪聚类组对应的概率分布值;
第二预设公式为:
其中,M为预设数量;x为当前语音数据中的特征参数向量;pi为第i组情绪聚类组的权重;λ为一个高斯模型,p为每个情绪聚类组对应的概率分布值。
步骤B40、将所有概率分布值中的最大值的情绪类别确定为当前语音数据所属的情绪类别。
步骤S104、根据情绪类别,从预设应答库中筛选出当前语音数据对应的应答信息。
预设应答库存储有培训和测试所需要的试题等资料。预设应答库检测情绪识别的结果,与预先设置情绪进行匹配,匹配成功,则返回对应的文件。其中,预设应答库可存储至终端内,还可存储至云端。
本实施例中,通过上述步骤,通过语音情绪识别部分对进行测试的业务人员的语音情绪进行识别,从而做出相应的回应,提高业务人员处理各种突发场景的能力。使得用户在使用语音交互类业务话术培训程序产品时,不在是单纯的问答工具,而是实现了人机交互,提高了用户的体验的同时,帮助用户学习各种场景下的话术,并帮助用户管理自身情绪。本实施例还可精准定位业务人员水平,在此基础上因材施教、量身定制系统课程,不同水平的移动业务人员进行不同水平的业务培训和测试。
在本发明一种语音处理方法第一实施例的基础上,提出本发明一种语音处理方法第二实施例。参阅图5,图5示出了本发明语音处理方法第二实施例的流程示意图。
本实施例中,语音处理方法包括以下步骤:
步骤S201、在检测到用户开始输入语音时,获取用户输入的当前语音数据。
步骤S202、对语音数据进行预处理,获得多个声音特征参数向量。
步骤S203、基于所有声音特征向量,识别出语音数据的语义文本。
该步骤用于识别出用户输入的当前语音数据表达的语义信息,即该当前语音数据对应的文本,以帮助终端作出正确的应答。
具体而言,步骤S203包括:
步骤C10、构建语音数据的特征参数序列。
可通过所有声音特征向量的时间戳构建语音数据的特征参数序列。
步骤C20、将特征参数序列与预设语音数据库中所有语音模板的特征参数序列模板进行匹配,得到特征参数序列所属的目标语音模板。
步骤C30、将目标语音模板的语义文本作为语音数据对应的语义文本。
具体而言,将特征参数序列与预设语音数据库中的所有语音模板的特征参数序列模板采用模式匹配算法逐一比对,找出相似度匹配最高的特征参数序列模板作为语音识别的初步结果。
本实施例中还可对初步结果进行语义矫正,若存在个别字错误,可根据实际语义进行纠正,作为最终识别结果。
其中,预设语音数据库可通过对标准模板语音段特征参数的逐一采集构建而成。且本实施例中,还可用相同方法获取不同方言的预设语音数据库。预设语音数据库进行扩展包含多种方言,可以在培训时进行语言选择,实时更新文件资料,满足客户日益丰富的业务需求。
本实施例中,通过语音识别部分已经将语音转化为了计算机可以识别的字符串,可使用正则表达式提取字符串中的关键字。根据正则表达式的规则,设置如下正则表达式将XX提取出来,XX为系统需要获取的关键字。
如,在一具体场景中,正则表达式可表示为:
(?<=(“您要办理”))[.\\s\\S]*?(?=(“业务”))
其中:\s为匹配任何空白字符;\S为匹配任何非空白字符;*为出现零次或更多次,等效于{0,};?为没有发生次或一次,?是{0,1}的缩写。
步骤S204、对所有声音特征参数向量聚类处理,获得当前语音数据所属的情绪类别。
步骤S205、根据情绪类别与语义文本,从预设应答库中筛选出当前语音数据对应的应答信息。
该步骤中,将提取的关键字和情绪识别的情绪类别上传到预设应答库,预设应答库中存储有培训和测试所需要的试题等资料。预设应答库检测上传到关键字和情绪识别的结果,与预先设置好的关键字和情绪进行匹配,匹配成功,则返回对应的文件,即应答信息。
步骤S206、通过预先训练的HMM隐马尔可夫模型对应答信息进行处理,得到应答信息的上下文标注文件。
本步骤中,将应答信息输入至HMM模型,结合词典输出上下文标注文件。
HMM模型可通过下述方法训练得到:
(1)将汉语因素(声母、韵母加声调)作为系统的合成基元,同时加入表示静音和停顿的合成基元,选取涵盖大量汉语语言特征的文本语料建立语料库。
(2)对文本语料的上下文语境进行上下文信息标注。
如标注格式为:
音素层:p1*p2-p3+p4=p5;
其中p3表示当前的音素,p2表示p3的前一个音素,p1表示p2的前一个音素,p4表示p3的后一个音素,p5表示p4的后一个音素。
音节层:a1_a2_a3;
其中a2表示当前音节的音调,a1表示a2前一个音节的音调,a3表示a2后一个音节的音调。
字层:b1_b2;
其中b1为当前字到段落开始字的距离,b2为当前字到段落结束字的距离
韵律层:c1_c2;
其中c1为当前字在前词中的位置,c2为当前词的字数
词组层:d1_d2_d3;
其中d2为当前词的词性,d1为前接词的词性,d3为后接词的词性
语气层:c;f;
其中c为句子的总字数,f为句子的语气类型。
(3)通过专业设备和专业人员对上下文信息标注后的文本语料进行录音。再将wav格式的录音数据通过开源语音格式转换软件FFmpeg转换为raw格式的语音文件。具体而言,标注可通过通过标注工具Praat进行。
(4)利用单音素的语音标注文件通过HTK工具包的Hlnit命令来对模型进行初始化,并使用HRest命令对初始化的HMM模型进行估计和训练,得到预先训练好的HMM模型。
步骤S207、将上下文标准文件合成为应答语音,并输出至用户。
具体而言,本步骤可利用HTK工具包的HHEd命令流将上下文标注文件进行分析和模型预测,找出HTK工具包中对应的最佳匹配模型,再将最佳匹配模型通过HTK工具包中的HMGens命令流转换为单高斯混合密度的语音参数序列,最后通过语音合成器输出应答语音,通过扬声器输出至用户。
本实施例中,使用训练的HMM模型来模拟语音的产生,增强了语音产生过程中的局部平稳性,体现了语音信号在各个时间的状态转移特性。而且本实施例利用的是基于参数合成的方法,合成的语音连贯,自然度高,并且可以对合成的语音进行个性化的设置,比如合成语音的发音风格、韵律特性等,可拓展性很强。
此外,本发明还提供了一种语音处理装置第一实施例,包括:
语音获取模块10,用于在检测到用户开始输入语音时,获取用户输入的当前语音数据;
语音预处理模块20,用于对语音数据进行预处理,获得多个声音特征参数向量;
情绪识别模块30,用于对所有声音特征参数向量聚类处理,获得当前语音数据所属的情绪类别;
应答信息确定模块40,用于根据情绪类别,从预设应答库中筛选出前语音数据对应的应答信息。
在一实施例中,情绪识别模块30包括:
初分组单元,用于对所有声音特征参数向量进行分组处理,以得到多个声音特征参数向量原始组;
期望最大化算法单元,用于通过期望最大化算法对所有声音特征参数向量原始组进行聚类处理,获得预设数量个情绪聚类组;
高斯混合模型单元,用于通过高斯混合模型对所有情绪聚类组进行处理,获得每个情绪聚类组对应的概率分布值;
结果确定单元,用于将所有概率分布值中的最大值的情绪类别确定为当前语音数据所属的情绪类别。
在一实施例中,高斯混合模型单元用于通过第一预设公式计算得到每种情绪聚类组中特征参数向量的高斯分布概率密度;
第一预设公式为:
其中,bi(x)为当前语音数据中第i组情绪聚类组中特征参数向量的高斯分布概率密度,μi为第i组情绪聚类组中所有特征参数向量的均值向量;∑i为第i组情绪聚类组中所有特征参数向量的协方差矩阵;|∑i|为∑i的行列式的值,为∑i的逆矩阵;
基于所有情绪类别的高斯分布概率密度和第二预设公式,获得每个情绪聚类组对应的概率分布值;
第二预设公式为:
其中,M为预设数量;x为当前语音数据中的特征参数向量;pi为第i组情绪聚类组的权重;λ为一个高斯模型,p为每个情绪聚类组对应的概率分布值。
在一实施例中,语音处理装置还包括:
语义识别模块,用于基于所有声音特征向量,识别出语音数据的语义文本;
情绪识别模块,还用于根据情绪类别与语义文本,从预设应答库中筛选出当前语音数据对应的应答信息。
在一实施例中,语义识别模块包括:
序列构建单元,用于构建语音数据的特征参数序列;
目标匹配单元,用于将特征参数序列与预设语音数据库中所有语音模板的特征参数序列模板进行匹配,得到特征参数序列所属的目标语音模板;
语义文本确定模块,用于将目标语音模板的语义文本作为语音数据对应的语义文本。
在一些实施例中,语音处理装置还包括:
上下文标注文件生成单元,用于
通过预先训练的隐马尔可夫模型对应答信息进行处理,得到应答信息的上下文标注文件;
语音合成输出单元,用于将上下文标准文件合成为应答语音,并输出至用户。
本发明语音处理装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
参照图1,图1为本发明实施例方案涉及的语音处理方法的推荐语音处理终端的结构示意图。
该语音处理终端包括:至少一个处理器301、存储器302以及存储在存储器上并可在处理器上运行的语音处理程序,语音处理程序配置为实现如前的语音处理方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的语音处理方法。
语音处理终端还包括有:通信接口303、扬声器304以及播放器305。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。
通信接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
扬声器304用于接收用户输入的语音数据,播放器305用于播放应当语音。
本领域技术人员可以理解,图1中示出的结构并不构成对语音处理终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,本发明实施例还提出一种计算机程序产品,所述计算机程序产品上存储有语音处理程序,所述计算机程序产品程序被处理器执行时实现如上文所述的计算机程序产品方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音处理方法,其特征在于,所述语音处理方法包括以下步骤:
在检测到用户开始输入语音时,获取用户输入的当前语音数据;
对所述语音数据进行预处理,获得多个声音特征参数向量;
对所有所述声音特征参数向量聚类处理,获得所述当前语音数据所属的情绪类别;
根据所述情绪类别,从预设应答库中筛选出所述当前语音数据对应的应答信息。
2.根据权利要求1所述的语音处理方法,其特征在于,所述对所有所述声音特征参数向量聚类处理,获得所述当前语音数据所属的情绪类别的步骤包括:
对所有所述声音特征参数向量进行分组处理,以得到多个声音特征参数向量原始组;
通过期望最大化算法对所有所述声音特征参数向量原始组进行聚类处理,获得预设数量个情绪聚类组;
通过高斯混合模型对所有所述情绪聚类组进行处理,获得每个情绪聚类组对应的概率分布值;
将所有所述概率分布值中的最大值所述的情绪类别确定为所述当前语音数据所属的情绪类别。
3.根据权利要求2所述的语音处理方法,其特征在于,所述通过高斯混合模型对所有所述情绪聚类组,获得每个情绪聚类组对应的概率分布值的步骤,包括:
通过第一预设公式计算得到每种情绪聚类组中特征参数向量的高斯分布概率密度;
所述第一预设公式为:
其中,bi(x)为当前语音数据中第i组情绪聚类组中特征参数向量的高斯分布概率密度,μi为第i组情绪聚类组中所有所述特征参数向量的均值向量;∑i为第i组情绪聚类组中所有所述特征参数向量的协方差矩阵;|∑i|为∑i的行列式的值,为∑i的逆矩阵;
基于所有所述情绪类别的高斯分布概率密度和第二预设公式,获得所述每个情绪聚类组对应的概率分布值;
所述第二预设公式为:
其中,M为所述预设数量;x为所述当前语音数据中的特征参数向量;pi为第i组情绪聚类组的权重;λ为一个高斯模型,p为所述每个情绪聚类组对应的概率分布值。
4.根据权利要求1所述的语音处理方法,其特征在于,所述对所述语音数据进行预处理,获得多个声音特征参数向量的步骤之后,所述方法还包括:
基于所有所述声音特征向量,识别出所述语音数据的语义文本;
所述根据所述情绪类别,从预设应答库中筛选出所述当前语音数据对应的应答信息的步骤,包括:
根据所述情绪类别与所述语义文本,从预设应答库中筛选出所述当前语音数据对应的应答信息。
5.根据权利要求4所述的语音处理方法,其特征在于,所述基于所有所述声音特征向量,识别出所述语音数据的语义文本的步骤,包括:
构建所述语音数据的特征参数序列;
将所述特征参数序列与预设语音数据库中所有语音模板的特征参数序列模板进行匹配,得到所述特征参数序列所属的目标语音模板;
将所述目标语音模板的语义文本作为所述语音数据对应的语义文本。
6.根据权利要求4所述的语音处理方法,其特征在于,所述根据所述情绪类别与所述语义文本,从预设应答库中筛选出所述当前语音数据对应的应答信息的步骤之后,所述方法还包括:
通过预先训练的隐马尔可夫模型对所述应答信息进行处理,得到所述应答信息的上下文标注文件;
将所述上下文标准文件合成为应答语音,并输出至所述用户。
7.根据权利要求1至6任一项所述的语音处理方法,其特征在于,所述对所述语音数据进行预处理,获得多个声音特征参数向量的步骤,包括:
对所述语音数据进行预处理,获得多帧语音片段;
从每帧所述语音片段进行特征提取处理,获得多个声音特征向量。
8.一种语音处理装置,其特征在于,包括:
语音获取模块,用于在检测到用户开始输入语音时,获取用户输入的当前语音数据;
语音预处理模块,用于对所述语音数据进行预处理,获得多个声音特征参数向量;
情绪识别模块,用于对所有所述声音特征参数向量聚类处理,获得所述当前语音数据所属的情绪类别;
应答信息确定模块,用于根据所述情绪类别,从预设应答库中筛选出所述前语音数据对应的应答信息。
9.一种语音处理终端,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理程序,所述语音处理程序配置为实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机程序产品,其特征在于,包括可执行的程序代码,其中,所述程序代码在由处理器执行时执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629095.3A CN115440205A (zh) | 2021-06-04 | 2021-06-04 | 语音处理方法、装置、终端以及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110629095.3A CN115440205A (zh) | 2021-06-04 | 2021-06-04 | 语音处理方法、装置、终端以及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115440205A true CN115440205A (zh) | 2022-12-06 |
Family
ID=84239778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110629095.3A Pending CN115440205A (zh) | 2021-06-04 | 2021-06-04 | 语音处理方法、装置、终端以及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115440205A (zh) |
-
2021
- 2021-06-04 CN CN202110629095.3A patent/CN115440205A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11929059B2 (en) | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
CN109313892B (zh) | 稳健的语言识别方法和系统 | |
CN110706690A (zh) | 语音识别方法及其装置 | |
CN107972028B (zh) | 人机交互方法、装置及电子设备 | |
CN112581963B (zh) | 一种语音意图识别方法及系统 | |
CN113327574B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
CN106971721A (zh) | 一种基于嵌入式移动设备的地方口音语音识别系统 | |
CN113539239B (zh) | 语音转换方法、装置、存储介质及电子设备 | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
CN113053409B (zh) | 音频测评方法及装置 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
Ajayi et al. | Systematic review on speech recognition tools and techniques needed for speech application development | |
CN115700871A (zh) | 模型训练和语音合成方法、装置、设备及介质 | |
CN115440205A (zh) | 语音处理方法、装置、终端以及程序产品 | |
TWI725608B (zh) | 語音合成系統、方法及非暫態電腦可讀取媒體 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |