CN107945805B

CN107945805B - 一种智能化跨语言语音识别转化方法

Info

Publication number: CN107945805B
Application number: CN201711371095.8A
Authority: CN
Inventors: 程海波; 文向东; 于晓; 赵季辉; 李亮
Original assignee: Beijing Beacon Wanjia Technology Co Ltd
Current assignee: Beijing beacon Wanjia Technology Co., Ltd.
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-11-30
Anticipated expiration: 2037-12-19
Also published as: CN107945805A

Abstract

本发明请求保护的一种智能化跨语言语音识别转化方法通过将语音数据基于语系进行类别划分，建立语系类间距离，将待识别语音的数据初步确定语系后再在语系中进行语种的细化识别，而在首次语系识别错误后还可以基于建立好的语系类间距离进一步查找相邻语系，确认语系；在识别出语种后将其转化为规范化文字并对文本进行分词、词频统计等处理建立映射关系便于后续语音查询。本发明一方面有效的解决了当前语音识别中效率与速率不能平衡的弊端，另一方面，对语音文字转换的处理更为合理，映射关系的建立使得识别转化效率准确度更高。

Description

一种智能化跨语言语音识别转化方法

技术领域

本发明涉及自然语言处理，特别地，涉及一种智能化跨语言语音识别转化方法，用于识别多种语言的语音资料并转化为文本格式进行文本识别。

背景技术

语音是人类最重要、最方便和最有效的信息传递方式，语言是人类独有的功能,声音是人类常用的交流工具。当进入21世纪信息化时代,通过先进的语音处理技术,对语音信息进行更加有效地产生、传输、获取、存储和应用,这将极大地促进社会的发展。

语音信号处理,简称为语音处理,它是语音学和数字信号处理技术相结合的交叉性的学科,最初包括语音识别、说话人识别、语音合成和语音编码四大分支。随着科学技术的不断发展,语种识别技术逐渐成为语音处理领域的又一热点问题。据有关资料统计,当今世界上共有5651种语言，语种之间的信息互通越来越重要,如何让计算机识别出不同的语种己经成为人们的迫切需求。

语种识别，是计算机通过分析处理一段语音片断以判别其属于何种语言的过程,本质上也是属于语音识别的一个分支。语种识别往往作为语音识别和其它相关应用的一个前端处理技术，随着全球化经济的发展,全球范围内的人员流动和国际间商务交流对多语对话系统、口语翻译系统、语音合成和多语种语音识别系统的应用需求快速增长,作为这类系统的必要的前端处理,语种识别技术扮演着非常重要的角色。

而对语音识别后的另一项重要工作就是将语音转化为文本格式的内容供后续处理，如人机对话、搜索引擎查询等业务，语音到文本的转化的成功率和效率也直接决定了用户在网络环境中的直接体验。

专利201710309321.3公开了一种基于中英文混合词典的语音识别方法及装置，通过获取中英文混合词典作为训练词典，训练得到声学模型，基于声学模型对中英文混合语言进行语音识别；专利201710414207.7公开了一种基于人工智能的语音识别方法，其采用将待识别的语音数据建立声学模型，确定能量特征后转化文本数据。可以看出，现有技术中，针对语音的识别和文本转化技术已经较为很多，但基本的思路都是建立语料库后提取待识别语音数据的基本特征，之后直接进行相应的文本转换，导致语音识别时的算法复杂度较高，识别准确度也无法保证，识别后的容错性鲁棒性较低，造成了语音识别用户的体验性较差。

基于此，本发明请求保护一种智能化跨语言语音识别转化方法，其可以对语言进行语系的初步划分，并在各语系之间建立类间关系表，在对语音数据预处理识别出语系后再进一步识别相应的语种，之后，将相应的语音转化为对应的文字后还会建立文字段与语音语种、语系的映射关系便于后续识别。

发明内容

针对现有技术的缺陷，本发明的目的是提供一种智能化跨语言语音识别转化方法，用于解决当前语音文字转化识别效率低的问题。

本发明所请求保护的一种智能化跨语言语音识别转化方法，其特征具体包括：

步骤一：获取待识别转化的语音数据以及语音数据库；

优选的，所属待识别转化的语音数据可通过由用户通过话筒等语音输入设备输入，或从网上下载或本地导入语音资料文件。所述语音数据库中的样本语言数据事先进行训练与聚类分析，首先，记录样本语言数据的语言表现序列，预设语言表现集合，获取每一个样本语言数据的语言表现序列的长度，使用上层标记序列在语言表现序列与预设语言表现集合之间建立映射关系，确定出样本语言数据所属的语言表现类别，建立相应的类别表存储在语音数据库中，其中的类别表内部具体表明了语言语系与具体语种之间的映射包含关系，同时语系与语系之间通过类间距离计算描述语系之间的相似度。

步骤二：依据语音数据的属性数据对语音数据进行预处理，与语音数据库中的语音数据初步比对，识别出语音数据所属的语言语系；

优选的，所述语言语系包括：印欧语系、南岛语系、高加索语系、汉藏语系、阿尔泰语系、北美印第安语系等；通过提取预处理过后的语音数据的语调、语速、噪音等语音特征参数，与语音数据库内部的类别表中的语音特征进行比对，初步筛选出特征综合相似度>80%的语言语系，并将相似度最高的语言语系作为备选语言语系；

对待识别转化的语音数据进行高频部分的升高，平滑频谱信号，增加高频分辨率；

采用可移动的有限长度窗口进行加权的方法对语音数据进行帧划分，以减少起始和结束处信号的间断性；

设定语音能量门限阈值，大于这个门限阈值的语音帧就当作有用的语音帧提取出来，否则就舍弃该语音帧；

对语音数据的信号进行分割和噪声的清除。

步骤三：对初步识别出语言语系的语音数据进行判断纠正，如果语言语系识别出现错误，返回步骤二，如果正确，进入步骤四；

优选的，将待识别的语音数据作为输入队列通过全极点系统模型，得到后续输出，进行线性预测之后，进行样本信号逼近的方式，对特征参数进行估计，其中的特征参数包括MFCC特征参数和SDC特征参数，如果特征参数的相似度与预处理识别出的语系的相似度>90%，则判断语系识别正确，否则，语系识别错误。

步骤四：对识别出语言语系的语音数据进行边界分割，针对不同语言语系的语音数据的特点，决策出当前语音数据所属的具体语种；

优选的，根据语音动作序列，将语音数据分割成时序相邻的一系列与语音学动作单元(如音素，音节，单词等)相应的音段，并将相应的时问信息特征添加到动作文件里；针对已经识别出语系的待识别语音数据，提取语音数据库中该语系内各语种的类内语音边界特征，将待识别语音数据分割后的特征与语音数据库中该语系内各语种的类内语音边界特征进行比对，相似度最高的一种的语言则为该待识别语音数据所属的语言种类。

步骤五：基于声线模型对语音数据的音频特征进行识别，根据音频特征的归一化表示将语音数据转写为文本数据；

优选的，依据语音的语调进行识别，对语音的轮廓曲线采用自相关函数检测语音周期，计算每一帧语音数据的MFCC特征和语音频率，将两特征组合后进行差分运算，提取新特征参数，依据声线模型提取的语调语音特征参数作为转写特征输入将语音数据初步转写为文字数据。

步骤六：对转化后的文本数据进行基于正则文法的处理，对文本进行消歧处理，规范文本的语义规则；

优选的，对初步识别转化的文本数据进行语法分析和语义分析，

其中语法分析针对语音识别稳定度较低的词语进行纠正，以满足词语标记语法方面的准确度；

语法分析基于分析语句的含义是否符合逻辑，针对文本特征词之间的语义相关度基于统计进行合理度分析，将合理度不满足语义要求的句子进行语义纠偏。

步骤七：建立消歧后的文本数据与原始的待识别转化的语音数据的映射关系，将待识别的语音数据存储至语音数据库中。

优选的，对语法语义的文本数据边界划分后进行分词处理，依据停用词列表将文本语句中的停用词删除，对分词后的文本进行词频统计，将原文本数据与待识别转化的语音数据建立映射关系，使得后续语音转化文本时便于直接从语音数据库中提取；

此外，将分词后的文本边界词和相关词频建立语种、语系的映射关系，存储至语音数据库中，作为后续语系、语种识别依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

附图1是本发明所涉及的智能化跨语言语音识别转化方法的工作流程图。

附图2是本发明所涉及方法中语系识别的工作流程图。

附图3是本发明具体实施例中的语音消噪示例图。

附图4是本发明具体实施例中的语音划界示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照附图1，其为本发明所涉及的智能化跨语言语音识别转化方法的工作流程图，可以看出，本发明请求保护一种智能化跨语言语音识别转化方法，其特征在于：

步骤101：获取待识别转化的语音数据以及语音数据库；

步骤201：依据语音数据的属性数据对语音数据进行预处理，与语音数据库中的语音数据初步比对，识别出语音数据所属的语言语系；

步骤301：对初步识别出语言语系的语音数据进行判断纠正，如果语言语系识别出现错误，返回步骤二，如果正确，进入步骤四；

步骤401：对识别出语言语系的语音数据进行边界分割，针对不同语言语系的语音数据的特点，决策出当前语音数据所属的具体语种；

步骤501：基于声线模型对语音数据的音频特征进行识别，根据音频特征的归一化表示将语音数据转写为文本数据；

步骤601：对转化后的文本数据进行基于正则文法的处理，对文本进行消歧处理，规范文本的语义规则；

步骤701：建立消歧后的文本数据与原始的待识别转化的语音数据的映射关系，将待识别的语音数据存储至语音数据库中。

该方法共由如上七个主要步骤构成，主体通过与语音数据库的语音数据比对识别出待识别语音数据的语系语种后，将其转化为文本数据，并将文本化后的内容格式标准统一化，语义规范化，存入映射规则。

具体来说，优选的，所属待识别转化的语音数据可通过由用户通过话筒等语音输入设备输入，或从网上下载或本地导入语音资料文件。所述语音数据库中的样本语言数据事先进行训练与聚类分析，首先，记录样本语言数据的语言表现序列，预设语言表现集合，获取每一个样本语言数据的语言表现序列的长度，使用上层标记序列在语言表现序列与预设语言表现集合之间建立映射关系，确定出样本语言数据所属的语言表现类别，建立相应的类别表存储在语音数据库中，其中的类别表内部具体表明了语言语系与具体语种之间的映射包含关系，同时语系与语系之间通过类间距离计算描述语系之间的相似度。

对于ｌ（ｌ>=２）类语系分类问题，设语系训练样本集规模为ｎ，语系样本空间维数为ｍ．即语系训练样本集为｛（ｘｋ，ｙｋ）｜ｘｋ∈Ｒｍ（ｍ维实空间），ｍ>０，ｙｋ∈｛１，…，ｌ｝，ｌ>２，ｋ＝１，…，ｎ｝．其中，第ｊ类的语系样本数为ｎｊ，即‖ｙｋ｜ｙｋ＝ｊ，ｋ＝１，…，ｎ‖＝ｎｊ，ｊ＝１，…，ｌ，则含有ｉ（ｉ＝１，…，ｍ）个语系特征的语系特征子集的区分度定义为ＤＦＳｉ。

ＤＦＳｉ表示了当前ｉ个特征的特征子集的类间距离和与类内方差之比，其值越大表明包含当前ｉ个特征的特征子集的类别辨识力越强。

针对步骤201，优选的，所述语言语系包括：印欧语系、南岛语系、高加索语系、汉藏语系、阿尔泰语系、北美印第安语系等；通过提取预处理过后的语音数据的语调、语速、噪音等语音特征参数，与语音数据库内部的类别表中的语音特征进行比对，初步筛选出特征综合相似度>80%的语言语系，并将相似度最高的语言语系作为备选语言语系；

这些语系的划分有的是根据语言结构进行划分,有的根据地域分布来划分。很多的语言最初都是由同质语言演变分化而来,这些语言有很多相似的地方;有的则是孤立的语言种类。根据语系的划分情况来看,不同的语系之间有着很大的差异,这些差异在实际交流中会更加明显,因为语言的发音有很大的不同。目前全世界根据地理覆盖情况和实际应用来看,英语的使用面最为广泛,因此现有的语音识别系统在使用过程中就出现了不少的问题。如苹果公司的siri语音识别软件,在全球范围使用中具有高质量的语音识别率,但对于日韩口音,印度口音及非洲口音的英语指令的识别效果明显下降。

实际的语音信号时模拟信号,因而在对语音信号进行数字化处理之前,首先要将模拟语音信号S(t)以采样周期T进行采样,将其离散化转化为S(n),采样周期的选取应根据模拟语音信号的宽带来确定,以避免信号的频域混叠失真在对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。当釆样频率大于信号最高频率的两倍时,可以使用采用后的信号重构原始信号,并且不会失去信息。语音信号的频率范围通常是300-3400HZ,一般情况下采样频率为8kHz。

将语音信号划分成短时段进行处理,每一短时段称为一帧，要从语音信号中截取含有N个采样点的语音信号波形段,可用时间窗函数w(n)来截取原来的语音信号，分帧就是用可移动的有限长度窗采用加权的办法来实现语音的分段，矩形窗会使窗边处的信号突变,所以常采用海尔宁窗对其分帧

本发明涉及一种新的双门限语音检测方法,即设置一个整体门限和一个局部门限,来提取每个有用语音帧，整体门限由整条语料的最大能量减去一个常数确定值,然后在大于整体门限的语音帧中找出所有的能量局部最大值,各个能量局部最大值都减去一个常数,然后把它们当作部分门限,大于部分门限的就提取出来,这样就提取到了最优的语言帧对语音数据的信号进行分割和噪声的清除，参照附图3，是一实施例中对于语音信息five的嘶声噪声去除后的音频波形示意图。

针对步骤301，参照附图2，优选的，将待识别的语音数据作为输入队列通过全极点系统模型，得到后续输出，进行线性预测之后，进行样本信号逼近的方式，对特征参数进行估计，其中的特征参数包括MFCC特征参数和SDC特征参数，如果特征参数的相似度与预处理识别出的语系的相似度>90%，则判断语系识别正确，否则，语系识别错误。

MFCC算法流程包括，首先对语音信号S(n)进行预加重、加窗(海尔宁窗)及分帧等处理;然后对每帧语音信号x(n)进行DFT/FFT变换得到信号的频谱x(k);再用M阶Mel滤波器对得到的每帧信号的离散功率谱进行滤波,并求取相应的对数能量谱, 将对数能量s（m）DCT,求得MFCC。

SDC主要取决于四个参数:N-d-P-k，其中,N为静态特征谱的维数,D为用

于计算一阶差分的时移,P为两个差分倒谱块之间的转移量,K为每个SDC特征

向量包含差分倒谱块的个数; 每帧的SDC特征向量的维数为N*k,虽然它没有包含二阶差分特征和静态特征的信息,但每帧的SDC特征包含的范围是P*k帧,并且第t帧和第t+P帧的SDC特征向量之间,有p*(k-l)维的特征相重合,使得SDC特征在时序上包含了更多的特征信息,而且这些特征信息又是连续的,使SDC表述特征的时长范围与一个音素的时长相比拟。

针对步骤401，优选的，根据语音动作序列，将语音数据分割成时序相邻的一系列与语音学动作单元(如音素，音节，单词等)相应的音段，并将相应的时问信息特征添加到动作文件里；针对已经识别出语系的待识别语音数据，提取语音数据库中该语系内各语种的类内语音边界特征，将待识别语音数据分割后的特征与语音数据库中该语系内各语种的类内语音边界特征进行比对，相似度最高的一种的语言则为该待识别语音数据所属的语言种类。

对于待确认的言语动作组,定义组间边界粘度为:

即用seg及其周边言语动作的同现概率作为衡量seg和上下文之间的边界粘度,其中表示左边界的边界粘度; 表示右边界的边界粘度，当边界粘度低于阈值时，确定在此划分为左边界或右边界。

针对步骤501，优选的，依据语音的语调进行识别，对语音的轮廓曲线采用自相关函数检测语音周期，计算每一帧语音数据的MFCC特征和语音频率，将两特征组合后进行差分运算，提取新特征参数，依据声线模型提取的语调语音特征参数作为转写特征输入将语音数据初步转写为文字数据。

由于常规的文本信息并未考虑语调等声线语音参数，导致文本的识别内容偏差较大，无法准确表现出用户的意图目的，本发明采用的文本转化方法考虑语调等语音声线数据，准确识别出用户的意图，表达的重点，在转化文本时加重标记显示，用于提示作用。

针对步骤601，优选的，对初步识别转化的文本数据进行语法分析和语义分析，

针对步骤701，优选的，对语法语义的文本数据边界划分后进行分词处理，依据停用词列表将文本语句中的停用词删除，对分词后的文本进行词频统计，将原文本数据与待识别转化的语音数据建立映射关系，使得后续语音转化文本时便于直接从语音数据库中提取；

针对参照附图4，是针对某一实施例中一语言的边界划分示意图，其中，针对待识别语音数据的波形以及转化后的文本均进行边界划分并进行相应标注用于识别与存储。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种智能化跨语言语音识别转化方法，其特征在于：

步骤一：获取待识别转化的语音数据以及语音数据库；

步骤七：建立消歧后的文本数据与原始的待识别转化的语音数据的映射关系，将待识别的语音数据存储至语音数据库中；

所述语音数据库中的样本语言数据事先进行训练与聚类分析，首先，记录样本语言数据的语言表现序列，预设语言表现集合，获取每一个样本语言数据的语言表现序列的长度，使用上层标记序列在语言表现序列与预设语言表现集合之间建立映射关系，确定出样本语言数据所属的语言表现类别，建立相应的类别表存储在语音数据库中，其中的类别表内部具体表明了语言语系与具体语种之间的映射包含关系，同时语系与语系之间通过类间距离计算描述语系之间的相似度。

2.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：

所属待识别转化的语音数据可通过由用户通过话筒等语音输入设备输入，或从网上下载或本地导入语音资料文件。

3.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：

所述步骤二中依据语音数据的属性数据对语音数据进行预处理包括：

对语音数据的信号进行分割和噪声的清除；

所述步骤二中识别出语音数据所属的语言语系，所述语言语系包括：印欧语系、南岛语系、高加索语系、汉藏语系、阿尔泰语系、北美印第安语系等；通过提取预处理过后的语音数据的语调、语速、噪音等语音特征参数，与语音数据库内部的类别表中的语音特征进行比对，初步筛选出特征综合相似度>80%的语言语系，并将相似度最高的语言语系作为备选语言语系。

4.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：所述步骤三中对初步识别出语言语系的语音数据进行判断纠正，包括：

将待识别的语音数据作为输入队列通过全极点系统模型，得到后续输出，进行线性预测之后，进行样本信号逼近的方式，对特征参数进行估计，其中的特征参数包括MFCC特征参数和SDC特征参数，如果特征参数的相似度与预处理识别出的语系的相似度>90%，则判断语系识别正确，否则，语系识别错误；

所属步骤三中，如果语言语系识别出现错误，返回步骤二包括：

如果针对待识别语音数据所初步识别的语音语系出现错误，则根据语音数据库中针对语系内部之间的类内距离，将与预处理识别的语音语系间类间距离最小的一门语系再次识别为待识别语音数据所属的语系，如果不符合，则依次计算新识别出的语系与其他语系的类间距离，选择类间距离最小的一门语系作为识别待识别语音数据所属的语系，直至识别出待识别语音数据所属的语系。

5.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：

所述对识别出语言语系的语音数据进行边界分割，包括：

指根据语音动作序列，将语音数据分割成时序相邻的一系列与语音学动作单元相应的音段，并将相应的时问信息特征添加到动作文件里；

所述语音学动作单元包括：音素，音节，单词。

6.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：

所述步骤四中，针对不同语言语系的语音数据的特点，决策出当前语音数据所属的具体语种，包括：

针对已经识别出语系的待识别语音数据，提取语音数据库中该语系内各语种的类内语音边界特征，将待识别语音数据分割后的特征与语音数据库中该语系内各语种的类内语音边界特征进行比对，相似度最高的一种的语言则为该待识别语音数据所属的语言种类。

7.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：

所述步骤五：基于声线模型对语音数据的音频特征进行识别，包括：

依据语音的语调进行识别，对语音的轮廓曲线采用自相关函数检测语音周期，计算每一帧语音数据的MFCC特征和语音频率，将两特征组合后进行差分运算，提取新特征参数；

所述步骤五，根据音频特征的归一化表示将语音数据转写为文本数据包括：

依据声线模型提取的语调语音特征参数作为转写特征输入将语音数据初步转写为文字数据。

8.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：

所述步骤六：对转化后的文本数据进行基于正则文法的处理，对文本进行消歧处理，规范文本的语义规则，包括：

对初步识别转化的文本数据进行语法分析和语义分析，

9.如权利要求1的一种智能化跨语言语音识别转化方法，其特征在于：

所述步骤七：建立消歧后的文本数据与原始的待识别转化的语音数据的映射关系，将待识别的语音数据存储至语音数据库中，包括：

对语法语义的文本数据边界划分后进行分词处理，依据停用词列表将文本语句中的停用词删除，对分词后的文本进行词频统计，将原文本数据与待识别转化的语音数据建立映射关系，使得后续语音转化文本时便于直接从语音数据库中提取；