CN111243597A

CN111243597A - 中英文混合语音识别方法

Info

Publication number: CN111243597A
Application number: CN202010026451.8A
Authority: CN
Inventors: 吴与同; 范光宇; 孙焜; 张鹏飞; 生洪源
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-05

Abstract

本发明提供一种中英文混合语音识别方法，包括步骤：S1：获取语音信号；S2：将语音信号输入一中文语音识别系统，中文语音识别系统将语音信号中的中文部分识别为中文文字；S3：判断语音信号中是否有尚未识别的部分，如无跳至步骤S6；S4：将语音信号中尚未识别的部分输入一英文语音识别系统，英文语音识别系统将语音信号中尚未识别的部分识别为英文文字；S5：利用一中文翻译数据库将英文文字翻译为中文文字；S6：利用一中文词性数据库对中文文字添加词性标签；S7：利用词性标签和中文语序结构对中文文字排序；S8：验证并输出排序后的中文文字。本发明的一种中英文混合语音识别方法，可实现对中英文混合的句子进行识别。

Description

中英文混合语音识别方法

技术领域

本发明涉及信息处理领域，尤其涉及一种中英文混合语音识别方法。

背景技术

近几年，语音识别技术保持高速发展。语音识别是将语音转换为对应的文字的一种智能信息处理技术。将语音转换为文字有利于计算机终端进行进一步地处理，所以语音识别技术被广泛地用于各个领域并且成为很多设备的标配，手机端的语音助手，地图导航，智能音响等。

虽然现在的语音识别技术已经给人类带来了便利，总体让人满意，但是目前的语音识别系统只停留在单纯的中文识别和英文识别，无法同时进行中英文同时辨别，在中英混合识别方面仍然有很大的提升空间。

发明内容

针对上述现有技术中的不足，本发明提供一种中英文混合语音识别方法，可实现对中英文混合的句子进行识别。

为了实现上述目的，本发明提供一种中英文混合语音识别方法，包括步骤：

S1：获取语音信号；

S2：将所述语音信号输入一中文语音识别系统，所述中文语音识别系统将所述语音信号中的中文部分识别为中文文字；

S3：判断所述语音信号中是否有尚未识别的部分，如无跳至步骤S6；

S4：将所述语音信号中尚未识别的部分输入一英文语音识别系统，所述英文语音识别系统将所述语音信号中尚未识别的部分识别为英文文字；

S5：利用一中文翻译数据库将所述英文文字翻译为中文文字；

S6：利用一中文词性数据库对所述中文文字添加词性标签；

S7：利用所述词性标签和中文语序结构对所述中文文字排序；

S8：验证并输出排序后的中文文字。

优选地，所述S2步骤进一步包括步骤：

S21：预处理，进行A/D转换；

S22：分帧加窗，将数字化后的所述语音信号分成多段数字语音信号；

S23：信息提取，通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱；

S24：匹配判决，利用声学模型对所述数字语音信号的倒谱进行识别，获得所述中文文字。

优选地，所述S22进一步包括步骤：

S221：分帧，将数字化后的所述语音信号分成多段数字语音信号；

S222：对所述数字语音信号加窗。

优选地，所述声学模型包括HMM声学模型。

优选地，所述S4步骤进一步包括步骤：

S41：预处理，进行A/D转换；

S42：分帧加窗，将数字化后的所述语音信号分成多段数字语音信号；

S43：信息提取，通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱；

S44：匹配判决，利用声学模型对所述数字语音信号的倒谱进行识别，获得所述英文文字。

优选地，所述S42进一步包括步骤：

S421：分帧，将数字化后的所述语音信号分成多段数字语音信号；

S422：对所述数字语音信号加窗。

优选地，所述S6步骤中，所述词性标签包括：主语、谓语、宾语、状语、补语和定语。

优选地，所述S7步骤中，所述中文语序结构包括：主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。

优选地，所述S8步骤中的所述验证步骤包括步骤：

计算所有所述中文文字的所述词性标签的总数；

计算所述中文文字所组成的语句所对应的中文语序结构中词性的个数；

当所述词性标签的总数与所述词性的个数相等时通过验证。

本发明由于采用了以上技术方案，使其具有以下有益效果：

通过中文语音识别系统、英文语音识别系统和中文词性数据库的配合，可实现对中英文混合的句子进行识别；克服了现有语音识别系统只能识别单一语言句子的问题。验证步骤的采用提高了识别语句的准确性。

附图说明

图1为本发明实施例的中英文混合语音识别方法的流程图。

具体实施方式

下面根据附图1，给出本发明的较佳实施例，并予以详细描述，使能更好地理解本发明的功能、特点。

请参阅图1，本发明实施例的一种中英文混合语音识别方法，包括步骤：

S1：获取语音信号；

S2：将语音信号输入一中文语音识别系统，中文语音识别系统将语音信号中的中文部分识别为中文文字；

其中，S2步骤进一步包括步骤：

S21：预处理，进行A/D转换；即对接收到的语音信号进行采集然后进行量化再然后进行编码，可以获得最初的语音信号中语音信息；

S22：分帧加窗，在预处理的信号之后，将语音信号分成多个窗口，将数字化后的语音信号分成多段数字语音信号；

S23：信息提取，通过傅里叶变换谱经对数运算再取傅里叶反变得到数字语音信号的倒谱；性预测倒谱系数(LPCC)既能实现它的预测功能，又能提供进行声道模型参数的提取过程，在性预测倒谱系数(LPCC)分析过程中首先将语音信号视作全极点形式，在线性预测分析(LPC)基础上进行运算：

C₀＝log₁₀(G)；

其中，C₀为初始采样的倒谱系数；G为操作的增益，C_n为第n采样的倒谱系数；n为采样总数；k为当前采样；C_k为第k采样的倒谱系数；α为LPC得到的系数；p为LPC分析阶数。

S24：匹配判决，利用声学模型对数字语音信号的倒谱进行识别，获得中文文字。本实施例中，声学模型包括HMM声学模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型，它通过矢量量化的分析将不同发音模板提取出来。本实施例中，在采用HMM声学模型的基础上，引入了状态段长，对于不同语音段的划分提高了原始基本识别的性能，神经网络的引入也给模式匹配环节带来了性能的进步。

本实施例中，S22进一步包括步骤：

S221：分帧，将数字化后的语音信号分成多段数字语音信号；

接收到的一段语音信号整体是不平稳的，但是局部上可以看作是平稳的。而在后期的语音处理中需要的是平稳信号，所以要对整段语音信号分帧，也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的，一般奖不少于20ms定义为一帧，1/2左右时长为帧移分帧。帧移，即为相邻两帧间的重叠部分，是为了避免相邻两帧的变化过大。将语音信号划分为很多短时的语音段，每个短时的语音段称为一个分析帧；

S222：对数字语音信号加窗。

每一帧的起始段和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大。加窗可以使得，分帧后的信号变得连续，每一帧就会表现出周期函数的特征。加窗之后，原本没有周期性的语音信号呈现出周期函数的部分特征。

S3：判断语音信号中是否有尚未识别的部分，如无跳至步骤S6；

S4：将语音信号中尚未识别的部分输入一英文语音识别系统，英文语音识别系统将语音信号中尚未识别的部分识别为英文文字；

其中，S4步骤进一步包括步骤：

S41：预处理，进行A/D转换；

S42：分帧加窗，将数字化后的语音信号分成多段数字语音信号；

S43：信息提取，通过傅里叶变换谱经对数运算再取傅里叶反变得到数字语音信号的倒谱；性预测倒谱系数(LPCC)既能实现它的预测功能，又能提供进行声道模型参数的提取过程，在性预测倒谱系数(LPCC)分析过程中首先将语音信号视作全极点形式，在线性预测分析(LPC)基础上进行运算：

C₀＝log₁₀(G)；

其中，C₀为初始采样的倒谱系数；G为操作的增益；C_n为第n采样的倒谱系数；n为采样总数；k为当前采样；C_k为第k采样的倒谱系数；α为LPC得到的系数；p为LPC分析阶数。

傅里叶变换，即能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。使用傅里叶变换进行语音信号的函数图像转化。实现对数运算再取傅里叶反经过变换即可得到信号的倒谱，生成函数图像。

LPCC使用10多个倒谱系数代表共振峰的特性，有很好的性能。

在线性预测分析(LPC)。

S44：匹配判决，利用声学模型对数字语音信号的倒谱进行识别，获得英文文字。本实施例中，声学模型包括HMM声学模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型，它通过矢量量化的分析将不同发音模板提取出来。本实施例中，在采用HMM声学模型的基础上，引入了状态段长，对于不同语音段的划分提高了原始基本识别的性能，神经网络的引入也给模式匹配环节带来了性能的进步。

其中，S42进一步包括步骤：

S421：分帧，将数字化后的语音信号分成多段数字语音信号；

接收到的一段语音信号整体是不平稳的，但是局部上可以看作是平稳的。而在后期的语音处理中需要的是平稳信号，所以要对整段语音信号分帧，也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的，一般奖不少于20ms定义为一帧，1/2左右时长为帧移分帧。帧移，即为相邻两帧间的重叠部分，是为了避免相邻两帧的变化过大。将语音信号划分为很多短时的语音段，每个短时的语音段称为一个分析帧

S422：对数字语音信号加窗。

S5：利用一中文翻译数据库将英文文字翻译为中文文字；

S6：利用一中文词性数据库对中文文字添加词性标签；

词性标签包括：主语、谓语、宾语、状语、补语和定语。

S7：利用词性标签和中文语序结构对中文文字排序；

中文语序结构包括：主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。

中文语序结构共分为12种，划分为二维数组，存放语音句子。

中文句子中结构有12种，定义为char chsh[12][12]：(1)char chsh[0][0-12]主谓；(2)char chsh[1][0-12]主谓宾；(3)char chsh[2][0-12]定主状谓；(4)char chsh[3][0-12]定主谓；(5)char chsh[4][0-12]主状谓；(6)char chsh[5][0-12]定主谓宾；(7)char chsh[6][0-12]主状谓宾；(8)char chsh[7][0-12]主谓补宾；(9)char chsh[8][0-12]定主状谓宾；(10)char chsh[9][0-12]定主谓补宾；(11)char chsh[10][0-12]主状谓补宾；(12)char chsh[11][0-12]定主状谓补宾。

按照中文语序结构进行排序。

S8：验证并输出排序后的中文文字。

验证步骤包括步骤：

计算所有中文文字的词性标签的总数；

计算中文文字所组成的语句所对应的中文语序结构中词性的个数；

当词性标签的总数与词性的个数相等时通过验证。

通过词类衔接累计算法，按照句子中文语序结构，进行句子匹配衔接，匹配结束后，将提取出正确的语音信息。

例如：

步骤100：按照中文句子词性分类方法，进行排列；

步骤200：计数求和值，进行词性与句子结构逐个匹配，对应累加分数，总分成功而且语法词性正确，则含义正确，提取出符合的即为正确的含义；

步骤300：词序排序，按照中文句子结构再次匹配，最后得出的句子符合中文语序。

计数求和值，定义分数为：sum的具体步骤；对句子进行匹配判断，若识别出第一个词性为“主语”，分数sum＝sum+1，且将第一个词性不为主语的全部句子舍去，识别出第二个词性为“谓语”，分数sum＝sum+1但是句子未结束，则继续识别，且第一种结构(1)char chsh[0][0-12]主谓被舍弃，步骤循环直到句子结束。在将sum最后的分数值与规定句子的分数S进行比较，结构词性正确，而且分数相等，则正确。

中文句子中结构以及对应分数为：(1)主谓：S＝2分(2)主谓宾：S＝3分(3)定主状谓：S＝4分(4)定主谓：S＝3分(5)主状谓：S＝3分(6)定主谓宾：S＝4分(7)主状谓宾：S＝4分(8)主谓补宾：S＝4分(9)定主状谓宾：S＝5分(10)定主谓补宾：S＝5分(11)主状谓补宾：S＝5分(12)定主状谓补宾：S＝6分；符合一个词性即可加1分。

步骤400：输出句子的语序结构正确且分数累计总和正确，证明信息提取成功，可进行句子输出。

本发明实施例的一种中英文混合语音识别方法，通过中文语音识别系统和英文语音识别系统，进行句子含义转化；通过中文翻译数据库和进入中文词类属性数据库，进行两个语句的含义提取；通过词类衔接累计算法，进行语句的准确含义提取衔接；可以提取出其一句中英文混合的句子的相关的信息，来改善语音识别系统的只可以单一识别一种语言的不足。

以上结合附图实施例对本发明进行了详细说明，本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而，实施例中的某些细节不应构成对本发明的限定，本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims

1.一种中英文混合语音识别方法，包括步骤：

S1：获取语音信号；

S6：利用一中文词性数据库对所述中文文字添加词性标签；

S8：验证并输出排序后的中文文字。

2.根据权利要求1所述的中英文混合语音识别方法，其特征在于，所述S2步骤进一步包括步骤：

S21：预处理，进行A/D转换；

3.根据权利要求2所述的中英文混合语音识别方法，其特征在于，所述S22进一步包括步骤：

S222：对所述数字语音信号加窗。

4.根据权利要求3所述的中英文混合语音识别方法，其特征在于，所述声学模型包括HMM声学模型。

5.根据权利要求4所述的中英文混合语音识别方法，其特征在于，所述S4步骤进一步包括步骤：

S41：预处理，进行A/D转换；

6.根据权利要求5所述的中英文混合语音识别方法，其特征在于，所述S42进一步包括步骤：

S422：对所述数字语音信号加窗。

7.根据权利要求6所述的中英文混合语音识别方法，其特征在于，所述S6步骤中，所述词性标签包括：主语、谓语、宾语、状语、补语和定语。

8.根据权利要求7所述的中英文混合语音识别方法，其特征在于，所述S7步骤中，所述中文语序结构包括：主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。

9.根据权利要求8所述的中英文混合语音识别方法，其特征在于，所述S8步骤中的所述验证步骤包括步骤：

计算所有所述中文文字的所述词性标签的总数；

当所述词性标签的总数与所述词性的个数相等时通过验证。