CN116434736A

CN116434736A - 语音识别方法、交互方法、系统和设备

Info

Publication number: CN116434736A
Application number: CN202310422997.9A
Authority: CN
Inventors: 管彤
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-14

Abstract

本申请提供了一种语音识别方法，可以应用于金融领域。包括：接收语音输入并进行预处理；利用MFCC和TAM模型分别提取语音帧特征，得到第一特征序列和第二特征序列；将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中进行处理，输出每个音素的概率；根据每个音素的概率生成M个候选词序列；通过语音模型对M个候选词序列进行概率处理，对应生成N个得分；通过CTC算法对N个得分进行处理，得到N个得分中最高得分i对应的候选词序列a；将候选词序列a作为识别结果输出。本申请通过主要的第一特征序列和辅助的第二特征序列的结合可更全面获得原始输入的语音信息中特征信息；BLSTM可提高语音识别结果的准确性，进而获得更准确的关键词。

Description

语音识别方法、交互方法、系统和设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种语音识别方法、交互方法、系统、设备、介质和程序产品。

背景技术

随着经济全球化，国内银行的服务对象中外国人群数量也将会逐步上升，而银行网点的工作人员母语几乎都为中文，懂外语的只占一小部分，这样就会出现沟通上的障碍，工作人员无法及时理解外国顾客的业务需求，不仅会给外国顾客带来不好的服务体验，还会增加后面顾客等待的时间，这种情况频繁发生就会拉低群众对于银行服务水平的评价，不利于银行业务的宣传和开展。

目前在银行网点服务中有辅助语音识别的机器设备，可通过语音交流识别关键词办理业务，然而关键词的推选准确率较低，客户实际想要办理的业务与根据语音识别提取关键词推送出的业务选项差别较大，给客户造成困扰较大，且带来不好的体验感。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。

例如，本申请提供了一种语音识别方法和语音交互方法，可提高对原始输入语音信息的特征提取的精确度，进而得到更准确的识别结果和关键词，更贴近于客户实际想办理的业务。

为了解决上述问题，本申请的第一个方面提供了一种语音识别方法，包括：

接收语音输入并进行预处理；

利用MFCC和TAM模型分别提取语音帧特征，得到第一特征序列和第二特征序列；

将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中进行处理，输出每个音素的概率，其中，每个音素与发音词典的单词之间形成映射关系；

根据每个音素的概率生成M个候选词序列，其中，候选词为发音词典内的单词；

通过语音模型对M个候选词序列进行概率处理，对应生成N个得分，M等于N；

通过CTC算法对N个得分进行处理，得到N个得分中最高得分i对应的候选词序列a，i属于N，a属于M；

将候选词序列a作为识别结果输出。

根据本申请的语音识别方法，利用MFCC处理语音帧得到的主要的第一特征序列，再利用TAM模型处理语音帧得到的辅助的第二特征序列，第一特征序列和第二特征序列的结合可更全面获得原始输入的语音信息中特征信息；考虑到原始输入的语音信息是一个连续性的语流，双向长短期记忆人工神经网络是受上下文声调和文本内容影响的，因此其可作为声学检测模型更符合银行网点内问答的使用场景，可提高语音识别结果的准确性，进而获得更准确的关键词。

进一步地，利用MFCC提取语音帧特征，得到第一特征序列，包括：

利用快速傅里叶变换，生成线性频谱；

线性频谱输入梅尔频率滤波器进行处理，输出第一信号，所述第一信号近似于梅尔标度；

将第一信号进行离散余弦变换，得到M阶梅尔倒谱系数，所述M阶梅尔倒谱系数为第一特征序列。

进一步地，在利用TAM模型提取语音帧特征之前，所述方法还包括：

利用强制对齐工具将语音帧划分为P个音节，得到P个音节的边界信息，其中，所述边界信息内包括每个音节对应的持续时长；以及

利用自相关函数算法得到所述语音的基频信息，所述基频信息为每帧的赫兹数。

进一步地，利用TAM模型提取语音帧特征，得到第二特征序列，包括：

将所述P个音节的边界信息以及所述语音的基频信息输入TAM模型；

将每个音节的持续时长作为线性函数进行计算，得到至少一组TAM参数组，其中，TAM参数组内包括线性函数的斜率和偏移量以及时间常数和所述音节的持续时间；

每个音节选取一组TAM参数组，并整合P个音节的TAM参数组，得到语音帧的音高走向轮廓，所述语音帧的音高走向为第二特征序列。

进一步地，利用TAM模型提取语音帧特征，得到第二特征序列，还包括：

处理语音帧得到原始音高走向轮廓；

将多组语音帧的音高走向轮廓与原始音高走向轮廓进行比对，得到最优语音帧的音高走向轮廓，其中，多组语音帧的音高走向轮廓是由选取音节时不同TAM参数组整合得到的；

将最优语音帧的音高走向轮廓作为第二特征序列。

进一步地，将多组语音帧的音高走向轮廓与原始音高走向轮廓进行比对，得到最优语音帧的音高走向轮廓，包括：

计算多组语音帧的音高走向轮廓与原始音高走向轮廓的欧式距离以及引入正则化系数后的加和，得到多组计算结果；

选取多组计算结果中的最小的计算结果所对应的语音帧的音高走向轮廓作为最优语音帧的音高走向轮廓。

进一步地，将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中进行处理，输出每个音素的概率，包括：

将第一特征序列和第二特征序列输入至双向长短期记忆人工神经网络的时间层，得到双向长短期记忆人工神经网络的双向隐藏层的时序状态；

将时序状态输入全连层，输出通过Softmax层映射的每个音素的概率。

本申请第二方面提供了一种语音交互方法，包括：

接收识别结果并在关键词库中匹配搜索；

在匹配到关键词时输出所有的X个关键词；

响应于被选中的关键词b，输出与关键词b关联的Y个业务选项，其中，关键词b为X个关键词中的一个；

响应于被选中的业务c打印号票，所述号票上附带有业务c的文字内容。

进一步地，所述关键词b关联的Y个业务选项的文字与所述号票上附带的业务c的文字为不同语种。

进一步地，所述方法还包括：

在没有匹配到关键词时输出第一提示信息，所述第一提示信息为重新语音输入请求。

进一步地，所述方法还包括：

在确认有被选中的业务时输出第二提示信息，所述第二提示信息包括与所述业务办理相关的证件和流程。

进一步地，所述第一提示信息和/或所述第二提示信息为文字提示或语音提示。

本申请第三方面提供了一种数据处理系统，包括：语音接收模块，被配置为接收语音输入并进行预处理；特征提取模块，被配置为：利用MFCC和TAM模型分别提取语音帧特征，得到第一特征序列和第二特征序列；特征处理模块，被配置为：将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中，输出每个音素的概率，其中，每个音素与发音词典的单词之间形成映射关系；候选词生成模块，被配置为：根据每个音素的概率生成M个候选词序列，其中，候选词为发音词典内的单词；候选词处理模块，被配置为：通过语音模型对M个候选词序列进行概率处理，对应生成N个得分，M等于N；得分处理模块，被配置为：通过CTC算法对N个得分进行处理，得到N个得分中最高得分i对应的候选词序列a，i属于N，a属于M；识别输出模块，被配置为将候选词序列a作为识别结果输出。

本申请的第四方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本申请的第五方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

本申请的第六方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述方法。

附图说明

通过以下参照附图对本申请实施例的描述，本申请的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本申请实施例的语音识别以及语音交互方法的应用场景图；

图2示意性示出了根据本申请实施例的语音识别方法的流程图；

图3示意性示出了根据本申请实施例的BLSTM的网络结构示意图；

图4示意性示出了根据本申请实施例的利用MFCC提取语音帧特征的方法流程图；

图5示意性示出了根据本申请实施例的利用TAM模型提取语音帧特征的方法流程图；

图6示意性示出了根据本申请实施例的语音交互的方法流程图；

图7示意性示出了根据本申请实施例的语音识别关键字的原理图；

图8示意性示出了根据本申请实施例的客户、银行智能自助终端机以及后台服务器的语音交互方法的使用流程图；

图9示意性示出了根据本申请实施例的数据处理系统的结构框图；以及

图10示意性示出了根据本申请实施例的适于实现语音识别方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本申请的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本申请实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本申请。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)；

TAM(Target Approximation Model，目标逼近模型)；

BLSTM(Bidirectional Long Short-Term Memory，双向长短期记忆人工神经网络)；

CTC(Connectionist Temporal Classification，时序分类算法)。

本申请使用到以上术语时将以英文缩写形式进行表达。

众所周知，银行网点办理业务慢，排队时间长是一个普遍存在的问题，而对于银行来说，网点是面向顾客服务的重要窗口，一线工作服务质量的好坏会直接影响到整个银行在公众眼中的口碑，甚至会影响到未来银行的发展。随着经济全球化，国内银行的服务对象中外国人群数量也将会逐步上升，而银行网点的工作人员母语几乎都为中文，懂外语的只占一小部分，这样就会出现沟通上的障碍，工作人员无法及时理解外国顾客的业务需求，不仅会给外国顾客带来不好的服务体验，还会增加后面顾客等待的时间，这种情况频繁发生就会拉低群众对于银行服务水平的评价，不利于银行业务的宣传和开展。

所以本申请提供一种语音识别方法和语音交互方法，语音交互方法中涉及智能语音识别和语音交互问答，是针对客户、尤其是针对外国客户的一个智能问答交互方法。当客户问出一些简单的银行业务语句时，此语音识别方法首先会准确识别客户的语句，然后从语句中提取关键词从而确定其想办的业务，之后再把客户要办理的业务内容信息打在号票上，银行业务办理人员从号票上就能知道客户想要办理的业务。这样不仅省去很多询问的时间，还有效的协助了网点工作人员服务客户的工作，提高了银行窗口的服务质量。

需要说明的是，本申请不限定关键词库内的语种单词以及可识别的语种，即任何两种相同或不同的语种均可使用本申请的语音识别方法和语音交互方法。但由于英语为全球最通用的语言，并且关键词库也比较多，所以下面将以中-英之间、或中-中之间为例，进行识别方法的说明和交互方法的说明。

图1示意性示出了根据本申请实施例的语音识别以及语音交互方法的应用场景图。

如图1所示，根据该实施例的应用场景100中客户面对终端设备101进行提问，与终端设备101通信连接的服务器102接收到语音的输入并进行语音识别和基于语音识别的关键词的查找，将查找结果反馈并在终端设备101上提示，客户通过终端设备101的提示进行下一步操作，形成简单地问答交互。

终端设备101可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、智能自助终端机等等。

服务器102可以是提供各种服务的服务器，例如对客户利用终端设备101所提出的问题提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的客户的语句进行分析、识别、查询等处理，并将处理结果(例如根据客户的语句找到的关键词)反馈给终端设备101。

需要说明的是，本申请实施例中所提供的语音识别方法一般可以由服务器102执行。相应地，本申请实施例中所提供的数据处理系统一般可以设置于服务器102中。本申请实施例中所提供的语音识别方法也可以由不同于服务器102且能够与终端设备101和/或服务器102通信的服务器或服务器集群执行。相应地，本申请实施例中所提供的数据处理系统也可以设置于不同于服务器102且能够与终端设备101和/或服务器102通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备和服务器。

以下将基于图1描述的场景，通过图2～图5对申请实施例的语音识别方法进行详细描述。

图2示意性示出了根据本申请实施例的语音识别方法的流程图。

如图2所示，该实施例的包括操作S210～操作S270。

在操作S210，接收语音输入并进行预处理。

终端设备上设置有可以获取语音信息的麦克风，当麦克风收集到客户的语音信息后构成语音输入，即，语音输入为终端设备获取的客户的语句，其中可以为陈述句，也可以为疑问句，输入的语音信息可以为任何语种。

为了方便后面特征提取的工作，首先要对语音信号进行预处理，预处理的操作可以有预加重、分帧和加窗的一种或几种。

预加重目的在于对语音信号中受发音器官抑制的高频分量进行增强和补偿，其通过一阶数字滤波器来实现。

分帧可将预加重后的语音信号分成若干个短时帧，在此短的时间内是语音信号是平稳的，一帧的时间大约长度为10ms～30ms。

加窗的作用是防止语音信号在分帧过程中产生畸变，一般加窗使用的是汉明窗。

在操作S220，利用MFCC和TAM模型分别提取语音帧特征，得到第一特征序列和第二特征序列。

此操作步骤为提取语音识别所需要的特征信息，以MFCC提取的第一特征序列为主要特征，以TAM模型提取的第二特征序列为辅助特征。

在语音识别中，MFCC为最常用到的语音特征提取方法，根据语音信号的频率高低，在低频到高频的频带内设置带通滤波器，对输入的语音信号进行滤波。而每个带通滤波器输出的信号能力作为信号的基本特征，对此特征进行处理后可以作为语音的输入特征，即第一特征序列。本申请还通过TAM模型进行第二特征序列的计算，TAM模型为目标逼近模型，是从发音动力学的角度出发，模拟语音基频的内在产生机制的基频生成模型。

同一个语音信号内既通过频率进行分析特征提取，又通过音调进行重新分析提取，两种特征序列相对于现有技术中仅通过频率的特征提取，可以更好的表达此语音信号的特征，使得识别结果更加准确。

在操作S230，将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中进行处理，输出每个音素的概率，其中，每个音素与发音词典的单词之间形成映射关系。

现有技术通常使用长短期记忆人工神经网络(LSTM)，其属于循环神经网络(RNN)的一种特殊类型，优势在于没有细胞状态。LSTM为传统神经网络中通过输入门、遗忘门、输出门引入Sigmoid函数并结tanh函数，通过添加求和操作，来减少梯度消失和梯度爆炸的可能性，其仅能实现单向传递。但在本申请设计的场景中，客户说出的是一句连续语流，连续语流的声调是受上下文影响的，因此当前时刻的输出不仅和之前时刻的状态有关，还和未来的状态有关。传统神经网络并不能做到此点，因此本申请使用BLSTM双向网络，参考图3为BLSTM的网络结构示意图，其单元计算与LSTM相同，既有正向计算，也有反向计算，本申请使用BLSTM作为声学检测模型更加符合实用场景。

因此将第一特征序列和第二特征序列输入BLSTM中进行处理，可以结合上下文使得识别结果更加准确。

本操作步骤中，输出的每个音素的概率，可以理解为输出的每个发音元音的概率，每个发音元音与发音词典的单词之间形成映射关系，通过发音元音就可以找到对应的单词。

进一步地，通过BLSTM的处理过程如下。

将第一特征序列和第二特征序列输入至双向长短期记忆人工神经网络的时间层，得到双向长短期记忆人工神经网络的双向隐藏层的时序状态，然后将时序状态输入全连层，输出通过Softmax层映射的每个音素的概率。

BLSTM具备两个独立的隐藏层单元，以此来收集先前和未来信息的贡献度，从而对前后时刻的依赖性进行建模。也就是说，BLSTM通过前向LSTM和反向LSTM的隐藏层计算出的时序状态作为全连层的输入，再将全连接层的输出通过Softmax层映射出每个音素的概率。

在操作S240，根据每个音素的概率生成M个候选词序列，其中，候选词为发音词典内的单词。

可以理解的是，本步骤操作中音素的概率最大的排在前面，音素概率最小的排在后面，即在发音词典根据音素与单词之间的映射关系形成候选词序列，由于一个发音可能对应多个单词，因此一共可生成M个候选词序列。

在操作S250，通过语音模型对M个候选词序列进行概率处理，对应生成N个得分，M等于N。

语音模型对每个候选词序列进行概率处理，每个候选词序列均对应一个得分。

在操作S260，通过CTC算法对N个得分进行处理，得到N个得分中最高得分i对应的候选词序列a，i属于N，a属于M。

在语音识别任务中，语音序列可能由于语速或者发音特点的不同，同一句话有不同的表现形式。CTC适用于语音识别的工具，结合时序状态解码出候选词序列结果，最终得到得分最高的候选词序列，即语音的识别结果。

在操作S270，将候选词序列a作为识别结果输出。

进一步地，图4示意性示出了根据本申请实施例的利用MFCC提取语音帧特征的方法流程图。

如图4所示，该实施例的包括操作S310～操作S330。

在操作S310，利用快速傅里叶变换，生成线性频谱。

在操作S320，线性频谱输入梅尔频率滤波器进行处理，输出第一信号，第一信号近似于梅尔标度。

在操作S330，将第一信号进行离散余弦变换，得到M阶梅尔倒谱系数，M阶梅尔倒谱系数为第一特征序列。

对预处理后的语音信号进行快速傅里叶变换后得到线性频谱，将其通过梅尔频率滤波器，使信号输出近似于梅尔标度，最后进行离散余弦变换得到M阶梅尔倒谱系数。

需要说明的是，关于MFCC的处理公式为现有技术，在此不再展开赘述。

进一步地，图5示意性示出了根据本申请实施例的利用TAM模型提取语音帧特征的方法流程图。

如图5所示，该实施例的包括操作S410～操作S430。

在操作S410，将P个音节的边界信息以及语音的基频信息输入TAM模型。

其中，边界信息是通过利用强制对齐工具得到的，强制对齐工具例如MFA工具，可将音节划分出来。本申请中提到的“音节”可以理解为元音音素和辅音音素组合发音的最小语音单位，例如，在汉语中，一个字可以代表一个音节；再例如，在英语中，一个元音因素和至少一个辅音音素组成一个音节。而发音边界信息内包括每个音节的起始时间，每个音节均存在一个持续的发音时长，即后文提到的音节持续时长，根据音节持续的时长，可以计算出TAM参数组，具体参考操作S420。

本申请中，利用强制对齐工具将语音帧划分为P个音节，得到P个音节的边界信息。

语音的基频信息是通过利用自相关函数算法得到的，基频信息为每帧的赫兹数，自相关函数算法是现有技术中提取语音基频信息的通用算法，例如使用Praat，可将语音信号进行分析、标注和处理，并生成各种语图和文字报表。本申请中，利用自相关函数算法得到所述语音的基频信息。

在操作S420，将每个音节的持续时长作为线性函数进行计算，得到至少一组TAM参数组，其中，TAM参数组内包括四组参数，分别为线性函数的斜率和偏移量，以及时间常数和音节的持续时间。

在一个音节的时间间隔内，即音节的持续时间内，可以近似的看作线性函数：

x(t)＝mt+b

根据线性函数的计算，每个计算结果中必然存在一组TAM参数组，即上面公式中的斜率m和偏移量b。

将每个音节根据时间的变化的函数设为f₀(t)，f₀(t)被建模为N阶线性系统，可以得到下面公式：

f₀(t)＝(mt+b)+(c′₀+c′₁t+…+c′_N-1t^N-1)e^-t/τ

时间常数τ表示目标近似运动的强度。一般情况下，m的正值和负值分别表示音高的上升和下降，b的正值和负值分别表示音高相对于说话者的平均f₀水平的上升和下降。

在一个实施例中，在中文发音中有四个声调，分别为阴平、阳平、上声和去声。每个汉字均可视为一个音节，因此输入的语音信息为汉语时将可得到四个声调的排列组合。而四个声调对应线性函数中的斜率，可以简单地理解为阴平的斜率m为0、阳平的斜率m为正数、去声的斜率m为负数，由于上声最为特殊，其可能拆分为一个斜率m为负数、另一个斜率m为正数的组合，也可能因为说话者发音的原因，也近似的拆分成负数、0或正数中的一种，具体细节还依靠偏移量b进行区分。例如，在汉字发第三声时一般会压低嗓子，进而音量较小，而第二声和第四声分别发音时音量较大，因此在第三声时偏移量b求得的值会比第二声或第四声中的偏移量b更靠近于x轴，即第三声的偏移量b的值更小。

在另一个实施例中，在英文发音中例如R和F两个字母，R在发音中为升音，斜率为正数；F在发音中为降音，斜率为负数。而又因为F在发音中存在轻音，因此轻音部分可以用时间常数τ来表示，其整体发音τ的值要比R的发音中τ的值大。

在操作S430，每个音节选取一组TAM参数组，并整合P个音节的TAM参数组，得到语音帧的音高走向轮廓，语音帧的音高走向为第二特征序列，实际上也可以理解为，音高走向轮廓对应的P个音节的TAM参数组为第二特征序列。

由于在实际说话过程中不会每个发音都很标准，对一条连续音走向轮廓进行音节截取时，由于截取的位置不同、参考的点位不同、计算法则不同均可能会得到很多组TAM参数组。

例如，在对一条连续曲线划分时，选择的截取的长度会对结果产生影响，越短越精确，但计算量也会增加。

再例如，在对一条连续曲线划分时，若截距的长度较大，则截取段可能也是一个曲线，可以以此曲线的两端的端点为参考点划线，此线段视为该曲线的表达；当然，也可以以曲线整体作为参考划线，此线段的两侧可大致平分该曲线。

在此步骤中，可以随意选择一种计算TAM参数组的方式，得到一组TAM参数组，并将此作为语音帧的音高走向轮廓，即第二特征序列。

当然，还可以进一步地优化，选择与原始音高走向轮廓最为接近的一个音高走向轮廓作为第二特征序列。TAM模型实质为基频生成模型，最终将所有音节的音高计算出后，合并生成一个基频轮廓，即音高走向轮廓，将生成的所有基频轮廓与原始的基频轮廓比对，得到最为接近的基频轮廓，具体处理方法如下。

首先处理语音帧得到原始音高走向轮廓，然后将多组语音帧的音高走向轮廓与原始音高走向轮廓进行比对，得到最优语音帧的音高走向轮廓，其中，多组语音帧的音高走向轮廓是由选取音节时不同TAM参数组整合得到的，最后将最优语音帧的音高走向轮廓作为第二特征序列。

在比对过程中，可通过计算多组语音帧的音高走向轮廓与原始音高走向轮廓的欧式距离以及引入正则化系数后的加和，对得到多组计算结果进行比较，选取多组计算结果中的最小的计算结果所对应的语音帧的音高走向轮廓作为最优语音帧的音高走向轮廓。

具体的，可以用到下面的联合优化最小化的函数公式：

上述公式中，加号之前的第一项为欧式距离，是原始音高走向轮廓与每组语音帧的音高走向轮廓相减后的平方，t可以每10ms采集一次，并以k为索引。加号之后的第二项为正则化项，其为TAM参数与音高P的偏差，W是权重，S是音节的数量，λ是整体正则化因子。

根据上述语音识别方法已将客户的语音信息进行识别，将其识别结果放入关键词库中进行搜索，即可得到客户想要办理的业务。也就是说，在操作S270之后，可以执行操作S510。

图6示意性示出了根据本申请实施例的语音交互的方法流程图。

如图6所示，该实施例的包括操作S510～操作S540。图7示意性示出了根据本申请实施例的语音识别关键字的原理图，其中包括操作S210-操作S520的步骤原理，可以认为，此操作均在服务器上执行。

在操作S510，接收识别结果并在关键词库中匹配搜索；

在操作S520，在匹配到关键词时输出所有的X个关键词；

在操作S530，响应于被选中的关键词b，输出与关键词b关联的Y个业务选项，其中，关键词b为X个关键词中的一个；

在操作S540，响应于被选中的业务c打印号票，号票上附带有业务c的文字内容。

将识别结果与关键词库做匹配搜索，最终将匹配到的关键词下的业务选项短语输出供客户选择，当客户选择后，再将所选的关键词关联的文字内容打印在号票上。

进一步地，考虑到客户可能为外国人，本申请的终端设备可输入任意语种，在进行识别后找到关键词，并将关键词下关联的业务选项供客户选择，此时为了方便客户，提供的业务选项与输入的语种为相同语种，例如客户使用的是英语，则业务选项推送的结果以英文形式输出。但由于办理业务的人员可能不熟悉英语，因此在号票上会将被选中的业务选项翻译为该业务人员熟悉的语种，以加快两者之间的沟通以及加快办理流程。

也就是说，关键词b关联的Y个业务选项的文字与号票上附带的业务c的文字可以为不同语种。当然，也可以为相同语种，省去客户与办理人员之间的过多无效交流。

上述为找到至少一个关键词的情况，在没有匹配到关键词时输出第一提示信息，第一提示信息为重新语音输入请求。例如，第一提示信息为“没有找到相关业务，请再问一遍”。

为了加快流程，在客户选中办理的业务选项后，可以进一步地询问或提示客户办理的相关证件和流程。此过程可以作为第二提示信息输出，并需要在客户进行“是”或“否”的判断后再执行号票打印，也可以仅以提示形式输出。

第一提示信息和/或第二提示信息可以为文字提示或语音提示。

下述为一个具体场景中对客户、银行智能自助终端机以及后台服务器的语音交互方法的使用流程。

在操作S601，客户在银行智能自助终端机上点击进入交互界面。

在操作S602，银行智能自助终端机给出语音信息，提示客户语音提问。

在操作S603，客户输入语音信息。

例如，“I want to apply for a card”。

在操作S604，银行智能自助终端机响应于输入语音信息，将语音信息发送到服务器。

在操作S605，服务器对语音信息进行识别并在关键词库中进行关键词搜索。

例如，其中“card”设置为关键词。

在操作S606，服务器判断是否匹配到关键词，在没有匹配到关键词时执行操作S607，在匹配到关键词时执行操作S608。

在操作S607，向银行智能自助终端发送失败指令和第一提示信息，并返回操作S602。

例如，第一提示信息为屏幕提示，内容为“Keyword not found，Please askagain”。

在操作S608，选出关键词相关的业务选项，并发送到银行智能自助终端机供客户选择。

例如，业务选项为“Credit Card”、“Debit Card”。

在操作S609，银行智能自助终端判断客户是否进行了业务选择，在没有选择时执行操作S610，在选择时执行操作S611。

此操作中可以限定客户选择的时间，例如给予客户30s的思考选择时间，若超出时长，则判定客户没有做出选择。

在操作S610，响应于超出时长，发出第三提示信息并返回操作S602。

例如，第三提示信息为“Please ask again”。

在操作S611，响应于客户的选择发出第二提示信息，翻译客户选择的业务选项并打印在号票上。

例如，客户选择了“Debit Card”，可对应翻译为“新办借记卡业务”，将“新办借记卡业务”打印在号票上并提示办理新借记卡业务的流程和证件。

基于上述语音识别方法，本申请还提供了一种数据处理系统。以下将结合图8对该装置进行详细描述。

图8示意性示出了根据本申请实施例的数据处理系统的结构框图。

如图8所示，该实施例的数据处理系统800包括语音接收模块810、特征提取模块820、特征处理模块830、候选词生成模块840、候选词处理模块850、得分处理模块860和识别输出模块870。

识别输出模块用于接收语音输入并进行预处理。在一个实施例中，识别输出模块可以用于执行前文描述的操作S210，在此不再赘述。

特征提取模块820用于利用MFCC和TAM模型分别提取语音帧特征，得到第一特征序列和第二特征序列。在一个实施例中，特征提取模块820可以用于执行前文描述的操作S220，在此不再赘述。

特征处理模块830用于将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中，输出每个音素的概率，其中，每个音素与发音词典的单词之间形成映射关系。在一个实施例中，特征处理模块830可以用于执行前文描述的操作S230，在此不再赘述。

候选词生成模块840用于根据每个音素的概率生成M个候选词序列，其中，候选词为发音词典内的单词。在一个实施例中，候选词生成模块840可以用于执行前文描述的操作S240，在此不再赘述。

候选词处理模块850用于通过语音模型对M个候选词序列进行概率处理，对应生成N个得分，M等于N。在一个实施例中，候选词处理模块850可以用于执行前文描述的操作S250，在此不再赘述。

得分处理模块860通过CTC算法对N个得分进行处理，得到N个得分中最高得分i对应的候选词序列a，i属于N，a属于M。在一个实施例中，得分处理模块860可以用于执行前文描述的操作S260，在此不再赘述。

识别输出模块870将候选词序列a作为识别结果输出。在一个实施例中，识别输出模块870可以用于执行前文描述的操作S270，在此不再赘述。

根据本申请的实施例，语音接收模块810、特征提取模块820、特征处理模块830、候选词生成模块840、候选词处理模块850、得分处理模块860和识别输出模块870中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本申请的实施例，语音接收模块810、特征提取模块820、特征处理模块830、候选词生成模块840、候选词处理模块850、得分处理模块860和识别输出模块870中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，语音接收模块810、特征提取模块820、特征处理模块830、候选词生成模块840、候选词处理模块850、得分处理模块860和识别输出模块870中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图9示意性示出了根据本申请实施例的适于实现语音识别方法的电子设备的方框图。

如图9所示，根据本申请实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本申请实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本申请实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本申请实施例的方法流程的各种操作。

根据本申请的实施例，电子设备900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

根据本申请的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本申请的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

本申请的实施例中还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本申请实施例中所提供的方法。

在该计算机程序被处理器901执行时执行本申请实施例的系统/装置中限定的上述功能。根据本申请的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本申请实施例的系统中限定的上述功能。根据本申请的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本申请的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例中提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“实例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上对本申请的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本申请的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本申请的范围由所附权利要求及其等同物限定。不脱离本申请的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本申请的范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

接收语音输入并进行预处理；

将候选词序列a作为识别结果输出。

2.根据权利要求1所述的语音识别方法，其特征在于，利用MFCC提取语音帧特征，得到第一特征序列，包括：

利用快速傅里叶变换，生成线性频谱；

3.根据权利要求2所述的语音识别方法，其特征在于，在利用TAM模型提取语音帧特征之前，所述方法还包括：

4.根据权利要求3所述的语音识别方法，其特征在于，利用TAM模型提取语音帧特征，得到第二特征序列，包括：

5.根据权利要求4所述的语音识别方法，其特征在于，利用TAM模型提取语音帧特征，得到第二特征序列，还包括：

处理语音帧得到原始音高走向轮廓；

将最优语音帧的音高走向轮廓作为第二特征序列。

6.根据权利要求5所述的语音识别方法，其特征在于，将多组语音帧的音高走向轮廓与原始音高走向轮廓进行比对，得到最优语音帧的音高走向轮廓，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中进行处理，输出每个音素的概率，包括：

8.一种语音交互方法，其特征在于，包括：

接收识别结果并在关键词库中匹配搜索；

在匹配到关键词时输出所有的X个关键词；

9.根据权利要求8所述的语音交互方法，其特征在于，所述关键词b关联的Y个业务选项的文字与所述号票上附带的业务c的文字为不同语种。

10.根据权利要求9所述的语音交互方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的语音交互方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的语音交互方法，其特征在于，所述第一提示信息和/或所述第二提示信息为文字提示或语音提示。

13.一种数据处理系统，包括：

语音接收模块，被配置为接收语音输入并进行预处理；

特征提取模块，被配置为：利用MFCC和TAM模型分别提取语音帧特征，得到第一特征序列和第二特征序列；

特征处理模块，被配置为：将第一特征序列和第二特征序列输入双向长短期记忆人工神经网络中，输出每个音素的概率，其中，每个音素与发音词典的单词之间形成映射关系；

候选词生成模块，被配置为：根据每个音素的概率生成M个候选词序列，其中，候选词为发音词典内的单词；

候选词处理模块，被配置为：通过语音模型对M个候选词序列进行概率处理，对应生成N个得分，M等于N；

得分处理模块，被配置为：通过CTC算法对N个得分进行处理，得到N个得分中最高得分i对应的候选词序列a，i属于N，a属于M；

识别输出模块，被配置为将候选词序列a作为识别结果输出。

14.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～12中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～12中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～12中任一项所述的方法。