CN109979439A

CN109979439A - 基于区块链的语音识别方法、装置、介质及电子设备

Info

Publication number: CN109979439A
Application number: CN201910220556.4A
Authority: CN
Inventors: 李夫路; 梁爽; 刘新宇
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-07-05
Anticipated expiration: 2039-03-22
Also published as: CN109979439B

Abstract

本发明实施例提供了一种基于区块链的语音识别方法、装置、介质及电子设备，该基于区块链的语音识别方法包括：在区块链中存储标注的历史语音数据；若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息；其中，所述声学模型和所述语言模型采用所述区块链中标注的历史语音数据训练获得。本发明实施例的技术方案能够采用区块链技术来存储用户的语音数据，并能够基于存储的历史语音数据进行当前语音的识别。

Description

基于区块链的语音识别方法、装置、介质及电子设备

技术领域

本发明涉及电数据处理技术领域，具体而言，涉及一种基于区块链的语音识别方法、装置、介质及电子设备。

背景技术

现有技术中，语音识别技术已经在多种应用场景中采用，例如智能手机和平板电脑上的语音识别机器人、电商购物平台的语音助手辅助用户购物等。

但是，在语音识别过程中，会将语音相关信息存储至数据库中，现有的中心化的存储方式容易被攻击，且数据存储结构简单，容易被篡改，用户在语音识别过程中容易信息泄露，导致用户信息被篡改，识别结果出错。

此外，目前并未有专门针对老年人这个特殊群体进行优化识别的语音识别技术，老年人相比于普通人，声音低沉、含糊不清、带有浓重的地方方言特色发音等特点，均使得其语音信号更难以被准确识别。

因此，需要一种新的语音识别方法、装置、计算机可读介质及电子设备。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种基于区块链的语音识别方法、装置、介质及电子设备，进而至少在一定程度上克服相关技术中存在的中心化存储语音信息带来的安全性不够的问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本公开的一个方面，提供一种基于区块链的语音识别方法，包括：在区块链中存储标注的历史语音数据；若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息；其中，所述声学模型和所述语言模型采用所述区块链中标注的历史语音数据训练获得。

在本公开的一种示例性实施例中，所述标注的历史语音数据包括历史语音信息、从所述历史语音信息中提取的历史声学特征以及作为所述历史语音信息的标签的历史音素信息；所述声学模型为长短期记忆网络模型；所述方法还包括：将所述历史声学特征及其历史音素信息作为第一训练数据集；利用所述第一训练数据集，并采用连接时序分类作为训练过程中的损失函数训练所述长短期记忆网络模型。

在本公开的一种示例性实施例中，所述语言模型为递归神经网络模型；所述标注的历史语音数据还包括作为所述历史音素信息的标签的历史文本信息；所述方法还包括：将所述历史音素信息及其历史文本信息作为第二训练数据集；利用所述第二训练数据集训练所述递归神经网络模型。

在本公开的一种示例性实施例中，采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息，包括：提取所述当前语音信息的当前声学特征；将所述当前声学特征输入至所述长短期记忆网络模型，输出当前音素信息；将所述当前音素信息输入至所述递归神经网络模型，输出所述当前文本信息。

在本公开的一种示例性实施例中，所述标注的历史语音数据包括目标区域目标人群的方言语音信息和作为所述方言语音信息的标签的方言文本信息；所述方法还包括：将所述方言语音信息及其方言文本信息作为第三训练数据集；利用所述第三训练数据集训练所述声学模型和所述语言模型；其中，所述当前语音信息采集自所述目标区域的所述目标人群。

在本公开的一种示例性实施例中，所述方法还包括：从所述区块链中采集所述目标区域的所述目标人群的方言词语；对所述方言词语进行处理建立多个二部图；获得所述多个二部图中的最佳匹配；根据获得的最佳匹配确定相应方言语音信息的方言文本信息。

在本公开的一种示例性实施例中，对所述方言词语进行处理建立多个二部图，包括：将各方言词语分别拆分成多个独立的子集，其中每个子集中的元素没有相连的边；根据所述目标区域的方言词语之间的固定搭配确定不同子集中元素的连接关系，形成二部图的边；获得各边的子集之间的关联概率，并将所述关联概率作为相应边的权重。

根据本公开的一个方面，提供一种基于区块链的语音识别装置，包括：历史语音数据存储模块，用于在区块链中存储标注的历史语音数据；当前文本信息识别模块，用于若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息；其中，所述声学模型和所述语言模型采用所述区块链中标注的历史语音数据训练获得。

根据本公开的一个方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的基于区块链的语音识别方法。

根据本公开的一个方面，提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一实施例所述的基于区块链的语音识别方法。

本发明实施例提供的技术方案可以包括以下有益效果：

在本发明的一些实施例所提供的技术方案中，一方面，通过利用区块链技术来存储标注的历史语音数据和待识别的当前语音数据，可以实现去中心化的存储方式，具有隐私保护、可追溯、防篡改等特点，保证了存储的数据的安全性和可靠性，从而可以防止语音识别过程中用户数据的信息泄露，提高了语音识别的安全性和准确性；另一方面，可以基于区块链中存储的标注的历史语音数据训练声学模型和语言模型，并在区块链中生成新区块的同时，触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息，从而可以实现语音识别功能。

在本发明的另一些实施例所提供的技术方案中，若区块链中存储的标注的历史语音数据均采集自目标人群，例如该目标人群为老年人群体，则训练过程中，模型会自动优化老年人的语音(例如具有口齿不清、语音含糊、语调低沉乏力等特点)，进而可以提高老年人语音识别的准确性。更进一步的，若该老年人群体的语音数据具有目标区域的方言夹杂在其中，则还可以利用二部图关联迭代优化分析的方法确定该目标区域的方言的固定搭配，并利用二部图获得的最佳匹配作为训练数据训练所述声学模型和所述语言模型，从而可以使得模型具有该目标区域的方言识别能力，提高了方言语音识别的准确性，从而可以有力促进区块链技术应用在老年人语音识别方面。随着区块链技术在老年人语音识别、医疗养老和理财服务管理、保险、金融、物流等多个领域的广泛应用，该方案将可以带来可观的经济效益和社会效益。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本发明的一个实施例的基于区块链的语音识别方法的流程图；

图2示意性示出了根据本发明的另一个实施例的基于区块链的语音识别方法的流程图；

图3示意性示出了根据本发明的另一个实施例的基于区块链的语音识别方法的流程图；

图4示意性示出了图1中的步骤S120的一个实施例的流程图；

图5示意性示出了根据本发明的又一个实施例的基于区块链的语音识别方法的流程图；

图6示意性示出了根据本发明的再一个实施例的基于区块链的语音识别方法的流程图；

图7示意性示出了根据本发明的一个实施例的基于区块链的语音识别装置的框图；

图8示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。

区块链本质上是一个去中心化的数据库。区块链是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一次比特币网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

狭义来讲，区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构，并以密码学方式保证的不可篡改和不可伪造的分布式账本。

广义来讲，区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算方式。

一般说来，区块链系统由数据层、网络层、共识层、激励层、合约层和应用层组成。其中，数据层封装了底层数据区块以及相关的数据加密和时间戳等基础数据和基本算法；网络层则包括分布式组网机制、数据传播机制和数据验证机制等；共识层主要封装网络节点的各类共识算法；激励层将经济因素集成到区块链技术体系中来，主要包括经济激励的发行机制和分配机制等；合约层主要封装各类脚本、算法和智能合约，是区块链可编程特性的基础；应用层则封装了区块链的各种应用场景和案例。该模型中，基于时间戳的链式区块结构、分布式节点的共识机制、基于共识算力的经济激励和灵活可编程的智能合约是区块链技术最具代表性的创新点。

本发明实施例提出的一种基于区块链的语音识别方法，可以在区块链网络中有效实现语音识别。其可以利用区块链哈希指针的交易链数据结构和加密学的哈希计算和加密学数字签字的机制，实现交易过程中的多层次证据确认，从而来实现不同个体交易方之间的信任问题。同时，利用区块链存储语音数据，还可以具有隐私保护、可追溯和防篡改等特点。

图1示意性示出了根据本发明的一个实施例的基于区块链的语音识别方法的流程图，该基于区块链的语音识别方法的执行主体可以是具有计算处理功能的设备，如服务器和/或移动终端等。

如图1所示，本发明实施方式提供的基于区块链的语音识别方法可以包括以下步骤。

在步骤S110中，在区块链中存储标注的历史语音数据。

本发明实施例中，所述方法还可以包括区块链节点及区块链网络的构建步骤，用于负责区块链节点以及区块链网络的构建、更新和维护。例如，以某集团的某个分支机构为最小节点，一个或多个大型集团/公司参与目标区域的目标人群例如北京地区的老年人语音识别交易区块链网络构建。

本发明实施例中，所述方法还可以包括预先定义信息存储和信息认证数据格式，即按照本发明实施例定义的数据结构方式、信息存储方式和协议来存储和认证共享信息等，以保证信息存储和信息处理的高效率。

本发明实施例中，在系统中注册的企业(例如，可以是养老机构、康复医院、相关医疗机构、保险公司等)或个人将目标区域的目标人群例如北京地区的老年人的历史语音信息及其标注的历史文本信息等信息上传至区块链。在其他实施例中，可以用于帮助进一步确认老年人语音识别的相关图片或视频等信息也可以上传至区块链。

在示例性实施例中，还可以将该目标区域的目标人群例如北京地区的老年人的方言语音信息及其标注的方言文本信息上传至区块链。

另一些实施例中，还可以将所述目标区域的目标人群的历史语音信息对应的场景信息和/或主题词信息等也上传至区块链。其中，所述场景信息例如可以是老年人在采集某一段历史语音信息时所处的不同场合，可以是在家中、在户外、在海滩、在超市等任意场景。所述主题词信息例如可以是老年人采集的某一段历史语音信息的主题，例如主题词可以是看病、锻炼、买菜、就餐等。

本发明实施例采用区块链存储数据，可以具有隐私保护(例如可以通过权限管理、图片或视频加水印、加密等技术手段)、公开透明、可追溯、不易篡改等特点。

需要说明的是，在上述举例说明中，均是以目标区域的老年人语音数据为例进行说明的，从而使得下述训练完成后的模型更适用于老年人的语音识别，但本发明并不限定于此，若采集的语音数据为普通人，例如北京地区的中青年人或者儿童，则所述方案也可以用于普通人的语音识别。

在步骤S120中，若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息。

其中，所述声学模型和所述语言模型可以采用所述区块链中标注的历史语音数据训练获得。

本发明实施例中，一个老年人语音识别交易信息的输入可以是在系统中注册的企业或个人上传的老年人当前语音信息、场景信息、主题词信息等信息，打标注的老年人历史语音信息、标注的文本信息、场景信息、主题词信息、方言语音信息、标注的方言文本信息等历史数据，相关人员的公开密钥和签字，一个交易的输出可以是系统通过自动优化和准确识别老年人的当前语音信息(口齿不清、语音含糊、语调低沉乏力等特点)而转换成的当前文本信息、相关信息访问者的公开密钥(账户地址)等，例如如下表1所示：

表1

本发明实施方式提供的基于区块链的语音识别方法，一方面，通过利用区块链技术来存储标注的历史语音数据和待识别的当前语音数据，可以实现去中心化的存储方式，具有隐私保护、可追溯、防篡改等特点，保证了存储的数据的安全性和可靠性，从而可以防止语音识别过程中用户数据的信息泄露，提高了语音识别的安全性和准确性；另一方面，可以基于区块链中存储的标注的历史语音数据训练声学模型和语言模型，并在区块链中生成新区块的同时，触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息，从而可以实现语音识别功能。

图2示意性示出了根据本发明的另一个实施例的基于区块链的语音识别方法的流程图。

如图2所示，与上述图1所示实施例的不同之处在于，本发明实施例提供的基于区块链的语音识别方法还可以包括以下步骤。

在步骤S210中，将所述历史声学特征及其历史音素信息作为第一训练数据集。

在示例性实施例中，所述标注的历史语音数据可以包括历史语音信息、从所述历史语音信息中提取的历史声学特征以及作为所述历史语音信息的标签的历史音素信息。

在示例性实施例中，所述声学模型可以为长短期记忆网络(Long Short-TermMemory，LSTM)模型，但本发明并不限定于此，在其他实施例中，也可以采用其他深度学习的网络模型。

本发明实施例中，若待识别的语音数据为汉语，则汉语一般直接用全部声母和韵母作为音素集，但本发明并不限定所识别的语音数据的语言类型。

在步骤S220中，利用所述第一训练数据集，并采用连接时序分类(ConnectionistTemporal Classification，CTC)作为训练过程中的损失函数训练所述长短期记忆网络模型。

本发明实施例中，所述声学模型基于LSTM+CTC，即采用神经网络的端到端的声学模型训练方法。首先建立LSTM模型，采用CTC作为损失函数进行模型训练，设置N(N为大于等于1的正整数，其具体取值需要调参确认)个隐藏节点，从原始的老年人音频文件中提取声学特征，作为LSTM的模型输入，将正确的音素序列作为模型的标签，学习模型参数。其中，CTC是一种损失函数，它用来衡量输入的序列数据经过神经网络之后，和真实的输出相差有多少。

其中，传统的语音识别的声学模型训练，对于每一帧的数据，需要知道对应的label(标签)才能进行有效的训练，在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代，来确保对齐更准确，这本身就是一个比较耗时的工作。

与传统的声学模型训练相比，采用CTC作为损失函数的声学模型训练，是一种完全端到端的声学模型训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注，并且CTC直接输出序列预测的概率，不需要外部的后处理。

其中，LSTM即长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。本发明实施例中，通过基于CTC训练的LSTM声学模型大幅提升了语音识别的能力。

图3示意性示出了根据本发明的又一个实施例的基于区块链的语音识别方法的流程图。

如图3所示，与上述实施例的不同之处在于，本发明实施例提供的基于区块链的语音识别方法还可以包括以下步骤。

在步骤S310中，将所述历史音素信息及其历史文本信息作为第二训练数据集。

在示例性实施例中，所述语言模型可以为递归神经网络(Recurrent NeuralNetwork，RNN)模型，但本发明并不限定于此，在其他实施例中，也可以采用其他深度学习的网络模型。

在示例性实施例中，所述标注的历史语音数据还可以包括作为所述历史音素信息的标签的历史文本信息。

在步骤S320中，利用所述第二训练数据集训练所述递归神经网络模型。

本发明实施例中，进行RNN语言模型的训练，可以将区块链中存储的大量的历史语音数据的历史音素信息及其历史文本信息作为训练数据，建立RNN语言模型，即对n(n为大于等于1的正整数，n可以是一个句子的长度，由句子长短来决定)元语言模型进行建模，估计P(w_i|w_i-n+1,w_i-n+2,...w_i-1)的概率，其中w_i为一句话中对应的第i个字或词，i为大于等于1的正整数。即给定之前w_i-n+1，w_i-n+2，…，w_i-1个字，当前字是w_i的概率。

训练完成的该RNN模型为语音识别中的语言模型，其用于根据声学模型输出的结果，给出概率最大的文字序列。

图4示意性示出了图1中的步骤S120的一个实施例的流程图。

如图4所示，上述图1实施例中的步骤S120可以进一步包括以下步骤。

在步骤S121中，提取所述当前语音信息的当前声学特征。

本发明实施例中，可以采用MFCCs(Mel Frequency Cepstral Coefficents，梅尔频率倒谱系数)来提取所述当前语音信息的当前声学特征，即将当前语音信息的音频信号中具有辨识性的成分提取出来，去除背景噪声、情绪等。

在步骤S122中，将所述当前声学特征输入至所述长短期记忆网络模型，输出当前音素信息。

在步骤S123中，将所述当前音素信息输入至所述递归神经网络模型，输出所述当前文本信息。

本发明实施例中，在进行语音识别时，声学模型根据输入的音频信号，预测与之对应的概率值最大的音素序列，再利用语言模型进行解码分析，最后输出文本，实现老年人语音识别。

图5示意性示出了根据本发明的再一个实施例的基于区块链的语音识别方法的流程图。

如图5所示，与上述实施例的不同之处在于，本发明实施例提供的基于区块链的语音识别方法还可以包括以下步骤。

在步骤S510中，将所述方言语音信息及其方言文本信息作为第三训练数据集。

在示例性实施例中，所述标注的历史语音数据可以包括目标区域目标人群的方言语音信息和作为所述方言语音信息的标签的方言文本信息。

在步骤S520中，利用所述第三训练数据集训练所述声学模型和所述语言模型。

其中，所述当前语音信息采集自所述目标区域的所述目标人群。例如，所述目标区域可以是北京，所述目标人群可以是老年人群体，但本发明并不限定于此。

图6示意性示出了根据本发明的再一个实施例的基于区块链的语音识别方法的流程图。

如图6所示，与上述实施例的不同之处在于，本发明实施例提供的基于区块链的语音识别方法还可以包括以下步骤。

在步骤S610中，从所述区块链中采集所述目标区域的所述目标人群的方言词语。

在步骤S620中，对所述方言词语进行处理建立多个二部图。

在步骤S630中，获得所述多个二部图中的最佳匹配。

在示例性实施例中，对所述方言词语进行处理建立多个二部图，可以包括：将各方言词语分别拆分成多个独立的子集，其中每个子集中的元素没有相连的边；根据所述目标区域的方言词语之间的固定搭配确定不同子集中元素的连接关系，形成二部图的边；获得各边的子集之间的关联概率，并将所述关联概率作为相应边的权重。

本发明实施例中，采集区块链中特殊的方言词语，根据固定搭配与表达建立多个二部图网络，可以利用KM(由Kuhn和Munkras提出的)算法求解二部图最佳匹配，根据匹配权重统计得到文本中特殊方言单个字或词之间的关联的概率p(w_j|w_j-1)，j为大于等于2的正整数。这个概率是二部图边的权重，用于求最佳匹配。对方言中的固定搭配与表达进行关联性分析。

具体，收集目标区域特殊方言词语，例如AB，CD，EF，GH，AD，EH(每个阿拉伯大写字母代表一个特定的汉字)，例如：北京方言中的点卯(意为打个照面儿)，擦黑(意为太阳刚刚落山)。然后将A，B，C，D，E，F，G，H分成两个独立的子集，每个子集中的元素没有相连的边，根据词语的固定搭配确定不同子集中元素的连接关系，由此形成二部图。对该例来说，子集X＝{ACEG}，Y＝{BDFH}，连接关系是A-B，A-D，C-D，E-F，G-H，收集特殊方言的语料文本，例如计算p(w_j|w_j-1)＝p(B|A)＝n(AB)/n(A)作为二部图中A-B边的权重，其中n(AB)表示A和B在语料文本中的共现频率，n(A)表示A在所述语料文本中的出现频率，同理可计算其他边的权重。然后根据KM算法找到使得二部图权重最大的一组最佳匹配。这里一个匹配是一个边的集合，其中任意两条边都没有公共顶点。这里最佳匹配指的是一个图所有匹配中，所含匹配边数最多的匹配。

在步骤S640中，根据获得的最佳匹配确定相应方言语音信息的方言文本信息。

本发明实施例中，所述方法还可以包括：评估老年人语音识别系统的及时性、有效性和准确性，基于语音识别文字的二部图关联迭代优化分析和基于语音信号特点的深度学习的方法的可用性，以期通过在区块链网络中有效实现老年人语音识别，从而有力促进区块链技术应用在老年人语音识别方面。

本发明实施方式提供的基于区块链的语音识别方法，若区块链中存储的标注的历史语音数据均采集自目标人群，例如该目标人群为老年人群体，则训练过程中，模型会自动优化老年人的语音(例如具有口齿不清、语音含糊、语调低沉乏力等特点)，进而可以提高老年人语音识别的准确性。更进一步的，若该老年人群体的语音数据具有目标区域的方言夹杂在其中，则还可以利用二部图关联迭代优化分析的方法确定该目标区域的方言的固定搭配，并利用二部图获得的最佳匹配作为训练数据训练所述声学模型和所述语言模型，从而可以使得模型具有该目标区域的方言识别能力，提高了方言语音识别的准确性，从而可以有力促进区块链技术应用在老年人语音识别方面。随着区块链技术在老年人语音识别、医疗养老和理财服务管理、保险、金融、物流等多个领域的广泛应用，该方案将可以带来可观的经济效益和社会效益。

以下介绍本发明的装置实施例，可以用于执行本发明上述的基于区块链的语音识别方法。

图7示意性示出了根据本发明的一个实施例的基于区块链的语音识别装置的框图。

如图7所示，本发明实施方式提供的基于区块链的语音识别装置700可以包括历史语音数据存储模块710以及当前文本信息识别模块720。

其中，历史语音数据存储模块710可以用于在区块链中存储标注的历史语音数据。

当前文本信息识别模块720可以用于若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息。

其中，所述声学模型和所述语言模型采用所述区块链中标注的历史语音数据训练获得。

在示例性实施例中，所述标注的历史语音数据可以包括历史语音信息、从所述历史语音信息中提取的历史声学特征以及作为所述历史语音信息的标签的历史音素信息；所述声学模型可以为长短期记忆网络模型。

在示例性实施例中，基于区块链的语音识别装置700还可以包括：第一训练数据集获得模块，可以用于将所述历史声学特征及其历史音素信息作为第一训练数据集；声学模型训练模块，可以用于利用所述第一训练数据集，并采用连接时序分类作为训练过程中的损失函数训练所述长短期记忆网络模型。

在示例性实施例中，所述语言模型可以为递归神经网络模型；所述标注的历史语音数据还可以包括作为所述历史音素信息的标签的历史文本信息；

在示例性实施例中，基于区块链的语音识别装置700还可以包括：第二训练数据集获得模块，可以用于将所述历史音素信息及其历史文本信息作为第二训练数据集；语言模型训练模块，可以用于利用所述第二训练数据集训练所述递归神经网络模型。

在示例性实施例中，当前文本信息识别模块720可以包括：特征提取单元，可以用于提取所述当前语音信息的当前声学特征；音素信息预测单元，可以用于将所述当前声学特征输入至所述长短期记忆网络模型，输出当前音素信息；文本信息预测单元，可以用于将所述当前音素信息输入至所述递归神经网络模型，输出所述当前文本信息。

在示例性实施例中，基于区块链的语音识别装置700还可以包括：第三训练数据集获得模块，可以用于将所述方言语音信息及其方言文本信息作为第三训练数据集；模型训练模块，可以用于利用所述第三训练数据集训练所述声学模型和所述语言模型；其中，所述当前语音信息采集自所述目标区域的所述目标人群。

在示例性实施例中，基于区块链的语音识别装置700还可以包括：方言采集模块，可以用于从所述区块链中采集所述目标区域的所述目标人群的方言词语；二部图建立模块，可以用于对所述方言词语进行处理建立多个二部图；最佳匹配获得模块，可以用于获得所述多个二部图中的最佳匹配；方言文本确定模块，可以用于根据获得的最佳匹配确定相应方言语音信息的方言文本信息。

在示例性实施例中，所述二部图建立模块可以包括：子集生成单元，可以用于将各方言词语分别拆分成多个独立的子集，其中每个子集中的元素没有相连的边；二部图边生成单元，可以用于根据所述目标区域的方言词语之间的固定搭配确定不同子集中元素的连接关系，形成二部图的边；边权重获得单元，可以用于获得各边的子集之间的关联概率，并将所述关联概率作为相应边的权重。

由于本发明的示例实施例的基于区块链的语音识别装置的各个功能模块与上述基于区块链的语音识别方法的示例实施例的步骤对应，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的基于区块链的语音识别方法的实施例。

下面参考图8，其示出了适于用来实现本发明实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备的计算机系统800仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分807加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分807。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块或者单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块或者单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该模块或者单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的基于区块链的语音识别方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S110，在区块链中存储标注的历史语音数据；步骤S120，若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息；其中，所述声学模型和所述语言模型采用所述区块链中标注的历史语音数据训练获得。

又如，所述的电子设备可以实现如图2至图6所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于区块链的语音识别方法，其特征在于，包括：

在区块链中存储标注的历史语音数据；

若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息；

2.根据权利要求1所述的方法，其特征在于，所述标注的历史语音数据包括历史语音信息、从所述历史语音信息中提取的历史声学特征以及作为所述历史语音信息的标签的历史音素信息；所述声学模型为长短期记忆网络模型；

所述方法还包括：

将所述历史声学特征及其历史音素信息作为第一训练数据集；

利用所述第一训练数据集，并采用连接时序分类作为训练过程中的损失函数训练所述长短期记忆网络模型。

3.根据权利要求2所述的方法，其特征在于，所述语言模型为递归神经网络模型；所述标注的历史语音数据还包括作为所述历史音素信息的标签的历史文本信息；

所述方法还包括：

将所述历史音素信息及其历史文本信息作为第二训练数据集；

利用所述第二训练数据集训练所述递归神经网络模型。

4.根据权利要求3所述的方法，其特征在于，采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息，包括：

提取所述当前语音信息的当前声学特征；

将所述当前声学特征输入至所述长短期记忆网络模型，输出当前音素信息；

将所述当前音素信息输入至所述递归神经网络模型，输出所述当前文本信息。

5.根据权利要求1所述的方法，其特征在于，所述标注的历史语音数据包括目标区域目标人群的方言语音信息和作为所述方言语音信息的标签的方言文本信息；

所述方法还包括：

将所述方言语音信息及其方言文本信息作为第三训练数据集；

利用所述第三训练数据集训练所述声学模型和所述语言模型；

其中，所述当前语音信息采集自所述目标区域的所述目标人群。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

从所述区块链中采集所述目标区域的所述目标人群的方言词语；

对所述方言词语进行处理建立多个二部图；

获得所述多个二部图中的最佳匹配；

根据获得的最佳匹配确定相应方言语音信息的方言文本信息。

7.根据权利要求6所述的方法，其特征在于，对所述方言词语进行处理建立多个二部图，包括：

将各方言词语分别拆分成多个独立的子集，其中每个子集中的元素没有相连的边；

根据所述目标区域的方言词语之间的固定搭配确定不同子集中元素的连接关系，形成二部图的边；

获得各边的子集之间的关联概率，并将所述关联概率作为相应边的权重。

8.一种基于区块链的语音识别装置，其特征在于，包括：

历史语音数据存储模块，用于在区块链中存储标注的历史语音数据；

当前文本信息识别模块，用于若所述区块链中生成当前语音信息的新区块，则触发采用训练完成的声学模型和语言模型识别所述当前语音信息，输出与所述当前语音信息对应的当前文本信息；

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的基于区块链的语音识别方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的基于区块链的语音识别方法。