CN113611284A

CN113611284A - 语音库构建方法、识别方法、构建系统和识别系统

Info

Publication number: CN113611284A
Application number: CN202110903011.0A
Authority: CN
Inventors: 高天峰
Original assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Current assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-05
Anticipated expiration: 2041-08-06
Also published as: CN113611284B

Abstract

本申请提供了一种基于用户的语音库构建方法，可以应用于人工智能技术领域。所述构建方法包括：通过配置接口设置配置参数；采集用户的元语音数据；根据所述配置参数对所述用户的元语音数据进行分帧，并利用MFCC提取出所述用户的元语音数据的特征向量；通过LBG算法将所述特征向量进行码值计算，并生成码值文件，其中，所述码值文件与所述元语音数据形成映射关系；以及将所述码值文件命名，并放入语音库中。根据本申请的语音库构建方法，针对个人的语音习惯、词语使用范围进行设计，可脱离网络使用，满足区域隔离网络内监控中心语音识别的需要，有效识别个人方言，在一定程度上克服了现有技术中对网络依赖、语音库过大、个人语言识别困难的问题。

Description

语音库构建方法、识别方法、构建系统和识别系统

技术领域

本申请涉及人工智能领域，具体涉及语音库创建和智能识别，更具体地涉及一种基于用户的语音库构建方法、语音识别方法、构建系统、识别系统、设备、介质和程序产品。

背景技术

现有语音识别主要有在线集中通用式语音识别技术和离线语音识别技术，但由于每个用户的发音有些许差别，导致目前识别技术不能准确识别出个人方言，不具备针对个人设计的语音库。

发明内容

本申请旨在至少解决现有技术中存在的技术问题之一。

例如，本申请提供了一种基于用户的语音库构建方法，为个人离线语音识别环境提供了一种可定制地、可扩容地语音识别工具；另外，针对本申请的语音库，本申请还提供了一种语音识别方法，可作为监控场景或无键盘场景中输入技术的基础。

为了解决上述问题，本申请的第一个方面提供基于用户的语音库构建方法，包括以下步骤：

通过配置接口设置配置参数；

采集用户的元语音数据；

根据所述配置参数对所述用户的元语音数据进行分帧，并利用MFCC提取出所述用户的元语音数据的特征向量；

通过LBG算法将所述特征向量进行码值计算，并生成码值文件，其中，所述码值文件与所述元语音数据形成映射关系；以及

将所述码值文件命名，并放入语音库中。

根据本申请的语音库构建方法，针对个人的语音习惯、词语使用范围进行设计，可脱离网络使用，满足区域隔离网络内监控中心语音识别的需要，有效识别个人方言，在一定程度上克服了现有技术中对网络依赖、语音库过大、个人语言识别困难的问题。

进一步地，所述配置参数包括：

录音参数，所述录音参数用于在采集用户的元语音数据的过程中对采集的频率和采集的位数进行设置；

解析参数，所述解析参数用于在采集用户的元语音数据的过程中对每帧长度和相邻两帧的间隔长度进行设置；以及

分词参数，所述分词参数用于：根据用户的语速，设置用户的单位元语音的长度。

进一步地，在对所述用户的元语音数据进行分帧之前或之后，对所述用户的元语音数据进行端点检测。

进一步地，利用MFCC提取出所述用户的元语音数据的特征向量，包括对所述用户的元语音数据：加窗、预加重、FFT变换和梅尔频率系数计算。

进一步地，在将所述码值文件放入语音库之前，校验所述码值文件的命名和格式，

当校验成功时，将所述码值文件放入所述语音库；以及

当校验失败时，重新设置所述码值文件的命名和格式。

进一步地，所述语音库中包括多个子语音库，多个所述子语音库根据字数或/和采样的位数进行划分，所述码值文件根据生成前的字数或/和采样的位数放入对应的子语音库中，

其中，字数通过采集的位数和用户的单位元语音的长度获得。

本申请第二方面提供语音识别的方法，所述的方法基于所述的语音库，所述识别方法包括以下步骤：

通过配置接口设置配置参数；

采集用户的元语音数据；

结合所述配置参数，对所述用户的元语音数据进行分词处理，得到多段不同长度的子元语音数据；

利用matlab对每段所述子元语音数据进行端点检测；

根据端点检测结果，计算每段所述子元语音数据的码值；以及

采用欧拉距离算法，将每段所述子元语音数据以及其对应的码值与所述语音库内的码值文件逐个进行匹配。

进一步地，所述配置参数包括：

解析参数，所述解析参数用于在采集用户的元语音数据的过程中对每帧长度和相邻两帧的间隔长度进行设置；

分词参数，所述分词参数用于：根据用户的语速，设置用户的单位元语音的长度；以及

匹配参数，所述匹配参数用于对每段所述子元语音数据的端点检测，其中，所述匹配参数包括：能量上限、能量下限、过零率上限、过零率下限、最长持续静默时间和最短语音长度。

进一步地，利用matlab对每段所述子元语音数据进行端点检测，包括：

利用matlab计算出每段所述子元语音数据的短时平均过零率和短时能量，将所述短时能量和所述短时平均过零率分别与所述匹配参数作比较，得到每段所述子元语音数据的端点。

进一步地，得到每段所述子元语音数据的端点包括：

从每段所述子元语音数据的起点向后搜索元语音信号；

当满足所述短时能量大于能量上限且所述短时平均过零率也大于过零率上限时，所述端点为确信进入语音端；当满足所述短时能量大于能量上限或所述短时平均过零率大于过零率上限中的一个条件时，所述端点为可能进入语音端；

从每段所述子元语音数据的终点向前搜索元语音信号；以及

当满足所述短时能量小于能量下限且所述短时平均过零率也小于过零率下限时，所述端点为确信结束语音端；当满足所述短时能量小于能量下限或所述短时平均过零率小于过零率小限中的一个条件时，所述端点为可能结束语音端。

进一步地，结合所述子元语音数据的确信进入语音端和确信结束语音端，当所述确信进入语音端到所述确信结束语音端的持续语音长度小于最短语音长度时，剔除所述子元语音数据。

进一步地，采用欧拉距离算法，将每段所述子元语音数据以及其对应的码值与所述语音库内的码值文件逐个进行匹配，包括；

根据用户的单位元语音的长度和子元语音数据，计算出每段所述子元语音数据的字数，根据字数匹配语音库内对应的子语音库，在所述对应的子语音库内，逐个匹配所述子元语音数据对应的码值。

进一步地，在采用欧拉距离算法，将每段所述子元语音数据以及其对应的码值与所述语音库内的码值文件逐个进行匹配之前，设置欧拉距离的上临界值和下临界值。

进一步地，在匹配过程中，

当所述子元语音数据的码值与所述子语音库内的码值文件的码值做比较的结果大于上临界值时，匹配失败并将所述子元语音数据的码值与下一个码值文件做比较；

当所述子元语音数据的码值与所述子语音库内的码值文件的码值做比较的结果小于下临界值时，匹配成功并输出结果；以及

当所述子元语音数据的码值与所述子语音库内的码值文件的码值做比较的结果在上临界值与下临界值之间时，存入结果集合并将所述子元语音数据的码值与下一个码值文件做比较。

进一步地，当所述子元语音数据的码值与所述子语音库内的码值文件的码值做比较的结果大于上临界值时，匹配失败并将所述子元语音数据的码值与下一个码值文件做比较，包括：

当所述子语音库内的码值文件均匹配失败时，扩展至与所述子语音库相邻的子语音库，并重新匹配。

进一步地，当所述子语音库内的码值文件均匹配失败时，扩展至与所述子语音库相邻的子语音库，并重新匹配，包括：

在所述子元语音数据的码值与所述语音库内的码值文件均匹配失败时，确认所述语音库内是否存在所述用户的元语音数据对应的所述码值文件，

当存在时，执行第一操作，其中，所述第一操作包括：

删除所述语音库内无误的所述码值文件；以及

调整所述配置参数，并重新采集用户的元语音数据，输出新码值文件；

当不存在时，执行第二操作，所述第二操作包括：采集用户的元语音数据并输出码值文件。

进一步地，当所述子元语音数据的码值与所述子语音库内的码值文件的码值做比较的结果在上临界值与下临界值之间时，存入结果集合并将所述子元语音数据的码值与下一个码值文件做比较，包括：

查看所述结果集合内的码值文件，取欧拉距离最小的值作为输出结果。

进一步地，还包括：

查看匹配结果，在匹配结果有误时，确认所述语音库内是否存在无误的所述用户的元语音数据对应的所述码值文件，

当存在时，执行第一操作；

当不存在时，执行第二操作。

本申请第三方面提供语音库的构建系统，包括UI层、分析层以及文件读写层，

在所述UI层内，包括：参数配置模块，所述参数配置模块用于通过配置接口设置配置参数；录音模块，所述录音模块用于采集用户的元语音数据；

在所述分析层内，包括：特征提取模块，所述特征提取模块用于：根据所述配置参数对所述用户的元语音数据进行分帧，并利用MFCC提取出所述用户的元语音数据的特征向量；码值计算模块，所述码值计算模块用于：通过LBG算法将所述特征向量进行码值计算，并生成码值文件，其中，所述码值文件与所述元语音数据形成映射关系；

在所述文件读写层，包括：入库模块，所述入库模块用于将所述码值文件命名，并放入语音库中。

进一步地，在分析层还包括：端点检测模块，所述端点检测模块用于：在对所述用户的元语音数据进行分帧之前或之后，对所述用户的元语音数据进行端点检测；在所述文件读写层还包括：校验模块，所述校验模块用于：在将所述码值文件放入语音库之前，校验所述码值文件的命名和格式，当校验成功时，将所述码值文件放入所述语音库；以及当校验失败时，重新设置所述码值文件的命名和格式。

本申请第四方面提供了语音识别系统，包括UI层、分析层以及文件读写层，

在所述分析层内，包括：分词模块，所述分词模块用于：结合所述配置参数，对所述用户的元语音数据进行分词处理，得到多段不同长度的子元语音数据；端点检测模块，所述端点检测模块用于：利用matlab对每段所述子元语音数据进行端点检测；码值计算模块，所述码值计算模块用于根据端点检测结果，计算每段所述子元语音数据的码值；

在所述文件读写层，包括：检索模块，所述检索模块用于采用欧拉距离算法，将每段所述子元语音数据以及其对应的码值与所述语音库内的码值文件逐个进行匹配。

进一步地，在文件读写层还包括读取模块，所述读取模块用于查看匹配结果。

本申请的第五方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述语音库构建方法和语音识别方法。

本申请的第六方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述语音库构建方法和语音识别方法。

本申请的第七方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述语音库构建方法和语音识别方法。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

通过以下参照附图对本申请实施例的描述，本申请的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本申请实施例的语音库的构建方法、构建系统、设备、介质和程序产品的应用场景图；

图2示意性示出了根据本申请实施例语音库构建方法的流程图；

图3示意性示出了根据本申请实施例语音库构建方法的操作流程图；

图4示意性示出了根据本申请实施例操作S350的具体操作流程图；

图5示意性示出了根据本申请实施例操作S370的具体操作流程图；

图6示意性示出了根据本申请实施例语音库构建系统的结构框图；

图7示意性示出了根据本申请实施例语音识别方法的流程图；

图8示意性示出了根据本申请实施例语音识别方法的操作流程图；

图9示意性示出了根据本申请实施例操作S640的具体操作流程图；

图10示意性示出了根据本申请实施例操作S660的具体操作流程图；

图11示意性示出了根据本申请实施例操作S664的具体操作结果；

图12示意性示出了根据本申请实施例语音识别系统的结构框图；以及

图13示意性示出了根据本申请实施例的适于实现语音库构建方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本申请的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本申请实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本申请。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

现有语音识别技术主要有两类：一种是由网络公司提供的在线集中式通用语音识别技术，在网络条件具备的情况下已在各领域广泛应用；另一种是由物联网厂商提供的内置于芯片的可离线语音识别技术，在智能家居等物联网领域也有较好的应用。

对于在线集中式的语音库，由于适用领域广、词汇量需求大，因此存在语音库过大的问题，占用内存较多，对网络有一定的依赖，需要经常连接网络进行语音库的更新，很难剥离为离线终端，在网络隔离区域不能使用；而将语音库内置于芯片虽然可以离线使用，但存在语音库扩容困难、部分语音识别困难、准确率低的问题。另外，每个用户的发音咬字有些许差别，目前的两种语音识别技术仅能识别标准普通话，翻译过程存在不精确或无法识别的情况。

考虑到语音库的存储需要消耗一定的存储空间，若通过语音学习的方法，必然面临较大的样本数和较复杂的检索方法。本申请的实施例中提供了一种可基于用户个人的语音库的构建方法和针对本申请语音库的语音识别方法，运用MFCC特征计算、VQLBG码值计算等手段进行语音库中每个存库元语音的码值构建，考虑到声音是一种波，在语音识别过程中对波形数据的处理需要运用到大量的矩阵计算，选择用matlab作为主要开发工具，在实际运用中与待识别码值进行对比评判。

本申请的设计出发点即定位为针对离线情况下对用户个人的语音识别应用，由于个人的发音形式基本固定，在语音表达上，如语速、发音清晰度都可控，这样可以提高语音的可主动适配性，个人在某个领域经常会用到的词句形成的语音库，因此语音库的整体大小可控，读入内存后占用内存的大小也可控，不会因较长语音的录入二导致系统资源飙高。

图1示意性示出了根据本申请实施例的语音库构建的应用场景图。

网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本申请实施例中所提供的语音库的构建方法和语音识别方法一般可以由服务器105执行。相应地，本申请实施例中所提供的语音库构建系统和语音识别系统一般可以设置于服务器105中。本申请实施例中所提供的语音库的构建方法和语音识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本申请实施例中所提供的语音库构建系统和语音识别系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2对申请实施例的语音库构建方法进行详细描述，通过图7对申请实施例的语音识别方法进行详细描述。

需要说明的是，本申请语音库构建方法及其系统、语音识别方法及其系统可用于人工智能技术领域，在金融领域内，可运用在运维时对机器的语音智能控制，当然本申请提供的方案也可用于除金融领域之外的其他领域，本申请对具体应用领域不做限定。

根据本申请的一个实施例，如图2所示，基于用户的语音库构建方法包括步骤在S210-S250，以下将具体描述语音库的构建方案。

在步骤S210，通过配置接口设置配置参数。

由于用户的主观因素或其他客观因素，在语音录入时的语速与识别时正常说话的语速相差较大，录音环境也会对录音结果存在一定的干扰量，因此在录入元语音之前，需要先对配置参数进行设置，以接近正常语速、并为以后更易识别提供基础。

具体的，在录音之前需要设置的配置参数包括：录音参数、解析参数和分词参数。

录音参数用于在采集用户的元语音数据的过程中对采集的频率和采集的位数进行设置。录音参数不需要频繁调整，在首次录音前设置一次即可，在后续录音中通常不做调整。在一个实施例中，采集的频率默认为8000Hz，采集的位数默认为双声道16位。

解析参数用于在采集用户的元语音数据的过程中对每帧长度和相邻两帧的间隔长度进行设置。解析参数对后续生成的码值文件非常重要，用户在录音完成后的测试过程中，可以根据录音的回放、分词切分结果对解析参数进行微调。在一个实施例中，每帧长度默认设置为256采样点，相邻两帧的间隔长度默认设置为100采样点。

分词参数用于：根据用户的语速，设置用户的单位元语音的长度。分词参数可以根据用户发音时，在单位元语音的信号持续长度，即可理解为，在用户只发一个字音时信号持续的长度。在一个实施例中，将单位元语音的长度设置为45采样点，另外，为了信号长度避免误差，在分词参数设置5采样点的偏差值，即，实际单位元语音的长度为40-50采样点，在此区间内，均为用户在发一个字音时信号持续的长度。

需要注意的是，本申请中“分词切分结果”指的是根据分词参数计算的元语音中的可能字长。例如：在一段语音中经过分词切分为两段，其中一个分词持续长度为94样本数，另一个分词持续长度为150样本数，在分词参数中根据默认的单个语音长度45样本数，可以得到第一个分词大概有2个字，第二个分词大概有3个字。

在设置配置参数后，执行步骤S220。

在步骤S220，采集用户的元语音数据。

在本步骤中需要将用户想录入的词段进行采集，由于用户录入的是词段，而词段的字数是确定的，为后续建立多个子语音库提供基础，同时，根据分帧结果可以检验配置参数中的解析参数设置是否与实际相同，在根据分帧结果计算出的字数与实际录入时的字数不同时，需要调整解析参数。

在采集完用户的元语音数据后，可执行步骤S230。

在步骤S230，根据配置参数对用户的元语音数据进行分帧，并利用MFCC(Mel-frequency cepstral coefficients，梅尔频率倒谱系数)提取出用户的元语音数据的特征向量。

根据配置参数中的解析参数，将用户的元语音数据进行分帧，得到多段子元语音数据，利用MFCC对多段子元语音数据分别提取特征向量。

在对用户的元语音数据进行分帧之前或之后，对用户的元语音数据进行端点检测。

端点检测也叫做语音活动检测，目的是对语音和非语音的区域进行区分，即从带有噪声的元语音数据中准确判断出用户在录入元语音数据时，录入文字的开始点和结束点，找到元语音数据内有效的内容。

例如：用户在录入词句时点击录入开始获取后，间隔了2秒才进行元语音数据的录入，点击获取的时刻与获取到用户录入元语音数据的时刻之间有2秒的时间差，根据端点检测，可以捕捉到2秒后用户录入的元语音数据，可直接去除2秒内无效的元语音数据。

对用户的元语音数据进行端点检测可以在元语音数据进行分帧之前或之后。在一个实施例中，当在元语音数据进行分帧之前进行端点检测时，端点检测作用于元语音数据上，对元语音数据的开始点和结束点做检测；在另一个实施例中，在元语音数据进行分帧之后进行端点检测时，端点检测作用于每段子元语音数据上，对每段子元语音数据的开始点和结束点做检测。

端点检测的模型以及计算方法为本领域人员公知常识，在此不再详细描述。

在得到有效元语音数据后，利用MFCC提取出用户的元语音数据的特征向量，包括对用户的元语音数据：加窗、预加重、FFT变换(fast Fourier transform快速傅里叶变换)和梅尔频率系数计算。

梅尔频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系，可以通过梅尔频率计算得到Hz频谱特征，主要用于元语音数据的特征提取和降低运算维度。例如：对于一帧有512采样点，经过MFCC后可提取出最重要的40采样点作为特征向量，从而达到了降维的目的。

预加重是将元语音数据通过一个高通滤波器，预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，补偿元语音数据受到发音系统所抑制的高频部分，突出高频的共振峰。

在较长的元语音数据中特性是不停变化的，将元语音数据带入窗函数，窗外的值设为0，其目的是消除元语音数据的两端信号的不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等。根据本申请的一个实施例，根据窗函数的频域特性，本申请运用汉明窗，以增加元语音数据两端信号的连续性。

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布，不同的能量分布代表不同语音的特性，在对元语音数据加窗后，必须经过FFT变换已得到在频谱上的能量分布，这样不仅把信号从时域转到了频域，并且去除了高于被采样信号的最高频率点的影响，同时降低了整体维度。

梅尔频率系数计算是通过人耳敏感程度分为多个梅尔波滤器组，每个波滤器的中心频率是相等间隔的线性分布，通过确认元语音数据的最低频率、最高频率以及梅尔波滤器的个数，可计算元语音数据的最低频率、最高频率的梅尔频率以及两个梅尔滤波器的距离，将各个中心梅尔频率转换成频率，最终计算出频率对应的FFT中点的下标。通过此步骤降低了维数，元语音数据得到与滤波器个数相等维数的特征向量。

步骤S230为设定步骤，在满足执行步骤S230的条件下，服务器可直接执行步骤S230，并自动完成计算。上述为MFCC原理，具体操作以及需要的公式，是本领域技术人员公知常识，在此不多赘述。

在计算得到特征向量后，执行步骤S240。

在步骤S240，通过LBG算法将特征向量进行码值计算，并生成码值文件，其中，码值文件与元语音数据形成映射关系。

基于LBG的向量矢量化计算，是生成码值文件的关键环节，是通过训练矢量集合和一定的迭代算法来逼近最优的再生码本，该环节通过MFCC的计算结果对元语音数据生成唯一的特征标识。

码值文件是通过对元语音数据进行步骤S230-步骤S240的一系列处理形成的，码值文件与元语音数据形成映射关系，即通过元语音数据可以直接获得此元语音数据的码值文件。

在生成码值文件后，可执行步骤S250。

在步骤S250，将码值文件命名，并放入语音库中。

对码值文件进行命名，然后放入语音库中作为语音文件，其中，码值文件为“.dat”的形式储存在语音库中。

在命名中，每个码值文件的命名可以为码值文件所表示的语音含义，例如：“你好.dat”的码值文件，其文件对应的元语音数据应该为用户说“你好”的发音。对应设计的目的在于，在设置时无需额外保存码值文件和语音的对应关系，便于程序解析。

进一步地，语音库中包括多个子语音库，多个子语音库根据字数或/和采样的位数进行划分，码值文件根据生成前的字数或/和采样的位数放入对应的子语音库中，其中，字数通过采集的位数和用户的单位元语音的长度获得。

根据采集的位数和单位元语音的长度，可计算出码值文件在生成前大概的汉字字数，在单位元语音的长度一定的情况下，采集的位数区间范围代表码值文件生成前的汉字字数，例如：在单位元语音的长度为45采样点时，采集的位数区间在40-50采样点的字数为单个汉字，采集的位数区间在85-95采样点的字数为两个汉字，可根据字数的个数或/和采样的位数的区间对语音库进行划分，生成多个子语音库。

在一个实施例中，语音库可以分为四个子语音库，分别以文件夹的形式存在，具体为/data/1、/data/2、data/3和data/4。在这四个文件夹中，/data/1存储字数为单个汉字的所有码值文件、/data/2存储字数为两个汉字的所有码值文件、/data/3存储字数为三个汉字的所有码值文件、/data/4存储字数为其他剩余的所有码值文件。

需要注意的是，由于元语音数据可以为普通话、可以为方言、甚至可以是其他国家语言，在针对不易辨别汉字字数时，可以根据采样的位数区间进行划分，也就是说，其他语言同样可以根据采样的位数放到对应的子语音库。例如，英文单词“prometheus”需要135采样点，则根据单位元语音的长度，可以将其认为具有与3个汉字字数相同的发音信号长度，英文单词“prometheus”将被存入存储三个汉字的/data/3子语音库内。

因此，本申请的子语音库可以根据字数进行划分，或可以根据采样的位数进行划分，或还可以根据字数和采样的位数进行划分。

在步骤S240后，执行步骤S250之前，可先对码值文件进行校验，在校验通过后加入语音库中。

具体的，在将码值文件放入语音库之前，校验码值文件的命名和格式，当校验成功时，将码值文件放入语音库；以及当校验失败时，重新设置码值文件的命名和格式。

在生成码值文件后，需要对码值文件是否存在、码值文件的格式是否正确做校验，码值文件的命名与语义相同，查验码值文件的命名也就是查验码值文件是否在语音库中已存在，码值文件的格式可以检验码值文件是否可被读取使用。

在校验成功时，即码值文件在语音库中未被录入过、码值文件的格式正确可被读取，可将码值文件直接放入语音库；在当校验失败时，即码值文件在语音库中已被录入、码值文件的格式错误不能被读取之中的任何一个满足时，将被返回并需要重新设置码值文件的命名和格式。

当然，校验环节还可以检查码值文件对应的元语音数据的清晰度，以检查在识别过程中是否可用。在校验成功时，元语音数据清晰可识别；在校验失败时，元语音数据清晰不可识别，此时需要重新调节配置参数。

根据本申请的语音库构建方法，针对个人的语音习惯、词语使用范围进行设计，可通过录入元语音数据实现语音库的增长，语音库的大小可控，其中，语音录入和识别均可脱离网络使用，满足区域隔离网络内监控中心语音识别的需要，有效识别个人方言，在一定程度上克服了现有技术中对网络依赖、语音库过大、个人语言识别困难的问题。

需要注意的是，语音识别的关键一点在于特征提取，其主要思路是将待识别的音频进行特征码计算，然后与语音库中已存的特征码进行比对。对于计算系统其不关注该特征码生成的语音是普通话还是方言，可以理解为，特征码生成的语音可以为普通话、可以为方言、甚至可以是其他国家语言，计算系统只认该语音的特征码，所以本申请利用将语音库原始语音特征码与语义关联的模式来解决语音识别问题，而由于语音库是向个人设计的，其对个人来说，同一段话表达的方式是可控的，所以具备语音识别的技术及应用基础。

图3示意性示出了根据本申请实施例的语音库构建方法的流程图。

如图3-图5所示，该实施例的语音库构建方法包括操作S310-操作S370，该处理方法可以通过图6中的语音库构建系统执行。

在操作S310，通过配置接口设置配置参数。

例如，对录音参数、解析参数和分词参数进行设置。

在操作S320，采集用户的元语音数据。

在操作S330，对用户的元语音数据进行端点检测。

将元语音数据分为有效数据和无效数据，最终剩下有效数据进行下一步计算。

在操作S340，根据配置参数对用户的元语音数据进行分帧。

分帧后的元语音数据从一段元语音数据被分割为多段子元语音数据。

在操作S350，利用MFCC提取出用户的元语音数据的特征向量。

在操作S350中，可包括操作S351-操作S354。

在操作S351，对用户的元语音数据预加重；

在操作S352，对预加重后的元语音数据加汉明窗；

在操作S353，对经过汉明窗处理后的元语音数据进行FFT变换；

在操作S354，对变换后的元语音数据进行梅尔频率系数计算。

在操作S360，通过LBG算法将特征向量进行码值计算，并生成码值文件，其中，码值文件与元语音数据形成映射关系。

对在S354中得到的计算结果，通过LBG算法将特征向量进行码值计算，生成码值文件。

在操作S370，将码值文件命名，并放入语音库中。

在操作S370中，可包括操作S371-操作S372。

在操作S371，在码值文件生成后，对码值文件进行命名。

在操作S372，校验码值文件的命名和格式，当校验成功时，将码值文件放入语音库；以及当校验失败时，重新设置码值文件的命名和格式。

基于上述语音库构建方法，本申请还提供了一种语音库构建系统。以下将结合图6对该装置进行详细描述。

图6示意性示出了根据本申请实施例的语音库构建系统400的结构框图。

如图6所示，该实施例的语音库构建系统400包括UI层410、分析层420以及文件读写层430。其中，在UI层410内包括参数配置模块411和录音模块412；在分析层420内包括特征提取模块421和码值计算模块422；在文件读写层430包括入库模块431。

更具体的，参数配置模块411用于通过配置接口设置配置参数。在一个实施例中，参数配置模块411可以用于执行前文描述的操作S310，在此不再赘述。

录音模块412用于采集用户的元语音数据。在一个实施例中，录音模块412可以用于执行前文描述的操作S320，在此不再赘述。

特征提取模块421用于：根据配置参数对用户的元语音数据进行分帧，并利用MFCC提取出用户的元语音数据的特征向量。在一个实施例中，特征提取模块421可以用于执行前文描述的操作S340-操作S350，在此不再赘述。

码值计算模块422用于：通过LBG算法将特征向量进行码值计算，并生成码值文件，其中，码值文件与元语音数据形成映射关系。在一个实施例中，码值计算模块422可以用于执行前文描述的操作S360，在此不再赘述。

入库模块431用于将码值文件命名，并放入语音库中。在一个实施例中，入库模块431可以用于执行前文描述的操作S370，在此不再赘述。

进一步地，在分析层420还包括：端点检测模块423，端点检测模块423用于：在对用户的元语音数据进行分帧之前或之后，对用户的元语音数据进行端点检测。在一个实施例中，端点检测模块423可以用于执行前文描述的操作S330，在此不再赘述。

在文件读写层430还包括：校验模块432，校验模块432用于：在将码值文件放入语音库之前，校验码值文件的命名和格式，当校验成功时，将码值文件放入语音库；以及当校验失败时，重新设置码值文件的命名和格式。在一个实施例中，校验模块432可以用于执行前文描述的操作S372，在此不再赘述。

在一个实施例中，在用于的个人语音库构建过程中，首先用户利用UI层410的配置接口设置配置参数，然后利用UI层410的录音模块412进行元语音数据的录入，UI层410录入完成后会自动调用分析层420“端点检测”及“特征提取”功能进行元语音的分析，UI层410会在分析层420特征提取的结果之上进一步调用分析层420码值计算模块422逻辑进行码值文件的生成，接下来分析层420会调用文件读写层430对待生成文件的命名、格式与已有文件进行比对，若成功则成功存入语音库中，若失败则返回给UI层410进行必要调整并重新发起。

根据本申请的实施例，针对个人的语音习惯、词语使用范围进行设计，可通过录入元语音数据实现语音库的增长，语音库的大小可控，其中，语音录入和识别均可脱离网络使用，满足区域隔离网络内监控中心语音识别的需要，有效识别个人方言，在一定程度上克服了现有技术中对网络依赖、语音库过大、个人语言识别困难的问题。

根据本申请的实施例，同一层内的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。例如：在UI层410内的参数配置模块411和录音模块412，或在分析层420内的特征提取模块421、码值计算模块422和端点检测模块423，或在文件读写层430内的入库模块431和校验模块432，其中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，在同一层内的这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本申请的实施例，参数配置模块411、录音模块412、特征提取模块421、码值计算模块422、端点检测模块423、入库模块431和校验模块432中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，参数配置模块411、录音模块412、特征提取模块421、码值计算模块422、端点检测模块423、入库模块431和校验模块432中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

根据本申请的一个实施例，如图7所示，基于的语音库，语音的识别方法包括步骤在S510-S560，以下将具体描述语音的识别方案。

在步骤S510，通过配置接口设置配置参数。

由于用户的主观因素或其他客观因素，在语音录入时的语速与识别时正常说话的语速相差较大，识别环境也会对录音结果存在一定的干扰量，因此在识别元语音之前，需要先对配置参数进行设置，以接近录音时的语速。

具体的，在录音之前需要设置的配置参数包括：录音参数、解析参数、分词参数和匹配参数。

录音参数用于在采集用户的元语音数据的过程中对采集的频率和采集的位数进行设置。在一个实施例中，采集的频率默认为8000Hz，采集的位数默认为双声道16位。

解析参数用于在采集用户的元语音数据的过程中对每帧长度和相邻两帧的间隔长度进行设置。解析参数对后续码值的计算非常重要，用户在录音完成后的测试过程中，可以根据分词切分结果对解析参数进行微调。在一个实施例中，每帧长度默认设置为256采样点，相邻两帧的间隔长度默认设置为100采样点。

上述的录音参数、解析参数和分词参数在一般情况下与语音库的构建设置的配置参数相同，也就是在建立语音库后，无需再对录音参数、解析参数和分词参数进行特殊设置。

匹配参数用于对每段子元语音数据的端点检测，其中，匹配参数包括：能量上限、能量下限、过零率上限、过零率下限、最长持续静默时间和最短语音长度。

在后续对每段待识别的子元语音数据利用matlab进行端点检测时，根据匹配参数可得到每段待识别的子元语音数据的能量上限、能量下限、过零率上限、过零率下限、最长持续静默时间和最短语音长度，以判断每段待识别的子元语音数据是否为语音信号或非语音信号，有助于后续匹配识别中只保留语音信号，即只保留有效的待识别的子元语音数据。

在一段元语音数据中，需要检测语音的状态，是静默状态还是激活状态，这样才能保证在语音识别过程中的元语音数据是一句完成的语音数据，而多长时间的静默状态才能当作语音的结束，以及多大的语音能量才能当作语音的开始，以及多长时间的状态持续，需要做端点检测。

声带振动的音称为浊音，声带不振动的音称为清音，在发音时，一段话中包括清音和浊音，语音特征中的短时能量适合测试浊音，而短时过零率适合测试清音。在匹配参数中设置能量上限、能量下限，以测试语音特征中浊音的出现，设置过零率上限、过零率下限，以测试语音特征中清音的出现。能量上限、能量下限、过零率上限和过零率下限判断是否处于有效语音段内容有着十分重要的作用。

最长持续静默时间即为多长时间的静默状态才能当作语音结束的值，保证在识别过程中，用户的元语音数据的完整性。

最短语音长度有效可以防止噪音的录入。

在设置配置参数后，执行步骤S520。

在步骤S520，采集用户的元语音数据。

在本步骤中需要将用户想识别的词段进行采集，识别的内容可以为一段话或者为一个词句。

在采集完用户的元语音数据后，可执行步骤S530。

在步骤S530，结合配置参数，对用户的元语音数据进行分词处理，得到多段不同长度的子元语音数据。

此步骤中，主要是结合解析参数和分词参数。

结合解析参数，可将整段话或者整个句子拆解为解析参数中的设置参数，得到多段不同长度的子元语音数据，具体拆分可见步骤S510中对解析参数的说明，在此不过多赘述。

多段不同长度的子元语音数据结合分词参数，可计算出多段不同长度的子元语音数据的汉字字数，计算方式可参照步骤S510中对分词切分结果的说明，在此不过多赘述。

在得到多段不同长度的子元语音数据后，执行步骤S540。

在步骤S540，利用matlab对每段子元语音数据进行端点检测。

在得到的子元语音数据中，并不是每段子元语音数据都为有效语音，本步骤可以获取所有有效地子元语音数据，并在有效地子元语音数据中获取到语句的开始点和结束点，从而减少数据量和处理时间。

例如：在一段子元语音数据中，前2秒无语音录入，在2秒后才出现元语音数据，根据端点检测，可以捕捉到2秒后用户录入的元语音数据，直接去除2秒内无效的元语音数据。

本步骤中利用matlab对每段子元语音数据进行端点检测，其中包括：利用matlab计算出每段子元语音数据的短时平均过零率和短时能量，将短时能量和短时平均过零率分别与匹配参数作比较，得到每段子元语音数据的端点。

短时平均过零率是语音信号是与分析中的一种特征向量参数，它是指一帧语音时域信号穿过横轴或零电平的次数。

短时能量即一帧的语音信号能量，人声段部分能量通过比非人声段部分的能量小，清音部分的能量比浊音部分的能量小，语音信号的能量随时间而变化，清音和浊音之间的能量差别相当显著，对短时能量进行分析，可以描述语音的特征变化情况。

将短时能量和短时平均过零率分别与匹配参数中的能量上限、能量下限、过零率上限、过零率下限作比较，可以得到每段子元语音数据的端点。

每段子元语音数据的端点可以通过如下步骤判断：从每段子元语音数据的起点向后搜索元语音信号；当满足短时能量大于能量上限且短时平均过零率也大于过零率上限时，端点为确信进入语音端；当满足短时能量大于能量上限或短时平均过零率大于过零率上限中的一个条件时，端点为可能进入语音端；从每段子元语音数据的终点向前搜索元语音信号；以及当满足短时能量小于能量下限且短时平均过零率也小于过零率下限时，端点为确信结束语音端；当满足短时能量小于能量下限或短时平均过零率小于过零率小限中的一个条件时，端点为可能结束语音端。

端点具体分为开始点和结束点，获取子元语音数据的开始点，需要从子元语音数据的起点向后搜索元语音信号，而获取子元语音数据的结束点，需要从子元语音数据的终点向前搜索元语音信号。

在搜索子元语音数据的开始点中，在经过矩阵运算后，当短时能量大于能量上限且短时平均过零率也大于过零率上限时，此时判断为确信进入语音端，即已经进入有效语音段；当短时能量大于能量上限而平均过零率小于或等于过零率上限，或短时平均过零率大于过零率上限而短时能量小于或等于能量上限，此时判断为可能进入语音端，即可能进入有效语音段。

在搜索子元语音数据的结束点中，在经过矩阵运算后，当短时能量小于能量下限且短时平均过零率也小于过零率下限时，此时判断为确信结束语音端，即有效语音段已经结束；当短时能量小于能量上限而平均过零率大于或等于过零率上限，或短时平均过零率小于过零率上限而短时能量大于或等于能量上限，此时判断为可能结束语音端，即可能有效语音段已经结束。

进一步地，结合子元语音数据的确信进入语音端和确信结束语音端，当确信进入语音端到确信结束语音端的持续语音长度小于最短语音长度时，剔除子元语音数据。

查看子元语音数据的确信进入语音端到确信结束语音端持续语音时长，当持续语音长度小于最短语音长度时，可以判断为噪声，直接剔除此子元语音数据，不再进行下一步识别。

在端点检测后，执行步骤S550。

在步骤S550，根据端点检测结果，计算每段子元语音数据的码值。

在步骤S530中已经获得所有不同长度的子元语音数据，并得到不同长度的子元语音数据对应的汉字字数，在端点检测完成后，除去无效数据，剩余的多段有效子元语音数据，计算每段有效子元语音数据的码值。

在获得每段子元语音数据的码值后，执行步骤S560。

在步骤S560，采用欧拉距离算法，将每段子元语音数据以及其对应的码值与语音库内的码值文件逐个进行匹配。

欧拉距离即两点之间的距离，在本申请中，通过语音库内码值文件的码值与待识别子元语音数据所对应的码值比较，在满足一定条件下，直接匹配成功。

在采用欧拉距离算法，将每段子元语音数据以及其对应的码值与语音库内的码值文件逐个进行匹配之前，设置欧拉距离的上临界值和下临界值。在一个实施例中，匹配过程设置两临界值，其中下临界值默认设置5，上临界值默认设置10。

进一步地，根据用户的单位元语音的长度和子元语音数据，计算出每段子元语音数据的字数，根据字数匹配语音库内对应的子语音库，在对应的子语音库内，逐个匹配子元语音数据对应的码值。

在构建语音库过程中，子语音库是根据汉字字数或/和采样的位数进行划分的。在匹配过程中，先计算出每段子元语音数据的字数，根据字数匹配到每段子元语音数据可能所在的子语音库，而子语音库中的码值文件均不相同，因此对应的码值也不同，在可能所在的子语音库中将码值文件与子元语音数据对应的码值逐个匹配。

在一个实施例中，子元语音数据为95样本数，默认单位元语音长度为45样本数，分词大概有2个字，则锁定子语音库为两个字的/data2中进行码值匹配。

需要注意的是，语音库构建时也针对其他语言，在识别匹配过程中计算判定分词大概的字数、锁定子语音库的方式与语音库构建时的方式相同。

通过字数锁定该段子元语音数据可能所在的子语音库，可以缩小检索的范围，缩短检索的时间，提高匹配的准确率。

在匹配过程中，当子元语音数据的码值与子语音库内的码值文件的码值做比较的结果大于上临界值时，匹配失败并将子元语音数据的码值与下一个码值文件做比较；当子元语音数据的码值与子语音库内的码值文件的码值做比较的结果小于下临界值时，匹配成功并输出结果；以及当子元语音数据的码值与子语音库内的码值文件的码值做比较的结果在上临界值与下临界值之间时，存入结果集合并将子元语音数据的码值与下一个码值文件做比较。

在与子语音库内的码值文件逐个匹配的过程中，存在三种情况，即，在比较结果大于上临界值时匹配失败，在比较结果小于下临界值时匹配成功，以及在比较结果在上临界值和下临界值之间时存入结果集合。

在匹配成功时，将匹配结果直接输出，即子元语音数据与码本文件完全一致。

在存入结果集合后，继续和子语音库内的下一个码本文件进行匹配计算，重复上述判断步骤，直至匹配到小于下临界值的结果，或者子语音库内的码本文件全部匹配完毕后仍有部分处于无小于下临界值的结果，即无完全一致的码值文件，但存在结果集合，结果集合可以理解为是形似码本文件，即匹配度一般。

此种情况下，查看结果集合内的码值文件，取欧拉距离最小的值作为输出结果。

在匹配失败时，继续和子语音库内的下一个码本文件进行匹配计算，直到匹配到小于下临界值的结果，或者子语音库内的码本文件全部匹配完毕后，仍全部大于上临界值的结果，即与子语音库内所有的码本文件均完全不一致。

此种情况下，需要扩展子语音库，也就是说，在计算出该段子元语音数据的字数时可能并不准确，导致子语音库内不包含该段子元语音数据，因此，当子语音库内的码值文件均匹配失败时，扩展至与子语音库相邻的子语音库，并重新匹配。

在一个实施例中，当分词大概有2个字，而在两个字的子语音库中未匹配到合适的码本文件时，可以扩展至单个字的子语音库和三个字的子语音库中重新进行匹配。

此种方式可以在锁定无结果后，自动扩大语音库的匹配范围，减少重新采集元语音数据的过程，缩短了流程，提高了匹配效率和时间。

在匹配完成后查看匹配结果，在子元语音数据的码值与语音库内的码值文件均匹配失败时，确认语音库内是否存在用户的元语音数据对应的码值文件，当存在时，执行第一操作，其中，第一操作包括：删除语音库内无误的码值文件；以及调整配置参数，并重新采集用户的元语音数据，输出新码值文件；当不存在时，执行第二操作，第二操作包括：采集用户的元语音数据并输出码值文件。

在与所有子语音库匹配后，均匹配失败，需要查看语音库内是否存在该子元语音数据对应的码值文件。若有但一直匹配不成功，则可能是在语音库构建过程中，采集的元语音数据与日常说话形式不同，可能声音过高、过低、语速过快、过慢不清晰等，此时可以删除语音库中原始的码值文件数据，在调整配置参数后重新录入；在不存在该子元语音数据对应的码值文件时，可以扩充语音库，采集想要录入的元语音数据。

同时也需要查看成功的匹配结果，在匹配结果有误时，确认语音库内是否存在无误的用户的元语音数据对应的码值文件，当存在时，执行第一操作；当不存在时，执行第二操作。

在识别有误时，需要查看语音库内是否存在该子元语音数据对应的码值文件。若有但识别不准确，则可能是在语音库构建过程中，采集的元语音数据与日常说话形式不同，可能声音过高、过低、语速过快、过慢不清晰等，此时可以删除语音库中原始的码值文件数据，在调整配置参数后重新录入；在不存在该子元语音数据对应的码值文件时，可以扩充语音库，采集想要录入的元语音数据。

图8示意性示出了根据本申请实施例的语音识别方法的流程图。

如图8-图11所示，该实施例的语音识别方法包括操作S610-操作S670，该处理方法可以通过图12中的语音识别系统执行。

在操作S610，通过配置接口设置配置参数。

例如，对录音参数、解析参数、分词参数以及匹配参数进行设置。

在操作S620，采集用户的元语音数据。

在操作S630，结合配置参数，对用户的元语音数据进行分词处理，得到多段不同长度的子元语音数据。

分词处理环节，元语音数据经录音生成wave文件进一步转换为double类型数据矩阵，为下一步端点检测提供基础。

元语音数据经过解析参数的处理，得到多段不同长度的子元语音数据。

在操作S640，利用matlab对每段子元语音数据进行端点检测。

在操作S640中，可包括操作S641-操作S643。

在操作S641，利用matlab计算出每段子元语音数据的短时平均过零率和短时能量。

在操作S642，将短时能量和短时平均过零率分别与匹配参数作比较。

开始点通过从每段子元语音数据的起点向后搜索元语音信号，当满足短时能量大于能量上限且短时平均过零率也大于过零率上限时，端点为确信进入语音端；当满足短时能量大于能量上限或短时平均过零率大于过零率上限中的一个条件时，端点为可能进入语音端。

结束点通过从每段子元语音数据的终点向前搜索元语音信号，当满足短时能量小于能量下限且短时平均过零率也小于过零率下限时，端点为确信结束语音端；当满足短时能量小于能量下限或短时平均过零率小于过零率小限中的一个条件时，端点为可能结束语音端。

在操作S643，结合子元语音数据的确信进入语音端和确信结束语音端，当确信进入语音端到确信结束语音端的持续语音长度小于最短语音长度时，剔除子元语音数据。

在操作S650，根据端点检测结果，计算每段子元语音数据的码值。

在操作S660，采用欧拉距离算法，将每段子元语音数据以及其对应的码值与语音库内的码值文件逐个进行匹配。

在操作S660中，可包括操作S661-操作S664。

在操作S661，设置欧拉距离的上临界值和下临界值。

在操作S662，根据用户的单位元语音的长度和子元语音数据，计算出每段子元语音数据的字数。

在操作S663，根据字数匹配语音库内对应的子语音库。

在操作S664，在对应的子语音库内，逐个匹配子元语音数据对应的码值。

其中，在匹配过程中，包括操作S6641-操作S6643，需要注意的是，操作S6641-操作S6643是并列操作，在完成操作S663后择一进行。

在操作S6641，当子元语音数据的码值与子语音库内的码值文件的码值做比较的结果大于上临界值时，匹配失败并将子元语音数据的码值与下一个码值文件做比较。

当子语音库内的码值文件均匹配失败时，扩展至与子语音库相邻的子语音库，并重新匹配。在子元语音数据的码值与语音库内的码值文件均匹配失败时，确认语音库内是否存在用户的元语音数据对应的码值文件。

确认过程包括，当存在时，删除语音库内无误的码值文件；调整配置参数，并重新采集用户的元语音数据，输出新码值文件；当不存在时，采集用户的元语音数据并输出码值文件。

在操作S6642，当子元语音数据的码值与子语音库内的码值文件的码值做比较的结果小于下临界值时，匹配成功并输出结果。

在操作S6643，当子元语音数据的码值与子语音库内的码值文件的码值做比较的结果在上临界值与下临界值之间时，存入结果集合并将子元语音数据的码值与下一个码值文件做比较，查看结果集合内的码值文件，取欧拉距离最小的值作为输出结果。

在操作S670，查看匹配结果，在匹配结果有误时，确认语音库内是否存在无误的用户的元语音数据对应的码值文件。

基于上述语音识别方法，本申请还提供了一种语音识别系统。以下将结合图12对该装置进行详细描述。

图12示意性示出了根据本申请实施例的语音识别系统700的结构框图。

如图12所示，该实施例的语音识别系统700包括UI层710、分析层720以及文件读写层730。其中，在UI层710内包括参数配置模块711和录音模块712；在分析层内720包括分词模块721、端点检测模块722和码值计算模块723；在文件读写层730包括检索模块731。

更具体的，参数配置模块711用于通过配置接口设置配置参数。在一个实施例中，参数配置模块711可以用于执行前文描述的操作S610，在此不再赘述。

录音模块712用于采集用户的元语音数据。在一个实施例中，参数配置模块711可以用于执行前文描述的操作S620，在此不再赘述。

分词模块721用于：结合配置参数，对用户的元语音数据进行分词处理，得到多段不同长度的子元语音数据。在一个实施例中，参数配置模块711可以用于执行前文描述的操作S630，在此不再赘述。

端点检测模块722用于：利用matlab对每段子元语音数据进行端点检测。在一个实施例中，参数配置模块711可以用于执行前文描述的操作S640，在此不再赘述。

码值计算模块723用于根据端点检测结果，计算每段子元语音数据的码值。在一个实施例中，参数配置模块711可以用于执行前文描述的操作S650，在此不再赘述。

检索模块731用于采用欧拉距离算法，将每段子元语音数据以及其对应的码值与语音库内的码值文件逐个进行匹配。在一个实施例中，参数配置模块711可以用于执行前文描述的操作S660，在此不再赘述。

进一步地，在文件读写层730还包括读取模块732，读取模块732用于查看匹配结果。在一个实施例中，参数配置模块711可以用于执行前文描述的操作S670，在此不再赘述。

在一个实施例中，在对个人语音识别的过程中，首先用户利用UI层710的配置接口设置配置参数，然后利用UI层710的录音模块712进行元语音数据的录入，UI层710录入完成后会自动调用分析层720“端点检测”、“分词”和“码值计算”功能进行元语音的分析，文件读写层730会在分析层720分词和码值计算的结果之上在语音库内检索和读取。

根据本申请的实施例，同一层内的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。例如：在UI层710内的参数配置模块711和录音模块712，或在分析层720内的分词模块721、码值计算模块723和端点检测模块722，或在文件读写层730内的检索模块731和读取模块732，其中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，在同一层内的这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本申请的实施例，参数配置模块711、录音模块712、分词模块721、码值计算模块723、端点检测模块722、检索模块731和读取模块732中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，参数配置模块711、录音模块712、分词模块721、码值计算模块723、端点检测模块722、检索模块731和读取模块732中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图13示意性示出了根据本申请实施例的适于实现语音库构建方法和语音识别方法的电子设备的方框图。

如图13所示，根据本申请实施例的电子设备800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本申请实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本申请实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本申请实施例的方法流程的各种操作。

根据本申请的实施例，电子设备800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

根据本申请的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本申请的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

本申请的实施例中还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本申请实施例中所提供的物品推荐方法。

在该计算机程序被处理器801执行时执行本申请实施例的系统/装置中限定的上述功能。根据本申请的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分809被下载和安装，和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本申请实施例的系统中限定的上述功能。根据本申请的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本申请的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例中提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“实例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上对本申请的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本申请的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本申请的范围由所附权利要求及其等同物限定。不脱离本申请的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本申请的范围之内。

Claims

1.一种基于用户的语音库构建方法，其特征在于，包括以下步骤：

通过配置接口设置配置参数；

采集用户的元语音数据；

将所述码值文件命名，并放入语音库中。

2.根据权利要求1所述的语音库构建方法，其特征在于，所述配置参数包括：

3.根据权利要求1所述的语音库构建方法，其特征在于，在对所述用户的元语音数据进行分帧之前或之后，对所述用户的元语音数据进行端点检测。

4.根据权利要求1所述的语音库构建方法，其特征在于，利用MFCC提取出所述用户的元语音数据的特征向量，包括对所述用户的元语音数据：加窗、预加重、FFT变换和梅尔频率系数计算。

5.根据权利要求1所述的语音库构建方法，其特征在于，在将所述码值文件放入语音库之前，校验所述码值文件的命名和格式，

当校验成功时，将所述码值文件放入所述语音库；以及

当校验失败时，重新设置所述码值文件的命名和格式。

6.根据权利要求2所述的语音库构建方法，其特征在于，所述语音库中包括多个子语音库，多个所述子语音库根据字数或/和采样的位数进行划分，所述码值文件根据生成前的字数或/和采样的位数放入对应的子语音库中，

7.一种语音识别的方法，其特征在于，所述的方法基于权利要求1-6中任意一项所述的语音库，所述识别方法包括以下步骤：

通过配置接口设置配置参数；

采集用户的元语音数据；

利用matlab对每段所述子元语音数据进行端点检测；

8.根据权利要求7所述的方法，其特征在于，所述配置参数包括：

9.根据权利要求8所述的方法，其特征在于，利用matlab对每段所述子元语音数据进行端点检测，包括：

10.根据权利要求9所述的方法，其特征在于，得到每段所述子元语音数据的端点包括：

从每段所述子元语音数据的起点向后搜索元语音信号；

从每段所述子元语音数据的终点向前搜索元语音信号；以及

11.根据权利要求10所述的方法，其特征在于，结合所述子元语音数据的确信进入语音端和确信结束语音端，当所述确信进入语音端到所述确信结束语音端的持续语音长度小于最短语音长度时，剔除所述子元语音数据。

12.根据权利要求8所述的方法，其特征在于，采用欧拉距离算法，将每段所述子元语音数据以及其对应的码值与所述语音库内的码值文件逐个进行匹配，包括；

13.根据权利要求12所述的方法，其特征在于，在采用欧拉距离算法，将每段所述子元语音数据以及其对应的码值与所述语音库内的码值文件逐个进行匹配之前，设置欧拉距离的上临界值和下临界值。

14.根据权利要求13所述的方法，其特征在于，在匹配过程中，

15.根据权利要求14所述的方法，其特征在于，当所述子元语音数据的码值与所述子语音库内的码值文件的码值做比较的结果大于上临界值时，匹配失败并将所述子元语音数据的码值与下一个码值文件做比较，包括：

16.根据权利要求15所述的方法，其特征在于，当所述子语音库内的码值文件均匹配失败时，扩展至与所述子语音库相邻的子语音库，并重新匹配，包括：

当存在时，执行第一操作，其中，所述第一操作包括：

删除所述语音库内无误的所述码值文件；以及

17.根据权利要求14所述的方法，其特征在于，当所述子元语音数据的码值与所述子语音库内的码值文件的码值做比较的结果在上临界值与下临界值之间时，存入结果集合并将所述子元语音数据的码值与下一个码值文件做比较，包括：

18.根据权利要求16所述的方法，其特征在于，还包括：

当存在时，执行第一操作；

当不存在时，执行第二操作。

19.一种语音库的构建系统，包括UI层、分析层以及文件读写层，其特征在于，

在所述UI层内，包括：

参数配置模块，所述参数配置模块用于通过配置接口设置配置参数；

录音模块，所述录音模块用于采集用户的元语音数据；

在所述分析层内，包括：

特征提取模块，所述特征提取模块用于：根据所述配置参数对所述用户的元语音数据进行分帧，并利用MFCC提取出所述用户的元语音数据的特征向量；

码值计算模块，所述码值计算模块用于：通过LBG算法将所述特征向量进行码值计算，并生成码值文件，其中，所述码值文件与所述元语音数据形成映射关系；

在所述文件读写层，包括：

入库模块，所述入库模块用于将所述码值文件命名，并放入语音库中。

20.根据权利要求19所述的构建系统，其特征在于，

在分析层还包括：端点检测模块，所述端点检测模块用于：在对所述用户的元语音数据进行分帧之前或之后，对所述用户的元语音数据进行端点检测；

在所述文件读写层还包括：校验模块，所述校验模块用于：在将所述码值文件放入语音库之前，校验所述码值文件的命名和格式，

当校验成功时，将所述码值文件放入所述语音库；以及

当校验失败时，重新设置所述码值文件的命名和格式。

21.一种语音识别系统，包括UI层、分析层以及文件读写层，其特征在于，

在所述UI层内，包括：

录音模块，所述录音模块用于采集用户的元语音数据；

在所述分析层内，包括：

分词模块，所述分词模块用于：结合所述配置参数，对所述用户的元语音数据进行分词处理，得到多段不同长度的子元语音数据；

端点检测模块，所述端点检测模块用于：利用matlab对每段所述子元语音数据进行端点检测；

码值计算模块，所述码值计算模块用于根据端点检测结果，计算每段所述子元语音数据的码值；

在所述文件读写层，包括：

检索模块，所述检索模块用于采用欧拉距离算法，将每段所述子元语音数据以及其对应的码值与所述语音库内的码值文件逐个进行匹配。

22.根据权利要求21所述的系统，其特征在于，在文件读写层还包括读取模块，所述读取模块用于查看匹配结果。

23.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1-18中任一项所述的方法。

24.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1-18中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-18中任一项所述的方法。