CN114678009A

CN114678009A - 一种基于语音技术的盲人互联网系统

Info

Publication number: CN114678009A
Application number: CN202210599135.9A
Authority: CN
Inventors: 刘俭
Original assignee: Shenzhen Fangbangbang Internet Technology Co ltd
Current assignee: Shenzhen Fangbangbang Internet Technology Co ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-06-28

Abstract

本发明涉及电子数字数据处理技术领域，且公开了一种基于语音技术的盲人互联网系统，包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块，所述语音特征提取模块用于多样化信息的特定语音提取，该用于目标页流量分析管理系统及管理方法，利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理，将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块，用户语音确认无误并指纹验证后由安全监管模块确认支付完成，再通过语音播报模块进行播报支付的金额，解决了用户通过语音来完成支付的问题。

Description

一种基于语音技术的盲人互联网系统

技术领域

本发明涉及数字数据处理技术领域，具体为一种基于语音技术的盲人互联网系统。

背景技术

目前关于语言技术主要基于对文语转换技术（Text to Speech），将系统电脑中的文本文件、电子邮件、网络新闻或小说，转换成语音通过播放器来听，当用户在买单时往往都是通过扫平台二维码进行付款，通过语音支付系统目前还没形成，因此对盲人来说无法完成付款操作，使得盲人降低了生活积极性。

发明内容

解决的技术问题

针对现有技术的不足，本发明提供了一种基于语音技术的盲人互联网系统，解决了现有的盲人互联网系统，亟需解决的问题是，语音技术不完善，缺少语音识别支付与验证模块，难以将语音输入信息带来的技术问题，其次是对语音支付安全监管的缺少，监管最终的处理手段及信息反馈过程带来的效果不够明确。

技术方案

为实现上述目的，本发明提供如下技术方案：一种基于语音技术的盲人互联网系统，包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块，所述语音特征提取模块用于多样化信息的特定语音提取，所述语音优化处理模块为语音的压缩优化处理，所述语音建模模块为预测字符（词）序列产生的概率判断一个语言序列是否为正常语句，所述声学模型模块为给定模型后产生语音波形的概率，其输入是语音信号经过特征提取后得到的特征向量序列，语音支付验证模块为根据用户语音验证以及指纹验证后将金额支付给商户的信息处理模块。

优选的，所述语音特征提取模块和语音优化处理模块为多语音中根据用户特定的语音在环境中提取并将语音进行压缩优化处理。

优选的，所述搜索算法模块为根据字典搜索最优路径，选出最可能的输出词序列，所述语音播报模块为将处理出来的结果通过播报模式告知用户，与用户形成交互关系。

优选的，具体步骤如下：

利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理；

将优化的语音信息传输至语音建模模块进行语音建模以及声学模型进行语音解码后传送至搜索算法模块；

搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析；

用户确认无误并指纹验证后支付再通过语音播报模块进行播报支付的金额。

优选的，所述语音优化处理模块的语音预处理优化过程具体为对语音信号进行预加重和去加重处理。

优选的，所述语音特征提取模块再传输的步骤为：首先进行预加重，原因和MFCC中提到的相同，都是为了移除频谱倾斜，接着进行希尔伯特变换，得到原实值信号的解析信号，便于分析计算，然后四个自适应共振峰滤波器，每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成，这个滤波器的作用是在对每一个共振峰值进行估算之前，对其进行动态滤波，抑制相邻共振峰的干扰和基频干扰，接着包括清浊音检测，性别检测（根据基频），能量检测，性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值，能量检测是为了滤除无话段，类似于端点检查，清浊音检测是为了滤除清音，因为清音不含共振峰，最后通过移动平均值作决策，符合条件的值作为共振峰估计值保留，不符合条件的值用其移动平均值代替。

优选的，声学模型是对等式（1）中的 P（X|W）进行建模，在语音特征与音素之间建立映射关系，即给定模型后产生语音波形的概率，其输入是语音信号经过特征提取后得到的特征向量序列，具体语音识别框架图如附图1。

优选的，所述搜索算法模块为基于启发音节层－树搜索以及词层－树两个搜索过程，在提高识别速度的同时不改变识别率，一方面在音节层－树搜索中，根据N-best算法确定允许扩展的有限个音节串，另一方面在词层－树搜索中，根据已得到的允许扩展的音节串确定不同长度的“退回词路径”，此时每一刻的最大似然词串可由这些“退回词路径”来确定，因此在搜索不同长度的多音节词的同时减少搜索计算过程和降低对存储空间的需求：

优选的，所述语音支付模块具体步骤如下：

点击立即支付，调用后端生成订单接口

生成订单接口中，通过service层实现类，根据课程id和用户id，在订单表生成一个订单记录；

然后调用生成二维码的接口，生成二维码

通过service层实现类，通过该订单id查询出订单表中的信息；

new 一个map，传入生成二维码需要的参数

向支付平台提供的地址发送一个HTTPclient请求；

获取HTTPClient请求的响应，是一个xml格式，并把xml格式转化成Map形式

这个map中包含二维码的一些信息：二维码地址，金额，订单号等，返回这个map给前端

查询订单状态

向支付平台提供的地址发送一个发送HTTPClient请求，获取订单状态，如果支付成功，就把订单表中对应记录的订单状态更新

生成支付记录

查询订单表中该订单号的记录中的订单状态，如果是已支付，那么增加一个订单支付记录。

有益效果

本发明提供了一种基于语音技术的盲人互联网系统，具备以下有益效果：

该用于目标页流量分析管理系统及管理方法，通过利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理；再将优化的语音信息传输至语音建模模块进行语音建模以及声学模型进行语音解码后传送至搜索算法模块，搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析，用户确认无误并指纹验证后支付再通过语音播报模块进行播报支付的金额，保证了盲人输出语音支付口令通过支付模块以及安全指纹验证将金额支付给商家，避免了盲人无法通过扫码支付密码验证给商家的泄密情况，提高了盲人通过语音支付的便捷，增强了盲人生活的积极性。

附图说明

图1为本发明的语音识别系统框架示意图。

图2为本发明的语音支付模块框架示意图。

图3为本发明整体流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例应用于互联网系统/服务器，其可与众多其它通用或专用互联网系统环境或配置一起操作，适于与互联网系统/服务器一起使用的众所周知的计算系统、环境和（或）配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器在由计算机系统执行的计算机系统可执行指令（诸如程序模块）的一般语境下描述，通常，程序模块包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型，计算机系统/服务器在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的，在分布式云计算环境中，程序模块位于包括存储设备的本地或远程计算系统存储介质上。

实施例1

本发明提供一种技术方案：一种基于语音技术的盲人互联网系统，包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块，所述语音特征提取模块用于多样化信息的特定语音提取，所述语音优化处理模块为语音的压缩优化处理，所述语音建模模块为预测字符（词）序列产生的概率判断一个语言序列是否为正常语句，所述声学模型模块为给定模型后产生语音波形的概率，其输入是语音信号经过特征提取后得到的特征向量序列，语音支付验证模块为根据用户语音验证以及指纹验证后将金额支付给商户的信息处理模块，所述语音特征提取模块和语音优化处理模块为多语音中根据用户特定的语音在环境中提取并将语音进行压缩优化处理，所述搜索算法模块为根据字典搜索最优路径，选出最可能的输出词序列，所述语音播报模块为将处理出来的结果通过播报模式告知用户，与用户形成交互关系具体为手机端和电脑端或其他可编程输入指令端，本实施例不作具体限定，所述安全监管模块为基于语音支付模块上的语音反馈设备，主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。

一种基于语音技术的盲人互联网系统的管理方法，具体如下：

101、利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理；

本实施例中，需要具体说明是进行并行提取，首先进行预加重，为了移除频谱倾斜，接着进行希尔伯特变换，得到原实值信号的解析信号，便于分析计算，然后四个自适应共振峰滤波器，每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成，这个滤波器的作用是在对每一个共振峰值进行估算之前，对其进行动态滤波，抑制相邻共振峰的干扰和基频干扰，接着包括清浊音检测，性别检测（根据基频），能量检测，性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值，能量检测是为了滤除无话段，类似于端点检查，清浊音检测是为了滤除清音，因为清音不含共振峰，最后通过移动平均值作决策，符合条件的值作为共振峰估计值保留，不符合条件的值用其移动平均值代替。

其中，需要具体说明的是语音特征提取时语音分类的重要环节，要获取详细的语音特征，首先要从用户中采集原始的语音信息，得到的语音信息后需要按照语音组件形成语音压缩文件，然后通过多个语音压缩文件为单位，一次从语音数据库中找到相对应的语音特征，得到的语音特征供后续的算法继续从硬盘中识别处理的语音压缩文件进行操作，直至算法结束，而上述提取方式为本实施例一个具体的提取方案，本实施例在同等技术效果状态下的技术算法不做更具体方案形式的限定；

102、将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块；

本实施例中，需要具体说明是声学模型整个语音识别系统中最重要的部分，通过声学模型表达语音如何从一个短时平稳段过渡到下一个短时平稳段，同时通过HMM的隐藏状态和观测状态的数目互不相干，解决语音识别中输入输出不等长的问题，声学模型中的每个HMM都涉及到3个参数即：初始状态概率、状态转移概率和观测概率，其中观测概率依赖于特征向量的概率分布，采用高斯混合模型GMM进行建模，具体语音识别框架图如附图1。

103、搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析并由用户语音确认以及指纹验证，如附图2：

本实施例中，需要具体说明是语音支付模块具体步骤如下：

语音命令支付，调用后端生成订单接口；

然后调用生成二维码的接口，生成二维码；

通过service层实现类，通过该订单id查询出订单表中的信息；

new 一个map，传入生成二维码需要的参数；

向支付平台提供的地址发送一个HTTPclient请求；

获取HTTPClient请求的响应，是一个xml格式，并把xml格式转化成Map形式；

这个map中包含二维码的一些信息：二维码地址，金额，订单号等，返回这个map给前端；

语音查询订单状态；

语音向支付平台提供的地址发送一个发送HTTPClient请求，获取订单状态，如果支付成功，就把订单表中对应记录的订单状态更新；

生成支付记录；

语音查询订单表中该订单号的记录中的订单状态，如果是已支付，那么增加一个订单支付记录。

104、用户语音确认无误并指纹验证后由安全监管模块确认支付完成，通过语音播报模块进行播报支付的金额：

本实施例中，需要具体说明是关于安全监管模块为基于语音支付模块上的语音反馈设备，主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。

实施例2

本实施例中，需要具体说明是进行并行提取，首先时语音特征中通过感知线性预测(PLP)技术来实现，将关键频带、强度－响度压缩和等响度预强调相结合，用于语音相关信息的提取，它植根于非线性树皮规模，最初是打算用于语音识别任务中消除说话人相关的特征，PLP给出了一个符合平滑的短期频谱的表示，该短期频谱已被均衡和压缩，类似于人类的听觉，使其类似于MFCC，在PLP方法中，我们复制了听觉的几个显著特征，然后用自回归全极点模型近似地表示类似听觉的语音频谱，PLP给出了高频下的最小分辨率，这意味着基于听觉滤波器组的方法，同时给出了与倒谱分析相似的正交输出，它使用线性预测来平滑光谱，因此，它的名字是感知线性预测，PLP是光谱分析和线性预测分析的结合。

本实施例中，需要具体说明是语音支付模块具体步骤如下：

语音命令支付，调用后端生成订单接口；

然后调用生成二维码的接口，生成二维码；

通过service层实现类，通过该订单id查询出订单表中的信息；

new 一个map，传入生成二维码需要的参数；

向支付平台提供的地址发送一个HTTPclient请求；

语音查询订单状态；

生成支付记录；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，理解在不脱离本发明的原理和精神的情况下对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于语音技术的盲人互联网系统，其特征在于：包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块，所述语音特征提取模块用于多样化信息的特定语音提取，所述语音优化处理模块为语音的压缩优化处理，所述语音建模模块为预测字符序列产生的概率判断一个语言序列是否为正常语句，所述声学模型模块为给定模型后产生语音波形的概率，其输入是语音信号经过特征提取后得到的特征向量序列，语音支付验证模块为根据用户语音验证以及指纹验证后将金额支付给商户的信息处理模块。

2.根据权利要求1所述的一种基于语音技术的盲人互联网系统，其特征在于：所述语音特征提取模块和语音优化处理模块为多语音中根据用户特定的语音在环境中提取并将语音进行压缩优化处理。

3.根据权利要求1所述的一种基于语音技术的盲人互联网系统，其特征在于：所述搜索算法模块为根据字典搜索最优路径，选出最可能的输出词序列，所述语音播报模块为将处理出来的结果通过播报模式告知用户，与用户形成交互关系。

4.根据权利要求1-3任一所述的一种基于语音技术的盲人互联网系统，其特征在于：具体步骤如下：

将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块；

搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析并由用户语音确认以及指纹验证；

用户语音确认无误并指纹验证后由安全监管模块确认支付完成，再通过语音播报模块进行播报支付的金额。

5.根据权利要求1所述的一种基于语音技术的盲人互联网系统，其特征在于：所述语音优化处理模块的语音预处理优化过程具体为对语音信号进行预加重和去加重处理。

6.根据权利要求1所述的一种基于语音技术的盲人互联网系统，其特征在于：所述语音特征提取模块再传输的步骤为：首先进行预加重，为了移除频谱倾斜，接着进行希尔伯特变换，得到原实值信号的解析信号，便于分析计算，然后四个自适应共振峰滤波器，每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成，这个滤波器的作用是在对每一个共振峰值进行估算之前，对其进行动态滤波，抑制相邻共振峰的干扰和基频干扰，接着包括清浊音检测，性别检测，能量检测，性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值，能量检测是为了滤除无话段，清浊音检测是为了滤除清音，因为清音不含共振峰，最后通过移动平均值作决策，符合条件的值作为共振峰估计值保留，不符合条件的值用其移动平均值代替。

7.根据权利要求2所述的一种基于语音技术的盲人互联网系统，其特征在于：声学模型是P（X|W）进行建模，在语音特征与音素之间建立映射关系，即给定模型后产生语音波形的概率，其输入是语音信号经过特征提取后得到的特征向量序列。

8.根据权利要求3所述的一种基于语音技术的盲人互联网系统，其特征在于：所述搜索算法模块为基于启发音节层－树搜索以及词层－树两个搜索过程，在提高识别速度的同时不改变识别率，一方面在音节层－树搜索中，根据N-best算法确定允许扩展的有限个音节串，另一方面在词层－树搜索中，根据已得到的允许扩展的音节串确定不同长度的“退回词路径”，此时每一刻的最大似然词串可由这些“退回词路径”来确定，因此在搜索不同长度的多音节词的同时减少搜索计算过程和降低对存储空间的需求。

9.根据权利要求1所述的一种基于语音技术的盲人互联网系统，其特征在于：所述语音支付模块具体步骤如下：

语音命令支付，调用后端生成订单接口；

然后调用生成二维码的接口，生成二维码；

通过service层实现类，通过该订单id查询出订单表中的信息；

new 一个map，传入生成二维码需要的参数；

向支付平台提供的地址发送一个HTTPclient请求；

这个map中包含二维码的一些信息：二维码地址，金额，订单号，返回这个map给前端；

语音查询订单状态；

生成支付记录；

10.根据权利要求1所述的一种基于语音技术的盲人互联网系统，其特征在于：所述安全监管模块为基于语音支付模块上的语音反馈设备，主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。