CN114678009A - 一种基于语音技术的盲人互联网系统 - Google Patents
一种基于语音技术的盲人互联网系统 Download PDFInfo
- Publication number
- CN114678009A CN114678009A CN202210599135.9A CN202210599135A CN114678009A CN 114678009 A CN114678009 A CN 114678009A CN 202210599135 A CN202210599135 A CN 202210599135A CN 114678009 A CN114678009 A CN 114678009A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- payment
- order
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 25
- 238000010845 search algorithm Methods 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 description 9
- 238000007906 compression Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K17/00—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
- G06K17/0022—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisious for transferring data to distant stations, e.g. from a sensing device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4014—Identity check for transactions
- G06Q20/40145—Biometric identity checks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及电子数字数据处理技术领域,且公开了一种基于语音技术的盲人互联网系统,包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块,所述语音特征提取模块用于多样化信息的特定语音提取,该用于目标页流量分析管理系统及管理方法,利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理,将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块,用户语音确认无误并指纹验证后由安全监管模块确认支付完成,再通过语音播报模块进行播报支付的金额,解决了用户通过语音来完成支付的问题。
Description
技术领域
本发明涉及数字数据处理技术领域,具体为一种基于语音技术的盲人互联网系统。
背景技术
目前关于语言技术主要基于对文语转换技术(Text to Speech),将系统电脑中的文本文件、电子邮件、网络新闻或小说,转换成语音通过播放器来听,当用户在买单时往往都是通过扫平台二维码进行付款,通过语音支付系统目前还没形成,因此对盲人来说无法完成付款操作,使得盲人降低了生活积极性。
发明内容
解决的技术问题
针对现有技术的不足,本发明提供了一种基于语音技术的盲人互联网系统,解决了现有的盲人互联网系统,亟需解决的问题是,语音技术不完善,缺少语音识别支付与验证模块,难以将语音输入信息带来的技术问题,其次是对语音支付安全监管的缺少,监管最终的处理手段及信息反馈过程带来的效果不够明确。
技术方案
为实现上述目的,本发明提供如下技术方案:一种基于语音技术的盲人互联网系统,包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块,所述语音特征提取模块用于多样化信息的特定语音提取,所述语音优化处理模块为语音的压缩优化处理,所述语音建模模块为预测字符(词)序列产生的概率判断一个语言序列是否为正常语句,所述声学模型模块为给定模型后产生语音波形的概率, 其输入是语音信号经过特征提取后得到的特征向量序列,语音支付验证模块为根据用户语音验证以及指纹验证后将金额支付给商户的信息处理模块。
优选的,所述语音特征提取模块和语音优化处理模块为多语音中根据用户特定的语音在环境中提取并将语音进行压缩优化处理。
优选的,所述搜索算法模块为根据字典搜索最优路径,选出最可能的输出词序列,所述语音播报模块为将处理出来的结果通过播报模式告知用户,与用户形成交互关系。
优选的,具体步骤如下:
利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理;
将优化的语音信息传输至语音建模模块进行语音建模以及声学模型进行语音解码后传送至搜索算法模块;
搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析;
用户确认无误并指纹验证后支付再通过语音播报模块进行播报支付的金额。
优选的,所述语音优化处理模块的语音预处理优化过程具体为对语音信号进行预加重和去加重处理。
优选的,所述语音特征提取模块再传输的步骤为:首先进行预加重,原因和MFCC中提到的相同,都是为了移除频谱倾斜,接着进行希尔伯特变换,得到原实值信号的解析信号,便于分析计算,然后四个自适应共振峰滤波器,每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成,这个滤波器的作用是在对每一个共振峰值进行估算之前,对其进行动态滤波,抑制相邻共振峰的干扰和基频干扰,接着包括清浊音检测,性别检测(根据基频),能量检测,性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值,能量检测是为了滤除无话段,类似于端点检查,清浊音检测是为了滤除清音,因为清音不含共振峰,最后通过移动平均值作决策,符合条件的值作为共振峰估计值保留,不符合条件的值用其移动平均值代替。
优选的,声学模型是对等式(1)中的 P(X|W)进行建模,在语音特征与音素之间建立映射关系, 即给定模型后产生语音波形的概率,其输入是语音信号经过特征提取后得到的特征向量序列,具体语音识别框架图如附图1。
优选的,所述搜索算法模块为基于启发音节层-树搜索以及词层-树两个搜索过程,在提高识别速度的同时不改变识别率,一方面在音节层-树搜索中,根据N-best算法确定允许扩展的有限个音节串,另一方面在词层-树搜索中,根据已得到的允许扩展的音节串确定不同长度的“退回词路径”,此时每一刻的最大似然词串可由这些“退回词路径”来确定,因此在搜索不同长度的多音节词的同时减少搜索计算过程和降低对存储空间的需求:
优选的,所述语音支付模块具体步骤如下:
点击立即支付,调用后端生成订单接口
生成订单接口中,通过service层实现类,根据课程id和用户id,在订单表生成一个订单记录;
然后调用生成二维码的接口,生成二维码
通过service层实现类,通过该订单id查询出订单表中的信息;
new 一个map,传入生成二维码需要的参数
向支付平台提供的地址发送一个HTTPclient请求;
获取HTTPClient请求的响应,是一个xml格式,并把xml格式转化成Map形式
这个map中包含二维码的一些信息:二维码地址,金额,订单号等,返回这个map给前端
查询订单状态
向支付平台提供的地址发送一个发送HTTPClient请求,获取订单状态,如果支付成功,就把订单表中对应记录的订单状态更新
生成支付记录
查询订单表中该订单号的记录中的订单状态,如果是已支付,那么增加一个订单支付记录。
有益效果
本发明提供了一种基于语音技术的盲人互联网系统,具备以下有益效果:
该用于目标页流量分析管理系统及管理方法 ,通过利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理;再将优化的语音信息传输至语音建模模块进行语音建模以及声学模型进行语音解码后传送至搜索算法模块,搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析,用户确认无误并指纹验证后支付再通过语音播报模块进行播报支付的金额,保证了盲人输出语音支付口令通过支付模块以及安全指纹验证将金额支付给商家,避免了盲人无法通过扫码支付密码验证给商家的泄密情况,提高了盲人通过语音支付的便捷,增强了盲人生活的积极性。
附图说明
图1为本发明的语音识别系统框架示意图。
图2为本发明的语音支付模块框架示意图。
图3为本发明整体流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例应用于互联网系统/服务器,其可与众多其它通用或专用互联网系统环境或配置一起操作,适于与互联网系统/服务器一起使用的众所周知的计算系统、环境和(或)配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述,通常,程序模块包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型,计算机系统/服务器在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的,在分布式云计算环境中,程序模块位于包括存储设备的本地或远程计算系统存储介质上。
实施例1
本发明提供一种技术方案:一种基于语音技术的盲人互联网系统,包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块,所述语音特征提取模块用于多样化信息的特定语音提取,所述语音优化处理模块为语音的压缩优化处理,所述语音建模模块为预测字符(词)序列产生的概率判断一个语言序列是否为正常语句,所述声学模型模块为给定模型后产生语音波形的概率, 其输入是语音信号经过特征提取后得到的特征向量序列,语音支付验证模块为根据用户语音验证以及指纹验证后将金额支付给商户的信息处理模块,所述语音特征提取模块和语音优化处理模块为多语音中根据用户特定的语音在环境中提取并将语音进行压缩优化处理,所述搜索算法模块为根据字典搜索最优路径, 选出最可能的输出词序列,所述语音播报模块为将处理出来的结果通过播报模式告知用户,与用户形成交互关系具体为手机端和电脑端或其他可编程输入指令端,本实施例不作具体限定,所述安全监管模块为基于语音支付模块上的语音反馈设备,主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。
一种基于语音技术的盲人互联网系统的管理方法,具体如下:
101、利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理;
本实施例中,需要具体说明是进行并行提取,首先进行预加重,为了移除频谱倾斜,接着进行希尔伯特变换,得到原实值信号的解析信号,便于分析计算,然后四个自适应共振峰滤波器,每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成,这个滤波器的作用是在对每一个共振峰值进行估算之前,对其进行动态滤波,抑制相邻共振峰的干扰和基频干扰,接着包括清浊音检测,性别检测(根据基频),能量检测,性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值,能量检测是为了滤除无话段,类似于端点检查,清浊音检测是为了滤除清音,因为清音不含共振峰,最后通过移动平均值作决策,符合条件的值作为共振峰估计值保留,不符合条件的值用其移动平均值代替。
其中,需要具体说明的是语音特征提取时语音分类的重要环节,要获取详细的语音特征,首先要从用户中采集原始的语音信息,得到的语音信息后需要按照语音组件形成语音压缩文件,然后通过多个语音压缩文件为单位,一次从语音数据库中找到相对应的语音特征,得到的语音特征供后续的算法继续从硬盘中识别处理的语音压缩文件进行操作,直至算法结束,而上述提取方式为本实施例一个具体的提取方案,本实施例在同等技术效果状态下的技术算法不做更具体方案形式的限定;
102、将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块;
本实施例中,需要具体说明是声学模型整个语音识别系统中最重要的部分,通过声学模型表达语音如何从一个短时平稳段过渡到下一个短时平稳段,同时通过HMM的隐藏状态和观测状态的数目互不相干,解决语音识别中输入输出不等长的问题,声学模型中的每个HMM都涉及到3个参数即:初始状态概率、状态转移概率和观测概率,其中观测概率依赖于特征向量的概率分布,采用高斯混合模型GMM进行建模,具体语音识别框架图如附图1。
103、搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析并由用户语音确认以及指纹验证,如附图2:
本实施例中,需要具体说明是语音支付模块具体步骤如下:
语音命令支付,调用后端生成订单接口;
生成订单接口中,通过service层实现类,根据课程id和用户id,在订单表生成一个订单记录;
然后调用生成二维码的接口,生成二维码;
通过service层实现类,通过该订单id查询出订单表中的信息;
new 一个map,传入生成二维码需要的参数;
向支付平台提供的地址发送一个HTTPclient请求;
获取HTTPClient请求的响应,是一个xml格式,并把xml格式转化成Map形式;
这个map中包含二维码的一些信息:二维码地址,金额,订单号等,返回这个map给前端;
语音查询订单状态;
语音向支付平台提供的地址发送一个发送HTTPClient请求,获取订单状态,如果支付成功,就把订单表中对应记录的订单状态更新;
生成支付记录;
语音查询订单表中该订单号的记录中的订单状态,如果是已支付,那么增加一个订单支付记录。
104、用户语音确认无误并指纹验证后由安全监管模块确认支付完成,通过语音播报模块进行播报支付的金额:
本实施例中,需要具体说明是关于安全监管模块为基于语音支付模块上的语音反馈设备,主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。
实施例2
本发明提供一种技术方案:一种基于语音技术的盲人互联网系统,包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块,所述语音特征提取模块用于多样化信息的特定语音提取,所述语音优化处理模块为语音的压缩优化处理,所述语音建模模块为预测字符(词)序列产生的概率判断一个语言序列是否为正常语句,所述声学模型模块为给定模型后产生语音波形的概率, 其输入是语音信号经过特征提取后得到的特征向量序列,语音支付验证模块为根据用户语音验证以及指纹验证后将金额支付给商户的信息处理模块,所述语音特征提取模块和语音优化处理模块为多语音中根据用户特定的语音在环境中提取并将语音进行压缩优化处理,所述搜索算法模块为根据字典搜索最优路径, 选出最可能的输出词序列,所述语音播报模块为将处理出来的结果通过播报模式告知用户,与用户形成交互关系具体为手机端和电脑端或其他可编程输入指令端,本实施例不作具体限定,所述安全监管模块为基于语音支付模块上的语音反馈设备,主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。
一种基于语音技术的盲人互联网系统的管理方法,具体如下:
101、利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理;
本实施例中,需要具体说明是进行并行提取,首先时语音特征中通过感知线性预测(PLP)技术来实现,将关键频带、强度-响度压缩和等响度预强调相结合,用于语音相关信息的提取,它植根于非线性树皮规模,最初是打算用于语音识别任务中消除说话人相关的特征,PLP给出了一个符合平滑的短期频谱的表示,该短期频谱已被均衡和压缩,类似于人类的听觉,使其类似于MFCC,在PLP方法中,我们复制了听觉的几个显著特征,然后用自回归全极点模型近似地表示类似听觉的语音频谱,PLP给出了高频下的最小分辨率,这意味着基于听觉滤波器组的方法,同时给出了与倒谱分析相似的正交输出,它使用线性预测来平滑光谱,因此,它的名字是感知线性预测,PLP是光谱分析和线性预测分析的结合。
其中,需要具体说明的是语音特征提取时语音分类的重要环节,要获取详细的语音特征,首先要从用户中采集原始的语音信息,得到的语音信息后需要按照语音组件形成语音压缩文件,然后通过多个语音压缩文件为单位,一次从语音数据库中找到相对应的语音特征,得到的语音特征供后续的算法继续从硬盘中识别处理的语音压缩文件进行操作,直至算法结束,而上述提取方式为本实施例一个具体的提取方案,本实施例在同等技术效果状态下的技术算法不做更具体方案形式的限定;
102、将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块;
本实施例中,需要具体说明是声学模型整个语音识别系统中最重要的部分,通过声学模型表达语音如何从一个短时平稳段过渡到下一个短时平稳段,同时通过HMM的隐藏状态和观测状态的数目互不相干,解决语音识别中输入输出不等长的问题,声学模型中的每个HMM都涉及到3个参数即:初始状态概率、状态转移概率和观测概率,其中观测概率依赖于特征向量的概率分布,采用高斯混合模型GMM进行建模,具体语音识别框架图如附图1。
103、搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析并由用户语音确认以及指纹验证,如附图2:
本实施例中,需要具体说明是语音支付模块具体步骤如下:
语音命令支付,调用后端生成订单接口;
生成订单接口中,通过service层实现类,根据课程id和用户id,在订单表生成一个订单记录;
然后调用生成二维码的接口,生成二维码;
通过service层实现类,通过该订单id查询出订单表中的信息;
new 一个map,传入生成二维码需要的参数;
向支付平台提供的地址发送一个HTTPclient请求;
获取HTTPClient请求的响应,是一个xml格式,并把xml格式转化成Map形式;
这个map中包含二维码的一些信息:二维码地址,金额,订单号等,返回这个map给前端;
语音查询订单状态;
语音向支付平台提供的地址发送一个发送HTTPClient请求,获取订单状态,如果支付成功,就把订单表中对应记录的订单状态更新;
生成支付记录;
语音查询订单表中该订单号的记录中的订单状态,如果是已支付,那么增加一个订单支付记录。
104、用户语音确认无误并指纹验证后由安全监管模块确认支付完成,通过语音播报模块进行播报支付的金额:
本实施例中,需要具体说明是关于安全监管模块为基于语音支付模块上的语音反馈设备,主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,理解在不脱离本发明的原理和精神的情况下对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于语音技术的盲人互联网系统,其特征在于:包括语音特征提取模块、语音优化处理模块、语音建模模块、声学模型模块、搜索算法模块、语音支付模块、安全监管模块和语音播报模块,所述语音特征提取模块用于多样化信息的特定语音提取,所述语音优化处理模块为语音的压缩优化处理,所述语音建模模块为预测字符序列产生的概率判断一个语言序列是否为正常语句,所述声学模型模块为给定模型后产生语音波形的概率,其输入是语音信号经过特征提取后得到的特征向量序列,语音支付验证模块为根据用户语音验证以及指纹验证后将金额支付给商户的信息处理模块。
2.根据权利要求1所述的一种基于语音技术的盲人互联网系统,其特征在于:所述语音特征提取模块和语音优化处理模块为多语音中根据用户特定的语音在环境中提取并将语音进行压缩优化处理。
3.根据权利要求1所述的一种基于语音技术的盲人互联网系统,其特征在于:所述搜索算法模块为根据字典搜索最优路径,选出最可能的输出词序列,所述语音播报模块为将处理出来的结果通过播报模式告知用户,与用户形成交互关系。
4.根据权利要求1-3任一所述的一种基于语音技术的盲人互联网系统,其特征在于:具体步骤如下:
利用语音特征提取模块进行语音提取再传输给语音优化处理模块进行语音预处理;
将优化的语音信息传输至语音建模模块以及声学模型进行语音解码后传送至搜索算法模块;
搜索算法模块根据字典搜索最优路径选出最可能的输出词序列后由语音支付模块处理待支付款金额后由安全监管模块进行语音识别并判定分析并由用户语音确认以及指纹验证;
用户语音确认无误并指纹验证后由安全监管模块确认支付完成,再通过语音播报模块进行播报支付的金额。
5.根据权利要求1所述的一种基于语音技术的盲人互联网系统,其特征在于:所述语音优化处理模块的语音预处理优化过程具体为对语音信号进行预加重和去加重处理。
6.根据权利要求1所述的一种基于语音技术的盲人互联网系统,其特征在于:所述语音特征提取模块再传输的步骤为:首先进行预加重,为了移除频谱倾斜,接着进行希尔伯特变换,得到原实值信号的解析信号,便于分析计算,然后四个自适应共振峰滤波器,每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成,这个滤波器的作用是在对每一个共振峰值进行估算之前,对其进行动态滤波,抑制相邻共振峰的干扰和基频干扰,接着包括清浊音检测,性别检测,能量检测,性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值,能量检测是为了滤除无话段,清浊音检测是为了滤除清音,因为清音不含共振峰,最后通过移动平均值作决策,符合条件的值作为共振峰估计值保留,不符合条件的值用其移动平均值代替。
7.根据权利要求2所述的一种基于语音技术的盲人互联网系统,其特征在于:声学模型是P(X|W)进行建模,在语音特征与音素之间建立映射关系,即给定模型后产生语音波形的概率,其输入是语音信号经过特征提取后得到的特征向量序列。
8.根据权利要求3所述的一种基于语音技术的盲人互联网系统,其特征在于:所述搜索算法模块为基于启发音节层-树搜索以及词层-树两个搜索过程,在提高识别速度的同时不改变识别率,一方面在音节层-树搜索中,根据N-best算法确定允许扩展的有限个音节串,另一方面在词层-树搜索中,根据已得到的允许扩展的音节串确定不同长度的“退回词路径”,此时每一刻的最大似然词串可由这些“退回词路径”来确定,因此在搜索不同长度的多音节词的同时减少搜索计算过程和降低对存储空间的需求。
9.根据权利要求1所述的一种基于语音技术的盲人互联网系统,其特征在于:所述语音支付模块具体步骤如下:
语音命令支付,调用后端生成订单接口;
生成订单接口中,通过service层实现类,根据课程id和用户id,在订单表生成一个订单记录;
然后调用生成二维码的接口,生成二维码;
通过service层实现类,通过该订单id查询出订单表中的信息;
new 一个map,传入生成二维码需要的参数;
向支付平台提供的地址发送一个HTTPclient请求;
获取HTTPClient请求的响应,是一个xml格式,并把xml格式转化成Map形式;
这个map中包含二维码的一些信息:二维码地址,金额,订单号,返回这个map给前端;
语音查询订单状态;
语音向支付平台提供的地址发送一个发送HTTPClient请求,获取订单状态,如果支付成功,就把订单表中对应记录的订单状态更新;
生成支付记录;
语音查询订单表中该订单号的记录中的订单状态,如果是已支付,那么增加一个订单支付记录。
10.根据权利要求1所述的一种基于语音技术的盲人互联网系统,其特征在于:所述安全监管模块为基于语音支付模块上的语音反馈设备,主要为语音识别程序、支付验证程序、局部特定关键单元屏蔽和异常支付单元屏蔽。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210599135.9A CN114678009A (zh) | 2022-05-30 | 2022-05-30 | 一种基于语音技术的盲人互联网系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210599135.9A CN114678009A (zh) | 2022-05-30 | 2022-05-30 | 一种基于语音技术的盲人互联网系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114678009A true CN114678009A (zh) | 2022-06-28 |
Family
ID=82081113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210599135.9A Pending CN114678009A (zh) | 2022-05-30 | 2022-05-30 | 一种基于语音技术的盲人互联网系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114678009A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543083A (zh) * | 2012-03-16 | 2012-07-04 | 北京海尔集成电路设计有限公司 | 智能语音识别方法和芯片、云设备以及云服务器 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN108597510A (zh) * | 2018-04-11 | 2018-09-28 | 上海思依暄机器人科技股份有限公司 | 一种数据处理方法和装置 |
CN111554281A (zh) * | 2020-03-12 | 2020-08-18 | 厦门中云创电子科技有限公司 | 自动识别语种的车载人机交互方法、车载终端及存储介质 |
CN212694263U (zh) * | 2020-08-12 | 2021-03-12 | 西安工程大学 | 一种视障人群手表 |
CN112885336A (zh) * | 2021-01-29 | 2021-06-01 | 深圳前海微众银行股份有限公司 | 语音识别系统的训练、识别方法、装置、电子设备 |
CN113554424A (zh) * | 2021-07-26 | 2021-10-26 | 中国工商银行股份有限公司 | 语音支付方法、装置、电子设备、存储介质、程序产品 |
CN113763928A (zh) * | 2021-05-26 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 音频类别预测方法、装置、存储介质及电子设备 |
-
2022
- 2022-05-30 CN CN202210599135.9A patent/CN114678009A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543083A (zh) * | 2012-03-16 | 2012-07-04 | 北京海尔集成电路设计有限公司 | 智能语音识别方法和芯片、云设备以及云服务器 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
CN108597510A (zh) * | 2018-04-11 | 2018-09-28 | 上海思依暄机器人科技股份有限公司 | 一种数据处理方法和装置 |
CN111554281A (zh) * | 2020-03-12 | 2020-08-18 | 厦门中云创电子科技有限公司 | 自动识别语种的车载人机交互方法、车载终端及存储介质 |
CN212694263U (zh) * | 2020-08-12 | 2021-03-12 | 西安工程大学 | 一种视障人群手表 |
CN112885336A (zh) * | 2021-01-29 | 2021-06-01 | 深圳前海微众银行股份有限公司 | 语音识别系统的训练、识别方法、装置、电子设备 |
CN113763928A (zh) * | 2021-05-26 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 音频类别预测方法、装置、存储介质及电子设备 |
CN113554424A (zh) * | 2021-07-26 | 2021-10-26 | 中国工商银行股份有限公司 | 语音支付方法、装置、电子设备、存储介质、程序产品 |
Non-Patent Citations (5)
Title |
---|
U013250861: ""自动语音识别"", 《HTTPS://BLOG.CSDN.NET/U013250861/ARTICLE/DETAILS/123366454》 * |
WEIXIN_46511995: ""谷粒学院Day-15创建订单,订单支付"", 《HTTPS://BLOG.CSDN.NET/WEIXIN_46511995/ARTICLE/DETAILS/124667424》 * |
曹琳: "《互联网处理技术与应用研究》", 1 July 2020 * |
许晓斌: ""用于连续语音识别的词汇搜索算法"", 《北方交通大学学报》 * |
马晗 等: ""语音识别研究综述"", 《计算机系统应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817213B (zh) | 用于自适应语种进行语音识别的方法、装置及设备 | |
CN107945786B (zh) | 语音合成方法和装置 | |
CN107481717B (zh) | 一种声学模型训练方法及系统 | |
US20050143997A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN113436612B (zh) | 基于语音数据的意图识别方法、装置、设备及存储介质 | |
CN110930975B (zh) | 用于输出信息的方法和装置 | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
CN114610840A (zh) | 基于敏感词的账务监控方法、装置、设备及存储介质 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
WO2024055752A1 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
WO2023222090A1 (zh) | 基于深度学习的信息推送方法和装置 | |
CN115376498A (zh) | 语音识别方法、模型训练方法、装置、介质、电子设备 | |
US20230015112A1 (en) | Method and apparatus for processing speech, electronic device and storage medium | |
CN114678009A (zh) | 一种基于语音技术的盲人互联网系统 | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 | |
CN113314103A (zh) | 基于实时语音情感分析的非法信息识别方法及装置 | |
CN114550741A (zh) | 一种语义识别的方法和系统 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Zong et al. | Black-box audio adversarial example generation using variational autoencoder | |
CN117041430B (zh) | 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置 | |
CN113689863B (zh) | 一种声纹特征提取方法、装置、设备及存储介质 | |
CN112820267B (zh) | 波形生成方法以及相关模型的训练方法和相关设备、装置 | |
Hokking et al. | A hybrid of fractal code descriptor and harmonic pattern generator for improving speech recognition of different sampling rates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |