CN111933146A - 语音识别系统及方法 - Google Patents

语音识别系统及方法 Download PDF

Info

Publication number
CN111933146A
CN111933146A CN202011088752.XA CN202011088752A CN111933146A CN 111933146 A CN111933146 A CN 111933146A CN 202011088752 A CN202011088752 A CN 202011088752A CN 111933146 A CN111933146 A CN 111933146A
Authority
CN
China
Prior art keywords
character string
recognition
voice
current
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011088752.XA
Other languages
English (en)
Other versions
CN111933146B (zh
Inventor
吴旭貌
薛少飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN202011088752.XA priority Critical patent/CN111933146B/zh
Publication of CN111933146A publication Critical patent/CN111933146A/zh
Application granted granted Critical
Publication of CN111933146B publication Critical patent/CN111933146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施方式中提供一种语音识别系统。语音识别系统包括:一个语音识别单元和一个发音对比单元。语音识别单元利用多路并行识别架构可以通过接收输入语音信号同时获得多路的语音识别字符串。发音对比单元获取当前值距离度量值S/L且根据当前S/L和给定的阈值判断后获取最终语音识别输出字段。同时本发明还提供了一种语音识别方法。从而,本发明中的语音识别系统可以避免很多客户提供定制文本带来的不确定性,并且很好的提升了识别系统的体验。

Description

语音识别系统及方法
技术领域
本发明涉及语音识别及应用领域。本发明具体涉及语音识别系统及方法。
背景技术
目前各大公司能够开源的在语音交互系统比较稀少,如果按使用的领 域场景划分,目前市面上智能语音交互使用场景主要有智能车载车机、IOT物联网智能家居中控、教育陪伴智能机器人、电话移动客服和会议智能转写机器人等。这些 智能语音交互系统总体上的使用技术包含了前端 SSP语音型号处理、ASR自动语音识别、NLU自然语言理解、DM对话管理和TTS从文本到语音等技术。
可以对不同场景的垂类领域提供差异化服务。对于每个独立的使用场景来说,为了体现与通用服务不同的识别能力,各大厂商的不同语音识别系统都提供了并行的语音解码技术来满足不同层次客户的需求。
各大语音识别系统最通常的流程是由麦克风接收用户的声音,经过信号处理 后输入 ASR 系统识别出用户说话的文本。 随着识别用户的增加,对于这些不同 生活场景和不同使用层次的客户而言,语音服务提供商提供了并行的语音识别解码技术来满足客户的差异化的定制需求。
现有的主流语音识别技术主要包含以下的三大模块:语言模型、声学模型和解码器。各大厂商提供的语音识别服务所采用的并行语音识别系统一般采用三路或更多路的解码方式。
通常情况下,一路的语言模型都由语音服务提供商来制作,该语言模型是从大量的通用文本中来学习通用的说法可以保证了语音识别系统的基线识别能力;其他路的语言模型可以开放出相应的接口给用户来定制领域相关的文本,比如车载控制领域、儿童教育领域或者家居控制领域,其他路语言模型的存在保证了语音识别的能力可以同时覆盖到一些相应的领域的识别。
对于并行语音识别解码技术而言,其他路的语言模型的自由度较大,通常由语音识别服务提供商提供相应的 API,把定制化的文本通过一些定义好的文本格式上传到服务商的自训练平台,得到相应的多路语言模型资源。在此过程中,通常需要对不同的文本做分类归纳,并且使用 Class base 语言模型(或类语言模型)来训练多路的语言模型资源。
在此基础上往往会有一些意料之外状况发生。一、多路的某一个技能文本添加过多导致某一些词出现的概率偏大;二、对于一些客户需要很长的文本需要完全匹配做的不成熟;三、在很多噪声和杂音的场景中,如果声学没有很明显的一个区分度,多路的语言的特性导致了同样词的得分在二路或三路会明显大于一路,这种情况下会高频的出一些奇怪的词。
对于正常的使用场景来说,情况一和情况二的这类情况会带来较为糟糕的体验;对于一些高噪的场景或者语音识别全双工的模式下,情况三的这类问题就会比较的凸显。
上述缺陷产生的原因在于:现在的语音识别技术提供商开放出来的多路语言模型训练服务就是为了满足不同的客户的定制化需求,但是各个客户层次的不同,开发的能力有所差异,且对比一路来说,二三路的语言模型变数较大,很难在一个加强和减弱某一些说法的概率上做权衡,所以某些说法语料过多会在解码器最后 PK 中倾向性过于明显,这个导致了上述情况一的发生。
而文本越长,使识别字符串和相应文本完全匹配的难度也越大,情况二就是如此。针对于情况三,从使用者的角度出发,更希望一个语音的识别系统可以使用的场景越多越好,就像最近比较火热的全双工语音识别模式,在该类语音识别模式下不可避免的会出现诸多噪音较大或者信噪比较低的音频,ASR的声学模型往往对这一类的音频没有一个很强的分类能力,所以解码的最终字符串很大程度上取决于二三路语言模型中概率较大的词汇,产生的现象就是可以在大量的请求中统计出一些二三路的识别错误的高频词汇。
由于无法对每个客户的定制文本做单独的处理,也很难在希望出二三路字符串和希望不出二三路的字符串中做一些权衡,所以这些问题还是比较难以处理的。
发明内容
本发明实施方式提供一种语音识别系统及方法,用于至少解决上述技术问题之一。
第一方面,本发明实施方式中提供一种语音识别系统,其能够识别输入语音,其中,语音识别系统包括:一个语音识别单元和一个发音对比单元。
语音识别单元能够接收根据输入语音获得待识别语音。语音识别单元包括:一个通用语言识别模块和一个第一语言识别模块。
通用语言识别模块,其配置为能够通过通用语言模型识别待识别语音获取至少一个第一识别字符串。通用语言模型通过训练多个通用语言字段或语句获得。和
第一语言识别模块,其配置为能够通过第一特定语言模型识别待识别语音获取至少一个第二识别字符串。第一特定语言模型通过训练多个第一设定领域的语言字段或语句获得。
语音识别单元,其配置为根据第一识别字符串及第二识别字符串输出获取当前识别字符串。以及
发音对比单元,其配置为预存多条特定句子及一个设定阈值。
发音对比单元,其配置为根据当前识别字符串获取当前字符串长度L。
发音对比单元,其配置为分别获取当前识别字符串与多条特定句子的多个当前编辑距离S。
发音对比单元,其配置为获取多个当前编辑距离S与当前字符串长度L的多个当前距离度量值S/L。
发音对比单元,其配置为判断是否具有特定句子优先输出设置,若是,则判断当前距离度量值S/L中是否有小于设定阈值,若有,则将对应的特定句子作为语音识别输出字段,若否,则根据当前识别字符串作为语音识别输出字段。
第二方面,本发明实施方式中提供一种语音识别方法。其能够识别输入语音,语音识别方法包括:
步骤S101,接收根据输入语音获得待识别语音。
步骤S102,通过通用语言模型识别待识别语音获取至少一个第一识别字符串。通用语言模型通过训练多个通用语言字段或语句获得。
步骤S103,通过第一特定语言模型识别待识别语音获取至少一个第二识别字符串。第一特定语言模型通过训练多个第一设定领域的语言字段或语句获得。
步骤S104,根据第一识别字符串及第二识别字符串输出获取当前识别字符串。
步骤S105,根据当前识别字符串获取当前字符串长度L。分别获取当前识别字符串与多条特定句子的多个当前编辑距离S。
步骤S106,获取多个当前编辑距离S与当前字符串长度L的多个当前距离度量值S/L。
步骤S107,判断是否具有特定句子优先输出设置,若是,则判断当前距离度量值S/L中是否有小于设定阈值距离度量值,若有,则将对应的特定句子作为语音识别输出字段,若否,则根据当前识别字符串作为语音识别输出字段。
第三方面,提供一种语音识别的电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施方式的方法的步骤。
第四方面,本发明实施方式还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行本发明任一实施方式的方法的步骤。
本发明通过“特定语句”的设定,从而语音识别系统的最终的后处理方式在很大的程度上避免了客户建立的不规范的语言模型对最终识别效果的影响,但不能忽视对客户提供相应文本的规范的建立。
该后处理方式的建立很成功的把非一路语言模型对整个识别过程不确定和不鲁棒部分(主要包含的是杂乱的音频识别和极低信噪比音频的识别)的风险嫁接到了一路的语言模型上,对一路通用语言模型的稳定性提出了更高的需求;换句话说,只要识别一路的语言模型足够的通用,加上识别过程中的声学可以很好的覆盖到各个场景,整个 ASR 系统就可以避免很多客户提供定制文本带来的不确定性,并且很好的提升了识别系统的体验。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施方式提供的语音识别系统的组成图;
图2为本发明另一实施方式提供的语音识别系统的组成图;
图3为本发明一实施方式提供的语音识别方法的流程示意图;
图4为本发明另一实施方式提供的语音识别方法的流程示意图;
图5是本发明一实施方式提供的语音识别方法的在一种识别状态时的流程示意图;
图6是本发明一实施方式提供的语音识别方法的在另一种识别状态时的流程示意图;
图7是本发明一实施方式提供的电子设备的结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
为了解决现有技术中所存在的问题,最经常使用的方式是需要客户配合调整相应的定制化文本,对于识别的最终字符串不是想要词汇,需要在定制的文本中相应添加相应需要的文本。对于噪声和杂音情况下的误识别最通常的做法也是去找出二三路高频识别出的句子,然后人工检索后再进行删除,最后需要把删除后的文本重新上传到自训练平台重新训练语言模型。
本发明中,解决现有技术中缺陷的思路在于:
首先,需要准备建立一个多路并行解码的语音识别系统,多路共用一个声学模型或者根据不同的领域训练不同的声学模型,一路是由大量的通用文本学习出的一个通用语言模型,二三路的语言模型是通过客户提供的不同领域的定制化文训练出的 class base 语言模型。并建立了一批特定的句子和其发音对比单元的对应文件,同时给定一个发音对比单元度量阈值 F。
其次,通过该并行 ASR 系统得到每一路的输出和相应输出的发音对比单元字符串,对于字符串相似度的距离度量以编辑距离为例。
最后,是一个判断模块,对于最终需要输出特定文本的情况而言:系统直接比对一下最终字符串发音对比单元与特定句子发音对比单元的编辑距离,编辑距离除以特定句子发音对比单元串的长度,小于某个阈值直接替换输出;反之输出解码器的字符串即可;
如果是不需要输出特定文本的情况:如果字符串是直接从一路出了,系统直接输出解码器的字符串;如果最终的字符串是从二路或者三路出的,会把最终字符串的发音对比单元字符串和一路字符串的发音对比单元字符串算一个编辑距离 S,假设一路的发音对比单元字符串长度是 L,接着对比一下 S/L 与发音对比单元阈值 F。如果大于阈值F,最终的字符串就取一路的字符串;如果小于阈值 F,最终的字符串从解码器选择路出。
通过结合上述的几个模块和相应的判断,可以有效的避免之前提到过的那些问题,尤其可以有效的抑制噪音和杂音的各种误识别的情况,提升整个模块的用户体验。
第一方面,本发明的一种实施方式中提供了语音识别系统。如图1所示,本发明中的语音识别系统能够识别输入语音,语音识别系统包括:一个语音识别单元101和一个发音对比单元201。
一个语音识别单元101,其能够接收根据输入语音获得待识别语音。语音识别单元101包括:一个通用语言识别模块10和一个第一语言识别模块20。
通用语言识别模块10配置为能够通过通用语言模型识别待识别语音获取至少一个第一识别字符串。通用语言模型通过训练多个通用语言字段或语句获得。和
第一语言识别模块20配置为能够通过第一特定语言模型识别待识别语音获取至少一个第二识别字符串。第一特定语言模型通过训练多个第一设定领域的语言字段或语句获得。
语音识别单元101配置为根据第一识别字符串及第二识别字符串输出获取当前识别字符串。
发音对比单元201配置为预存多条特定句子及一个设定阈值。
发音对比单元201其配置为根据当前识别字符串获取当前字符串长度L。
发音对比单元201,其配置为分别获取当前识别字符串与多条特定句子的多个当前编辑距离S。
发音对比单元201,其配置为获取多个当前编辑距离S与当前字符串长度L的多个当前距离度量值S/L。
发音对比单元201,其配置为判断是否具有特定句子优先输出设置,若是,则判断当前距离度量值S/L中是否有小于设定阈值,若有,则将对应的特定句子作为语音识别输出字段,若否,则根据当前识别字符串作为语音识别输出字段。
在发明中语音识别系统的另一种优选的实施方式中,如图2所示,语音识别单元101还包括:一个第二语言识别模块30。
第二语言识别模块30配置为能够通过第二特定语言模型识别待识别语音获取至少一个第三识别字符串。第二特定语言模型通过训练多个第二设定领域的语言字段或语句获得。
语音识别单元101,其还配置为根据第一识别字符串、第二识别字符串以及第三识别字符串输出获取当前识别字符串。
在发明中语音识别系统的又一种优选的实施方式中,发音对比单元201还配置为判断是否收到特定句子优先输出设置,若否,则发音对比单元201判断当前识别字符串是否为第一识别字符串。
若是第一识别字符串,则输出第一识别字符串作为语音识别输出字段。若不是第一识别字符串,则发音对比单元201获取当前识别字符串与第一识别字符串的第一编辑距离S1。发音对比单元201获取第一识别字符串的第一字段长度L1。
发音对比单元201,还配置为获取第一编辑距离S1与第一字段长度L1的第一距离度量值S1/L1
发音对比单元201,还配置为判断第一距离度量值S1/L1是否小于设定阈值,若是,则输出第一识别字符串为语音识别输出字段。若否,则输出当前识别字符串为语音识别输出字段。
在发明中语音识别系统的再一种优选的实施方式中,如图2所示,还包括:一个SSP(SSP:语音信号处理)语音信号处理单元100。
SSP语音信号处理单元100配置为能够获取输入语音中的待识别语音。SSP语音信号处理单元100能够输出待识别语音。语音识别单元101还其配置为接收SSP语音信号处理单元100输出的待识别语音。从而便于对语音信号的处理。
在发明中语音识别系统的再一种优选的实施方式中,如图2所示,还包括:一个音频输入单元301。
一个音频输入单元301,其配置为能够获取输入语音且能够将输入语音输出到SSP语音信号处理单元100。SSP语音信号处理单元100,其还配置为能够从音频输入单元301获取输入语音。从而便于语音输入及对语音音频的采集。
第二方面,本发明实施方式中提供语音识别方法,其能够识别输入语音,如图3所示,语音识别方法包括:
步骤S101,接收待识别语音。
本步骤中,接收根据输入语音获得待识别语音。输入语音的音频信息通过采集处理后获得。
步骤S102,获取第一识别字符串。
本步骤中,通过通用语言模型识别待识别语音获取至少一个第一识别字符串。通用语言模型通过训练多个通用语言字段或语句获得。上第一识别字符串是通用语言模型在语音识别后通过解码所输出的发音对比单元可以识别的字符串。
步骤S103,获取第二识别字符串。
本步骤中,通过第一特定语言模型识别待识别语音获取至少一个第二识别字符串。第一特定语言模型通过训练多个第一设定领域的语言字段或语句获得。上第二识别字符串是特定语言模型在语音识别后通过解码所输出的发音对比单元可以识别的字符串。
步骤S104,获取当前识别字符串。
本步骤中,根据第一识别字符串及第二识别字符串输出获取当前识别字符串。
步骤S105,获取当前字符串长度L及当前编辑距离S。
本步骤中,根据当前识别字符串获取当前字符串长度L。分别获取当前识别字符串与多条特定句子的多个当前编辑距离S。
步骤S106,获取当前距离度量值S/L。
本步骤中,获取多个当前编辑距离S与当前字符串长度L的多个当前距离度量值S/L。
步骤S107,获取语音识别输出字段。
本步骤中,判断是否具有特定句子优先输出设置,若是,则判断当前距离度量值S/L中是否有小于设定阈值,若有,则将对应的特定句子作为语音识别输出字段,若否,则根据当前识别字符串作为语音识别输出字段。
在发明中语音识别方法的另一种优选的实施方式中,步骤S103中还包括:
步骤S1031,通过第二特定语言模型识别待识别语音获取至少一个第三识别字符串。第二特定语言模型通过训练多个第二设定领域的语言字段或语句获得。
步骤S104中还包括,根据第一识别字符串、第二识别字符串以及第三识别字符串输出获取当前识别字符串。
在发明中语音识别方法的又一种优选的实施方式中,步骤S107还包括:
步骤1071,判断是否收到特定句子优先输出设置,若否,则发音对比单元201判断当前识别字符串是否为第一识别字符串。若是第一识别字符串,则输出第一识别字符串作为语音识别输出字段。
在发明中语音识别方法的再一种优选的实施方式中,步骤S107还包括:
步骤1072,若不是第一识别字符串,则获取当前识别字符串与第一识别字符串的第一编辑距离S1。
获取第一识别字符串的第一字段长度L1
获取第一编辑距离S1与第一字段长度L1的第一距离度量值S1/L1
判断第一距离度量值S1/L1是否小于设定阈值,若是,则输出第一识别字符串为语音识别输出字段。若否,则输出当前识别字符串为语音识别输出字段。
在发明中语音识别方法的再一种优选的实施方式中,如图4所示,步骤S101前还包括:步骤S100,获取输入语音中的待识别语音。输出待识别语音。步骤101中还包括,接收待识别语音。
在本发明的一种实施方式中,本发明中的语音识别方法是:
1)首先是一个常规的一个 ASR(ASR:自动语音识别)多路识别的模块,可以使用麦克风等音频输入设备接收用户的语音信息,再经过后续的语音信号处理模块,接着送入 ASR 系统中,本语音交互系统整体上分为三路,或者更多路。这些并行的多路系统 ASR 共享一个声学模型也可以根据不同的领域训练不同的声学模型,一路通常由语音技术提供商来制作,二路和三路的由客户提供的文本生成的语言模型,除了一路外的语言模型在各个细分领域有着较强的倾向性。
2)编写一个发音对比单元转换的工具;并建立了一批特定的句子和其发音对比单元的对应文件,给定发音对比单元对比阈值 F。
3)经过多路并行 ASR 解码器后,可以得到多路的解码字符串,并且把相应的字符串转化为发音对比单元字符串(英文单词可以按照字母串来转换)。
4)考虑两种场景:一、如图5所示,识别系统需要最终的字符串和既定的句子完全一致,可以先算出解码器的输出和既定的句子发音对比单元字符串之间的编辑距离 S,接着算出解码器输出发音对比单元字符串的长度 L,如果 S/L 小于某一个较小的阈值,则输出提前给定句的句子,其他的情况就直接输出解码器的最终字符串。
二、如图6所示,在没有特殊的既定句子情况下:如果最终字符串从一路出,则直接输出解码器的字符串;如果最终的字符串从非一路的字符串中出,需要先计算出最终字符串和一路字符串的发音对比单元字符串的编辑距离 S,接着得到一路输出发音对比单元字符串的长度 L,如果 S/L 大于某一个较大的阈值 F,则输出一路的字符串,反之则直接输出解码器的最终字符串。
在实际编写的过程中,存在 beta 版本。对并发量来说,当然多路后处理的存在会使得一些整体的计算量上升。中间的时候考虑过为了降低多路的过偏语言模型带来的影响,可以在给客户训练定制化语言模型时强行的插值一个相应的通用语言模型,该方式可以适当提升在很多非常规场景下 ASR 识别的鲁棒性。可以一定程度上解决之前提到过的一些问题。
本发明中的语音识别系统为多路并行的 ASR 解码系统,需要不同领域文本数据去学习出不同层次的语言模型。基于发音对比单元度量的工具编写,通过分析不同语言模型得到的发音对比单元字符串的相似性来决定最终的输出。
在另一些实施方式中,本发明实施方式还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施方式中的语音识别系统;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行语音识别系统设置为:
步骤S101,接收根据输入语音获得待识别语音。
步骤S102,通过通用语言模型识别待识别语音获取至少一个第一识别字符串。通用语言模型通过训练多个通用语言字段或语句获得。
步骤S103,通过第一特定语言模型识别待识别语音获取至少一个第二识别字符串。第一特定语言模型通过训练多个第一设定领域的语言字段或语句获得。
步骤S104,根据第一识别字符串及第二识别字符串输出获取当前识别字符串。
步骤S105,根据当前识别字符串获取当前字符串长度L。分别获取当前识别字符串与多条特定句子的多个当前编辑距离S。
步骤S106,获取多个当前编辑距离S与当前字符串长度L的多个当前距离度量值S/L。
步骤S107,判断是否具有特定句子优先输出设置,若是,则判断当前距离度量值S/L中是否有小于设定阈值,若有,则将对应的特定句子作为语音识别输出字段,若否,则根据当前识别字符串作为语音识别输出字段。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施方式中的语音信号处理方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施方式中的语音信号处理方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施方式还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音信号处理方法。
图7是本发明实施方式提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。语音信号处理方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施方式语音信号处理方法。输入装置730可接收输入的数字或字符信息,以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施方式所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的方法。
作为一种实施方式,上述电子设备可以应用于加密、解密平台中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个语音对话处理器能够:
判断是否存在网络连接信息,若是,则识别终端将当前语音信息发送到远程语音识别服务端。能够识别当前语音信息,获取当前识别数据且返回识别终端。
判断是否在设定时间内接收当前识别数据,若接收,则根据当前识别数据获取当前对话字符串。若不能接收,则根据本地预存的语音识别程序识别当前语音信息,获取本地识别数据,根据本地识别数据获取当前对话字符串。
若否,则识别终端根据本地预存的语音识别程序识别当前语音信息,获取本地识别数据,根据本地识别数据获取当前对话字符串。
本申请实施方式的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施方式仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施方式或者实施方式的某些部分的方法。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims (10)

1.一种语音识别系统,其能够识别输入语音,其中,所述语音识别系统包括:
一个语音识别单元,其能够接收根据所述输入语音获得待识别语音;所述语音识别单元包括:
一个通用语言识别模块,其配置为能够通过通用语言模型识别所述待识别语音获取至少一个第一识别字符串;所述通用语言模型通过训练多个通用语言字段或语句获得;和
一个第一语言识别模块,其配置为能够通过第一特定语言模型识别所述待识别语音获取至少一个第二识别字符串;所述第一特定语言模型通过训练多个第一设定领域的语言字段或语句获得;
所述语音识别单元,其配置为根据所述第一识别字符串及所述第二识别字符串输出获取当前识别字符串;以及
一个发音对比单元,其配置为预存多条特定句子及一个设定阈值;
所述发音对比单元,其配置为根据所述当前识别字符串获取当前字符串长度L;
所述发音对比单元,其配置为分别获取所述当前识别字符串与所述多条特定句子的多个当前编辑距离S;
所述发音对比单元,其配置为获取所述多个当前编辑距离S与所述当前字符串长度L的多个当前距离度量值S/L;
所述发音对比单元,其配置为判断是否具有特定句子优先输出设置,若是,则判断所述当前距离度量值S/L中是否有小于设定阈值,若有,则将对应的特定句子作为语音识别输出字段,若否,则根据所述当前识别字符串作为语音识别输出字段。
2.根据权利要求1所述的系统,其中,所述语音识别单元还包括:
一个第二语言识别模块,其配置为能够通过第二特定语言模型识别所述待识别语音获取至少一个第三识别字符串;所述第二特定语言模型通过训练多个第二设定领域的语言字段或语句获得;
所述语音识别单元,其还配置为根据所述第一识别字符串、所述第二识别字符串以及所述第三识别字符串输出获取当前识别字符串。
3.根据权利要求2所述的系统,其中,所述发音对比单元,其还配置为判断是否收到所述特定句子优先输出设置,若否,则所述发音对比单元判断所述当前识别字符串是否为所述第一识别字符串;
若是所述第一识别字符串,则输出所述第一识别字符串作为语音识别输出字段;若不是所述第一识别字符串,则所述发音对比单元获取所述当前识别字符串与所述第一识别字符串的第一编辑距离S1;所述发音对比单元获取所述第一识别字符串的第一字段长度L1
所述发音对比单元,还配置为获取所述第一编辑距离S1与所述第一字段长度L1的第一距离度量值S1/L1
所述发音对比单元,还配置为判断所述第一距离度量值S1/L1是否小于设定阈值,若是,则输出所述第一识别字符串为语音识别输出字段;若否,则输出所述当前识别字符串为语音识别输出字段。
4.根据权利要求1所述的系统,其中,还包括:
一个SSP语音信号处理单元,其配置为能够获取所述输入语音中的待识别语音;所述SSP语音信号处理单元能够输出所述待识别语音;
一个语音识别单元,还其配置为接收所述SSP语音信号处理单元输出的待识别语音。
5.根据权利要求4所述的系统,其中,还包括:
一个音频输入单元,其配置为能够获取输入语音且能够将所述输入语音输出到所述SSP语音信号处理单元;
所述SSP语音信号处理单元,其还配置为能够从所述音频输入单元获取所述输入语音。
6.一种语音识别方法,其能够识别输入语音,其中,所述语音识别方法包括:
步骤S101,接收根据所述输入语音获得待识别语音;
步骤S102,通过通用语言模型识别所述待识别语音获取至少一个第一识别字符串;所述通用语言模型通过训练多个通用语言字段或语句获得;
步骤S103,通过第一特定语言模型识别所述待识别语音获取至少一个第二识别字符串;所述第一特定语言模型通过训练多个第一设定领域的语言字段或语句获得;
步骤S104,根据所述第一识别字符串及所述第二识别字符串输出获取当前识别字符串;
步骤S105,根据所述当前识别字符串获取当前字符串长度L;分别获取所述当前识别字符串与多条特定句子的多个当前编辑距离S;
步骤S106,获取所述多个当前编辑距离S与所述当前字符串长度L的多个当前距离度量值S/L;
步骤S107,判断是否具有特定句子优先输出设置,若是,则判断所述当前距离度量值S/L中是否有小于设定阈值,若有,则将对应的特定句子作为语音识别输出字段,若否,则根据所述当前识别字符串作为语音识别输出字段。
7.根据权利要求6所述的方法,其中,所述步骤S103中还包括:
步骤S1031,通过第二特定语言模型识别所述待识别语音获取至少一个第三识别字符串;所述第二特定语言模型通过训练多个第二设定领域的语言字段或语句获得;
所述步骤S104中还包括,根据所述第一识别字符串、所述第二识别字符串以及所述第三识别字符串输出获取当前识别字符串。
8.根据权利要求7所述的方法,其中,所述步骤S107还包括:
步骤1071,判断是否收到所述特定句子优先输出设置,若否,则发音对比单元判断所述当前识别字符串是否为所述第一识别字符串;若是所述第一识别字符串,则输出所述第一识别字符串作为语音识别输出字段。
9.根据权利要求7所述的方法,其中,所述步骤S107还包括:
步骤1072,若不是所述第一识别字符串,则获取所述当前识别字符串与所述第一识别字符串的第一编辑距离S1
获取所述第一识别字符串的第一字段长度L1
获取所述第一编辑距离S1与所述第一字段长度L1的第一距离度量值S1/L1
判断所述第一距离度量值S1/L1是否小于设定阈值,若是,则输出所述第一识别字符串为语音识别输出字段;若否,则输出所述当前识别字符串为语音识别输出字段。
10.根据权利要求6所述的方法,其中,所述步骤S101前还包括:
步骤S100,获取所述输入语音中的待识别语音;输出所述待识别语音;
所述步骤101中还包括,接收所述待识别语音。
CN202011088752.XA 2020-10-13 2020-10-13 语音识别系统及方法 Active CN111933146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011088752.XA CN111933146B (zh) 2020-10-13 2020-10-13 语音识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011088752.XA CN111933146B (zh) 2020-10-13 2020-10-13 语音识别系统及方法

Publications (2)

Publication Number Publication Date
CN111933146A true CN111933146A (zh) 2020-11-13
CN111933146B CN111933146B (zh) 2021-02-02

Family

ID=73334475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011088752.XA Active CN111933146B (zh) 2020-10-13 2020-10-13 语音识别系统及方法

Country Status (1)

Country Link
CN (1) CN111933146B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929047A (zh) * 2021-01-26 2021-06-08 明峰医疗系统股份有限公司 一种低噪声数字ct音频交互系统及控制方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101120397A (zh) * 2005-01-17 2008-02-06 日本电气株式会社 语音识别系统、语音识别方法以及语音识别程序
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107424605A (zh) * 2017-03-13 2017-12-01 浙江曼悟电子科技股份有限公司 一种基于x86和arm芯片的便携式多路并行智能语音识别一体机
CN107659847A (zh) * 2016-09-22 2018-02-02 腾讯科技(北京)有限公司 语音互动方法和装置
US20180315425A1 (en) * 2012-12-19 2018-11-01 Amazon Technologies, Inc. Architecture for multi-domain natural language processing
CN109817217A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于语音识别的自助贩卖方法、装置、设备及介质
CN110427459A (zh) * 2019-08-05 2019-11-08 苏州思必驰信息科技有限公司 语音识别网络的可视化生成方法、系统及平台
CN110442853A (zh) * 2019-08-09 2019-11-12 深圳前海微众银行股份有限公司 文本定位方法、装置、终端及存储介质
CN110675855A (zh) * 2019-10-09 2020-01-10 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN111354363A (zh) * 2020-02-21 2020-06-30 镁佳(北京)科技有限公司 车载语音识别方法、装置、可读存储介质及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101120397A (zh) * 2005-01-17 2008-02-06 日本电气株式会社 语音识别系统、语音识别方法以及语音识别程序
US20180315425A1 (en) * 2012-12-19 2018-11-01 Amazon Technologies, Inc. Architecture for multi-domain natural language processing
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107659847A (zh) * 2016-09-22 2018-02-02 腾讯科技(北京)有限公司 语音互动方法和装置
CN107424605A (zh) * 2017-03-13 2017-12-01 浙江曼悟电子科技股份有限公司 一种基于x86和arm芯片的便携式多路并行智能语音识别一体机
CN109817217A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于语音识别的自助贩卖方法、装置、设备及介质
CN110427459A (zh) * 2019-08-05 2019-11-08 苏州思必驰信息科技有限公司 语音识别网络的可视化生成方法、系统及平台
CN110442853A (zh) * 2019-08-09 2019-11-12 深圳前海微众银行股份有限公司 文本定位方法、装置、终端及存储介质
CN110675855A (zh) * 2019-10-09 2020-01-10 出门问问信息科技有限公司 一种语音识别方法、电子设备及计算机可读存储介质
CN111354363A (zh) * 2020-02-21 2020-06-30 镁佳(北京)科技有限公司 车载语音识别方法、装置、可读存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929047A (zh) * 2021-01-26 2021-06-08 明峰医疗系统股份有限公司 一种低噪声数字ct音频交互系统及控制方法

Also Published As

Publication number Publication date
CN111933146B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN110211575B (zh) 用于数据增强的语音加噪方法及系统
CN106534548B (zh) 语音纠错方法和装置
EP1989701B1 (en) Speaker authentication
CN111326148B (zh) 置信度校正及其模型训练方法、装置、设备及存储介质
US11120802B2 (en) Diarization driven by the ASR based segmentation
CN110349569B (zh) 定制化产品语言模型的训练和识别方法及装置
CN112581938B (zh) 基于人工智能的语音断点检测方法、装置和设备
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN111261151A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN111179915A (zh) 基于语音的年龄识别方法及装置
CN115798518B (zh) 一种模型训练方法、装置、设备及介质
US10468031B2 (en) Diarization driven by meta-information identified in discussion content
CN110597958B (zh) 文本分类模型训练和使用方法及装置
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
CN111933146B (zh) 语音识别系统及方法
CN112669821B (zh) 一种语音意图识别方法、装置、设备及存储介质
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
KR102135182B1 (ko) 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
CN114694629B (zh) 用于语音合成的语音数据扩增方法及系统
CN111063338B (zh) 音频信号识别方法、装置、设备、系统和存储介质
KR102684930B1 (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법
CN115762500A (zh) 语音处理方法、装置、设备及存储介质
CN114358019A (zh) 意图预测模型的训练方法及系统
CN114255761A (zh) 语音识别方法、装置、设备、存储介质和计算机程序产品
CN111933121A (zh) 一种声学模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: AI SPEECH Ltd.