CN110473527B - 一种语音识别的方法和系统 - Google Patents
一种语音识别的方法和系统 Download PDFInfo
- Publication number
- CN110473527B CN110473527B CN201910876602.6A CN201910876602A CN110473527B CN 110473527 B CN110473527 B CN 110473527B CN 201910876602 A CN201910876602 A CN 201910876602A CN 110473527 B CN110473527 B CN 110473527B
- Authority
- CN
- China
- Prior art keywords
- decoding
- path
- decoding path
- score
- intermediate decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004044 response Effects 0.000 claims abstract description 19
- 238000009432 framing Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 15
- 230000004048 modification Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种语音识别的方法和系统。所述方法包括:获取语音信号;对语音信号进行分帧;通过解码网络按帧对语音信号解码,确定第一中间解码路径及其分值;响应于第一中间解码路径的末端解码出目标词:将第一中间解码路径复制到第二路径集合中作为第二中间解码路径,改变所复制的第一中间解码路径的分值得到第二中间解码路径的分值;通过解码网络,基于第二路径集合中的第二中间解码路径,按帧继续对语音信号解码,确定第二解码路径及其分值;以及基于第二解码路径以及各解码路径对应的分值,确定语音识别结果。
Description
技术领域
本申请涉及人机交互领域,特别涉及一种语音识别的方法和系统。
背景技术
语音识别是人机交互的一个重要入口,在语音输入法、语音搜索和智能语音交互等领域有重要应用。经过几十年的研究,目前语音识别在很多领域已经达到实用化的地步。但是,现有的方法在识别一些专有词汇或者一些新兴词汇时,由于词表覆盖不全或训练语料较少,导致训练的模型对这类词汇识别结果较差。
针对这些专有名词和新兴词汇识别较差的问题,通常的做法是,收集相关的文本语料加入到训练集,然后重新训练模型,并更新到线上系统。但这样做一方面需要重新收集语料并训练模型,导致更新周期长;另一方面每个用户所关心的特定词汇不尽相同,用一套模型去适配所有用户的场景,难以实现。因此,需要提供一种能便捷地实现对专有名词或新兴词汇的识别的方法和系统。
发明内容
本申请一方面提供一种语音识别的方法。所述语音识别的方法包括:获取语音信号;对语音信号进行分帧;通过解码网络按帧对所述语音信号解码,确定至少一条第一中间解码路径;每条第一中间解码路径对应一个分值;响应于至少一条第一中间解码路径的末端解码出目标词:将所述第一中间解码路径复制到第二路径集合中作为第二中间解码路径,改变所复制的第一中间解码路径的分值得到所述第二中间解码路径的分值;通过所述解码网络,基于第二路径集合中的第二中间解码路径,按帧继续对所述语音信号解码,确定至少一条第二解码路径及其分值;以及基于所述至少一条第二解码路径以及各解码路径对应的分值,确定语音识别结果。
本申请另一方面提供一种语音识别系统。所述系统包括:获取模块,用于获取语音信号;分帧模块,用于对语音信号进行分帧;解码模块,用于:通过解码网络按帧对所述语音信号解码,确定至少一条第一中间解码路径;每条第一中间解码路径对应一个分值;响应于至少一条第一中间解码路径的末端解码出目标词:将所述第一中间解码路径复制到第二路径集合中作为第二中间解码路径,改变所复制的第一中间解码路径的分值得到所述第二中间解码路径的分值;通过所述解码网络,基于第二路径集合中的第二中间解码路径,按帧继续对所述语音信号解码,确定至少一条第二解码路径及其分值;以及识别结果确定模块,用于基于所述至少一条第二解码路径以及各解码路径对应的分值,确定语音识别结果。
本申请的另一方面提供一种语音识别的装置,该装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现以上语音识别方法所述的操作。
本申请的另一方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时实现以上语音识别方法所述的操作。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本申请一些实施例所示的语音识别的示例性流程图;
图2是根据本申请一些实施例所示的基于第一解码路径集合解码语音信号的示例性流程图;
图3是根据本申请一些实施例所示的基于第二解码路径集合解码语音信号的示例性流程图;
图4是根据本申请一些实施例所示的将第二解码路径集合中的第二中间解码路径移动到第一路径集合中的示例性流程图;
图5是根据本申请一些实施例所示的将第二解码路径集合中的第二中间解码路径移动到第一路径集合中的另一示例性流程图;以及
图6是根据本申请一些实施例所示的语音识别系统的示例性模块图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本申请一些实施例所示的语音识别的示例性流程图。该流程100可以由图6所示的语音识别系统600执行。该流程100包括:
步骤102中,获取语音数据。具体地,该步骤可以由图6所示的获取模块610执行。在一些实施例中,获取模块可以直接获取环境语音,例如获取用户的实时语音。在一些实施例中,获取模块可以通过接口获取语音数据。接口可以包括程序接口、数据接口、传输接口等。例如,获取模块可以通过数据接口获取先前存储在存储器中的语音数据。
步骤104中,对获取的语音信号进行分帧。具体地,该步骤可以由图6所示的分帧模块620执行。在一些实施例中,在分帧前还可以对语音信号进行预处理,预处理包括但不限于语音信号格式转换、首尾静音切除等。分帧后每帧语音信号具有一定长度(也称为“帧长”)。在一些实施例中,帧长可以在20~50毫秒之间,例如可以是20毫秒、25毫秒、30毫秒、35毫秒、40毫秒等。
步骤106中,通过解码网络按帧对语音信号进行解码,确定至少一条第一中间解码路径。该步骤可以由图6所示的解码模块630执行。解码网络可以在线构建,也可以离线构建。对语音信号进行解码,是指在解码网络中搜索最优路径,即与语音信号最匹配的路径。在一些实施例中,解码网络可以是加权有限状态机(Weighted Finite State Transducer,WFST)。WFST包含了很多个状态和(有向)弧,通过弧,状态之间可以跳转。弧上面有输入、输出和权重三项内容。输入表示了音素状态之间的跳转;输出是一个整数标识,通过映射表可以将标识映射为具体的词;权重表示了状态的转移概率和语言模型权重。语音识别的解码过程,就是在这个解码网络上,找到一条得分最优的“路径”,即一系列的状态转移。在解码时,每处理一帧数据,每条路径的末状态就发生一次跳转,路径长度就加一。每次跳转,弧上面都有一个输出值。例如,若输出值为0,表示解码网络没有识别出词语;若输出值不为0,表示解码网络识别出解码词表中的词语,该非零输出值对应解码词表中的一个词语。解码网络按帧对语音信号进行解码,每完成一帧解码,解码路径的长度就会增加,路径末端为最新解码的一帧语音信号的解码结果。在解码网络完成对所有语音帧的解码前,可以得到至少一条第一中间路径,每条第一中间路径具有对应的分值,该分值反映第一中间路径与相应被解码的语音帧的匹配概率。在一些实施例中,分值越小,表明匹配概率越大。例如,分值可以为基于匹配概率的对数半环。在一些实施例中,解码网络可以包括第一路径集合,用来存储对语音信号进行常规解码的路径。解码网络还可以包括第二路径集合,用来存储解码出目标词的解码路径。
在一些实施例中,解码网络可以包含解码词表,解码网络的输出词汇限定在这个词表中。在一些实施例中,解码词表中的每一个词、词语或短语,都对应一个唯一标识。仅作为示例,唯一标识可以是数字、字母、字符串等,或其任意组合。例如,“明天”对应的标识是“001”,则当解码出001时,即可确定语音信号为“明天”。在一些实施例中,解码网络可以包括目标词词汇。目标词词汇可以包括但不限于专有名词、网络流行词、用户自定义词汇等。在一些实施例中,目标词词汇可以涵盖在解码词表中,则该目标词词汇可以直接映射其在解码词表中对应的标识。在一些实施例中,目标词词汇不在解码词表中,则可以对该目标词词汇进行分词,得到由至少一个目标词子词组成的子词序列,子词都在解码词表中。例如,可以将某个目标词词汇w1分词为“s1-s2-s3”三部分,其中s1、s2、s3都在解码词表中。仅作为示例,目标词词汇为“一出好戏”,该词不在解码词表中,则可以将该词分解为“一出+好+戏”三个子词,其中“一出”、“好”、“戏”均在解码词表中并有相应标识。
在一些实施例中,目标词词汇可以通过以下方法中的一种或多种获取:由用户上传目标词词汇表文件;从特定存储位置或通过获取接口获取目标词词汇表;或者,获取用户历史文本信息,将用户使用频率满足设定条件的词语确定为目标词词汇。
步骤108中,判断第一中间解码路径的末端是否解码出目标词。目标词可以根据目标词词汇确定。如上所述,在一些实施例中,当目标词词汇在解码词表中时,则第一中间解码路径的末端可以直接解码出该目标词词汇;当目标词词汇不在解码词表中时,可以对目标词词汇进行分词处理,得到由至少一个目标词子词按照一定顺序组成的子词序列,则当第一中间路径的末端解码出其中一个子词时,则可判定第一中间路径的末端解码出目标词。响应于第一中间路径的末端解码出目标词,可以进行步骤110;否则,执行步骤114。
步骤110,响应于第一中间路径的末端解码出目标词,将所述第一中间解码路径复制到第二路径集合中作为第二中间解码路径,并改变所复制的第一中间解码路径的分值得到所述第二中间解码路径的分值。修改所复制的第一中间解码路径的分值得到所述第二中间解码路径的分值,即对解码出目标词的路径给予“激励”,使得解码网络以后更容易解码出目标词,提高解码出目标词的成功率。在一些实施例中,解码路径的分值越低,表明解码路径与语音信号的匹配度越高,则可以降低所复制的第一中间解码路径的分值。在一些实施例中,路径分值的修改形式和/或修改幅度可以与目标词属性有关,属性可以包括但不限于词性、分类、字数、统计数据、场景等。第二路径集合的初始状态可以为空集,用来存储复制来的第一中间路径。
步骤112,通过所述解码网络,基于第二路径集合中的第二中间解码路径,按帧继续对所述语音信号解码,确定至少一条第二解码路径及其分值。沿着第二中间解码路径继续按帧解码,解码路径随之增长,最终可得到至少一条第二解码路径,每条第二解码路径具有相应的分值。按帧解码的操作与步骤106中类似,此处不再赘述。在一些实施例中,在基于第二中间路径对语音信号继续解码的同时,也可以基于第一中间解码路径继续对语音信号解码。
步骤114,响应于第一中间解码路径的末端未解码出目标词,将所述第一中间解码路径留在第一路径集合中,并通过所述解码网络,基于第一路径集合中的第一中间解码路径,按帧继续对所述语音信号解码,确定至少一条第一解码路径及其分值。按帧解码的操作与步骤106中类似,此处不再赘述。
步骤116,基于所述至少一条第一解码路径和所述至少一条第二解码路径以及各解码路径对应的分值,确定语音识别结果。如上所述,解码路径的分值反映该路径与被解码语音信号的匹配度,因此可以基于分值确定与语音信号最匹配的解码路径。在一些实施例中,解码路径的分值越低表明匹配度越高,则可以将分值最低的解码路径确定为最匹配的解码路径,并据此确定语音识别的结果。
应当注意的是,上述有关流程100的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程100进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。例如,在一些实施例中,步骤114可以省略,相应地,在步骤116中,可以仅基于至少一条第二解码路径及其分值确定语音识别结果。
图2是根据本申请一些实施例所示的基于第一解码路径集合解码语音信号的示例性流程图。该流程200包括:
步骤202,通过解码网络,基于第一路径集合中的第一中间解码路径解码语音信号。该步骤中的解码操作与图1中步骤106类似,此处不再赘述。
步骤204,判断是否解码出新词。新词是指最新解码出的词,即解码路径末端的词。如果没有解码出新词,意味着已经完成对最后一帧语音信号的解码,则执行步骤212,得到完整的第一解码路径。如果解码出新词,则执行步骤206。
步骤206,判断新词是否为目标词。该步骤与步骤108类似,此处不再赘述。如果新词为目标词,则执行步骤208;否则执行步骤210。
步骤208,响应于新词为目标词,将第一中间解码路径复制到第二路径集合中。该步骤与步骤110类似,此处不再赘述。
步骤210,继续基于第一路径集合中的第一中间解码路径解码语音信号。需要注意的是,不论解码出的新词是否为目标词,都会继续基于第一路径集合中的第一中间解码路径解码语音信号。
步骤212,得到完整的第一解码路径。第一解码路径具有反映其与语音信号匹配概率的分值。
应当注意的是,上述有关流程200的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程200进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
图3是根据本申请一些实施例所示的基于第二解码路径集合解码语音信号的示例性流程图。该流程300包括:
步骤302,通过解码网络,基于第二路径集合中的第二中间解码路径,按帧对语音信号进行解码。该步骤与步骤112类似,此处不再赘述。
步骤304,判断通过解码网络是否在至少一条第二解码中间路径上解码出子词序列。如步骤106中所述,第一中间路径的末端可能是解码出了目标词词汇的一个子词,便被判定为解码出了目标词,这并无法肯定能从语音信号中解码出目标词词汇,因此还需要通过继续解码来判断,如果能解码出完整的子词序列,则表明成功地从语音信号中解码出目标词词汇,否则表明语音信号中并不存在目标词词汇。响应于通过解码网络在至少一条第二解码路径上解码出子词序列,执行步骤306;否则执行步骤308。
步骤306,响应于解码出子词序列,在所述第二路径集合中保留相应的第二中间解码路径。解码出子词序列,说明第二中间解码路径能够解码出目标词词汇,保留该路径可以提高以后解码出目标词词汇的概率。
步骤308,响应于未解码出子词序列,从所述第二路径集合中删除相应的第二中间解码路径。未解码出子词序列,表明语音信号中不存在目标词词汇,因此该路径对于提升识别目标词词汇的效果无任何作用,故可以删除。可以在一些实施例中,还可以将第二中间解码路径的分值复原。
在一些实施例中,当第二中间解码路径满足一定条件时,可以将第二中间解码路径移动到第一路径集合,以减少路径的总数目,加快解码过程。在一些实施例中,条件可以包括第二中间解码路径长度达到设定长度阈值、第二中间解码路径继续完成对语音信号中设定帧数的解码、第二中间解码路径解码出目标词词汇等。有关将第二中间解码路径移动到第一路径集合的更多内容可以参见图4及其描述。
应当注意的是,上述有关流程300的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程300进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
图4为根据一些实施例所示的将第二解码路径集合中的第二中间解码路径移动到第一路径集合中的示例性流程图。该流程400包括:
步骤402中,为第二中间解码路径设置计数T。设置计数T是为了记录基于第二中间解码路径对语音信号进行解码的帧数。在一些实施例中,当第一中间解码路径末端解码出目标词、被复制到第二路径集合中作为第二中间解码路径时,设置计数T。T的初始值可以为任何正整数。仅作为示例,T的初始值可以为8、7、6、5、4、3等。
步骤404,通过解码网络,基于第二中间解码路径解码下一帧语音信号,并使计数T的值减1。
步骤406,判断T是否等于零。响应于T=0,表明基于第二中间解码路径已完成对设定帧数语音信号的解码,执行步骤408;否则,返回步骤404继续解码。
步骤408,响应于T=0,将当前第二中间解码路径移动至第一路径集合中。将解码过若干帧语音的第二中间解码路径移动到第一路径集合,有助于减少总的路径数目,加快搜索过程,提高解码效率。一方面,如果这条第二中间解码路径就是正确的识别结果,并且其得分是最优的,那么将其移动到第一路径集合之后,可以将第一路径集合中许多得分偏高的路径给裁剪掉,使得第一路径集合的路径数目变少,可以提高解码速度;另一方面,如果这条第二中间解码路径并不是包含正确识别结果的路径,将其移动回第一路径集合,因为已经经过了若干帧的解码,这条第二中间解码路径得分虽然进行了调整,但其相比正确结果的路径得分已经不是最优,所以并不会影响最后的结果输出,而减少第二路径集合中路径数,可以加快解码过程。
应当注意的是,上述有关流程400的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程400进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
图5为根据本申请一些实施例所示的将第二解码路径集合中的第二中间解码路径移动到第一路径集合中的示例性流程图。该流程500包括:
步骤502,为第二中间解码路径设置计数T。该步骤与步骤402类似,此处不再赘述。
步骤504,通过解码网络,基于第二中间解码路径解码下一帧语音信号。
步骤506,判断是否解码出新词。如果解码出新词,则执行步骤508。如果没有解码出新词,意味着之前已经完成对最后一帧语音信号的解码,则执行步骤516,将当前第二中间解码路径移动到第一路径集合中。在一些实施例中,如果没有解码出新词,还需要进一步判断之前的第二中间解码路径是否解码出完整的目标词词汇,如果是,则判断当前计数T值是否为零,如果为零,则将第二中间解码路径移至第一路径集合中,否则基于该第二中间解码路径的解码终止,语音解码只基于第一路径集合中的第一中间解码路径进行;如果之前的第二中间解码路径未解码出完整的目标词词汇,则基于该第二中间解码路径的解码终止,语音解码只基于第一路径集合中的第一中间解码路径进行。
步骤508,响应于基于第二中间解码路径解码出新词,使计数T值减1。
步骤510,判断T是否等于零。如果T等于零,则执行步骤516;如果T≠0,表明第二中间解码路径尚未完成对设定帧数语音信号的解码,还不符合移动到第一路径集合的条件,此时执行步骤512。
步骤512,响应于T≠0,判断第二中间解码路径的末端是否解码出新的目标词。在一些实施例中,如果第二中间解码路径的末端解码出与之前解码出的目标词词汇不同的目标词词汇,或者解码出新的目标词的子词时,表明第二中间解码路径的末端解码出新的目标词。响应于第二中间解码路径的末端解码出新的目标词,执行步骤514;否则,返回步骤504。
步骤514,响应于第二中间解码路径的末端解码出新的目标词,调整第二中间解码路径的分值,并重置T。如上所述,在一些实施例中,目标词词汇可以被分解为由至少一个目标词子词组成的子词序列,第二中间解码路径可能在解码出前一个或前几个目标词子词后未能解码出整个子词序列,而是解码出了新的目标词(例如新的目标词词汇或对应的子词)。此时,可以忽略之前解码出的目标词,而关注解码出的新的目标词。因此,可以根据新的目标词调整第二中间解码路径的分值,并将计数T重置为初始值。
步骤516,将当前第二中间解码路径移动至第一路径集合中。该步骤与步骤408类似,此处不再赘述。
应当注意的是,上述有关流程500的描述仅仅是为了示例和说明,而不限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流程500进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。
图6是根据本申请一些实施例所示的语音识别系统的示例性模块图。如图6所示,该语音识别系统可以包括获取模块610、分帧模块620、解码模块630以及识别结果确定模块640。
获取模块610可以用于获取语音数据。在一些实施例中,获取模块可以直接获取环境语音,例如获取用户的实时语音。在一些实施例中,获取模块可以通过接口获取语音数据。接口可以包括程序接口、数据接口、传输接口等。
分帧模块620用于对语音信号分帧。
解码模块630用于解码分帧后的语音信号。解码模块630可以包括解码网络632、第一路径集合634、第二路径集合636以及路径移动单元638。解码网络632用于按帧对语音信号进行解码,搜寻与语音信号匹配的最优路径。第一路径集合634和第二路径集合636可以是用来存储路径的存储单元,其中第一路径集合634用于存储对语音信号进行常规解码的路径,第二路径集合636用于存储解码出目标词的路径。路径移动单元634用于在第一路径集合与第二路径集合之间移动路径。解码网络632按帧对语音信号进行解码,得到至少一条第一中间解码路径,每完成一帧解码,第一中间解码路径的长度就会增加,路径末端为最新解码的一帧语音信号的解码结果。当第一中间解码路径末端解码出目标词时,路径移动单元634将第一路径集合634中的该第一中间解码路径移动至第二路径集合636中得到第二中间解码路径并修改路径分值,移动后,一方面可以基于第二路径集合636中的第二中间解码路径继续解码语音信号,得到完整的第二解码路径,另一方面还可以基于第一路径集合634中的第一中间解码路径继续解码,得到完整的第一解码路径。当第二中间解码路径满足一定条件时,路径移动单元634可以将其移动至第一路径集合中。
识别结果确定模块640用于根据最终的解码路径确定语音识别结果。在一些实施例中,解码路径的分值越小表明解码路径与语音信号匹配度越高,则识别结果确定模块640可以将第一解码路径和第二解码路径中分值最低的解码路径确定为最匹配的解码路径,并据此确定语音识别的结果。
应当理解,图6所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于候选项显示、确定系统及其模块的描述,仅为描述方便,并不能把本申请限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,例如,图6中披露的获取模块610、分帧模块620、解码模块630以及识别结果确定模块640可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本申请的保护范围之内。
本申请实施例可能带来的有益效果包括但不限于:(1)允许用户上传目标词词汇,提高了对目标词词汇的识别效果;(2)用两个不同的路径集合分别存储普通解码路径和解码出目标词的路径,使得目标词功能不会影响正常语句的识别;此外,在一定条件下可将目标词路径移回普通解码路径集合,保证解码效率不会因为增加目标词功能而降低。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。
Claims (11)
1.一种语音识别的方法,其特征在于,包括:
获取语音信号;
对语音信号进行分帧;
通过解码网络按帧对所述语音信号解码,确定至少一条第一中间解码路径;每条第一中间解码路径对应一个分值,所述分值反映对应路径与被解码语音信号的匹配度;
响应于至少一条第一中间解码路径的末端解码出目标词:
将所述第一中间解码路径复制到第二路径集合中作为第二中间解码路径,改变所复制的第一中间解码路径的分值得到所述第二中间解码路径的分值,以提高所述第二中间解码路径与所述语音信号的匹配度;以及
通过所述解码网络,基于第二路径集合中的第二中间解码路径,按帧继续对所述语音信号解码,确定至少一条第二解码路径及其分值;
响应于第一中间解码路径的末端未解码出目标词:
将所述第一中间解码路径留在第一路径集合中;以及
通过所述解码网络,基于第一路径集合中的第一中间解码路径,按帧继续对所述语音信号解码,确定至少一条第一解码路径及其分值;
基于所述至少一条第一解码路径和所述至少一条第二解码路径以及各解码路径对应的分值,确定与语音信号最匹配的解码路径,以确定语音识别结果。
2.如权利要求1所述的方法,其特征在于,所述改变所复制的第一中间解码路径的分值得到第二中间解码路径的分值包括:减少所复制的第一中间解码路径的分值得到第二中间解码路径的分值。
3.如权利要求1所述的方法,其特征在于,所述基于所述至少一条第一解码路径和所述至少一条第二解码路径以及各解码路径对应的分值,确定与语音信号最匹配的解码路径,以确定语音识别结果,包括:
基于分值最小的解码路径确定语音识别结果。
4.如权利要求1所述的方法,其特征在于,
所述方法还包括:
获取至少一个目标词词汇;
对至少一个目标词词汇进行分词处理,得到至少一个子词序列;子词序列由至少一个目标词子词按照一定顺序组成;
所述第一中间解码路径的末端解码出目标词包括:
所述第一中间解码路径的末端解码出目标词子词。
5.如权利要求4所述的方法,其特征在于,所述通过所述解码网络,基于第二路径集合中的第二中间解码路径,按帧继续对所述语音信号解码,确定至少一条第二解码路径及其分值还包括:
判断是否在至少一条第二解码中间路径上解码出子词序列;
响应于未解码出子词序列,从所述第二路径集合中删除相应的第二中间解码路径。
6.如权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
在至少一条第二中间解码路径满足设定条件时,将所述第二中间解码路径移至所述第一路径集合中。
7.如权利要求6所述的方法,其特征在于,所述至少一条第二中间解码路径满足设定条件包括:所述至少一条第二中间解码路径完成对所述语音信号中设定帧数的解码。
8.如权利要求6所述的方法,其特征在于,所述方法还包括:
在所述第二中间解码路径未满足所述条件且所述第二中间解码路径再次匹配新的目标词时,重置所述设定条件。
9.一种语音识别系统,其特征在于,包括:
获取模块,用于获取语音信号;
分帧模块,用于对语音信号进行分帧;
解码模块,用于:通过解码网络按帧对所述语音信号解码,确定至少一条第一中间解码路径;每条第一中间解码路径对应一个分值,所述分值反映对应路径与被解码语音信号的匹配度;
响应于至少一条第一中间解码路径的末端解码出目标词:
将所述第一中间解码路径复制到第二路径集合中作为第二中间解码路径,改变所复制的第一中间解码路径的分值得到所述第二中间解码路径的分值,以提高所述第二中间解码路径与所述语音信号的匹配度;以及
通过所述解码网络,基于第二路径集合中的第二中间解码路径,按帧继续对所述语音信号解码,确定至少一条第二解码路径及其分值;
以及,响应于第一中间解码路径的末端未解码出目标词:
将所述第一中间解码路径留在第一路径集合中;以及
通过所述解码网络,基于第一路径集合中的第一中间解码路径,按帧继续对所述语音信号解码,确定至少一条第一解码路径及其分值;
识别结果确定模块,基于所述至少一条第一解码路径和所述至少一条第二解码路径以及各解码路径对应的分值,确定与语音信号最匹配的解码路径,以确定语音识别结果。
10.一种语音识别装置,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;
所述至少一个存储器用于存储计算机指令;
所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1~8中任意一项所述的语音识别方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储计算机指令,当所述计算机指令被处理器执行时实现如权利要求1~8中任意一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876602.6A CN110473527B (zh) | 2019-09-17 | 2019-09-17 | 一种语音识别的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876602.6A CN110473527B (zh) | 2019-09-17 | 2019-09-17 | 一种语音识别的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110473527A CN110473527A (zh) | 2019-11-19 |
CN110473527B true CN110473527B (zh) | 2021-10-08 |
Family
ID=68515975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910876602.6A Active CN110473527B (zh) | 2019-09-17 | 2019-09-17 | 一种语音识别的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473527B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462751B (zh) * | 2020-03-27 | 2023-11-03 | 京东科技控股股份有限公司 | 解码语音数据的方法、装置、计算机设备和存储介质 |
CN111402895B (zh) * | 2020-06-08 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 语音处理、语音评测方法、装置、计算机设备和存储介质 |
CN112749550B (zh) * | 2020-07-14 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 数据存储方法、装置、计算机设备及存储介质 |
CN113744723B (zh) * | 2021-10-13 | 2024-01-30 | 浙江核新同花顺网络信息股份有限公司 | 一种语音识别实时重打分的方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN105513589A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN108899013A (zh) * | 2018-06-27 | 2018-11-27 | 广州视源电子科技股份有限公司 | 语音搜索方法、装置和语音识别系统 |
US10176802B1 (en) * | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
-
2019
- 2019-09-17 CN CN201910876602.6A patent/CN110473527B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103065630A (zh) * | 2012-12-28 | 2013-04-24 | 安徽科大讯飞信息科技股份有限公司 | 用户个性化信息语音识别方法及系统 |
CN105513589A (zh) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10176802B1 (en) * | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
CN108899013A (zh) * | 2018-06-27 | 2018-11-27 | 广州视源电子科技股份有限公司 | 语音搜索方法、装置和语音识别系统 |
Non-Patent Citations (1)
Title |
---|
《中文语音关键词检出技术研究》;侯云飞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170715(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110473527A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473527B (zh) | 一种语音识别的方法和系统 | |
CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
CN110473531B (zh) | 语音识别方法、装置、电子设备、系统及存储介质 | |
CN105632499B (zh) | 用于优化语音识别结果的方法和装置 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
EP2862164B1 (en) | Multiple pass automatic speech recognition | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
WO2021179701A1 (zh) | 多语种语音识别方法、装置及电子设备 | |
WO2020119432A1 (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN110781687B (zh) | 相同意图语句的获取方法及装置 | |
US11450310B2 (en) | Spoken language understanding | |
CN102063900A (zh) | 克服混淆发音的语音识别方法及系统 | |
CN112259084B (zh) | 语音识别方法、装置和存储介质 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN112151020B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113053414A (zh) | 一种发音评测方法及装置 | |
CN112133325B (zh) | 错误音素识别方法及装置 | |
CN115294974A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN114400006A (zh) | 语音识别方法和装置 | |
CN114974227A (zh) | 语音识别及其模型训练方法 | |
CN111797631B (zh) | 信息处理方法、装置及电子设备 | |
CN113178194B (zh) | 一种交互式热词更新的语音识别方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220309 Address after: 310023 Room 303, 3 / F, No. 18, Tongshun street, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Patentee after: Zhejiang tonghuashun Zhifu Software Co.,Ltd. Address before: Tonghuashun building, 18 Tongshun street, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province, 310023 Patentee before: HITHINK ROYALFLUSH INFORMATION NETWORK Co.,Ltd. |
|
TR01 | Transfer of patent right |