CN114255761A - 语音识别方法、装置、设备、存储介质和计算机程序产品 - Google Patents
语音识别方法、装置、设备、存储介质和计算机程序产品 Download PDFInfo
- Publication number
- CN114255761A CN114255761A CN202111535270.9A CN202111535270A CN114255761A CN 114255761 A CN114255761 A CN 114255761A CN 202111535270 A CN202111535270 A CN 202111535270A CN 114255761 A CN114255761 A CN 114255761A
- Authority
- CN
- China
- Prior art keywords
- voice
- recognition model
- recognized
- keyword
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004590 computer program Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音识别方法、装置、设备、存储介质和计算机程序产品。本申请实施例提供的语音识别方法包括:获取待识别的第一语音;根据目标语音识别模型,确定待识别的第一语音对应的第一文本信息,其中,目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。根据本申请实施例,能够解决语音识别系统识别效率和识别准确率相对较低,影响用户使用体验的问题。
Description
技术领域
本申请属于语音识别技术领域,尤其涉及一种语音识别方法、装置、设备、存储介质和计算机程序产品。
背景技术
随着科学技术的发展,语音识别技术也得到了越来越广泛的应用。通过语音识别技术可以将用户的语音转换为相应的文本或编码,为用户带来了便利。
目前,已有的语音识别系统中常常包括一个发音词典,通过发音词典,语音识别系统能够确定输入语音对应的词汇。由此,在语音识别的过程中,当输入语音中包括不常用的发音或者生僻音时,识别效率和识别准确率相对较低,影响用户使用体验。
发明内容
本申请实施例提供一种语音识别方法、装置、设备、存储介质和计算机程序产品,能够解决语音识别系统识别效率和识别准确率相对较低,影响用户使用体验的问题。
第一方面,本申请实施例提供一种语音识别方法,包括:
获取待识别的第一语音;
根据目标语音识别模型,确定待识别的第一语音对应的第一文本信息,其中,目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。
在第一方面的一些可实现方式中,在根据目标语音识别模型,确定待识别的第一语音对应的第一文本信息之前,方法还包括:
获取待识别的第二语音;
在预设时间段内,根据初始语音识别模型,确定第二语音对应的第二文本信息,其中,第二文本信息中包括第二关键词组合,第二关键词组合包括多个第二关键词;
根据初始语音模型对第二文本信息中每个第二关键词的识别概率,确定初始语音识别模型对第二文本信息的第一识别概率;
在第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合,以及将第二关键词组合加入目标词集。
在第一方面的一些可实现方式中,在第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合,包括:
获取预设时间段内,对第二语音的识别频率;
在识别频率大于第二预设阈值,且第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合。
在第一方面的一些可实现方式中,在根据目标语音识别模型,确定待识别语音对应的文本信息之前,方法还包括:
获取待识别的第三语音;
在预设时间段内,根据初始语音识别模型,确定第三语音对应的第三文本信息,其中,第三文本信息包括第三关键词;
根据初始语音模型对第三关键词中每个文字的识别概率,确定初始语音识别模型对第三关键词的第二识别概率;
在第二识别概率小于第三预设阈值的情况下,将第三关键词确定为未识别的第一关键词,将未识别的第一关键词加入目标词集。
在第一方面的一些可实现方式中,在根据目标语音识别模型,确定待识别的第一语音对应的第一文本信息之前,方法包括:
在目标词集满足预设更新条件的情况下,获取目标词集中每个第一文本信息的音素信息;
根据每个第一文本信息的音素信息,更新初始语音识别模型中的发音词典,得到目标语音识别模型。
第二方面,本申请实施例提供一种语音识别装置,包括:
获取模块,用于获取待识别的第一语音;
处理模块,用于根据目标语音识别模型,确定待识别的第一语音对应的第一文本信息,其中,目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。
在第二方面的一些可实现方式中,获取模块,还用于获取待识别的第二语音;
处理模块,还用于在预设时间段内,根据初始语音识别模型,确定第二语音对应的第二文本信息,其中,第二文本信息中包括第二关键词组合,第二关键词组合包括多个第二关键词;
处理模块,还用于根据初始语音模型对第二文本信息中每个第二关键词的识别概率,确定初始语音识别模型对第二文本信息的第一识别概率;
处理模块,还用于在第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合,以及将第二关键词组合加入目标词集。
第三方面,本申请提供一种语音识别设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一可实现方式中所述的语音识别方法。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或者第一方面任一可实现方式中所述的语音识别方法。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面或者第一方面任一可实现方式中所述的语音识别方法。
本申请实施例提供了一种语音识别方法、装置、设备、存储介质和计算机程序产品,在获得待识别的第一语音后,通过目标语音识别模型,可以快速准确的得到语音对应的第一文本信息。在本申请实施例中,由于目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合,且目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,因此,对于预设时间段内新出现或者不常见的词汇或者句子,能够及时更新初始语音识别模型,实现自动的实时跟踪和更新新词和新句,可以有效提高率语音识别的准确率,提高用户使用体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音识别方法的流程示意图;
图2是本申请实施例提供的一种语音识别装置的结构示意图;
图3是本申请实施例提供的一种语音识别设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
随着科学技术的发展,语音识别技术也得到了越来越广泛的应用。通过语音识别技术可以将用户的语音转换为相应的文本或编码,为用户带来了便利。
目前,已有的语音识别系统中常常包括一个发音词典,通过发音词典,语音识别系统能够确定输入语音对应的词汇。由此,在语音识别的过程中,当输入语音中包括不常用的发音或者生僻音时,识别效率和识别准确率相对较低,影响用户使用体验。
针对于此,本申请实施例提供了一种语音识别方法、装置、设备、存储介质和计算机程序产品,在获得待识别的第一语音后,通过目标语音识别模型,可以快速准确的得到语音对应的第一文本信息。在本申请实施例中,由于目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合,且目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,因此,对于预设时间段内新出现或者不常见的词汇或者句子,能够及时更新初始语音识别模型,实现自动的实时跟踪和更新新词和新句,可以有效提高率语音识别的准确率,提高用户使用体验。
图1示出了本申请一个实施例提供的语音识别方法的流程示意图。如图1所示,该方法可以包括步骤110-步骤120。
步骤110,获取待识别的第一语音。
在一些实施例中,待识别第一语音例如可以包括孤立的词语,也可以包括连续的词语组成的句子。其中,待识别语音可以由用户发出,也可以是电子设备播放的音频数据,在此不作具体限定。
示例性的,用户在使用社交应用聊天时,可以将聊天内容作为待识别的第一语音;又例如,用户在使用软件搜索时,可以通过语音提出需要查找的内容,作为待识别的第一语音;再例如,录制好的视频或者音频中的语音需要进行转换为文本时,录制好的视频或者音频可以作为待识别的第一语音,等等,在此不一一列举。
在得到待识别的语音后,接下来,可以执行步骤120。
步骤120,根据目标语音识别模型,确定待识别的第一语音对应的第一文本信息。
其中,目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。
在本申请实施例中,预设时间段例如可以是当前时刻之前的一段时间,例如,一周、一个月等,在此不作具体限定。
其中,第一关键词例如可以是孤立的词语,也可以是单独的文字或字母等。第一关键词组合例如可以是多个词语组成的句子,示例性的,对于未能识别的句子,可以通过分词处理,确定该未能识别的句子中包括的多个第一关键词。
由于目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合,且目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,因此,对于预设时间段内新出现或者不常见的词汇或者句子,能够及时更新初始语音识别模型,实现自动的实时跟踪和更新新词和新句,可以有效提高语音识别的准确率,提高用户使用体验。
在一些实施例中,初始语音识别模型在训练完成后,可以有效识别常见的语音。示例性的,初始语音识别模型例如可以是基于DNN-HMM的语音识别模型,在DNN-HMM的语音识别模型中,可以包括基于发音词典建立的用于解码语音的解码器。通过解码器,根据待识别的第一语音的声学特征,在DNN-HMM的语音识别模型中,与第一语音匹配的最优的路径,并输出第一语音匹配的第一文本信息。
在本申请实施例中,为了能够及时的更新初始语音识别模型尚未识别的第一关键词和/或未识别的第一关键词组合。因此,在使用初始语音识别模型的过程中,可以实时判断被识别的语音对应的文本是否为生僻的词汇或者句子,在识别到语音对应的文本为新的词汇或者句子或者生僻的词汇或者句子的情况下,将语音对应的文本加入目标词集,以便于基于目标词集更新初始语音识别模型,从而得到目标语音识别模型。
如此,通过不断的识别得到新的词汇或者句子或者生僻的词汇或者句子,可以自动实现动态调整和更新发音词典,无需手动更新,从而可以有效提高对新的词汇或者句子或者生僻的词汇或者句子的识别效率,以及语音识别的准确性,可以提高用户体验。
在本申请实施例中,为了获取第一关键词组合,具体地,可以包括以下步骤:首先,获取待识别的第二语音;接下来,在预设时间段内,根据初始语音识别模型,确定第二语音对应的第二文本信息,其中,第二文本信息中包括第二关键词组合,第二关键词组合包括多个第二关键词;之后,根据初始语音模型对第二文本信息中每个第二关键词的识别概率,确定初始语音识别模型对第二文本信息的第一识别概率;最后,在第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合,以及将第二关键词组合加入目标词集。
具体地,在预设时间段内,可能会多次获取到待识别的第二语音,并对第二语音进行识别。在使用初始语音识别模型对第二语音识别的过程中,初始语音识别模型可以获取到第二语音对应的第二文本信息。由于第二文本信息包括多个第二关键词,且多个第二关键词以相同或者相似的连接顺序组成第二文本信息,因此,根据初始语音模型对第二文本信息中每个第二关键词的识别概率,可以确定初始语音识别模型对第二文本信息的第一识别概率。
若第一识别概率小于第一预设阈值,则说明第二语音对应的第二文本信息是生僻的句子或者是新句子,以及,初始语音识别模型对第二语音并不敏感,因此,需要将第二关键词组合确定为第一关键词组合,以及将第二关键词组合加入目标词集,以便于初始语音识别模型,建立对第二文本信息识别路径,从而提高对第二语音的识别效率,以及识别准确率。
在一些实施例中,为了避免对不必要的语音建立多余的识别路径,因此,在确定将第二关键词组合确定为第一关键词组合时,还可以包括以下步骤:获取预设时间段内,对第二语音的识别频率;在第一识别频率大于第二预设阈值,且第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合。
具体地,在使用初始语音识别模型识别第二语音的过程中,可以获取预设时间段内对第二语音的识别频率,若识别频率较低,则说明第二语音并不经常出现,第二语音对应的第二文本信息并不是常用语句。若识别频率较高,则说明第二语音经常出现,第二语音对应的文本信息是常用语句。通过将第二关键词组合确定为第一关键词组合,建立对第二文本信息识别路径,可以有效提高对第二语音的识别效率,以及识别准确率。因此,在识别频率大于第二预设阈值,且第一识别概率小于第一预设阈值的情况下,可以将第二关键词组合确定为第一关键词组合,并将第二关键词组合加入目标词集。
在本申请实施例中,为了获取第一关键词,具体地,可以包括以下步骤:首先,获取待识别的第三语音;接下来,在预设时间段内,根据初始语音识别模型,确定第三语音对应的第三文本信息,其中,第三文本信息包括第三关键词;之后,根据初始语音模型对第三关键词中每个文字的识别概率,确定初始语音识别模型对第三关键词的第二识别概率;最后,在第二识别概率小于第三预设阈值的情况下,将第三关键词确定为未识别的第一关键词,将未识别的第一关键词加入目标词集。
具体地,在预设时间段内,使用初始语音识别模型的过程中,可以获取到待识别的第三语音,并对第三语音进行识别。第三语音中可以包括至少一个关键词,在对第三语音识别的过程中,初始语音识别模型可以获取到每个第三关键词中每个文字的识别概率,从而确定初始语音识别模型对第三关键词的第二识别概率。
若第二识别概率小于第三预设阈值,则说明第三语音中的第三关键词是生僻的词或者是新词,以及,初始语音识别模型对第三语音并不敏感,因此,需要将第三关键词确定为第一关键词,以及将第三关键词加入目标词集,以便于初始语音识别模型,建立对第三关键词识别路径,从而提高对第三语音的识别效率,以及识别准确率。
为了便于描述和理解本申请实施例,将获取到的待识别语音分别描述为第一语音、第二语音以及第三语音,其中,第一语音、第二语音和第三语音可以为相同语音,也可以为不同语音,在此并不具体限定。
作为一个具体地示例,以待识别语音来自影视相关的对话场景或者播放场景为例,通过初始语音识别模型可以对对话场景或者播放场景添加字幕,或者生成与台词相对应的文本数据。在影视相关的对话场景或者播放场景的语音中,可以包括一些新出现的句子或者词汇,或者不常见的句子或者词汇。
具体的,初始语音识别模型对来自影视相关的对话场景或者播放场景的语音进行识别,在经过预设时间段后,初始语音识别模型可以得到第一关键词或者第一关键词组合,从而实现对新的词汇或者句子,以及生僻的词汇或者句子对初始语音识别模型继续更新,得到目标语音识别模型,以便于提高对影视相关的对话场景或者播放场景的语音的识别效率,以及识别准确率,提高用户体验。
在本申请实施例中,对初始语音识别模型进行更新,具体地可以包括以下步骤:在目标词集满足预设更新条件的情况下,获取目标词集中每个第一文本信息的音素信息;根据每个第一文本信息的音素信息,更新初始语音识别模型中的发音词典,得到目标语音识别模型。
示例性的,预设更新条件例如可以是目标词集中新增的第一关键词的数量,或者第一关键词组合的数量达到预定数量;在又一示例中,预设更新条件还可以是使用目标词集对初始语音识别模型的更新时间,距离上一次更新时间达到预定时间,等等,在此不作具体限定。
作为一个具体的示例,继续以初始语音识别模型是基于DNN-HMM建立的语音识别模型为例,在初始语音识别模型中包括发音词典,在发音词典中包括词或者句子的识别路径。在对初始语音识别模型更新时,可以根据目标词集中的第一文本信息的声学特征,例如音素信息,更新初始语音识别模型中的发音词典。具体的,根据第一文本信息的音素信息,将每个第一文本信息表示为加权有限状态转换器(Weighted Finite-state Transducer,WFST)的形式,实现对更新后的发音词典的构图,得到更新后的L.fst,即得到目标词集中的每个词或每个句的识别路径。
接下来,可以基于更新后的L.fst,进一步的对初始语音识别模型中的语言模型,以及声学模型进行更新,得到语言模型对应的WFST图,即更新后G.fst,以及声学模型的WFST图,即更新后的H.fst,之后,通过对L.fst、G.fst以及H.fst进行复合操作,得到基于发音词典建立的用于解码语音的解码器,得到目标语音识别模型。
根据本申请实施例,通过不断的识别得到新的词汇或者句子或者生僻的词汇或者句子,可以自动实现动态调整和更新发音词典,无需手动更新,从而可以有效提高对新的词汇或者句子或者生僻的词汇或者句子的识别效率,以及语音识别的准确性,可以提高用户体验。
图2是本申请实施例提供的一种语音识别装置的结构示意图,如图2所示,该语音识别装置200可以包括:获取模块210和处理模块2200。
获取模块210,用于获取待识别的第一语音;
处理模块220,用于根据目标语音识别模型,确定待识别的第一语音对应的第一文本信息,其中,目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。
在一些实施例中,获取模块210,还用于获取待识别的第二语音;
处理模块220,还用于在预设时间段内,根据初始语音识别模型,确定第二语音对应的第二文本信息,其中,第二文本信息中包括第二关键词组合,第二关键词组合包括多个第二关键词;
处理模块220,还用于根据初始语音模型对第二文本信息中每个第二关键词的识别概率,确定初始语音识别模型对第二文本信息的第一识别概率;
处理模块220,还用于在第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合,以及将第二关键词组合加入目标词集。
在一些实施例中,获取模块210,还用于获取预设时间段内,对第二语音的识别频率;
处理模块220,还用于在识别频率大于第二预设阈值,且第一识别概率小于第一预设阈值的情况下,将第二关键词组合确定为第一关键词组合。
在一些实施例中,获取模块210,还用于获取待识别的第三语音;
处理模块220,还用于在预设时间段内,根据初始语音识别模型,确定第三语音对应的第三文本信息,其中,第三文本信息包括第三关键词;
处理模块220,还用于根据初始语音模型对第三关键词中每个文字的识别概率,确定初始语音识别模型对第三关键词的第二识别概率;
处理模块220,还用于在第二识别概率小于第三预设阈值的情况下,将第三关键词确定为未识别的第一关键词,将未识别的第一关键词加入目标词集。
在一些实施例中,获取模块210,还用于在目标词集满足预设更新条件的情况下,获取目标词集中每个第一文本信息的音素信息;
处理模块220,还用于根据每个第一文本信息的音素信息,更新初始语音识别模型中的发音词典,得到目标语音识别模型。
可以理解的是,本申请实施例的语音识别装置200,可以对应于本申请实施例图1中的语音识别方法的执行主体,语音识别装置200的各个模块/单元的操作和/或功能的具体细节可以参见上述本申请实施例图1的语音识别方法中的相应部分的描述,为了简洁,在此不再赘述。
本申请实施例的语音识别装置,在获得待识别的第一语音后,通过目标语音识别模型,可以快速准确的得到语音对应的第一文本信息。在本申请实施例中,由于目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合,且目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,因此,对于预设时间段内新出现或者不常见的词汇或者句子,能够及时更新初始语音识别模型,实现自动的实时跟踪和更新新词和新句,可以有效提高率语音识别的准确率,提高用户使用体验。
图3示出了本申请一个实施例提供的语音识别设备的结构示意图。如图3所示,该设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在一个实例中,存储器302可以包括可移除或不可移除(或固定)的介质,或者存储器302是非易失性固态存储器。存储器302可在语音识别设备的内部或外部。
在一个实例中,存储器302可以是只读存储器(Read Only Memory,ROM)。在一个实例中,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现本申请实施例所描述的方法,并达到本申请实施例执行其方法达到的相应技术效果,为简洁描述在此不再赘述。
在一个示例中,该语音识别设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将在线信息流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该语音识别设备可以执行本申请实施例中的语音识别方法,从而实现本申请实施例描述的语音识别方法的相应技术效果。
另外,结合上述实施例中的语音识别方法,本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音识别方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体地步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory,EROM)、软盘、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别的第一语音;
根据目标语音识别模型,确定所述待识别的第一语音对应的第一文本信息,其中,所述目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,所述目标词集包括在预设时间段内所述初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。
2.根据权利要求1所述的方法,其特征在于,在所述根据目标语音识别模型,确定所述待识别的第一语音对应的第一文本信息之前,所述方法还包括:
获取待识别的第二语音;
在所述预设时间段内,根据所述初始语音识别模型,确定所述第二语音对应的第二文本信息,其中,所述第二文本信息中包括第二关键词组合,所述第二关键词组合包括多个第二关键词;
根据所述初始语音模型对所述第二文本信息中每个所述第二关键词的识别概率,确定所述初始语音识别模型对所述第二文本信息的第一识别概率;
在所述第一识别概率小于第一预设阈值的情况下,将所述第二关键词组合确定为所述第一关键词组合,以及将所述第二关键词组合加入所述目标词集。
3.根据权利要求2所述的方法,其特征在于,所述在所述第一识别概率小于第一预设阈值的情况下,将所述第二关键词组合确定为所述第一关键词组合,包括:
获取所述预设时间段内,对所述第二语音的识别频率;
在所述识别频率大于第二预设阈值,且所述第一识别概率小于所述第一预设阈值的情况下,将所述第二关键词组合确定为所述第一关键词组合。
4.根据权利要求1所述的方法,其特征在于,在所述根据目标语音识别模型,确定所述待识别语音对应的文本信息之前,所述方法还包括:
获取待识别的第三语音;
在所述预设时间段内,根据所述初始语音识别模型,确定所述第三语音对应的第三文本信息,其中,所述第三文本信息包括第三关键词;
根据所述初始语音模型对所述第三关键词中每个文字的识别概率,确定所述初始语音识别模型对所述第三关键词的第二识别概率;
在所述第二识别概率小于第三预设阈值的情况下,将所述第三关键词确定为所述未识别的第一关键词,将所述未识别的第一关键词加入所述目标词集。
5.根据权利要求1所述的方法,其特征在于,在所述根据目标语音识别模型,确定所述待识别的第一语音对应的第一文本信息之前,所述方法包括:
在所述目标词集满足预设更新条件的情况下,获取所述目标词集中每个第一文本信息的音素信息;
根据每个第一文本信息的音素信息,更新所述初始语音识别模型中的发音词典,得到所述目标语音识别模型。
6.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的第一语音;
处理模块,用于根据目标语音识别模型,确定所述待识别的第一语音对应的第一文本信息,其中,所述目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的,所述目标词集包括在预设时间段内所述初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。
7.根据权利要求6所述的装置,其特征在于,
所述获取模块,还用于获取待识别的第二语音;
所述处理模块,还用于在所述预设时间段内,根据所述初始语音识别模型,确定所述第二语音对应的第二文本信息,其中,所述第二文本信息中包括第二关键词组合,所述第二关键词组合包括多个第二关键词;
所述处理模块,还用于根据所述初始语音模型对所述第二文本信息中每个所述第二关键词的识别概率,确定所述初始语音识别模型对所述第二文本信息的第一识别概率;
所述处理模块,还用于在所述第一识别概率小于第一预设阈值的情况下,将所述第二关键词组合确定为所述第一关键词组合,以及将所述第二关键词组合加入所述目标词集。
8.一种语音识别设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;
所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-5任意一项所述的语音识别方法。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的语音识别方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-5任意一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111535270.9A CN114255761A (zh) | 2021-12-15 | 2021-12-15 | 语音识别方法、装置、设备、存储介质和计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111535270.9A CN114255761A (zh) | 2021-12-15 | 2021-12-15 | 语音识别方法、装置、设备、存储介质和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255761A true CN114255761A (zh) | 2022-03-29 |
Family
ID=80792388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111535270.9A Pending CN114255761A (zh) | 2021-12-15 | 2021-12-15 | 语音识别方法、装置、设备、存储介质和计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255761A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024114389A1 (zh) * | 2022-11-30 | 2024-06-06 | 脸萌有限公司 | 用于交互的方法、装置、设备和存储介质 |
-
2021
- 2021-12-15 CN CN202111535270.9A patent/CN114255761A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024114389A1 (zh) * | 2022-11-30 | 2024-06-06 | 脸萌有限公司 | 用于交互的方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301860B (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN107195295B (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN105632499B (zh) | 用于优化语音识别结果的方法和装置 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN110415705B (zh) | 一种热词识别方法、系统、装置及存储介质 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN112927679B (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN114708854A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN114255761A (zh) | 语音识别方法、装置、设备、存储介质和计算机程序产品 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN114360514A (zh) | 语音识别方法、装置、设备、介质及产品 | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 | |
CN112329431B (zh) | 音视频数据处理方法、设备及存储介质 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN111798838A (zh) | 一种提高语音识别准确率的方法、系统、设备及存储介质 | |
CN114005438B (zh) | 语音识别方法、语音识别模型的训练方法以及相关装置 | |
CN110827827A (zh) | 一种语音播报方法及电子设备 | |
CN113724698A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN113506563A (zh) | 一种发音识别的方法、装置及电子设备 | |
CN113035236A (zh) | 语音合成数据的质检方法以及装置 | |
CN112820281A (zh) | 一种语音识别方法、装置及设备 | |
CN113744718A (zh) | 语音文本的输出方法及装置、存储介质、电子装置 | |
CN111785259A (zh) | 信息处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |