CN110277090B - 用户个人的发音词典模型的自适应修正方法及系统 - Google Patents

用户个人的发音词典模型的自适应修正方法及系统 Download PDF

Info

Publication number
CN110277090B
CN110277090B CN201910598719.2A CN201910598719A CN110277090B CN 110277090 B CN110277090 B CN 110277090B CN 201910598719 A CN201910598719 A CN 201910598719A CN 110277090 B CN110277090 B CN 110277090B
Authority
CN
China
Prior art keywords
pronunciation
user
word
dictionary model
pronunciation dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910598719.2A
Other languages
English (en)
Other versions
CN110277090A (zh
Inventor
陈梦姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201910598719.2A priority Critical patent/CN110277090B/zh
Publication of CN110277090A publication Critical patent/CN110277090A/zh
Application granted granted Critical
Publication of CN110277090B publication Critical patent/CN110277090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Abstract

本发明实施例提供一种用户个人的发音词典模型的自适应修正方法。该方法包括:建立初始的个人的发音词典模型,接收用户对模型识别结果中的错误单词的修正,当修正为匹配的替换性单词时,比较错误单词的声学分数中的置信度与预设置信度阈值的大小,确定存在发音问题;判断错误单词与替换性单词的发音关系是否属于规律性模糊音规则,比较历史修正次数,属于则进行批量调整与错误发音同类发音权重,不属于则单独调整错误发音权重,基于调整后的权重,自适应修正个人的发音词典模型。本发明实施例还提供一种用户个人的发音词典模型的自适应修正系统。本发明实施例有效处理用户因发音不准引起的识别错误,对有规律的一类错误发音可以进行批量修改。

Description

用户个人的发音词典模型的自适应修正方法及系统
技术领域
本发明涉及语音识别领域,尤其涉及一种用户个人的发音词典模型的自适应修正方法及系统。
背景技术
为了使语音识别更加人性化,在语音识别中,除了使用共用的语言模型之外,还会加入针对每个用户各自的个人语言模型。这个个人语言模型可以是基于用户过去的输入所得,也可以是基于用户自定义的词表所得的模型,在实际语音识别中,语言模型的得分通常由共用的语言模型和个人的语言模型插值得到。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
对基于用户个人语言模型的ASR(Automatic Speech Recognition,自动语音识别)系统,这种技术在同音词识别错误上有效,但对于用户发音不准确引起的识别错误,比如平翘舌不分,往往由于错误发音的声学得分较高或是由于发音词典中没有相应错误发音,在解码路径中不存在正确文本,即使单独加强语言模型,也很难识别正确。并且对发音不准确有规律的一类错误无法通过用户的单次修正对该类错误进行批量修改。
发明内容
为了至少解决现有技术中无法有效处理由于用户发音不标准确引起的识别错误,同时,对于有规律的一类错误发音无法批量修改的问题。
第一方面,本发明实施例提供一种用户个人的发音词典模型的自适应修正方法,用于语音识别系统,包括:
建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
当确定用户存在发音问题时,进一步判断所述错误单词与所述替换性单词的发音关系是否属于预设规律性模糊音规则,
-若属于,判断所述发音关系中的错误发音的历史修正次数与设定的第一次数阈值的大小,若大于,则调整所述发音词典模型中与所述错误发音同类发音的权重;
-若不属于,判断所述发音关系中的错误发音的历史修正次数与设定的第二次数阈值的大小,若大于,则单独调整所述发音词典模型中所述错误发音的权重;
基于调整后的权重,自适应修正所述个人的发音词典模型。
第二方面,本发明实施例提供一种用户个人的发音词典模型的自适应修正系统,用于语音识别系统,包括:
识别结果获取程序模块,用于建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
发音问题确定程序模块,用于接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
模糊音规则判断程序模块,用于当确定用户存在发音问题时,进一步判断所述错误单词与所述替换性单词的发音关系是否属于预设规律性模糊音规则,
-若属于,判断所述发音关系中的错误发音的历史修正次数与设定的第一次数阈值的大小,若大于,则调整所述发音词典模型中与所述错误发音同类发音的权重;
-若不属于,判断所述发音关系中的错误发音的历史修正次数与设定的第二次数阈值的大小,若大于,则单独调整所述发音词典模型中所述错误发音的权重;
自适应修正程序模块,用于基于调整后的权重,自适应修正所述个人的发音词典模型。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用户个人的发音词典模型的自适应修正方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用户个人的发音词典模型的自适应修正方法的步骤。
本发明实施例的有益效果在于:通过对用户修正的错误单词进行判断,确定会出现错误的原因,在确定是用户的发音问题后,有效处理用户因发音不准引起的识别错误,同时,通过进一步的判断,确定用户发音不准是否属于规律性模糊音规则,对有规律的一类错误发音进行批量修改,提高发音词典模型的自适应修正效率,进一步的提高由于用户发音问题的语音识别准确度,以及用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用户个人的发音词典模型的自适应修正方法的流程图;
图2是本发明另一实施例提供的一种用户个人的发音词典模型的自适应修正方法的流程图;
图3是本发明一实施例提供的一种用户个人的发音词典模型的自适应修正系统的结构示意图;
图4是本发明另一实施例提供的一种用户个人的发音词典模型的自适应修正系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用户个人的发音词典模型的自适应修正方法的流程图,包括如下步骤:
S11:建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
S12:接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
S13:当确定用户存在发音问题时,进一步判断所述错误单词与所述替换性单词的发音关系是否属于预设规律性模糊音规则,
-若属于,判断所述发音关系中的错误发音的历史修正次数与设定的第一次数阈值的大小,若大于,则调整所述发音词典模型中与所述错误发音同类发音的权重;
-若不属于,判断所述发音关系中的错误发音的历史修正次数与设定的第二次数阈值的大小,若大于,则单独调整所述发音词典模型中所述错误发音的权重;
S14:基于调整后的权重,自适应修正所述个人的发音词典模型。
在本实施方式中,语音识别系统需要使用一个带权重的发音词典模型,发音词典模型中包含多音字的每种发音、单词除了标准读音外,还需要包括可能误读的、带口音的发音。标准发音、常见发音初始设定的权重值比较高,误读发音、带口音的发音权重比较低。每个用户都有一个个人专用的发音字典模型。
对于步骤S11,由于每个用户都需要有一个个人专用的发音字典模型,在使用中,需要建立初始的每个人的发音词典模型,利用建立好的初始的个人发音词典模型对用户的语音输入进行识别,获得用户语音输入的识别结果。
对于步骤S12,由于某种原因,语音识别系统确定的语音输入的识别结果中存在错误,用户对这个错误进行了修正,接收用户对所述识别结果中的错误单词的修正。
作为一种实施方式,在本实施例中,所述方法包括:
在接收用户对所述识别结果中的错误单词的修正后,识别所述修正的长度和位置,当所述长度和位置与所述错误单词在识别结果中的长度和位置一致时,判断所述修正为匹配的替换性单词。
在本实施方式中,首先判断该修正的类别是否为替换性修正。例如,语音识别系统的识别结果为“我要去胡建”,而用户对所述识别结果的修正为“我要去福建”,“胡建”相较于“福建”在识别结果中的修改长度都为两个字,修改的位置也相同,确定用户修正为匹配的替换性单词。如果用户修正的不是匹配的替换性单词,例如,语音识别系统的识别结果为“我要去胡建”,而用户对所述识别结果的修正为“哈尔滨我想去”,这种位置发生了变化,并且修改的长度也不匹配,这并不属于本方法涉及的“由于用户发音不准确引起的识别错误”的问题。因此,要将这种情况的修改剔除在外。
在确定修正为匹配的替换性单词后,比较错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题。例如,语音识别系统的识别结果为“我要去胡建”。其中,“胡建”—“hujian”的声学分数中的置信度就是特别的高,例如,为86%,大于预设置信度阈值(例如65%)。表明语音识别系统的识别结果没有问题,那么问题就出现在用户身上,确定是用户的发音存在问题。
对于步骤S13,当确定用户存在发音问题时,进一步地判断被用户修改的错误单词与替换性单词的发音关系,是否属于规律性的模糊音规则。例如,“hujian”与“fujian”,其中的“h”和“f”就属于规律性的模糊音规则。例如比较熟知的“h”和“f”规律性发音问题的例子:“胡建人和东北人玩儿成语接龙:心心相印-印贼做父-父相伤害-害想咋滴”(也展示了“h”和“f”属于规律性的模糊音规则)。
如果属于规律性的模糊音规则,则判断发音关系中的错误发音的历史修正次数,通过判断错误发音的历史修正次数来判断,用户只是单独口误,说了这么一次错误的发音,还是用户对于这类错误的发音具有习惯性。通过与预设第一次数阈值的大小进行相比,例如将预设第一次数阈值设定为5次,如果判断出用户历史修正次数已经有6次了,错误发音的历史修正次数大于预设第一次数阈值,则表明用户习惯于对替换性词语使用错误发音(习惯将“福建”-发音成“胡建”),则批量调整所述发音词典模型中与所述错误发音同类发音的权重(例如,这里可以涉及到所有发“hu2”和“fu2”的词语,“2”指发音中的二声)。例如,降低所述发音词典模型中“hu2”的权重,提高“fu2”的权重(不仅仅限于这种调整方法)。
如果被用户修改的错误单词与替换性单词的发音关系不属于规律性的模糊音规则,例如,有个别地区,习惯将“鞋子”叫成“孩子”。而“xie”与“hai”并不属于规律性的模糊音规则,因此,说明这种发音并不具有普遍性。同样的,判断用户对于这个错误的发音具有习惯性,通过与预设第二次数阈值的大小进行相比,例如将预设第二次数阈值设定为6次,如果判断出用户历史修正次数已经有7次了,错误发音的历史修正次数大于预设第二次数阈值,则表明用户习惯于对替换性词语使用错误发音(习惯将“鞋子”-发音成“孩子”),证明该用户对这个词有个人的发音习惯,因此,单独调整所述发音词典模型中所述错误发音“孩子”中“hai”的权重。其中,预设第一次数阈值与预设第二次数阈值可以设置为相同的数值,也可以设置为不同的数值。
对于步骤S14,基于调整后的权重,进行自适应修正个人的发音词典模型。在个人的发音词典模型的使用中,可以单独使用个人的发音词典模型进行识别,也可以共同考虑个人的发音词典模与公用的语言模型进行整合识别。
通过该实施方式可以看出,通过对用户修正的错误单词进行判断,确定会出现错误的原因,在确定是用户的发音问题后,有效处理用户因发音不准引起的识别错误,同时,通过进一步的判断,确定用户发音不准是否属于规律性模糊音规则,对有规律的一类错误发音进行批量修改,提高发音词典模型的自适应修正效率,进一步的提高由于用户发音问题的语音识别准确度,以及用户的使用体验。
如图2所示为本发明一实施例提供的一种用户个人的发音词典模型的自适应修正方法的流程图,包括如下步骤:
S21:建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
S22:接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
S23:当确定用户存在发音问题时,判断所述错误单词的错误发音的历史修正次数与设定的第三次数阈值的大小,若大于,则调整所述发音词典模型中所述错误发音的权重;
S24:基于调整后的权重,自适应修正所述个人的发音词典模型。
在本实施方式中,同样的,语音识别系统也需要使用一个待权重的发音词典模型,发音词典模型中包含多音字的每种发音、单词除了标准读音外,还需要包括可能误读的、带口音的发音。标准发音、常见发音初始设定的权重值比较高,误读发音、带口音的发音权重比较低。每个用户有一个个人专用的发音字典模型。
对于步骤S21、S22,在上述实施例中的S11、S12已经举例说明,在此不再赘述。
对于步骤S23,在确定用户存在发音问题后,直接判断所述错误单词的错误发音的历史修正次数与设定的第三次数阈值的大小,判断用户对于这个错误的发音具有习惯性,通过与预设第三次数阈值的大小进行相比,例如将预设第三次数阈值设定为5次,如果判断出用户历史修正次数已经有6次了,错误发音的历史修正次数大于预设第三次数阈值,则调整所述发音词典模型中所述错误发音的权重。
考虑到,虽然确定发音关系是否属于预设规律性模糊音规则可以批量调整与错误发音同类的发音权重,但是在某种特殊情况下,例如误判而导致的整体错误修改。
对于步骤S24,在上述实施例中的S14已经举例说明,在此不再赘述。
通过该实施方式可以看出,作为一种低风险的标准,虽然对于有规律的错误需要反复修改,但是可以避免由于误判而直接大量修改发音词典带来的风险。
作为一种实施方式,在本实施例中,所述方法还包括:
若所述错误单词的声学分数中的置信度小于所述预设置信度阈值,比较所述错误单词与所述替换性单词的最大权重发音是否一致,若一致,则确定发音词典模型存在同音词识别问题;
当确定发音词典模型存在同音词识别问题,判断所述错误单词的历史修正次数与设定的第四次数阈值的大小,若大于,则调整所述发音词典模型中所述错误单词或所述替换性单词的权重。
在本实施方式中,例如,利用发音词典模型对用户的语音输入进行识别,获得识别结果为“这是我买的pi2pa0”(0指发音的轻声)。这里,pi2pa0对于琵琶或者枇杷,所组成的语句都没有问题。这时,发音词典模型中“枇杷”和“琵琶”的置信度都差不多,只能选取一个稍微高一点的作为识别结果。例如,确定的识别结果为“这是我买的琵琶”。但是,用户在错误单词修正时,将“琵琶”替换成了“枇杷”。由于这两个词的置信度都差不多,例如两个都为40%左右(就不会出现一个特别高的置信度),因此,错误单词“琵琶”的声学分数中的置信度小于所述预设置信度阈值(例如65%)。这时,比较错误单词与所述替换性单词的最大权重发音是否一致。由于发音完全相同,最大权重发音一致,则确定发音词典模型存在同音词识别问题。
当确定发音词典模型存在同音词识别问题,通过与预设第四次数阈值的大小进行相比,例如将预设第四次数阈值设定为5次,如果判断出用户历史修正次数已经有6次了,同音词的历史修正次数大于预设第四次数阈值,则表明,说明用户相比于“琵琶”,更青睐“枇杷”多一些,则调整所述发音词典对应的个人语言模型中“琵琶”的权重低一些,或将“枇杷”的权重高一些。
通过该实施方式可以看出,判断识别错误的原因是同音词后,确定用户对该同音词更青睐的词语,自动修正该词的用户的个人语言模型,提高识别的准确度,提高用户的体验。
作为一种实施方式,在本实施例中,所述预设规律性模糊音规则包括:平舌音/翘舌音、前鼻音/后鼻音、l/n、h/f、r/l中的至少一者。
在本实施方式中,例如平舌音/翘舌音包括:z’-‘zh’、‘c’-‘ch’、‘s’-‘sh’。前鼻音/后鼻音包括:an’-‘ang’、‘en’-‘eng’、‘in’-‘ing’、‘ian’-‘iang’、‘uan’-‘uang’。还有一些其他比较常见的一些模糊音例如l/n、h/f、r/l。
通过该实施方式可以看出,确定一些较为常见的用户会发错的模糊音,而这些常见的模糊音又存在这一些规律,确保批量修改的精准,提高识别的效果,进一步提高用户的体验。
如图3所示为本发明一实施例提供的一种用户个人的发音词典模型的自适应修正系统的结构示意图,该系统可执行上述任意实施例所述的用户个人的发音词典模型的自适应修正方法,并配置在终端中。
本实施例提供的一种用户个人的发音词典模型的自适应修正系统包括:识别结果获取程序模块11,发音问题确定程序模块12,模糊音规则判断程序模块13和自适应修正程序模块14。
其中,识别结果获取程序模块11用于建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;发音问题确定程序模块12用于接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;模糊音规则判断程序模块13用于当确定用户存在发音问题时,进一步判断所述错误单词与所述替换性单词的发音关系是否属于预设规律性模糊音规则,-若属于,判断所述发音关系中的错误发音的历史修正次数与设定的第一次数阈值的大小,若大于,则调整所述发音词典模型中与所述错误发音同类发音的权重;-若不属于,判断所述发音关系中的错误发音的历史修正次数与设定的第二次数阈值的大小,若大于,则单独调整所述发音词典模型中所述错误发音的权重;自适应修正程序模块14用于基于调整后的权重,自适应修正所述个人的发音词典模型。
如图4所示为本发明一实施例提供的一种用户个人的发音词典模型的自适应修正系统的结构示意图,该系统可执行上述任意实施例所述的用户个人的发音词典模型的自适应修正方法,并配置在终端中。
本实施例提供的一种用户个人的发音词典模型的自适应修正系统包括:识别结果获取程序模块21,发音问题确定程序模块22,权重调整程序模块23和自适应修正程序模块24。
其中,识别结果获取程序模块21用于建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;发音问题确定程序模块22用于接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;权重调整程序模块23用于当确定用户存在发音问题时,判断所述错误单词的错误发音的历史修正次数与设定的第三次数阈值的大小,若大于,则调整所述发音词典模型中所述错误发音的权重;自适应修正程序模块24用于基于调整后的权重,自适应修正所述个人的发音词典模型。
进一步地,所述系统还用于:
若所述错误单词的声学分数中的置信度小于所述预设置信度阈值,比较所述错误单词与所述替换性单词的最大权重发音是否一致,若一致,则确定发音词典模型存在同音词识别问题;
当确定发音词典模型存在同音词识别问题,判断所述错误单词的历史修正次数与设定的第四次数阈值的大小,若大于,则调整所述发音词典模型中所述错误单词或所述替换性单词的权重。
进一步地,所述系统用于:
在接收用户对所述识别结果中的错误单词的修正后,识别所述修正的长度和位置,当所述长度和位置与所述错误单词在识别结果中的长度和位置一致时,判断所述修正为匹配的替换性单词。
进一步地,所述预设规律性模糊音规则包括:平舌音/翘舌音、前鼻音/后鼻音、l/n、h/f、r/l中的至少一者。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用户个人的发音词典模型的自适应修正方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
当确定用户存在发音问题时,进一步判断所述错误单词与所述替换性单词的发音关系是否属于预设规律性模糊音规则,
-若属于,判断所述发音关系中的错误发音的历史修正次数与设定的第一次数阈值的大小,若大于,则调整所述发音词典模型中与所述错误发音同类发音的权重;
-若不属于,判断所述发音关系中的错误发音的历史修正次数与设定的第二次数阈值的大小,若大于,则单独调整所述发音词典模型中所述错误发音的权重;
基于调整后的权重,自适应修正所述个人的发音词典模型。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
当确定用户存在发音问题时,判断所述错误单词的错误发音的历史修正次数与设定的第三次数阈值的大小,若大于,则调整所述发音词典模型中所述错误发音的权重;
基于调整后的权重,自适应修正所述个人的发音词典模型。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用户个人的发音词典模型的自适应修正方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用户个人的发音词典模型的自适应修正方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有语音识别功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用户个人的发音词典模型的自适应修正方法,用于语音识别系统,包括:
建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
当确定用户存在发音问题时,进一步判断所述错误单词与所述替换性单词的发音关系是否属于预设规律性模糊音规则,
-若属于,判断所述发音关系中的错误发音的历史修正次数与设定的第一次数阈值的大小,若大于,则调整所述发音词典模型中与所述错误发音同类发音的权重;
-若不属于,判断所述发音关系中的错误发音的历史修正次数与设定的第二次数阈值的大小,若大于,则单独调整所述发音词典模型中所述错误发音的权重;
基于调整后的权重,自适应修正所述个人的发音词典模型。
2.根据权利要求1所述的方法,其中,所述预设规律性模糊音规则包括:平舌音/翘舌音、前鼻音/后鼻音、l/n、h/f、r/l中的至少一者。
3.一种用户个人的发音词典模型的自适应修正方法,用于语音识别系统,包括:
建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
当确定用户存在发音问题时,判断所述错误单词的错误发音的历史修正次数与设定的第三次数阈值的大小,若大于,则调整所述发音词典模型中所述错误发音的权重;
基于调整后的权重,自适应修正所述个人的发音词典模型。
4.根据权利要求1或3所述的方法,其中,所述方法还包括:
若所述错误单词的声学分数中的置信度小于所述预设置信度阈值,比较所述错误单词与所述替换性单词的最大权重发音是否一致,若一致,则确定发音词典模型存在同音词识别问题;
当确定发音词典模型存在同音词识别问题,判断所述错误单词的历史修正次数与设定的第四次数阈值的大小,若大于,则调整所述发音词典模型中所述错误单词或所述替换性单词的权重。
5.根据权利要求1或3所述的方法,其中,所述方法包括:
在接收用户对所述识别结果中的错误单词的修正后,识别所述修正的长度和位置,当所述长度和位置与所述错误单词在识别结果中的长度和位置一致时,判断所述修正为匹配的替换性单词。
6.一种用户个人的发音词典模型的自适应修正系统,用于语音识别系统,包括:
识别结果获取程序模块,用于建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
发音问题确定程序模块,用于接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
模糊音规则判断程序模块,用于当确定用户存在发音问题时,进一步判断所述错误单词与所述替换性单词的发音关系是否属于预设规律性模糊音规则,
-若属于,判断所述发音关系中的错误发音的历史修正次数与设定的第一次数阈值的大小,若大于,则调整所述发音词典模型中与所述错误发音同类发音的权重;
-若不属于,判断所述发音关系中的错误发音的历史修正次数与设定的第二次数阈值的大小,若大于,则单独调整所述发音词典模型中所述错误发音的权重;
自适应修正程序模块,用于基于调整后的权重,自适应修正所述个人的发音词典模型。
7.根据权利要求6所述的系统,其中,所述预设规律性模糊音规则包括:平舌音/翘舌音、前鼻音/后鼻音、l/n、h/f、r/l中的至少一者。
8.一种用户个人的发音词典模型的自适应修正系统,用于语音识别系统,包括:
识别结果获取程序模块,用于建立初始的个人的发音词典模型,利用所述发音词典模型对用户的语音输入进行识别,获得识别结果;
发音问题确定程序模块,用于接收用户对所述识别结果中的错误单词的修正,当所述修正为匹配的替换性单词时,比较所述错误单词的声学分数中的置信度与预设置信度阈值的大小,若大于所述预设置信度阈值,则确定用户存在发音问题;
权重调整程序模块,用于当确定用户存在发音问题时,判断所述错误单词的错误发音的历史修正次数与设定的第三次数阈值的大小,若大于,则调整所述发音词典模型中所述错误发音的权重;
自适应修正程序模块,用于基于调整后的权重,自适应修正所述个人的发音词典模型。
9.根据权利要求6或8所述的系统,其中,所述系统还用于:
若所述错误单词的声学分数中的置信度小于所述预设置信度阈值,比较所述错误单词与所述替换性单词的最大权重发音是否一致,若一致,则确定发音词典模型存在同音词识别问题;
当确定发音词典模型存在同音词识别问题,判断所述错误单词的历史修正次数与设定的第四次数阈值的大小,若大于,则调整所述发音词典模型中所述错误单词或所述替换性单词的权重。
10.根据权利要求6或8所述的系统,其中,所述系统用于:
在接收用户对所述识别结果中的错误单词的修正后,识别所述修正的长度和位置,当所述长度和位置与所述错误单词在识别结果中的长度和位置一致时,判断所述修正为匹配的替换性单词。
CN201910598719.2A 2019-07-04 2019-07-04 用户个人的发音词典模型的自适应修正方法及系统 Active CN110277090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598719.2A CN110277090B (zh) 2019-07-04 2019-07-04 用户个人的发音词典模型的自适应修正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598719.2A CN110277090B (zh) 2019-07-04 2019-07-04 用户个人的发音词典模型的自适应修正方法及系统

Publications (2)

Publication Number Publication Date
CN110277090A CN110277090A (zh) 2019-09-24
CN110277090B true CN110277090B (zh) 2021-07-06

Family

ID=67963979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598719.2A Active CN110277090B (zh) 2019-07-04 2019-07-04 用户个人的发音词典模型的自适应修正方法及系统

Country Status (1)

Country Link
CN (1) CN110277090B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078898B (zh) * 2019-12-27 2023-08-08 出门问问创新科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN112562723B (zh) * 2020-11-30 2022-08-19 腾讯科技(深圳)有限公司 发音准确度确定方法、装置、存储介质和电子设备
CN112767924A (zh) * 2021-02-26 2021-05-07 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10304460B3 (de) * 2003-02-04 2004-03-11 Siemens Ag Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
CN1889171B (zh) * 2005-06-29 2010-09-01 诺基亚(中国)投资有限公司 用于识别字符/字符串的语音识别方法和系统
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions

Also Published As

Publication number Publication date
CN110277090A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110277090B (zh) 用户个人的发音词典模型的自适应修正方法及系统
CN109817201B (zh) 一种语言学习方法、装置、电子设备及可读存储介质
US10242661B2 (en) Recognizing accented speech
CN110648690B (zh) 一种音频评测方法及服务器
CN109273007B (zh) 语音唤醒方法及装置
US8103503B2 (en) Speech recognition for determining if a user has correctly read a target sentence string
US20130275135A1 (en) Automatic Updating of Confidence Scoring Functionality for Speech Recognition Systems
CN108053839B (zh) 一种语言练习成果的展示方法及麦克风设备
CN110910885B (zh) 基于解码网络的语音唤醒方法和装置
US10186256B2 (en) Method and apparatus for exploiting language skill information in automatic speech recognition
CN111145730B (zh) 语音识别模型的优化方法及系统
CN111354347B (zh) 一种基于自适应热词权重的语音识别方法及系统
KR20210047709A (ko) 음성 인식 방법 및 음성 인식 장치
CN111737436A (zh) 语料的意图识别方法及装置、电子设备、存储介质
CN112861521A (zh) 语音识别结果纠错方法、电子设备及存储介质
CN111968678A (zh) 一种音频数据处理方法、装置、设备及可读存储介质
KR20190012419A (ko) 발화 유창성 자동 평가 시스템 및 방법
JP6366166B2 (ja) 音声認識装置、及びプログラム
CN114530145A (zh) 语音识别结果纠错方法及装置、计算机可读存储介质
CN111128122B (zh) 韵律预测模型的优化方法及系统
CN110930988B (zh) 一种音素评分的确定方法及系统
US9269349B2 (en) Automatic methods to predict error rates and detect performance degradation
JP6468258B2 (ja) 音声対話装置および音声対話方法
CN109273004B (zh) 基于大数据的预测性语音识别方法及装置
CN110827802A (zh) 语音识别训练和解码方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant