CN116884399B - 降低语音误识别的方法、装置、设备和介质 - Google Patents

降低语音误识别的方法、装置、设备和介质 Download PDF

Info

Publication number
CN116884399B
CN116884399B CN202311141027.8A CN202311141027A CN116884399B CN 116884399 B CN116884399 B CN 116884399B CN 202311141027 A CN202311141027 A CN 202311141027A CN 116884399 B CN116884399 B CN 116884399B
Authority
CN
China
Prior art keywords
phoneme sequence
position information
recognition model
speech recognition
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311141027.8A
Other languages
English (en)
Other versions
CN116884399A (zh
Inventor
李�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202311141027.8A priority Critical patent/CN116884399B/zh
Publication of CN116884399A publication Critical patent/CN116884399A/zh
Application granted granted Critical
Publication of CN116884399B publication Critical patent/CN116884399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

本发明属于语音识别技术领域,特别是涉及一种降低语音误识别的方法、装置、设备和介质,其中,方法包括:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对第一音素序列的位置信息进行位置标记,得到第二音素序列;按照随机概率在第二音素序列中增加识别标识,得到目标音素序列;使用目标音素序列训练待训练语音识别模型,得到语音识别模型。本发明以用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。

Description

降低语音误识别的方法、装置、设备和介质
技术领域
本发明涉及语音识别技术领域,特别涉及一种降低语音误识别的方法、装置、设备和介质。
背景技术
命令词识别属于语音识别,广泛应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等。随着深度学习技术的发展,命令词的正识别率有显著提升,已基本满足用户需求。但仍存在较多的误识别情形,即用户没有特意呼喊命令词,而设备却误识别到命令词并做出响应;或者,由于部分命令词词语较短、偏向口语化,而被误识别。
因此,如何降低对命令词的误识别是目前需要解决的问题。
发明内容
本发明提供一种降低语音误识别的方法、装置、设备和介质,旨在降低对命令词的误识别。
为了实现上述发明目的,本发明第一方面提出一种降低语音误识别的方法,所述方法包括:
根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;
对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;
按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;
使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
进一步地,所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列之前,还包括:
获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;
采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。
进一步地,所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列,包括:
在所述音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列。
进一步地,所述对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列,包括:
在所述第一音素序列中,于所述第一位置信息上增加前缀B的位置标记,于所述第二位置信息上增加后缀E的位置标记,以及于所述第三位置信息上插入字符I的位置标记,得到第二音素序列。
进一步地,所述按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,包括:
按照随机概率在所述第二音素序列的开头增加标识sil;和/或,
按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列。
进一步地,所述使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型,包括:
将所述目标音素序列输入待训练语音识别模型;
在所述待训练语音识别模型中,对存在以前缀B开头、以后缀E结尾,以及存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
进一步地,所述待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。
本申请还提供一种降低语音误识别的装置,所述装置包括:
引入模块,用于根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;
第一标记模块,用于对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;
第二标记模块,用于按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;
训练模块,用于使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的降低语音误识别的方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的降低语音误识别的方法的步骤。
有益效果:在本申请中,根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,使得目标音素序列与普通的音素序列存在区别,进而使得用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,并且,模型的训练过程仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。
附图说明
图1为本申请降低语音误识别的方法的一实施例流程示意图;
图2为本申请降低语音误识别的方法的另一实施例流程示意图;
图3为本申请降低语音误识别的方法的另一实施例流程示意图;
图4为本申请降低语音误识别的方法的另一实施例流程示意图;
图5为本申请降低语音误识别的装置的一实施例结构示意图;
图6为本申请计算机设备的一实施例结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
参照图1,本发明实施例提供一种降低语音误识别的方法,包括以下步骤S1-S4:
S1:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列。
以智能终端为执行主体,该执行主体中配置有对应的软件程序,该软件程序可以是安装于智能终端上的应用软件或植入于智能终端的智能系统中的程序,软件程序应用于需要进行语音识别的环境中。在进行语音识别训练之前,还需对用于模型训练的训练样本进行处理,使得训练样本符合模型的训练要求,其中,训练样本为多个独立命令词的音素序列,训练样本的处理过程包括位置插入、位置标记以及增加识别标识;对于在训练样本中进行位置插入包括:在音素序列的开头插入第一位置信息、在该音素序列的结尾插入第二位置信息,以及,在音素序列中的声母和韵母之间插入第三位置信息,进而得到第一音素序列;在音素序列中插入位置信息,为后续根据该位置信息插入位置标记提供有效依据。
S2:对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列。
在音素序列中引入位置信息,得到第一音素序列之后,则根据该位置信息对第一音素序列进行位置标记,即第一音素序列中存在第一位置信息、第二位置信息以及第三位置信息,在其位置信息上增加对应的位置标记,进而得到带有位置标记的第二音素序列,具体的,在第一音素序列中,于第一位置信息上增加前缀B的位置标记,于第二位置信息上增加后缀E的位置标记,以及于第三位置信息上插入字符I的位置标记,进而得到第二音素序列。对音素序列进行位置标记,有利于后续进行语音识别训练时,提高语音识别的准确性。
S3:按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列。
在对第一音素序列的位置信息进行位置标记,得到第二音素序列之后,还按照随机概率在第二音素序列中增加识别标识,以获取到目标音素序列,按照随机概率在第二音素序列的开头增加标识sil;和/或,按照随机概率在第二音素序列的结尾增加标识sil;其中,随机概率为根据实际识别需要进行设置;标识sil用于区分是否为命令词,相当于唤醒词,增加标识sil有利于提高模型对命令词的识别准确度。
S4:使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
在按照随机概率在第二音素序列中增加识别标识,得到目标音素序列之后,即可使用目标音素序列训练待训练语音识别模型,进而得到语音识别模型,具体的,将目标音素序列输入至待训练语音识别模型中,在该待训练语音识别模型中,对存在以前缀B开头、以后缀E结尾,以及存在标识sil的目标音素序列进行识别,直至该待训练语音识别模型收敛,进而得到语音识别模型;该语音识别模型以用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。该语音识别模型可应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等智能家居的命令词识别,辅助用户对智能家居进行语音控制。
本实施例提供了一种降低语音误识别的方法,根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,使得目标音素序列与普通的音素序列存在区别,进而使得用户通过命令词进行语音控制时,其前后没有其它发音的特征与误识别情况进行区分,并且,模型的训练过程仅使用简短的命令词进行识别训练,而无需改变网络结构和框架,也不需要复杂的后处理,该实现方式简单有效,显著提高了对命令词的识别准确度,有效解决对命令词的误识别的问题。
参照图2,在一个实施例中,上述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列之前,还包括:
S11:获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;
S12:采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。
如上所述,用于模型训练的训练样本为命令词的音素序列,其中,该音素序列通过pypinyin工具将命令词文本进行音素转换而得到,具体的,获取用于语音训练的待处理样本,该待处理样本为多个独立的命令词,该命令词包括应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等智能家居语音控制的命令词,该命令词通过pypinyin工具转化为即可得到对应的音素序列,其中,pypinyin工具指的是一个Python库,具备将汉字转换为拼音的功能,能执行中文文本处理、拼音转换、拼音排序等操作,它提供了简单易用的接口,可以方便地将中文字符串转换为拼音字符串。将命令词转换为音素序列,为后续在音素序列中插入位置信息、进行位置标记以及增加识别标识提供有效依据。
在一个实施例中,上述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列,包括:
在音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列。
如上所述,根据声母属性和韵母属性在音素序列中引入位置信息,即音素序列为声母+韵母的组合形式,在该音素序列的开头插入第一位置信息、在该音素序列的结尾插入第二位置信息,以及在该音素序列中的声母和韵母之间插入第三位置信息,即可得到第一音素序列。在一个实施例中,命令词为“开灯”,其对应的音素序列为kai deng,由于命令词中的声母只能在开头或中间,而韵母只能在中间或结束,因此,在该音素序列中,其插入位置信息之后的表达形式为:_k_ai_d_eng_;即第一位置信息 k 第三位置信息 ai 第三位置信息 d 第三位置信息 eng第二位置信息;在插入位置信息之后,得到的第一音素序列会变为之前的2倍,但中文不带音调的音素只有65个,其音素本身个数较少,在变成之前的2倍之后,也仅为130个,基于此,即使引入位置信息也不会增加其计算量,即引入额外的计算较少,增加的计算耗时可控。
在一个实施例中,上述对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列,包括:
在所述第一音素序列中,于所述第一位置信息上增加前缀B的位置标记,于所述第二位置信息上增加后缀E的位置标记,以及于所述第三位置信息上插入字符I的位置标记,得到第二音素序列。
如上所述,根据第一音素序列中的位置信息进行位置标记,即可得到第二音素序列,具体的,在第一音素序列中,于第一位置信息上增加前缀B的位置标记,于第二位置信息上增加后缀E的位置标记,以及于第三位置信息上插入字符I的位置标记,其中,在音素序列中引入的位置信息为 B I E 即 begin、internal、end;即可得到带有位置标记的第二音素序列。在一个实施例中,以命令词“开灯”为例,其第一音素序列为:_k_ai_d_eng_,根据其不同的位置信息增加不同的标记,即第二音素序列的表达式为:k_B、ai_I、d_I、eng_E;增加的位置标记是为了后续进行语音识别训练时,模型可根据位置标记中的B、I、E对音素序列进行准确识别。
参照图3,在一个实施例中,上述按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,包括:
S31:按照随机概率在所述第二音素序列的开头增加标识sil;和/或,
S32:按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列。
如上所述,按照随机概率在第二音素序列中增加识别标识,即可得到目标音素序列;识别标识指的是标识sil,即silence(沉默)的缩写;该识别标识用于区分是否为命令词,相当于唤醒词;在一个实施例中,一段音频语音说的是播放音乐,那么对应的标注也是播放音乐,但是命令词其前后一般是没有连贯的上下文,故加入一个特殊符号,可使得命令词与非命令词的音频语音存在区别,即sil+播放音乐,使得其跟一段话中的播放音乐做区别,进而提升语音识别的准确性;按照随机概率在第二音素序列中增加识别标识时,并非是在每一个第二音素序列中均增加识别标识,而是以随机概率在第二音素序列的开头增加标识sil;和/或,以随机概率在第二音素序列的结尾增加标识sil,得到的目标音素序列的形式包括:音素序列中无识别标识、音素序列的开头存在识别标识、音素序列的结尾存在识别标识、音素序列的开头、结尾均存在识别标识,该目标音素序列包括多种标识形式,使得其区别于单一的标识形式,丰富了训练样本。
参照图4,在一个实施例中,上述使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型,包括:
S41:将所述目标音素序列输入待训练语音识别模型;
S42:在所述待训练语音识别模型中,对存在以前缀B开头、以后缀E结尾,以及存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
如上所述,使用目标音素序列训练待训练语音识别模型,进而得到语音识别模型,具体的,将目标音素序列输入待训练语音识别模型,在待训练语音识别模型中,对存在以前缀B开头、以后缀E结尾,以及存在标识sil的目标音素序列进行识别,直至该待训练语音识别模型收敛,进而即可得到语音识别模型。在一个实施例中,模型在识别训练时,若存在训练样本1:sil_k_B、ai_I、d_I、eng_E_sil;训练样本2:sil_g_B、uan_I、d_I、eng_E;训练样本3:g_B、uan_I、b_I、i_E_sil;训练样本4:k_B、ai_I、q_I、i_E;在上述训练样本中,只有满足命令词以B开始、以E结束,且前后存在标识sil的命令词才被识别,即仅训练样本1会被识别,而其他训练样本则不会被识别,以此方式与误识别进行区分,进而提高模型对命令词的准确识别;在经过多轮得迭代训练之后,该待训练语音识别模型收敛,得到的语音识别模型则具备对命令词进行准确识别的性能,该语音识别模型可应用于智能家居领域,比如智能语音音箱、智能语音耳机、智能语音灯、智能语音风扇等智能家居的命令词识别,辅助用户对智能家居进行语音控制。
在一个实施例中,上述待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。
如上所述,待训练语音识别模型的结构可采用conformer +ctc或者dfsmn +ctc等方式,即待训练语音识别模型的目标函数为ctc的语音识别目标函数,其结构为conformer的结构或dfsmn的结构,其中,CTC(Connectionist Temporal Classification)是一种用于序列标注任务的损失函数和解码算法,CTC通过考虑输入和输出之间的对齐问题,能够有效地训练和解码序列标注模型,被广泛应用于语音识别和其他序列标注任务中;Conformer是一种语音识别网络结构,Conformer通过层叠多个Conformer模块来建模输入序列,每个Conformer模块由两个子模块组成:一个卷积子模块和一个自注意力子模块,卷积子模块通过多层卷积神经网络对输入进行特征提取和降维,而自注意力子模块则利用自注意力机制对序列中的上下文信息进行建模,能够有效地处理语音和自然语言处理任务,具有长程依赖性建模、多尺度特征融合以及基于位置编码的序列信息的特点;dfsmn(DFSMN,DeepFeedforward Sequential Memory Networks)是一种语音识别网络结构,dfsmn通过引入门控机制和分层结构来改进序列建模能力,它由多个层级组成,每个层级都由一组记忆单元和门控单元组成,记忆单元用于存储历史信息,门控单元用于控制信息的流动,进而解决传统循环神经网络梯度消失和计算效率低下的问题。
参照图5,是本发明实施例还提供一种降低语音误识别的装置,包括:
引入模块10,用于根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;
第一标记模块20,用于对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;
第二标记模块30,用于按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;
训练模块40,用于使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。
如上所述,降低语音误识别的装置能够实现降低语音误识别的方法。
在一个实施例中,上述引入模块10还包括:
获取单元,用于获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;
转换单元,用于采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。
在一个实施例中,上述引入模块10还包括:
引入单元,用于在所述音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列。
在一个实施例中,上述第一标记模块20还包括:
第一标记单元,用于在所述第一音素序列中,于所述第一位置信息上增加前缀B的位置标记,于所述第二位置信息上增加后缀E的位置标记,以及于所述第三位置信息上插入字符I的位置标记,得到第二音素序列。
在一个实施例中,上述第二标记模块30还包括:
第二标记单元,用于按照随机概率在所述第二音素序列的开头增加标识sil;和/或,
第三标记单元,用于按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列。
在一个实施例中,上述训练模块40还包括;
输入单元,用于将所述目标音素序列输入待训练语音识别模型;
训练单元,用于在所述待训练语音识别模型中,对存在以前缀B开头、以后缀E结尾,以及存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
在一个实施例中,上述训练模块40还包括;
待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。
参照图6,本发明实施例还提供一种计算机设备,该计算机设备的内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储降低语音误识别的方法的相关数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。进一步地,上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现降低语音误识别的方法,包括如下步骤:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所拍摄于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现降低语音误识别的方法,包括如下步骤:根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种降低命令词误识别的方法,其特征在于,所述方法包括:
根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;
对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;
按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;
使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型;
所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列,包括:
在所述音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列;
所述对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列,包括:
在所述第一音素序列中,于所述第一位置信息上增加前缀B的位置标记,于所述第二位置信息上增加后缀E的位置标记,以及于所述第三位置信息上插入字符I的位置标记,得到第二音素序列;
所述按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列,包括:
按照随机概率在所述第二音素序列的开头增加标识sil;和,
按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列;
所述使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型,包括:
将所述目标音素序列输入待训练语音识别模型;
在所述待训练语音识别模型中,对存在以前缀B开头、以后缀E结尾,以及前后存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
2.根据权利要求1所述的降低命令词误识别的方法,其特征在于,所述根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列之前,还包括:
获取用于语音训练的待处理样本,所述待处理样本为多个独立的命令词;
采用pypinyin工具将所述命令词进行音素转换,得到对应的音素序列。
3.根据权利要求1所述的降低命令词误识别的方法,其特征在于,所述待训练语音识别模型的结构为conformer的结构;或者,所述待训练语音识别模型的结构为dfsmn的结构;所述待训练语音识别模型的目标函数为ctc的语音识别目标函数。
4.一种降低命令词误识别的装置,其特征在于,所述装置包括:
引入模块,用于根据声母属性和韵母属性在音素序列中引入位置信息,得到第一音素序列;用于在所述音素序列的开头插入第一位置信息、在所述音素序列的结尾插入第二位置信息,以及在所述音素序列中的声母和韵母之间插入第三位置信息,得到第一音素序列;
第一标记模块,用于对所述第一音素序列的所述位置信息进行位置标记,得到第二音素序列;用于在所述第一音素序列中,于所述第一位置信息上增加前缀B的位置标记,于所述第二位置信息上增加后缀E的位置标记,以及于所述第三位置信息上插入字符I的位置标记,得到第二音素序列;
第二标记模块,用于按照随机概率在所述第二音素序列中增加识别标识,得到目标音素序列;用于按照随机概率在所述第二音素序列的开头增加标识sil;和,用于按照随机概率在所述第二音素序列的结尾增加标识sil,得到目标音素序列;
训练模块,用于使用所述目标音素序列训练待训练语音识别模型,得到语音识别模型;用于将所述目标音素序列输入待训练语音识别模型;用于在所述待训练语音识别模型中,对存在以前缀B开头、以后缀E结尾,以及前后存在标识sil的所述目标音素序列进行识别,直至所述待训练语音识别模型收敛,得到语音识别模型。
5.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的降低命令词误识别的方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的降低命令词误识别的方法的步骤。
CN202311141027.8A 2023-09-06 2023-09-06 降低语音误识别的方法、装置、设备和介质 Active CN116884399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311141027.8A CN116884399B (zh) 2023-09-06 2023-09-06 降低语音误识别的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311141027.8A CN116884399B (zh) 2023-09-06 2023-09-06 降低语音误识别的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN116884399A CN116884399A (zh) 2023-10-13
CN116884399B true CN116884399B (zh) 2023-12-08

Family

ID=88260849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311141027.8A Active CN116884399B (zh) 2023-09-06 2023-09-06 降低语音误识别的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN116884399B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409294A (zh) * 2016-10-18 2017-02-15 广州视源电子科技股份有限公司 防止语音命令误识别的方法和装置
CN108932943A (zh) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 命令词语音检测方法、装置、设备和存储介质
CN110473536A (zh) * 2019-08-20 2019-11-19 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN111696555A (zh) * 2020-06-11 2020-09-22 北京声智科技有限公司 一种唤醒词的确认方法及系统
CN112102814A (zh) * 2020-11-09 2020-12-18 深圳市友杰智新科技有限公司 唤醒模型的评估方法、装置、计算机设备和存储介质
CN113436629A (zh) * 2021-08-27 2021-09-24 中国科学院自动化研究所 语音控制方法、装置、电子设备及存储介质
CN113963688A (zh) * 2021-12-23 2022-01-21 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备
CN114596840A (zh) * 2022-03-04 2022-06-07 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN114678001A (zh) * 2022-03-31 2022-06-28 美的集团(上海)有限公司 语音合成方法和语音合成装置
CN114822515A (zh) * 2021-01-22 2022-07-29 赛微科技股份有限公司 唤醒词辨识训练系统及其训练方法
CN115831100A (zh) * 2023-02-22 2023-03-21 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
KR100930714B1 (ko) * 2007-12-14 2009-12-09 한국전자통신연구원 음성인식 장치 및 방법

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409294A (zh) * 2016-10-18 2017-02-15 广州视源电子科技股份有限公司 防止语音命令误识别的方法和装置
CN108932943A (zh) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 命令词语音检测方法、装置、设备和存储介质
CN110473536A (zh) * 2019-08-20 2019-11-19 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN111696555A (zh) * 2020-06-11 2020-09-22 北京声智科技有限公司 一种唤醒词的确认方法及系统
CN112102814A (zh) * 2020-11-09 2020-12-18 深圳市友杰智新科技有限公司 唤醒模型的评估方法、装置、计算机设备和存储介质
CN114822515A (zh) * 2021-01-22 2022-07-29 赛微科技股份有限公司 唤醒词辨识训练系统及其训练方法
CN113436629A (zh) * 2021-08-27 2021-09-24 中国科学院自动化研究所 语音控制方法、装置、电子设备及存储介质
CN113963688A (zh) * 2021-12-23 2022-01-21 深圳市友杰智新科技有限公司 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备
CN114596840A (zh) * 2022-03-04 2022-06-07 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN114678001A (zh) * 2022-03-31 2022-06-28 美的集团(上海)有限公司 语音合成方法和语音合成装置
CN115831100A (zh) * 2023-02-22 2023-03-21 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN116884399A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN113811946A (zh) 数字序列的端到端自动语音识别
CN110197279B (zh) 变换模型训练方法、装置、设备和存储介质
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN111179917B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN111192570B (zh) 语言模型训练方法、系统、移动终端及存储介质
CN110909144A (zh) 问答对话方法、装置、电子设备及计算机可读存储介质
US20230096805A1 (en) Contrastive Siamese Network for Semi-supervised Speech Recognition
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN114528394B (zh) 一种基于掩码语言模型的文本三元组提取方法及装置
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
CN114860938A (zh) 一种语句意图识别方法和电子设备
CN114495904A (zh) 语音识别方法以及装置
CN112989008A (zh) 一种多轮对话改写方法、装置和电子设备
CN113342935A (zh) 语义识别方法、装置、电子设备及可读存储介质
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
CN113626563A (zh) 训练自然语言处理模型和自然语言处理的方法、电子设备
CN113449489A (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN116884399B (zh) 降低语音误识别的方法、装置、设备和介质
CN115497484B (zh) 语音解码结果处理方法、装置、设备及存储介质
CN111933116A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN112463921B (zh) 韵律层级划分方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant