CN114974222A - 一种词汇拆分模型构建方法、语音识别模型构建方法 - Google Patents
一种词汇拆分模型构建方法、语音识别模型构建方法 Download PDFInfo
- Publication number
- CN114974222A CN114974222A CN202210493382.0A CN202210493382A CN114974222A CN 114974222 A CN114974222 A CN 114974222A CN 202210493382 A CN202210493382 A CN 202210493382A CN 114974222 A CN114974222 A CN 114974222A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- sample
- splitting
- model
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 130
- 238000000034 method Methods 0.000 claims description 184
- 238000000605 extraction Methods 0.000 claims description 135
- 230000008569 process Effects 0.000 claims description 57
- 238000002372 labelling Methods 0.000 claims description 25
- 238000007619 statistical method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 19
- 239000013598 vector Substances 0.000 description 67
- 239000003550 marker Substances 0.000 description 19
- 238000012512 characterization method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000009286 beneficial effect Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种词汇拆分模型构建方法、语音识别模型构建方法,本申请先利用大量样本词汇、这些样本词汇的发音描述信息、以及这些样本词汇的拆分标注信息,构建词汇拆分模型,以使构建好的词汇拆分模型能够学习到依据词汇发音进行词汇拆分处理的能力;再利用构建好的词汇拆分模型、以及该目标语种下大量的最小语义单元,构建该目标语种下的子词词典;然后,借助该子词词典,构建该目标语种下的语音识别模型;最后,利用该语音识别模型针对该目标语种下的任意一个语音数据进行语音识别处理,如此有利于提高该目标语种下的语音识别效果。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种词汇拆分模型构建方法、词汇拆分方法、子词词典构建方法、语音识别模型构建方法、语音识别方法。
背景技术
对于目标语种(例如,英语)下的语音识别模型来说,该语音识别模型可以用于确定该目标语种下某个语音数据对应的独热编码向量,以使该独热编码向量能够表示出该语音数据所携带的语音信息(例如,comfortable等)。
实际上,独热编码向量的维数通常等于目标语种下最小语义单元(例如,英文单词)的总个数,但是当目标语种下最小语义单元的总个数过大时,易影响该目标语种下的语音识别模型的语音识别能力。为了便于理解,下面结合英语进行说明。
作为示例,对于英语来说,英语的最小语义单元是英文单词,使得英语下独热编码向量的维数通常等于英文单词的个数。然而,因英文单词的数据量比较庞大,使得英语下独热编码向量的维数比较高,从而使得在对英语下语音识别模型的构建过程以及使用过程中出现一些很难克服的考验(例如,该语音识别模型的参数量过于庞大、该语音识别模型的很难实现收敛等),如此易导致该目标语种下的语音识别效果比较差。
发明内容
本申请实施例的主要目的在于提供一种词汇拆分模型构建方法、词汇拆分方法、子词词典构建方法、语音识别模型构建方法、语音识别方法,能够提高目标语种下的语音识别效果。
本申请实施例提供了一种词汇拆分模型构建方法,所述方法包括:
获取目标语种下的样本词汇、所述样本词汇的发音描述信息、和所述样本词汇的拆分标注信息;
利用所述样本词汇、所述样本词汇的发音描述信息和所述样本词汇的拆分标注信息,构建词汇拆分模型;其中,所述词汇拆分模型用于参考所述样本词汇的发音描述信息对所述样本词汇进行词汇拆分处理。
在一种可能的实施方式中,所述发音描述信息包括发音标注信息和发音音频数据中的至少一个。
在一种可能的实施方式中,所述利用所述样本词汇、所述样本词汇的发音描述信息和所述样本词汇的拆分标注信息,构建词汇拆分模型,包括:
根据所述样本词汇和所述样本词汇的发音描述信息,确定所述样本词汇的词汇描述数据;
将所述样本词汇的词汇描述数据输入待训练模型,得到所述待训练模型输出的所述样本词汇的预测拆分结果;
根据所述样本词汇的预测拆分结果和所述样本词汇的拆分标注信息,更新所述待训练模型,并继续执行所述将所述样本词汇的词汇描述数据输入待训练模型,得到所述待训练模型输出的所述样本词汇的预测拆分结果的步骤,直至在达到预设停止条件之后,根据所述待训练模型,确定所述词汇拆分模型。
在一种可能的实施方式中,所述根据所述样本词汇和所述样本词汇的发音描述信息,确定所述样本词汇的词汇描述数据,包括:
将所述样本词汇按照所述目标语种下的最小书写单元进行拆分处理,得到所述样本词汇的词汇书写序列;
从所述样本词汇的发音描述信息中提取所述样本词汇的词汇音素特征;
将所述样本词汇的词汇书写序列和所述样本词汇的词汇音素特征进行集合处理,得到所述样本词汇的词汇描述数据。
在一种可能的实施方式中,所述发音描述信息包括发音标注信息和发音音频数据;
所述从所述样本词汇的发音描述信息中提取所述样本词汇的词汇音素特征,包括:
对所述样本词汇的发音标注信息进行字符提取处理,得到所述样本词汇的词汇音标序列;
对所述样本词汇的发音音频数据进行声学特征提取处理,得到所述样本词汇的词汇音频特征;
将所述样本词汇的词汇音标序列和所述样本词汇的词汇音频特征进行集合处理,得到所述样本词汇的词汇音素特征。
在一种可能的实施方式中,所述待训练模型包括特征提取层、编码层、解码层和决策层;
所述样本词汇的预测拆分结果的确定过程,包括:
将所述样本词汇的词汇描述数据输入所述特征提取层,得到所述特征提取层输出的特征提取结果;
将所述特征提取结果输入所述编码层,得到所述编码层输出的特征编码结果;
将所述特征编码结果输入所述解码层,得到所述解码层输出的特征解码结果;
将所述特征解码结果输入所述决策层,得到所述决策层输出的所述样本词汇的预测拆分结果。
在一种可能的实施方式中,所述特征提取层包括书写特征提取模块、音素特征提取模块和特征处理模块;
所述特征提取结果的确定过程,包括:
根据所述样本词汇的词汇描述数据、所述书写特征提取模块和所述音素特征提取模块,确定词汇书写特征和词汇发音特征;
将所述词汇书写特征和所述词汇发音特征输入所述特征处理模块,得到所述特征处理模块输出的所述特征提取结果。
在一种可能的实施方式中,所述词汇描述数据包括词汇书写序列和词汇音素特征;其中,所述词汇书写序列用于描述所述样本词汇的书写特点;所述词汇音素特征用于描述所述样本词汇的发音特点;
所述根据所述样本词汇的词汇描述数据、所述书写特征提取模块和所述音素特征提取模块,确定词汇书写特征和词汇发音特征,包括:
将所述词汇书写序列输入所述书写特征提取模块,得到所述书写特征提取模块输出的所述词汇书写特征;
将所述词汇音素特征输入所述音素特征提取模块,得到所述音素特征提取模块输出的所述词汇发音特征。
在一种可能的实施方式中,所述特征提取结果的确定过程,包括:
将所述词汇书写特征和所述词汇发音特征进行拼接处理,得到待使用拼接特征;
对所述待使用拼接特征进行位置编码处理,得到所述待使用拼接特征对应的位置编码特征;
将所述待使用拼接特征和所述待使用拼接特征对应的位置编码特征进行融合处理,得到所述特征提取结果。
在一种可能的实施方式中,所述方法还包括:
根据所述词汇书写特征的尺寸信息和所述词汇发音特征的尺寸信息,确定待使用尺寸描述信息和待使用特征拼接方向;
根据所述待使用尺寸描述信息、所述词汇书写特征、以及所述词汇发音特征,确定待使用书写特征和待使用发音特征,以使所述待使用书写特征的尺寸信息与所述待使用发音特征的尺寸信息保持一致;
所述将所述词汇书写特征和所述词汇发音特征进行拼接处理,得到待使用拼接特征,包括:
按照所述待使用特征拼接方向,将所述待使用书写特征和所述待使用发音特征进行拼接处理,得到待使用拼接特征。
本申请实施例还提供了一种词汇拆分方法,所述方法包括:
获取目标语种下的待拆分词汇、以及所述待拆分词汇的发音描述信息;
根据所述待拆分词汇、所述待拆分词汇的发音描述信息、以及预先构建的词汇拆分模型,确定所述待拆分词汇的拆分结果;其中,所述词汇拆分模型是利用本申请实施例提供的词汇拆分模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种子词词典构建方法,所述方法包括:
获取目标语种下的至少一个候选词汇、以及各所述候选词汇的发音描述信息;
根据各所述候选词汇、各所述候选词汇的发音描述信息、以及预先构建的词汇拆分模型,确定各所述候选词汇的拆分结果;其中,所述词汇拆分模型是利用本申请实施例提供的词汇拆分模型构建方法的任一实施方式进行构建的;
根据各所述候选词汇的拆分结果,确定各所述候选词汇对应的至少一个子词;
将所述至少一个候选词汇对应的至少一个子词进行统计分析处理,得到所述目标语种下的子词词典。
本申请实施例还提供了一种语音识别模型构建方法,所述方法包括:
获取目标语种下的样本语音和所述样本语音的实际语音内容;
根据所述目标语种下的子词词典和所述样本语音的实际语音内容,确定所述样本语音的语音内容标注,以使所述语音内容标注的数据维度等于所述子词词典中子词个数;其中,所述子词词典是利用本申请实施例提供的子词词典构建方法的任一实施方式进行构建的;
利用所述样本语音和所述样本语音的语音内容标注,构建语音识别模型。
本申请实施例还提供了一种语音识别方法,所述方法包括:
获取目标语种下的待识别语音;
利用预先构建的语音识别模型,对所述待识别语音进行语音识别处理,得到所述待识别语音的语音识别结果;其中,所述语音识别模型是利用本申请实施例提供的语音识别模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种词汇拆分模型构建装置,包括:
第一获取单元,用于获取目标语种下的样本词汇、所述样本词汇的发音描述信息、和所述样本词汇的拆分标注信息;
第一构建单元,用于利用所述样本词汇、所述样本词汇的发音描述信息和所述样本词汇的拆分标注信息,构建词汇拆分模型;其中,所述词汇拆分模型用于参考所述样本词汇的发音描述信息对所述样本词汇进行词汇拆分处理。
本申请实施例还提供了一种词汇拆分装置,包括:
第二获取单元,用于获取目标语种下的待拆分词汇、以及所述待拆分词汇的发音描述信息;
第一拆分单元,用于根据所述待拆分词汇、所述待拆分词汇的发音描述信息、以及预先构建的词汇拆分模型,确定所述待拆分词汇的拆分结果;其中,所述词汇拆分模型是利用本申请实施例提供的词汇拆分模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种子词词典构建装置,包括:
第三获取单元,用于获取目标语种下的至少一个候选词汇、以及各所述候选词汇的发音描述信息;
第二拆分单元,用于根据各所述候选词汇、各所述候选词汇的发音描述信息、以及预先构建的词汇拆分模型,确定各所述候选词汇的拆分结果;其中,所述词汇拆分模型是利用本申请实施例提供的词汇拆分模型构建方法的任一实施方式进行构建的;
子词确定单元,用于根据各所述候选词汇的拆分结果,确定各所述候选词汇对应的至少一个子词;
词典构建单元,用于将所述至少一个候选词汇对应的至少一个子词进行统计分析处理,得到所述目标语种下的子词词典。
本申请实施例还提供了一种语音识别模型构建装置,包括:
第四获取单元,用于获取目标语种下的样本语音和所述样本语音的实际语音内容;
语音标注单元,用于根据所述目标语种下的子词词典和所述样本语音的实际语音内容,确定所述样本语音的语音内容标注,以使所述语音内容标注的数据维度等于所述子词词典中子词个数;其中,所述子词词典是利用本申请实施例提供的子词词典构建方法的任一实施方式进行构建的;
第二构建单元,用于利用所述样本语音和所述样本语音的语音内容标注,构建语音识别模型。
本申请实施例还提供了一种语音识别装置,包括:
第五获取单元,用于获取目标语种下的待识别语音;
语音识别单元,用于利用预先构建的语音识别模型,对所述待识别语音进行语音识别处理,得到所述待识别语音的语音识别结果;其中,所述语音识别模型是利用本申请实施例提供的语音识别模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的词汇拆分模型构建方法的任一实施方式、或者执行本申请实施例提供的词汇拆分方法的任一实施方式、或者执行本申请实施例提供的子词词典构建方法的任一实施方式、或者执行本申请实施例提供的语音识别模型构建方法的任一实施方式、或者执行本申请实施例提供的语音识别方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的词汇拆分模型构建方法的任一实施方式、或者执行本申请实施例提供的词汇拆分方法的任一实施方式、或者执行本申请实施例提供的子词词典构建方法的任一实施方式、或者执行本申请实施例提供的语音识别模型构建方法的任一实施方式、或者执行本申请实施例提供的语音识别方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的词汇拆分模型构建方法的任一实施方式、或者执行本申请实施例提供的词汇拆分方法的任一实施方式、或者执行本申请实施例提供的子词词典构建方法的任一实施方式、或者执行本申请实施例提供的语音识别模型构建方法的任一实施方式、或者执行本申请实施例提供的语音识别方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的技术方案中,对于目标语种(例如,英语)来说,先利用该目标语种下大量的样本词汇、这些样本词汇的发音描述信息、以及这些样本词汇的拆分标注信息,构建词汇拆分模型,以使该词汇拆分模型能够学习到依据词汇发音进行词汇拆分处理的能力,从而使得该词汇拆分模型能够参考任一词汇(例如,样本词汇、候选词汇等)的发音描述信息针对该词汇进行词汇拆分处理;再利用构建好的词汇拆分模型,针对大量候选词汇进行词汇拆分处理,得到这些候选词汇拆分所得的子词,并利用这些候选词汇拆分所得的子词,构建该目标语种下的子词词典,以使该子词词典所记录的大量子词能够尽可能地覆盖该目标语种下的发音单元;然后,利用该子词词典对大量样本语音的实际语音内容进行自动标注处理,得到这些样本语音的语音内容标注,以使这些语音内容标注能够借助由该子词词典所构建的数据表征空间中的一个数据向量表示出这些样本语音实际携带的语音信息;其次,利用这些样本语音及其语音内容标注,构建语音识别模型,以使该语音识别模型不仅能够学习到针对语音数据进行语音识别的能力,还能够学习到利用子词词典表达语音识别结果的能力;最后,利用构建好的语音识别模型,针对该目标语种下的待识别语音进行语音识别处理,得到该待识别语音的语音识别结果,以使该语音识别结果能够借助由该子词词典所构建的数据表征空间中的一个数据向量表达出该待识别语音所携带的语音信息,从而使得该语音识别结果的数据维度等于该子词词典中子词个数,进而使得该语音识别结果的维数远远小于目标语种下最小语义单元(例如,英文单词)的总个数,如此能够克服因目标语种下最小语义单元的总个数过大而导致语音识别能力比较差的缺陷,从而能够提高该语音识别模型的语音识别能力,进而能够提高目标语种下的语音识别效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种词汇拆分模型构建方法的流程图;
图2为本申请实施例提供的一种待训练模型的结构示意图;
图3为本申请实施例提供的一种待训练模型的工作原理示意图;
图4为本申请实施例提供的一种拼接方式的示意图;
图5为本申请实施例提供的另一种拼接方式的示意图;
图6为本申请实施例提供的一种词汇拆分方法的流程图;
图7为本申请实施例提供的一种子词词典构建方法的流程图;
图8为本申请实施例提供的一种语音识别模型构建方法的流程图;
图9为本申请实施例提供的一种语音识别方法的流程图;
图10为本申请实施例提供的一种词汇拆分模型构建装置的结构示意图;
图11为本申请实施例提供的一种词汇拆分装置的结构示意图;
图12为本申请实施例提供的一种子词词典构建装置的结构示意图;
图13为本申请实施例提供的一种语音识别模型构建装置的结构示意图;
图14为本申请实施例提供的一种语音识别装置的结构示意图。
具体实施方式
发明人在针对语音识别模型的研究中发现,一些语音识别模型(例如,端到端的语音识别模型等)通常可以借助分类网络(例如,分类神经网络等),将一个语音数据的声学提取特征分类到其对应的独热编码向量上。然而,因独热编码向量的维数通常等于目标语种下最小语义单元(例如,英文单词)的总个数,使得当该目标语种下最小语义单元的总个数过大时,易导致该目标语种下的语音识别模型的语音识别能力比较差。为了便于理解,下面结合示例进行说明。
作为示例,对于英语来说,英语的最小语义单元是英文单词,而且英文单词的数目十分庞大。基于此可知,如果将每个英文单词作为一个分类,则会使得英语下独热编码向量的维数等于英文单词的个数,从而使得英语下独热编码向量的维数比较高,如此不仅会对语音识别模型中分类网络的分类能力带来巨大考验,还会大幅度增加该分类网络中网络参数的数量,从而易导致该目标语种下的语音识别模型的语音识别能力比较差。此外,当有新单词(例如,新的拼接合成词等)出现时,易因该分类网络中的已有分类节点无法对该新单词进行正确分类而影响该语音识别模型的语音识别能力。
发明人还发现,可以针对目标语言下最小语义单元采用拆分方式来大幅度减少上述分类网络的分类数。例如,对于英文单词来说,每个英文单词(例如,comfortable)均可以拆分成多个子词(例如,com、for、ta、ble),而且不同英文单词的子词间会有大量重复,如此使得这些子词的数目远远小于这些英文单词的数目,故在借助这些子词构建上述分类网络的分类节点时,能够有效地降低语音识别模型中分类网络的分类节点数,从而能够有效地降低该分类网络中网络参数的数量。
基于上述发现,为了解决背景技术部分所示的技术问题,本申请实施例提供了一种词汇拆分模型构建方法、词汇拆分方法、子词词典构建方法、语音识别模型构建方法、语音识别方法;而且本申请所公开的技术方案具体为:对于目标语种(例如,英语)来说,先利用该目标语种下大量的样本词汇、这些样本词汇的发音描述信息、以及这些样本词汇的拆分标注信息,构建词汇拆分模型,以使该词汇拆分模型能够学习到依据词汇发音进行词汇拆分处理的能力;再利用构建好的词汇拆分模型,针对大量候选词汇进行词汇拆分处理,得到这些候选词汇拆分所得的子词,并利用这些候选词汇拆分所得的子词,构建该目标语种下的子词词典,以使该子词词典所记录的大量子词能够尽可能地覆盖该目标语种下的发音单元;然后,利用该子词词典对大量样本语音的实际语音内容进行自动标注处理,得到这些样本语音的语音内容标注,以使这些语音内容标注能够借助由该子词词典所构建的数据表征空间中的一个数据向量表示出这些样本语音实际携带的语音信息;其次,利用这些样本语音及其语音内容标注,构建语音识别模型,以使该语音识别模型不仅能够学习到针对语音数据进行语音识别的能力,还能够学习到利用子词词典表达语音识别结果的能力;最后,利用构建好的语音识别模型,针对该目标语种下的待识别语音进行语音识别处理,得到该待识别语音的语音识别结果,以使该语音识别结果能够借助由该子词词典所构建的数据表征空间中的一个数据向量表达出该待识别语音所携带的语音信息,从而使得该语音识别结果的数据维度等于该子词词典中子词个数,进而使得该语音识别结果的维数远远小于目标语种下最小语义单元(例如,英文单词)的总个数,如此能够克服因目标语种下最小语义单元的总个数过大而导致语音识别能力比较差的缺陷,从而能够提高该语音识别模型的语音识别能力,进而能够提高目标语种下的语音识别效果。
另外,因目标语种下的子词词典能够覆盖该目标语种下的发音单元,使得该子词词典能够表示出该目标语种下各种字符组合(例如,英文字母组合等)的发音情况,从而使得基于该子词词典所构建的语音识别模型不仅能够针对该目标语种下的已有词汇进行语音识别处理,还能够针对该目标语种下新增词汇(例如,新增的拼接合成词等)进行语音识别处理,如此有利于提高该语音识别模型针对新增词汇的语音识别效果,从而有利于提高目标语种下的语音识别效果。
此外,本申请实施例不限定词汇拆分模型构建方法的执行主体,例如,本申请实施例提供的词汇拆分模型构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
同理,本申请实施例也不限定词汇拆分方法的执行主体,例如,本申请实施例提供的词汇拆分方法可以应用于终端设备或服务器等数据处理设备。
同理,本申请实施例也不限定子词词典构建方法的执行主体,例如,本申请实施例提供的子词词典构建方法可以应用于终端设备或服务器等数据处理设备。
同理,本申请实施例也不限定语音识别模型构建方法的执行主体,例如,本申请实施例提供的语音识别模型构建方法可以应用于终端设备或服务器等数据处理设备。
同理,本申请实施例也不限定语音识别方法的执行主体,例如,本申请实施例提供的语音识别方法可以应用于终端设备或服务器等数据处理设备。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请的技术方案,下面依次介绍词汇拆分模型构建方法、词汇拆分方法、子词词典构建方法、语音识别模型构建方法、以及语音识别方法的相关内容。
方法实施例一
参见图1,该图为本申请实施例提供的一种词汇拆分模型构建方法的流程图。
本申请实施例提供的词汇拆分模型构建方法,包括S101-S102:
S101:获取目标语种下的样本词汇、该样本词汇的发音描述信息、和该样本词汇的拆分标注信息。
其中,目标语种是指能够借助词汇拆分处理提高语音识别性能的语言种类;而且本申请实施例不限定目标语种,例如,目标语种可以是英语。
另外,目标语种下最小语义单元以字符串形式进行表示;而且该目标语种下最小语义单元可以拆分成多个具有特定发音的发音单元(又称,子词)。例如,当目标语种为英语时,该目标语种下最小语义单元就是英文单词。其中,英文单词(例如,comfortable等)是一个由多个英文字母(例如,c、o、m、f、o、r、t、a、b、l以及e)构成的字符串;而且该英文单词可以拆分成com、for、ta、以及ble这四个具有特定发音的发音单元。
此外,目标语种下最小语义单元的个数远远高于该目标语种下具有特定发音的发音单元的个数(也就是,该目标语种下子词个数)。
上文“样本词汇”是指在构建词汇拆分模型时所需使用的目标语种下最小语义单元。例如,当目标语种为英语时,样本词汇可以是英文单词。
另外,本申请实施例不限定样本词汇的个数,例如,其可以根据应用场景进行设定。
此外,本申请实施例不限定样本词汇的获取过程,例如,其具体可以为:分别从目标语种的各种发音词汇类中均挑取一些词汇,作为样本词汇,以使在构建词汇拆分模型时所需使用的大量样本词汇能够尽可能地覆盖该目标语种下所有发音情况。其中,目标语种的不同种发音词汇类中具有不同发音情况的词汇。为了便于理解,下面以英语作为示例进行说明。
作为示例,当目标语种为英语时,上述“样本词汇的获取过程”具体可以为:分别从英语的基础词类、该英语的时态变形词类、该英语的外来文化词类、以及该英语的拼接合成词类等用于表示不同发音情况的发音词汇类中分别挑选一些词,作为样本词汇,以使在构建英语下词汇拆分模型时所需使用的大量样本词汇能够尽可能地覆盖该目标语种下所有发音词汇类,从而使得这些样本词汇能够尽可能地覆盖全该目标语种下所有发音情况,如此有利于提高词汇拆分模型的构建效果。
需要说明的是,上述“目标语种的各种发音词汇类”可以预先从该目标语种下大量语料文本中统计收集的;而且本申请实施例不限定该“目标语种的各种发音词汇类”的统计收集方式。
上文“样本词汇的发音描述信息”用于描述该样本词汇的发音情况;而且本申请实施例不限定该“样本词汇的发音描述信息”,例如,其可以包括该样本词汇的发音标注信息和该样本词汇的发音音频数据中的至少一个。
上述“样本词汇的发音标注信息”用于按照发音标注字符串形式表示该样本词汇的发音情况;而且本申请实施例不限定该“样本词汇的发音标注信息”,例如,当目标语种为英语时,该样本词汇的发音标注信息可以是英文单词音标(例如,comfortable这一英文单词的音标为)。
另外,本申请实施例不限定上述“样本词汇的发音标注信息”的数据格式,例如,其可以是文本数据(例如,以文本形式呈现的英文单词音标等),也可以是图像数据(例如,以图像形式呈现的英文单词音标等)。
此外,本申请实施例不限定上述“样本词汇的发音标注信息”的获取方式,例如,可以直接从目标语种下语言数据库中查询各个样本词汇的发音标注信息。其中,上述“目标语种下语言数据库”用于记录该目标语种下各个最小语义单元的相关信息(例如,发音标注信息、语义解释信息等)。
上文“样本词汇的发音音频数据”用于按照音频数据形式表示该样本词汇的发音情况。
另外,本申请实施例不限定上述“样本词汇的发音音频数据”的获取方式,例如,其可以针对该样本词汇采用人工录音的方式,获取该样本词汇的发音音频数据,以使该发音音频数据携带有该样本词汇的发音信息。又如,其具体可以为:先从目标语种的语料音频数据中查找携带有该样本词汇的发音信息的整句英文音频;再从该整句英文音频中切分出该样本词汇的发音音频数据,以使该发音音频数据携带有该样本词汇的发音信息。还如,其具体可以为:将该样本词汇输入预先构建的语音合成工具(例如,具有语音合成功能的机器学习模型或者硬件设备等),得到该语音合成工具输出的该样本词汇的发音音频数据,以使该发音音频数据携带有该样本词汇的发音信息。
上文“样本词汇的拆分标注信息”用于表示针对该样本词汇的实际拆分结果。例如,当样本词汇为comfortable时,该样本词汇的拆分标注信息可以表示出该comfortable实际上可以拆分出com、for、ta、以及ble这四个具有特定发音的发音单元。
另外,本申请实施例不限定上述“样本词汇的拆分标注信息”的表示方式,例如,其可以采用预先设定的拆分标记符号(例如,“@@”这一符号)进行表示。可见,当样本词汇为comfortable时,该样本词汇的拆分标注信息可以包括com、@@for、@@ta、以及@@ble这四个字符串。
此外,本申请实施例不限定上述“样本词汇的拆分标注信息”的获取方式,例如,可以针对该样本词汇进行人工拆分标注方式,得到该样本词汇的拆分标注信息。
基于上述S101的相关内容可知,对于具有词汇拆分需求的目标语种(例如,英语)来说,如果想要构建该目标语种下词汇拆分模型,则从该目标语种的语料数据库中,获取该目标语种下大量的样本词汇、这些样本词汇的发音描述信息、以及这些样本词汇的拆分标注信息,以便后续能够以这些样本词汇的拆分标注信息作为先验信息,引导该目标语种下词汇拆分模型从这些样本词汇及其发音描述信息中学习到如何依据词汇发音进行词汇拆分处理的能力。
S102:利用样本词汇、该样本词汇的发音描述信息和该样本词汇的拆分标注信息,构建词汇拆分模型。
其中,词汇拆分模型用于针对该词汇拆分模型的输入数据进行词汇拆分处理;而且本申请实施例不限定该词汇拆分模型,例如,其可以采用现有的或者未来出现的任意一种机器学习模型(例如,Transformer等)进行实施。
另外,本申请实施例不限定词汇拆分模型的构建过程,例如,其具体可以包括S1021-S1025:
S1021:根据样本词汇和该样本词汇的发音描述信息,确定该样本词汇的词汇描述数据。
上述“样本词汇的词汇描述数据”用于描述该样本词汇的相关信息(例如,书写信息、发音信息等)。
另外,本申请实施例不限定上述“样本词汇的词汇描述数据”的确定过程(也就是,S1021的实施方式),例如,其具体可以为:直接将样本词汇和样本词汇的发音描述信息进行集合处理,得到该样本词汇的词汇描述数据。
此外,为了进一步提高上述“样本词汇的词汇描述数据”针对该样本词汇的描述效果,本申请实施例还提供了确定该“样本词汇的词汇描述数据”(也就是,S1021)的一种可能的实施方式,其具体可以包括S10211-S10213:
S10211:将样本词汇按照目标语种下的最小书写单元进行拆分处理,得到该样本词汇的词汇书写序列。
其中,最小书写单元是指目标语种下最小语义单元的构成符号。例如,当目标语种为英语时,该最小书写单元可以是英文字母。
上文“样本词汇的词汇书写序列”用于表示该样本词汇的书写特点。例如,当目标语种为英语,最小书写单元是英文字母,而且样本词汇为comfortable时,该样本词汇的词汇书写序列具体可以为{c,o,m,f,o,r,t,a,b,l,e}这一序列。
需要说明的是,本申请实施例不限定S10211的实施方式,例如,其可以采用现有的或者未来出现的任意一种能够按照最小书写单元对样本词汇进行拆分处理的方法进行实施。
S10212:从样本词汇的发音描述信息中提取该样本词汇的词汇音素特征。
上述“样本词汇的词汇音素特征”用于表示该样本词汇所携带的发音特点。
另外,本申请实施例不限定上述“样本词汇的词汇音素特征”的确定过程(也就是,S10212的实施方式),例如,当上述“发音描述信息”包括发音标注信息和发音音频数据时,S10212具体可以包括S102121-S102123:
S102121:对样本词汇的发音标注信息进行字符提取处理,得到该样本词汇的词汇音标序列。
上述“样本词汇的词汇音标序列”用于表示该样本词汇的发音标注描述字符;而且本申请实施例不限定该“样本词汇的词汇音标序列”,例如,当样本词汇为comfortable时,该样本词汇的词汇音标序列可以为这一序列。
另外,本申请实施例不限定S102121的实施方式,例如,其可以采用现有的或者未来出现的任意一种能够针对样本词汇的发音标注信息进行字符提取处理的方法进行实施。
S102122:对样本词汇的发音音频数据进行声学特征提取处理,得到该样本词汇的词汇音频特征。
上述“样本词汇的词汇音频特征”用于表示该样本词汇的发音声学特点;而且本申请实施例不限定该“样本词汇的词汇音频特征”的获取过程,例如,其具体可以为:将样本词汇的发音音频数据输入预先构建的声学特征提取模型,以使该声学特征提取模型针对该发音音频数据进行声学特征提取处理,得到并输出该样本词汇的词汇音频特征,以使该词汇音频特征能够表示出该样本词汇的发音声学特点。
其中,声学特征提取模型用于针对该声学特征提取模型的输入数据进行声学特征提取处理;而且本申请实施例不限定该声学特征提取处理,例如,其可以是具有针对音频数据进行声学特征提取处理功能的机器学习模型或者物理设备。
需要说明的是,本申请实施例不限定声学特征提取模型的构建过程。
S102123:根据样本词汇的词汇音标序列和该样本词汇的词汇音频特征,确定该样本词汇的词汇音素特征。
本申请实施例中,在获取到样本词汇的词汇音标序列和该样本词汇的词汇音频特征之后,可以将该样本词汇的词汇音标序列、以及该样本词汇的词汇音频特征进行集合处理,得到该样本词汇的词汇音素特征,以使该词汇音素特征包括该样本词汇的词汇音标序列、以及该样本词汇的词汇音频特征,以使该词汇音素特征能够尽可能全面地表示出该样本词汇的发音特点。
基于上述S10212的相关内容可知,在获取到样本词汇的发音描述信息之后,可以从该发音描述信息中提取该样本词汇的词汇音素特征,以使该词汇音素特征能够尽可能全面地表示出该样本词汇的发音特点。
S10213:根据样本词汇的词汇书写序列和该样本词汇的词汇音素特征,确定该样本词汇的词汇描述数据。
本申请实施例中,在获取到样本词汇的词汇书写序列、以及该样本词汇的词汇音素特征之后,可以将两者进行集合处理,得到该样本词汇的词汇描述数据,以使该词汇描述数据包括该样本词汇的词汇书写序列、以及该样本词汇的词汇音素特征,从而使得该词汇描述数据能够更好地描述出该样本词汇的相关信息(例如,书写信息、发音信息等)。
基于上述S1021的相关内容可知,在获取到样本词汇和该样本词汇的发音描述信息之后,可以利用该样本词汇及其发音描述信息,生成该样本词汇的词汇描述数据,以使该词汇描述数据能够描述出该样本词汇的相关信息(例如,书写信息、发音信息等),以便后续能够基于该词汇描述数据,确定该样本词汇的词汇拆分结果。
S1022:将样本词汇的词汇描述数据输入待训练模型,得到该待训练模型输出的样本词汇的预测拆分结果。
其中,待训练模型用于针对该待训练模型的输入数据进行词汇拆分处理;而且本申请实施例不限定该待训练模型,例如,其可以采用现有的或者未来出现的任意一种机器学习模型(例如,Transformer等)进行实施。
实际上,为了进一步提高词汇拆分能力,本申请实施例还提供了待训练模型的一种可能的实施方式,如图2所示,待训练模型200具体可以包括特征提取层201、编码层202、解码层203和决策层204。其中,编码层202的输入数据包括特征提取层201的输出数据;解码层203的输入数据包括编码层202的输出数据;决策层204的输入数据包括解码层203的输出数据。
为了便于理解待训练模型200的工作原理,下面以上文“样本词汇的预测拆分结果”的确定过程为例进行说明。
作为示例,利用待训练模型200确定上述“样本词汇的预测拆分结果”的过程,具体可以包括步骤11-步骤14:
步骤11:将样本词汇的词汇描述数据输入特征提取层201,得到该特征提取层201输出的特征提取结果。
其中,特征提取层201用于针对该特征提取层201的输入数据进行特征提取处理。
另外,本申请实施例不限定特征提取层201的实施方式,例如,其具体可以包括书写特征提取模块、音素特征提取模块和特征处理模块;而且该特征处理模块的输入数据包括该书写特征提取模块的输出数据、以及该音素特征提取模块的输出数据。为了便于理解,下面以上文“特征提取结果”的确定过程为例进行说明。
作为示例,当特征提取层201包括书写特征提取模块、音素特征提取模块和特征处理模块时,上文“特征提取结果”的确定过程具体可以包括步骤111-步骤112:
步骤111:根据样本词汇的词汇描述数据、书写特征提取模块和音素特征提取模块,确定词汇书写特征和词汇发音特征。
作为示例,当上述“词汇描述数据”包括词汇音标序列和词汇音频特征时,步骤111具体可以包括步骤1111-步骤1112:
步骤1111:将样本词汇的词汇音标序列输入书写特征提取模块,得到该书写特征提取模块输出的词汇书写特征,以使该词汇书写特征能够表示出该样本词汇的书写特点。
其中,书写特征提取模块用于针对该书写特征提取模块的输入数据进行表征向量确定处理;而且本申请实施例不限定该书写特征提取模块的实施方式,例如,其可以采用现有的或者未来出现任意一种能够针对词汇音标序列进行表征向量确定处理的方法(例如,采用嵌入(Embedding)模块等)进行实施。
步骤1112:将样本词汇的词汇音素特征输入音素特征提取模块,得到该音素特征提取模块输出的词汇发音特征,以使该词汇发音特征能够表示出该样本词汇的发音特点。
其中,音素特征提取模块用于针对该音素特征提取模块的输入数据进行表征向量确定处理;而且本申请实施例不限定该音素特征提取模块,例如,如图3所示,该音素特征提取模块可以包括音频特征提取模块和音标特征提取模块。为了便于理解,下面以步骤1112的一种可能的实施方式为例进行说明。
作为示例,当上述“词汇音素特征”包括词汇音标序列和词汇音频特征,而且上述“词汇发音特征”包括音频表征向量和音标表征向量时,步骤1112具体可以包括步骤11121-步骤11122:
步骤11121:将样本词汇的词汇音频特征输入音频特征提取模块,得到该音频特征提取模块输出的音频表征向量,以使该音频表征向量能够表示出该样本词汇的发音声学特点。
其中,音频特征提取模块用于针对该音频特征提取模块的输入数据进行表征向量确定处理;而且本申请实施例不限定该音频特征提取模块的实施方式,例如,其可以采用现有的或者未来出现任意一种能够针对词汇音标序列进行表征向量确定处理的方法(例如,采用Embedding模块等)进行实施。
步骤11122:将样本词汇的词汇音标序列输入音标特征提取模块,得到该音标特征提取模块输出的音标表征向量,以使该音标表征向量能够表示出该样本词汇的发音标注特点。
其中,音标特征提取模块用于针对该音标特征提取模块的输入数据进行表征向量确定处理;而且本申请实施例不限定该音标特征提取模块的实施方式,例如,其可以采用现有的或者未来出现任意一种能够针对词汇音标序列进行表征向量确定处理的方法(例如,采用Embedding模块等)进行实施。
需要说明的是,本申请实施例不限定步骤11121和步骤11122之间的执行顺序。
基于上述步骤1112的相关内容可知,对于音素特征提取模块来说,在将样本词汇的词汇音素特征输入该音素特征提取模块之后,可以利用该音素特征提取模块中不同模块分别针对该样本词汇的词汇音频特征、以及该样本词汇的词汇音标序列进行表征向量确定处理,得到词汇发音特征,以使该词汇发音特征包括音频表征向量和音标表征向量,从而使得该词汇发音特征能够表示出该样本词汇的发音特点。
需要说明的是,本申请实施例不限定步骤1112与上文步骤1111之间的执行顺序。
基于上述步骤111的相关内容可知,对于特征提取层201来说,在将样本词汇的词汇描述数据输入该特征提取层201之后,可以由该特征提取层201中的书写特征提取模块和音素特征提取模块从该词汇描述数据中提取出该样本词汇对应的词汇书写特征以及词汇发音特征,以便后续能够基于该词汇书写特征以及词汇发音特征,确定该样本词汇对应的特征提取结果。
步骤112:将词汇书写特征和词汇发音特征输入特征处理模块,得到该特征处理模块输出的特征提取结果,以使该特征提取结果能够表示出样本词汇所具有的词汇特点。
其中,特征处理模块用于针对该特征处理模块的输入数据进行一些数据处理(例如,结合处理、位置编码处理、融合处理等);而且本申请实施例不限定该特征处理模块的实施方式,例如,如图3所示,该特征处理模块可以包括特征结合模块、位置编码处理模块、以及特征融合模块。
上述“特征结合模块”用于针对该特征结合模块的输入数据进行特征结合处理;而且本申请实施例不限定该特征结合模块的实施方式,例如,其可以采用下文步骤1121所示的拼接方法的任一实施方式进行实施。
上述“位置编码处理模块”用于针对该位置编码处理模块的输入数据进行位置编码处理;而且本申请实施例不限定该位置编码处理模块的实施方式,例如,可以采用现有的或者未来出现的任意一种位置编码网络进行实施。
上述“特征融合模块”用于针对该特征融合模块的输入数据进行特征融合处理;而且本申请实施例不限定该特征融合模块的实施方式,例如,其可以采用现有的或者未来出现的任意一种能够将一个特征表征向量及其位置编码向量进行融合的方法(例如,图3所示的⊕)进行实施。
上文“特征提取结果”用于表征样本词汇所具有的词汇特点(例如,时序特点、书写特点、发音特点等);而且本申请实施例不限定该特征提取结果的确定过程(也就是,特征处理模块的工作原理),例如,其具体可以包括步骤1121-步骤1123:
步骤1121:将词汇书写特征和词汇发音特征进行拼接处理,得到待使用拼接特征。
其中,待使用拼接特征用于表示样本词汇所具有的词汇特点(例如,书写特点、发音特点等)。
另外,本申请实施例不限定待使用拼接特征的确定过程,例如,当上述“词汇发音特征”包括音频表征向量和音标表征向量时,如图4所示,该待使用拼接特征的确定过程具体可以为:按照预设方向,将词汇书写特征、音频表征向量、以及音标表征向量进行拼接处理,得到待使用拼接特征。其中,预设方向是指预先设定的方向(例如,图4所示的横向)。
此外,为了更好地使用样本词汇所携带的时序信息,本申请实施例还提供了待使用拼接特征的确定过程的另一种可能的实施方式,其具体可以包括步骤21-步骤23:
步骤21:根据词汇书写特征的尺寸信息和词汇发音特征的尺寸信息,确定待使用尺寸描述信息和待使用特征拼接方向。
上述“词汇书写特征的尺寸信息”用于描述该词汇书写特征的数据尺寸。例如,如图5所示,该词汇书写特征的尺寸信息可以为N×D。其中,N为正整数,D为正整数。
上述“词汇发音特征的尺寸信息”用于描述该词汇发音特征的数据尺寸。例如,当上述“词汇发音特征”包括音频表征向量和音标表征向量时,如图5所示,该词汇发音特征的尺寸信息可以包括该音频表征向量的尺寸信息和该音标表征向量的尺寸信息。其中,音频表征向量的尺寸信息用于描述该音频表征向量的数据尺寸;而且该音频表征向量的尺寸信息可以为T×D。音标表征向量的尺寸信息用于描述该音标表征向量的数据尺寸;而且该音标表征向量的尺寸信息可以为M×D。其中,T为正整数,M为正整数,D为正整数。
上述“待使用尺寸描述信息”用于表示在针对词汇书写特征以及词汇发音特征进行数据尺寸一致性处理时所需参考的尺寸信息;而且本申请实施例不限定该“待使用尺寸描述信息”,例如,如图5所示,当T>N,而且T>M时,该“待使用尺寸描述信息”可以为T×D。
上述“待使用特征拼接方向”用于表示特征拼接方向;而且该“待使用特征拼接方向”不是时序表征方向。例如,待使用特征拼接方向可以是图5所示的纵向(也就是,D所处的方向)。
步骤22:根据待使用尺寸描述信息、词汇书写特征、以及词汇发音特征,确定待使用书写特征和待使用发音特征,以使该待使用书写特征的尺寸信息与该待使用发音特征的尺寸信息保持一致。
其中,待使用书写特征用于描述样本词汇的书写特点;而且本申请实施例不限定该待使用书写特征的确定过程,例如,其具体可以为:判断该词汇书写特征的尺寸信息是否等于待使用尺寸描述信息,若是,则直接将该词汇书写特征,确定为待使用书写特征即可;若否,则按照该待使用尺寸描述信息,对该词汇书写特征进行填充处理(例如,补零处理等),得到待使用书写特征,以使该待使用书写特征的尺寸信息等于待使用尺寸描述信息。
待使用发音特征用于描述样本词汇的发音特点;而且本申请实施例不限定该待使用发音特征的确定过程,例如,当上述“词汇发音特征”包括音频表征向量和音标表征向量时,该待使用发音特征的确定过程具体可以包括下文步骤一至步骤三:
步骤一:判断该音频表征向量的尺寸信息是否等于待使用尺寸描述信息,若是,则直接将该音频表征向量,确定为待使用音频特征即可;若否,则按照该待使用尺寸描述信息,对该音频表征向量进行填充处理(例如,补零处理等),得到待使用音频特征,以使该待使用音频特征的尺寸信息等于待使用尺寸描述信息。
步骤二:判断该音标表征向量的尺寸信息是否等于待使用尺寸描述信息,若是,则直接将该音标表征向量,确定为待使用音标特征即可;若否,则按照该待使用尺寸描述信息,对该音标表征向量进行填充处理(例如,补零处理等),得到待使用音标特征,以使该待使用音标特征的尺寸信息等于待使用尺寸描述信息。
步骤三:根据待使用音频特征和待使用音标特征,确定待使用发音特征,以使该待使用发音特征包括该待使用音频特征和待使用音标特征,从而使得该待使用发音特征的尺寸信息符合待使用尺寸描述信息,进而使得该待使用发音特征的尺寸信息与待使用书写特征的尺寸信息保持一致。
步骤23:按照待使用特征拼接方向,将待使用书写特征和待使用发音特征进行拼接处理,得到待使用拼接特征。
本申请实施例中,在获取到待使用书写特征和待使用发音特征之后,可以直接按照待使用特征拼接方向(如图5所示的纵向),将待使用书写特征和待使用发音特征进行拼接处理,得到待使用拼接特征,以使该待使用拼接特征能够表征出样本词汇所携带的书写特点以及发音特点,还能够表征出该样本词汇所携带的时序特点,从而使得该待使用拼接特征能够更准确地表示出该样本词汇所具有的词汇特点。
基于上述步骤1121的相关内容可知,对于特征处理模块来说,在将词汇书写特征和词汇发音特征输入该特征处理模块之后,该特征处理模块可以针对该词汇书写特征和词汇发音特征进行结合处理,得到待使用拼接特征,以使该待使用拼接特征能够表示出该样本词汇所具有的词汇特点。
步骤1122:对待使用拼接特征进行位置编码处理,得到该待使用拼接特征对应的位置编码特征。
需要说明的是,本申请实施例不限定步骤1122中“位置编码处理”的实施方式,例如,其可以采用现有的或者未来出现的任意一种位置编码网络(例如,transform模型中所使用的位置编码模块等)进行实施。
步骤1123:将待使用拼接特征和该待使用拼接特征对应的位置编码特征进行融合处理,得到特征提取结果。
本申请实施例中,在获取到待使用拼接特征和该待使用拼接特征对应的位置编码特征之后,可以将两者进行融合处理(例如,图3所示的⊕),得到特征提取结果,以使该特征提取结果能够更好地表示出样本词汇所具有的词汇特点。
基于上述步骤1121至步骤1123的相关内容可知,对于特征处理模块来说,在将词汇书写特征和词汇发音特征输入该特征处理模块之后,可以先由该特征处理模块将该词汇书写特征和词汇发音特征进行结合处理,得到待使用拼接特征;再由该特征处理模块针对该待使用拼接特征进行位置编码处理,得到该待使用拼接特征对应的位置编码特征;最后,由该特征处理模块针对该待使用拼接特征及其对应的位置编码特征进行融合处理,得到特征提取结果,以使该特征提取结果能够更好地表示出样本词汇所具有的词汇特点。
基于上述步骤11的相关内容可知,对于待训练模型200来说,在将样本词汇的词汇描述数据输入该待训练模型200之后,可以由该待训练模型200中的特征提取层201(例如,图3所示的特征提取层),针对该词汇描述数据进行特征提取处理,得到并输出该样本词汇对应的特征提取结果,以使该特征提取结果能够表示出该样本词汇所具有的词汇特点。
步骤12:将特征提取结果输入编码层202,得到该编码层202输出的特征编码结果。
其中,编码层202用于针对该编码层202的输入数据进行编码处理;而且本申请实施例不限定该编码层202的实施方式,例如,其可以采用现有的或者未来出现的任意一种编码网络(例如,transform模型中的Encoder模块等)进行实施。
基于步骤12的相关内容可知,对于待训练模型200来说,在该待训练模型200中的编码层202获取到样本词汇对应的特征提取结果之后,该编码层202可以针对该特征提取结果进行编码处理,得到并输出该样本词汇对应的特征编码结果。
步骤13:将特征编码结果输入解码层203,得到该解码层203输出的特征解码结果。
其中,解码层203用于针对该解码层203的输入数据进行解码处理;而且本申请实施例不限定该解码层203的实施方式,例如,其可以采用现有的或者未来出现的任意一种解码网络(例如,transform模型中的Decoder模块等)进行实施。
基于步骤13的相关内容可知,对于待训练模型200来说,在该待训练模型200中的解码层203获取到样本词汇对应的特征编码结果之后,该解码层203可以针对该特征编码结果进行解码处理,得到并输出该样本词汇对应的特征解码结果。
步骤14:将特征解码结果输入决策层204,得到该决策层204输出的样本词汇的预测拆分结果。
其中,决策层204用于针对该决策层204的输入数据进行分类处理;而且本申请实施例不限定该决策层204,例如,其可以采用现有的或者未来出现的任意一种解码网络(例如,图3所示的决策层等)进行实施。
另外,对于图3所示的决策层来说,该决策层可以包括线性处理模块和分类模块。其中,线性处理模块用于针对该线性处理模块的输入数据进行线性数据处理;而且本申请实施例不限定该线性处理模块,例如,其以采用现有的或者未来出现的任意一种线性处理网络(例如,transform模型中的linear模块等)进行实施。分类模块用于针对该分类模块的输入数据进行分类处理;而且本申请实施例不限定该分类模块,例如,其以采用现有的或者未来出现的任意一种分类网络(例如,softmax等)进行实施。
上文“样本词汇的预测拆分结果”用于表示该样本词汇预测可以拆分成哪些子词,以使该“样本词汇的预测拆分结果”能够表示出拆分标记符号在该样本词汇中预测所处位置。
另外,上述“样本词汇的预测拆分结果”可以采用独热向量形式进行表示。为了便于理解,下面结合示例进行说明。
作为示例,当目标语种为英语时,该样本词汇的预测拆分结果可以采用52维字符空间下的独热向量进行表示,以使该“样本词汇的预测拆分结果”可以是一个52维的独热向量。其中,52维字符空间是由26个英文字母及其带有拆分标记符号的形式(也就是,a,@@a,b,@@b,……)进行构建的;而且针对该样本词汇的预测拆分结果[p1,p2,p3,p4,p5,p6,……,p51,p52]可以采用下文表1所示内容进行解读。
字符 | 预测拆分结果 |
a | p<sub>1</sub> |
@@a | p<sub>2</sub> |
b | p<sub>3</sub> |
@@b | p<sub>4</sub> |
c | p<sub>5</sub> |
@@c | p<sub>6</sub> |
…… | …… |
z | p<sub>51</sub> |
@@z | p<sub>52</sub> |
表1预测拆分结果的解析内容
需要说明的是,对于表1来说,p1表示针对样本词汇拆分所得的子词中出现a的可能性大小(或者,表示拆分标记符号不出现在a前面的可能性大小);p2表示针对样本词汇拆分所得的子词中出现@@a的可能性大小(也就是,拆分标记符号出现在a前面的可能性大小);p3表示针对样本词汇拆分所得的子词中出现b的可能性大小(或者,表示拆分标记符号不出现在b前面的可能性大小);p4表示针对样本词汇拆分所得的子词中出现@@b的可能性大小(也就是,拆分标记符号出现在b前面的可能性大小);p5表示针对样本词汇拆分所得的子词中出现c的可能性大小(或者,表示拆分标记符号不出现在c前面的可能性大小);p6表示针对样本词汇拆分所得的子词中出现@@c的可能性大小(也就是,拆分标记符号出现在c前面的可能性大小);……(以此类推);p51表示针对样本词汇拆分所得的子词中出现z的可能性大小(或者,表示拆分标记符号不出现在z前面的可能性大小);p52表示针对样本词汇拆分所得的子词中出现@@z的可能性大小(也就是,拆分标记符号出现在z前面的可能性大小)。
基于上述步骤11至步骤14的相关内容可知,对于图2所示的待训练模型200来说,在该待训练模型200获取到样本词汇的词汇描述数据之后,可以由该待训练模型200针对该词汇描述数据进行词汇拆分处理,得到并输出该样本词汇的预测拆分结果,以使该预测拆分结果能够表示出预测在该样本词汇中哪里添加拆分标记符号,从而使得该预测拆分结果能够表示出该样本词汇预测可以拆分成哪些子词,以便后续能够基于该预测拆分结果,衡量该待训练模型200的词汇拆分性能。
基于上述S1022的相关内容可知,在获取到样本词汇的词汇描述数据之后,可以将该词汇描述数据输入待训练模型,以使该待训练模型能够基于该词汇描述数据,实现依据该样本词汇发音针对该样本词汇进行词汇拆分处理,得到并输出该样本词汇的预测拆分结果,以使该预测拆分结果能够表示出该样本词汇预测可以拆分成哪些子词,以便后续能够基于该预测拆分结果,确定该待训练模型的词汇拆分性能。
S1023:判断是否达到预设停止条件,若是,则执行S1025;若否,则执行S1024。
其中,预设停止条件可以预先设定;而且本申请实施例不限定该预设停止条件,例如,其具体可以为:待训练模型的模型损失值低于第一阈值。又如,其具体可以为:待训练模型的模型损失值的变化率低于第二阈值(也就是,待训练模型达到收敛)。还如,其具体可以为:待训练模型的更新次数达到第三阈值。其中,第一阈值、第二阈值、以及第三阈值均可以预先设定。
上述“待训练模型的模型损失值”用于表示该待训练模型的词汇拆分性能;而且本申请实施例不限定该“待训练模型的模型损失值”的确定过程,例如,可以采用现有的或者未来出现的任意一种模型损失计算方法进行实施。
基于S1023的相关内容可知,对于当前轮的待训练模型来说,可以判断该待训练模型是否达到预设停止条件,若达到预设停止条件,则可以确定该待训练模型具有较高的词汇拆分性能,故可以直接参考该待训练模型,构建词汇拆分模型即可;但是,若没有达到预设停止条件,则可以确定该待训练模型的词汇拆分性能依旧比较低,故可以借助样本词汇的预测拆分结果与该样本词汇的拆分标注信息之间的差异性,更新该待训练模型,以使更新后的待训练模型具有更好的词汇拆分性能,如此能够实现在样本词汇的拆分标注信息的引导下,促使该待训练模型从大量样本词汇及其发音描述信息中学习到如何依据词汇发音进行词汇拆分处理。
S1024:根据样本词汇的预测拆分结果和该样本词汇的拆分标注信息,更新待训练模型,并返回执行S1022。
需要说明的是,本申请实施例不限定S1024的实施方式,例如,可以采用现有的或者未来出现的任意一种模型更新方法进行实施。
另外,为了进一步提高更新效果,本申请实施例还提供了更新待训练模型的另一种可能的实施方式,其具体可以包括步骤31-步骤32:
步骤31:根据样本词汇的拆分标注信息,确定该样本词汇的实际拆分结果,以使该实际拆分结果能够以独热向量形式表示出拆分标记符号在该样本词汇中实际所处位置。
作为示例,步骤31具体可以包括步骤311-步骤312:
步骤311:将样本词汇的拆分标注信息进行字符提取处理,得到该样本词汇的拆分标注序列。
其中,样本词汇的拆分标注序列用于表示拆分标记符号在该样本词汇中实际所处位置;而且本申请实施例不限定该“样本词汇的拆分标注序列”,例如,当样本词汇的拆分标注信息为包括com、@@for、@@ta、以及@@ble时,该样本词汇的拆分标注序列可以为{com@@for@@ta@@ble}这一序列。
步骤312:将样本词汇的拆分标注序列映射至52维字符空间,得到该样本词汇的实际拆分结果。
本申请实施例中,在获取到样本词汇的拆分标注序列之后,可以将该拆分标注序列映射至上文“52维字符空间”,得到该样本词汇的实际拆分结果,以使该实际拆分结果采用一个52维的独热向量进行表示,从而使得该实际拆分结果不仅能够表示出该样本词汇涉及哪些最小书写单元(例如,英文字母),还能够表示出拆分标记符号在该样本词汇中实际所处位置。
基于上述步骤31的相关内容可知,在获取到样本词汇的拆分标注信息之后,可以将该拆分标注信息映射至52维字符空间,得到该样本词汇的实际拆分结果,以使该实际拆分结果能够采用独热向量形式表示出拆分标记符号在该样本词汇中实际所处位置,以便后续能够借助该实际拆分结果,更好地确定该样本词汇的拆分标注信息与该样本词汇的预测拆分结果之间的差异性。
需要说明的是,本申请实施例不限定步骤31的执行时间,只要保证该步骤31的执行时间早于步骤32的执行时间即可。
步骤32:根据样本词汇的实际拆分结果和该样本词汇的预测拆分结果,更新待训练模型,并返回执行S1022。
本申请实施例中,在获取到样本词汇的实际拆分结果和该样本词汇的预测拆分结果之后,可以参考两者之间的差异表征值(例如,两者之间的差值、或者两者之间的距离等),更新待训练模型,以使更新后的待训练模型具有更好的词汇拆分性能,如此有利于提高模型更新效果。
基于上述S1024的相关内容可知,在确定当前轮的待训练模型没有达到预设停止条件时,可以确定该待训练模型的词汇拆分性能依旧比较低,故可以参考样本词汇的预测拆分结果和该样本词汇的拆分标注信息之间的差异性,更新该待训练模型,以使更新后的待训练模型具有更好的词汇拆分性能,并利用更新后的待训练模型继续执行上文S1022及其后续步骤,以实现针对该待训练模型的下一轮训练过程。
S1025:根据待训练模型,确定词汇拆分模型。
本申请实施例中,在确定当前轮的待训练模型达到预设停止条件时,可以确定该待训练模型具有较高的词汇拆分性能,从而可以确定该待训练模型具有依据词汇发音进行词汇拆分处理的能力,故可以直接利用该待训练模型,构建词汇拆分模型(例如,直接将该待训练模型,确定为词汇拆分模型;或者,根据该待训练模型的模型结构以及模型参数,设置词汇拆分模型的模型结构以及模型参数,以使该词汇拆分模型的模型结构以及模型参数与该词汇拆分模型的模型结构以及模型参数保持一致),如此使得该词汇拆分模型也具有依据词汇发音进行词汇拆分处理的能力,以便后续能够利用该词汇拆分模型,针对目标语种下的任意一个最小语义单元进行词汇拆分处理。
基于上述S101至S102的相关内容可知,对于本申请实施例提供的词汇拆分模型构建方法来说,先获取目标语种下大量的样本词汇、这些样本词汇的发音描述信息、以及这些样本词汇的拆分标注信息;再利用这些样本词汇、这些样本词汇的发音描述信息、以及这些样本词汇的拆分标注信息,构建词汇拆分模型,以使构建好的词汇拆分模型能够从这些样本词汇及其相关信息(也就是,发音描述信息以及拆分标注信息)中学习到依据词汇发音进行词汇拆分处理的能力,以便后续能够利用构建好的词汇拆分模型针对目标语种下大量的最小语义单元进行自动拆分处理。
其中,因词汇拆分模型是依据大量样本词汇的发音描述信息进行构建的,使得构建好的词汇拆分模型具有依据词汇发音进行词汇拆分处理的能力,从而使得构建好的词汇拆分模型能够针对目标语种下各个最小语义单元进行比较合理地拆分处理,如此有利于提高词汇拆分效果,从而在利用借助词汇拆分模型实现目标语种下语音识别处理时,有利于提高该目标语种下的语音识别效果。
方法实施例二
参见图6,该图为本申请实施例提供的一种词汇拆分方法的流程图。
本申请实施例提供的词汇拆分方法,包括S601-S602:
S601:获取目标语种下的待拆分词汇、以及该待拆分词汇的发音描述信息。
其中,待拆分词汇用于表示目标语种下的任意一个最小语义单元。例如,当目标语种为英语时,该待拆分词汇可以是任意一个英文单词。
待拆分词汇的发音描述信息用于描述该待拆分词汇的发音情况;而且本申请实施例不限定该“待拆分词汇的发音描述信息”,例如,其可以包括该待拆分词汇的发音标注信息和该待拆分词汇的发音音频数据中的至少一个。
需要说明的是,上述“待拆分词汇的发音描述信息”的相关内容类似于上文“样本词汇的发音描述信息”的相关内容,为了简要起见,在此不再赘述。
S602:根据待拆分词汇、该待拆分词汇的发音描述信息、以及预先构建的词汇拆分模型,确定该待拆分词汇的拆分结果。
其中,词汇拆分模型是利用上文方法实施例一所提供的词汇拆分模型构建方法的任一实施方式进行构建的。
上述“待拆分词汇的拆分结果”用于表示该待拆分词汇可以拆分成哪些子词,以使该“待拆分词汇的拆分结果”能够表示出拆分标记符号在该待拆分词汇中所处位置。
另外,上述“待拆分词汇的拆分结果”的确定过程类似于上文“样本词汇的预测拆分结果”的确定过程。为了便于理解,下面结合示例进行说明。
作为示例,S602具体可以包括S6021-S6022:
S6021:根据待拆分词汇和该待拆分词汇的发音描述信息,确定该待拆分词汇的词汇描述数据。
上述“待拆分词汇的词汇描述数据”用于描述该待拆分词汇的相关信息(例如,书写信息、发音信息等)。
另外,上述“待拆分词汇的词汇描述数据”的相关内容类似于上文“样本词汇的词汇描述数据”的相关内容,为了简要起见,在此不再赘述。
S6022:将待拆分词汇的词汇描述数据输入预先构建的词汇拆分模型,得到该词汇拆分模型输出的该待拆分词汇的拆分结果。
需要说明的是,S6022的相关内容类似于上文S1022的相关内容,为了简要起见,在此不再赘述。
基于上述S601至S602的相关内容可知,对于本申请实施例提供的词汇拆分方法来说,在获取到目标语种下的待拆分词汇之后,可以借助预先构建的词汇拆分模型、以及该待拆分词汇的发音描述信息,对该待拆分词汇进行词汇拆分处理,得到该待拆分词汇的拆分结果,以使该拆分结果能够表示出拆分标记符号在该待拆分词汇中所处位置,从而使得该拆分结果能够表示出该待拆分词汇可以拆分成哪些子词。
其中,因预先构建的词汇拆分模型具有较好的依据词汇发音进行词汇拆分处理的能力,使得利用该词汇拆分模型针对待拆分词汇所确定的拆分结果能够更合理的表示出该待拆分词汇是由那些子词构成的,如此有利于提高词汇拆分效果,从而在利用这些子词实现目标语种下语音识别处理时,有利于提高该目标语种下的语音识别效果。
方法实施例三
参见图7,该图为本申请实施例提供的一种子词词典构建方法的流程图。
本申请实施例提供的子词词典构建方法,包括S701-S704:
S701:获取目标语种下的至少一个候选词汇、以及各候选词汇的发音描述信息。
上述“至少一个候选词汇”用于表示在构建目标语种下的子词词典时所需使用的最小语义单元。
另外,本申请实施例不限定上述“至少一个候选词汇”的获取过程,例如,其具体可以为:将目标语种下的大量语料文本中所有最小语义单元(例如,英文单词)进行统计收集处理,得到至少一个候选词汇,以使这些候选词汇能够尽可能地覆盖该目标语种下的所有最小语义单元。
此外,本申请实施例不限定上述“至少一个候选词汇”与上文“样本词汇”之间的关系,例如,其具体可以为:大量样本词汇可以是从上述“至少一个候选词汇”中筛选得到的,以使这些样本词汇能够尽可能地覆盖目标语种下所有发音情况。
第j个候选词汇的发音描述信息用于描述该第j个候选词汇的发音情况;而且本申请实施例不限定该“第j个候选词汇的发音描述信息”,例如,其可以包括该第j个候选词汇的发音标注信息和该第j个候选词汇的发音音频数据中的至少一个。其中,j为正整数,j≤J,J为正整数,J表示上述“至少一个候选词汇”中候选词汇的个数。
需要说明的是,上述“第j个候选词汇的发音描述信息”的相关内容类似于上文“样本词汇的发音描述信息”的相关内容,为了简要起见,在此不再赘述。
S702:根据各候选词汇、各候选词汇的发音描述信息、以及预先构建的词汇拆分模型,得到各候选词汇的拆分结果。
其中,词汇拆分模型是利用上文方法实施例一所提供的词汇拆分模型构建方法的任一实施方式进行构建的。
第j个候选词汇的拆分结果用于表示该第j个候选词汇可以拆分成哪些子词,以使该“第j个候选词汇的拆分结果”能够表示出拆分标记符号在该第j个候选词汇中所处位置。其中,j为正整数,j≤J,J为正整数,J表示上述“至少一个候选词汇”中候选词汇的个数。
另外,上述“第j个候选词汇的拆分结果”的确定过程类似于上文“待拆分词汇的拆分结果”的确定过程,为了简要起见,在此不再赘述。
S703:根据各候选词汇的拆分结果,确定各候选词汇对应的至少一个子词。
其中,第j个候选词汇对应的至少一个子词用于表示该第j个候选词汇所涉及的发音单元。例如,当目标语种为英语,第j个候选词汇为speak,而且该第j个候选词汇的拆分结果表示拆分标记符号位于p之前以及k之前时,该第j个候选词汇对应的至少一个子词可以包括s、pea、以及k这三个子词,以使这些子词能够表示出该第j个候选词汇所涉及的发音单元。j为正整数,j≤J,J为正整数,J表示上述“至少一个候选词汇”中候选词汇的个数。
另外,本申请实施例不限定上述“第j个候选词汇对应的至少一个子词”的确定过程,例如,其具体可以包括S7031-S7032:
S7031:根据第j个候选词汇的拆分结果,确定该第j个候选词汇对应的至少一个拆分位置。
上述“第j个候选词汇对应的至少一个拆分位置”用于表示针对该第j个候选词汇的拆分位置。
另外,上述“第j个候选词汇对应的至少一个拆分位置”是根据该第j个候选词汇的拆分结果所表示的拆分标记符号所处位置进行确定的。例如,当第j个候选词汇为speak,而且该第j个候选词汇的拆分结果中针对@@p的预测概率比较高、以及针对@@k的预测概率比较高时,可以确定该第j个候选词汇对应的至少一个拆分位置包括s与p之间的空隙、以及a与k之间的空隙。
S7032:按照第j个候选词汇对应的至少一个拆分位置,对该第j个候选词汇进行拆分处理,得到该第j个候选词汇对应的至少一个子词。
作为示例,当第j个候选词汇为speak,而且该第j个候选词汇对应的至少一个拆分位置包括s与p之间的空隙、以及a与k之间的空隙时,先针对第j个候选词汇,可以在s与p之间的空隙处切一下、并在a与k之间的空隙处切一下,得到s、pea、以及k这三个片段;再将这三个片段均确定为该第j个候选词汇对应的子词,以使该“第j个候选词汇对应的至少一个子词”包括s、pea、以及k这三个子词。
基于上述S703的相关内容可知,在获取到第j个候选词汇的拆分结果之后,可以参考该拆分结果所表示的拆分标记符号的位置信息,对该第j个候选词汇进行拆分处理,得到该第j个候选词汇对应的至少一个子词,以使这些子词能够表示出该第j个候选词汇所涉及的发音单元,以便后续能够参考这些子词,构建目标语种下的子词词典。其中,j为正整数,j≤J,J为正整数,J表示上述“至少一个候选词汇”中候选词汇的个数。
S704:将至少一个候选词汇对应的至少一个子词进行统计分析处理,得到目标语种下的子词词典。
本申请实施例中,在获取到所有候选词汇对应的至少一个子词之后,可以针对这些候选词汇对应的至少一个子词进行统计分析处理(例如,去重处理、使用频率统计处理等),得到目标语种下的子词词典,以使该子词词典能够尽可能地覆盖住该目标语种下所有子词,从而使得该子词词典能够尽可能地覆盖该目标语种下的发音单元,进而使得该子词词典能够尽可能地满足该目标语种下最小语义单元的表达需求,以便后续能够利用该子词词典代替该目标语种下的最小语义单元数据库(例如,英文单词词典),构建涉及该目标语种的语音识别场景下的独热向量。
基于上述S701至S704的相关内容可知,对于本申请实施例提供的子词词典构建方法来说,在获取到目标语种下的大量候选词汇之后,先借助预先构建的词汇拆分模型、以及各个候选词汇的发音描述信息,对各个候选词汇进行词汇拆分处理,得到各个候选词汇的拆分结果,以使各个候选词汇的拆分结果能够表示出拆分标记符号的位置信息;再根据各候选词汇的拆分结果,确定各候选词汇对应的至少一个子词;最后,将这些候选词汇对应的至少一个子词进行汇总,得到该目标语种下的子词词典,以使该子词词典能够尽可能地覆盖该目标语种中所有可能出现的子词,从而使得该子词词典能够尽可能地覆盖该目标语种下的发音单元,进而使得该子词词典能够尽可能地满足该目标语种下最小语义单元的表达需求,如此有利于提高该子词词典在目标语种下的表达效果,从而在利用该子词词典实现目标语种下语音识别处理时,有利于提高该目标语种下的语音识别效果。
方法实施例四
参见图8,该图为本申请实施例提供的一种语音识别模型构建方法的流程图。
本申请实施例提供的语音识别模型构建方法,包括S801-S803:
S801:获取目标语种下的样本语音和该样本语音的实际语音内容。
其中,样本语音是指在构建目标语种下的语音识别模型时所需使用的语音数据;而且本申请实施例不限定该样本语音的个数。
另外,本申请实施例不限定样本语音的获取方式,例如,可以采用现有的或者未来出现的任意一种能够获取目标语种下的语音数据的方法进行实施。
上文“样本语音的实际语音内容”用于表示该样本语音实际携带的语音信息;而且本申请实施例不限定该“样本语音的实际语音内容”的获取方式,例如,采用现有的或者未来出现的任意一种能够获取该样本语音实际携带的语音信息的方法(例如,人工标注方法等)进行实施。
S802:根据目标语种下的子词词典和样本语音的实际语音内容,确定该样本语音的语音内容标注。
其中,目标语种下的子词词典是利用上文方法实施例三所提供的子词词典构建方法的任一实施方式进行构建的。
上文“样本语音的语音内容标注”用于表示该样本语音的实际语音内容在由上述“目标语种下的子词词典”所构建的数据表征空间(下文简称为“子词词典空间”)中的映射结果,以使该“样本语音的语音内容标注”采用子词词典空间中的一个独热向量进行表示,从而使得该“样本语音的语音内容标注”的数据维度等于该子词词典空间的空间维度(也就是,该“目标语种下的子词词典”中子词个数)。
另外,本申请实施例不限定上述“样本语音的语音内容标注”的确定过程,例如,采用人工标注方式进行实施。
此外,为了进一步提高语音识别模型的构建效率,本申请实施例还提供了上述“样本语音的语音内容标注”的确定过程的另一种可能的实施方式,其具体可以包括S8021-S8023:
S8021:根据目标语种下的子词词典,构建该目标语种下的待使用数据空间。
本申请实施例中,在获取到目标语种下的子词词典之后,可以将该子词词典中各个子词均作为一个数据维度,得到该目标语种下的待使用数据空间,以使该待使用数据空间的数据维度等于该子词词典中子词个数,从而使得该待使用数据空间能够代表该子词词典。
S8022:将样本语音的实际语音内容中各个最小语义单元,分别确定为待处理词汇。
作为示例,当目标语种为英语时,S8022具体可以为:将样本语音的实际语音内容中各个英文单词均确定为待处理词汇,以使这些待处理词汇能够表示出该实际语音内容所携带的语音信息。
S8023:根据各个待处理词汇、各个待处理词汇的发音描述信息、以及预先构建的词汇拆分模型,确定各个待处理词汇的拆分结果。
其中,词汇拆分模型是利用上文方法实施例一所提供的词汇拆分模型构建方法的任一实施方式进行构建的。
第k个待处理词汇的发音描述信息用于描述该第k个待处理词汇的发音情况;而且本申请实施例不限定该“第k个待处理词汇的发音描述信息”,例如,其可以包括该第k个待处理词汇的发音标注信息和该第k个待处理词汇的发音音频数据中的至少一个。其中,k为正整数,k≤K,K为正整数,K表示待处理词汇的个数。
需要说明的是,上述“第k个待处理词汇的发音描述信息”的相关内容类似于上文“样本词汇的发音描述信息”的相关内容,为了简要起见,在此不再赘述。
第k个待处理词汇的拆分结果用于表示该第k个待处理词汇可以拆分成哪些子词,以使该“第k个待处理词汇的拆分结果”能够表示出拆分标记符号在该第k个待处理词汇中所处位置。其中,k为正整数,k≤K,K为正整数,K表示待处理词汇的个数。
另外,上述“第k个待处理词汇的拆分结果”的确定过程类似于上文“待拆分词汇的拆分结果”的确定过程,为了简要起见,在此不再赘述。
S8024:根据各个待处理词汇的拆分结果,确定样本语音的词汇拆分结果。
本申请实施例中,在获取到样本语音中所有待处理词汇的拆分结果之后,可以按照这些待处理词汇在该样本语音中所处位置,将这些待处理词汇的拆分结果进行集合处理,得到该样本语音的词汇拆分结果,以使该“样本语音的词汇拆分结果”能够表示出该样本语音的实际语音内容可以拆分成哪些子词。
S8025:将样本语音的词汇拆分结果映射至待使用数据空间,得到该样本语音的语音内容标注。
本申请实施例中,在获取到样本语音的词汇拆分结果之后,可以将该词汇拆分结果映射至待使用数据空间(也就是,由该目标语种下的子词词典所构建的数据表征空间),得到该样本语音的语音内容标注,以使该语音内容标注能够以该待使用数据空间中独热向量的形式表示出该样本语音的实际语音内容,从而使得该语音内容标注的数据维度等于该待使用数据空间的空间维度(也就是,上述“目标语种下的子词词典”中子词个数)。
基于上述S802的相关内容可知,在获取到目标语种下样本语音的实际语音内容之后,可以将该实际语音内容,映射至由该目标语种下的子词词典所构建的数据表征空间中,得到该样本语音的语音内容标注,以使该语音内容标注能够借助该数据表征空间中的一个独热向量表示出该样本语音实际所携带的语义信息,以便后续能够利用该语音内容标注,引导语音识别模型学习到如何在该数据表征空间中表达出针对一个语音数据的语音识别结果。
S803:利用样本语音和该样本语音的语音内容标注,构建语音识别模型。
其中,语音识别模型用于针对该语音识别模型的输入数据进行目标语种下的语音识别处理;而且本申请实施例不限定语音识别模型,例如,可以采用现有的或者未来出现的任意一种具有语音识别能力的网络模型进行实施。
另外,语音识别模型能够利用由该目标语种下的子词词典所构建的数据表征空间表达出针对一个语音数据的语音识别结果。可见,当语音识别模型借助分类网络将一个语音数据的声学特征提取结果分类至独热编码向量时,该分类网络中分类节点个数等于上述“目标语种下的子词词典”中子词个数,以使该分类网络能够在该数据表征空间中表达出针对该语音数据的语音识别结果。
此外,本申请实施例不限定语音识别模型的构建过程,例如,可以采用现有的或者未来出现的任意一种模型构建方法进行实施。
基于上述S801至S803的相关内容可知,对于本申请实施例提供的语音识别模型构建方法来说,在获取到目标语种下大量的样本语音、以及这些样本语音的实际语音内容之后,先利用预先构建的目标语种下的子词词典,对各个样本语音的实际语音内容进行自动标注处理,得到这些样本语音的语音内容标注,以使这些语音内容标注能够按照独热编码向量的形式表示出这些样本语音实际携带的语音信息;再利用这些样本语音以及这些样本语音的语音内容标注,构建语音识别模型,以使该语音识别模型不仅能够学习到针对语音数据进行语音识别的能力,还能够学习到利用子词词典表达语音识别结果的能力,从而使得该语音识别模型中分类网络能够使用子词词典中所有子词作为分类类别进行分类处理,进而使得利用该语音识别模型针对某一语音数据所确定的独热编码向量的维度等于该子词词典中的子词个数,如此有利于降低目标语种下独热编码向量的维度,从而有利于提高该语音识别模型的语音识别能力,进而能够提高该目标语种下的语音识别效果。
方法实施例五
参见图9,该图为本申请实施例提供的一种语音识别方法的流程图。
本申请实施例提供的语音识别方法,包括S901-S902:
S901:获取目标语种下的待识别语音。
其中,待识别语音是指需要进行目标语种下语音识别处理的语音数据。
另外,本申请实施例不限定待识别语音,例如,可以是实时采集的语音流数据,也可以是在预设存储空间中存储的语音数据。
S902:利用预先构建的语音识别模型,对待识别语音进行语音识别处理,得到该待识别语音的语音识别结果。
其中,语音识别模型是利用上文方法实施例四所示的语音识别模型构建方法的任一实施方式进行构建的。
上述“待识别语音的语音识别结果”用于表示该待识别语音所携带的语音信息;而且本申请实施例不限定该“待识别语音的语音识别结果”的确定过程,例如,其具体可以为:将待识别语音输入预先构建的语音识别模型,得到该语音识别模型输出的该待识别语音的语音识别结果。
基于上述S901至S902的相关内容可知,对于本申请实施例提供的语音识别方法来说,在获取到目标语种下的待识别语音之后,利用预先构建的语音识别模型,对待识别语音进行语音识别处理,得到该待识别语音的语音识别结果。其中,因语音识别模型具有利用子词词典表达语音识别结果的能力,使得利用该语音识别模型针对待识别语音所确定的语音识别结果能够借助子词词典表达出该待识别语音所携带的语音信息,从而使得该语音识别结果的维数等于该子词词典中子词个数,进而使得该语音识别结果的维数远远小于目标语种下最小语义单元(例如,英文单词)的总个数,如此能够克服因目标语种下最小语义单元的总个数过大而导致语音识别能力比较差的缺陷,从而能够提高该语音识别模型的语音识别能力,进而能够提高该目标语种下的语音识别效果。
基于上述方法实施例提供的词汇拆分模型构建方法,本申请实施例还提供了一种词汇拆分模型构建装置,下面结合附图进行解释和说明。
装置实施例一
装置实施例一对词汇拆分模型构建装置进行介绍,相关内容请参见上述方法实施例。
参见图10,该图为本申请实施例提供的一种词汇拆分模型构建装置的结构示意图。
本申请实施例提供的一种词汇拆分模型构建装置1000,包括:
第一获取单元1001,用于获取目标语种下的样本词汇、所述样本词汇的发音描述信息、和所述样本词汇的拆分标注信息;
第一构建单元1002,用于利用所述样本词汇、所述样本词汇的发音描述信息和所述样本词汇的拆分标注信息,构建词汇拆分模型。
在一种可能的实施方式中,所述发音描述信息包括发音标注信息和发音音频数据中的至少一个。
在一种可能的实施方式中,所述第一构建单元1002,包括:
第一确定子单元,用于根据所述样本词汇和所述样本词汇的发音描述信息,确定所述样本词汇的词汇描述数据;
第一预测子单元,用于将所述样本词汇的词汇描述数据输入待训练模型,得到所述待训练模型输出的所述样本词汇的预测拆分结果;
第一更新子单元,用于根据所述样本词汇的预测拆分结果和所述样本词汇的拆分标注信息,更新所述待训练模型,并返回所述第一预测子单元继续执行所述将所述样本词汇的词汇描述数据输入待训练模型,得到所述待训练模型输出的所述样本词汇的预测拆分结果的步骤;
第二确定子单元,用于在达到预设停止条件之后,根据所述待训练模型,确定所述词汇拆分模型。
在一种可能的实施方式中,所述第一确定子单元,包括:
第一拆分子单元,用于将所述样本词汇按照所述目标语种下的最小书写单元进行拆分处理,得到所述样本词汇的词汇书写序列;
第一提取子单元,用于从所述样本词汇的发音描述信息中提取所述样本词汇的词汇音素特征;
第一处理子单元,用于将所述样本词汇的词汇书写序列和所述样本词汇的词汇音素特征进行集合处理,得到所述样本词汇的词汇描述数据。
在一种可能的实施方式中,所述发音描述信息包括发音标注信息和发音音频数据;
所述第一提取子单元,具体用于:对所述样本词汇的发音标注信息进行字符提取处理,得到所述样本词汇的词汇音标序列;对所述样本词汇的发音音频数据进行声学特征提取处理,得到所述样本词汇的词汇音频特征;将所述样本词汇的词汇音标序列和所述样本词汇的词汇音频特征进行集合处理,得到所述样本词汇的词汇音素特征。
在一种可能的实施方式中,所述待训练模型包括特征提取层、编码层、解码层和决策层;
所述样本词汇的预测拆分结果的确定过程,包括:将所述样本词汇的词汇描述数据输入所述特征提取层,得到所述特征提取层输出的特征提取结果;将所述特征提取结果输入所述编码层,得到所述编码层输出的特征编码结果;将所述特征编码结果输入所述解码层,得到所述解码层输出的特征解码结果;将所述特征解码结果输入所述决策层,得到所述决策层输出的所述样本词汇的预测拆分结果。
在一种可能的实施方式中,所述特征提取层包括书写特征提取模块、音素特征提取模块和特征处理模块;
所述特征提取结果的确定过程,包括:根据所述样本词汇的词汇描述数据、所述书写特征提取模块和所述音素特征提取模块,确定词汇书写特征和词汇发音特征;将所述词汇书写特征和所述词汇发音特征输入所述特征处理模块,得到所述特征处理模块输出的所述特征提取结果。
在一种可能的实施方式中,所述词汇描述数据包括词汇书写序列和词汇音素特征;其中,所述词汇书写序列用于描述所述样本词汇的书写特点;所述词汇音素特征用于描述所述样本词汇的发音特点;
所述词汇书写特征的确定过程,包括:将所述词汇书写序列输入所述书写特征提取模块,得到所述书写特征提取模块输出的所述词汇书写特征;
所述词汇发音特征的确定过程,包括:将所述词汇音素特征输入所述音素特征提取模块,得到所述音素特征提取模块输出的所述词汇发音特征。
在一种可能的实施方式中,所述特征提取结果的确定过程,包括:将所述词汇书写特征和所述词汇发音特征进行拼接处理,得到待使用拼接特征;对所述待使用拼接特征进行位置编码处理,得到所述待使用拼接特征对应的位置编码特征;将所述待使用拼接特征和所述待使用拼接特征对应的位置编码特征进行融合处理,得到所述特征提取结果。
在一种可能的实施方式中,所述待使用拼接特征的确定过程,包括:根据所述词汇书写特征的尺寸信息和所述词汇发音特征的尺寸信息,确定待使用尺寸描述信息和待使用特征拼接方向;
根据所述待使用尺寸描述信息、所述词汇书写特征、以及所述词汇发音特征,确定待使用书写特征和待使用发音特征,以使所述待使用书写特征的尺寸信息与所述待使用发音特征的尺寸信息保持一致;按照所述待使用特征拼接方向,将所述待使用书写特征和所述待使用发音特征进行拼接处理,得到待使用拼接特征。
基于上述方法实施例提供的词汇拆分方法,本申请实施例还提供了一种词汇拆分装置,下面结合附图进行解释和说明。
装置实施例二
装置实施例二对词汇拆分装置进行介绍,相关内容请参见上述方法实施例。
参见图11,该图为本申请实施例提供的一种词汇拆分装置的结构示意图。
本申请实施例提供的词汇拆分装置1100,包括:
第二获取单元1101,用于获取目标语种下的待拆分词汇、以及所述待拆分词汇的发音描述信息;
第一拆分单元1102,用于根据所述待拆分词汇、所述待拆分词汇的发音描述信息、以及预先构建的词汇拆分模型,确定所述待拆分词汇的拆分结果;其中,所述词汇拆分模型是利用本申请实施例提供的词汇拆分模型构建方法的任一实施方式进行构建的。
基于上述方法实施例提供的子词词典构建方法,本申请实施例还提供了一种子词词典构建装置,下面结合附图进行解释和说明。
装置实施例三
装置实施例三对子词词典构建装置进行介绍,相关内容请参见上述方法实施例。
参见图12,该图为本申请实施例提供的一种子词词典构建装置的结构示意图。
本申请实施例提供的子词词典构建装置1200,包括:
第三获取单元1201,用于获取目标语种下的至少一个候选词汇、以及各所述候选词汇的发音描述信息;
第二拆分单元1202,用于根据各所述候选词汇、各所述候选词汇的发音描述信息、以及预先构建的词汇拆分模型,确定各所述候选词汇的拆分结果;其中,所述词汇拆分模型是利用本申请实施例提供的词汇拆分模型构建方法的任一实施方式进行构建的;
子词确定单元1203,用于根据各所述候选词汇的拆分结果,确定各所述候选词汇对应的至少一个子词;
词典构建单元1204,用于将所述至少一个候选词汇对应的至少一个子词进行统计分析处理,得到所述目标语种下的子词词典。
基于上述方法实施例提供的语音识别模型构建方法,本申请实施例还提供了一种语音识别模型构建装置,下面结合附图进行解释和说明。
装置实施例四
装置实施例四对语音识别模型构建装置进行介绍,相关内容请参见上述方法实施例。
参见图13,该图为本申请实施例提供的一种语音识别模型构建装置的结构示意图。
本申请实施例提供的语音识别模型构建装置1300,包括:
第四获取单元1301,用于获取目标语种下的样本语音和所述样本语音的实际语音内容;
语音标注单元1302,用于根据所述目标语种下的子词词典和所述样本语音的实际语音内容,确定所述样本语音的语音内容标注,以使所述语音内容标注的数据维度等于所述子词词典中子词个数;其中,所述子词词典是利用本申请实施例提供的子词词典构建方法的任一实施方式进行构建的;
第二构建单元1303,用于利用所述样本语音和所述样本语音的语音内容标注,构建语音识别模型。
基于上述方法实施例提供的语音识别方法,本申请实施例还提供了一种语音识别装置,下面结合附图进行解释和说明。
装置实施例五
装置实施例五对语音识别装置进行介绍,相关内容请参见上述方法实施例。
参见图14,该图为本申请实施例提供的一种语音识别装置的结构示意图。
本申请实施例提供的语音识别装置1400,包括:
第五获取单元1401,用于获取目标语种下的待识别语音;
语音识别单元1402,用于利用预先构建的语音识别模型,对所述待识别语音进行语音识别处理,得到所述待识别语音的语音识别结果;其中,所述语音识别模型是利用权利要求13所述的语音识别模型构建方法进行构建的。
进一步地,本申请实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的词汇拆分模型构建方法的任一实施方式、或者执行本申请实施例提供的词汇拆分方法的任一实施方式、或者执行本申请实施例提供的子词词典构建方法的任一实施方式、或者执行本申请实施例提供的语音识别模型构建方法的任一实施方式、或者执行本申请实施例提供的语音识别方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的词汇拆分模型构建方法的任一实施方式、或者执行本申请实施例提供的词汇拆分方法的任一实施方式、或者执行本申请实施例提供的子词词典构建方法的任一实施方式、或者执行本申请实施例提供的语音识别模型构建方法的任一实施方式、或者执行本申请实施例提供的语音识别方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的词汇拆分模型构建方法的任一实施方式、或者执行本申请实施例提供的词汇拆分方法的任一实施方式、或者执行本申请实施例提供的子词词典构建方法的任一实施方式、或者执行本申请实施例提供的语音识别模型构建方法的任一实施方式、或者执行本申请实施例提供的语音识别方法的任一实施方式。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种词汇拆分模型构建方法,其特征在于,所述方法包括:
获取目标语种下的样本词汇、所述样本词汇的发音描述信息、和所述样本词汇的拆分标注信息;
利用所述样本词汇、所述样本词汇的发音描述信息和所述样本词汇的拆分标注信息,构建词汇拆分模型;其中,所述词汇拆分模型用于参考所述样本词汇的发音描述信息对所述样本词汇进行词汇拆分处理。
2.根据权利要求1所述的方法,其特征在于,所述发音描述信息包括发音标注信息和发音音频数据中的至少一个。
3.根据权利要求1所述的方法,其特征在于,所述利用所述样本词汇、所述样本词汇的发音描述信息和所述样本词汇的拆分标注信息,构建词汇拆分模型,包括:
根据所述样本词汇和所述样本词汇的发音描述信息,确定所述样本词汇的词汇描述数据;
将所述样本词汇的词汇描述数据输入待训练模型,得到所述待训练模型输出的所述样本词汇的预测拆分结果;
根据所述样本词汇的预测拆分结果和所述样本词汇的拆分标注信息,更新所述待训练模型,并继续执行所述将所述样本词汇的词汇描述数据输入待训练模型,得到所述待训练模型输出的所述样本词汇的预测拆分结果的步骤,直至在达到预设停止条件之后,根据所述待训练模型,确定所述词汇拆分模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本词汇和所述样本词汇的发音描述信息,确定所述样本词汇的词汇描述数据,包括:
将所述样本词汇按照所述目标语种下的最小书写单元进行拆分处理,得到所述样本词汇的词汇书写序列;
从所述样本词汇的发音描述信息中提取所述样本词汇的词汇音素特征;
将所述样本词汇的词汇书写序列和所述样本词汇的词汇音素特征进行集合处理,得到所述样本词汇的词汇描述数据。
5.根据权利要求4所述的方法,其特征在于,所述发音描述信息包括发音标注信息和发音音频数据;
所述从所述样本词汇的发音描述信息中提取所述样本词汇的词汇音素特征,包括:
对所述样本词汇的发音标注信息进行字符提取处理,得到所述样本词汇的词汇音标序列;
对所述样本词汇的发音音频数据进行声学特征提取处理,得到所述样本词汇的词汇音频特征;
将所述样本词汇的词汇音标序列和所述样本词汇的词汇音频特征进行集合处理,得到所述样本词汇的词汇音素特征。
6.根据权利要求3所述的方法,其特征在于,所述待训练模型包括特征提取层、编码层、解码层和决策层;
所述样本词汇的预测拆分结果的确定过程,包括:
将所述样本词汇的词汇描述数据输入所述特征提取层,得到所述特征提取层输出的特征提取结果;
将所述特征提取结果输入所述编码层,得到所述编码层输出的特征编码结果;
将所述特征编码结果输入所述解码层,得到所述解码层输出的特征解码结果;
将所述特征解码结果输入所述决策层,得到所述决策层输出的所述样本词汇的预测拆分结果。
7.一种词汇拆分方法,其特征在于,所述方法包括:
获取目标语种下的待拆分词汇、以及所述待拆分词汇的发音描述信息;
根据所述待拆分词汇、所述待拆分词汇的发音描述信息、以及预先构建的词汇拆分模型,确定所述待拆分词汇的拆分结果;其中,所述词汇拆分模型是利用权利要求1-6任一项所述的词汇拆分模型构建方法进行构建的。
8.一种子词词典构建方法,其特征在于,所述方法包括:
获取目标语种下的至少一个候选词汇、以及各所述候选词汇的发音描述信息;
根据各所述候选词汇、各所述候选词汇的发音描述信息、以及预先构建的词汇拆分模型,确定各所述候选词汇的拆分结果;其中,所述词汇拆分模型是利用权利要求1-6任一项所述的词汇拆分模型构建方法进行构建的;
根据各所述候选词汇的拆分结果,确定各所述候选词汇对应的至少一个子词;
将所述至少一个候选词汇对应的至少一个子词进行统计分析处理,得到所述目标语种下的子词词典。
9.一种语音识别模型构建方法,其特征在于,所述方法包括:
获取目标语种下的样本语音和所述样本语音的实际语音内容;
根据所述目标语种下的子词词典和所述样本语音的实际语音内容,确定所述样本语音的语音内容标注,以使所述语音内容标注的数据维度等于所述子词词典中子词个数;其中,所述子词词典是利用权利要求8所述的子词词典构建方法进行构建的;
利用所述样本语音和所述样本语音的语音内容标注,构建语音识别模型。
10.一种语音识别方法,其特征在于,所述方法包括:
获取目标语种下的待识别语音;
利用预先构建的语音识别模型,对所述待识别语音进行语音识别处理,得到所述待识别语音的语音识别结果;其中,所述语音识别模型是利用权利要求9所述的语音识别模型构建方法进行构建的。
11.一种设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至6任一项所述的词汇拆分模型构建方法、或者执行权利要求7所述的词汇拆分方法、或者执行权利要求8所述的子词词典构建方法、或者执行权利要求9所述的语音识别模型构建方法、或者执行权利要求10所述的语音识别方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至6任一项所述的词汇拆分模型构建方法、或者执行权利要求7所述的词汇拆分方法、或者执行权利要求8所述的子词词典构建方法、或者执行权利要求9所述的语音识别模型构建方法、或者执行权利要求10所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210493382.0A CN114974222A (zh) | 2022-05-07 | 2022-05-07 | 一种词汇拆分模型构建方法、语音识别模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210493382.0A CN114974222A (zh) | 2022-05-07 | 2022-05-07 | 一种词汇拆分模型构建方法、语音识别模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114974222A true CN114974222A (zh) | 2022-08-30 |
Family
ID=82982388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210493382.0A Pending CN114974222A (zh) | 2022-05-07 | 2022-05-07 | 一种词汇拆分模型构建方法、语音识别模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974222A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468298A (zh) * | 2023-06-12 | 2023-07-21 | 江西五十铃汽车有限公司 | 基于gpt网络模型的汽车技术规划与决策的方法及系统 |
-
2022
- 2022-05-07 CN CN202210493382.0A patent/CN114974222A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468298A (zh) * | 2023-06-12 | 2023-07-21 | 江西五十铃汽车有限公司 | 基于gpt网络模型的汽车技术规划与决策的方法及系统 |
CN116468298B (zh) * | 2023-06-12 | 2023-11-03 | 江西五十铃汽车有限公司 | 基于gpt网络模型的汽车技术规划与决策的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pratap et al. | Scaling speech technology to 1,000+ languages | |
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
CN106297828B (zh) | 一种基于深度学习的误发音检测的检测方法和装置 | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
CN112259083B (zh) | 音频处理方法及装置 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN110852040B (zh) | 一种标点预测模型训练方法及文本标点确定方法 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN112116907A (zh) | 语音识别模型建立、语音识别方法、装置、设备和介质 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
JP6941494B2 (ja) | エンドツーエンド日本語音声認識モデル学習装置およびプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN114974222A (zh) | 一种词汇拆分模型构建方法、语音识别模型构建方法 | |
Hassan et al. | Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2 | |
CN113936642A (zh) | 发音词典构建方法、语音识别方法及相关装置 | |
JP6718787B2 (ja) | 日本語音声認識モデル学習装置及びプログラム | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |