CN115512682A - 多音字读音预测方法、装置、电子设备及存储介质 - Google Patents
多音字读音预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115512682A CN115512682A CN202211138255.5A CN202211138255A CN115512682A CN 115512682 A CN115512682 A CN 115512682A CN 202211138255 A CN202211138255 A CN 202211138255A CN 115512682 A CN115512682 A CN 115512682A
- Authority
- CN
- China
- Prior art keywords
- character
- polyphone
- pronunciation
- prediction
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims description 44
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000009849 deactivation Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 abstract description 8
- 238000003786 synthesis reaction Methods 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 101001137510 Homo sapiens Outer dynein arm-docking complex subunit 2 Proteins 0.000 description 1
- 102100035706 Outer dynein arm-docking complex subunit 2 Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本公开提供一种多音字读音预测方法、装置、电子设备及存储介质,包括:获取目标文本中各字符对应的各字符特征,利用利用多音字预测模型,根据各字符对应的各字符特征,对目标文本的全局信息和局部信息执行预测并融合,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对目标文本中的多音字执行读音预测,获取目标文本的多音字读音预测结果。借此,本公开可正确辨析多音字的读音,以提高语音合成的流畅性。
Description
技术领域
本发明涉及文本识别技术领域,尤其涉及一种多音字读音预测方法、装置、电子设备及存储介质。
背景技术
目前的语音合成技术主要包括文本分析和语音生成两个部分。其中,文本分析用于为后续的语音合成提供基础,以确保语音合成的流畅性。
在中文语言系统中,存在着一定数量的多音字,例如,“望着大街上一行(hang2)行(hang2)的行(xing2)人”。其中,多音字的具体读音不仅取决于上下文的信息,同时也取决于具体的局部信息,因此,能否正确辨析多音字的读音,对于后期的语音合成处理具有非常重要的意义。
有鉴于此,亟需一种可正确辨析多音字读音的技术手段。
发明内容
有鉴于此,本公开实施例提供一种多音字读音预测方法、装置、电子设备及存储介质,可正确辨析多音字的读音。
根据本公开实施例的一方面,提供了一种多音字读音预测方法,包括:获取目标文本中各字符对应的各字符特征;利用多音字预测模型,根据各字符对应的各字符特征,预测并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果。
根据本公开实施例的第二方面,提供一种多音字读音预测装置,包括获取模块,用于获取目标文本中各字符对应的各字符特征;多音字预测模型,用于根据各字符对应的各字符特征,预测所述目标文本的全局信息和局部信息,并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述第一方面所述的多音字读音预测方法。
根据本公开实施例的第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面所述的多音字读音预测方法。
本公开各实施例提供的多音字读音预测方法,可根据目标文本中各字符对应的各字符特征,预测目标文本的局部信息和全局信息,并通过融合目标文本的局部信息和全局信息,以对目标文本执行多音字读音的预测,借由本公开提供的技术方案,不仅可提高多音字读音预测结果的准确性,亦可确保后期语音合成的流畅性,以提高用户的使用体验。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1为本公开示例性实施例的多音字读音预测方法的流程示意图。
图2为本公开另一示例性实施例的多音字读音预测方法的流程示意图。
图3为图2所示实施例的数据生成流程的示意图。
图4为本公开另一示例性实施例的多音字读音预测方法的流程示意图。
图5为本公开示例性实施例的多音字读音预测装置的架构示意图。
图6为本公开示例性实施例的电子设备的架构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在当前典型的中文语音合成系统中,前端模块至少包含两部分,即韵律结构预测(PSP)和字素音素转换(G2P)。
其中,韵律结构预测部分,主要用于预测输入文本中的韵律词、韵律短语、语调短语的韵律边界的分布,例如:将输入文本“南京市长江河同志”转换为“南京#1市长#2江河#1同志#3”,字素音素转换部分,用于将输入文本中的每一个汉字转换成对应的发音,例如将“古都西安”转换为“gu3 du1 xi1 an1”。因此,中文语音合成系统中的前端模块,对于后端合成语音的可理解度和自然度,提供了重要的影响。
如上述的背景部分所述,多音字的具体读音,不仅取决于输入文本的上下文信息(即全局信息),同时也取决于输入文本的局部信息(即目标文本重点关注范围的信息,如目标文本的周边一定范围内的字符等),基于上述特点,本公开提出了一种多音字读音预测方案,通过同时捕获输入文本的全局信息和局部信息,以提高多音字读音预测结果的准确性。
以下将结合各附图详细描述本公开的各具体实施例。
图1为本公开示例性实施例的多音字读音预测方法的处理流程图,其主要包括以下步骤:
步骤S102,获取目标文本中各字符对应的各字符特征。
可选地,可利用语言预测模型,对目标文本中的各字符执行特征提取,获取目标文本中各字符对应的各字符特征。
于本实施例中,语言预测模型可包括但不限于BERT模型(Bidirectional EncoderRepresentation from Transformers;基于转换器的双向编码表征模型)。
具体地,可利用BERT模型,对目标文本中的每一个字符执行特征提取,获取目标文本中每一个字符的字符编码和位置编码。
示例性地,各字符对应的字符特征可包括768维的特征向量。
需说明的是,字符特征的特征维度并不以768维为限,可根据目标文本的实际应用场景、预测精度需求等条件进行任意调整,本公开对此不做限制。
步骤S104,利用多音字预测模型,根据各字符对应的各字符特征,预测并融合目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对目标文本中的多音字执行读音预测,获取目标文本的多音字读音预测结果。
可选地,多音字预测模型可包括卷积增强变换器(Convolution-augmentedtransformer,Conformer),其可根据各字符对应的各字符特征,预测并融合目标文本的全局信息和局部信息,以获取各字符对应的各目标特征(参考图3)。
借此,本公开利用Conformer作为编码器,可将注意力机制的全局建模能力和CNN(卷积神经网络)的局部建模能力进行结合,以有效融合目标文本的全局信息与局部信息,从而提高多音字读音预测结果的准确性。
可选地,多音字预测模型可包括条件随机场(conditional random field)单元(参考图3)。
具体地,可利用条件随机场单元,根据各字符对应的各目标特征,对目标文本中的至少一个多音字执行读音预测,获取至少一个多音字的预测读音。
综上所述,本实施例提供的多音字读音预测方法,根据目标文本中各字符对应的各字符特征,预测并融合目标文本的全局信息和局部信息,以同时兼顾目标文本的全局信息(即目标文本的上下文信息)和局部信息(即目标文本重点关注范围的信息,如目标文本的周边一定范围内的字符等),从而有效提高多音字读音预测结果的准确性,并有助于提升语音合成的流畅性。
图2为本公开另一示例性实施例的多音字读音预测方法的处理流程图,本实施例为上述步骤S104的具体实施方案。以下将结合图3详细描述本实施例,其主要包括以下步骤:
步骤S202,对各字符对应的各字符特征执行第一前馈处理,获取各字符对应的各第一前馈特征。
于本实施例中,字符特征可包括字符编码和位置编码。其中,字符编码用于将目标文本中的各文字(例如汉字)转换为计算机可识别的信息,位置编码用于表征各文字(例如汉字)在目标文本中的位置信息。
可选地,多音字预测模型可包括第一前馈单元。
于本实施例中,可利用多音字预测模型的第一前馈单元,对各字符对应的各字符特征执行第一维度转换处理,获得各字符对应的各第一转换特征。
具体地,可利用第一前馈单元,对各字符对应的各字符特征执行第一维度转换处理,获得各字符对应的各第一转换特征(例如,将738维的各字符特征转换为1024维或512维的各第一转换特征),并融合同一字符的字符特征和第一转换特征,获取各字符对应的各第一前馈特征(参考图3)。
需说明的是,第一转换特征的特征维度并不以上述的1024维、512维所示为限,可根据目标文本的实际应用场景、预测精度等需求进行任意调整,本公开对此不作限制。
于本实施例中,可对同一字符的字符特征和第一转换特征执行加和融合(参考图3中的符号“+”),以获取各字符对应的各第一前馈特征。
可选地,第一前馈单元可至少包括激活函数层(ReLU层)和随机失活层(Dropout层)。
步骤S204,根据各字符对应的各第一前馈特征,预测目标文本的全局信息和局部信息,并融合全局信息和局部信息,获取各字符对应的各融合特征。
可选地,多音字预测模型可包括多头自注意力(Multi-Head Self Attention)单元和卷积(Convolution)单元。
具体地,可利用多头自注意力单元(例如,transformer编码器的多头自注意力机制),根据各字符对应的各第一前馈特征执行预测,获取各字符对应的各全局特征,并融合同一字符的第一前馈特征和全局特征,获取各字符对应的各中间特征(参考图3)。
于本实施例中,可对同一字符的第一前馈特征和全局特征执行加和融合(参考图3中的符号“+”),以获取各字符对应的各中间特征。
具体地,可利用卷积单元(例如,CNN网络的卷积层),根据各字符对应的各中间特征执行预测(例如卷积处理),获取各字符对应的各局部特征,并融合同一字符的中间特征与局部特征,获取各字符对应的各融合特征(参考图3)。
于本实施例中,可对同一字符的中间特征与局部特征执行加和融合(参考图3中的符号“+”),以获取各字符对应的各融合特征。
步骤S206,对各字符对应的各融合特征执行第二前馈处理,获取各字符对应的各第二前馈特征。
可选地,多音字预测模型可包括第二前馈单元。
于本实施例中,可利用多音字预测模型的第二前馈单元,对各字符对应的各字符特征执行第二维度转换处理,获得各字符对应的各第二转换特征。
具体地,可利用第二前馈单元,对各字符对应的各融合特征执行第二维度转换处理,获得各字符对应的各第二转换特征(例如,将1024维或512维的各融合特征转换为768维的各第二转换特征),并融合同一字符的融合特征和第二转换特征,获取各字符对应的各第二前馈特征(参考图3)。
于本实施例中,第二转换特征的特征维度与字符特征的特征维度可为相同(例如,第二转换特征和字符特征的特征维度均为768维度),但并不以此为限,也可将第二转换特征的特征维度与字符特征的特征维度设置为不同,本领域技术人员可根据实际预测精度需求进行调整,本公开对此不作限制。
于本实施例中,可对同一字符的融合特征和第二转换特征执行加和融合(参考图3中的符号“+”),以获取各字符对应的各第二前馈特征。
可选地,第二前馈单元可至少包括激活函数层(ReLU层)和随机失活层(Dropout层)。
步骤S208,对各字符对应的各第二前馈特征执行归一化处理,获取各字符对应的各目标特征。
可选地,多音字预测模型可包括归一化处理单元(例如,LayerNorm层)。
于本实施例中,可利用多音字预测模型的归一化处理单元,对各字符对应的各第二前馈特征执行归一化处理,获取各字符对应的各目标特征(参考图3)。
步骤S210,根据各字符对应的各目标特征,对目标文本中的多音字执行读音预测,获取目标文本的多音字读音预测结果。
可选地,多音字预测模型可包括条件随机场(Conditional Random Field)单元。
具体地,可利用条件随机场单元,根据目标文本中各字符对应的各目标特征,识别各字符中的至少一个多音字,并针对各多音字中的任意一个当前多音字,根据当前多音字的多个候选读音、当前多音字的目标特征,预测当前多音字对应于各候选读音(例如,中文拼音)的各读音概率值,且将读音概率值最大的候选读音确定为当前多音字的预测读音。
综上所述,本实施例的多音字读音预测方法,利用多音字预测模型中多头自注意力单元和卷积单元,学习目标文本中的全局信息和局部信息,并通过在各个预测阶段针对目标文本的全局信息和局部信息进行融合(也就是对第一前馈单元、多头自注意力单元、卷积单元、第二前馈单元各自的输入数据和输出数据进行融合),使得本方案可在兼顾目标文本的全局上下文信息的前提下,亦能聚焦于目标文本中的重点局部信息,从而有效提高多音字读音预测结果的准确性。
图4示出了本公开另一示例性实施例的多音字读音预测方法的处理流程图。本实施例主要示出了步骤S104中的多音字预测模型的训练实施方案,其主要包括以下步骤:
步骤S402,利用训练好的语言预测模型,对训练文本中的各字符执行特征提取,获取训练文本中各字符对应的各字符特征。
于本实施例中,训练好的语言预测模型可包括但不限于BERT模型。
具体地,可利用BERT模型,对训练文本中的每一个字符执行特征提取,获取每一个字符的字符编码和位置编码。
步骤S404,利用多音字预测模型,根据各字符对应的各字符特征,对训练文本中的多音字执行读音预测,获取训练文本的多音字预测读音。
具体地,可利用多音字预测模型,根据训练文本中各字符对应的各字符特征,学习训练文中的全局信息和局部信息,并根据训练文本的全局信息和局部信息的融合结果,对训练文本中的多音字执行读音预测,从而获取训练文本的多音字预测读音。
关于本步骤的具体预测方案,可参考上述图2所示实施例的相关描述,再此不予赘述。
步骤S406,比对训练文本的多音字标签读音和多音字预测读音,获取多音字预测模型的损失函数。
可选地,多音字预测模型的损失函数可包括但不限于:平均绝对误差(MeanAbsolute Error,MAE)、均方误差(Mean Square error,MSE)等。
步骤S408,根据损失函数更新多音字预测模型。
具体地,可根据当前的损失函数,对多音字预测模型的模型参数(例如权重参数)执行迭代更新。
步骤S410,判断多音字预测模型的当前训练结果是否满足给定的训练结束条件,若是,执行步骤S412,若否,执行步骤S402。
可选地,若判断损失函数满足给定的收敛值时,获取多音字预测模型的当前训练结果满足训练结束条件的判断结果。
具体地,若判断所获取的损失函数的函数值满足给定的收敛值,代表损失函数的函数值趋于稳定(即损失函数的变化非常小),在此情况下,可获取多音字预测模型的当前训练结果满足训练结束条件的判断结果。
可选地,若判断多音字预测模型的迭代次数满足给定的最大迭代次数,获取多音字预测模型的当前训练结果满足训练结束条件的判断结果。
于本实施例中,若多音字预测模型的当前训练结果不满足给定的训练结束条件,则返回步骤S402,以继续执行多音字预测模型的训练任务。
步骤S412,获得训练好的多音字预测模型。
具体地,若多音字预测模型的当前训练结果满足训练结束条件,可停止多音字预测模型的优化更新,并基于多音字预测模型当前的模型参数,获取训练好的多音字预测模型。
综上所述,本实施例利用训练好的语言预测模型,协同进行多音字预测模型的训练任务,不仅可达到较佳的模型训练效果,亦可有效降低模型的训练成本。
图5示出了本公开示例性实施例的多音字读音预测装置的结构框图。如图所示,本实施例的多音字读音预测装置主要包括:获取模块502和多音字预测模型504。
获取模块502,用于获取目标文本中各字符对应的各字符特征。
多音字预测模型504,用于根据各字符对应的各字符特征,预测所述目标文本的全局信息和局部信息,并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果。
可选地,获取模块502还用于:利用语言预测模型,对所述目标文本中的每一个字符执行特征提取,获取每一个字符的字符编码和位置编码。
可选地,多音字预测模型504还用于:对各字符对应的各字符特征执行第一前馈处理,获取各字符对应的各第一前馈特征;根据各字符对应的各第一前馈特征,预测所述目标文本的全局信息和局部信息,并融合所述全局信息和局部信息,获取各字符对应的各融合特征;对各字符对应的各融合特征执行第二前馈处理,获取各字符对应的各第二前馈特征;对各字符对应的各第二前馈特征执行归一化处理,获取各字符对应的各目标特征。
可选地,多音字预测模型504包括第一前馈单元和第二前馈单元。
可选地,多音字预测模型504还用于:利用所述第一前馈单元,对各字符对应的各字符特征执行第一维度转换处理,获得各字符对应的各第一转换特征,并融合同一字符的字符特征和第一转换特征,获取各字符对应的各第一前馈特征;利用所述第二前馈单元,对各字符对应的各融合特征执行第二维度转换处理,获得各字符对应的各第二转换特征,并融合同一字符的融合特征和第二转换特征,获取各字符对应的各第二前馈特征。
可选地,所述第一前馈单元与所述第二前馈单元分别包括激活函数层和随机失活层。
可选地,所述多音字预测模型504包括多头自注意力单元、卷积单元。
可选地,多音字预测模型504还用于:利用所述多头自注意力单元,根据各字符对应的各第一前馈特征执行预测,获取各字符对应的各全局特征,并融合同一字符的第一前馈特征和全局特征,获取各字符对应的各中间特征;并利用所述卷积单元,根据各字符对应的各中间特征执行预测,获取各字符对应的各局部特征,并融合同一字符的中间特征与局部特征,获取各字符对应的各融合特征。
可选地,所述多音字预测模型504包括条件随机场单元。
可选地,多音字预测模型504还用于:利用所述条件随机场单元,根据各字符对应的各目标特征,识别各字符中的多音字,并根据所述多音字的多个候选读音、所述多音字的目标特征,预测所述多音字对应于各候选读音的各读音概率值,且根据各候选读音对应的各读音概率值,将读音概率值最大的候选读音确定为所述多音字的预测读音。
可选地,多音字读音预测装置500还包括训练模块(未示出):其用于利用训练好的语言预测模型,对训练文本中的各字符执行特征提取,获取所述训练文本中各字符对应的各字符特征;利用所述多音字预测模型504,根据各字符对应的各字符特征,对所述训练文本中的多音字执行读音预测,获取所述训练文本的多音字预测读音;比对所述训练文本的多音字标签读音和多音字预测读音,获取所述多音字预测模型504的损失函数;并根据所述损失函数更新所述多音字预测模型504,直至所述多音字预测模型504的当前训练结果满足给定的训练结束条件,以获得训练好的多音字预测模型504。
本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开示例性实施例所述的多音字读音预测方法。
本公开示例性实施例提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开示例性实施例的多音字读音预测方法。
请参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如,在一些实施例中,如上述的多音字读音预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述的多音字读音预测方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要指出,根据实施的需要,可将本公开实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本公开实施例的目的。
以上实施方式仅用于说明本公开实施例,而并非对本公开实施例的限制,有关技术领域的普通技术人员,在不脱离本公开实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本公开实施例的范畴,本公开实施例的专利保护范围应由权利要求限定。
Claims (11)
1.一种多音字读音预测方法,其特征在于,包括:
获取目标文本中各字符对应的各字符特征;
利用多音字预测模型,根据各字符对应的各字符特征,预测并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果。
2.根据权利要求1所述的多音字读音预测方法,其特征在于,可通过以下方式获取所述目标文本中各字符对应的各字符特征:
利用语言预测模型,对所述目标文本中的每一个字符执行特征提取,获取每一个字符的字符编码和位置编码。
3.根据权利要求1所述的方法,其特征在于,所述根据各字符对应的各字符特征,预测并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,包括:
对各字符对应的各字符特征执行第一前馈处理,获取各字符对应的各第一前馈特征;
根据各字符对应的各第一前馈特征,预测所述目标文本的全局信息和局部信息,并融合所述全局信息和局部信息,获取各字符对应的各融合特征;
对各字符对应的各融合特征执行第二前馈处理,获取各字符对应的各第二前馈特征;
对各字符对应的各第二前馈特征执行归一化处理,获取各字符对应的各目标特征。
4.根据权利要求3所述的方法,其特征在于,所述多音字预测模型包括第一前馈单元和第二前馈单元;且其中,
所述对各字符对应的各字符特征执行第一前馈处理,获取各字符对应的各第一前馈特征,包括:
利用所述第一前馈单元,对各字符对应的各字符特征执行第一维度转换处理,获得各字符对应的各第一转换特征,并融合同一字符的字符特征和第一转换特征,获取各字符对应的各第一前馈特征;
所述对各字符对应的各融合特征执行第二前馈处理,获取各字符对应的各第二前馈特征,包括:
利用所述第二前馈单元,对各字符对应的各融合特征执行第二维度转换处理,获得各字符对应的各第二转换特征,并融合同一字符的融合特征和第二转换特征,获取各字符对应的各第二前馈特征。
5.根据权利要求4所述的方法,其特征在于,所述第一前馈单元与所述第二前馈单元分别包括激活函数层和随机失活层。
6.根据权利要求3所述的方法,其特征在于,所述多音字预测模型包括多头自注意力单元、卷积单元;且其中,
所述根据各字符对应的各第一前馈特征,预测所述目标文本的全局信息和局部信息,并融合所述全局信息和局部信息,获取各字符对应的各融合特征,包括:
利用所述多头自注意力单元,根据各字符对应的各第一前馈特征执行全局预测,获取各字符对应的各全局特征,并融合同一字符的第一前馈特征和全局特征,获取各字符对应的各中间特征;
利用所述卷积单元,根据各字符对应的各中间特征执行局部预测,获取各字符对应的各局部特征,并融合同一字符的中间特征与局部特征,获取各字符对应的各融合特征。
7.根据权利要求1或3所述的方法,其特征在于,所述多音字预测模型包括条件随机场单元;且其中,
所述根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果,包括:
利用所述条件随机场单元,根据各字符对应的各目标特征,识别各字符中的多音字,并根据所述多音字的多个候选读音、所述多音字的目标特征,预测所述多音字对应于各候选读音的各读音概率值,且根据各候选读音对应的各读音概率值,将读音概率值最大的候选读音确定为所述多音字的预测读音。
8.根据权利要求1所述的方法,其特征在于,所述多音字预测模型可通过以下方式训练获得:
利用训练好的语言预测模型,对训练文本中的各字符执行特征提取,获取所述训练文本中各字符对应的各字符特征;
利用所述多音字预测模型,根据各字符对应的各字符特征,对所述训练文本中的多音字执行读音预测,获取所述训练文本的多音字预测读音;
比对所述训练文本的多音字标签读音和多音字预测读音,获取所述多音字预测模型的损失函数;
根据所述损失函数更新所述多音字预测模型,直至所述多音字预测模型的当前训练结果满足给定的训练结束条件,以获得训练好的多音字预测模型。
9.一种多音字读音预测装置,其特征在于,包括:
获取模块,用于获取目标文本中各字符对应的各字符特征;
多音字预测模型,用于根据各字符对应的各字符特征,预测所述目标文本的全局信息和局部信息,并融合所述目标文本的全局信息和局部信息,获取各字符对应的各目标特征,并根据各字符对应的各目标特征,对所述目标文本中的多音字执行读音预测,获取所述目标文本的多音字读音预测结果。
10.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至8中任一项所述的多音字读音预测方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211138255.5A CN115512682A (zh) | 2022-09-19 | 2022-09-19 | 多音字读音预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211138255.5A CN115512682A (zh) | 2022-09-19 | 2022-09-19 | 多音字读音预测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115512682A true CN115512682A (zh) | 2022-12-23 |
Family
ID=84504755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211138255.5A Pending CN115512682A (zh) | 2022-09-19 | 2022-09-19 | 多音字读音预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115512682A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341561A (zh) * | 2023-03-27 | 2023-06-27 | 京东科技信息技术有限公司 | 一种语音样本数据生成方法、装置、设备和存储介质 |
-
2022
- 2022-09-19 CN CN202211138255.5A patent/CN115512682A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341561A (zh) * | 2023-03-27 | 2023-06-27 | 京东科技信息技术有限公司 | 一种语音样本数据生成方法、装置、设备和存储介质 |
CN116341561B (zh) * | 2023-03-27 | 2024-02-02 | 京东科技信息技术有限公司 | 一种语音样本数据生成方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI610295B (zh) | 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112466288A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
CN113792855A (zh) | 一种模型训练及字库建立方法、装置、设备和存储介质 | |
US12094469B2 (en) | Voice recognition method and device | |
CN112861548A (zh) | 自然语言生成及模型的训练方法、装置、设备和存储介质 | |
KR20230162022A (ko) | 유연한 스트리밍 및 비-스트리밍 자동 음성 인식을 위한 혼합 모델 어텐션 | |
KR20240070689A (ko) | 콘포머에 대한 추론 성능의 최적화 | |
CN113689868B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN115512682A (zh) | 多音字读音预测方法、装置、电子设备及存储介质 | |
CN113160820B (zh) | 语音识别的方法、语音识别模型的训练方法、装置及设备 | |
CN114495977A (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
CN113468857A (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
US20230410794A1 (en) | Audio recognition method, method of training audio recognition model, and electronic device | |
KR20210058765A (ko) | 음성 인식 방법, 장치, 전자기기 및 저장 매체 | |
CN117153142A (zh) | 一种语音信号合成方法、装置、电子设备及存储介质 | |
KR102663654B1 (ko) | 적응형 시각적 스피치 인식 | |
CN113689866A (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN114023310A (zh) | 应用于语音数据处理的方法、装置及计算机程序产品 | |
CN110728137B (zh) | 用于分词的方法和装置 | |
CN113689867B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
CN114373445B (zh) | 语音生成方法、装置、电子设备及存储介质 | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |