CN114492418A - 文本转换方法及相关装置 - Google Patents
文本转换方法及相关装置 Download PDFInfo
- Publication number
- CN114492418A CN114492418A CN202210122711.0A CN202210122711A CN114492418A CN 114492418 A CN114492418 A CN 114492418A CN 202210122711 A CN202210122711 A CN 202210122711A CN 114492418 A CN114492418 A CN 114492418A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- dictionary
- obtaining
- polyphonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims description 65
- 230000004044 response Effects 0.000 claims description 26
- 150000001875 compounds Chemical class 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本转换方法及相关装置,文本转换方法包括:获得待转换文本中的词,并设置非标点符号的词的标签;其中,标签包括词典中的多音词、词典中的非多音词或非词典中词;针对非标点符号的词,响应于词为词典中的非多音词,从词典中匹配获得词的音素序列和重音信息;响应于词为词典中的多音词和非词典中词,基于词构建对应的组合词,基于组合词和预测模型获得词的音素序列和重音信息;其中,当词为词典中的多音词时,组合词与词的上下文信息相关;当词为非词典中词时,组合词与词的上下文信息无关。通过上述方式,本申请能够利用统一的方式一并解决OOV词和多音词的问题。
Description
技术领域
本申请属于文本语音转换技术领域,具体涉及一种文本转换方法及相关装置。
背景技术
目前一般会参照预先构建的词典将文本自动转换成语音。随着词汇和语种的不断发展,在实际应用过程中发现存在许多词典中未包含的词,即OOV(Out of Vocabulary)词、或超出词表外的词。且在很多语种中存在同形异音的现象,即Polyphone、或多音字现象;然而,词典中通常情况下收录的是较为常用的发音。虽然OOV词和多音词数量较少,但是它们的发音对于整句话含义的表达产生十分重要的影响。如果合成的音频中的多音词或者OOV词发音错误,会给用户造成不知所云的感觉,导致合成的音频效果大打折扣。
发明内容
本申请提供一种文本转换方法及相关装置,以利用统一的方式一并解决OOV词和多音词的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本转换方法,包括:获得待转换文本中的词,并设置非标点符号的所述词的标签;其中,所述标签包括词典中的多音词、词典中的非多音词或非词典中词;针对非标点符号的所述词,响应于所述词为词典中的非多音词,从所述词典中匹配获得所述词的音素序列和重音信息;响应于所述词为词典中的多音词和非词典中词,基于所述词构建对应的组合词,基于所述组合词和预测模型获得所述词的音素序列和重音信息;其中,当所述词为词典中的多音词时,所述组合词与所述词的上下文信息相关;当所述词为非词典中词时,所述组合词与所述词的上下文信息无关。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种文本转换装置,包括:获得模块,用于获得待转换文本中的词,并设置非标点符号的所述词的标签;其中,所述标签包括词典中的多音词、词典中的非多音词或非词典中词;第一处理模块,与所述获得模块连接,用于响应于所述词为词典中的非多音词,从所述词典中匹配获得所述词的音素序列和重音信息;第二处理模块,与所述获得块连接,用于响应于所述词为词典中的多音词和非词典中词,基于所述词构建对应的组合词,基于所述组合词和预测模型获得所述词的音素序列和重音信息;其中,当所述词为词典中的多音词时,所述组合词与所述词的上下文信息相关;当所述词为非词典中词时,所述组合词与所述词的上下文信息无关。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现上述任一实施例中所述的文本转换方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种存储装置,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述任一实施例中所述的文本转换方法。
区别于现有技术情况,本申请的有益效果是:本申请所提供的文本转换方法中会先对待转换文本中的非标点符号的词设置相应的标签,标签包括词典中的多音词、词典中的非多音词或非词典中词;然后针对词典中的非多音词可以直接通过词典匹配获得相应的音素序列和重音信息;针对词典中的多音词和非词典中词,均会利用预测模型获得对应的音素序列和重音信息,差别在于当其为多音词时会考虑多音词的上下文信息,当其为非词典中词时并不考虑非词典中词的上下文信息。本申请通过一个预测模型和一系列的转换方式,将文本转换为语音过程中主要存在的OOV词(即非词典中词)的问题和多音词的消歧问题进行统一化的方式解决,以提高文本转换成语音的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本申请文本转换方法一实施方式的流程示意图;
图2为图1对应的一实施方式的框架示意图;
图3为图1中基于组合词和预测模型获得词的音素序列和重音信息的一实施方式的流程示意图;
图4为图1中预测模型一实施方式的结构示意图;
图5为本申请文本转换装置一实施方式的框架示意图;
图6为本申请电子设备一实施方式的结构示意图;
图7为本申请存储装置一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
请参阅图1和图2,图1为本申请文本转换方法一实施方式的流程示意图,图2为图1对应的一实施方式的框架示意图。该文本转换方法具体包括:
S101:获得待转换文本中的词,并设置非标点符号的词的标签;其中,标签包括词典中的多音词、词典中的非多音词或非词典中词。
具体地,在本实施例中,在上述步骤S101之前包括获得待转换文本所属语种的词典和构建待转换文本所属语种的多音词表的过程。其中,词典包括多个词、和与每个词对应的音素序列和重音信息,音素序列和重音信息可以以音节的形式组合在一起,多个音节共同组成该词的发音序列。多音词表的构建过程可以为:先收集获得大量所属语种的文本数据;然后从收集到的文本数据中获得多音词以构建多音词表。且一般而言,词典中可以包含该多音词。
上述步骤S101的实现过程可以为:将待转换文本进行分词处理以获得待转换文本中的所有词,此时获得的所有词可以包含标点符号(例如,逗号、句号等)和非标点符号的词。进一步,针对每个非标点符号的词,可以将该词先与多音词表进行匹配,若多音词表内包含该词,则将该词的标签设置为词典中的多音词;若多音词表内不包含该词,则将该词与词典进行匹配;若词典内包含该词,则将该词的标签设置为词典中的非多音词;若词典中不包含该词,则将该词的标签设置为非词典中词。当然,在其他实施例中,也可将待转换文本进行分词处理以获得待转换文本中的部分词,该部分词可以为非停用词;其中,非停用词为停用词以外的一些词,停用词一般指无意义的一些词,例如“the”、“的”、以及一些标点符号等;然后对每个词设置相应的标签。或者,也可将待转换文本进行分词处理以获得所有词,然后针对所有词中非标点符号且非停用词进行标签设置。
S102:针对非标点符号的词,响应于词为词典中的非多音词,从词典中匹配获得词的音素序列和重音信息;响应于词为词典中的多音词和非词典中词,基于词构建对应的组合词,基于组合词和预测模型获得词的音素序列和重音信息;其中,当词为词典中的多音词时,组合词与词的上下文信息相关;当词为非词典中词时,组合词与词的上下文信息无关。
具体地,可以按照各个词在待转换文本中的正向顺序(即正常阅读拼写的顺序)获得每个非标点符号的词,进一步根据该非标点符号的词的标签选择相应的处理以获得对应的音素序列和重音信息。
例如,当该词为词典中的非多音词时,可以直接从词典中查找获得该词的音素序列和重音信息。
又例如,当该词为词典中的多音词时,由于单独分析多音词并不能确定其应该属于哪种发音,只有在句子中结合语境,才能知道其对应的发音,因此我们结合该多音词的上下文信息作为辅助信息,预测多音词的音素序列和重音信息。
其构建组合词的过程可以为:响应于当前词为词典中的多音词,将当前词和与当前词紧邻的其他词进行组合以获得对应的组合词。具体而言,可以获得与当前词紧邻的前词和后词;响应于前词或后词为标点符号(例如,逗号、句号等),将为标点符号的前词或后词视为空词;从前词和后词中获得与当前词紧邻的部分字符,并将部分字符和当前词按照在待转换文本中的正向顺序排列以获得组合词,此时该组合词的形式可以为A_Word_B,其中A表示前词字符,Word表示当前词,B表示后词字符,“_”可以认为是将前词信息、当前词信息和后词信息进行区分的标记。当前词或后词为标点符号被视为空词时,对应的A或B可以理解为空。此外,由于每个词长短不同,我们将前后词的词尾字符个数分别设置为1、3、5个字符进行实验,经过在俄语、德语和意大利语上的实验,本案结合前词中的后三位字符信息,以及后词中的前三位字符信息效果较好。当然,在其他应用场景中,也可根据实际需求设置所选择的前词和后词中字符的个数。另外,在某些情况下,假设设置的从前词和后词中所要选择的部分字符的个数为P个,但与当前词紧邻的前词(或后词)中所有字符的个数小于P,则直接将前词(或后词)中的所有字符加入组合词中,而并不会将前词之前的词(或后词之后的词)中的字符加入至组合词中。
在一个应用场景中,以语句“чтогде-товгазетенапечатанхорошийрецепттворожника”为例,可以形成如下多个组合词:“_что_где”、“что_где-то_в”、“-то_в_газ”、“в_газете_нап”、“ете_напечатан_хор”、“ший_рецепт_тво”和“епт_творожника_”。
进一步,在获得组合词之后,请参阅图3,图3为图1中基于组合词和预测模型获得词的音素序列和重音信息的一实施方式的流程示意图,其包括:
S201:获得组合词的第一矩阵表示;其中,组合词中的每个字符映射为第一矩阵表示中的一行元素。
具体地,该步骤S201对应图2中预处理的过程。第一矩阵表示包含M行N列元素;其中,M为预设组合词的最大字符长度,M可以人为预先设置。N为待转换文本所属语种的全部字符的个数;例如,当待转换文本为英语时,英语共有28个字符,此时N为28;又例如,当待转换文本为俄语时,俄语共有33个字符,此时N为33。
上述步骤S201的具体实现过程包括:A、按照逆向顺序获得组合词中一个字符;其中,逆向顺序与上述提及的正向顺序相反;例如,正常顺序为从左往右时,逆向顺序为从右往左。B、获得当前字符在所属语种的字符序列中的排序位置,将第一矩阵表示中与当前字符对应的行元素中对应排序位置的元素设置为1,其余排序位置的元素设置为0;例如,以英语中的字符“B”为例,其在英语中的字符序列的排序位置为第二位,则第一矩阵表示中与该字符对应的行元素中从左至右第二个位置的元素设置为1,当前行元素中其余位置的元素设置为0。C、响应于组合词中的所有字符对应的行元素设置完毕,且组合词的长度小于M,则将第一矩阵表示中剩余行元素设置为0。
在一个应用场景中,以俄语“в_газете_нап”为例,以逆向顺序获得组合词的最后一个字符为“п”,它映射为第一矩阵表示中的第一行元素,第一行元素可以理解为1*N的矩阵,该字符“п”所对应的俄语中的字符序列的位置为13,则在1*N的矩阵中从左往右第13个元素位置表示为True(或者表示为1),其他的位置表示为False(或者为0)。同理,依次对剩余的L-1位字符进行映射得到L*N的二维矩阵信息。其中,L代表当前组合词的长度(即所包含的字符个数);当L小于M时,剩余的(M-L)*N的内容属于空白区域,全部用False(或者0)进行填充,进而得到M*N的第一矩阵表示。
S202:将第一矩阵表示输入至预测模型中,获得组合词的第二矩阵表示;其中,第二矩阵表示中的一行元素表示第一矩阵表示中对应行元素的字符为元音还是辅音,且当字符为元音时是否带重音。
具体地,经预测模型输出的第二矩阵表示是将音素序列和重音信息进行组合合并得到的新的表示形式。一般而言,一个单词对应的音素发音情况只有三种可能,分别是字母和音素一一对应、一个字母对应两个音素、两个字母对应一个音素。由于存在一个字母对应两个音素、两个字母对应一个音素的情况,因此,每个字母的音素用两位的二进制01串表示。以俄语为例,对于元音字母“а”,该字母的可能音素有aa和ax两种形式,如果是aa表示该字母是重音位置,ax则表示是非重音。因此,我们将重音信息转换为二进制的01串表示,用“10”表示音素aa,用“01”表示音素ax。对于辅音字母“в”,只有一个音素vv,则用二进制串“00”表示。最后将每个字母对应的目标音素的01串表示形式,也是通过逆向顺序的形式组合成M*2的第二矩阵表示。其中,M为预设组合词的最大字符长度,即输入数据(即第一矩阵表示)和输出数据(即第二矩阵表示)的行数相同,第一矩阵表示和第二矩阵表示中的同一行对应词中的同一字符。第二矩阵表示中行元素[0 0]表示当前行元素对应的字符为辅音,第二矩阵表示中行元素[1 0]表示当前所述行元素对应的字符为元音且带重音,所述第二矩阵表示中的行元素[0 1]表示当前所述行元素对应的字符为元音且不带重音。当然,在其他实施例中,也可采用其他01串的形式来区分辅音、元音带重音、元音不带重音,本申请对此不作限定。
请参阅图4,图4为图1中预测模型一实施方式的结构示意图。预测模型包括依次连接的卷积层10、双向长短期记忆网络12、软注意力层14和共享编码层16。即本案所使用的预测模型融合多个深度学习模型,提出基于卷积神经网络(Convolutional NeuralNetworks,CNN)+双向长短期记忆网络(Long Short-Term Memory,LSTM)+软注意力机制(Soft Attention)的多任务学习(Multi-task Learning)网络结构。可以将本案所提出的模型称为CBLAM预测模型,该CBLAM预测模型的输入为上述数据形式的第一矩阵表示,该CBLAM预测模型的输出为将音素序列和重音信息进行组合合并的第二矩阵表示。此时,相当于每个字符的音素信息是一个二分类的任务,每个词的目标值共同组合成多个分类任务。第一矩阵表示经过CNN提取信息之后,再结合带有软-注意力机制的Bi-LSTM的特性能够比较好的学习到上下文信息,之后经过共享编码层,各个任务之间有相关性共享网络的隐藏层,通过全连接层(位于共享编码层内)进行隐层参数的硬共享输出预测结果。上述CBLAM预测模型可在俄语、德语和意大利语上进行实验验证,样本量在20万行数据,基于Pytorch框架训练,并且得到相对稳定的模型参数。
S203:将第二矩阵表示通过字典映射的形式还原以获得词的音素序列和重音信息。
具体地,第二矩阵表示相当于是二进制的01串,此时可以通过字典映射的形式进行还原。此外,由于第二矩阵表示中也包含非当前词之外的前词和后词中字符对应的信息,故可以根据当前词在组合词中的位置信息仅从第二矩阵表示中获得对应的行元素,然后将对应的行元素进行字典映射还原以获得当前词的音素序列和重音信息。或者,也可以先将第二矩阵表示通过字典映射的形式还原获得组合词的音素信息和重音信息;然后根据当前词在组合词中的位置信息获得当前词的音素信息和重音信息。
在一个应用场景中,假设第二矩阵表示为待获得音素信息和重音信息的词为газа;由于第二矩阵表示是逆序排列的,故可以认为第二矩阵表示中第一行元素[1 0]代表词中从左至右第四个字符а,且该字符带有重音,第二行元素[0 1]代表词中从左至右第三个字符з,且该字符不带有重音,第三行元素[0 1]代表词中从左至右第二个字符а,且该字符不带有重音,第四行元素[0 0]代表词中从左至右第一个字符г,且该字符为辅音。通过字典映射的方式获得当前词的音素序列为[gg ax zzaa],最终可以将音素序列和重音信息以音节的形式组合,例如组合为((gg ax)0)((zzaa)1),其中1表示该音节是为重音音节,0表示该音节不是重音音节。由于每个音节中有且只有一个元音字符,因此,该音节上的重音本质上只作用于元音字符。
又例如,当该词为非词典中词时,可以采用与词典中多音词类似的方式获得音素序列和重音信息,其差别在于非词典中词无需考虑上下文信息。其构建组合词的过程可以为:响应于当前词为非词典中词,将与当前词紧邻的其他词视为空词,将当前词和紧邻的空词进行组合以获得对应的组合词,此时该组合词的形式可以为_Word_。后续其根据组合词和预测模型获得当前词的音素序列和重音信息的过程可参见图3和图4相关描述,在此不再赘述。
此外,在其他实施方式中,响应于词为词典中的多音词或非词典中词,获得词的音素序列和重音信息的步骤之后,还包括利用后处理微调过程,以降低预测模型预测的错误率。
具体而言,对于每个词使用CBLAM模型预测得到的分类结果,有可能存在一种情况,每个字符的预测结果组合形式所得到的音素序列都是非重音的形式,因此需要添加后处理的形式解决这种情况。由语言学知识,重音都是出现在元音字母上。
情况一、响应于当前词的所有字符均不带重音,且当词仅包含一个元音时,将元音作为带重音的字符,并更新当前词的音素序列和重音信息。
情况二、响应于当前词的所有字符均不是重音字符,且当词包含多个元音时,针对每个元音,获得元音经过预测模型所获得的每个音素形式的分类概率之和的平均值,且获得元音对应的为重音的音素形式的分类概率与平均值之间的差值的绝对值;将绝对值最小的元音作为词中带重音的字符,并更新当前词的音素序列和重音信息。
例如,假设当前词中包含两个元音,且两个元音都是a;其中,每个元音a可能的音素有aa和ax两种音素形式,且aa为带重音的音素形式,ax为不带重音的音素形式。针对每个元音a,获得其经过预测模型所获得aa和ax两种音素形式的分类概率分别为P1和P2;获得P1-(P1+P2)/2的绝对值;将绝对值最小的元音作为当前词中带重音的字符。
总而言之,本申请将每个词的处理划分为三类,词典中的非多音词可以直接通过词典进行映射,针对非词典中词(即OOV词)和词典中的多音词,结合前后词信息和当前词组合成新的词表示(区别在于非词典中词的前后词信息视为为空),然后将输入信息转换为二维矩阵的表示形式,输出数据转换为多任务分类的问题。此外,本申请还使用相似度的方式解决预测结果中缺少重音的问题。本申请通过一个模型和一系列的转换方式,将文本转化成语音中主要存在的OOV词的问题和多音词的消歧问题进行统一化的方式解决,这个是目前研究中未进行的实验和探索,更方便语音合成的前端处理,以及语音合成的实际应用。
请参阅图5,图5为本申请文本转换装置一实施方式的框架示意图,该文本转换装置包括获得模块20、第一处理模块22和第二处理模块24。
其中,获得模块20用于获得待转换文本中的词,并设置非标点符号的词的标签;其中,标签包括词典中的多音词、词典中的非多音词或非词典中词。第一处理模块22与获得模块20连接,用于响应于词为词典中的非多音词,从词典中匹配获得词的音素序列和重音信息。第二处理模块24与获得模块20连接,用于响应于词为词典中的多音词和非词典中词,基于词构建对应的组合词,基于组合词和预测模型获得词的音素序列和重音信息;其中,当词为词典中的多音词时,组合词与词的上下文信息相关;当词为非词典中词时,组合词与词的上下文信息无关。
在一个实施方式中,第二处理模块24中响应于词为词典中的多音词和非词典中词,基于词构建对应的组合词的步骤,包括:响应于词为词典中的多音词,将词和与词紧邻的其他词进行组合以获得对应的组合词;响应于词为非词典中词,将与词紧邻的其他词视为空词,将词和紧邻的空词进行组合以获得对应的组合词。
其中,响应于词为词典中的多音词,将词和与词紧邻的其他词进行组合以获得对应的组合词的步骤,包括:获得与词紧邻的前词和后词;响应于前词或后词为标点符号,将为标点符号的前词或后词视为空词;从前词和后词中获得与词紧邻的部分字符,并将部分字符和词按照在待转换文本中的正向顺序排列以获得组合词。
在另一个实施方式中,第二处理模块24中基于组合词和预测模型获得词的音素序列和重音信息的步骤,包括:获得组合词的第一矩阵表示;其中,组合词中的每个字符映射为第一矩阵表示中的一行元素;将第一矩阵表示输入至预测模型中,获得组合词的第二矩阵表示;其中,第二矩阵表示中的一行元素表示第一矩阵表示中对应行元素的字符为元音还是辅音,且当字符为元音时是否带重音;将第二矩阵表示通过字典映射的形式还原以获得词的音素序列和重音信息。
其中,第一矩阵表示包含M行N列元素;其中,M为预设组合词的最大字符长度,N为待转换文本所属语种的全部字符的个数;获得组合词的第一矩阵表示的步骤,包括:按照逆向顺序获得组合词中一个字符;获得当前字符在所属语种的字符序列中的排序位置,将第一矩阵表示中与当前字符对应的行元素中对应排序位置的元素设置为1,其余排序位置的元素设置为0;响应于组合词中的所有字符对应的行元素设置完毕,且组合词的长度小于M,则将第一矩阵表示中剩余行元素设置为0。
其中,第二矩阵表示包含M行2列元素;其中,M为预设组合词的最大字符长度;第二矩阵表示中行元素[0 0]表示当前行元素对应的字符为辅音,第二矩阵表示中行元素[1 0]表示当前行元素对应的字符为元音且带重音,第二矩阵表示中的行元素[0 1]表示当前行元素对应的字符为元音且不带重音。
其中,预测模型包括依次连接的卷积层、双向长短期记忆网络、软注意力层和共享编码层。
请参阅图5,本申请所提供的文本转换装置还包括调整模块26,与第二获得模块24连接,用于在响应于词为词典中的多音词或非词典中词,获得词的音素序列和重音信息的步骤之后,响应于词的所有字符均不带重音,且当词仅包含一个元音时,将元音作为带重音的字符,并更新当前词的音素序列和重音信息;响应于词的所有字符均不带重音,且当词包含多个元音时,针对每个元音,获得每个元音经过预测模型所获得的每个音素形式的分类概率之和的平均值,且获得元音对应的为重音的音素形式的分类概率与平均值之间的差值的绝对值;将绝对值最小的元音作为词中带重音的字符,并更新当前词的音素序列和重音信息。
请参阅图6,图6为本申请电子设备一实施方式的结构示意图,该电子设备包括:相互耦接的存储器32和处理器30,存储器32中存储有程序指令,处理器30用于执行程序指令以实现上述任一文本转换方法。具体地,电子设备包括但不限于:台式计算机、笔记本电脑、平板电脑、服务器等,在此不做限定。此外,处理器30还可以称为CPU(Center ProcessingUnit,中央处理单元)。处理器30可能是一种集成电路芯片,具有信号处理能力。处理器30还可以是、通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器30可以由集成电路芯片共同实现。
请参阅图7,图7为本申请存储装置一实施方式的结构示意图,该存储装置40存储有能够被处理器运行的程序指令400,程序指令400用于实现上述任一文本转换方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种文本转换方法,其特征在于,包括:
获得待转换文本中的词,并设置非标点符号的所述词的标签;其中,所述标签包括词典中的多音词、词典中的非多音词或非词典中词;
针对非标点符号的所述词,响应于所述词为词典中的非多音词,从所述词典中匹配获得所述词的音素序列和重音信息;响应于所述词为词典中的多音词和非词典中词,基于所述词构建对应的组合词,基于所述组合词和预测模型获得所述词的音素序列和重音信息;其中,当所述词为词典中的多音词时,所述组合词与所述词的上下文信息相关;当所述词为非词典中词时,所述组合词与所述词的上下文信息无关。
2.根据权利要求1所述的文本转换方法,其特征在于,所述响应于所述词为词典中的多音词和非词典中词,基于所述词构建对应的组合词的步骤,包括:
响应于所述词为词典中的多音词,将所述词和与所述词紧邻的其他词进行组合以获得对应的组合词;
响应于所述词为非词典中词,将与所述词紧邻的其他词视为空词,将所述词和紧邻的空词进行组合以获得对应的组合词。
3.根据权利要求2所述的文本转换方法,其特征在于,所述响应于所述词为词典中的多音词,将所述词和与所述词紧邻的其他词进行组合以获得对应的组合词的步骤,包括:
获得与所述词紧邻的前词和后词;
响应于所述前词或后词为标点符号,将为标点符号的所述前词或后词视为空词;
从所述前词和后词中获得与所述词紧邻的部分字符,并将所述部分字符和所述词按照在所述待转换文本中的正向顺序排列以获得组合词。
4.根据权利要求1所述的文本转换方法,其特征在于,所述基于所述组合词和预测模型获得所述词的音素序列和重音信息的步骤,包括:
获得所述组合词的第一矩阵表示;其中,所述组合词中的每个字符映射为所述第一矩阵表示中的一行元素;
将所述第一矩阵表示输入至所述预测模型中,获得所述组合词的第二矩阵表示;其中,所述第二矩阵表示中的一行元素表示所述第一矩阵表示中对应行元素的字符为元音还是辅音,且当所述字符为元音时是否带重音;
将所述第二矩阵表示通过字典映射的形式还原以获得所述词的音素序列和重音信息。
5.根据权利要求4所述的文本转换方法,其特征在于,
所述第一矩阵表示包含M行N列元素;其中,M为预设所述组合词的最大字符长度,N为所述待转换文本所属语种的全部字符的个数;所述获得所述组合词的第一矩阵表示的步骤,包括:
按照逆向顺序获得所述组合词中一个字符;
获得当前所述字符在所属语种的字符序列中的排序位置,将所述第一矩阵表示中与当前所述字符对应的行元素中对应所述排序位置的元素设置为1,其余排序位置的元素设置为0;
响应于所述组合词中的所有字符对应的行元素设置完毕,且所述组合词的长度小于M,则将所述第一矩阵表示中剩余行元素设置为0。
6.根据权利要求4所述的文本转换方法,其特征在于,
所述第二矩阵表示包含M行2列元素;其中,M为预设所述组合词的最大字符长度;所述第二矩阵表示中行元素[0 0]表示当前所述行元素对应的字符为辅音,所述第二矩阵表示中行元素[1 0]表示当前所述行元素对应的字符为元音且带重音,所述第二矩阵表示中的行元素[0 1]表示当前所述行元素对应的字符为元音且不带重音。
7.根据权利要求1所述的文本转换方法,其特征在于,响应于所述词为词典中的多音词或非词典中词,获得所述词的音素序列和重音信息的步骤之后,还包括:
响应于所述词的所有字符均不带重音,且当所述词仅包含一个元音时,将所述元音作为带重音的字符,并更新当前所述词的所述音素序列和所述重音信息;
响应于所述词的所有字符均不带重音,且当所述词包含多个元音时,针对每个所述元音,获得所述元音经过所述预测模型所获得的每个音素形式的分类概率之和的平均值,且获得所述元音对应的为重音的音素形式的分类概率与所述平均值之间的差值的绝对值;将所述绝对值最小的所述元音作为所述词中带重音的字符,并更新当前所述词的所述音素序列和所述重音信息。
8.根据权利要求1所述的文本转换方法,其特征在于,
所述预测模型包括依次连接的卷积层、双向长短期记忆网络、软注意力层和共享编码层。
9.一种文本转换装置,其特征在于,包括:
获得模块,用于获得待转换文本中的词,并设置非标点符号的所述词的标签;其中,所述标签包括词典中的多音词、词典中的非多音词或非词典中词;
第一处理模块,与所述获得模块连接,用于响应于所述词为词典中的非多音词,从所述词典中匹配获得所述词的音素序列和重音信息;
第二处理模块,与所述获得模块连接,用于响应于所述词为词典中的多音词和非词典中词,基于所述词构建对应的组合词,基于所述组合词和预测模型获得所述词的音素序列和重音信息;其中,当所述词为词典中的多音词时,所述组合词与所述词的上下文信息相关;当所述词为非词典中词时,所述组合词与所述词的上下文信息无关。
10.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至8中任一项所述的文本转换方法。
11.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至8中任一项所述的文本转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210122711.0A CN114492418B (zh) | 2022-02-09 | 2022-02-09 | 文本转换方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210122711.0A CN114492418B (zh) | 2022-02-09 | 2022-02-09 | 文本转换方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492418A true CN114492418A (zh) | 2022-05-13 |
CN114492418B CN114492418B (zh) | 2024-10-18 |
Family
ID=81479048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210122711.0A Active CN114492418B (zh) | 2022-02-09 | 2022-02-09 | 文本转换方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492418B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422071A (zh) * | 2023-12-19 | 2024-01-19 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583961A (zh) * | 2020-05-07 | 2020-08-25 | 北京一起教育信息咨询有限责任公司 | 一种重音评价方法、装置及电子设备 |
CN112528648A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 多音字发音的预测方法、装置、设备及存储介质 |
CN113936642A (zh) * | 2021-10-20 | 2022-01-14 | 科大讯飞股份有限公司 | 发音词典构建方法、语音识别方法及相关装置 |
-
2022
- 2022-02-09 CN CN202210122711.0A patent/CN114492418B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583961A (zh) * | 2020-05-07 | 2020-08-25 | 北京一起教育信息咨询有限责任公司 | 一种重音评价方法、装置及电子设备 |
CN112528648A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 多音字发音的预测方法、装置、设备及存储介质 |
CN113936642A (zh) * | 2021-10-20 | 2022-01-14 | 科大讯飞股份有限公司 | 发音词典构建方法、语音识别方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
臧珍华: "基于深度学习的离线语音识别系统的开发", 《信息科技》, 15 February 2021 (2021-02-15), pages 136 - 276 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422071A (zh) * | 2023-12-19 | 2024-01-19 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
CN117422071B (zh) * | 2023-12-19 | 2024-03-15 | 中南大学 | 一种文本词项多重分割标注转换方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114492418B (zh) | 2024-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
EP3879525B1 (en) | Training model for speech synthesis | |
Abandah et al. | Automatic diacritization of Arabic text using recurrent neural networks | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
Faruqui et al. | Morphological inflection generation using character sequence to sequence learning | |
Zitouni et al. | Arabic diacritic restoration approach based on maximum entropy models | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
US20230104228A1 (en) | Joint Unsupervised and Supervised Training for Multilingual ASR | |
WO2022256144A1 (en) | Application-specific optical character recognition customization | |
Hadj Ali et al. | DNN-based grapheme-to-phoneme conversion for Arabic text-to-speech synthesis | |
CN113571037B (zh) | 一种汉语盲文语音合成方法及系统 | |
CN114492418B (zh) | 文本转换方法及相关装置 | |
Krantz et al. | Language-agnostic syllabification with neural sequence labeling | |
Kłosowski | Statistical analysis of orthographic and phonemic language corpus for word-based and phoneme-based Polish language modelling | |
CN101667099A (zh) | 一种连笔键盘文字输入的方法和设备 | |
CN111428509A (zh) | 一种基于拉丁字母的维吾尔语处理方法和系统 | |
CN114444492B (zh) | 一种非标准词类判别方法及计算机可读存储介质 | |
Cherifi et al. | Arabic grapheme-to-phoneme conversion based on joint multi-gram model | |
KR20180118906A (ko) | 형태소 분석 장치 및 방법 | |
JP2019159743A (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
JP6763527B2 (ja) | 認識結果補正装置、認識結果補正方法、およびプログラム | |
CN113160793A (zh) | 基于低资源语言的语音合成方法、装置、设备及存储介质 | |
Zhang | Pronunciation ambiguities in Japanese kanji | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
Rajendran et al. | Text processing for developing unrestricted Tamil text to speech synthesis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |