CN111144110A - 拼音标注方法、装置、服务器及存储介质 - Google Patents
拼音标注方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111144110A CN111144110A CN201911380064.8A CN201911380064A CN111144110A CN 111144110 A CN111144110 A CN 111144110A CN 201911380064 A CN201911380064 A CN 201911380064A CN 111144110 A CN111144110 A CN 111144110A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- text
- polyphone
- network
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 156
- 238000002372 labelling Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 101
- 230000006870 function Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004148 unit process Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 101100033674 Mus musculus Ren2 gene Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种拼音标注方法、装置、服务器及存储介质,该方法包括:获取待标注文本,待标注文本包含至少一个多音字;将待标注文本输入训练好的拼音标注模型,对待标注文本进行处理,得到待标注文本的拼音标注;拼音标注模型包括文本编码网络和拼音预测网络;对待标注文本进行处理,得到待标注文本的拼音标注,包括:利用文本编码网络对待标注文本进行编码处理,得到待标注文本中每个字的输出向量;利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;目标多音字为至少一个多音字中的任一个。本申请实施例可以提高拼音标注的效率。
Description
技术领域
本申请涉及机器学习技术领域,具体涉及一种拼音标注方法、装置、服务器及存储介质。
背景技术
多音字的不同拼音现象在汉语中非常常见,中文汉字中约908个多音字,其中常见的有100多个,如:“行”、“为”、“地”、“得”、“的”、“还”、“当”、“长”、“调”、“弹”、“差”、“查”、“背”、“发”、“干”、“倒”、“空”等。在语音合成领域,需要明确每个汉字的拼音。虽然对于非多音字采用字典匹配的方式即可获取准确拼音,但是对于多音字,需要明确多音字的具体拼音,才能正常合成语音。在其它需要多音字拼音标注的领域如教育、输入法、语音识别等,也需要一个非常准确的多音字识别模型。
目前,一般采用字典匹配的方法或采用多音字模型来预测多音字的拼音。字典匹配的方法针对多音字只能根据前后向搜索等方法分词、再用词典的结果去匹配拼音,准确率较低。多音字模型基本都是单个多音字模型,需要对每个多音字单独建立一个多音字模型,由于多音字的数量较多,每次预测时需要判断每个字是哪个多音字,才能确定采用哪个多音字模型,逻辑判断过多,效率低下。
发明内容
本申请实施例提供一种拼音标注方法、装置、服务器及存储介质,可以提高拼音标注的效率。
本申请实施例的第一方面提供了一种拼音标注方法,包括:
获取待标注文本,所述待标注文本包含至少一个多音字;
将所述待标注文本输入训练好的拼音标注模型,对所述待标注文本进行处理,得到所述待标注文本的拼音标注;所述拼音标注模型包括文本编码网络和拼音预测网络;
所述对所述待标注文本进行处理,得到所述待标注文本的拼音标注,包括:
利用所述文本编码网络对所述待标注文本进行编码处理,得到所述待标注文本中每个字的输出向量;利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;所述目标多音字为所述至少一个多音字中的任一个。本申请实施例的第二方面提供了一种拼音标注装置,包括:
获取单元,用于获取待标注文本,所述待标注文本包含至少一个多音字;
拼音标注单元,将所述待标注文本输入训练好的拼音标注模型,对所述待标注文本进行处理,得到所述待标注文本的拼音标注;所述拼音标注模型包括文本编码网络和拼音预测网络;
其中,所述拼音标注单元对所述待标注文本进行处理,得到所述待标注文本的拼音标注,具体为:利用所述文本编码网络对所述待标注文本进行编码处理,得到所述待标注文本中每个字的输出向量;利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;所述目标多音字为所述至少一个多音字中的任一个。
本申请实施例的第三方面提供了一种服务器,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。
本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请实施例中,在进行拼音标注时,获取待标注文本,待标注文本包含至少一个多音字;将待标注文本输入训练好的拼音标注模型,对待标注文本进行处理,得到待标注文本的拼音标注;拼音标注模型包括文本编码网络和拼音预测网络;对待标注文本进行处理,得到待标注文本的拼音标注,包括:利用文本编码网络对待标注文本进行编码处理,得到待标注文本中每个字的输出向量;利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;目标多音字为至少一个多音字中的任一个。本申请实施例的拼音标注模型包括文本编码网络和拼音预测网络,可以对所有的多音字进行拼音预测,文本编码网络可以获得待标注文本中每个字的输出向量,拼音预测网络可以将文本编码网络输出的待标注文本中每个字的输出向量映射到多音字空间,并预测多音字的拼音,所有的文本采用一个拼音标注模型,无需选择不同的多音字模型,可以提高拼音预测的效率,进而提高拼音标注的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构的结构示意图;
图2是本申请实施例提供的一种拼音标注方法的流程示意图;
图3a是本申请实施例提供的一种编码模块的编码过程示意图;
图3b是本申请实施例提供的一种文本编码网络的结构示意图;
图3c是本申请实施例提供的一种依赖关系学习模块计算每个字的依赖关系向量的示意图;
图4是本申请实施例提供的一种拼音预测网络的结构示意图;
图5是本申请实施例提供的另一种拼音标注方法的流程示意图;
图6是本申请实施例提供的一种拼音标注模型的训练方法的流程示意图;
图7是本申请实施例提供的一种监督数据的示意图;
图8是本申请实施例提供的一种微调网络的结构示意图;
图9是本申请实施例提供的一种自注意力机制的说明示意图;
图10是本申请实施例提供的一种拼音标注装置的结构示意图;
图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
下面对本申请实施例进行详细介绍。
请参阅图1,图1是本申请实施例提供的一种系统架构的结构示意图,如图1所示,系统架构包括服务器100和与服务器100通信连接的至少一个电子设备101。用户持有电子设备101;电子设备101上可以安装有客户端,服务器100上可以安装有服务端。客户端是指与服务器相对应,为客户提供本地服务的程序。服务端也是在服务器上安装的一段程序,服务端是为客户端服务的,服务的内容诸如向客户端提供计算或者应用服务,向客户端提供资源,保存客户端数据等。服务器100可以直接与电子设备101通过互联网建立通信连接,服务端100也可以通过其他服务器与电子设备101通过互联网建立通信连接。
本申请实施例所涉及到的服务器可以包括云服务器或云虚拟机。本申请实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(userequipment,UE),移动台(mobile station,MS),终端设备(terminal device)等等。
本申请实施例中的客户端可以向用户提供拼音标注服务、拼音预测服务、内容显示服务等。比如,拼音标注客户端可以向用户提供拼音标注服务。举例来说,用户可以向拼音标注客户端发送待标注的文本,拼音标注客户端向服务端发送拼音标注请求,该拼音标注请求携带待标注文本,服务端可以将该待标注文本输入训练好的拼音标注模型,通过该训练好的拼音标注模型预测得到该待标注文本的拼音标注,服务端将该待标注文本的拼音标注发送给拼音标注客户端,拼音标注客户端可以在该待标注文本上标注该待标注文本的拼音。
本申请实施例可以采用训练好的拼音标注模型预测该待标注文本的拼音标注,所有的文本采用一个拼音标注模型,无需选择不同的多音字模型,可以提高拼音预测的效率,进而提高拼音标注的效率。
请参阅图2,图2是本申请实施例提供的一种拼音标注方法的流程示意图。如图2所示。该拼音标注方法可以包括如下步骤:
201,服务端获取待标注文本,待标注文本包含至少一个多音字。
本申请实施例中,拼音,是辅助汉字读音的音节,就是按照普通话音节的构成规律,把声母、介母、韵母急速连续拼合并加上声调而成为一个音节。
服务端可以从客户端获取待标注文本,也可以从其他设备获取待标注文本。待标注文本可以是一串汉字,每个汉字都会对应一个拼音。比如,“我是中国人”对应的拼音分别为“wo3”、“shi4”、“zhong1”、“guo2”、“ren2”。拼音后面的数字表示拼音的声调,1表示第一声,2表示第二声,3表示第三声,4表示第四声。
对于机器而言,如果待标注文本全都是非多音字,则可以通过字典来确定待标注文本的读音,如果待标注文本中有多音字,则容易误判该多音字的拼音。比如,“我是中国人”的“中”就是多音字,其包括“zhong1”和“zhong4”两种不同的拼音。对于多音字的拼音标注,目前一般是通过词典去匹配字的拼音,针对多音字只能根据前后向搜索等方法分词、再用词典的结果去匹配拼音,准确率较低。
202,服务端将待标注文本输入训练好的拼音标注模型,对待标注文本进行处理,得到待标注文本的拼音标注。
其中,拼音标注模型包括文本编码网络和拼音预测网络。
其中,步骤202可以包括如下步骤:
(11)服务端利用文本编码网络对待标注文本进行编码处理,得到待标注文本中每个字的输出向量;
(12)服务端利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;目标多音字为至少一个多音字中的任一个。
本申请实施例中,训练好的拼音标注模型可以包括文本编码网络和拼音预测网络,文本编码网络可以对待标注文本进行编码处理,得到待标注文本中每个字的输出向量,拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音。
文本编码网络可以对待标注文本进行编码处理,得到拼音预测网络可以识别的向量。
举例来说,文本编码网络可以还包括双向编码文本表示变换器(BidirectionalEncoder Representation form Transformer,BERT)网络。BERT模型以变换器(Transformer)的编码器(Encoder)网络结构为基础,能够实现捕获字词的高层语义信息,包括在不同语境下的语义变化信息等。通过BERT网络能够最大限度提取字的语义信息。
多音字空间包括中文的所有多音字的拼音。其中,中文的所有多音字总共包括792个不同的拼音。对于任意一个多音字,都可以预测其分别为792个不同的拼音的概率,进而预测该多音字的拼音。
可选的,步骤(11)具体可以包括如下步骤:
(111)服务端利用文本编码网络对待标注文本进行随机编码和位置编码,得到待标注文本中每个字的输入向量;
(112)服务端根据每个字的输入向量计算待标注文本中任意两个字之间的依赖关系向量,根据待标注文本中任意两个字之间的依赖关系向量得到待标注文本中每个字的输出向量。
本申请实施例中,文本编码网络可以对待标注文本进行随机编码和位置编码,每个字的输入向量中包含了待标注文本中每个字的位置信息,文本编码网络还可以根据每个字的输入向量学习到待标注文本中任意两个字之间的依赖关系,待标注文本中每个字的输出向量中包含了待标注文本中任意两个字之间的依赖关系。可以根据待标注文本中任意两个字的依赖关系捕捉待标注文本中每个字的语义表达,不会弱化距离较远的两个字之间的依赖关系,从而提高后续拼音预测网络的拼音预测的准确率。
可选的,文本编码网络包括编码模块;步骤(111)具体可以包括如下步骤:
(1111)服务端利用编码模块对待标注文本中的目标字进行随机编码,得到目标字的随机编码向量;目标字为待标注文本中的任意一个字;
(1112)服务端利用编码模块对目标字进行位置编码,得到目标字的位置编码向量,将目标字的随机编码向量与目标字的位置编码向量进行叠加,得到目标字的输入向量。
本申请实施例中,举例来说,请参阅图3a,图3a是本申请实施例提供的一种编码模块的编码过程示意图。如图3a所述,将待标注文本“我是中国人”输入编码模块后,编码模块对待标注文本中的每个字通过随机初始化的512维编码(E1,E2…En),再加上表征该字在这待标注文本中绝对位置的正弦编码(P1,P2…P3),得到待标注文本中每个字的输入向量(I1,I2,..In)。其中,绝对位置编码由如下的公式1和公式2得到:
其中pos代表了位置的编号,i表示编码向量为第i维,dmodel为模型维度。在句首和句尾分别插入了表示句子边界的向量EBegin和EEnd。
可选的,文本编码网络还可以包括依赖关系学习模块。依赖关系学习模块可以包括变换网络和依赖关系计算网络,变换网络包括键向量变换网络、查询向量变换网络和值向量变换网络;步骤(112)中,服务端根据每个字的输入向量计算待标注文本中任意两个字之间的依赖关系向量,具体可以包括如下步骤:
(1121)服务端通过键向量变换网络和待标注文本中每个字的输入向量计算每个字的键向量,通过查询向量变换网络和目标字的输入向量计算目标字的查询向量,通过值向量变换网络和待标注文本中每个字的输入向量计算每个字的值向量;
(1122)服务端通过依赖关系计算网络将目标字的查询向量与每个字的键向量进行计算,得到目标字对待标注文本中每个字的依赖关系分数,将目标字对待标注文本中每个字的依赖关系分数与每个字的值向量进行计算,得到目标字与待标注文本中每个字的依赖关系向量。
本申请实施例中,文本编码网络还可以包括依赖关系学习模块,依赖关系学习模块可以是BERT网络中的多头自注意力模块。请参阅图3b,图3b是本申请实施例提供的一种文本编码网络的结构示意图。如图3b所示,文本编码网络可以包括1个编码模块和N个编码器,每个编码器都可以包括一个依赖关系学习模块、一个前馈网络、两个归一化网络和两个残差连接网络。前馈网络可以加深网络,残差连接网络可以解决深层网络的退化问题,归一化网络可以避免对各层之间梯度下降的影响。
具体的,依赖关系学习模块可以包括变换网络和依赖关系计算网络,变换网络包括键向量变换网络、查询向量变换网络和值向量变换网络。以依赖关系学习模块为BERT网络中的多头自注意力模块为例进行说明。待标注文本中每个字的输入向量(I1,I2,..In)输入变换网络,经过变换网络的矩阵变换和后依赖关系计算网络后,可以得到待标注文本中任意连个字之间的依赖关系向量。
请参阅图3c,图3c是本申请实施例提供的一种依赖关系学习模块计算每个字的依赖关系向量的示意图。如图3c所示,待标注文本包括n个字,待标注文本中n个字的输入向量为(I1,I2,..In),图3c以目标字的输入向量I2为例来计算目标字与待标注文本中每个字的依赖关系向量。
服务端通过键(Key)向量变换网络和待标注文本中每个字的输入向量计算每个字的键向量,通过查询(Query)向量变换网络和目标字的输入向量计算目标字的查询向量,通过值(Value)向量变换网络和待标注文本中每个字的输入向量计算每个字的值向量。
键向量变换网络为图3c中的Key模块,查询向量变换网络为图3c中的Query模块,值向量变换网络为图3c中的Value模块。待标注文本中每个字的输入向量都可以通过Key模块计算每个字的键向量,通过Query模块计算每个字的查询向量,通过Value模块计算每个字的值向量。
举例来说,以图3c中目标字的输入向量I2为例,I2输入Key模块后,通过键向量变换网络中的键向量变换矩阵WK计算目标字的键向量K2,通过查询向量变换网络的查询向量变换矩阵WQ计算目标字的查询向量Q2,通过值向量变换网络的值向量变换矩阵WV计算目标字的值向量V2。其中,K2=WK×I2,Q2=WQ×I2,V2=WV×I2。将K2、Q2、V2、输入依赖关系计算网络,通过依赖关系计算网络将目标字的查询向量Q2与每个字的键向量(K1、K2、...Kn)分别进行向量点乘计算,得到目标字对待标注文本中每个字的依赖关系分数Score1、Score2、...Scoren。其中,Score1=Q2×k1,Score2=Q2×k2,...Scoren=Q2×kn。Score1、Score2、...Scoren经过softmax得到归一化后的分数S1、S2、...Sn。在将S1、S2、...Sn分别与对应的值向量进行点乘后输出,即可得到目标字与待标注文本中每个字的依赖关系向量(S1×V1+S2×V2+...+Sn×Vn)。
可选的,文本编码网络还包括前馈网络和残差连接网络;步骤(112)中,服务端根据待标注文本中任意两个字之间的依赖关系向量得到待标注文本中每个字的输出向量,具体可以包括如下步骤:
(1123)服务端将所述目标字的输入向量输入所述残差连接网络,得到所述目标字的残差计算向量;
(1124)服务端将所述目标字与所述待标注文本中每个字的依赖关系向量和所述目标字的残差计算向量进行叠加后输入所述前馈网络,得到所述目标字的输出向量。
其中,前馈网络可以加深网络,残差连接网络可以解决深层网络的退化问题。
可选的,步骤(12)中,服务端利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音,具体可以包括如下步骤:
(121)服务端利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,得到目标多音字在多音字空间上每个拼音的概率;
(122)服务端根据目标多音字在多音字空间上每个拼音的概率预测目标多音字的拼音。
本申请实施例中,拼音预测网络可以待标注文本中每个字的输出向量映射到多音字空间,得到待标注文本中的目标多音字在多音字空间上每个拼音的概率。服务端获得目标多音字在多音字空间上每个拼音的概率后,可以选取概率最高的拼音作为该目标多音字的拼音,也可以进一步确定概率最高的拼音的概率是否大于门限值,在大于门限值的情况下确定概率最高的拼音为该目标多音字的拼音。
可选的,所述拼音预测网络包括多音字概率预测层和归一化层;步骤(121)具体可以包括如下步骤:
(1211)服务端将目标多音字的输出向量输入多音字概率预测层,得到目标多音字在多音字空间上每个拼音的概率分布;
(1212)服务端利用归一化层对目标多音字在多音字空间上每个拼音的概率分布进行归一化,得到目标多音字在多音字空间上每个拼音的概率。
本申请实施例中,多音字概率预测层可以计算目标多音字在多音字空间上每个拼音的概率分布,经过归一化层后,可以得到目标多音字在多音字空间上每个拼音的概率。经过归一化后,目标多音字在多音字空间上的所有拼音的概率之和等于1。
其中,多音字概率预测层可以包括至少一层神经网络层,比如深度神经网络(DeepNeural Networks,DNN)层、卷积神经网络(Convolutional Neural Networks,CNN)层、循环神经网络(Recurrent Neural Network,RNN)层等。举例来说,多音字概率预测层可以包括至少2层DNN。
请参阅图4,图4是本申请实施例提供的一种拼音预测网络的结构示意图。如图4所示,拼音预测网络可以包括多音字概率预测层和归一化层。可以通过多音字概率预测层预测待标注的多音字在多音字空间上每个拼音的概率分布;通过归一化层对待标注的多音字在多音字空间上每个拼音的概率分布进行归一化,得到待标注的多音字在多音字空间上每个拼音的概率。
可选的,步骤(122)具体可以包括如下步骤:
(1221)服务端确定目标多音字在多音字空间上概率最大的目标拼音;
(1222)若目标多音字在多音字空间上目标拼音的概率大于或等于门限值,服务端确定目标多音字的拼音标注为目标拼音。
本申请实施例中,可以通过设定门限值,可以调整对拼音预测网络的置信度。比如,门限值可以设定为70%。
本申请实施例的拼音标注模型包括文本编码网络和拼音预测网络,可以对所有的多音字进行拼音预测,文本编码网络可以获得待标注文本中每个字的输出向量,拼音预测网络可以将文本编码网络输出的待标注文本中每个字的输出向量映射到多音字空间,并预测多音字的拼音,所有的文本采用一个拼音标注模型,无需选择不同的多音字模型,可以提高拼音预测的效率,进而提高拼音标注的效率。
请参阅图5,图5是本申请实施例提供的另一种拼音标注方法的流程示意图。如图5所示。该拼音标注方法可以包括如下步骤:
501,服务端获取待标注文本,待标注文本包含至少一个多音字。
502,服务端将待标注文本输入词典标注模型,得到待标注文本的预标注结果。
本申请实施例中,词典标注模型可以利用词典的前后向搜索算法对待标注文本的拼音进行标注,得到待标注文本的预标注结果。
词典由单字和词组成,利用前后向搜索进行分词后,即根据词典的结果对字词的拼音进行标注。比如,对“南京市长江大桥”这个待标注文本进行分词。采用最大匹配的方法会循环这个句子,匹配到一个字段,则会去掉这个字段,接着匹配剩下的字段。前向匹配会从左到右匹配词典,则会出现“南京/市长/江/大桥”这个词。后向匹配会从右到左匹配词典,则会出现“南京市/长江/大桥”。根据大颗粒词越多越好,非词典词和单字词越少越好的原则,选取其中一种分词结果。如上面前向匹配的四个词“南京”,“市长”,“江”和“大桥”四个词,存在单字“江”。而后向匹配的三个词“南京市”,“长江”和“大桥”,没有单字,“南京市”这个词颗粒度为3,较大。因此,确定最后采用后向匹配的结果,即“南京市/长江/大桥”。根据词典的标注拼音为“南[nan2]京[jing1]市[shi4]长[chang2]江[jiang1]大[da4]桥[qiao2]”,而根据实际理解,后向匹配的“南京市/长江/大桥”更符合实际情况。而如果采用前向匹配的结果的话,会出现“南京市长[zhang3]江大桥”这样的错误。因此,采用双向搜索的方法,能够更好地分词,从而根据分词结果填充字词的拼音。
词典标注模型可以对待标注文本中的非多音字的拼音进行准确标注,对于待标注文本中的多音字可以进行预标注,得到预标注结果。
对于语义较为复杂的文本中的多音字,词典标注模型的准确率不如拼音标注模型。
其中,步骤502可以在步骤505之前执行。
503,服务端利用文本编码网络对待标注文本进行编码处理,得到待标注文本中每个字的输出向量。
504,服务端利用拼音预测网络将待标注文本中每个字的输出向量映射到多音字空间,得到目标多音字在多音字空间上每个拼音的概率;目标多音字为至少一个多音字中的任一个。
505,服务端确定目标多音字在多音字空间上概率最大的目标拼音。
506,若目标多音字在多音字空间上目标拼音的概率大于或等于门限值,服务端确定目标多音字的拼音标注为目标拼音。
其中,步骤501、503~506可以参见图2中的步骤201和步骤202的具体描述,此处不再赘述。
507,若目标多音字在多音字空间上目标拼音的概率小于门限值,服务端根据待标注文本的预标注结果确定目标多音字的拼音。
本申请实施例中,如果目标多音字在多音字空间上目标拼音的概率小于门限值,则认为拼音标注模型的可信度较低,不采用拼音标注模型的预测结果,直接将词典标注模型得到的待标注文本中目标多音字的预标注结果作为目标多音字的拼音。如果目标多音字在多音字空间上目标拼音的概率大于或等于门限值,则认为拼音标注模型的可信度较高,直接采用拼音标注模型的预测结果。
本申请实施例中,可以将词典标注模型和拼音标注模型混合使用,防止拼音标注模型出现预测拼音错误的问题,给拼音标注模型的结果进行兜底。
请参阅图6,图6是本申请实施例提供的一种拼音标注模型的训练方法的流程示意图,如图6所示,该拼音标注模型的训练方法可以包括如下步骤:
601,服务端采用无监督语料对文本编码网络进行预训练,得到预训练结果,根据预训练结果对文本编码网络的网络参数进行优化。
602,服务端采用监督语料对拼音预测网络进行微调训练,得到第一微调训练结果,根据微调训练结果对拼音预测网络的网络参数进行优化;或者,采用监督语料对文本编码网络和拼音预测网络进行微调训练,得到第二微调训练结果,根据第二微调训练结果对文本编码网络和拼音预测网络的网络参数进行优化。
本申请实施例中,拼音标注模型包括文本编码网络和拼音预测网络。拼音标注模型的训练可以分为两个阶段,在第一训练阶段,采用无监督语料对文本编码网络进行预训练。在第二训练阶段,采用监督语料对拼音预测网络进行微调训练,或者采用监督语料对文本编码网络和拼音预测网络进行微调训练。
在第二训练阶段,可以只更新拼音预测网络的网络参数,也可以同时更新文本编码网络和拼音预测网络的网络参数。
可选的,步骤601具体可以包括如下步骤:
(21)服务端采用无监督语料对文本编码网络进行文字预测任务的预训练,得到文字预测任务的预训练结果,根据文字预测任务的预训练结果对文本编码网络的网络参数进行优化;
(22)服务端采用无监督语料对文本编码网络进行预测下一句任务的预训练,得到下一句训练任务的预训练结果,根据下一句训练任务的预训练结果对文本编码网络的网络参数进行优化。
本申请实施例中,文字预测任务可以包括完形填空任务。比如,可以将无监督语料中的部分字进行遮盖处理,比如,将部分字用[MASK]标记进行替代,或者随意用其他字替代。将遮盖处理后的无监督语料输入文本编码网络,预测被遮盖的字为各个字的概率。根据文字预测任务的预训练结果对文本编码网络的网络参数进行优化;
预测下一句任务时,可以从无监督语料中选取两段文本(比如,50%的概率选取的文本是上下句关系,50%的概率选取的文本不是上下句关系),预测后一个文本是否为前一个文本的下一句。根据下一句训练任务的预训练结果对文本编码网络的网络参数进行优化。
其中,步骤(21)具体可以包括如下步骤:
(211)服务端获取无监督语料,对所述无监督语料中的部分字进行遮盖处理,得到遮盖处理语料,对所述无监督语料中的部分字进行替代处理得到替代处理语料;
(212)服务端将所述无监督语料、所述遮盖处理语料和所述替代处理语料输入所述文本编码网络,得到所述遮盖处理语料中被遮盖字的预测结果;
(213)服务端根据所述遮盖处理语料中被遮盖字的预测结果对所述文本编码网络的网络参数进行优化。
举例来说,文字预测任务以无监督语料“我是中国人”为例,将“我是中国人”中的“中”进行遮盖处理,得到遮盖处理语料“我是[MASK]人”,将“我是中国人”中的“中”进行替代处理,得到替代处理语料“我是西国人”,将“我是中国人”、“我是[MASK]人”和“我是西国人”输入文本编码网络,得到[MASK]的预测结果。如果[MASK]的预测结果的准确率达到一定阈值时,则可认为该文本编码网络的文字预测任务训练完成。
其中,文字预测任务中,无监督语料中进行遮盖处理、替代处理、和不做处理的三种语料的比例可以预先进行设定。比如,遮盖处理语料的比例可以设置为80%,替代处理语料的比例可以设置为10%,不做处理语料的比例可以设置为10%。其中,遮盖字占整个无监督语料的比例也可以预先进行设定,比如,可以设置为15%,即无监督语料中15%的字会进行遮盖处理或替代处理。
其中,步骤(22)具体可以包括如下步骤:
(221)服务端获取第一无监督语料和第二无监督语料,所述第一无监督语料与所述第二无监督语料为上下句关系;
(222)服务端获取第三无监督语料,所述第三无监督语料与所述第一无监督语料不是上下句关系;
(223)服务端将所述第一无监督语料和所述第二无监督语料输入所述文本编码网络,得到所述第一无监督语料和所述第二无监督语料是否为上下文的预测结果;
(224)服务端将所述第一无监督语料和所述第三无监督语料输入所述文本编码网络,得到所述第一无监督语料和所述第三无监督语料是否为上下文的预测结果;
(225)服务端根据所述第一无监督语料和所述第二无监督语料是否为上下文的预测结果、所述第一无监督语料和所述第三无监督语料是否为上下文的预测结果对所述文本编码网络的网络参数进行优化。
举例来说,预测下一句任务时,第一无监督语料、第二无监督语料、第三无监督语料分别为“我是中国人”、“来自安徽省”、“今天天气不错”。其中,第一无监督语料与第二无监督语料为上下句关系;第一无监督语料与第三无监督语料不是上下句关系;
将第一无监督语料和第二无监督语料输入文本编码网络,得到第一无监督语料和第二无监督语料是否为上下文的预测结果;将第一无监督语料和第三无监督语料输入文本编码网络,得到第一无监督语料和第三无监督语料是否为上下文的预测结果;如果文本编码网络预测第一无监督语料和第二无监督语料是上下文,则预测结果正确,反之,则预测结果错误。如果文本编码网络预测第一无监督语料和第三无监督语料是上下文,则预测结果错误,反之,则预测结果正确。如果预测结果的准确率达到一定阈值时,则可认为该文本编码网络的预测下一句任务训练完成。
当该文本编码网络的文字预测任务训练完成,并且该文本编码网络的预测下一句任务训练完成时,则可认为该文本编码网络的预训练完成。
其中,文本编码网络的网络参数的优化可以包括文本编码网络中的权值矩阵的更新。比如:文本编码网络中的全连接层的权值矩阵的更新、归一化层的权值矩阵的更新、键向量变换矩阵WK的更新、查询向量变换矩阵WQ的更新、值向量变换矩阵WV的更新等。
可选的,步骤602中,服务端采用监督语料对拼音预测网络进行微调训练,得到第一微调训练结果,根据第一微调训练结果对拼音预测网络的网络参数进行优化,具体可以包括如下步骤:
(31)服务端获取包含标注拼音、分词信息和词性信息的监督语料,将监督语料输入文本编码网络和拼音预测网络,预测得到监督语料中多音字的拼音;
(32)服务端计算监督语料中多音字的拼音与监督语料的标注拼音的误差损失函数;
(33)服务端根据监督语料中多音字的拼音与监督语料的标注拼音的误差损失函数对拼音预测网络的网络参数进行优化。
可选的,步骤602中,服务端采用监督语料对文本编码网络和拼音预测网络进行微调训练,得到第二微调训练结果,根据第二微调训练结果对文本编码网络和拼音预测网络的网络参数进行优化,具体可以包括如下步骤:
(41)服务端获取监督语料,将监督语料输入文本编码网络和拼音预测网络,预测得到监督语料中多音字的拼音;
(42)服务端计算监督语料中多音字的拼音与监督语料的标注拼音的误差损失函数;
(43)服务端根据监督语料中多音字的拼音与监督语料的标注拼音的误差损失函数对文本编码网络和拼音预测网络的网络参数进行优化。
本申请实施例中,监督语料可以包含标注拼音、分词信息和词性信息。监督语料标注了监督语料中多音字的拼音,同时,加入了表征分词和词性信息的独热(one-hot)向量,分词和词性信息的向量由语言技术平台(Language Technology Platform,LTP)后,经过独热编码得到。监督数据如图7所示,其中,前4维为分词向量,[1 0 0 0]表示分词中的第一个字,[0 1 0 0]表示分词中间的字,[0 0 1 0]表示分词中的最后一个字,[0 0 0 1]表示独立的字。后21维为词性向量,分别表示名词,动词,形容词等。
其中,文本编码网络和拼音预测网络可以组成微调网络。在微调训练时,采用有监督数据进行训练,可以仅对拼音预测网络中的网络参数进行更新,也可以同时对文本编码网络和拼音预测网络进行更新。一般来说,根据实验表明,文本编码网络和拼音预测网络二者一起更新的效果好于不更新文本编码网络时的结果。
请参阅图8,图8是本申请实施例提供的一种微调网络的结构示意图,微调网络如图8所示。微调网络可以包括文本编码网络、拼音预测网络以及映射层,其中,文本编码网络包括BERT网络,拼音预测网络可以包括两层DNN网络和Relu激活函数层。其中,映射层可以是DNN层。
微调网络的结构如图8所示,监督语料经过位置编码、随机编码后,加入标注拼音、分词信息和词性信息等先验知识,输入映射层,映射到文本编码网络的输入维度。文本编码网络输出每个字的512维向量,经过第一DNN(512×512)、Relu激活函数和第二DNN(7922×512)后,预测目标多音字的拼音。
文本编码网络可以包括多头自注意力模块,多头自注意力模块具有自注意力机制,如图9所示,多头自注意力模块可以使输入的每个字向量之间直接相互联系,相当于距离为“1”,不会由于距离远近而导致相互之间的联系降低。对于一段输入文本,该输入文本中的任意两个字的依赖关系不受距离的限制。如在预测“他把借我的钱还给了我”这句话中“还”的发音时,经过多头自注意力模块,输入的字之间依赖关系如图9所示。如果只考虑“还给”这个词,容易受到“还[hai2]给了”这种词的影响,从而导致预测错误。但是自注意力机制将“还”字与“借”字关联起来,就很容易预测出正确的发音“还[huan2]”。而传统的LSTM网络主要语义依赖于距离最近的字,由于“给”字和“还”字的距离非常近,而“借”这个字又离得较远,所以很容易出现“还[hai2]给”这种错误。本申请的自注意力机制可以考虑一段文本中的每个字之间的依赖关系,从而提高多音字预测的准确率。
相比于每个多音字单独训练的方式,本申请实施例采用的同一个多音字空间的方式避免了每个多音字训练和存储多个模型的问题,而且对一句话中出现多个多音字的情况也会有帮助。如在预测句子“银行得强监管”的发音时,连续的三个字“行”、“得”和“强”都是多音字,联合预测能够最大化捕捉三个字的语义。
在微调训练时,预测目标是多音字的发音,其它字的发音也会做预测,但是计算误差损失(Loss)时只考虑多音字的拼音是否正确。采用交叉熵(Cross Entropy Loss)的损失函数,用来估量拼音标注模型的预测值与真实标签的不一致程度。本申请实施例可以采用梯度下降的方式进行训练,比如,可以采用Adam优化器进行训练。
其中,拼音预测网络的网络参数的优化可以包括拼音预测网络中的权值矩阵的更新。比如:文本编码网络中的第一DNN和第二DNN的权值矩阵的更新、映射层的权值矩阵的更新等。
需要说明的是,图6的拼音标注模型的训练方法可以在图2和图5的方法之前执行。在拼音标注模型训练好之后,可以执行图2和图5的方法。
本申请实施例中,在第一训练阶段,可以通过海量的无监督数据训练较深的文本编码网络,能够获取精准捕获上下文语义的字向量。在第二训练阶段,通过少量有监督数据的微调,可以将获取的字向量映射到多音字空间,即可得到准确率很高的拼音标注模型。
请参阅图10,图10是本申请实施例提供的一种拼音标注装置的结构示意图,如图10所示,该拼音标注装置1000可以包括获取单元1001和拼音标注单元1002,其中:
获取单元1001,用于获取待标注文本,所述待标注文本包含至少一个多音字;
拼音标注单元1002,将所述待标注文本输入训练好的拼音标注模型,对所述待标注文本进行处理,得到所述待标注文本的拼音标注;所述拼音标注模型包括文本编码网络和拼音预测网络;
其中,所述拼音标注单元1002对所述待标注文本进行处理,得到所述待标注文本的拼音标注,具体为:利用所述文本编码网络对所述待标注文本进行编码处理,得到所述待标注文本中每个字的输出向量;利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;所述目标多音字为所述至少一个多音字中的任一个。
可选的,所述拼音标注单元1002利用所述文本编码网络对所述待标注文本进行编码处理,得到所述待标注文本中每个字的输出向量,具体为:利用所述文本编码网络对所述待标注文本进行随机编码和位置编码,得到所述待标注文本中每个字的输入向量;根据每个字的输入向量计算所述待标注文本中任意两个字之间的依赖关系向量,根据所述待标注文本中任意两个字之间的依赖关系向量得到所述待标注文本中每个字的输出向量。
可选的,所述文本编码网络包括编码模块;所述拼音标注单元1002利用所述文本编码网络对所述待标注文本进行随机编码和位置编码,得到所述待标注文本中每个字的输入向量,具体为:利用所述编码模块对所述待标注文本中的目标字进行随机编码,得到所述目标字的随机编码向量;所述目标字为所述待标注文本中的任意一个字;利用所述编码模块对所述目标字进行位置编码,得到所述目标字的位置编码向量,将所述目标字的随机编码向量与所述目标字的位置编码向量进行叠加,得到所述目标字的输入向量。
可选的,所述拼音标注单元1002利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音,具体为:
利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,得到目标多音字在所述多音字空间上每个拼音的概率,根据所述目标多音字在所述多音字空间上每个拼音的概率预测所述目标多音字的拼音。
可选的,所述拼音预测网络包括多音字概率预测层和归一化层;所述拼音标注单元1002利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,得到目标多音字在所述多音字空间上每个拼音的概率,具体为:将目标多音字的输出向量输入所述多音字概率预测层,得到所述目标多音字在所述多音字空间上每个拼音的概率分布;利用所述归一化层对所述目标多音字在所述多音字空间上每个拼音的概率分布进行归一化,得到所述目标多音字在所述多音字空间上每个拼音的概率。
可选的,所述拼音标注单元1002根据所述目标多音字在所述多音字空间上每个拼音的概率预测所述目标多音字的拼音,具体为:确定所述目标多音字在所述多音字空间上概率最大的目标拼音;若所述目标多音字在所述多音字空间上所述目标拼音的概率大于或等于门限值,则确定所述目标多音字的拼音标注为所述目标拼音。
可选的,该拼音标注装置1000还可以包括词典模型预测单元1003;
所述词典模型预测单元1003,用于将所述待标注文本输入词典标注模型,得到所述待标注文本的预标注结果。
可选的,该拼音标注装置1000还可以包括确定单元1004;
所述确定单元1004,用于在所述目标多音字在所述多音字空间上所述目标拼音的概率小于所述门限值的情况下,根据所述待标注文本的预标注结果确定所述目标多音字的拼音。
可选的,该拼音标注装置1000还可以包括训练单元1005;
所述训练单元1005,用于采用无监督语料对所述文本编码网络进行预训练,得到预训练结果,根据所述预训练结果对所述文本编码网络的网络参数进行优化;
所述训练单元1005,还用于采用监督语料对所述拼音预测网络进行微调训练,得到第一微调训练结果,根据所述微调训练结果对所述拼音预测网络的网络参数进行优化;或者,采用监督语料对所述文本编码网络和所述拼音预测网络进行微调训练,得到第二微调训练结果,根据所述第二微调训练结果对所述文本编码网络和所述拼音预测网络的网络参数进行优化。
可选的,所述训练单元1005采用无监督语料对所述文本编码网络进行预训练,得到预训练结果,根据所述预训练结果对所述文本编码网络的网络参数进行优化,具体为:采用无监督语料对所述文本编码网络进行文字预测任务的预训练,得到文字预测任务的预训练结果,根据所述文字预测任务的预训练结果对所述文本编码网络的网络参数进行优化;采用无监督语料对所述文本编码网络进行预测下一句任务的预训练,得到下一句训练任务的预训练结果,根据所述下一句训练任务的预训练结果对所述文本编码网络的网络参数进行优化。
可选的,所述训练单元1005采用监督语料对所述拼音预测网络进行微调训练,得到第一微调训练结果,根据所述第一微调训练结果对所述拼音预测网络的网络参数进行优化,具体为:获取包含标注拼音、分词信息和词性信息的监督语料,将所述监督语料输入所述文本编码网络和所述拼音预测网络,预测得到所述监督语料中多音字的拼音;计算所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数;根据所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数对所述拼音预测网络的网络参数进行优化。
可选的,所述训练单元1005采用监督语料对所述文本编码网络和所述拼音预测网络进行微调训练,得到第二微调训练结果,根据所述第二微调训练结果对所述文本编码网络和所述拼音预测网络的网络参数进行优化,具体为:获取监督语料,将所述监督语料输入所述文本编码网络和所述拼音预测网络,预测得到所述监督语料中多音字的拼音;计算所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数;根据所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数对所述文本编码网络和所述拼音预测网络的网络参数进行优化。
本申请实施例的拼音标注模型包括文本编码网络和拼音预测网络,可以对所有的多音字进行拼音预测,文本编码网络可以获得待标注文本中每个字的输出向量,拼音预测网络可以将文本编码网络输出的待标注文本中每个字的输出向量映射到多音字空间,并预测多音字的拼音,所有的文本采用一个拼音标注模型,无需选择不同的多音字模型,可以提高拼音预测的效率,进而提高拼音标注的效率。
图11是本申请实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1102(例如,一个或一个以上处理器)和存储器1108,一个或一个以上存储应用程序1106或数据1105的存储介质1107(例如一个或一个以上海量存储设备)。其中,存储器1108和存储介质1107可以是短暂存储或持久存储。存储在存储介质1107的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1102可以设置为与存储介质1107通信,在服务器1100上执行存储介质1107中的一系列指令操作。服务器1100可以为本申请提供的软件运行设备。
服务器1100还可以包括一个或一个以上电源1103,一个或一个以上有线或无线网络接口1109,一个或一个以上输入输出接口1110,和/或,一个或一个以上操作系统1104,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由软件运行设备所执行的步骤可以基于该图11所示的服务器结构。具体的,中央处理器1102可实现图10中各单元的功能。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种拼音标注方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种拼音标注方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (15)
1.一种拼音标注方法,其特征在于,包括:
获取待标注文本,所述待标注文本包含至少一个多音字;
将所述待标注文本输入训练好的拼音标注模型,对所述待标注文本进行处理,得到所述待标注文本的拼音标注;所述拼音标注模型包括文本编码网络和拼音预测网络;
所述对所述待标注文本进行处理,得到所述待标注文本的拼音标注,包括:
利用所述文本编码网络对所述待标注文本进行编码处理,得到所述待标注文本中每个字的输出向量;利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;所述目标多音字为所述至少一个多音字中的任一个。
2.根据权利要求1所述的方法,其特征在于,所述利用所述文本编码网络对所述待标注文本进行编码处理,得到所述待标注文本中每个字的输出向量,包括:
利用所述文本编码网络对所述待标注文本进行随机编码和位置编码,得到所述待标注文本中每个字的输入向量;根据每个字的输入向量计算所述待标注文本中任意两个字之间的依赖关系向量,根据所述待标注文本中任意两个字之间的依赖关系向量得到所述待标注文本中每个字的输出向量。
3.根据权利要求2所述的方法,其特征在于,所述文本编码网络包括编码模块;所述利用所述文本编码网络对所述待标注文本进行随机编码和位置编码,得到所述待标注文本中每个字的输入向量,包括:
利用所述编码模块对所述待标注文本中的目标字进行随机编码,得到所述目标字的随机编码向量;所述目标字为所述待标注文本中的任意一个字;
利用所述编码模块对所述目标字进行位置编码,得到所述目标字的位置编码向量,将所述目标字的随机编码向量与所述目标字的位置编码向量进行叠加,得到所述目标字的输入向量。
4.根据权利要求1所述的方法,其特征在于,所述利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音,包括:
利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,得到目标多音字在所述多音字空间上每个拼音的概率,根据所述目标多音字在所述多音字空间上每个拼音的概率预测所述目标多音字的拼音。
5.根据权利要求4所述的方法,其特征在于,所述拼音预测网络包括多音字概率预测层和归一化层;所述利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,得到目标多音字在所述多音字空间上每个拼音的概率,包括:
将目标多音字的输出向量输入所述多音字概率预测层,得到所述目标多音字在所述多音字空间上每个拼音的概率分布;
利用所述归一化层对所述目标多音字在所述多音字空间上每个拼音的概率分布进行归一化,得到所述目标多音字在所述多音字空间上每个拼音的概率。
6.根据权利要求4所述的方法,其特征在于,所述根据所述目标多音字在所述多音字空间上每个拼音的概率预测所述目标多音字的拼音,包括:
确定所述目标多音字在所述多音字空间上概率最大的目标拼音;
若所述目标多音字在所述多音字空间上所述目标拼音的概率大于或等于门限值,则确定所述目标多音字的拼音标注为所述目标拼音。
7.根据权利要求6所述的方法,其特征在于,所述将所述待标注文本输入训练好的拼音标注模型之前,所述方法还包括:
将所述待标注文本输入词典标注模型,得到所述待标注文本的预标注结果。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
若所述目标多音字在所述多音字空间上所述目标拼音的概率小于所述门限值,根据所述待标注文本的预标注结果确定所述目标多音字的拼音。
9.根据权利要求1~8任一项所述的方法,其特征在于,所述获取待标注文本之前,所述方法还包括:
采用无监督语料对所述文本编码网络进行预训练,得到预训练结果,根据所述预训练结果对所述文本编码网络的网络参数进行优化;
采用监督语料对所述拼音预测网络进行微调训练,得到第一微调训练结果,根据所述微调训练结果对所述拼音预测网络的网络参数进行优化;或者,采用监督语料对所述文本编码网络和所述拼音预测网络进行微调训练,得到第二微调训练结果,根据所述第二微调训练结果对所述文本编码网络和所述拼音预测网络的网络参数进行优化。
10.根据权利要求9所述的方法,其特征在于,所述采用无监督语料对所述文本编码网络进行预训练,得到预训练结果,根据所述预训练结果对所述文本编码网络的网络参数进行优化,包括:
采用无监督语料对所述文本编码网络进行文字预测任务的预训练,得到文字预测任务的预训练结果,根据所述文字预测任务的预训练结果对所述文本编码网络的网络参数进行优化;
采用无监督语料对所述文本编码网络进行预测下一句任务的预训练,得到下一句训练任务的预训练结果,根据所述下一句训练任务的预训练结果对所述文本编码网络的网络参数进行优化。
11.根据权利要求9所述的方法,其特征在于,所述采用监督语料对所述拼音预测网络进行微调训练,得到第一微调训练结果,根据所述第一微调训练结果对所述拼音预测网络的网络参数进行优化,包括:
获取包含标注拼音、分词信息和词性信息的监督语料,将所述监督语料输入所述文本编码网络和所述拼音预测网络,预测得到所述监督语料中多音字的拼音;
计算所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数;
根据所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数对所述拼音预测网络的网络参数进行优化。
12.根据权利要求9所述的方法,其特征在于,所述采用监督语料对所述文本编码网络和所述拼音预测网络进行微调训练,得到第二微调训练结果,根据所述第二微调训练结果对所述文本编码网络和所述拼音预测网络的网络参数进行优化,包括:
获取监督语料,将所述监督语料输入所述文本编码网络和所述拼音预测网络,预测得到所述监督语料中多音字的拼音;
计算所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数;
根据所述监督语料中多音字的拼音与所述监督语料的标注拼音的误差损失函数对所述文本编码网络和所述拼音预测网络的网络参数进行优化。
13.一种拼音标注装置,其特征在于,包括:
获取单元,用于获取待标注文本,所述待标注文本包含至少一个多音字;
拼音标注单元,将所述待标注文本输入训练好的拼音标注模型,对所述待标注文本进行处理,得到所述待标注文本的拼音标注;所述拼音标注模型包括文本编码网络和拼音预测网络;
其中,所述拼音标注单元对所述待标注文本进行处理,得到所述待标注文本的拼音标注,具体为:利用所述文本编码网络对所述待标注文本进行编码处理,得到所述待标注文本中每个字的输出向量;利用拼音预测网络将所述待标注文本中每个字的输出向量映射到多音字空间,预测目标多音字的拼音;所述目标多音字为所述至少一个多音字中的任一个。
14.一种服务器,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380064.8A CN111144110B (zh) | 2019-12-27 | 2019-12-27 | 拼音标注方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911380064.8A CN111144110B (zh) | 2019-12-27 | 2019-12-27 | 拼音标注方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144110A true CN111144110A (zh) | 2020-05-12 |
CN111144110B CN111144110B (zh) | 2024-06-04 |
Family
ID=70521177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911380064.8A Active CN111144110B (zh) | 2019-12-27 | 2019-12-27 | 拼音标注方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144110B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382567A (zh) * | 2020-05-29 | 2020-07-07 | 恒信东方文化股份有限公司 | 一种中文分词和汉字多音字识别的方法及装置 |
CN111667810A (zh) * | 2020-06-08 | 2020-09-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN112560477A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
CN112686041A (zh) * | 2021-01-06 | 2021-04-20 | 北京猿力未来科技有限公司 | 一种拼音标注方法及装置 |
CN112700763A (zh) * | 2020-12-26 | 2021-04-23 | 科大讯飞股份有限公司 | 语音标注质量评价方法、装置、设备及存储介质 |
CN112800748A (zh) * | 2021-03-30 | 2021-05-14 | 平安科技(深圳)有限公司 | 适用于多音字的音素预测方法、装置、设备及存储介质 |
CN112820269A (zh) * | 2020-12-31 | 2021-05-18 | 平安科技(深圳)有限公司 | 文本转语音方法、装置、电子设备及存储介质 |
CN112989821A (zh) * | 2021-04-13 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 多音字的注音方法及计算机存储介质 |
CN113268974A (zh) * | 2021-05-18 | 2021-08-17 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
US20210264112A1 (en) * | 2020-02-25 | 2021-08-26 | Prosper Funding LLC | Bot dialog manager |
CN114707467A (zh) * | 2022-03-18 | 2022-07-05 | 浙江大学 | 一种基于自注意力机制的自动化拼音转汉字方法 |
JP2023509257A (ja) * | 2020-12-10 | 2023-03-08 | 平安科技(深▲せん▼)有限公司 | 多音字の発音を予測する方法、装置、設備、および記憶媒体 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN107705787A (zh) * | 2017-09-25 | 2018-02-16 | 北京捷通华声科技股份有限公司 | 一种语音识别方法及装置 |
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
US20180300317A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
CN110277085A (zh) * | 2019-06-25 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 确定多音字发音的方法及装置 |
CN110310619A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 多音字预测方法、装置、设备及计算机可读存储介质 |
CN110543566A (zh) * | 2019-09-06 | 2019-12-06 | 上海海事大学 | 一种基于自注意力近邻关系编码的意图分类方法 |
-
2019
- 2019-12-27 CN CN201911380064.8A patent/CN111144110B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
US20180300317A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
CN107705787A (zh) * | 2017-09-25 | 2018-02-16 | 北京捷通华声科技股份有限公司 | 一种语音识别方法及装置 |
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN107680580A (zh) * | 2017-09-28 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN110310619A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 多音字预测方法、装置、设备及计算机可读存储介质 |
CN110277085A (zh) * | 2019-06-25 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 确定多音字发音的方法及装置 |
CN110543566A (zh) * | 2019-09-06 | 2019-12-06 | 上海海事大学 | 一种基于自注意力近邻关系编码的意图分类方法 |
Non-Patent Citations (1)
Title |
---|
李作潮: "《《基于关键词语义控制的文本生成算法研究》》", 《CNKI优秀硕士学位论文全文库》, 15 September 2019 (2019-09-15) * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11886816B2 (en) * | 2020-02-25 | 2024-01-30 | Prosper Funding LLC | Bot dialog manager |
US20210264112A1 (en) * | 2020-02-25 | 2021-08-26 | Prosper Funding LLC | Bot dialog manager |
CN111382567B (zh) * | 2020-05-29 | 2020-08-25 | 恒信东方文化股份有限公司 | 一种中文分词和汉字多音字识别的方法及装置 |
CN111382567A (zh) * | 2020-05-29 | 2020-07-07 | 恒信东方文化股份有限公司 | 一种中文分词和汉字多音字识别的方法及装置 |
CN111667810A (zh) * | 2020-06-08 | 2020-09-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN111667810B (zh) * | 2020-06-08 | 2021-10-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN112560477B (zh) * | 2020-12-09 | 2024-04-16 | 科大讯飞(北京)有限公司 | 文本补全方法以及电子设备、存储装置 |
CN112560477A (zh) * | 2020-12-09 | 2021-03-26 | 中科讯飞互联(北京)信息科技有限公司 | 文本补全方法以及电子设备、存储装置 |
JP7441864B2 (ja) | 2020-12-10 | 2024-03-01 | 平安科技(深▲せん▼)有限公司 | 多音字の発音を予測する方法、装置、設備、および記憶媒体 |
JP2023509257A (ja) * | 2020-12-10 | 2023-03-08 | 平安科技(深▲せん▼)有限公司 | 多音字の発音を予測する方法、装置、設備、および記憶媒体 |
CN112700763A (zh) * | 2020-12-26 | 2021-04-23 | 科大讯飞股份有限公司 | 语音标注质量评价方法、装置、设备及存储介质 |
CN112700763B (zh) * | 2020-12-26 | 2024-04-16 | 中国科学技术大学 | 语音标注质量评价方法、装置、设备及存储介质 |
CN112820269A (zh) * | 2020-12-31 | 2021-05-18 | 平安科技(深圳)有限公司 | 文本转语音方法、装置、电子设备及存储介质 |
CN112820269B (zh) * | 2020-12-31 | 2024-05-28 | 平安科技(深圳)有限公司 | 文本转语音方法、装置、电子设备及存储介质 |
CN112686041A (zh) * | 2021-01-06 | 2021-04-20 | 北京猿力未来科技有限公司 | 一种拼音标注方法及装置 |
CN112686041B (zh) * | 2021-01-06 | 2024-06-04 | 北京猿力未来科技有限公司 | 一种拼音标注方法及装置 |
CN112800748A (zh) * | 2021-03-30 | 2021-05-14 | 平安科技(深圳)有限公司 | 适用于多音字的音素预测方法、装置、设备及存储介质 |
CN112989821A (zh) * | 2021-04-13 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 多音字的注音方法及计算机存储介质 |
CN113268974B (zh) * | 2021-05-18 | 2022-11-29 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
CN113268974A (zh) * | 2021-05-18 | 2021-08-17 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
CN114707467A (zh) * | 2022-03-18 | 2022-07-05 | 浙江大学 | 一种基于自注意力机制的自动化拼音转汉字方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111144110B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144110B (zh) | 拼音标注方法、装置、服务器及存储介质 | |
US11881205B2 (en) | Speech synthesis method, device and computer readable storage medium | |
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
US20210390271A1 (en) | Neural machine translation systems | |
JP6929466B2 (ja) | 音声認識システム | |
JP2020505650A (ja) | 音声認識システム及び音声認識の方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN113642316B (zh) | 中文文本纠错方法、装置、电子设备及存储介质 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN112669845B (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN112395888A (zh) | 机器翻译设备和方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN112183062A (zh) | 一种基于交替解码的口语理解方法、电子设备和存储介质 | |
WO2019163752A1 (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
CN113066510B (zh) | 一种元音弱读检测方法及装置 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
CN115910046A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN112802451B (zh) | 韵律边界预测方法及计算机存储介质 | |
CN115359323A (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 | |
CN113096646B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN117727288B (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 | |
CN117524193B (zh) | 中英混合语音识别系统训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |