CN111737957B - 汉字拼音转换方法、装置、电子设备及存储介质 - Google Patents

汉字拼音转换方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111737957B
CN111737957B CN202010860189.7A CN202010860189A CN111737957B CN 111737957 B CN111737957 B CN 111737957B CN 202010860189 A CN202010860189 A CN 202010860189A CN 111737957 B CN111737957 B CN 111737957B
Authority
CN
China
Prior art keywords
pinyin
chinese character
network
level
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010860189.7A
Other languages
English (en)
Other versions
CN111737957A (zh
Inventor
李成飞
杨嵩
王桑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202010860189.7A priority Critical patent/CN111737957B/zh
Publication of CN111737957A publication Critical patent/CN111737957A/zh
Application granted granted Critical
Publication of CN111737957B publication Critical patent/CN111737957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提出汉字拼音转换方法、装置、电子设备及存储介质。其中方法包括:将汉字序列划分为多个汉字,确定各个所述汉字的编码向量;分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的拼音的编码向量;根据所述各个汉字对应的拼音的编码向量,确定所述汉字序列对应的拼音序列。本申请实施例能够提高拼音转换的正确率。

Description

汉字拼音转换方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及汉字拼音转换方法、装置、电子设备及存储介质。
背景技术
汉字转拼音是语音合成前端数据处理的关键步骤。由于汉语中存在大量的多音字,因此汉字转拼音模块能否准确转换多音字拼音直接决定语音合成系统的性能。多音字是指相同的汉字在不同的上下文中发音不同。一般来说,要准确的转换汉字多音字到拼音,必须穷尽所有的多音字及其在不同上下文的发音情况,然而,在实际开发语音合成系统时,穷尽所有多音字情况费时费力,而且成本也很大。因此,在这种情况下,目前出现了使用多音字拼音词典进行汉字到拼音的规则匹配转换方法,但是该方法过于依赖词典,对于词典中没有的多音字情况不能处理,泛化性能差。
随着深度学习的发展,出现了将深度神经网络应用到汉字到拼音的转换的方法,并取得了较好的性能。然而,该方法往往集中在汉字到多音字的序列到序列(seq2seq)的模型,转换的结果完全依赖于该seq2seq模型。对于汉字转拼音的任务,仅仅是文本序列到拼音序列的转换,而拼音序列的组合也有其本身的规律,现有的深度学习模型仅仅集中于汉字到拼音转化,而不能学习到拼音序列自身的内部规律,因此性能较差。
发明内容
本申请实施例提供一种汉字拼音转换方法、装置、电子设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种汉字拼音转换方法,包括:
将汉字序列划分为多个汉字,确定各个所述汉字的编码向量;
分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的拼音的编码向量;
根据所述各个汉字对应的拼音的编码向量,确定所述汉字序列对应的拼音序列。
在一种实施方式中,所述分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,包括:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数,所述第N-1个汉字对应的拼音的编码向量为所述第一网络模块确定出的结果。
在一种实施方式中,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的拼音的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,汉字转拼音模型或所述拼音语言模型采用基于长短时记忆网络的网络架构。
第二方面,本申请实施例提供了一种汉字拼音转换模型的训练方法,所述汉字拼音转换模型包含汉字转拼音模型和拼音语言模型,所述训练方法包括:
将汉字样本序列划分为多个汉字,确定各个所述汉字的编码向量;并获取所述汉字样本序列对应的真实拼音序列,将所述真实拼音序列划分为各个所述汉字对应的真实拼音,得到各个真实拼音的编码向量;
分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的预测拼音的编码向量;
根据所述各个汉字对应的预测拼音的编码向量和真实拼音的编码向量,对所述汉字转拼音模型和拼音语言模型进行优化。
在一种实施方式中,分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,包括:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的真实拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数。
在一种实施方式中,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的真实拼音的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,汉字转拼音模型或所述拼音语言模型采用基于长短时记忆网络的网络架构。
第三方面,本申请实施例提供了一种汉字拼音转换装置,包括:
第一划分模块,用于将汉字序列划分为多个汉字,确定各个所述汉字的编码向量;
第一输入模块,用于分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
第二输入模块,用于分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的拼音的编码向量;
确定模块,用于根据所述各个汉字对应的拼音的编码向量,确定所述汉字序列对应的拼音序列。
在一种实施方式中,第二输入模块用于:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数,所述第N-1个汉字对应的拼音的编码向量为所述第一网络模块确定出的结果。
在一种实施方式中,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的拼音的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,汉字转拼音模型或所述拼音语言模型采用基于长短时记忆网络的网络架构。
第四方面,本申请实施例提供了一种汉字拼音转换模型的训练装置,汉字拼音转换模型包含汉字转拼音模型和拼音语言模型,所述装置包括:
第二划分模块,用于将汉字样本序列划分为多个汉字,确定各个所述汉字的编码向量;并获取所述汉字样本序列对应的真实拼音序列,将所述真实拼音序列划分为各个所述汉字对应的真实拼音,得到各个真实拼音的编码向量;
第三输入模块,用于分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
第四输入模块,用于分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的预测拼音的编码向量;
优化模块,用于根据所述各个汉字对应的预测拼音的编码向量和真实拼音的编码向量,对所述汉字转拼音模型和拼音语言模型进行优化。
在一种实施方式中,第四输入模块用于:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的真实拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数。
在一种实施方式中,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的真实拼音的编码向量,计算本级网络对应的隐层状态向量。
在一种实施方式中,汉字转拼音模型或所述拼音语言模型采用基于长短时记忆网络的网络架构。
第五方面,本申请实施例提供了一种电子设备,该电子设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:本申请实施例利用汉字转拼音模型和拼音语言模型将汉字序列转换为对应的拼音序列;由于能够同时考虑到汉字序列到拼音序列的转换(利用汉字转拼音模型)、以及拼音序列本身的内部规律(利用拼音语言模型),因此可以提高拼音转换的正确率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请实施例提出的一种汉字拼音转换模型示意图;
图2为本申请实施例提出一种汉字拼音转换方法实现流程图;
图3为本申请实施例提出一种汉字拼音转换模型的训练方法实现流程图;
图4为本申请实施例的一种语音合成方法实现流程图;
图5为本申请实施例的一种汉字拼音转换装置500的结构示意图;
图6为本申请实施例的一种汉字拼音转换模型的训练装置600的结构示意图;
图7为本申请实施例的一种电子设备结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
为了解决上述基于seq2seq的汉字到拼音模型的问题,本申请实施例提出了基于多模型联合优化的汉字转拼音方法,该方法不仅考虑到汉字到拼音的转换,同时,首次提出拼音语言模型,以此来解决seq2seq不能考虑拼音序列本身的规律的问题。
图1为本申请实施例提出的一种汉字拼音转换模型示意图。如图1所示,汉字拼音转换模型可以包含汉字转拼音模型和拼音语言模型,其中,汉字转拼音模型和拼音语言模型可以采用基于长短时记忆网络(LSTM,Long Short Term Memory Network)的网络架构。汉字转拼音模型和拼音语言模型可以分别包括多级网络(图1中仅示出了两级网络)。汉字转拼音模型的每一级网络输出一个维度为V的向量,同样地,拼音语言模型的每一级网络也输出一个维度为V的向量;其中V代表总共的拼音数目,通常情况下,V的取值为3400左右。同一级的前述两个输出结果分别作为第一网络模块(如图1中的network模块)的第一输入内容和第二输入内容,network模块根据该第一输入内容和第二输入内容,确定出汉字序列中的一个汉字对应的拼音(含声调)的编码向量。例如,将第一输入内容和第二输入内容做预先设定的线性运算,得到一个新的维度为V的编码向量;确定该编码向量中数值最大的元素,该元素对应的拼音即为确定出的汉字对应的拼音;进一步可以确定该拼音对应的编码向量。将多次确定出的拼音依次连接起来,即可以确定出汉字序列对应的拼音序列。
以下分别介绍汉字转拼音模型和拼音语言模型。
第一部分,汉字转拼音模型:
可选地,如图1所示,汉字转拼音模型每级网络的输入内容包括汉字序列中的一个汉字的编码向量,如图1中的C0、C1……表示汉字序列中第一个汉字、第二个汉字、直至最后一个汉字的编码向量。汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量,如图1中的Z0。汉字转拼音模型的第一级网络根据C0和Z0,利用LSTM网络架构的函数计算得到一个隐层状态向量,即图1中的Z1。汉字转拼音模型的第二级网络的输入内容还包括上一级网络计算得到的隐层状态向量,即图1中的Z1。汉字转拼音模型的第二级网络根据C1和Z1,利用LSTM网络架构的函数计算得到一个隐层状态向量,即图1中的Z2。以此类推。
第二部分,拼音语言模型:
在模型训练和模型使用这两个过程中,汉字转拼音模型的输入内容有所不同。其中,模型训练过程可以指对汉字转拼音模型和拼音语言模型进行联合训练,使其能够根据一个汉字序列确定对应的拼音序列,并且准确率达到预设阈值的过程。模型使用过程可以指利用训练完成的汉字转拼音模型和拼音语言模型,确定一个汉字序列所对应的拼音序列的过程。
(1)在模型使用过程中:
可选地,如图1所示,拼音语言模型每级网络的输入内容包括汉字序列中的对应汉字的前一个汉字对应的拼音(预测拼音,而不是真实拼音)的编码向量。如图1中,拼音语言模型第一级网络对应汉字序列中的第一个汉字,由于该汉字之前没有其他汉字,因此拼音语言模型第一级网络的输入内容为汉字序列的起始标签(如图1中的<BOS>)对应的编码向量。拼音语言模型第二级网络对应汉字序列中的第二个汉字,其输入内容为前一个汉字(即第一个汉字)对应的拼音的编码向量。该第一个汉字对应的拼音是由network模块根据汉字转拼音模型的第一级网络的输出结果、以及拼音语言模型的第一级网络的输出结果确定的,如图1所示的C。以此类推。
拼音语言模型的第一级网络的输入内容还可以包括初始化的隐层状态向量,如图1中的M0。拼音语言模型的第一级网络根据<BOS>对应的编码向量和M0,利用LSTM网络架构的函数计算得到一个隐层状态向量,即图1中的M1。拼音语言模型的第二级网络的输入内容还包括上一级网络计算得到的隐层状态向量,即图1中的M1。拼音语言模型的第二级网络根据M1和C,利用LSTM网络架构的函数计算得到一个隐层状态向量,即图1中的M2。以此类推。
(2)在模型训练过程中:
可选地,如图1所示,拼音语言模型每级网络的输入内容包括汉字序列中的对应汉字的前一个汉字对应的拼音(真实拼音,而不是预测拼音)的编码向量。如图1中,拼音语言模型第一级网络对应汉字序列中的第一个汉字,由于该汉字之前没有其他汉字,因此拼音语言模型第一级网络的输入内容为汉字序列的起始标签(如图1中的<BOS>)对应的编码向量。拼音语言模型第二级网络对应汉字序列中的第二个汉字,其输入内容为前一个汉字(即第一个汉字)对应的真实拼音的编码向量。以此类推。
拼音语言模型的第一级网络的输入内容还可以包括初始化的隐层状态向量,如图1中的M0。拼音语言模型的第一级网络根据<BOS>对应的编码向量和M0,利用LSTM网络架构的函数计算得到一个隐层状态向量,即图1中的M1。拼音语言模型的第二级网络的输入内容还包括上一级网络计算得到的隐层状态向量,即图1中的M1。拼音语言模型的第二级网络根据M1和汉字序列中第一个汉字对应的真实拼音的编码向量,利用LSTM网络架构的函数计算得到一个隐层状态向量,即图1中的M2。以此类推。
可选地,本申请实施例提出的拼音语言模型采用拼音级的数学序列模型,用来判断拼音序列搭配的合理性。例如:【yi1 xing2 bai3 lu4 shang4 qing1 tian1】和【yi1hang2 bai3 lu4 shang4 qing1 tian1】,显然是第二个出现的概率更大。
本申请实施例在模型训练阶段,首先是将人工标注好的文本-拼音数据对进行按字分割,如以下例子:
人工标注好的文本-拼音数据对为:
一行白鹭上青天【yi1hang2bai3lu4shang4qing1tian1】
将文本-拼音数据对按字分割后,得到如下内容:
一行白鹭上青天【yi1 hang2 bai3 lu4 shang4 qing1 tian1】;
本申请实施例中,汉字转拼音模型和拼音语言模型的架构并不是各自优化各自,而是利用图1所示的模型框架,采用联合优化的方式进行优化。由图1所示的模型框架可见,汉字转拼音模型和拼音语言模型通过一个network模块连接,从而达到联合优化的目的。
基于图1所示的网络架构,本申请实施例提出一种汉字拼音转换方法。图2为本申请实施例提出一种汉字拼音转换方法实现流程图,包括:
步骤S201:将汉字序列划分为多个汉字,确定各个汉字的编码向量;
步骤S202:分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
步骤S203:分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;第一网络模块被配置为根据第一输入内容和第二输入内容,确定各个汉字对应的拼音的编码向量;
步骤S204:根据各个汉字对应的拼音的编码向量,确定汉字序列对应的拼音序列。
第一网络模块可以为上述network模块,network模块依次确定出汉字序列中各个汉字对应的拼音的编码向量;拼音的编码向量可以为一个维度为V的向量,其中V代表总共的拼音数目。将network模块每次确定出的拼音连接起来,即可以确定出汉字序列对应的拼音序列。
在一些实施方式中,上述步骤S203中的分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络包括:
当汉字为汉字序列中的第一个汉字时,将汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
当汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的拼音的编码向量输入拼音语言模型的N级网络;其中, N为大于或等于2的整数,第N-1个汉字对应的拼音的编码向量为上述第一网络模块确定出的结果。
在一些实施方式中,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,N为大于或等于2的整数;
汉字转拼音模型的各级网络还根据输入的隐层状态向量及汉字的编码向量,计算本级网络对应的隐层状态向量。
如图1所示,汉字转拼音模型中的一级网络计算得到的隐层状态向量输入至下一级网络。
在一些实施方式中,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
拼音语言模型的各级网络还根据输入的隐层状态向量及前一个汉字对应的拼音的编码向量,计算本级网络对应的隐层状态向量。
与汉字转拼音模型类似,如图1所示,拼音语言模型中的一级网络计算得到的隐层状态向量输入至下一级网络。
在一些实施方式中,上述汉字转拼音模型或拼音语言模型采用基于LSTM的网络架构。
基于图1所示的网络架构,本申请实施例还提出一种汉字拼音转换模型的训练方法,该汉字拼音转换模型包含汉字转拼音模型和拼音语言模型。图3为本申请实施例提出一种汉字拼音转换模型的训练方法实现流程图,包括:
步骤S301:将汉字样本序列划分为多个汉字,确定各个汉字的编码向量;并获取汉字样本序列对应的真实拼音序列,将真实拼音序列划分为各个汉字对应的真实拼音,得到各个真实拼音的编码向量;
步骤S302:分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
步骤S303:分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;第一网络模块被配置为根据第一输入内容和第二输入内容,确定各个汉字对应的预测拼音的编码向量;
步骤S304:根据各个汉字对应的预测拼音的编码向量和真实拼音的编码向量,对汉字转拼音模型和拼音语言模型进行优化。
可选地,在训练汉字拼音转换模型时,首先由人工对训练集文本进行文本-拼音的转录,之后将文本、拼音按照汉字为单位进行切分。例如,将人工标注好的文本-拼音数据对为:
一行白鹭上青天【yi1hang2bai3lu4shang4qing1tian1】
将文本-拼音数据对按汉字分割后,得到如下内容:
一行白鹭上青天【yi1 hang2 bai3 lu4 shang4 qing1 tian1】。
采用分割后得到的内容对汉字转拼音模型和拼音语言模型进行联合优化。在训练过程中,将各个汉字的编码向量分别输入汉字转拼音模型的各级网络;将汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络,并将各个拼音的编码向量分别输入拼音语言模型中从第二级起始的各级网络。
对于现有的seq2seq模型而言,汉字转拼音模型的概率计算如公式(1):
Y1=𝑎𝑟𝑔max (Y|𝑋) ………(1)
其中X代表汉字序列,Y代表转换的拼音序列,𝑃(Y|𝑋)为汉字转拼音模型,Y1代表概率最大的拼音序列。
在本申请实施例中,通过引入拼音语言模型,汉字拼音转换模型(包含汉字转拼音模型和拼音语言模型)的概率计算方式如公式(2):
Y1=𝑎𝑟𝑔max (Y|𝑋)* 𝑃(Y) ………(2)
其中,其中X代表汉字序列,Y代表转换的拼音序列,𝑃(Y|𝑋)为汉字转拼音模型,𝑃(Y)为拼音语言模型。Y1代表概率最大的拼音序列。
在本申请实施例中,由于汉字转拼音模型和拼音语言模型都可以采用基于LSTM的网络架构,因此可采用LSTM的网络的以下公式确定LSTM网络中的各个参数:
Figure 763996DEST_PATH_IMAGE001
Figure 94483DEST_PATH_IMAGE002
Figure 994699DEST_PATH_IMAGE003
Figure 768752DEST_PATH_IMAGE004
Figure 853120DEST_PATH_IMAGE005
Figure 472451DEST_PATH_IMAGE006
其中,
Figure 974977DEST_PATH_IMAGE007
Figure 144097DEST_PATH_IMAGE008
分别表示汉字序列中第t步遗忘门和输入门。在每个汉字序列上,遗忘门控制每一个令牌(token)的信息的遗忘程度,输入门会控制每一个汉字信息写入长时信息的程度。
Figure 217226DEST_PATH_IMAGE009
Figure 138784DEST_PATH_IMAGE010
两个门选用Sigmoid函数,取值范围是[0,1],tanh函数取值是[-1,1]。C t-1 是t-1时刻的神经元的状态,Ct是t时刻的神经元的状态。o t 是输出门,控制汉字长时信息的输出程度。h t 是汉字序列中第t步的输出。
在一些实施方式中,上述步骤S303中的分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,包括:
当汉字为汉字序列中的第一个汉字时,将汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
当汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的真实拼音的编码向量输入拼音语言模型的N级网络;其中,N为大于或等于2的整数。
在一些实施方式中,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及汉字的编码向量,计算本级网络对应的隐层状态向量。
如图1所示,汉字转拼音模型中的一级网络计算得到的隐层状态向量输入至下一级网络。
在一些实施方式中,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中, N为大于或等于2的整数;
拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的真实拼音的编码向量,计算本级网络对应的隐层状态向量。
与汉字转拼音模型类似,如图1所示,拼音语言模型中的一级网络计算得到的隐层状态向量输入至下一级网络。
本申请实施例提出的汉字拼音转换模型可以应用于语音合成的前端。具体地,将汉字序列输入预先训练的汉字拼音转换模型,由汉字拼音转换模型输出该汉字序列对应的拼音序列;将该拼音序列输入语音合成的后端,由后端进行语音合成,并播放合成后的语音。
综上可见,本申请实施例提出的汉字拼音转换方法、以及汉字拼音转换模型的训练方法,能够同时考虑到汉字序列到拼音序列的转换(利用汉字转拼音模型)、以及拼音序列本身的内部规律(利用拼音语言模型),因此能够提高拼音转换的正确率。
本申请实施例提出的汉字拼音转换方法可以应用于语音合成,图4为本申请实施例的一种语音合成方法实现流程图。如图4所示,该语音合成过程包括以下步骤:
步骤S401:人工标注文本-拼音训练数据;
步骤S402:将文本-拼音训练数据以汉字为单位切分;
步骤S403:利用切分后的汉字和拼音,对汉字拼音转换模型进行训练;其中,该汉字拼音转换模型的结构如图1所示,包括汉字转拼音模型和拼音语言模型。具体训练方式在前述内容中已有介绍,在此不再赘述。
步骤S404:将汉字序列输入训练完成的汉字拼音转换模型,得到对应的拼音序列;
步骤S405:将拼音序列输入后端进行合成,得到对应的语音文件。
本申请实施例还提出一种汉字拼音转换装置,图5为本申请实施例的一种汉字拼音转换装置500的结构示意图,包括:
第一划分模块510,用于将汉字序列划分为多个汉字,确定各个所述汉字的编码向量;
第一输入模块520,用于分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
第二输入模块530,用于分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的拼音的编码向量;
确定模块540,用于根据所述各个汉字对应的拼音的编码向量,确定所述汉字序列对应的拼音序列。
可选地,上述第二输入模块530用于:
汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数,所述第N-1个汉字对应的拼音的编码向量为所述第一网络模块确定出的结果。
可选地,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
可选地,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的拼音的编码向量,计算本级网络对应的隐层状态向量。
可选地,所述汉字转拼音模型或所述拼音语言模型采用基于长短时记忆网络(LSTM)的网络架构。
本发明实施例各装置中的各模块的功能可以参见上述汉字拼音转换方法中的对应描述,在此不再赘述。
本申请实施例还提出一种汉字拼音转换模型的训练装置,图6为本申请实施例的一种汉字拼音转换模型的训练装置600的结构示意图,包括:
第二划分模块610,用于将汉字样本序列划分为多个汉字,确定各个所述汉字的编码向量;并获取所述汉字样本序列对应的真实拼音序列,将所述真实拼音序列划分为各个所述汉字对应的真实拼音,得到各个真实拼音的编码向量;
第三输入模块620,用于分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;
第四输入模块630,用于分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的预测拼音的编码向量;
优化模块640,用于根据所述各个汉字对应的预测拼音的编码向量和真实拼音的编码向量,对所述汉字转拼音模型和拼音语言模型进行优化。
可选地,上述第四输入模块630用于:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的真实拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数。
可选地,汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
可选地,拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的真实拼音的编码向量,计算本级网络对应的隐层状态向量。
可选地,汉字转拼音模型或所述拼音语言模型采用基于长短时记忆网络(LSTM)的网络架构。
本发明实施例各装置中的各模块的功能可以参见上述汉字拼音转换模型的训练方法中的对应描述,在此不再赘述。
图7为本申请实施例的一种电子设备结构示意图,包括:存储器710和处理器720,存储器710内存储有可在处理器720上运行的计算机程序。处理器720执行该计算机程序时实现上述实施例中的汉字拼音转换方法或汉字拼音转换模型的训练方法。存储器710和处理器720的数量可以为一个或多个。
该自动评分设备还包括:
通信接口730,用于与外界设备进行通信,进行数据交互传输。
如果存储器710、处理器720和通信接口730独立实现,则存储器710、处理器720和通信接口730可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器710、处理器720及通信接口730集成在一块芯片上,则存储器710、处理器720及通信接口730可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (18)

1.一种汉字拼音转换方法,其特征在于,包括:
将汉字序列划分为多个汉字,确定各个所述汉字的编码向量;
分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;其中,所述汉字转拼音模型采用基于长短时记忆网络的网络架构;
分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;其中,所述拼音语言模型采用基于长短时记忆网络的网络架构,并采用拼音级的数学序列模型;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的拼音的编码向量;
根据所述各个汉字对应的拼音的编码向量,确定所述汉字序列对应的拼音序列。
2.根据权利要求1所述的方法,其特征在于,所述分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,包括:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数,所述第N-1个汉字对应的拼音的编码向量为所述第一网络模块确定出的结果。
3.根据权利要求1或2所述的方法,其特征在于,
所述汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
4.根据权利要求1或2所述的方法,其特征在于,
所述拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的拼音的编码向量,计算本级网络对应的隐层状态向量。
5.一种汉字拼音转换模型的训练方法,其特征在于,所述汉字拼音转换模型包含汉字转拼音模型和拼音语言模型,所述训练方法包括:
将汉字样本序列划分为多个汉字,确定各个所述汉字的编码向量;并获取所述汉字样本序列对应的真实拼音序列,将所述真实拼音序列划分为各个所述汉字对应的真实拼音,得到各个真实拼音的编码向量;
分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;其中,所述汉字转拼音模型采用基于长短时记忆网络的网络架构;
分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;其中,所述拼音语言模型采用基于长短时记忆网络的网络架构,并采用拼音级的数学序列模型;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的预测拼音的编码向量;
根据所述各个汉字对应的预测拼音的编码向量和真实拼音的编码向量,对所述汉字转拼音模型和拼音语言模型进行优化。
6.根据权利要求5所述的方法,其特征在于,所述分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,包括:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的真实拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数。
7.根据权利要求5或6所述的方法,其特征在于,
所述汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
8.根据权利要求5或6所述的方法,其特征在于,
所述拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的真实拼音的编码向量,计算本级网络对应的隐层状态向量。
9.一种汉字拼音转换装置,其特征在于,包括:
第一划分模块,用于将汉字序列划分为多个汉字,确定各个所述汉字的编码向量;
第一输入模块,用于分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;其中,所述汉字转拼音模型采用基于长短时记忆网络的网络架构;
第二输入模块,用于分别将各个汉字的前一个汉字对应的拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;其中,所述拼音语言模型采用基于长短时记忆网络的网络架构,并采用拼音级的数学序列模型;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的拼音的编码向量;
确定模块,用于根据所述各个汉字对应的拼音的编码向量,确定所述汉字序列对应的拼音序列。
10.根据权利要求9所述的装置,其特征在于,所述第二输入模块用于:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数,所述第N-1个汉字对应的拼音的编码向量为所述第一网络模块确定出的结果。
11.根据权利要求9或10所述的装置,其特征在于,
所述汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
12.根据权利要求9或10所述的装置,其特征在于,
所述拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的拼音的编码向量,计算本级网络对应的隐层状态向量。
13.一种汉字拼音转换模型的训练装置,其特征在于,所述汉字拼音转换模型包含汉字转拼音模型和拼音语言模型,所述装置包括:
第二划分模块,用于将汉字样本序列划分为多个汉字,确定各个所述汉字的编码向量;并获取所述汉字样本序列对应的真实拼音序列,将所述真实拼音序列划分为各个所述汉字对应的真实拼音,得到各个真实拼音的编码向量;
第三输入模块,用于分别将各个汉字的编码向量输入汉字转拼音模型的各级网络,所述汉字转拼音模型的各级网络的输出结果被配置为第一网络模块的第一输入内容;其中,所述汉字转拼音模型采用基于长短时记忆网络的网络架构;
第四输入模块,用于分别将各个汉字的前一个汉字对应的真实拼音的编码向量输入拼音语言模型的各级网络,所述拼音语言模型的各级网络的输出结果被配置为第一网络模块的第二输入内容;其中,所述拼音语言模型采用基于长短时记忆网络的网络架构,并采用拼音级的数学序列模型;
所述第一网络模块被配置为根据所述第一输入内容和第二输入内容,确定各个汉字对应的预测拼音的编码向量;
优化模块,用于根据所述各个汉字对应的预测拼音的编码向量和真实拼音的编码向量,对所述汉字转拼音模型和拼音语言模型进行优化。
14.根据权利要求13所述的装置,其特征在于,所述第四输入模块用于:
所述汉字为汉字序列中的第一个汉字时,将所述汉字序列的起始标签对应的编码向量输入拼音语言模型的第一级网络;
所述汉字为汉字序列中的第N个汉字时,将第N-1个汉字对应的真实拼音的编码向量输入拼音语言模型的N级网络;其中,所述N为大于或等于2的整数。
15.根据权利要求13或14所述的装置,其特征在于,
所述汉字转拼音模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述汉字转拼音模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述汉字转拼音模型的各级网络还根据输入的隐层状态向量及所述汉字的编码向量,计算本级网络对应的隐层状态向量。
16.根据权利要求13或14所述的装置,其特征在于,
所述拼音语言模型的第一级网络的输入内容还包括初始化的隐层状态向量;
所述拼音语言模型的第N级网络的输入内容还包括第N-1级网络计算得到的隐层状态向量;其中,所述N为大于或等于2的整数;
所述拼音语言模型的各级网络还根据输入的隐层状态向量及所述前一个汉字对应的真实拼音的编码向量,计算本级网络对应的隐层状态向量。
17.一种电子设备,其特征在于,包括:包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至8任一项所述的方法。
18.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN202010860189.7A 2020-08-25 2020-08-25 汉字拼音转换方法、装置、电子设备及存储介质 Active CN111737957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010860189.7A CN111737957B (zh) 2020-08-25 2020-08-25 汉字拼音转换方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010860189.7A CN111737957B (zh) 2020-08-25 2020-08-25 汉字拼音转换方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111737957A CN111737957A (zh) 2020-10-02
CN111737957B true CN111737957B (zh) 2021-06-01

Family

ID=72658725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010860189.7A Active CN111737957B (zh) 2020-08-25 2020-08-25 汉字拼音转换方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111737957B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113506561B (zh) * 2021-07-28 2023-07-11 北京读我网络技术有限公司 文本拼音的转换方法及装置、存储介质及电子设备
CN116415582B (zh) * 2023-05-24 2023-08-25 中国医学科学院阜外医院 文本处理方法、装置、计算机可读存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN109739370A (zh) * 2019-01-10 2019-05-10 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置
CN110277085A (zh) * 2019-06-25 2019-09-24 腾讯科技(深圳)有限公司 确定多音字发音的方法及装置
CN110286778A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 一种中文深度学习输入法、装置及电子设备
CN111104884A (zh) * 2019-12-10 2020-05-05 电子科技大学 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111599340A (zh) * 2020-07-27 2020-08-28 南京硅基智能科技有限公司 一种多音字读音预测方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN109739370A (zh) * 2019-01-10 2019-05-10 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置
CN110277085A (zh) * 2019-06-25 2019-09-24 腾讯科技(深圳)有限公司 确定多音字发音的方法及装置
CN110286778A (zh) * 2019-06-27 2019-09-27 北京金山安全软件有限公司 一种中文深度学习输入法、装置及电子设备
CN111104884A (zh) * 2019-12-10 2020-05-05 电子科技大学 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111599340A (zh) * 2020-07-27 2020-08-28 南京硅基智能科技有限公司 一种多音字读音预测方法、装置及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chinese Spelling Check based on Sequence Labeling;Zijia Han et al.;《2019 International Conference on Asian Language Processing》;20200319;第373-378页 *
LSTM 为何如此有效?这五个秘密是你要知道的;雷锋网;《知乎-https://zhuanlan.zhihu.com/p/125093069?utm_source=wechat_session》;20200404;第1-11页 *
Open Vocabulary Learning for Neural Chinese Pinyin IME;Zhousheng Zhang et al.;《arXiv:1811.04352v4》;20190606;第1-11页 *

Also Published As

Publication number Publication date
CN111737957A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
US11238845B2 (en) Multi-dialect and multilingual speech recognition
CN110418210B (zh) 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111460115B (zh) 智能人机对话模型训练方法、模型训练装置及电子设备
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
CN111737957B (zh) 汉字拼音转换方法、装置、电子设备及存储介质
JP2020004382A (ja) 音声対話方法及び装置
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN113674733A (zh) 用于说话时间估计的方法和设备
CN115017890A (zh) 基于字音字形相似的文本纠错方法和装置
CN112735377B (zh) 语音合成方法、装置、终端设备及存储介质
KR20220010259A (ko) 음성 신호 처리 방법 및 장치
CN114783405B (zh) 一种语音合成方法、装置、电子设备及存储介质
CN108897872B (zh) 对话处理方法、装置、计算机设备和存储介质
CN112509559B (zh) 音频识别方法、模型训练方法、装置、设备及存储介质
CN111816171B (zh) 语音识别模型的训练方法、语音识别方法及装置
CN113468357B (zh) 一种图像描述文本生成方法及装置
CN113066510B (zh) 一种元音弱读检测方法及装置
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
CN113096646B (zh) 音频识别方法、装置、电子设备及存储介质
CN109597884B (zh) 对话生成的方法、装置、存储介质和终端设备
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN116306612A (zh) 一种词句生成方法及相关设备
CN114611505A (zh) 非自回归神经机器翻译解码方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant