CN107680580A - 文本转换模型训练方法和装置、文本转换方法和装置 - Google Patents

文本转换模型训练方法和装置、文本转换方法和装置 Download PDF

Info

Publication number
CN107680580A
CN107680580A CN201710901952.4A CN201710901952A CN107680580A CN 107680580 A CN107680580 A CN 107680580A CN 201710901952 A CN201710901952 A CN 201710901952A CN 107680580 A CN107680580 A CN 107680580A
Authority
CN
China
Prior art keywords
character
text
input
sequence
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710901952.4A
Other languages
English (en)
Other versions
CN107680580B (zh
Inventor
陈汉英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710901952.4A priority Critical patent/CN107680580B/zh
Publication of CN107680580A publication Critical patent/CN107680580A/zh
Application granted granted Critical
Publication of CN107680580B publication Critical patent/CN107680580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了文本转换模型训练方法和装置、文本转换方法和装置。该文本转换模型训练方法的一具体实施方式包括:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,文本转换模型对应的神经网络包括编码器和解码器;对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整。该实施方式得到的文本转换模型可以实现文本正则化和多音字的联合预测,减小了资源维护成本。

Description

文本转换模型训练方法和装置、文本转换方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及语音合成技术领域,尤其涉及文本转换模型训练方法和装置、文本转换方法和装置。
背景技术
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、语音合成、图像识别、自然语言处理和专家系统等。其中,语音合成技术是计算机科学领域与人工智能领域中的一个重要方向。
语音合成是通过机械的、电子的方法产生人造语音的技术。通常中文语音合成技术中需要对文本进行转换,以确定文本中各字符的读音。文本进行正则化和多音字读音标注是语音合成中文本转换的关键技术。其中文本正则化是将文本中的非标准字符转换成标准字符的过程,例如将包括符号、字母、阿拉伯数字等非汉字字符转换成汉字字符。
现有的语音合成技术中大多先采用基于对语料的观察和统计设定的一些非标准字符到标准字符的转换规则的方法对文本进行正则化处理,然后采用基于多音字在不同上下文中的读音规则对正则化文本中的多音字进行标注。然而,由基于规则的方法的泛化性很差,且对文本的上下文有严格的限制,文本格式或内容稍有改变,对应的规则就可能失效。并且文本正则化处理所需要维护的资源和多音字读音标注中所需要维护的资源(例如构建规则所需要的语料)之间具有重合,这些资源的维护成本较高。
发明内容
为了解决上述背景技术部分提到的一个或多个技术问题,本申请实施例提供了文本转换模型训练方法和装置、文本转换方法和装置。
第一方面,本申请实施例提供了一种文本转换模型训练方法,包括:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,文本转换模型对应的神经网络包括编码器和解码器;对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列;其中,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列;目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。
在一些实施例中,上述编码器由循环神经网络构建,包括与输入字符序列中的各字符一一对应的多个隐节点;上述基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,包括:基于解码器中的隐藏层在对输入的上一个字符解码后的状态,计算编码器中各隐节点的状态权重;基于状态权重,对各隐节点的状态进行加权求和得到输入的当前字符的中间语义向量。
在一些实施例中,上述将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,包括:将输入字符序列中的字符分别按照正向排序和反向排序依次输入待生成的文本转换模型对应的神经网络中;编码器是由双向循环神经网络构建的,包括双层隐节点,双层隐节点中的一层隐节点对应按照正向排序输入的字符,双层隐节点中的另一层隐节点对应按照反向排序输入的字符。
在一些实施例中,上述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;上述对第一分割结果中的非汉字字符进行相应的标签化处理,包括:将第一分割结果中的符号字符替换为符号字符的读音类型的标签,将第一分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、在第一分割结果中的连续字母字符的首尾两端添加字母标签。
在一些实施例中,上述第二分割结果中的与输入文本中的非汉字字符对应的字符包括以下至少一项:与输入文本中的连续数字字符对应的第一汉字字符串、与输入文本中的符号字符对应的第二汉字字符串、以及与输入文本中的连续字母字符对应的多个字母字符;上述对第二分割结果中的多音字符和与输入文本中的非汉字字符对应的字符进行标签化处理,包括:将第二分割结果中的多音字符替换为用于标识多音字字符的读音类型的标签,将第二分割结果中的第一汉字字符串替换为对应的连续数字字符的语义类型的标签,将第二分割结果中的第二汉字字符串替换为对应的符号字符的读音类型的标签,在第二分割结果中的连续字母字符对应的多个字母字符的首尾两端添加字母标签。
第二方面,本申请实施例提供了一种文本转换方法,包括:获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;将待处理字符序列输入已训练的文本转换模型,得到输出字符序列;提取出输出字符序列中的用于标识多音字字符的读音类型的标签;对输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到待处理文本的正则化文本;其中,文本转换模型基于如第一方面提供的方法训练。
在一些实施例中,上述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;上述分割结果中的非汉字字符是按照如下方式进行标签化处理的:将分割结果中的符号字符替换为符号字符的读音类型的标签,将分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、将分割结果中的连续字母字符拆分为单个字母字符并在连续字母字符的首尾两端添加字母标签。
在一些实施例中,上述输出字符序列中的字符包括以下至少一项:与待处理文本中的单个汉字字符对应的单个非多音汉字字符、用于标识待处理文本中的多音字字符的读音类型的标签、与待处理文本中的连续数字字符对应的语义类型标签、与待处理文本中的符号字符对应的读音类型标签、以及与待处理文本中的连续字母字符对应的首尾两端包括字母标签的多个字母;上述对输出字符序列中的字符进行去标签化处理,包括:将输出字符序列中用于标识待处理文本中的多音字字符的读音类型的标签替换为对应的多音字字符;将输出字符序列中与待处理文本中的连续数字字符对应的语义类型标签替换为与语义类型标签对应的汉字字符;将输出字符序列中与待处理文本中的符号字符对应的读音类型标签替换为与读音类型标签对应的汉字字符;将输出字符序列中的字母标签删除。
第三方面,本申请实施例提供了一种文本转换模型训练装置,包括:输入单元,用于将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,文本转换模型对应的神经网络包括编码器和解码器;预测单元,用于对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;调整单元,用于根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列;其中,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列;目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。
在一些实施例中,上述编码器由循环神经网络构建,包括与输入字符序列中的各字符一一对应的多个隐节点;上述预测单元进一步用于按照如下方式采用编码器进行编码,得到字符的中间语义向量:基于解码器中的隐藏层在对输入的上一个字符解码后的状态,计算编码器中各隐节点的状态权重;基于状态权重,对各隐节点的状态进行加权求和得到输入的当前字符的中间语义向量。
在一些实施例中,上述输入单元进一步用于按照如下方式将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中:将输入字符序列中的字符分别按照正向排序和反向排序依次输入待生成的文本转换模型对应的神经网络中;编码器是由双向循环神经网络构建的,包括双层隐节点,双层隐节点中的一层隐节点对应按照正向排序输入的字符,双层隐节点中的另一层隐节点对应按照反向排序输入的字符。
在一些实施例中,上述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;上述第一分割结果中的非汉字字符是按照如下方式进行相应的标签化处理的:将第一分割结果中的符号字符替换为符号字符的读音类型的标签,将第一分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、在第一分割结果中的连续字母字符的首尾两端添加字母标签。
在一些实施例中,上述第二分割结果中的与输入文本中的非汉字字符对应的字符包括以下至少一项:与输入文本中的连续数字字符对应的第一汉字字符串、与输入文本中的符号字符对应的第二汉字字符串、以及与输入文本中的连续字母字符对应的多个字母字符;上述对第二分割结果中的多音字符和与输入文本中的非汉字字符对应的字符进行标签化处理,包括:将第二分割结果中的多音字符替换为用于标识多音字字符的读音类型的标签,将第二分割结果中的第一汉字字符串替换为对应的连续数字字符的语义类型的标签,将第二分割结果中的第二汉字字符串替换为对应的符号字符的读音类型的标签,在第二分割结果中的连续字母字符对应的多个字母字符的首尾两端添加字母标签。
第四方面,本申请实施例提供了一种文本转换装置,包括:获取单元,用于获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;提取单元,用于提取出输出字符序列中的用于标识多音字字符的读音类型的标签;转换单元,用于将待处理字符序列输入已训练的文本转换模型,得到输出字符序列;处理单元,用于对输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到待处理文本的正则化文本;其中,文本转换模型基于如第一方面提供的方法训练。
在一些实施例中,上述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;上述分割结果中的非汉字字符是按照如下方式进行标签化处理的:将分割结果中的符号字符替换为符号字符的读音类型的标签,将分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、将分割结果中的连续字母字符拆分为单个字母字符并在连续字母字符的首尾两端添加字母标签。
在一些实施例中,上述输出字符序列中的字符包括以下至少一项:与待处理文本中的单个非多音汉字字符对应的单个汉字字符、用于标识待处理文本中的多音字字符的读音类型的标签、与待处理文本中的连续数字字符对应的语义类型标签、与待处理文本中的符号字符对应的读音类型标签、以及与待处理文本中的连续字母字符对应的首尾两端包括字母标签的多个字母;上述处理单元进一步用于按照如下方式对输出字符序列中的字符进行去标签化处理:将输出字符序列中与待处理文本中的连续数字字符对应的语义类型标签替换为与语义类型标签对应的汉字字符;将输出字符序列中与待处理文本中的符号字符对应的读音类型标签替换为与读音类型标签对应的汉字字符;将输出字符序列中的字母标签删除。
本申请实施例提供的文本转换模型训练方法和装置,首先将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,神经网络包括编码器和解码器;然后,对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;之后根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列;其中,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列;目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。该方法实现了结合上下文的文本转换模型的自动化训练,得到的文本转换模型灵活性强,可以应用于复杂多样的文本。该方法训练得到的文本转换模型可实现文本正则化和多音字的联合预测,解决了文本正则化和多音字读音标注分别需要维护两份资源带来的资源维护成本的问题,并且训练得到的文本转换模型能够准确提取上下文信息,表达力强,可以提升文本正则化和多音字读音标注的准确性。
本申请实施例提供的文本转换方法和装置,首先获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;而后将待处理字符序列输入已训练的文本转换模型,得到目标输出字符序列;之后提取出输出字符序列中的用于标识多音字字符的读音类型的标签,对输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到待处理文本的正则化文本。其中,文本转换模型基于如下方式训练:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,文本转换模型对应的神经网络包括编码器和解码器;对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列。其中,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列。目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。通过这种文本转换方法能够同时进行文本正则化和多音字读音标注,实现了文本正则化和多音字读音的联合预测,有利于减小资源维护的人力成本和时间成本,并且该方法灵活性强、准确性高,可应用于语音合成中复杂文本的自动化转换,有利于应用该文本转换方法的语音合成系统提升合成效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的文本转换模型训练方法的一个实施例的流程示意图;
图3是根据本申请实施例的文本转换模型的一个结构示意图;
图4是根据本申请的文本转换方法的一个实施例的流程示意图;
图5是本申请的文本转换模型训练装置的一个实施例的结构示意图;
图6是本申请的文本转换装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的服务器或终端设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的文本转换模型的训练方法或装置、可以应用本申请的文本转换方法或装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102,网络103、以及服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102通过网络103与服务器104互,以接收或发送消息等。终端设备101、102上可以安装有各种语音交互类应用。
终端设备101、102可以是具有音频输入接口和音频输出接口并支持互联网访问的各种电子设备,包括但不限于智能手机、平板电脑、智能手表、电子书、智能音箱等。
服务器104可以是为语音服务提供支持的语音服务器,语音服务器可以接收终端设备101、102发出的语音交互请求,并对语音交互请求进行解析,然后查找相应的文本服务数据,将文本服务数据进行词性标注、文本正则化、多音字标注等处理后生成响应数据,并将生成的响应数据合成为语音数据后返回给终端设备101、102。
需要说明的是,本申请实施例所提供的文本转换模型训练方法和文本转换方法可以由终端设备101、102或服务器104执行,相应地,文本转换模型训练装置和文本转换装置可以设置于终端设备101、102或服务器104中。
应该理解,图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器。
继续参考图2,示出了根据本申请的文本转换模型训练方法的一个实施例的流程200。该文本转换模型训练方法,包括以下步骤:
步骤201,将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中。
在本实施例中,上述文本转换模型训练方法运行于其上的电子设备(例如图1所示的服务器)可以获取已对输入文本进行处理后得到的对应的输入字符串序列。输入字符串序列可以包括按照输入文本中从前向后的顺序依次排列的多个字符。可以将获取到的输入字符序列中的字符按顺序输入待生成的文本转换模型对应的神经网络中。
在本实施例中,待生成的文本转换模型对应的神经网络可以是基于序列到序列的神经网络,可以包括编码器和解码器,其中编码器用于对输入的序列进行编码,解码器用于对编码结果进行解码。在这里,解码器和编码器均可以基于RNN(Recurrent NeutralNetwork,循环神经网络)、CNN(Convolution Neutral Network,卷积神经网络)等神经网络模型构建。
上述输入文本对应的输入字符序列可以是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列。
具体来说,上述输入文本可以为包含字符类型为汉字、字母、符号、阿拉伯数字等的字符文本,其中汉字可以包括非多音字和多音字。上述第一预设粒度可以是用于划分输入文本中的字符的最小单位。第一预设粒度可以为按照字符长度设定的,例如第一预设粒度可以是一个字符长度,包括单个字符,单个字符可以包括单个汉字、单个字母、单个符号、单个阿拉伯数字。第一预设粒度也可以是结合字符类型和字符长度设定的,例如单个汉字、单个符号、连续的一串数字、连续的一串字母。在将输入文本按照第一预设粒度进行分割之后,得到第一分割结果,第一分割结果可以为顺序排列的字符。
在得到第一分割结果之后,可以将第一分割结果中的非汉字字符进行标签化处理,即可以将第一分割结果中的非汉字字符替换为对应的标签或在非汉字字符的特定位置增加相应的标签。具体地,可以根据第一分割结果中非汉字字符的不同字符类型,将各非汉字字符替换为对应的标签或在非汉字字符的特定位置增加对应的标签。其中,与各非汉字字符对应的标签可以是预先定义的。例如,可以将数字或符号根据其语义和读音类型替换为对应的标签,将不同的字母替换为同一个字母标签,等等。
可以预先人工将上述输入文本按照第一预设粒度进行分割,得到第一分割结果,并人工将第一分割结果中的非汉字字符按照其对应的类型(包括语义类型、读音类型等)替换为相应的标签;或者可以由上述电子设备对按照第一预设粒度分割输入文本得到第一分割结果,然后对第一分割结果中的非汉字字符进行语义分析或识别,得到非汉字字符的语义类型,并将非汉字字符替换为与其语义类型对应的标签。
在一些可选的实现方式中,可以将输入文本根据单个汉字、单个符号、连续数字、单个字母的第一预设粒度进行分割,分割结果中的非汉字字符可以包括以下至少一项:符号字符、连续数字字符、连续字母字符。上述对第一分割结果中的非汉字字符进行相应的标签化处理,可以包括:将第一分割结果中的符号字符替换为符号字符的读音类型的标签,将第一分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、在第一分割结果中的连续字母字符的首尾两端添加字母标签。具体地,可以将连续的超过两位以上的数字替换为数字标签,将符号替换为符号标签,在连续字母的首尾分别用首字母标签和尾字母标签,作为示例,其中数字标签可以为<INT_*>,其中“*”可以表示数字字符的长度等,符号标签可以为<SYM>,首字母标签和相应的尾字母标签可以分别为<ENG>和</ENG>。
表一示出了对一段输入文本按照第一预设粒度进行分割、并将第一分割结果中的非汉字字符进行标签化处理的结果的示例。
表一输入文本的第一分割处理结果和标签化处理结果
通过将非汉字字符进行标签化处理,本实施例的文本转换模型训练方法提升了模型的泛化性,能够被应用于处理复杂的文本。
步骤202,对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果。
在本实施例中,可以依次对输入字符序列中的每个字符采用编码器进行编码,随后对编码后的字符采用解码器进行解码。在编码过程中,输入字符由编码器编译为中间语义向量、随后解码器对中间语义向量进行解译。解译的过程具体为运算贪心算法来返回对应概率最大的词,或通过集束搜索方法来检索大量的词汇得到最优的选择。
假设输入字符序列为x1,x2,x3,…,在本实施例中,在对每一个字符xi(i=1,2,3,…)编码过程中,可以结合解码器中的隐藏层在上一个字符xi-1的解码完成后的状态,以及当前输入的字符xi来生成当前字符的中间语义向量c,具体可以对解码器中的隐藏层在上一个字符xi-1的解码完成后的状态以及当前输入的字符xi进行向量运算得到,其中x0可以设置为0。这样,可以在编码时结合当前输入的字符的上一个字符的相关信息,则在编码时结合了当前输入的字符之前的所有字符的相关信息,实现了结合上下文的编码。从而使得文本转换模型能够捕捉上下文信息进行正则化处理,提升模型的精确度。
可选地,在对输入字符序列进行编码之前,可以在输入字符序列的尾端添加句末标识符EOS。
在本实施例的一些可选的实现方式中,上述编码器可以是由RNN构建的,编码器可以包括与输入字符序列中的各字符一一对应的多个隐节点h1,h2,h3,…hTs,其中TS为输入字符序列的长度,则上述中间语义向量可以按照如下方式生成:基于解码器中的隐藏层在对输入的上一个字符解码后的状态,计算编码器中各隐节点的状态权重;基于状态权重,对各隐节点的状态进行加权求和得到输入的当前字符的中间语义向量
具体地,编码器中每个隐节点的状态ht为:
ht=f(xt,ht-1), (1)
其中,f是非线性激活函数,t=1,2,3,…,TS;h0=0。
假设解码器的输出序列为(y1,y2,y3,…),解码器在第t个输入字符xt解码后的隐藏层的状态st为:
st=f(yt-1,st-1,ct), (2)
其中,f是非线性激活函数,可以为sigmod函数;t=1,2,3,…,TS;st-1是解码器的隐藏层在对输入的上一个字符xt-1解码后的状态,s0=0;y0=0;ct为第t个字符对应的中间语义向量。在本实施例中,ct可以为输入的当前字符xt的中间语义向量,可以按照式(3)得出:
其中,状态权重α可以按照式(4)计算:
其中,η(st-1,hτ)为调整注意回应强度的函数,这里的注意回应强度可以是前面的字符对当前字符编码的影响力强度,可以是st-1与hτ点乘的结果,或者可以是st-1与hτ相加的结果。
解码器对第t个输入字符xt的编码结果解码时,根据如式(5)的概率公式找出使得概率p最大的输出字符yt作为解码结果:
p(yt|yt-1,yt-2,...,y1,ct)=g(yt-1,st,ct), (4)
其中,g是非线性变换函数,可以是softmax函数。
在进一步的实施例中,上述编码器可以是由双向循环神经网络(Bi-directionalRNN)构建的,包括双层隐节点。在上述步骤201中,可以将输入字符序列中的字符分别按照正向排序和反向排序依次输入待生成的文本转换模型对应的神经网络中,编码器中的一层隐节点对应按照正向排序输入的字符,另一层隐节点对应按照反向排序输入的字符。这时,由式(3)和式(4)可以看出,输入的当前字符xt的中间语义向量与解码器对xt之前和之后的两个字符xt-1、xt+1解码完成后的状态相关,则语义识别模型的训练过程可以更好地抓取上文和下文的信息。
具体地,请参考图3,其示出了根据本申请实施例的文本转换模型的一个结构示意图。如图3所示,输入字符序列为x1,x2,x3,…,xT,编码器包括两层隐节点,其中第一层隐节点包括与按照x1,x2,x3,…,xT的顺序输入的字符一一对应的多个隐节点 第二层隐节点包括与按照xT,…,x3,x2,x1的顺序输入的字符一一对应的多个隐节点解码器包括隐藏层,隐藏层在第t个输入字符xt解码后的状态为st。第t个输入字符xt的解码结果为yt
由式(2)及图3可以看出,解码器的隐藏层在对第t个字符解码后的状态st与对上一个字符解码后的状态st-1、对上一个字符的解码结果yt-1以及中间语义向量ct相关,其中,中间语义向量ct是由编码器中各隐节点的状态的加权和得出的。由式(4)可以看出,各隐节点的状态的权重α与解码器对上一个字符解码后的状态st-1相关。
由此,可以将输入字符序列中的各字符依次输入文本转换模型对应的神经网络中进行编码和解码,得到包含对应于输入字符序列的各字符的解码结果,即为输入字符序列的预测结果。
步骤203,根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整。
在得到输入字符序列的预测结果之后,可以与已标注的输入文本的标注结果进行比对,计算二者之间的差异,然后根据差异对神经网络的参数进行调整。在这里,标注结果可以包括已标注的与输入文本的正则化文本对应的目标字符序列。
具体来说,在对文本转换模型进行训练时,可以标注输入文本对应的输出结果,形成输入文本对应的标注结果,作为已标注的样本数据。输入文本对应的标注结果可以是人工标注的、输入文本的精确的转换结果,包括正则化结果和读音标注结果。在上述文本转换模型对应的神经网络对输入文本进行预测得到预测结果之后,若预测结果与标注结果的差异较大,则表明神经网络准确度有待提升,这时,可以调整神经网络的参数。神经网络的参数具体可以包括上述非线性激活函数f中的参数以及上述非线性变换函数g中的参数。
进一步地,上述预测结果与标注结果之间的差异可以由损失函数来表示,然后计算损失函数关于神经网络中各参数的梯度,采用梯度下降法来更新各参数,将输入字符序列重新输入更新参数后的神经网络,得到新的预测结果,之后在重复上述更新参数的步骤,直到损失函数符合预设的收敛条件。这时,得到神经网络的训练结果,即文本转换模型。
在本实施例中,与以前述表一作为示例的输入文本的对应的输入字符序列的生成方式相应地,已标注的与输入文本的正则化文本对应的目标字符序列可以按照如下方式生成:
首先,将与输入文本对应的正则化文本按照第二预设粒度进行分割,得到第二分割结果。第二预设粒度可以是预先设定的最小划分单位,可以包括:单个汉字字符、单个字母字符。第二预设粒度可以与第一预设粒度相对应,例如第一预设粒度可以为:单个符号、连续数字、连续英文字母以及单个汉字,对应的第二预设粒度可以为;与单个符号对应的至少一个汉字、与连续数字对应的至少一个汉字、与连续英文字母对应的多个英文字母以及与单个汉字字符对应的单个汉字。在这里,单个汉字字符包括多音字字符和非多音字字符。
然后,可以对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。具体地,可以将第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的汉字或英文字符分别替换为用于标识这些字符的属性的标签,或者添加用于标识这些字符的标签。
在本实施例的一些可选的实现方式中,上述第二分割结果中与输入文本中的非汉字字符对应的字符可以包括以下至少一项:与输入文本中的连续数字字符对应的第一汉字字符串、与输入文本中的符号字符对应的第二汉字字符串、以及与输入文本中的连续字母字符对应的多个字母字符。
然后,可以将多音字字符替换为用于标识该多音字的读音类型的标签,可以将第二分割结果中的第一汉字字符串替换为对应的连续数字字符的语义类型的标签,将第二分割结果中的第二汉字字符串替换为对应的符号字符的读音类型的标签,在第二分割结果中的连续字母字符对应的多个字母字符的首尾两端添加字母标签。其中,用于标识多音字的读音类型的标签、符号字符的读音类型的标签以及连续数字字符的语义类型的标签可以预先设定。可选地,可以将多音字与其读音类型的标识符组合生成用于标识该多音字的读音类型的标签。
举例来说,连续数字字符“110”的语义类型可以包括数值(例如“110”千克中110为数值)、数字串(例如报警电话“110”中的“110”为数字串)、编号(例如“选手号码110”中的“110”为号码)等。示例性地,用于标识多音字M的读音类型的标签可以为<DYZ_M_*>,这里的“*”表示多音字的读音类型的标识符,与第一汉字字符串对应的标签可以为<LABEL1_*>,其中“*”可以表示语义类型的序号等标识符;与第二汉字字符串对应的标签可以<LABEL2_*>,其中“*”可以表示读音类型的序号等标识符;首字母标签和相应的尾字母标签可以分别为<ENG>和</ENG>。
表二示出了与表一中的输入文本“这游戏发售在PS3和xbox360上会更好”对应的正则化文本“这游戏发售在PS三河xbox三六零上会更好”的进行处理得到对应的输出字符序列的示例。
表二对与输入文本对应的正则化文本处理得到输出字符序列的结果
其中,<LABEL1_D>表示三六零对应的数字字符“360”的语义类型“数字串”,<DYZ_发_A>为表示多音字“发”的读音类型为拼音“fā”(一声)。
从表一和表二可以看出,输入文本中的连续数字、字符、英文字母被替换为标签,并且输出字符序列中的多音字、连续数字、字符、连续英文字母也被替换为对应的标签。这样,简化了非汉字字符和多音字的转换方式,在训练过程中,文本转换模型更容易学习到非汉字字符和多音字字符的转换逻辑,能够提升文本转换模型的准确性。并且,本实施的文本转换模型训练方法通过对作为训练样本的输入文本和正则化文本进行标签化处理,能够对非汉字字符进行准确的正则化处理,同时确定多音字的读音,进一步提升了文本转换模型的准确性。
本申请上述实施例提供的文本转换模型训练方法,首先将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,神经网络包括编码器和解码器;然后,对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;之后根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列;其中,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列;已标注的与输入文本的正则化文本对应的目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。该方法实现了结合上下文的文本转换模型的自动化训练,得到的文本转换模型灵活性强,可以应用于复杂多样的文本。该方法训练得到的文本转换模型可实现文本正则化和多音字的联合预测,解决了文本正则化和多音字读音标注分别需要维护两份资源带来的资源维护成本的问题,并且训练得到的文本转换模型能够准确提取上下文信息,表达力强,可以提升文本正则化和多音字读音标注的准确性。
请参考图4,其示出了根据本申请的文本转换方法的一个实施例的流程图。如图4所示,本实施例的文本转换方法的流程400,可以包括以下步骤:
步骤401,获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列。
在本实施例中,第一预设粒度可以例如为单个汉字、单个符号、连续数字、连续字母。可以将待处理文本按照第一预设粒度进行分割,将待处理文本拆分为包含汉字字符和非汉字字符的序列。这里的汉字字符可以包括多音字字符和非多音字字符。然后可以对分割结果中的非汉字字符进行标签化处理,可以将非汉字字符替换为对应的标签、或在非汉字字符的特定位置添加对应的标签,然后将汉字字符和标签化处理后的非汉字字符按照待处理文本中各字符的顺序排列,得到待处理字符序列。
上述文本转换方法运行于其上的电子设备可以获取该待处理字符序列。若上述待处理字符序列是由人工对待处理文本进行分割、并进行标签化处理后得到的,则该电子设备可以获取用户通过输入接口输入的待处理字符序列;若上述待处理字符序列是由上述电子设备对待处理文本进行分割、并进行标签化处理后得到的,则该电子设备可以直接从缓存中获取该待处理字符序列。
在本实施例的一些可选的实现方式中,对待处理文本进行分割后得到的非汉字字符可以包括以下至少一项:符号字符、连续数字字符、连续字母字符。分割结果中的非汉字字符可以是按照如下方式进行标签化处理的:将分割结果中的符号字符替换为符号字符的读音类型的标签,将分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、将分割结果中的连续字母字符拆分为单个字母字符并在连续字母字符的首尾两端添加字母标签。
作为示例,待处理文本为“费德勒以3:1的比分赢下了比赛,本场比赛他发出了11记Ace球”,其中包含符号字符“:”、连续数字字符“11”、以及连续字母字符“Ace”。可以按照单个汉字、单个符号、连续数字、连续字母的粒度对待处理文本进行分割。符号字符“:”的读音为“比”的读音,可以替换为其读音类型的标签<lab1_A>、连续数字字符可以替换为其语义类型“数值”的标签<lab2_C>,可以将字符“Ace”字符拆分为单个字母“A”、“c”、“e”并在“A”之前添加首字母标签<ENG>,在“e”之后添加尾字母标签</ENG>。
步骤402,将待处理字符序列输入已训练的文本转换模型,得到输出字符序列。
在本实施例中,文本转换模型可以基于前面结合图2描述的方法训练。具体地,在训练文本转换模型时,提供输入文本和输入文本对应的正则化文本作为训练样本。可以首先将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,其中文本转换模型对应的神经网络包括编码器和解码器;然后对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;之后根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,其中标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列。在这里,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列。已标注的与输入文本的正则化文本对应的目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。
可以看出,本实施例步骤401获取的待处理字符序列与文本转换模型训练方法中的输入字符序列是分别由用于训练的输入文本和待处理文本经过相同的分割、标签化处理后得到的。则待处理字符序列与文本转换模型训练方法中的输入字符序列的形式是相同。
在将待处理字符序列输入文本转换模型处理之后,可以输出与待处理字符序列对应的输出字符序列。输出字符序列中可以包括与对应的待处理字符序列中的各标签对应的标签以及与待处理字符序列中的多音字字符对应的标签。
步骤403,提取出输出字符序列中的用于标识多音字字符的读音类型的标签。
在得到输出字符序列之后,可以将其中用于标识多音字字符的读音类型的标签提取出来。在本实施例中,上述文本转换模型可以将待处理文本中的多音字转换为用于标识该多音字的读音类型的标签。这些标签可以是预先设定的、与多音字的读音类型一一对应的。可以根据预先设定的用于标识多音字字符的读音类型的标签的格式将其从输出字符序列中提取出来,将提取出的标签作为多音字的读音标注结果。
可选地,用于标识多音字字符的读音类型的标签可以包含用于与其他字符类型的标签区分的标识符,举例来说,对于多音字“差”,标签<DYZ_差_A>表示第一种读音类型:chā(一声),标签<DYZ_差_B>表示第二种读音类型:chà(四声),标签<DYZ_差_C>表示第一种读音类型:chāi(一声),标签<DYZ_差_D>表示第四种读音类型:cī(一声)。各标签中的“DYZ”即为上述标识符,用于将多音字字符对应的标签区分于符号字符对应的标签、连续数字字符对应的标签和连续字母字符对应的标签。这时,可以根据该标识符把用于标识多音字字符的读音类型的标签提取出来。进一步地,可以根据该标签生成多音字字符的读音信息,将该读音信息作为对应的多音字字符的属性信息,与对应的多音字字符关联地存储。
步骤404,对输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到待处理文本的正则化文本。
然后,可以对输出字符序列中的字符进行去标签化处理,即可以将输出字符序列中的标签进行替换或删除,具体可以将输出字符序列中的标签替换为对应的汉字字符或英文字符,或者将一些特定的标签删除。在去除字符序列中的标签之后,可以按照输出字符序列中字符的排列顺序依次将各个字符组合起来,生成待处理文本的正则化文本。
在本实施例的一些可选的实现方式中,上述输出字符序列中的字符包括以下至少一项:与待处理文本中的单个非多音汉字字符对应的单个汉字字符、用于标识待处理文本中的多音字字符的读音类型的标签、与待处理文本中的连续数字字符对应的语义类型标签、与待处理文本中的符号字符对应的读音类型标签、以及与待处理文本中的连续字母字符对应的首尾两端包括字母标签的多个字母。举例来说,上述待处理文本“费德勒以3:1的比分赢下了比赛,本场比赛他发出了11记Ace球”在经过文本转换模型处理后得到的输出字符序列为:费德<DYZ_勒_A>以三<lab1_A>一<DYZ_的_D>比<DYZ_分_A>赢下<DYZ_了_A>比赛,本<DYZ_场_B>比赛他<DYZ_发_A>出<DYZ_了_A><lab2_C>记<ENG>A c e</ENG>球。
与上述对待处理文本的分割结果进行标签化处理的方法相应地,可以按照如下方式对输出序列中的字符进行去标签化处理:将输出字符序列中用于标识待处理文本中的多音字字符的读音类型的标签替换为对应的多音字字符,将输出字符序列中与待处理文本中的连续数字字符对应的语义类型标签替换为与语义类型标签对应的汉字字符;将输出字符序列中与待处理文本中的符号字符对应的读音类型标签替换为与读音类型标签对应的汉字字符;将输出字符序列中的字母标签删除。例如在上述示例输出字符序列为“费德<DYZ_勒_A>以三<lab1_A>一<DYZ_的_D>比<DYZ_分_A>赢下<DYZ_了_A>比赛,本<DYZ_场_B>比赛他<DYZ_发_A>出<DYZ_了_A><lab2_C>记<ENG>A c e</ENG>球”的示例中,可以将各多音字字符对应的标签替换为对应的多音字,将“<DYZ_勒_A>”替换为“勒”,将“<DYZ_的_D>”替换为“的”,将“<DYZ_分_A>”替换为“分”,将“<DYZ_了_A>”替换为“了”,将“<DYZ_场_B>”替换为“场”,将“<DYZ_发_A>”替换为“发”。可以将与连续数字字符“11”对应的语义类型标签<lab2_C>替换为与语义类型“数值”对应的汉字字符“十一”,可以将与符号字符“:”对应的读音类型标签<lab1_A>替换为读音类型对应的汉字字符“比”,可以将首字母标签和尾字母标签删除,得到去标签化后的输出字符序列“费德勒以三比一的比分赢下了比赛,本场比赛他发出了十一记A c e球”。之后,将该字符序列中的字符按顺序组合即可得到文本正则化的结果“费德勒以三比一的比分赢下了比赛,本场比赛他发出了十一记Ace球”。
需要说明的是,本实施例中对待处理文本进行分割、并将分割结果中的非汉字字符进行标签化处理的具体实现方式还可以参考前述文本转换模型训练方法的实施例中对输入文本进行分割得到第一分割结果、并对第一分割结果中的非汉字字符进行标签化处理的具体实现方式,此处不再赘述。
本申请实施例提供的文本转换方法,首先获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;而后将待处理字符序列输入已训练的文本转换模型,得到目标输出字符序列;之后提取出输出字符序列中的用于标识多音字字符的读音类型的标签,对输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到待处理文本的正则化文本。其中,文本转换模型基于如下方式训练:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,文本转换模型对应的神经网络包括编码器和解码器;对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列。其中,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列。目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。通过这种文本转换方法能够同时执行文本正则化和多音字读音标注,实现了文本正则化和多音字读音的联合预测,有利于减小资源维护的人力成本和时间成本,并且该方法灵活性强、准确性高,可应用于语音合成中复杂文本的自动化转换,有利于应用该文本转换方法的语音合成系统提升合成效率。
进一步参考图5,作为对上述图2所示方法的实现,本申请提供了一种文本转换模型的训练装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的文本转换模型的训练装置500可以包括:输入单元501、预测单元502以及调整单元503。其中输入单元501可以用于将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中。文本转换模型对应的神经网络包括编码器和解码器,输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列。预测单元502可以用于对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果。调整单元503可以用于根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,其中,标注结果可以包括已标注的与输入文本的正则化文本对应的目标字符序列。
在本实施例中,输入单元501可以获取已对输入文本进行处理后得到的对应的输入字符串序列,并将获取到的输入字符序列中的字符按顺序输入待生成的文本转换模型对应的神经网络中。
在这里,文本转换模型对应的神经网络可以包括编码器和解码器,编码器和解码器均可以基于RNN、CNN等神经网络模型构建。其中编码器用于对输入的字符进行编码,解码器用于对编码结果进行解码。
预测单元502可以对输入字符序列中每个字符的输出结果进行预测。具体地,预测单元502可以依次对输入字符序列中的每个字符采用编码器进行编码,随后对编码后的字符采用解码器进行解码。在编码过程中,输入字符由编码器编译为中间语义向量、随后解码器对中间语义向量进行解译。解译的过程具体为运算贪心算法来返回对应概率最大的词,或通过集束搜索方法来检索大量的词汇得到最优的选择。
在对每一个字符编码过程中,可以结合解码器中的隐藏层在上一个字符的解码完成后的状态,以及当前输入的字符来生成当前字符的中间语义向量,具体可以对解码器中的隐藏层在上一个字符的解码完成后的状态以及当前输入的字符进行向量运算得到。这样,在对当前字符编码时结合了上一个字符的解码结果,由此可以在训练文本转换模型过程中精准地提取上下文信息,从而进行正确的字符转换。
调整单元503可以将预测单元502的预测结果与已标注的输入文本的标注结果进行比对,计算二者之间的差异。在这里,标注结果可以包括已标注的与输入文本的正则化文本对应的目标字符序列,该目标字符序列可以按照如下方式生成:首先,将与输入文本对应的正则化文本按照第二预设粒度进行分割,得到第二分割结果,然后,可以对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。
在比对预测结果与标注结果时,调整单元503具体可以基于比对结果构建损失函数。然后可以根据损失函数对文本转换模型对应的神经网络中的参数进行调整。具体来说,可以采用梯度下降法,计算损失函数关于各参数的梯度,按照设定的学习率沿梯度方向调整参数,得到调整后的参数。
之后,预测单元502可以基于调整参数后的神经网络对输入文本的转换结果进行预测,并将预测结果提供至调整单元503,继而调整单元503可以继续对参数进行调整。这样,通过预测单元502和调整单元503不断对神经网络的参数进行调整,使得预测结果逼近标注结果,在预测结果与标注结果之间的差异满足预设的收敛条件时得到训练好的文本转换模型。
在一些实施例中,上述编码器可以由循环神经网络构建,包括与输入字符序列中的各字符一一对应的多个隐节点。这时,预测单元502可以进一步用于按照如下方式采用编码器进行编码,得到字符的中间语义向量:基于解码器中的隐藏层在对输入的上一个字符解码后的状态,计算编码器中各隐节点的状态权重;基于状态权重,对各隐节点的状态进行加权求和得到输入的当前字符的中间语义向量。
在一些实施例中,上述输入单元501可以进一步用于按照如下方式将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中:将输入字符序列中的字符分别按照正向排序和反向排序依次输入待生成的文本转换模型对应的神经网络中。并且,上述编码器是由双向循环神经网络构建的,包括双层隐节点,双层隐节点中的一层隐节点对应按照正向排序输入的字符,双层隐节点中的另一层隐节点对应按照反向排序输入的字符。
在一些实施例中,上述非汉字字符可以包括以下至少一项:符号字符、连续数字字符、连续字母字符。这时,上述第一分割结果中的非汉字字符是按照如下方式进行相应的标签化处理的:将第一分割结果中的符号字符替换为符号字符的读音类型的标签,将第一分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、在第一分割结果中的连续字母字符的首尾两端添加字母标签。
在进一步的实施例中,上述第二分割结果中的与输入文本中的非汉字字符对应的字符可以包括以下至少一项:与输入文本中的连续数字字符对应的第一汉字字符串、与输入文本中的符号字符对应的第二汉字字符串、以及与输入文本中的连续字母字符对应的多个字母字符。这时,上述第二分割结果中的多音字符和与输入文本中的非汉字字符对应的字符是按照如下方式进行标签化处理的:将第二分割结果中的多音字符替换为用于标识多音字字符的读音类型的标签;将第二分割结果中的第一汉字字符串替换为对应的连续数字字符的语义类型的标签,将第二分割结果中的第二汉字字符串替换为对应的符号字符的读音类型的标签,在第二分割结果中的连续字母字符对应的多个字母字符的首尾两端添加字母标签。
本申请上述实施例的文本转换模型训练装置500,输入单元将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,神经网络包括编码器和解码器;然后预测单元对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;之后调整单元根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列。其中,输入文本对应的输入字符序列按照如下方式生成:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列。目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。该装置500解决了文本正则化和多音字读音标注分别需要维护两份资源带来的资源维护成本的问题,并且训练过程中能够准确提取上下文信息,表达力强,提升了文本正则化和多音字读音标注的准确性。
应当理解,装置500中记载的诸单元可以与参考图2描述的方法中的各个步骤相对应。由此,上文针对文本转换模型训练方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
进一步参考图6,作为对上述图4所示方法的实现,本申请提供了一种文本转换装置的一个实施例,该装置实施例与图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的文本转换装置600可以包括:获取单元601、转换单元602、提取单元603以及处理单元604。其中获取单元601可以用于获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;转换单元602可以用于将待处理字符序列输入已训练的文本转换模型,得到输出字符序列;处理单元603可以用于对输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到待处理文本的正则化文本。其中,文本转换模型可以基于上述结合图2描述的方法训练,或者可以由上述结合图5描述的装置训练。具体地,文本转换模型可以按照如下方式训练:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,文本转换模型对应的神经网络包括编码器和解码器;对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整;其中,标注结果包括已标注的与输入文本的正则化文本对应的目标字符序列;输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列;已标注的与输入文本的正则化文本对应的目标字符序列是按照如下方式生成的:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。
在本实施例中,获取单元601可以通过输入接口获取人工对待处理文本进行分割、标签化处理后的待处理字符序列,也可以从存储器中调取装置600运行于其上的电子设备对待处理文本进行分割、标签化处理后的待处理字符序列。
在本实施例的一些可选的实现方式中,对待处理文本进行分割后得到的非汉字字符可以包括以下至少一项:符号字符、连续数字字符、连续字母字符。这时,分割结果中的非汉字字符可以是按照如下方式进行标签化处理的:将分割结果中的符号字符替换为符号字符的读音类型的标签,将分割结果中的连续数字字符替换为连续数字字符的语义类型的标签、将分割结果中的连续字母字符拆分为单个字母字符并在连续字母字符的首尾两端添加字母标签。
转换单元602可以将待处理字符序列输入已训练的文本转换模型中进行字符转换。该文本转换模型可以是基于深度网络的模型,包括编码器和解码器。其中,编码器可以依次对输入字符序列中的每个字符采用编码器进行编码,随后对编码后的字符采用解码器进行解码。在编码过程中,可以结合解码器中的隐藏层在上一个字符的解码完成后的状态,以及当前输入的字符来生成当前字符的中间语义向量,随后解码器对中间语义向量进行解译。解译的过程具体为运算贪心算法来返回对应概率最大的词,或通过集束搜索方法来检索大量的词汇得到最优的选择。这样,通过编码器和解码器可以将输入的待处理字符序列解译为输出字符序列。
上述文本转换模型可以将待处理文本中的多音字转换为用于标识该多音字的读音类型的标签。这些标签可以是预先设定的、与多音字的读音类型一一对应的。提取单元603可以根据预先设定的用于标识多音字字符的读音类型的标签的格式将其从输出字符序列中提取出来,将提取出的标签作为多音字的读音标注结果。
处理单元604可以对转换单元602得到的输出字符序列中的多音字字符和非汉字字符进行去标签化处理,具体可以将标签替换为对应的汉字字符,或删除其中的一些标签。然后可以将去标签化处理后得到的字符序列依次组合,形成待处理文本的正则化文本。
在本实施例的一些可选的实现方式中,上述输出字符序列中的字符可以包括以下至少一项:与待处理文本中的单个非多音汉字字符对应的单个汉字字符、用于标识所述待处理文本中的多音字字符的读音类型的标签、与待处理文本中的连续数字字符对应的语义类型标签、与待处理文本中的符号字符对应的读音类型标签、以及与待处理文本中的连续字母字符对应的首尾两端包括字母标签的多个字母。这时,处理单元604可以进一步用于按照如下方式对输出字符序列中的字符进行去标签化处理:将输出字符序列中用于标识待处理文本中的多音字字符的读音类型的标签替换为对应的多音字字符;将输出字符序列中与待处理文本中的连续数字字符对应的语义类型标签替换为与语义类型标签对应的汉字字符;将输出字符序列中与待处理文本中的符号字符对应的读音类型标签替换为与读音类型标签对应的汉字字符;将输出字符序列中的字母标签删除。
本申请实施例的文本转换装置600,获取单元获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;而后转换单元将待处理字符序列输入已训练的文本转换模型,得到目标输出字符序列;最后提取单元提取出输出字符序列中的用于标识多音字字符的读音类型的标签,处理单元对输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到待处理文本的正则化文本。其中,文本转换模型基于如下方式训练:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,文本转换模型对应的神经网络包括编码器和解码器;对输入字符序列中的每个字符,基于解码器中的隐藏层在对输入的上一个字符解码后的状态,采用编码器进行编码,得到字符的中间语义向量,并采用解码器对中间语义向量进行解译,得到字符的预测结果;根据输入字符序列的预测结果与输入文本对应的标注结果之间的差异,对神经网络的参数进行调整;其中,标注结果包括已标注的与所述输入文本的正则化文本对应的目标字符序列;输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对输入文本进行分割得到第一分割结果;对第一分割结果中的非汉字字符进行相应的标签化处理,得到输入字符序列;目标字符序列按照如下方式生成:将与输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对第二分割结果中的多音字字符和与输入文本中的非汉字字符对应的字符进行相应的标签化处理。通过这种文本转换装置实现了文本正则化和多音字读音的联合预测,有利于减小资源维护的人力成本和时间成本,并且该方法灵活性强、准确性高,可应用于语音合成中复杂文本的自动化转换
应当理解,装置600中记载的诸单元可以与参考图4描述的文本转换方法中的各个步骤相对应。由此,上文针对文本转换方法描述的操作和特征同样适用于装置600及其中包含的单元,在此不再赘述。
下面参考图7,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统700的结构示意图。图7示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括输入单元、预测单元和调整单元;以及一种处理器包括获取单元、转换单元、提取单元和处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,输入单元还可以被描述为“将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,所述文本转换模型对应的神经网络包括编码器和解码器;对所述输入字符序列中的每个字符,基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态,采用所述编码器进行编码,得到所述字符的中间语义向量,并采用所述解码器对所述中间语义向量进行解译,得到所述字符的预测结果;根据所述输入字符序列的预测结果与所述输入文本对应的标注结果之间的差异,对所述神经网络的参数进行调整,所述标注结果包括已标注的与所述输入文本的正则化文本对应的目标字符序列;其中,所述输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对所述输入文本进行分割得到第一分割结果;对所述第一分割结果中的非汉字字符进行相应的标签化处理,得到所述输入字符序列;所述目标字符序列是按照如下方式生成的:将与所述输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对所述第二分割结果中的多音字字符和与所述输入文本中的非汉字字符对应的字符进行相应的标签化处理。
本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;将所述待处理字符序列输入已训练的文本转换模型,得到输出字符序列;提取出所述输出字符序列中的用于标识多音字字符的读音类型的标签;对所述输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到所述待处理文本的正则化文本;其中,所述文本转换模型基于如下方式训练:将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,所述文本转换模型对应的神经网络包括编码器和解码器;对所述输入字符序列中的每个字符,基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态,采用所述编码器进行编码,得到所述字符的中间语义向量,并采用所述解码器对所述中间语义向量进行解译,得到所述字符的预测结果;根据所述输入字符序列的预测结果与所述输入文本对应的标注结果之间的差异,对所述神经网络的参数进行调整,所述标注结果包括已标注的与所述输入文本的正则化文本对应的目标字符序列;其中,所述输入文本对应的输入字符序列是按照如下方式生成的:按照第一预设粒度对所述输入文本进行分割得到第一分割结果;对所述第一分割结果中的非汉字字符进行相应的标签化处理,得到所述输入字符序列;所述目标字符序列是按照如下方式生成的:将与所述输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;对所述第二分割结果中的多音字字符和与所述输入文本中的非汉字字符对应的字符进行相应的标签化处理。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (20)

1.一种文本转换模型的训练方法,其特征在于,所述方法包括:
将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,所述文本转换模型对应的神经网络包括编码器和解码器;
对所述输入字符序列中的每个字符,基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态,采用所述编码器进行编码,得到所述字符的中间语义向量,并采用所述解码器对所述中间语义向量进行解译,得到所述字符的预测结果;
根据所述输入字符序列的预测结果与所述输入文本对应的标注结果之间的差异,对所述神经网络的参数进行调整,所述标注结果包括已标注的与所述输入文本的正则化文本对应的目标字符序列;
其中,所述输入文本对应的输入字符序列是按照如下方式生成的:
按照第一预设粒度对所述输入文本进行分割得到第一分割结果;
对所述第一分割结果中的非汉字字符进行相应的标签化处理,得到所述输入字符序列;
所述目标字符序列是按照如下方式生成的:
将与所述输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;
对所述第二分割结果中的多音字字符和与所述输入文本中的非汉字字符对应的字符进行相应的标签化处理。
2.根据权利要求1所述的方法,其特征在于,所述编码器由循环神经网络构建,包括与所述输入字符序列中的各字符一一对应的多个隐节点;
所述基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态,采用所述编码器进行编码,得到所述字符的中间语义向量,包括:
基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态,计算所述编码器中各隐节点的状态权重;
基于所述状态权重,对各所述隐节点的状态进行加权求和得到输入的当前字符的中间语义向量。
3.根据权利要求2所述的方法,其特征在于,所述将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,包括:
将所述输入字符序列中的字符分别按照正向排序和反向排序依次输入所述待生成的文本转换模型对应的神经网络中;
所述编码器是由双向循环神经网络构建的,包括双层隐节点,所述双层隐节点中的一层隐节点对应按照正向排序输入的字符,所述双层隐节点中的另一层隐节点对应按照反向排序输入的字符。
4.根据权利要求1所述的方法,其特征在于,所述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;
所述对所述第一分割结果中的非汉字字符进行相应的标签化处理,包括:
将所述第一分割结果中的符号字符替换为所述符号字符的读音类型的标签,将所述第一分割结果中的连续数字字符替换为所述连续数字字符的语义类型的标签、在所述第一分割结果中的连续字母字符的首尾两端添加字母标签。
5.根据权利要求4所述的方法,其特征在于,
所述第二分割结果中的与所述输入文本中的非汉字字符对应的字符包括以下至少一项:与所述输入文本中的连续数字字符对应的第一汉字字符串、与所述输入文本中的符号字符对应的第二汉字字符串、以及与所述输入文本中的连续字母字符对应的多个字母字符;
所述对所述第二分割结果中的多音字符和与所述输入文本中的非汉字字符对应的字符进行标签化处理,包括:
将所述第二分割结果中的多音字符替换为用于标识所述多音字字符的读音类型的标签,将所述第二分割结果中的第一汉字字符串替换为对应的所述连续数字字符的语义类型的标签,将所述第二分割结果中的第二汉字字符串替换为对应的所述符号字符的读音类型的标签,在所述第二分割结果中的连续字母字符对应的多个字母字符的首尾两端添加字母标签。
6.一种文本转换方法,其特征在于,所述方法包括:
获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;
将所述待处理字符序列输入已训练的文本转换模型,得到输出字符序列;
提取出所述输出字符序列中的用于标识多音字字符的读音类型的标签;
对所述输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到所述待处理文本的正则化文本;
其中,所述文本转换模型基于如权利要求1-5任一项所述的方法训练。
7.根据权利要求6所述的方法,其特征在于,所述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;
所述分割结果中的非汉字字符是按照如下方式进行标签化处理的:
将分割结果中的符号字符替换为所述符号字符的读音类型的标签,将分割结果中的连续数字字符替换为所述连续数字字符的语义类型的标签、将分割结果中的连续字母字符拆分为单个字母字符并在连续字母字符的首尾两端添加字母标签。
8.根据权利要求7所述的方法,其特征在于,所述输出字符序列中的字符包括以下至少一项:与所述待处理文本中的单个非多音汉字字符对应的单个汉字字符、用于标识所述待处理文本中的多音字字符的读音类型的标签、与所述待处理文本中的连续数字字符对应的语义类型标签、与所述待处理文本中的符号字符对应的读音类型标签、以及与所述待处理文本中的连续字母字符对应的首尾两端包括字母标签的多个字母;
所述对所述输出字符序列中的字符进行去标签化处理,包括:
将所述输出字符序列中用于标识所述待处理文本中的多音字字符的读音类型的标签替换为对应的多音字字符;
将所述输出字符序列中与所述待处理文本中的连续数字字符对应的语义类型标签替换为与所述语义类型标签对应的汉字字符;
将所述输出字符序列中与所述待处理文本中的符号字符对应的读音类型标签替换为与所述读音类型标签对应的汉字字符;
将所述输出字符序列中的字母标签删除。
9.一种文本转换模型训练装置,其特征在于,所述装置包括:
输入单元,用于将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中,所述文本转换模型对应的神经网络包括编码器和解码器;
预测单元,用于对所述输入字符序列中的每个字符,基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态,采用所述编码器进行编码,得到所述字符的中间语义向量,并采用所述解码器对所述中间语义向量进行解译,得到所述字符的预测结果;
调整单元,用于根据所述输入字符序列的预测结果与所述输入文本对应的标注结果之间的差异,对所述神经网络的参数进行调整,所述标注结果包括已标注的与所述输入文本的正则化文本对应的目标字符序列;
其中,所述输入文本对应的输入字符序列是按照如下方式生成的:
按照第一预设粒度对所述输入文本进行分割得到第一分割结果;
对所述第一分割结果中的非汉字字符进行相应的标签化处理,得到所述输入字符序列;
所述目标字符序列是按照如下方式生成的:
将与所述输入文本对应的正则化文本按照第二预设粒度进行分割得到第二分割结果;
对所述第二分割结果中的多音字字符和与所述输入文本中的非汉字字符对应的字符进行相应的标签化处理。
10.根据权利要求9所述的装置,其特征在于,所述编码器由循环神经网络构建,包括与所述输入字符序列中的各字符一一对应的多个隐节点;
所述预测单元进一步用于按照如下方式采用所述编码器进行编码,得到所述字符的中间语义向量:
基于所述解码器中的隐藏层在对输入的上一个字符解码后的状态,计算所述编码器中各隐节点的状态权重;
基于所述状态权重,对各所述隐节点的状态进行加权求和得到输入的当前字符的中间语义向量。
11.根据权利要求10所述的装置,其特征在于,所述输入单元进一步用于按照如下方式将输入文本对应的输入字符序列中的字符依次输入待生成的文本转换模型对应的神经网络中:
将所述输入字符序列中的字符分别按照正向排序和反向排序依次输入所述待生成的文本转换模型对应的神经网络中;
所述编码器是由双向循环神经网络构建的,包括双层隐节点,所述双层隐节点中的一层隐节点对应按照正向排序输入的字符,所述双层隐节点中的另一层隐节点对应按照反向排序输入的字符。
12.根据权利要求9所述的装置,其特征在于,所述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;
所述第一分割结果中的非汉字字符是按照如下方式进行相应的标签化处理的:
将所述第一分割结果中的符号字符替换为所述符号字符的读音类型的标签,将所述第一分割结果中的连续数字字符替换为所述连续数字字符的语义类型的标签、在所述第一分割结果中的连续字母字符的首尾两端添加字母标签。
13.根据权利要求12所述的装置,其特征在于,所述第二分割结果中的与所述输入文本中的非汉字字符对应的字符包括以下至少一项:与所述输入文本中的连续数字字符对应的第一汉字字符串、与所述输入文本中的符号字符对应的第二汉字字符串、以及与所述输入文本中的连续字母字符对应的多个字母字符;
所述对所述第二分割结果中的多音字符和与所述输入文本中的非汉字字符对应的字符进行标签化处理,包括:
将所述第二分割结果中的多音字符替换为用于标识所述多音字字符的读音类型的标签,将所述第二分割结果中的第一汉字字符串替换为对应的所述连续数字字符的语义类型的标签,将所述第二分割结果中的第二汉字字符串替换为对应的所述符号字符的读音类型的标签,在所述第二分割结果中的连续字母字符对应的多个字母字符的首尾两端添加字母标签。
14.一种文本转换装置,其特征在于,包括:
获取单元,用于获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的非汉字字符进行标签化处理后得到的待处理字符序列;
转换单元,用于将所述待处理字符序列输入已训练的文本转换模型,得到输出字符序列;
提取单元,用于提取出所述输出字符序列中的用于标识多音字字符的读音类型的标签;
处理单元,用于对所述输出字符序列中的字符进行去标签化处理,并按顺序组合标签化处理后的各字符,得到所述待处理文本的正则化文本;
其中,所述文本转换模型基于如权利要求1-5任一项所述的方法训练。
15.根据权利要求14所述的装置,其特征在于,所述非汉字字符包括以下至少一项:符号字符、连续数字字符、连续字母字符;
所述分割结果中的非汉字字符是按照如下方式进行标签化处理的:
将分割结果中的符号字符替换为所述符号字符的读音类型的标签,将分割结果中的连续数字字符替换为所述连续数字字符的语义类型的标签、将分割结果中的连续字母字符拆分为单个字母字符并在连续字母字符的首尾两端添加字母标签。
16.根据权利要求15所述的装置,其特征在于,所述输出字符序列中的字符包括以下至少一项:与所述待处理文本中的单个非多音汉字字符对应的单个汉字字符、用于标识所述待处理文本中的多音字字符的读音类型的标签、与所述待处理文本中的连续数字字符对应的语义类型标签、与所述待处理文本中的符号字符对应的读音类型标签、以及与所述待处理文本中的连续字母字符对应的首尾两端包括字母标签的多个字母;
所述处理单元进一步用于按照如下方式对所述输出字符序列中的字符进行去标签化处理:
将所述输出字符序列中用于标识所述待处理文本中的多音字字符的读音类型的标签替换为对应的多音字字符;
将所述输出字符序列中与所述待处理文本中的连续数字字符对应的语义类型标签替换为与所述语义类型标签对应的汉字字符;
将所述输出字符序列中与所述待处理文本中的符号字符对应的读音类型标签替换为与所述读音类型标签对应的汉字字符;
将所述输出字符序列中的字母标签删除。
17.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
18.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求6-8中任一所述的方法。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求6-8中任一所述的方法。
CN201710901952.4A 2017-09-28 2017-09-28 文本转换模型训练方法和装置、文本转换方法和装置 Active CN107680580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710901952.4A CN107680580B (zh) 2017-09-28 2017-09-28 文本转换模型训练方法和装置、文本转换方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710901952.4A CN107680580B (zh) 2017-09-28 2017-09-28 文本转换模型训练方法和装置、文本转换方法和装置

Publications (2)

Publication Number Publication Date
CN107680580A true CN107680580A (zh) 2018-02-09
CN107680580B CN107680580B (zh) 2020-08-18

Family

ID=61139111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710901952.4A Active CN107680580B (zh) 2017-09-28 2017-09-28 文本转换模型训练方法和装置、文本转换方法和装置

Country Status (1)

Country Link
CN (1) CN107680580B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492818A (zh) * 2018-03-22 2018-09-04 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN109346056A (zh) * 2018-09-20 2019-02-15 中国科学院自动化研究所 基于深度度量网络的语音合成方法及装置
CN109616121A (zh) * 2018-11-28 2019-04-12 北京捷通华声科技股份有限公司 一种数字转换方法和装置
CN110020424A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110189744A (zh) * 2019-04-09 2019-08-30 阿里巴巴集团控股有限公司 文本处理的方法、装置和电子设备
CN110189766A (zh) * 2019-06-14 2019-08-30 西南科技大学 一种基于神经网络的语音风格转移方法
CN110310619A (zh) * 2019-05-16 2019-10-08 平安科技(深圳)有限公司 多音字预测方法、装置、设备及计算机可读存储介质
CN110852043A (zh) * 2019-11-19 2020-02-28 北京字节跳动网络技术有限公司 一种文本转写方法、装置、设备及存储介质
CN110913229A (zh) * 2018-09-18 2020-03-24 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN111144110A (zh) * 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111341293A (zh) * 2020-03-09 2020-06-26 广州市百果园信息技术有限公司 一种文本语音的前端转换方法、装置、设备和存储介质
CN111357015A (zh) * 2019-12-31 2020-06-30 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和计算机可读存储介质
CN111428484A (zh) * 2020-04-14 2020-07-17 广州云从鼎望科技有限公司 一种信息管理方法、系统、设备和介质
WO2020232864A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 一种数据处理的方法及相关装置
CN112257393A (zh) * 2020-12-22 2021-01-22 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
CN112287673A (zh) * 2020-10-23 2021-01-29 广州云趣信息科技有限公司 一种基于深度学习来实现语音导航机器人的方法
CN112418197A (zh) * 2021-01-22 2021-02-26 北京世纪好未来教育科技有限公司 简化图像获取模型训练、图像文本识别方法及相关装置
CN112489652A (zh) * 2020-12-10 2021-03-12 北京有竹居网络技术有限公司 一种语音信息的文本获取方法、装置和存储介质
CN112668341A (zh) * 2021-01-08 2021-04-16 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质
CN112765967A (zh) * 2019-11-05 2021-05-07 北京字节跳动网络技术有限公司 文本正则化的处理方法、装置、电子设备及存储介质
CN113221576A (zh) * 2021-06-01 2021-08-06 复旦大学 一种基于序列到序列架构的命名实体识别方法
CN117422071A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割标注转换方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
US20150242180A1 (en) * 2014-02-21 2015-08-27 Adobe Systems Incorporated Non-negative Matrix Factorization Regularized by Recurrent Neural Networks for Audio Processing
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
US20170069306A1 (en) * 2015-09-04 2017-03-09 Foundation of the Idiap Research Institute (IDIAP) Signal processing method and apparatus based on structured sparsity of phonological features

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
US20150242180A1 (en) * 2014-02-21 2015-08-27 Adobe Systems Incorporated Non-negative Matrix Factorization Regularized by Recurrent Neural Networks for Audio Processing
CN104882139A (zh) * 2015-05-28 2015-09-02 百度在线网络技术(北京)有限公司 语音合成的方法和装置
US20170069306A1 (en) * 2015-09-04 2017-03-09 Foundation of the Idiap Research Institute (IDIAP) Signal processing method and apparatus based on structured sparsity of phonological features

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492818B (zh) * 2018-03-22 2020-10-30 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN108492818A (zh) * 2018-03-22 2018-09-04 百度在线网络技术(北京)有限公司 文本到语音的转换方法、装置和计算机设备
CN110913229B (zh) * 2018-09-18 2021-10-15 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN110913229A (zh) * 2018-09-18 2020-03-24 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN109346056A (zh) * 2018-09-20 2019-02-15 中国科学院自动化研究所 基于深度度量网络的语音合成方法及装置
CN109616121A (zh) * 2018-11-28 2019-04-12 北京捷通华声科技股份有限公司 一种数字转换方法和装置
CN110020424B (zh) * 2019-01-04 2023-10-31 创新先进技术有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110020424A (zh) * 2019-01-04 2019-07-16 阿里巴巴集团控股有限公司 合同信息的提取方法、装置和文本信息的提取方法
CN110189744A (zh) * 2019-04-09 2019-08-30 阿里巴巴集团控股有限公司 文本处理的方法、装置和电子设备
CN110310619A (zh) * 2019-05-16 2019-10-08 平安科技(深圳)有限公司 多音字预测方法、装置、设备及计算机可读存储介质
WO2020232864A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 一种数据处理的方法及相关装置
CN110189766A (zh) * 2019-06-14 2019-08-30 西南科技大学 一种基于神经网络的语音风格转移方法
CN112765967A (zh) * 2019-11-05 2021-05-07 北京字节跳动网络技术有限公司 文本正则化的处理方法、装置、电子设备及存储介质
CN110852043A (zh) * 2019-11-19 2020-02-28 北京字节跳动网络技术有限公司 一种文本转写方法、装置、设备及存储介质
CN110852043B (zh) * 2019-11-19 2023-05-23 北京字节跳动网络技术有限公司 一种文本转写方法、装置、设备及存储介质
CN111144110B (zh) * 2019-12-27 2024-06-04 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111144110A (zh) * 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111357015A (zh) * 2019-12-31 2020-06-30 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和计算机可读存储介质
CN111357015B (zh) * 2019-12-31 2023-05-02 深圳市优必选科技股份有限公司 文本转换方法、装置、计算机设备和计算机可读存储介质
CN111341293A (zh) * 2020-03-09 2020-06-26 广州市百果园信息技术有限公司 一种文本语音的前端转换方法、装置、设备和存储介质
WO2021179910A1 (zh) * 2020-03-09 2021-09-16 百果园技术(新加坡)有限公司 文本语音的前端转换方法、装置、设备和存储介质
CN111341293B (zh) * 2020-03-09 2022-11-18 广州市百果园信息技术有限公司 一种文本语音的前端转换方法、装置、设备和存储介质
CN111428484A (zh) * 2020-04-14 2020-07-17 广州云从鼎望科技有限公司 一种信息管理方法、系统、设备和介质
CN112287673B (zh) * 2020-10-23 2021-08-17 广州云趣信息科技有限公司 一种基于深度学习来实现语音导航机器人的方法
CN112287673A (zh) * 2020-10-23 2021-01-29 广州云趣信息科技有限公司 一种基于深度学习来实现语音导航机器人的方法
CN112489652A (zh) * 2020-12-10 2021-03-12 北京有竹居网络技术有限公司 一种语音信息的文本获取方法、装置和存储介质
CN112257393A (zh) * 2020-12-22 2021-01-22 北京百度网讯科技有限公司 实现文本生成的方法、装置、设备和介质
CN112668341A (zh) * 2021-01-08 2021-04-16 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质
CN112668341B (zh) * 2021-01-08 2024-05-31 深圳前海微众银行股份有限公司 文本正则化方法、装置、设备和可读存储介质
CN112418197A (zh) * 2021-01-22 2021-02-26 北京世纪好未来教育科技有限公司 简化图像获取模型训练、图像文本识别方法及相关装置
CN113221576A (zh) * 2021-06-01 2021-08-06 复旦大学 一种基于序列到序列架构的命名实体识别方法
CN117422071A (zh) * 2023-12-19 2024-01-19 中南大学 一种文本词项多重分割标注转换方法及装置
CN117422071B (zh) * 2023-12-19 2024-03-15 中南大学 一种文本词项多重分割标注转换方法及装置

Also Published As

Publication number Publication date
CN107680580B (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN107680580A (zh) 文本转换模型训练方法和装置、文本转换方法和装置
CN107705784A (zh) 文本正则化模型训练方法和装置、文本正则化方法和装置
CN107680579A (zh) 文本正则化模型训练方法和装置、文本正则化方法和装置
US11501182B2 (en) Method and apparatus for generating model
Zhang et al. Multi-scale attention with dense encoder for handwritten mathematical expression recognition
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN107168952A (zh) 基于人工智能的信息生成方法和装置
CN110491382A (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN109933662A (zh) 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质
CN107526725A (zh) 基于人工智能的用于生成文本的方法和装置
CN112183064B (zh) 基于多任务联合学习的文本情绪原因识别系统
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
CN108829678A (zh) 一种汉语国际教育领域命名实体识别方法
CN110348535A (zh) 一种视觉问答模型训练方法及装置
CN108287820A (zh) 一种文本表示的生成方法及装置
CN107577662A (zh) 面向中文文本的语义理解系统及方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN110263147B (zh) 推送信息的生成方法及装置
CN116662552A (zh) 金融文本数据分类方法、装置、终端设备及介质
CN107832300A (zh) 面向微创医疗领域文本摘要生成方法及装置
CN109359301A (zh) 一种网页内容的多维度标注方法及装置
CN108829823A (zh) 一种文本分类方法
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN113870835A (zh) 基于人工智能的语音合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant