CN115437511A

CN115437511A - 一种拼音汉字转换方法、转换模型训练方法及存储介质

Info

Publication number: CN115437511A
Application number: CN202211386677.4A
Authority: CN
Inventors: 马永亮; 甘子发; 周明
Original assignee: Beijing Lanzhou Technology Co ltd
Current assignee: Beijing Lanzhou Technology Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2022-12-06
Anticipated expiration: 2042-11-07
Also published as: CN115437511B

Abstract

本发明涉及拼音输入法技术领域，特别涉及一种拼音汉字转换方法、转换模型训练方法及存储介质，获取键盘上拼音的布局信息，并根据该布局信息将各字母附近的其他字母和/或字符作为其混淆集；获取包含预设领域中文句子的语料，将语料中每个中文句子都转换为拼音序列，并利用混淆集基于预设规则向拼音序列中插入噪声得到拼音序列训练数据，基于拼音序列训练数据训练拼音汉字转换模型。首先向拼音序列中插入噪声以得到包含不同类型和粒度的拼音错误输入的数据，以覆盖可能出现的各类错误输入，并使用这些数据训练模型，模型在噪声数据上学习后，可以解决绝大部分场景下的不同复杂程度错误的拼音输入情况。

Description

一种拼音汉字转换方法、转换模型训练方法及存储介质

技术领域

本发明涉及拼音输入法技术领域，其特别涉及一种拼音汉字转换方法、转换模型训练方法及存储介质。

背景技术

拼音汉字转换方法研究将输入的拼音序列准确地转换成其对应的汉字序列。由于键盘的按键布局以及人们对汉字的拼写习惯等因素，拼音输入法逐渐成为主流的汉字输入方法。拼音汉字转换方法有着广泛的应用场景，如拼音输入法、搜索词纠正、搜索词推荐等。在这些应用场景中，需要构建拼音到汉字的词库，并利用词库、用户历史数据，以及前缀树、动态规划、维特比算法、统计模型或者神经网络模型等方法选取候选词。在搜索词推荐和拼音输入法的应用场景下，模型会预测用户下一步的输入并给出进一步的推荐。在搜索词纠正的应用场景下，模型需要将拼音输入转换成关键词以更好地搜索符合用户预期的结果，其使用不同候选词替换原来的拼音输入，并根据上下文对每个候选词进行评价，最后选出纠正结果或者不进行纠正。

对于用户输入的拼音序列，其中可能包含一些错误（噪声），比如有多余的字符、缺失字母或者字母顺序混乱等，这些情况都会影响模型的转换效果，因此去噪能力对拼音汉字转换方法至关重要。但是上述的几种方法仅能解决一些简单的拼音输入错误，对于复杂的拼音输入错误，其转换效果均会受到严重影响。

发明内容

为了解决输入拼音时存在的噪音会影响汉字生成的问题，本发明提供一种拼音汉字转换方法、转换模型训练方法及存储介质。

本发明为解决上述技术问题，提供如下的技术方案：一种拼音汉字转换模型的训练方法，包括以下步骤：

获取键盘上拼音的布局信息，并根据该布局信息将各字母附近的其他字母和/或字符作为其混淆集；

获取包含预设领域中文句子的语料，将语料中每个中文句子都转换为拼音序列，并利用混淆集基于预设规则向拼音序列中插入噪声得到拼音序列训练数据，所述预设规则包括替换规则、删除规则、插入规则以及乱序规则其中的一种或多种；

基于拼音序列训练数据训练拼音汉字转换模型，训练时拼音汉字转换模型学习将拼音序列中的每个拼音首字母预测为对应汉字，拼音序列中的其他字母对应输出为预设字符。

优选地，利用混淆集基于预设规则向拼音序列中插入噪声包括以下步骤：

基于替换规则，将拼音序列中的至少一个字母随机替换成其他字母和/或字符；和/或

基于删除规则，将拼音序列中的至少一个字母删除；和/或

基于插入规则，向拼音序列中插入至少一个随机字母和/或字符；和/或

基于乱序规则，将拼音序列中的至少一对两个相邻字母进行位置替换。

优选地，对中文句子插入噪声时随机选取小于或等于20%的位置插入噪声。

优选地，对于一个中文句子，根据中文句子的长度重复多次插入噪音的步骤以获得多条拼音序列训练数据。

优选地，插入噪声时，对于其中一些拼音序列首部或尾部连接英文单词，以及在部分插入的英文单词中也随机插入字母和/或字符。

优选地，插入噪声时，对于拼音首字母的修改比例占所有插入噪声的10%。

优选地，拼音汉字转换模型采用Soft-Masked BERT模型，其中Soft-Masked BERT预训练模型包括检测模块、Soft-Masking模块和转换模块。

优选地，基于拼音序列训练数据训练拼音汉字转换模型包括以下步骤：

输入拼音序列训练数据至拼音汉字转换模型中，每个字符看作一个token，将每个token转换为BERT词典中相对应的编号；

拼音序列经过拼音汉字转换模型的Embedding层，拼音序列中的每个字母和/或字符都被转换成一个向量；

向量经过检测模块、Soft-Masking模块和转换模块，提取向量的表示特征，并输出特征向量，同时检测模块检测为拼音首字母的字母；

之后特征向量进入分类器，对于拼音序列中为拼音首字母的字母，分类器输出BERT词典中每个token的分数，选择分数最大的token，作为该字母最终的预测结果，其他字母和/或字符预测为预设字符。

本发明为解决上述技术问题，提供又一技术方案如下：一种拼音汉字转换方法，采用如前述的拼音汉字转换模型的训练方法训练获得的拼音汉字转换模型实现，包括以下步骤：通过键盘输入拼音序列，通过拼音汉字转换模型将拼音序列转换为相应的汉字。

本发明为解决上述技术问题，提供又一技术方案如下：一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的一种拼音汉字转换方法的步骤。

与现有技术相比，本发明所提供的一种拼音汉字转换方法、转换模型训练方法及存储介质，具有如下的有益效果：

1.本发明第一实施例提供的一种拼音汉字转换模型训练方法，该方法首先向拼音序列中插入噪声以得到包含不同类型和粒度的拼音错误输入的数据，以覆盖可能出现的各类错误输入，并使用这些数据训练Soft-Masked BERT模型，模型在噪声数据上学习后，可以解决绝大部分场景下的不同复杂程度错误的拼音输入情况，其不仅可以将正确的拼音序列转换为汉字序列，还能够准确转换包含不同复杂程度输入错误的拼音，极大地扩展了拼音汉字转换方法的能力和应用范围。

2.本发明第一实施例提供的一种拼音汉字转换模型训练方法，通过以上几种规则对拼音序列插入噪声后，单独一个字的拼音拿出来可能并不是一个正确的拼音输入，使模型能够正确的识别各种拼音输入情况。

3.本发明第一实施例提供的一种拼音汉字转换模型训练方法，对一条中文句子重复多次插入噪声的步骤可利用有限的语料获得更多的训练数据。

4.本发明第一实施例提供的一种拼音汉字转换模型训练方法，在拼音序列的首部或者尾部添加英文单词，以此来防止拼音汉字转换模型对英文单词和一些特殊英文名称进行转换。

5.本发明第一实施例提供的一种拼音汉字转换模型训练方法，将没有插入噪音的拼音序列作为负样本，以防止拼音汉字转换模型对正确的拼音序列进行误识别。

6.本发明实施例还提供一种拼音汉字转换方法，具有与上述一种拼音汉字转换模型训练方法训练获得的拼音汉字转换模型相同的有益效果，在此不做赘述。

7.本发明实施例还提供一种计算机存储介质，具有与上述一种拼音汉字转换方法相同的有益效果，在此不做赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种拼音汉字转换模型训练方法的步骤流程图。

图2是本发明第一实施例提供的一种拼音汉字转换模型训练方法之步骤S2的步骤流程图。

图3是本发明第一实施例提供的一种拼音汉字转换模型训练方法之步骤S3的步骤流程图。

图4是本发明第二实施例提供的一种拼音汉字转换方法的步骤流程图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

日常生活中，人们打字输入都是通过键盘输入，由于键盘的按键布局以及人们对汉字的拼写习惯等因素，拼音输入法逐渐成为主流的汉字输入方法，该键盘包括如适用于和电脑配合使用的真实键盘，以及手机、平板等智能设备输入时用到的虚拟键盘，目前常用的键盘输入方式包括26键输入方式以及9键输入方式，但是由于用户的键盘熟练情况，在输入时容易输入错误的拼音，导致最终转换出来的汉字不是用户想要汉字。

请参阅图1，本发明第一实施例提供一种拼音汉字转换模型训练方法，包括以下步骤：

S1：获取键盘上拼音的布局信息，并根据该布局信息将各字母附近的其他字母和/或字符作为其混淆集；

S2：获取包含预设领域中文句子的语料，将语料中每个中文句子都转换为拼音序列，并利用混淆集基于预设规则向拼音序列中插入噪声得到拼音序列训练数据，所述预设规则包括替换规则、删除规则、插入规则以及乱序规则其中的一种或多种；

S3：基于拼音序列训练数据训练拼音汉字转换模型，训练时拼音汉字转换模型学习将拼音序列中的每个拼音首字母预测为对应汉字，拼音序列中的其他字母对应输出为预设字符。

对于目前常用的键盘而言，如与电脑适配的键盘，其上不仅仅是有用于打拼音输入打字的字母，还存在部分特殊如“，”、“。”等用于断句的字符，这些字符靠近拼音字母，使得用户在输入时，也容易选中这些在平移字母附近的字符，因此，首先基于键盘的布局，将键盘上每个拼音字母附近的其他字母和/或字符都作为该字母的混淆集，表示用户输入这个字母时，容易选中到该字母旁边的其他字母和/或字符对输入的拼音造成混淆。

之后，根据特定领域的语料来进行训练数据的构建，通过侧重不同领域的语料，可以使拼音汉字转换模型更加关注特定领域的拼音的语义，使其在该领域有更强的去噪能力，在本实施例中，采用新闻领域的语料，考虑到新闻语料经过严格的编辑校审，错误率低。

本实施例利用开源库将语料中每个中文句子都转换成一个拼音序列，然后通过之前总结的混淆集按照预先设定的规则向每一个拼音序列中插入不同种类不同粒度的噪声，使得错误的类型更多，已覆盖用户输入时可能存在的各类错误输入。

具体地，请参阅图2，步骤S2中“利用混淆集基于预设规则向拼音序列中插入噪声”包括以下步骤：

S21：基于替换规则，将拼音序列中的至少一个字母随机替换成其他字母和/或字符；和/或

S22：基于删除规则，将拼音序列中的至少一个字母删除；和/或

S23：基于插入规则，向拼音序列中插入至少一个随机字母和/或字符；和/或

S24：基于乱序规则，将拼音序列中的至少一对两个相邻字母进行位置替换。

示例性的如：假设给定一个文本“你好”，正确的拼音序列为“nihao”，通过以上几种规则，一：替换规则下，，“nihao”可能将其替换为“nghao”；删除规则下，“nihao”可能被转换为“niha”；插入规则下，“nihao”可能被转换为“niahao”；乱序规则下，“nihao”可能被转换为“nihoa”。

可以理解的，通过以上几种规则对拼音序列插入噪声后，单独一个字的拼音拿出来可能并不是一个正确的拼音输入。

具体地，对中文句子插入噪声时随机选取小于或等于20%的位置插入噪声。

其中对于一个中文句子，一个汉字可以看作是一个位置，随机选取20%或以下的汉字，对其对应的拼音序列中的拼音中插入噪声。

同时，为了利用有限的语料获得更多的训练数据，对于一个中文句子，根据中文句子的长度重复多次插入噪音的步骤以获得多条拼音序列训练数据。

其中长度也即等于汉字的数量，假设其长度为n，那么就对这条中文句子重复n次插入噪声的步骤，以获得n条训练数据，极大地扩展了训练数据的规模。

进一步地，插入噪声时，对于其中一些拼音序列首部或尾部连接英文单词，以及在部分插入的英文单词中也随机插入字母和/或字符；以此来防止拼音汉字转换模型对英文单词和一些特殊英文名称进行转换。

具体地，插入噪声时，对于拼音首字母的修改比例占所有插入噪声的10%，考虑到用户在输入时对于首字母的拼写错误率一般较少，对拼音首字母的修改不会太多。

同时拼音序列训练数据中还包括没有插入噪音的拼音序列作为负样本，以防止拼音汉字转换模型对正确的拼音序列进行误识别。

具体地，拼音汉字转换模型采用Soft-Masked BERT模型，其中Soft-Masked BERT预训练模型包括检测模块、Soft-Masking模块和转换模块。

具体地，请参阅图3，步骤S3“基于拼音序列训练数据训练拼音汉字转换模型”包括以下步骤：

S31：输入拼音序列训练数据至拼音汉字转换模型中，每个字符看作一个token，将每个token转换为BERT词典中相对应的编号；

S32：拼音序列经过拼音汉字转换模型的Embedding层，拼音序列中的每个字母和/或字符都被转换成一个向量；

S33：向量经过检测模块、Soft-Masking模块和转换模块，提取向量的表示特征，并输出特征向量，同时检测模块检测为拼音首字母的字母；

S34：之后特征向量进入分类器，对于拼音序列中为拼音首字母的字母，分类器输出BERT词典中每个token的分数，选择分数最大的token，作为该字母最终的预测结果，其他字母和/或字符预测为预设字符。

具体地，Soft-Masked BERT模型模型主要由检测模块、Soft-Masking模块和转换模块三部分组成，训练模型时，让检测模型预测拼音序列中可能为拼音首字母的位置，并对每个位置输出其可能为拼音首字母的概率，soft-masking模块利用这个概率将该字母的输入向量与[MASK]字符的向量按概率相加，可能为拼音首字母的概率越大，[MASK]占比越大，在预训练时学习将[MASK]字符恢复成汉字，所以soft-masking机制可以利用BERT的预训练知识来加强模型的检测和转换能力。

输入拼音序列，数据导入函数将拼音序列的每个字符转成该字符在BERT字典中的编号并输入模型，模型的Embedding层按编号从embedding向量矩阵取出该字符的embedding向量，从而将输入字符序列转成向量，经过检测模块、转换模块内部的多层神经网络，提取向量的特征，转换模块输出特征向量，将特征向量输入分类器，分类器将特征向量转为与BERT字典大小相同维度的向量，作为模型最终输出向量，比如BERT字典有21128个token，则分类器输出向量维度为21128 ，之后将输出向量转为预测结果，取输出向量分数最大的那一维的下标，比如第100维的分数最大，则从BERT字典中取出编号为100的token，这个token就是模型预测该字母的最终结果，对应拼音序列中拼音首字母的位置，输出token为对应的预测结果，其他位置输出的预设字符“-”。

在训练的过程中，在初始时，模型并不知道哪些位置预测成汉字，所以训练初期模型输出是一些随机的字符，然后在训练过程中模型学习到了哪些位置可能是拼音的首字母，哪些位置可能是拼音的其他部分，哪些位置可能不是拼音，于是最后的结果就是模型在认为是拼音首字母的位置根据上下文预测为汉字，在不是拼音首字母的位置预测为预设字符，不是拼音的位置就保留输入字符，最终使得模型的输出会逐渐变得跟中文句子一样，其中本实施例中的预设字符为“-”。

训练时如“nihoa”会被分词为“n，i，h，o，a”，训练模型，使其输出为“你，_，好，_，_”，输出的汉字对应其拼音的首字母位置，其他位置为下划线“_“。

综上所述，本发明第一实施例提供的一种拼音汉字转换模型训练方法，该方法首先向拼音序列中插入噪声以得到包含不同类型和粒度的拼音错误输入的数据，以覆盖可能出现的各类错误输入，并使用这些数据训练BERT模型，模型在噪声数据上学习后，可以解决绝大部分场景下的不同复杂程度错误的拼音输入情况，其不仅可以将正确的拼音序列转换为汉字序列，还能够准确转换包含不同复杂程度输入错误的拼音，极大地扩展了拼音汉字转换方法的能力和应用范围。

请参阅图4，本发明第二实施例还提供一种拼音汉字转换方法，采用第一实施例所述的拼音汉字转换模型的训练方法训练获得的拼音汉字转换模型实现，

S100：利用键盘输入拼音序列；

S200：通过拼音汉字转换模型将拼音序列转换为相应的汉字。

可以理解的，采用该模型进行拼音汉字转换时，大部分情况下即使用户在用键盘时输入了错误的拼音，经过模型的判断后也会输出准确的汉字。

本发明第三实施例还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如第二实施例所述的一种拼音汉字转换方法的步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明的附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方案中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，在此基于涉及的功能而确定。需要特别注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

与现有技术相比，本发明所提供给的一种拼音汉字转换方法、转换模型训练方法及存储介质具有如下的有益效果：

2.本发明第一实施例提供的一种拼音汉字转换模型训练方法，通过以上几种规则对拼音序列插入噪声后，单独一个字的拼音拿出来可能并不是一个正确的拼音输入，使模型能够能够正确的识别各种拼音输入情况。

以上对本发明实施例公开的一种拼音汉字转换方法、转换模型训练方法及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制，凡在本发明的原则之内所作的任何修改，等同替换和改进等均应包含本发明的保护范围之内。

Claims

1.一种拼音汉字转换模型训练方法，其特征在于：包括以下步骤：

2.如权利要求1所述的拼音汉字转换模型训练方法，其特征在于：利用混淆集基于预设规则向拼音序列中插入噪声包括以下步骤：

基于删除规则，将拼音序列中的至少一个字母删除；和/或

3.如权利要求1所述的拼音汉字转换模型训练方法，其特征在于：对中文句子插入噪声时随机选取小于或等于20%的位置插入噪声。

4.如权利要求1所述的拼音汉字转换模型训练方法，其特征在于：对于一个中文句子，根据中文句子的长度重复多次插入噪音的步骤以获得多条拼音序列训练数据。

5.如权利要求1所述的拼音汉字转换模型训练方法，其特征在于：插入噪声时，对于其中一些拼音序列首部或尾部连接英文单词，以及在部分插入的英文单词中也随机插入字母和/或字符。

6.如权利要求1所述的拼音汉字转换模型训练方法，其特征在于：插入噪声时，对于拼音首字母的修改比例占所有插入噪声的10%。

7.如权利要求1所述的拼音汉字转换模型训练方法，其特征在于：拼音汉字转换模型采用Soft-Masked BERT模型。

8.如权利要求7所述的拼音汉字转换模型训练方法，其特征在于：基于拼音序列训练数据训练拼音汉字转换模型包括以下步骤：

9.一种拼音汉字转换方法，采用如权利要求1-8任一项所述的拼音汉字转换模型的训练方法训练获得的拼音汉字转换模型实现，其特征在于：通过键盘输入拼音序列，通过拼音汉字转换模型将拼音序列转换为相应的汉字。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被执行时实现如权利要求9所述的一种拼音汉字转换方法的步骤。