CN117933236A - 一种用于多音字拼音预测的多任务训练方法与设备 - Google Patents

一种用于多音字拼音预测的多任务训练方法与设备 Download PDF

Info

Publication number
CN117933236A
CN117933236A CN202410018291.0A CN202410018291A CN117933236A CN 117933236 A CN117933236 A CN 117933236A CN 202410018291 A CN202410018291 A CN 202410018291A CN 117933236 A CN117933236 A CN 117933236A
Authority
CN
China
Prior art keywords
word
polyphones
prediction
information
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410018291.0A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Midu Information Technology Co ltd
Original Assignee
Beijing Midu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Midu Information Technology Co ltd filed Critical Beijing Midu Information Technology Co ltd
Priority to CN202410018291.0A priority Critical patent/CN117933236A/zh
Publication of CN117933236A publication Critical patent/CN117933236A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本申请的目的是提供一种用于多音字拼音预测的多任务训练方法与设备。与现有技术相比,本申请通过对样本训练数据进行标签设置,其中,所述标签包括多音字的拼音信息、多音字的词性信息以及多音字在词语中的位置信息,其中,每个标签对应一种训练任务,然后将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间进行多任务训练,并基于所述多任务训练的预测概率和对应标签计算交叉熵损失更新模型参数,以实现用于多音字拼音预测的多任务训练。通过这种方式能够提高多音字拼音预测的准确度。

Description

一种用于多音字拼音预测的多任务训练方法与设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于多音字拼音预测的多任务训练技术。
背景技术
传统的拼音纠错方法是基于词组拼音库实现的。具体方式是先将句子进行分词,得到词组列表,然后遍历词组列表中的每一个词,查询拼音库中该词的结果。假如拼音库中没有覆盖当前词组,则会将该词组翻译成单个字,返回单字的最常见读音。但是对于多音字,总选择最常见读音是不合理的,例如:“我中标了”,分词结果为[“我”,“中标”,“了”],假如拼音词组库中有“中标”这个词组,则直接返回拼音库中的结果“zhong4biao1”(“4”,”1”代表声调),否则,将“中标”分成单个字[“中”,“标”],返回最常见拼音“zhong1biao1”。这里多音字“中”的拼音就出错了。因此,需要一种能够准确进行多音字拼音预测的方式。
发明内容
本申请的目的是提供一种用于多音字拼音预测的多任务训练方法与设备。
根据本申请的一个方面,提供了一种用于多音字拼音预测的多任务训练方法,其中,该方法包括:
对样本训练数据进行标签设置,其中,所述标签包括多音字的拼音信息、多音字的词性信息以及多音字在词语中的位置信息,其中,每个标签对应一种训练任务;
将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间进行多任务训练;
基于所述多任务训练的预测概率和对应标签计算交叉熵损失更新模型参数,以实现用于多音字拼音预测的多任务训练。
可选地,其中,所述将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间包括:
将多音字的语义向量通过三个独立的线性变换层/>分别转换成/>维的向量,其中/>分别为拼音信息、词性信息、词语中的位置信息三个标签集中可选标签的数量。
可选地,其中,所述基于所述多任务训练的预测概率更新模型参数包括:
基于得到三个任务的预测概率矩阵P1、P2、P3,其中,/>、/>
分别计算P1、P2、P3与对应标签的交叉熵损失确定每个任务的损失;
基于每个标签的预设权重对三个任务的损失进行加权求和,以反向传播更新模型参数。
可选地,其中,所述方法还包括:
基于样本训练数据的多音字获取其包含了上下文语义信息的语义向量。
可选地,其中,所述基于样本训练数据的多音字获取其包含了上下文语义信息的语义向量包括:
将样本训练数据分成单个的字;
将所述单个的字基于预训练的语言模型输出包含了上下文语义信息的语义向量。
可选地,其中,所述多音字在词语中的位置信息包括多音字在词语开头、多音字在词语中间、多音字在词语结尾、多音字以单字出现。
根据本申请的另一方面,还提供了一种基于前述训练方法的多音字拼音预测方法,其中,该方法包括:
当处于预测阶段,将预测数据的多音字对应的包含了上下文语义信息的语义向量映射到多音字的拼音信息的任务;
将该任务对应的预测概率的最大概率对应的标签作为预测结果。
根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述方法的操作。
根据本申请的又一方面,还提供了一种用于多音字拼音预测的多任务训练设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。
根据本申请的再一方面,还提供了一种多音字拼音预测设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。
与现有技术相比,本申请通过对样本训练数据进行标签设置,其中,所述标签包括多音字的拼音信息、多音字的词性信息以及多音字在词语中的位置信息,其中,每个标签对应一种训练任务,然后将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间进行多任务训练,并基于所述多任务训练的预测概率和对应标签计算交叉熵损失更新模型参数,以实现用于多音字拼音预测的多任务训练。通过这种方式能够提高多音字拼音预测的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于多音字拼音预测的多任务训练的方法流程图;
图2示出根据本申请一个优选实施例的一种任务参数模型示意图;
图3示出根据本申请另一个方面的一种用于多音字拼音预测方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、 磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
图1示出本申请一个方面提供的一种用于多音字拼音预测的多任务训练方法流程图,该方法包括以下步骤:
S11对样本训练数据进行标签设置,其中,所述标签包括多音字的拼音信息、多音字的词性信息以及多音字在词语中的位置信息,其中,每个标签对应一种训练任务;
S12将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间进行多任务训练;
S13基于所述多任务训练的预测概率和对应标签计算交叉熵损失更新模型参数,以实现用于多音字拼音预测的多任务训练。
在该实施例中,在所述步骤S11中,所述样本训练数据用于进行模型训练,以使模型能够实现多音字的识别,对应样本训练数据的标签设置在本方案中涉及三种标签,包括多音字的拼音信息、多音字的词性信息以及多音字在词语中的位置信息,其中,所述多音字在词语中的位置信息包括多音字在词语开头、多音字在词语中间、多音字在词语结尾、多音字以单字出现。具体地,多音字在词语中的位置可采用BIEO标注方式:多音字在词语开头(B)、多音字在词语中间(I)、多音字在词语结尾(E)、多音字以单字出现(O)。如“新来的教授平易近人”中的多音字“教”对应的标签为[“jiao4”, “n”, “B”],意思是“教”字位于名词的开头,拼音为“jiao4”。另外,词性标签和位置标签可以合并,如“新来的教授“中”教”字的标签可以为“B-n”,含义是名词的开头,在此,上述标签的呈现方式仅为举例,不做具体限定。
在此,每个标签对应一种训练任务,如图2示出一种任务参数模型示意图,该模型中,包括底层共享层,即预训练语言模型,以及顶层的任务专用层,其中,任务A、任务 B、任务C对应三种标签的训练任务,通过该模型可实现用于多音字拼音预测的多任务训练。这三个任务中主任务是多音字拼音预测,两个辅助任务分别为多音字词性预测和多音字在词语中的位置预测。训练时,三个任务同时进行,引导模型同时学习三种知识;预测时,只进行拼音预测。其中,预训练语言模型用于输出语义向量。继续在该实施例中,在所述步骤S12中,将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间进行多任务训练。
优选地,其中,所述将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间包括:
将多音字的语义向量通过三个独立的线性变换层/>分别转换成/>维的向量,其中/>分别为拼音信息、词性信息、词语中的位置信息三个标签集中可选标签的数量。其中,/>表征/>是一个形状为/>的实数矩阵。/>为语义向量/>的维度,每个/>都是一个长度为/>的向量。
继续在该实施例中,在所述步骤S13中,基于所述多任务训练的预测概率和对应标签计算交叉熵损失更新模型参数,以实现用于多音字拼音预测的多任务训练。在该实施例中,更新模型参数时,每个任务得到的损失用于更新自己对应的任务专用层和底层共享层参数。例如,在如图2所示的模型中,任务A计算得到的损失会更新任务专用层最左边模块对应的任务A的参数和底层共享层参数,即预训练语言模型参数。
优选地,其中,所述基于所述多任务训练的预测概率更新模型参数包括:
基于得到预测概率矩阵,其中,/>、/>
分别计算P1、P2、P3与对应标签的交叉熵损失确定每个任务的损失;
基于每个标签的预设权重对三个任务的损失进行加权求和,以反向传播更新模型参数。
具体地,可按照“拼音:词性:位置=3:1:1”的权重对三个任务的损失进行加权求和,然后反向传播更新模型参数,预测时,取拼音任务P中最大概率对应的标签作为预测结果。
优选地,其中,所述方法还包括:S14(未示出)基于样本训练数据的多音字获取其包含了上下文语义信息的语义向量。
优选地,其中,所述步骤S14包括:S141(未示出)将样本训练数据分成单个的字;S142(未示出)将所述单个的字基于预训练的语言模型输出包含了上下文语义信息的语义向量。
在该实施例中,可通过神经网络模型将样本训练数据分成单个的字,例如,利用BertTokenizer可以将文本分成单个的token(这里是单个汉字或者标点符号)并转换成对应的id,将该id送入预训练的BERT模型。通过Bert模型中的transformer的self-attention机制,模型会为每个token输出对应的包含了上下文语义信息的语义向量。其中,预训练模型的选择,不仅局限于BERT模型,还可以使用ALBert,RoBERTa,ELMO等预训练模型,在此,不做具体限定。
图3示出根据本申请另一个方面的一种用于多音字拼音预测方法,其中,该方法包括:
S31当处于预测阶段,将预测数据的多音字对应的包含了上下文语义信息的语义向量映射到多音字的拼音信息的任务;
S32将该任务对应的预测概率的最大概率对应的标签作为预测结果。
在该实施例中,基于图1所述实施例的方法对模型训练完成后,会基于该训练好的模型进行多音字拼音预测。具体地,将预测数据的多音字对应的包含了上下文语义信息的语义向量映射到多音字的拼音信息的任务,也即将语义向量映射到拼音标签向量空间的任务,并将该任务对应的预测概率的最大概率对应的标签作为预测结果。例如,在如图2所示的模型中,若任务A为多音字拼音预测任务,则将预测数据的多音字对应的包含了上下文语义信息的语义向量映射到拼音标签的向量空间,并将该任务A对应的预测概率的最大概率对应的标签作为预测结果。
根据本申请的又一方面,还提供了一种计算机可读介质,所述计算机可读介质存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
根据本申请的又一方面,还提供了一种用于地域名词纠错的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。例如,计算机可读指令在被执行时使所述一个或多个处理器:对样本训练数据进行标签设置,其中,所述标签包括多音字的拼音信息、多音字的词性信息以及多音字在词语中的位置信息,其中,每个标签对应一种训练任务;将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间进行多任务训练;基于所述多任务训练的预测概率和对应标签计算交叉熵损失更新模型参数,以实现用于多音字拼音预测的多任务训练。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种用于多音字拼音预测的多任务训练方法,其中,该方法包括:
对样本训练数据进行标签设置,其中,所述标签包括多音字的拼音信息、多音字的词性信息以及多音字在词语中的位置信息,其中,每个标签对应一种训练任务;
将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间进行多任务训练;
基于所述多任务训练的预测概率和对应标签计算交叉熵损失更新模型参数,以实现用于多音字拼音预测的多任务训练。
2.根据权利要求1所述的方法,其中,所述将样本训练数据的多音字对应的包含了上下文语义信息的语义向量分别映射到三种标签空间包括:
将多音字的语义向量通过三个独立的线性变换层/>分别转换成/>维的向量,其中/>分别为拼音信息、词性信息、词语中的位置信息三个标签集中可选标签的数量。
3.根据权利要求2所述的方法,其中,所述基于所述多任务训练的预测概率更新模型参数包括:
基于得到三个任务的预测概率矩阵P1、P2、P3,其中,/>、/>
分别计算P1、P2、P3与对应标签的交叉熵损失确定每个任务的损失;
基于每个标签的预设权重对三个任务的损失进行加权求和,以反向传播更新模型参数。
4.根据权利要求1所述的方法,其中,所述方法还包括:
基于样本训练数据的多音字获取其包含了上下文语义信息的语义向量。
5.根据权利要求4所述的方法,其中,所述基于样本训练数据的多音字获取其包含了上下文语义信息的语义向量包括:
将样本训练数据分成单个的字;
将所述单个的字基于预训练的语言模型输出包含了上下文语义信息的语义向量。
6.根据权利要求1所述的方法,其中,所述多音字在词语中的位置信息包括多音字在词语开头、多音字在词语中间、多音字在词语结尾、多音字以单字出现。
7.一种基于权利要求1所述的训练方法的多音字拼音预测方法,其中,该方法包括:
当处于预测阶段,将预测数据的多音字对应的包含了上下文语义信息的语义向量映射到多音字的拼音信息的任务;
将该任务对应的预测概率的最大概率对应的标签作为预测结果。
8.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。
9.一种用于多音字拼音预测的多任务训练设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至6中任一项所述方法的操作。
10.一种多音字拼音预测设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求7所述方法的操作。
CN202410018291.0A 2024-01-05 2024-01-05 一种用于多音字拼音预测的多任务训练方法与设备 Pending CN117933236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410018291.0A CN117933236A (zh) 2024-01-05 2024-01-05 一种用于多音字拼音预测的多任务训练方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410018291.0A CN117933236A (zh) 2024-01-05 2024-01-05 一种用于多音字拼音预测的多任务训练方法与设备

Publications (1)

Publication Number Publication Date
CN117933236A true CN117933236A (zh) 2024-04-26

Family

ID=90765820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410018291.0A Pending CN117933236A (zh) 2024-01-05 2024-01-05 一种用于多音字拼音预测的多任务训练方法与设备

Country Status (1)

Country Link
CN (1) CN117933236A (zh)

Similar Documents

Publication Publication Date Title
US11900915B2 (en) Multi-dialect and multilingual speech recognition
US11049500B2 (en) Adversarial learning and generation of dialogue responses
US20220051099A1 (en) Attention-based sequence transduction neural networks
US20240211752A1 (en) Attention-based decoder-only sequence transduction neural networks
US20210081503A1 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
EP3956821A1 (en) Multi-task machine learning architectures and training procedures
US20180137854A1 (en) Machine reading method for dialog state tracking
US11954594B1 (en) Training recurrent neural networks to generate sequences
CN111142681B (zh) 一种确定汉字拼音的方法、系统、装置及存储介质
US20220391647A1 (en) Application-specific optical character recognition customization
CN110678882A (zh) 使用机器学习从电子文档选择回答跨距
CN113157959B (zh) 基于多模态主题补充的跨模态检索方法、装置及系统
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
US20220358361A1 (en) Generation apparatus, learning apparatus, generation method and program
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
WO2021027218A1 (zh) 文本分类的方法、装置以及计算机可读介质
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
US20200364543A1 (en) Computationally efficient expressive output layers for neural networks
US20220138267A1 (en) Generation apparatus, learning apparatus, generation method and program
Gales et al. Low-resource speech recognition and keyword-spotting
CN112948580B (zh) 一种文本分类的方法和系统
CN116579327A (zh) 文本纠错模型训练方法、文本纠错方法、设备及存储介质
US20240013769A1 (en) Vocabulary selection for text processing tasks using power indices
EP4322066A1 (en) Method and apparatus for generating training data
CN117933236A (zh) 一种用于多音字拼音预测的多任务训练方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination