CN114254649A - 一种语言模型的训练方法、装置、存储介质及设备 - Google Patents

一种语言模型的训练方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN114254649A
CN114254649A CN202111538138.3A CN202111538138A CN114254649A CN 114254649 A CN114254649 A CN 114254649A CN 202111538138 A CN202111538138 A CN 202111538138A CN 114254649 A CN114254649 A CN 114254649A
Authority
CN
China
Prior art keywords
corpus
low
model
resource
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111538138.3A
Other languages
English (en)
Inventor
屈宏城
梅林海
刘权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111538138.3A priority Critical patent/CN114254649A/zh
Publication of CN114254649A publication Critical patent/CN114254649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种模型训练的方法、装置、存储介质及设备,该方法包括获取低资源语料以及所述低资源语料的平行语料,所述平行语料为与所述低资源语料表达相同语义的高资源语料,所述低资源语料包括方言文本或少数民族语言文本,所述高资源语料包括普通话文本;根据所述低资源语料和所述平行语料,构建训练语料;将所述训练语料输入所述语言模型进行模型训练,直至所述语言模型满足训练停止条件。该方法能够提高语言模型对方言或少数民族语言进行语义理解的效果。

Description

一种语言模型的训练方法、装置、存储介质及设备
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,尤其涉及一种语言模型的训练方法、装置、存储介质及设备。
背景技术
随着人工智能(artificial intelligence,AI)的飞速发展,尤其是自然语言处理(natural language processing,NLP)技术的飞速发展,基于NLP的AI应用被广泛用于多种场景,例如是语音识别、机器翻译、智能问答等场景。
其中,基于NLP的AI应用的核心是语言模型。语言模型对语义理解的准确度直接影响用户的交互体验。目前,语言模型对于普通话的语义理解已经能够满足用户的需求,但是语言模型对于方言或少数民族语言如粤语、闽南语、客家话的语义理解的效果欠佳。
如何提供一种对于方言或少数民族语言也具有较好的语义理解效果的语言模型成为业界重点关注的问题。
发明内容
本申请的主要目的在于提供一种语言模型的训练方法、装置、存储介质及设备,提高语言模型对方言或少数民族语言进行语义理解的效果。
第一方面,本申请提供了一种语言模型的训练方法,包括:获取低资源语料以及所述低资源语料的平行语料,所述平行语料为与所述低资源语料表达相同语义的高资源语料,所述低资源语料包括方言文本或少数民族语言文本,所述高资源语料包括普通话文本;
根据所述低资源语料和所述平行语料,构建训练语料;
将所述训练语料输入所述语言模型进行模型训练,直至所述语言模型满足训练停止条件。
一种可能的实现方式中,所述方法还包括:
获取所述低资源语料的发音信息;
所述根据所述低资源语料和所述平行语料,构建训练语料,包括:
根据所述低资源语料、所述平行语料以及所述发音信息,构建训练语料。
一种可能的实现方式中,所述根据所述低资源语料和所述平行语料,构建训练语料,包括:
将所述低资源语料和所述平行语料拼接,获得文本序列;
为所述文本序列中的部分字符设置掩膜,获得训练语料。
一种可能的实现方式中,所述语言模型包括生成模型和判别模型,所述生成模型的输出为所述判别模型的输入,所述判别模型用于判别所述生成模型输出的各个字符是否正确;
所述将所述训练语料输入所述语言模型进行模型训练,包括:
将所述训练语料输入所述生成模型,然后将所述生成模型的输出输入至所述判别模型,获得所述判别模型的输出;
根据所述生成模型的输入和输出确定第一损失值,根据所述判别模型的输入和输出确定第二损失值;
根据所述第一损失值和所述第二损失值获得所述语言模型的损失值,根据所述语言模型的损失值更新所述语言模型的参数。
一种可能的实现方式中,所述方言文本或少数民族语言文本中包括通配符,所述通配符用于表示不具有相应汉字的语音。
一种可能的实现方式中,所述获取低资源语料,包括:
接收用户编写的低资源语料;或者,
对用户输入的原始语料进行翻译,获得低资源语料。
一种可能的实现方式中,所述方法还包括:
将所述语言模型与任务模型连接,所述语言模型的输出为所述任务模型的输入。
第二方面,本申请提供了一种语言模型的训练装置,包括:
获取模块,用于获取低资源语料以及所述低资源语料的平行语料,所述平行语料为与所述低资源语料表达相同语义的高资源语料,所述低资源语料包括方言文本或少数民族语言文本,所述高资源语料包括普通话文本;
构建模块,用于根据所述低资源语料和所述平行语料,构建训练语料;
训练模块,用于将所述训练语料输入所述语言模型进行模型训练,直至所述语言模型满足训练停止条件。
一种可能的实现方式中,所述获取模块,还用于获取所述低资源语料的发音信息;所述构建模块,具体用于根据所述低资源语料、所述平行语料以及所述发音信息,构建训练语料。
一种可能的实现方式中,所述构建模块,具体用于将所述低资源语料和所述平行语料拼接,获得文本序列;为所述文本序列中的部分字符设置掩膜,获得训练语料。
一种可能的实现方式中,所述语言模型包括生成模型和判别模型,所述生成模型的输出为所述判别模型的输入,所述判别模型用于判别所述生成模型输出的各个字符是否正确;所述训练模块,具体用于将所述训练语料输入所述生成模型,然后将所述生成模型的输出输入至所述判别模型,获得所述判别模型的输出;根据所述生成模型的输入和输出确定第一损失值,根据所述判别模型的输入和输出确定第二损失值;根据所述第一损失值和所述第二损失值获得所述语言模型的损失值,根据所述语言模型的损失值更新所述语言模型的参数。
一种可能的实现方式中,所述方言文本或少数民族语言文本中包括通配符,所述通配符用于表示不具有相应汉字的语音。
一种可能的实现方式中,所述获取模块,具体用于:
接收用户编写的低资源语料;或者,
对用户输入的原始语料进行翻译,获得低资源语料。
一种可能的实现方式中,所述装置还包括连接模块,所述连接模块用于将所述语言模型与任务模型连接,所述语言模型的输出为所述任务模型的输入。
第三方面,本申请提供了一种电子设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语言模型的训练方法中的任意一种实现方式。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在电子设备上运行时,使得所述电子设备执行上述语言模型的训练方法中的任意一种实现方式。
第五方面,本申请提供了一种计算机程序产品,所述计算机程序产品在电子设备上运行时,使得所述电子设备执行上述语言模型的训练方法中的任意一种实现方式。
由上述技术方案可知,本申请至少具有以下有益效果:
本申请提供了一种语言模型的训练方法,该方法引入方言文本或者少数民族语言文本这一低资源语料的平行语料,即与该低资源语料表达相同语义的高资源语料,例如是上述方言文本或者少数民族语言文本对应的普通话文本,构建训练语料,将该训练语料输入语言模型进行模型训练直至语言模型满足训练停止条件。由于训练语料中包括普通话文本等高资源语料,能够为语言模型学习语义特征提供更丰富的信息。如此可以提升语言模型的训练效率,以及提升语言模型对方言或少数民族语言进行语义理解的效果,解决了方言或者少数民族语言的训练语料较少,导致语言模型对方言或者少数民族语言的语义理解效果不佳的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语言模型的训练系统的示意图;
图2为本申请实施例提供的一种语料配置界面的示意图;
图3为本申请实施例提供的一种语言模型的训练方法的流程图;
图4为本申请实施例提供的一种语言模型的示意图;
图5为本申请实施例提供的一种语言模型的训练装置的示意图。
具体实施方式
本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
首先对本申请实施例中所涉及到的一些技术术语进行介绍。
自然语言处理(natural language processing,NLP)技术,具体是一种对自然语言(随文化演进的语言,如普通话、方言、少数民族语言)进行认知、理解或者生成的技术。基于NLP技术的人工智能(artificial intelligence,AI)应用可以应用于不同领域的多种应用场景,例如可以用于语音识别、机器翻译、词性标注、句法分析、手写体识别和资讯检索等场景。这些AI应用的核心为语言模型(language model,LM)。
语言模型,具体是对于给定的词序列(w1,w2,…,wn),确定该词序列为一个句子的概率P(w1,w2,…,wn)。语言模型起源于语音识别。具体地,输入一段音频数据,语音识别系统可以输出多个候选句子,语言模型可以针对每个候选句子,确定该候选句子包括的单词形成的词序列构成一个句子的概率,进而从候选句子中确定概率较高的句子作为最终的识别结果。
例如,一段语音对应的候选句子包括候选句子1“我们需要实事求是”、候选句子2“我们需要实时求是”,语言模型从确定上述候选句子包括的单词形成的词序列构成句子的概率,从而确定最终的识别结果,例如最终的识别结果可以是“我们需要实事求是”。
目前,基于人工智能应用的语言模型对普通话进行语义理解时的准确率较高,对非普通话(例如方言或者少数民族语言)进行语义理解时,往往会给出错误的结果。如何提供一种对于方言或少数民族语言也具有较好效果的语言模型显得尤为重要。
以方言为例,目前对于方言进行语义理解主要以语言模型为主。但在训练用于对方言进行语义理解的语言模型的过程中,需要大量的方言语料。然而,可用的方言语料较少,单独使用较少的方言语料训练得到的语言模型存在语义理解效果较差的问题。
有鉴于此,本申请实施例提供了一种语言模型的训练方法,该方法可以由语言模型的训练系统(本申请中,为了表达简洁,如无特殊说明,语言模型的训练系统有时也简称为训练系统)执行。
具体地,训练系统获取低资源语料以及低资源语料的平行语料,该平行语料为与低资源语料表达相同语义的高资源语料,该低资源语料包括方言文本或少数民族语言文本,该高资源语料包括普通话文本,根据低资源语料和低资源语料的平行语料,构建训练语料,将训练语料输入语言模型进行模型训练,直至语言模型满足训练停止条件。
可见,本申请提供的语言模型的训练方法与传统方案中单纯依赖方言语料进行模型训练相比,训练系统对语言模型进行模型训练的过程中,引入了低资源语料(例如方言语料、少数民族语言语料)的平行语料(例如普通话语料),即与该低资源语料表达相同语义的高资源语料。然后将该低资源语料与该高资源语料构建训练语料,利用该训练语料进行模型训练直至语言模型满足训练停止条件。由于训练语料中包括普通话文本等高资源语料,能够为语言模型学习语义特征提供更丰富的信息,满足语言模型的训练需求。如此可以提升语言模型的训练效率,以及提升语言模型的对方言或少数民族语言进行语义理解的效果,解决了方言或少数民族语言的训练语料较少,导致语言模型对方言或少数民族语言的语义理解效果不佳的问题。进一步,训练系统仅需要完成低资源语料与高资源语料的翻译,如将方言文本或少数民族语言文本翻译为普通话文本,即可获得低资源语料的平行语料,进而构建训练语料。可见,训练系统获取训练语料更加便利,进一步提高了对语言模型进行模型训练的效率。
为了使得本申请的技术方案更加清楚、易于理解,下面结合附图对本申请的应用场景进行介绍。
参见图1所示的语言模型的训练方法的应用场景示意图,该训练系统10包括终端11和服务器12。其中,终端11包括但不限于智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,PDA)或者智能穿戴设备等,服务器12可以是云服务器,例如是中心云计算集群中的中心服务器,或者是边缘云计算集群中的边缘服务器。当然,服务器也可以是本地数据中心中的服务器。本地数据中心是指用户直接控制的数据中心。
终端11可以向用户呈现人机交互界面,用户可以在该人机交互界面中对语料进行配置。如图2所示,该图为本申请实施例提供的一种语料配置界面的示意图。该语料配置界面包括低资源语料输入区210,平行语料输入区220、翻译控件230、录音控件240以及上传控件250。
在一些示例中,用户可以在低资源语料输入区210输入低资源语料,如方言文本或少数民族语言文本;相应的,用户可以在平行语料输入区220输入该低资源语料的平行语料,如上述方言文本或少数民族语言文本翻译后的普通话文本。在另一些示例中,用户也可以在低资源语料输入区210输入低资源语料后,点击翻译控件230,终端11可以基于用户对翻译控件230的点击操作,对用户输入的低资源语料进行翻译(如机器翻译),然后在平行语料输入区220呈现翻译后的普通话文本,进一步,用户还可以在平行语料输入区220对翻译后得到的普通话文本进行编辑,进一步保证翻译得到的普通话文本的准确性。
在另一些示例中,在用户配置低资源语料以及该低资源语料的平行语料后,用户还可以进一步录入该低资源语料的发音信息。例如,用户可以点击录音控件240,终端11可以基于用户对录音控件240的点击操作采集用户说出方言文本或少数民族语言文本时的语音,基于该语音得到该低资源语料的发音信息。其中,发音信息可以通过音素标准,基于此,终端11可以基于声学模型对所采集低资源语料的语音进行处理,进而得到该低资源语料的发音信息。
然后,用户可以点击上传控件250,终端11可以基于用户对上传控件250的点击操作,将用户配置的低资源语料、平行语料以及低资源语料的发音信息发送给服务器12。在另一些示例中,终端11也可以仅将低资源语料和平行语料发送给服务器12。本申请实施例对此不进行具体限定。
服务器12在接收到终端11发送的低资源语料以及平行语料后,可以根据该低资源语料以及平行语料,构建训练语料;也可以根据低资源语料、平行语料以及低资源语料的发音信息,构建训练语料。接着,服务器将训练语料输入到语言模型中进行模型训练,直至该语言模型满足训练停止条件。
在本实施例中,训练语料包括平行语料,该平行语料为低资源语料表达相同语义的高资源语料,如此,该平行语料有助于提升语言模型对方言或少数民族语言进行语义理解的效果。进一步,训练语料中还包括了低资源语料的发音信息,如此可以解决部分低资源语料有发音无文本的问题,并且该低资源语料的发音信息有助于提升语言模型对部分方言或少数民族语言的语义理解效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面以训练系统的角度,结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图3所示,本申请实施例提供了一种语言模型的训练方法的流程图,该方法包括以下步骤:
S302:终端11接收用户配置的低资源语料以及低资源语料的平行语料。
低资源语料是指数据规模较小的语料,例如数据规模小于预设值的语料。低资源语料的平行语料为高资源语料,相应的,该高资源语料是指数据规模较大的语料,例如数据规模大于或等于预设值的语料。
在本申请实施例中,低资源语料包括方言文本或少数民族语言文本,其中方言文本可以是粤语文本、闽南语文本等,少数民族语言文本可以是蒙古族语言文本、哈萨克族语言文本等。高资源语料包括普通话文本,其中普通话文本可以是汉族语言文本等。
在一些实施例中,如上图2所示,终端11可以接收用户在语料配置界面中配置的低资源语料以及该低资源语料的平行语料。例如,用户可以直接在低资源语料输入区210直接输入低资源语料,以及在平行语料输入区220直接输入该低资源语料的平行语料。以客家话为例,用户可以在低资源语料输入区210上输入客家话文本“咦哩咦剁”,然后在平行语料输入区220输入普通话文本“这里这边”。通过用户编写低资源语料,能够增加低资源语料的数据规模,实现对低资源语料的个性化配置,满足业务需求。
在另一些实施例中,用户可以仅在低资源语料输入区210输入低资源语料,如输入“咦哩咦剁”,然后点击翻译控件230,终端11根据用户对翻译控件230的点击操作,在平行语料输入区220自动生成用户输入的低资源语料对应的平行语料,如生成“这里这边”。
在一些示例中,用户在低资源语料输入区210输入低资源语料后,终端11可以基于翻译模型,对用户输入的低资源语料进行翻译,得到该低资源语料的平行语料。具体地,终端11可以通过如下公式获得平行语料:
X`=T(X) (1)
其中,T(X)为翻译模型,X为低资源语料,例如X=(xn+2,xn+3…xm+n+1),X`为低资源语料的平行语料,例如X`=(x`1,x`2…x`n)。
在另一些示例中,也可以通过人工翻译的方式,对低资源语料进行翻译,得到与该低资源语料的平行语料,然后在平行语料输入区220输入翻译得到的平行语料。
在另一些实施例中,用户也可以仅在平行语料输入区220输入原始语料,如输入“这里这边”,然后点击翻译控件230,终端11根据用户对翻译控件230的点击操作,在低资源语料输入区210自动生成用户输入的原始语料对应的低资源语料,如生成“咦哩咦剁”。
在本实施例中,翻译控件230具有双向翻译的功能,即,翻译控件230可以将方言文本或少数民族语言文本翻译为普通话文本,也可以将普通话文本翻译为方言文本或少数民族语言文本。如此,用户仅需要输入一种语料,终端11可以将用户输入的语料自动地进行翻译,提高了用户配置低资源语料以及平行语料的效率。
需要说明的是,本申请实施例不具体限定服务器获得低资源语料的平行语料的方式,本领域技术人员可以根据实际需要,选择人工翻译的方式或者选择机器翻译的方式。例如,当需要较快地获取到低资源语料的平行语料时,可以采用机器翻译的方式,得到低资源语料的平行语料;当需要获取到较为准确的低资源语料的平行语料时,可以采用人工翻译的方式,得到低资源语料的平行语料。
S304:终端11向服务器12发送低资源语料以及平行语料。
S306:终端11接收用户配置的低资源语料的发音信息。
低资源语料的发音信息可以是方言文本或少数民族语言文本对应的音素。音素是从音色的角度划分出来的最小的语音单位,音素可以基于在发音过程中气流是否受到阻碍,分为两大类,元音音素和辅音音素。元音音素指发音时气流在口腔、咽头不受阻碍而形成的音;辅音音素指发音时气流在口腔、咽头受到一定程度的阻碍而形成的音。
在一些实施例中,如上图2所示,用户可以基于低资源语料输入区210中已输入的低资源语料,说出该低资源语料对应的语音,终端11可以对该语音进行录制,并利用声学模型对录制的语音进行处理,进而得到该低资源语料的发音信息。
在另一些示例中,会存在仅有发音而无文本的低资源语料,用户可以在平行语料输入区220中输入平行语料后,说出该平行语料对应的低资源语料的语音,终端11可以对该语音进行录制,并利用声学模型对录制的语音进行处理,进而得到该低资源语料的发音信息。
需要说明的是,终端11也可以通过查询发音字典获取低资源语料的发音信息,本申请实施例对此不具体限定,本领域技术人员可以根据实际需要选择合适的方式,以获取低资源语料的发音信息。
S308:终端11向服务器12发送低资源语料的发音信息。
需要说明的是,S306和S308为可选的步骤,在另一些实施例中终端11也可以不执行S306和S308。
S310:服务器12根据低资源语料以及平行语料,构建训练语料。
在一些实施例中,服务器12可以将低资源语料和平行语料进行拼接,得到文本序列。例如,服务器12可以将低资源语料的序列X=(xn+2,xn+3…xm+n+1)和平行语料的序列X`=(x1,x2…xn)进行拼接,得到文本序列F=(f1,f2…fn,fn+1,fn+2,fn+3…fn+m+1)。其中,fn+1为“[sep]”,即fn+1为分隔符,将fn+1带入到文本序列得到F=(f1,f2…fn,[sep],fn+2,fn+3…fn+m+1),该分隔符用于分割低资源语料与低资源语料的平行语料,从而能够使语言模型得知输入的文本序列中低资源语料部分和平行语料部分。服务器12可以基于文本序列F得到输入的隐层表示H=(h1,h2…hn,hn+1,hn+2…hn+m+1),其中,hn+1为“[sep]”,并为文本序列F中的部分字符设置掩膜,得到训练语料Fmask。例如,服务器可以为上述文本序列中f2和fn+2设置掩膜,得到训练语料Fmask=(f1,mask…fn,[sep],mask,fn+3…fn+m+1)。
为了便于理解,下面以普通话文本“这里这边”和方言文本(例如客家话语言文本)“咦哩咦剁”为例,文本序列可以表示为“这,里,这,边,[sep],咦,哩,咦,剁”。服务器12可以为文本序列中的第二个字符“里”、第三个字符“这”、第六个字符“咦”和第九个字符“剁”设置掩膜,得到训练语料,该训练语料可以表示为“这,mask,mask,边,[sep],mask,哩,咦,mask”。
在一些示例中,对于仅有发音而没有相应的文本的方言或者少数民族语言,服务器可以利用通配符替代该方言对应的方言文本或少数民族语言对应的少数民族语言文本。本申请实施例不具体限定通配符的形式,例如通配符可以是“[rep]”。如此,该方法进一步丰富了低资源语料,解决了有发音、无文本的问题,进一步提高训练后得到的语言模型对少数民族语言进行语义理解的效果。
在另一些实施例中,服务器12还接收终端11发送的低资源语料的发音信息。以官方语言文本“你好同学”为例,“你好同”对应的客家话文本可以是“汝好同”,当官方语言文本“学”不存在对应的客家话文本时,可以利用通配符“[rep]”替代,进而可以得到客家话文本序列“汝,好,同,[rep]”其中,客家话文本序列中“汝”的发音信息可以是“li3”、客家话文本序列“好”的发音信息可以是“hau3”、客家话文本序列“同”的发音信息可以是“tung2”客家话文本序列“[rep]”的发音信息可以是“hok6”。
接着基于该低资源语料的发音信息和低资源语料得到低资源语料的序列I=(in+2,in+3…im+n+1)。其中,ik=(xk,sk),n+2≤k≤m+n+1,sk为低资源语料X中第k个文本xk的发音信息,sk可以通过xk的发音信息对应的独热one-hot编码表征。
服务器12可以获得平行语料的序列I`=(j1,j2…jn)。类似的,服务器12可以将低资源语料的序列I=(in+2,in+3…im+n+1)与平行语料的序列I`=(i`1,i`2…i`n)进行拼接,得到携带有发音信息的文本序列J=(j1,j2…jn,jn+1,jn+2,jn+3…jn+m+1),其中,jn+1为“[sep]”,即jn+1为分隔符,将jn+1带入到携带有发音信息的文本序列得到J=(j1,j2…jn,[sep],jn+2,jn+3…jn+m+1)。
类似的,服务器12也可以为携带有发音信息的文本序列J中的部分字符设置掩膜。例如服务器12可以为上述文本序列中j2和jn+2设置掩膜,得到训练语料Jmask=(j1,mask…jn,[sep],mask,jn+3…jn+m+1)。
以携带有发音信息的文本序列“你,好,同,学,[sep],汝,好,同,[rep]”为例,服务器12可以为文本序列中的第二个字符“好”、第三个字符“同”、第六个字符“汝”和第九个字符“rep”设置掩膜,得到训练语料,该训练语料可以表示为“你,mask,mask,学,[sep],mask,好,同,mask”。
S312:服务器12将训练语料输入到语言模型进行模型训练,直至语言模型满足训练停止条件。
服务器12得到训练语料后,可以将该训练语料输入到语言模型进行模型训练。如图4所示,该图为本申请实施例提供的一种语言模型的示意图。该语言模型包括生成模型和判别模型,该生成模型的输出为判别模型的输入,该判别模型用于判别生成模型输出的各个字符是否正确。通过判别模型对生成模型输出的各个字符是否正确进行判断,能够进一步提升语言模型的训练速度。
以训练语料为“你,mask,mask,学,[sep],mask,好,同,mask”为例,服务器12可以将训练语料“你,mask,mask,学,[sep],mask,好,同,mask”输入到生成模型,得到生成模型的输出“你,好,同,学,[sep],mask,好,同,学”。然后服务器12可以将生成模型的输出输入到判别模型,得到判别模型的输出“101111111”,其中“1”表示语义理解正确,“0”表示语义理解错误。
服务器12可以将训练语料输入到生成模型,然后将生成模型的输出输入至判别模型,获得判别模型的输出,根据该生成模型的输入和输出确定第一损失值loss1,根据判别模型的输入和输出确定第二损失值loss2,然后基于该第一损失值loss1和第二损失值loss2得到语言模型的损失值,基于该语言模型的损失值更新该语言模型的参数。
服务器12可以将训练语料Jmask=(j1,mask…jn,[sep],mask,jn+3…jn+m+1)输入到生成模型,基于生成模型的输出确定第一损失值。具体地,服务器12可以通过如下公式计算得到生成模型的输出文本序列中每个字符的概率:
Figure BDA0003413548550000121
其中,P(jt|Fmask)为输入为Jmask时,输出为文本序列J第t个字符的概率;e(jt)表示输入Jmask中第t个字符的编码表示。
然后,服务器通过如下公式计算生成模型的第一损失值:
Figure BDA0003413548550000131
其中,loss1为生成模型的第一损失值,
Figure BDA0003413548550000132
表示求
Figure BDA0003413548550000133
的数学期望。
在一些示例中,可以将生成模型的输出记为D=(d1,d2…dn,dn+1,dn+2…dn+m+1),服务器12可以将生成模型的输出输入到判别模型,得到判别模型的输出P=(p1,p2…pn,pn+1,pn+2…pn+m+1)。其中,pt取值为“0”或“1”,当pt=1时,语义理解正确,当pt=0时,语义理解错误。接着,服务器12可以通过如下公式计算判别模型的第二损失值:
Figure BDA0003413548550000134
其中,loss2为判别模型的第二损失值,Q(dt)=sigmoid(w·ht),w为判别模型的权重,l(pt=1)、l(pt=0)表示指示函数,
Figure BDA0003413548550000135
表示求
Figure BDA0003413548550000136
的数学期望。
在一些示例中,服务器12可以基于第一损失值loss1和第二损失值loss2进行加和得到语言模型的损失值,根据该语言模型的损失值更新语言模型的参数。具体地,服务器12可以通过如下公式确定语言模型的损失值:
loss=loss1+loss2 (5)
其中,loss为语言模型的损失值,loss1为生成模型的第一损失值,loss2为判别模型的第二损失值。
需要说明的是,本申请实施例不具体限定服务器12获得语言模型的损失值的方式,在另一些实施例中,还可以为第一损失值和第二损失值设置权重因子,利用基于权重因子,对第一损失值和第二损失值进行加权求和,作为语言模型的损失值。
在另一些实施例中,服务器12也可以将训练语料Fmask输入到语言模型,进行模型训练。具体训练过程与上述示例类似,此处不再赘述。
在一些实施例中,训练停止条件可以语言模型的损失值loss低于预设损失值。本申请不具体限定语言模型的停止训练条件,本领域技术人员可以根据实际需要对该停止训练条件进行设置。
在一些实施例中,服务器12还可以将语言模型与任务模型连接,该语言模型的输出为任务模型的输入。服务器12可以基于下游任务的不同需求,在上述语言模型后连接相应的任务模型。
在一些示例中,下游任务可以为方言翻译任务,可以在语言模型后连接方言翻译模型,以将方言文本翻译为普通话文本等;下游任务可以为方言文本分类任务,可以在语言模型后连接方言分类模型,以将方言文本进行分类;下游任务可以为方言语音控制任务,可以在语言模型后连接方言指令生成模型,以生成语音控制指令,通过该指令控制受控设备,例如控制空调开启。
基于上述内容描述,本申请实施例提供了一种语言模型的训练方法,服务器不仅利用了低资源语料,而且引入了该低资源语料的平行语料,即与该低资源语料表达相同语义的高资源语料,将低资源语料和平行语料共同作为该语言模型的训练语料,能够为语言模型学习语义特征提供更丰富的信息,满足语言模型的训练需求,提高语言模型的对方言或少数民族语言进行语义理解的效果,从而解决方言或者少数民族语言的训练语料较差,导致语言模型对方言或者少数民族语言的语义理解效果不佳的问题。进一步,服务器还获取了低资源语料的发音信息,该低资源语料的发音信息能够辅助语言模型更好地对方言或少数民族语言进行语义理解,进一步提高训练后的语言模型对方言或少数民族语言进行语义理解的准确度。
本实施例将对一种语言模型的训练装置进行介绍,相关内容请参见上述方法实施例。
参见图5,为本实施例提供的语言模型的训练装置的组成示意图,该装置500包括:
获取模块501,用于获取低资源语料以及所述低资源语料的平行语料,所述平行语料为与所述低资源语料表达相同语义的高资源语料,所述低资源语料包括方言文本或少数民族语言文本,所述高资源语料包括普通话文本;
构建模块502,用于根据所述低资源语料和所述平行语料,构建训练语料;
训练模块503,用于将所述训练语料输入所述语言模型进行模型训练,直至所述语言模型满足训练停止条件。
一种可能的实现方式中,所述获取模块501,还用于获取所述低资源语料的发音信息;所述构建模块,具体用于根据所述低资源语料、所述平行语料以及所述发音信息,构建训练语料。
一种可能的实现方式中,所述构建模块502,具体用于将所述低资源语料和所述平行语料拼接,获得文本序列;为所述文本序列中的部分字符设置掩膜,获得训练语料。
一种可能的实现方式中,所述语言模型包括生成模型和判别模型,所述生成模型的输出为所述判别模型的输入,所述判别模型用于判别所述生成模型输出的各个字符是否正确;所述训练模块503,具体用于将所述训练语料输入所述生成模型,然后将所述生成模型的输出输入至所述判别模型,获得所述判别模型的输出;根据所述生成模型的输入和输出确定第一损失值,根据所述判别模型的输入和输出确定第二损失值;根据所述第一损失值和所述第二损失值获得所述语言模型的损失值,根据所述语言模型的损失值更新所述语言模型的参数。
一种可能的实现方式中,所述方言文本或少数民族语言文本中包括通配符,所述通配符用于表示不具有相应汉字的语音。
一种可能的实现方式中,所述获取模块501,具体用于:
接收用户编写的低资源语料;或者,
对用户输入的原始语料进行翻译,获得低资源语料。
一种可能的实现方式中,所述装置还包括连接模块,所述连接模块用于将所述语言模型与任务模型连接,所述语言模型的输出为所述任务模型的输入。
进一步地,本申请实施例还提供了一种电子设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语言模型的训练方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在电子设备上运行时,使得所述电子设备执行上述语言模型的训练方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在电子设备上运行时,使得所述电子设备执行上述语言模型的训练方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语言模型的训练方法,其特征在于,包括:
获取低资源语料以及所述低资源语料的平行语料,所述平行语料为与所述低资源语料表达相同语义的高资源语料,所述低资源语料包括方言文本或少数民族语言文本,所述高资源语料包括普通话文本;
根据所述低资源语料和所述平行语料,构建训练语料;
将所述训练语料输入所述语言模型进行模型训练,直至所述语言模型满足训练停止条件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述低资源语料的发音信息;
所述根据所述低资源语料和所述平行语料,构建训练语料,包括:
根据所述低资源语料、所述平行语料以及所述发音信息,构建训练语料。
3.根据权利要求1所述的方法,其特征在于,所述根据所述低资源语料和所述平行语料,构建训练语料,包括:
将所述低资源语料和所述平行语料拼接,获得文本序列;
为所述文本序列中的部分字符设置掩膜,获得训练语料。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述语言模型包括生成模型和判别模型,所述生成模型的输出为所述判别模型的输入,所述判别模型用于判别所述生成模型输出的各个字符是否正确;
所述将所述训练语料输入所述语言模型进行模型训练,包括:
将所述训练语料输入所述生成模型,然后将所述生成模型的输出输入至所述判别模型,获得所述判别模型的输出;
根据所述生成模型的输入和输出确定第一损失值,根据所述判别模型的输入和输出确定第二损失值;
根据所述第一损失值和所述第二损失值获得所述语言模型的损失值,根据所述语言模型的损失值更新所述语言模型的参数。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述方言文本或少数民族语言文本中包括通配符,所述通配符用于表示不具有相应汉字的语音。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述获取低资源语料,包括:
接收用户编写的低资源语料;或者,
对用户输入的原始语料进行翻译,获得低资源语料。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
将所述语言模型与任务模型连接,所述语言模型的输出为所述任务模型的输入。
8.一种语言模型的训练装置,其特征在于,包括:
获取模块,用于获取低资源语料以及所述低资源语料的平行语料,所述平行语料为与所述低资源语料表达相同语义的高资源语料,所述低资源语料包括方言文本或少数民族语言文本,所述高资源语料包括普通话文本;
构建模块,用于根据所述低资源语料和所述平行语料,构建训练语料;
训练模块,用于将所述训练语料输入所述语言模型进行模型训练,直至所述语言模型满足训练停止条件。
9.一种电子设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在电子设备上运行时,使得所述电子设备执行权利要求1-7任一项所述的方法。
CN202111538138.3A 2021-12-15 2021-12-15 一种语言模型的训练方法、装置、存储介质及设备 Pending CN114254649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111538138.3A CN114254649A (zh) 2021-12-15 2021-12-15 一种语言模型的训练方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111538138.3A CN114254649A (zh) 2021-12-15 2021-12-15 一种语言模型的训练方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN114254649A true CN114254649A (zh) 2022-03-29

Family

ID=80795265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111538138.3A Pending CN114254649A (zh) 2021-12-15 2021-12-15 一种语言模型的训练方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN114254649A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455981A (zh) * 2022-11-11 2022-12-09 合肥智能语音创新发展有限公司 一种多语种语句的语义理解方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115455981A (zh) * 2022-11-11 2022-12-09 合肥智能语音创新发展有限公司 一种多语种语句的语义理解方法、装置、设备及存储介质
CN115455981B (zh) * 2022-11-11 2024-03-19 合肥智能语音创新发展有限公司 一种多语种语句的语义理解方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108447486B (zh) 一种语音翻译方法及装置
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
US7860705B2 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
CN110797010A (zh) 基于人工智能的问答评分方法、装置、设备及存储介质
CN110782880B (zh) 一种韵律生成模型的训练方法及装置
CN110010136B (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN117711444B (zh) 一种基于口才表达的互动方法、装置、设备及存储介质
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
US11615787B2 (en) Dialogue system and method of controlling the same
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN114003700A (zh) 一种对话信息的处理方法、系统、电子设备及存储介质
CN114254649A (zh) 一种语言模型的训练方法、装置、存储介质及设备
CN113409768A (zh) 发音检测方法、装置及计算机可读介质
TW201937479A (zh) 一種多語言混合語音識別方法
CN111968646A (zh) 一种语音识别方法及装置
Nuthakki et al. Deep learning based multilingual speech synthesis using multi feature fusion methods
CN111489742B (zh) 声学模型训练方法、语音识别方法、装置及电子设备
CN115019787A (zh) 一种交互式同音异义词消歧方法、系统、电子设备和存储介质
CN116186529A (zh) 语义理解模型的训练方法及装置
CN115050351A (zh) 生成时间戳的方法、装置及计算机设备
Sefara The development of an automatic pronunciation assistant
Dua et al. A review on Gujarati language based automatic speech recognition (ASR) systems
CN115273849B (zh) 一种关于音频数据的意图识别方法及装置
CN113823259B (zh) 将文本数据转换为音素序列的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230506

Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Applicant after: University of Science and Technology of China

Applicant after: IFLYTEK Co.,Ltd.

Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province

Applicant before: IFLYTEK Co.,Ltd.