CN111859982B - 语言模型的训练方法、装置、电子设备及可读存储介质 - Google Patents

语言模型的训练方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111859982B
CN111859982B CN202010564636.4A CN202010564636A CN111859982B CN 111859982 B CN111859982 B CN 111859982B CN 202010564636 A CN202010564636 A CN 202010564636A CN 111859982 B CN111859982 B CN 111859982B
Authority
CN
China
Prior art keywords
text
language model
articles
training
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010564636.4A
Other languages
English (en)
Other versions
CN111859982A (zh
Inventor
朱丹翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010564636.4A priority Critical patent/CN111859982B/zh
Publication of CN111859982A publication Critical patent/CN111859982A/zh
Priority to US17/203,680 priority patent/US20210397791A1/en
Priority to EP21163220.3A priority patent/EP3926514A1/en
Priority to KR1020210077685A priority patent/KR20210157342A/ko
Priority to JP2021100241A priority patent/JP7179123B2/ja
Application granted granted Critical
Publication of CN111859982B publication Critical patent/CN111859982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语言模型的训练方法、装置、电子设备及可读存储介质,涉及深度学习技术领域和自然语言处理技术领域。具体实现方案为:分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;将所述多段文本进行拼接,得到拼接文本;将所述拼接文本输入语言模型,经所述语言模型输出文章数量的预测值;基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。本申请利用从多篇文章中采样的文本对语言模型进行训练,可以实现语言模型对整段文本内容的分类,提升语言模型对文本内容的识别效果。

Description

语言模型的训练方法、装置、电子设备及可读存储介质
技术领域
涉及计算机技术领域,具体涉及深度学习技术领域和自然语言处理技术,尤其涉及一种语言模型的训练方法、装置、电子设备及可读存储介质。
背景技术
在中文自然语言处理(Natural Language Processing,NLP)领域,使用大量的无监督文本进行语言模型自监督的预训练学习(pre-training),接着采用有监督的任务数据对语言模型进行参数精调(fine-tuning),是当前NLP领域中先进的语言模型训练技术。
现有技术在语言模型的训练学习中,缺乏对语言模型在单句分类任务上的训练,使得语言模型缺乏单句分类能力,从而限制了语言模型对文本内容的识别效果。
发明内容
本申请的多个方面提供一种语言模型的训练方法、装置、电子设备及可读存储介质,用以实现语言模型对整段文本内容的分类,提升语言模型对文本内容的识别效果。
根据第一方面,提供了一种语言模型的训练方法,包括:
分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;
将所述多段文本进行拼接,得到拼接文本;
将所述拼接文本输入语言模型,经所述语言模型输出文章数量的预测值;
基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。
根据第二方面,提供了一种语言模型的训练装置,包括:
采样单元,用于分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;
拼接单元,用于将所述多段文本进行拼接,得到拼接文本;
语言模型,用于接收输入的所述拼接文本,输出文章数量的预测值;
训练单元,用于基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。
根据第三方面,提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
根据第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
根据第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
由上述技术方案可知,本申请实施例通过分别从多篇文章中的每篇文章中采样一段文本,得到多段文本,并将所述多段文本进行拼接,得到拼接文本,然后,将所述拼接文本输入语言模型,经所述语言模型输出文章数量的预测值,进而,基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件,即可得到训练好的语言模型,使得训练好的语言模型具有对整段文本的内容进行识别和分类的能力,从而提升了语言模型对文本内容的识别效果。
另外,采用本申请所提供的技术方案,将训练好的语言模型用于后续的NLP任务时,可以有效提高NLP任务的处理结果的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。附图仅仅用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是根据本申请第五实施例的示意图;
图6是用来实现本申请实施例的语言模型的训练方法的电子设备的示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)、智能家居设备等智能设备。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
现有技术在语言模型的预训练学习中,缺乏对语言模型在单句分类任务上的训练,使得语言模型缺乏单句分类能力,从而限制了语言模型对文本内容的识别效果。
本申请针对上述问题,提出一种语言模型的训练方法、装置、电子设备及可读存储介质,以实现语言模型对整段文本内容的分类,提升语言模型对文本内容的识别效果。
图1是根据本申请第一实施例的示意图,如图1所示。
101、分别从多篇文章中的每篇文章中采样一段文本,得到多段文本。
102、将所述多段文本进行拼接,得到拼接文本。
103、将所述拼接文本输入语言模型,经所述语言模型输出文章数量的预测值。
104、基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。
其中,上述101~104可以为一个迭代执行的过程,通过迭代执行101~104实现对语言模型的训练,在满足预设训练完成条件时,对语言模型的训练完成。
可选地,在本实施例的一个可能的实现方式中,所述预设训练完成条件可以根据实际需求设置,例如可以包括:所述多篇文章的实际文章数量与所述文章数量的预测值之间的差异小于第一预设阈值,例如2;和/或,语言模型的训练次数(即,101~104的迭代执行次数)达到第二预设阈值,例如100万次。
需要说明的是,101~104的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
本实施例中,通过从多篇文章中的每篇文章中采样的多段文本进行拼接,让语言模型预测拼接文本的文章数量(即文章来源数),基于语言模型预测的文章数量和实际文章数量对所述语言模型进行训练,使得训练好的语言模型具有对整段文本的内容进行识别和分类的能力,从而提升了语言模型对文本内容的识别效果。
另外,采用本申请所提供的技术方案,将训练好的语言模型用于后续的NLP任务时,可以有效提高NLP任务的处理结果的准确性。
可选地,在本实施例的一个可能的实现方式中,在101中,可以从文章数据库中随时选取多篇文章,然后,随机从所述多篇文章中的每篇文章中采样一段连续的文本,其中,每一段连续的文本包括至少一个句子,即,从每篇文章中选取的一段文本可以包括一个句子,也可以包括多个连续的句子,例如可以包括两个或三个连续的句子。
本实施例中,文章数据库中可以包括较多数量的文章,其中文章的体裁、内容分类上可以相同或不同。每次从文章数据库中随时选取多篇文章、随机从所述多篇文章中的每篇文章中采样一段连续的文本用于语言模型的训练,可以提高语言模型对不同内容的学习和分类能力;由于一篇文章中连续的文本在内容上连贯、语义上关联,通过从每篇文章中采样连续的文本用于语言模型的训练,有助于提高语言模型的语义学习能力,以便准确识别不同句子是否来源于同一篇文章。
可选地,在本实施例的一个可能的实现方式中,本申请上述实施例中的所述语言模型可以是任意的语言模型,例如可以采用知识增强语义表示(Enhanced Representationfrom kNowledge IntEgration,ERNIE)模型。
ERNIE模型可以通过建模海量数据中的实体概念等先验语义知识,学习完整概念的语义表示,通过对词和实体概念等语义单元来预训练ERNIE模型,从而使得ERNIE模型对语义知识单元的表示更贴近真实世界,ERNIE模型在基于字特征输入建模的同时,直接对先验语义知识单元进行建模,具有较强的语义表示能力。本实施例中,以ERNIE模型作为语言模型,可以利用ERNIE模型较强的语义表示能力,来对整段文本的内容进行识别和分类,进一步增强ERNIE模型的内容识别和分类效果。
可选地,在本实施例的一个可能的实现方式中,从多篇文章中采样得到的多段文本的字符数不大于预设字符数。该预设字符数可以由所述语言模型可以支持的最大字符数设置,例如,所述预设字符数可以是所述语言模型可以支持的最大字符数;或者,所述预设字符数也可以是在所述语言模型支持的最大字符数范围内、可以具有较好语言识别性能的字符数,该字符数的具体取值可以根据语言模型的具体类型和性能确定;或者,所述预设字符数也可以采用其他方式确定,本申请实施例对预设字符数的具体确定方式和取值不做限制。
例如,对于ERNIE模型来说,由于其对于不大于512字符的文本具有较好的语义学习能力,从多篇文章中采样得到的多段文本的字符数可以不大于512字符,这样,利用不大于512字符的拼接文本训练ERNIE模型时,可以充分利用ERNIE模型的语义学习能力,提高ERNIE模型的训练效率和训练效果。
可选地,在本实施例的一个可能的实现方式中,102中,可以将所述多段文本中的句子顺序打乱,并将顺序打乱后的句子进行拼接,得到拼接文本。
本实施例中,将所述多段文本中的句子顺序打乱后再进行拼接,得到的拼接文本中相邻句子之间不存在语义关联性,利用得到的拼接文本对语言模型进行训练,可以提高语言模型的内容识别和分类能力,从而提高语言模型的训练效果。
可选地,在本实施例的一个可能的实现方式中,还可以将所述多段文本中各句子的句子标识(sentence embedding)设置为统一预设标识,例如0;或者,将所述拼接文本中各句子的句子标识设置为统一预设标识,例如0。
本实施例中,通过将多段文本中或者拼接文本中各句子的句子标识设置为统一预设标识,使得语言模型感知不到输入的拼接文本中包括几个句子,不易感知拼接文本中的句子可能来自于几篇文章,从而提高提高语言模型的训练效果。
由于本公开实施例中用于训练语言模型的拼接文本不区分句子,因此可以将拼接文本的整段文本看作一个句子,本公开实施例中对拼接文本的内容识别和分类也可以称为单句分类。基于本实施例训练得到的语言模型便可用于进行单句分类任务。
图2是根据本申请第二实施例的示意图,如图2所示。
从文章数据库中随时选取4篇文章:文章1、文章2、文章3、文章4,并随机从这4篇文章中的每篇文章中采样一段连续的文本,假设从文章2中采样的文本包括两个连续的句子,从文章1、文章3、文章4中分别采用了一个句子,则从这4篇文章采样出的5个句子顺序打乱后拼接,得到拼接文本,并将5个句子的句子标识分别设置为0,然后将拼接文本输入ERNIE模型,通过ERNIE模型预测该拼接文本的文章数量,即来自于几篇文章,得到文章数量的预测值M,基于文章数量的预测值M和实际文章数量4对ERNIE模型进行训练,直至满足预设训练完成条件,例如,ERNIE模型输出的文章数量的预测值M为4,或者训练次数达到100万次。
图3是根据本申请第三实施例的示意图,如图3所示。
在第一实施例的基础之上,满足预设训练完成条件得到训练好的语言模型之后,还可以通过有监督的NLP任务对语言模型进行进一步优化,进一步提高语言模型在NLP任务中的预测性能。
在第二实施例中,通过有监督的NLP任务对语言模型进行的优化可以具体由如下步骤实现:
201、利用训练好的语言模型进行NLP任务,得到处理结果。
可选地,在本实施例的一个可能的实现方式中,其中的NLP任务例如可以是分类、匹配、序列标注等NLP任务中的任意一个或多个,本实施例对此不进行特别限定。相应地,处理结果为具体NLP任务的处理结果,例如分类结果、匹配结果、序列标注结果等。
可选地,在本实施例的一个可能的实现方式中,在201中,具体利用训练好的语言模型结合其他用于实现分类、匹配、序列标注的网络模型,例如卷积神经网络(convolutional neural network,CNN)、长短期记忆(Long Short Term Memory,LSTM)模型、词袋(Bag of Word,BOW)模型,进行NLP任务,得到处理结果,例如,其他用于实现分类、匹配、序列标注的网络模型基于语言模型的输出进行分类、匹配、序列标注等处理,得到相应的分类结果、匹配结果、序列标注结果等处理结果。
202、根据所述处理结果与所述处理结果对应的标注结果信息之间的差异,对所述语言模型中的参数值进行精调(fine-tuning)即精调语言模型中的参数值。
其中,所述标注结果信息为预先针对所要进行的NLP任务人工标注的正确处理结果。
其中,上述201~202可以为一个迭代执行的过程,通过迭代执行201~202对语言模型进行多次精调,直至满足预设条件,对语言模型的精调完成。
可选地,在本实施例的一个可能的实现方式中,所述预设条件可以根据实际需求设置,例如可以包括:所述处理结果与标注结果信息之间的差异小于预设差异小于第三预设阈值;和/或,语言模型的精调次数(即,201~202的迭代执行次数)达到第四预设阈值。
本实施例中,可以在不改变语言模型整体结构的情况下,通过有监督数据(即标注结果信息)的NLP任务对语言模型中的参数值进行进一步优化,便于根据各NLP任务对语言模型进行优化迭代,提高语言模型的预测性能。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图4是根据本申请第四实施例的示意图,如图4所示。本实施例的语言模型的训练装置300可以包括采样单元301、拼接单元302、语言模型303和训练单元304。其中,采样单元301,用于分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;拼接单元302,用于将所述多段文本进行拼接,得到拼接文本;语言模型303,用于接收输入的所述拼接文本,输出文章数量的预测值;训练单元304,用于基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型303进行训练,直至满足预设训练完成条件。
需要说明的是,本实施例的语言模型的训练装置的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的处理引擎,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
本实施例中,通过从多篇文章中的每篇文章中采样的多段文本,基于语言模型预测的文章数量和实际文章数量对所述语言模型进行训练,使得训练好的语言模型具有对整段文本的内容进行识别和分类的能力,从而提升了语言模型对文本内容的识别效果。
另外,采用本申请所提供的技术方案,将训练好的语言模型用于后续的NLP任务时,可以有效提高NLP任务的处理结果的准确性。
可选地,在本实施例的一个可能的实现方式中,所述采样单元301,具体用于:从文章数据库中随时选取所述多篇文章;随机从所述多篇文章中的每篇文章中采样一段连续的文本,所述一段连续的文本包括至少一个句子。
可选地,在本实施例的一个可能的实现方式中,所述多段文本的字符数不大于预设字符数。该预设字符数可以由所述语言模型可以支持的最大字符数设置,例如,所述预设字符数可以是所述语言模型可以支持的最大字符数;或者,所述预设字符数也可以是在所述语言模型支持的最大字符数范围内、可以具有较好语言识别性能的字符数,该字符数的具体取值可以根据语言模型的具体类型和性能确定;或者,所述预设字符数也可以采用其他方式确定,本申请实施例对预设字符数的具体确定方式和取值不做限制。
可选地,在本实施例的一个可能的实现方式中,所述拼接单元302,具体用于:将所述多段文本中的句子顺序打乱,并将顺序打乱后的句子进行拼接,得到拼接文本。
可选地,在本实施例的一个可能的实现方式中,所述语言模型303可以是任意的语言模型,例如可以采用ERNIE模型。
图5是根据本申请第五实施例的示意图,如图5所示,在图4所示实施例的基础上,本实施例的语言模型的训练装置300还可以包括:标识设置单元401,用于:将所述多段文本中各句子的句子标识设置为统一预设标识;或者,将所述拼接文本中各句子的句子标识设置为统一预设标识。
可选地,再参见图5,在本实施例的一个可能的实现方式中,所述语言模型303,还可用于在满足预设训练完成条件后,进行NLP任务,得到处理结果。相应地,上述实施例的语言模型的训练装置300还可以包括:精调单元402,用于根据所述处理结果与所述处理结果对应的标注结果信息之间的差异,对所述语言模型303中的参数值进行精调。
需要说明的是,图1~图3对应的实施例中的方法可以由上述图4~图5实施例提供的语言模型的训练装置实现。详细描述可以参见图1~图3对应的实施例中的相关内容,此处不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种存储有计算机指令的非瞬时计算机可读存储介质。
图6是用来实现本申请实施例的语言模型的训练方法的电子设备的示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI(图形用户界面)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语言模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语言模型的训练方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及单元,如本申请实施例中的语言模型的训练方法对应的程序指令/单元(例如,附图4所示的采样单元301、拼接单元302、语言模型303和训练单元304)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及单元,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语言模型的训练方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现本申请实施例提供的语言模型的训练方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现本申请实施例提供的语言模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语言模型的训练方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与实现本申请实施例提供的语言模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,LCD(液晶显示器)、LED(发光二极管)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、PLD(可编程逻辑器件)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语言输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(局域网)、WAN(广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过从多篇文章中的每篇文章中采样的多段文本,基于语言模型预测的文章数量和实际文章数量对所述语言模型进行训练,使得训练好的语言模型具有对整段文本的内容进行识别和分类的能力,从而提升了语言模型对文本内容的识别效果。
另外,采用本申请所提供的技术方案,将训练好的语言模型用于后续的NLP任务时,可以有效提高NLP任务的处理结果的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (13)

1.一种语言模型的训练方法,包括:
分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;
将所述多段文本进行拼接,得到拼接文本:将所述多段文本中的句子顺序打乱,并将顺序打乱后的句子进行拼接,得到拼接文本;
将所述拼接文本输入语言模型,经所述语言模型输出文章数量的预测值,所述语言模型包括知识增强语义表示ERNIE模型;
基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。
2.根据权利要求1所述的方法,其中,所述分别从多篇文章中的每篇文章中采样一段文本,得到多段文本,包括:
从文章数据库中随时选取所述多篇文章;
随机从所述多篇文章中的每篇文章中采样一段连续的文本,所述一段连续的文本包括至少一个句子。
3.根据权利要求1所述的方法,其中,所述多段文本的字符数不大于预设字符数。
4.根据权利要求1-3中任一项所述的方法,其中,所述方法还包括:
将所述多段文本中各句子的句子标识设置为统一预设标识;或者,
将所述拼接文本中各句子的句子标识设置为统一预设标识。
5.根据权利要求1-3中任一项所述的方法,其中,所述满足预设训练完成条件之后,还包括:
利用所述语言模型进行自然语言处理NLP任务,得到处理结果;
根据所述处理结果与所述处理结果对应的标注结果信息之间的差异,对所述语言模型中的参数值进行精调。
6.一种语言模型的训练装置,包括:
采样单元,用于分别从多篇文章中的每篇文章中采样一段文本,得到多段文本;
拼接单元,用于将所述多段文本进行拼接,得到拼接文本:将所述多段文本中的句子顺序打乱,并将顺序打乱后的句子进行拼接,得到拼接文本;
语言模型,用于接收输入的所述拼接文本,输出文章数量的预测值,所述语言模型包括知识增强语义表示ERNIE模型;
训练单元,用于基于所述多篇文章的实际文章数量与所述文章数量的预测值,对所述语言模型进行训练,直至满足预设训练完成条件。
7.根据权利要求6所述的装置,其中,所述采样单元,具体用于
从文章数据库中随时选取所述多篇文章;
随机从所述多篇文章中的每篇文章中采样一段连续的文本,所述一段连续的文本包括至少一个句子。
8.根据权利要求6所述的装置,其中,所述多段文本的字符数不大于预设字符数。
9.根据权利要求6-8中任一项所述的装置,其中,所述装置还包括:标识设置单元,用于
将所述多段文本中各句子的句子标识设置为统一预设标识;或者,
将所述拼接文本中各句子的句子标识设置为统一预设标识。
10.根据权利要求6-8中任一项所述的装置,其中,所述语言模型,还用于在满足预设训练完成条件后,进行自然语言处理NLP任务,得到处理结果;
所述装置还包括:
精调单元,用于根据所述处理结果与所述处理结果对应的标注结果信息之间的差异,对所述语言模型中的参数值进行精调。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
CN202010564636.4A 2020-06-19 2020-06-19 语言模型的训练方法、装置、电子设备及可读存储介质 Active CN111859982B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202010564636.4A CN111859982B (zh) 2020-06-19 2020-06-19 语言模型的训练方法、装置、电子设备及可读存储介质
US17/203,680 US20210397791A1 (en) 2020-06-19 2021-03-16 Language model training method, apparatus, electronic device and readable storage medium
EP21163220.3A EP3926514A1 (en) 2020-06-19 2021-03-17 Language model training method, apparatus, electronic device and readable storage medium
KR1020210077685A KR20210157342A (ko) 2020-06-19 2021-06-15 언어 모델의 훈련 방법, 장치, 전자 기기 및 판독 가능 기록 매체
JP2021100241A JP7179123B2 (ja) 2020-06-19 2021-06-16 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010564636.4A CN111859982B (zh) 2020-06-19 2020-06-19 语言模型的训练方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111859982A CN111859982A (zh) 2020-10-30
CN111859982B true CN111859982B (zh) 2024-04-26

Family

ID=72987591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010564636.4A Active CN111859982B (zh) 2020-06-19 2020-06-19 语言模型的训练方法、装置、电子设备及可读存储介质

Country Status (5)

Country Link
US (1) US20210397791A1 (zh)
EP (1) EP3926514A1 (zh)
JP (1) JP7179123B2 (zh)
KR (1) KR20210157342A (zh)
CN (1) CN111859982B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699216A (zh) * 2020-12-28 2021-04-23 平安科技(深圳)有限公司 端到端的语言模型预训练方法、系统、设备及存储介质
CN114817469B (zh) * 2022-04-27 2023-08-08 马上消费金融股份有限公司 文本增强方法、文本增强模型的训练方法及装置
CN114943228B (zh) * 2022-06-06 2023-11-24 北京百度网讯科技有限公司 端到端敏感文本召回模型的训练方法、敏感文本召回方法
CN115033678A (zh) * 2022-08-09 2022-09-09 北京聆心智能科技有限公司 一种对话模型训练方法、装置及设备
CN115310425B (zh) * 2022-10-08 2023-01-03 浙江浙里信征信有限公司 基于政策文本分类和关键信息识别的政策文本分析方法
CN115630630B (zh) * 2022-10-25 2024-02-13 北京百度网讯科技有限公司 语言模型处理方法、业务处理方法、装置、设备及介质
KR102618219B1 (ko) 2023-07-03 2023-12-27 주식회사 렛서 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을미세 조정하는 방법 및 사전 학습된 언어 모델의 파라미터 및 사전 학습 단어장을 미세 조정하기 위한 전자 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188360A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 模型训练方法和装置
CN110717339A (zh) * 2019-12-12 2020-01-21 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262039A1 (en) * 2004-05-20 2005-11-24 International Business Machines Corporation Method and system for analyzing unstructured text in data warehouse
US9690804B2 (en) * 2010-05-28 2017-06-27 Rakuten, Inc. Information processing device, information processing method, information processing program, and recording medium
JP6011856B2 (ja) 2012-11-09 2016-10-19 日本電信電話株式会社 文書間関係推定モデル学習装置、文書間関係推定装置、方法、及びプログラム
US9703783B2 (en) * 2013-03-15 2017-07-11 Yahoo! Inc. Customized news stream utilizing dwelltime-based machine learning
US20170154035A1 (en) * 2014-07-23 2017-06-01 Nec Corporation Text processing system, text processing method, and text processing program
US20190332619A1 (en) * 2014-08-07 2019-10-31 Cortical.Io Ag Methods and systems for mapping data items to sparse distributed representations
EP3203383A4 (en) * 2014-10-01 2018-06-20 Hitachi, Ltd. Text generation system
KR101656245B1 (ko) * 2015-09-09 2016-09-09 주식회사 위버플 문장 추출 방법 및 시스템
US10445356B1 (en) * 2016-06-24 2019-10-15 Pulselight Holdings, Inc. Method and system for analyzing entities
US10776434B1 (en) * 2016-11-16 2020-09-15 First American Financial Corporation System and method for document data extraction, data indexing, data searching and data filtering
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
KR101851890B1 (ko) * 2017-01-13 2018-06-07 군산대학교산학협력단 디지털 컨텐츠를 분석하는 방법
US11263523B1 (en) * 2017-01-27 2022-03-01 Manzama, Inc. System and method for organizational health analysis
US10713432B2 (en) * 2017-03-31 2020-07-14 Adobe Inc. Classifying and ranking changes between document versions
KR102071582B1 (ko) * 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
US11100144B2 (en) * 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
US10740560B2 (en) * 2017-06-30 2020-08-11 Elsevier, Inc. Systems and methods for extracting funder information from text
US11574287B2 (en) * 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US10789942B2 (en) * 2017-10-24 2020-09-29 Nec Corporation Word embedding system
US10891943B2 (en) * 2018-01-18 2021-01-12 Citrix Systems, Inc. Intelligent short text information retrieve based on deep learning
US10515149B2 (en) * 2018-03-30 2019-12-24 BlackBoiler, LLC Method and system for suggesting revisions to an electronic document
JP2019200494A (ja) * 2018-05-14 2019-11-21 富士通株式会社 表示プログラム、表示方法および表示装置
US20200125671A1 (en) * 2018-10-17 2020-04-23 International Business Machines Corporation Altering content based on machine-learned topics of interest
US10831793B2 (en) * 2018-10-23 2020-11-10 International Business Machines Corporation Learning thematic similarity metric from article text units
US11416534B2 (en) 2018-12-03 2022-08-16 Fujitsu Limited Classification of electronic documents
US20200184016A1 (en) 2018-12-10 2020-06-11 Government Of The United States As Represetned By The Secretary Of The Air Force Segment vectors
JP7077265B2 (ja) * 2019-05-07 2022-05-30 株式会社東芝 文書解析装置、学習装置、文書解析方法および学習方法
KR20200135607A (ko) * 2019-05-22 2020-12-03 삼성전자주식회사 학습 네트워크 모델 기반의 언어 처리 방법 및 장치
US11526804B2 (en) * 2019-08-27 2022-12-13 Bank Of America Corporation Machine learning model training for reviewing documents
US11508173B2 (en) * 2019-10-30 2022-11-22 Adobe Inc. Machine learning prediction and document rendering improvement based on content order
US11797594B2 (en) * 2019-12-09 2023-10-24 Verint Americas Inc. Systems and methods for generating labeled short text sequences
CN111125364B (zh) 2019-12-24 2023-04-25 华南理工大学 一种基于ernie的远程监督关系抽取的降噪方法
CN111259112B (zh) * 2020-01-14 2023-07-04 北京百度网讯科技有限公司 医疗事实的验证方法和装置
US11416684B2 (en) * 2020-02-06 2022-08-16 Adobe Inc. Automated identification of concept labels for a set of documents
US20210342737A1 (en) * 2020-05-01 2021-11-04 EMC IP Holding Company LLC Ai/ml based proactive system to improve sales productivity by categorizing and determining relevant news

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188360A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 模型训练方法和装置
CN110717339A (zh) * 2019-12-12 2020-01-21 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ERNIE2.0:A Continual Pre-Training Framework for Language Understanding;Yu Sun et al.;《arXiv》;20191121;1-8 *
基于ERNIE的命名实体识别;张晓 等;《智能计算机与应用》;20200331;第10卷(第3期);21-26 *
基于深度学习的图像标题生成算法及应用;朱丹翔;《中国优秀硕士学位论文全文数据库》;20180215;1-63 *

Also Published As

Publication number Publication date
KR20210157342A (ko) 2021-12-28
JP2022002088A (ja) 2022-01-06
EP3926514A1 (en) 2021-12-22
JP7179123B2 (ja) 2022-11-28
CN111859982A (zh) 2020-10-30
US20210397791A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
CN111859982B (zh) 语言模型的训练方法、装置、电子设备及可读存储介质
CN111859951B (zh) 语言模型的训练方法、装置、电子设备及可读存储介质
CN111539223B (zh) 语言模型的训练方法、装置、电子设备及可读存储介质
CN111428008B (zh) 用于训练模型的方法、装置、设备以及存储介质
CN111709247B (zh) 数据集处理方法、装置、电子设备和存储介质
CN111737994B (zh) 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111079442B (zh) 文档的向量化表示方法、装置和计算机设备
CN111680145B (zh) 知识表示学习方法、装置、设备以及存储介质
CN111104514B (zh) 文档标签模型的训练方法及装置
CN110674314B (zh) 语句识别方法及装置
CN111221984A (zh) 多模态内容处理方法、装置、设备及存储介质
US11526668B2 (en) Method and apparatus for obtaining word vectors based on language model, device and storage medium
CN111967256B (zh) 事件关系的生成方法、装置、电子设备和存储介质
CN111339268B (zh) 实体词识别方法和装置
CN111737995A (zh) 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111667056B (zh) 用于搜索模型结构的方法和装置
CN111078878B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN111539209B (zh) 用于实体分类的方法和装置
CN112560499B (zh) 语义表示模型的预训练方法、装置、电子设备及存储介质
CN111310058B (zh) 资讯主题的推荐方法、装置、终端及存储介质
CN112329429B (zh) 文本相似度学习方法、装置、设备以及存储介质
CN111125445B (zh) 社区主题生成方法、装置、电子设备及存储介质
CN113312451B (zh) 文本标签确定方法和装置
CN111832313B (zh) 文本中情感搭配集合的生成方法、装置、设备和介质
CN112329427B (zh) 短信样本的获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant