CN113723105A - 语义特征提取模型的训练方法、装置、设备及存储介质 - Google Patents

语义特征提取模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113723105A
CN113723105A CN202110393016.3A CN202110393016A CN113723105A CN 113723105 A CN113723105 A CN 113723105A CN 202110393016 A CN202110393016 A CN 202110393016A CN 113723105 A CN113723105 A CN 113723105A
Authority
CN
China
Prior art keywords
word
vector sequence
pronunciation
text corpus
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110393016.3A
Other languages
English (en)
Inventor
陈小帅
陈春全
李伟康
孙星海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN202110393016.3A priority Critical patent/CN113723105A/zh
Publication of CN113723105A publication Critical patent/CN113723105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语义特征提取模型的训练方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取语义特征提取模型的训练语料,训练语料包括目标语言的字词文本语料及其发音标注信息;获取字词文本语料的字词表示向量序列及其发音标注信息的发音表示向量序列;通过语义特征提取模型,从字词表示向量序列和发音表示向量序列中,提取融合语义特征;基于融合语义特征,确定语义特征提取模型的预训练任务所对应的预测结果;基于预测结果和真实结果确定语义特征提取模型的预训练损失,并根据预训练损失调整语义特征提取模型的参数,得到预训练完成的语义特征提取模型。本申请能够提升语义特征提取模型的语义表示能力。

Description

语义特征提取模型的训练方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种语义特征提取模型的训练方法、装置、设备及存储介质。
背景技术
语义特征提取模型是用于提取文本的语义特征的神经网络模型,实现对文本的建模表示。
在相关技术中,在对文本进行建模表示时,通常是基于该文本中包含的字词特征,通过语义特征提取模型从该字词特征中提取文本的语义特征。采用这种方式训练生成的语义特征提取模型,其语义表示能力欠佳。
发明内容
本申请实施例提供了一种语义特征提取模型的训练方法、装置、设备及存储介质,能够提升语义特征提取模型的语义表示能力。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种语义特征提取模型的训练方法,所述方法包括:
获取所述语义特征提取模型的训练语料,所述训练语料包括目标语言的字词文本语料和所述字词文本语料的发音标注信息;
获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的发音标注信息的发音表示向量序列;
通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征;
基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果;
基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
根据本申请实施例的一个方面,提供了一种语义特征提取模型的训练装置,所述装置包括:
语料获取模块,用于获取所述语义特征提取模型的训练语料,所述训练语料包括目标语言的字词文本语料和所述字词文本语料的发音标注信息;
序列获取模块,用于获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的发音标注信息的发音表示向量序列;
特征提取模块,用于通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征;
结果确定模块,用于基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果;
参数调整模块,用于基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述语义特征提取模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述语义特征提取模型的训练方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述语义特征提取模型的训练方法。
本申请实施例提供的技术方案至少包括如下有益效果:
语义特征提取模型在提取字词文本语料的语义特征时,其不仅仅使用到了字词文本语料的字词特征(也即字词表示向量序列),还使用到了字词文本语料的发音特征(也即发音表示向量序列),相比于相关技术仅考虑字词特征,采用本申请技术方案能够使得语义特征提取模型捕获到字词和发音两方面特征,充分利用多种特征来增强模型的语义表示能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的方案实施环境的示意图;
图2是本申请一个实施例提供的语义特征提取模型的训练方法的流程图;
图3是本申请一个实施例提供的字词发音特征融合的示意图;
图4是本申请另一个实施例提供的字词发音特征融合的示意图;
图5是本申请另一个实施例提供的字词发音特征融合的示意图;
图6是本申请一个实施例提供的模型分阶段训练的示意图;
图7是本申请一个实施例提供的模型精调过程的流程图;
图8是本申请另一个实施例提供的语义特征提取模型的训练方法的流程图;
图9是本申请一个实施例提供的语义特征提取模型的训练装置的框图;
图10是本申请一个实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的技术方案,涉及人工智能的机器学习和自然语言处理等技术,具体通过如下实施例进行介绍说明。
请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括模型训练设备10和模型使用设备20。
模型训练设备10可以是诸如电脑、服务器、智能机器人等电子设备,或者是其他一些具有较强计算能力的电子设备。模型训练设备10用于对语义特征提取模型进行训练。在本申请实施例中,语义特征提取模型是用于提取文本的高层语义特征的神经网络模型,模型训练设备10可以采用机器学习的方式对该语义特征提取模型进行训练,以使得其具备较好的语义表示能力。
可选地,模型训练设备10还可以将预训练完成的语义特征提取模型应用在目标任务中,采用目标任务的训练样本对该语义特征提取模型的参数进行精调,使得精调后的语义特征提取模型配合目标任务的结果预测网络,能够针对目标任务具有较好的结果预测性能。
上述训练完成的语义特征提取模型和目标任务的结果预测网络,可以组成目标任务的任务预测模型(在本申请中称为“目标任务模型”),该目标任务模型可部署在模型使用设备20中使用,对目标任务进行结果预测。模型使用设备20可以是诸如手机、电脑、智能电视、多媒体播放设备、可穿戴设备、医疗设备等终端设备,也可以是服务器,本申请对此不作限定。
在本申请实施例中,对目标任务的具体任务内容不作限定,其可以是任何需要用到文本的语义特征进行结果预测的任务。例如,在针对视频评论的识别领域,目标任务可以是视频评论情感识别任务、视频评论诗歌体识别任务等,本申请对此不作限定。
下面,将通过几个实施例对本申请技术方案进行介绍说明。
请参考图2,其示出了本申请一个实施例提供的语义特征提取模型的训练方法的流程图。该方法各步骤的执行主体可以是上述图1所示方案实施环境中的模型训练设备10。该方法可以包括如下几个步骤(210~250):
步骤210,获取语义特征提取模型的训练语料,训练语料包括目标语言的字词文本语料和该字词文本语料的发音标注信息。
可选地,从数据源获取目标语言的字词文本语料。数据源可以包括外部数据源和/或内部数据源。外部数据源也可称为互联网数据源,可以从互联网中抓取文本数据作为训练语料,如一些百科网站上的数据、一些新闻网站上的数据,或者一些较大型或权威的门户网站上的数据,本申请对此不作限定。内部数据源是指业务方自身所拥有的数据。假设业务方是视频业务提供方,那么可以从内部数据源中获取视频相关的文本数据作为训练语料,包括但不限于视频标题、视频OCR(Optical Character Recognition,光学字符识别)或ASR(Automatic Speech Recognition,自动语音识别)识别的文本、评论、贴子等。
可选地,目标语言为中文。在目标语言为中文的情况下,上述从数据源获取目标语言的字词文本语料,可以是简体中文的字词文本语料,也可以是繁体中文的字词文本语料,还可以同时包括简体中文和繁体中文的字词文本语料。
字词文本语料的发音标注信息是指能够表示该字词文本语料对应的读音的标注信息,是字词文本语料的读音解释。以中文形式的字词文本语料为例,其发音标注信息即为汉语拼音(简称为“拼音”)。中文共计439个全音拼音。例如,某一个字词文本语料为“大家都爱听单田芳的相声,…”,其对应的拼音为“da’jia’dou’ai’ting’shan’tian’fang’de’xiang’sheng,…”。
可选地,采用发音标注模型生成字词文本语料的发音标注信息。发音标注模型是一个预训练好的用于自动化生成字词文本语料的发音标注信息的神经网络模型,其可以是CRF(Conditional Random Field,条件随机场)模型。以中文拼音标注为例,通过在大量的中文-拼音语料上进行训练,使模型具备输入中文语句,输出对应拼音的能力。
需要说明的是,本申请实施例提供的技术方案,除了适用于中文之外,还可适用于日文、韩文、英文、拉丁文等其他语种。在不同的语种下,发音标注信息的具体形式也会有所不同,例如中文的发音标注信息称为拼音,日文的发音标注信息称为罗马音、英文的发音标注信息称为音标等,在此不一一举例。另外,在本申请实施例中,除特别说明之外,主要以中文为例对本申请技术方案进行介绍说明。
步骤220,获取字词文本语料的字词表示向量序列,以及字词文本语料的发音标注信息的发音表示向量序列。
字词文本语料可以是一个短语或者一个句子,其包括多个字词。以中文为例,字词文本语料可以是“我爱祖国”,其包括4个字。
在一个示例中,以单个字为单位对字词文本语料进行切分,字词文本语料可以切分为多个字,例如“我爱祖国”可以切分为“我”、“爱”、“祖”、“国”共4个字,每个字具有对应的表示向量,多个字分别对应的表示向量顺次拼接,即构成字词表示向量序列。
在另一个示例中,以词为单位对字词文本语料进行切分,字词文本语料可以切分为多个词,每个词可以是单个字,也可以是多字词语,例如“我爱祖国”可以切分为“我”、“爱”、“祖国”共3个词,每个词具有对应的表示向量,多个词分别对应的表示向量顺次拼接,即构成字词表示向量序列。
类似地,字词文本语料的发音标注信息也可以按照字(或词)为单位进行切分,得到多个字(或词)各自的发音标注信息,每个字(或词)的发音标注信息具有对应的表示向量,多个字(或词)的发音标注信息对应的表示向量顺次拼接,即构成发音表示向量序列。
需要说明的是,字词文本语料及其发音标注信息的切分粒度应当对应一致,即字词文本语料以单个字为单位进行切分时,发音标注信息也是以单个字为单位进行切分;字词文本语料以单个词为单位进行切分时,发音标注信息也是以单个词为单位进行切分。
在本申请实施例中,字词和发音的表示向量,可以称为词向量或词嵌入(embedding),是采用向量的形式对字词和发音信息的量化表示。
可选地,通过字词表示向量生成网络,生成字词文本语料中每一个字词的字词表示向量,得到字词表示向量序列。通过发音表示向量生成网络,生成字词文本语料中每一个字词的发音标注信息的发音表示向量,得到发音表示向量序列。其中,字词表示向量生成网络用于生成每一个字词的字词表示向量,发音表示向量生成网络用于生成每一个字词的发音标注信息的发音表示向量。
步骤230,通过语义特征提取模型,从字词文本语料的字词表示向量序列和发音表示向量序列中,提取该字词文本语料的融合语义特征。
在本申请实施例中,语义特征提取模型在提取字词文本语料的语义特征时,其不仅仅使用到了字词文本语料的字词特征(也即字词表示向量序列),还使用到了字词文本语料的发音特征(也即发音表示向量序列),相比于相关技术仅考虑字词特征,采用本申请技术方案能够使得语义特征提取模型捕获到字词和发音两方面特征,充分利用多种特征来增强模型的语义表示能力。
在一个示例中,如图3所示,对字词文本语料的字词表示向量序列和发音表示向量序列进行融合处理,得到字词文本语料的融合表示向量序列;通过语义特征提取模型对字词文本语料的融合表示向量序列进行特征提取处理,得到字词文本语料的融合语义特征。
可选地,本申请提供了如下几种生成融合表示向量序列的方式:
方式1:将字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行求平均处理,得到字词文本语料的融合表示向量序列。
假设字词文本语料包括n个字,其中第i个字的字词表示向量为Ci,第i个字的发音表示向量为PYi,n为大于1的整数,i为小于等于n的正整数。在方式1下,第i个字的融合表示向量为(Ci+PYi)/2,将上述n个字的融合表示向量顺次拼接,即构成字词文本语料的融合表示向量序列。这种方式要求字词表示向量Ci和发音表示向量PYi的向量维度是相同的,从而方便计算。
方式2:将字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行拼接处理,得到字词文本语料的融合表示向量序列。
假设字词文本语料包括n个字,其中第i个字的字词表示向量为Ci,第i个字的发音表示向量为PYi,n为大于1的整数,i为小于等于n的正整数。在方式2下,第i个字的融合表示向量为[Ci,PYi],将上述n个字的融合表示向量顺次拼接,即构成字词文本语料的融合表示向量序列。这种方式可以不要求字词表示向量Ci和发音表示向量PYi的向量维度相同。
方式3:将字词文本语料的字词表示向量序列和发音表示向量序列输入至字词发音融合网络;通过字词发音融合网络对字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行加权求和处理,得到字词文本语料的融合表示向量序列。
字词发音融合网络是用于将字词表示向量和发音表示向量进行融合处理的神经网络,如其可以是全连接网络。假设字词文本语料包括n个字,其中第i个字的字词表示向量为Ci,第i个字的发音表示向量为PYi,n为大于1的整数,i为小于等于n的正整数。在方式3下,第i个字的融合表示向量为Ci*Wc+PYi*Wp,其中Wc和Wp是字词发音融合网络的权重参数,该参数可随着模型训练进行更新学习。同样地,将上述n个字的融合表示向量顺次拼接,即构成字词文本语料的融合表示向量序列。如果采用方式3生成融合表示向量序列,字词发音融合网络设置在语义特征提取模型之前,字词发音融合网络的输入为字词文本语料的字词表示向量序列和发音表示向量序列,输出为字词文本语料的融合表示向量序列,语义特征提取模型的输入为字词文本语料的融合表示向量序列,输出为该字词文本语料的融合语义特征。该字词发音融合网络和语义特征提取模型可以同步进行训练,调整其中的参数。
在另一个示例中,如图4所示,将字词文本语料的字词表示向量序列加上第一类型标注向量序列,得到更新后的字词表示向量序列;将字词文本语料的发音表示向量序列加上第二类型标注向量序列,得到更新后的发音表示向量序列;其中,第一类型标注向量序列和第二类型标注向量序列,用于对字词文本语料的字词表示向量序列和发音表示向量序列进行区分;将更新后的字词表示向量序列和更新后的发音表示向量序列进行拼接,得到拼接向量序列;通过语义特征提取模型对拼接向量序列进行特征提取处理,得到字词文本语料的融合语义特征。
假设字词文本语料包括n个字,其中第i个字的字词表示向量为Ci,第i个字的发音表示向量为PYi,n为大于1的整数,i为小于等于n的正整数。那么字词文本语料的字词表示向量序列可以表示为{C1,C2,…,Cn},发音表示向量序列可以表示为{PY1,PY2,…,PYn}。假设第一类型标注向量为B1,第二类型标注向量为B2,B1和B2可以是两个具有区分度的向量,例如B1为元素全为0的向量,B2为元素全为1的向量。将字词文本语料的字词表示向量序列{C1,C2,…,Cn}加上第一类型标注向量序列,得到更新后的字词表示向量序列{C1+B1,C2+B1,…,Cn+B1}。将字词文本语料的发音表示向量序列{PY1,PY2,…,PYn}加上第二类型标注向量序列,得到更新后的发音表示向量序列{PY1+B2,PY2+B2,…,PYn+B2}。最后,将更新后的字词表示向量序列{C1+B1,C2+B1,…,Cn+B1}和更新后的发音表示向量序列{PY1+B2,PY2+B2,…,PYn+B2}进行拼接,得到拼接向量序列[{C1+B1,C2+B1,…,Cn+B1},{PY1+B2,PY2+B2,…,PYn+B2}]。
在另一个示例中,如图5所示,语义特征提取模型包括第一提取子模型和第二提取子模型。通过第一提取子模型从字词文本语料的字词表示向量序列中,提取字词语义特征;通过第二提取子模型从字词文本语料的发音表示向量序列中,提取发音语义特征;对字词语义特征和发音语义特征进行融合处理,得到字词文本语料的融合语义特征。
第一提取子模型和第二提取子模型可以是两个结构相同的神经网络模型。第一提取子模型用于对字词表示向量序列进行特征提取处理,第二提取子模型用于对发音表示向量序列进行特征提取处理。这种方式采用的是后融合的方式,也即先通过两个子模型分别从字词文本语料的字词表示向量序列和发音表示向量序列中,提取字词语义特征和发音语义特征,然后再对上述两方面特征进行融合处理,得到该字词文本语料的融合语义特征。
可选地,采用自注意力(self-attention)机制对字词语义特征和发音语义特征进行融合处理,得到字词文本语料的融合语义特征。采用自注意力机制进行特征融合处理,能够充分提取重要特征,提升融合语义特征的语义表示能力。
需要说明的是,在本申请实施例中,对语义特征提取模型的模型结构不作限定,其可以是任何能够处理序列信息的神经网络模型结构,如Transformer-Encoder结构,或者还可以是LSTM(Long Short-Term Memory,长短期记忆)网络,RNN(Recurrent NeuralNetwork,循环神经网络)等其他模型结构。
步骤240,基于字词文本语料的融合语义特征,确定语义特征提取模型的预训练任务所对应的预测结果。
预训练任务是用于对语义特征提取模型进行预训练的设定任务。预训练任务的数量可以是一个,也可以是多个,这可以综合考虑模型训练的复杂度和精度要求之后,设计合适数量的预训练任务以及预训练任务的内容。
在一个示例中,预训练任务包括掩盖字词预测任务。掩盖字词预测任务是指对输入的字词文本语料中的部分字词进行掩盖(如替换成[MASK]标记),并设计相应的字词预测网络,通过该字词预测网络结合字词文本语料中未被掩盖的字词的上下文信息,来预测推断出被掩盖部分的字词。可选地,按照一定比例将字词文本语料中的部分字词替换成[MASK]标记,通过语义特征提取模型从该包含[MASK]标记的字词文本语料的字词表示向量序列和发音表示向量序列中,提取该字词文本语料的融合语义特征,然后通过字词预测网络基于字词文本语料的融合语义特征,确定字词文本语料中的掩盖字词的预测结果。随后,可以根据掩盖字词的预测结果和真实结果之间的差异信息,计算模型的预训练损失。需要说明的是,在此示例中,在字词文本语料中的某一个字词被掩盖替换成[MASK]标记的情况下,该字词对应的发音标注信息可以被掩盖替换成[MASK]标记,也可以不被掩盖(即该字词对应的发音标注信息仍然输入至模型)。经过实验发现,将字词及其对应的发音标注信息一同进行掩盖,在一定程度上会有助于提升模型的学习能力。
在另一个示例中,预训练任务包括语句顺序预测任务。语句顺序预测任务是指将数据源中两句连续的字词文本语料,按照正常顺序或者颠倒顺序输入至模型,并设计相应的顺序预测网络,通过该顺序预测网络预测输入模型的两个语句是正常顺序还是颠倒顺序。如果输入给模型的是正常顺序,模型的预测目标为1,否则如果输入给模型的是颠倒顺序,模型的预测目标为0,通过此任务使模型具备基于输入信息,捕获上下文语义关系的能力。
可选地,对于数据源中两句连续的字词文本语料(记为第一字词文本语料和第二字词文本语料),假设这两句字词文本语料的正常顺序是第一字词文本语料在前且第二字词文本语料在后,那么其颠倒顺序即为第二字词文本语料在前且第一字词文本语料在后。例如,数据源中包括“天气晴朗,适合出游”,第一字词文本语料为“天气晴朗”,第二字词文本语料为“适合出游”,如果将这两句字词文本语料按照“天气晴朗,适合出游”的形式输入至模型,那么就是按照正常顺序输入至模型,如果将这两句字词文本语料按照“适合出游,天气晴朗”的形式输入至模型,那么就是按照颠倒顺序输入至模型。通过语义特征提取模型从这两句字词文本语料中提取融合语义特征之后,通过顺序预测网络基于第一字词文本语料的融合语义特征和第二字词文本语料的融合语义特征,确定该第一字词文本语料和第二字词文本语料的语句顺序的预测结果。随后,可以根据语句顺序的预测结果和真实结果之间的差异信息,计算模型的预训练损失。
在一些实施例中,语义特征提取模型的预训练任务可以同时包括上述掩盖字词预测任务和语句顺序预测任务,使得语义特征提取模型既能够捕获单个语句中的上下文信息,还能够捕获相邻语句间的上下文语义关系,从而提升模型对于语义特征的提取和表示能力。
步骤250,基于预训练任务所对应的预测结果和真实结果确定语义特征提取模型的预训练损失,并根据预训练损失调整语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
可选地,基于语义特征提取模型的预训练损失,采用梯度下降法对模型参数进行调整,使得该预训练损失逐渐向优化目标靠近,直至达到预先设定的停止条件(如预训练损失小于设定阈值或达到最小值)时,完成语义特征提取模型的预训练过程,得到预训练完成的语义特征提取模型。
可选地,如图6所示,为了降低模型训练难度,本申请提出将语义特征提取模型的预训练过程划分为多个阶段,例如包括第一阶段、第二阶段和第三阶段。其中,第一阶段用于训练字词表示向量生成网络,第二阶段用于训练发音表示向量生成网络,第三阶段用于训练语义特征提取模型。
在第一阶段,仅将字词文本语料输入至模型的字词表示向量生成网络,在此阶段并不带该字词文本语料的发音标注信息,通过此阶段的训练,主要将字词表示向量生成网络的参数调整到一个较优的状态,使其生成较优的字词表示向量。在一些其他示例中,如果是直接采用开源预训练好的字词表示向量生成网络,则可以省去此阶段的训练。
在第二阶段,将字词文本语料的发音标注信息输入至模型的发音表示向量生成网络,字词文本语料的字词表示向量采用第一阶段得到的结果进行初始化。在此训练阶段,字词表示向量生成网络的参数不进行更新,只对发音表示向量生成网络的参数进行更新,主要将发音表示向量生成网络的参数调整到一个较优的状态,使其生成较优的发音表示向量。
在第三阶段,将字词文本语料和及其发音标注信息一并输入至模型,字词表示向量生成网络采用第一阶段的训练结果进行初始化,发音表示向量生成网络采用第二阶段的训练结果进行初始化,然后对整个模型(包括字词表示向量生成网络、发音表示向量生成网络和语义特征提取模型)进行全局预训练,提升模型整体的训练效果。
经过上述3个阶段之后,语义特征提取模型具备同时捕获字词特征和发音特征进行表示建模的能力,后续使用时,在具体任务上精调即可。
综上所述,本申请实施例提供的技术方案,语义特征提取模型在提取字词文本语料的语义特征时,其不仅仅使用到了字词文本语料的字词特征(也即字词表示向量序列),还使用到了字词文本语料的发音特征(也即发音表示向量序列),相比于相关技术仅考虑字词特征,采用本申请技术方案能够使得语义特征提取模型捕获到字词和发音两方面特征,充分利用多种特征来增强模型的语义表示能力。
另外,本申请实施例提供了多种将字词特征和发音特征进行融合的方式,有的方式(例如简单的特征拼接方式)实现较为简单,计算量较小,有的方式(例如基于注意力机制的后融合方式)实现较为复杂,但能够充分提取重要特征,进一步提升融合语义特征的语义表示能力。
在示例性实施例中,上述预训练完成的语义特征提取模型可应用于目标任务中,配合该目标任务的结果预测网络,进行目标任务下的结果预测。在应用到目标任务中时,可以采用目标任务的训练样本对该预训练完成的语义特征提取模型的参数进行微调(finetune),使得该语义特征提取模型适应于目标任务,在目标任务下具有较好的语义表征能力。可选地,如图7所示,该模型精调过程可以包括如下几个步骤(710~750):
步骤710,获取目标任务的训练样本,训练样本包括目标语言的字词文本样本和该字词文本样本的发音标注信息。
目标任务可以是任何需要用到文本的语义特征进行结果预测的任务。例如,在针对视频评论的识别领域,目标任务可以是视频评论情感识别任务、视频评论诗歌体识别任务等,本申请对此不作限定。
视频评论情感识别任务是指对于用户针对视频所发表的评论(简称为“视频评论”),通过模型自动化地识别出该视频评论的情感倾向,即属于何种情感类别。示例性地,预先将情感类别划分为正向、负向2种,或者预先将情感类别划分为正向、中立、负向3种,本申请对情感类别的划分类别的数量和种类不作具体限定,这可以结合实际需求进行设定。通过对视频评论进行情感识别,能够挖掘出用户对于视频内容(如视频中的人物)的情感倾向,进行舆情推断。
视频评论诗歌体识别任务是指对于用户针对视频所发表的评论(简称为“视频评论”),通过模型自动化地识别出该视频评论是否属于诗歌体。诗歌体是指文本内容的形式、韵律等类似于诗歌,例如具有每句话字数相同、存在押韵等特征。属于诗歌体的视频评论一般被认为是亮点评论,通过从大量的视频评论中挖掘出属于诗歌体的视频评论,将这些属于诗歌体的视频评论的显示排序靠前,能够带动社区氛围。
当然,上述仅是示例性和解释性地给出了两种目标任务的形式。在一些其他应用场景中,比如在输入法领域(如中文输入法),目标任务可以是词汇联想任务,基于用户输入词汇的字词特征和发音特征,预测该输入词汇的联想词汇;再比如在智能问答场景下,目标任务可以是智能回复,基于用户输入问题的字词特征和发音特征,自动化生成该输入问题对应的应答信息。当然,还可以应用于一些其他应用场景中,此处不一一举例。
步骤720,获取字词文本样本的字词表示向量序列,以及字词文本样本的发音标注信息的发音表示向量序列。
本步骤的具体实现过程与上文实施例中步骤220的具体实现过程相同或类似,具体可参见上文实施例中的介绍说明,此处不再赘述。
步骤730,通过预训练完成的语义特征提取模型,从字词文本样本的字词表示向量序列和发音表示向量序列中,提取该字词文本样本的融合语义特征。
本步骤的具体实现过程与上文实施例中步骤230的具体实现过程相同或类似,具体可参见上文实施例中的介绍说明,此处不再赘述。
步骤740,通过目标任务的结果预测网络基于字词文本样本的融合语义特征,确定字词文本样本对应的任务预测结果。
目标任务的结果预测网络用于对目标任务的任务结果进行预测。可选地,该结果预测网络可以是一个分类网络,其输出类别的数量可以依据目标任务的分类需求进行设定。例如,在目标任务为视频评论情感识别任务时,结果预测网络的输出类别的数量可以是2种,对应正向和负向这2种情感类别。
步骤750,基于字词文本样本对应的任务预测结果和任务真实结果确定模型训练损失,并根据模型训练损失调整预训练完成的语义特征提取模型和结果预测网络的参数。
在本申请实施例中,可以将语义特征提取模型和结果预测网络的组合,称为目标任务模型。可选地,基于字词文本样本对应的任务预测结果和任务真实结果之间的差异信息,计算该目标任务模型的模型训练损失,并采用梯度下降法对模型参数(包括语义特征提取模型的参数和结果预测网络的参数)进行调整,使得该模型训练损失逐渐向优化目标靠近,直至达到预先设定的停止条件(如模型训练损失小于设定阈值或达到最小值)时,完成模型在目标任务上的训练过程,得到训练完成的目标任务模型。训练完成的目标任务模型可以上线使用,用于执行针对目标任务的预测任务。
综上所述,通过采用目标任务的训练样本对该预训练完成的语义特征提取模型的参数进行微调,使得该语义特征提取模型适应于目标任务,在目标任务下具有较好的语义表征能力。
在示例性实施例中,以目标语言为中文,且发音标注信息为拼音为例,对本申请技术方案进行介绍说明。如图8所示,该方法可以包括如下步骤:
步骤802,获取语义特征提取模型的训练语料,训练语料包括中文的字词文本语料和该字词文本语料的拼音标注信息。
步骤804,获取字词文本语料的字词表示向量序列,以及字词文本语料的拼音标注信息的拼音表示向量序列。
步骤806,通过语义特征提取模型,从字词文本语料的字词表示向量序列和拼音表示向量序列中,提取该字词文本语料的融合语义特征。
步骤808,基于字词文本语料的融合语义特征,确定语义特征提取模型的预训练任务所对应的预测结果。
步骤810,基于预训练任务所对应的预测结果和真实结果确定语义特征提取模型的预训练损失,并根据预训练损失调整语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
可选地,该方法还可以包括如下步骤,将预训练完成的语义特征提取模型应用于目标任务上,对该模型参数进行精调。
步骤812,获取目标任务的训练样本,训练样本包括中文的字词文本样本和该字词文本样本的拼音标注信息。
步骤814,获取字词文本样本的字词表示向量序列,以及字词文本样本的拼音标注信息的拼音表示向量序列。
步骤816,通过预训练完成的语义特征提取模型,从字词文本样本的字词表示向量序列和拼音表示向量序列中,提取该字词文本样本的融合语义特征。
步骤818,通过目标任务的结果预测网络基于字词文本样本的融合语义特征,确定字词文本样本对应的任务预测结果。
步骤820,基于字词文本样本对应的任务预测结果和任务真实结果确定模型训练损失,并根据模型训练损失调整预训练完成的语义特征提取模型和结果预测网络的参数,得到训练完成的目标任务模型。
综上所述,本申请提供了一种基于拼音特征来增强针对中文的语义特征提取模型的语义表示能力的方法,通过引入拼音特征到针对中文的语义特征提取模型中,结合拼音特征与字词特征,充分对中文进行表示建模,提升模型的表征能力,尤其是对读音有依赖的中文任务。
另外,采用本申请技术方案,能够降低模型学习难度,使模型学习更加符合人类语言学习的客观逻辑过程。以中文为例,人们学习中文的过程,亦是从拼音学起,逐步从音到字、到词、到句去学习,模型中引入拼音特征使得模型学习过程更加符合人类学习过程。
而且,在日常交流中,不书写中文,只通过读音,即能够实现正常交流,说明拼音能很大程度上体现中文字词特征,在模型中引入拼音能增强模型对于中文的表示能力。另外对存在有错别字但音正确的数据上,拼音特征也能一定程度弥补字形错误带来的信息损失。
而且,本申请能够整合简体中文和繁体中文表示。只通过字、词表示中文,导致简体和繁体的相同字、词是不同的表示,但简体和繁体的读音可拉近两者之间的表示。
而且,本申请还能够降低模型尺寸,提升推断速度。中文表示中一般字需要考虑20000+个,词需要考虑200000+个,但拼音只有400+规模,如果只用拼音对中文进行表示,也能逼近字、词表示模型效果,但向量维度、隐层维度等均可缩小,达到降低模型尺寸,降低计算量,提升推断速度的效果。
通过实验发现,采用本申请技术方案融合字词特征和拼音特征来训练针对中文的语义特征提取模型,相比仅考虑字词特征而不考虑拼音特征的训练方式,采用上述方式1的字词拼音融合方式,模型在目标任务的预测精度上能带来0.4+个百分点的效果提升,采用上述方式2的字词拼音融合方式,模型在目标任务的预测精度上能带来0.7+个百分点的效果提升,采用上述方式3的字词拼音融合方式,模型在目标任务的预测精度上能带来0.9+个百分点的效果提升。因此,通过上述实验数据可以充分证明引入拼音特征能够提升语义特征提取模型针对中文的语义表示能力。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的语义特征提取模型的训练装置的框图。该装置900可以包括:语料获取模块902、序列获取模块904、特征提取模块906、结果确定模块908和参数调整模块910。
语料获取模块902,用于获取所述语义特征提取模型的训练语料,所述训练语料包括目标语言的字词文本语料和所述字词文本语料的发音标注信息。
序列获取模块904,用于获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的发音标注信息的发音表示向量序列。
特征提取模块906,用于通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征。
结果确定模块908,用于基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果。
参数调整模块910,用于基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
在示例性实施例中,所述特征提取模块906,用于:
对所述字词文本语料的字词表示向量序列和发音表示向量序列进行融合处理,得到所述字词文本语料的融合表示向量序列;
通过所述语义特征提取模型对所述字词文本语料的融合表示向量序列进行特征提取处理,得到所述字词文本语料的融合语义特征。
可选地,所述特征提取模块906,用于:
将所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行求平均处理,得到所述字词文本语料的融合表示向量序列;
或者,
将所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行拼接处理,得到所述字词文本语料的融合表示向量序列;
或者,
将所述字词文本语料的字词表示向量序列和发音表示向量序列输入至字词发音融合网络;通过所述字词发音融合网络对所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行加权求和处理,得到所述字词文本语料的融合表示向量序列。
在示例性实施例中,所述特征提取模块906,用于:
将所述字词文本语料的字词表示向量序列加上第一类型标注向量序列,得到更新后的字词表示向量序列;
将所述字词文本语料的发音表示向量序列加上第二类型标注向量序列,得到更新后的发音表示向量序列;其中,所述第一类型标注向量序列和所述第二类型标注向量序列,用于对所述字词文本语料的字词表示向量序列和发音表示向量序列进行区分;
将所述更新后的字词表示向量序列和所述更新后的发音表示向量序列进行拼接,得到拼接向量序列;
通过所述语义特征提取模型对所述拼接向量序列进行特征提取处理,得到所述字词文本语料的融合语义特征。
在示例性实施例中,所述语义特征提取模型包括第一提取子模型和第二提取子模型;所述特征提取模块906,用于:
通过所述第一提取子模型从所述字词文本语料的字词表示向量序列中,提取字词语义特征;
通过所述第二提取子模型从所述字词文本语料的发音表示向量序列中,提取发音语义特征;
对所述字词语义特征和所述发音语义特征进行融合处理,得到所述字词文本语料的融合语义特征。
可选地,所述特征提取模块906,用于采用自注意力机制对所述字词语义特征和所述发音语义特征进行融合处理,得到所述字词文本语料的融合语义特征。
在示例性实施例中,所述序列获取模块904,用于:
通过字词表示向量生成网络,生成所述字词文本语料中每一个字词的字词表示向量,得到所述字词表示向量序列;
通过发音表示向量生成网络,生成所述字词文本语料中每一个字词的发音标注信息的发音表示向量,得到所述发音表示向量序列。
可选地,所述语义特征提取模型的预训练过程包括第一阶段、第二阶段和第三阶段;其中,所述第一阶段用于训练所述字词表示向量生成网络,所述第二阶段用于训练所述发音表示向量生成网络,所述第三阶段用于训练所述语义特征提取模型。
在示例性实施例中,所述结果确定模块908,用于:
通过字词预测网络基于所述字词文本语料的融合语义特征,确定所述字词文本语料中的掩盖字词的预测结果;
和/或,
通过顺序预测网络基于第一字词文本语料的融合语义特征和第二字词文本语料的融合语义特征,确定所述第一字词文本语料和所述第二字词文本语料的语句顺序的预测结果。
在示例性实施例中,所述语料获取模块902,还用于获取目标任务的训练样本,所述训练样本包括所述目标语言的字词文本样本和所述字词文本样本的发音标注信息。
所述序列获取模块904,还用于获取所述字词文本样本的字词表示向量序列,以及所述字词文本样本的发音标注信息的发音表示向量序列。
所述特征提取模块906,还用于通过所述预训练完成的语义特征提取模型,从所述字词文本样本的字词表示向量序列和发音表示向量序列中,提取所述字词文本样本的融合语义特征。
所述结果确定模块908,还用于通过所述目标任务的结果预测网络基于所述字词文本样本的融合语义特征,确定所述字词文本样本对应的任务预测结果。
所述参数调整模块910,还用于基于所述字词文本样本对应的任务预测结果和任务真实结果确定模型训练损失,并根据所述模型训练损失调整所述预训练完成的语义特征提取模型和所述结果预测网络的参数。
在示例性实施例中,所述语料获取模块902,用于:
从数据源获取所述目标语言的字词文本语料;
采用发音标注模型生成所述字词文本语料的发音标注信息。
在示例性实施例中,在所述目标语言为中文,且所述发音标注信息为拼音标注信息的情况下:
语料获取模块902,用于获取所述语义特征提取模型的训练语料,所述训练语料包括中文的字词文本语料和所述字词文本语料的拼音标注信息。
序列获取模块904,用于获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的拼音标注信息的拼音表示向量序列。
特征提取模块906,用于通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和拼音表示向量序列中,提取所述字词文本语料的融合语义特征。
结果确定模块908,用于基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果。
参数调整模块910,用于基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
综上所述,本申请实施例提供的技术方案,语义特征提取模型在提取字词文本语料的语义特征时,其不仅仅使用到了字词文本语料的字词特征(也即字词表示向量序列),还使用到了字词文本语料的发音特征(也即发音表示向量序列),相比于相关技术仅考虑字词特征,采用本申请技术方案能够使得语义特征提取模型捕获到字词和发音两方面特征,充分利用多种特征来增强模型的语义表示能力。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据计算、处理和存储功能的电子设备,该计算机设备可以实现成为图1所示方案实施环境中的模型训练设备10和/或模型使用设备20。在该计算机设备实现成为图1所示方案实施环境中的模型训练设备10时,该计算机设备可用于实施上述实施例中提供的语义特征提取模型的训练方法。具体来讲:
该计算机设备1000包括中央处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)1001、包括RAM(Random-Access Memory,随机存储器)1002和ROM(Read-Only Memory,只读存储器)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。该计算机设备1000还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System,I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
在一些实施例中,该基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中,该显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。该基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。该大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,该大容量存储设备1007可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请实施例,该计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在该系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述语义特征提取模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述语义特征提取模型的训练方法。
可选地,该计算机可读存储介质可以包括:ROM(Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述语义特征提取模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种语义特征提取模型的训练方法,其特征在于,所述方法包括:
获取所述语义特征提取模型的训练语料,所述训练语料包括目标语言的字词文本语料和所述字词文本语料的发音标注信息;
获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的发音标注信息的发音表示向量序列;
通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征;
基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果;
基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
2.根据权利要求1所述的方法,其特征在于,所述通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征,包括:
对所述字词文本语料的字词表示向量序列和发音表示向量序列进行融合处理,得到所述字词文本语料的融合表示向量序列;
通过所述语义特征提取模型对所述字词文本语料的融合表示向量序列进行特征提取处理,得到所述字词文本语料的融合语义特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述字词文本语料的字词表示向量序列和发音表示向量序列进行融合处理,得到所述字词文本语料的融合表示向量序列,包括:
将所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行求平均处理,得到所述字词文本语料的融合表示向量序列;
或者,
将所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行拼接处理,得到所述字词文本语料的融合表示向量序列;
或者,
将所述字词文本语料的字词表示向量序列和发音表示向量序列输入至字词发音融合网络;通过所述字词发音融合网络对所述字词文本语料的字词表示向量序列和发音表示向量序列中,对应于同一字词位置处的字词表示向量和发音表示向量进行加权求和处理,得到所述字词文本语料的融合表示向量序列。
4.根据权利要求1所述的方法,其特征在于,所述通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征,包括:
将所述字词文本语料的字词表示向量序列加上第一类型标注向量序列,得到更新后的字词表示向量序列;
将所述字词文本语料的发音表示向量序列加上第二类型标注向量序列,得到更新后的发音表示向量序列;其中,所述第一类型标注向量序列和所述第二类型标注向量序列,用于对所述字词文本语料的字词表示向量序列和发音表示向量序列进行区分;
将所述更新后的字词表示向量序列和所述更新后的发音表示向量序列进行拼接,得到拼接向量序列;
通过所述语义特征提取模型对所述拼接向量序列进行特征提取处理,得到所述字词文本语料的融合语义特征。
5.根据权利要求1所述的方法,其特征在于,所述语义特征提取模型包括第一提取子模型和第二提取子模型;
所述通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征,包括:
通过所述第一提取子模型从所述字词文本语料的字词表示向量序列中,提取字词语义特征;
通过所述第二提取子模型从所述字词文本语料的发音表示向量序列中,提取发音语义特征;
对所述字词语义特征和所述发音语义特征进行融合处理,得到所述字词文本语料的融合语义特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述字词语义特征和所述发音语义特征进行融合处理,得到所述字词文本语料的融合语义特征,包括:
采用自注意力机制对所述字词语义特征和所述发音语义特征进行融合处理,得到所述字词文本语料的融合语义特征。
7.根据权利要求1所述的方法,其特征在于,所述获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的发音标注信息的发音表示向量序列,包括:
通过字词表示向量生成网络,生成所述字词文本语料中每一个字词的字词表示向量,得到所述字词表示向量序列;
通过发音表示向量生成网络,生成所述字词文本语料中每一个字词的发音标注信息的发音表示向量,得到所述发音表示向量序列。
8.根据权利要求7所述的方法,其特征在于,所述语义特征提取模型的预训练过程包括第一阶段、第二阶段和第三阶段;其中,所述第一阶段用于训练所述字词表示向量生成网络,所述第二阶段用于训练所述发音表示向量生成网络,所述第三阶段用于训练所述语义特征提取模型。
9.根据权利要求1所述的方法,其特征在于,所述基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果,包括:
通过字词预测网络基于所述字词文本语料的融合语义特征,确定所述字词文本语料中的掩盖字词的预测结果;
和/或,
通过顺序预测网络基于第一字词文本语料的融合语义特征和第二字词文本语料的融合语义特征,确定所述第一字词文本语料和所述第二字词文本语料的语句顺序的预测结果。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
获取目标任务的训练样本,所述训练样本包括所述目标语言的字词文本样本和所述字词文本样本的发音标注信息;
获取所述字词文本样本的字词表示向量序列,以及所述字词文本样本的发音标注信息的发音表示向量序列;
通过所述预训练完成的语义特征提取模型,从所述字词文本样本的字词表示向量序列和发音表示向量序列中,提取所述字词文本样本的融合语义特征;
通过所述目标任务的结果预测网络基于所述字词文本样本的融合语义特征,确定所述字词文本样本对应的任务预测结果;
基于所述字词文本样本对应的任务预测结果和任务真实结果确定模型训练损失,并根据所述模型训练损失调整所述预训练完成的语义特征提取模型和所述结果预测网络的参数。
11.根据权利要求1至9任一项所述的方法,其特征在于,所述获取所述语义特征提取模型的训练语料,包括:
从数据源获取所述目标语言的字词文本语料;
采用发音标注模型生成所述字词文本语料的发音标注信息。
12.根据权利要求1至9任一项所述的方法,其特征在于,在所述目标语言为中文,且所述发音标注信息为拼音标注信息的情况下,所述方法包括:
获取所述语义特征提取模型的训练语料,所述训练语料包括中文的字词文本语料和所述字词文本语料的拼音标注信息;
获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的拼音标注信息的拼音表示向量序列;
通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和拼音表示向量序列中,提取所述字词文本语料的融合语义特征;
基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果;
基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
13.一种语义特征提取模型的训练装置,其特征在于,所述装置包括:
语料获取模块,用于获取所述语义特征提取模型的训练语料,所述训练语料包括目标语言的字词文本语料和所述字词文本语料的发音标注信息;
序列获取模块,用于获取所述字词文本语料的字词表示向量序列,以及所述字词文本语料的发音标注信息的发音表示向量序列;
特征提取模块,用于通过所述语义特征提取模型,从所述字词文本语料的字词表示向量序列和发音表示向量序列中,提取所述字词文本语料的融合语义特征;
结果确定模块,用于基于所述字词文本语料的融合语义特征,确定所述语义特征提取模型的预训练任务所对应的预测结果;
参数调整模块,用于基于所述预训练任务所对应的预测结果和真实结果确定所述语义特征提取模型的预训练损失,并根据所述预训练损失调整所述语义特征提取模型的参数,得到预训练完成的语义特征提取模型。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一项所述的语义特征提取模型的训练方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一项所述的语义特征提取模型的训练方法。
CN202110393016.3A 2021-04-13 2021-04-13 语义特征提取模型的训练方法、装置、设备及存储介质 Pending CN113723105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110393016.3A CN113723105A (zh) 2021-04-13 2021-04-13 语义特征提取模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110393016.3A CN113723105A (zh) 2021-04-13 2021-04-13 语义特征提取模型的训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113723105A true CN113723105A (zh) 2021-11-30

Family

ID=78672637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110393016.3A Pending CN113723105A (zh) 2021-04-13 2021-04-13 语义特征提取模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113723105A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946661A (zh) * 2021-12-21 2022-01-18 南京云问网络技术有限公司 一种融合字形的多视角情感分析方法
CN114065768A (zh) * 2021-12-08 2022-02-18 马上消费金融股份有限公司 特征融合模型的训练、文本处理方法及装置
CN116227484A (zh) * 2023-05-09 2023-06-06 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN116955575A (zh) * 2023-09-20 2023-10-27 深圳智汇创想科技有限责任公司 一种信息智能回复方法以及跨境电商系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065768A (zh) * 2021-12-08 2022-02-18 马上消费金融股份有限公司 特征融合模型的训练、文本处理方法及装置
CN113946661A (zh) * 2021-12-21 2022-01-18 南京云问网络技术有限公司 一种融合字形的多视角情感分析方法
CN116227484A (zh) * 2023-05-09 2023-06-06 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品
CN116756579A (zh) * 2023-08-22 2023-09-15 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN116756579B (zh) * 2023-08-22 2023-12-12 腾讯科技(深圳)有限公司 大语言模型的训练方法及基于大语言模型的文本处理方法
CN116955575A (zh) * 2023-09-20 2023-10-27 深圳智汇创想科技有限责任公司 一种信息智能回复方法以及跨境电商系统
CN116955575B (zh) * 2023-09-20 2023-12-22 深圳智汇创想科技有限责任公司 一种信息智能回复方法以及跨境电商系统

Similar Documents

Publication Publication Date Title
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
US20220245365A1 (en) Translation method and apparatus based on multimodal machine learning, device, and storage medium
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN110717514A (zh) 会话意图识别方法、装置、计算机设备和存储介质
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
US20230080671A1 (en) User intention recognition method and apparatus based on statement context relationship prediction
CN114676234A (zh) 一种模型训练方法及相关设备
Xiao et al. DAA: Dual LSTMs with adaptive attention for image captioning
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN111597815A (zh) 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN115757731A (zh) 对话问句改写方法、装置、计算机设备及存储介质
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN110889284A (zh) 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
Islam et al. Bengali Caption Generation for Images Using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination