CN110852072B - 一种基于语句关系的词向量训练方法 - Google Patents

一种基于语句关系的词向量训练方法 Download PDF

Info

Publication number
CN110852072B
CN110852072B CN201911102317.5A CN201911102317A CN110852072B CN 110852072 B CN110852072 B CN 110852072B CN 201911102317 A CN201911102317 A CN 201911102317A CN 110852072 B CN110852072 B CN 110852072B
Authority
CN
China
Prior art keywords
word
sentence
training
vector
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911102317.5A
Other languages
English (en)
Other versions
CN110852072A (zh
Inventor
谢梓莹
潘嵘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911102317.5A priority Critical patent/CN110852072B/zh
Publication of CN110852072A publication Critical patent/CN110852072A/zh
Application granted granted Critical
Publication of CN110852072B publication Critical patent/CN110852072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种基于语句关系的词向量训练方法,在预训练第一阶段的预训练中,加入中文句子的句子间关系对模型进行训练,以及将自注意力算法中矩阵K、Q、V矩阵的计算使用神经网络的非线性的计算方式。本方法能结合中文的语言特点更好地表达单词的多义性。并且本发明将自注意力算法中矩阵K、Q、V矩阵的计算使用神经网络的非线性方法,能够更充分地表达向量间的映射关系。

Description

一种基于语句关系的词向量训练方法
技术领域
本发明涉及深度学习以及自然语言领域,更具体地,涉及一种基于语句关系的词向量训练方法。
背景技术
在自然语言处理技术中,特别是基于应用深度学习的自然语言处理任务,在将词转化为token之后(转化token即对单词表中的每一个词进行标号,每一个单词对应一个数字标号),都需要再将词向量化表示。词向量是一个多维度的向量。词向量的目标是为了更好地表达单词之间的关系,更好地表达单词之间的多义性。(多义性指单词在不同文章中会有不同的意义。)
初始的词向量通过有NNLM神经网络语言模型、word2vec、glove这三种方法训练得到,但三种方法得到词向量无法体现单词的多义性。为了解决这个问题,后来发展出了两阶段的词向量训练方式,第一阶段称为预训练阶段(pre-training),第二阶段称为fine-tuning。第一阶段是利用无监督数据,训练出各个单词基础的词向量表达。第二个阶段则是在做自然语言处理下游阶段任务时,根据单词所在的文章句子进行调整。这样同一个单词在不同的文章句子中不同的意义表达也会出现不同的词向量表达,更好地表达单词的多义性。
但是,改进后的方法依旧存在缺陷,没有结合中文句子的特性针对性进行训练以得到中文词的多义性。且方法中运用了transformer算法,在transformer算法自注意力算法(self-attention)中,关于矩阵K、Q、V矩阵的计算使用了矩阵线性计算方式,若矩阵之间的映射关系是非线性的,这样的预设定无法让算法通过更新参数学习到矩阵映射关系。
发明内容
本发明为克服上述现有技术中词向量无法表达中文单词的多义性和无法充分表达词向量间映射关系的问题,提供一种基于语句关系的词向量训练方法,结合了中文句子的句子间关系以及将自注意力算法中矩阵K、Q、V矩阵的计算使用神经网络的非线性方法,从而达到更好地表达中文单词的多义性以及更好地表达词向量的矩阵映射关系。
为解决上述技术问题,本发明采用的技术方案是:提供一种基于语句关系的词向量训练方法,本训练方法用于两阶段词向量方法中的第一阶段,包括以下步骤:
步骤一:将训练数据集中的所有单词挑出并编号,并建立单词表;
步骤二:将若干组句子组作为训练样本,句子组包括两个句子和两个句子的关系,将句子中的单词进行编号,将两个句子的关系转换为数字标签;
两个句子的关系可以为并列连接关系(和、跟、与、既、及、况且、何况等)、承接关系(于是、然后、此外、一般、比方等)、转折关系(虽然、但是、然而等)、因果关系(因为、因此、所以等)、选择关系(或、或者、还是等)、假设关系(如果、假如等)、比较关系(好比、如同等)、让步关系(虽然、尽管、纵然)、递进关系(不但、不仅而且等)、条件关系(不管、只要等)、目的关系(以便、以免等)。句子关系的数字标签、是算法训练的目的标签,也就是算法需训练得到准确预测句子关系的标签、,从而训练过程中更新算法所有参数,完成算法的预训练阶段。
步骤三:将句子单词进行编号后,输入对应的词嵌入向量,对每个单词都设置维度向量表达;
步骤四:将embedding得到的维度向量输入自注意力算法中是非线性映射的transformer算法;
步骤五:最后一层的第一个transformer算法输出向量经过全连接层输出句子关系类型标签;
步骤六:通过迭代训练得到算法框架的参数,预训练阶段得到模型参数,提取了相关的句子结构;在进行下一阶段的任务时,以预训练得到的参数为基础,再结合具体任务数据进行训练预测下游任务标签。
优选的,在所述步骤一中,训练数据集中的每个单词对应一个数字编号;在所述步骤二中,句子中的单词的编号对应单词表中的单词编号。
优选的,在所述步骤二中,数字标签为通过数字标注两个句子间的关系。
优选的,在所述步骤二中,在两个句子之间插入一个代表句子间隔的符号;在两个句子的开头插入一个代表任务类型的分类符号。[seq]可告诉训练算法两个句子的分割处,[CLS]可告诉训练算法所需训练的任务。如图所示,[CLS]代表模型所做任务类型(句子分类、抽取问答、句子标注等),[SEP]则告诉算法两个句子的分割处,让算法可识别两个不同的句子。
优选的,在所述步骤三中,单词的维度向量包括单词位置关系向量、句子关系向量和单词间关系向量。
单词位置关系向量是为了区分单词在句子中的位置信息,计算公式为:
Figure BDA0002270232520000031
Figure BDA0002270232520000032
其中pos代表单词在句子里的位置,2i和2i+1代表所计算数字在向量维度中的奇偶性,dmodel代表词向量的维度。
句子关系向量是为了在向量表达中包含不同句子的信息。同一组的两个句子,句子1的句子关系向量为对应向量维度“0”向量,句子2的句子关系向量为对应向量维度的“1”向量。
单词间关系向量是对单词意义的空间表达,举个例子:水果类单词(苹果、香蕉、葡萄等)会聚集在维度空间的一处,动物类单词(小狗、小猫、老鼠、蟑螂、蚂蚁等)会聚集在维度空间的一处,数字单词(一个、两个、一只、两只、三只等)会聚集在维度空间的一处,而数字类单词的位置可能会处于水果类和动物可类单词之间,因为数字类单词常会用于修饰水果类单词和动物类单词。单词的位置会由于其使用的语法、单词位置,而形成一定的空间关系。
优选的,在所述步骤四中,self-attention中非线性计算矩阵K、Q、V矩阵的非线性方法是神经网络,神经网络的计算方式为:
Figure BDA0002270232520000033
Figure BDA0002270232520000034
Figure BDA0002270232520000035
其中,reLu(·)代表激活函数,n代表神经网络的层数;x代表单词的嵌入向量;WK,WQ,WV,分别是算法提取K、Q、V矩阵的矩阵参数;bK,bQ,bV代表算法提取K、Q、V矩阵的矩阵偏置;gK(x),gQ(x),gV(x)代表算法提取K、Q、V矩阵的每一层神经网络的计算函数;
Figure BDA0002270232520000036
代表算法提取K、Q、V矩阵的n层神经网络计算函数。
与现有技术相比,有益效果是:本发明提出的方法在词向量第一阶段的预训练阶段结合了中文句子的句子间关系,由于中文博大精深,不同的句子间关系会很大程度上影响单词的关系,本方法能结合中文的语言特点更好地表达单词的多义性。并且本发明将自注意力机制中矩阵K、Q、V矩阵的计算使用神经网络的非线性方法,能够更充分地表达向量间的映射关系。
附图说明
图1是本发明的一种基于语句关系的词向量训练方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例
如图1所示为一种基于语句关系的词向量训练方法的是实施例,包括以下步骤:
步骤一:将训练数据集中的所有单词挑出并编号,每个单词对应一个数字编号,并建立单词表;
步骤二:将若干组句子组作为训练样本,句子组包括两个句子和两个句子的关系,将句子中的单词对应单词表进行编号,将两个句子的关系转换为数字标签;两个句子之间插入一个代表句子间隔的符号[seq];在两个句子的开头插入一个代表任务类型的分类符号[CLS]。
步骤三:将句子单词进行编号后,输入对应的词嵌入向量,对每个单词都设置维度向量表达,具体包括单词位置关系向量、句子关系向量和单词间关系向量。
步骤四:将embedding得到的维度向量输入自注意力算法中是非线性映射的transformer算法;自注意力算法中非线性计算矩阵K、Q、V矩阵的非线性方法是神经网络,神经网络的计算方式为:
Figure BDA0002270232520000051
Figure BDA0002270232520000052
Figure BDA0002270232520000053
其中,reLu(·)代表激活函数,n代表神经网络的层数;x代表单词的嵌入向量;WK,WQ,WV,分别是算法提取K、Q、V矩阵的矩阵参数;bK,bQ,bV代表算法提取K、Q、V矩阵的矩阵偏置;gK(x),gQ(x),gV(x)代表算法提取K、Q、V矩阵的每一层神经网络的计算函数;
Figure BDA0002270232520000054
代表算法提取K、Q、V矩阵的n层神经网络计算函数。
步骤五:最后一层的第一个transformer算法输出向量经过全连接层输出句子关系类型标签;
步骤六:通过迭代训练得到算法框架的参数,预训练阶段得到模型参数,提取了相关的句子结构;在进行下一阶段的任务时,以预训练得到的参数为基础,再结合具体任务数据进行训练预测下游任务标签。
工作原理:句子单词一开始经过wordembedding得到代表各个单词的向量,再经过自注意力算法里面是非线性的transformer算法训练。T1则是第一个transformer得到向量经过全连接层后的输出的分类结果,在预训练中代表句子间的关系,即句子关系类型标签。
本实施例的有益效果:本发明提出的方法在词向量第一阶段的预训练阶段结合了中文句子的句子间关系。这个改进方法能结合中文的语言特点更好地表达单词的多义性。并且本发明将自注意力算法中矩阵K、Q、V矩阵的计算使用神经网络的非线性方法,能够更充分地表达向量间的映射关系。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种基于语句关系的词向量训练方法,其特征在于,包括如下步骤:
步骤一:将训练数据集中的所有单词挑出并编号,并建立单词表;训练数据集中的每个单词对应一个数字编号;
步骤二:将若干组句子组作为训练样本,句子组包括两个句子和两个句子的关系,将句子中的单词进行编号,将两个句子的关系转换为数字标签;句子中的单词的编号对应单词表中的单词编号;在两个句子之间插入一个代表句子间隔的符号;在两个句子的开头插入一个代表任务类型的分类符号;
步骤三:将句子单词进行编号后,输入对应的词嵌入向量,对每个单词都设置维度向量表达;
步骤四:将embedding得到的维度向量输入自注意力算法中非线性映射的transformer算法;self-attention中非线性计算矩阵K、Q、V矩阵的非线性方法是神经网络,神经网络的计算方式为:
Figure FDA0004053816460000011
Figure FDA0004053816460000012
Figure FDA0004053816460000013
其中,reLu(·)代表激活函数,n代表神经网络的层数;x代表单词的嵌入向量;WK,WQ,WV,分别是算法提取K、Q、V矩阵的矩阵参数;bK,bQ,bV代表算法提取K、Q、V矩阵的矩阵偏置;gK(x),gQ(x),gV(x)代表算法提取K、Q、V矩阵的每一层神经网络的计算函数;
Figure FDA0004053816460000014
代表算法提取K、Q、V矩阵的n层神经网络计算函数;
步骤五:最后一层的第一个transformer输出向量经过全连接层输出句子关系的数字标签;
步骤六:通过迭代训练得到算法框架的参数,预训练阶段得到模型参数,提取了相关的句子结构;在进行下一阶段的任务时,以预训练得到的参数为基础,再结合具体任务数据进行训练预测下游任务标签。
2.根据权利要求1所述的一种基于语句关系的词向量训练方法,其特征在于,在所述步骤二中,数字标签为通过数字标注两个句子间的关系。
3.根据权利要求1所述的一种基于语句关系的词向量训练方法,其特征在于,在所述步骤三中,单词的维度向量包括单词位置关系向量、句子关系向量和单词间关系向量。
CN201911102317.5A 2019-11-12 2019-11-12 一种基于语句关系的词向量训练方法 Active CN110852072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911102317.5A CN110852072B (zh) 2019-11-12 2019-11-12 一种基于语句关系的词向量训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911102317.5A CN110852072B (zh) 2019-11-12 2019-11-12 一种基于语句关系的词向量训练方法

Publications (2)

Publication Number Publication Date
CN110852072A CN110852072A (zh) 2020-02-28
CN110852072B true CN110852072B (zh) 2023-04-07

Family

ID=69600776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911102317.5A Active CN110852072B (zh) 2019-11-12 2019-11-12 一种基于语句关系的词向量训练方法

Country Status (1)

Country Link
CN (1) CN110852072B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325109A (zh) * 2018-08-27 2019-02-12 中国人民解放军国防科技大学 基于注意力编码器的抽取式新闻摘要生成装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839284B2 (en) * 2016-11-03 2020-11-17 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (NLP) tasks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325109A (zh) * 2018-08-27 2019-02-12 中国人民解放军国防科技大学 基于注意力编码器的抽取式新闻摘要生成装置

Also Published As

Publication number Publication date
CN110852072A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN111160008B (zh) 一种实体关系联合抽取方法及系统
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
JP6872505B2 (ja) ベクトル生成装置、文ペア学習装置、ベクトル生成方法、文ペア学習方法、およびプログラム
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN110334724B (zh) 基于lstm的遥感对象自然语言描述及多尺度矫正方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113407660A (zh) 非结构化文本事件抽取方法
CN112559749A (zh) 在线教育师生智能匹配方法、装置及存储介质
CN110008699A (zh) 一种基于神经网络的软件漏洞检测方法及装置
CN109299246A (zh) 一种文本分类方法及装置
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
CN115859996A (zh) 一种实体关系抽取模型及其构建方法
CN110175330B (zh) 一种基于注意力机制的命名实体识别方法
CN112905793B (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN114048290A (zh) 一种文本分类方法及装置
CN113312918A (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN110852072B (zh) 一种基于语句关系的词向量训练方法
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN111507103A (zh) 一种利用部分标注集的自训练神经网络分词模型
CN116166768A (zh) 一种基于规则的文本知识抽取方法及系统
CN110134956A (zh) 基于blstm-crf的地名组织名识别方法
CN111767402B (zh) 一种基于对抗学习的限定域事件检测方法
CN111177370B (zh) 一种自然语言处理的算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant