CN112131864A - 一种基于自注意机制的中文词向量训练方法 - Google Patents

一种基于自注意机制的中文词向量训练方法 Download PDF

Info

Publication number
CN112131864A
CN112131864A CN202010945224.5A CN202010945224A CN112131864A CN 112131864 A CN112131864 A CN 112131864A CN 202010945224 A CN202010945224 A CN 202010945224A CN 112131864 A CN112131864 A CN 112131864A
Authority
CN
China
Prior art keywords
vector
word
training
chinese
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010945224.5A
Other languages
English (en)
Inventor
雷沁欣
程帆
张冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010945224.5A priority Critical patent/CN112131864A/zh
Publication of CN112131864A publication Critical patent/CN112131864A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于自注意机制的中文词向量训练方法,包括以下步骤:S1:获取中文词向量训练语料并进行预处理;S2:基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量得到初始词向量wi、初始字向量zi、初始拼音向量pi和初始字组件向量si;S3:以初始上下文词向量、初始上下文字向量、初始上下文拼音向量和初始上下文字组件向量作为输入,在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量。与现有技术相比,本发明具有准确度、高效性等优点。

Description

一种基于自注意机制的中文词向量训练方法
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种基于自注意机制的中文词向量训练方法。
背景技术
词向量在自然语言处理各类任务中有着非常重要的作用,是自然语言处理领域的基础,其好坏直接影响着各种自然语言处理任务完成的效果。英文词向量的研究发展比较早,产生了很多重要的模型,例如Bengio模型、word2vec模型、fasttext模型。中文词向量的研究起步较晚,目前大部分中文词向量的研究都是在已有的英文词向量模型上进行的,且中文词向量的研究主要集中在如何利用中文词语内部的语义信息这一方面。
Word2vec是目前非常有效的训练词向量的模型,其由两个重要模型CBOW和Skip-gram组成。其中,CBOW是主要基于上下文词语来预测中心词的模型,CBOW模型首先对当前中心词所对应的上下文词利用词袋模型进行表示,并将其作为模型的输入,将所有的上下文词用词袋模型表示的one-hot向量分别乘以共享的权重矩阵W,然后将得到的向量相加求出平均作为隐藏向量,隐藏向量乘以输出权重矩阵可以得到输出向量,其应用Huffman编码来表示需要训练的代价函数,然后采用随机梯度下降的优化方法对代价函数进行训练。目前,主流的中文词向量的训练也主要使用CBOW模型来进行,但是目前CBOW模型的最大的一个限制是,它在进行预测时上下文词的权重等同视之,效率低下,因为有些词比其他词具有更高的预测价值。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自注意机制的中文词向量训练方法。
本发明的目的可以通过以下技术方案来实现:
一种基于自注意机制的中文词向量训练方法,包括以下步骤:
S1:获取中文词向量训练语料并进行预处理;
S2:基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量得到初始词向量wi、初始字向量zi、初始拼音向量pi和初始字组件向量si
S3:以初始上下文词向量、初始上下文字向量、初始上下文拼音向量和初始上下文字组件向量作为输入,在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量。
所述的步骤S1具体包括以下步骤:
S11:获取中文维基百科语料作为中文词向量训练语料;
S12:对中文词向量训练语料进行简繁转换,并去除非中文词;
S13:进行分词处理和分字处理。
所述的步骤S2具体包括以下步骤:
S21:利用CBOW算法进行词向量训练得到初始词向量wi
S22:对于分字处理后的语料采用CBOW算法进行字向量训练得到初始字向量zi
S23:对于字拼音表和组件表采用CBOW算法进行字向量训练得到初始拼音向量pi和初始字组件向量si
所述的步骤S3中,引入自注意机制的改进CBOW算法的损失函数L(wi)为:
Figure BDA0002675105380000021
Figure BDA0002675105380000022
其中,wi为目标词,下标i表示序号,
Figure BDA0002675105380000023
为条件概率,
Figure BDA0002675105380000024
分别为目标词wi和wj的输出词向量,N表示整个词表的大小,
Figure BDA0002675105380000025
表示引入自注意机制处理后的上下文向量,k表示向量类别序号,
Figure BDA0002675105380000026
分别为引入自注意机制处理后的上下文词向量、上下文字向量、上下文拼音向量和上下文字组件向量。
所述的引入自注意机制处理后的上下文向量
Figure BDA0002675105380000027
的计算式为:
Figure BDA0002675105380000028
Figure BDA0002675105380000029
其中,
Figure BDA0002675105380000031
为采用键矩阵K和查询矩阵Q获得的注意力权重,
Figure BDA0002675105380000032
表示输入的初始上下文向量,
Figure BDA0002675105380000033
为键矩阵K的中心列向量,
Figure BDA0002675105380000034
为查询矩阵Q中的元素,b为上下文范围限值。
引入自注意机制的改进CBOW算法共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重。
该方法还包括以下步骤:
S4:在词相似性任务以及类比推理任务上对训练得到的中文词向量进行评价测试。
所述的步骤S4具体包括以下步骤:
S41:进行词语相关性评估,在中文词汇相似性数据集wordsim-240和wordsim-296上,计算人类标记分数与词向量的内积之间的Spearman correlation(ρ);
S42:进行单词类比任务测试,评估训练得到的词向量在单词类比任务上的准确率。
与现有技术相比,本发明具有以下优点:
一、现有的CBOW模型一个限制是在进行预测时上下文词的权重等同视之,这是低效的,因为有些词比其他词具有更高的预测价值,本发明通过引入注意词嵌入(AWE)模型来解决这种低效问题,将注意机制集成到Word2vec的CBOW模型中,利用注意机制,上下文向量不是一个简单和,而是上下文词向量嵌入的加权和,这样可以得到可以更为准确、合理的中文词向量。
二、在本发明中,基于自注意机制的中文词向量训练模型共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重,这样模型的可解释性更强,且参数量相比与普通的CBOW模型少得多,效率更高。
三、本发明从汉字的字形和读音两个方面来进行中文词向量的改进,训练中文词向量的过程中利用了中文词语内部的语义信息,在一定程度上解决了利用中小型语料库生成的词向量泛化能力较差这一缺点。
附图说明
图1为本发明的流程示意图。
图2为本发明的模型架构图。
图3为本发明的具体实施过程。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本发明提供一种基于自注意机制的中文词向量训练方法,包括以下步骤:
1)获取中文词向量训练语料,进行预处理;
2)基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量;
3)在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量;
4)在词相似性任务以及类比推理任务上对训练得到的中文词向量进行评价测试。
各步骤具体过程如下:
步骤1)获取中文词向量训练语料,进行预处理,具体包括:
11)从wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,整个语料多数来自于港澳台地区的文章,所以大部分都是繁体字,需要进行简繁转换,在本实施例中,主要使用OpenCC工具进行简繁转换;
12)现在汉语文章,无论是新闻还是百科语料中都会出现大量的非中文词,特殊的一些记号,还有文章必要的标点符号等,这部分也需要进行处理,在本实施例中,使用re正则表达式处理库进行处理;
13)将语料进行分词处理、分字处理,这里主要使用jieba分词进行分词处理,而字的组件信息、拼音信息均从HTTPCN网站进行爬取。
步骤2)基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量,具体包括:
21)利用CBOW算法进行词向量训练得到初始词向量wi,本实施例主要使用gensim库自带的cbow算法进行词向量的训练;
22)在已经进行分字处理的语料上利用CBOW算法进行字向量训练得到初始字向量zi,训练方法和词向量训练方法一致;
23)采用同样的方法,在字拼音表和组件表的基础上利用CBOW算法进行字向量训练得到初始拼音向量pi和字组件向量si
步骤3)在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量,其中,引入自注意机制的CBOW算法的损失函数为:
Figure BDA0002675105380000051
Figure BDA0002675105380000052
其中,wi代表目标词,
Figure BDA0002675105380000053
分别代表上下文词向量、上下文字向量、上下文拼音向量、上下文字组件向量,
Figure BDA0002675105380000054
表示目标词wi的输出词向量,N表示整个词表的大小。
而利用自注意机制改进的CBOW模型计算的上下文向量具体计算方式为:
Figure BDA0002675105380000055
其中,
Figure BDA0002675105380000056
为使用键矩阵K和查询矩阵Q计算的每个上下文向量
Figure BDA0002675105380000057
的注意力权重:
Figure BDA0002675105380000058
利用自注意机制改进的CBOW模型共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重,掩码词w0在上下文{w-b,...,w-1,w1,...,wb}中出现的概率为:
Figure BDA0002675105380000059
本实施例此处模型主要采用Pytorch实现,具体的模型架构如图2所示。
步骤4)在词相似性任务以及类比推理任务上对训练得到的中文词向量进行评价测试,具体包括:
41)进行词语相关性评估,在中文词汇相似性数据集wordsim-240和wordsim-296(英语相关资源的翻译)上,计算人类标记分数与词向量的內积之间的Spearmancorrelation(ρ);
42)进行单词类比任务测试,评估训练得到的词向量在单词类比任务上的准确率,实验证明,本发明的准确率得到了提高。
本发明通过引入注意词嵌入模型,将自注意机制集成到Word2vec的CBOW模型中,联合字、词、拼音等特征训练中文词向量,在词相似性任务以及类比推理任务上取得了较高的准确率。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于自注意机制的中文词向量训练方法,其特征在于,包括以下步骤:
S1:获取中文词向量训练语料并进行预处理;
S2:基于CBOW算法分别训练中文词向量、字向量、拼音向量及字组件向量得到初始词向量wi、初始字向量zi、初始拼音向量pi和初始字组件向量si
S3:以初始上下文词向量、初始上下文字向量、初始上下文拼音向量和初始上下文字组件向量作为输入,在CBOW算法基础上引入自注意机制进一步训练得到联合字、词、拼音的中文词向量。
2.根据权利要求1所述的一种基于自注意机制的中文词向量训练方法,其特征在于,所述的步骤S1具体包括以下步骤:
S11:获取中文维基百科语料作为中文词向量训练语料;
S12:对中文词向量训练语料进行简繁转换,并去除非中文词;
S13:进行分词处理和分字处理。
3.根据权利要求2所述的一种基于自注意机制的中文词向量训练方法,其特征在于,所述的步骤S2具体包括以下步骤:
S21:利用CBOW算法进行词向量训练得到初始词向量wi
S22:对于分字处理后的语料采用CBOW算法进行字向量训练得到初始字向量zi
S23:对于字拼音表和组件表采用CBOW算法进行字向量训练得到初始拼音向量pi和初始字组件向量si
4.根据权利要求3所述的一种基于自注意机制的中文词向量训练方法,其特征在于,所述的步骤S3中,引入自注意机制的改进CBOW算法的损失函数L(wi)为:
Figure FDA0002675105370000011
Figure FDA0002675105370000012
其中,wi为目标词,下标i表示序号,
Figure FDA0002675105370000013
为条件概率,
Figure FDA0002675105370000014
分别为目标词wi和wj的输出词向量,N表示整个词表的大小,
Figure FDA0002675105370000015
表示引入自注意机制处理后的上下文向量,k表示向量类别序号,
Figure FDA0002675105370000016
分别为引入自注意机制处理后的上下文词向量、上下文字向量、上下文拼音向量和上下文字组件向量。
5.根据权利要求4所述的一种基于自注意机制的中文词向量训练方法,其特征在于,所述的引入自注意机制处理后的上下文向量
Figure FDA0002675105370000021
的计算式为:
Figure FDA0002675105370000022
Figure FDA0002675105370000023
其中,
Figure FDA0002675105370000024
为采用键矩阵K和查询矩阵Q获得的注意力权重,
Figure FDA0002675105370000025
表示输入的初始上下文向量,
Figure FDA0002675105370000026
为键矩阵K的中心列向量,
Figure FDA0002675105370000027
为查询矩阵Q中的元素,b为上下文范围限值。
6.根据权利要求5所述的一种基于自注意机制的中文词向量训练方法,其特征在于,引入自注意机制的改进CBOW算法共享上下文词嵌入矩阵和掩码词嵌入矩阵之间的权重。
7.根据权利要求1所述的一种基于自注意机制的中文词向量训练方法,其特征在于,该方法还包括以下步骤:
S4:在词相似性任务以及类比推理任务上对训练得到的中文词向量进行评价测试。
8.根据权利要求7所述的一种基于自注意机制的中文词向量训练方法,其特征在于,所述的步骤S4具体包括以下步骤:
S41:进行词语相关性评估,在中文词汇相似性数据集wordsim-240和wordsim-296上,计算人类标记分数与词向量的內积之间的Spearman correlation(ρ);
S42:进行单词类比任务测试,评估训练得到的词向量在单词类比任务上的准确率。
CN202010945224.5A 2020-09-10 2020-09-10 一种基于自注意机制的中文词向量训练方法 Pending CN112131864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010945224.5A CN112131864A (zh) 2020-09-10 2020-09-10 一种基于自注意机制的中文词向量训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010945224.5A CN112131864A (zh) 2020-09-10 2020-09-10 一种基于自注意机制的中文词向量训练方法

Publications (1)

Publication Number Publication Date
CN112131864A true CN112131864A (zh) 2020-12-25

Family

ID=73845216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010945224.5A Pending CN112131864A (zh) 2020-09-10 2020-09-10 一种基于自注意机制的中文词向量训练方法

Country Status (1)

Country Link
CN (1) CN112131864A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN111160020A (zh) * 2019-11-26 2020-05-15 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
WO2020113544A1 (en) * 2018-12-07 2020-06-11 Beijing Didi Infinity Technology And Development Co., Ltd. Artificial intelligence medical symptom recognition system based on end-to-end learning
CN111291165A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 训练词向量嵌入模型的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
WO2020113544A1 (en) * 2018-12-07 2020-06-11 Beijing Didi Infinity Technology And Development Co., Ltd. Artificial intelligence medical symptom recognition system based on end-to-end learning
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN111160020A (zh) * 2019-11-26 2020-05-15 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
CN111291165A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 训练词向量嵌入模型的方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SHASHANK SONKAR 等: ""Attention Word Embedding"", 《ARXIV》 *
SHASHANK SONKAR 等: ""Attention Word Embedding"", 《ARXIV》, 1 June 2020 (2020-06-01), pages 1 - 8 *
XINGZHANG REN 等: "Attention Enhanced Chinese Word Embeddings", 《ICANN 2018: ARTIFICIAL NEURAL NETWORKS AND MACHINE LEARNING》 *
XINGZHANG REN 等: "Attention Enhanced Chinese Word Embeddings", 《ICANN 2018: ARTIFICIAL NEURAL NETWORKS AND MACHINE LEARNING》, 27 September 2018 (2018-09-27), pages 154, XP047487388, DOI: 10.1007/978-3-030-01418-6_16 *
赵浩新 等: "基于笔画中文字向量模型设计与研究", 《中文信息学报》 *
赵浩新 等: "基于笔画中文字向量模型设计与研究", 《中文信息学报》, 31 May 2019 (2019-05-31), pages 1 - 7 *

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
US11544474B2 (en) Generation of text from structured data
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN109359297B (zh) 一种关系抽取方法及系统
CN108509415B (zh) 一种基于词序加权的句子相似度计算方法
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111241232B (zh) 业务服务的处理方法、装置、服务平台及存储介质
CN111523312B (zh) 一种基于释义消歧的查词显示方法、装置和计算设备
CN115221846A (zh) 一种数据处理方法及相关设备
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
CN114818891A (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN113326383B (zh) 一种短文本实体链接方法、装置、计算设备与存储介质
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN112949293A (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
Das et al. Self-supervised image-to-text and text-to-image synthesis
CN110717029A (zh) 一种信息处理方法和系统
CN116503127A (zh) 模型训练方法、检索方法及相关装置
Dang et al. Non-Standard Vietnamese Word Detection and Normalization for Text–to–Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201225

RJ01 Rejection of invention patent application after publication