CN111783418B - 一种中文词义表示学习方法及装置 - Google Patents
一种中文词义表示学习方法及装置 Download PDFInfo
- Publication number
- CN111783418B CN111783418B CN202010517766.2A CN202010517766A CN111783418B CN 111783418 B CN111783418 B CN 111783418B CN 202010517766 A CN202010517766 A CN 202010517766A CN 111783418 B CN111783418 B CN 111783418B
- Authority
- CN
- China
- Prior art keywords
- word
- sense
- word sense
- matrix
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 239000013598 vector Substances 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 49
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims 1
- 238000013136 deep learning model Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 241000220225 Malus Species 0.000 description 20
- 238000004590 computer program Methods 0.000 description 10
- 235000013399 edible fruits Nutrition 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000005299 abrasion Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 235000009434 Actinidia chinensis Nutrition 0.000 description 1
- 244000298697 Actinidia deliciosa Species 0.000 description 1
- 235000009436 Actinidia deliciosa Nutrition 0.000 description 1
- 244000144730 Amygdalus persica Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种中文词义表示学习方法及装置,包括获取训练语料,生成全局上下文矩阵;对HowNet知识库进行解析,生成词义‑词相似度矩阵;根据所述全局上下文矩阵和词义‑词相似度矩阵,计算生成全局词义上下文向量;对所述全局词义上下文向量进行词义软消歧;采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。本发明通过提出的上下文软消歧机制,能够捕捉词的真正词义,提高深度学习模型在下游任务的效果。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种中文词义表示学习方法及装置。
背景技术
分布式词表示在自然语言处理中是重要的基础研究方向。通过大规模语料来预训练词的分布式表示并将该表示作为神经网络的输入是深度学习中的通用基础方法。分布式词表示的主要思想是,将每个词映射到一个连续的低维语义空间,该空间中具有相似语义的词距离相近。分布式词表示最经典,最常用的工作是Word2vec[1]和GloVe,它们分别利用利用上下文词的预测和共现矩阵的分解[2]来学习词的分布式表示。其中,谷歌提出的Word2vec包含两个模型,分别是跳字模型(Skip-gram)和连续词袋模型(CBOW)。Skip-gram模型利用中心词预测上下文词,而CBOW模型利用上下文词预测中心词。之后的很多词表示学习工作和变种都是基于这两种模型进行的。
传统的词表示学习一个很大的局限性在于无法对一个词的多个词意进行独立的表示。在中文里存在很多多义词,例如“苹果”既可以表示一种水果,同时也可以表示一个手机品牌。在分布式词表示中,一个词无论是否是多义词都会用一个单独的向量来进行表示。然而,用一个单独的向量无法捕捉一个词的不同词义,这会带来词义的混合缺陷问题,并将影响语义空间的有效性。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种中文词义表示学习方法及装置,以解决现有技术中用一个单独的向量无法捕捉一个词的不同词义,造成词义的混合缺陷,且会影响语义空间的有效性的问题。
为实现以上目的,本发明采用如下技术方案:一种中文词义表示学习方法,包括:
获取训练语料,生成全局上下文矩阵;
对HowNet知识库进行解析,生成词义-词相似度矩阵;
根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;
对所述全局词义上下文向量进行词义软消歧;
采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。
进一步的,在语料库中获取训练语料。
进一步的,所述生成全局上下文矩阵,包括:
对训练语料进行清洗,构建词典;
生成每个词的全局上下文向量;
组合每个词的上下文向量,生成全局上下文矩阵;
对所述矩阵进行降采样和归一化处理。
进一步的,所述对语料库进行清洗,构建词典,包括:
对训练语料进行过滤,删除其中的非中文字符;
对过滤后的训练语料进行处理构建词典,词典中保留词频大于50的词;
将保留在词典中的每个词在语料库中的上下文词进行统计,得到词袋。
进一步的,所述对HowNet知识库进行解析,生成词义-词相相似度矩阵,包括:
对HowNet知识库进行解析,计算每个词义之间的相似度;
根据每个词义之间的相似度计算词义和每个词之间的相似度,生成词义-词相似度矩阵。
进一步的,所述计算每个词义之间的相似度,包括:
计算HowNet知识库中定义的每一个词义之间的距离;
根据每个词和词义之间的距离生成词义-词相似度。
进一步的,所述对所述全局词义上下文矩阵进行词义软消歧,包括:
采用注意力机制计算每个词义的注意力权重;
根据每个词义的注意力权重进行软消歧。
本申请实施例提供一种中文词义表示学习装置,包括:
第一生成模块,用于获取训练语料,生成全局上下文矩阵;
第二生成模块,用于对HowNet知识库进行解析,生成词义-词相似度矩阵;
计算模块,用于根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;
消歧模块,用于对所述全局词义上下文向量进行词义软消歧;
输出模块,用于采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。
进一步的,在语料库中获取训练语料。
进一步的,所述生成全局上下文矩阵,包括:
对语料库进行清洗,构建词典;
生成每个词的全局上下文向量;
组合每个词的上下文向量,生成全局上下文矩阵;
对所述矩阵进行降采样和归一化处理。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种中文词义表示学习方法,包括获取训练语料,生成全局上下文矩阵;对HowNet知识库进行解析,生成词义-词相似度矩阵;根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;对所述全局词义上下文向量进行词义软消歧;采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。本发明通过上下文软消歧机制,能够训练中文的词义表示,利用该表示提高深度学习模型在下游任务的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种中文词义表示学习方法的步骤示意图;
图2为本发明一种中文词义表示学习方法的流程示意图;
图3为本发明相似度示意图;
图4为本发明一种中文词义表示学习装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
近年来出现了多个研究针对词义来进行表示学习的研究,主要分为以下两类:
1)无监督的词义表示学习
无监督的词义表示学习不利于知识库中的先验知识,通过无监督的方法在大规模的语料中对词义进行表示学习。Reisinger等人提出用对词的上下文进行聚类的方法来得到词的词义并进行表示学习。在这个方法的基础上,Huang等人提出了基于聚类的语言模型来学习词义表示。在前面的两种方法中,每个词的词义数量是相通的,通过预先定义得到。Neelakantan等人提出了一个模型来联合学习词义的消歧和表示,改工作一个重要创新在于它支持每个词有不同的词义数量,更符合现实场景。Lee等人提出了一种基于强化学习的模块化框架,它使用一个独立的词义选择模块来进行词义的表示学习。Li等人在自然语言处理的下游任务中对无监督的词义表示进行的测试,发现对一些任务引入词义表示学习可以获得显著的提升,这验证了词义表示学习的有效性。
2)基于知识的词义表示学习
无监督的词义表示学习到的词义无法与现实世界中词的真实词义对应起来。基于知识的表示学习使用的词汇知识库,如英文的WordNet等,利用其中人类的先验知识,来在大规模语料上对每一个词标注好的词义进行表示学习。一个有代表性的工作是Chen等人在2014年提出的词义表示学习和消岐的联合模型。该模型将词义表示学习和词义消岐结合了起来,作者的解释是这两个技术的结合有着相互促进的作用。同时,每个词的词义从WordNet中获取,并通过WordNet中的自然语言解释来对该词义进行初始化。Yang等人提出使用一种有监督的微调框架来从预训练的词向量中学习多原型的词义向量。这种后加工的方法给出了一种新的解决方案。
除了WordNet以外,还有很多有词义先验知识知识库被用于词义的表示学习工作,如Wikipedia、BableNet、ConceptNet、PPDB等。
中文词义知识库--HowNet
近年来,词义混淆的问题也逐渐受到了中文自然语言处理研究人员的关注。在中文中,目前主流的方法同样是假设词嵌入向量和词之间是一一对应的关系,但是,中文的多义词导致的词义混淆问题同样不可忽视。相比英文词义表示学习研究,对于多原型的词义表示学习方法,中文的研究还处于相对空白的阶段。利用中文中的词义知识资源来进行词义的表示学习是一项非常有意义的工作。
Hownet,也称知网,是一个机器可读的,以汉语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在Hownet中,对每一个词标记了明确的词义集合。对于每一个词义,Hownet用义原来表示它的部分和属性的意思。以“苹果”一词为例“苹果”一词包含两个词义:“苹果厂商”和“水果”;对于第一个词义,用于描述该词义的义原是:“电脑”、“样式值”、“能”、“携带”、“特定牌子”,也就是说,苹果是一种样式是能携带的特定牌子的电脑;第二个词义只有“水果”一个义原。
下面结合附图介绍本申请实施例中提供的一个具体的一种中文词义表示学习方法。
如图1所示,本申请实施例中提供的一种中文词义表示学习方法包括:
S101,获取训练语料,生成全局上下文矩阵;
首先,准备一个大规模的语料库,语料库中为训练语料,对语料库中的训练语料进行清洗,清洗剩下的词生成全局词上下文矩阵。
S102,对HowNet知识库进行解析,生成词义-词相似度矩阵;
首先对HowNet进行解析,生成词义-词相似度矩阵,然后根据该相似度矩阵生成全局词义上下文向量。
S103,根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;
S104,对所述全局词义上下文向量进行词义软消歧;
使用软消歧来进行词义表示学习。对于一段输入实例,利用每个词义的全局词义上下文向量和输入实例使用注意力机制计算相似度。
S105,采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。
使用拓展的Skip-gram跳字模型,并使用注意力机制来学习独立的词义表示。
一种中文词义表示学习方法的工作原理为:参见图2,首先准备训练语料并清洗,生成全局词上下文矩阵。对于知识库HowNet,进行解析,生成词义-词相似度矩阵。根据两个生成的矩阵计算得到全局词义上下文矩阵。在训练阶段,根据全局词义上下文矩阵和训练实例,使用注意力机制计算每个词义的权重来进行词义软消歧。接着用Skip-gram跳字模型进行词义向量的训练,得到预训练的词义向量。
优选的,在语料库中获取训练语料。
一些实施例中,所述生成全局上下文矩阵,包括:
对训练语料进行清洗,构建词典;
生成每个词的全局上下文向量;
组合每个词的上下文向量,生成全局上下文矩阵;
对所述矩阵进行降采样和归一化处理。
优选的,所述对语料库进行清洗,构建词典,包括:
对训练语料进行过滤,删除其中的非中文字符;
对过滤后的训练语料进行处理构建词典,词典中保留词频大于50的词;
将保留在词典中的每个词在语料库中的上下文词进行统计,得到词袋。
具体的,对语料库进行过滤,删除其中的非中文字符。
在预处理后的语料库上进行词典的生成,仅保留词频大于50的单词加入词典,避免词典维度过大。
对于词典中的每个词wi,在语料库中进行统计,将其上下固定窗口K内的上下文词进行统计,获得一个词袋Ci w。对于词袋Ci w,我们使用了降采样的方法来决定它是否加入词袋中:
其中,公式(1)中sub(wj)代表将该上下文词加入到词袋的概率,δ为阈值,f(wj)为上下文词出现的概率。最终,我们使用了L2正则化来对每一行进行归一化:
一些实施例中,所述对HowNet知识库进行解析,生成词义-词相相似度矩阵,包括:
对HowNet知识库进行解析,计算每个词义之间的相似度;
根据每个词义之间的相似度计算词义和每个词之间的相似度,生成词义-词相似度矩阵。
优选的,所述计算每个词义之间的相似度,包括:
计算HowNet知识库中定义的每一个词义之间的距离;
根据每个词和词义之间的距离生成词义-词相似度。
具体的,解析HowNet,计算HowNet中定义的每一个词义之间的距离:
公式(3)中,为用来解释词义S1的义原的集合。
之后,根据计算每个词和词义之间的距离生成词义-词相似度矩阵Sim(w),其中,一个给定词和词义的相似度Sim(s,w)定义如下:
其中,Sw为属于词w的词义的集合。基于生成的词义-词相似度矩阵Sim(w),对于给定词义生成全局词义Si,生成全局上下文矩阵Cs(si):
具体的,如图3所示,我们使用的中文词知识库HowNet内词,词义和义原之间关系的示例。例如,“水分”有两个词义,第一个词义代表物质上的水分,在HowNet中由“湿度”和“物质”两个义原来定义,第二个词义代表夸张,在HowNet中由“信息”,“夸大”两个义原进行定义。
一些实施例中,所述对所述全局词义上下文矩阵进行词义软消歧,包括:
采用注意力机制计算每个词义的注意力权重;
根据每个词义的注意力权重进行软消歧。
具体的,使用软消歧来进行词义表示学习。这一步我们引入了注意力机制来对目标词进行软消歧,并学习其分布式表示。具体描述如下:
首先利用该词在训练样本中真实的局部上下文向量Cγ和之前生成的全局词义上下文向量Cs(si)来对它进行软消歧。具体实现方法为用注意力机制计算它每一个词义si的注意力权重ai:
ei=Cs(si)·CγT (6)
其中,γ是一个放缩系数,当γ非常大时,该注意力机制可视为硬注意力。
经过词义软消歧,我们用注意力分值ai对每个词义的表示加权,就获得了目标词的表示νw,计算方式如下:
然后,用νw来计算给定目标词w的情况下出现上下文词wc的概率P(wc|w):
最后,最小化下面的损失函数:
最终输出词义向量。
下面为方便理解本技术方案,下面以多义词“苹果为例”,技术方案实现过程如下:
通过解析HowNet,可以得知中文词“苹果”共有两个词义,一个代表一种水果,另一个代表一种电脑品牌。
使用HowNet中的义原定义,得到苹果的两个词义与其他词的相似度,例如,与词义苹果(水果)最相近的词为梨,与词义苹果(电脑品牌)最相近的词为诺基亚。根据词义和词的相似度,构建词义-词相似度矩阵。
在大规模语料库中进行统计,得到相关词的全局词向量,构建全局词上下文向量矩阵。
根据词义-词相似度矩阵,可以用苹果两个词义的相似词的全局词上下文向量,表示苹果两个词义的全局词义上下文向量。
词义软消歧:在训练过程中,根据当前的训练实例和已构建的全局词义上下文向量,使用注意力机制对“苹果”进行软消歧。例如,训练实例为“新出品的苹果手机功能很全”,我们通过计算注意力得分,得到该“苹果”为水果的得分为0.13,为电脑品牌的得分为0.87。所以该上下文中苹果指的是电脑品牌。
最终,通过大规模的语料计算,得到苹果两个词义的表示向量。
具体的,使用本文计算得到的词义向量,通过计算相似度得到最相似的词,可以看出本文的词义向量精准地建模了多义词的每个词义。例子如下:
“苹果”共有两个词义,一个代表一种水果,另一个代表一种电脑品牌。通过本文的方法计算得到两个词义分别的向量表示,“苹果”(水果)在语义空间中最相近的5个词为:香蕉,果品,猕猴桃,桃子,葡萄;“苹果”(电脑品牌)在语义空间中最相近的5个词为:微软,三星,谷歌,黑莓,摩托罗拉。
“摩擦”共有两个词义,一个代表物理上的磨损,另一个代表冲突。通过本文的方法计算得到两个词义分别的向量表示,“摩擦”(磨损)在语义空间中最相近的5个词为:磨擦,磨损,色牢,牢度,刮擦;“摩擦”(冲突)在语义空间中最相近的5个词为:撕扯,厮打,矛盾,不和,争执。
本申请还提供一种中文词义表示学习装置,如图4所示,包括:
第一生成模块,用于获取训练语料,生成全局上下文矩阵;
第二生成模块,用于对HowNet知识库进行解析,生成词义-词相似度矩阵;
计算模块,用于根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;
消歧模块,用于对所述全局词义上下文向量进行词义软消歧;
输出模块,用于采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。
本申请提供的中文词义表示学习装置的工作原理是,第一生成模块获取训练语料,生成全局上下文矩阵;第二生成模块对HowNet知识库进行解析,生成词义-词相似度矩阵;计算模块根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;消歧模块对所述全局词义上下文向量进行词义软消歧;输出模块采用跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。
优选的,在语料库中获取训练语料。
优选的,所述生成全局上下文矩阵,包括:
对语料库进行清洗,构建词典;
生成每个词的全局上下文向量;
组合每个词的上下文向量,生成全局上下文矩阵;
对所述矩阵进行降采样和归一化处理。
本申请实施例提供一种计算机设备,包括处理器,以及与处理器连接的存储器;
存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的一种中文词义表示学习方法;
处理器用于调用并执行存储器中的计算机程序。
综上所述,本发明提供一种中文词义表示学习方法及装置,包括获取训练语料,生成全局上下文矩阵;对HowNet知识库进行解析,生成词义-词相似度矩阵;根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;对所述全局词义上下文向量进行词义软消歧;采用跳字模型对词义软消歧后的词义向量进行训练,输出词义向量。能够训练中文的词义表示,利用该表示提高深度学习模型在下游任务的效果。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种中文词义表示学习方法,其特征在于,包括:
获取训练语料,生成全局上下文矩阵;
对HowNet知识库进行解析,生成词义-词相似度矩阵;
根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;
对所述全局词义上下文向量进行词义软消歧;
采用基于注意力拓展的跳字模型对词义向量进行训练,输出词义向量;
所述对HowNet知识库进行解析,生成词义-词相相似度矩阵,包括:
对HowNet知识库进行解析,计算每个词义之间的相似度;
根据每个词义之间的相似度计算词义和每个词之间的相似度,生成词义-词相似度矩阵;
所述计算每个词义之间的相似度,包括:
计算HowNet知识库中定义的每一个词义之间的距离;
根据每个词和词义之间的距离生成词义-词相似度。
2.根据权利要求1所述的学习方法,其特征在于,
在语料库中获取训练语料。
3.根据权利要求2所述的学习方法,其特征在于,所述生成全局上下文矩阵,包括:
对训练语料进行清洗,构建词典;
生成每个词的全局上下文向量;
组合每个词的上下文向量,生成全局上下文矩阵;
对所述矩阵进行降采样和归一化处理。
4.根据权利要求3所述的学习方法,其特征在于,所述对训练语料进行清洗,构建词典,包括:
对训练语料进行过滤,删除其中的非中文字符;
对过滤后的训练语料进行处理构建词典,词典中保留词频大于50的词;
将保留在词典中的每个词在语料库中的上下文词进行统计,得到词袋。
5.根据权利要求1所述的学习方法,其特征在于,所述对所述全局词义上下文矩阵进行词义软消歧,包括:
采用注意力机制计算每个词义的注意力权重;
根据每个词义的注意力权重进行软消歧。
6.一种中文词义表示学习装置,其特征在于,包括:
第一生成模块,用于获取训练语料,生成全局上下文矩阵;
第二生成模块,用于对HowNet知识库进行解析,生成词义-词相似度矩阵;
计算模块,用于根据所述全局上下文矩阵和词义-词相似度矩阵,计算生成全局词义上下文向量;
消歧模块,用于对所述全局词义上下文向量进行词义软消歧;
输出模块,用于采用基于注意力拓展的跳字模型对词义软消歧后的词义向量进行训练,输出词义向量;
所述对HowNet知识库进行解析,生成词义-词相相似度矩阵,包括:
对HowNet知识库进行解析,计算每个词义之间的相似度;
根据每个词义之间的相似度计算词义和每个词之间的相似度,生成词义-词相似度矩阵;
所述计算每个词义之间的相似度,包括:
计算HowNet知识库中定义的每一个词义之间的距离;
根据每个词和词义之间的距离生成词义-词相似度。
7.根据权利要求6所述的学习装置,其特征在于,
在语料库中获取训练语料。
8.根据权利要求6所述的学习装置,其特征在于,所述生成全局上下文矩阵,包括:
对语料库进行清洗,构建词典;
生成每个词的全局上下文向量;
组合每个词的上下文向量,生成全局上下文矩阵;
对所述矩阵进行降采样和归一化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010517766.2A CN111783418B (zh) | 2020-06-09 | 2020-06-09 | 一种中文词义表示学习方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010517766.2A CN111783418B (zh) | 2020-06-09 | 2020-06-09 | 一种中文词义表示学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783418A CN111783418A (zh) | 2020-10-16 |
CN111783418B true CN111783418B (zh) | 2024-04-05 |
Family
ID=72753752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010517766.2A Active CN111783418B (zh) | 2020-06-09 | 2020-06-09 | 一种中文词义表示学习方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783418B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
CN108733647A (zh) * | 2018-04-13 | 2018-11-02 | 中山大学 | 一种基于高斯分布的词向量生成方法 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN109101488A (zh) * | 2018-07-12 | 2018-12-28 | 南京邮电大学 | 一种基于知网的词语语义相似度计算方法 |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和系统 |
CN109960786A (zh) * | 2019-03-27 | 2019-07-02 | 北京信息科技大学 | 基于融合策略的中文词语相似度计算方法 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
US10600406B1 (en) * | 2017-03-20 | 2020-03-24 | Amazon Technologies, Inc. | Intent re-ranker |
-
2020
- 2020-06-09 CN CN202010517766.2A patent/CN111783418B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
US10600406B1 (en) * | 2017-03-20 | 2020-03-24 | Amazon Technologies, Inc. | Intent re-ranker |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108446269A (zh) * | 2018-03-05 | 2018-08-24 | 昆明理工大学 | 一种基于词向量的词义消歧方法及装置 |
CN108733647A (zh) * | 2018-04-13 | 2018-11-02 | 中山大学 | 一种基于高斯分布的词向量生成方法 |
CN109101488A (zh) * | 2018-07-12 | 2018-12-28 | 南京邮电大学 | 一种基于知网的词语语义相似度计算方法 |
CN109033307A (zh) * | 2018-07-17 | 2018-12-18 | 华北水利水电大学 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和系统 |
CN109960786A (zh) * | 2019-03-27 | 2019-07-02 | 北京信息科技大学 | 基于融合策略的中文词语相似度计算方法 |
CN110334354A (zh) * | 2019-07-11 | 2019-10-15 | 清华大学深圳研究生院 | 一种中文关系抽取方法 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
Non-Patent Citations (2)
Title |
---|
Beyond word embeddings:Learning entity and concept representations from large scale knowledge bases;Walid Shalaby等;《Information Retrieval Journal》;1-18 * |
基于混合特征和规则的词义消歧研究;高宁宁;《中国优秀硕士学位论文全文数据库信息科技辑》(第10期);1-53 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783418A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668671B (zh) | 预训练模型的获取方法和装置 | |
CN109359297B (zh) | 一种关系抽取方法及系统 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
Onan | SRL-ACO: A text augmentation framework based on semantic role labeling and ant colony optimization | |
CN110427629A (zh) | 半监督文本简化模型训练方法和系统 | |
CN103678285A (zh) | 机器翻译方法和机器翻译系统 | |
CN107301170A (zh) | 基于人工智能的切分语句的方法和装置 | |
Tripathy et al. | Comprehensive analysis of embeddings and pre-training in NLP | |
CN111858878B (zh) | 从自然语言文本中自动提取答案的方法、系统及存储介质 | |
CN115860006B (zh) | 一种基于语义句法的方面级情感预测方法及装置 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 | |
CN114398899A (zh) | 预训练语言模型的训练方法、装置、计算机设备和介质 | |
CN113688621B (zh) | 一种长短不一的文本在不同粒度下的文本匹配方法及装置 | |
Liu et al. | Hybrid neural network text classification combining TCN and GRU | |
CN114120166A (zh) | 视频问答方法、装置、电子设备及存储介质 | |
CN111783418B (zh) | 一种中文词义表示学习方法及装置 | |
CN116341564A (zh) | 基于语义理解的问题推理方法和装置 | |
CN114239583B (zh) | 实体链指模型的训练及实体链指方法、装置、设备及介质 | |
CN110083828A (zh) | 一种文本聚类方法及装置 | |
CN114970553A (zh) | 基于大规模无标注语料的情报分析方法、装置及电子设备 | |
CN115544204A (zh) | 一种不良语料过滤方法以及系统 | |
CN116186529A (zh) | 语义理解模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |