CN111881690B - 一种词向量动态调整的处理方法、系统、装置及介质 - Google Patents
一种词向量动态调整的处理方法、系统、装置及介质 Download PDFInfo
- Publication number
- CN111881690B CN111881690B CN202010542552.0A CN202010542552A CN111881690B CN 111881690 B CN111881690 B CN 111881690B CN 202010542552 A CN202010542552 A CN 202010542552A CN 111881690 B CN111881690 B CN 111881690B
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- semantic
- word vector
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 189
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 57
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种词向量动态调整的处理方法、系统、装置及介质。该方法获取包括批量单词的语料库数据;通过主题模型对单词进行学习,提取得到单词的词向量;根据词向量构建全局词向量矩阵和潜在语义矩阵;获取待处理单词的上下文语境信息,并基于上下文语境信息、全局词向量矩阵和潜在语义矩阵进行语境建模;通过基于语义的单纯形法对待处理单词的词向量进行各个维度的更新,得到待处理单词的语境词向量。本申请实施例能够充分利用单词所在的语境,分析出该语境所表达的总体语义信息,进行单词的词向量动态调整,从而获得更符合局部语境信息的词向量表示,提高了词向量表示的准确性。本发明可广泛应用于自然语言处理技术领域内。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是一种词向量动态调整的处理方法、系统、装置及介质。
背景技术
在自然语言处理技术中,因为每个词语都是一个记号,而计算机所接受的输入是数字信号,如何将词语及其背后的含义传输给计算机就成了自然语言处理中最基础的一个研究工作。早期的方法是根据词语先生成词典,然后根据词典中每个词的绝对位置生成一个one-hot向量,即向量中只有一个分量为1,其他为0,这种方法有两个缺点:一、当词典规模增大的时候,向量的长度也随之线性增长;二、只用0/1两个数字无法表达自然语言中词语所蕴含的复杂含义。为了解决这些缺点,使用连续的向量表示单词成为了现在最常用的技术。在许多自然语言处理和文本建模任务中,词向量已得到了广泛的使用,并被证明是有效的。自然语言处理中经常提到的词嵌入(word embedding)正是指的将文本中的词转换成数字向量。如何通过向量来表示每个单词,并通过这些词嵌入向量之间的相关关系捕获单词之间的语义关系已经成为自然语言处理语义理解领域的一项重要基础研究工作。
目前有许多机器学习模型致力于将单词转化为单一固定的词向量,例如:Bengio等人用神经网络扩展了传统的n-gram语言模型;Tomas等人提出的一种计算效率高的对数线性神经语言用于获取单词嵌入的模型,被称为word2vector(Skip-Gram和CBOW);Pennington等人提出的GloVe,旨在通过汇总全局单词-单词共现统计来获得单词的嵌入;Murphy等人提出了非负稀疏嵌入(NNSE),这是矩阵分解的一种变体,可将单词嵌入非负语义空间,但不考虑单词多义性;google的研究人员于2018年提出的一种基于神经网络的词嵌入技术,其最大的特点是抛弃了传统的RNN和CNN而使用多层Transformer结构,称之为BERT。
然而,单词的含义是取决于具体的文本语境的。所谓文本语境,就是单词所处的文本上下文。在当前的方法中,词语的向量表达都蕴含在一个确定的向量中,这个向量并不会随着该词语的语境环境,进行调整和改变。然而,在不同的语境中,词语所表达出的语义可以是截然不同的,而且语境本身是千变万化,日新月异的。那么,使用同一个固定的词向量进行表达语义信息,显然是不足的,这种方法目前亟需改进。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种词向量动态调整的处理方法,该方法通过主题模型进行词向量学习,在获得词向量的基础上,根据不同的文本语境,对词向量进行动态调整和更新,使得得到词向量的表示更加准确。
本申请实施例的另一个目的在于提供词向量动态调整的处理系统。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
第一方面,本申请实施例提供了词向量动态调整的处理方法,包括以下步骤:
获取包括批量单词的语料库数据;
通过主题模型对所述单词进行学习,提取得到所述单词的词向量;所述词向量包括若干潜在语义的维度;
根据所述词向量构建全局词向量矩阵和潜在语义矩阵;
获取待处理单词的上下文语境信息,并基于所述上下文语境信息、所述全局词向量矩阵和所述潜在语义矩阵进行语境建模;
通过基于语义的单纯形法对所述待处理单词的词向量进行各个所述维度的更新,得到所述待处理单词的语境词向量。
另外,根据本发明上述实施例的词向量动态调整的处理方法,还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述主题模型为Word2vec模型、贝叶斯主题模型、BERT模型中的任意一种。
进一步地,在本发明的一个实施例中,所述获取待处理单词的上下文语境信息这一步骤,其具体包括:
截取所述待处理单词所在的语句;
通过词袋模型从所述语句获取所述上下文语境信息。
进一步地,在本发明的一个实施例中,所述根据所述词向量构建全局词向量矩阵和潜在语义矩阵这一步骤,其具体包括:
根据所述单词表示为各个所述潜在语义的概率,通过所述词向量建立全局词向量矩阵;
根据各个所述潜在语义下出现所述单词的概率,通过所述词向量建立潜在语义矩阵。
进一步地,在本发明的一个实施例中,所述通过基于语义的单纯形法对所述待处理单词的词向量进行各个所述维度的更新这一步骤,其具体包括:
通过所述语境建模,确定所述待处理单词在各个所述维度的潜在语义分量;
通过单纯形法确定所述潜在语义分量的向量和;
基于所述潜在语义分量与所述向量和,对所述待处理单词的词向量进行各个所述维度的更新。
进一步地,在本发明的一个实施例中,所述基于所述潜在语义分量和所述向量和对所述待处理单词的词向量进行各个所述维度的更新这一步骤,其具体为:基于所述潜在语义分量与所述向量和的商,对所述待处理单词的词向量进行各个所述维度的更新。
第二方面,本申请实施例提出了词向量动态调整的处理系统,包括:
获取模块,用于获取包括批量单词的语料库数据;
提取模块,用于通过主题模型对所述单词进行学习,提取得到所述单词的词向量;所述词向量包括若干潜在语义的维度;
构建模块,用于根据所述词向量构建全局词向量矩阵和潜在语义矩阵;
建模模块,用于获取待处理单词的上下文语境信息,并基于所述上下文语境信息、所述全局词向量矩阵和所述潜在语义矩阵进行语境建模
处理模块,用于通过基于语义的单纯形法对所述待处理单词的词向量进行各个所述维度的更新,得到所述待处理单词的语境词向量。
第三方面,本申请实施例提供了词向量动态调整的处理装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现所述的词向量动态调整的处理方法。
第四方面,本申请实施例还提供了一种介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现所述的词向量动态调整的处理方法。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本申请实施例中的方法,通过主题模型提取单词的词向量,并且基于语境进行建模,利用语义的单纯形法,针对每个语境调整单词的词向量表示,使得单词在各个语境下都会独立生成对应的词向量;本申请实施例能够充分利用单词所在的语境中其它词语的语义信息和相关关系,分析出该语境所表达的总体语义信息,进行单词的词向量动态调整,从而获得更符合局部语境信息的词向量表示,提高了词向量表示的准确性。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本发明词向量动态调整的处理方法具体实施例的流程示意图;
图2为本发明词向量动态调整的处理方法具体实施例的建模原理示意图;
图3为本发明词向量动态调整的处理方法具体实施例中单词的语义分布示意图;
图4为本发明词向量动态调整的处理方法具体实施例的语义空间示意图;
图5为本发明词向量动态调整的处理系统具体实施例的结构示意图;
图6为本发明词向量动态调整的处理装置具体实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
众所周知,单词的含义是取决于具体的文本语境的。所谓文本语境,可以理解为单词所处的文本上下文。在当前的单词词向量分析方法中,单词的词向量表达都蕴含在一个确定的向量中,这个向量并不会随着该单词的语境环境进行调整和改变。然而,在不同的语境中,单词所表达出的语义可以是截然不同的。那么,使用同一个固定的词向量进行表达语义信息,显然是不足的。而且事实上,某些单词不仅有可能是以往的文章中出现过的语义,也可能在某篇文章中会出现新的、特定的语义,这种情况是很常见的。从这个角度上讲,一开始就设定好一个单词有多少种语义本身就存在问题。
而且可以理解的是,语境是千变万化的,很多单词的语义是跟着文本语境进行细微变化的。在传统的方法中,并没有很好的方式对文本语境进行建模,而且,也没有出现能够根据语境进行词向量动态学习的方法。综合来说,现有的技术有以下缺点:(1)无法针对文本语境进行有效建模;(2)现有词向量无法根据语境进行动态调整,生成表示准确含义的词向量。基于此,本申请实施例中提供一种词向量动态调整的处理方法和系统,用以改善现有方法。
下面参照附图详细描述根据本申请实施例提出的词向量动态调整的处理方法和系统,首先将参照附图描述根据本申请实施例提出的词向量动态调整的处理方法。该方法可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件,例如具有自然语言处理功能的应用程序等。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1,本申请实施例中提供一种词向量动态调整的处理方法,主要包括以下步骤:
S1、获取包括批量单词的语料库数据;
本申请实施例的步骤S1中,语料库数据是指在语言的实际使用中真实出现过的语言材料,其可以是以电子计算机为载体承载语言知识的网络资源,包括大量的单词信息,语料库中的语言语种可以是任意的,一般可以从现有的各式各样的文本抽取对象中获取得到。
S2、通过主题模型对单词进行学习,提取得到单词的词向量;
本申请实施例的步骤S2中,通过现有的主题模型对语料库中的单词进行学习,提取各个单词的词向量,具体地,此处提取的词向量为词嵌入向量,即涵盖了单词的语义信息的词向量。该主题模型是以非监督学习的方式对文本(即单词)的隐含语义结构进行聚类的统计模型,可以用作对文本进行收集分类和降维工作。具体地,本申请实施例中采用的主题模型可以是Word2vec模型,Word2vec模型可以映射每个单词到一个向量,方便用来表示词与词之间的关系,该向量为神经网络的隐藏层。当然,本申请实施例中采用的主题模型还可以是贝叶斯主题模型、BERT模型以及现有的主题模型中的任意一种,在此并不作具体的限制。
S3、根据词向量构建全局词向量矩阵和潜在语义矩阵;
本申请实施例的步骤S3中,通过提取的所有单词的词向量构建全局词向量矩阵和潜在语义矩阵。具体地,以总体单词的个数用V表示,这些单词所蕴含的所有的潜在语义的个数用K表示,则以每个单词所对应的词向量为行,以各个潜在语义为列,得到全局词向量矩阵。全局词向量矩阵可以表示为RV×K,这是一个V行K列的矩阵,其中,任取其中的第n行,得到的θn即为第n个单词wn的词向量(n∈{1,2,3,4,...,V})θn中包括有K个元素,每个元素对应的数值代表了单词wn的语义为该列潜在语义的概率,可以得知:wn中的K个元素之和为1。相对地,以各个潜在语义为行,以每个单词所对应的词向量为列,则可以得到潜在语义矩阵。潜在语义矩阵可以表示为RK×V,这是一个K行V列的矩阵,其中,任取其中的第m行,得到的βm即为第m个潜在语义中出现每个单词的概率(m∈{1,2,3,4,...,K})。
S4、获取待处理单词的上下文语境信息,并基于上下文语境信息、全局词向量矩阵和潜在语义矩阵进行语境建模;
本申请实施例中,对单词进行词向量调整时,会选定一个待处理单词,记为wι,然后根据词袋模型,截取包括待处理单词wι的一段语句,假设该语句中的单词个数为N,则将该语句记为为了方便起见,可以通过待处理单词wι所在的语句得到其上下文语境信息,例如将上述语句中的所有单词除去待处理单词wι,作为待处理单词wι的上下文语境信息,可以记为/>在此简称为Cwι。当然,应当说明的是,此处选取上下文语境信息的方式是可以随意调整的,并不局限于单独语句中的所有单词。
基于以上的信息,通过带隐藏变量的贝叶斯定理,可以推导出单词wι的潜在语义的条件概率分布,即给定一组观察变量Cwι,则单词wι的语义为潜在语义zwι的概率有以下关系:
上式中,表示在语境/>中,单词wι的语义为zwι的概率,/>表示单词wι的语义为zwι的概率,/>表示语境/>中,出现潜在语义zwι的概率,/>表示为语境Cwι出现的概率。当给定一组语境时,则/>本身是常数,相应地,此时上式又可以表示为:
参照图2,基于上述的公式,可以根据概率p(Cwι)选择出随机的语境Cwι,再根据选择出的Cwι计算单词wι的语义为潜在语义zwι的后验概率来抽取出zwι,然后再根据抽取出的潜在语义zwι的单词分布抽取单词wι。这是一个三层贝叶斯推断过程,最终可以根据以下公式对单词wι的语境建模:
式中,T表示潜在语义空间,z表示各个潜在语义,z∈T={z1,...,zK};p(wι|z)表示单词wι表示为潜在语义z的概率,该概率可从全局词向量矩阵中获得;而p(z|wn)表示在潜在语义z中出现单词Wn的概率,而这正好又可以从潜在语义矩阵中得到,因此,可以通过以上公式完成对单词所在语境的建模。
S5、通过基于语义的单纯形法对待处理单词的词向量进行各个维度的更新,得到待处理单词的语境词向量。
参照图3,图3所示出的是单词的语义分布示意图,包括若干条语义等高线1,可以看出,同一个单词可能在不同的语境中表示为相差较大的语义,而且不同的语义出现的概率也不相同。本申请实施例中,在完成了对单词所在的语境进行建模后,可以以此为依据调整单词的词向量,所使用的方法为语义单纯形法。参照图4,利用语义单纯形法进行词语向量动态调整的过程,即是在单词的语义空间中,根据语义向量的叠加性,通过向量的累积,在同一个语义空间的对不同的语义向量进行合成操作,从而对多个潜在语义维度的向量分量进行归一化,而后对每个维度进行更新。将语境建模公式中的p(wι|z)通过全局词向量矩阵中的信息替换为/>即wι表示为潜在语义z的概率;p(z|wn)通过潜在语义矩阵中的信息替换为/>即潜在语义z中出现单词Wn的概率。则具体地,该过程的调整公式可以表示为:
式中,k和k'表示潜在语义的维度标号,例如表示即wι在全局词向量矩阵中第k个潜在语义的向量分量。上式根据语义向量的叠加性,通过向量的累积,在同一个语义空间的对不同的语义向量进行合成操作,具体地,它的分子来源于单词语境建模的公式,而分母则是为了进行归一化。通过该过程可以自适应地根据单词的语境模型来动态调整单词的词向量,具体地,由于词向量中的每个元素的取值都代表单词wn的语义为某一个潜在语义的概率,而潜在语义一共有K个,因此可以对单词进行K次的更新。
可选地,在本申请实施例中,对于每一个单词wι,可以首先逐个更新其wι所在句子中其他单词的词向量。当词集合中的各个单词更新后,再更新wι的词向量。这里首先更新wι周围的其它单词,是为了调整wι的语境语义,使wι的语境语义更加准确,从而根据这个更确定的语境,调整wι的语义。
本申请实施例中,提供了一种利用语义的单纯形进行词向量动态调整的方法,生成单词在某个具体语境中对应的语义,从而获得更加精确的词向量表示。其使用贝叶斯推断对每一个语境进行建模,并且利用语义的单纯形法,针对每个语境调整词向量表示,使得在每一种语境下都会独立生成对应的词向量。具体地,例如一个单词“苹果”,在不同的语境下,“苹果”一词可能有不同的语义:在语境中有“水果,果园,成熟”等语义的情况下,“苹果”的语义可能是水果,而不太可能是“手机”或者“电脑”;在语境中有“手机,智能,科技”等语义的情况下,“苹果”的语义可能是“手机”,而不太可能是“水果”;在语境中有“亚当,夏娃,禁忌”等语义的情况下,“苹果”的语义可能是“禁忌”,而不太可能是“手机”或者“水果”。可见,在不同的语境中,单词的语义千差万别,而且某些语义在语料库中出现的频率很低,甚至可能只出现在一篇文章中。本申请实施例中的方法,可以捕捉到这种罕见语义,因为其是针对每一个语境分别进行贝叶斯建模来调整词向量,所以在每一种语境中都会独立生成对应的词向量。相对于现有的词向量表示方法,本申请实施例更容易给出符合局部语境信息的词向量。
其次,参照附图描述根据本申请实施例提出的词向量动态调整的处理系统。
图5是本发明一个实施例的词向量动态调整的处理系统结构示意图。
系统具体包括:
获取模块101,用于获取包括批量单词的语料库数据;
提取模块102,用于通过主题模型对单词进行学习,提取得到单词的词向量;词向量包括若干潜在语义的维度;
构建模块103,用于根据词向量构建全局词向量矩阵和潜在语义矩阵;
建模模块104,用于获取待处理单词的上下文语境信息,并基于上下文语境信息、全局词向量矩阵和潜在语义矩阵进行语境建模
处理模块105,用于通过基于语义的单纯形法对待处理单词的词向量进行各个维度的更新,得到待处理单词的语境词向量。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图6,本申请实施例提供了词向量动态调整的处理装置,包括:
至少一个处理器201;
至少一个存储器202,用于存储至少一个程序;
当至少一个程序被至少一个处理器201执行时,使得至少一个处理器201实现的词向量动态调整的处理方法。
同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本申请实施例还提供了一种存储介质,其中存储有处理器201可执行的指令,处理器201可执行的指令在由处理器201执行时用于执行的词向量动态调整的处理方法。
同理,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种词向量动态调整的处理方法,其特征在于,包括以下步骤:
获取包括批量单词的语料库数据;
通过主题模型对所述单词进行学习,提取得到所述单词的词向量;所述词向量包括若干潜在语义的维度;
根据所述词向量构建全局词向量矩阵和潜在语义矩阵;
获取待处理单词的上下文语境信息,并基于所述上下文语境信息、所述全局词向量矩阵和所述潜在语义矩阵进行语境建模;
通过基于语义的单纯形法对所述待处理单词的词向量进行各个所述维度的更新,得到所述待处理单词的语境词向量;
所述通过基于语义的单纯形法对所述待处理单词的词向量进行各个所述维度的更新这一步骤,其具体包括:
通过所述语境建模,确定所述待处理单词在各个所述维度的潜在语义分量;
通过单纯形法确定所述潜在语义分量的向量和;
基于所述潜在语义分量与所述向量和,对所述待处理单词的词向量进行各个所述维度的更新;
所述基于所述潜在语义分量和所述向量和,对所述待处理单词的词向量进行各个所述维度的更新这一步骤,其具体为:基于所述潜在语义分量与所述向量和的商,对所述待处理单词的词向量进行各个所述维度的更新。
2.根据权利要求1所述的词向量动态调整的处理方法,其特征在于:所述主题模型为Word2vec模型、贝叶斯主题模型、BERT模型中的任意一种。
3.根据权利要求1所述的词向量动态调整的处理方法,其特征在于,所述获取待处理单词的上下文语境信息这一步骤,其具体包括:
截取所述待处理单词所在的语句;
通过词袋模型从所述语句获取所述上下文语境信息。
4.根据权利要求1所述的词向量动态调整的处理方法,其特征在于,所述根据所述词向量构建全局词向量矩阵和潜在语义矩阵这一步骤,其具体包括:
根据所述单词表示为各个所述潜在语义的概率,通过所述词向量建立全局词向量矩阵;根据各个所述潜在语义下出现所述单词的概率,通过所述词向量建立潜在语义矩阵。
5.一种词向量动态调整的处理系统,其特征在于,包括:
获取模块,用于获取包括批量单词的语料库数据;
提取模块,用于通过主题模型对所述单词进行学习,提取得到所述单词的词向量;所述词向量包括若干潜在语义的维度;
构建模块,用于根据所述词向量构建全局词向量矩阵和潜在语义矩阵;
建模模块,用于获取待处理单词的上下文语境信息,并基于所述上下文语境信息、所述全局词向量矩阵和所述潜在语义矩阵进行语境建模
处理模块,用于通过基于语义的单纯形法对所述待处理单词的词向量进行各个所述维度的更新,得到所述待处理单词的语境词向量;
所述通过基于语义的单纯形法对所述待处理单词的词向量进行各个所述维度的更新这一步骤,其具体包括:
通过所述语境建模,确定所述待处理单词在各个所述维度的潜在语义分量;
通过单纯形法确定所述潜在语义分量的向量和;
基于所述潜在语义分量与所述向量和,对所述待处理单词的词向量进行各个所述维度的更新;
所述基于所述潜在语义分量和所述向量和,对所述待处理单词的词向量进行各个所述维度的更新这一步骤,其具体为:基于所述潜在语义分量与所述向量和的商,对所述待处理单词的词向量进行各个所述维度的更新。
6.一种词向量动态调整的处理装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-4任一项所述的词向量动态调整的处理方法。
7.一种计算机可读存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-4中任一项所述的词向量动态调整的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542552.0A CN111881690B (zh) | 2020-06-15 | 2020-06-15 | 一种词向量动态调整的处理方法、系统、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010542552.0A CN111881690B (zh) | 2020-06-15 | 2020-06-15 | 一种词向量动态调整的处理方法、系统、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881690A CN111881690A (zh) | 2020-11-03 |
CN111881690B true CN111881690B (zh) | 2024-03-29 |
Family
ID=73157523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010542552.0A Active CN111881690B (zh) | 2020-06-15 | 2020-06-15 | 一种词向量动态调整的处理方法、系统、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881690B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2624149A2 (en) * | 2012-02-02 | 2013-08-07 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN110705304A (zh) * | 2019-08-09 | 2020-01-17 | 华南师范大学 | 一种属性词提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11068658B2 (en) * | 2016-12-07 | 2021-07-20 | Disney Enterprises, Inc. | Dynamic word embeddings |
-
2020
- 2020-06-15 CN CN202010542552.0A patent/CN111881690B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2624149A2 (en) * | 2012-02-02 | 2013-08-07 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN109189925A (zh) * | 2018-08-16 | 2019-01-11 | 华南师范大学 | 基于点互信息的词向量模型和基于cnn的文本分类方法 |
CN110705304A (zh) * | 2019-08-09 | 2020-01-17 | 华南师范大学 | 一种属性词提取方法 |
Non-Patent Citations (1)
Title |
---|
Adaptive ProbabilisticWord Embedding;Shuangyin Li et al.;《In Proceedings of The Web Conference 2020》;第651-661页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111881690A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
US10755048B2 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN112101031A (zh) | 一种实体识别方法、终端设备及存储介质 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
Mankolli et al. | Machine learning and natural language processing: Review of models and optimization problems | |
Boudad et al. | Exploring the use of word embedding and deep learning in arabic sentiment analysis | |
CN114064894A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN111881690B (zh) | 一种词向量动态调整的处理方法、系统、装置及介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN109871414A (zh) | 基于上下文向量图核的生物医学实体关系分类方法 | |
CN111507098B (zh) | 多义词识别方法、装置、电子设备及计算机可读存储介质 | |
Abudouwaili et al. | Research on the Uyghur morphological segmentation model with an attention mechanism | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN113806536A (zh) | 文本分类方法及其装置、设备、介质、产品 | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 | |
CN111797622B (zh) | 用于生成属性信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |