CN110555209A - 训练词向量模型的方法及装置 - Google Patents

训练词向量模型的方法及装置 Download PDF

Info

Publication number
CN110555209A
CN110555209A CN201810687680.7A CN201810687680A CN110555209A CN 110555209 A CN110555209 A CN 110555209A CN 201810687680 A CN201810687680 A CN 201810687680A CN 110555209 A CN110555209 A CN 110555209A
Authority
CN
China
Prior art keywords
information
text
target
context
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810687680.7A
Other languages
English (en)
Inventor
庄毅萌
谢静辉
郑银河
朱璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecom R&D Center
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Publication of CN110555209A publication Critical patent/CN110555209A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及深度学习领域,公开了一种训练词向量模型的方法及装置,其中,训练词向量模型的方法包括:获取第一信息,所述第一信息用于反映目标文本与上下文文本之间的关联程度;获取第二信息,所述第二信息用于反映目标文本之间的关联程度;根据所述第一信息和所述第二信息,对词向量模型进行训练,得到目标文本的词向量。本申请实施例的方法,弥补了大量未观察到的文本信息对的缺失统计信息,缓解共现矩阵极其稀疏的问题,有效提高词向量模型确定的词向量的准确度。

Description

训练词向量模型的方法及装置
技术领域
本申请涉及深度学习技术领域,具体而言,本申请涉及一种训练词向量模型的方法及装置。
背景技术
在机器学习技术中,为了使机器理解自然语言的含义,通过分布式表示模型,将自然语言中的单词、词语或句子等文本转换为相应的词向量,即将文本的语义编码为向量,以帮助机器理解自然语言。
现有词向量模型主要使用了分布假设,即每个文本的词向量可以根据其在文本中的出现的分布估计出来,例如基于神经网络的神经词向量模型,这类词向量模型显式地或隐式地使用了共现矩阵,比较典型的模型包括神经概率语言模型、带负采样的Skip-gram模型(Skip-gram with negative sampling,简称:SGNS)、CBOW模型(Continuous Bag-Of-Words,连续词袋)及各种变体模型。虽然这些词向量模型能够确定出文本的词向量,但是由于共现矩阵在统计时大量文本信息对的共现信息并没有统计出来,使得共现矩阵极其稀疏,导致在确定词向量的过程中,存在词向量准确度低的问题。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是词向量准确度低的技术缺陷。
第一方面,提供了一种训练词向量模型的方法,包括:
获取第一信息,所述第一信息用于反映目标文本与上下文文本之间的关联程度;
获取第二信息,所述第二信息用于反映目标文本之间的关联程度;
根据所述第一信息和所述第二信息,对词向量模型进行训练,得到目标文本的词向量。
第二方面,提供了一种任务处理方法,包括:
接收待处理文本,从词向量库中匹配得到所述待处理文本对应的词向量;
根据所述待处理文本对应的词向量,进行任务处理;
其中,所述词向量库中的词向量是根据前述的方法训练得到的。
第三方面,提供了一种训练词向量模型的装置,包括:
第一获取模块,用于获取第一信息,所述第一信息用于反映目标文本与上下文文本之间的关联程度;
第二获取模块,用于获取第二信息,所述第二信息用于反映目标文本之间的关联程度;
训练模块,用于根据所述第一信息和所述第二信息,对词向量模型进行训练,得到目标文本的词向量。
第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现前述方法。
第五方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述方法。
本申请实施例通过获取第一信息和第二信息,其中,第一信息用于反映目标文本与上下文文本之间的关联程度,第二信息用于反映目标文本之间的关联程度;再根据第一信息和第二信息,对词向量模型进行训练,得到目标文本的词向量,从而在一定程度上有效弥补了大量未观察到的文本信息对的缺失统计信息,缓解共现矩阵极其稀疏的问题,有效提高词向量模型训练的词向量的准确度。
本申请实施提供的任务处理方法,提高基于词向量进行任务处理时的准确度,例如文本词相似性计算、文本词类推及文本分类等文本操作。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的训练词向量模型的方法的流程示意图;
图2为本申请实施例的点互信息在不同词语之间的分布情况示意图;
图3为本申请实施例的训练词向量模型的装置的基本结构示意图;
图4为本申请实施例的训练词向量模型的装置的详细结构示意图;
图5为可用于实现本申请实施例公开的训练词向量模型的装置的计算系统的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
词向量是将语义、语法等信息编码为向量的技术,现有词向量模型主要使用了分布假设,即每个文本信息的词向量可以根据其在文本中的出现的分布估计出来。其中,一类词向量模型是基于矩阵分解的,这类词向量模型将包含统计数据的高维矩阵进行降维处理,生成低维的分布式表示。另一类是基于神经网络的神经词向量模型,这类词向量模型显式地或隐式地使用了共现矩阵,比较典型的模型包括神经概率语言模型、SGNS模型、CBOW模型及各种变体模型。
本申请实施例提供了一种训练词向量模型的方法,包括:
获取第一信息,第一信息用于反映目标文本与上下文文本之间的关联程度;
获取第二信息,第二信息用于反映目标文本之间的关联程度;
根据第一信息和第二信息,对词向量模型进行训练,得到目标文本的词向量。
本申请实施例通过获取第一信息和第二信息,其中,第一信息用于反映目标文本与上下文文本之间的关联程度,第二信息用于反映目标文本之间的关联程度;再根据第一信息和第二信息,对词向量模型进行训练,得到目标文本的词向量,从而在一定程度上有效弥补了大量未观察到的文本信息对的缺失统计信息,缓解共现矩阵极其稀疏的问题,有效提高词向量模型训练的词向量的准确度。
可选的,可以根据目标文本与上下文文本之间的关联程度,获取第二信息。换句话说,AB的关联程度可以通过AC和BC的关联程度得到。例如:获取任意两个目标文本分别与上下文文本之间的点互信息的分布重叠信息,作为第二信息。当然,也可以采用其他方法来获取第二信息,此处并不限定。
可选的,可以通过如下方式获取任意两个目标文本分别与上下文文本之间的点互信息的分布重叠信息:
确定任意两个目标文本分别对应的上下文文本集合,其中,任意两个目标文本与分别对应的上下文文本集合中的上下文文本之间的点互信息满足预定条件;其中,该预定条件可以为该点互信息大于定于阈值;
将任意两个目标文本分别对应的上下文文本集合的交集作为目标上下文文本集合;
获取任意两个目标文本分别与目标上下文文本集合中的上下文文本之间的点互信息的分布重叠信息。
可选的,获取所述任意两个目标文本分别与所述目标上下文文本集合中的上下文文本之间的点互信息的分布重叠信息的方式可以包括:
对于目标上下文文本集合中每个上下文文本,获取任意两个目标文本分别与该上下文文本之间的点互信息的映射量,并获取两个映射量中较小的映射量作为目标量;
根据各个目标量,得到分布重叠信息。
在下面的实施例中,第一信息具体可以为一阶共现信息,第二信息具体可以为二阶共现信息。
现有的绝大多数词向量模型都是基于一阶共现信息的,例如:一阶共现矩阵,具体来说,是对于文本库中出现的词语进行统计,例如,在目标词语字典与上下文词语字典相同的前提下,那么共现矩阵是一个10万行10万列的二维矩阵,其中第i行第j列的值表示了词语i与词语j的共现统计,即词语i与词语j共同出现在文本中的次数,行所代表的词语称为目标词,列所代表的词语称为上下文词,词i和词j构成了一组共现词对。但是由于共现矩阵极其稀疏,大量未观察到的词对缺少相关统计信息,导致现有词向量模型对低频词建模不够好,进而导致在确定词向量的过程中,存在词向量准确度低的问题。
虽然现有的解决方案包括对未共现词对进行惩罚、利用分布式推理估计缺失统计信息及通过最近邻的方法估计缺失统计信息等,但是惩罚未共现词对的方法忽视了部分潜在的共现关系,而利用分布式推理估计缺失统计信息的方法及通过最近邻的方法估计缺失统计信息的方法,并不是针对神经词向量设计的。
本申请提供的训练词向量模型的方法、确定词向量的方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
本申请实施例可以通过以下步骤来解决现有技术的如上技术问题,其中,步骤1:统计文本库中的文本信息之间的共现统计信息,该共现统计信息可以记作一阶共现信息,文本信息包含目标文本及上下文文本;步骤2:根据一阶共现信息计算上下文重叠量,即计算任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息,该上下文文本属于所述任两个目标文本分别对应的上下文文本集合合之间的交集,该分布重叠信息可以记作二阶共现信息;步骤3:利用一阶共现信息、二阶共现信息联合训练词向量模型,例如GloVe模型、Swivel模型等;步骤4:在词相似性计算、词类推及文本分类等相关任务上测试训练得到的GloVe模型及训练得到的Swivel模型的性能。针对上述步骤的具体描述详见下述实施例。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
本申请实施例提供了一种训练词向量模型的方法,如图1所示,包括:
步骤S110:获取文本库中的文本信息的统计信息,文本信息包含目标文本及上下文文本。具体地,文本库中的文本信息可以是自然语言中的单词、词语或n-gram等,本申请不对其作限定。该统计信息为一阶共现信息,具体可以是一个共现矩阵。
进一步地,字典中词汇的个数可以为5万个、10万个、20万个等,当字典中词汇的个数为10万个时,这10万个词汇会构成一个10万行10万列的二维矩阵,其中,第i行第j列的值表示了词汇i与词汇j的共现统计,即词汇i与词汇j共同出现在文本中的次数,行所代表的词汇称为目标文本,列所代表的词汇称为上下文文本,词汇i和词汇j构成了一组共现文本对。
步骤S120:获取任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息,该上下文文本属于任两个目标文本分别对应的上下文文本集合之间的交集。
该分布重叠信息为二阶共现信息。
具体地,点互信息PMI(Point-wise Mutual Information)的重叠在一定程度上反映了上下文文本重叠的观察实现,在自然语言处理中,点互信息作为一种词语关联的评价函数广泛用于各种模型之中。点互信息定义了两个随机变量发生的联系程度,其公式定义如下:
其中,PMI(i,j)表示目标文本i与上下文文本j的点互信息,P(i,j)表示词i与词j的共现概率,P(i)、P(j)分别表示词i、词j的出现概率。Xij表示目标文本i与上下文文本j的共现统计值,Xi*、X*j是共现统计的边界值,分别对应在共现矩阵中目标文本i所代表的行的元素值的总和及上下文文本j所代表的列的元素值的总和,|X|是共现矩阵中所有元素的总和。
步骤S130:根据统计信息与点互信息的分布重叠信息,对词向量模型进行训练。
本申请实施例提供的训练词向量模型的方法,与现有技术相比,获取文本库中的文本信息的统计信息,文本信息包含目标文本及上下文文本,为后续基于目标损失函数,对预设词向量模型进行训练奠定基础;获取任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息,上下文文本属于任两个目标文本分别对应的上下文文本集合之间的交集,从而通过在一定程度上反映语义的相关度和上下文的重叠关系的点互信息的分布重叠信息,有效弥补了大量未观察到的文本信息对的缺失统计信息,缓解共现矩阵极其稀疏的问题;根据统计信息与点互信息的分布重叠信息,对词向量模型进行训练,有效提高词向量模型在确定词向量的过程中的准确度。
实施例二
本申请实施例提供了另一种可能的实现方式,在实施例一的基础上,还包括实施例二所示的方法,其中,
步骤S130可以包括步骤1301(步骤未标注):将统计信息与点互信息的分布重叠信息作为训练数据,基于目标损失函数,对预设词向量确定模型进行训练。
此时是联合训练,即,根据一阶共现信息,基于第一损失函数,得到第一损失量;根据二阶共现信息,基于第二损失函数,得到第二损失量;根据第一损失量和第二损失量,对词向量模型进行训练。
在步骤S130之前还包括步骤S111(图中未标注):基于点互信息的分布重叠信息,确定目标损失函数。
具体地,当词向量模型为GloVe模型时,基于点互信息的分布重叠信息,确定目标损失函数,包括:
基于任一目标文本与该目标文本的上下文文本之间的共现统计值、该任一目标文本的偏置值、该任一目标文本的上下文文本的偏置值、该任一目标文本的词向量、该任一目标文本的上下文文本的词向量以及第一预设权重函数,确定第一损失函数;
基于任两个目标文本分别与任一上下文文本之间的点互信息的分布重叠信息、该任两个目标文本分别对应的偏置值、第一预设标量、该任两个目标文本分别对应的词向量以及第二预设权重函数,确定第二损失函数基于第一损失函数与第二损失函数,确定目标损失函数。
对于本申请实施例,上述的GloVe模型为基于全局信息的词向量模型,其不仅充分利用了语料库的全局统计信息,而且也使用了局部的上下文特征。
进一步地,当词向量模型为Swivel模型时,基于点互信息的分布重叠信息,确定第二损失函数,包括:
当基于任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息大于0时,根据由共现矩阵计算得到的任两个目标文本之间的点互信息、第二预设标量、第三预设标量、该任两个目标文本分别对应的词向量以及第三预设权重函数,确定第二损失函数;共现矩阵是根据任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息确定出的。
示例的,假如上述的文本信息为自然语言中的词,则目标文本即为目标词,上下文文本即为上下文词。此时GloVe模型通过对取对数的词共现矩阵做分解训练得到词向量,其中,GloVe模型的原始损失函数(即本申请中的第一损失函数)包括目标词和上下文词的词向量的内积,目标词和上下文词对应的偏置项,以及权重函数,具体可以用如下公式(2)表示:
其中,Xij表示目标词i与上下文词j的共现统计值,bi、bj分别表示目标词i与上下文词j的偏置值,wi、wj分别表示需要学习得到的目标词i和上下文词j的词向量,表示目标词和上下文词的词向量的内积,权重函数λij等于(min(Xij,xmax)/xmax)α,xmax与α是超参数。也即第一损失函数是基于任一目标文本与该目标文本的上下文文本之间的共现统计值、该任一目标文本的偏置值、该任一目标文本的上下文文本的偏置值、该任一目标文本的词向量、该任一目标文本的上下文文本的词向量以及第一预设权重函数确定得到的,其中文本信息具体为词。
进一步地,为了对GloVe模型进行扩展,两个任务被并行地训练,一个是主任务,即遵循GloVe模型的原始损失函数(即本申请中的第一损失函数)对GloVe模型进行训练,原始损失函数具体请见上述公式(2),在此不再赘述。另一个是辅助任务,其使用基于任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息、该任两个目标文本分别对应的偏置值、第一预设标量、该任两个目标文本分别对应的词向量以及第二预设权重函数确定得到的第二损失函数,对GloVe模型进行训练。其中,两个任务中的词向量参数是共享的。
进一步地,在辅助任务中,第二损失函数中的词向量的内积用来对对数分布重叠信息进行拟合,具体可以用如下公式(3)表示:
其中,上标(2)用以与原始损失函数区分,表示目标词i、j在各自上下文集合的交集上的点互信息的分布重叠信息,即目标词i、j分别与任一上下文词之间的点互信息的分布重叠信息,且该任一上下文词为目标词i、j分别对应的上下文集的交集中的词,表示词向量的内积,A为一个与词语无关的可训练的标量,引入标量A可以缓解可能的共现统计值与分布重叠信息不一致现象,权重函数与GloVe模型的原始损失函数中的权重函数类似,只是使用了不同的超参数xmax。需要注意的是,由于分布重叠信息发生在目标词之间,这里使用目标词i、j对应的词向量的内积对对数分布重叠信息进行估计。
进一步地,可以基于第一损失函数与第二损失函数,确定出GloVe模型的目标损失函数,并基于该目标损失函数对GloVe模型进行训练,其中,目标损失函数可以为第一损失函数与第二损失函数的加权和,具体可以用于如下公式(4)表示:
其中,β为超参数。
进一步地,如果将GloVe模型中的偏置值固定为对应目标词和上下文词的对数词频值,那么目标词和上下文词的词向量的内积大致等于对其对数点互信息位移log∑i,jXij的值的估计。
进一步地,Swivel模型在重构共现统计值的点互信息矩阵时,使用“soft hinge”损失函数对未观察到的词对共现进行了特殊处理,其中,该目标损失函数具体为如下公式(5)所示:
其中,当词i、词j的共现次数大于零时,损失函数 利用目标词和上下文词的词向量的内积拟合这两个词的点互信息pmi(i;j),f(xij)是权重函数;当词i、词j没有观察到共现时,使用这一损失函数防止过度拟合缺失的点互信息,即在计算过程中,将词i、词j的共现次数强制置1,上式中的pmi*(i;j)是缺省的点互信息。
进一步地,由于Swivel模型的损失函数没有考虑目标词i、j的点互信息的分布重叠信息,本申请中在充分考虑目标词i、j的点互信息的分布重叠信息的情况下,为Swivel模型的损失函数补充存在目标词i、j的点互信息的分布重叠信息时所对应的损失函数,以处理点互信息的分布重叠信息,其中,补充的损失函数可以如公式(6)所示:
其中,在上述补充的损失函数中,当点互信息的分布重叠信息大于零时,上下文重叠的点互信息PMI(2)(i,j)被拟合,A和B都是与词语无关的可训练标量,其目的与对GloVe的扩展中的标量相同,PMI(2)(i,j)是在共现矩阵上计算得到的点互信息值,共现矩阵是根据任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息确定出的。也即,当基于任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息大于0时,根据由共现矩阵计算得到的任两个目标文本之间的点互信息、第二预设标量、第三预设标量、该任两个目标文本分别对应的词向量以及第三预设权重函数,确定Swivel模型的目标损失函数,共现矩阵是根据任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息确定出的。
进一步地,Swivel模型的补充完整的损失函数,可以用如下公式(7)表示:
对于本申请实施例,损失函数包括一定程度上反映语义的相关度和上下文的重叠关系的点互信息的分布重叠信息,有效弥补大量未观察到的文本信息对的缺失统计信息,解决了共现矩阵极其稀疏的问题。
实施例三
本申请实施例提供了另一种可能的实现方式,在实施例二的基础上,还包括实施例三所示的方法,其中,
步骤S120可以包括步骤S1201(图中未标注)、步骤S1202(图中未标注)、步骤S1203(图中未标注)及步骤S1204(图中未标注),其中,
步骤S1201:确定各个目标文本分别对应的上下文文本集合;
步骤S1202:根据各上下文文本集合,确定任两个上下文文本集合之间的交集;
步骤S1203:根据确定得到的任两个上下文文本集合之间的交集,确定各个目标文本分别与该交集中的上下文文本之间的点互信息;
步骤S1204:根据确定得到的各个目标文本分别与该交集之间的点互信息,确定分布重叠信息,并获取确定得到的分布重叠信息。
具体地,确定任一目标文本对应的上下文文本集合,具体可以包括:
将点互信息大于预设阈值的目标文本的上下文文本,确定为该任一目标文本对应的上下文文本集合中的元素;
将包含确定出的各个元素的集合,作为该任一目标文本对应的上下文文本集合。
进一步地,图2以目标词对“家庭”、“夫妻”及目标词对“毕业”、“继承”为例,示出了点互信息在不同词语之间的分布重叠情况。图中横坐标对应于所有上下文词语,纵轴对应于目标词语与上下文词语的点互信息,图2(a)展示了两个语义相关的词对的点互信息重叠情况,可以看到点互信息有较大的重叠面积,图2(b)展示了两个语义相关性相对较小的词语对的点互信息重叠情况,可以看出点互信息的重叠面积相对要小很多。
进一步地,通过图2可以看出,点互信息的重叠情况在一定程度上反映了语义的相关度和上下文的重叠关系。
进一步地,由于通过点互信息计算完整的上下文重叠,在时间复杂度上难以承受,因此为了降低其时间复杂度,本申请实施例中仅考虑与目标词语有强相关性的上下文词语,这使得上下文重叠的计算在时间上变得可行,具体可以通过如下公式(8)实现。
Si={k∈V|PMI(i,k)>hPMI} (8)
其中,V表示共现矩阵所有列元素组成的上下文词语的词典,hPMI表示预设阈值,其起到位移点互信息矩阵的作用,集合Si表示与目标词i足够相关的上下文构成的集合。也即将点互信息大于预设阈值的目标文本的上下文文本,确定为该任一目标文本对应的上下文文本集合中的元素,并将包含确定出的各个元素的集合,作为该任一目标文本对应的上下文文本集合,其中,文本信息可以为词、词语及句子等。
进一步地,由于希望关于目标词i的绝大多数的上下文词可以被在集合Si中的上下文词语捕捉到,于是本申请实施例中可以通过目标词i、j在各自主要上下文集合Si与Sj的交集上的点互信息值的函数CO(i,j)表示其分布重叠信息,即目标词i、j在各自主要上下文集合Si与Sj的交集上的点互信息值的分布重叠信息可以通过函数CO(i,j)的计算公式得到,其中,CO(i,j)的计算公式如公式(9)所示:
其中,词语k是目标词语i、j分别对应的上下文词集合Si与Sj的交集中的词语,该公式计算了关于词语i、j的点互信息的分布重叠信息的函数,函数f(x)为一个单调的映射函数,用来针对特定的词向量训练目标函数修正数据的特征。需要说明的是,与恒等函数f(x)=x相比,指数函数f(x)=exp(x)在实验中表现出更好的效果,这可能是指数函数使得量化的上下文重叠产生了与共现统计数相似的数据分布,即少数词对拥有极大的值,绝大多数词对的值集中分布在一个相对较小的区间内,因此,本申请实施例中采用指数函数f(x)=exp(x),即本申请实施例中使用的是非对数点互信息加权的上下文重叠信息。此外,上下文重叠的好处是即使两个词语没有在数据集中共现,其上下文重叠信息也可能被估计出来,于是由以上公式量化的上下文重叠信息即为上述的点互信息值的分布重叠信息。
另外,根据实验统计发现,根据任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息确定出的共现矩阵中的84%的词对,没有出现在根据共现统计值确定出的共现矩阵中,通过该84%的词可以在一定程度上缓解数据稀疏的问题。
实施例四
本申请实施例提供了一种任务处理的方法,包括:
接收待处理文本,从词向量库中匹配得到待处理文本对应的词向量;
根据待处理文本对应的词向量,进行任务处理。
其中词向量库中的词向量是根据前述的方法训练得到的
进一步地,本申请实施例给出了通过训练后的词向量模型,例如上述训练后的GloVe模型与训练后的Swivel模型,进行基于词向量的词相似性计算、文本词类推及文本分类等文本操作任务时,明显提高了基于词向量进行的上述文本操作任务的准确度。
进一步地,本申请实施例以词相似性测试集WS353、SL99、SCWS、RW、MEN与MT771为例,同时以一个按照语义和语法分开的词类推任务数据集为例,具体给出了原始GloVe模型(记作GloVe)、本申请实施例训练得到的GloVe模型(记作GloVe+CO)、SGNS模型、原始Swivel模型(记作Swivel)以及本申请实施例训练得到的Swivel模型(记作Swivel+CO),在词相似性与词类推任务上的准确度的测试结果,如表1所示:
表1词相似性与词类推任务的测试结果
可以看出,本申请实施例训练得到的GloVe模型与原始GloVe模型相比,增加了词相似性计算及词类推的准确度,同时本申请实施例训练得到的Swivel模型与原始Swivel模型相比,也增加了词相似性计算及词类推的准确度。
进一步地,本申请实施例以词相似性测试集CR、MR、SSTI、Subj及TREC为例,具体给出了原始GloVe模型(记作GloVe)、本申请实施例训练得到的GloVe模型(记作GloVe+CO)、SGNS模型、原始Swivel模型(记作Swivel)、本申请实施例训练得到的Swivel模型(记作Swivel+CO)以及CBOW模型,在文本分类任务上的准确度的测试结果,如表2所示:
表2文本分类的测试结果
方法 CR MR SSTI Subj TREC
GloVe 80.9 76.5 46.9 90.9 89.7
GloVe+CO 81.7 76.4 47.6 91.4 90.2
Swivel 81.7 76.7 47.9 91.4 90.4
Swivel+CO 82.4 76.7 48.3 91.7 90.5
CBOW 80.6 75.3 46.5 89.8 89.6
SGNS 81.6 77.0 48.0 91.2 90.6
可以看出,本申请实施例训练得到的GloVe模型与原始GloVe模型相比,增加了文本分类的准确度,同时本申请实施例训练得到的Swivel模型与原始Swivel模型相比,也增加了文本分类的准确度。
本申请实施例提供的任务处理方法,与现有技术相比,将初始词向量输入词向量模型中,得到目标词向量,其中,词向量模型根据文本库中的文本信息的统计信息与点互信息的分布重叠信息进行训练得到,点互信息的分布重叠信息为任两个目标文本分别与上下文文本之间的点互信息的分布重叠信息,文本信息包含目标文本及上下文文本,从而通过训练后的词向量模型,得到准确度更高的词向量,进而提高后续基于词向量进行的其它文本操作的准确度,例如文本词相似性计算、文本词类推及文本分类等文本操作。
实施例五
本申请实施例还提供了一种训练词向量模型的装置,包括:
第一获取模块,用于获取第一信息,第一信息用于反映目标文本与上下文文本之间的关联程度;
第二获取模块,用于获取第二信息,第二信息用于反映目标文本之间的关联程度;
训练模块,用于根据第一信息和第二信息,对词向量模型进行训练,得到目标文本的词向量。
该装置可以用于执行前述任一训练词向量模型的方法实施例的方法。
在下面的实施例中,第一信息具体可以为一阶共现信息,第二信息具体可以为二阶共现信息。
图3为本申请实施例提供的一种训练词向量模型的装置的基本结构示意图,如图3所示,该装置30可以包括:第一获取模块31、第二获取模型32与训练模块33,其中,
第一获取模块31用于获取第一信息,第一信息用于反映目标文本与上下文文本之间的关联程度;
第二获取模块32用于获取第二信息,第二信息用于反映目标文本之间的关联程度。
训练模块33用于根据第一信息和第二信息,对词向量模型进行训练,得到目标文本的词向量。
进一步地,第二获取模块32具体用于根据目标文本与上下文文本之间的关联程度,获取第二信息。
进一步地,当上述第一信息为一阶共现信息时,第二获取模块32具体用于获取任意两个目标文本分别与上下文文本之间的点互信息的分布重叠信息,作为第二信息。
进一步地,第二获取模块32包括第一确定子模块321、第二确定子模块322与分布重叠信息获取子模块323,如图4所示,其中,
第一确定子模块321,用于确定任意两个目标文本分别对应的上下文文本集合,其中,任意两个目标文本与分别对应的上下文文本集合中的上下文文本之间的点互信息满足预定条件;
第二确定子模块322,用于将任意两个目标文本分别对应的上下文文本集合的交集作为目标上下文文本集合;
分布重叠信息获取子模块323,用于获取任意两个目标文本分别与目标上下文文本集合中的上下文文本之间的点互信息的分布重叠信息。
进一步地,预定条件为任意两个目标文本与分别对应的上下文文本集合中的上下文文本之间的点互信息大于预定阈值。
进一步地,分布重叠信息获取子模块323具体用于对于目标上下文文本集合中每个上下文文本,获取任意两个目标文本分别与该上下文文本之间的点互信息的映射量,并获取两个映射量中较小的映射量作为目标量;以及用于根据各个目标量,得到分布重叠信息。
本申请实施例提供的装置,与现有技术相比,通过获取第一信息和第二信息,其中,第一信息用于反映目标文本与上下文文本之间的关联程度,第二信息用于反映目标文本之间的关联程度;再根据第一信息和第二信息,对词向量模型进行训练,得到目标文本的词向量,从而在一定程度上有效弥补了大量未观察到的文本信息对的缺失统计信息,缓解共现矩阵极其稀疏的问题,有效提高词向量模型训练的词向量的准确度。
实施例六
本申请实施例提供了一种电子设备,如图5所示,包括:处理器;以及存储器,配置用于存储机器可读指令,指令在由处理器执行时,使得处理器执行上述的训练词向量模型的方法或任务处理的方法。
图5示意性示出了根据本公开实施例的可用于实现本申请的训练词向量模型的设备或任务处理的设备的计算系统的框图。
如图5所示,计算系统600包括处理器610、计算机可读存储介质620、输出接口630、以及输入接口640。该计算系统600可以执行上面参考图1描述的方法。
具体地,处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行参考图1描述的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质620,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
计算机可读存储介质620可以包括计算机程序,该计算机程序可以包括代码/计算机可执行指令,其在由处理器610执行时使得处理器610执行例如上面结合图1所描述的方法流程及其任何变形。
计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序中的代码可以包括一个或多个程序模块,例如包括模块1、模块2、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器610执行时,使得处理器610可以执行例如上面结合图1所描述的方法流程及其任何变形。
根据本公开的实施例,处理器610可以使用输出接口630和输入接口640来执行上面结合图1所描述的方法流程及其任何变形。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种训练词向量模型的方法,其特征在于,包括:
获取第一信息,所述第一信息用于反映目标文本与上下文文本之间的关联程度;
获取第二信息,所述第二信息用于反映目标文本之间的关联程度;
根据所述第一信息和所述第二信息,对词向量模型进行训练,得到目标文本的词向量。
2.根据权利要求1所述的方法,其特征在于,所述获取第二信息包括:
根据目标文本与上下文文本之间的关联程度,获取第二信息。
3.根据权利要求1或2所述的方法,其特征在于,所述第一信息为一阶共现信息,所述获取第二信息包括:
获取任意两个目标文本分别与所述上下文文本之间的点互信息的分布重叠信息,作为所述第二信息。
4.根据权利要求3所述的方法,其特征在于,所述获取任意两个目标文本分别与所述上下文文本之间的点互信息的分布重叠信息,包括:
确定所述任意两个目标文本分别对应的上下文文本集合,其中,所述任意两个目标文本与分别对应的上下文文本集合中的上下文文本之间的点互信息满足预定条件;
将所述任意两个目标文本分别对应的上下文文本集合的交集作为目标上下文文本集合;
获取所述任意两个目标文本分别与所述目标上下文文本集合中的上下文文本之间的点互信息的分布重叠信息。
5.根据权利要求4所述的方法,其特征在于,所述预定条件为所述任意两个目标文本与分别对应的上下文文本集合中的上下文文本之间的点互信息大于预定阈值。
6.根据权利要求4或5所述的方法,其特征在于,所述获取所述任意两个目标文本分别与所述目标上下文文本集合中的上下文文本之间的点互信息的分布重叠信息包括:
对于所述目标上下文文本集合中每个上下文文本,获取所述任意两个目标文本分别与该上下文文本之间的点互信息的映射量,并获取两个映射量中较小的映射量作为目标量;
根据各个目标量,得到所述分布重叠信息。
7.一种任务处理方法,其特征在于,包括:
接收待处理文本,从词向量库中匹配得到所述待处理文本对应的词向量;
根据所述待处理文本对应的词向量,进行任务处理;
其中,所述词向量库中的词向量是根据权利要求1-6任一所述的方法训练得到的。
8.一种训练词向量模型的装置,其特征在于,包括:
第一获取模块,用于获取第一信息,所述第一信息用于反映目标文本与上下文文本之间的关联程度;
第二获取模块,用于获取第二信息,所述第二信息用于反映目标文本之间的关联程度;
训练模块,用于根据所述第一信息和所述第二信息,对词向量模型进行训练,得到目标文本的词向量。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-7任一项所述的方法。
CN201810687680.7A 2018-05-30 2018-06-28 训练词向量模型的方法及装置 Pending CN110555209A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810541429X 2018-05-30
CN201810541429 2018-05-30

Publications (1)

Publication Number Publication Date
CN110555209A true CN110555209A (zh) 2019-12-10

Family

ID=68736155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810687680.7A Pending CN110555209A (zh) 2018-05-30 2018-06-28 训练词向量模型的方法及装置

Country Status (1)

Country Link
CN (1) CN110555209A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084301A (zh) * 2020-08-11 2020-12-15 网易有道信息技术(北京)有限公司 文本修正模型的训练方法及装置、文本修正方法及装置
CN116501867A (zh) * 2023-03-29 2023-07-28 北京数美时代科技有限公司 基于互信息的变体知识掌握度检测方法、系统和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084301A (zh) * 2020-08-11 2020-12-15 网易有道信息技术(北京)有限公司 文本修正模型的训练方法及装置、文本修正方法及装置
CN112084301B (zh) * 2020-08-11 2023-12-15 网易有道信息技术(北京)有限公司 文本修正模型的训练方法及装置、文本修正方法及装置
CN116501867A (zh) * 2023-03-29 2023-07-28 北京数美时代科技有限公司 基于互信息的变体知识掌握度检测方法、系统和存储介质
CN116501867B (zh) * 2023-03-29 2023-09-12 北京数美时代科技有限公司 基于互信息的变体知识掌握度检测方法、系统和存储介质

Similar Documents

Publication Publication Date Title
US11163947B2 (en) Methods and systems for multi-label classification of text data
CN111538908B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN108595706B (zh) 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
US9846840B1 (en) Semantic class localization in images
Jia et al. Label distribution learning with label correlations on local samples
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
WO2015165372A1 (en) Method and apparatus for classifying object based on social networking service, and storage medium
US11182559B2 (en) System and method for natural language processing
CN110781686B (zh) 一种语句相似度计算方法、装置及计算机设备
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
Estevez-Velarde et al. AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
Liu et al. Scaling up probabilistic circuits by latent variable distillation
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
CN113850373B (zh) 一种基于类别的滤波器剪枝方法
CN110555209A (zh) 训练词向量模型的方法及装置
Lauren et al. A low-dimensional vector representation for words using an extreme learning machine
Azzam et al. A question routing technique using deep neural network for communities of question answering
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
Yang et al. Multi-intent text classification using dual channel convolutional neural network
Ko et al. Deep model compression and inference speedup of sum–product networks on tensor trains
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备
Jayashree et al. Evaluation of deep Gaussian processes for text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191210