CN107102981A - 词向量生成方法和装置 - Google Patents
词向量生成方法和装置 Download PDFInfo
- Publication number
- CN107102981A CN107102981A CN201610095987.9A CN201610095987A CN107102981A CN 107102981 A CN107102981 A CN 107102981A CN 201610095987 A CN201610095987 A CN 201610095987A CN 107102981 A CN107102981 A CN 107102981A
- Authority
- CN
- China
- Prior art keywords
- word
- newly
- language material
- increased
- huffman
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明涉及一种词向量生成方法和装置,所述方法包括:获取根据旧语料库生成词向量时所生成的已训练哈夫曼树;获取相对于所述旧语料库的新增语料库;将所述新增语料库中的语料进行分词处理,获得相应的新增语料词集合;将所述新增语料词集合中的词按照词频从高到低的顺序排序,获得新增语料词序列;对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径;根据选择的哈夫曼路径生成所述新增语料词序列中词的词向量。本发明提供的词向量生成方法和装置,提高了生成词向量的效率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种词向量生成方法和装置。
背景技术
随着计算机应用领域的不断扩大,自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。自然语言理解的问题要转化为机器学习的问题,首先要找一种方法把自然语言数学化。
目前,在处理自然语言任务时,最常用的文本表示方法,是把每个文本表示为一个很长的向量,这个向量的维度是词表大小,向量的每个维度就代表某个特定的词。对于单个词而言,只有在某个特定维度有值,在其它维度的值均为0。但这种文本表示方法有两个缺点:(1)容易受维度灾难的困扰,尤其是应用于深度学习的一些算法时;(2)不能很好地描述词与词之间的相似性,也就是存在“词汇鸿沟”的问题。
目前存在另一种文本表示方法称为Distributed Representation(分布式表达),这种文本表示方法是通过训练将自然语言中的每一个词映射成一个固定长度的向量,将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断词之间的相似性了。在进行文本进行表示时,直接用词的向量取代词本身来表示文本,该方法在处理文本任务特别是短文本任务时,是一种非常有效的文本表示方法。
Word2Vec是一种词的Distributed Representation技术,即把所有词投影到一定维度的语义空间上,每个词可以简单表示为多维空间上的一个点,而空间维度可以自定义,一般设置100~200维(Word2Vec默认是100维),维度越大训练越复杂,经过训练后,一个词可能会被表示成类似{0.159,-0.234,0.789,-0.578,-0.501,0.921,0.374,...}这样的向量。直观理解,Word2Vec方法是希望通过一些技术手段,把一些语义相近的词投影到多维空间后,使得相似的词在高维空间上位置相邻。Word2Vec生成的词向量用于文本挖掘特别是短文本挖掘的一些领域,能够取得非常不错的效果。
然而,Word2Vec现有的训练技术,只能支持一次性训练。如果有新增语料,需要将新增语料加入到全局语料中,再基于新的全局语料重新进行训练,重新训练需要更多的计算和时间资源,因此获得词向量的效率低下。
发明内容
基于此,有必要针对目前有新增语料时,每次都需要重新进行训练导致的获取词向量效率低下的问题,提供一种词向量生成方法和装置。
一种词向量生成方法,所述方法包括:
获取根据旧语料库生成词向量时所生成的已训练哈夫曼树;
获取相对于所述旧语料库的新增语料库;
将所述新增语料库中的语料进行分词处理,获得相应的新增语料词集合;
将所述新增语料词集合中的词按照词频从高到低的顺序排序,获得新增语料词序列;
对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径;
根据选择的哈夫曼路径生成所述新增语料词序列中词的词向量。
一种词向量生成装置,所述装置包括:
已训练哈夫曼树获取模块,用于获取根据旧语料库生成词向量时所生成的已训练哈夫曼树;
新增语料库获取模块,用于获取相对于所述旧语料库的新增语料库;
分词模块,用于将所述新增语料库中的语料进行分词处理,获得相应的新增语料词集合;
新增语料词排序模块,用于将所述新增语料词集合中的词按照词频从高到低的顺序排序,获得新增语料词序列;
哈夫曼路径选择模块,用于对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径;
词向量生成模块,用于根据选择的哈夫曼路径生成所述新增语料词序列中词的词向量。
上述词向量生成方法和装置,保留根据旧语料库生成词向量时所生成的已训练哈夫曼树,当存在新增语料库时,对新增语料库中的语料进行分词处理,获得新增语料词集合,对新增语料词集合按照词频从高到低排序,获得新增语料词序列。而已训练哈夫曼树中的路径本身基本是以旧语料库中词的词频为基础组织的,这样对于所述新增语料词序列中不存在于旧语料库的新词,根据新增语料词序列中新词的位置从已训练哈夫曼树中选择的哈夫曼路径,是与新增语料词序列中新词位置相似的词的哈夫曼路径,从而基于位置相似词的哈夫曼路径继续训练来生成新增语料词序列中词的词向量。这样当存在新增语料库时,不需要将其合并到旧语料库后重新开始训练,而是基于已训练哈夫曼树和新增语料库进行增量式训练,提高了生成词向量的效率。
附图说明
图1为一个实施例中用于实现词向量生成方法的电子设备的结构示意图;
图2为一个实施例中词向量生成方法的流程示意图;
图3为一个实施例中对于新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径的步骤的流程示意图;
图4为一个实施例中伪哈夫曼树的数据结构示意图;
图5为一个实施例中根据新增语料词序列中词的位置在旧语料词序列中查找相同或相似位置处的词的步骤的流程示意图;
图6为一个实施例中将旧语料词序列中的词按照相应的词频依次投影到固定长度单位的示意图;
图7为一个实施例中根据选择的哈夫曼路径生成新增语料词序列中词的词向量的步骤的流程示意图;
图8为一个实施例中词向量生成装置的结构框图;
图9为另一个实施例中词向量生成装置的结构框图;
图10为一个实施例中哈夫曼路径选择模块的结构框图;
图11为一个实施例中词查找模块的结构框图;
图12为再一个实施例中词向量生成装置的结构框图;
图13为一个实施例中词向量生成模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种电子设备,包括通过系统总线连接的处理器、非易失性存储介质和内存储器。其中处理器具有计算功能和控制该电子设备工作的功能,该处理器被配置为执行一种词向量生成方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种,非易失性存储介质存储有操作系统和词向量生成装置。该词向量生成装置用于实现一种词向量生成方法。
如图2所示,在一个实施例中,提供了一种词向量生成方法,本实施例以该方法应用于上述图1中的电子设备来举例说明。该方法具体包括如下步骤:
步骤202,获取根据旧语料库生成词向量时所生成的已训练哈夫曼树。
其中旧语料库是指自然语言的片段构成的集合,一般以句子为单位,句子可以组成段落。句子是一个或多个词组成的具有语义的词序列。根据旧语料库训练词向量时可采用Word2Vec工具。
根据旧语料库生成词向量时可采用类似神经网络的词向量模型,依次包括输入层、隐含层和输出层。输入输入层的是若干词向量,输入隐含层的是这些若干词向量的累加和向量,隐含层是一棵哈夫曼树上从根节点到叶子节点的路径上所有的非叶子节点,输出层则是该哈夫曼树的叶子节点,将词向量模型训练完成后获得的哈夫曼树便是已训练哈夫曼树。词向量模型是用于将词语投影到一个高维的语义空间里面去,将词表示为词向量。
已训练哈夫曼树是一个二叉树,每个叶子节点代表旧语料库的旧语料词集合中的一个词,每个叶子节点对应一个词向量,已训练哈夫曼树的所有叶子节点所代表的词便构成了旧语料库的旧语料词集合。已训练哈夫曼树的每个非叶子节点也对应一个向量,该向量不是词向量,而是一组权重参数,这组权重参数主要用于二分类。输入词向量模型的词向量与词向量模型最终输出的词向量一般是不同的词,但在语义上存在关联。
步骤204,获取相对于旧语料库的新增语料库。
其中,新增语料库是相对于旧语料库所新增的语料的集合,新增语料库并不要求与旧语料库完全不同,允许存在相同的词甚至相同的句子。旧语料库可以是广泛的各领域的语料构成的集合,新语料库可以是专业领域的语料;旧语料库可以包括已有的UGC(User Generated Content,用户原创内容),而新增语料库则可以是相对于已有的UGC所新增的UGC。
步骤206,将新增语料库中的语料进行分词处理,获得相应的新增语料词集合。
具体地,分词处理是指将一个自然语言文字序列切分成一个个单独的词的处理过程,这里的词可以是单字也可以由两个以上的字构成,每个词可独立表达语义。获得的新增语料词集合中的词不重复,可将新增语料库中的语料进行分词处理切分出单独的词之后进行去重处理,以获得新增语料词集合。分词处理可以采用字符匹配分词方式、语义分析分词方式和基于统计的分词方式,其中字符匹配分词方式又可以采用正向最大匹配分词方式、逆向最大匹配分词方式、最少切分分词方式以及双向最大匹配分词方式等。
步骤208,将新增语料词集合中的词按照词频从高到低的顺序排序,获得新增语料词序列。
具体地,电子设备可统计新增语料词集合中的各个词相对于新增语料库的词频,从而按照统计的词频从高到低的顺序对新增语料词集合中的词进排序,排序后的词构成新增语料词序列。新增语料词集合中的各个词相对于新增语料库的词频,可以直接用新增语料词集合中的词在新增语料库中出现的次数表示。
步骤210,对于新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径。
具体地,电子设备可逐个地对新增语料库中切分出的词进行处理,对于当前处理的词,可根据当前处理的词在新增语料词序列中的位置,在已训练哈夫曼树中选择与当前处理的词位置最相似的词的哈夫曼路径。在已训练哈夫曼树中,从根节点到一个叶子节点的路径称为哈夫曼路径。
步骤212,根据选择的哈夫曼路径生成新增语料词序列中词的词向量。
具体地,选择的哈夫曼路径可视为与相应的新增语料词序列中词位置相似的词的哈夫曼路径,基于该哈夫曼路径,便可以在已训练哈夫曼树基础上进行增量式的训练,获得新增语料词序列中相应词的词向量。生成的词向量可以用来表达词,从而可以进一步用于自然语言的处理,比如对文本特别是短文本进行分类或者计算文章之间的相似度等。词之间的相似度可以用相应的词向量之间的余弦相似度来表示。
上述词向量生成方法,保留根据旧语料库生成词向量时所生成的已训练哈夫曼树,当存在新增语料库时,对新增语料库中的语料进行分词处理,获得新增语料词集合,对新增语料词集合按照词频从高到低排序,获得新增语料词序列。而已训练哈夫曼树中的路径本身基本是以旧语料库中词的词频为基础组织的,这样对于所述新增语料词序列中不存在于旧语料库的新词,根据新增语料词序列中新词的位置从已训练哈夫曼树中选择的哈夫曼路径,是与新增语料词序列中新词位置相似的词的哈夫曼路径,从而基于位置相似词的哈夫曼路径继续训练来生成新增语料词序列中词的词向量。这样当存在新增语料库时,不需要将其合并到旧语料库后重新开始训练,而是基于已训练哈夫曼树和新增语料库进行增量式训练,提高了生成词向量的效率。
在一个实施例中,该词向量生成方法还包括:当新增语料库中的句子数小于预设句子数阈值或者新增语料词集合中的词数量小于预设词数量阈值时,从已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径。
具体地,电子设备可在步骤202之前,判断新增语料库中的句子数是否小于预设句子数阈值,若判断为否,则执行步骤202至步骤212;若判断为是,则从已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径。电子设备也可以在步骤202之前,判断新增语料词集合中的词数量是否小于预设词数量阈值,若判断为否,则执行步骤202至步骤212;若判断为是,则从已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径。其中预设句子数阈值和预设词数量阈值可根据需要设定。
本实施例中,考虑到当判断为是时,说明新增语料库的数量级很小,这种情况下如果仍执行步骤202至步骤212,会导致新增语料词集合中词的哈夫曼路径存在过多重复的现象。因此这里从已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径,可克服新增语料库量级过小时导致增语料词集合中词的哈夫曼路径存在过多重复的现象。
如图3所示,在一个实施例中,步骤210具体包括如下步骤:
步骤302,将旧语料库对应的旧语料词集合中的词按照词频从高到低的顺序排序,获得旧语料词序列。
具体地,电子设备在根据旧语料库生成词向量时,也会对旧语料库中的语料进行分词处理,获得相应的旧语料词集合,在根据旧语料库完成训练后,仍然保留旧语料词集合以及旧语料词集合中各词的词频。旧语料词集合中各词的词频可直接用旧语料词集合中的词在旧语料库中出现的次数表示。电子设备在执行步骤208之后,便可以将旧语料词集合中的词按照该词相对于旧语料库的词频从高到低的顺序排序,获得旧语料词序列。
步骤304,根据新增语料词序列中词的位置在旧语料词序列中查找相同或相似位置处的词。
具体地,电子设备在旧语料词序列中查找与新增语料词序列中词的位置相同或相似位置处的词。其中新增语料词序列中词的位置是指词相对于新增语料词序列的相对位置,相同位置是指查找到的词相对于旧语料词序列的位置,与相应的新增语料词序列中的词相对于新增语料词序列的位置相同,相似位置则是指查找到的词相对于旧语料词序列的位置,与相应的新增语料词序列中的词相对于新增语料词序列的位置接近。
步骤306,从已训练哈夫曼树中选择查找到的词所对应的哈夫曼路径。
具体地,已训练哈夫曼树中每个叶子节点表示一个唯一的词,对应唯一的哈夫曼路径,因此电子设备在查找到相同或相似位置处的词后,便可以从已训练哈夫曼树中选择代表该查找到的词的叶子节点所对应的哈夫曼路径。电子设备可根据新增语料词序列中各词的词频构建一棵伪哈夫曼树,参照图4,之所以称为伪哈夫曼树,是因为其并不真实存在,本实施例借助该伪哈夫曼树来获取新增语料词序列中各词的哈夫曼路径,从而实现既能使用原有词向量模型的信息又能结合新增语料库中新增词的序列特征。图4中虚线表示的就是伪哈夫曼路径,内节点也就是非叶子节点,词节点也就是叶子节点。
本实施例中,在根据新增语料词序列中词的位置从已训练哈夫曼树中选择哈夫曼路径时,考虑旧语料词序列与新增语料词序列中相同或相似位置处词的语义相似性,这样选择的哈夫曼路径则是位置相似的词的哈夫曼路径,获得的词向量也可以很好地表达出这种相似性,最终获得的词向量的性能更好。
如图5所示,在一个实施例中,根据新增语料词序列中词的位置在旧语料词序列中查找相同或相似位置处的词,具体包括如下步骤:
步骤502,将旧语料词序列中的词按照相应的词频依次投影到固定长度单位。
具体地,电子设备将旧语料词序列中的词带权展开,这里的权指的是词频。假设旧语料词序列中的词数量为N,固定长度单位为M,则M>>N,“>>”表示远大于。用w表示旧语料词序列中的词,则将词w带权展开到M上。具体采用下述公式(1)进行带权展开:
公式(1)
其中,posw表示将词w投影到固定长度单位M上的相对位置,pos(w-1)表示将词w的前一个词w-1投影到固定长度单位M上的相对位置,Cntw表示词w在旧语料库中出现的词频。λ是常量,一般0<λ<1,用来调整各词投影到固定长度单位M上的区段长度之间的差距,D表示旧语料词集合。
投影效果如图6所示,投影后旧语料词集合中各词的顺序和词频大小都反映在固定长度单位M上,词频越大,相应的投影在固定长度单位M上的区段长度越长。
步骤504,将新增语料词序列中的词按照相应的词频依次投影到固定长度单位。
具体地,电子设备将新增语料词序列中的词带权展开,这里的权指的是词频。假设新增语料词序列中的词数量为N’;固定长度单位为M,则M>>N’,“>>”表示远大于。用w’表示新增语料词序列中的词,则将词w’带权展开到M上。具体采用下述公式(2)进行带权展开:
公式(2)
其中,posw’表示将词w’投影到固定长度单位M上的相对位置,pos(w’-1)表示将词w’的前一个词w’-1投影到固定长度单位M上的相对位置,Cntw’表示词w’在新增语料库中出现的词频。λ’是常量,一般0<λ’<1,用来调整各词投影到固定长度单位M上的区段长度之间的差距,λ’可等于λ,D’表示新增语料词集合。
步骤506,在固定长度单位上查找与新增语料词序列中的词所投影的区段长度重叠度最大的属于旧语料词序列的词。
具体地,将相应词投影到固定长度单位上的区段长度之间的重叠度可以用两个区段的交集除以两个区段长度的并集来计算。电子设备在处理新增语料词序列中的词时,在固定长度单位上查找到与当前处理的词的区段长度重叠度最大的、由旧语料词序列的词所投影到固定长度单位上的区段长度,从而获得该查找到的区段长度所对应属于旧语料词序列的词。
本实施例中,将旧语料词序列和新增语料词序列中的词都投影到固定长度单位上,可以同时反映词的位置和词频大小关系。投影到固定长度单位上的区段长度的重叠度最大的词也就是位置最相似的词,这样结合词的位置和词频所选择的哈夫曼路径所计算出的词向量具有更好的语义表达性能。
在一个实施例中,该词向量生成方法还包括:判断新增语料词集合中当前处理的词是否属于旧语料库对应的旧语料词集合;若是,则直接从已训练哈夫曼树中选择当前处理的词所对应的哈夫曼路径,并执行步骤212;若否,则执行步骤210。
具体地,电子设备可对新增语料词集合中的词逐个进行处理,对于当前正在处理的词,判断该词是否属于旧语料词集合。如果判定属于,说明该词在已训练哈夫曼树中已由一个叶子节点来表示,可直接选择该词所对应的哈夫曼路径继续训练。如果判定不属于,说明该词是一个新出现的词,在已训练哈夫曼树中没有对应的叶子节点,此时则可以根据新增语料词序列中词的位置,从已训练哈夫曼树中优先选择位置相似的词的哈夫曼路径。
本实施例中,将新增语料词集合中的词分为属于旧语料词集合的词和不属于旧语料词集合的词分别进行处理,从而基于已训练哈夫曼树来进行增量式训练,提高效率的同时保证生成的词向量的语义表达性能。
如图7所示,在一个实施例中,步骤212具体包括如下步骤:
步骤702,获取新增语料词集合中当前处理的词相对于新增语料库的上下文。
具体地,电子设备可逐个地处理新增语料词集合中的词,从而获取当前处理的词的上下文。其中,当前处理的词的上下文是指当前处理的词所在新增语料库的句子中之前和/或之后在取词半径范围内的词,上下文的取词半径可以根据需要设定,比如可取1至4。举例说明,比如一个句子中的词为ABCDE,若取词半径为1,词C的上下文可以是B和D,若取词半径为2,则词C的上下文可以是A、B、C和D。
步骤704,将上下文的词向量累加获得累加向量。
具体地,词向量是固定长度的实值向量,电子设备在获取到选择的哈夫曼路径后,将上下文转化为词向量输入词向量模型的输入层,经过累加运算,将上下文的词向量进行累加,获得累加向量。
步骤706,根据累加和向量以及选择的哈夫曼路径获得当前处理的词相对于上下文的条件概率函数;根据条件概率函数获得目标函数。
其中,当前处理的词相对于上下文的条件概率函数,是指在上下文的条件下存在当前处理的词的概率,该条件概率函数与累加和向量和选择的哈夫曼路径相关。具体地,可获得目标函数如公式(3):
公式(3)
其中,w’表示新增语料库中的词,Context(w')表示词w’的上下文的累加向量,p(w'|Context(w'))表示词w’相对于词w’的上下文的条件概率函数,Corpus表示新增语料库。使用Word2Vec工具生成词向量时,条件概率函数p(w'|Context(w'))在Hierarchical Softmax(分层逻辑回归模型)和Negative Sampling(负采样模型)下可采用不同的计算方式。
步骤708,对目标函数进行优化,以更新当前处理的词的词向量以及上下文的词向量。
具体地,可通过对目标函数求取极大值和极小值来对目标函数进行优化,将累加向量输入到词向量模型的隐含层,即已训练哈夫曼树的非叶子节点,利用Sigmoid函数作为隐含层的计算公式,把经过的哈夫曼路径上的每个标记(0或1)当成一个二分类问题,哈夫曼编码为0的节点看成是正例(Sigmoid函数值≥0.5),而哈夫曼编码为1的节点看成负例(Sigmoid函数值<0.5),使用随机梯度计算方式迭代计算并更新非叶子节点的权重信息、当前处理的词的词向量以及上下文的词向量。Sigmoid函数可表示为S(x)=1/(1+e-x),其中x为自变量,e为自然底数。
本实施例中,基于已有的词向量模型,根据新增语料词序列中的词相对于新增语料库的上下文,并结合选择的哈夫曼路径,可以通过增量式训练提高生成词向量的效率的同时,考虑了相应词在新增语料库中上下文的语义环境,提高了生成的词向量的语义表达能力。
原生的Word2Vec工具每次训练需要消耗巨大的资源,而采用本发明实施例的方法,可以实现支持几乎无延迟的词向量更新和新词向量的训练。而且,采用本发明实施例训练获取的词向量对用户评论内容进行分类,与采用原生的Word2Ved工具获得的词向量对用户评论内容进行分类相比,分类准确率更高。分类准确率比较下表一所示:
表一:
如图8所示,在一个实施例中,提供了一种词向量生成装置800,包括:已训练哈夫曼树获取模块801、新增语料库获取模块802、分词模块803、新增语料词排序模块804、哈夫曼路径选择模块805和词向量生成模块806。
已训练哈夫曼树获取模块801,用于获取根据旧语料库生成词向量时所生成的已训练哈夫曼树。
新增语料库获取模块802,用于获取相对于旧语料库的新增语料库。
分词模块803,用于将新增语料库中的语料进行分词处理,获得相应的新增语料词集合。
新增语料词排序模块804,用于将新增语料词集合中的词按照词频从高到低的顺序排序,获得新增语料词序列。
哈夫曼路径选择模块805,用于对于新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径。
词向量生成模块806,用于根据选择的哈夫曼路径生成新增语料词序列中词的词向量。
上述词向量生成装置800,保留根据旧语料库生成词向量时所生成的已训练哈夫曼树,当存在新增语料库时,对新增语料库中的语料进行分词处理,获得新增语料词集合,对新增语料词集合按照词频从高到低排序,获得新增语料词序列。而已训练哈夫曼树中的路径本身基本是以旧语料库中词的词频为基础组织的,这样对于所述新增语料词序列中不存在于旧语料库的新词,根据新增语料词序列中新词的位置从已训练哈夫曼树中选择的哈夫曼路径,是与新增语料词序列中新词位置相似的词的哈夫曼路径,从而基于位置相似词的哈夫曼路径继续训练来生成新增语料词序列中词的词向量。这样当存在新增语料库时,不需要将其合并到旧语料库后重新开始训练,而是基于已训练哈夫曼树和新增语料库进行增量式训练,提高了生成词向量的效率。
如图9所示,在一个实施例中,词向量生成装置800还包括:哈夫曼路径随机选择模块807,用于当新增语料库中的句子数小于预设句子数阈值或者新增语料词集合中的词数量小于预设词数量阈值时,从已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径。
本实施例中,从已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径,可克服新增语料库量级过小时导致增语料词集合中词的哈夫曼路径存在过多重复的现象。
如图10所示,在一个实施例中,哈夫曼路径选择模块805包括:旧语料词排序模块805a、词查找模块805b和路径选择模块805c。
旧语料词排序模块805a,用于将旧语料库对应的旧语料词集合中的词按照词频从高到低的顺序排序,获得旧语料词序列。
词查找模块805b,用于根据新增语料词序列中词的位置在旧语料词序列中查找相同或相似位置处的词。
路径选择模块805c,用于从已训练哈夫曼树中选择查找到的词所对应的哈夫曼路径。
本实施例中,在根据新增语料词序列中词的位置从已训练哈夫曼树中选择哈夫曼路径时,考虑旧语料词序列与新增语料词序列中相同或相似位置处词的语义相似性,这样选择的哈夫曼路径则是位置相似的词的哈夫曼路径,获得的词向量也可以很好地表达出这种位置相似性,最终获得的词向量的性能更好。
如图11所示,在一个实施例中,词查找模块805b包括:第一投影模块805b1、第二投影模块805b2和查找模块805b3。
第一投影模块805b1,用于将旧语料词序列中的词按照相应的词频依次投影到固定长度单位。
第二投影模块805b2,用于将新增语料词序列中的词按照相应的词频依次投影到固定长度单位。
查找模块805b3,用于在固定长度单位上查找与新增语料词序列中的词所投影的区段长度重叠度最大的属于旧语料词序列的词。
本实施例中,将旧语料词序列和新增语料词序列中的词都投影到固定长度单位上,可以同时反映词的位置和词频大小关系。投影到固定长度单位上的区段长度的重叠度最大的词也就是位置最相似的词,这样结合词的位置和词频所选择的哈夫曼路径所计算出的词向量具有更好的语义表达性能。
如图12所示,在一个实施例中,词向量生成装置800还包括判断模块808,用于判断新增语料词集合中当前处理的词是否属于旧语料库对应的旧语料词集合;哈夫曼路径选择模块805还用于若判断模块808判断为是,则直接从已训练哈夫曼树中选择当前处理的词所对应的哈夫曼路径;若判断模块808判断为否,则对于新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径。
本实施例中,将新增语料词集合中的词分为属于旧语料词集合的词和不属于旧语料词集合的词分别进行处理,从而基于已训练哈夫曼树来进行增量式训练,提高效率的同时保证生成的词向量的语义表达性能。
如图13所示,在一个实施例中,词向量生成模块806包括:上下文获取模块806a、累加模块806b、目标函数获得模块806c和词向量更新模块806d。
上下文获取模块806a,用于获取新增语料词集合中当前处理的词相对于新增语料库的上下文。
累加模块806b,用于将上下文的词向量累加获得累加向量。
目标函数获得模块806c,用于根据累加和向量以及选择的哈夫曼路径获得当前处理的词相对于上下文的条件概率函数。根据条件概率函数获得目标函数。
词向量更新模块806d,用于对目标函数进行优化,以更新当前处理的词的词向量以及上下文的词向量。
本实施例中,基于已有的词向量模型,根据新增语料词序列中的词相对于新增语料库的上下文,并结合选择的哈夫曼路径,可以通过增量式训练提高生成词向量的效率的同时,考虑了相应词在新增语料库中上下文的语义环境,提高了生成的词向量的语义表达能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种词向量生成方法,所述方法包括:
获取根据旧语料库生成词向量时所生成的已训练哈夫曼树;
获取相对于所述旧语料库的新增语料库;
将所述新增语料库中的语料进行分词处理,获得相应的新增语料词集合;
将所述新增语料词集合中的词按照词频从高到低的顺序排序,获得新增语料词序列;
对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径;
根据选择的哈夫曼路径生成所述新增语料词序列中词的词向量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述新增语料库中的句子数小于预设句子数阈值或者所述新增语料词集合中的词数量小于预设词数量阈值时,从所述已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径。
3.根据权利要求1所述的方法,其特征在于,所述对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径,包括:
将旧语料库对应的旧语料词集合中的词按照词频从高到低的顺序排序,获得旧语料词序列;
根据所述新增语料词序列中词的位置在所述旧语料词序列中查找相同或相似位置处的词;
从所述已训练哈夫曼树中选择查找到的词所对应的哈夫曼路径。
4.根据权利要求3所述的方法,其特征在于,所述根据所述新增语料词序列中词的位置在所述旧语料词序列中查找相同或相似位置处的词,包括:
将所述旧语料词序列中的词按照相应的词频依次投影到固定长度单位;
将所述新增语料词序列中的词按照相应的词频依次投影到所述固定长度单位;
在所述固定长度单位上查找与所述新增语料词序列中的词所投影的区段长度重叠度最大的属于所述旧语料词序列的词。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
判断所述新增语料词集合中当前处理的词是否属于旧语料库对应的旧语料词集合;
若是,则直接从所述已训练哈夫曼树中选择当前处理的词所对应的哈夫曼路径,并执行所述根据选择的哈夫曼路径生成所述新增语料词序列中词的词向量的步骤;
若否,则执行所述对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径的步骤。
6.根据权利要求1所述的方法,其特征在于,所述根据选择的哈夫曼路径生成所述新增语料词序列中词的词向量,包括:
获取所述新增语料词集合中当前处理的词相对于新增语料库的上下文;
将所述上下文的词向量累加获得累加向量;
根据所述累加和向量以及所述选择的哈夫曼路径获得当前处理的词相对于所述上下文的条件概率函数;
根据所述条件概率函数获得目标函数;
对所述目标函数进行优化,以更新当前处理的词的词向量以及所述上下文的词向量。
7.一种词向量生成装置,其特征在于,所述装置包括:
已训练哈夫曼树获取模块,用于获取根据旧语料库生成词向量时所生成的已训练哈夫曼树;
新增语料库获取模块,用于获取相对于所述旧语料库的新增语料库;
分词模块,用于将所述新增语料库中的语料进行分词处理,获得相应的新增语料词集合;
新增语料词排序模块,用于将所述新增语料词集合中的词按照词频从高到低的顺序排序,获得新增语料词序列;
哈夫曼路径选择模块,用于对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径;
词向量生成模块,用于根据选择的哈夫曼路径生成所述新增语料词序列中词的词向量。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
哈夫曼路径随机选择模块,用于当所述新增语料库中的句子数小于预设句子数阈值或者所述新增语料词集合中的词数量小于预设词数量阈值时,从所述已训练哈夫曼树中随机为新增语料词集合中的词选择哈夫曼路径。
9.根据权利要求7所述的装置,其特征在于,所述哈夫曼路径选择模块包括:
旧语料词排序模块,用于将旧语料库对应的旧语料词集合中的词按照词频从高到低的顺序排序,获得旧语料词序列;
词查找模块,用于根据所述新增语料词序列中词的位置在所述旧语料词序列中查找相同或相似位置处的词;
路径选择模块,用于从所述已训练哈夫曼树中选择查找到的词所对应的哈夫曼路径。
10.根据权利要求9所述的装置,其特征在于,所述词查找模块包括:
第一投影模块,用于将所述旧语料词序列中的词按照相应的词频依次投影到固定长度单位;
第二投影模块,用于将所述新增语料词序列中的词按照相应的词频依次投影到所述固定长度单位;
查找模块,用于在所述固定长度单位上查找与所述新增语料词序列中的词所投影的区段长度重叠度最大的属于所述旧语料词序列的词。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所述新增语料词集合中当前处理的词是否属于旧语料库对应的旧语料词集合;
所述哈夫曼路径选择模块还用于若所述判断模块判断为是,则直接从所述已训练哈夫曼树中选择当前处理的词所对应的哈夫曼路径;若所述判断模块判断为否,则对于所述新增语料词序列中不存在于旧语料库的新词,根据相应新词在新增语料词序列中的位置,从已训练哈夫曼树中选择哈夫曼路径。
12.根据权利要求7所述的装置,其特征在于,所述词向量生成模块包括:
上下文获取模块,用于获取所述新增语料词集合中当前处理的词相对于新增语料库的上下文;
累加模块,用于将所述上下文的词向量累加获得累加向量;
目标函数获得模块,用于根据所述累加和向量以及所述选择的哈夫曼路径获得当前处理的词相对于所述上下文的条件概率函数;根据所述条件概率函数获得目标函数;
词向量更新模块,用于对所述目标函数进行优化,以更新当前处理的词的词向量以及所述上下文的词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610095987.9A CN107102981B (zh) | 2016-02-19 | 2016-02-19 | 词向量生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610095987.9A CN107102981B (zh) | 2016-02-19 | 2016-02-19 | 词向量生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107102981A true CN107102981A (zh) | 2017-08-29 |
CN107102981B CN107102981B (zh) | 2020-06-23 |
Family
ID=59658424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610095987.9A Active CN107102981B (zh) | 2016-02-19 | 2016-02-19 | 词向量生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107102981B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480143A (zh) * | 2017-09-12 | 2017-12-15 | 山东师范大学 | 基于上下文相关性的对话话题分割方法和系统 |
CN108804413A (zh) * | 2018-04-28 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 文本作弊的识别方法及装置 |
CN109086270A (zh) * | 2018-07-24 | 2018-12-25 | 重庆大学 | 基于古诗词语料向量化的自动作诗系统及其方法 |
CN109740165A (zh) * | 2019-01-09 | 2019-05-10 | 网易(杭州)网络有限公司 | 字典树构建方法、语句搜索方法、装置、设备及存储介质 |
WO2019095836A1 (zh) * | 2017-11-14 | 2019-05-23 | 阿里巴巴集团控股有限公司 | 基于集群的词向量处理方法、装置以及设备 |
CN109918674A (zh) * | 2019-03-14 | 2019-06-21 | 武汉烽火普天信息技术有限公司 | 一种基于案件要素相似性建模的案件串并方法 |
CN110020303A (zh) * | 2017-11-24 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 确定备选展示内容的方法、装置及存储介质 |
CN110019775A (zh) * | 2017-09-04 | 2019-07-16 | 南方电网传媒有限公司 | 一种网络短文本分类的优化系统及方法 |
CN110210557A (zh) * | 2019-05-31 | 2019-09-06 | 南京工程学院 | 一种实时流处理模式下未知文本的在线增量式聚类方法 |
CN110309317A (zh) * | 2019-05-22 | 2019-10-08 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110309278A (zh) * | 2019-05-23 | 2019-10-08 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN110795936A (zh) * | 2019-08-14 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN111325026A (zh) * | 2020-02-18 | 2020-06-23 | 北京声智科技有限公司 | 一种词向量模型的训练方法及系统 |
CN111414648A (zh) * | 2020-03-04 | 2020-07-14 | 传神语联网网络科技股份有限公司 | 语料鉴权方法及装置 |
US10769383B2 (en) | 2017-10-23 | 2020-09-08 | Alibaba Group Holding Limited | Cluster-based word vector processing method, device, and apparatus |
CN111859945A (zh) * | 2019-04-17 | 2020-10-30 | 深圳市茁壮网络股份有限公司 | 一种词向量训练方法及装置 |
CN112463969A (zh) * | 2020-12-08 | 2021-03-09 | 上海烟草集团有限责任公司 | 卷烟品牌和品规行话新词的检测方法、系统、设备及介质 |
CN113887216A (zh) * | 2021-10-20 | 2022-01-04 | 美的集团(上海)有限公司 | 词向量增量方法、电子设备及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877258B1 (en) * | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像系统的标签词库更新方法 |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
-
2016
- 2016-02-19 CN CN201610095987.9A patent/CN107102981B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877258B1 (en) * | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
CN104268292A (zh) * | 2014-10-23 | 2015-01-07 | 广州索答信息科技有限公司 | 画像系统的标签词库更新方法 |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019775A (zh) * | 2017-09-04 | 2019-07-16 | 南方电网传媒有限公司 | 一种网络短文本分类的优化系统及方法 |
CN107480143A (zh) * | 2017-09-12 | 2017-12-15 | 山东师范大学 | 基于上下文相关性的对话话题分割方法和系统 |
CN107480143B (zh) * | 2017-09-12 | 2020-05-29 | 山东师范大学 | 基于上下文相关性的对话话题分割方法和系统 |
US10769383B2 (en) | 2017-10-23 | 2020-09-08 | Alibaba Group Holding Limited | Cluster-based word vector processing method, device, and apparatus |
US10846483B2 (en) | 2017-11-14 | 2020-11-24 | Advanced New Technologies Co., Ltd. | Method, device, and apparatus for word vector processing based on clusters |
WO2019095836A1 (zh) * | 2017-11-14 | 2019-05-23 | 阿里巴巴集团控股有限公司 | 基于集群的词向量处理方法、装置以及设备 |
CN110020303A (zh) * | 2017-11-24 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 确定备选展示内容的方法、装置及存储介质 |
CN108804413A (zh) * | 2018-04-28 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 文本作弊的识别方法及装置 |
CN109086270A (zh) * | 2018-07-24 | 2018-12-25 | 重庆大学 | 基于古诗词语料向量化的自动作诗系统及其方法 |
CN109086270B (zh) * | 2018-07-24 | 2022-03-01 | 重庆大学 | 基于古诗词语料向量化的自动作诗系统及其方法 |
CN109740165A (zh) * | 2019-01-09 | 2019-05-10 | 网易(杭州)网络有限公司 | 字典树构建方法、语句搜索方法、装置、设备及存储介质 |
CN109918674A (zh) * | 2019-03-14 | 2019-06-21 | 武汉烽火普天信息技术有限公司 | 一种基于案件要素相似性建模的案件串并方法 |
CN109918674B (zh) * | 2019-03-14 | 2022-12-30 | 武汉烽火普天信息技术有限公司 | 一种基于案件要素相似性建模的案件串并方法 |
CN111859945A (zh) * | 2019-04-17 | 2020-10-30 | 深圳市茁壮网络股份有限公司 | 一种词向量训练方法及装置 |
CN110309317B (zh) * | 2019-05-22 | 2021-07-23 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110309317A (zh) * | 2019-05-22 | 2019-10-08 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110309278A (zh) * | 2019-05-23 | 2019-10-08 | 泰康保险集团股份有限公司 | 关键词检索方法、装置、介质及电子设备 |
CN110210557A (zh) * | 2019-05-31 | 2019-09-06 | 南京工程学院 | 一种实时流处理模式下未知文本的在线增量式聚类方法 |
CN110210557B (zh) * | 2019-05-31 | 2024-01-12 | 南京工程学院 | 一种实时流处理模式下未知文本的在线增量式聚类方法 |
CN110795936A (zh) * | 2019-08-14 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN110795936B (zh) * | 2019-08-14 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN111325026A (zh) * | 2020-02-18 | 2020-06-23 | 北京声智科技有限公司 | 一种词向量模型的训练方法及系统 |
CN111325026B (zh) * | 2020-02-18 | 2023-10-10 | 北京声智科技有限公司 | 一种词向量模型的训练方法及系统 |
CN111414648A (zh) * | 2020-03-04 | 2020-07-14 | 传神语联网网络科技股份有限公司 | 语料鉴权方法及装置 |
CN111414648B (zh) * | 2020-03-04 | 2023-05-12 | 传神语联网网络科技股份有限公司 | 语料鉴权方法及装置 |
CN112463969A (zh) * | 2020-12-08 | 2021-03-09 | 上海烟草集团有限责任公司 | 卷烟品牌和品规行话新词的检测方法、系统、设备及介质 |
CN113887216A (zh) * | 2021-10-20 | 2022-01-04 | 美的集团(上海)有限公司 | 词向量增量方法、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107102981B (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107102981A (zh) | 词向量生成方法和装置 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN109933686B (zh) | 歌曲标签预测方法、装置、服务器及存储介质 | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
CN115630640B (zh) | 一种智能写作方法、装置、设备及介质 | |
CN107301169B (zh) | 离题作文检测方法、装置和终端设备 | |
CN110879834A (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
WO2015051481A1 (en) | Determining collection membership in a data graph | |
CN110874536A (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
Leng et al. | Deepreviewer: Collaborative grammar and innovation neural network for automatic paper review | |
JP4873738B2 (ja) | テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体 | |
JP5355483B2 (ja) | 略語完全語復元装置とその方法と、プログラム | |
WO2019064137A1 (en) | EXPRESSION OF EXPRESSION FOR TREATMENT OF NATURAL LANGUAGE | |
JP2009015796A (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
CN112417147A (zh) | 训练样本的选取方法与装置 | |
CN112632223B (zh) | 案事件知识图谱构建方法及相关设备 | |
Zhu et al. | Semantic document distance measures and unsupervised document revision detection | |
CN115495636A (zh) | 网页搜索方法、装置及存储介质 | |
JP2005267397A (ja) | 語句分類システム、語句分類方法、および語句分類プログラム | |
Wang et al. | Chinese keyword extraction method based on context and word classification | |
Palta | Word Sense Disambiguation | |
Alfarra et al. | Graph-based Growing self-organizing map for Single Document Summarization (GGSDS) | |
CN117421393B (zh) | 一种用于专利的生成式检索方法及系统 | |
Gong et al. | Automatic web page segmentation and information extraction using conditional random fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |