CN110321551B - GloVe词向量模型增量训练方法、装置、介质及电子设备 - Google Patents

GloVe词向量模型增量训练方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN110321551B
CN110321551B CN201910462773.4A CN201910462773A CN110321551B CN 110321551 B CN110321551 B CN 110321551B CN 201910462773 A CN201910462773 A CN 201910462773A CN 110321551 B CN110321551 B CN 110321551B
Authority
CN
China
Prior art keywords
corpus text
words
incremental
word
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910462773.4A
Other languages
English (en)
Other versions
CN110321551A (zh
Inventor
崔勇
杨光
杨雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Asset Management Co ltd, Taikang Insurance Group Co Ltd filed Critical Taikang Asset Management Co ltd
Priority to CN201910462773.4A priority Critical patent/CN110321551B/zh
Publication of CN110321551A publication Critical patent/CN110321551A/zh
Application granted granted Critical
Publication of CN110321551B publication Critical patent/CN110321551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种GloVe词向量模型增量训练方法、装置、介质及电子设备,所述方法包括:获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本中出现的词的词频;获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数;根据所述增量语料文本与所述历史语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵;以及基于所述共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练GloVe词向量模型。面对新增语料,本发明提高了GloVe词向量模型的训练效率。

Description

GloVe词向量模型增量训练方法、装置、介质及电子设备
技术领域
本发明涉及自然语言建模领域,具体涉及一种GloVe词向量模型增量训练方法、装置、介质及电子设备。
背景技术
目前,越来越多的公司、企业利用自然语言处理手段深度挖掘隐藏在研报、公告、新闻等海量数据中的有效信息,从而为投研人员提供数据支持。在自然语言处理领域,如何高效地表达一个词是核心问题,对此,斯坦福大学自然语言处理组提出了一种GloVe算法,其利用词与相邻词之间的共现次数来学习词向量,最终得到带有语义信息的词向量表达。
随着数据的不断更新,面对每天新增的语料,如何以增量的方式在已训练好的GloVe词向量模型上进行更新是当前亟待解决的一个问题。现有的解决方案是将每天新增的语料文本和已训练过的历史语料文本放在一起,重新进行全量训练,具体涉及到重新全量统计词频以及词与词的共现次数。然而,在海量数据中统计词频以及词与词的共现次数是一项非常耗时的工作,这导致训练非常低效,并且每次增量更新都要花费比之前更长的时间。
发明内容
为解决上述现有技术中存在的问题,根据本发明的一个实施例,提供一种GloVe词向量模型增量训练方法,包括:
获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本中出现的词的词频;
获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数;
根据所述增量语料文本与所述历史语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵;以及
基于所述共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练GloVe词向量模型。
上述方法中,获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本合并后出现的词的词频包括:
获取历史语料文本中出现的词及对应的词频;
对所述增量语料文本进行遍历,统计所述增量语料文本中出现的词及对应的词频;
将所述增量语料文本中出现的词及对应的词频与所述历史语料文本中出现的词及对应的词频进行合并,得到所述增量语料文本与所述历史语料文本中出现的词的词频。
上述方法中,将所述增量语料文本中出现的词及对应的词频与所述历史语料文本中出现的词及对应的词频进行合并包括:
对于在所述历史语料文本中出现而在所述增量语料文本中未出现的词或者对于在所述增量语料文本中出现而在所述历史语料文本中未出现的词,计算该词出现的次数,根据该词出现的次数以及所述增量语料文本与所述历史语料文本中所有词的个数,得到该词在所述增量语料文本与所述历史语料文本中的词频;
对于既在所述增量语料文本中出现又在所述历史语料文本中出现的词,计算该词分别在两种语料文本中出现的次数之和,根据所述次数之和以及所述增量语料文本与所述历史语料文本中所有词的个数,得到该词在所述增量语料文本与所述历史语料文本中的词频。
上述方法中,获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数包括:
获取历史语料文本中词与词的共现次数;
对所述增量语料文本进行遍历,统计所述增量语料文本中词与词的共现次数;
将所述增量语料文本中的词与词的共现次数与所述历史语料文本中的词与词的共现次数进行合并,得到所述增量语料文本和所述历史语料文本中的词与词的共现次数。
上述方法中,将所述增量语料文本中的词与词的共现次数与所述历史语料文本中的词与词的共现次数进行合并包括:
对于既在所述增量语料文本中出现又在所述历史语料文本中出现的共现词对,将所述共现词对分别在两种语料文本中的共现次数相加,作为所述共现词对在所述增量语料文本和所述历史语料文本中的共现次数。
上述方法中,基于所述共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练GloVe词向量模型包括:
重新整理所述共现矩阵;
根据重新整理后的共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练所述GloVe词向量模型。
上述方法中,利用多线程训练所述GloVe词向量模型。
根据本发明的一个实施例,还提供一种GloVe词向量模型增量训练装置,包括:
词频统计模块,用于获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本中出现的词的词频;
共现矩阵构建模块,用于获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数,根据所述增量语料文本与所述历史语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵;以及
训练模块,用于基于所述共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练GloVe词向量模型。
根据本发明的一个实施例,还提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述GloVe词向量模型增量训练方法。
根据本发明的一个实施例,还提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现上述GloVe词向量模型增量训练方法。
本发明实施例提供的技术方案包括以下有益效果:
基于新增的语料文本,以增量的方式获得词在所有语料文本中的词频以及词与词的共现次数,在此基础上更新GloVe词向量模型,由于充分利用了前一次训练的统计结果,无需遍历历史语料文本,因此使得算法和代码调整较少、易于实现,并且同时提高了训练效率、节省了运行时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明一个实施例的GloVe词向量模型增量训练方法的流程图;
图2示意性示出了根据本发明一个实施例的统计所有语料文本中出现的词的词频的方法的流程图;
图3示意性示出了根据本发明一个实施例的构建共现矩阵的方法的流程图;
图4示意性示出了根据本发明一个实施例的GloVe词向量模型增量训练装置的框图;
图5示意性示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
GloVe词向量模型的训练过程通常包括如下四个步骤:首先,执行vocab_count.c文件,vocab_count.c用于遍历语料文本并对其进行单词统计,生成词典文件vocab.txt(vocab.txt包括多行,每一行包括语料文本中的一个词以及该词对应的词频)。其次,执行cooccur.c文件,cooccur.c用于读入语料文本和vocab_count.c生成的词典文件,统计语料文本中词与词的共现次数(一般而言,词与词的共现指的是词与词在一段距离内共同出现,例如在一句话内共同出现、在一段话内共同出现,甚至在数个连续词内共同出现等等,语料文本中词与词的共现次数指的是在语料文本中词与词在一段距离内共同出现的次数,而一段距离内共同出现的两个词可以称作共现词对),构建共现矩阵(cooccurrence.bin文件),GloVe一般使用三元组来存储共现矩阵,每个三元组包括第一个词、第二个词以及它们在语料文本中的共现次数,例如<of,the,10000>、<drink,water,200>等等,三元组的顺序是根据词在语料文本中的词频来排序的,具体地,根据第一个词的词频由高到低排序,当第一个词相同时根据第二个词的词频由高到低排序。再次,执行shuffle.c文件,shuffle.c用于打乱已构建的共现矩阵,即打乱三元组的顺序,生成二进制文件cooccurrence.shuf.bin。最后,执行glove.c文件,glove.c使用前述的词典文件vocab.txt和打乱的共现矩阵cooccurrence.shuf.bin,在cooccurrence.shuf.bin上训练词向量,从而得到GloVe词向量模型(如vectors.txt)。
根据以上步骤可知,在新增了语料文本(后文统称为增量语料文本)的情况下,如果将增量语料文本和历史语料文本(即前一次训练GloVe词向量模型时使用的语料文本)放在一起重新进行词向量的训练,则在统计词的词频以及构建共现矩阵cooccurrence.bin时,除了要遍历增量语料文本之外还要遍历历史语料文本,因此耗费了大量时间。发明人发现,由于在先前的训练中已经遍历了历史语料文本并且基于历史语料文本已经生成了词典文件和共现矩阵,如果在此基础上仅统计增量语料文本中出现的词的词频以及词与词的共现次数,并且将统计结果与先前生成的词典文件和共现矩阵合并,则也可以得到在所有语料文本(包括增量语料文本和历史语料文本)中出现的词的词频以及词与词的共享次数,因此,无需重新遍历历史语料文本就能实现GloVe词向量模型的增量训练,从而大大提升训练效率。
有鉴于此,根据本发明的一个实施例,提供一种GloVe词向量模型增量训练方法,该方法由具有计算及存储功能的电子设备执行,所述电子设备位于服务器或者客户端处。图1示意性地示出了根据本发明一个实施例的GloVe词向量模型增量训练方法的流程图,下面将参照图1描述该方法的各个步骤:
步骤S101.获得历史语料文本中出现的词的词频以及词与词的共现次数。其中,历史语料文本指的是前一次训练GloVe词向量模型时使用的语料文本。
如上文所述,现有技术在训练GloVe词向量模型时,会首先遍历语料文本并进行单词统计,生成包括语料文本中出现的词及对应词频的词典文件;随后根据语料文本和词典文件构建共现矩阵。由此,在前一次训练GloVe词向量模型之后便可以保存该训练中生成的词典文件和共现矩阵,在进行后续的增量训练时,可以直接获取该词典文件和共现矩阵,并且从中获得历史语料文本中出现的词的词频以及词与词的共现次数。
步骤S102.统计得到增量语料文本中出现的词的词频,并根据历史语料文本中出现的词的词频和增量语料文本中出现的词的词频,得到所有语料文本(包括增量语料文本与历史语料文本)中出现的词的词频。
概括而言,在步骤S102中要将增量语料文本中出现的词的词频与历史语料文本中出现的词的词频进行合并。根据本发明的一个实施例,参见图2,步骤S102包括如下的子步骤:
步骤S1021.获取增量语料文本,以及获取词典文件中记录的历史语料文本中出现的词及对应的词频并加载到内存中。
步骤S1022.对增量语料文本进行遍历,统计增量语料文本中出现的词以及该词对应的词频。
步骤S1023.将增量语料文本中出现的词及对应的词频与历史语料文本中出现的词及对应的词频进行合并,得到在所有语料文本中出现的词及对应的词频。
本领域技术人员应理解,词频通常是指一个词在文本中出现的频率。根据本发明的一个实施例,在步骤S1023中,将增量语料文本中出现的词及对应的词频与历史语料文本中出现的词及对应的词频进行合并包括:将在增量语料文本以及历史语料文本中出现过的词作为所有语料文本中出现的词;以及,按照如下方式更改词的词频,作为该词在所有语料文本中的词频:
对于在历史语料文本中出现而在增量语料文本中未出现的词,先计算该词在历史语料文本中出现的次数,根据该词出现的次数以及增量语料文本与历史语料文本(即所有语料文本)中所有词的个数,得到该词在增量语料文本与历史语料文本中的词频。即,将该词在历史语料文本中的词频与历史语料文本中所有词的个数相乘计算得到该词在历史语料文本中出现的次数;然后除以历史语料文本和增量语料文本(即所有语料文本)中所有词的个数,得到该词在所有语料文本中的词频;举例而言,假设历史语料文本中“the”的词频为5%,“the”未在增量语料文本中出现,历史语料文本中所有词的个数为1000,增量语料文本中所有词的个数为1000,则“the”在所有语料文本中的词频为5%*1000/(1000+1000)=2.5%。
对于在增量语料文本中出现而在历史语料文本中未出现的词,先计算该词在增量语料文本中出现的次数,根据该词出现的次数以及增量语料文本与历史语料文本(即所有语料文本)中所有词的个数,得到该词在增量语料文本与历史语料文本中的词频。即,将该词在增量语料文本中的词频与增量语料文本中所有词的个数相乘;然后除以历史语料文本和增量语料文本中所有词的个数,得到该词在所有语料文本中的词频;举例而言,假设增量语料文本中“the”的词频为5%,“the”未在历史语料文本中出现,历史语料文本中所有词的个数为1000,增量语料文本中所有词的个数为1000,则“the”在所有语料文本中的词频为5%*1000/(1000+1000)=2.5%。
对于既在所述增量语料文本中出现又在所述历史语料文本中出现的词,计算该词分别在两种语料文本中出现的次数之和,
对于既在历史语料文本中出现又在增量语料文本中出现的词,先计算该词分别在两种语料文本中出现的次数并求和,根据所述次数之和以及所述增量语料文本与所述历史语料文本中所有词的个数,得到该词在所述增量语料文本与所述历史语料文本中的词频。即,将该词分别在两种语料文本中出现的次数之和,除以历史语料文本和增量语料文本中所有词的个数,得到该词在所有语料文本中的词频。举例而言,假设历史语料文本中“the”的词频为3%,增量语料文本中“the”的词频为5%,历史语料文本中所有词的个数为1000,增量语料文本中所有词的个数为1000,则“the”在所有语料文本中的词频为(3%*1000+5%*1000)/(1000+1000)=8%。
本领域技术人员还应理解,根据本发明的其他实施例,为了简便起见,词频有可能是以词在文本中出现的次数来度量的。在这种情况下,当合并增量语料文本中出现的词及对应的词频以及历史语料文本中出现的词及对应的词频时,对于既在历史语料文本中出现又在增量语料文本中出现的词,将该词分别在两种语料文本中的词频进行相加,从而得到该词在所有语料文本中的词频。此外,对于在历史语料文本中出现而在增量语料文本中未出现的词或者在增量语料文本中出现而在历史语料文本中未出现的词,不修改该词的词频。
步骤S1024.在词典文件中保存合并后得到的词及对应的词频。
步骤S103.统计增量语料文本中词与词的共现次数,并且根据历史语料文本中词与词的共现次数以及增量语料文本中词与词的共现次数,得到所有语料文本中词与词的共现次数,以及根据所有语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵。根据本发明的一个实施例,参见图3,步骤S103包括如下的子步骤:
步骤S1031.将历史语料文本中的词与词的共现次数加载到内存中。
步骤S1032.对增量语料文本进行遍历,统计增量语料文本中词与词的共现次数。
步骤S1033.将增量语料文本中的词与词的共现次数与历史语料文本中的词与词的共现次数进行合并,得到所有语料文本中的词与词的共现次数。
根据本发明的一个实施例,将增量语料文本中的词与词的共现次数与历史语料文本中的词与词的共现次数进行合并包括:对于既在历史语料文本中出现又在增量语料文本中出现的共现词对,将该共现词对分别在两种语料文本中的共现次数进行相加,作为该共现词对在所有语料文本中的共现次数;对于在历史语料文本中出现而在增量语料文本中未出现的共现词对或者在增量语料文本中出现而在历史语料文本中未出现的共现词对,不修改该共现词对的共现次数。
如上文所述,词与词的共现指的是词与词在一段距离内共同出现,在一段距离内共同出现的两个词为共现词对;假设词与词的共现指的是在一句话内共同出现,以“of”和“the”为例,如果“of”和“the”在历史语料文本中的共现次数为100,在新增增量语料文本中的共现次数为50,则共现词对“of”和“the”在所有语料文本中的共现次数为50+100=150。
步骤S1034.根据所有语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵。
具体而言,以三元组的形式构建共现矩阵,其中每个三元组包括第一个词、第二个词以及它们在所有语料文本中的共现次数(如<of,the,150>),三元组的顺序是根据词在所有语料文本中的词频来排序的,例如,根据第一个词在所有语料文本中的词频由高到低进行排序,当第一个词相同时根据第二个词在所有语料文本中的词频由高到低进行排序。
根据本发明的一个实施例,在构建共现矩阵时,为了减轻内存负担,可以将与常见词相关的共现数据(即包含常见词的三元组)保存在内存中,而将与非常见词相关的共现数据(即,包含常见词的三元组以外的三元组)保存在临时文件中。其中,常见词指的是在所有语料文本中词频高于预定阈值的词,在所有语料文本中,除常见词之外的其他词则称为非常见词。
步骤S104.基于所构建的共现矩阵以及所有语料文本中出现的词的词频训练GloVe词向量模型。
与现有技术类似,步骤S104包括如下的子步骤:
步骤S1041.打乱已构建的共现矩阵(或称重新整理已构建的共现矩阵),即打乱其中的三元组的顺序,得到重构的共现矩阵。
步骤S1042.根据重构的共现矩阵以及所有语料文本中出现的词的词频进行词向量的训练,得到GloVe词向量模型。
本领域技术人员应理解,在本步骤中,以词在所有语料文本中的词频为权重,并且根据共现矩阵中词与词的共现次数来构造损失函数,在此基础上训练GloVe词向量模型。优选地,可以使用多线程技术来进行模型训练,以提高训练效率。
上述实施例充分利用了前一次GloVe词向量模型训练的统计结果,以增量的方式获得词在所有语料文本中的词频以及词与词的共现次数,并且在此基础上更新GloVe词向量模型。其中无需遍历历史语料文本,使得算法和代码调整较少并易于实现;同时,提高了训练的效率、节省了运行时间。
以下结合附图介绍本发明的装置实施例。
根据本发明的一个实施例,还提供一种GloVe词向量模型增量训练装置,图4示出了该GloVe词向量模型增量训练装置400的框图,包括:词频统计模块401,共现矩阵构建模块402以及训练模块403。
在图4所示的GloVe词向量模型增量训练装置400中,词频统计模块401用于获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本中出现的词的词频;共现矩阵构建模块402用于获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数,根据所述增量语料文本与所述历史语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵;训练模块403用于基于共现矩阵以及增量语料文本与历史语料文本中出现的词的词频来训练GloVe词向量模型。
由于本实施例的GloVe词向量模型增量训练装置的各个功能模块与上文结合图1-3描述的GloVe词向量模型增量训练方法的实施例的步骤相对应,因此对于本装置实施例中未披露的细节,参照结合图1-3描述的GloVe词向量模型增量训练方法的实施例。
根据本发明的一个实施例,还提供一种适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。参见图5,计算机系统500包括总线505,耦合到总线505的设备之间可以快速地传输信息。处理器501与总线505耦合,用于执行由计算机程序代码所指定的一组动作或操作,处理器501可以单独地或者与其他设备组合实现为机械、电、磁、光、量子或者化学部件等。
计算机系统500还包括耦合到总线505的存储器503,存储器503(例如,RAM或者其他动态存储设备)存储可由计算机系统500改变的数据,包括实现上述实施例所述的GloVe词向量模型增量训练方法的指令或计算机程序。当处理器501执行该指令或计算机程序时,使得计算机系统500能够实现上述实施例中描述的GloVe词向量模型增量训练方法,例如,可以实现如图1-3中所示的各个步骤。存储器503还可以存储处理器501执行指令或计算机程序期间产生的临时数据,以及系统操作所需的各种程序和数据。计算机系统500还包括耦合到总线505的只读存储器502以及非易失性储存设备508,例如磁盘或光盘等,用于存储当计算机系统500被关闭或掉电时也能持续的数据。
计算机系统500还包括诸如键盘、传感器等的输入设备506,以及诸如阴极射线管(CRT)、液晶显示器(LCD)、打印机等的输出设备507。计算机系统500还包括耦合到总线505的通信接口504,通信接口504可以提供对外部设备的单向或双向的通信耦合。例如,通信接口504可以是并行端口、串行端口、电话调制解调器或者局域网(LAN)卡。计算机系统500还包括耦合到总线505的驱动设备509以及可拆卸设备510,诸如磁盘、光盘、磁光盘、半导体存储器等等,其根据需要安装在驱动设备509上,以便于从其上读出的计算机程序根据需要被安装入储存设备508。
根据本发明的另一个实施例,还提供一种计算机可读介质,该计算机可读介质可以是上述计算机系统500中所包含的,也可以是单独存在而未装配入该计算机系统500中的。该计算机可读介质承载有一个或者多个计算机程序或者指令,当所述一个或者多个计算机程序或者指令被处理器执行时,使得该计算机系统500实现上述实施例中所述的GloVe词向量模型增量训练方法。需要说明的是,计算机可读介质指的是向处理器501提供数据的任意介质,这种介质可以采取任意形式,包括但不限于,计算机可读存储介质(例如,非易失性介质、易失性介质)以及传输介质。其中,非易失性介质诸如包括光盘或磁盘,例如储存设备508;易失性介质例如包括存储器504。传输介质例如包括同轴电缆、铜线、光纤电缆以及在没有电缆和线缆的情况下通过空间的载波,例如声波和电磁波,包括无线电、光和红外波。计算机可读介质的一般形式包括:软盘、柔性盘、硬盘、磁带、任意其它磁介质、CD-ROM、CDRW、DVD、任意其它光介质、穿孔卡片、纸带、光标记表单、具有孔或其它光可识别标识的图案的任意其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、任意其它存储器芯片或磁带盒、载波、或计算机可读取的任意其它介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种GloVe词向量模型增量训练方法,包括:
获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本中出现的词的词频;
获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数;
根据所述增量语料文本与所述历史语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵;以及
基于所述共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练GloVe词向量模型。
2.根据权利要求1所述的方法,其特征在于,获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本合并后出现的词的词频包括:
获取历史语料文本中出现的词及对应的词频;
对所述增量语料文本进行遍历,统计所述增量语料文本中出现的词及对应的词频;
将所述增量语料文本中出现的词及对应的词频与所述历史语料文本中出现的词及对应的词频进行合并,得到所述增量语料文本与所述历史语料文本中出现的词的词频。
3.根据权利要求2所述的方法,其特征在于,将所述增量语料文本中出现的词及对应的词频与所述历史语料文本中出现的词及对应的词频进行合并包括:
对于在所述历史语料文本中出现而在所述增量语料文本中未出现的词或者对于在所述增量语料文本中出现而在所述历史语料文本中未出现的词,计算该词出现的次数,根据该词出现的次数以及所述增量语料文本与所述历史语料文本中所有词的个数,得到该词在所述增量语料文本与所述历史语料文本中的词频;
对于既在所述增量语料文本中出现又在所述历史语料文本中出现的词,计算该词分别在两种语料文本中出现的次数之和,根据所述次数之和以及所述增量语料文本与所述历史语料文本中所有词的个数,得到该词在所述增量语料文本与所述历史语料文本中的词频。
4.根据权利要求1-3中任一项所述的方法,其特征在于,获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数包括:
获取历史语料文本中词与词的共现次数;
对所述增量语料文本进行遍历,统计所述增量语料文本中词与词的共现次数;
将所述增量语料文本中的词与词的共现次数与所述历史语料文本中的词与词的共现次数进行合并,得到所述增量语料文本和所述历史语料文本中的词与词的共现次数。
5.根据权利要求4所述的方法,其特征在于,将所述增量语料文本中的词与词的共现次数与所述历史语料文本中的词与词的共现次数进行合并包括:
对于既在所述增量语料文本中出现又在所述历史语料文本中出现的共现词对,将所述共现词对分别在两种语料文本中的共现次数相加,作为所述共现词对在所述增量语料文本和所述历史语料文本中的共现次数。
6.根据权利要求1-3中任一项所述的方法,其特征在于,基于所述共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练GloVe词向量模型包括:
重新整理所述共现矩阵;
根据重新整理后的共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练所述GloVe词向量模型。
7.根据权利要求1-3中任一项所述的方法,其特征在于,利用多线程训练所述GloVe词向量模型。
8.一种GloVe词向量模型增量训练装置,包括:
词频统计模块,用于获取历史语料文本中出现的词的词频以及增量语料文本中出现的词的词频,以得到所述增量语料文本与所述历史语料文本中出现的词的词频;
共现矩阵构建模块,用于获取历史语料文本中词与词的共现次数以及所述增量语料文本中词与词的共现次数,以得到所述增量语料文本与所述历史语料文本中词与词的共现次数,根据所述增量语料文本与所述历史语料文本中出现的词的词频以及词与词的共现次数构建共现矩阵;以及
训练模块,用于基于所述共现矩阵以及所述增量语料文本与所述历史语料文本中出现的词的词频训练GloVe词向量模型。
9.一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1-7中任一项所述的方法。
CN201910462773.4A 2019-05-30 2019-05-30 GloVe词向量模型增量训练方法、装置、介质及电子设备 Active CN110321551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910462773.4A CN110321551B (zh) 2019-05-30 2019-05-30 GloVe词向量模型增量训练方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910462773.4A CN110321551B (zh) 2019-05-30 2019-05-30 GloVe词向量模型增量训练方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN110321551A CN110321551A (zh) 2019-10-11
CN110321551B true CN110321551B (zh) 2022-12-06

Family

ID=68119192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910462773.4A Active CN110321551B (zh) 2019-05-30 2019-05-30 GloVe词向量模型增量训练方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN110321551B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011159100A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
JP2011227688A (ja) * 2010-04-20 2011-11-10 Univ Of Tokyo テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
CN107220220A (zh) * 2016-03-22 2017-09-29 索尼公司 用于文本处理的电子设备和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011159100A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
JP2011227688A (ja) * 2010-04-20 2011-11-10 Univ Of Tokyo テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
CN107220220A (zh) * 2016-03-22 2017-09-29 索尼公司 用于文本处理的电子设备和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Incremental term representation learning for social network analysis;HaoPeng 等;《ELSEVIER》;20180930;全文 *
基于GloVe模型的词向量改进方法;陈珍锐 等;《计算机系统应用》;20190115;第28卷(第1期);全文 *

Also Published As

Publication number Publication date
CN110321551A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
Winston et al. Lisp
Mooney Relational learning of pattern-match rules for information extraction
US20230004721A1 (en) Method for training semantic representation model, device and storage medium
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN113407679B (zh) 文本主题挖掘方法、装置、电子设备及存储介质
US20210125058A1 (en) Unsupervised hypernym induction machine learning
CN111753086A (zh) 一种垃圾邮件识别方法和装置
US20200112475A1 (en) Real-time adaptive infrastructure scenario identification using syntactic grouping at varied similarity
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
US20200110815A1 (en) Multi contextual clustering
CN110889293B (zh) 多层级主题向量空间的构建方法、装置、设备和存储介质
CN110321551B (zh) GloVe词向量模型增量训练方法、装置、介质及电子设备
CN110309278B (zh) 关键词检索方法、装置、介质及电子设备
Jin et al. P 2 LSA and P 2 LSA+: Two paralleled probabilistic latent semantic analysis algorithms based on the MapReduce model
CN110472241B (zh) 生成去冗余信息句向量的方法及相关设备
CN114417856B (zh) 文本的稀疏编码方法、装置及电子设备
US11790885B2 (en) Semi-structured content aware bi-directional transformer
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
CN114330718A (zh) 因果关系的提取方法、装置及电子设备
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
CN111178065A (zh) 分词识别词库构建方法、中文分词方法和装置
US11989516B2 (en) Method and apparatus for acquiring pre-trained model, electronic device and storage medium
Stohr A mathematical programming generator system in APL
US20230237037A1 (en) System and method for concept creation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant