CN115936008A - 一种文本建模模型的训练方法、文本建模方法及装置 - Google Patents

一种文本建模模型的训练方法、文本建模方法及装置 Download PDF

Info

Publication number
CN115936008A
CN115936008A CN202211663799.3A CN202211663799A CN115936008A CN 115936008 A CN115936008 A CN 115936008A CN 202211663799 A CN202211663799 A CN 202211663799A CN 115936008 A CN115936008 A CN 115936008A
Authority
CN
China
Prior art keywords
text
layer
model
training
rbm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211663799.3A
Other languages
English (en)
Other versions
CN115936008B (zh
Inventor
李慧
郭超
韦崴
宋文芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Industry Engineering Co ltd
Original Assignee
China Electronics Industry Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronics Industry Engineering Co ltd filed Critical China Electronics Industry Engineering Co ltd
Priority to CN202211663799.3A priority Critical patent/CN115936008B/zh
Publication of CN115936008A publication Critical patent/CN115936008A/zh
Application granted granted Critical
Publication of CN115936008B publication Critical patent/CN115936008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Machine Translation (AREA)

Abstract

本申请属于文本建模技术领域,具体涉及到一种文本建模模型的训练方法、文本建模方法及装置。通过将基于退火算法的RBM训练方法加入到文本建模模型的训练过程中,并训练文本建模模型的模型参数为全局最优值,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。

Description

一种文本建模模型的训练方法、文本建模方法及装置
技术领域
本申请属于文本建模技术领域,具体涉及到一种文本建模模型的训练方法、文本建模方法及装置。
背景技术
新闻、论坛、社交媒体等平台充斥着海量的文本数据,大数据情报系统需要从这些文本数据中快速获取情报,第一步就是对文本进行建模,将文本表示为计算机可以理解的形式。
文档作为一种常见的多媒体表现形式,一直是人们研究的热点之一,文档建模就是将文档表示为计算机可以理解的形式,以便后续的文本操作,比如文本分类、文本挖掘等等。文档建模领域最常用的模型是TF-IDF,其中TF(Term Frequency)是词频,表示词在查询文档中出现的次数,IDF(Inverse Document Frequency)是逆文档频率,表示含有某词的文档在所有文档中所占的比例,TF-IDF即为两者的乘积,表示词在文档中的重要性,即为权重值。
TF-IDF模型简单易用,但是忽略了很重要的语义信息,而且TF-IDF在处理短文本方面非常困难,对微博、微信等短文本束手无策。现有技术基于此提出了其他改进模型,例如,随后提出的LSA通过奇异值分解(Singular Value Decomposition,SVD)来提取低维的语义结构,以获取“词-文档”关联矩阵的低阶近似。这种方法引入了“语义”的内容,但是LSA是一种线性的方法,获取的语义知识的种类非常有限。
在LSA的启发下,产生了LSA的概率版本pLSA,将主题的概念巧妙的引入了文档和词之间,形成了三层的图模型,但是这种图模型训练起来非常耗时,且容易产生过拟合的现象。随后在pLSA的基础上,产生了文档级别的生成模型LDA,将先验概率加入到了模型中,使得模型的可解释性更强,但这些概率模型可以看成一个图模型,这种图模型的推理是非常困难的,提取的高维语义特征也非常有限。
由于现有技术中的文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息。
发明内容
为此,本申请提供提出一种文本建模的方法及装置,有助于帮助解决现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
为实现以上目的,本申请采用如下技术方案:
根据本发明实施例的第一方面,提供一种文本建模模型的训练方法,包括:
获取待训练的文本数据,并提取所述文本数据的词频向量;
将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数,所述预设训练方法包括:基于退火算法的RBM训练方法;
对所述模型参数进行参数调优,得到所述模型参数的全局最优值;
将所述全局最优值对应的深度生成模型,确定为文本建模模型;
其中,所述文本建模模型用于接收输入文本的词频向量,并生成所述词频向量对应在输入文本中的高维语义地址。
根据本发明实施例的第二方面,提供一种文本建模方法,包括:
获取待建模文本的文本数据,并提取所述文本数据的词频向量;
将所述词频向量输入到文本建模模型中,得到待建模文本的高维语义地址,所述高维语义地址为文本建模结果;所述文本建模模型通过第一方面的训练方法训练得到。
根据本发明实施例的第三方面,提供一种文本建模模型的训练装置,包括:
提取模块,用于获取待建模文本的文本数据,并提取所述文本数据的词频向量;
建模模块,将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数,所述预设训练方法包括:基于退火算法的RBM训练方法;对所述模型参数进行参数调优,得到所述模型参数的全局最优值;将所述全局最优值对应的深度生成模型,确定为文本建模模型;其中,所述文本建模模型用于接收输入文本的词频向量,并生成所述词频向量对应在输入文本中的高维语义地址。
根据本发明实施例的第四方面,提供一种文本建模装置,包括:
处理单元,用于获取待建模文本的文本数据,并提取所述文本数据的词频向量;
建模单元,用于将所述词频向量输入到文本建模模型中,得到待建模文本的高维语义地址,所述高维语义地址为文本建模结果;所述文本建模模型通过上述的训练方法训练得到。
根据本发明实施例的第五方面,提供一种电子装置,包括:
存储器和处理器;
所述存储器存储计算机序;
所述处理器执行所述存储器中所存储的程序,实现上述的方法。
本申请采用以上技术方案,至少具备以下有益效果:
通过将基于退火算法的RBM训练方法加入到文本建模模型的训练过程中,并训练文本建模模型的模型参数为全局最优值,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种文本建模模型的训练方法的流程图;
图2是根据一示例性实施例示出的预先构建的深度生成模型的结构示意图;
图3是根据一示例性实施例示出的逐层预训练的流程示意图;
图4是根据一示例性实施例示出的基于退火算法的RBM训练方法的流程示意图;
图5是根据一示例性实施例示出的参数调优的流程示意图;
图6是根据一示例性实施例示出的文本建模方法的流程图;
图7是根据一示例性实施例示出的RBM模型结构示意图;
图8是根据一示例性实施例示出的退火转换的状态提议过程示意图;
图9是根据一示例性实施例示出的一种文本建模模型的训练装置示意框图;
图10是根据一示例性实施例示出的一种文本建模装置的示意框图;
图11是根据一示例性实施例示出的电子装置的示意框图。
附图说明:101-获取模块;102-建模模块;201-处理器;202-存储器;301-处理单元;302-建模单元。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。
参见图1,图1是本发明一示例性实施例提出的一种文本建模模型的训练方法的流程图,该方法包括:
步骤S11、获取待训练的文本数据,并提取所述文本数据的词频向量;
步骤S12、将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数,所述预设训练方法包括:基于退火算法的RBM训练方法;
步骤S13、对所述模型参数进行参数调优,得到所述模型参数的全局最优值;
步骤S14、将所述全局最优值对应的深度生成模型,确定为文本建模模型;
其中,所述文本建模模型用于接收输入文本的词频向量,并生成所述词频向量对应在输入文本中的高维语义地址,所述高维语义地址与高维语义特征相关。
需要说明的是,本实施例提供的技术方案,在具体实践中,需要加载于新闻、论坛、社交媒体等平台的WEB服务器中或电子设备中运行,尤其适用于对新闻、论坛、社交媒体等信息的文本建模。
可以理解的是,本实施例提供的技术方案,通过将基于退火算法的RBM训练方法加入到文本建模模型的训练过程中,并训练文本建模模型的模型参数为全局最优值,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
在具体实践中,所述步骤S11中“获取待训练的文本数据,并提取所述文本数据的词频向量”包括:
首先把所有待训练的文本数据进行分词,将所有的不同词组成一个词典(W1,W2,…,Wn),然后,针对每篇文本数据,进行分词,获取n维的词频向量,向量中的每个值就是这个词的数量,比如(1,0,2,28,…,5)。
由于如何提取文本数据中的词频向量为现有技术,本实施例不再赘述。
参见图2,所述预先构建的深度生成模型自下而上包括:一个可见层v、至少一个隐层h(图2中给出的是具有两个隐层的深度生成模型,其中,h1代表自下而上的第一个隐层,h2代表自下而上的第二个隐层)和一个地址层h3
在具体实践中,所述步骤S12中“将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数”,包括:
1、将所述深度生成模型自下而上划分为多个有交叠关系的RBM结构,参见图3,以隐层有两层为例,所述将所述深度生成模型自下而上划分为多个有交叠关系的RBM结构,包括:
将所述可见层v和自下而上的第一个隐层h1组成的无向的两层网络结构,标记为一个RBM结构;
将自下而上的最后一个隐层h2和所述地址层h3组成的无向的两层网络结构,标记一个RBM结构;
对所有的隐层,自下而上以一个隐层为步进单位,每两个隐层组成的无向的两层网络结构,标记一个RBM结构(例如,图3中的隐层h1和h2构成一个RBM结构)。
2、对所述多个有交叠关系的RBM结构的第一个RBM结构,使用所述词频向量作为输入数据,利用受限泊松模型学习其模型参数w1。
3、对所述多个有交叠关系的RBM结构的其余RBM结构,自下而上使用前一个RBM结构中的隐层在训练数据上的激活概率作为输入,基于退火算法的RBM训练方法逐层预训练,得到各层的模型参数wn,1<n≤N,N为所述深度生成模型所包含的有交叠关系的RBM结构的总数量。
为了便于理解上述的2和3的具体训练过程,现仍以图3所示的模型结构为例,详细阐述如下:
具体的,限制玻尔兹曼机(RestrictedBoltzmann Machines,简称RBM),可以自动提取的特征解决了手工特征考虑不周的因素,而且很好的初始化了神经网络权重,接着可以采用反向传播算法进行分类,实验得出了很好的效果。RBM在本实施例中是一个马尔科夫随机场,也是一个双边无向图模型。如图7所示,图中的RBM训练可见层v和隐层h之间的模型参数,包括权重矩阵w、可见层v的实值偏置向量b和隐层h的实值偏置向量c,w、b和c是RBM的参数,w是可见层单元和隐层单元连接边上的实值权重,b和c分别是可见单元和隐层单元上的实值偏置项。
如图3所示的逐层预训练的流程示意图,采用了逐层无监督的方法来学习参数。首先把将训练文本数据提取的词频向量作为可见层V输入的激活概率,激活概率也就是可见层V的数据向量,可见层V数据向量和隐层h1,训练出这个RBM的参数w1(连接v和h1的权重,v和h1各个节点的偏置等等),然后固定这个RBM的参数,把h1视作可见向量,把h2视作隐层向量,训练第二个RBM,得到其参数w2,然后固定这些参数,训练h2和h3构成的RBM,即在训练过程中,首先将可视向量值映射给隐单元,然后用隐层单元重建可视向量,接着再将可视向量值映射给隐单元……反复执行这种步骤。基于退火算法的RBM训练方法逐层预训练,得到各层的模型参数wn,1<n≤N,N为所述深度生成模型所包含的有交叠关系的RBM结构的总数量。
示例性的,如图2所示是一个4层的深度生成模型,4层分别为可见层v,隐层h1,隐层h2和地址层h3,此时所述深度生成模型所包含的有交叠关系的RBM结构的总数量N=4。
将可见层v和隐层h1构成一个无向的两层网络结构,也就是一个RBM,使用训练文本的词频向量作为输入数据,利用受限泊松模型(PoisSon model因变量服从泊松分布的计数模型)学习其参数w1,w1为可见层v与隐层h1之间连接的权重,w2和w3同理。
将隐层h1和隐层h2构成一个新的RBM,使用隐层h1在训练数据上的激活概率作为输入,采用基于退火算法的RBM训练方法进行训练,得到此RBM的参数w2;
重复类似第二步的步骤,不断向上叠加新的层,直到达,4层的深度要求,得到参数w4。
优选的,所述模型参数w1包括权重矩阵w1、可见层的实值偏置向量b1和隐层的实值偏置向量c1,可见层v的维度为m;所述利用受限泊松模型学习其模型参数w1包括:通过以下步骤得到参数w1,包括:
将第一个RBM结构中的可见层记为v,隐层记为h1
输入可见层v,计算隐层向量h1中每个单元的值:
其中σ(x)=1/(1+e-x)是Sigmoid激励方程;其中,vi是可见层单元i的输入值,bi是可见层单元i的实值偏置项,wij表示可见单元i和隐层单元j之间连接的权重;
为隐层h1赋随机值,为每个可见层单元vi重建泊松率:
其中,Ps(x,y)=e-yyx/x!,表示文档的总长度,cj分别隐层单元j的实值偏置项;
将公式(2)计算得到的P值代回到公式(1)中,重新计算隐层向量h1中每个单元的值;
可见层单元i和隐层单元j之间连接的权重为例,更新公式为:
其中η是学习率,表示数据分布中,可见层单元i和隐层单元j同时不为0的次数,表示重建分布中,可见层单元i和隐层单元j同时不为0的次数。
本实施例中,构建一个G层的深度生成模型,具体层数和每层的单元数不做限制,其中包括一个可见层v和G-1个隐层(h1,h2…hG-1),本实施例主要分为两个部分:文本建模模型的训练和文本建模模型的实际运用。
在模型训练部分,可以进一步划分为:逐层预训练和参数调优。
逐层预训练包括的详细步骤如下:
A1:训练可见层v和隐层h1之间的模型参数w1,包括权重矩阵w1、可见层v的实值偏置向量b1和隐层h1的实值偏置向量c1,可见层v的维度为m,即可见层v包含m个可见单元,隐层h1包含n个隐层单元,即特征单元。
A11:初始化权重矩阵w1、权重向量b1和权重向量c1为随机数据
A12:将文本转化为词频向量,输入可见层v,计算隐层向量h1中每个单元的值:
其中σ(x)=1/(1+e-x)是Sigmoid激励方程。vi是可见层单元i的输入值,bi是可见层单元i的实值偏置项,wij表示可见单元i和隐层单元j之间连接的权重,1≤i≤m,1≤j≤n。
A13:为隐层h1赋随机值,为每个可见层单元vi重建泊松率:
其中,Ps(x,y)=e-yyx/x!,表示文档的总长度,cj分别隐层单元j的实值偏置项。
A14:将A13中的公式(2)得到的结果向量作为输入,执行A12中的公式(1),得到隐层值,自此得到两套v和h的值,包括A12步得到的,称之为数据分布,A13和A14得到的,称之为重建分布。
A15:参数的更新采用log似然的梯度上升法,以可见层单元i和隐层单元j之间连接的权重为例,更新公式为:
其中η是学习率,表示数据分布中,可见层单元i和隐层单元j同时不为0的次数,表示重建分布中,可见层单元i和隐层单元j同时不为0的次数。权重向量b和c的更新与权重矩阵更新类似。
优选的,所述退火转换的RBM训练方法包括:
初始化参数梯度为0;
初始化每个马尔科夫链的当前状态为随机向量;
正阶段,对于所有的可见层输入文本数据,从中抽样隐层特征,得到正阶段样本;
负阶段,马尔科夫链从较低温度向较高温度不断抽样,从较高温度向较低温度不断抽样,判定是否接受新样本;若否,使用正阶段样本,若是,使用新样本,作为负阶段样本;
计算梯度,根据所述正阶段样本和所述负阶段样本计算梯度。
具体的,马尔科夫链(Markov Chain),是随机变量的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”。
示例性的,上述基于退火转换的状态提议过程,如图8所示,采用log似然梯度上升法,梯度的计算中主要包括两项,第一项叫做正阶段项,是当可见变量v被训练数据赋值时,对隐层变量h抽样的结果,即条件概率P(h|v)。第二项叫做负阶段项,计算这一项要求获得模型的联合样本P(v,h),在获取联合样本分布时,采用基于退火转换的马尔科夫链抽样方法,在要求的分布和更容易求得的分布中插入一个连续的分布序列,退火转换从要求的分布系统地移动到温度更高、更容易抽样的分布中,然后再移动回要求的分布,整个状态的提议过程如图8所示:图中的多个分布即为不同温度下的马尔科夫链,最下面的马尔科夫链是原始分布,自下而上温度越来越高,在温度高的时候,分布会变得平滑,1至9为马尔科夫链的状态,9是整个分布的极值状态,2是分布的局部极值,采用退火转换的方法,通过将温度提高再采样,可以从状态1到状态9,越过局部极值2,在处理多峰分布时,达到最优极值。
退火转换的RBM训练方法具体流程如图4所示。详细步骤如下:
A2:对于隐层hg,1≤g≤G-2,将隐层hg和隐层hg+1组建为一个RBM结构,隐层hg当作RBM的可见层v,隐层hg+1当作RBM的隐层h,隐层hg和隐层hg+1组建的RBM的参数包括了权重矩阵wg、权重向量bg和权重向量cg。为了描述方便,在RBM的训练过程中,隐层hg用v代替,隐层hg +1用h代替,模型参数wg、bg和cg分别用w、b和c代替。
A21:初始化阶段,初始化参数梯度,即模型训练过程中参数的变化值,Δw、Δb和Δc都为0,设置马尔科夫链的数量K,初始化每个链(vk,hk)的当前状态为随机向量,其中1≤k≤K。
A22:正向阶段,对于所有的样本v∈S,其中S是训练样本集,计算h:
其中σ(x)=1/(1+e-x)是Sigmoid激励方程。hj是隐层单元j的值,Vi是可见单元i的值,m是可见层v的维度,wij表示可见单元i和隐层单元j之间连接的权重,bi是可见单元i的实值偏置项。
A23:负向阶段,对于所有的v∈S,定义K个马尔科夫链,每个马尔科夫链具有不同的倒温度β1,...,βK,其中β1<...<βK=1,当k=K时,马尔科夫链是原始的分布,即温度最低的分布,k=1时,马尔科夫链是最高温分布。负向阶段的训练过程首先从低温到高温,再从高温回到低温,从低温到高温的分布用(vk,hk)表示,从高温回到低温的分布用表示,以示区分。
从低温到高温的过程,对于每个马尔科夫链(vk,hk),k从K到2,利用vk计算hk
再利用hk计算vk-1,计算公式为:
对于k=1的马尔科夫链(v1,h1),同样的,利用上述公式,输入v1得到h1
从高温再回到低温的过程,将初始化为v1,对于每个马尔科夫链k从1到K-1,
利用计算再利用计算公式同上。
之后,考虑k=K的马尔科夫链,从计算公式同上。
最后,判定是否接受判定依据为:
其中,K表示马尔科夫链的数量,β表示马尔科夫链的倒温度,β1<...<βK=1,E(v,h)是能量方程,计算公式为:
其中wij是单元vi和hj之间的边上的实值权重,bi和cj分别是第i个可见单元和第j个隐单元上的实值偏置项。
A24:估计参数梯度,以权重矩阵为例:
其中,S为样本集的数量,权重向量b和c的更新类似。
A3:重复A2步骤两次,得到5层的深度生成模型初始参数;
在具体实践中,所述步骤S13中“对所述模型参数进行参数调优,得到所述模型参数的全局最优值”包括:
将每个RBM结构向上翻转形成一个深度自动编码机;
将词频向量除以词的总数,得到词的概率分布,作为输入向量;
采用向后传播方法进行训练,得到参数的全局最优值。
参数调优的详细步骤如下:
第一步:每层RBM向上翻转形成一个深度自动编码机,这一结构的特点是以原模型的最顶层为对称轴上下对称,并且连接的箭头都由下到上,对称轴的层叫做代码层,从输入层到代码层构成编码器,从代码层到输出层构成解码器。
第二步:将词频向量除以词的总数,得到词的概率分布,作为输入向量。
第三步:采用向后传播方法进行训练,得到参数的全局最优值。
在具体实践中,所述步骤S14中“所述全局最优值对应的深度生成模型,确定为文本建模模型;其中,所述文本建模模型用于接收输入文本的词频向量,并生成所述词频向量对应在输入文本中的高维语义地址,所述高维语义地址与高维语义特征相关。”包括:
本实施例中,主要是对上述训练方法最终得到的文本建模模型进行实际运用。输入文本的词频向量至所述文本建模模型,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
参见图6,图6为本发明一示例性实施例提出的一种文本建模方法的流程图,该方法包括:
步骤S21、获取待建模文本的文本数据,并提取所述文本数据的词频向量;
步骤S22、将所述词频向量输入到文本建模模型中,得到待建模文本的高维语义地址,所述高维语义地址为文本建模结果;所述文本建模模型通过可以参考以上任一实施例所述的文本建模模型的训练方法训练得到。
需要说明的是,本实施例提供的技术方案,在具体实践中,需要加载于新闻、论坛、社交媒体等平台的WEB服务器中或电子设备中运行,尤其适用于对新闻、论坛、社交媒体等信息的文本建模。
可以理解的是,本实施例提供的技术方案,基于训练好的文本建模模型实现,而该文本建模模型在训练过程中通过将基于退火算法的RBM训练方法加入到文本建模模型的训练过程中,并训练文本建模模型的模型参数为全局最优值,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
参见图9,图9为本发明一示例性实施例提出的一种文本建模模型的训练装置的示意框图,该装置包括:
提取模块101,用于获取待建模文本的文本数据,并提取所述文本数据的词频向量;
建模模块102,将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数,所述预设训练方法包括:基于退火算法的RBM训练方法;对所述模型参数进行参数调优,得到所述模型参数的全局最优值;将所述全局最优值对应的深度生成模型,确定为文本建模模型;其中,所述文本建模模型用于接收输入文本的词频向量,并生成所述词频向量对应在输入文本中的高维语义地址。
具体的,文本建模模型的训练装置具体实现方法可以参考以上任一实施例所述的文本建模模型的训练方法的具体实施方式实施,此处不再赘述。
需要说明的是,本实施例提供的技术方案,在具体实践中,需要加载于新闻、论坛、社交媒体等平台的WEB服务器中或电子设备中运行,尤其适用于对新闻、论坛、社交媒体等信息的文本建模。
可以理解的是,本实施例提供的技术方案,通过将基于退火算法的RBM训练方法加入到文本建模模型的训练过程中,并训练文本建模模型的模型参数为全局最优值,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
参见图10,图10为本发明一示例性实施例提出的一种文本建模装置的示意框图,该装置包括:
处理单元301,用于获取待建模文本的文本数据,并提取所述文本数据的词频向量;
建模单元302,用于将所述词频向量输入到文本建模模型中,得到待建模文本的高维语义地址,所述高维语义地址为文本建模结果;所述文本建模模型可以参考以上任一实施例所述的文本建模模型的训练方法步骤得到。
具体的,文本建模装置的具体实现方法可以参考以上任一实施例所述的文本建模方法的具体实施方式,此处不再赘述。
需要说明的是,本实施例提供的技术方案,在具体实践中,需要加载于新闻、论坛、社交媒体等平台的WEB服务器中或电子设备中运行,尤其适用于对新闻、论坛、社交媒体等信息的文本建模。
可以理解的是,本实施例提供的技术方案,基于训练好的文本建模模型实现,而该文本建模模型在训练过程中通过将基于退火算法的RBM训练方法加入到文本建模模型的训练过程中,并训练文本建模模型的模型参数为全局最优值,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
优选的,一种电子装置,包括:存储器201和处理器202;所述存储器存储计算机程序;所述处理器执行所述存储器中所存储的程序,实现上述所述的方法的步骤。
具体的,一种电子装置的具体实现方法可以参考以上任一实施例所述的文本建模方法的具体实施方式,此处不再赘述。
可以理解的是,本实施例提供的技术方案,基于训练好的文本建模模型实现,而该文本建模模型在训练过程中通过将基于退火算法的RBM训练方法加入到文本建模模型的训练过程中,并训练文本建模模型的模型参数为全局最优值,使得训练得到的文本建模模型能够输出词频向量对应在输入文本中的高维语义地址,由于高维语义地址提取了文本的深层次语义信息,从而更加准确的表示文本信息,解决了现有技术中由于文本建模模型提取的高维语义特征非常有限,导致情报系无法基于这些文本建模模型输出的语义特征快速获取情报信息的问题。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”、“多”的含义是指至少两个。
应该理解,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者可能同时存在居中元件;当一个元件被称为“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,此外,这里使用的“连接”可以包括无线连接;使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种文本建模模型的训练方法,其特征在于,包括:
获取待训练的文本数据,并提取所述文本数据的词频向量;
将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数,所述预设训练方法包括:基于退火算法的RBM训练方法;
对所述模型参数进行参数调优,得到所述模型参数的全局最优值;
将所述全局最优值对应的深度生成模型,确定为文本建模模型;
其中,所述文本建模模型用于接收输入文本的词频向量,并生成所述词频向量对应在输入文本中的高维语义地址,所述高维语义地址与高维语义特征相关。
2.根据权利要求1所述的方法,其特征在于,所述预先构建的深度生成模型自下而上包括:一个可见层、至少一个隐层和一个地址层;所述将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数,包括:
将所述深度生成模型自下而上划分为多个有交叠关系的RBM结构;
对所述多个有交叠关系的RBM结构的第一个RBM结构,使用所述词频向量作为输入数据,利用受限泊松模型学习其模型参数w1;
对所述多个有交叠关系的RBM结构的其余RBM结构,自下而上使用前一个RBM结构中的隐层在训练数据上的激活概率作为输入,基于退火算法的RBM训练方法逐层预训练,得到各层的模型参数wn,1<n≤N,N为所述深度生成模型所包含的有交叠关系的RBM结构的总数量。
3.根据权利要求2所述的方法,其特征在于,所述将所述深度生成模型自下而上划分为多个有交叠关系的RBM结构,包括:
将所述可见层和自下而上的第一个隐层组成的无向的两层网络结构,标记为一个RBM结构;
将自下而上的最后一个隐层和所述地址层组成的无向的两层网络结构,标记一个RBM结构;
对所有的隐层,自下而上以两个隐层为步进单位,每两个隐层组成的无向的两层网络结构,标记一个RBM结构。
4.根据权利要求2所述的方法,其特征在于,所述模型参数w1包括权重矩阵w1、可见层的实值偏置向量b1和隐层的实值偏置向量c1,所述利用受限泊松模型学习其模型参数w1包括:通过以下步骤得到参数w1,包括:
将第一个RBM结构中的可见层记为v,隐层记为h1,可见层v包含m个可见单元,隐层h1包含n个隐层单元;
输入可见层v,计算隐层向量h1中每个单元
Figure FDA0004013884010000021
的值:
Figure FDA0004013884010000022
其中σ(x)=1/(1+e-x)是Sigmoid激励方程;其中,vi是可见层单元i的输入值,bi是可见层单元i的实值偏置项,wij表示可见单元i和隐层单元j之间连接的权重,1≤i≤m,1≤j≤n;
为隐层h1赋随机值,为每个可见层单元vi重建泊松率:
Figure FDA0004013884010000023
Figure FDA0004013884010000024
表示文档的总长度,cj为隐层单元j的实值偏置项;
将公式(2)计算得到的P值代回到公式(1)中,重新计算隐层向量h1中每个单元
Figure FDA0004013884010000025
的值;
可见层单元i和隐层单元j之间连接的权重
Figure FDA0004013884010000026
根据公式(3)和(4)进行更新:
Figure FDA0004013884010000027
Figure FDA0004013884010000028
其中η是学习率,
Figure FDA0004013884010000029
表示数据分布中,可见层单元i和隐层单元j同时不为0的次数,
Figure FDA00040138840100000210
表示重建分布中,可见层单元i和隐层单元j同时不为0的次数。
5.根据权利要求1所述的一种文本建模模型的训练方法,其特征在于,所述退火转换的RBM训练方法包括:
初始化参数梯度为0;
初始化每个马尔科夫链的当前状态为随机向量;
正阶段,对于所有的可见层输入文本数据,从中抽样隐层特征,得到正阶段样本;
负阶段,马尔科夫链从较低温度向较高温度不断抽样,从较高温度向较低温度不断抽样,判定是否接受新样本;若否,使用正阶段样本,若是,使用新样本,作为负阶段样本;
计算梯度,根据所述正阶段样本和所述负阶段样本计算梯度。
6.根据权利要求2所述的一种文本建模模型的训练方法,其特征在于,所述对所述模型参数进行参数调优包括:
将每个RBM结构向上翻转形成一个深度自动编码机;
将词频向量除以词的总数,得到词的概率分布,作为输入向量;
采用向后传播方法进行训练,得到参数的全局最优值。
7.一种文本建模方法,其特征在于,包括:
获取待建模文本的文本数据,并提取所述文本数据的词频向量;
将所述词频向量输入到文本建模模型中,得到待建模文本的高维语义地址,所述高维语义地址为文本建模结果;所述文本建模模型通过权利要求1~6任一项所述的训练方法训练得到。
8.一种文本建模模型的训练装置,其特征在于,包括:
提取模块,用于获取待建模文本的文本数据,并提取所述文本数据的词频向量;
建模模块,将所述词频向量输入到预先构建的深度生成模型中,根据预设训练方法逐层预训练,得到各层的模型参数,所述预设训练方法包括:基于退火算法的RBM训练方法;对所述模型参数进行参数调优,得到所述模型参数的全局最优值;将所述全局最优值对应的深度生成模型,确定为文本建模模型;其中,所述文本建模模型用于接收输入文本的词频向量,并生成所述词频向量对应在输入文本中的高维语义地址。
9.一种文本建模装置,其特征在于,包括:
处理单元,用于获取待建模文本的文本数据,并提取所述文本数据的词频向量;
建模单元,用于将所述词频向量输入到文本建模模型中,得到待建模文本的高维语义地址,所述高维语义地址为文本建模结果;所述文本建模模型通过权利要求1~6任一项所述的训练方法训练得到。
10.一种电子装置,其特征在于,包括:
存储器和处理器;
所述存储器存储计算机程序;
所述处理器执行所述存储器中所存储的程序,实现权利要求7任意所述的一种文本建模的方法的步骤。
CN202211663799.3A 2022-12-23 2022-12-23 一种文本建模模型的训练方法、文本建模方法及装置 Active CN115936008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211663799.3A CN115936008B (zh) 2022-12-23 2022-12-23 一种文本建模模型的训练方法、文本建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211663799.3A CN115936008B (zh) 2022-12-23 2022-12-23 一种文本建模模型的训练方法、文本建模方法及装置

Publications (2)

Publication Number Publication Date
CN115936008A true CN115936008A (zh) 2023-04-07
CN115936008B CN115936008B (zh) 2023-10-31

Family

ID=86555444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211663799.3A Active CN115936008B (zh) 2022-12-23 2022-12-23 一种文本建模模型的训练方法、文本建模方法及装置

Country Status (1)

Country Link
CN (1) CN115936008B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317558A1 (en) * 2014-05-01 2015-11-05 Lockheed Martin Corporation Quantum-assisted training of neural networks
CN108573068A (zh) * 2018-05-02 2018-09-25 重庆邮电大学 一种基于深度学习的文本表示与分类方法
CN109033304A (zh) * 2018-07-17 2018-12-18 西安电子科技大学 基于在线深层主题模型的多模态检索方法
WO2020176253A1 (en) * 2019-02-28 2020-09-03 Microsoft Technology Licensing, Llc Quantum relative entropy training of boltzmann machines
CN111758108A (zh) * 2018-01-17 2020-10-09 非学习人工智能股份有限公司 用于对概率分布进行建模的系统和方法
CN113128235A (zh) * 2019-12-31 2021-07-16 广东爱因智能数字营销有限公司 一种语义理解方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150317558A1 (en) * 2014-05-01 2015-11-05 Lockheed Martin Corporation Quantum-assisted training of neural networks
CN111758108A (zh) * 2018-01-17 2020-10-09 非学习人工智能股份有限公司 用于对概率分布进行建模的系统和方法
CN108573068A (zh) * 2018-05-02 2018-09-25 重庆邮电大学 一种基于深度学习的文本表示与分类方法
CN109033304A (zh) * 2018-07-17 2018-12-18 西安电子科技大学 基于在线深层主题模型的多模态检索方法
WO2020176253A1 (en) * 2019-02-28 2020-09-03 Microsoft Technology Licensing, Llc Quantum relative entropy training of boltzmann machines
CN113128235A (zh) * 2019-12-31 2021-07-16 广东爱因智能数字营销有限公司 一种语义理解方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HENGYUAN HU等: "Deep Restricted Boltzmann Networks", pages 1 - 8, Retrieved from the Internet <URL:https://arxiv.org/abs/1611.07917> *
MARK POLYAK: "Data processing using Boltzmann Machines", 《RESEARCHGATE》, pages 1 - 8 *
李文轩等: "基于复合优化的深度玻尔兹曼机的路牌文字图像识别算法", 《计算机工程与科学》, vol. 41, no. 1, pages 79 - 85 *
黄佳佳等: "基于深度学习的主题模型研究", 《计算机学报》, vol. 43, no. 5, pages 827 - 855 *

Also Published As

Publication number Publication date
CN115936008B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN110807154B (zh) 一种基于混合深度学习模型的推荐方法与系统
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
JP7360497B2 (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN112115700B (zh) 一种基于依存句法树和深度学习的方面级情感分析方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN107369098B (zh) 社交网络中数据的处理方法和装置
CN108108354B (zh) 一种基于深度学习的微博用户性别预测方法
JP6498095B2 (ja) 単語埋込学習装置、テキスト評価装置、方法、及びプログラム
WO2018023356A1 (en) Machine translation method and apparatus
US20190286978A1 (en) Using natural language processing and deep learning for mapping any schema data to a hierarchical standard data model (xdm)
Ghanbari et al. Reconstruction of gene networks using prior knowledge
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN111400494A (zh) 一种基于GCN-Attention的情感分析方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
Ratnawati et al. Sentiment Analysis of Movie Opinion in Twitter Using Dynamic Convolutional Neural Network Algorithm
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
Ayata et al. Busem at semeval-2017 task 4a sentiment analysis with word embedding and long short term memory rnn approaches
Stanojevic et al. Surveying public opinion using label prediction on social media data
CN116932686B (zh) 主题挖掘方法、装置、电子设备及存储介质
JP2018041300A (ja) 機械学習用モデル生成装置及びプログラム。
CN109117471B (zh) 一种词语相关度的计算方法及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant