CN110765779B - 字矩阵的训练方法及装置 - Google Patents
字矩阵的训练方法及装置 Download PDFInfo
- Publication number
- CN110765779B CN110765779B CN201911083289.7A CN201911083289A CN110765779B CN 110765779 B CN110765779 B CN 110765779B CN 201911083289 A CN201911083289 A CN 201911083289A CN 110765779 B CN110765779 B CN 110765779B
- Authority
- CN
- China
- Prior art keywords
- matrix
- word
- training
- semantic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种字矩阵的训练方法及装置。其中,该方法包括:获取目标语句的字向量以及与字向量对应的字矩阵;依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出第二训练结果中确定的目标字矩阵。本发明解决了现有技术中计算机处理自然语言时训练出的字向量无法准确表征语义,导致计算机处理自然语言的准确性较低的技术问题。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种字矩阵的训练方法及装置。
背景技术
在本技术领域中,对于计算机处理自然语言而言,由于每个字、字母、数字等等只是一个没有任何含义的编码,这给计算机处理自然语言带来诸多不便。
2013年Google团队发表了Word2Vec工具,Word2Vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuousbagofwords,简称CBOW),以及两种近似训练法:负采样(negativesampl ing)和层序softmax(hierarchicalsoftmax)。Word2Vec可以将词或者字转换成一个指定维度的向量,一般情况下使用100到300维的向量,它生成的词向量可以较好地表达不同词之间的相似和类比关系。它可以把用法相似的词或字表达成一个每一维都是一个实数相似的稠密向量,这种低维的稠密向量便于计算机处理,大幅度提升了计算机处理自然语言的效果。
现在用的词向量大部分是受Word2Vec启发和其有相似的特点,利用无监督模型把用法接近的词或字表达成相似向量。在句子“我喜欢草莓”和“我讨厌草莓”中,“喜欢”和“讨厌”用法相同,就造成了当前的词向量不能区分“喜欢”和“讨厌”。并且,由于汉语处理起来比较复杂,分词并不是很容易,所以一般情况下用的是字向量。语义相似度计算,将两句话的每一个字对应的字向量相加后得到两句话的语义向量,但是由于向量加法运算具有交换律,即a+b=b+a,使得实际语义不同的词语得到相同的语义向量,例如:“京东”和“东京”,“人生”和“生人”,“风扇”和“扇风”,“带领”和“领带”等词的对应的语义向量是一样的,导致计算机处理自然语言的准确性较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种字矩阵的训练方法及装置,以至少解决现有技术中计算机处理自然语言时训练出的字矩阵无法准确表征语义,导致计算机处理自然语言的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种字矩阵的训练方法,包括:获取目标语句的字向量以及与字向量对应的字矩阵;依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出第二训练结果中确定的目标字矩阵。
根据本发明实施例的另一方面,还提供了一种字矩阵的训练装置,包括:获取模块,用于获取目标语句的字向量以及与字向量对应的字矩阵;第一训练模块,用于依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;第二训练模块,用于依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出模块,用于输出第二训练结果中确定的目标字矩阵。
根据本发明实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的字矩阵的训练方法。
根据本发明实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的字矩阵的训练方法。
在本发明实施例中,通过获取目标语句的字向量以及与字向量对应的字矩阵;依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出第二训练结果中确定的目标字矩阵,达到了提高计算机处理自然语言时训练出的字矩阵所表征语义的准确性的目的,从而实现了提高计算机处理自然语言的准确性的技术效果,进而解决了现有技术中计算机处理自然语言时训练出的字矩阵无法准确表征语义,导致计算机处理自然语言的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种字矩阵的训练方法的流程图;
图2是根据本发明实施例的一种可选的字矩阵的训练方法的流程图;
图3是根据本发明实施例的一种字矩阵的训练装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种字矩阵的训练方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种字矩阵的训练方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标语句的字向量以及与字向量对应的字矩阵;
步骤S104,依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;
步骤S106,依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;
步骤S108,输出第二训练结果中确定的目标字矩阵。
在本发明实施例中,通过获取目标语句的字向量以及与字向量对应的字矩阵;依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出第二训练结果中确定的目标字矩阵,达到了提高计算机处理自然语言时训练出的字矩阵所表征语义的准确性的目的,从而实现了提高计算机处理自然语言的准确性的技术效果,进而解决了现有技术中计算机处理自然语言时训练出的字矩阵无法准确表征语义,导致计算机处理自然语言的准确性较低的技术问题。
可选的,本申请实施例在确定目标语句的字向量对应的字矩阵的基础上,添加近语义模型和反语义模型,并且不同语义模型配合固定类型的训练数据来完成训练,例如,近语义模型需要配合近义语料数据对该字向量对应的字矩阵进行训练,得到第一训练结果;反语义模型需要配合反义语料数据(无关语料数据和相反语料数据)对该第一训练结果进行训练,得到第二训练结果,进而输出第二训练结果中的目标字矩阵。作为一种可选的实施例,假设“好”字的初始字矩阵为[4,1,3,3],依据近语义模型和近义语料数据对上述字矩阵进行训练,得到第一训练结果[3,1,2,1],依据反语义模型和反义语料数据对上述第一训练结果进行训练,得到第二训练结果[2,1,1,1]。
需要说明的是,上述训练中的调整并不局限于上述举例中用的整数,也可以仅限于微调,例如,仅仅改变小数点后的值。本申请实施例中的字矩阵的训练方法是一种迁移学习方法,由于第二训练结果是在第一训练结果的基础上进行调整得到的,随着交替训练若干次后,使得输出的目标字矩阵可以同时具备以上两种训练产生的效果。
需要说明的是,与字向量相比,字矩阵可以更好的表达一个句子的含义。在本申请实施例中,通过将字向量表达成字矩阵,利用矩阵乘法没有交换律的原理,进而可以表达颠倒词的实际含义。通过反语义模型和反义语料数据对字向量对应的字矩阵进行第二训练,使得相近含义的字向量拥有较大的角度,从而区分出用法相同,意思不相关的词语。由于字向量的维数必须是完全平方数,通过使用目标矩阵表达字词含义,使用矩阵相乘的方式表达句子含义,依据最终训练出的目标字矩阵可以解决现有技术中字向量的缺点。
在一种可选的实施例中,通过以下方式获取目标语句的字向量:
步骤S202,预先从文本语料数据中获取上述目标语句;
步骤S204,依据字向量产生模型对上述目标语句中的待训练字向量进行训练处理,得到上述字向量。
可选的,上述文本语料数据可以为从互联网中获取的新闻、文章、资讯等数据,上述目标语句可以为文本语料数据中的一句话;上述目标语句中的待训练字向量可以为目标语句中每个字或词对应的字向量。
可选的,上述字向量产生模型可以为Word2Vec模型,通过Word2Vec模型对上述目标语句中的待训练字向量进行训练处理,得到上述字向量。
在一种可选的实施例中,在获取目标语句的字向量以及与上述字向量对应的字矩阵之前,上述方法还包括:
步骤S302,预先定义上述目标字矩阵的矩阵大小;
步骤S304,通过对上述目标语句中每个字对应的待训练字向量进行初始化处理,得到初始化后的上述待训练字向量,其中,上述待训练字向量的向量维数与上述目标字矩阵的矩阵大小存在对应关系,上述向量维数为完全平方数。
可选的,上述待训练字向量的向量维数与上述目标字矩阵的矩阵大小存在对应关系,上述向量维数为完全平方数。通过使用目标矩阵表达字词含义,使用矩阵相乘的方式表达句子含义,依据最终训练出的目标字矩阵可以解决现有技术中字向量的缺点。可选的,上述初始化处理可以但不限于为随机初始化处理。
可选的,在本申请实施例中,在获取目标语句的字向量以及与上述字向量对应的字矩阵之前,需要预先定义目标字矩阵的矩阵大小,进而在输出该目标字矩阵时输出指定矩阵大小的目标字矩阵;并且,还可以通过对上述目标语句中每个字对应的待训练字向量进行初始化处理,得到初始化后的上述待训练字向量。
在一种可选的实施例中,在获取目标语句的字向量以及与上述字向量对应的字矩阵之之前,上述方法还包括:预先定义上述目标字矩阵的目标训练次数。
在一种可选的实施例中,在输出上述第二训练结果中确定的目标字矩阵之前,上述方法还包括:
步骤S402,获取上述目标字矩阵的当前训练次数,其中,上述当前训练次数的初始值为0;
步骤S404,比较上述当前训练次数是否小于上述目标训练次数,得到比较结果;
步骤S406,若上述比较结果指示上述当前训练次数小于上述目标训练次数,则返回执行上述获取目标语句的字向量以及与上述字向量对应的字矩阵的步骤;
步骤S408,若上述比较结果指示上述当前训练次数大于或等于上述目标训练次数,则执行输出上述第二训练结果中确定的目标字矩阵的步骤。
可选的,在本申请实施例中,通过预先定义目标字矩阵的目标训练次数,可以保证训练字矩阵的训练次数满足训练要求。具体的,上述当前训练次数为对上述字矩阵进行训练得到第一训练结果的次数,或对上述第一训练结果进行训练得到第二训练结果的次数。
通过获取上述目标字矩阵的当前训练次数,并将该当前训练次数与预先定义的目标训练次数进行比较,若比较结果为当前训练次数大于或等于上述目标训练次数,则执行输出上述第二训练结果中确定的目标字矩阵的步骤;若比较结果为当前训练次数小于上述目标训练次数,则返回执行上述获取目标语句的字向量以及与上述字向量对应的字矩阵的步骤,直至检测到当前训练次数大于或等于上述目标训练次数。
在一种可选的实施例中,依据近语义模型和近义语料数据对上述字矩阵进行训练,得到第一训练结果,包括:
步骤S502,获取上述近义语料数据中的第一语句和第二语句;
步骤S504,依据上述近语义模型通过将上述第一语句中的上述字矩阵进行乘法运算得到第一语义矩阵,以及将上述第二语句中的上述字矩阵进行乘法运算得到第二语义矩阵;
步骤S506,确定上述第一语义矩阵和上述第二语义矩阵之间的第一矩阵差异值;
步骤S508,依据上述第一矩阵差异值调整上述字向量,得到上述第一训练结果,其中,上述第一训练结果至少包括:调整上述字向量得到的第一字向量。
在本申请实施例中,通过近语义模型来计算第一语句和第二语句这两个句子的语义矩阵,得到第一语义矩阵和第二语义矩阵,并根据第一语义矩阵和第二语义矩阵之间的第一矩阵差异值进行调整该字向量,训练后会使得字矩阵的相乘变得更加有意义。
作为一种可选的实施例,输入近语义模型中的第一语句和第二语句对应的字向量序列分别为:第一语句的第一字向量序列S1=[v1,1,v1,2,...,v1,m-1,v1,m],第二语句的第二字向量序列S2=[v2,1,v2,2,...,v2,n-1,v2,n]。
由于该字向量的向量维数是完全平方数,所以第一字向量序列S1和第二字向量序列S2中的字向量,可以但不限于转换为长宽相同的第一语义矩阵
M1=[m1,1,m1,2,...,m1,m-1,m1,m]和第二语义矩阵M2=[m2,1,m2,2,...,m2,n-1,m2,n]。
以矩阵相乘的方式进行表示,则上述第一语义矩阵为M1=m1,1×m1,2×...×m1,m-1×m1,m,上述第二语义矩阵为M2=m2,1×m2,2×...×m2,n-1×m2,n。第一语义矩阵和上述第二语义矩阵之间的第一矩阵差异值为mean(square(M1-M2)),根据上述第一矩阵差异值调整各个字对应的字向量。
在一种可选的实施例中,依据反语义模型和反义语料数据对上述第一训练结果进行训练,得到第二训练结果,包括:
步骤S602,获取上述反义语料数据中的第三语句和第四语句;
步骤S604,依据上述反语义模型通过将上述第三语句中的上述字矩阵进行乘法运算得到第三语义矩阵,以及将上述第四语句中的上述字矩阵进行乘法运算得到第四语义矩阵;
步骤S606,依据上述第三语义矩阵和上述第四语义矩阵调整上述第一字向量,得到上述第二训练结果,其中,上述第二训练结果至少包括:调整上述第一字向量得到的第二字向量。
在本申请实施例中,通过近语义模型来计算第三语句和第四语句这两个句子的语义矩阵,得到第三语义矩阵和第四语义矩阵,并根据第三语义矩阵和第四语义矩阵产生的语义向量的余弦值对应调整该第一字向量,训练后会使得反义词和无关语义词差距很大。
作为一种可选的实施例,输入近语义模型中的第三语句和第四语句对应的字向量序列分别为:第三语句的第一字向量序列S1=[v1,1,v1,2,...,v1,m-1,v1,m],第四语句的第二字向量序列S2=[v2,1,v2,2,...,v2,n-1,v2,n]。
由于该字向量的向量维数是完全平方数,所以第一字向量序列S1和第二字向量序列S2中的字向量,可以但不限于转换为长宽相同的第三语义矩阵
M1=[m1,1,m1,2,...,m1,m-1,m1,m]和第四语义矩阵M2=[m2,1,m2,2,...,m2,n-1,m2,n]。以矩阵相乘的方式进行表示,则上述第三语义矩阵为M1=m1,1×m1,2×...×m1,m-1×m1,m,上述第四语义矩阵为M2=m2,1×m2,2×...×m2,n-1×m2,n。
由上述示例可知,第一语义矩阵和第三语义矩阵、第二语义矩阵和第四语义矩阵可以相等,在其他可选的实施例中,上述第一语义矩阵和第三语义矩阵、第二语义矩阵和第四语义矩阵也可以不相等。
在一种可选的实施例中,依据上述第三语义矩阵和上述第四语义矩阵调整上述第一字向量,得到上述第二训练结果,包括:
步骤S702,将上述第三语义矩阵转换得到第一语义向量,以及将上述第四语义矩阵转换得到第二语义向量;
步骤S704,确定上述第一语义向量和上述第二语义向量的余弦值;
步骤S706,依据上述余弦值确定上述第三语义矩阵和上述第四语义矩阵之间的第二矩阵差异值;
步骤S708,依据上述第二矩阵差异值调整上述第一字向量,得到上述第二训练结果依。
在上述可选的实施例中,通过将第三语义矩阵M1转换得到第一语义向量V1,将上述第四语义矩阵M2转换得到第二语义向量V2;并确定上述第一语义向量V1和上述第二语义向量V2的余弦值cos(v1,v2),若求得的余弦值cos(v1,v2)大于0,则依据该余弦值确定第三语义矩阵和第四语义矩阵之间的第二矩阵差异值loss=cos(v1,v2),否则loss=0,进而可以根据求得的第二矩阵差异值调整上述第一字向量。
在一种可选的实施例中,上述余弦值与上述第三语句和第四语句之间的语义相关程度(句意)存在反比例关系,也即,该余弦值越大则第三语句和第四语句之间的句意越相近,该余弦值越小,则第三语句和第四语句之间的句意越远。
以下通过一种可选的实施例,对本申请提供的字矩阵的训练方法实施例进行示意性说明,该字矩阵的训练方法可以但不限于通过以下方法步骤实现:
步骤S801,预先定义目标字矩阵的矩阵大小和目标训练次数;
步骤S802,通过对目标语句中每个字对应的待训练字向量进行初始化处理,得到初始化后的待训练字向量。
其中,待训练字向量的向量维数与目标字矩阵的矩阵大小存在对应关系,向量维数为完全平方数。
步骤S803,预先从文本语料数据中获取目标语句;
步骤S804,依据字向量产生模型对目标语句中的待训练字向量进行训练处理,得到训练后的字向量。
步骤S805,依据近语义模型和近义语料数据,对与字向量对应的字矩阵进行训练,得到第一训练结果;
步骤S806,依据反语义模型和反义语料数据对上述第一训练结果进行训练,得到第二训练结果;
步骤S807,获取第二训练结果中确定的目标字矩阵的当前训练次数。
其中,当前训练次数i的初始值为0,每输出一次目标字矩阵则当前训练次数执行i+1。
步骤S808,比较当前训练次数是否小于目标训练次数,得到比较结果;
其中,若比较结果指示当前训练次数小于目标训练次数,则返回执行步骤S804;若比较结果指示当前训练次数大于或等于目标训练次数,则执行步骤S809。
步骤S809,输出上述第二训练结果中确定的目标字矩阵。
通过本申请上述实施例,由于矩阵相乘运算不存在交换律,可以解决“京东”和“东京”,“人生”和“生人”,“风扇”和“扇风”,“带领”和“领带”等位置调换词的语义问题。通过反语义训练模型和反义训练数据,可以区分出相反或不相关词语。例如,在以下两句话:“我喜欢草莓”和“我讨厌草莓”中,“喜欢”和“讨厌”用法相同,但是反义训练数据强行将此类型的词语的语义进行分离,所以,通过本申请实施例训练得到的目标字矩阵可以区分“喜欢”和“讨厌”。
实施例2
根据本发明实施例,还提供了一种用于实施上述字矩阵的训练方法的装置实施例,图3是根据本发明实施例的一种字矩阵的训练装置的结构示意图,如图3所示,上述字矩阵的训练装置,包括:获取模块30、第一训练模块32、第二训练模块34和输出模块36,其中:
获取模块30,用于获取目标语句的字向量以及与上述字向量对应的字矩阵;第一训练模块32,用于依据近语义模型和近义语料数据对上述字矩阵进行训练,得到第一训练结果;第二训练模块34,用于依据反语义模型和反义语料数据对上述第一训练结果进行训练,得到第二训练结果;输出模块36,用于输出上述第二训练结果中确定的目标字矩阵。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述获取模块30、第一训练模块32、第二训练模块34和输出模块36对应于实施例1中的步骤S102至步骤S108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
上述的字矩阵的训练装置还可以包括处理器和存储器,上述获取模块30、第一训练模块32、第二训练模块34和输出模块36等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种存储介质实施例。可选地,在本实施例中,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述任意一种字矩阵的训练方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述存储介质包括存储的程序。
可选地,在程序运行时控制存储介质所在设备执行以下功能:获取目标语句的字向量以及与字向量对应的字矩阵;依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出第二训练结果中确定的目标字矩阵。
根据本申请实施例,还提供了一种处理器实施例。可选地,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种字矩阵的训练方法。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标语句的字向量以及与字向量对应的字矩阵;依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出第二训练结果中确定的目标字矩阵。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标语句的字向量以及与字向量对应的字矩阵;依据近语义模型和近义语料数据对字矩阵进行训练,得到第一训练结果;依据反语义模型和反义语料数据对第一训练结果进行训练,得到第二训练结果;输出第二训练结果中确定的目标字矩阵。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种字矩阵的训练方法,其特征在于,包括:
获取目标语句的字向量以及与所述字向量对应的字矩阵;
依据近语义模型和近义语料数据对所述字矩阵进行训练,得到第一训练结果;
依据反语义模型和反义语料数据对所述第一训练结果进行训练,得到第二训练结果;
输出所述第二训练结果中确定的目标字矩阵;
依据近语义模型和近义语料数据对所述字矩阵进行训练,得到第一训练结果,包括:
获取所述近义语料数据中的第一语句和第二语句;
依据所述近语义模型通过将所述第一语句中的所述字矩阵进行乘法运算得到第一语义矩阵,以及将所述第二语句中的所述字矩阵进行乘法运算得到第二语义矩阵。
2.根据权利要求1所述的方法,其特征在于,通过以下方式获取所述目标语句的字向量:
预先从文本语料数据中获取所述目标语句;
依据词向量产生模型对所述目标语句中的待训练字向量进行训练处理,得到所述字向量。
3.根据权利要求2所述的方法,其特征在于,在获取目标语句的字向量以及与所述字向量对应的字矩阵之前,所述方法还包括:
预先定义所述目标字矩阵的矩阵大小;
通过对所述目标语句中每个字对应的待训练字向量进行初始化处理,得到初始化后的所述待训练字向量,其中,所述待训练字向量的向量维数与所述目标字矩阵的矩阵大小存在对应关系,所述向量维数为完全平方数。
4.根据权利要求1所述的方法,其特征在于,
在获取目标语句的字向量以及与所述字向量对应的字矩阵之前,所述方法还包括:预先定义所述目标字矩阵的目标训练次数;
在获取目标语句的字向量以及与所述字向量对应的字矩阵之前,所述方法还包括:预先定义所述目标字矩阵的目标训练次数;在输出所述第二训练结果中确定的目标字矩阵之前,所述方法还包括:获取所述目标字矩阵的当前训练次数,所述当前训练次数的初始值为0;比较所述当前训练次数是否小于所述目标训练次数,得到比较结果;若所述比较结果指示所述当前训练次数小于所述目标训练次数,则返回执行获取目标语句的字向量以及与所述字向量对应的字矩阵的步骤;若所述比较结果指示所述当前训练次数大于或等于所述目标训练次数,则执行输出所述第二训练结果中确定的目标字矩阵的步骤。
5.根据权利要求1所述的方法,其特征在于,依据近语义模型和近义语料数据对所述字矩阵进行训练,得到第一训练结果,包括:
确定所述第一语义矩阵和所述第二语义矩阵之间的第一矩阵差异值;
依据所述第一矩阵差异值调整所述字向量,得到所述第一训练结果,其中,所述第一训练结果至少包括:调整所述字向量得到的第一字向量。
6.根据权利要求5所述的方法,其特征在于,依据反语义模型和反义语料数据对所述第一训练结果进行训练,得到第二训练结果,包括:
获取所述反义语料数据中的第三语句和第四语句;
依据所述反语义模型通过将所述第三语句中的所述字矩阵进行乘法运算得到第三语义矩阵,以及将所述第四语句中的所述字矩阵进行乘法运算得到第四语义矩阵;
依据所述第三语义矩阵和所述第四语义矩阵调整所述第一字向量,得到所述第二训练结果,其中,所述第二训练结果至少包括:调整所述第一字向量得到的第二字向量。
7.根据权利要求6所述的方法,其特征在于,依据所述第三语义矩阵和所述第四语义矩阵调整所述第一字向量,得到所述第二训练结果,包括:
将所述第三语义矩阵转换得到第一语义向量,将所述第四语义矩阵转换得到第二语义向量;
确定所述第一语义向量和所述第二语义向量的余弦值;
依据所述余弦值确定所述第三语义矩阵和所述第四语义矩阵之间的第二矩阵差异值;
依据所述第二矩阵差异值调整所述第一字向量,得到所述第二训练结果。
8.一种字矩阵的训练装置,其特征在于,包括:
获取模块,用于获取目标语句的字向量以及与所述字向量对应的字矩阵;
第一训练模块,用于依据近语义模型和近义语料数据对所述字矩阵进行训练,得到第一训练结果;
第二训练模块,用于依据反语义模型和反义语料数据对所述第一训练结果进行训练,得到第二训练结果;
输出模块,用于输出所述第二训练结果中确定的目标字矩阵;
所述第一训练模块,还用于获取所述近义语料数据中的第一语句和第二语句;依据所述近语义模型通过将所述第一语句中的所述字矩阵进行乘法运算得到第一语义矩阵,以及将所述第二语句中的所述字矩阵进行乘法运算得到第二语义矩阵。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的字矩阵的训练方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的字矩阵的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083289.7A CN110765779B (zh) | 2019-11-07 | 2019-11-07 | 字矩阵的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083289.7A CN110765779B (zh) | 2019-11-07 | 2019-11-07 | 字矩阵的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765779A CN110765779A (zh) | 2020-02-07 |
CN110765779B true CN110765779B (zh) | 2023-09-29 |
Family
ID=69336548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911083289.7A Active CN110765779B (zh) | 2019-11-07 | 2019-11-07 | 字矩阵的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765779B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552812B (zh) * | 2020-04-29 | 2023-05-12 | 深圳数联天下智能科技有限公司 | 确定实体之间关系类别的方法、装置和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN109190126A (zh) * | 2018-09-17 | 2019-01-11 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
CN109308353A (zh) * | 2018-09-17 | 2019-02-05 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
-
2019
- 2019-11-07 CN CN201911083289.7A patent/CN110765779B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
CN109190126A (zh) * | 2018-09-17 | 2019-01-11 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
CN109308353A (zh) * | 2018-09-17 | 2019-02-05 | 北京神州泰岳软件股份有限公司 | 词嵌入模型的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110765779A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582956B (zh) | 应用于句子嵌入的文本表示方法和装置 | |
US11755885B2 (en) | Joint learning of local and global features for entity linking via neural networks | |
CN110298035B (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
CN108205699B (zh) | 生成用于神经网络输出层的输出 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
US20180336472A1 (en) | Projection neural networks | |
CN111291165B (zh) | 训练词向量嵌入模型的方法及装置 | |
CN108475264B (zh) | 机器翻译方法和装置 | |
CN110222329B (zh) | 一种基于深度学习的中文分词方法和装置 | |
CN111950692B (zh) | 用于改进的通用化的基于汉明距离的稳健输出编码 | |
CN110070140B (zh) | 基于多类别信息的用户相似性确定方法及装置 | |
Pappas et al. | Beyond weight tying: Learning joint input-output embeddings for neural machine translation | |
CN113609819B (zh) | 标点符号确定模型及确定方法 | |
CN110765779B (zh) | 字矩阵的训练方法及装置 | |
CN113836929B (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN114493674A (zh) | 一种广告点击率预测模型及方法 | |
CN116127925B (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
CN110532562B (zh) | 神经网络训练方法、成语误用检测方法、装置和电子设备 | |
CN116662538A (zh) | 基于多任务学习的文本摘要生成方法、装置、设备及介质 | |
CN115497105A (zh) | 基于多任务学习网络的多模态仇恨模因检测方法 | |
CN115080748A (zh) | 一种基于带噪标签学习的弱监督文本分类方法和装置 | |
CN111507098B (zh) | 多义词识别方法、装置、电子设备及计算机可读存储介质 | |
CN114398907A (zh) | 话题动态推荐方法、装置、存储介质以及电子设备 | |
CN114358011A (zh) | 命名实体提取方法与装置以及电子设备 | |
CN113962221A (zh) | 一种文本摘要的提取方法、装置、终端设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |