CN113553858A - 文本向量表征模型的训练和文本聚类 - Google Patents
文本向量表征模型的训练和文本聚类 Download PDFInfo
- Publication number
- CN113553858A CN113553858A CN202110862902.6A CN202110862902A CN113553858A CN 113553858 A CN113553858 A CN 113553858A CN 202110862902 A CN202110862902 A CN 202110862902A CN 113553858 A CN113553858 A CN 113553858A
- Authority
- CN
- China
- Prior art keywords
- text
- vector representation
- text vector
- model
- representation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 618
- 238000012549 training Methods 0.000 title claims abstract description 123
- 238000012512 characterization method Methods 0.000 title claims description 95
- 239000011159 matrix material Substances 0.000 claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 100
- 238000012545 processing Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 17
- 238000013507 mapping Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 12
- 238000013500 data storage Methods 0.000 description 8
- 230000000873 masking effect Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
Description
技术领域
本公开涉及自然语言处理(NLP)技术领域,更具体地说,涉及一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。
背景技术
通常利用文本样本(例如,海量的商品标题)对传统的自然语言处理(NLP)模型进行训练,然后利用训练后的NLP模型获取输入文本的文本向量表征,但是,通常训练得到的NLP模型的实际应用效果欠佳。例如,通过传统的NLP模型获取的文本向量表征的整体数据噪点偏高,文本向量表征的准确率和召回率整体偏低。当利用通过传统的NLP模型获取的文本向量表征进行文本聚类时,文本聚类后得到的文本聚类索引的整体数据噪点偏高,文本聚类索引的召回率和准确率也偏低。因此,需要改善用于获取文本向量表征的机器学习模型的训练方法以及相应的文本聚类方法。
发明内容
本公开提供一种文本向量表征模型的训练方法和装置及文本聚类方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
根据本公开实施例的第一方面,提供一种文本向量表征模型的训练方法,所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
可选地,所述训练方法还包括:基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。
可选地,所述训练方法还包括:通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如上所述的训练方法,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。
可选地,所述将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵,包括:
将文本样本转换为索引向量,所述索引向量中的每个索引元素分别表示文本样本中对应的单个字符或用于满足索引向量长度限制的补余元素;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。
可选地,所述索引向量和所述掩码处理后的索引向量通过与相同的预定词向量矩阵进行映射,来分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。
可选地,基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数包括:基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;利用所述参数更新函数更新所述辅助文本向量表征模型的参数。
可选地,第一文本向量表征与第二文本向量表征之间的相似度损失值是通过以下步骤得到的:确定第一文本向量表征与第二文本向量表征之间的相似度;基于所述相似度,确定第一文本向量表征与第二文本向量表征之间的相似度损失值。
可选地,所述训练方法还包括:对所述第一文本向量表征进行线性映射;将所述第一文本向量表征替换为线性映射后的第一文本向量表征。
根据本公开实施例的第二方面,提供一种文本聚类方法,所述文本聚类方法包括:获取文本;将文本转换成文本输入矩阵;将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征;对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引,其中,所述文本向量表征模型是使用如上所述的文本向量表征模型的训练方法训练得到的。
可选地,所述对文本向量表征进行文本聚类包括:基于所述文本向量表征的L2距离对所述文本向量表征进行文本聚类。
可选地,所述对文本向量表征进行文本聚类包括:利用具有噪声的基于密度的文本聚类算法对所述文本向量表征进行文本聚类。
根据本公开实施例的第三方面,提供一种向量表征模型的训练装置,包括:文本获取单元,被配置为获取文本样本;转换单元,被配置为将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;文本向量表征获取单元,被配置为将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征,并且将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;训练单元,被配置为根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
可选地,所述训练单元还被配置为:基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。
可选地,所述训练单元还被配置为:通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如上所述的操作,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。
可选地,所述转换单元被配置为:将文本样本转换为索引向量,所述索引向量中的每个索引元素分别表示文本样本中对应的单个字符或用于满足索引向量长度限制的补余元素;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。
可选地,所述索引向量和所述掩码处理后的索引向量通过与相同的预定词向量矩阵进行映射,来分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。
可选地,所述训练单元被配置为:基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;利用所述参数更新函数更新所述辅助文本向量表征模型的参数。
可选地,所述训练单元被配置为:确定第一文本向量表征与第二文本向量表征之间的相似度;基于所述相似度,确定第一文本向量表征与第二文本向量表征之间的相似度损失值。
可选地,所述文本向量表征获取单元还被配置为:对所述第一文本向量表征进行线性映射;将所述第一文本向量表征替换为线性映射后的第一文本向量表征。
根据本公开实施例的第四方面,提供一种文本聚类装置,包括:文本获取单元,被配置为获取文本;转换单元,被配置为将文本转换成文本输入矩阵;文本向量表征获取单元,被配置为将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征;文本聚类单元,被配置为对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引,其中,所述文本向量表征模型是使用如上所述的文本向量表征模型的训练方法训练得到的。
可选地,文本聚类单元被配置为:基于所述文本向量表征的L2距离对所述文本向量表征进行文本聚类。
可选地,文本聚类单元被配置为:利用具有噪声的基于密度的文本聚类算法对所述文本向量表征进行文本聚类。
根据本公开实施例的第五方面,提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器,其中,所述处理器被配置为执行所述指令,以实现根据本公开的文本向量表征模型的训练方法或文本聚类方法。
根据本公开实施例的第六方面,提供一种存储指令的计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行根据本公开的文本向量表征模型的训练方法或文本聚类方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序被处理器执行时实现根据本公开的文本向量表征模型的训练方法或文本聚类方法。
本公开的实施例提供的技术方案至少带来以下有益效果:根据本公开的示例性实施例的文本向量表征模型的训练方法和装置,可通过使文本向量表征模型(作为自监督模型)在训练过程中快速更新,而使辅助文本向量表征模型在训练过程中缓慢更新,在文本向量表征模型每一次大步伐更新后,辅助文本向量表征模型可以基于文本向量表征模型的更新方向进行相对小步伐的更新,从而相对于通过传统的语言模型,根据本公开的文本向量表征模型在文本向量表征相似度方面的训练更加精细,每一步的训练都会被辅助文本向量表征模型往回拉一些,便于确定文本向量表征模型的向前更新步伐是否太大而导致忽略了一些精细化的文本向量表征,而这些精细化的文本向量表征恰好可以有效地表示文本(例如,句子)之间的相似度,因此,可以基于文本的全局样式获取向量表征,有效避免忽略精细化的文本向量表征。相应地,根据本公开的示例性实施例的文本聚类方法和装置,可以有效改善文本聚类的效果,提高文本聚类的准确率和召回率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1示出根据本公开的示例性实施例的文本向量表征模型的训练方法的流程图。
图2示出根据本公开的示例性实施例的与文本向量表征模型和辅助文本向量表征模型关联的处理的示意图。
图3示出根据本公开的另一示例性实施例的获取第一文本向量表征的简要示意图。
图4示出根据本公开的示例性实施例的文本聚类方法的流程图。
图5示出根据本公开的示例性实施例的文本向量表征模型的训练装置的框图。
图6示出根据本公开的示例性实施例的文本聚类装置的框图。
图7是根据本公开的示例性实施例的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
通常,利用文本样本(例如,海量的商品标题)对传统的语言模型(例如,非自监督模型)进行训练,然后基于训练后的语言模型获取每个文本样本(例如,每个商品标题)的文本向量表征,利用文本聚类算法对获取的文本向量表征进行文本聚类,得到每个文本样本的文本聚类索引。但是,这样获取的文本向量表征的精细度不够高,导致得到的文本聚类索引的整体数据噪点高,召回率偏低,准确率也偏低,例如,对基于语言模型获取的文本向量表征进行文本聚类之后,每个文本聚类簇存在基于局部样式的文本聚类到一起而准确率低的问题。
所获取的文本向量表征的质量大大影响文本聚类的最终效果,例如,影响文本聚类的准确率和召回率等。因此,提高获取的文本向量表征的质量,有助于显著改善文本聚类的效果,提高文本聚类的准确率和召回率。
本公开提出一种文本向量表征模型的训练方法和装置以及文本聚类方法和装置,根据本公开的示例性实施例的文本向量表征模型作为自监督模型,可以通过文本向量表征模型基于文本的全局样式获取文本向量表征,提高文本向量表征的精细化程度,有效避免忽略精细化的文本向量表征,进而可以有效改善文本聚类的效果,提高文本聚类的准确率和召回率。
下面,将参照图1至图7具体描述根据本公开的示例性实施例的文本向量表征模型的训练方法和装置及文本聚类方法和装置。
图1示出根据本公开的示例性实施例的文本向量表征模型的训练方法的流程图。图2示出根据本公开的示例性实施例的与文本向量表征模型和辅助文本向量表征模型关联的处理的示意图。图3示出根据本公开的另一示例性实施例的获取第一文本向量表征的简要示意图。可结合图2和图3来理解图1所示的训练方法的流程图。
参照图1,在步骤S101,可获取文本样本。根据本公开的示例性实施例,文本样本可包括各种文本格式的样本数据,例如,电商平台的海量商品标题(例如,睫毛膏、粉底液、眼镜、书包等),各种语种的词语、句子或段落(例如,“我是中国人”、“I am Chinese”等)。可通过多种数据获取方式获取文本样本,例如,可从存储有文本样本的数据库或服务器获取文本样本,可通过网页爬虫等方法获取文本样本。
在获取到文本样本之后,需要将文本样本转换为与文本向量表征模型和辅助文本向量表征模型分别对应的文本输入矩阵。在示例性实施例中,文本向量表征模型与辅助文本向量表征模型分别为不同的模型。
在步骤S102,可将文本样本转换为第一文本输入矩阵和经过掩码(mask)处理后的第二文本输入矩阵。例如,可将作为文本样本的同一个商品标题转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵。
根据本公开的示例性实施例,第二文本输入矩阵与第一文本输入矩阵的不同之处仅在于第二文本输入矩阵中被掩码的部分与第一文本输入矩阵中未被掩码的部分,其余部分相同。第二文本输入矩阵中被掩码的部分可以占整个第二文本输入矩阵的预定比例,预定比例大于零且小于100%。例如,预定比例可以是5%、10%、20%。可选地,预定比例可小于50%。因此第二文本输入矩阵与第一文本输入矩阵略有不同,可分别基于与同样的文本样本对应的第一文本输入矩阵和第二文本输入矩阵,通过文本向量表征模型和辅助文本向量表征模型获取相应的文本向量表征,进而可以使文本向量表征模型在文本向量表征相似度方面的训练更加精细。
根据本公开的示例性实施例,在步骤S102可通过以下步骤对文本样本进行转换:可将文本样本转换为索引向量;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为第二文本输入矩阵。例如,将文本样本转换为索引向量,所述索引向量中的每个索引元素分别表示文本样本中对应的单个字符或用于满足索引向量长度限制的补余元素;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。可选地,所述索引向量和所述掩码处理后的索引向量通过与相同的预定词向量矩阵进行映射,来分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵,从而可以使文本向量表征模型在文本向量表征相似度方面的训练更加精细,提高通过训练后的文本向量表征模型获取的文本向量表征的精细化程度。
例如,可利用嵌入(embedding)算法将文本样本转换为索引向量,但不限于此,还可通过其它自然语言处理(NLP)方法将文本样本转换为索引向量。下面以文本样本为句子“我是中国人”为例进行说明。例如,句子“我是中国人”可通过嵌入(embedding)算法转换为索引向量[23,145,334,765,897],其长度为5。
在得到索引向量之后,可通过矩阵转换将索引向量直接转换为第一文本输入矩阵,而不经过掩码处理。然而,在将索引向量转换为第二文本输入矩阵的过程中,需要首先对索引向量进行掩码处理。可根据预设的掩码比例来对索引向量随机掩码。例如,预设的掩码比例为20%,而索引向量[23,145,334,765,897]的长度为5,因此,可随机选择索引向量[23,145,334,765,897]中的一个字符替换为0,例如可转换成[23,145,0,765,897]。如此,经过掩码处理后的索引向量与未经过掩码处理的索引向量仅由20%不同,其余部分相同。
根据本公开的示例性实施例,可根据文本向量表征模型的输入要求设置索引向量长度,然后可根据设置的索引向量长度来对索引向量进行截断或补余。在满足索引向量长度的限制的情况下,可继续对索引向量进行矩阵转换。例如,索引向量长度为128,句子“我是中国人”对应的索引向量为[23,145,334,765,897]和[23,145,0,765,897],其长度均为5。可对索引向量[23,145,334,765,897]和[23,145,0,765,897]进行补余(例如,补零),即,在索引向量中补充123个“0”得到索引向量[23,145,334,765,897,0……0,0]和[23,145,0,765,897,0……0,0]。相反,如果索引向量的长度超过了索引向量长度,则将索引向量截断至索引向量长度。如此,可满足后续作为文本向量表征模型输入的要求,便于文本向量表征模型的后续数据处理。
根据本公开的示例性实施例,经过掩码处理后的索引向量与未经过掩码处理的索引向量可通过相同的词向量矩阵分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。在本公开的一个实施例中,可将索引向量[23,145,334,765,897]与词向量矩阵进行映射。例如,根据索引向量[23,145,334,765,897],词向量矩阵中第23行向量可被取出作为第一文本输入矩阵的第一行,词向量矩阵中第145行向量可被取出作为第一文本输入矩阵的第二行,以此类推,可得到第一文本输入矩阵以及第二文本输入矩阵。
参照图1,在步骤S103,可将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征。在步骤S104,可将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征。根据本公开的实施例,可利用老师网络(teacher network)模型实现文本向量表征模型,并且利用学生网络(student network)模型实现辅助文本向量表征模型,从而基于老师-学生网络架构实现文本向量表征模型与辅助文本向量表征模型的整体架构。可选地,可基于转换编码器(Transformer encoder)的结构实现文本向量表征模型和辅助文本向量表征模型。如上所述,文本向量表征模型和辅助文本向量表征模型的输入略有不同。
例如,可通过作为文本向量表征模型的老师网络(teacher network)模型获取第一文本向量表征,可通过作为辅助文本向量表征模型的学生网络(student network)模型获取第二文本向量表征。
可选地,在获取第一文本向量表征的过程中,可对第一文本向量表征进行线性映射;将第一文本向量表征替换为线性映射后的第一文本向量表征。根据本公开的示例性实施例,可利用与文本向量表征模型匹配的线性映射器来对第一文本向量表征进行线性映射,从而得到线性映射后的第一文本向量表征。例如,线性映射器可利用变换编码器(Transformer encoder)或多层感知机(MLP)网络(例如,包含一个隐藏层的MLP网络)来实现。通过线性映射,可使第一文本向量表征更好地收敛。
在步骤S105,可根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。在步骤S106,可以基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。因此,可以在文本向量表征模型的参数被更新之后才更新辅助文本向量表征模型的参数,从而在文本向量表征模型每一次大步伐更新后,辅助文本向量表征模型可以基于文本向量表征模型的更新方向进行相对小步伐的更新。
继续参照图1,通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行步骤S101至S106,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。通过这样的迭代训练,可以使文本向量表征模型的训练在文本向量表征相似度方面更加精细,文本向量表征模型的每一次迭代训练的参数更新步伐都会被辅助文本向量表征模型往回拉一些,避免忽略一些精细化的文本向量表征。
根据本公开的示例性实施例,可利用梯度算法训练文本向量表征模型。例如,梯度算法可包括以下算法中的一种或多种的组合:梯度下降算法、最优梯度算法、共轭梯度算法,但不仅限于此,还可包括其它梯度算法。梯度下降算法可包括以下算法中的一种或多种的组合:标准梯度下降法(GD)、批量梯度下降算法(BGD)、随机梯度下降算法(SGD)、小批量梯度下降算法(MBGD),但不仅限于此,还可包括其它梯度下降算法。
根据本公开的示例性实施例,可确定第一文本向量表征与第二文本向量表征之间的相似度;基于所述相似度,确定第一文本向量表征与第二文本向量表征之间的相似度损失值。
根据本公开的示例性实施例,可通过计算和分析第一文本向量表征与第二文本向量表征之间的相似度来准确分析文本向量表征模型的输出和辅助文本向量表征模型的输出之间的相似性。因此,通过循环执行步骤S101至S106,使文本向量表征模型的参数更新速度因辅助文本向量表征模型而减慢,使得文本向量表征模型在文本向量表征相似度方面的训练更加精细。
根据本公开的示例性实施例,可基于第一文本向量表征与第二文本向量表征之间的相似度(例如但不限于,余弦相似度)确定所述文本向量表征模型的损失函数,利用所述损失函数确定第一文本向量表征与第二文本向量表征之间的相似度损失值。例如,可以通过计算和分析第一文本向量表征与第二文本向量表征之间的余弦相似度来确定所述文本向量表征模型的损失函数,从而从方向和距离上改善所述文本向量表征模型的训练。
在本公开的一个示例性实施例,可确定损失函数为下面的式(1):
其中,uT表示第一文本向量表征,uS表示第二文本向量表征,||uT||2表示第一文本向量表征的2范数,||uS||2表示第二文本向量表征的2范数,<uS,uT>表示uS与uT的乘积,P表示所述损失函数的量级放大倍数(例如,P=5或其它值),LS,T表示第一文本向量表征与第二文本向量表征之间的相似度损失值。如此,可利用损失函数训练文本向量表征模型。
在步骤S106,可以基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。根据本公开的示例性实施例,可利用指数移动平均(EMA)算法训练辅助文本向量表征模型。通过基于所述文本向量表征模型的更新后的参数,利用指数移动平均(EMA)算法训练辅助文本向量表征模型,使得辅助文本向量表征模型的参数更新速度比文本向量表征模型的参数更新速度慢,并且,辅助文本向量表征模型的参数更新方向与文本向量表征模型的参数更新方向相一致。
根据本公开的示例性实施例,可基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;利用所述参数更新函数更新所述辅助文本向量表征模型的参数。例如,用于训练辅助文本向量表征模型的参数更新函数可以是下面的式(2):
θS=WS*θ’S+WT*θT (2)
其中,θS为所述辅助文本向量表征模型的更新后的参数,θ’S为所述辅助文本向量表征模型的更新前的参数,WS为所述辅助文本向量表征模型的参数权重,θT为所述文本向量表征模型的更新后的参数,WT为所述文本向量表征模型的参数权重,WS和WT均大于0,并且WS+WT=1。
根据上面的式(2),可通过调节WS和WT来调节辅助文本向量表征模型的参数更新速度,WS越大,参数更新速度越小。例如,WS=0.8且WT=0.2时的参数更新速度小于WS=0.5且WT=0.5时的参数更新速度。
如上所述,可循环执行步骤S101至S106,以通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行上述的训练方法,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。例如,可利用优化函数optimize(θT,LS,T)来不断更新或优化文本向量表征模型的参数。
通过使文本向量表征模型(作为自监督模型)在训练过程中快速更新,而使辅助文本向量表征模型在训练过程中缓慢更新,在文本向量表征模型每一次大步伐更新后,辅助文本向量表征模型可以基于文本向量表征模型的更新方向进行相对小步伐的更新,从而使文本向量表征模型在文本向量表征相似度方面的训练更加精细,每一步的训练都会被辅助文本向量表征模型往回拉一些,便于确定文本向量表征模型的向前更新步伐是否太大而导致忽略了一些精细化的文本向量表征,而这些精细化的文本向量表征恰好可以有效地表示文本之间的相似度,因此,通过文本向量表征模型可以基于文本的全局样式获取文本向量表征,有效避免忽略精细化的文本向量表征。
参照图2,可进一步理解文本向量表征模型23的训练过程以及辅助文本向量表征模型24的训练过程。文本样本20可在未经过掩码(mask)处理的情况下转换为第一文本输入矩阵21,并且在经过掩码(mask)后转换为第二文本输入矩阵22。第一文本输入矩阵21和第二文本输入矩阵22可分别输入至文本向量表征模型23和辅助文本向量表征模型24,文本向量表征模型23和辅助文本向量表征模型24分别输出第一文本向量表征25和第二文本向量表征26。可根据第一文本向量表征25和第二文本向量表征26之间的相对度确定用于计算相似度损失值的损失函数27。基于损失函数27,以第一文本向量表征25与第二文本向量表征26之间的相似度损失值最小化为目标训练文本向量表征模型23。在文本向量表征模型23经过训练或更新后,可基于辅助文本向量表征模型24的参数和文本向量表征模型23的参数训练辅助文本向量表征模型24。可再次通过文本向量表征模型23和辅助文本向量表征模型24分别输出第一文本向量表征25和第二文本向量表征26,基于损失函数27进一步训练文本向量表征模型23,以及结合训练后的文本向量表征模型23的参数进一步训练辅助文本向量表征模型24。如此可循环执行。
参照图3,根据本公开的另一示例性实施例,可附加设置线性映射器33以对文本向量表征模型32的输出进行线性映射,使输出结果更好地收敛。例如,第一文本输入矩阵31可输入至文本向量表征模型32,通过文本向量表征模型32向线性映射器33输出第一文本向量表征,然后通过线性映射器33进行线性映射,得到线性映射后的第一文本向量表征34。
以上参照图1至图3描述了跟据本公开的示例性实施例的文本向量表征模型的训练方法,但是根据本公开的文本向量表征模型的训练方法不限于上述示例。
利用文本向量表征模型的训练方法训练得到的文本向量表征模型,可用于获取与任何文本对应的文本向量表征,获取的文本向量表征可用于文本聚类(例如,可将获取的文本向量表征输入文本聚类模型进行文本聚类),以获取与文本对应的文本聚类索引。
下面参照图4描述根据本公开的示例性实施例的文本聚类方法。图4示出根据本公开的示例性实施例的文本聚类方法的流程图。
参照图4,在步骤S401,可获取文本。根据本公开的示例性实施例,可根据实际需求,获取需要进行文本聚类的文本。文本可以是任何形式的文本数据,例如,可以是电商平台的全量商品库的商品标题。
在步骤S402,可将文本转换成文本输入矩阵。根据本公开的示例性实施例,可利用嵌入(embedding)算法将文本转换为索引向量,然后通过词向量矩阵将索引向量转换为文本输入矩阵。但是,本公开不限于此,还可通过其它方法将文本转换成文本输入矩阵。
在步骤S403,可将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征。根据本公开的示例性实施例,文本向量表征模型可以是使用如上所述的文本向量表征模型的训练方法训练得到的。
在步骤S404,可通过文本向量表征模型获取文本向量表征。根据本公开的示例性实施例,文本向量表征模型可以是使用如上所述的文本向量表征模型的训练方法训练得到的。该文本向量表征模型相对于传统的语音模型可提高所获取的文本向量表征的精细化程度。
在步骤S405,可对文本向量表征进行文本聚类,以获取与文本对应的文本聚类索引。根据本公开的示例性实施例,可基于文本向量表征的L2距离对文本向量表征进行文本聚类。从而可以从方向相似性和距离相似性上提高文本聚类的准确性。此外,可利用具有噪声的基于密度的文本聚类(DBSCAN)算法对文本向量表征进行文本聚类,从而利用通过上述训练方法得到的文本向量表征模型提高文本聚类的准确性。本公开不限于此,还可利用其它文本聚类算法对文本向量表征进行文本聚类,例如,各种基于密度的文本聚类算法(例如,识别文本聚类结构的排序点(OPTICS)算法)等。
在获取与文本对应的文本聚类索引(例如,与每个商品标题对应的文本聚类索引)之后,可将文本聚类索引存储到相应数据库中,例如,可将商品标题的文本聚类索引存储到hive(蜂巢)数据表中。获取并存储的文本聚类索引可用于扩充索引条目,帮助改善线上测试(例如,A/B实验)等。
基于使用根据本公开的示例性实施例的文本向量表征模型的训练方法得到的文本向量表征模型所获取的文本向量表征,可使文本聚类效果得到显著改善,例如,可文本聚类后的整体召回率显著提高,文本聚类簇内的整体准确率也得到显著提高,并且基于局部样式文本聚类的问题也得到大幅度缓解。由于文本聚类效果的显著改善,基于文本聚类结果的各种应用效果也得到改善,例如,可基于商品标题的文本聚类结果在业务场景中做A/B实验,可得到更为准确的实验结果,提高业务收益等。
下面结合图5和图6描述根据本公开的示例性实施例的文本向量表征模型的训练装置和文本聚类装置。
图5示出根据本公开的示例性实施例的文本向量表征模型的训练装置50的框图。如图5所示,训练装置50可包括文本获取单元501、转换单元502、文本向量表征获取单元503和训练单元504。
文本获取单元501可获取文本样本。根据本公开的示例性实施例,文本样本可包括各种文本格式的样本数据,例如,电商平台的海量商品标题(例如,睫毛膏、粉底液、眼镜、书包等),各种语种的词语、句子或段落(例如,“我是中国人”、“I am Chinese”等)。可通过多种数据获取方式获取文本样本,例如,可从存储有文本样本的数据库或服务器获取文本样本,可通过网页爬虫等方法获取文本样本。
在获取到文本样本之后,需要将文本样本转换为与文本向量表征模型和辅助文本向量表征模型分别对应的文本输入矩阵。
转换单元502可将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵。例如,可将作为文本样本的同一个商品标题转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵。
根据本公开的示例性实施例,第二文本输入矩阵与第一文本输入矩阵的不同之处仅在于第二文本输入矩阵中被掩码的部分与第一文本输入矩阵中未被掩码的部分,其余部分相同。第二文本输入矩阵中被掩码的部分可以占整个第二文本输入矩阵的预定比例,预定比例大于零且小于100%。例如,预定比例可以是5%、10%、20%。可选地,预定比例可小于50%。因此第二文本输入矩阵与第一文本输入矩阵略有不同,可分别基于与同样的文本样本对应的第一文本输入矩阵和第二文本输入矩阵,通过文本向量表征模型和辅助文本向量表征模型获取相应的文本向量表征。
转换单元502可将文本样本转换为索引向量;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。转换单元502可将文本样本转换为索引向量,所述索引向量中的每个索引元素分别表示文本样本中对应的单个字符或用于满足索引向量长度限制的补余元素;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。例如,索引向量和所述掩码处理后的索引向量通过与相同的预定词向量矩阵进行映射,来分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。
例如,可利用嵌入(embedding)算法将文本样本转换为索引向量,但不限于此,还可通过其它自然语言处理(NLP)方法将文本样本转换为索引向量。下面以文本样本为句子“我是中国人”为例进行说明。例如,句子“我是中国人”可通过嵌入(embedding)算法转换为索引向量[23,145,334,765,897],其长度为5。
在得到索引向量之后,可通过矩阵转换将索引向量直接转换为第一文本输入矩阵,而不经过掩码处理。然而,在将索引向量转换为第二文本输入矩阵的过程中,需要首先对索引向量进行掩码处理。可根据预设的掩码比例来对索引向量随机掩码。例如,预设的掩码比例为20%,而索引向量[23,145,334,765,897]的长度为5,因此,可随机选择索引向量[23,145,334,765,897]中的一个字符替换为0,例如可转换成[23,145,0,765,897]。如此,经过掩码处理后的索引向量与未经过掩码处理的索引向量仅由20%不同,其余部分相同。
根据本公开的示例性实施例,可根据文本向量表征模型的输入要求设置索引向量长度,然后可根据设置的索引向量长度来对索引向量进行截断或补余。在满足索引向量长度的限制的情况下,可继续对索引向量进行矩阵转换。例如,索引向量长度为128,句子“我是中国人”对应的索引向量为[23,145,334,765,897]和[23,145,0,765,897],其长度均为5。可对索引向量[23,145,334,765,897]和[23,145,0,765,897]进行补余(例如,补零),即,在索引向量中补充123个“0”得到索引向量[23,145,334,765,897,0……0,0]和[23,145,0,765,897,0……0,0]。相反,如果索引向量的长度超过了索引向量长度,则将索引向量截断至索引向量长度。如此,可满足后续作为文本向量表征模型输入的要求。
根据本公开的示例性实施例,经过掩码处理后的索引向量与未经过掩码处理的索引向量可通过相同的词向量矩阵分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。例如,可将索引向量[23,145,334,765,897]与词向量矩阵进行映射。根据索引向量[23,145,334,765,897],词向量矩阵中第23行向量可被取出作为第一文本输入矩阵的第一行,词向量矩阵中第145行向量可被取出作为第一文本输入矩阵的第二行,以此类推,可得到第一文本输入矩阵以及第二文本输入矩阵。
文本向量表征获取单元503可将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征,并且将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征。根据本公开的实施例,可利用老师网络(teacher network)模型实现文本向量表征模型,并且利用学生网络(student network)模型实现辅助文本向量表征模型,从而基于老师-学生网络架构实现文本向量表征模型与辅助文本向量表征模型的整体架构。可选地,可基于转换编码器(Transformer encoder)的结构实现文本向量表征模型和辅助文本向量表征模型。如上所述,文本向量表征模型和辅助文本向量表征模型的输入略有不同。
训练单元504可根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。训练单元504可基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。训练单元504可通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如上所述的操作,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。如此,训练单元504可对文本向量表征模型进行训练,并且可结合训练后的文本向量表征模型的参数对辅助文本向量表征模型进行训练。例如,训练单元504可基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数(例如但不限于,上面的式(2));利用所述参数更新函数更新所述辅助文本向量表征模型的参数。
训练单元504可通过文本向量表征模型获取第一文本向量表征。例如,可通过作为文本向量表征模型的老师网络(teacher network)模型获取第一文本向量表征。
可选地,在获取第一文本向量表征的过程中,文本向量表征获取单元503可对所述第一文本向量表征进行线性映射;将所述第一文本向量表征替换为线性映射后的第一文本向量表征。根据本公开的示例性实施例,可利用与文本向量表征模型匹配的线性映射器来对映射前的第一文本向量表征进行线性映射,从而得到第一文本向量表征。例如,线性映射器可利用变换编码器(Transformer encoder)或多层感知机(MLP)网络(例如,包含一个隐藏层的MLP网络)来实现。通过线性映射,可使第一文本向量表征更好地收敛。
训练单元504可通过辅助文本向量表征模型获取第二文本向量表征。例如,可通过作为辅助文本向量表征模型的学生网络(student network)模型获取第二文本向量表征。
训练单元504可确定第一文本向量表征与第二文本向量表征之间的相似度;基于所述相似度,确定第一文本向量表征与第二文本向量表征之间的相似度损失值。例如,训练单元504可基于所述相似度确定所述文本向量表征模型的损失函数(例如,上面的式(1)),利用所述损失函数确定所述相似度损失值。训练单元504可以以第一文本向量表征与第二文本向量表征之间的相似度损失值最小化为目标,训练文本向量表征模型。根据本公开的示例性实施例,可利用梯度算法训练文本向量表征模型。例如,梯度算法可包括以下算法中的一种或多种的组合:梯度下降算法、最优梯度算法、共轭梯度算法,但不仅限于此,还可包括其它梯度算法。梯度下降算法可包括以下算法中的一种或多种的组合:标准梯度下降法(GD)、批量梯度下降算法(BGD)、随机梯度下降算法(SGD)、小批量梯度下降算法(MBGD),但不仅限于此,还可包括其它梯度下降算法。
根据本公开的示例性实施例,可根据第一文本向量表征与第二文本向量表征之间的相似度,确定文本向量表征模型的损失函数(例如,上文的式(1));然后,根据所述损失函数训练文本向量表征模型。
根据本公开的示例性实施例,可通过计算和分析第一文本向量表征与第二文本向量表征之间的相似度(例如但不限于,余弦相似度)来从方向以及距离上准确分析文本向量表征模型的输出和辅助文本向量表征模型的输出之间的相似性,进而通过训练使文本向量表征模型的参数更新速度因辅助文本向量表征模型而减慢。
训练单元504可基于辅助文本向量表征模型的参数和训练后的文本向量表征模型的参数,训练辅助文本向量表征模型。根据本公开的示例性实施例,可利用指数移动平均(EMA)算法训练辅助文本向量表征模型。通过基于辅助文本向量表征模型的参数和训练后的文本向量表征模型,利用指数移动平均(EMA)算法训练辅助文本向量表征模型,使得辅助文本向量表征模型的参数更新速度比文本向量表征模型的参数更新速度慢,并且,辅助文本向量表征模型的参数更新方向与文本向量表征模型的参数更新方向相一致。
根据本公开的示例性实施例,可基于辅助文本向量表征模型的参数和训练后的文本向量表征模型的参数,利用指数移动平均(EMA)算法确定用于训练辅助文本向量表征模型的函数(例如,上文的式(2))。
如上所述,训练单元504可不断训练文本向量表征模型。例如,可利用优化函数optimize(θT,LS,T)来不断更新或优化文本向量表征模型的参数。通过使文本向量表征模型(作为自监督模型)在训练过程中快速更新,而使辅助文本向量表征模型在训练过程中缓慢更新,在文本向量表征模型每一次大步伐更新后,辅助文本向量表征模型可以基于文本向量表征模型的更新方向进行相对小步伐的更新,从而使文本向量表征模型在文本向量表征相似度方面的训练更加精细,每一步的训练都会被辅助文本向量表征模型往回拉一些,便于确定文本向量表征模型的向前更新步伐是否太大而导致忽略了一些精细化的文本向量表征,而这些精细化的文本向量表征恰好可以有效地表示文本之间的相似度,因此,通过文本向量表征模型可以基于文本的全局样式获取文本向量表征,有效避免忽略精细化的文本向量表征。
可参照图1至图3所示的训练方法中的各个步骤来理解图5所示的训练装置50中的各个单元的操作,在此为了简要,不再赘述。
图6示出根据本公开的示例性实施例的文本聚类装置60的框图。文本聚类装置60可使用通过上述训练装置50得到的文本向量表征模型进行文本聚类。
参照图6,文本聚类装置60可包括文本获取单元601、转换单元602、文本向量表征获取单元603和文本聚类单元604。
根据本公开的示例性实施例,文本获取单元601可获取文本。例如,可根据实际需求,获取需要进行文本聚类的文本。文本可以是任何形式的文本数据,例如,可以是电商平台的全量商品库的商品标题。
转换单元602可将文本转换成文本输入矩阵。根据本公开的示例性实施例,可利用嵌入(embedding)算法将文本转换为索引向量,然后通过词向量矩阵将索引向量转换为文本输入矩阵。但是,本公开不限于此,还可通过其它方法将文本转换成文本输入矩阵。
文本向量表征获取单元603可将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征。根据本公开的示例性实施例,文本向量表征模型可以是使用如上所述的文本向量表征模型的训练方法训练得到的。
文本向量表征获取单元603可通过文本向量表征模型获取文本向量表征。根据本公开的示例性实施例,文本向量表征模型可以是使用如上所述的文本向量表征模型的训练方法训练得到的。该文本向量表征模型相对于传统的语音模型可提高所获取的文本向量表征的精细化程度。
文本聚类单元604可对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引。根据本公开的示例性实施例,可基于文本向量表征的L2距离对文本向量表征进行文本聚类。从而可以从方向相似性和距离相似性上提高文本聚类的准确性。此外,可利用具有噪声的基于密度的文本聚类(DBSCAN)算法对文本向量表征进行文本聚类,从而利用如上所述的文本向量表征模型提高文本聚类的准确性。本公开不限于此,还可利用其它文本聚类算法对文本向量表征进行文本聚类,例如,各种基于密度的文本聚类算法(例如,识别文本聚类结构的排序点(OPTICS)算法)等。可参照图4所示的文本聚类方法中的各个步骤来理解图6所示的文本聚类装置60中的各个单元的操作,在此为了简要,不再赘述。
在获取与文本对应的文本聚类索引(例如,与每个商品标题对应的文本聚类索引)之后,可将文本聚类索引存储到相应数据库中,例如,可将商品标题的文本聚类索引存储到hive(蜂巢)数据表中。获取并存储的文本聚类索引可用于扩充索引条目,帮助改善线上测试(例如,A/B实验)等。
基于使用根据本公开的示例性实施例的文本向量表征模型的训练方法得到的文本向量表征模型所获取的文本向量表征,可使文本聚类效果得到显著改善,例如,可文本聚类后的整体召回率显著提高,文本聚类簇内的整体准确率也得到显著提高,并且基于局部样式文本聚类的问题也得到大幅度缓解。由于文本聚类效果的显著改善,基于文本聚类结果的各种应用效果也得到改善,例如,可基于商品标题的文本聚类结果在业务场景中做A/B实验,可得到更为准确的实验结果,提高业务收益等。
图7是根据本公开的示例性实施例的电子设备70的框图。
参照图7,电子设备70包括至少一个存储器701和至少一个处理器702,所述至少一个存储器701中存储有处理器可执行指令集合,当所述处理器可执行指令集合被至少一个处理器702执行时,执行根据本公开的示例性实施例的文本向量表征模型的训练方法或文本聚类方法。
作为示例,电子设备70可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备70并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备70还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备70中,处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器702可运行存储在存储器701中的指令或代码,其中,存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储器701可与处理器702集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器701可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器702能够读取存储在存储器中的文件。
此外,电子设备70还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备70的所有组件可经由总线和/或网络而彼此连接。
根据本公开的示例性实施例,还可提供一种存储指令的计算机可读存储介质,其中,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行根据本公开的示例性实施例的文本向量表征模型的训练方法或文本聚类方法,或者可促使处理器执行上述训练方法或文本聚类方法中的一个或多个步骤。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的示例性实施例,还可提供一种计算机程序产品,该计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开的示例性实施例的文本向量表征模型的训练方法或文本聚类方法。
本公开的实施例提供的技术方案至少带来以下有益效果:根据本公开的示例性实施例的文本向量表征模型的训练方法和装置,可通过使文本向量表征模型(作为自监督模型)在训练过程中快速更新,而使辅助文本向量表征模型在训练过程中缓慢更新,在文本向量表征模型每一次大步伐更新后,辅助文本向量表征模型可以基于文本向量表征模型的更新方向进行相对小步伐的更新,从而相对于通过传统的语言模型,根据本公开的文本向量表征模型在文本向量表征相似度方面的训练更加精细,每一步的训练都会被辅助文本向量表征模型往回拉一些,便于确定文本向量表征模型的向前更新步伐是否太大而导致忽略了一些精细化的文本向量表征,而这些精细化的文本向量表征恰好可以有效地表示文本(例如,句子)之间的相似度,因此,可以基于文本的全局样式获取文本向量表征,有效避免忽略精细化的文本向量表征。相应地,根据本公开的示例性实施例的文本聚类方法和装置,可以有效改善文本聚类的效果,提高文本聚类的准确率和召回率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文本向量表征模型的训练方法,其特征在于,包括:
获取文本样本;
将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;
将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;
将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;
根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述训练方法还包括:基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。
3.如权利要求2所述的训练方法,其特征在于,所述训练方法还包括:
通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如权利要求2所述的训练方法,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。
4.如权利要求2所述的训练方法,其特征在于,基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数包括:
基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;
利用所述参数更新函数更新所述辅助文本向量表征模型的参数。
5.一种文本聚类方法,其特征在于,包括:
获取文本;
将文本转换成文本输入矩阵;
将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征;
对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引,
其中,所述文本向量表征模型是使用如权利要求1至4中任一项所述的文本向量表征模型的训练方法训练得到的。
6.一种文本向量表征模型的训练装置,其特征在于,包括:
文本获取单元,被配置为获取文本样本;
转换单元,被配置为将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;
文本向量表征获取单元,被配置为将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征,并且将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;
训练单元,被配置为根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
7.一种文本聚类装置,其特征在于,包括:
文本获取单元,被配置为获取文本;
转换单元,被配置为将文本转换成文本输入矩阵;
文本向量表征获取单元,被配置为将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征;
文本聚类单元,被配置为对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引,
其中,所述文本向量表征模型是使用如权利要求1至4中任一项所述的文本向量表征模型的训练方法训练得到的。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器,
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的文本向量表征模型的训练方法或如权利要求5所述的文本聚类方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述的文本向量表征模型的训练方法或如权利要求5所述的文本聚类方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的文本向量表征模型的训练方法或如权利要求5所述的文本聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110862902.6A CN113553858B (zh) | 2021-07-29 | 2021-07-29 | 文本向量表征模型的训练和文本聚类 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110862902.6A CN113553858B (zh) | 2021-07-29 | 2021-07-29 | 文本向量表征模型的训练和文本聚类 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553858A true CN113553858A (zh) | 2021-10-26 |
CN113553858B CN113553858B (zh) | 2023-10-10 |
Family
ID=78133239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110862902.6A Active CN113553858B (zh) | 2021-07-29 | 2021-07-29 | 文本向量表征模型的训练和文本聚类 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553858B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330512A (zh) * | 2021-12-13 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
CN111554268A (zh) * | 2020-07-13 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于语言模型的语言识别方法、文本分类方法和装置 |
CN112148877A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 语料文本的处理方法、装置及电子设备 |
CN112261491A (zh) * | 2020-12-22 | 2021-01-22 | 北京达佳互联信息技术有限公司 | 视频时序标注方法、装置、电子设备及存储介质 |
CN112528690A (zh) * | 2020-11-19 | 2021-03-19 | 西安交通大学 | 非接触式物品材质和形状识别方法、存储介质及计算设备 |
CN113128176A (zh) * | 2021-03-01 | 2021-07-16 | 科大讯飞股份有限公司 | 总结模型的训练方法和工单生成方法及相关设备、装置 |
-
2021
- 2021-07-29 CN CN202110862902.6A patent/CN113553858B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
CN111554268A (zh) * | 2020-07-13 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 基于语言模型的语言识别方法、文本分类方法和装置 |
CN112148877A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 语料文本的处理方法、装置及电子设备 |
CN112528690A (zh) * | 2020-11-19 | 2021-03-19 | 西安交通大学 | 非接触式物品材质和形状识别方法、存储介质及计算设备 |
CN112261491A (zh) * | 2020-12-22 | 2021-01-22 | 北京达佳互联信息技术有限公司 | 视频时序标注方法、装置、电子设备及存储介质 |
CN113128176A (zh) * | 2021-03-01 | 2021-07-16 | 科大讯飞股份有限公司 | 总结模型的训练方法和工单生成方法及相关设备、装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114330512A (zh) * | 2021-12-13 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN114330512B (zh) * | 2021-12-13 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113553858B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125331B (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
CN112437917B (zh) | 使用自主代理和词库的数据库的自然语言接口 | |
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
US8694303B2 (en) | Systems and methods for tuning parameters in statistical machine translation | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
CN108959256B (zh) | 短文本的生成方法、装置、存储介质和终端设备 | |
JP7296419B2 (ja) | 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
WO2017162134A1 (zh) | 用于文本处理的电子设备和方法 | |
US11158349B2 (en) | Methods and systems of automatically generating video content from scripts/text | |
JP6705318B2 (ja) | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム | |
Johns et al. | The influence of place and time on lexical behavior: A distributional analysis | |
CN109960721A (zh) | 基于源内容的多重压缩构造内容 | |
JP2020102193A (ja) | 文章変換システム、文章変換方法、及びプログラム | |
CN113553858B (zh) | 文本向量表征模型的训练和文本聚类 | |
CN113204624B (zh) | 一种多特征融合的文本情感分析模型及装置 | |
CN111951079B (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
CN111814496B (zh) | 文本处理方法、装置、设备及存储介质 | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
US20220366129A1 (en) | Spreadsheet table transformation | |
Gonzales | Sociolinguistic analysis with missing metadata? Leveraging linguistic and semiotic resources through deep learning to investigate English variation and change on Twitter | |
Das et al. | Data analysis on music classification system and creating a sentiment word dictionary for Kokborok language | |
Deng et al. | [Retracted] Intelligent Recognition Model of Business English Translation Based on Improved GLR Algorithm | |
CN115329850A (zh) | 信息比对方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |