CN116579320B - 句向量模型的训练方法、文本语义增强的方法及装置 - Google Patents
句向量模型的训练方法、文本语义增强的方法及装置 Download PDFInfo
- Publication number
- CN116579320B CN116579320B CN202310833852.8A CN202310833852A CN116579320B CN 116579320 B CN116579320 B CN 116579320B CN 202310833852 A CN202310833852 A CN 202310833852A CN 116579320 B CN116579320 B CN 116579320B
- Authority
- CN
- China
- Prior art keywords
- sequence
- text
- sample
- sentence vector
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 303
- 238000012549 training Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000011176 pooling Methods 0.000 claims abstract description 29
- 230000008451 emotion Effects 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 239000004973 liquid crystal related substance Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- -1 i.e. Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种句向量模型的训练方法、文本语义增强的方法及装置,其中训练方法包括:从预先构建的训练数据集获取预定数量的数据对;构建数据对中的输入序列,并将输入序列转换为对应的token序列;将token序列分别输入至嵌入层,得到对应的嵌入序列;将每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列;将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量;将每种初始向量输入至线性层,得到对应的目标向量;以最小化反映锚样本的方面词向量、正样本的句向量以及负样本的句向量的三元组损失函数为目标,对句向量模型进行训练。该过程降低了文本语义增强模型的复杂度,减少了人工成本和时间成本。
Description
技术领域
本公开总体说来涉及自然语言处理领域,更具体地讲,涉及一种句向量模型的训练方法、文本语义增强的方法及装置。
背景技术
文本数据增强是在文本数据不足的场景中,根据现已有的部分数据施以特定的模式,生成额外的训练数据。目前针对文本数据增强的模式有很多,半监督学习、无监督学习、自监督学习。有监督学习有机器学习和深度学习,半监督方法是使用大量的无标签数据加上少量的有标签数据对模型训练进行干预,无监督学习是使用了无标签的数据对数据文本进行增强,自监督学习是从无标签的数据中自发进行学习,无需标注数据。
现有技术中,文本数据增强可以增加额外文本数据,但在增加前需要经过一定的人工搜集、处理,设计算法来选取文本数据,增加了一定的人工成本。还可以用复杂的算法逻辑,如分层次处理对文本数据进行增强,但使用该类方法时间复杂度较高,增加了文本数据增强的时间成本。
发明内容
本公开的实施例提供一种句向量模型的训练方法、文本语义增强的方法及装置,能够通过对文本进行特有的自监督采集,然后通过预训练模型和深度学习中的注意力机制提取文本的句向量,进而实现对文本中方面词情感语义的增强,减少了人工成本和时间成本。
根据本公开的实施例的第一方面,提供一种句向量模型的训练方法,所述句向量模型包括嵌入层、自注意力层、池化层和线性层,所述训练方法包括:从预先构建的训练数据集获取预定数量的数据对,其中,每个数据对包括代表目标文本的正样本、代表随机文本的负样本以及代表目标文本的方面词的锚样本;基于输入文本数据集构建每个数据对中正样本的输入序列、负样本的输入序列以及锚样本的输入序列,并将所述正样本的输入序列、所述负样本输入的序列以及所述锚样本的输入序列转换为对应的token序列;将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列;将每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列;将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量;将每种初始向量输入至线性层,通过调整每种初始向量的维度,得到对应的目标向量,其中,所述目标向量包括正样本的句向量、负样本的句向量以及锚样本的方面词向量;以最小化反映所述锚样本的方面词向量、所述正样本的句向量以及所述负样本的句向量的三元组损失函数为目标,对所述句向量模型进行训练。
可选地,在从预先构建的训练数据集获取预定数量的数据对之前,所述训练方法还包括:获取情感分析数据集中的所有样本数据,并对所述样本数据进行清洗,其中,所述样本数据的特征包括文本、文本的实体序列以及文本的情感极性序列;去除清洗后的样本数据中特征错误的样本数据,并确定剩余的样本数据的实体序列和情感极性序列是否正确,将所述实体序列和所述情感极性序列均正确的样本数据归入目标样本数据集;根据目标样本数据集中的每个样本数据的情感极性序列中表示情感极性的序列所在的位置索引,确定每个样本数据的文本的方面词;针对所述目标样本数据集中的每个样本数据,执行以下步骤:以该样本数据的文本作为目标文本,从所述目标样本数据集中随机选取另一样本数据,并以选取的另一样本数据的文本作为随机文本;确定所述目标文本和所述随机文本分别对应的目标方面词和随机方面词;利用GloVe模型,基于所述目标方面词和所述随机方面词得到对应的目标词向量和随机词向量;将根据曼哈顿距离计算所述目标词向量和所述随机词向量的距离作为所述目标方面词和所述随机方面词的相似度;确定所述相似度是否小于或等于预设值;响应于所述相似度小于或等于所述预设值,以所述目标方面词作为锚样本,以所述目标文本作为正样本,以所述随机文本作为负样本,构建一个数据对,并将所述数据对归入所述训练数据集;响应于所述相似度大于所述预设值,重新从所述目标样本数据集中随机选取另一样本数据,将重新选取的另一样本数据的文本作为随机文本,并返回确定对应的目标方面词和随机方面词的步骤。
可选地,所述将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列,包括:在所述嵌入层,利用BERT模型,基于所述正样本的token序列、所述负样本的token序列以及所述锚样本的token序列得到对应的正样本的嵌入序列、负样本的嵌入序列以及锚样本的嵌入序列,其中,通过如下公式获得所述嵌入序列:,其中,BERT(/>)是所述BERT模型,S是token序列,/>是作为所述嵌入序列的、基于所述BERT模型的向量表示。
可选地,所述将所述每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列,包括:将所述每种嵌入序列输入至所述自注意力层,基于多组参数矩阵得到所述每种嵌入序列的多个单头相关性序列,其中,每组参数矩阵包括查询权重参数矩阵、键权重参数矩阵以及值权重参数矩阵,其中,通过如下公式获得所述单头相关性序列:
其中,为所述嵌入序列,/>表示单头相关性序列,/>为所述查询权重参数矩阵,为所述键权重参数矩阵,/>为所述值权重参数矩阵,/>为查询矩阵,/>为键矩阵,/>为值矩阵,/>为所述键矩阵的转置矩阵,/>表示所述查询权重参数矩阵的行数或列数;利用/>激活函数,根据所述多个单头相关性序列和多头权重参数矩阵计算多头自注意力机制的所述相关性序列,其中,通过如下公式获得所述相关性序列:,其中,;表示所述单头相关性序列的纵向拼接,/>表示多头的个数,/>是多头自注意力机制,/>为多头权重参数矩阵。可选地,所述将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量,包括:在所述池化层,通过如下公式获得所述初始向量:
其中,为基于/>的向量表示,代表所述相关性序列,/>为池化处理,/>为基于池化处理的所述初始向量,/>是作为所述嵌入序列的、基于BERT模型的向量表示。
可选地,所述训练方法还包括:将所述锚样本的方面词向量缓存至方面词集合,所述正样本的句向量和负样本的句向量缓存至句向量集合,其中,通过如下公式获得所述方面词集合和/或句向量集合:,其中,/>为所述方面词集合和/或句向量集合,/>为权重参数矩阵,/>为目标向量,/>是偏离向量。
可选地,通过如下公式表示所述三元组损失函数:
其中,为所述正样本的句向量,/>为所述负样本的句向量,/>为所述锚样本的方面词向量,/>为大于0的常数,其中,所述以最小化反映所述锚样本的方面词向量、所述正样本的句向量以及所述负样本的句向量的三元组损失函数为目标,对所述句向量模型进行训练,包括:当/>,/>时,对所述句向量模型的参数进行优化;当/>,/>时,对所述句向量模型的参数进行优化;当/>,/>时,停止对所述句向量模型的参数进行优化。
根据本公开的实施例的第二方面,提供一种文本语义增强的方法,包括:获取待进行文本语义增强的初始文本;将所述初始文本输入至句向量模型,得到所述初始文本的初始句向量,其中,所述句向量模型通过如上所述的句向量模型的训练方法得到;计算所述初始句向量与所述句向量模型中的句向量集合中的每个句向量的相似度;随机选取一个相似度大于预设阈值的句向量,将选择的句向量对应的文本作为相似文本,并将选择的相似文本与所述初始文本进行拼接,得到文本语义增强的目标文本。
根据本公开的实施例的第三方面,提供一种句向量模型的训练装置,所述句向量模型包括嵌入层、自注意力层、池化层和线性层,所述训练装置包括:数据获取单元,被配置为从预先构建的训练数据集获取预定数量的数据对,其中,每个数据对包括作为目标文本的正样本、作为随机文本的负样本以及作为目标文本的方面词的锚样本;数据转换单元,被配置为基于输入文本数据集构建每个数据对中正样本的输入序列、负样本的输入序列以及锚样本的输入序列,并将所述正样本的输入序列、所述负样本输入的序列以及所述锚样本的输入序列转换为对应的token序列;嵌入单元,被配置为将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列;自注意力单元,被配置为将每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列;池化单元,被配置为将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量;线性单元,被配置为将每种初始向量输入至线性层,通过调整每种初始向量的维度,得到对应的目标向量,其中,所述目标向量包括正样本的句向量、负样本的句向量以及锚样本的方面词向量;训练单元,被配置为以最小化反映所述锚样本的方面词向量、所述正样本的句向量以及所述负样本的句向量的三元组损失函数为目标,对所述句向量模型进行训练。
根据本公开的实施例的第四方面,提供一种文本语义增强的装置,包括:文本获取单元,被配置为获取待进行文本语义增强的初始文本;句向量获取单元,被配置为将所述初始文本输入至句向量模型,得到所述初始文本的初始句向量,其中,所述句向量模型通过如上所述的句向量模型的训练方法得到;相似度确定单元,被配置为计算所述初始句向量与所述句向量模型中的句向量集合中的每个句向量的相似度;拼接单元,被配置为随机选取一个相似度大于预设阈值的句向量,将选择的句向量对应的文本作为相似文本,并将选择的相似文本与所述初始文本进行拼接,得到文本语义增强的目标文本。
根据本公开的实施例的第五方面,提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述的句向量模型的训练方法或实现如上所述的文本语义增强的方法。
根据本公开的实施例的第六方面,提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,实现如上所述的句向量模型的训练方法或实现如上所述的文本语义增强的方法。
根据本公开的句向量模型的训练方法、文本语义增强的方法及装置,能够通过对文本进行特有的自监督采集,然后通过预训练模型和深度学习中的注意力机制提取文本的句向量,进而实现对文本中方面词的情感语义的增强,降低了文本语义增强模型的复杂度,在提升多重方面词语义同时,减少了人工成本和时间成本。
附图说明
图1是示出根据本公开的句向量模型的训练方法的流程图。
图2A是示出根据本公开的实施例的训练数据集构建方法的流程图。
图2B是示出图2A中的步骤S204的具体操作的流程图。
图3是示出本公开的实施例的训练数据集中的数据对构建的示例的示图。
图4是示出根据本公开的实施例的句向量模型的训练的示例的示图。
图5是示出根据本公开的实施例的文本语义增强的方法的流程图。
图6是示出根据本公开的句向量模型的训练装置的示意图。
图7是示出根据本公开的文本语义增强的装置的示意图。
图8是示出根据本公开的电子设备的示意图。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本公开的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本公开的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,本领域已知的特征的描述可被省略。
在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,已提供在此描述的示例,以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式,许多可行方式在理解本公开的公开之后将是清楚的。
如在此使用的,术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。
尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反,这些术语仅被配置为将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
在说明书中,当元件(诸如,层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时,该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件,或者可存在介于其间的一个或多个其他元件。相反,当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时,可不存在介于其间的其他元件。
在此使用的术语仅被配置为描述各种示例,并不将被配置为限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不应被理想化或过于形式化地解释。
此外,在示例的描述中,当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时,将省略这样的详细描述。
下面,将参照图1至图8来详细描述根据本公开的句向量模型的训练方法和装置以及文本语义增强的方法和装置。
图1是示出根据本公开的句向量模型的训练方法的流程图。
参照图1,本公开的示例性实施例提供了一种句向量模型的训练方法。具体而言,句向量模型包括嵌入层、自注意力层、池化层和线性层。
在步骤S101中,从预先构建的训练数据集获取预定数量的数据对,其中,每个数据对包括代表目标文本的正样本、代表随机文本的负样本以及代表目标文本的方面词的锚样本。训练数据集中存放的是对句向量模型进行训练的数据对。数据对的正样本代表目标文本,即需要语义增强的文本,随机文本是在训练数据集中随机选取的文本,方面词是目标文本的情感极性对应的实体。
图2A是示出根据本公开的实施例的训练数据集构建方法的流程图,图2B是示出图2A中的步骤S204的具体操作的流程图,图3是示出本公开的实施例的训练数据集中的数据对构建的示例的示图。参照图2A、图2B和图3,在步骤S201中,获取情感分析数据集中的所有样本数据,并对样本数据进行清洗,其中,样本数据的特征包括文本、文本的实体序列以及文本的情感极性序列。情感分析是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理,利用情感分析能力,可以针对带有主观描述的自然语言文本,自动判断该文本的情感正负倾向并给出相应的结果。情感分析分可分为段落级别、句子级别和方面级别。方面级别是指对文本中出现的每个实体进行情感分析。
如上所述,情感分析数据集是指经科学取样和加工的大规模电子文本库,存放的是在语言的实际使用中真实出现过的语言材料,即样本数据。其中,样本数据的特征分别包括文本、实体序列以及情感极性序列。
如样本数据的特征为“镜头口径小, B-ASP I-ASP I-ASP I-ASP O , 0 0 0 0 -1”,其中,“镜头口径小”为文本,“B-ASP I-ASP I-ASP I-ASP O”为文本的实体序列。“0 0 00 -1”为文本的情感极性序列。具体地,实体序列用于标注文本中的实体,序列中的B-ASP表示实体的开始,I-ASP表示实体开头后面的所有部分,O表示不属于任何一种类型,即,不是实体。实体序列“B-ASP I-ASP I-ASP I-ASP O”表示文本“镜头口径小”中的实体为“镜头口径”。情感极性序列用于标注文本中的实体的情感极性,其中,序列中数字0表示有情感极性,且情感极性为消极;数字1表示有情感极性,且情感极性为中性;数字2表示有情感极性,且情感极性为积极;数字-1表示无情感极性。情感极性序列“0 0 0 0 -1”代表文本中的实体“镜头口径”的情感极性是消极的。
例如,“英寸液晶屏显示效果出色,O O B-ASP I-ASP I-ASP O O O O O O,-1 -12 2 2 -1 -1 -1 -1 -1 - 1”。文本为英寸液晶屏显示效果出色,文本中的实体为液晶屏,实体液晶屏的情感极性是积极的。
根据本公开的实施例,可以通过各种现有方法获取训练数据集(即,情感分析数据集)及其中的样本数据,这里不再赘述。
然后,在步骤S202中,去除清洗后的样本数据中特征错误的样本数据,并确定剩余的样本数据的实体序列和情感极性序列是否正确,将实体序列和情感极性序列均正确的样本数据归入目标样本数据集。例如,清洗后的样本数据为“清晰度高,B-ASP I-ASP O O,-1-1 -1 2”,在该样本数据中,文本为清晰度高,与文本对应的正确的实体序列为B-ASP I-ASP I-ASP O,正确的情感极性序列为2 2 2 -1,而样本数据“清晰度高,B-ASP I-ASP OO,-1 -1 -1 2”的实体序列和情感极性序列均不正确,因此可将该样本数据剔除。
接下来,在步骤S203中,根据目标样本数据集中的每个样本数据的情感极性序列中表示情感极性的序列所在的位置索引,确定每个样本数据的文本的方面词。当情感极性序列中的数字为0、1或2时,表示文本中的实体有情感极性,根据数字0、1或2在情感极性序列中的位置确定对应的位置索引,根据位置索引确定文本中的方面词。
例如,“镜头口径小, B-ASP I-ASP I-ASP I-ASP O , 0 0 0 0 -1”,情感极性序列为“0 0 0 0 -1”,序列中代表情感极性的数字0的位置为第1至第4,那么对应的位置索引为“1 2 3 4”,根据位置索引确定文本“镜头口径小”中的方面词的位置是第1个字至第4个字,从而确定方面词为“镜头口径”。 “英寸液晶屏显示效果出色,O O B-ASP I-ASP I-ASPO O O O O O,-1 -1 2 2 2 -1 -1 -1 -1 -1 - 1”中,情感极性序列为“-1 -1 2 2 2 -1 -1 -1 -1 -1 - 1”,其中表示有情感极性的数字为2,所在位置为情感极性序列的第3至第5,那么对应的位置索引为“3 4 5”,根据位置索引“3 4 5”确定文本“英寸液晶屏显示效果出色”的方面词的位置,进而确定方面词为液晶屏。
然后,在步骤S204中,针对目标样本数据集中的每个样本数据,构建一个数据对,并将构建的数据对归入训练数据集。
图2B是示出步骤S204的具体操作的流程图。
参照图2B,在步骤S204-1中,针对目标样本数据集中的每个样本数据,以该样本数据的文本作为目标文本,从目标样本数据集中随机选取另一样本数据,并以选取的另一样本数据的文本作为随机文本。例如,针对每个目标样本数据集中的目标文本/>,通过随机采样选取另一个在/>中的随机文本/>。
然后,在步骤S204-2中,确定目标文本和随机文本分别对应的目标方面词和随机方面词。具体地,根据目标文本的情感极性序列确定目标方面词,根据随机文本的情感极性序列确定随机方面词。例如,确定为目标文本/>对应的目标方面词,/>为随机文本/>对应的随机方面词。
然后,在步骤S204-3中,利用GloVe模型,基于目标方面词和随机方面词得到对应的目标词向量和随机词向量。在步骤S204-4中,将根据曼哈顿距离计算目标词向量和随机词向量的距离作为目标方面词和随机方面词的相似度。具体地,首先将目标方面词和随机方面词/>分别输入至GloVe模型,得到对应的目标词向量/>和随机词向量/>,然后基于曼哈顿距离计算目标词向量/>和随机词向量/>的距离,将目标词向量和随机词向量间的距离作为目标方面词和随机方面词的相似度/>。
接下来,在步骤S204-5中,确定相似度是否小于或等于预设值。例如,预设值可设置为0.6,但是本公开不限于此。
然后,在步骤S204-6中,响应于相似度小于或等于预设值,以目标方面词作为锚样本,以目标文本作为正样本,以随机文本作为负样本,构建一个数据对,并将数据对归入训练数据集。这样,在相似度小于或等于预设值时,目标文本与随机文本的方面词的相似度较低,可以根据目标文本、目标文本的方面词/>以及随机文本/>分别作为正样本数据、锚样本数据以及负样本数据构建一个数据对/>,根据数据对可得到训练数据集。根据训练数据集中的数据对,对句向量模型进行训练,提高句向量模型的准确性。
具体地,一个样本数据“镜头口径小, B-ASP I-ASP I-ASP I-ASP O , 0 0 0 -1”,它表示该样本中方面词为“镜头口径”,情感极性为消极。将目标文本“镜头口径小”作为正样本,将方面词“镜头口径”作为锚样本,以目标样本数据集中,根据方面词“镜头口径”随机选取的相似度小于预设值的方面词“速度”所对应的文本“它的开机启动速度较慢”作为负样本,最终可构建数据对:“镜头口径, 镜头口径小, 它的开机启动速度较慢”。根据本公开的实施例,数据对中各样本的位置仅为示例,而非限制,即数据对既可以为,也可以为/>。
可选择地,在步骤S204-7中,响应于相似度大于预设值,重新从目标样本数据集中随机选取另一样本数据,将重新选取的另一样本数据的文本作为随机文本,并返回步骤S204-2。这样,在相似度大于预设值时,目标文本与随机文本的方面词相似度较高,需要重新在目标样本数据集中选取另外一个样本数据,并作为随机文本完成后续操作。
返回参照图1,在步骤S102中,基于输入文本数据集构建每个数据对中正样本的输入序列、负样本的输入序列以及锚样本的输入序列,并将正样本的输入序列、负样本输入的序列以及锚样本的输入序列转换为对应的token序列。具体地,根据输入文本数据集将每个数据对中的正样本拼接为“[CLS]+正样本+[SEP]+正样本的方面词+[SEP]”的输入序列,将每个数据对中的负样本拼接为“[CLS]+负样本+[SEP]+负样本的方面词+[SEP]”的输入序列,将每个数据对中的正样本的方面词拼接为“[CLS]+正样本的方面词+[SEP]”的输入序列。其中,[CLS]和[SEP]是BERT模型中的两个特殊标记符号,[CLS]对应输入文本中第一个词的词向量,[SEP]对应输入文本中最后一个词的词向量,用于分割不同句子。例如,可以将正样本“镜头口径小”拼接为“[CLS]+镜头口径小+[SEP]+镜头口径+[SEP]”,将锚样本“镜头口径”拼接为“[CLS]+镜头口径+[SEP]”。然后,将正样本的输入序列、负样本的输入序列以及锚样本的输入序列转换为对应的token序列。进一步地,根据BERT模型的预设词表分别确定正样本的token序列、负样本的token序列以及锚样本的token序列的索引。
在步骤S103中,将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列。
图4是示出根据本公开的实施例的句向量模型的训练的示例的示图。参照图4,步骤S103可包括:在嵌入层,利用BERT模型(即,嵌入层被构建为BERT模型),基于正样本的token序列、负样本的token序列以及锚样本的token序列得到对应的正样本的嵌入序列、负样本的嵌入序列以及锚样本的嵌入序列,其中,通过如下公式获得嵌入序列:,其中,BERT(/>)是BERT模型,S是token序列,/>是作为嵌入序列的、基于BERT模型的向量表示。这样,利用BERT模型对正样本的token序列、负样本的token序列以及锚样本的token序列进行编码,得到正样本的嵌入序列/>、锚样本的嵌入序列/>以及负样本的嵌入序列/>,其中p、a、n分别表示正样本、锚样本以及负样本。利用Bert模型考虑了上下文长序列的关系,采用三胞胎参数共享结构即正样本、负样本以及锚样本的参数共享,减少句向量模型的复杂度。
然后,在步骤S104中,将每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列。这样,将正样本和负样本的文本信息更多地聚焦于其包含的方面词上,减少由可能出现的长距离上下文依赖对方面词的理解造成负面影响,利用自注意力层使用无监督的模式训练可以更好表示文本的相关性序列。
参照图4,步骤S104可包括:将每种嵌入序列输入至自注意力层,基于多组参数矩阵得到所述每种嵌入序列的多个单头相关性序列,其中,每组参数矩阵包括查询权重参数矩阵、键权重参数矩阵以及值权重参数矩阵,其中,通过如下公式获得单头相关性序列:
其中,为嵌入序列,/>表示单头相关性序列,/>为查询权重参数矩阵,/>为键权重参数矩阵,/>为值权重参数矩阵,/>为查询矩阵,/>为键矩阵,/>为值矩阵,/>为键矩阵的转置矩阵,/>表示查询权重参数矩阵的行数或列数。
如上所述,为输入的嵌入序列,可以为正样本的嵌入序列、负样本的嵌入序列或锚样本的嵌入序列。自注意力层包括多组参数矩阵,每组参数矩阵均包括查询权重参数矩阵/>、键权重参数矩阵/>以及值权重参数矩阵/>,其中,/>的维度为/>,/>的维度为/>,/>的维度为/>,/>、/>、/>都表示一个数值,例如,/>的维度为2/>2,/>的行数和列数均为2。将多组/>、/>、/>分别与嵌入序列/>进行相乘,映射得到对应的多组矩阵,每组矩阵均包括查询矩阵/>、键矩阵/>以及值矩阵/>,根据多组矩阵得到与原序列同样长度的多个单头相关性序列序列/>。
进一步地,步骤S104还可包括:利用激活函数,根据多个单头相关性序列和多头权重参数矩阵计算多头自注意力机制的相关性序列,其中,通过如下公式获得相关性序列:/>,其中,;表示单头相关性序列的纵向拼接,/>表示多头的个数,/>是多头自注意力机制,/>为多头权重参数矩阵。具体地,在多头自注意力机制下,要通过多头权重参数矩阵/>将多个单头相关性序列进行变换,最终通过/>激活函数输出相关性序列。
然后,在步骤S105中,将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量。这样,在池化层中,选取MeanPooling方法更容易得到用于表示正样本的相关性序列的初始向量,用于表示锚样本的相关性序列的初始向量/>,以及用于表示负样本的相关性序列的初始向量/>。
参照图4,步骤S105可包括:在池化层,通过如下公式获得初始向量:,/>,其中,/>为基于的向量表示,代表相关性序列,/>为池化处理,/>为基于池化处理的初始向量,/>是作为嵌入序列的、基于BERT模型的向量表示。
接下来,在步骤S106中,将每种初始向量输入至线性层,通过调整每种初始向量的维度,得到对应的目标向量,其中,目标向量包括正样本的句向量、负样本的句向量以及锚样本的方面词向量。参照图4,通过微调的线性层对目标向量的维数进行转换,将其转移到更适合句子表示的维度。
根据本公开的实施例,句向量模型的训练方法还可包括以下步骤。将锚样本的方面词向量缓存至方面词集合,正样本的句向量和负样本的句向量缓存至句向量集合,其中,通过如下公式获得方面词集合和/或句向量集合:,其中,/>为方面词集合和/或句向量集合,/>为权重参数矩阵,/>为目标向量,可以为目标向量包括正样本的句向量、负样本的句向量以及锚样本的方面词向量,/>是偏离向量。根据本公开的实施例,权重参数矩阵和偏离向量可以根据各种现有方法来确定,这里不再赘述。这样,将微调后的锚样本的词向量缓存为词向量集合,微调后的正样本和负样本的句向量缓存为句向量集合,以此来使句向量模型学习文本之间的语义差异性。
最后,在步骤S107中,以最小化反映锚样本的方面词向量、正样本的句向量以及负样本的句向量的三元组损失函数为目标,对句向量模型进行训练。这样,利用triplet loss三元组损失函数来训练句向量模型,每个目标文本为正样本,对应的锚样本/>为正样本中的方面词,负样本则来自随机采样中的其他文本/>。通过最小化损失函数,来使句向量模型更容易区分差异性微小的不同文本语义。
参照图4,步骤S107可包括:通过如下公式表示三元组损失函数:,其中,/>为正样本的句向量,/>为负样本的句向量,/>为锚样本的方面词向量,/>为大于0的常数,其中,当,/>时,为Semi-hardtriplet,句向量模型能够稍微理解数据对中的正样本和负样本,但无法做出明确的区分,需要对句向量模型的参数进行优化。当/>,/>时,为Hardtriplet,句向量模型错误理解数据对中的正样本与负样本,能够最快地对句向量模型的参数进行优化。当/>,/>时,为Easy triplet,停止对句向量模型的参数进行优化。
根据本公开的实施例的句向量模型的训练方法,针对情感语义数据集中的文本,首先对文本进行特有的自监督采集得到训练数据集,然后通过预训练模型,和深度学习中的注意力机制提取数据对中文本的句向量,进而实现对文本中方面词情感语义的增强。该方法降低了文本语义增强模型的复杂度,在提升多重方面词语义同时,减少了人工成本和时间成本。
图5是示出根据本公开的实施例的文本语义增强的方法的流程图。参照图5,在步骤S501中,获取待进行文本语义增强的初始文本。具体地,初始文本为情感语义数据集中的文本。
在步骤S502中,将初始文本输入至句向量模型,得到初始文本的初始句向量,其中,句向量模型通过上述的句向量模型的训练方法得到。
在步骤S503中,计算初始句向量与句向量模型中的句向量集合中的每个句向量的相似度。具体地,采用曼哈顿距离计算相似度,计算公式为:,其中,/>为初始文本,/>为与句向量集合中的句向量对应的文本,x和y分别表示/>和/>所对应的句向量,/>表示绝对值,/>和/>分别表示向量中的第i个元素。
在步骤S504中,随机选取一个相似度大于预设阈值的句向量,将选择的句向量对应的文本作为相似文本,并将选择的相似文本与初始文本进行拼接,得到文本语义增强的目标文本。具体地,相似度的预设阈值可以设置为0.7,但是本公开不限于此。例如,初始文本为“镜头口径小”,其方面词为“镜头口径”。将初始文本输入句向量模型,得到初始文本对应的初始句向量,通过曼哈顿距离计算初始句向量与句向量集合中的句向量的相似度,随机选取一个相似度大于预设阈值的句向量,句向量对应的相似文本/>为“且光滑的金属镜头滑盖易留下手指纹”,其方面词为“镜头滑盖”。将初始文本和相似文本进行拼接,最终得到一条文本语义增强后的目标文本:“镜头口径小, 且光滑的金属镜头滑盖易留下手指纹”。
根据本公开的实施例的文本语义增强的方法,该方法通过将初始文本输入至句向量模型,根据句向量模型中存在的方面词集合进行无监督训练实现对文本语义的增强,降低了文本语义增强模型的复杂度,在提升多重方面词语义同时,减少了人工成本和时间成本。
图6是示出根据本公开的句向量模型的训练装置的示意图。参照图6,本公开的示例性实施例还提供了句向量模型的训练装置60,其中,句向量模型包括嵌入层、自注意力层、池化层和线性层,训练装置60包括:数据获取单元601、数据转换单元602、嵌入单元603、自注意力单元604、池化单元605、线性单元606和训练单元607。
数据获取单元601可从预先构建的训练数据集获取预定数量的数据对,其中,每个数据对包括作为目标文本的正样本、作为随机文本的负样本以及作为目标文本的方面词的锚样本。数据转换单元602可基于输入文本数据集构建每个数据对中正样本的输入序列、负样本的输入序列以及锚样本的输入序列,并将正样本的输入序列、负样本输入的序列以及锚样本的输入序列转换为对应的token序列。嵌入单元603可将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列。自注意力单元604可将每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列。池化单元605可将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量。线性单元606可将每种初始向量输入至线性层,通过调整每种初始向量的维度,得到对应的目标向量,其中,目标向量包括正样本的句向量、负样本的句向量以及锚样本的方面词向量。训练单元607可以以最小化反映锚样本的方面词向量、正样本的句向量以及负样本的句向量的三元组损失函数为目标,对句向量模型进行训练。
本公开的实施例提供的句向量模型的训练装置能够实现方法实施例中句向量模型的训练方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
图7是示出根据本公开的文本语义增强的装置的示意图。参照图7,本公开的示例性实施例还提供了文本语义增强的装置70,包括:文本获取单元701、句向量获取单元702、相似度确定单元703和拼接单元704。
文本获取单元701可获取待进行文本语义增强的初始文本。句向量获取单元702可将初始文本输入至句向量模型,得到初始文本的初始句向量,其中,句向量模型通过上述的句向量模型的训练方法得到。相似度确定单元703可计算初始句向量与句向量模型中的句向量集合中的每个句向量的相似度。拼接单元704可随机选取一个相似度大于预设阈值的句向量,将选择的句向量对应的文本作为相似文本,并将选择的相似文本与初始文本进行拼接,得到文本语义增强的目标文本。
本公开的实施例提供的文本语义增强的装置够实现方法实施例中文本语义增强的方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
图8是示出根据本公开的电子设备的示意图。参照图8,电子设备80包括至少一个处理器801和至少一个存储器802,上述至少一个存储器802中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器801执行时,执行根据本公开示例性实施例的句向量模型的训练方法或文本语义增强的方法。
作为示例,电子设备80可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备80并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备80还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在电子设备80中,处理器801可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理器801可运行存储在存储器802中的指令或代码,其中,存储器802还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
处理器801可与存储器802集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器802可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。处理器801和存储器802可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器801能够读取存储在存储器中的文件。
此外,电子设备80还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备80的所有组件可经由总线和/或网络而彼此连接。
根据本公开的实施例的句向量模型的训练方法或文本语义增强的方法可被编写为计算机程序并被存储在计算机可读存储介质上。当计算机程序被处理器执行时,可实现如上所述的句向量模型的训练方法或文本语义增强的方法。计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行计算机程序。在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种句向量模型的训练方法,其特征在于,所述句向量模型包括嵌入层、自注意力层、池化层和线性层,所述训练方法包括:
从预先构建的训练数据集获取预定数量的数据对,其中,每个数据对包括代表目标文本的正样本、代表随机文本的负样本以及代表目标文本的方面词的锚样本;
基于输入文本数据集构建每个数据对中正样本的输入序列、负样本的输入序列以及锚样本的输入序列,并将所述正样本的输入序列、所述负样本输入的序列以及所述锚样本的输入序列转换为对应的token序列;
将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列;
将每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列;
将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量;
将每种初始向量输入至线性层,通过调整每种初始向量的维度,得到对应的目标向量,其中,所述目标向量包括正样本的句向量、负样本的句向量以及锚样本的方面词向量;
以最小化反映所述锚样本的方面词向量、所述正样本的句向量以及所述负样本的句向量的三元组损失函数为目标,对所述句向量模型进行训练。
2.根据权利要求1所述的训练方法,其特征在于,在从预先构建的训练数据集获取预定数量的数据对之前,所述训练方法还包括:
获取情感分析数据集中的所有样本数据,并对所述样本数据进行清洗,其中,所述样本数据的特征包括文本、文本的实体序列以及文本的情感极性序列;
去除清洗后的样本数据中特征错误的样本数据,并确定剩余的样本数据的实体序列和情感极性序列是否正确,将所述实体序列和所述情感极性序列均正确的样本数据归入目标样本数据集;
根据目标样本数据集中的每个样本数据的情感极性序列中表示情感极性的序列所在的位置索引,确定每个样本数据的文本的方面词;
针对所述目标样本数据集中的每个样本数据,执行以下步骤:
以该样本数据的文本作为目标文本,从所述目标样本数据集中随机选取另一样本数据,并以选取的另一样本数据的文本作为随机文本;
确定所述目标文本和所述随机文本分别对应的目标方面词和随机方面词;
利用GloVe模型,基于所述目标方面词和所述随机方面词得到对应的目标词向量和随机词向量;
将根据曼哈顿距离计算所述目标词向量和所述随机词向量的距离作为所述目标方面词和所述随机方面词的相似度;
确定所述相似度是否小于或等于预设值;
响应于所述相似度小于或等于所述预设值,以所述目标方面词作为锚样本,以所述目标文本作为正样本,以所述随机文本作为负样本,构建一个数据对,并将所述数据对归入所述训练数据集;
响应于所述相似度大于所述预设值,重新从所述目标样本数据集中随机选取另一样本数据,将重新选取的另一样本数据的文本作为随机文本,并返回确定对应的目标方面词和随机方面词的步骤。
3.根据权利要求1所述的训练方法,其特征在于,所述将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列,包括:
在所述嵌入层,利用BERT模型,基于所述正样本的token序列、所述负样本的token序列以及所述锚样本的token序列得到对应的正样本的嵌入序列、负样本的嵌入序列以及锚样本的嵌入序列,
其中,通过如下公式获得所述嵌入序列:
其中,BERT()是所述BERT模型,S是token序列,/>是作为所述嵌入序列的、基于所述BERT模型的向量表示。
4.根据权利要求1所述的训练方法,其特征在于,所述将所述每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列,包括:
将所述每种嵌入序列输入至所述自注意力层,基于多组参数矩阵得到所述每种嵌入序列的多个单头相关性序列,其中,每组参数矩阵包括查询权重参数矩阵、键权重参数矩阵以及值权重参数矩阵单头相关性序列,
其中,通过如下公式获得所述单头相关性序列:
其中,为所述嵌入序列,/>表示单头相关性序列,/>为所述查询权重参数矩阵,/>为所述键权重参数矩阵,/>为所述值权重参数矩阵,/>为查询矩阵,/>为键矩阵,/>为值矩阵,/>为所述键矩阵的转置矩阵,/>表示所述查询权重参数矩阵的行数或列数;
利用激活函数,根据所述多个单头相关性序列和多头权重参数矩阵计算多头自注意力机制的所述相关性序列,
其中,通过如下公式获得所述相关性序列:
其中,;表示所述单头相关性序列的纵向拼接,表示多头的个数,/>是多头自注意力机制,/>为多头权重参数矩阵。
5.根据权利要求1所述的训练方法,其特征在于,所述将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量,包括:
在所述池化层,通过如下公式获得所述初始向量:
其中,为基于/>的向量表示,代表所述相关性序列,/>为池化处理,/>为基于池化处理的所述初始向量,/>是作为所述嵌入序列的、基于BERT模型的向量表示。
6.根据权利要求5所述的训练方法,其特征在于,所述训练方法还包括:
将所述锚样本的方面词向量缓存至方面词集合,所述正样本的句向量和负样本的句向量缓存至句向量集合,
其中,通过如下公式获得所述方面词集合和/或句向量集合:
其中,为所述方面词集合和/或句向量集合,/>为权重参数矩阵,/>为所述目标向量,/>是偏离向量。
7.根据权利要求1所述的方法,其特征在于,通过如下公式表示所述三元组损失函数:
其中,为所述正样本的句向量,/>为所述负样本的句向量,/>为所述锚样本的方面词向量,/>为大于0的常数,
其中,所述以最小化反映所述锚样本的方面词向量、所述正样本的句向量以及所述负样本的句向量的三元组损失函数为目标,对所述句向量模型进行训练,包括:
当,/>时,对所述句向量模型的参数进行优化;
当,/>时,对所述句向量模型的参数进行优化;
当,/>时,停止对所述句向量模型的参数进行优化。
8.一种文本语义增强的方法,其特征在于,包括:
获取待进行文本语义增强的初始文本;
将所述初始文本输入至句向量模型,得到所述初始文本的初始句向量,其中,所述句向量模型通过如权利要求1至7中任一项所述的句向量模型的训练方法得到;
计算所述初始句向量与所述句向量模型中的句向量集合中的每个句向量的相似度;
随机选取一个相似度大于预设阈值的句向量,将选择的句向量对应的文本作为相似文本,并将选择的相似文本与所述初始文本进行拼接,得到文本语义增强的目标文本。
9.一种句向量模型的训练装置,其特征在于,所述句向量模型包括嵌入层、自注意力层、池化层和线性层,所述训练装置包括:
数据获取单元,被配置为从预先构建的训练数据集获取预定数量的数据对,其中,每个数据对包括作为目标文本的正样本、作为随机文本的负样本以及作为目标文本的方面词的锚样本;
数据转换单元,被配置为基于输入文本数据集构建每个数据对中正样本的输入序列、负样本的输入序列以及锚样本的输入序列,并将所述正样本的输入序列、所述负样本输入的序列以及所述锚样本的输入序列转换为对应的token序列;
嵌入单元,被配置为将正样本的token序列、负样本的token序列以及锚样本的token序列分别输入至嵌入层,得到对应的嵌入序列;
自注意力单元,被配置为将每种嵌入序列输入至自注意力层,得到每种嵌入序列的相关性序列;
池化单元,被配置为将每种相关性序列输入至池化层,得到用于表示每种相关性序列的初始向量;
线性单元,被配置为将每种初始向量输入至线性层,通过调整每种初始向量的维度,得到对应的目标向量,其中,所述目标向量包括正样本的句向量、负样本的句向量以及锚样本的方面词向量;
训练单元,被配置为以最小化反映所述锚样本的方面词向量、所述正样本的句向量以及所述负样本的句向量的三元组损失函数为目标,对所述句向量模型进行训练。
10.一种文本语义增强的装置,其特征在于,包括:
文本获取单元,被配置为获取待进行文本语义增强的初始文本;
句向量获取单元,被配置为将所述初始文本输入至句向量模型,得到所述初始文本的初始句向量,其中,所述句向量模型通过如权利要求1至7中任一项所述的句向量模型的训练方法得到;
相似度确定单元,被配置为计算所述初始句向量与所述句向量模型中的句向量集合中的每个句向量的相似度;
拼接单元,被配置为随机选取一个相似度大于预设阈值的句向量,将选择的句向量对应的文本作为相似文本,并将选择的相似文本与所述初始文本进行拼接,得到文本语义增强的目标文本。
11.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现如权利要求1至7中任意一项所述的句向量模型的训练方法或实现如权利要求8所述的文本语义增强的方法。
12.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至7中任意一项所述的句向量模型的训练方法或实现如权利要求8所述的文本语义增强的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310833852.8A CN116579320B (zh) | 2023-07-07 | 2023-07-07 | 句向量模型的训练方法、文本语义增强的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310833852.8A CN116579320B (zh) | 2023-07-07 | 2023-07-07 | 句向量模型的训练方法、文本语义增强的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116579320A CN116579320A (zh) | 2023-08-11 |
CN116579320B true CN116579320B (zh) | 2023-09-15 |
Family
ID=87536116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310833852.8A Active CN116579320B (zh) | 2023-07-07 | 2023-07-07 | 句向量模型的训练方法、文本语义增强的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116579320B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222329A (zh) * | 2019-12-10 | 2020-06-02 | 上海八斗智能技术有限公司 | 句向量训练方法及模型、句向量预测方法及系统 |
CN113408299A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 语义表示模型的训练方法、装置、设备和存储介质 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
CN113722438A (zh) * | 2021-08-31 | 2021-11-30 | 平安科技(深圳)有限公司 | 基于句向量模型的句向量生成方法、装置及计算机设备 |
CN115221315A (zh) * | 2022-06-01 | 2022-10-21 | 阿里巴巴(中国)有限公司 | 文本处理方法以及装置、句向量模型训练方法以及装置 |
-
2023
- 2023-07-07 CN CN202310833852.8A patent/CN116579320B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222329A (zh) * | 2019-12-10 | 2020-06-02 | 上海八斗智能技术有限公司 | 句向量训练方法及模型、句向量预测方法及系统 |
CN113408299A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 语义表示模型的训练方法、装置、设备和存储介质 |
CN113553824A (zh) * | 2021-07-07 | 2021-10-26 | 临沂中科好孕智能技术有限公司 | 一种句子向量模型训练方法 |
CN113722438A (zh) * | 2021-08-31 | 2021-11-30 | 平安科技(深圳)有限公司 | 基于句向量模型的句向量生成方法、装置及计算机设备 |
CN115221315A (zh) * | 2022-06-01 | 2022-10-21 | 阿里巴巴(中国)有限公司 | 文本处理方法以及装置、句向量模型训练方法以及装置 |
Non-Patent Citations (1)
Title |
---|
Universal Sentence Encoder;Daniel Cer et al.;arXiv.org;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116579320A (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885842B (zh) | 处理文本神经网络 | |
CN110442878B (zh) | 翻译方法、机器翻译模型的训练方法、装置及存储介质 | |
US11657802B2 (en) | Utilizing a dynamic memory network for state tracking | |
JP2019008778A (ja) | 画像の領域のキャプション付加 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN104615589A (zh) | 训练命名实体识别模型的方法、命名实体识别方法及装置 | |
CN115618045B (zh) | 一种视觉问答方法、装置及存储介质 | |
CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN111611805A (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
CN117609444B (zh) | 一种基于大模型的搜索问答方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116561592B (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
CN110895928A (zh) | 语音识别方法和设备 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN111563380A (zh) | 一种命名实体识别方法及其装置 | |
CN116982054A (zh) | 使用前瞻树搜索的序列到序列神经网络系统 | |
CN114974224A (zh) | 语音意图识别模型的训练方法、语音意图识别方法和装置 | |
CN116579320B (zh) | 句向量模型的训练方法、文本语义增强的方法及装置 | |
US20230316082A1 (en) | Deterministic training of machine learning models | |
CN116956935A (zh) | 一种伪标签数据构建方法、装置、终端及介质 | |
CN116541707A (zh) | 一种图文匹配模型训练方法、装置、设备及存储介质 | |
CN113779999B (zh) | 命名实体识别方法和命名实体识别装置 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN114692569A (zh) | 一种句子生成方法及装置 | |
CN116958748B (zh) | 多任务因果学习的图像检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |