CN111222329A - 句向量训练方法及模型、句向量预测方法及系统 - Google Patents

句向量训练方法及模型、句向量预测方法及系统 Download PDF

Info

Publication number
CN111222329A
CN111222329A CN201911261750.3A CN201911261750A CN111222329A CN 111222329 A CN111222329 A CN 111222329A CN 201911261750 A CN201911261750 A CN 201911261750A CN 111222329 A CN111222329 A CN 111222329A
Authority
CN
China
Prior art keywords
token
sentence
word
sentence vector
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911261750.3A
Other languages
English (en)
Other versions
CN111222329B (zh
Inventor
陈海飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Badu Intelligent Technology Co Ltd
Original Assignee
Shanghai Badu Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Badu Intelligent Technology Co Ltd filed Critical Shanghai Badu Intelligent Technology Co Ltd
Priority to CN201911261750.3A priority Critical patent/CN111222329B/zh
Publication of CN111222329A publication Critical patent/CN111222329A/zh
Application granted granted Critical
Publication of CN111222329B publication Critical patent/CN111222329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种句向量训练方法及模型、句向量预测方法及系统,其中向量预测模型构建方法,包括以下步骤:S11、构建句向量训练模型;S12、对所述句向量训练模型模型进行训练;S13、向句向量预测模型中导入所述句向量训练模型的参数。本句向量训练方法及模型、句向量预测方法及系统,进行句向量预测时有很好的领域适应能力和句子向量泛化能力,可直接迁移到多种领域进行使用。

Description

句向量训练方法及模型、句向量预测方法及系统
技术领域
本发明涉及句向量预测技术领域,尤其涉及一种句向量训练方法及模型、 句向量预测方法及系统。
背景技术
句子相似度,可以计算两个向量的空间距离得出,句子的向量表示来自 seq2seq模型的encoder最后输出的state,它具有句子的语意信息,在论文 中常常用context表示。
句子向量学习大多采用3种技术方案:
(1)基于词共现任务在大规模语料训练词向量,对句子分词,获取每个词 的向量表示,将全部词的向量叠加成一个新的向量作为句子的向量表示。
(2)采用encoder-decoder模型(编码器-解码器模型),通过中心句预 测上下文的句子,将对句子通过encoder得到的向量作为句子的向量表示。
(3)采用RNN(循环神经网络)、CNN(卷积神经网络)、注意力机制或更 复杂的模型,基于自然语言处理中常见任务(命名实体实体、句子相似性判定 等)的标注语料,进行多任务学习,以共享层输出作为句子的向量表示.
以上方案存在问题,如(3)标注语料规模小,迁移到新的领域时会出现领 域过拟合问题,句子向量泛化能力差,迁移到新的任务时性能下降。
发明内容
有鉴于此,本发明要解决的技术问题是提供一种句向量训练方法及模型、 句向量预测方法及系统,进行句向量预测时有很好的领域适应能力和句子向 量泛华能力,可直接迁移到多种领域进行使用。
本发明的技术方案是这样实现的:
一种句向量预测模型构建方法,包括以下步骤:
S11、构建句向量训练模型;
S12、对所述句向量训练模型模型进行训练;
S13、向句向量预测模型中导入所述句向量训练模型的参数。
优选的,在所述S11之前,还包括:
构建训练集;
对语料进行预处理,得到语料D,统计所述语料D内的词频,取词频>X 的词形成词表,对应词频<=X的词标注为[UNK],并在所述词表内插入[UNK]; 所述词表中每个token对应唯一索引;
对预处理后的语料库进行词转索引处理,每条句子经过中文全词覆盖后 得到一条训练样本。
优选的,所述构建句向量训练模型具体包括以下步骤:
获取训练语句,将训练语句预处理得到token序列s,经过中文全词覆盖 得到预测词对应的token序列w和覆盖后得到原句对应的token序列s/{w}, 求解公式1-1:
Figure BDA0002311783470000021
基于整个语料,目标函数表示为公式1-2:
Figure BDA0002311783470000022
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(token embedding table与 position embedding talbe参数记做W),得到token向量和位置向量,记第 j个token的token向量为
Figure BDA0002311783470000023
和位置向量为
Figure BDA0002311783470000024
两向量元素相乘得到token 在整个句子中的特征向量Ej,根据公式1-3
Figure BDA0002311783470000031
得到句子向量vs/{w}
对目标token序列w进行one-hot编码,经过token embedding table(此 处tokenembedding table参数记做U)得到token向量,记第i个token的 token向量为
Figure BDA0002311783470000032
根据句子向量和预测的token向量式1-2中的
Figure BDA0002311783470000033
其中C表示词表中所有的词。
优选的,,经过预处理得到token序列s,经过中文全词覆盖得到预测词 对应的token序列w和原句覆盖后对应的token序列s/{w};序列w与原句覆 盖后token序列s/{w}组成正样本,p(1|wi,s/{w})表示该样本来自于语料D的概 率;随机token记c与s/{w}组成负样本,p(0|c,s/{w})表示该样本不来自于语 料D的概率。
Figure BDA0002311783470000034
改为
Figure BDA0002311783470000041
其中D'用以表示随机从词表中取得token和s/{w}的样本集合;
样本来自语料D概率为
Figure BDA0002311783470000042
优选的,所述对所述句向量训练模型模型进行训练包括:
将每个样本token序列度限定在200以内;设置batch size为64,对样 本集合中token序列小于200的做padding处理和token mask记录,计算vs/{w}时先进行bool mask处理;
得到公式1-3中的R(sa)和token特征向量Ej,按公式1-3计算得到句 子向量编码。
本发明还提出了一种句向量预测模型,所述句向量预测模型通过上述任 一项所述的句向量预测模型构建方法构建而成。
本发明还提出了一种句向量预测方法,包括以下步骤:
S21、获取句子输入并进行预处理;
S22、将token索引序列和位置序列作为句子编码层输入;输入至上述所 述的句向量预测模型;
S23、根据公式
Figure RE-GDA0002390857510000051
得到的vs即为句子向量编码。
优选的,所述预处理包括:
对句子进行分词、去停用词、标点数字全角转半角,得到词序列;
统计语料词频,取前400000个词建立词表T1,取前30000个词建立词表 T2;针对词序列中,未出现在词表T1中的进行sub-word操作,即先进行词 转字序列,再对字序列按3个字符、2个字符的组合在词表T2中查找,出现 的合并成新词,未出现的保留原字,记进行sub-word操作后的字符片段为 token。
本发明还提出了一种句向量预测系统,包括获取模块、预处理模块、上 述所述的句向量预测模型和输出模块;
所述获取模块,用于获取输入的句子;
所述预处理模块,用于对输入的句子进行预处理;
所述句向量预测模型,用于进行句向量预测;
所述输出模块用于输出句子向量。
本发明提出的句向量训练方法及模型、句向量预测方法及系统,在进行 句向量预测时,先对句子进行预处理,保证了词的完整性,进行句向量预测 时有很好的领域适应能力和句子向量泛华能力,可直接迁移到多种领域进行 使用。
附图说明
图1为本发明实施例提出的句向量预测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出了一种句向量预测方法,包括:
(1)训练集构建
采用2.2中预处理方式对原语料进行预处理得到语料D,统计词频,取词 频>5的词形成词表,对应词频<=5的词统一标注成“[UNK]”。词表中插入 “[UNK]”,作为一个特殊词,词表中每个token唯一对应一个索引,针对不 在词表中的token,用“[UNK]”代替,并获取“[UNK]”的索引作为该词的索 引。此外,也需将训练过程中的特殊标记符(如上文提到的“[MASK]”)加入 词表中。
对预处理后的语料库进行词转索引处理,每一条句子,经过中文全词覆盖 后得到一条训练样本,处理流程如下:
表格1训练样本生成过程
Figure BDA0002311783470000061
(2)句子向量训练模型
句子向量训练模型网络包含两个部分,句子编码层和token预测层。
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和覆盖后原句对应的token序列s/{w},整个任务 的目标在于求解
Figure BDA0002311783470000071
基于整个语料,目标函数可表示为
Figure BDA0002311783470000072
1)句子编码层
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(此处的token embedding table与 position embeddingtalbe参数记做W)得到token向量和位置向量,记第j 个token的token向量为
Figure BDA0002311783470000073
和位置向量为
Figure BDA0002311783470000074
两向量元素相乘得到token在 整个句子中的特征向量Ej,根据公式
Figure BDA0002311783470000075
得到句子向量vs/{w}
2)token预测
对目标token序列w进行one-hot编码,经过token embedding table(此 处tokenembedding table参数记做U)得到token向量,记第i个token的token向量为
Figure BDA0002311783470000081
根据句子向量和预测的token向量式(2-2)中的
Figure BDA0002311783470000082
其中C表示词表中所有的词。
3)目标函数优化
考虑到式(2-4)中
Figure BDA0002311783470000083
运算复杂,这里采用CBOW模型中的负采样方法 对上述目标函数进行优化。
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和原句覆盖后对应的token序列s/{w}。序列w与 原句覆盖后token序列s/{w}组成正样本,p(1|wi,s/{w})表示该样本来自于语料 D的概率;随机token记c与s/{w}组成负样本,p(0|c,s/{w})表示该样本不来 自于语料D的概率。
目标函数可以改为
Figure BDA0002311783470000084
其中D'用以表示随机从词表中取得token和s/{w}的样本集合。
样本来自语料D概率
Figure BDA0002311783470000085
(3)模型训练
训练模型采用tensorflow实现。每个样本token序列度限定在200以内, 超过则截断;设置batch size为64,对样本集合中token序列小于200的做 padding处理和tokenmask记录,计算vs/{w}时需先进行bool mask处理。 完整处理流程(这里假定token序列最大长度10)如下:
表格2 mini-batch训练样本构建
Figure BDA0002311783470000091
根据上述处理流程,得到公式(2-3)中的R(sa)和token特征向量Ej,按 (2-3)计算得到句子向量编码。
本发明还提出了一种句向量训练模型,通过上述方法训练得到。
本发明还提出了一种句向量训练方法,具体包括以下步骤:
预处理
首先对句子进行分词、去停用词、标点数字全角转半角,得到词序列;统 计语料词频,取前400000个词建立词表T1,取前30000个词建立词表T2;针 对词序列中,未出现在词表T1中的进行sub-word操作,即先进行词转字序 列,再对字序列按3个字符、2个字符的组合在词表T2中查找,出现的合并 成新词,未出现的保留原字,为了区别于词序列,记进行sub-word操作后的 字符片段为token。sub-word操作如下:
词:维汉约德
词转字序列:维/汉/约/德
字序列组合:维汉约|维汉;汉约德|汉约;约德
sub-word:维汉/约德
预处理完整实例:
表格3预处理实例
Figure BDA0002311783470000101
因为人名、地名、时间、数字、机构名等专有名词不计其数,且在新的领 域会出现很多业务词汇,通过对词进行sub-word处理,会使整个句子中每个 字符片段都存在编码;而位置序列的处理方式,引入了词序信息并明确指定 字符片段是否来自同一个词,保证词本身信息的完整性。
模型介绍
句子向量模型训练模块采用中文全词覆盖,通过全词覆盖后的句子作为输 入,经过embedding层,预测被覆盖的词。句子向量训练模型包括三个阶段, 构建句子向量训练模型,基于原语料进行预处理转换成适合句子向量训练模 型的输入格式,训练模型。句子向量预测模型包括两个阶段,导入训练模型 中的部分网络参数,句子预处理经过预测模型得到句子向量。
2.3.1句子向量训练模型
(1)训练集构建
采用2.2中预处理方式对原语料进行预处理得到语料D,统计词频,取词 频>5的词形成词表,对应词频<=5的词统一标注成“[UNK]”。词表中插入 “[UNK]”,作为一个特殊词,词表中每个token唯一对应一个索引,针对不 在词表中的token,用“[UNK]”代替,并获取“[UNK]”的索引作为该词的索 引。此外,也需将训练过程中的特殊标记符(如上文提到的“[MASK]”)加入 词表中。
对预处理后的语料库进行词转索引处理,每一条句子,经过中文全词覆盖 后得到一条训练样本,处理流程如表1:
(2)句子向量训练模型
句子向量训练模型网络包含两个部分,句子编码层和token预测层。
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和覆盖后原句对应的token序列s/{w},整个任务 的目标在于求解
Figure BDA0002311783470000121
基于整个语料,目标函数可表示为
Figure BDA0002311783470000122
4)句子编码层
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(此处的token embedding table与 position embeddingtalbe参数记做W)得到token向量和位置向量,记第j 个token的token向量为
Figure BDA0002311783470000123
和位置向量为
Figure BDA0002311783470000124
两向量元素相乘得到token在 整个句子中的特征向量Ej,根据公式
Figure BDA0002311783470000125
得到句子向量vs/{w}
5)token预测
对目标token序列w进行one-hot编码,经过token embedding table(此 处tokenembedding table参数记做U)得到token向量,记第i个token的 token向量为
Figure BDA0002311783470000126
根据句子向量和预测的token向量式(2-2)中的
Figure BDA0002311783470000127
其中C表示词表中所有的词。
6)目标函数优化
考虑到式(2-4)中
Figure BDA0002311783470000131
运算复杂,这里采用CBOW模型中的负采样方法 对上述目标函数进行优化。
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和原句覆盖后对应的token序列s/{w}。序列w与 原句覆盖后token序列s/{w}组成正样本,p(1|wi,s/{w})表示该样本来自于语料 D的概率;随机token记c与s/{w}组成负样本,p(0|c,s/{w})表示该样本不来 自于语料D的概率。
目标函数可以改为
Figure BDA0002311783470000132
其中D'用以表示随机从词表中取得token和s/{w}的样本集合。
样本来自语料D概率
Figure BDA0002311783470000133
(3)模型训练
训练模型采用tensorflow实现。每个样本token序列度限定在200以内, 超过则截断;设置batch size为64,对样本集合中token序列小于200的做 padding处理和tokenmask记录,计算vs/{w}时需先进行bool mask处理。 完整处理流程(这里假定token序列最大长度10)如表2:
根据上述处理流程,得到公式(2-3)中的R(sa)和token特征向量Ej,按(2-3) 计算得到句子向量编码。
2.3.2句子向量预测模型
对句子进行向量编码,采用的是2.3.1中训练模型的句子编码层,导入训 练完成后模型参数W对句子编码层进行参数初始化。
针对句子向量预测阶段的句子,经过预处理后不再进行中文全词覆盖,采 用2.2的预处理方式,得到句子的token序列和位置序列。处理流程如下:
表格4预测模型输入构建
Figure BDA0002311783470000141
将token索引序列和位置序列作为句子编码层输入,根据公式
Figure RE-GDA0002390857510000142
得到的vs即为句子向量编码。
如图1所示,本发明还提出了一种句向量预测系统,包括
获取模块1、预处理模块2、句向量预测模型3和输出模块4;
所述获取模块1,用于获取输入的句子;
所述预处理模块2,用于对输入的句子进行预处理;
所述句向量预测模型3,用于进行句向量预测;
所述输出模块4,用于输出句子向量。
综上所述,本发明实施例至少可以实现如下效果:
在本发明实施例中,本发明基于大规模多领域语料进行训练,有很好的 领域适应能力和句子向量泛华能力,可直接迁移到多种领域进行使用;对分 词分词并进行sub-word处理,基于字按一定规则组词的语言学特性,避免未 登录词无信息编码的情况;对词位置信息编码,保留了句子中词间关系和词 内token关系。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明 本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神 和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护 范围内。

Claims (9)

1.一种句向量预测模型构建方法,其特征在于,包括以下步骤:
S11、构建句向量训练模型;
S12、对所述句向量训练模型进行训练;
S13、向句向量预测模型中导入所述句向量训练模型的参数。
2.如权利要求1所述的句向量预测模型构建方法,其特征在于,在所述S11之前,还包括:
构建训练集;
对语料进行预处理,得到语料D,统计所述语料D内的词频,取词频>X的词形成词表,对应词频<=X的词标注为[UNK],并在所述词表内插入[UNK];所述词表中每个token对应唯一索引;
对预处理后的语料库进行词转索引处理,每条句子经过中文全词覆盖后得到一条训练样本。
3.如权利要求1所述的句向量预测模型构建方法,其特征在于,所述构建句向量训练模型具体包括以下步骤:
获取训练语句,将训练语句预处理得到token序列s,经过中文全词覆盖得到预测词对应的token序列w和覆盖后得到原句对应的token序列s/{w},求解公式1-1:
Figure FDA0002311783460000011
基于整个语料,目标函数表示为公式1-2:
Figure FDA0002311783460000012
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(token embedding table与position embedding talbe参数记做W),得到token向量和位置向量,记第j个token的token向量为
Figure FDA0002311783460000021
和位置向量为
Figure FDA0002311783460000022
两向量元素相乘得到token在整个句子中的特征向量Ej,根据公式1-3
Figure FDA0002311783460000023
得到句子向量vs/{w}
对目标token序列w进行one-hot编码,经过token embedding table(此处tokenembedding table参数记做U)得到token向量,记第i个token的token向量为
Figure FDA0002311783460000024
根据句子向量和预测的token向量式1-2中的
Figure FDA0002311783460000025
其中C表示词表中所有的词。
4.如权利要求3所述的句向量预测模型构建方法,其特征在于,经过预处理得到token序列s,经过中文全词覆盖得到预测词对应的token序列w和原句覆盖后对应的token序列s/{w};序列w与原句覆盖后token序列s/{w}组成正样本,p(1|wi,s/{w})表示该样本来自于语料D的概率;随机token记c与s/{w}组成负样本,p(0|c,s/{w})表示该样本不来自于语料D的概率;
Figure FDA0002311783460000026
改为
Figure FDA0002311783460000031
其中D'用以表示随机从词表中取得token和s/{w}的样本集合;
样本来自语料D概率为
Figure FDA0002311783460000032
5.如权利要求1所述的句向量预测模型构建方法,其特征在于,所述对所述句向量训练模型模型进行训练包括:
将每个样本token序列度限定在200以内;设置batch size为64,对样本集合中token序列小于200的做padding处理和token mask记录,计算vs/{w}时先进行bool mask处理;
得到公式1-3中的R(sa)和token特征向量Ej,按公式1-3计算得到句子向量编码。
6.一种句向量预测模型,其特征在于,所述句向量预测模型通过上述权利要求1-5任一项所述的句向量预测模型构建方法构建而成。
7.一种句向量预测方法,其特征在于,包括以下步骤:
S21、获取句子输入并进行预处理;
S22、将token索引序列和位置序列作为句子编码层输入;输入至权利要求6所述的句向量预测模型;
S23、根据公式
Figure RE-FDA0002390857500000041
得到的vs即为句子向量编码。
8.如权利要求7所述的句向量预测方法,其特征在于,所述预处理包括:
对句子进行分词、去停用词、标点数字全角转半角,得到词序列;
统计语料词频,取前400000个词建立词表T1,取前30000个词建立词表T2;针对词序列中,未出现在词表T1中的进行sub-word操作,即先进行词转字序列,再对字序列按3个字符、2个字符的组合在词表T2中查找,出现的合并成新词,未出现的保留原字,记进行sub-word操作后的字符片段为token。
9.一种句向量预测系统,其特征在于,包括获取模块、预处理模块、权利要求1-5任一项所述的句向量预测模型和输出模块;
所述获取模块,用于获取输入的句子;
所述预处理模块,用于对输入的句子进行预处理;
所述句向量预测模型,用于进行句向量预测;
所述输出模块用于输出句子向量。
CN201911261750.3A 2019-12-10 2019-12-10 句向量训练方法及模型、句向量预测方法及系统 Active CN111222329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911261750.3A CN111222329B (zh) 2019-12-10 2019-12-10 句向量训练方法及模型、句向量预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911261750.3A CN111222329B (zh) 2019-12-10 2019-12-10 句向量训练方法及模型、句向量预测方法及系统

Publications (2)

Publication Number Publication Date
CN111222329A true CN111222329A (zh) 2020-06-02
CN111222329B CN111222329B (zh) 2023-08-01

Family

ID=70830149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911261750.3A Active CN111222329B (zh) 2019-12-10 2019-12-10 句向量训练方法及模型、句向量预测方法及系统

Country Status (1)

Country Link
CN (1) CN111222329B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
WO2023071115A1 (zh) * 2021-10-26 2023-05-04 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN116579320A (zh) * 2023-07-07 2023-08-11 航天宏康智能科技(北京)有限公司 句向量模型的训练方法、文本语义增强的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
US20180182376A1 (en) * 2016-12-22 2018-06-28 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110347838A (zh) * 2019-07-17 2019-10-18 成都医云科技有限公司 线上科室分诊模型训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
US20180182376A1 (en) * 2016-12-22 2018-06-28 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110347838A (zh) * 2019-07-17 2019-10-18 成都医云科技有限公司 线上科室分诊模型训练方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾明睿;袁梦奇;邵曦;鲍秉坤;徐常胜;: "文本特征提取的研究进展" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112182231B (zh) * 2020-12-01 2021-03-09 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
WO2023071115A1 (zh) * 2021-10-26 2023-05-04 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN116579320A (zh) * 2023-07-07 2023-08-11 航天宏康智能科技(北京)有限公司 句向量模型的训练方法、文本语义增强的方法及装置
CN116579320B (zh) * 2023-07-07 2023-09-15 航天宏康智能科技(北京)有限公司 句向量模型的训练方法、文本语义增强的方法及装置

Also Published As

Publication number Publication date
CN111222329B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Wu et al. Neural Chinese named entity recognition via CNN-LSTM-CRF and joint training with word segmentation
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
Yu et al. Topic-oriented image captioning based on order-embedding
Palangi et al. Deep sentence embedding using long short-term memory networks: Analysis and application to information retrieval
Zhang et al. Understanding subtitles by character-level sequence-to-sequence learning
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN111222329A (zh) 句向量训练方法及模型、句向量预测方法及系统
Alsaaran et al. Classical Arabic named entity recognition using variant deep neural network architectures and BERT
Li et al. Neural named entity boundary detection
CN112906397A (zh) 一种短文本实体消歧方法
Sun et al. VCWE: visual character-enhanced word embeddings
Hifny Hybrid LSTM/MaxEnt networks for Arabic syntactic diacritics restoration
Ayifu et al. Multilingual named entity recognition based on the BiGRU-CNN-CRF hybrid model
Jia et al. Attention in character-based BiLSTM-CRF for Chinese named entity recognition
Rajalakshmi et al. Sentimental analysis of code-mixed Hindi language
CN112347783B (zh) 无触发词的警情笔录数据事件类型识别方法
Hung Vietnamese diacritics restoration using deep learning approach
Liu et al. Research on advertising content recognition based on convolutional neural network and recurrent neural network
Ji et al. A deep learning method for named entity recognition in bidding document
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
Porjazovski et al. Attention-based end-to-end named entity recognition from speech
Adel et al. Overview of character-based models for natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant