CN111222329A - 句向量训练方法及模型、句向量预测方法及系统 - Google Patents
句向量训练方法及模型、句向量预测方法及系统 Download PDFInfo
- Publication number
- CN111222329A CN111222329A CN201911261750.3A CN201911261750A CN111222329A CN 111222329 A CN111222329 A CN 111222329A CN 201911261750 A CN201911261750 A CN 201911261750A CN 111222329 A CN111222329 A CN 111222329A
- Authority
- CN
- China
- Prior art keywords
- token
- sentence
- word
- sentence vector
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种句向量训练方法及模型、句向量预测方法及系统,其中向量预测模型构建方法,包括以下步骤:S11、构建句向量训练模型;S12、对所述句向量训练模型模型进行训练;S13、向句向量预测模型中导入所述句向量训练模型的参数。本句向量训练方法及模型、句向量预测方法及系统,进行句向量预测时有很好的领域适应能力和句子向量泛化能力,可直接迁移到多种领域进行使用。
Description
技术领域
本发明涉及句向量预测技术领域,尤其涉及一种句向量训练方法及模型、 句向量预测方法及系统。
背景技术
句子相似度,可以计算两个向量的空间距离得出,句子的向量表示来自 seq2seq模型的encoder最后输出的state,它具有句子的语意信息,在论文 中常常用context表示。
句子向量学习大多采用3种技术方案:
(1)基于词共现任务在大规模语料训练词向量,对句子分词,获取每个词 的向量表示,将全部词的向量叠加成一个新的向量作为句子的向量表示。
(2)采用encoder-decoder模型(编码器-解码器模型),通过中心句预 测上下文的句子,将对句子通过encoder得到的向量作为句子的向量表示。
(3)采用RNN(循环神经网络)、CNN(卷积神经网络)、注意力机制或更 复杂的模型,基于自然语言处理中常见任务(命名实体实体、句子相似性判定 等)的标注语料,进行多任务学习,以共享层输出作为句子的向量表示.
以上方案存在问题,如(3)标注语料规模小,迁移到新的领域时会出现领 域过拟合问题,句子向量泛化能力差,迁移到新的任务时性能下降。
发明内容
有鉴于此,本发明要解决的技术问题是提供一种句向量训练方法及模型、 句向量预测方法及系统,进行句向量预测时有很好的领域适应能力和句子向 量泛华能力,可直接迁移到多种领域进行使用。
本发明的技术方案是这样实现的:
一种句向量预测模型构建方法,包括以下步骤:
S11、构建句向量训练模型;
S12、对所述句向量训练模型模型进行训练;
S13、向句向量预测模型中导入所述句向量训练模型的参数。
优选的,在所述S11之前,还包括:
构建训练集;
对语料进行预处理,得到语料D,统计所述语料D内的词频,取词频>X 的词形成词表,对应词频<=X的词标注为[UNK],并在所述词表内插入[UNK]; 所述词表中每个token对应唯一索引;
对预处理后的语料库进行词转索引处理,每条句子经过中文全词覆盖后 得到一条训练样本。
优选的,所述构建句向量训练模型具体包括以下步骤:
获取训练语句,将训练语句预处理得到token序列s,经过中文全词覆盖 得到预测词对应的token序列w和覆盖后得到原句对应的token序列s/{w}, 求解公式1-1:
基于整个语料,目标函数表示为公式1-2:
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(token embedding table与 position embedding talbe参数记做W),得到token向量和位置向量,记第 j个token的token向量为和位置向量为两向量元素相乘得到token 在整个句子中的特征向量Ej,根据公式1-3
得到句子向量vs/{w};
对目标token序列w进行one-hot编码,经过token embedding table(此 处tokenembedding table参数记做U)得到token向量,记第i个token的 token向量为根据句子向量和预测的token向量式1-2中的
其中C表示词表中所有的词。
优选的,,经过预处理得到token序列s,经过中文全词覆盖得到预测词 对应的token序列w和原句覆盖后对应的token序列s/{w};序列w与原句覆 盖后token序列s/{w}组成正样本,p(1|wi,s/{w})表示该样本来自于语料D的概 率;随机token记c与s/{w}组成负样本,p(0|c,s/{w})表示该样本不来自于语 料D的概率。
其中D'用以表示随机从词表中取得token和s/{w}的样本集合;
优选的,所述对所述句向量训练模型模型进行训练包括:
将每个样本token序列度限定在200以内;设置batch size为64,对样 本集合中token序列小于200的做padding处理和token mask记录,计算vs/{w}时先进行bool mask处理;
得到公式1-3中的R(sa)和token特征向量Ej,按公式1-3计算得到句 子向量编码。
本发明还提出了一种句向量预测模型,所述句向量预测模型通过上述任 一项所述的句向量预测模型构建方法构建而成。
本发明还提出了一种句向量预测方法,包括以下步骤:
S21、获取句子输入并进行预处理;
S22、将token索引序列和位置序列作为句子编码层输入;输入至上述所 述的句向量预测模型;
S23、根据公式
得到的vs即为句子向量编码。
优选的,所述预处理包括:
对句子进行分词、去停用词、标点数字全角转半角,得到词序列;
统计语料词频,取前400000个词建立词表T1,取前30000个词建立词表 T2;针对词序列中,未出现在词表T1中的进行sub-word操作,即先进行词 转字序列,再对字序列按3个字符、2个字符的组合在词表T2中查找,出现 的合并成新词,未出现的保留原字,记进行sub-word操作后的字符片段为 token。
本发明还提出了一种句向量预测系统,包括获取模块、预处理模块、上 述所述的句向量预测模型和输出模块;
所述获取模块,用于获取输入的句子;
所述预处理模块,用于对输入的句子进行预处理;
所述句向量预测模型,用于进行句向量预测;
所述输出模块用于输出句子向量。
本发明提出的句向量训练方法及模型、句向量预测方法及系统,在进行 句向量预测时,先对句子进行预处理,保证了词的完整性,进行句向量预测 时有很好的领域适应能力和句子向量泛华能力,可直接迁移到多种领域进行 使用。
附图说明
图1为本发明实施例提出的句向量预测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出了一种句向量预测方法,包括:
(1)训练集构建
采用2.2中预处理方式对原语料进行预处理得到语料D,统计词频,取词 频>5的词形成词表,对应词频<=5的词统一标注成“[UNK]”。词表中插入 “[UNK]”,作为一个特殊词,词表中每个token唯一对应一个索引,针对不 在词表中的token,用“[UNK]”代替,并获取“[UNK]”的索引作为该词的索 引。此外,也需将训练过程中的特殊标记符(如上文提到的“[MASK]”)加入 词表中。
对预处理后的语料库进行词转索引处理,每一条句子,经过中文全词覆盖 后得到一条训练样本,处理流程如下:
表格1训练样本生成过程
(2)句子向量训练模型
句子向量训练模型网络包含两个部分,句子编码层和token预测层。
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和覆盖后原句对应的token序列s/{w},整个任务 的目标在于求解
基于整个语料,目标函数可表示为
1)句子编码层
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(此处的token embedding table与 position embeddingtalbe参数记做W)得到token向量和位置向量,记第j 个token的token向量为和位置向量为两向量元素相乘得到token在 整个句子中的特征向量Ej,根据公式
得到句子向量vs/{w}。
2)token预测
对目标token序列w进行one-hot编码,经过token embedding table(此 处tokenembedding table参数记做U)得到token向量,记第i个token的token向量为根据句子向量和预测的token向量式(2-2)中的
其中C表示词表中所有的词。
3)目标函数优化
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和原句覆盖后对应的token序列s/{w}。序列w与 原句覆盖后token序列s/{w}组成正样本,p(1|wi,s/{w})表示该样本来自于语料 D的概率;随机token记c与s/{w}组成负样本,p(0|c,s/{w})表示该样本不来 自于语料D的概率。
目标函数可以改为
其中D'用以表示随机从词表中取得token和s/{w}的样本集合。
(3)模型训练
训练模型采用tensorflow实现。每个样本token序列度限定在200以内, 超过则截断;设置batch size为64,对样本集合中token序列小于200的做 padding处理和tokenmask记录,计算vs/{w}时需先进行bool mask处理。 完整处理流程(这里假定token序列最大长度10)如下:
表格2 mini-batch训练样本构建
根据上述处理流程,得到公式(2-3)中的R(sa)和token特征向量Ej,按 (2-3)计算得到句子向量编码。
本发明还提出了一种句向量训练模型,通过上述方法训练得到。
本发明还提出了一种句向量训练方法,具体包括以下步骤:
预处理
首先对句子进行分词、去停用词、标点数字全角转半角,得到词序列;统 计语料词频,取前400000个词建立词表T1,取前30000个词建立词表T2;针 对词序列中,未出现在词表T1中的进行sub-word操作,即先进行词转字序 列,再对字序列按3个字符、2个字符的组合在词表T2中查找,出现的合并 成新词,未出现的保留原字,为了区别于词序列,记进行sub-word操作后的 字符片段为token。sub-word操作如下:
词:维汉约德
词转字序列:维/汉/约/德
字序列组合:维汉约|维汉;汉约德|汉约;约德
sub-word:维汉/约德
预处理完整实例:
表格3预处理实例
因为人名、地名、时间、数字、机构名等专有名词不计其数,且在新的领 域会出现很多业务词汇,通过对词进行sub-word处理,会使整个句子中每个 字符片段都存在编码;而位置序列的处理方式,引入了词序信息并明确指定 字符片段是否来自同一个词,保证词本身信息的完整性。
模型介绍
句子向量模型训练模块采用中文全词覆盖,通过全词覆盖后的句子作为输 入,经过embedding层,预测被覆盖的词。句子向量训练模型包括三个阶段, 构建句子向量训练模型,基于原语料进行预处理转换成适合句子向量训练模 型的输入格式,训练模型。句子向量预测模型包括两个阶段,导入训练模型 中的部分网络参数,句子预处理经过预测模型得到句子向量。
2.3.1句子向量训练模型
(1)训练集构建
采用2.2中预处理方式对原语料进行预处理得到语料D,统计词频,取词 频>5的词形成词表,对应词频<=5的词统一标注成“[UNK]”。词表中插入 “[UNK]”,作为一个特殊词,词表中每个token唯一对应一个索引,针对不 在词表中的token,用“[UNK]”代替,并获取“[UNK]”的索引作为该词的索 引。此外,也需将训练过程中的特殊标记符(如上文提到的“[MASK]”)加入 词表中。
对预处理后的语料库进行词转索引处理,每一条句子,经过中文全词覆盖 后得到一条训练样本,处理流程如表1:
(2)句子向量训练模型
句子向量训练模型网络包含两个部分,句子编码层和token预测层。
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和覆盖后原句对应的token序列s/{w},整个任务 的目标在于求解
基于整个语料,目标函数可表示为
4)句子编码层
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(此处的token embedding table与 position embeddingtalbe参数记做W)得到token向量和位置向量,记第j 个token的token向量为和位置向量为两向量元素相乘得到token在 整个句子中的特征向量Ej,根据公式
得到句子向量vs/{w}。
5)token预测
对目标token序列w进行one-hot编码,经过token embedding table(此 处tokenembedding table参数记做U)得到token向量,记第i个token的 token向量为根据句子向量和预测的token向量式(2-2)中的
其中C表示词表中所有的词。
6)目标函数优化
给定一个句子后,经过预处理得到token序列s,经过中文全词覆盖得到 预测词对应的token序列w和原句覆盖后对应的token序列s/{w}。序列w与 原句覆盖后token序列s/{w}组成正样本,p(1|wi,s/{w})表示该样本来自于语料 D的概率;随机token记c与s/{w}组成负样本,p(0|c,s/{w})表示该样本不来 自于语料D的概率。
目标函数可以改为
其中D'用以表示随机从词表中取得token和s/{w}的样本集合。
(3)模型训练
训练模型采用tensorflow实现。每个样本token序列度限定在200以内, 超过则截断;设置batch size为64,对样本集合中token序列小于200的做 padding处理和tokenmask记录,计算vs/{w}时需先进行bool mask处理。 完整处理流程(这里假定token序列最大长度10)如表2:
根据上述处理流程,得到公式(2-3)中的R(sa)和token特征向量Ej,按(2-3) 计算得到句子向量编码。
2.3.2句子向量预测模型
对句子进行向量编码,采用的是2.3.1中训练模型的句子编码层,导入训 练完成后模型参数W对句子编码层进行参数初始化。
针对句子向量预测阶段的句子,经过预处理后不再进行中文全词覆盖,采 用2.2的预处理方式,得到句子的token序列和位置序列。处理流程如下:
表格4预测模型输入构建
将token索引序列和位置序列作为句子编码层输入,根据公式
得到的vs即为句子向量编码。
如图1所示,本发明还提出了一种句向量预测系统,包括
获取模块1、预处理模块2、句向量预测模型3和输出模块4;
所述获取模块1,用于获取输入的句子;
所述预处理模块2,用于对输入的句子进行预处理;
所述句向量预测模型3,用于进行句向量预测;
所述输出模块4,用于输出句子向量。
综上所述,本发明实施例至少可以实现如下效果:
在本发明实施例中,本发明基于大规模多领域语料进行训练,有很好的 领域适应能力和句子向量泛华能力,可直接迁移到多种领域进行使用;对分 词分词并进行sub-word处理,基于字按一定规则组词的语言学特性,避免未 登录词无信息编码的情况;对词位置信息编码,保留了句子中词间关系和词 内token关系。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明 本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神 和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护 范围内。
Claims (9)
1.一种句向量预测模型构建方法,其特征在于,包括以下步骤:
S11、构建句向量训练模型;
S12、对所述句向量训练模型进行训练;
S13、向句向量预测模型中导入所述句向量训练模型的参数。
2.如权利要求1所述的句向量预测模型构建方法,其特征在于,在所述S11之前,还包括:
构建训练集;
对语料进行预处理,得到语料D,统计所述语料D内的词频,取词频>X的词形成词表,对应词频<=X的词标注为[UNK],并在所述词表内插入[UNK];所述词表中每个token对应唯一索引;
对预处理后的语料库进行词转索引处理,每条句子经过中文全词覆盖后得到一条训练样本。
3.如权利要求1所述的句向量预测模型构建方法,其特征在于,所述构建句向量训练模型具体包括以下步骤:
获取训练语句,将训练语句预处理得到token序列s,经过中文全词覆盖得到预测词对应的token序列w和覆盖后得到原句对应的token序列s/{w},求解公式1-1:
基于整个语料,目标函数表示为公式1-2:
对token索引数字序列和位置序列进行one-hot编码经过token embedding table和position embedding table(token embedding table与position embedding talbe参数记做W),得到token向量和位置向量,记第j个token的token向量为和位置向量为两向量元素相乘得到token在整个句子中的特征向量Ej,根据公式1-3
得到句子向量vs/{w};
对目标token序列w进行one-hot编码,经过token embedding table(此处tokenembedding table参数记做U)得到token向量,记第i个token的token向量为根据句子向量和预测的token向量式1-2中的
其中C表示词表中所有的词。
5.如权利要求1所述的句向量预测模型构建方法,其特征在于,所述对所述句向量训练模型模型进行训练包括:
将每个样本token序列度限定在200以内;设置batch size为64,对样本集合中token序列小于200的做padding处理和token mask记录,计算vs/{w}时先进行bool mask处理;
得到公式1-3中的R(sa)和token特征向量Ej,按公式1-3计算得到句子向量编码。
6.一种句向量预测模型,其特征在于,所述句向量预测模型通过上述权利要求1-5任一项所述的句向量预测模型构建方法构建而成。
8.如权利要求7所述的句向量预测方法,其特征在于,所述预处理包括:
对句子进行分词、去停用词、标点数字全角转半角,得到词序列;
统计语料词频,取前400000个词建立词表T1,取前30000个词建立词表T2;针对词序列中,未出现在词表T1中的进行sub-word操作,即先进行词转字序列,再对字序列按3个字符、2个字符的组合在词表T2中查找,出现的合并成新词,未出现的保留原字,记进行sub-word操作后的字符片段为token。
9.一种句向量预测系统,其特征在于,包括获取模块、预处理模块、权利要求1-5任一项所述的句向量预测模型和输出模块;
所述获取模块,用于获取输入的句子;
所述预处理模块,用于对输入的句子进行预处理;
所述句向量预测模型,用于进行句向量预测;
所述输出模块用于输出句子向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261750.3A CN111222329B (zh) | 2019-12-10 | 2019-12-10 | 句向量训练方法及模型、句向量预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261750.3A CN111222329B (zh) | 2019-12-10 | 2019-12-10 | 句向量训练方法及模型、句向量预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111222329A true CN111222329A (zh) | 2020-06-02 |
CN111222329B CN111222329B (zh) | 2023-08-01 |
Family
ID=70830149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911261750.3A Active CN111222329B (zh) | 2019-12-10 | 2019-12-10 | 句向量训练方法及模型、句向量预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222329B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182231A (zh) * | 2020-12-01 | 2021-01-05 | 佰聆数据股份有限公司 | 基于句向量预训练模型的文本处理方法、系统及存储介质 |
WO2023071115A1 (zh) * | 2021-10-26 | 2023-05-04 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
CN116579320A (zh) * | 2023-07-07 | 2023-08-11 | 航天宏康智能科技(北京)有限公司 | 句向量模型的训练方法、文本语义增强的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095753A (zh) * | 2016-06-07 | 2016-11-09 | 大连理工大学 | 一种基于信息熵和术语可信度的金融领域术语识别方法 |
US20180182376A1 (en) * | 2016-12-22 | 2018-06-28 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110347838A (zh) * | 2019-07-17 | 2019-10-18 | 成都医云科技有限公司 | 线上科室分诊模型训练方法及装置 |
-
2019
- 2019-12-10 CN CN201911261750.3A patent/CN111222329B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095753A (zh) * | 2016-06-07 | 2016-11-09 | 大连理工大学 | 一种基于信息熵和术语可信度的金融领域术语识别方法 |
US20180182376A1 (en) * | 2016-12-22 | 2018-06-28 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110347838A (zh) * | 2019-07-17 | 2019-10-18 | 成都医云科技有限公司 | 线上科室分诊模型训练方法及装置 |
Non-Patent Citations (1)
Title |
---|
曾明睿;袁梦奇;邵曦;鲍秉坤;徐常胜;: "文本特征提取的研究进展" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182231A (zh) * | 2020-12-01 | 2021-01-05 | 佰聆数据股份有限公司 | 基于句向量预训练模型的文本处理方法、系统及存储介质 |
CN112182231B (zh) * | 2020-12-01 | 2021-03-09 | 佰聆数据股份有限公司 | 基于句向量预训练模型的文本处理方法、系统及存储介质 |
WO2023071115A1 (zh) * | 2021-10-26 | 2023-05-04 | 平安科技(深圳)有限公司 | 句子向量生成方法、装置、设备及存储介质 |
CN116579320A (zh) * | 2023-07-07 | 2023-08-11 | 航天宏康智能科技(北京)有限公司 | 句向量模型的训练方法、文本语义增强的方法及装置 |
CN116579320B (zh) * | 2023-07-07 | 2023-09-15 | 航天宏康智能科技(北京)有限公司 | 句向量模型的训练方法、文本语义增强的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111222329B (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Neural Chinese named entity recognition via CNN-LSTM-CRF and joint training with word segmentation | |
CN108628823B (zh) | 结合注意力机制和多任务协同训练的命名实体识别方法 | |
Yu et al. | Topic-oriented image captioning based on order-embedding | |
Palangi et al. | Deep sentence embedding using long short-term memory networks: Analysis and application to information retrieval | |
Zhang et al. | Understanding subtitles by character-level sequence-to-sequence learning | |
CN111310471B (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
CN111222329A (zh) | 句向量训练方法及模型、句向量预测方法及系统 | |
Alsaaran et al. | Classical Arabic named entity recognition using variant deep neural network architectures and BERT | |
Li et al. | Neural named entity boundary detection | |
CN112906397A (zh) | 一种短文本实体消歧方法 | |
Sun et al. | VCWE: visual character-enhanced word embeddings | |
Hifny | Hybrid LSTM/MaxEnt networks for Arabic syntactic diacritics restoration | |
Ayifu et al. | Multilingual named entity recognition based on the BiGRU-CNN-CRF hybrid model | |
Jia et al. | Attention in character-based BiLSTM-CRF for Chinese named entity recognition | |
Rajalakshmi et al. | Sentimental analysis of code-mixed Hindi language | |
CN112347783B (zh) | 无触发词的警情笔录数据事件类型识别方法 | |
Hung | Vietnamese diacritics restoration using deep learning approach | |
Liu et al. | Research on advertising content recognition based on convolutional neural network and recurrent neural network | |
Ji et al. | A deep learning method for named entity recognition in bidding document | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
Porjazovski et al. | Attention-based end-to-end named entity recognition from speech | |
Adel et al. | Overview of character-based models for natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |