CN113946661A - 一种融合字形的多视角情感分析方法 - Google Patents

一种融合字形的多视角情感分析方法 Download PDF

Info

Publication number
CN113946661A
CN113946661A CN202111575584.1A CN202111575584A CN113946661A CN 113946661 A CN113946661 A CN 113946661A CN 202111575584 A CN202111575584 A CN 202111575584A CN 113946661 A CN113946661 A CN 113946661A
Authority
CN
China
Prior art keywords
vector
character
chinese
emotion
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111575584.1A
Other languages
English (en)
Inventor
杜振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunwen Network Technology Co ltd
Original Assignee
Nanjing Yunwen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunwen Network Technology Co ltd filed Critical Nanjing Yunwen Network Technology Co ltd
Priority to CN202111575584.1A priority Critical patent/CN113946661A/zh
Publication of CN113946661A publication Critical patent/CN113946661A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种融合字形的多视角情感分析方法,将每个汉字的字符向量、字形向量与拼音向量相互拼接,再经过一个全连接层完成对应汉字的融合嵌入,得到融合向量,将每个汉字的融合向量输入双向LSTM情感分类模型,并引入Attention机制捕捉输入文本文字进行情感分析;在传统情感分类的基础上,充分考虑的中文字符中字形、读音的特点,将中文这种象形文字的字形、读音融合进情感分析模型中,使得情感分析模型对于中文文本的处理准确度得到较大提高,使其能够显著提高预训练语言模型对于中文文本的处理效果。

Description

一种融合字形的多视角情感分析方法
技术领域
本发明属于文本情感分析技术领域,具体涉及一种融合字形的多视角情感分析方法。
背景技术
文本情感分析是一种利用自然语言处理和文本挖掘技术来对目标具有情感色彩的主观性文本进行抽取、处理与分析的技术。当下对于文本的情感分析涉及到信息抽取、文本挖掘、自然语言处理等方向,因为它对于市场营销、金融、政治学、通讯、医疗科学等行业具有十分重要的作用,因此近来成为了各界关注以及研究的重点之一;情感分析任务根据其分析的细粒度可以分为篇章级、句子级、词语级;文本情感分析的一般过程包括爬取原始文本、文本预处理、构建语料库和情感词库以及情感分析结果。
文本情感分析作为自然语言处理的一个研究方向,使用预训练语言模型能够显著降低训练代价,实现更快的收敛速度,并且能够有效提高模型性能。近年来的BERT模型就是预训练模型的一个代表,它对于NLP领域具有里程碑式的意义,然而包含BERT模型等预训练模型最初都是为英文文本设计,而对于中文来说,汉语是一种象形语言,汉字的字形、拼音等往往包含很重要的语义信息,比如“垃圾”、“坏”、“垮”等字都有土字旁,且他们都表示负面情绪;“好”字读“hǎo”的时候表示优点多的,使人满意的;而读“hào”的时候则表示喜爱。因此,原始的预训练语言模型对于中文的情感分析任务还不能达到最好的效果。
发明内容
本发明的目的在于提供一种融合字形的多视角情感分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种融合字形的多视角情感分析方法,包括如下步骤:
1)利用网络爬虫爬取情感语料集数据A,进行数据清洗后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界,得到情感语料集数据B;
2)对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入,得到字符向量V1i,i表示语句中字符的顺序号;
3)对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入,将这四种字体的文本进行汉字字体图像向量化,每个图像大小设置为32×32,将32×32×4向量展开为4096大小的向量,展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2i
4)对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音序列,将音调也包含其中,然后再将拼音序列输入到宽度为2的CNN模型中,使用混合池化实现汉字的拼音嵌入得到拼音向量V3i
5)将每个汉字的字符向量V1i、字形向量V2i与拼音向量V3i相互拼接,再经过一个全连接层完成对应汉字的融合嵌入,得到融合向量Vi
6)将每个汉字的融合向量Vi输入双向LSTM情感分类模型,其中引入Attention机制捕捉输入文本文字;
7)将情感分类模型结果保存在语料集数据C中。
优选的,所述步骤2)中得到字符向量V1i的具体步骤为:
先将文本中的每个词映射成V维的词向量,然后使用每个词向量与参数矩阵C相乘,参数矩阵C为V×N维矩阵,得到N维矩阵,再将所有词对应的N维矩阵的数据相加取均值,计算出N维的隐藏层Hidden,最后将隐藏层与N×V维参数矩阵相乘,计算得到待预测的中心词对应的V维词向量,用预测出的中心词与真实的中心词作比较来计算误差函数,通过梯度下降法调整两个参数矩阵,中心词的预测完成,然后提取第二个隐藏层参数作为词嵌入结果,通过CBOW模型,将输入的原始中文文本的字符转换为向量,实现字符嵌入。
优选的,所述步骤4)中使用四个音调符号中的一个表示声调,声调使用特殊符号进行表示,特殊符号包括1、2、3、4;且拼音序列的长度固定为8,当拼音序列的实际长度未达到8时,剩余的位置使用特殊字符“-”来进行填充。
优选的,所述步骤6)中融合向量Vi输入双向LSTM情感分类模型的具体步骤为:
将融合向量Vi输入双向LSTM模型的特征学习层,然后使用Attention机制调整权重,最后通过SoftMax层进行情感分类,得到情感分类结果。
本发明的技术效果和优点:该融合字形的多视角情感分析方法,在传统情感分类的基础上,充分考虑的中文字符中字形、读音的特点,将中文这种象形文字的字形、读音融合进情感分析模型中,使得情感分析模型对于中文文本的处理准确度得到较大提高,使其能够显著提高预训练语言模型对于中文文本的处理效果。
附图说明
图1为本发明的结构示意图;
图2为本发明的CBOW模型示意图;
图3为本发明的字型嵌入模型示意图;
图4为本发明的拼音字符序列模型示意图;
图5为本发明的LSTM模型示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了如图1所示的一种融合字形的多视角情感分析方法,包括如下步骤:
步骤101:利用网络爬虫爬取情感语料集数据A,进行数据清洗进行数据清洗以删除重复信息、空白信息和无意义数据,并去除包含过多英文文本数据,然后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界,得到情感语料集数据B,其中无意义数据指获取得到的表格、长段的时间表达等不包含语义信息的数据;
步骤102:对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入,得到字符向量V1i,i表示语句中字符的顺序号,即语句中按顺序排列各字符的序号,i表示任意字符的序号;
其中CBOW模型,即连续词袋模型,目的是给定中心词ωi的一定邻域半径(如半径为2)内的单词ωi-2、ωi-1、ωi+1、ωi+2,预测输出单词为该中心词ωi的概率,如下图2所示;将文本中的每个词映射成V维的词向量,然后使用每个词向量与参数矩阵C相乘,参数矩阵C为V×N维矩阵,得到N维矩阵,再将所有词对应的N维矩阵的数据相加取均值,计算出N维的隐藏层Hidden,最后将隐藏层与N×V维参数矩阵相乘,计算得到待预测的中心词ωi对应的V维词向量,用预测出的中心词ωi与真实的中心词ωi作比较来计算误差函数,通过梯度下降法调整两个参数矩阵,这样,中心词ωi的预测完成,然后提取第二个隐藏层参数作为词嵌入结果,在这里并没有考虑不同词的顺序,所以称为连续词袋模型,通过CBOW模型,将输入的原始中文文本的字符转换为向量,实现字符嵌入。
步骤103:如图3,对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入,将这四种字体的文本进行汉字字体图像向量化,每个图像大小设置为32×32,像素范围为0到255,将32×32×4向量展开为4096大小的向量,展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2i
步骤104:对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音字符序列,并且使用四个音调符号中的一个表示声调,声调使用特殊符号进行表示,特殊符号包括1、2、3、4,将音调附加到拼音字符序列的末尾,然后再将拼音字符序列输入到宽度为2的CNN模型中,使用混合池化实现汉字的拼音嵌入得到拼音向量V3i;此外,输入拼音序列的长度固定为8,当拼音序列的实际长度未达到8时,剩余的位置使用特殊字符“-”来进行填充,如图4所示。
步骤105:将每个汉字的字符向量V1i、字形向量V2i与拼音向量V3i相互拼接,融合起来形成一个三维向量,然后融合层通过一个全连接层完成对应汉字的融合嵌入,将将三维向量映射到一维,得到融合向量Vi
步骤106:将每个汉字的融合向量Vi输入双向LSTM情感分类模型,其中引入Attention机制捕捉输入文本文字;如图5所示,输入“我很喜欢狗”,将融合向量Vi输入双向LSTM模型的特征学习层,然后使用Attention机制调整权重,最后通过SoftMax层进行情感分类,得到情感分类结果。
其原理为:将时序相反的两个LSTM网络连接到同一个输出,前向LSTM能够获取输入序列的上文信息,后向LSTM可以获取输入序列的下文信息,这样就能大大提高模型的准确率。双向LSTM在t时刻的隐藏状态Ht包含前向的htf和后向的htb
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
是指在t时刻前向LSTM的输出门输出的信息,
Figure DEST_PATH_IMAGE006
是指在t时刻返向LSTM的输出门输出的信息,
Figure DEST_PATH_IMAGE008
是指t时刻利用双向LSTM的的输出结果,
Figure DEST_PATH_IMAGE010
为t-1时刻的LSTM的输出门输出的信息,
Figure DEST_PATH_IMAGE012
为t时刻输入的词向量信息,
Figure DEST_PATH_IMAGE014
为t-1时刻,遗忘门输出的信息,同理
Figure DEST_PATH_IMAGE016
为t+1时刻的LSTM的输出门输出的信息,
Figure DEST_PATH_IMAGE018
为t+1时刻,遗忘门输出的信息;
然后将双向LSTM的输出Ht作为文本的特征向量。
此外,其中的Attention机制是模拟人脑注意力的特点,其主要原理是对重要的内容分配较多的注意力,而对其他的部分则分配较少的注意力,Attention机制在篇章级、句子级、词语级的情感分类问题中都得到了广泛应用,能够大大提高情感分类模型的准确度。在Attention机制中:
Figure DEST_PATH_IMAGE020
其中,ut为Ht的隐藏单元,uw为上下文向量,at为注意力向量,
Figure DEST_PATH_IMAGE022
为权重值,
Figure DEST_PATH_IMAGE024
为偏执量,v为经过Attention机制的输出向量,uT t 为ut的转置,uw、
Figure 943173DEST_PATH_IMAGE022
Figure 391472DEST_PATH_IMAGE024
均可随机初始化并在训练过程中不断学习。
步骤107:将情感分类模型结果保存在语料集数据C中。
在传统情感分类的基础上,充分考虑的中文字符中字形、读音的特点,将中文这种象形文字的字形、读音融合进情感分析模型中,发明了一种融合字形的多视角情感分析方法,使得情感分析模型对于中文文本的处理准确度得到较大提高,对于相关领域的研究具有很大意义。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (5)

1.一种融合字形的多视角情感分析方法,其特征在于,包括如下步骤:
1)利用网络爬虫爬取情感语料集数据A,进行数据清洗后使用LTPtoolkit识别用于全词掩蔽的中文单词的边界,得到情感语料集数据B;
2)对于情感语料集数据B使用CBOW模型进行字符向量化实现字符嵌入,得到字符向量V1i,i表示语句中字符的顺序号;
3)对于情感语料集数据B使用黑体、宋体、楷体、舒体四种字体进行字形嵌入,将这四种字体的文本进行汉字字体图像向量化,并将图像向量展开,展开后使用一个全连接层实现汉字的字形嵌入得到字形向量V2i
4)对于情感语料集数据B使用pypinyin开源工具包将每个文本中所有汉字的拼音转化为拼音序列,将音调也包含其中,然后再将拼音序列输入到宽度为2的CNN模型中,使用混合池化实现汉字的拼音嵌入得到拼音向量V3i
5)将每个汉字的字符向量V1i、字形向量V2i与拼音向量V3i相互拼接,再经过一个全连接层完成对应汉字的融合嵌入,得到融合向量Vi
6)将每个汉字的融合向量Vi输入双向LSTM情感分类模型,其中引入Attention机制捕捉输入文本文字;
7)将情感分类模型结果保存在语料集数据C中。
2.根据权利要求1所述的一种融合字形的多视角情感分析方法,其特征在于:所述步骤2)中得到字符向量V1i的具体步骤为:
先将文本中的每个词映射成V维的词向量,然后使用每个词向量与参数矩阵C相乘,参数矩阵C为V×N维矩阵,得到N维矩阵,再将所有词对应的N维矩阵的数据相加取均值,计算出N维的隐藏层Hidden,最后将隐藏层与N×V维参数矩阵相乘,计算得到待预测的中心词对应的V维词向量,用预测出的中心词与真实的中心词作比较来计算误差函数,通过梯度下降法调整两个参数矩阵,中心词的预测完成,然后提取第二个隐藏层参数作为词嵌入结果,通过CBOW模型,将输入的原始中文文本的字符转换为向量,实现字符嵌入。
3.根据权利要求1所述的一种融合字形的多视角情感分析方法,其特征在于:所述步骤4)中使用四个音调符号中的一个表示声调,声调使用特殊符号进行表示,特殊符号包括1、2、3、4;且拼音序列的长度固定为8,当拼音序列的实际长度未达到8时,剩余的位置使用特殊字符“-”来进行填充。
4.根据权利要求1所述的一种融合字形的多视角情感分析方法,其特征在于:所述步骤6)中融合向量Vi输入双向LSTM情感分类模型的具体步骤为:
将融合向量Vi输入双向LSTM模型的特征学习层,然后使用Attention机制调整权重,最后通过SoftMax层进行情感分类,得到情感分类结果。
5.根据权利要求1所述的一种融合字形的多视角情感分析方法,其特征在于:所述步骤3)中,汉字字体图像向量化的每个图像大小设置为32×32,且像素范围0到255,为并将32×32×4向量展开为4096大小的向量。
CN202111575584.1A 2021-12-21 2021-12-21 一种融合字形的多视角情感分析方法 Pending CN113946661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111575584.1A CN113946661A (zh) 2021-12-21 2021-12-21 一种融合字形的多视角情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111575584.1A CN113946661A (zh) 2021-12-21 2021-12-21 一种融合字形的多视角情感分析方法

Publications (1)

Publication Number Publication Date
CN113946661A true CN113946661A (zh) 2022-01-18

Family

ID=79339197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575584.1A Pending CN113946661A (zh) 2021-12-21 2021-12-21 一种融合字形的多视角情感分析方法

Country Status (1)

Country Link
CN (1) CN113946661A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法
CN114548097A (zh) * 2022-02-15 2022-05-27 南京邮电大学 基于汉字和拼音信息融合的情感分析方法
CN116039653A (zh) * 2023-03-31 2023-05-02 小米汽车科技有限公司 状态识别方法、装置、车辆及存储介质
CN117688944A (zh) * 2024-01-31 2024-03-12 山东省计算中心(国家超级计算济南中心) 基于多粒度卷积特征融合的中文情感分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446271A (zh) * 2018-03-07 2018-08-24 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN111191463A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 情感分析方法、装置、电子设备及存储介质
CN113723105A (zh) * 2021-04-13 2021-11-30 腾讯科技(北京)有限公司 语义特征提取模型的训练方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446271A (zh) * 2018-03-07 2018-08-24 中山大学 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN111191463A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 情感分析方法、装置、电子设备及存储介质
CN113723105A (zh) * 2021-04-13 2021-11-30 腾讯科技(北京)有限公司 语义特征提取模型的训练方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZIJUN SUN等: "ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information", 《PROCEEDINGS OF THE 59TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 11TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING (VOLUME 1: LONG PAPERS)》 *
刘哲源: "基于字粒度多维度特征的深度学习情感分类架构研究", 《科学咨询(科技·管理)》 *
王磊: "基于上下文文本的多元情感分析研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548097A (zh) * 2022-02-15 2022-05-27 南京邮电大学 基于汉字和拼音信息融合的情感分析方法
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法
CN116039653A (zh) * 2023-03-31 2023-05-02 小米汽车科技有限公司 状态识别方法、装置、车辆及存储介质
CN117688944A (zh) * 2024-01-31 2024-03-12 山东省计算中心(国家超级计算济南中心) 基于多粒度卷积特征融合的中文情感分析方法及系统
CN117688944B (zh) * 2024-01-31 2024-05-24 山东省计算中心(国家超级计算济南中心) 基于多粒度卷积特征融合的中文情感分析方法及系统

Similar Documents

Publication Publication Date Title
CN113946661A (zh) 一种融合字形的多视角情感分析方法
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN107133211B (zh) 一种基于注意力机制的作文评分方法
CN110717017B (zh) 一种处理语料的方法
CN112632997A (zh) 基于BERT和Word2Vec向量融合的中文实体识别方法
CN107391609B (zh) 一种双向多模态递归网络的图像描述方法
Yang et al. Generating thematic chinese poetry using conditional variational autoencoders with hybrid decoders
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN108090400A (zh) 一种图像文本识别的方法和装置
CN108153864A (zh) 基于神经网络生成文本摘要的方法
Khalifa et al. Deeptingle
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN111581970B (zh) 一种网络语境的文本识别方法、装置及存储介质
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN105975497A (zh) 微博话题自动推荐方法及装置
CN111079447A (zh) 一种面向中文的预训练方法及系统
Heigold et al. Neural morphological tagging from characters for morphologically rich languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220118