CN108345633A - 一种自然语言处理方法及装置 - Google Patents

一种自然语言处理方法及装置 Download PDF

Info

Publication number
CN108345633A
CN108345633A CN201711473689.XA CN201711473689A CN108345633A CN 108345633 A CN108345633 A CN 108345633A CN 201711473689 A CN201711473689 A CN 201711473689A CN 108345633 A CN108345633 A CN 108345633A
Authority
CN
China
Prior art keywords
sentence
vector
document
word
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711473689.XA
Other languages
English (en)
Inventor
赵伟
武新
崔维力
曹昕雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201711473689.XA priority Critical patent/CN108345633A/zh
Publication of CN108345633A publication Critical patent/CN108345633A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明旨在提供一种通过使用卷积神经网络的意识流来分析人格特质的自然语言处理方法。该方法针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络,每个卷积神经网络是一个二进制分类器,该分类器可以预测相应的特征为正值或负值,对应着是否拥有该人格特质。将单词组成n元特征向量,再将其整合成句子,再将句子聚合成一个完整的文档,获得的值随后与文档级别的语义特征结合,并在最后分类阶段形成文档表示。本发明通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。

Description

一种自然语言处理方法及装置
技术领域
本发明属于数据挖掘领域,基于心理学的五因素人格理论,针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络,在过程中还用到了word2vec技术进行相应的处理。
背景技术
个性是个体表现、情绪、动机和思维模式的综合,对生活有极大的左右能力,会影响生活选择、幸福、健康和许多其他的表现,也是一个人能否施展才能,有效完成工作的基础,个性缺陷会使其所拥有的才能和能力大打折扣。
一个人个性特点的自动检测在实际应用中非常重要,通过检测可以把人的所有个性都了解清楚,以准确、全面地了解一个人的整体个性。因此亟需能够帮助实现个性检测的技术方案。
发明内容
本发明要解决的问题是基于五因素人格理论为基础提出一种自然语言处理方法及装置,通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。
为了达到上述目的,本发明采取的技术方案为:一种自然语言处理方法,包括:
(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;
(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。
进一步的,步骤(1)所述自然语言预处理及特征提取的具体过程包括:
(11)预处理:包括句子拆分、数据清理和统一;
(12)文档级特征提取:使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;
(13)过滤:将没有包含个性线索的句子删除;
(14)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。
进一步的,步骤(2)的具体过程包括:
(21)输入:输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;
(22)词向量聚集成句子向量:使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;
(23)句子向量聚集成文档向量:每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;
(24)将文档级特征加入到文档向量中:使用个性检测文档级特征集;
(25)分类:使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;
(26)训练:利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。
更进一步的,步骤(22)包括:
(221)在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;
(222)在每个特征图谱应用最大池化技术,将其缩小;
(223)在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。
本发明的另一方面,还提供了一种自然语言处理装置,包括:
预处理及特征提取模块,用于自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;
分类模块,用于使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。
进一步的,预处理及特征提取模块包括:
预处理单元,用于句子拆分、数据清理和统一;
文档级特征提取单元,用于文档级特征提取,使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;
过滤单元,用于过滤,将没有包含个性线索的句子删除;
词级特征提取单元,用于词级特征提取,在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。
进一步的,分类模块包括:
输入单元,用于输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;
第一聚集单元,用于词向量聚集成句子向量,使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;
第二聚集单元,用于句子向量聚集成文档向量,每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;
特征加入单元,用于将文档级特征加入到文档向量中,使用个性检测文档级特征集;
分类单元,用于使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;
训练单元,用于利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。
更进一步的,第一聚集单元包括:
第一子单元,用于在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;
第二子单元,用于在每个特征图谱应用最大池化技术,将其缩小;
第三子单元,用于在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。
本发明提出的一种自然语言处理方法与装置,与现有技术相比,有益效果为:
通过对自然语言的处理及分析从而实现一个人个性特点的自动检测,处理过程中,
1、可以保留邻域的联系和空间的局部特点;
2、由于是居于共享卷积核的结果,所以处理实际尺寸的高维度图像也毫无难度;
3、实现了特征提取的封装。
附图说明
图1是本发明实施例的示意图;
图2是本发明实施例所述文档向量化的示意图。
具体实施方式
下面结合具体实施例对本发明做进一步说明。
本发明的方法包括输入数据的预处理、过滤、特征提取和分类,使用两种特性:一个是文档级文本特征的固定数量,另一种可以组合成输入文本的变长表示中的每个字的语义特征,这个变长表示被放入卷积神经网络分层处理。
本发明包括如下步骤:
(1)预处理:包括句子拆分、数据清理和统一,比如还原成小写字母;
(2)文档级特征提取:使用Mairesse基线的特性值,其中包括字数统计及句子平均长度等全局特征;
(3)过滤:文章中的有些句子可能没有包含个性线索,在语义特征提取中,这些句子会因为以下两个原因被过滤掉:第一,会产生降低分类器性能的噪音,第二,删除这些句子可以极大的降低输入规模,同时又不会影响结果,故将这些句子在下一阶段进行前删除;
(4)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量;
(5)分类:使用深度卷积神经网络,其原始层分层地处理文本,在输入中,每个词根据word2vec方法表示一个固定长度特征向量,句子代表词向量的可变数量。在某些层中,该可变长度向量又被还原成每个句子的固定长度向量,这是在连续向量空间中的一种句子嵌入,在该水平中,文档代表固定长度句子嵌入的一个可变数量,最后在最深层,这个可变长度文档向量又被还原成一个固定长度文档向量。该固定长度特征向量依据能够提供固定长度文档向量的文档级特征串联,之后再进入分类阶段使用。
本发明有五个单独的神经分类器,这五个神经分类器为五大人格特性提供相同的架构,神经网络中的加工流程主要包括四步:
●词向量化,使用固定长度词向量作为输入数据;
●句子向量化,将每个句子中的一系列词用固定长度的句子向量表示;
●文档向量化,将一系列句子向量用文档向量表示;
●分类,将文档向量用分类结果表示。
如图1、2所示,本发明包括七层:输入层(词向量化)、卷积层(句子向量化)、最大池化层(句子向量化)、1-最大池化层(文档向量化)、线性激活函数层(分类)和两种神经元的最大输出(分类),数字1代表两个句子的端对端网络。
1、输入:用数据集合表示一组文档,每个文档d是一个句子序列,每个句子si是一个词序列,每个词wi是一个固定长度词嵌入的实数向量。输入层是一个四维的实数数组RD ×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度。执行中,为了使所用文档有相同的句子数量,会在文章中加入虚拟句子,在句子中加入虚拟词。
2、词向量聚集成句子向量:使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式。
●卷积:用于提取n元特征,在每个句子s∈RW×E中使用n×E的卷积过滤器,对n=1,2,3的情况使用200个n元特征图谱,卷积过滤器作用于矩阵s上,Fn CONV∈R200×n×E,在过滤器的输出中加入方差Bn CONV∈R200,这能为给定的句子提供特征图谱FMn∈R200×(W-n+1)×1,n=1,2,3,将sigmoid函数应用在特征图谱FMn,以便引出非线性;
●最大池化层:在每个特征图谱FMn应用最大池化技术,以便进一步将其缩小到一个特征图谱DFMn∈R200×1×1,从而得到一个大小为200的特征向量;
●卷积:为使三种n元获得表示句子的向量s∈R600,将获得的向量连接起来,在文档中的每个句子应用卷积技术和最大池化技术,在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。
3、句子向量聚集成文档向量:每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串。如果文档具备一些特征,并且这些特征中至少有一种是句子所具有的,每个句子表示一个600维的向量,针对这600个特征中的每一个特征,在文档的所有句子中使用最大限度,从而获得文档向量,整个文档获得了一个600维的实数向量dnetwork∈R600.
4、将文档级特征加入到文档向量中:其中使用到一个包括84个特征的个性检测文档级特征集,包括语言调查、词汇统计、医学研究委员会、表达种类以及韵律特征,这些集合中的特征包括文档中的字数统计、每个句子的平均字数、代词总数、过去式动词、现在式动词、将来式动词、字母、音素、音节、问题和断言。
之后将这84个特征通过文档向量dnetwork得到向量dMairesse,最后将d=(dnetword,dMairess)赋给最后684维的文档向量,同时会使用特征集dMairess作为估值的基线。
5、分类:使用由一个200的完全连接层组成的两层感知器、2的最终柔性最大值传输函数代表是或否。
●完全联通层:通过矩阵Wfc∈R684×200将文档增至d∈R684,再加上方差Bfc∈R200获得向量dfc∈R200,通过线性函数引出非线性可以改进结果:dfc=σ(dWfc+Bfc),其中σ(x)=1/(1+exp(-x))。
●柔性最大值传输输出:使用柔性最大值传输函数来确定文档是否属于对象“是”或“否”的可能性,为了实现这个,建立一个向量(xyes,xno)=dfc| Wsm+Bsm,其中Wsm∈R200×2,方差Bsm∈R2,计算对象可能性的公式为P(i|network parameters)=exp(xi)/(exp(xyes)+exp(xno)),其中i∈{yes,no}。
6、训练:利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数F1 conv,F2 conv,F3 conv,B1 conv,B2 conv,B3 conv,Wfc,Bfc,Wsm,Bsm,使用遵循Adadelta更新规则的随机梯度下降法调整神经网络参数来讲错误最小化为负对数可能性。
以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种自然语言处理方法,其特征在于,包括:
(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;
(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。
2.根据权利要求1所述的一种自然语言处理方法,其特征在于,步骤(1)所述自然语言预处理及特征提取的具体过程包括:
(11)预处理:包括句子拆分、数据清理和统一;
(12)文档级特征提取:使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;
(13)过滤:将没有包含个性线索的句子删除;
(14)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。
3.根据权利要求1所述的一种自然语言处理方法,其特征在于,步骤(2)的具体过程包括:
(21)输入:输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;
(22)词向量聚集成句子向量:使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;
(23)句子向量聚集成文档向量:每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;
(24)将文档级特征加入到文档向量中:使用个性检测文档级特征集;
(25)分类:使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;
(26)训练:利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。
4.根据权利要求3所述的一种自然语言处理方法,其特征在于,步骤(22)包括:
(221)在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;
(222)在每个特征图谱应用最大池化技术,将其缩小;
(223)在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。
5.一种自然语言处理装置,其特征在于,包括:
预处理及特征提取模块,用于自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;
分类模块,用于使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。
6.根据权利要求5所述的一种自然语言处理装置,其特征在于,所述预处理及特征提取模块包括:
预处理单元,用于句子拆分、数据清理和统一;
文档级特征提取单元,用于文档级特征提取,使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;
过滤单元,用于过滤,将没有包含个性线索的句子删除;
词级特征提取单元,用于词级特征提取,在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。
7.根据权利要求5所述的一种自然语言处理装置,其特征在于,所述分类模块包括:
输入单元,用于输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;
第一聚集单元,用于词向量聚集成句子向量,使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;
第二聚集单元,用于句子向量聚集成文档向量,每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;
特征加入单元,用于将文档级特征加入到文档向量中,使用个性检测文档级特征集;
分类单元,用于使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;
训练单元,用于利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。
8.根据权利要求7所述的一种自然语言处理装置,其特征在于,所述第一聚集单元包括:
第一子单元,用于在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;
第二子单元,用于在每个特征图谱应用最大池化技术,将其缩小;
第三子单元,用于在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。
CN201711473689.XA 2017-12-29 2017-12-29 一种自然语言处理方法及装置 Pending CN108345633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711473689.XA CN108345633A (zh) 2017-12-29 2017-12-29 一种自然语言处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711473689.XA CN108345633A (zh) 2017-12-29 2017-12-29 一种自然语言处理方法及装置

Publications (1)

Publication Number Publication Date
CN108345633A true CN108345633A (zh) 2018-07-31

Family

ID=62962687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711473689.XA Pending CN108345633A (zh) 2017-12-29 2017-12-29 一种自然语言处理方法及装置

Country Status (1)

Country Link
CN (1) CN108345633A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524571A (zh) * 2020-05-21 2020-08-11 电子科技大学 一种脑卒中患者个性化治疗方案推荐方法
CN111566665A (zh) * 2020-03-16 2020-08-21 香港应用科技研究院有限公司 在自然语言处理中应用图像编码识别的装置和方法
CN112052687A (zh) * 2020-09-02 2020-12-08 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
CN112487184A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 用户性格判定方法、装置、存储器和电子设备
CN112988964A (zh) * 2021-02-20 2021-06-18 平安科技(深圳)有限公司 文本韵律边界预测的方法、装置、设备及存储介质
WO2021184385A1 (en) * 2020-03-16 2021-09-23 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for applying image encoding recognition in natural language processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649267A (zh) * 2016-11-30 2017-05-10 北京邮电大学 一种通过文本主题挖掘推测用户大五人格的方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649267A (zh) * 2016-11-30 2017-05-10 北京邮电大学 一种通过文本主题挖掘推测用户大五人格的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAVONIL MAJUMDER 等: "Deep Learning-Based Document Modeling for Personality Detection from Text", 《IEEE INTELLIGENT SYSTEMS》 *
WEI H 等: "Beyond the words: Predicting user personality from heterogeneous information", 《ACM. PROCEEDINGS OF THE 10TH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111566665A (zh) * 2020-03-16 2020-08-21 香港应用科技研究院有限公司 在自然语言处理中应用图像编码识别的装置和方法
CN111566665B (zh) * 2020-03-16 2021-07-30 香港应用科技研究院有限公司 在自然语言处理中应用图像编码识别的装置和方法
WO2021184385A1 (en) * 2020-03-16 2021-09-23 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for applying image encoding recognition in natural language processing
US11132514B1 (en) 2020-03-16 2021-09-28 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for applying image encoding recognition in natural language processing
CN111524571A (zh) * 2020-05-21 2020-08-11 电子科技大学 一种脑卒中患者个性化治疗方案推荐方法
CN111524571B (zh) * 2020-05-21 2022-06-10 电子科技大学 一种脑卒中患者个性化治疗方案推荐系统
CN112052687A (zh) * 2020-09-02 2020-12-08 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
CN112052687B (zh) * 2020-09-02 2023-11-21 厦门市美亚柏科信息股份有限公司 基于深度可分离卷积的语义特征处理方法、装置及介质
CN112487184A (zh) * 2020-11-26 2021-03-12 北京智源人工智能研究院 用户性格判定方法、装置、存储器和电子设备
CN112988964A (zh) * 2021-02-20 2021-06-18 平安科技(深圳)有限公司 文本韵律边界预测的方法、装置、设备及存储介质
CN112988964B (zh) * 2021-02-20 2024-03-08 平安科技(深圳)有限公司 文本韵律边界预测的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108345633A (zh) 一种自然语言处理方法及装置
CN106815369B (zh) 一种基于Xgboost分类算法的文本分类方法
CN111125358B (zh) 一种基于超图的文本分类方法
Prakruthi et al. Real time sentiment analysis of Twitter posts
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN108108355A (zh) 基于深度学习的文本情感分析方法和系统
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN110334110A (zh) 自然语言分类方法、装置、计算机设备以及存储介质
CN110175224A (zh) 基于语义链接异构信息网络嵌入的专利推荐方法及装置
CN112231477B (zh) 一种基于改进胶囊网络的文本分类方法
CN111177386B (zh) 一种提案分类方法及系统
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN109325122A (zh) 词表生成方法、文本分类方法、装置、设备及存储介质
CN110569920A (zh) 一种多任务机器学习的预测方法
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
CN109815485A (zh) 一种微博短文本情感极性识别的方法、装置及存储介质
Sunarya et al. Comparison of accuracy between convolutional neural networks and Naïve Bayes Classifiers in sentiment analysis on Twitter
Zouzou et al. Text sentiment analysis with CNN & GRU model using GloVe
CN114462385A (zh) 一种文本分段方法及装置
CN110728144B (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN111813894A (zh) 一种基于深度学习的自然语言情感识别方法
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
Campbell et al. Content+ context networks for user classification in twitter
Jadhav et al. Content based facial emotion recognition model using machine learning algorithm
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180731

WD01 Invention patent application deemed withdrawn after publication