CN107656990A - 一种基于字和词两个层面特征信息的文本分类方法 - Google Patents
一种基于字和词两个层面特征信息的文本分类方法 Download PDFInfo
- Publication number
- CN107656990A CN107656990A CN201710825546.4A CN201710825546A CN107656990A CN 107656990 A CN107656990 A CN 107656990A CN 201710825546 A CN201710825546 A CN 201710825546A CN 107656990 A CN107656990 A CN 107656990A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- matrix
- text
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 108
- 239000011159 matrix material Substances 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 239000000463 material Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 9
- 230000007812 deficiency Effects 0.000 abstract description 3
- 238000011478 gradient descent method Methods 0.000 abstract 1
- 238000003062 neural network model Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于字和词两个层面特征信息的文本分类方法。步骤包括:利用神经网络模型进行字词向量联合预训练,得到词语的初始化词向量和汉字的初始化字向量表示;将短文本表示成其中各个词语词向量组成的矩阵,利用卷积神经网络进行特征提取,得到词语层特征;将短文本表示成其中各个汉字字向量组成的矩阵,利用卷积神经网络进行特征提取,得到汉字层特征;将词语层特征和汉字层特征进行连接,得到短文本的特征向量表示;利用全连接层对文本进行分类,采用随机梯度下降法进行模型的训练,得到分类模型。本发明能够提取字的表示和词的表示两个层面的特征,改善短文本语义信息不足的问题,充分挖掘短文本的语义信息,使短文本的分类更加准确。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于字和词两个层面特征信息的文本分类方法。
背景技术
机器学习方法的性能通常依赖于特征的表示,传统的机器学习方法中,最关键的部分是模型特征的选择,而特征的选择需要特定领域的专家才能有效的完成,这使得机器学习研究的门槛很高,不仅需要有机器学习相关知识,还需要有任务相关领域的领域专家帮助其设计特征,而设计特征也是一个消耗大量时间和精力的过程,这也体现了传统机器学习的弱点,即难以从数据中抽取和组织区分性强的信息。随着表示学习的提出和发展,这个问题得到了改善。表示学习是一种让抽取供其他预测模型使用的特征信息更加简易的数据表示的学习方法。
在自然语言处理领域,一般认为最基础的语义单元为词,目前已经有大量的基于词语单元的词表示的学习方法,例如Skip-gram、CBOW、NNLM等模型,这些模型都是基于分布式假说,即通过目标词和上下文词语之间的关系进行建模。但是不同于英文,词语是最小的包含语义的单元,中文的最小语言单位是字,一些词语的语义信息同样也体现在组成这个词语的字中,也就是中文的字也是包含一定程度语义信息的。例如,词语“光明”,表示明亮的意思,组成这个词的字“光”表示太阳、火等放射出来使人感到明亮的东西,“明”表示亮,这次词语中字的语义信息也正体现了这个词语的语义信息。
由于中文短文本包含的词语数量少,短文本的语义信息有限,短文本分类时可供分类器利用的信息少,如果能更加充分的挖掘短文本中包含的语义信息,有效利用文本中字与字之间的关系,以及字与词之间的关系,能够丰富文本的语义信息,为文本的表示带来提升,提高分类器的效果。因此,挖掘出字层面的特征信息很有必要。
综上所述,现有的基于词向量的文本表示方式忽略了字层面的语义信息,故对其加以改进是有必要的。
发明内容
为了克服现有技术的不足,本发明提出一种基于字和词两个层面特征信息的文本分类方法,是一种结合汉字和词语两个层面特征信息的中文短文本分类方法。该方法提出联合预训练字向量和词向量,在传统模型只训练词向量的基础上,同时训练一份字向量;提出结合字和词语两个层面的语义信息来表示短文本,再利用卷积神经网络分别提取字和词语层面的局部特征信息,连接成短文本的向量化表示,较传统的基于词向量的表示方法而言,更加充分的挖掘了短文本中所包含的特征,为文本分类器提供了更多的语义信息。
为了实现上述目的,本发明采用的技术方案为:
一种基于字和词两个层面特征信息的文本分类方法,所述方法包括以下步骤:
A、利用神经网络对预训练语料文本中的字词进行联合预训练,得到词语和字的初始化向量;
B、将各个词语的词向量连接成矩阵,同时将各个汉字的字向量连接成矩阵,利用卷积核对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作提取对应的局部特征;
C、利用最大池化操作提取步骤B中得到的词语层面局部特征的最优值和字层面局部特征的最优值;
D、将步骤C中得到的词语层面特征向量与字层面特征向量连接,形成短文本的特征向量表示;
E、利用全连接神经网络层对短文本进行分类,使用随机梯度下降算法对模型参数进行训练,得到分类模型和调整之后的字向量和词向量;
F、将需要分类的新的短文本输入模型进行分类,得到分类结果。
本发明旨在提出一种结合汉字和词语两个层面的特征信息对中文短文本进行分类的方法,在预训练词向量的同时训练字向量,将短文本分别表示成其中词语的词向量组成的矩阵和其中字的字向量组成的矩阵,并利用卷积神经网络对这两个矩阵分别进行词语层面和字层面的特征提取,得到文本的向量表示,然后通过全连接神经网络对文本进行分类,最后得到分类结果。
优选的,步骤A的具体实现方式为:
随机初始化预训练语料文本中词语和字的向量,词语和字向量的维度相同;将中心词表示成其上下文词语的词向量和其中字的字向量的加权平均,基于word2vec的skip-gram模型对上下文窗口中的词语及其组成汉字进行训练,得到各个词语和字的向量表示。
优选的,步骤B中,将短文本根据其中词语的预训练词向量连接成矩阵,矩阵的大小是固定的,通过对训练文本的统计,得到文本的最大词长度,将不足这个长度的文本利用填充向量填充至同样大小。
优选的,步骤B中,将短文本根据其中字的预训练字向量连接成矩阵,矩阵的大小是固定的,通过对训练文本的统计,得到文本的最大字长度,将不足这个长度的文本利用填充向量填充至同样大小。
优选的,步骤B中,对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作的卷积核对应区域大小相同,即如果对词向量连接成矩阵进行卷积操作的是一个卷积n个词向量的卷积核,则对字向量连接成矩阵进行卷积操作的是一个卷积该n个词语中汉字的字向量的卷积核。
优选的,对于未在预训练语料中出现的词语,根据该词语中字的字向量进行初始化。
本发明的特点和优点为:
针对目前主流的基于词向量的文本表示方法,提出一种结合字层面特征和词语层面特征的短文本表示方式。
由于短文本包含词语少,语义信息有限,提供给文本分类器的有用信息少,挖掘短文本中字层面特征能够弥补这个问题,丰富文本的语义信息。
同时,该方法能够更好的表示预训练预料中未出现的词语,通过该词语中的字的字向量的加权平均来初始化该词语的词向量。相较于传统方法中的随机初始化词向量,能够为卷积神经网络提供更有意义的初始值。
本发明能够提取字的表示和词的表示两个层面的特征,改善短文本语义信息不足的问题,充分挖掘短文本的语义信息,使短文本的分类更加准确。本发明提供的结合字和词语两个层面特征的短文本分类方法,可用于进行微博或者商品评价之类的短小中文文本的归类、情感分类等任务上。
附图说明
图1是本发明方法的流程图;
图2是本发明联合预训练字向量和词向量的网络结构示意图;
图3是本发明利用卷积神经网络进行字和词语层面特征提取的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的基本思想是:在利用语料库预训练词向量的同时训练字向量,并将短文本分别表示成其中词语的词向量组成的矩阵和其中字的字向量组成的矩阵,利用卷积神经网络对这两个矩阵分别进行词语层面和字层面的特征提取,得到文本的向量表示,然后通过全连接神经网络对文本进行分类,得到分类结果。
参见图1,本发明提出的一种基于字和词两个层面特征信息的文本分类方法,具体步骤如下:
A、利用wrod2vec中的基于Hierarchical softmax的skip-gram模型,以及Wikipedia中文语料对字词进行联合训练,模型如图2所示,其中投影层是对词向量和字向量取平均:
其中表示词向量,表示字向量,β是超参数,用来衡量词向量和字向量的权重。
在模型利用随机梯度下降进行训练的过程中,将梯度同时贡献到词向量和字向量上,更新公式如下:
其中,L表示目标函数,η表示学习率,|w|表示词语w中所包含的汉字个数。
模型训练的结果是同时得到语料中词语和字的初始化向量。
设短文本的所含词语个数为n,所含字个数为m。
B、将短文本中词语的词向量连接成矩阵如图3左边部分所示,对于预训练语料中未登录的词语,利用其中字的字向量进行加权平均初始化:
将矩阵利用填充向量填充至最大文本长度,使所有短文本都具有相同长度,其中填充向量为零向量。然后对矩阵利用卷积核进行卷积操作提取局部特征,公式为:
vk=f(W·xi:i+h-1+b)
其中vk表示卷积核提取的特征值的其中一个分量,f是双曲正切函数,xi:i+h-1表示长度为h的卷积窗口,由h个词语的词向量连接组成,W是卷积核的参数,b是偏移量。该卷积核提取的特征向量为:
v=[v1,v2,...,vn-h+1]
图3左侧部分是词语层面的卷积神经网络,图中举例三个不同大小的卷积核,分别为h=3,4,5,对于长度为6个词的短文本,对应产生长度为4,3,2的特征向量。
C、利用最大池化操作提取步骤B中得到的词语层面局部特征的最优值:
max(v1,v2,...,vn-h+1)
一个卷积核经过最大池化操作产生一个值,如图3所示,举例的三个卷积核产生一个维度为3的特征向量。
D、将短文本中字的字向量连接成矩阵由于汉字较于词语来说数量更少,不容易出现未登录字。将矩阵利用填充向量填充至最大文本长度,其中填充向量为零向量。
利用与步骤B中对应相同局部大小的卷积核进行卷积操作提取局部特征,相同局部大小指的是步骤B中如果卷积窗口大小为h个词语,则此处的卷积窗口大小为这h个词语中包含的字的个数,设为h′。在图3中,右边部分是字层面卷积神经网络,设每个词语都是两个字组成的,则对应的卷积核的大小分别为h′=6,8,10。卷积公式为:
v′k=f(W·xi:i+h′-1+b)
其中v′k表示卷积核提取的字层面特征向量的其中一个分量,f是双曲正切函数,xi:i+h′-1表示长度为h′的卷积窗口,由h′个字的字向量连接组成,W是卷积核的参数,b是偏移量。该卷积核提取的字层面特征向量为:
v′=[v′1,v′2,...,v′n-h′+1]
在图3中,大小分别为h′=6,8,10的卷积核会产生长度分别为3,5,7的特征向量。
E、利用最大池化操作提取步骤D中得到的字层面局部特征的最优值:
max(v′1,v′2,...,v′n-h′+1)
在图3中,三个卷积核经过最大池化操作,产生一个长度为3的特征向量。
F、将C中得到的词语层面特征向量与E中得到的字层面特征连接,形成短文本的向量表示xd,向量维度为词语层面卷积核的个数与字层面卷积核的个数之和,在图3的例子中,这个短文本的向量维度是6。
G、利用全连接神经网络层对短文本进行分类:
zd=tanh(Uxd+p),yd=tanh(Vzd+q)
其中,U,V是权值矩阵,p,q是偏置向量。
为了让yd表示文本d属于各个类别的概率,对yd做归一化操作:
其中Ci表示第i个类别,|C|表示类别总数。
使用随机梯度下降算法对模型参数进行训练,得到分类模型以及调整之后的字向量和词向量。
H、将需要分类的新的短文本输入模型进行分类,得到分类结果。
Claims (6)
1.一种基于字和词两个层面特征信息的文本分类方法,其特征在于,所述方法包括以下步骤:
A、利用神经网络对字词进行联合预训练,得到词语和字的初始化向量;
B、将词语的词向量连接成矩阵,同时将字向量连接成矩阵,利用卷积核对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作提取对应的局部特征;
C、利用最大池化操作提取步骤B中得到的词语层面局部特征的最优值和字层面局部特征的最优值;
D、将步骤C中得到的词语层面特征向量与字层面特征连接,形成短文本的特征向量表示;
E、利用全连接神经网络对短文本进行分类,使用随机梯度下降算法对模型参数进行训练,得到分类模型和调整之后的字向量和词向量;
F、将需要分类的新的短文本输入模型进行分类,得到分类结果。
2.根据权利要求1所述的方法,其特征在于,步骤A的具体实现方式为:
随机初始化预训练语料文本中词语和字的向量,词语和字向量的维度相同;将中心词表示成其上下文词语的词向量和这些词语中汉字的字向量的加权平均,基于word2vec的skip-gram模型对上下文窗口中的词语及其组成汉字进行训练,得到各个词语和字的向量表示。
3.根据权利要求1所述的方法,其特征在于:步骤B中,将短文本根据其中词语的预训练词向量连接成矩阵,矩阵的大小是固定的,通过对训练文本的统计,得到文本的最大词长度,将不足这个长度的文本利用填充向量填充至同样大小。
4.根据权利要求1所述的方法,其特征在于:步骤B中,将短文本根据其中字的预训练字向量连接成矩阵,矩阵的大小是固定的,通过对训练文本的统计,得到文本的最大字长度,将不足这个长度的文本利用填充向量填充至同样大小。
5.根据权利要求1所述的方法,其特征在于:步骤B中,对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作的卷积核对应的区域大小相同,即当对词向量连接成矩阵进行卷积操作的是一个卷积n个词向量的卷积核,则对字向量连接成矩阵进行卷积操作的是一个卷积该n个词语中字向量的卷积核。
6.根据权利要求3所述的方法,其特征在于:对于未在预训练语料中出现的词语,根据该词语中字的字向量进行初始化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825546.4A CN107656990A (zh) | 2017-09-14 | 2017-09-14 | 一种基于字和词两个层面特征信息的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825546.4A CN107656990A (zh) | 2017-09-14 | 2017-09-14 | 一种基于字和词两个层面特征信息的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107656990A true CN107656990A (zh) | 2018-02-02 |
Family
ID=61130482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710825546.4A Pending CN107656990A (zh) | 2017-09-14 | 2017-09-14 | 一种基于字和词两个层面特征信息的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107656990A (zh) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595416A (zh) * | 2018-03-27 | 2018-09-28 | 义语智能科技(上海)有限公司 | 字符序列处理方法及设备 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN108875034A (zh) * | 2018-06-25 | 2018-11-23 | 湖南丹尼尔智能科技有限公司 | 一种基于层次化长短期记忆网络的中文文本分类方法 |
CN109271513A (zh) * | 2018-09-07 | 2019-01-25 | 华南师范大学 | 一种文本分类方法、计算机可读储存介质及系统 |
CN109299462A (zh) * | 2018-09-20 | 2019-02-01 | 武汉理工大学 | 基于多维卷积特征的短文本相似度计算方法 |
CN109543029A (zh) * | 2018-09-27 | 2019-03-29 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法、装置、介质和设备 |
CN109684626A (zh) * | 2018-11-16 | 2019-04-26 | 深思考人工智能机器人科技(北京)有限公司 | 语义识别方法、模型、存储介质和装置 |
CN109743732A (zh) * | 2018-12-20 | 2019-05-10 | 重庆邮电大学 | 基于改进的cnn-lstm的垃圾短信判别方法 |
CN109857844A (zh) * | 2018-12-29 | 2019-06-07 | 北京三快在线科技有限公司 | 基于点餐对话文本的意图识别方法、装置、电子设备 |
CN109918500A (zh) * | 2019-01-17 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN109918506A (zh) * | 2019-03-07 | 2019-06-21 | 安徽省泰岳祥升软件有限公司 | 一种文本分类方法及装置 |
CN109992788A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于未登录词处理的深度文本匹配方法及装置 |
CN110059817A (zh) * | 2019-04-17 | 2019-07-26 | 中山大学 | 一种实现低资源消耗卷积器的方法 |
CN110083676A (zh) * | 2019-04-22 | 2019-08-02 | 东北大学 | 一种基于短文本的领域动态跟踪方法 |
WO2019149135A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110297889A (zh) * | 2019-06-28 | 2019-10-01 | 南京冰鉴信息科技有限公司 | 一种基于特征融合的企业情感倾向分析方法 |
CN110399488A (zh) * | 2019-07-05 | 2019-11-01 | 深圳和而泰家居在线网络科技有限公司 | 文本分类方法及装置 |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
CN110750640A (zh) * | 2019-09-17 | 2020-02-04 | 平安科技(深圳)有限公司 | 基于神经网络模型的文本数据分类方法、装置及存储介质 |
CN110851594A (zh) * | 2019-10-08 | 2020-02-28 | 浙江工业大学 | 一种基于多通道深度学习模型的文本分类方法及其装置 |
CN110990572A (zh) * | 2019-12-03 | 2020-04-10 | 深圳市豪斯莱科技有限公司 | 一种基于主题下的情感分析方法 |
CN111104513A (zh) * | 2019-12-13 | 2020-05-05 | 中山大学 | 一种游戏平台用户问答业务的短文本分类方法 |
CN111143548A (zh) * | 2018-11-02 | 2020-05-12 | 北大方正集团有限公司 | 图书分类方法、装置、设备及计算机可读存储介质 |
CN111160042A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本语义解析方法和装置 |
CN111199153A (zh) * | 2018-10-31 | 2020-05-26 | 北京国双科技有限公司 | 一种词向量的生成方法及相关设备 |
CN111241271A (zh) * | 2018-11-13 | 2020-06-05 | 网智天元科技集团股份有限公司 | 文本情感分类方法、装置及电子设备 |
CN111382243A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 文本的类别匹配方法、类别匹配装置及终端 |
CN110232121B (zh) * | 2019-04-28 | 2021-04-06 | 中国电子科技集团公司第二十八研究所 | 一种基于语义网的管制指令分类方法 |
WO2021068339A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN112949313A (zh) * | 2019-12-11 | 2021-06-11 | 中移(苏州)软件技术有限公司 | 信息处理模型训练方法、装置、设备及存储介质 |
CN113239192A (zh) * | 2021-04-29 | 2021-08-10 | 湘潭大学 | 一种基于滑动窗口和随机离散采样的文本结构化技术 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090018820A1 (en) * | 2007-07-11 | 2009-01-15 | Yoshinori Sato | Character String Anonymizing Apparatus, Character String Anonymizing Method, and Character String Anonymizing Program |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN106570170A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN106777011A (zh) * | 2016-12-07 | 2017-05-31 | 中山大学 | 一种基于深度多任务学习的文本分类方法 |
CN106777339A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于异构网络嵌入模型识别作者的方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
-
2017
- 2017-09-14 CN CN201710825546.4A patent/CN107656990A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090018820A1 (en) * | 2007-07-11 | 2009-01-15 | Yoshinori Sato | Character String Anonymizing Apparatus, Character String Anonymizing Method, and Character String Anonymizing Program |
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN106570170A (zh) * | 2016-11-09 | 2017-04-19 | 武汉泰迪智慧科技有限公司 | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 |
CN106777011A (zh) * | 2016-12-07 | 2017-05-31 | 中山大学 | 一种基于深度多任务学习的文本分类方法 |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN106777339A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于异构网络嵌入模型识别作者的方法 |
CN107145483A (zh) * | 2017-04-24 | 2017-09-08 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
Non-Patent Citations (4)
Title |
---|
XINXIONG CHEN 等: "Joint Learning of Character andWord Embeddings", 《PROCEEDINGS OF THE TWENTY-FOURTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE (IJCAI 2015)》 * |
YUJUN ZHOU 等: "Compositional Recurrent Neural Networks for Chinese Short Text Classification", 《2016 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE (WI)》 * |
徐健等: "科技术语语义相似度计算方法研究综述 ", 《现代图书情报技术》 * |
李斗 等: "一种神经网络文本分类器的设计与实现", 《计算机工程与应用》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019149135A1 (zh) * | 2018-02-05 | 2019-08-08 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
US11030411B2 (en) | 2018-02-05 | 2021-06-08 | Alibaba Group Holding Limited | Methods, apparatuses, and devices for generating word vectors |
CN108595416A (zh) * | 2018-03-27 | 2018-09-28 | 义语智能科技(上海)有限公司 | 字符序列处理方法及设备 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108829818A (zh) * | 2018-06-12 | 2018-11-16 | 中国科学院计算技术研究所 | 一种文本分类方法 |
CN108875034A (zh) * | 2018-06-25 | 2018-11-23 | 湖南丹尼尔智能科技有限公司 | 一种基于层次化长短期记忆网络的中文文本分类方法 |
CN109271513B (zh) * | 2018-09-07 | 2021-10-22 | 华南师范大学 | 一种文本分类方法、计算机可读储存介质及系统 |
CN109271513A (zh) * | 2018-09-07 | 2019-01-25 | 华南师范大学 | 一种文本分类方法、计算机可读储存介质及系统 |
CN109299462A (zh) * | 2018-09-20 | 2019-02-01 | 武汉理工大学 | 基于多维卷积特征的短文本相似度计算方法 |
CN109543029B (zh) * | 2018-09-27 | 2023-07-25 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法、装置、介质和设备 |
CN109543029A (zh) * | 2018-09-27 | 2019-03-29 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法、装置、介质和设备 |
CN111199153A (zh) * | 2018-10-31 | 2020-05-26 | 北京国双科技有限公司 | 一种词向量的生成方法及相关设备 |
CN111199153B (zh) * | 2018-10-31 | 2023-08-25 | 北京国双科技有限公司 | 一种词向量的生成方法及相关设备 |
CN111143548A (zh) * | 2018-11-02 | 2020-05-12 | 北大方正集团有限公司 | 图书分类方法、装置、设备及计算机可读存储介质 |
CN111241271B (zh) * | 2018-11-13 | 2023-04-25 | 网智天元科技集团股份有限公司 | 文本情感分类方法、装置及电子设备 |
CN111241271A (zh) * | 2018-11-13 | 2020-06-05 | 网智天元科技集团股份有限公司 | 文本情感分类方法、装置及电子设备 |
CN109684626A (zh) * | 2018-11-16 | 2019-04-26 | 深思考人工智能机器人科技(北京)有限公司 | 语义识别方法、模型、存储介质和装置 |
CN109743732B (zh) * | 2018-12-20 | 2022-05-10 | 重庆邮电大学 | 基于改进的cnn-lstm的垃圾短信判别方法 |
CN109743732A (zh) * | 2018-12-20 | 2019-05-10 | 重庆邮电大学 | 基于改进的cnn-lstm的垃圾短信判别方法 |
CN109857844A (zh) * | 2018-12-29 | 2019-06-07 | 北京三快在线科技有限公司 | 基于点餐对话文本的意图识别方法、装置、电子设备 |
CN111382243A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 文本的类别匹配方法、类别匹配装置及终端 |
WO2020147393A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN109918500A (zh) * | 2019-01-17 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN109918506B (zh) * | 2019-03-07 | 2022-12-16 | 安徽省泰岳祥升软件有限公司 | 一种文本分类方法及装置 |
CN109918506A (zh) * | 2019-03-07 | 2019-06-21 | 安徽省泰岳祥升软件有限公司 | 一种文本分类方法及装置 |
CN109992788A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于未登录词处理的深度文本匹配方法及装置 |
CN109992788B (zh) * | 2019-04-10 | 2023-08-29 | 鼎富智能科技有限公司 | 基于未登录词处理的深度文本匹配方法及装置 |
CN110059817A (zh) * | 2019-04-17 | 2019-07-26 | 中山大学 | 一种实现低资源消耗卷积器的方法 |
CN110083676B (zh) * | 2019-04-22 | 2021-12-03 | 东北大学 | 一种基于短文本的领域动态跟踪方法 |
CN110083676A (zh) * | 2019-04-22 | 2019-08-02 | 东北大学 | 一种基于短文本的领域动态跟踪方法 |
CN110232121B (zh) * | 2019-04-28 | 2021-04-06 | 中国电子科技集团公司第二十八研究所 | 一种基于语义网的管制指令分类方法 |
CN110263323A (zh) * | 2019-05-08 | 2019-09-20 | 清华大学 | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 |
CN110413988A (zh) * | 2019-06-17 | 2019-11-05 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110413988B (zh) * | 2019-06-17 | 2023-01-31 | 平安科技(深圳)有限公司 | 文本信息匹配度量的方法、装置、服务器及存储介质 |
CN110297889A (zh) * | 2019-06-28 | 2019-10-01 | 南京冰鉴信息科技有限公司 | 一种基于特征融合的企业情感倾向分析方法 |
CN110297889B (zh) * | 2019-06-28 | 2020-10-23 | 南京冰鉴信息科技有限公司 | 一种基于特征融合的企业情感倾向分析方法 |
CN110399488A (zh) * | 2019-07-05 | 2019-11-01 | 深圳和而泰家居在线网络科技有限公司 | 文本分类方法及装置 |
CN110399488B (zh) * | 2019-07-05 | 2021-11-30 | 深圳数联天下智能科技有限公司 | 文本分类方法及装置 |
CN110580288A (zh) * | 2019-08-23 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法和装置 |
WO2021051518A1 (zh) * | 2019-09-17 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于神经网络模型的文本数据分类方法、装置及存储介质 |
CN110750640A (zh) * | 2019-09-17 | 2020-02-04 | 平安科技(深圳)有限公司 | 基于神经网络模型的文本数据分类方法、装置及存储介质 |
CN110851594A (zh) * | 2019-10-08 | 2020-02-28 | 浙江工业大学 | 一种基于多通道深度学习模型的文本分类方法及其装置 |
WO2021068339A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN110990572A (zh) * | 2019-12-03 | 2020-04-10 | 深圳市豪斯莱科技有限公司 | 一种基于主题下的情感分析方法 |
CN112949313A (zh) * | 2019-12-11 | 2021-06-11 | 中移(苏州)软件技术有限公司 | 信息处理模型训练方法、装置、设备及存储介质 |
CN111104513B (zh) * | 2019-12-13 | 2023-05-02 | 中山大学 | 一种游戏平台用户问答业务的短文本分类方法 |
CN111104513A (zh) * | 2019-12-13 | 2020-05-05 | 中山大学 | 一种游戏平台用户问答业务的短文本分类方法 |
CN111160042B (zh) * | 2019-12-31 | 2023-04-28 | 重庆觉晓科技有限公司 | 一种文本语义解析方法和装置 |
CN111160042A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本语义解析方法和装置 |
CN113239192A (zh) * | 2021-04-29 | 2021-08-10 | 湘潭大学 | 一种基于滑动窗口和随机离散采样的文本结构化技术 |
CN113239192B (zh) * | 2021-04-29 | 2024-04-16 | 湘潭大学 | 一种基于滑动窗口和随机离散采样的文本结构化技术 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656990A (zh) | 一种基于字和词两个层面特征信息的文本分类方法 | |
CN109241283B (zh) | 一种基于多角度胶囊网络的文本分类方法 | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN107292333B (zh) | 一种基于深度学习的快速图像分类方法 | |
CN109710761A (zh) | 基于注意力增强的双向lstm模型的情感分析方法 | |
CN105824922B (zh) | 一种融合深层特征和浅层特征的情感分类方法 | |
CN110069778A (zh) | 中文融入嵌入词位置感知的商品情感分析方法 | |
CN107679491A (zh) | 一种融合多模态数据的3d卷积神经网络手语识别方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN109299268A (zh) | 一种基于双通道模型的文本情感分析方法 | |
CN106650789A (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN110502749A (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN107273355A (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN108763326A (zh) | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 | |
CN106650756A (zh) | 基于知识迁移的多模态循环神经网络的图像文本描述方法 | |
CN108280064A (zh) | 分词、词性标注、实体识别及句法分析的联合处理方法 | |
CN106815369A (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN107391760A (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN103942191B (zh) | 一种基于内容的恐怖文本识别方法 | |
CN109948149A (zh) | 一种文本分类方法及装置 | |
CN109190126B (zh) | 词嵌入模型的训练方法及装置 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN106227721A (zh) | 汉语韵律层级结构预测系统 | |
JP2014502754A (ja) | インターネットにおける有害情報の遮断方法と装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20220208 |
|
AD01 | Patent right deemed abandoned |