CN107291795A - 一种结合动态词嵌入和词性标注的文本分类方法 - Google Patents
一种结合动态词嵌入和词性标注的文本分类方法 Download PDFInfo
- Publication number
- CN107291795A CN107291795A CN201710303328.4A CN201710303328A CN107291795A CN 107291795 A CN107291795 A CN 107291795A CN 201710303328 A CN201710303328 A CN 201710303328A CN 107291795 A CN107291795 A CN 107291795A
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- sentence
- classification method
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明公开了一种结合动态词嵌入和词性标注的文本分类方法,通过结合动态词嵌入和词性标注给出一种基于深层神经网络的文本分类方法,既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点,又能够在模型训练过程中结合语料库的特点对词嵌入进行调整,从而更好地学习训练语料库的特点。同时,还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势,以及CNN在学习文本局部特征方面的优势。本发明所提出的分类模型具有准确率高和通用性强等优点,在一些著名的公开语料库,包括IMDB语料库、Movie Review和TREC等,均取得很好的效果。
Description
技术领域
本发明涉及移动通信技术领域。具体涉及一种结合动态词嵌入和词性标注的文本分类方法。
背景技术
基于机器学习的文本自动分类是指在给定分类体系的前提下,利用各种计算机算法对文本的内容进行分析并自动确定文本类别的过程。早期的研究主要是基于浅层机器学习和统计学,并采用one-hot(也称one-of-V,V为词典的大小)或分配式的方式(如结合词频、共现信息、TF-IDF或熵的词袋)来给出句子的数学表示。这种表示方法的主要缺点是无法表达句子中语言单元(如字、词或短语n-grams)本身的语义及它们间的关系(例如任意两个不同词的向量内积均为0),且容易出现高维稀疏问题。近几年来,随着深度学习和深层神经网络在图形图像、手写字体识、语音识别等领域所取得的成功,一些学者开始利用神经网络来训练词的分布式表示(也称词嵌入或词向量),并取代one-hot或分配式表示来给出文本和句子的数学表示。词嵌入的主要思想是将词映射成一个连续且带语义信息的d维实数向量(d一般为模型的超参数)。现有的研究已经证明词嵌入能够更好地刻画文本的语法和语义信息,而且能够与深度神经网络相结合并进一步提高模型分类的准确性。目前,许多相关研究都是在基于大规模语料训练所得的词嵌入的基础上,利用递归神经网络(以长短期记忆网络LSTM和GRU为主要代表)或卷积神经网络等模型来学习文本的特征并进行分类。但这些研究主要采用静态的词嵌入,即词嵌入中各个向量元素的值在模型训练的过程中均保持不变,这使得模型不能够更好地学习目标语料库中文本的特点。另一方面,这些研究往往在所提出的模型中忽略了句子中各个词的词性等信息,因此这在一定程度上无法充分利用句子的语法结构来提高文本分类的准确性。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种结合动态词嵌入和词性标注的文本分类方法。
本发明的目的可以通过采取如下技术方案达到:
一种结合动态词嵌入和词性标注的文本分类方法,所述文本分类方法包括下列步骤:
S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;
S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;
S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;
S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;
S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。
进一步地,所述步骤S1包括下列子步骤:
S101、对句子进行预训练操作,所述预训练操作包括:标点符号过滤、缩写补齐、删除空格;
S102、然后结合句子长度分布及均方差确定句子的长度阈值,并进行长度补齐;
S103、利用预训练操作后的词向量表给出句子中各个词的实数向量表示;
S104、利用NLTK给出句子中各个词的词性标注,并利用区间[-0.25,0.25]上的均匀分布对每一种词性进行随机初始为指定维度的词嵌入,给出句子的词性向量表示;
S105、得到两个分别表示词及词性的向量矩阵。
进一步地,所述步骤S2的过程如下:
对于输入句子中的词或词性嵌入矩阵,每一个双向LSTM层利用一个正向和一个逆向的LSTM层来学习词或词性的上文和下文信息,并将每一步的学习结果进行输出,最终分别得到一个包含语义及上下文信息的向量和一个包含词性及上下文信息的向量,并合并成一个双通道的向量矩阵。
进一步地,所述步骤S3包括下列子步骤:
S301、通过使用多个不同词步长和权值的核矩阵分别对上一层输出的词向量矩阵进行二维卷积运算,提取局部卷积特征;
S302、利用二维池化窗口对局部卷积特征矩阵进行下采样,从而得到多个降维后的局部特征矩阵;
进一步地,在整个文本分类模型的训练过程中,同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。
本发明相对于现有技术具有如下的优点及效果:
本发明通过结合动态词嵌入和词性标注的方法给出一种基于深层神经网络的文本分类方法,既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点,又能够在模型训练过程中结合语料库的特点对词嵌入进行调整,从而更好地学习训练语料库的特点。同时,还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势,以及CNN在学习文本局部特征方面的优势。本发明所提出的分类模型具有准确率高和通用性强等优点,在一些著名的公开语料库,包括20 Newsgroup语料库、IMDB语料库、Movie Review、TREC和StanfordSentiment Treebank(SSTb)等,均取得很好的效果。
附图说明
图1是本发明公开的一种结合动态词嵌入和词性标注的文本分类方法的模型总体结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例公开了一种结合词性标注及动态词嵌入的多通道深度神经网络,并将其应用于文本的自动分类方法。主要思路是利用词向量给出句子中词及其词性的数学表示,一方面以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,另一方面对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量。接着,利用两个单独的双向LSTM层分别学习两个输入中的信息,从而分别得到词及词性的上下文关系,并将结果合并成一个双通道;在此基础上,将双通道传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;最后,再利用一个单向的LSTM层学习局部特征之间的上下文关系,然后合并最后的学习结果并通过一个多分类的输出层进行预测和输出。在模型的学习过程中结合训练语料的学习结果对两个通道中的词嵌入进行调整。
具体来说,本发明是一种基于深层神经网络并结合动态词嵌入和词性标注信息的文本分类方法。模型共分五层:第一层为输入层,主要是对句子进行分词、非法字符过滤、长度补齐等预训练操作,然后分别利用预训练处理后的词嵌入表及基于均匀分布的随机初始化给出句子中各个词及其词性的数学表示,从而将每个句子转化成两个基于连续和稠密的实数向量矩阵;第二层为两个双向LSTM层,每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM的学习结果合并成一个双通道的向量矩阵;第三层为CNN层,采用多个不同词步长和不同权值的二维核矩阵分别对双通道的向量矩阵进行二维卷积运算,提取局部特征后生成多层局部卷积特征矩阵;在此基础上,利用二维池化窗口对多层局部卷积特征矩阵进行下采样并得到多层特征矩阵;第四层为单向LSTM层,通过一个LSTM分别学习各个词步长所对应的局部卷积特征间的上下文信息,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;第五层为输出层,包含一个全连接的隐层和一个全连接的softmax层,其中隐层的神经元数量根据输入层节点数、输出层节点数之积开平方所得,softmax层的神经元数量则为对应的分类体系的类别数量。
本发明所提出的文本分类方法的特征在于包括以下步骤:
步骤S1具体过程如下:
S101、对句子进行预训练操作,主要包括标点符号过滤、缩写补齐、删除空格等;
S102、然后结合句子长度分布及均方差确定句子的长度阈值,并进行长度补齐;
S103、利用预训练操作后的词向量表给出句子中各个词的实数向量表示;
S104、利用NLTK给出句子中各个词的词性标注,并利用区间[-0.25,0.25]上的均匀分布对每一种词性进行随机初始为指定维度的词嵌入,给出句子的词性向量表示;
S105、得到两个分别表示词及词性的向量矩阵。
步骤S2具体过程如下:
模型的第二层包含了两个独立的双向LSTM层。对于输入句子中的词或词性嵌入矩阵,每一个双向LSTM层利用一个正向和一个逆向的LSTM层来学习词或词性的上文和下文信息,并将每一步的学习结果进行输出,最终分别得到一个包含语义及上下文信息的向量和一个包含词性及上下文信息的向量,并合并成一个双通道的向量矩阵。
步骤S3具体过程如下:
模型的第三层包含一个CNN层,通过使用多个不同词步长和权值的核矩阵分别对上一层输出的词向量矩阵进行二维卷积运算,提取局部卷积特征;在此基础上,利用二维池化窗口对局部卷积特征矩阵进行下采样,从而得到多个降维后的局部特征矩阵;
步骤S4具体过程如下:
模型的第四层包含一个LSTM层,分别针对上一步骤中每个降维后的局部特征矩阵进行学习,得到相应的上文信息,并将最后的学习结果进行串联合并后输出;
步骤S5具体过程如下:
模型的第五层为一个全连接的隐层和一个针对多分类逻辑回归的softmax层,采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。在整个模型的训练过程中,同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述文本分类方法包括下列步骤:
S1、利用词向量给出句子中词及其词性的数学表示,以预训练操作后的词嵌入表为基础给出句子中预处理后的各个词的实数向量表示,同时,对句子中各个词的词性进行标注后利用均匀分布将词性随机初始为指定维度的实数量;
S2、每一个双向LSTM层分别通过两个相反方向的LSTM层分别学习句子中词或词性的上下文信息,并将每一步的学习结果进行输出,最后将两个双向LSTM层的学习结果合并成一个双通道的向量矩阵;
S3、将双通道的向量矩阵传递给一个包含多个卷积词步长和卷积核的CNN层,然后通过CNN层上的二维卷积操作提取局部特征后进行池化和降维;
S4、通过一个单向的LSTM层分别学习各个词步长所对应的局部卷积特征间的上下文信息,,接着输出最后一个语言单元的学习结果,并将所有的学习结果进行串联合并;
S5、采用多元交叉熵和基于随机梯度下降的rmsprop分类器对句子的类别进行预测和输出。
2.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述步骤S1包括下列子步骤:
S101、对句子进行预训练操作,所述预训练操作包括:标点符号过滤、缩写补齐、删除空格;
S102、然后结合句子长度分布及均方差确定句子的长度阈值,并进行长度补齐;
S103、利用预训练操作后的词向量表给出句子中各个词的实数向量表示;
S104、利用NLTK给出句子中各个词的词性标注,并利用区间[-0.25,0.25]上的均匀分布对每一种词性进行随机初始为指定维度的词嵌入,给出句子的词性向量表示;
S105、得到两个分别表示词及词性的向量矩阵。
3.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述步骤S2的过程如下:
对于输入句子中的词或词性嵌入矩阵,每一个双向LSTM层利用一个正向和一个逆向的LSTM层来学习词或词性的上文和下文信息,并将每一步的学习结果进行输出,最终分别得到一个包含语义及上下文信息的向量和一个包含词性及上下文信息的向量,并合并成一个双通道的向量矩阵。
4.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,所述步骤S3包括下列子步骤:
S301、通过使用多个不同词步长和权值的核矩阵分别对上一层输出的词向量矩阵进行二维卷积运算,提取局部卷积特征;
S302、利用二维池化窗口对局部卷积特征矩阵进行下采样,从而得到多个降维后的局部特征矩阵。
5.根据权利要求1所述的一种结合动态词嵌入和词性标注的文本分类方法,其特征在于,
在整个文本分类模型的训练过程中,同时结合后向传播对输入层中基于预训练词嵌入和基于初始随机化的词嵌入进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710303328.4A CN107291795B (zh) | 2017-05-03 | 2017-05-03 | 一种结合动态词嵌入和词性标注的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710303328.4A CN107291795B (zh) | 2017-05-03 | 2017-05-03 | 一种结合动态词嵌入和词性标注的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291795A true CN107291795A (zh) | 2017-10-24 |
CN107291795B CN107291795B (zh) | 2020-06-19 |
Family
ID=60094349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710303328.4A Expired - Fee Related CN107291795B (zh) | 2017-05-03 | 2017-05-03 | 一种结合动态词嵌入和词性标注的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291795B (zh) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN107679199A (zh) * | 2017-10-11 | 2018-02-09 | 北京邮电大学 | 一种基于深度局部特征的对外汉语教材可读性分析方法 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN108038107A (zh) * | 2017-12-22 | 2018-05-15 | 东软集团股份有限公司 | 基于卷积神经网络的语句情感分类方法、装置及其设备 |
CN108108351A (zh) * | 2017-12-05 | 2018-06-01 | 华南理工大学 | 一种基于深度学习组合模型的文本情感分类方法 |
CN108334499A (zh) * | 2018-02-08 | 2018-07-27 | 海南云江科技有限公司 | 一种文本标签标注设备、方法和计算设备 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN108595643A (zh) * | 2018-04-26 | 2018-09-28 | 重庆邮电大学 | 基于多分类节点卷积循环网络的文本特征提取及分类方法 |
CN108647785A (zh) * | 2018-05-17 | 2018-10-12 | 普强信息技术(北京)有限公司 | 一种神经网络自动建模方法、装置及存储介质 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN108763542A (zh) * | 2018-05-31 | 2018-11-06 | 中国华戎科技集团有限公司 | 一种基于联合学习的文本情报分类方法、装置及计算机设备 |
CN108763539A (zh) * | 2018-05-31 | 2018-11-06 | 华中科技大学 | 一种基于词性分类的文本分类方法和系统 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN108984525A (zh) * | 2018-07-06 | 2018-12-11 | 北京邮电大学 | 一种基于加入文本信息的词向量的中文语法错误检测方法 |
CN109543030A (zh) * | 2018-10-12 | 2019-03-29 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、设备、存储介质 |
CN109614473A (zh) * | 2018-06-05 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 应用于智能交互的知识推理方法及装置 |
CN109766523A (zh) * | 2017-11-09 | 2019-05-17 | 普天信息技术有限公司 | 词性标注方法和标注系统 |
EP3499384A1 (en) * | 2017-12-18 | 2019-06-19 | Fortia Financial Solutions | Word and sentence embeddings for sentence classification |
CN109918506A (zh) * | 2019-03-07 | 2019-06-21 | 安徽省泰岳祥升软件有限公司 | 一种文本分类方法及装置 |
CN110046250A (zh) * | 2019-03-17 | 2019-07-23 | 华南师范大学 | 三嵌入卷积神经网络模型及其文本多分类方法 |
CN110046353A (zh) * | 2019-04-22 | 2019-07-23 | 重庆理工大学 | 一种基于多语言层次机制的方面级情感分析方法 |
CN110222178A (zh) * | 2019-05-24 | 2019-09-10 | 新华三大数据技术有限公司 | 文本情感分类方法、装置、电子设备及可读存储介质 |
CN110232153A (zh) * | 2019-05-29 | 2019-09-13 | 华南理工大学 | 一种基于内容的跨领域推荐方法 |
CN110569495A (zh) * | 2018-06-05 | 2019-12-13 | 北京四维图新科技股份有限公司 | 一种基于用户评论的情感倾向分类方法、装置及存储介质 |
US10572588B2 (en) | 2018-06-01 | 2020-02-25 | Fortia Financial Solutions | Extracting from a descriptive document the value of a slot associated with a target entity |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111274401A (zh) * | 2020-01-20 | 2020-06-12 | 华中师范大学 | 基于多特征融合的课堂话语分类方法和装置 |
CN111414731A (zh) * | 2020-02-28 | 2020-07-14 | 北京小米松果电子有限公司 | 文本标注方法和装置 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN112214995A (zh) * | 2019-07-09 | 2021-01-12 | 百度(美国)有限责任公司 | 用于同义词预测的分层多任务术语嵌入学习 |
CN112580351A (zh) * | 2020-12-31 | 2021-03-30 | 成都信息工程大学 | 一种基于自信息损失补偿的机器生成文本检测方法 |
WO2021119074A1 (en) * | 2019-12-09 | 2021-06-17 | Nec Laboratories America, Inc. | Controlled text generation with supervised representation disentanglement and mutual information minimization |
US11481389B2 (en) | 2017-12-18 | 2022-10-25 | Fortia Financial Solutions | Generating an executable code based on a document |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016187472A1 (en) * | 2015-05-21 | 2016-11-24 | Baidu Usa Llc | Multilingual image question answering |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和系统 |
-
2017
- 2017-05-03 CN CN201710303328.4A patent/CN107291795B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016187472A1 (en) * | 2015-05-21 | 2016-11-24 | Baidu Usa Llc | Multilingual image question answering |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和系统 |
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN107608970B (zh) * | 2017-09-29 | 2024-04-26 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN107679199A (zh) * | 2017-10-11 | 2018-02-09 | 北京邮电大学 | 一种基于深度局部特征的对外汉语教材可读性分析方法 |
CN109766523A (zh) * | 2017-11-09 | 2019-05-17 | 普天信息技术有限公司 | 词性标注方法和标注系统 |
CN107885853A (zh) * | 2017-11-14 | 2018-04-06 | 同济大学 | 一种基于深度学习的组合式文本分类方法 |
CN108108351A (zh) * | 2017-12-05 | 2018-06-01 | 华南理工大学 | 一种基于深度学习组合模型的文本情感分类方法 |
CN108108351B (zh) * | 2017-12-05 | 2020-05-22 | 华南理工大学 | 一种基于深度学习组合模型的文本情感分类方法 |
EP3499384A1 (en) * | 2017-12-18 | 2019-06-19 | Fortia Financial Solutions | Word and sentence embeddings for sentence classification |
US11481389B2 (en) | 2017-12-18 | 2022-10-25 | Fortia Financial Solutions | Generating an executable code based on a document |
US11232141B2 (en) | 2017-12-18 | 2022-01-25 | Fortia Financial Solutions | Method and device for processing an electronic document |
CN108038107A (zh) * | 2017-12-22 | 2018-05-15 | 东软集团股份有限公司 | 基于卷积神经网络的语句情感分类方法、装置及其设备 |
CN108038107B (zh) * | 2017-12-22 | 2021-06-25 | 东软集团股份有限公司 | 基于卷积神经网络的语句情感分类方法、装置及其设备 |
CN108417210B (zh) * | 2018-01-10 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108334499A (zh) * | 2018-02-08 | 2018-07-27 | 海南云江科技有限公司 | 一种文本标签标注设备、方法和计算设备 |
CN108334499B (zh) * | 2018-02-08 | 2022-03-18 | 海南云江科技有限公司 | 一种文本标签标注设备、方法和计算设备 |
CN108446271A (zh) * | 2018-03-07 | 2018-08-24 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN108446271B (zh) * | 2018-03-07 | 2021-11-26 | 中山大学 | 基于汉字部件特征的卷积神经网络的文本情感分析方法 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN108595632B (zh) * | 2018-04-24 | 2022-05-24 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN108595643A (zh) * | 2018-04-26 | 2018-09-28 | 重庆邮电大学 | 基于多分类节点卷积循环网络的文本特征提取及分类方法 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN108647785A (zh) * | 2018-05-17 | 2018-10-12 | 普强信息技术(北京)有限公司 | 一种神经网络自动建模方法、装置及存储介质 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN108763542A (zh) * | 2018-05-31 | 2018-11-06 | 中国华戎科技集团有限公司 | 一种基于联合学习的文本情报分类方法、装置及计算机设备 |
CN108763539A (zh) * | 2018-05-31 | 2018-11-06 | 华中科技大学 | 一种基于词性分类的文本分类方法和系统 |
US10572588B2 (en) | 2018-06-01 | 2020-02-25 | Fortia Financial Solutions | Extracting from a descriptive document the value of a slot associated with a target entity |
CN109614473B (zh) * | 2018-06-05 | 2021-10-08 | 安徽省泰岳祥升软件有限公司 | 应用于智能交互的知识推理方法及装置 |
CN109614473A (zh) * | 2018-06-05 | 2019-04-12 | 安徽省泰岳祥升软件有限公司 | 应用于智能交互的知识推理方法及装置 |
CN110569495A (zh) * | 2018-06-05 | 2019-12-13 | 北京四维图新科技股份有限公司 | 一种基于用户评论的情感倾向分类方法、装置及存储介质 |
CN108984525A (zh) * | 2018-07-06 | 2018-12-11 | 北京邮电大学 | 一种基于加入文本信息的词向量的中文语法错误检测方法 |
CN109543030B (zh) * | 2018-10-12 | 2023-04-07 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、设备、存储介质 |
CN109543030A (zh) * | 2018-10-12 | 2019-03-29 | 平安科技(深圳)有限公司 | 客服机器人会话文本分类方法及装置、设备、存储介质 |
CN109918506B (zh) * | 2019-03-07 | 2022-12-16 | 安徽省泰岳祥升软件有限公司 | 一种文本分类方法及装置 |
CN109918506A (zh) * | 2019-03-07 | 2019-06-21 | 安徽省泰岳祥升软件有限公司 | 一种文本分类方法及装置 |
CN110046250A (zh) * | 2019-03-17 | 2019-07-23 | 华南师范大学 | 三嵌入卷积神经网络模型及其文本多分类方法 |
CN110046353A (zh) * | 2019-04-22 | 2019-07-23 | 重庆理工大学 | 一种基于多语言层次机制的方面级情感分析方法 |
CN110046353B (zh) * | 2019-04-22 | 2022-05-13 | 重庆理工大学 | 一种基于多语言层次机制的方面级情感分析方法 |
CN110222178A (zh) * | 2019-05-24 | 2019-09-10 | 新华三大数据技术有限公司 | 文本情感分类方法、装置、电子设备及可读存储介质 |
CN110232153A (zh) * | 2019-05-29 | 2019-09-13 | 华南理工大学 | 一种基于内容的跨领域推荐方法 |
CN112214995B (zh) * | 2019-07-09 | 2023-12-22 | 百度(美国)有限责任公司 | 用于同义词预测的分层多任务术语嵌入学习 |
CN112214995A (zh) * | 2019-07-09 | 2021-01-12 | 百度(美国)有限责任公司 | 用于同义词预测的分层多任务术语嵌入学习 |
WO2021119074A1 (en) * | 2019-12-09 | 2021-06-17 | Nec Laboratories America, Inc. | Controlled text generation with supervised representation disentanglement and mutual information minimization |
US11887008B2 (en) | 2019-12-09 | 2024-01-30 | Nec Corporation | Contextual text generation for question answering and text summarization with supervised representation disentanglement and mutual information minimization |
WO2021119082A1 (en) * | 2019-12-09 | 2021-06-17 | Nec Laboratories America, Inc. | Contextual text generation for question answering and text summarization with supervised representation disentanglement and mutual information minimization |
CN111177383A (zh) * | 2019-12-24 | 2020-05-19 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111177383B (zh) * | 2019-12-24 | 2024-01-16 | 上海大学 | 一种融合文本语法结构和语义信息的文本实体关系自动分类方法 |
CN111274401A (zh) * | 2020-01-20 | 2020-06-12 | 华中师范大学 | 基于多特征融合的课堂话语分类方法和装置 |
CN111414731A (zh) * | 2020-02-28 | 2020-07-14 | 北京小米松果电子有限公司 | 文本标注方法和装置 |
US11797764B2 (en) | 2020-02-28 | 2023-10-24 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method and device for text labeling based on dynamic convolution feature extraction |
CN111414731B (zh) * | 2020-02-28 | 2023-08-11 | 北京小米松果电子有限公司 | 文本标注方法和装置 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN112580351B (zh) * | 2020-12-31 | 2022-04-19 | 成都信息工程大学 | 一种基于自信息损失补偿的机器生成文本检测方法 |
CN112580351A (zh) * | 2020-12-31 | 2021-03-30 | 成都信息工程大学 | 一种基于自信息损失补偿的机器生成文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107291795B (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291795A (zh) | 一种结合动态词嵌入和词性标注的文本分类方法 | |
US20210073459A1 (en) | Natural language processing using context-specific word vectors | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
CN105868184B (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN109635109A (zh) | 基于lstm并结合词性及多注意力机制的句子分类方法 | |
KR102008845B1 (ko) | 비정형 데이터의 카테고리 자동분류 방법 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN107590134A (zh) | 文本情感分类方法、存储介质及计算机 | |
CN108280064A (zh) | 分词、词性标注、实体识别及句法分析的联合处理方法 | |
CN107169035A (zh) | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 | |
CN106599933A (zh) | 一种基于联合深度学习模型的文本情感分类方法 | |
Beysolow | Applied natural language processing with python | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
Prusa et al. | Designing a better data representation for deep neural networks and text classification | |
CN107577662A (zh) | 面向中文文本的语义理解系统及方法 | |
CN107145484A (zh) | 一种基于隐多粒度局部特征的中文分词方法 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110083710A (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN110263165A (zh) | 一种基于半监督学习的用户评论情感分析方法 | |
CN107665248A (zh) | 基于深度学习混合模型的文本分类方法和装置 | |
Zhuang et al. | Natural language processing service based on stroke-level convolutional networks for Chinese text classification | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN110930008A (zh) | 一种基于卷积神经网络的矿山灾害事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200619 |