CN109446333A - 一种实现中文文本分类的方法及相关设备 - Google Patents
一种实现中文文本分类的方法及相关设备 Download PDFInfo
- Publication number
- CN109446333A CN109446333A CN201910038004.1A CN201910038004A CN109446333A CN 109446333 A CN109446333 A CN 109446333A CN 201910038004 A CN201910038004 A CN 201910038004A CN 109446333 A CN109446333 A CN 109446333A
- Authority
- CN
- China
- Prior art keywords
- text
- matrix
- chinese
- vector
- mapping matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明实施例涉及文本分类领域,公开了一种实现中文文本分类的方法及相关设备,该方法,包括:用中文的拼音序列对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵;将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量;将所述局部特征向量进行串接融合后,加入到归一化Softmax分类器中,实现对所述中文短文本的分类。如此,基于字符映射矩阵与词级映射矩阵作为联合输入的卷积神经网络模型,能够有效地解决标准卷积神经网络维度单一的缺陷,更加充分的提取中文短文本上下文信息特征,获得准确率更高的分类结果。
Description
技术领域
本发明实施例涉及文本分类领域,特别涉及一种实现中文文本分类的方法及相关设备。
背景技术
目前,深度学习在图像识别与手写识别的惊人表现有目共睹。近年来在自然语言处理 (NLP)的应用也越来越广泛,短文本分类更是其中重要的一部分。
其中,实现短文本分类的方法包括:基于文本特征拓展的方法和基于深度学习的方法。基于文本特征拓展的方法可进一步分为基于规则的方法和基于统计量的方法,基于规则的方法主要依靠专家知识,通过对数据集制定一定的规则来进行分类;基于统计量的方法则主要从机器学习角度出发,引入外部语料对短文本进行拓展,进而对人工标注的文本进行特征抽取,将短文本分类问题转换成一个长文本的有监督学习问题,从而实现对短文本的自动分类。由此可见,基于文本特征拓展的方法往往依赖于特定的场景与资源,待分类文本与知识且必须具有语义一致性,其计算效率较低,难以进行推广。
基于深度学习的方法,通过将单词嵌入与卷积神经网络结合,在短文本情感分类中取得良好效果;将英文短文本的字符序列作为处理单元,分别学习文本的词级和句子级特征,提高短文本分类的准确性;将one-hot向量作为卷积神经网络的输入,来减少模型的学习参数数量;通过对输入短文本进行语义聚类,构建语义拓展矩阵,进而结合卷积神经网络进行分类;将卷积神经网络和传统的情感计算资源进行结合,通过对文本中的词语进行抽象表示,提高情感分类的准确性;利用字特征来挖掘微博文本特征,与词级别作为原始输入特征相比,其准确率更高。但是基于深度学习的方法具有较强的适应性,但是针对中文短文本同音词、拼写错误多的语言现象,并没有进行很好的解决。
发明内容
有鉴于此,本发明的实施方式提供了一种实现中文文本分类的方法,包括:
用中文的拼音序列对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵;
将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量;
将所述局部特征向量进行串接融合后,加入到归一化Softmax分类器中,实现对所述中文短文本的分类。
本发明的实施方式还提供了一种实现中文文本分类的装置,包括:
矩阵建立单元,用于用中文的拼音序列来对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵;
向量提取单元,用于将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量;
分类单元,用于将所述局部特征向量进行串接融合后,加入到归一化Softmax分类器中,实现对所述中文短文本的分类。
本发明的实施方式还提供了一种设备,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实现中文文本分类的方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述实现中文文本分类的方法。
本发明实施例提供的上述实施方式,基于字符映射矩阵与词级映射矩阵作为联合输入的卷积神经网络模型,能够有效地解决标准卷积神经网络维度单一的缺陷,更加充分的提取中文短文本上下文信息特征,获得准确率更高的分类结果。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施方式一提供的实现中文文本分类的方法的流程示意图;
图2为本发明实施例一提供的实现中文文本分类的方法的流程示意图;
图3为本发明实施例一中步骤201具体实现的流程示意图;
图4为本发明实施例一中步骤202具体实现的流程示意图
图5为本发明实施例一中步骤203具体实现的流程示意图;
图6为本发明实施方式二提供的实现中文文本分类的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
随着深度学习技术的不断发展,开始将深度神经网络的相关技术应用到自然语言处理领域中来。深度神经网络模型能够通过多层网络,不断组合低层文本信息,形成更加抽象的高层文本表示,从而提高模型的准确性。比如卷积神经网络(CNN)具有优异的特征自抽取能力,能够显著降低文本分类中人工抽取特征的难度。
为此,本发明实施方式提供的技术方案提出了一种基于神经网络模型的单词嵌入(Word Embedding)技术,为中文短文本进行语义化向量表示提供了新的思路。
实施方式一
图1为本发明实施方式一提供的实现中文文本分类的方法的流程示意图。如图1所示,该方法包括:
步骤101,用中文的拼音序列对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵;
步骤102,将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量;
步骤103,将所述局部特征向量进行串接融合后,加入到归一化Softmax分类器中,实现对所述中文短文本的分类。
其中,所述用中文的拼音序列来对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵,包括:
对文本进行预处理工作,包括去除含有大量无意义的符号,对混合评论进行保留;
使用大规模语料训练得到的单词嵌入向量集合,记为VT;对字符级别特征CF和词级别特征PF中的每一个组成单位进行向量化表示,得到字符映射矩阵wC和词组映射矩阵wp,其计算公式如下所示:WC=VT·idx(CF),WP=VT·idx(PF);
其中,idx()是计算索引函数,通过迭代CF的组成单元求出其在VT中的索引,获取其单词嵌入向量,通过迭代PF的组成单元求出其在VT中的索引,获取其词嵌入向量。
其中,所述将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量,包括:
利用大小为h×d的卷积核对输入的字符映射矩阵和词组映射矩阵分别进行卷积运算,得到所述中文短文本的形态多层局部特征矩阵wsc和语义多层局部特征矩阵wsp,卷积运算过程如下:其中,si,j为得到的多层局部特征矩阵组成单元,wu,v为卷积核矩阵中第u行v列的权重值,b为偏置值;
选择函数Relu作为线性激活函数f,f(x)=max(0,x);
卷积之后加入降采样层,采用k-max降采样策略,对采样区域选取k个最大值,单个形态多层局部特征矩阵wsc的采样过程,如下所示:其中,为第i个形态多层特征矩阵,fflatten()表示光栅化操作,即将二维矩阵压缩成一维向量, fsort()为排序操作函数,对一维向量进行排序。
其中,所述将所述局部特征向量进行串接融合后,加入到归一化Softmax分类器中,实现对所述中文短文本的分类,包括:
对多个局部特征向量进行融合,采用串接方式将多个局部特征向量进行连接,形成固定长度的融合特征向量,即所述中文短文本的语义向量表示,过程如下所示:其中为向量串接操作;
将所述中文短文本的语义向量表示作为Softmax分类器的输入,从全局角度对特征进行分析,进而完成短文本分类任务;
进行文本类别判断,判为概率值p所属较大的类别,并与文本标签进行对比计算,得到文本正确率。
下面通过两个具体的实施例详细阐述本发明实施方式一提供的技术方案。
实施例一
图2为本发明实施例一提供的实现中文文本分类的方法的流程示意图,如图2所示,该方法包括:
步骤201,用中文的拼音序列来对原始文本进行语义拓展,通过使用词向量建立字符级和词级的双输入矩阵;
其中,所述双输入矩阵是指字符映射矩阵wC和词组映射矩阵wp。
步骤202、输入经过卷积和降采样操作自动提取文本的局部特征向量;
步骤203、将串接融合后的特征向量加入到Softmax分类器中,实现对中文短文本的分类。
实施例二
图3为本发明实施例一中步骤201具体实现的流程示意图,如图3所示,实施例一中步骤201,包括:
步骤301,对文本进行预处理工作,包括去除含有大量无意义的符号,对混合评论进行了保留;
其中,该混合评论可以是一些中英文或者其他语言的评论。
步骤302,使用大规模语料训练得到的单词嵌入向量集合,记为VT;对CF和PF中的每一个组成单位进行向量化表示,得到字符映射矩阵wC和词组映射矩阵wp。
其中,字符级别特征(Char Level Feature,CF):即拼音表示序列;词级别特征(Phrase Level Feature,PF):即词组表示序列。
其中,计算公式如下所示:
WC=VT·idx(CF),WP=VT·idx(PF)
其中,idx()是计算索引函数。通过迭代CF的组成单元求出其在VT中的索引,获取其词嵌入向量,wP与其计算过程类似。此时,即可得到原始短文本的输入表示。
实施例四
图4为本发明实施例一中步骤202具体实现的流程示意图,如图4所示,实施例一中步骤202,包括:
步骤401,利用大小为h×d的卷积核对输入的字符映射矩阵和词组映射矩阵分别进行卷积运算,得到原始短文本的形态多层局部特征矩阵wsc和语义多层局部特征矩阵wsp;
其中,卷积运算过程如下:
其中,si,j为得到的多层局部特征矩阵组成单元,wu,v为卷积核矩阵中第u行v列的权重值,b为偏置值。
步骤402,为加快网络的收敛速度,选择函数Relu作为线性激活函数f;
其中,公式如下:f(x)=max(0,x)
步骤403,,卷积之后加入降采样层,采用k-max降采样策略,对采样区域选取k个最大值,单个形态多层局部特征矩阵wsc的采样过程,如下所示:
其中,为第i个形态多层特征矩阵,fflatten()表示光栅化操作,即将二维矩阵压缩成一维向量,fsort()为排序操作函数,对一维向量进行排序。
实施例五
图5为本发明实施例一中步骤203具体实现的流程示意图,如图5所示,实施例一中步骤203,包括:
步骤501,需要对多个特征向量进行融合,采用串接方式将多个向量进行连接,形成固定长度的融合特征向量;
其中,融合特征向量,即原始短文本的语义向量表示,过程如下所示:
其中,为向量串接操作。
步骤502,将原始短文本的语义向量表示作为Softmax分类器的输入,从全局角度对特征进行分析,进而完成短文本分类任务;
步骤503,进行文本类别判断,判为概率值p所属较大的类别,并与文本标签进行对比计算,得到文本正确率。
本发明实施例提供的技术方案,解决短文本特征信息共现不足与人工抽取特征困难以及传统方法在语义层次上会面临数据特征稀疏和语义敏感,和实际中文短文本中噪声大、拼写错误和同音词多的特征的问题,从而有效提高中文短文本分类的准确度。
本发明的实施方式二还提供了一种实现中文文本分类的装置,图6为本发明实施方式二提供的实现中文文本分类的装置的结构示意图,如图6所示,该装置包括:
矩阵建立单元,用于用中文的拼音序列来对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵;
向量提取单元,用于将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量;
分类单元,用于将所述局部特征向量进行串接融合后,加入到归一化Softmax分类器中,实现对所述中文短文本的分类。
其中,所述矩阵建立单元,具体用于对文本进行预处理工作,包括去除含有大量无意义的符号,对混合评论进行保留;
使用大规模语料训练得到的单词嵌入向量集合,记为VT;对字符级别特征CF和词级别特征PF中的每一个组成单位进行向量化表示,得到字符映射矩阵wC和词组映射矩阵wp,其计算公式如下所示:WC=VT·idx(CF),WP=VT·idx(PF);
其中,idx()是计算索引函数,通过迭代CF的组成单元求出其在VT中的索引,获取其单词嵌入向量,通过迭代PF的组成单元求出其在VT中的索引,获取其词嵌入向量。
其中,所述向量提取单元,具体用于利用大小为h×d的卷积核对输入的字符映射矩阵和词组映射矩阵分别进行卷积运算,得到所述中文短文本的形态多层局部特征矩阵wsc和语义多层局部特征矩阵wsp,卷积运算过程如下:其中,si,j为得到的多层局部特征矩阵组成单元,wu,v为卷积核矩阵中第u行v列的权重值,b为偏置值;
选择函数Relu作为线性激活函数f,f(x)=max(0,x);
卷积之后加入降采样层,采用k-max降采样策略,对采样区域选取k个最大值,单个形态多层局部特征矩阵wsc的采样过程,如下所示:其中,为第i个形态多层特征矩阵,fflatten()表示光栅化操作,即将二维矩阵压缩成一维向量, fsort()为排序操作函数,对一维向量进行排序。
其中,所述分类单元,具体用于对多个局部特征向量进行融合,采用串接方式将多个局部特征向量进行连接,形成固定长度的融合特征向量,即所述中文短文本的语义向量表示,过程如下所示:其中为向量串接操作;
将所述中文短文本的语义向量表示作为Softmax分类器的输入,从全局角度对特征进行分析,进而完成短文本分类任务;
进行文本类别判断,判为概率值p所属较大的类别,并与文本标签进行对比计算,得到文本正确率。
本发明实施方式提供的技术方案,提出了一种多输入卷积神经网络分类模型CP-CNN,有效解决了传统文本分类方法难以解决的短文本特征共现稀疏问题。主要贡献包括:a)使用拼音序列的文本表征方式,解决中文字符难以量化的难题;b)将字符特征与词特征作为联合输入,解决单一字符特征或词特征维度不足的问题;c)采用k-max降采样策略,增强模型的特征表达能力,并且本发明提出的以字符级别特征与词级别特征作为联合输入的卷积神经网络模型,能够有效地解决标准卷积神经网络维度单一的缺陷,更加充分的提取短文本上下文信息特征,获得准确率更高的分类结果。
本发明的实施方式还提供了一种设备,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实现中文文本分类的方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述中文文本分类的方法。
本领域技术人员可以理解,实现上述实施例方法中的控制单元的操作是可以通过程序来指令相关的硬件(传感器)来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例中控制单元执行的操作。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种实现中文文本分类的方法,包括:
用中文的拼音序列对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵;
将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量;
将所述局部特征向量进行串接融合后,加入到归一化Softmax 分类器中,实现对所述中文短文本的分类。
2.根据权利要求1所述的方法,其特征在于,所述用中文的拼音序列来对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵,包括:
对文本进行预处理工作,包括去除含有大量无意义的符号,对混合评论进行保留;
使用大规模语料训练得到的词嵌入向量集合,记为 VT;对字符级别特征CF和词级别特
征PF中的每一个组成单位进行向量化表示,得到字符映射矩阵和词级映射矩阵,其计
算公式如下所示:,;
其中,是计算索引函数,通过迭代CF的组成单元求出其在VT中的索引,获取其词嵌
入向量,通过迭代PF的组成单元求出其在VT中的索引,获取其词嵌入向量。
3.根据权利要求1所述的方法,其特征在于,所述将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量,包括:
利用大小为的卷积核对输入的字符映射矩阵和词级映射矩阵分别进行卷积运算,
得到所述中文短文本的形态多层局部特征矩阵和语义多层局部特征矩阵,卷积运算
过程如下:,其中,为得到的多层局部特征矩阵组成单元,为卷积核矩阵中第u行v列的权重值,b为偏置值;
选择函数 Relu作为线性激活函数,;
卷积之后加入降采样层,采用 k-max 降采样策略,对采样区域选取 k 个最大值,单个
形态多层局部特征矩阵的采样过程,如下所示:,其
中,为第 i 个形态多层特征矩阵,表示光栅化操作,即将二维矩阵压缩成一维向
量,为排序操作函数,对一维向量进行排序。
4.根据权利要求1所述的方法,其特征在于,所述将所述局部特征向量进行串接融合后,加入到归一化Softmax 分类器中,实现对所述中文短文本的分类,包括:
对多个局部特征向量进行融合,采用串接方式将多个局部特征向量进行连接,形成固
定长度的融合特征向量,即所述中文短文本的语义向量表示,过程如下所示:,
其中为向量串接操作;
将所述中文短文本的语义向量表示作为Softmax 分类器的输入,从全局角度对特征进行分析,进而完成短文本分类任务;
进行文本类别判断,判为概率值p所属较大的类别,并与文本标签进行对比计算,得到文本正确率。
5.一种实现中文文本分类的装置,其特征在于,包括:
矩阵建立单元,用于用中文的拼音序列对中文短文本进行语义拓展,使用词向量建立字符映射矩阵和词级映射矩阵;
向量提取单元,用于将所述字符映射矩阵和词级映射矩阵进行卷积和降采样操作自动提取所述中文短文本的局部特征向量;
分类单元,用于将所述局部特征向量进行串接融合后,加入到归一化Softmax 分类器中,实现对所述中文短文本的分类。
6.根据权利要求5所述的装置,其特征在于,
所述矩阵建立单元,具体用于对文本进行预处理工作,包括去除含有大量无意义的符号,对混合评论进行保留;
使用大规模语料训练得到的词嵌入向量集合,记为 VT;对字符级别特征CF和词级别特
征PF中的每一个组成单位进行向量化表示,得到字符映射矩阵和词级映射矩阵,其计
算公式如下所示:,;
其中,是求索引函数,通过迭代CF的组成单元求出其在VT中的索引,获取其词嵌入
向量,通过迭代PF的组成单元求出其在VT中的索引,获取其词嵌入向量。
7.根据权利要求5所述的装置,其特征在于,
所述向量提取单元,具体用于利用大小为的卷积核对输入的字符映射矩阵和词级
映射矩阵分别进行卷积运算,得到所述中文短文本的形态多层局部特征矩阵和语义多
层局部特征矩阵,卷积运算过程如下:,其中,为得到的
多层局部特征矩阵组成单元,为卷积核矩阵中第u行v列的权重值,b为偏置值;
选择函数 Relu作为线性激活函数,;
卷积之后加入降采样层,采用 k-max 降采样策略,对采样区域选取 k 个最大值,单个
形态多层局部特征矩阵的采样过程,如下所示:,其
中,为第 i 个形态多层特征矩阵,表示光栅化操作,即将二维矩阵压缩成一维向
量,为排序操作函数,对一维向量进行排序。
8.根据权利要求5所述的装置,其特征在于,
所述分类单元,具体用于对多个局部特征向量进行融合,采用串接方式将多个局部特
征向量进行连接,形成固定长度的融合特征向量,即所述中文短文本的语义向量表示,过程
如下所示:,其中为向量串接操作;
将所述中文短文本的语义向量表示作为Softmax 分类器的输入,从全局角度对特征进行分析,进而完成短文本分类任务;
进行文本类别判断,判为概率值p所属较大的类别,并与文本标签进行对比计算,得到文本正确率。
9.一种设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一项所述的实现中文文本分类的方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的实现中文文本分类的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910038004.1A CN109446333A (zh) | 2019-01-16 | 2019-01-16 | 一种实现中文文本分类的方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910038004.1A CN109446333A (zh) | 2019-01-16 | 2019-01-16 | 一种实现中文文本分类的方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446333A true CN109446333A (zh) | 2019-03-08 |
Family
ID=65544221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910038004.1A Pending CN109446333A (zh) | 2019-01-16 | 2019-01-16 | 一种实现中文文本分类的方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446333A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871448A (zh) * | 2019-03-12 | 2019-06-11 | 苏州大学 | 一种短文本分类的方法及系统 |
CN110275954A (zh) * | 2019-06-21 | 2019-09-24 | 深圳大学 | 基于时间卷积网络的中文文本分类方法 |
CN110427608A (zh) * | 2019-06-24 | 2019-11-08 | 浙江大学 | 一种引入分层形声特征的中文词向量表示学习方法 |
CN110457700A (zh) * | 2019-08-07 | 2019-11-15 | 中国人民解放军国防科技大学 | 短文本描述方法和装置 |
CN110502755A (zh) * | 2019-08-27 | 2019-11-26 | 湖北亿咖通科技有限公司 | 基于融合模型的字符串识别方法及计算机存储介质 |
CN111160042A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本语义解析方法和装置 |
CN111222330A (zh) * | 2019-12-26 | 2020-06-02 | 中国电力科学研究院有限公司 | 一种中文事件的检测方法和系统 |
CN111309906A (zh) * | 2020-02-09 | 2020-06-19 | 北京工业大学 | 基于集成神经网络的长短混合型文本分类优化方法 |
WO2021179791A1 (zh) * | 2020-03-12 | 2021-09-16 | 北京京东尚科信息技术有限公司 | 文本信息处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874410A (zh) * | 2017-01-22 | 2017-06-20 | 清华大学 | 基于卷积神经网络的中文微博文本情绪分类方法及其系统 |
WO2019015889A1 (en) * | 2017-07-21 | 2019-01-24 | Memsource a.s. | AUTOMATIC CLASSIFICATION AND TRANSLATION OF WRITTEN SEGMENTS |
-
2019
- 2019-01-16 CN CN201910038004.1A patent/CN109446333A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874410A (zh) * | 2017-01-22 | 2017-06-20 | 清华大学 | 基于卷积神经网络的中文微博文本情绪分类方法及其系统 |
WO2019015889A1 (en) * | 2017-07-21 | 2019-01-24 | Memsource a.s. | AUTOMATIC CLASSIFICATION AND TRANSLATION OF WRITTEN SEGMENTS |
Non-Patent Citations (1)
Title |
---|
余本功 等: "基于CP-CNN的中文短文本分类研究", 《计算机应用研究》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871448A (zh) * | 2019-03-12 | 2019-06-11 | 苏州大学 | 一种短文本分类的方法及系统 |
CN110275954A (zh) * | 2019-06-21 | 2019-09-24 | 深圳大学 | 基于时间卷积网络的中文文本分类方法 |
CN110427608A (zh) * | 2019-06-24 | 2019-11-08 | 浙江大学 | 一种引入分层形声特征的中文词向量表示学习方法 |
CN110427608B (zh) * | 2019-06-24 | 2021-06-08 | 浙江大学 | 一种引入分层形声特征的中文词向量表示学习方法 |
CN110457700A (zh) * | 2019-08-07 | 2019-11-15 | 中国人民解放军国防科技大学 | 短文本描述方法和装置 |
CN110502755A (zh) * | 2019-08-27 | 2019-11-26 | 湖北亿咖通科技有限公司 | 基于融合模型的字符串识别方法及计算机存储介质 |
CN111222330A (zh) * | 2019-12-26 | 2020-06-02 | 中国电力科学研究院有限公司 | 一种中文事件的检测方法和系统 |
CN111222330B (zh) * | 2019-12-26 | 2022-07-12 | 中国电力科学研究院有限公司 | 一种中文事件的检测方法和系统 |
CN111160042A (zh) * | 2019-12-31 | 2020-05-15 | 重庆觉晓教育科技有限公司 | 一种文本语义解析方法和装置 |
CN111160042B (zh) * | 2019-12-31 | 2023-04-28 | 重庆觉晓科技有限公司 | 一种文本语义解析方法和装置 |
CN111309906A (zh) * | 2020-02-09 | 2020-06-19 | 北京工业大学 | 基于集成神经网络的长短混合型文本分类优化方法 |
WO2021179791A1 (zh) * | 2020-03-12 | 2021-09-16 | 北京京东尚科信息技术有限公司 | 文本信息处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446333A (zh) | 一种实现中文文本分类的方法及相关设备 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN108960409B (zh) | 标注数据生成方法、设备及计算机可读存储介质 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
WO2022001623A1 (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN112395393B (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN110232373A (zh) | 人脸聚类方法、装置、设备和存储介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
WO2021169453A1 (zh) | 用于文本处理的方法和装置 | |
CN109033321B (zh) | 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法 | |
CN109726715A (zh) | 一种文字图像序列化识别、结构化数据输出方法 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN106339481A (zh) | 基于最大置信度的中文复合新词发现方法 | |
Zhou et al. | Multi‐channel sliced deep RCNN with residual network for text classification | |
CN103617609A (zh) | 基于图论的k-means非线性流形聚类与代表点选取方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
Wu et al. | Automatic object extraction from images using deep neural networks and the level‐set method | |
Sun et al. | Graph force learning | |
CN110597982A (zh) | 一种基于词共现网络的短文本主题聚类算法 | |
Jia et al. | Sample generation of semi‐automatic pavement crack labelling and robustness in detection of pavement diseases | |
CN110298228A (zh) | 一种多目标图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |