CN111651597A - 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 - Google Patents
一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 Download PDFInfo
- Publication number
- CN111651597A CN111651597A CN202010463517.XA CN202010463517A CN111651597A CN 111651597 A CN111651597 A CN 111651597A CN 202010463517 A CN202010463517 A CN 202010463517A CN 111651597 A CN111651597 A CN 111651597A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- neural network
- convolutional neural
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 6
- 238000007500 overflow downdraw method Methods 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 claims description 3
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,包括如下步骤:接入训练数据,所述训练数据为已有分类信息的多源异构商品信息;对所述训练数据进行清洗,针对每个商品生成一份文本数据;对所述文本数据进行预处理;分别构建PV‑DBOW模型和PV‑DM模型;分别输入预处理后的文本数据至所述的两个模型,各自训练得到文本特征矩阵;融合上述训练所得的两个文本特征矩阵,得到融合文本特征矩阵;构建并训练卷积神经网络,所述卷积神经网络用于商品信息分类;上传待分类的商品数据,进行所述预处理,并根据所述文本特征矩阵抽取出其对应的词向量,输入至已训练的卷积神经网络,得到预测的商品分类,并根据所述商品预测分类对商品进行分类。
Description
技术领域
本发明涉及一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,属于文本分类领域。
背景技术
目前电子商务信息处理中的商品分类方式,一方面是传统的人工查找方法,在筛选商品关键词后,需要人工进行商品所属类别的划分,种类繁多且容易混淆,人工选择工作量较大且容易出错;另一方面目前的自动分类系统,多采用非智能的方案,主要是根据大量的商品关键词建立关键词与商品分类的一一对应关系,并存储在数据库中。首先仍然需要人工筛选商品关键词提供给商品分类系统,系统在数据库中根据关键词进行查找,输出相应的一级类目、二级类目等,若没有匹配的结果将没有输出。该方案存在的主要缺点是需要事先人工筛选商品关键词,而目前实际的商品标题花样繁多,为了提高商品的检索量添加了大量的修饰词语,在人工筛选关键词这一步仍然存在不少工作量,不能做到完全的自动化处理。
同时,自然语言处理中,文本的向量表示方式大部分无法同时考虑到词间语义关系、词间的顺序以及维数灾难问题,从而导致误判率较高。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,本发明的技术方案如下:
技术方案一:
一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,包括如下步骤:
接入训练数据,所述训练数据为已有分类信息的多源异构商品信息;
对所述训练数据进行清洗,针对每个商品生成一份文本数据,所述文本数据包含多个特征字段;
对所述文本数据进行预处理,将所述特征字段划分为多个独立的词并去除停用词;
分别构建Doc2Vec中基于Hierarchical Softmax的PV-DBOW模型和Doc2Vec中基于负采样算法的PV-DM模型;分别输入预处理后的文本数据至所述的两个模型,各自训练得到文本特征矩阵;
融合上述训练所得的两个文本特征矩阵,得到融合文本特征矩阵;
构建并训练卷积神经网络,所述卷积神经网络用于商品信息分类;
上传待分类的商品数据,进行所述预处理,并根据所述文本特征矩阵抽取出其对应的词向量,输入至已训练的卷积神经网络,得到预测的商品分类,并根据所述商品预测分类对商品进行分类。
进一步地,所述清洗步骤如下:
遍历训练数据中的数据项,若数据项包含层级嵌套结构,则将数据项展平,使数据结构深度为1;
移除与商品实体无关或无法直接表征其特征的数据项;
在移除与商品实体无关或无法直接表征其特征的数据项之后,筛除空字段和错误字段;筛除空字段和错误字段之后剩余的字段即为特征字段,将各所特征字段拼接成长文本,得到所述文本数据;文本数据中的每个特征字段都视作独立。
进一步地,所述预处理的步骤如下:
通过文本分词法对所述文本数据中的每个特征字段进行分词,将特征字段中连续的字序列重新组合成词序列;
构造停用词库,根据停用词库去除所述词序列中的停用词。
进一步地,构建并训练基于Hierarchical Softmax的PV-DBOW模型的步骤如下:
构建第一样本集,所述第一样本集包括多个所述预处理过的文本数据;
搭建PV-DBOW模型的网络结构,含当前词词向量的输入层、恒等投影层和Hierarchical Softmax输出层;构建目标函数,目标为所有当前词正确预测其上下文词汇及所在字段标识的总体概率最大;
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新;迭代结束后,对所有更新后的词向量进行拼接,得到第一文本特征矩阵。
进一步地,构建并训练基于负采样算法的PV-DM模型的步骤如下:
搭建模型的网络结构,包括含有当前词上下文词汇及字段标识向量的输入层、求和累加投影层和基于负采样的输出层;构建目标函数,目标为所有上下文词汇及其字段标识正确预测当前词的总体概率最大;
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新;迭代结束后,对所有更新后的词向量进行拼接,得到第二文本特征矩阵。
进一步地,使用线性加权融合法进行文本特征矩阵的融合,得到融合文本特征矩阵,步骤如下:
将所述两个模型得到第一文本特征矩阵和第二文本特征矩阵赋予各自的权值,使得权值之和为1;按对应的词进行线性加权求和运算,得到融合文本特征矩阵。
进一步地,所述第一文本特征矩阵和第二文本特征矩阵各自的权值可以使用线性回归模型得到。
进一步地,构建并训练卷积神经网络的步骤如下:
根据所述融合特征文本矩阵,将第一训练样本集转换为词向量构成的第二训练训练样本集;
构建卷积神经网络,所述卷积神经网络由文本向量层、卷积层、池化层、全连接层组成,所述全连接层采用Softmax函数作为激活函数;
利用第二训练样本集对卷积神经网络进行迭代训练,计算出预测值与标签之间的误差,再按极小化误差的方法反向传播调整权重矩阵。
本发明具有如下有益效果:
1、本发明能自动根据未分类的商品信息预测出商品分类,特别是对于大数据环境下复杂的多源异构商品分类任务仍能适用。无需人工进行商品信息分类或进行商品关键字筛选,减少了人力资源的浪费,避免了人为因素导致的误分类,大幅度地提高了商品分类的效率。
2、本发明通过使用线性加权融合法将PV-DBOW模型和PV-DM模型的融合,结合了两种模型的长处,考虑到词间语义关系、词间的顺序以及维数灾难问题,能更好地表现文本特征,提升了使用效果。
3、本发明使用线性回归模型求解线性加权融合法中的权值,与使用固定的权值相比,更加灵活,也能提升融合表示模型的效果。
附图说明
图1为一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法流程图;
图2为商品信息中的部分数据项;
图3为将图2中的数据项展开后的状态。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,包括如下步骤:
接入训练数据,所述训练数据为已有分类信息的多源异构商品信息;
对所述训练数据进行清洗,针对每个商品生成一份文本数据,所述文本数据包含多个特征字段;例如,可参见图3,某品牌的电脑生成的文本数据中的第一个字段为"titile","titile"的值为"惠普(hp)590-P013ccn台式机电脑主机(Cel G4900 4GB+1TB)";第二个字段为"price","price"的值为"2199.00"等;
对所述文本数据进行预处理,将所述特征字段划分为多个独立的词并去除停用词;例如,"惠普(hp)590-P013ccn台式机电脑主机(Cel G4900 4GB+1TB)"可以被划分为"惠普/(/hp/)/590-P013ccn/台式机/电脑/主机/(/Cel G4900 4GB+1TB/)";
分别构建Doc2Vec中基于Hierarchical Softmax的PV-DBOW模型和Doc2Vec中基于负采样算法的PV-DM模型;分别输入预处理后的文本数据至所述的两个模型,各自训练得到文本特征矩阵;
融合上述训练所得的两个文本特征矩阵,得到融合文本特征矩阵;
构建并训练卷积神经网络,所述卷积神经网络用于商品信息分类;
上传待分类的商品数据,进行所述预处理,并根据所述文本特征矩阵抽取出其对应的词向量,输入至已训练的卷积神经网络,得到预测的商品分类,并根据所述商品预测分类对商品进行分类。
进一步地,清洗步骤如下:
遍历训练数据中的数据项,若数据项包含层级嵌套结构,则将数据项展平,使数据结构深度为1;在本实施例中,可参见图2,数据项"params"包含层级嵌套结构;展平后的结果参见图3。
移除与商品实体无关或无法直接表征其特征的数据项;例如:与商品实体无关的数据项包括:爬虫时爬取到的标识信息、商品页面url地址等;无法直接表征其特征的数据项包括:如商品图片地址等。
在移除与商品实体无关或无法直接表征其特征的数据项之后,筛除空字段和错误字段;筛除空字段和错误字段之后剩余的字段即为特征字段,将各所特征字段拼接成长文本,得到所述文本数据;文本数据中的每个特征字段都视作独立。例如,字段拼接前由换行符分开,拼接后的字段之间可以规定一个分割符号比如\n来标识字段。
进一步地,预处理的步骤如下:
通过文本分词法对所述文本数据中的每个特征字段进行分词,将特征字段中连续的字序列重新组合成词序列;
构造停用词库,根据停用词库去除所述词序列中的停用词。例如,“的”、“再”、“连”等无实意的词。
实施例二
进一步地,构建并训练基于Hierarchical Softmax的PV-DBOW模型的步骤如下:
构建第一样本集,所述第一样本集包括多个所述预处理过的文本数据;
搭建PV-DBOW模型的网络结构,含当前词词向量的输入层、恒等投影层和Hierarchical Softmax输出层;所述输出层本质上是一棵Huffman树。以文本数据中出现过的词当叶子结点,以各词在文本数据中出现的次数当权值构造出来的Huffman树,保证了高频词接近根节点,这样高频词相对低频词计算少。
考虑Huffman树中的某个叶子结点,假设它对应的词为w,记
pw:从根结点出发到达w对应叶子结点的路径
lw:路径pw中包含结点的个数
构造目标函数,转化为最大化优化问题,目标为所有当前词正确预测其上下文词汇及所在字段标识的总体概率最大:
已知当前词w,记其上下文及字段标识为Context(w),因此对于全集C,目标函数形如
其中
其中
其中
其中
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新,步骤如下:
设定学习速率η,即上升速度。
v(w)的迭代更新公式为
迭代结束后,v(w)即是对应词w的词向量。所有v(w)构成的矩阵即为文本特征矩阵。
进一步地,构建并训练基于负采样算法的PV-DM模型的步骤如下:
搭建PV-DM模型的网络结构,包括:包括含有当前词上下文词汇及字段标识向量的输入层、求和累加投影层和基于负采样的输出层。假设目标词为w,目标词的上下文及字段标识记为Context(w),上下文由目标词前后c个词构成。
输入层包含Context(w)中2c个词的词向量v(Context(w)1),v(Context(w)2),…,v(Context(w)2c)及字段标识v(Context(w)2c+1);投影层将输入层的2c个向量做求和累加,即 输出层为基于负采样的sigmoid层。
构造目标函数,转化为最大化优化问题,目标为所有上下文词汇及其字段标识正确预测当前词的总体概率最大:
记关于w的负样本集为NEG(w)。
目标函数为
其中
其中
其中
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新,步骤如下:
设定学习速率η,即上升速度。
实施例三
进一步地,使用线性加权融合法进行文本特征矩阵的融合,得到融合文本特征矩阵,步骤如下:
将所述两个模型得到第一文本特征矩阵和第二文本特征矩阵赋予各自的权值,使得权值之和为1;按对应的词进行线性加权求和运算,得到融合文本特征矩阵。
进一步地,所述第一文本特征矩阵和第二文本特征矩阵各自的权值可以使用线性回归模型得到。在本实施例中,训练所述卷积神经网络的过程中,加入上述两个权值一并学习。
本实施例的进步之处在于使用线性加权融合法结合了两种模型的长处,考虑到词间语义关系、词间的顺序以及维数灾难问题,能更好地表现文本特征,大幅度提升了使用效果;同时使用线性回归模型求解权值,与使用固定的权值相比,更加灵活,也能大幅度的提升融合表示模型的效果。
Claims (8)
1.一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,包括如下步骤:
接入训练数据,所述训练数据为已有分类信息的多源异构商品信息;
对所述训练数据进行清洗,针对每个商品生成一份文本数据,所述文本数据包含多个特征字段;
对所述文本数据进行预处理,将所述特征字段划分为多个独立的词并去除停用词;
分别构建Doc2Vec中基于Hierarchical Softmax的PV-DBOW模型和Doc2Vec中基于负采样算法的PV-DM模型;分别输入预处理后的文本数据至所述的两个模型,各自训练得到文本特征矩阵;
融合上述训练所得的两个文本特征矩阵,得到融合文本特征矩阵;
构建并训练卷积神经网络,所述卷积神经网络用于商品信息分类;
上传待分类的商品数据,进行所述预处理,并根据所述文本特征矩阵抽取出其对应的词向量,输入至已训练的卷积神经网络,得到预测的商品分类,并根据所述商品预测分类对商品进行分类。
2.根据权利要求1所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,所述清洗步骤如下:
遍历训练数据中的数据项,若数据项包含层级嵌套结构,则将数据项展平,使数据结构深度为1;
移除与商品实体无关或无法直接表征其特征的数据项;
在移除与商品实体无关或无法直接表征其特征的数据项之后,筛除空字段和错误字段;筛除空字段和错误字段之后剩余的字段即为特征字段,将各所特征字段拼接成长文本,得到所述文本数据;文本数据中的每个特征字段都视作独立。
3.根据权利要求2所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,所述预处理的步骤如下:
通过文本分词法对所述文本数据中的每个特征字段进行分词,将特征字段中连续的字序列重新组合成词序列;
构造停用词库,根据停用词库去除所述词序列中的停用词。
4.根据权利要求3所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,构建并训练基于Hierarchical Softmax的PV-DBOW模型的步骤如下:
构建第一样本集,所述第一样本集包括多个所述预处理过的文本数据;
搭建PV-DBOW模型的网络结构,含当前词词向量的输入层、恒等投影层和HierarchicalSoftmax输出层;构建目标函数,目标为所有当前词正确预测其上下文词汇及所在字段标识的总体概率最大;
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新;迭代结束后,对所有更新后的词向量进行拼接,得到第一文本特征矩阵。
5.根据权利要求4所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,构建并训练基于负采样算法的PV-DM模型的步骤如下:
搭建模型的网络结构,包括含有当前词上下文词汇及字段标识向量的输入层、求和累加投影层和基于负采样的输出层;构建目标函数,目标为所有上下文词汇及其字段标识正确预测当前词的总体概率最大;
输入第一样本集;通过随机赋值法确定参数的初始值;使用随机梯度上升法进行迭代训练,对目标函数进行最大化优化,对词向量和参数进行迭代更新;迭代结束后,对所有更新后的词向量进行拼接,得到第二文本特征矩阵。
6.根据权利要求5所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,使用线性加权融合法进行文本特征矩阵的融合,得到融合文本特征矩阵,步骤如下:
将所述两个模型得到第一文本特征矩阵和第二文本特征矩阵赋予各自的权值,使得权值之和为1;按对应的词进行线性加权求和运算,得到融合文本特征矩阵。
7.根据权利要求6所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,所述第一文本特征矩阵和第二文本特征矩阵各自的权值可以使用线性回归模型得到。
8.根据权利要求7所述的一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法,其特征在于,构建并训练卷积神经网络的步骤如下:
根据所述融合特征文本矩阵,将第一训练样本集转换为词向量构成的第二训练训练样本集;
构建卷积神经网络,所述卷积神经网络由文本向量层、卷积层、池化层、全连接层组成,所述全连接层采用Softmax函数作为激活函数;
利用第二训练样本集对卷积神经网络进行迭代训练,计算出预测值与标签之间的误差,再按极小化误差的方法反向传播调整权重矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010463517.XA CN111651597A (zh) | 2020-05-27 | 2020-05-27 | 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010463517.XA CN111651597A (zh) | 2020-05-27 | 2020-05-27 | 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111651597A true CN111651597A (zh) | 2020-09-11 |
Family
ID=72346884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010463517.XA Pending CN111651597A (zh) | 2020-05-27 | 2020-05-27 | 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651597A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732903A (zh) * | 2020-09-19 | 2021-04-30 | 中国人民解放军战略支援部队信息工程大学 | 即时通信信息取证过程中证据分类方法及系统 |
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN114757304A (zh) * | 2022-06-10 | 2022-07-15 | 北京芯盾时代科技有限公司 | 一种数据识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
WO2017057921A1 (ko) * | 2015-10-02 | 2017-04-06 | 네이버 주식회사 | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 |
CN109213866A (zh) * | 2018-09-19 | 2019-01-15 | 浙江诺诺网络科技有限公司 | 一种基于深度学习的税务商品编码分类方法和系统 |
CN110674305A (zh) * | 2019-10-10 | 2020-01-10 | 天津师范大学 | 一种基于深层特征融合模型的商品信息分类方法 |
-
2020
- 2020-05-27 CN CN202010463517.XA patent/CN111651597A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017057921A1 (ko) * | 2015-10-02 | 2017-04-06 | 네이버 주식회사 | 딥러닝을 이용하여 텍스트 단어 및 기호 시퀀스를 값으로 하는 복수 개의 인자들로 표현된 데이터를 자동으로 분류하는 방법 및 시스템 |
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN109213866A (zh) * | 2018-09-19 | 2019-01-15 | 浙江诺诺网络科技有限公司 | 一种基于深度学习的税务商品编码分类方法和系统 |
CN110674305A (zh) * | 2019-10-10 | 2020-01-10 | 天津师范大学 | 一种基于深层特征融合模型的商品信息分类方法 |
Non-Patent Citations (1)
Title |
---|
郑树泉等, 上海科学技术出版社 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732903A (zh) * | 2020-09-19 | 2021-04-30 | 中国人民解放军战略支援部队信息工程大学 | 即时通信信息取证过程中证据分类方法及系统 |
CN112801720A (zh) * | 2021-04-12 | 2021-05-14 | 连连(杭州)信息技术有限公司 | 一种店铺类目识别模型生成、店铺类目识别的方法及装置 |
CN114757304A (zh) * | 2022-06-10 | 2022-07-15 | 北京芯盾时代科技有限公司 | 一种数据识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020438B (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN111651597A (zh) | 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN115952291B (zh) | 基于多头自注意力及lstm的金融舆情分类方法及系统 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112528031A (zh) | 一种工单智能派发方法和系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN116304066A (zh) | 一种基于提示学习的异质信息网络节点分类方法 | |
CN111274494B (zh) | 结合深度学习和协同过滤技术的复合标签推荐方法 | |
CN115470354A (zh) | 基于多标签分类识别嵌套和重叠风险点的方法及系统 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
CN114547307A (zh) | 文本向量模型训练方法、文本匹配方法、装置及设备 | |
CN116662565A (zh) | 基于对比学习预训练的异质信息网络关键词生成方法 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116662566A (zh) | 一种基于对比学习机制的异质信息网络链路预测方法 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
CN116302953A (zh) | 一种基于增强嵌入向量语义表示的软件缺陷定位方法 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 | |
CN115860002A (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
CN115599910A (zh) | 一种企业三级行业多标签分类方法 | |
Desai et al. | Analysis of Health Care Data Using Natural Language Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200911 |