CN110059183B - 一种基于大数据的汽车行业用户观点情感分类方法 - Google Patents

一种基于大数据的汽车行业用户观点情感分类方法 Download PDF

Info

Publication number
CN110059183B
CN110059183B CN201910221691.0A CN201910221691A CN110059183B CN 110059183 B CN110059183 B CN 110059183B CN 201910221691 A CN201910221691 A CN 201910221691A CN 110059183 B CN110059183 B CN 110059183B
Authority
CN
China
Prior art keywords
data
word
matching
model
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910221691.0A
Other languages
English (en)
Other versions
CN110059183A (zh
Inventor
王进
李颖
许景益
孙开伟
刘彬
邓欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yihong Information Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910221691.0A priority Critical patent/CN110059183B/zh
Publication of CN110059183A publication Critical patent/CN110059183A/zh
Application granted granted Critical
Publication of CN110059183B publication Critical patent/CN110059183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于大数据的汽车行业用户观点情感分类方法,包括101对数据进行预处理操作;102对数据进行特征工程构建操作;103建立多个机器学习模型包括LightGBM、随机森林、Catboost模型,并进行模型融合操作;104通过已建立的模型,根据文本内容、主题、情感分析等数据了解消费者。本发明主要是通过对文本内容、主题、情感分析等数据进行预处理、Jieba分词和分析数据提取特征,建立多个机器学习模型,从而预测汽车行业用户的情感,使得汽车厂商获得快速、准确的方式来了解消费者需求,使得汽车厂商能够根据消费者对汽车的情感对汽车做最有效的改进。

Description

一种基于大数据的汽车行业用户观点情感分类方法
技术领域
本发明属于机器学习、自然语言处理、大数据处理技术领域,尤其基于多模型融合汽车行业用户观点情感分类算法。
背景技术
随着政府对新能源汽车的大力扶植以及智能联网汽车兴起都预示着未来几年汽车行业的多元化发展及转变。汽车厂商需要了解自身产品是否能够满足消费者的需求,但传统的调研手段因为样本量小、效率低等缺陷已经无法满足当前快速发展的市场环境。因此,汽车厂商需要一种快速、准确的方式来了解消费者需求。
当前对文本提取特征的主流技术为TF-IDF,其中TF-IDF的优点是简单快速,缺点是单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。本发明基于char-level或word-level以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建,其中特征哈希法的目标是把原始的高维特征向量压缩成较低维特征向量,且尽量不损失原始特征的表达能力。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种,使得汽车厂商获得快速、准确的方式来了解消费者需求的基于大数据的汽车行业用户观点情感分类方法。本发明的技术方案如下:
一种基于大数据的汽车行业用户观点情感分类方法,其包括以下步骤:
101、获取汽车论坛评论数据,并对汽车论坛评论数据进行包括文字匹配替换异常值、在内的预处理操作;
102、对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建;
103、根据特征工程构建的结果建立包括LightGBM、随机森林、Catboost模型在内的机器学习模型,并采用线性加权进行模型融合操作;
104、通过步骤103已建立的模型,根据文本内容、主题、情感分析在内的数据输入到模型中预测得出消费者意图,正确的了解消费者的需求。
进一步的,所述步骤101对数据进行预处理操作,具体包括:数据为用户在汽车论坛中对汽车相关内容的讨论或评价的数据的处理,进行如下处理:
文字匹配替换异常值:原始数据存在部分错别字,利用新华词典数据集构建文字词典,根据构建的词典,对原始数据做最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典,若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止;最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语,对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误,利用正则表达式对原始数据做关于文字词典的正则表达式,得到每个原始数据的匹配次数,对出现0次的原始数据继续做最大正向匹配,直到正则表达式字符串出现次数全部大于等于1时匹配结束。
进一步的,所述步骤102对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建,具体包括:
对预处理后的数据根据word和char两类用于抽取预处理后文件的特征序列,再将对特征序列中的词语转换为词频矩阵,首先过滤低频出现词语即出现次数小于10次的词语,对处理后的数据构建哈希表,其中每个哈希表都用一个哈希函数来实现键-值对的映射,构建哈希表时利用词袋模型,即利用去重后所有的字构造索引表,这样可以得到每个词语对应不同的词向量,对数据进行jieba分词后,根据索引表得到各个词语的向量。
进一步的,所述步骤103建立多个机器学习模型,并进行模型融合操作,利用构造的词向量分别训练LightGBM、随机森林、Catboost模型,具体包括:
构建LightGBM、随机森林、Catboost模型后采用5折交叉验证,首先为了保证结果分布均衡把数据随机分为5组,将4组数据作为训练集训练出一个模型,然后将剩下的一组数据作为测试集,利用这5个模型最终的平均正确率来衡量模型的正确率,分别为LightGBM、随机森林、Catboost模型进行训练集五折交叉验证的预测结果,线性模型融合拟合验证集真实标签,根据三个模型拟合效果分别给定权重值,LightGBM、随机森林、Catboost模型的权值分别为0.4、0.2、0.4,对训练好的模型带入测试集数据,并对三个模型分别得到的结果带入给定权重做线性融合得到最终预测结果,
Y=x1*w1+x2*w2+x3*w3
进一步的,所述步骤104通过已建立的模型,根据文本内容、主题、情感分析数据了解消费者。具体包括:根据102得到的特征数据作为样本输入到模型中进行预测,得到最终消费者情感概率值,选择当前用户所在的情感概率最大情感作为最终预测结果反馈给汽车厂商,从而使汽车厂商获得快速、准确的方式来了解消费者对产品情感是中立、正向或者负向。
本发明的优点及有益效果如下:
本发明基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建,本发明在对文本列数据处理后使用特征哈希将文本转换成实数向量,为避免特征哈希产生较小的散列影响准确性,再对特征哈希后的实数向量做卡方检验筛选,减少噪音特征。
附图说明
图1是本发明优选实施例提供的一种基于大数据的汽车行业用户观点情感分类方法的流程图;
图2为本发明实例一提供的一种基于大数据的汽车行业用户观点情感分类方法的LightGBM、随机森林、Catboost模型的流程图;
图3为本发明实例一提供的一种基于大数据的汽车行业用户观点情感分类方法的五折交叉验证图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
实施例一
参考图1,图1为本发明实施例一提供的一种基于大数据的汽车行业用户观点情感分类方法的流程图,具体包括:
101.收集用户在汽车论坛中对汽车相关内容的讨论或评价数据包括,数据ID、文本内容、主题、情感分析、情感词。
Figure BDA0002003823530000041
Figure BDA0002003823530000051
表1训练数据
数据预处理包括用户在用户在汽车论坛中对汽车相关内容的讨论或评价内容的数据的处理,根据数据表的描述以及物理理解进行如下处理:
①文字匹配替换异常值
原始数据存在部分错别字,利用新华词典数据集构建文字词典根据词典进行最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止;最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语,对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误,提高精度减少匹配错误;
102.对数据进行特征工程构建操作:
一种基于大数据的汽车行业用户观点情感分类方法,其特征在于,对数据进行特征工程构建操作,对训练集和测试集进行特征工程构建;
所述对特征工程进行构建是指基于char-level/word-level和卡方检验筛选做特征哈希以哈希表的方式实现特征构建;
权利要求3中所述基于char-level/word-level和卡方检验筛选做特征哈希以哈希表的方式实现特征构建是指:对预处理后的数据根据word和char两类用于抽取预处理后文件的特征序列,再将对特征序列中的词语转换为词频矩阵,本发明提出的特征哈希方案,首先为保证精确度,过滤低频出现词语即出现次数小于10次的词语。对处理后的数据构建哈希表,其中每个哈希表都用一个哈希函数来实现键-值对的映射,构建哈希表时利用词袋模型,即利用去重后所有的字构造索引表,构造索引表后利用jieba分词,这样可以得到每个词语对应不同的词向量。比如数据:“因为森林人即将换代”构造如下索引表:
0
1
2
3
4
5
6
7
8
对数据进行jieba分词得到这句话的这句话中的各个词语的向量,一共9个词汇量,可以创建一个9维的向量,如下所示:
词语 向量
因为 [1 1 0 0 0 0 0 0 0]
森林 [0 0 1 1 0 0 0 0 0]
[0 0 0 0 1 0 0 0 0]
即将 [0 0 0 0 0 1 1 0 0]
换代 [0 0 0 0 0 0 0 1 1]
103.建立多个机器学习模型,并进行模型融合操作:
一种基于大数据的汽车行业用户观点情感分类方法,其特征在于,所述建立多个机器学习模型,并进行模型融合操作:根据权利要求3所述,利用构造的词向量分别训练LightGBM、随机森林、Catboost模型。
构建LightGBM、随机森林、Catboost模型后采用5折交叉验证,首先为了保证结果分布均衡把数据随机分为5组,将4组数据作为训练集训练出一个模型,然后将剩下的一组数据作为测试集,利用这5个模型最终的平均正确率来衡量模型的正确率,分别为LightGBM、随机森林、Catboost对模型进行训练集五折交叉验证的预测结果。线性模型融合拟合验证集真实标签,根据三个模型拟合效果分别给定权重值,如下所示:
模型 ω
LightGBM 0.4
随机森林 0.2
Catboost 0.4
对训练好的模型带入测试集数据,并对三个模型分别得到的结果带入给定权重做线性融合得到最终预测结果。
Y=x1*w1+x2*w2+x3*w3
104.通过已建立的模型,根据文本内容、主题、情感分析等数据了解消费者:
通过快速、准确地方式对汽车行业用户的观点进行情感分类,从而预测汽车行业用户的情感,使得汽车厂商获得快速、准确的方式来了解消费者需求,使得汽车厂商能够根据消费者对汽车的情感对汽车做最有效的改进。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (4)

1.一种基于大数据的汽车行业用户观点情感分类方法,其特征在于,包括以下步骤:
101、获取汽车论坛评论数据,并对汽车论坛评论数据进行包括文字匹配替换异常值、在内的预处理操作;
102、对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建;
103、根据特征工程构建的结果建立包括LightGBM、随机森林、Catboost模型在内的机器学习模型,并采用线性加权进行模型融合操作;
104、通过步骤103已建立的模型,根据文本内容、主题、情感分析在内的数据输入到模型中预测得出消费者意图,正确的了解消费者的需求;
所述步骤101对数据进行预处理操作,具体包括:数据为用户在汽车论坛中对汽车相关内容的讨论或评价的数据的处理,进行如下处理:
文字匹配替换异常值:原始数据存在部分错别字,利用新华词典数据集构建文字词典,根据构建的词典,对原始数据做最大正向匹配法匹配与正则表达式结合匹配——假定词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典,若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来;如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理,如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止;最大正向匹配法存在匹配到不相匹配的词语与没有匹配到想要的词语,对最大正向匹配法文字匹配错误的数据进行正则表达式处理匹配错误,利用正则表达式对原始数据做关于文字词典的正则表达式,得到每个原始数据的匹配次数,对出现0次的原始数据继续做最大正向匹配,直到正则表达式字符串出现次数全部大于等于1时匹配结束。
2.根据权利要求1所述的基于大数据的汽车行业用户观点情感分类方法,其特征在于,所述步骤102对预处理后的汽车论坛评论数据进行特征工程构建操作,即基于char-level或word-level,以及卡方检验筛选做特征哈希以哈希表的方式实现特征构建,具体包括:
对预处理后的数据根据word和char两类用于抽取预处理后文件的特征序列,再将对特征序列中的词语转换为词频矩阵,首先过滤低频出现词语即出现次数小于10次的词语,对处理后的数据构建哈希表,其中每个哈希表都用一个哈希函数来实现键-值对的映射,构建哈希表时利用词袋模型,即利用去重后所有的字构造索引表,这样可以得到每个词语对应不同的词向量,对数据进行jieba分词后,根据索引表得到各个词语的向量。
3.根据权利要求2所述的基于大数据的汽车行业用户观点情感分类方法,其特征在于,所述步骤103建立多个机器学习模型,并进行模型融合操作,利用构造的词向量分别训练LightGBM、随机森林、Catboost模型,具体包括:
构建LightGBM、随机森林、Catboost模型后采用5折交叉验证,首先为了保证结果分布均衡把数据随机分为5组,将4组数据作为训练集训练出一个模型,然后将剩下的一组数据作为测试集,利用这5个模型最终的平均正确率来衡量模型的正确率,分别为LightGBM、随机森林、Catboost模型进行训练集五折交叉验证的预测结果,线性模型融合拟合验证集真实标签,根据三个模型拟合效果分别给定权重值,LightGBM、随机森林、Catboost模型的权值分别为0.4、0.2、0.4,对训练好的模型带入测试集数据,并对三个模型分别得到的结果带入给定权重做线性融合得到最终预测结果,
Y=x1*w1+x2*w2+x3*w3
4.根据权利要求3所述的基于大数据的汽车行业用户观点情感分类方法,其特征在于,所述步骤104通过已建立的模型,根据文本内容、主题、情感分析数据了解消费者,具体包括:根据102得到的特征数据作为样本输入到模型中进行预测,得到最终消费者情感概率值,选择当前用户所在的情感概率最大情感作为最终预测结果反馈给汽车厂商,从而使汽车厂商获得快速、准确的方式来了解消费者对产品情感是中立、正向或者负向。
CN201910221691.0A 2019-03-22 2019-03-22 一种基于大数据的汽车行业用户观点情感分类方法 Active CN110059183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910221691.0A CN110059183B (zh) 2019-03-22 2019-03-22 一种基于大数据的汽车行业用户观点情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910221691.0A CN110059183B (zh) 2019-03-22 2019-03-22 一种基于大数据的汽车行业用户观点情感分类方法

Publications (2)

Publication Number Publication Date
CN110059183A CN110059183A (zh) 2019-07-26
CN110059183B true CN110059183B (zh) 2022-08-23

Family

ID=67316266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910221691.0A Active CN110059183B (zh) 2019-03-22 2019-03-22 一种基于大数据的汽车行业用户观点情感分类方法

Country Status (1)

Country Link
CN (1) CN110059183B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837561A (zh) * 2019-11-18 2020-02-25 苏州朗动网络科技有限公司 文本的分析方法、设备和存储介质
CN111476281B (zh) * 2020-03-27 2020-12-22 北京微播易科技股份有限公司 一种信息流行度预测方法和装置
CN113254596B (zh) * 2021-06-22 2021-10-08 湖南大学 基于规则匹配和深度学习的用户质检需求分类方法及系统
CN113393276B (zh) * 2021-06-25 2023-06-16 食亨(上海)科技服务有限公司 评论数据的分类方法、装置和计算机可读介质
CN114154561B (zh) * 2021-11-15 2024-02-27 国家电网有限公司 一种基于自然语言处理和随机森林的电力数据治理方法
CN114089033B (zh) * 2022-01-24 2022-04-26 天津安力信通讯科技有限公司 一种基于频谱分析的异常信号检测方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN106776982A (zh) * 2016-12-02 2017-05-31 深圳市唯特视科技有限公司 一种采用机器学习的社交媒体情感分析方法
CN107247703A (zh) * 2017-06-08 2017-10-13 天津大学 基于卷积神经网络和集成学习的微博情感分析方法
CN107894979A (zh) * 2017-11-21 2018-04-10 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备
CN107895283A (zh) * 2017-11-07 2018-04-10 重庆邮电大学 一种基于时间序列分解的商家客流量大数据预测方法
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN108304884A (zh) * 2018-02-23 2018-07-20 华东理工大学 一种基于特征逆映射的代价敏感堆叠集成学习框架
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN109255651A (zh) * 2018-08-22 2019-01-22 重庆邮电大学 一种基于大数据的搜索广告转化智能预测方法
CN109460474A (zh) * 2018-11-22 2019-03-12 合肥工业大学 用户偏好趋势挖掘方法
CN109491914A (zh) * 2018-11-09 2019-03-19 大连海事大学 基于不平衡学习策略高影响缺陷报告预测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365997A (zh) * 2013-07-12 2013-10-23 华东师范大学 一种基于集成学习的观点挖掘方法
CN105243129A (zh) * 2015-09-30 2016-01-13 清华大学深圳研究生院 商品属性特征词聚类方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN106776982A (zh) * 2016-12-02 2017-05-31 深圳市唯特视科技有限公司 一种采用机器学习的社交媒体情感分析方法
CN107247703A (zh) * 2017-06-08 2017-10-13 天津大学 基于卷积神经网络和集成学习的微博情感分析方法
CN107895283A (zh) * 2017-11-07 2018-04-10 重庆邮电大学 一种基于时间序列分解的商家客流量大数据预测方法
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN107894979A (zh) * 2017-11-21 2018-04-10 北京百度网讯科技有限公司 用于语义挖掘的复合词处理方法、装置及其设备
CN108304884A (zh) * 2018-02-23 2018-07-20 华东理工大学 一种基于特征逆映射的代价敏感堆叠集成学习框架
CN108984523A (zh) * 2018-06-29 2018-12-11 重庆邮电大学 一种基于深度学习模型的商品评论情感分析方法
CN109255651A (zh) * 2018-08-22 2019-01-22 重庆邮电大学 一种基于大数据的搜索广告转化智能预测方法
CN109491914A (zh) * 2018-11-09 2019-03-19 大连海事大学 基于不平衡学习策略高影响缺陷报告预测方法
CN109460474A (zh) * 2018-11-22 2019-03-12 合肥工业大学 用户偏好趋势挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Sun K W 等.Multilabel classification via co-evolutionary multilabel hypernetwork.《IEEE transactions on knowledge and data engineering》.2016,第28卷(第09期),2438-2451. *
刘楠.面向微博短文本的情感分析研究.《中国博士学位论文全文数据库(信息科技辑)》.2014,(第05期),I138-94. *
房满林 董超俊.改进互联网电商评论特征词典的舆情观点分类.《科技创新与应用》.2017,(第13期),18-20. *

Also Published As

Publication number Publication date
CN110059183A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110059183B (zh) 一种基于大数据的汽车行业用户观点情感分类方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
Chowdhury et al. Analyzing sentiment of movie reviews in bangla by applying machine learning techniques
CN107229610A (zh) 一种情感数据的分析方法及装置
CN108763214B (zh) 一种针对商品评论的情感词典自动构建方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN112597283B (zh) 通知文本信息实体属性抽取方法、计算机设备及存储介质
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN104361037B (zh) 微博分类方法及装置
CN109960727A (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN110046943B (zh) 一种网络消费者细分的优化方法及优化系统
CN110134793A (zh) 文本情感分类方法
CN110222192A (zh) 语料库建立方法及装置
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114817541A (zh) 基于双重情感感知的谣言检测方法及装置
Ningsih et al. Global recession sentiment analysis utilizing VADER and ensemble learning method with word embedding
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN116911286A (zh) 词典构建方法、情感分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230525

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231219

Address after: Room JT114, 4th Floor, Building 36, No. 70 Bole Road, Jiading Town, Jiading District, Shanghai, 201800

Patentee after: Shanghai Yihong Information Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

TR01 Transfer of patent right