CN109492226A - 一种提高情感倾向占比低文本预断准确率的方法 - Google Patents
一种提高情感倾向占比低文本预断准确率的方法 Download PDFInfo
- Publication number
- CN109492226A CN109492226A CN201811335523.6A CN201811335523A CN109492226A CN 109492226 A CN109492226 A CN 109492226A CN 201811335523 A CN201811335523 A CN 201811335523A CN 109492226 A CN109492226 A CN 109492226A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- sample
- accounting
- anticipation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种提高情感倾向占比低文本预断准确率的方法,1)设计一个召回率都差不多的情感模型;假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;本发明提供的一种提高情感倾向占比低文本预断准确率的方法,快速适应实际环境中正、中、负各类情感样本占比失衡的情形;使得训练模型不用特别追求正、中、负三类文本都有较高的召回率;不需要太多的训练样本,就可以确保正、中、负文本情感预断都有较高的准确率。
Description
技术领域
本发明涉及文本情感判断机器学习技术领域,尤其涉及一种提高情感倾向占比低文本预断准确率的方法。
背景技术
对客户的情感分析与准确判断是商家孜孜追求的目标,随着互联网文本数据的海量增长,通过人工来分析数据,已不大可能,因此纷纷引入机器学习方法,来对这些或长、或短文本,通过机器来这些文本所表达的信息,进行情感分析,进而期望对用户的情感做出精确的判断与把握。
当下,产生了众多该类技术:有基于语义的,也有基于统计的;有的是监督式的,也有非监督式,还有半监督式;有基于传统SVM或随机森林算法,也有基于深度学习的;有专于短文本,也有专于长文本的。但从目前公开的情况来看,此类技术的表现并不是那么尽如人意。比如百度的公开短文本情感分析引擎,我们测下来,其准确度也仅在75%左右。特别是该准确度是对样本总体而言,如果某类情感倾向的样本在数据集中占比低的话,该准确率将更低。
而现实互联网世界里,这种占比极度的不衡:将文本的情感倾向定为:中性、正面与负面,据统计,三者的占比大抵为:67%,20%,13%。现有的机器学习算法都做不到文本情感判断的较高的召回率,加上中性文本的基数,将中性样本预判成其它的样本的数量甚至超过负面,或正面本身的样本数量,从而导致预判样本中的负面、或正面的占比不超过50%,因此上述的机器算法在互联网文本情感预判的实战中,效果很差。然而,负面与正面的信息识别,对用户而言,又常比中性文本要重要的多。同时,还存在着正面判成负面,或负面判成正面的情形,这不管是对用户的决策辅助,还是提供给用户的体验,都是极其糟糕的。
分析下来,当前制约占比低情感倾向文本预判准确度低的主要原因有:
1、现有的机器学习算法本身无法识别出文本分类的占比;
2、现有情感分析模型里没有应对文本分类占比不一的情形;
3、现有的机器学习算法,难以实现正、中、负几类文本情感预判的召回率都较高(比如90%);
4、现实互联网环境中的文本情感倾向占比严重失衡。
总之,来之互联网的文本情感倾向为中性的占绝大多数,在当前情感分析算法的准确率与召回率指标下,还难以做到对负面、或正面情感倾向文本的预判,做到大体是正确的。
申请人认为通过机器学习算法,来代替人工对文本进行情感分析,可以极大地提高效率,也是应对互联网蓬勃发展的正确途径,但要能够真正支持实战,还需要面对互联网文本情感倾向占比不一致的现实情况,积极应对,找到提高负面与正面样本预判准确度的方法,确保向用户提供的预判信息大致是正确的。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种提高情感倾向占比低文本预断准确率的方法,其中,具体技术方案为:
1)设计一个召回率都差不多的情感模型;
假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;
2)设计以下的方案,保证占比高的样本预判的准确度仍在合理的范围之内;
但在实施下面的设计时,还是先要有一个召回率大体相近的情感模型,以保障:
(1)各类样本以相同的比率召回或不被召回;
(2)确保我们的方案,在情感倾向样本占比发生变化时,仍然适用;
下面是该模型的训练过程:
(1)随机从相应工作环境中抽取样本集;
(2)组织人手对上面所抽取的样本集进行情感倾向标注;
(3)随机从样本集中各占1/3的比率,抽取正、中、负的训练集;
(4)选择合适的机器算法进行训练,确保各类情感倾向文本的召回率较高,且尽量差不多;
(5)训练得到模型,并从人工标注样本集中,抽取占比为1/3的样本组织测试集,进行测试并选定模型;
3)设计召回率有偏颇的情感模型;
该模型的训练过程:
(1)随机从相应工作环境中抽取样本集;
(2)组织人手对上面所抽取的样本集进行情感倾向标注,并根据标注结果统计正、中、负各类文本的占比;
(3)占比高那类文本按占比比例抽取样本,作为训练集的一部分;
(4)想要提高准确度那类文本,抽取与上面占比高那类文本同样数量的样本,同样作为训练集的一部分;
(5)而剩下那类文本,则根据其占比抽取相应数量的样本,作为训练集剩下的部分;
(6)选择合适的机器算法进行训练,确保占比高类与想要提高准确度类情感倾向文本的召回率较高;
(7)训练得到模型,并按上面训练样本集抽取的方式抽取测试样本集,进行测试并选定模型;
4)设计一个基础模型+压制模型的串联式组合模型
这里,将上面的基础模型与压制模型,以串联的方式组合起来使用,组成一个组合模型,通过该模型来完成对实际环境中的文本进行情感预判;
对负面的文本实施了压制模型的情感预判,以进一步提高该类文本预判的准确度。下面就以互联网环境中中性文本占比多,正面文本次之,负面文本最低的情况,以提高负面文本情感预判准确度为目标,来描述该组合模型的使用:
(1)文本通过基础模型,将被预判为正、中、负文本;
(2)收集负面文本,调用压制模型,将文本预判为正、中、负文本;
(3)将压制模型预判为中、正的文本,分别归为中性文本与正面文本。
所述的提高情感倾向占比低文本预断准确率的方法,其中:
3)设计召回率有偏颇的情感模型;此模型会对没有考虑的那类文本,有任何帮助。同时,在后面的方案中,该模型主要作用:就是将占比高类文本中,误判到想要提高准确度类的样本,进行压制,或从该类预判结果中清理出去。因此,我们称之为压制模型。我们测试下来,该模型对于占比高和想要提高准确度那类文本预判的召回率可轻松超过80%(当然,剩下那类的召回率则很低了)。
所述的提高情感倾向占比低文本预断准确率的方法,其中:修正基础模型的召回率为70%,而压制模型对中性文本和负面文本的召回率为80%,对正面文本的召回率为10%;
目前,正面样本的准确度还不高。同样的原理,可以训练得到另一个对中性与正面文本情感预判召回率高的压制模型,并利用该模型对正面文本预判的准确度,进行抬升。但为了对前面负面文本预判结果的影响,步骤有所不同:
1)收集调用负面压制模型后,汇总所得预判为正面的文本;
2)调用正面压制模型,对上面收集的正面文本集,进行正、中、负预判;
3)将所有非负的预判文本归入中性文本集,预判为正面的文本归入正面文集。
本发明相对于现有技术具有如下有益效果:快速适应实际环境中正、中、负各类情感样本占比失衡的情形;使得训练模型不用特别追求正、中、负三类文本都有较高的召回率;不需要太多的训练样本,就可以确保正、中、负文本情感预断都有较高的准确率。
附图说明
图1为对负面的文本实施了压制模型的情感预判,以进一步提高该类文本预判的准确度的示意图。
具体实施方式
面对互联上的海量信息,为了保证文本情感倾向预判准确性,不可能回到过去完全依靠人工的方式,而是仍然沿袭机器学习的思路,充分利用现有机器算法,对正、中、负样本情感倾向判断召回率有所偏颇的特点,本方案创新性地发明了串联式多模型的压制方法,积极应对上述的问题,确保了占比低情感倾向文本的预判的准确率与占比高的情感倾向文本一样,一样具有大概率的准确度。
1、设计一个召回率都差不多的情感模型(基础模型)
假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率。
先假设召回率为80%(目前尚没有哪一个模型到达了这个比率);
不妨高样本集有10000条,则其中:中性有6700条、正面有2000条、负面有1300条;并假设未被召回的样本被平均误判到其它两类样本中,可以得到下表:
表1:
样本集(10000) | 预判中 | 预判正 | 预判负 | 准确率 |
中性(6700) | 5360 | 670 | 670 | 94% |
正面(2000) | 200 | 1600 | 200 | 67% |
负面(1300) | 130 | 130 | 1040 | 44% |
从上表可以看到,当用户对准确度要求并不太高(60%)时,那怕情感模型的召回率高达80%以上,尽管对于占比高的样本准确度很高了(高达94%),但对于占比低的情感倾向文本的预判准确度仍是太低,有的甚至不超过50%(只有44%不到)。而这些占比低的情感倾向文本,对客户而言,意义更大,因此这样的预判,不可能让用户满意。
也正是由于样本集中各情感倾向占比的不一致,导致想要训练出情感预判召回率一致情感模型较难,而要满足所预判的样本中,具有较高的准确度,就更难了。幸好,我们发明的以下的方案,使得不需要这么高的召回率,就可让占比低情感倾向文本更容易地获得更高的准确度,同时保证占比高的样本预判的准确度仍在合理的范围之内。
但在实施下面的设计时,还是先要有一个召回率大体相近的情感模型,以保障:
1)各类样本以相同的比率召回或不被召回;
2)确保我们的方案,在情感倾向样本占比发生变化时,仍然适用。
下面是该模型的训练过程:
1)随机从相应工作环境中抽取样本集;
2)组织人手对上面所抽取的样本集进行情感倾向标注;
3)随机从样本集中各占1/3的比率,抽取正、中、负的训练集;
4)选择合适的机器算法进行训练,确保各类情感倾向文本的召回率较高,且尽量差不多;
5)训练得到模型,并从人工标注样本集中,抽取占比为1/3的样本组织测试集,进行测试并选定模型。
由于本模型聚焦在召回率这个指标上,而不用考虑准确率,因此算法与模型都能更快地选择与确定。
2、设计召回率有偏颇的情感模型(压制模型)
由于上面设计的基础模型,所用的训练样本,其中各类样本的占比与生产环境并不吻合,即使所获得的召回率较高,如直接运用于生产环境,其召回主与准确度都将差强人意。
为了满足实际环境,还设计了一个压制模型,允许对各类情感倾向文本的情感预判的召回率有所偏颇:占比高的文本与想要提高准确度那类文本的极高,而另一类文本则可以较低。我们实践下来,此类模型是不难获得的。
下面是该模型的训练过程:
1)随机从相应工作环境中抽取样本集;
2)组织人手对上面所抽取的样本集进行情感倾向标注,并根据标注结果统计正、中、负各类文本的占比;
3)占比高那类文本按占比比例抽取样本,作为训练集的一部分;
4)想要提高准确度那类文本(通常是占比低的那类),抽取与上面占比高那类文本同样数量的样本,同样作为训练集的一部分;
5)而剩下那类文本,则根据其占比抽取相应数量的样本,作为训练集剩下的部分;
6)选择合适的机器算法进行训练,确保占比高类与想要提高准确度类情感倾向文本的召回率较高;
7)训练得到模型,并按上面训练样本集抽取的方式抽取测试样本集,进行测试并选定模型。
此模型会对没有考虑的那类文本,有任何帮助。同时,在后面的方案中,该模型主要作用:就是将占比高类文本中,误判到想要提高准确度类的样本,进行压制,或从该类预判结果中清理出去。因此,我们称之为压制模型。我们测试下来,该模型对于占比高和想要提高准确度那类文本预判的召回率可轻松超过80%(当然,剩下那类的召回率则很低了)。
3、设计一个基础模型+压制模型的串联式组合模型
这里,我们将上面的基础模型与压制模型,以串联的方式组合起来使用,组成一个组合模型,通过该模型来完成对实际环境中的文本进行情感预判。
如图1所示,在图1中,是对负面的文本实施了压制模型的情感预判,以进一步提高该类文本预判的准确度。下面就以互联网环境中中性文本占比多,正面文本次之,负面文本最低的情况,以提高负面文本情感预判准确度为目标,来描述该组合模型的使用:
1)文本通过基础模型,将被预判为正、中、负文本;
2)收集负面文本,调用压制模型,将文本预判为正、中、负文本;
3)将压制模型预判为中、正的文本,分别归为中性文本与正面文本。
沿用表1中的假设,修正基础模型的召回率为70%,而压制模型对中性文本和负面文本的召回率为80%,对正面文本的召回率为10%,可以得到下面两张表的数据:
表2:对原始文本集调用基础模型预判;
样本集(10000) | 预判中 | 预判正 | 预判负 | 准确率 |
中性(6700) | 4690 | 1005 | 1005 | 90% |
正面(2000) | 300 | 1400 | 300 | 54% |
负面(1300) | 195 | 195 | 910 | 41% |
表3:对表2中预判所得负面文本调用压制模型;
样本集(2215) | 预判中 | 预判正 | 预判负 |
中性(1005) | 804 | 100.5 | 100.5 |
正面(300) | 135 | 30 | 135 |
负面(910) | 91 | 91 | 728 |
表4:对原始文本调用基础模型与压制模型后的汇总统计;
样本集(10000) | 预判中 | 预判正 | 预判负 | 准确率 |
中性(6700) | 5494 | 1105.5 | 100.5 | 88% |
正面(2000) | 435 | 1430 | 135 | 51% |
负面(1300) | 286 | 286 | 728 | 76% |
从上面的表可以看到,负面文本预判的准确度得到明显的提高。
目前,正面样本的准确度还不高。同样的原理,可以训练得到另一个对中性与正面文本情感预判召回率高的压制模型,并利用该模型对正面文本预判的准确度,进行抬升。但为了对前面负面文本预判结果的影响,步骤稍有所不同:
1)收集调用负面压制模型后,汇总所得预判为正面的文本;
2)调用正面压制模型,对上面收集的正面文本集,进行正、中、负预判;
3)将所有非负的预判文本归入中性文本集,预判为正面的文本归入正面文集。
沿用上面的假设,我们得到下面表数据:
表5:对表4中预判所得正面文本调用压制模型。
样本集(2821.5) | 预判中 | 预判正 | 预判负 |
中性(1105.5) | 994.95 | 110.55 | 0 |
正面(1430) | 286 | 1144 | 0 |
负面(286) | 143 | 143 | 0 |
表6:对原始文本调用基础模型、负面压制模型与正面压制后的汇总统计。
样本集(10000) | 预判中 | 预判正 | 预判负 | 准确率 |
中性(6700) | 6488.95 | 110.55 | 100.5 | 85% |
正面(2000) | 721 | 1144 | 135 | 82% |
负面(1300) | 429 | 143 | 728 | 76% |
从上表来看,通过对所有占比较低的正、负面调用我们发明的组合模型后,都可达到较高的预判准确度。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (3)
1.一种提高情感倾向占比低文本预断准确率的方法,其特征在于:
1)设计一个召回率都差不多的情感模型;
假设一个方案对正、中、负情感倾向样本预判的准确度都达到60%以上,方满足用户对情感预判大概率正确的要求,基于上述正、中、负样本的占比,来看看没有引入本方案后面的设计发明时,所要求情感模型对各情感倾向样本召回率;
2)设计以下的方案,保证占比高的样本预判的准确度仍在合理的范围之内;
但在实施下面的设计时,还是先要有一个召回率大体相近的情感模型,以保障:
(1)各类样本以相同的比率召回或不被召回;
(2)确保我们的方案,在情感倾向样本占比发生变化时,仍然适用;
下面是该模型的训练过程:
(1)随机从相应工作环境中抽取样本集;
(2)组织人手对上面所抽取的样本集进行情感倾向标注;
(3)随机从样本集中各占1/3的比率,抽取正、中、负的训练集;
(4)选择合适的机器算法进行训练,确保各类情感倾向文本的召回率较高,且尽量差不多;
(5)训练得到模型,并从人工标注样本集中,抽取占比为1/3的样本组织测试集,进行测试并选定模型;
3)设计召回率有偏颇的情感模型;
该模型的训练过程:
(1)随机从相应工作环境中抽取样本集;
(2)组织人手对上面所抽取的样本集进行情感倾向标注,并根据标注结果统计正、中、负各类文本的占比;
(3)占比高那类文本按占比比例抽取样本,作为训练集的一部分;
(4)想要提高准确度那类文本,抽取与上面占比高那类文本同样数量的样本,同样作为训练集的一部分;
(5)而剩下那类文本,则根据其占比抽取相应数量的样本,作为训练集剩下的部分;
(6)选择合适的机器算法进行训练,确保占比高类与想要提高准确度类情感倾向文本的召回率较高;
(7)训练得到模型,并按上面训练样本集抽取的方式抽取测试样本集,进行测试并选定模型;
4)设计一个基础模型+压制模型的串联式组合模型
这里,将上面的基础模型与压制模型,以串联的方式组合起来使用,组成一个组合模型,通过该模型来完成对实际环境中的文本进行情感预判;
对负面的文本实施了压制模型的情感预判,以进一步提高该类文本预判的准确度。下面就以互联网环境中中性文本占比多,正面文本次之,负面文本最低的情况,以提高负面文本情感预判准确度为目标,来描述该组合模型的使用:
1)文本通过基础模型,将被预判为正、中、负文本;
2)收集负面文本,调用压制模型,将文本预判为正、中、负文本;
3)将压制模型预判为中、正的文本,分别归为中性文本与正面文本。
2.如权利要求1所述的提高情感倾向占比低文本预断准确率的方法,其特征在于:2)设计召回率有偏颇的情感模型;此模型会对没有考虑的那类文本,有任何帮助。同时,在后面的方案中,该模型主要作用:就是将占比高类文本中,误判到想要提高准确度类的样本,进行压制,或从该类预判结果中清理出去。因此,我们称之为压制模型。我们测试下来,该模型对于占比高和想要提高准确度那类文本预判的召回率可轻松超过80%(当然,剩下那类的召回率则很低了)。
3.如权利要求2所述的提高情感倾向占比低文本预断准确率的方法,其特征在于:修正基础模型的召回率为70%,而压制模型对中性文本和负面文本的召回率为80%,对正面文本的召回率为10%;
目前,正面样本的准确度还不高。同样的原理,可以训练得到另一个对中性与正面文本情感预判召回率高的压制模型,并利用该模型对正面文本预判的准确度,进行抬升,但为了对前面负面文本预判结果的影响,步骤有所不同:
1)收集调用负面压制模型后,汇总所得预判为正面的文本;
2)调用正面压制模型,对上面收集的正面文本集,进行正、中、负预判;
3)将所有非负的预判文本归入中性文本集,预判为正面的文本归入正面文集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811335523.6A CN109492226B (zh) | 2018-11-10 | 2018-11-10 | 一种提高情感倾向占比低文本预断准确率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811335523.6A CN109492226B (zh) | 2018-11-10 | 2018-11-10 | 一种提高情感倾向占比低文本预断准确率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109492226A true CN109492226A (zh) | 2019-03-19 |
CN109492226B CN109492226B (zh) | 2023-03-24 |
Family
ID=65695528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811335523.6A Active CN109492226B (zh) | 2018-11-10 | 2018-11-10 | 一种提高情感倾向占比低文本预断准确率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492226B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
CN113066479A (zh) * | 2019-12-12 | 2021-07-02 | 北京沃东天骏信息技术有限公司 | 一种评测模型的方法和装置 |
CN113391923A (zh) * | 2021-06-18 | 2021-09-14 | 上海钧正网络科技有限公司 | 系统资源数据分配方法和装置 |
CN113990352A (zh) * | 2021-10-22 | 2022-01-28 | 平安科技(深圳)有限公司 | 用户情绪识别与预测方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202032A (zh) * | 2016-06-24 | 2016-12-07 | 广州数说故事信息科技有限公司 | 一种面向微博短文本的情感分析方法及其系统 |
CN107807914A (zh) * | 2016-09-09 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 情感倾向的识别方法、对象分类方法及数据处理系统 |
US10037491B1 (en) * | 2014-07-18 | 2018-07-31 | Medallia, Inc. | Context-based sentiment analysis |
CN108681532A (zh) * | 2018-04-08 | 2018-10-19 | 天津大学 | 一种面向中文微博的情感分析方法 |
-
2018
- 2018-11-10 CN CN201811335523.6A patent/CN109492226B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10037491B1 (en) * | 2014-07-18 | 2018-07-31 | Medallia, Inc. | Context-based sentiment analysis |
CN106202032A (zh) * | 2016-06-24 | 2016-12-07 | 广州数说故事信息科技有限公司 | 一种面向微博短文本的情感分析方法及其系统 |
CN107807914A (zh) * | 2016-09-09 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 情感倾向的识别方法、对象分类方法及数据处理系统 |
CN108681532A (zh) * | 2018-04-08 | 2018-10-19 | 天津大学 | 一种面向中文微博的情感分析方法 |
Non-Patent Citations (2)
Title |
---|
冯旭鹏等: "基于评价修饰分布差的评论文本倾向性识别方法", 《计算机工程》 * |
陈炳丰等: "基于AWCRF模型的微博情感倾向分类方法", 《计算机工程》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
CN113066479A (zh) * | 2019-12-12 | 2021-07-02 | 北京沃东天骏信息技术有限公司 | 一种评测模型的方法和装置 |
CN113391923A (zh) * | 2021-06-18 | 2021-09-14 | 上海钧正网络科技有限公司 | 系统资源数据分配方法和装置 |
CN113990352A (zh) * | 2021-10-22 | 2022-01-28 | 平安科技(深圳)有限公司 | 用户情绪识别与预测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109492226B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492226A (zh) | 一种提高情感倾向占比低文本预断准确率的方法 | |
CN104268134B (zh) | 一种主客观分类器构建方法和系统 | |
CN103064971A (zh) | 一种基于评分和中文情感分析的垃圾评论检测方法 | |
CN108030494A (zh) | 基于交叉验证的心电信号错误标记训练样本识别方法 | |
CN104216876A (zh) | 信息文本过滤方法及系统 | |
CN109002616A (zh) | 雷达点迹凝聚方法、系统及存储介质 | |
CN103853738A (zh) | 一种网页信息相关地域的识别方法 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN107944760B (zh) | 一种企业投标竞争力分析方法与系统 | |
CN107885849A (zh) | 一种基于文本分类的情绪指数分析系统 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN111476296A (zh) | 样本生成方法、分类模型训练方法、识别方法及对应装置 | |
CN108537273A (zh) | 一种针对不均衡样本执行自动化机器学习的方法 | |
CN107438083A (zh) | 一种Android环境下钓鱼网站检测方法及其检测系统 | |
CN106503150A (zh) | 中文地名行政区划归属识别方法 | |
CN106569996A (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN106294315B (zh) | 基于句法特性与统计融合的自然语言谓语动词识别方法 | |
CN109388804A (zh) | 利用深度学习模型的证券研报核心观点提取方法及装置 | |
CN105574105A (zh) | 一种文本分类模型的确定方法 | |
CN108132930A (zh) | 特征词提取方法及装置 | |
CN105404682A (zh) | 一种基于数字图像内容的图书检索方法 | |
CN110472054B (zh) | 一种数据处理方法和装置 | |
CN110097460A (zh) | 一种信用风险评估方法 | |
CN105354597A (zh) | 一种游戏物品的分类方法及装置 | |
CN103778210A (zh) | 一种待分析文件的文件具体类型的判断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230210 Address after: 201100 5th and 6th floor, 380 Xinsong Road, Minhang District, Shanghai Applicant after: Shanghai WuJie Data Technology Co.,Ltd. Address before: Room 1449, No. 4999, Zhongchun Road, Minhang District, Shanghai, 201100 Applicant before: SHANGHAI WENJUN INFORMATION TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |