CN110532556A - 文本新闻的处理方法、设备和存储介质 - Google Patents
文本新闻的处理方法、设备和存储介质 Download PDFInfo
- Publication number
- CN110532556A CN110532556A CN201910805703.4A CN201910805703A CN110532556A CN 110532556 A CN110532556 A CN 110532556A CN 201910805703 A CN201910805703 A CN 201910805703A CN 110532556 A CN110532556 A CN 110532556A
- Authority
- CN
- China
- Prior art keywords
- news
- theme
- text
- processing method
- scoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种文本新闻的处理方法、设备和存储介质,所述方法包括:对历史文本新闻进行主题训练得到主题模型,并生成新闻主题列表;获取用户对所有新闻主题的多个维度的访问偏好数据;根据所述多个维度的访问偏好数据,计算每个新闻主题的分值,形成新闻主题分值表。与现有技术相比,本发明的文本新闻的处理方法,将大量的历史文本新闻进行主题训练生成新闻主题列表,然后根据用户偏好数据对新闻主题列表中的新闻主题进行评分,形成新闻主题分值表,从而通过所述新闻主题分值表对文本新闻的质量进行量化。此方法可以对数量繁多的文本新闻进行评分,从而根据分值的高低实现文本新闻的过滤和推荐,或者为企业关联高质量的文本新闻信息。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本新闻的处理方法、设备和存储介质。
背景技术
伴随着全球化进程的不断深化和互联网的迅速发展,文本新闻数据呈现出爆炸式的增长。当我们想要在这数目繁多的文本新闻中,找到想要看的有意义的文本新闻时由于不知道各个文本新闻的新闻质量,查找效率极其低下。
文本新闻质量评估方法的建立可以对数量繁多的文本新闻实现新闻的过滤和推荐,可以为用户推荐出高质量的文本新闻信息、或者为企业关联高质量的文本新闻信息。
但是目前还没有比较成熟的文本新闻质量评估的方法。
发明内容
本发明的目的在于提供一种文本新闻的处理方法、设备和存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种文本新闻的处理方法,所述方法包括:
对历史文本新闻进行主题训练得到主题模型,并生成新闻主题列表;
获取用户对所有新闻主题的多个维度的访问偏好数据;
根据所述多个维度的访问偏好数据,计算每个新闻主题的分值,形成新闻主题分值表。
作为本发明一实施方式的进一步改进,所述“根据所述多个维度的访问偏好数据,计算每个新闻主题的分值”具体包括:
赋予每个维度的访问偏好数据相应的权重f;
将每个维度的访问偏好数据在每个新闻主题上进行归一化处理,得到归一化的结果x;
新闻主题的分值y=x1*f1+x2*f2+…+xn*fn,其中n表示所述访问偏好数据的维度数,xn表示在一个维度上所述新闻主题归一化后的分值,fn表示所述维度相应的权重。
作为本发明一实施方式的进一步改进,所述方法还包括:
根据所述新闻主题分值表,对多篇文本新闻进行评分;
根据所述评分的结果,重新调整所述新闻主题分值表中各个新闻主题的分值。
作为本发明一实施方式的进一步改进,所述“根据所述评分的结果,重新调整所述新闻主题分值表中各个新闻主题的分值”具体包括:
获取评分排名前数名的文本新闻;
分析所述评分排名前数名的文本新闻的类别,对于不需要的类别的文本新闻,降低所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。
作为本发明一实施方式的进一步改进,所述“根据所述评分的结果,重新调整所述新闻主题分值表中各个新闻主题的分值”具体包括:
获取评分排名前数名的文本新闻;
分析所述评分排名前数名的文本新闻的类别,对于需要的类别的文本新闻,提高所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。
作为本发明一实施方式的进一步改进,所述方法还包括:
通过所述新闻主题分值表,对最近一段时间的多篇文本新闻进行评分,获取评分排名前数名的文本新闻进行推送。
作为本发明一实施方式的进一步改进,所述方法还包括:
通过所述新闻主题分值表,计算一篇文本新闻的分值z=y1*g1+y2*g2+…+ym*gm,其中,m表示所述文本新闻包括的新闻主题个数,y表示新闻主题的评分,g表示新闻主题在所述文本新闻中的占比。
作为本发明一实施方式的进一步改进,所述“新闻主题的多个维度的访问偏好数据”具体包括:
包括有所述新闻主题的文本新闻在具体的时间段内被用户点击的总次数和被用户查看的总时长。
为实现上述发明目的之一,本发明一实施方式提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述文本新闻的处理方法中的步骤。
为实现上述发明目的之一,本发明一实施方式提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任意一项所述文本新闻的处理方法中的步骤。
与现有技术相比,本发明的文本新闻的处理方法,将大量的历史文本新闻进行主题训练生成新闻主题列表,然后根据用户偏好数据对新闻主题列表中的新闻主题进行评分,形成新闻主题分值表,从而通过所述新闻主题分值表对文本新闻的质量进行量化。此方法可以对数量繁多的文本新闻进行评分,从而根据分值的高低实现文本新闻的过滤和推荐,或者为企业关联高质量的文本新闻信息。
附图说明
图1是本发明的文本新闻的处理方法的流程示意图。
图2是图1中步骤S3的流程示意图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,本发明的文本新闻的处理方法包括:
步骤S1:对历史文本新闻进行主题训练得到主题模型,并生成新闻主题列表。
在介绍本步骤之前,先简单介绍一下主题模型。主题模型是以非监督学习的方式对文本的隐含语义结构进行聚类的统计模型。主题模型主要被用于自然语言处理中的语义分析和文本挖掘问题,例如按主题对文本进行收集、分类和降维等。常用的主题模型有隐含狄利克雷分布(Latent Dirichlet Allocation),简称LDA。
LDA是一种基于贝叶斯算法模型,利用先验分布对数据进行似然估计并最终得到后验分布的一种方式。LDA假设文档主题是多项分布,多项分布的参数(先验分布)是服从Dirichlet分布,换言之,LDA是一种三层的贝叶斯模型。LDA是一种无监督的机器学习方法,它基于Dirichlet分布对文档和主题进行建模,其中每个文档被认为是对各种主题的分布,并且每个主题被建模为对单词的分布。因此,给定一组文档,LDA输出一组主题,每个主题与一组单词相关联。为了对分布进行建模,LDA还需要主题的数量(通常用k表示)作为输入。例如,以下是从随机文本集合中提取的主题,其中k=3:
主题1:{伟大,白天,快乐,周末,今晚,积极体验}
主题2:{食物,葡萄酒,啤酒,午餐,美味,餐饮}
主题3:{家庭,房地产,房子,小费,抵押贷款,房地产}
在本步骤中,通过对千万数量级别的文本新闻进行LDA主题训练得到主题模型,利用此模型对千万数量级别的文本新闻生成新闻主题列表,比如生成2000个新闻主题形成新闻主题列表。
需要说明的是,本发明中,文本新闻是指存在文本信息的新闻,可以是纯文本的新闻,也可以是文本加图片的新闻。
步骤S2:获取用户对所有新闻主题的多个维度的访问偏好数据。
用户的访问偏好数据,是指用户对各个新闻的访问偏好形成的数据,对新闻主题的访问偏好数据包括各个维度,比如包括有所述新闻主题的文本新闻在具体的时间段内被用户点击的总次数、或者被用户查看的总时长,或者用户对包括有所述新闻主题的文本新闻在具体的时间段内的点赞量或者点评量等。
本发明新闻主题的用户偏好数据优选采用两个维度:包括有所述新闻主题的文本新闻在具体的时间段内被用户点击的总次数、和被用户查看的总时长(后续这两个温度简称点击次数和观看时长)。
另外需要说明的是,所述用户的访问偏好数据,不是单指分析某个用户的访问偏好而得到的数据,而是分析所有对历史文本新闻进行访问的用户偏好而得到的数据。
步骤S3:根据所述多个维度的访问偏好数据,计算每个新闻主题的分值,形成新闻主题分值表。
对于步骤1中的新闻主题列表中的各个新闻主题,分别根据多个维度的访问偏好数据,计算其分值,具体包括如下步骤:
步骤S31:赋予每个维度的访问偏好数据相应的权重f;
总共有n个维度(n为正整数),分别赋予第1至第n个维度的权重为f1至fn,其中f1+…+fn=1。
步骤S32:将每个维度的访问偏好数据在每个新闻主题上进行归一化处理,得到归一化的结果x;
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。对于k个新闻主题,在具体某个维度的访问偏好数据进行归一化处理后得到的结果为x1至xk,其中x1+…+xk=1。
比如对于3个新闻主题,获取到用户在新闻主题1、2、3上点击次数分别为100次、120次、60次,这样进行归一化后的结果为x1=0.357,x2=0.429,x3=0.214。
步骤S33:新闻主题的分值y=x1*f1+x2*f2+…+xn*fn,其中n表示所述访问偏好数据的维度数,xn表示在一个维度上所述新闻主题归一化后的分值,fn表示所述维度相应的权重。
为了便于理解,这里举一个简单的实施例进一步说明此计算过程:
文本新闻1包括新闻主题1(占比50%)和新闻主题2(占比50%),获取到的用户偏好数据为点击次数100次,观看时长60分钟。
文本新闻2包括新闻主题1(占比30%)和新闻主题3(占比70%),获取到的用户偏好数据为点击次数150次,观看时长80分钟。
经计算,新闻主题1的用户行为数据为:点击次数95次,观看时长54分钟;新闻主题2的用户行为数据为:点击次数50次,观看时长30分钟;新闻主题3的用户行为数据为:点击次数105次,观看时长56分钟。
在点击次数的维度进行归一化后的新闻主题1至3的结果分别为:0.38、0.2、0.42。在观看时长的维度进行归一化后的新闻主题1至3的结构分别为:0.386、0.214、0.4。
按照历史经验,赋予点击次数这个维度的权重为40%,赋予观看时长这个维度的权重为60%。最后计算每个新闻主题的分值分别为(保留3位小数):
y(新闻主题1)=0.38*40%+0.386*60%=0.384
y(新闻主题2)=0.2*40%+0.214*60%=0.208
y(新闻主题3)=0.42*40%+0.4*60%=0.408
根据习惯,我们可以将所有的新闻主题的分值乘以某个倍数,在这个实施例中,我们将全部主题(总共3个)都乘以10倍,得到的新闻主题1至3的分值分别为:3.84、2.08、4.08。由此得到主题分值表:{新闻主题1:3.84;新闻主题2:2.08;新闻主题3:4.08}。
本发明的文本新闻的处理方法,将大量的历史文本新闻进行主题训练生成新闻主题列表,然后根据用户偏好数据对新闻主题列表中的新闻主题进行评分,形成新闻主题分值表,从而通过所述新闻主题分值表对文本新闻的质量进行量化。此方法可以对数量繁多的文本新闻进行评分,从而根据分值的高低实现文本新闻的过滤和推荐,或者为企业关联高质量的文本新闻信息。
在一个优选的实施方式中,所述文本新闻的处理方法还包括:
步骤S4:通过所述新闻主题分值表,计算一篇文本新闻的分值z=y1*g1+y2*g2+…+ym*gm,其中,m表示所述文本新闻包括的新闻主题个数,y表示新闻主题的评分,g表示新闻主题在所述文本新闻中的占比。
例如,根据前一个具体实施例得到的新闻主题分值表,计算文本新闻3(新闻主题1占比30%、新闻主题2占比50%、新闻主题3占比20%)的分值为:
z(文本新闻3)=3.84*30%+2.08*50%+4.08*20%=3.008
在另一个优选的实施方式中,所述文本新闻的处理方法还包括:
步骤S5:根据所述新闻主题分值表,对多篇文本新闻进行评分。
步骤S6:根据所述评分的结果,重新调整所述新闻主题分值表中各个新闻主题的分值。
很多时候,我们需要的高质量的新闻不是针对所有类型的,而可能是针对具体某一类的,比如企业相关类的新闻,此时获取评分排名前数名的文本新闻中,很大概率包括有其它类型的新闻,比如娱乐类的。因此可以分析所述评分排名前数名的文本新闻的类别,对于不需要的类别的文本新闻,降低所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。或者对于需要的类别的文本新闻,提高所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。
在又一个优选的实施方式中,所述文本新闻的处理方法还包括:
通过所述新闻主题分值表,对最近一段时间的多篇文本新闻进行评分,获取评分排名前数名的文本新闻进行推送。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本新闻的处理方法中的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本新闻的处理方法中的步骤。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本新闻的处理方法,其特征在于,所述方法包括:
对历史文本新闻进行主题训练得到主题模型,并生成新闻主题列表;
获取用户对所有新闻主题的多个维度的访问偏好数据;
根据所述多个维度的访问偏好数据,计算每个新闻主题的分值,形成新闻主题分值表。
2.根据权利要求1所述的文本新闻的处理方法,其特征在于,所述“根据所述多个维度的访问偏好数据,计算每个新闻主题的分值”具体包括:
赋予每个维度的访问偏好数据相应的权重f;
将每个维度的访问偏好数据在每个新闻主题上进行归一化处理,得到归一化的结果x;
新闻主题的分值y=x1*f1+x2*f2+…+xn*fn,其中n表示所述访问偏好数据的维度数,xn表示在一个维度上所述新闻主题归一化后的分值,fn表示所述维度相应的权重。
3.根据权利要求1所述的文本新闻的处理方法,其特征在于,所述方法还包括:
根据所述新闻主题分值表,对多篇文本新闻进行评分;
根据所述评分的结果,重新调整所述新闻主题分值表中各个新闻主题的分值。
4.根据权利要求3所述的文本新闻的处理方法,其特征在于,所述“根据所述评分的结果,重新调整所述新闻主题分值表中各个新闻主题的分值”具体包括:
获取评分排名前数名的文本新闻;
分析所述评分排名前数名的文本新闻的类别,对于不需要的类别的文本新闻,降低所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。
5.根据权利要求3所述的文本新闻的处理方法,其特征在于,所述“根据所述评分的结果,重新调整所述新闻主题分值表中各个新闻主题的分值”具体包括:
获取评分排名前数名的文本新闻;
分析所述评分排名前数名的文本新闻的类别,对于需要的类别的文本新闻,提高所述文本新闻对应的新闻主题在所述新闻主题评分表中的评分。
6.根据权利要求1所述的文本新闻的处理方法,其特征在于,所述方法还包括:
通过所述新闻主题分值表,对最近一段时间的多篇文本新闻进行评分,获取评分排名前数名的文本新闻进行推送。
7.根据权利要求1所述的文本新闻的处理方法,其特征在于,所述方法还包括:
通过所述新闻主题分值表,计算一篇文本新闻的分值z=y1*g1+y2*g2+…+ym*gm,其中,m表示所述文本新闻包括的新闻主题个数,y表示新闻主题的评分,g表示新闻主题在所述文本新闻中的占比。
8.根据权利要求1所述的文本新闻的处理方法,其特征在于,所述“新闻主题的多个维度的访问偏好数据”具体包括:
包括有所述新闻主题的文本新闻在具体的时间段内被用户点击的总次数和被用户查看的总时长。
9.一种电子设备,包括存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任意一项所述文本新闻的处理方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述文本新闻的处理方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910805703.4A CN110532556A (zh) | 2019-08-29 | 2019-08-29 | 文本新闻的处理方法、设备和存储介质 |
PCT/CN2019/115967 WO2021035955A1 (zh) | 2019-08-29 | 2019-11-06 | 文本新闻的处理方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910805703.4A CN110532556A (zh) | 2019-08-29 | 2019-08-29 | 文本新闻的处理方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110532556A true CN110532556A (zh) | 2019-12-03 |
Family
ID=68664956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910805703.4A Withdrawn CN110532556A (zh) | 2019-08-29 | 2019-08-29 | 文本新闻的处理方法、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110532556A (zh) |
WO (1) | WO2021035955A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689299A (zh) * | 2021-05-10 | 2021-11-23 | 深圳价值在线信息科技股份有限公司 | 新闻信息指数模型的构建方法及新闻信息分析方法 |
CN114780712A (zh) * | 2022-04-06 | 2022-07-22 | 科技日报社 | 一种基于质量评价的新闻专题生成方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203631A (zh) * | 2017-05-31 | 2017-09-26 | 成都明途科技有限公司 | 基于互联网技术的高质量新闻推送方法 |
CN109086375A (zh) * | 2018-07-24 | 2018-12-25 | 武汉大学 | 一种基于词向量增强的短文本主题抽取方法 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9310879B2 (en) * | 2011-11-09 | 2016-04-12 | Xerox Corporation | Methods and systems for displaying web pages based on a user-specific browser history analysis |
CN107798083A (zh) * | 2017-10-17 | 2018-03-13 | 广东广业开元科技有限公司 | 一种基于大数据的资讯推荐方法、系统及装置 |
CN107908669A (zh) * | 2017-10-17 | 2018-04-13 | 广东广业开元科技有限公司 | 一种基于并行lda的大数据新闻推荐方法、系统及装置 |
CN110110205A (zh) * | 2018-01-16 | 2019-08-09 | 北京京东金融科技控股有限公司 | 推荐信息生成方法与装置 |
-
2019
- 2019-08-29 CN CN201910805703.4A patent/CN110532556A/zh not_active Withdrawn
- 2019-11-06 WO PCT/CN2019/115967 patent/WO2021035955A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203631A (zh) * | 2017-05-31 | 2017-09-26 | 成都明途科技有限公司 | 基于互联网技术的高质量新闻推送方法 |
CN109086375A (zh) * | 2018-07-24 | 2018-12-25 | 武汉大学 | 一种基于词向量增强的短文本主题抽取方法 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
Non-Patent Citations (1)
Title |
---|
韩东冉: ""基于文本处理的新闻推荐系统的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689299A (zh) * | 2021-05-10 | 2021-11-23 | 深圳价值在线信息科技股份有限公司 | 新闻信息指数模型的构建方法及新闻信息分析方法 |
CN113689299B (zh) * | 2021-05-10 | 2023-10-20 | 深圳价值在线信息科技股份有限公司 | 新闻信息指数模型的构建方法及新闻信息分析方法 |
CN114780712A (zh) * | 2022-04-06 | 2022-07-22 | 科技日报社 | 一种基于质量评价的新闻专题生成方法及装置 |
CN114780712B (zh) * | 2022-04-06 | 2023-07-04 | 科技日报社 | 一种基于质量评价的新闻专题生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2021035955A1 (zh) | 2021-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220174362A1 (en) | Profiling media characters | |
Fauzi | Random forest approach fo sentiment analysis in indonesian | |
Omar et al. | Multi-label arabic text classification in online social networks | |
CN110046236B (zh) | 一种非结构化数据的检索方法及装置 | |
Basari et al. | Opinion mining of movie review using hybrid method of support vector machine and particle swarm optimization | |
US8768852B2 (en) | Determining phrases related to other phrases | |
Arroju et al. | Age, gender and personality recognition using tweets in a multilingual setting | |
CN103699521A (zh) | 文本分析方法及装置 | |
Kalaivani et al. | Feature reduction based on genetic algorithm and hybrid model for opinion mining | |
CN110532556A (zh) | 文本新闻的处理方法、设备和存储介质 | |
KR20170027576A (ko) | 연구 이력 매칭 기반의 연구자 추천 장치 및 방법 | |
Ayoub et al. | Analyzing customer needs of product ecosystems using online product reviews | |
CN110909116A (zh) | 一种面向社交媒体的实体集合扩展方法及系统 | |
Nazeer et al. | Use of novel ensemble machine learning approach for social media sentiment analysis | |
CN116185332A (zh) | 用于对检索结果进行排序的文献评价方法、存储介质及终端 | |
Chakraborty et al. | Rating Generation of Video Games using Sentiment Analysis and Contextual Polarity from Microblog | |
US20210383281A1 (en) | Information processing device, information processing method, and non-transitory computer-readable medium | |
Sato et al. | Exploring an optimal online model for new job recommendation: Solution for recsys challenge 2017 | |
Mountassir et al. | Some methods to address the problem of unbalanced sentiment classification in an arabic context | |
Prusa et al. | Utilizing ensemble, data sampling and feature selection techniques for improving classification performance on tweet sentiment data | |
Lucky et al. | Towards classification of personality prediction model: a combination of BERT word embedding and mlsmote | |
Lemahieu et al. | Optimizing the popularity of Twitter messages through user categories | |
JP2009176072A (ja) | 要素集団抽出システム、要素集団抽出方法およびプログラム | |
Trivedi et al. | Analysing user sentiment of Indian movie reviews: A probabilistic committee selection model | |
Prusa et al. | Comparing approaches for combining data sampling and feature selection to address key data quality issues in tweet sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191203 |
|
WW01 | Invention patent application withdrawn after publication |