CN110162597A - 文章数据处理方法、装置、计算机可读介质及电子设备 - Google Patents
文章数据处理方法、装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN110162597A CN110162597A CN201910275174.1A CN201910275174A CN110162597A CN 110162597 A CN110162597 A CN 110162597A CN 201910275174 A CN201910275174 A CN 201910275174A CN 110162597 A CN110162597 A CN 110162597A
- Authority
- CN
- China
- Prior art keywords
- article
- feature
- emotion
- object entity
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 230000008451 emotion Effects 0.000 claims abstract description 352
- 238000012986 modification Methods 0.000 claims description 77
- 230000004048 modification Effects 0.000 claims description 77
- 238000012545 processing Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 31
- 239000000284 extract Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 description 36
- 238000013527 convolutional neural network Methods 0.000 description 22
- 230000002996 emotional effect Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 230000007935 neutral effect Effects 0.000 description 16
- 238000012549 training Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 9
- 230000006854 communication Effects 0.000 description 8
- 230000002349 favourable effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请的实施例提供了一种文章数据处理方法、装置、计算机可读介质及电子设备。该文章数据处理方法包括:识别待处理文章中所包含的对象实体;从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。本申请实施例的技术方案可以通过修饰词特征来调整情感词特征对文章情感倾向的影响,提高了对文章情感倾向的识别准确率。
Description
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种文章数据处理方法、装置、计算机可读介质及电子设备。
背景技术
舆情分析是根据需要对某个关注点的舆情进行深层次的加工和分析得到相关结论的过程,舆情分析中的重点是识别出相关资讯文章的情感倾向,但是发明人发现,相关技术中提出的方案通常存在情感倾向识别不准确的问题。
发明内容
本申请的实施例提供了一种文章数据处理方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以通过修饰词特征来调整情感词特征对文章情感倾向的影响,提高了对文章情感倾向的识别准确率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文章数据处理方法,包括:识别待处理文章中所包含的对象实体;从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。
根据本申请实施例的一个方面,提供了一种文章数据处理装置,包括:识别单元,用于识别待处理文章中所包含的对象实体;第一处理单元,用于从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;第二处理单元,用于根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。
在本申请的一些实施例中,基于前述方案,所述识别单元配置为:根据预设的对象名称库,从所述待处理文章中提取出所述对象名称库中所包含的目标对象名称;基于对象名称与对象实体之间的对应关系,将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体。
在本申请的一些实施例中,基于前述方案,所述识别单元还用于:在将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体之前,统计所述待处理文章中所包含的出现次数大于或等于预定次数的目标词语;根据所述目标词语与所述目标对象名称之间的相关性,对所述目标对象名称进行过滤处理。
在本申请的一些实施例中,基于前述方案,所述第一处理单元配置为:根据预设的情感词库,从所述待处理文章中提取出所述情感词库中所包含的情感词,以作为所述情感词特征;根据从所述待处理文章中提取出的情感词,识别所述待处理文章中与所述情感词存在预定句法关系的词语;从与所述情感词存在预定句法关系的词语中提取修饰词,以作为所述修饰词特征。
在本申请的一些实施例中,基于前述方案,所述第二处理单元包括:调整单元,用于根据所述待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,得到所述情感词特征的修正权重;情感得分计算单元,用于根据所述情感词特征的修正权重计算所述待处理文章的情感得分;确定单元,用于基于所述待处理文章的情感得分确定所述待处理文章针对所述对象实体的情感倾向。
在本申请的一些实施例中,基于前述方案,所述调整单元配置为:若所述修饰词特征的修饰属性为否定修饰或反转修饰,则将所述修饰词特征所修饰的情感词特征的权重调整为目标词特征的权重,所述目标词特征的情感倾向与所述情感词特征的情感倾向相反;若所述修饰词特征的修饰属性为疑问修饰,则将所述修饰词特征所修饰的情感词特征的权重置为设定值;若所述修饰词特征的修饰属性为程度修饰,则根据所述修饰词特征对所述情感词特征的修饰程度对所述情感词特征的权重进行调整。
在本申请的一些实施例中,基于前述方案,所述情感得分计算单元配置为:确定所述待处理文章的各个段落所包含的各个情感词特征,根据所述各个情感词特征的修正权重计算所述各个段落的情感得分;根据所述各个段落的情感得分确定所述各个段落的情感倾向;根据所述各个段落的情感倾向计算所述待处理文章的情感得分。
在本申请的一些实施例中,基于前述方案,所述确定单元配置为:若所述待处理文章的情感得分处于正向情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为正向;若所述待处理文章的情感得分处于负向情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为负向;若所述待处理文章的情感得分处于中性情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为中性。
在本申请的一些实施例中,基于前述方案,所述第二处理单元还用于:若基于所述待处理文章的情感得分未确定出所述待处理文章针对所述对象实体的情感倾向是正向还是负向,则通过情感倾向识别模型识别所述待处理文章针对所述对象实体的情感倾向;若根据所述情感倾向识别模型的识别结果不能确定所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则确定所述待处理文章针对所述对象实体的情感倾向为中性。
在本申请的一些实施例中,基于前述方案,在所述情感倾向识别模型包括多个识别模型的情况下,所述第二处理单元配置为:若所述多个识别模型中的一个识别模型识别出所述待处理文章针对所述对象实体的情感倾向为正向或负向,则确定通过所述情感倾向识别模型识别出了所述待处理文章针对所述对象实体的情感倾向;若所述多个识别模型中的一个识别模型未识别出所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则通过所述多个识别模型中的下一个识别模型继续进行识别。
在本申请的一些实施例中,基于前述方案,所述的文章数据处理装置还包括:第三处理单元,用于根据与各个对象实体相关联的文章数量及情感倾向,确定待推荐的目标对象实体,根据所述目标对象实体执行如下任一或多个操作:将所述待推荐的目标对象实体推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键语句,将所述关键语句推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键词,将所述关键词推荐给用户。
在本申请的一些实施例中,基于前述方案,所述第三处理单元配置为:将存在于以下任一个对象实体集合或同时存在于多个对象实体集合中的对象实体作为所述目标对象实体:热度排名前n1位的第一对象实体集合、舆情指数排名前n2位的第二对象实体集合、正向情感指数排名前n3位的第三对象实体集合;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取正向情感指数排名前n3位的对象实体作为所述目标对象实体;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取正向情感指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取舆情指数排名前n3位的对象实体作为所述目标对象实体;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数或正向情感指数排名前n2位的对象实体作为所述目标对象实体;
其中,所述热度表示在预定时间段内出现的相关文章的数量,所述舆情指数表示情感倾向为正向的文章占比与情感倾向为负向的文章占比之间的差值,所述正向情感指数表示情感倾向为正向的文章占比。
在本申请的一些实施例中,基于前述方案,所述第三处理单元配置为:从所述指定情感倾向的文章中抽取出包含有情感词特征的目标语句;基于所述目标语句所包含的情感词特征之间的相似度,对所述目标语句进行聚类,得到多个第一类簇;根据所述多个第一类簇中所包含的目标语句的相似度,对所述多个第一类簇进行合并处理,得到至少一个第二类簇;从所述至少一个第二类簇中选择目标类簇,并从所述目标类簇中抽取出所述关键语句。
在本申请的一些实施例中,基于前述方案,所述第三处理单元配置为:对所述指定情感倾向的文章进行分词处理,并对分词处理得到的词语进行过滤,得到候选词;计算所述候选词的重要性得分,根据所述指定情感倾向的文章的标题与所述候选词之间的包含关系确定所述候选词的相关性得分;根据所述候选词的重要性得分和所述相关性得分,计算所述候选词的最终得分;根据所述候选词的最终得分选择预定数量个候选词作为所述关键词。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的文章数据处理方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的文章数据处理方法。
在本申请的一些实施例所提供的技术方案中,通过从待处理文章中提取出情感词特征和针对该情感词特征的修饰词特征,并根据该情感词特征和该修饰词特征确定待处理文章针对该对象实体的情感倾向,使得能够通过修饰词特征来调整情感词特征对文章情感倾向的影响,进而能够有效提高对文章情感倾向的识别准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出了根据本申请的一个实施例的文章数据处理方法的流程图;
图3示出了根据本申请的一个实施例的识别待处理文章中所包含的对象实体的流程图;
图4示出了根据本申请的一个实施例的从待处理文章中提取出情感词特征和针对情感词特征的修饰词特征的流程图;
图5示出了根据本申请的一个实施例的根据情感词特征和修饰词特征确定待处理文章针对对象实体的情感倾向的流程图;
图6示出了根据本申请的一个实施例的根据情感词特征的修正权重计算待处理文章的情感得分的流程图;
图7示出了根据本申请的一个实施例的文章数据处理方法的流程图;
图8示出了根据本申请的一个实施例的文章数据处理方法的流程图;
图9示出了根据本申请的一个实施例的从目标对象实体相关联的指定情感倾向的文章中抽取出关键语句的流程图;
图10示出了根据本申请的一个实施例的从指定情感倾向的文章中抽取出关键词的流程图;
图11示出了根据本申请的一个实施例的文章数据处理方法的流程图;
图12示出了根据本申请的一个实施例的个股舆情分析的流程图;
图13示出了根据本申请的一个实施例的抽取修饰词特征的示意图;
图14示出了根据本申请的一个实施例的情感特征分析的流程图;
图15示出了根据本申请的一个实施例的修正情感词特征的示意图;
图16示出了根据本申请的一个实施例的CNN模型的结构示意图;
图17示出了根据本申请的一个实施例的个股利好话题的抽取流程图;
图18示出了根据本申请的一个实施例的舆情关键词的抽取流程图;
图19及图20示出了应用本申请实施例的技术方案得到的终端显示界面的示意图;
图21示出了根据本申请的一个实施例的文章数据处理装置的框图;
图22示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,服务器105可以收集通过终端设备(如图1中所示的智能手机101、平板电脑102或便携式计算机103等)发布的资讯文章,这些资讯文章可以是针对某些对象实体的,比如针对股票、明星、热点话题等。当服务器105收集到终端设备发布的资讯文章之后,可以识别这些资讯文章中所包含的对象实体,然后从资讯文章中提取出情感词特征和针对该情感词特征的修饰词特征,进而根据该情感词特征和该修饰词特征来确定收集到的资讯文章针对该对象实体的情感倾向。可见,由于本申请实施例的技术方案在确定资讯文章的情感倾向时,不仅考虑了资讯文章中包含的情感词特征,而且还考虑了针对该情感词特征的修饰词特征,因此可以通过修饰词特征来调整情感词特征对文章情感倾向的影响,进而能够有效提高对文章情感倾向的识别准确率。
需要说明的是,本申请实施例所提供的文章数据处理方法一般由服务器105执行,相应地,文章数据处理装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的文章数据处理方法。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的文章数据处理方法的流程图,该文章数据处理方法可以由服务器来执行,该服务器可以是图1中所示的服务器105。参照图2所示,该文章数据处理方法至少包括步骤S210至步骤S230,详细介绍如下:
在步骤S210中,识别待处理文章中所包含的对象实体。
在本申请的一个实施例中,待处理文章可以是新闻类资讯文章、实事类资讯文章、评论类的文章、内容交互平台(如微博、朋友圈等)上的文章数据等。
在本申请的一个实施例中,对象实体可以是需要研究的任何事物,其不仅可以表示具体的事物,还能表示抽象的规则、计划或事件等。比如对象实体可以是某只股票、某个明星人物、某个热点话题、某个IP(Intellectual Property,知识产权)实体等。IP从广义上而言包括专利权、商标、著作权、版权,但在游戏、动漫、娱乐、文和影视行业中,IP一般主要是指版权,IP作品指受版权保护的作品,包含但不限制于同名影视作品、文学作品、游戏作品、漫画作品、周边作品等。IP的形式可以多种多样,既可以是一个完整的故事,也可以是一个概念、一个形象甚至一句话,可以应用于音乐、影视、游戏等多个领域。
在本申请的一个实施例中,如图3所示,步骤S210中识别待处理文章中所包含的对象实体的过程,可以包括如下步骤:
步骤S310,根据预设的对象名称库,从所述待处理文章中提取出所述对象名称库中所包含的目标对象名称。
在本申请的一个实施例中,对象名称用于表示对象实体的名称,对象名称库可以是事先根据需要分析的对象实体设置的,也可以是根据所有的对象实体设置的。
在本申请的一个实施例中,当从待处理文章中提取出对象名称库中所包含的目标对象名称之后,还可以对提取出的目标对象名称进行过滤处理。比如可以统计待处理文章中所包含的出现次数大于或等于预定次数的目标词语,即统计待处理文章中包含的高频词汇,然后根据该目标词语与目标对象名称之间的相关性,对目标对象名称进行过滤处理。
具体来说,由于待处理文章中包含的高频词汇与对象名称之间存在关联关系,比如对象名称是“苹果”,该对象名称既可能表示苹果公司,也可能表示水果,若待处理文章中包含的高频词汇有“手机”、“电脑”等,则说明该文章是针对苹果公司而言的;若待处理文章中包含的高频词汇有“品种”、“产地”等,则可以说明该文章是针对水果“苹果”而言的。因此,如果需要分析的对象实体是与苹果公司相关的,那么若文章中的高频词汇是“品种”、“产地”等,那么可以将从待处理文章中提取出的对象名称“苹果”过滤掉。
步骤S320,基于对象名称与对象实体之间的对应关系,将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体。
在本申请的一个实施例中,对象名称与对象实体之间的对应关系可以是一对一的关系,也可以是多对一的关系,即一个对象实体可能有一个或多个名称。比如对象名称“西游记”和“西游”对应的对象实体都是“西游记”。
继续参照图2所示,在步骤S220中,从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征。其中,本申请实施例对图2中所示的步骤S220与步骤S210之间的执行顺序并不做具体限定,比如可以先执行步骤S210,再执行步骤S220;或者先执行步骤S220,再执行步骤S210;当然也可以同时执行步骤S210和步骤S220。
在本申请的一个实施例中,情感词特征是表示文章针对对象实体的情感倾向,比如“高速增长”、“风险预警”等。针对情感词特征的修饰词特征用于对情感词特征的情感倾向进行修饰,比如可以是否定修饰、疑问修饰、反转修饰、程度修饰等。
在本申请的一个实施例中,如图4所示,步骤S220中从待处理文章中提取出情感词特征和针对情感词特征的修饰词特征的过程,可以包括如下步骤:
步骤S410,根据预设的情感词库,从待处理文章中提取出所述情感词库中所包含的情感词,以作为所述情感词特征。
在本申请的一个实施例中,可以统计某个领域或某些领域中比较常见的情感词来生成情感词库。比如,若对象实体是股票,那么可以统计股票领域中比较常见的情感词来生成情感词库。
步骤S420,根据从所述待处理文章中提取出的情感词,识别所述待处理文章中与所述情感词存在预定句法关系的词语。
在申请的一个实施例中,由于修饰词是对情感词进行修饰的,在这种情况下,修饰词与情感词之间通常存在一定的句法关系,比如主谓关系、动宾关系等,因此可以识别与情感词存在预定句法关系的词语,以便于从中提取出修饰词。
步骤S430,从与所述情感词存在预定句法关系的词语中提取修饰词,以作为所述修饰词特征。
在本申请的一个实施例中,从与情感词存在预定句法关系的词语中提取修饰词的过程可以是根据预设的修饰词库进行提取,或者也可以对与情感词存在预定句法关系的词语进行词性分析,进而选择出具有预定词性(如形容词等)的词语作为提取出的修饰词。
继续参照图2所示,在步骤S230中,根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。
在本申请的一个实施例中,待处理文章针对对象实体的情感倾向用于表示待处理文章针对对象实体的评价倾向,比如可以是正向(即正面情感)、中性(即中性情感)、负向(即负面情感)等。
在本申请的一个实施例中,如图5所示,步骤S230中根据情感词特征和修饰词特征确定待处理文章针对对象实体的情感倾向的过程,包括如下步骤S510至步骤S530,详细说明如下:
在步骤S510中,根据待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,得到所述情感词特征的修正权重。
在本申请的一个实施例中,修饰词特征通常存在修饰属性,比如否定修饰、反转修饰、疑问修饰、程度修饰等,由于修饰属性的不同,其对情感词特征修饰后的情感倾向也会发生变化,因此可以根据修饰词特征来调整修饰词特征所修饰的情感词特征的权重,有利于提高确定的文章情感倾向的准确性。
在本申请的一个实施例中,若修饰词特征的修饰属性为否定修饰或反转修饰,则将修饰词特征所修饰的情感词特征的权重调整为目标词特征的权重,该目标词特征的情感倾向与所述情感词特征的情感倾向相反。
需要说明的是,否定修饰和反转修饰可以将正向的情感词特征转换为负向的情感词特征,或者将负向的情感词特征转换为正向的情感词特征。比如“xx公司业绩未能实现高速增长”,其中“高速增长”是正向情感词特征,但添加了否定修饰“未能”就变为负向情感词;再如“xx公司撤销风险预警提示”,当负向情感词“风险预警”被“撤销”这种反转词修饰的时候,就变为跟原来相反的情感倾向。
在本申请的一个实施例中,在修饰词特征的修饰属性为否定修饰或反转修饰的情况下,若修饰词特征所修饰的情感词特征为正向,那么目标词特征的情感倾向即为负向;若修饰词特征所修饰的情感词特征为负向,那么目标词特征的情感倾向即为正向。
比如,假设正向情感词特征的权重为1、负向情感词特征的权重为-1,那么在修饰词特征的修饰属性为否定修饰或反转修饰的情况下,若修饰词特征所修饰的情感词特征为正向,则将该情感词特征的权重由1调整为-1;若修饰词特征所修饰的情感词特征为负向,则将该情感词特征的权重由-1调整为1。
再如,假设正向情感词特征的权重为3、负向情感词特征的权重为1,那么在修饰词特征的修饰属性为否定修饰或反转修饰的情况下,若修饰词特征所修饰的情感词特征为正向,则将该情感词特征的权重由3调整为1;若修饰词特征所修饰的情感词特征为负向,则将该情感词特征的权重由1调整为3。
在本申请的一个实施例中,若修饰词特征的修饰属性为疑问修饰,则将修饰词特征所修饰的情感词特征的权重置为设定值。
需要说明的是,疑问修饰可以将正向的情感词特征或负向的情感词特征转换为中性的情感词特征。比如“补贴减退,xx行业是否还能高歌猛进”,其中“高歌猛进”这个正向情感词在被疑问修饰之后变为了中性情感词。
在本申请的一个实施例中,将修饰词特征所修饰的情感词特征的权重置为设定值可以是将修饰词特征所修饰的情感词特征的权重置为中性情感词特征的权重。比如,假设正向情感词特征的权重为1、负向情感词特征的权重为-1、中性情感词特征的权重为0,那么在修饰词特征的修饰属性为疑问修饰的情况下,将修饰词特征所修饰的情感词特征的权重置为0。再如,假设正向情感词特征的权重为3、负向情感词特征的权重为1、中性情感词特征的权重为2,那么在修饰词特征的修饰属性为疑问修饰的情况下,将修饰词特征所修饰的情感词特征的权重置为2。
在本申请的一个实施例中,若修饰词特征的修饰属性为程度修饰,则根据修饰词特征对情感词特征的修饰程度对情感词特征的权重进行调整。比如若修饰词特征对情感词特征的修饰程度越高,则对情感词特征的权重调整越大。具体地,比如正向情感词特征的权重区间为1-5,正向情感词特征“增长”的初始权重为1,那么当修饰词特征“略微”修饰正向情感词特征“增长”时,可以将情感词特征“增长”的权重调整为2;当修饰词特征“飞速”修饰正向情感词特征“增长”时,可以将情感词特征“增长”的权重调整为4。
继续参照图5所示,在步骤S520中,根据所述情感词特征的修正权重计算所述待处理文章的情感得分。
在本申请的一个实施例中,可以将待处理文章所包含的各个情感词特征的修正权重进行累加来得到待处理文章的情感得分。但是需要注意的是,由于待处理文章的各个段落所包含的情感词特征的数量是不相同的,因此如果某个/某些段落中包含的情感词特征较多,那么最后计算得到的待处理文章的情感得分会受到这个/这些段落的影响较大,进而可能会导致计算得到的待处理文章的情感得分不能客观地体现文章实际的情感倾向。
基于上述实施例中存在的问题,在本申请的一个实施例中,如图6所示,步骤S520中根据情感词特征的修正权重计算待处理文章的情感得分的过程,可以包括如下步骤:
步骤S610,确定所述待处理文章的各个段落所包含的各个情感词特征,根据所述各个情感词特征的修正权重计算所述各个段落的情感得分。
在本申请的一个实施例中,可以将待处理文章的各个段落所包含的情感词特征的修正权重进行累加,得到各个段落的情感得分。或者也可以根据各个段落所包含的情感词特征的修正权重来计算其它的统计值(如方差、平方差等),以得到各个段落的情感得分。
步骤S620,根据所述各个段落的情感得分确定所述各个段落的情感倾向。
在本申请的一个实施例中,不同的情感得分对应于不同的情感倾向,比如可以设置正向情感对应的得分区间、负向情感对应的情感得分区间和中性情感对应的得分区间,然后根据各个段落的情感得分所处的区间来确定各个段落的情感倾向。
步骤S630,根据所述各个段落的情感倾向计算所述待处理文章的情感得分。
在本申请的一个实施例中,可以对待处理文章中的各个段落的情感倾向进行统计,然后根据各种情感倾向的段落数量来确定待处理文章的情感得分,比如若正向情感的段落数量最多,则可以将正向情感的段落数量作为待处理文章的情感得分;若负向情感的段落数量最多,则可以将负向情感的段落数量的相反数作为待处理文章的情感得分;若中性情感的段落数量最多,则可以将待处理文章的情感得分置为设定值(比如0)。
在本申请的一个实施例中,还可以根据各个段落的情感倾向确定各个段落的权重,然后根据各个段落的权重来计算待处理文章的情感得分。比如正向情感的段落权重为1、负向情感的段落权重为-1、中性情感的段落权重为0,那么可以将待处理文章所包含的各个段落的权重进行累加来计算得到待处理文章的情感得分。
图6所示实施例的技术方案能够先确定各个段落的情感倾向,然后根据各个段落的情感倾向计算得到待处理文章的情感得分,相比于直接将各个情感词特征的修正权重进行累加来计算待处理文章的情感得分的方案,图6所示实施例的技术方案使得计算得到的待处理文章的情感得分能够更加客观和准确地反映整篇文章实际的情感倾向。
继续参照图5所示,在步骤S530中,基于所述待处理文章的情感得分确定所述待处理文章针对所述对象实体的情感倾向。
在本申请的一个实施例中,可以预先设置各种情感倾向所对应的得分区间,进而可以根据待处理文章的情感得分所处的得分区间来确定待处理文章的情感倾向。比如,若待处理文章的情感得分处于正向情感所对应的得分区间,则确定待处理文章针对对象实体的情感倾向为正向;若待处理文章的情感得分处于负向情感所对应的得分区间,则确定待处理文章针对对象实体的情感倾向为负向;若待处理文章的情感得分处于中性情感所对应的得分区间,则确定待处理文章针对所述对象实体的情感倾向为中性。
基于图5所示实施例的技术方案,在本申请的一个实施例中,如图7所示,还可以包括如下步骤:
步骤S710,若基于待处理文章的情感得分未确定出所述待处理文章针对所述对象实体的情感倾向是正向还是负向,则通过情感倾向识别模型识别所述待处理文章针对所述对象实体的情感倾向。
在本申请的一个实施例中,情感倾向识别模型可以是机器学习模型,比如可以是XGBoost(eXtreme Gradient Boosting,极端梯度提升)模型,CNN(Convolutional NeuralNetworks,卷积神经网络)模型等。
在本申请的一个实施例中,假设情感倾向识别模型是XGBoost模型,那么在训练该模型时,需要针对多篇样本文章提取特征向量,然后根据样本文章的特征向量和样本文章的情感倾向生成训练样本,进而通过该训练样本来对XGBoost模型进行训练,当训练完成之后,可以针对待处理文章提取出特征向量,然后将待处理文章的特征向量输入至训练好的XGBoost模型中,进而由该模型输出预测得到的情感倾向。
在本申请的一个实施例中,假设情感倾向识别模型是CNN模型,那么在训练该模型时,可以根据多篇样本文章和样本文章的情感倾向生成训练样本,进而通过该训练样本来对CNN模型进行训练,当训练完成之后,可以将待处理文章输入至训练好的CNN模型中,进而由该模型输出预测得到的情感倾向。
在本申请的一个实施例中,如果情感倾向识别模型只包含了一个识别模型,那么直接通过这一个识别模型来识别待处理文章的情感倾向即可。如果情感倾向识别模型包括多个识别模型,那么若这多个识别模型中的一个识别模型识别出待处理文章针对对象实体的情感倾向为正向或负向,则确定通过情感倾向识别模型识别出了该待处理文章针对对象实体的情感倾向;若这多个识别模型中的一个识别模型未识别出待处理文章针对对象实体的情感倾向为正向还是负向,则通过这多个识别模型中的下一个识别模型继续进行识别。比如,可以先通过XGBoost模型进行识别,如果通过XGBoost模型未识别出待处理文章针对对象实体的情感倾向是正向还是负向,则通过CNN模型再次进行识别;如果通过XGBoost模型识别出待处理文章针对对象实体的情感倾向是正向还是负向,则可以直接输出识别结果即可,无需再通过CNN模型进行识别。
步骤S720,若根据所述情感倾向识别模型的识别结果不能确定所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则确定所述待处理文章针对所述对象实体的情感倾向为中性。
在本申请的一个实施例中,假设通过多个识别模型都不能确定待处理文章针对对象实体的情感倾向是正向还是负向,那么可以将待处理文章针对对象实体的情感倾向确定为中性。
在确定文章针对对象实体的情感倾向之后,如图8所示,在本申请的一个实施例中,还可以包括如下步骤S810和步骤S820,详细介绍如下:
在步骤S810中,根据与各个对象实体相关联的文章数量及情感倾向,确定待推荐的目标对象实体。
在本申请的一个实施例中,在介绍如何确定待推荐的目前实体之前,先介绍如下几个指标:
热度:表示在预定时间段内出现的与对象实体相关的文章数量。
舆情指数:表示与对象实体相关的情感倾向为正向的文章占比与情感倾向为负向的文章占比之间的差值。比如舆情指数可以是:(情感倾向为正向的文章数量-情感倾向为负向的文章数量)/(情感倾向为正向的文章数量+情感倾向为负向的文章数量)。
正向情感指数:表示与对象实体相关的情感倾向为正向的文章占比。比如正向情感指数可以是:情感倾向为正向的文章数量/(情感倾向为正向的文章数量+情感倾向为中性的文章数量+情感倾向为负向的文章数量)。
在本申请的一个实施例中,可以将热度排名前n1位的第一对象实体集合作为待推荐的目标对象实体;或者将舆情指数排名前n2位的第二对象实体集合作为待推荐的目标对象实体;或者将正向情感指数排名前n3位的第三对象实体集合作为待推荐的目标对象实体。
在本申请的一个实施例中,可以获取热度排名前n1位的第一对象实体集合和舆情指数排名前n2位的第二对象实体集合,然后将第一对象实体集合和第二对象实体结合的交集作为待推荐的目标对象实体。
在本申请的一个实施例中,可以获取热度排名前n1位的第一对象实体集合和正向情感指数排名前n3位的第三对象实体集合,然后将第一对象实体集合和第三对象实体结合的交集作为待推荐的目标对象实体。
在本申请的一个实施例中,可以获取舆情指数排名前n2位的第二对象实体集合和正向情感指数排名前n3位的第三对象实体集合,然后将第二对象实体集合和第三对象实体结合的交集作为待推荐的目标对象实体。
在本申请的一个实施例中,可以获取热度排名前n1位的第一对象实体集合,从该第一对象实体集合中获取舆情指数排名前n2位的第二对象实体集合,从该第二对象实体集合中获取正向情感指数排名前n3位的对象实体作为待推荐的目标对象实体。
在本申请的一个实施例中,可以获取热度排名前n1位的第一对象实体集合,从该第一对象实体集合中获取正向情感指数排名前n2位的第二对象实体集合,从该第二对象实体集合中获取舆情指数排名前n3位的对象实体作为待推荐的目标对象实体。
在本申请的一个实施例中,可以获取热度排名前n1位的第一对象实体集合,从第一对象实体集合中获取舆情指数或正向情感指数排名前n2位的对象实体作为待推荐的目标对象实体。
继续参照图8所示,在步骤S820中,将待推荐的目标对象实体推荐给用户。
在本申请的一个实施例中,将待推荐的目标对象实体推荐给用户可以是通过发送推送消息的方式进行推荐,或者展示在相应的推荐位置上进行推荐。
在本申请的一个实施例中,在确定待推荐的目标对象实体之后,还可以从目标对象实体相关联的指定情感倾向的文章中抽取出关键语句,将该关键语句推荐给用户。如图9所示,在本申请的一个实施例中,从目标对象实体相关联的指定情感倾向的文章中抽取出关键语句的过程,可以包括如下步骤:
步骤S910,从指定情感倾向的文章中抽取出包含有情感词特征的目标语句。
在本申请的一个实施例中,可以将指定情感倾向的文章中的句子进行打散,然后抽取出包含有情感词特征的目标语句。或者也可以直接从文章中抽取出包含有情感词特征的目标语句。指定情感倾向的文章可以是正向情感倾向的文章,或者也可以是负向情感倾向的文章。
步骤S920,基于所述目标语句所包含的情感词特征之间的相似度,对所述目标语句进行聚类,得到多个第一类簇。
在本申请的一个实施例中,如果两个情感词特征之间的相似度较高,则可以将包含这两个情感词的语句聚为一个类簇。情感词特征之间的相似度可以通过计算情感词特征之间的距离来确定,比如欧几里得距离(Euclidean Distance)、海明距离(Hammingdistance)等,或者通过计算余弦相似度(Cosine Similarity)等方式来确定情感词特征之间的相似度。
步骤S930,根据所述多个第一类簇中所包含的目标语句的相似度,对所述多个第一类簇进行合并处理,得到至少一个第二类簇。
在本申请的一个实施例中,可以逐一计算两个第一类簇中包含的语句之间的相似度,然后将计算得到的最大相似度作为两个第一类簇之间的相似度。其中,计算两个语句之间的相似度也可以通过计算这两个语句之间的距离(如欧几里得距离、海明距离等)来确定,或者也通过计算余弦相似度的方式来确定等。
步骤S940,从所述至少一个第二类簇中选择目标类簇,并从所述目标类簇中抽取出所述关键语句。
在本申请的一个实施例中,可以将至少一个第二类簇中包含的语句最多的类簇作为目标类簇。
在本申请的一个实施例中,在从目标类簇中抽取出关键语句时,可以考虑目标类簇中的语句出现的频次、长度、包含的情感词数量、包含的对象实体、是否与文章标题相关等维度来进行选择。如可以针对各个维度进行量化处理,然后结合针对各个维度设置的权重来计算语句的得分,最后根据得分来选择关键语句。
图9所示实施例的技术方案使得能够从目标对象实体相关联的指定情感倾向的文章中自动抽取出关键语句,并且能够提高抽取出的关键语句的准确性。
在本申请的一个实施例中,在确定待推荐的目标对象实体之后,还可以从目标对象实体相关联的指定情感倾向的文章中抽取出关键词,将该关键词推荐给用户。如图10所示,在本申请的一个实施例中,从指定情感倾向的文章中抽取出关键词的过程,可以包括如下步骤:
步骤S1001,对指定情感倾向的文章进行分词处理,并对分词处理得到的词语进行过滤,得到候选词。
在本申请的一个实施例中,可以根据停用词表对分词处理得到的词语进行过滤,即过滤掉停用词表中包含的词语。当然,在对分词处理得到的词语进行过滤处理还可以是去重处理等。
步骤S1002,计算所述候选词的重要性得分,根据所述指定情感倾向的文章的标题与所述候选词之间的包含关系确定所述候选词的相关性得分。
在本申请的一个实施例中,可以通过打分模型来计算候选词的重要性得分,比如可以通过TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率指数)算法模型、TextRank算法模型、Word2vec(用来产生词向量的相关模型)算法模型等来计算候选词的重要性得分。
在本申请的一个实施例中,可以通过多个打分模型分别对候选词进行打分,然后通过加权求和的方式计算得到每个候选词的重要性得分。
在本申请的一个实施例中,根据目标对象实体相关联的文章的标题与候选词之间的包含关系确定候选词的相关性得分具体可以是:如果目标对象实体相关联的文章的标题中包含了某个候选词,那么该候选词的相关性得分可以为第一值(比如可以为大于1的值);如果目标对象实体相关联的文章的标题中未包含某个候选词,那么该候选词的相关性得分可以为第二值(比如可以为1)。
步骤S1003,根据所述候选词的重要性得分和所述相关性得分,计算所述候选词的最终得分。
在本申请的一个实施例中,可以将候选词的重要性得分与相关性得分的乘积作为候选词的最终得分,或者将候选词的重要性得分与相关性得分的和值作为候选词的最终得分。
步骤S1004,根据所述候选词的最终得分选择预定数量个候选词作为所述关键词。
在本申请的一个实施例中,可以按照候选词的最终得分由高到低的顺序选择预定数量个候选词作为关键词。如果选择出的关键词存在含义相近的多个词,那么可以仅选择这多个词中的一个。
图10所示实施例的技术方案使得能够从目标对象实体相关联的文章中自动抽取出关键词,并且能够提高抽取出的关键词的准确性。
以下以对象实体是股票实体、待处理文章是股票相关的文章为例,对本申请实施例的技术方案进行详细阐述:
在本申请的一个实施例中,如图11所示,本申请实施例的技术方案可以包括如下三个部分:个股舆情分析部分1101、新闻热股选择部分1102和话题与关键词抽取部分1103。以下分别对这几部分内容进行阐述:
个股舆情分析部分1101:
在本申请的一个实施例中,如图11所示,个股舆情分析部分1101的主要功能包括股票实体识别、文章情感分析和个股相关文章舆情统计。具体而言,个股舆情分析部分1101主要是用于针对每篇文章,以段落为单位来分析情感倾向以及该情感对应的股票实体,然后将段落进行综合得到整篇文章涉及的股票实体及其利好倾向/利空倾向。其中,利好表示致使股票行情上涨的信息,利空表示能够促使股价下跌的信息。
在本申请的一个实施例中,如图12所示,个股舆情分析部分1101可以包括步骤S1201(即特征抽取步骤)、步骤S1202(即情感分类步骤)和步骤S1203(即舆情统计步骤)。其中,步骤S1201中特征抽取过程主要是用于抽取情感特征,其中,情感特征不仅包含了情感词特征,而且包含了修饰词特征。修饰词特征可以通过5个(仅为示例)子模块抽取得到,抽取出的修饰词特征包含了否定修饰特征、疑问修饰特征、反转词修饰特征、程度词修饰特征、监管类实体词特征等5个特征簇。当抽取出修饰词特征之后,可以通过修饰词特征修正情感词特征对股票实体的情感倾向。
在本申请的一个实施例中,包含否定修饰的语句比如可以是“xx公司业绩未能实现高速增长”,其中“高速增长”是正向情感词,但添加了否定修饰就变为负向情感词,否定修饰特征可以通过否定元素抽取工具实现。
在本申请的一个实施例中,包含疑问修饰的语句比如可以是:“补贴减退,xx行业是否还能高歌猛进”,其中“高歌猛进”这个正向词在被疑问修饰后变为了中性词,疑问修饰特征可以通过疑问元素抽取工具实现。
在本申请的一个实施例中,包含反转词修饰的语句比如可以是“xx公司撤销风险预警提示”,其中“风险预警”这个负向词被“撤销”这种反转词修饰后变为了跟原来相反的情感倾向,反转词修饰特征可以根据人工总结的一个词表抽取而来。
在本申请的一个实施例中,包含程度词特征的语句比如可以是“xx业绩略微增长0.5%”、“xx业绩大增0.5%”,其中,这两个语句通过程度词特征的修饰,使得前者情感偏中性,后者情感则是较强的正面倾向。程度词修饰特征可以根据人工总结的程度词表抽取而来。
在本申请的一个实施例中,包含监管类实体词特征的语句比如可以是“证监会大力推进xx监管事项”,其中“大力推进”虽为正向词,但对于部分个股而言,监管类的正向则是该个股偏负向的舆情。
在本申请的一个实施例中,情感词特征的抽取可以是根据情感词表来进行抽取的,在抽取得到情感词特征之后,可以通过LTP(Language Technology Platform,语言技术平台)依存句法分析模块得到与情感词特征存在相应句法关系(如主谓关系、动宾关系等)的词语,然后从这些词语中抽取得到情感词特征的修饰词特征。比如,如图13所示,否定修饰特征可以通过LTP依存句法分析模块得到与情感词特征存在相应句法关系的词语之后,通过否定元素抽取工具抽取得到的;疑问修饰特征可以通过LTP依存句法分析模块得到与情感词特征存在相应句法关系的词语之后,通过疑问元素抽取工具抽取得到的;反转词修饰特征可以通过LTP依存句法分析模块得到与情感词特征存在相应句法关系的词语之后,通过人工总结的反转词表(该反转词表比如可以包含“撤销”、“终止”等反转词)抽取得到的;程度词修饰特征可以直接通过人工总结的反转词表(该反转词表比如可以包含“些微”、“少许”、“稍”等程度词)抽取得到,或者也可以先通过LTP依存句法分析模块得到与情感词特征存在相应句法关系的词语之后,通过人工总结的反转词表抽取得到;监管类实体词特征可以通过人工总结的监管类实体词表(该监管类实体词表可以包括“证监会”、“银监会”、“发审委”等监管类实体词)抽取得到。
在本申请的一个实施例中,情感词特征既可以是单个词语,也可以是多个词语组成的词组。
在本申请的一个实施例中,图12中所示的步骤S1202的情感分类过程可以包括股票实体识别、情感特征分析、XGBoost模型处理过程和CNN模型处理过程等。
在本申请的一个实施例中,股票实体识别的主要过程包括:
1、根据基础个股名称词典,从文章中抽取出现的股票名词,并归一化到统一的股票实体上。比如将从文章中抽取到的股票名词“阿里巴巴”、“阿里”归一化为统一的股票实体“阿里巴巴”。
2、对得到的股票实体进行消除歧义处理。具体地,可以通过文章上下文来判定抽取出来的名词是否属于股票实体,如“苹果”只有在特定上下文语境下是指苹果公司,其它情况指的是水果。在本申请的实施例中,可以统计文章上下文语境中的高频特征词作为判定依据,比如文章中高频特征词是“手机”、“电脑”等,那么文章中的“苹果”可能是指苹果公司。
在本申请的一个实施例中,当识别出股票实体之后,可以基于识别出的股票实体和抽取得到的特征进行文章情感分析。文章情感分析的结果主要是通过情感特征分析、XGBoost模型和CNN模型三层结果融合而来。
在本申请的一个实施例中,情感特征分析、XGBoost模型和CNN模型的融合策略可以包括:优先采用情感特征分析的结果,若情感特征分析的结果无法判断出文章是正向情感倾向还是负向情感倾向,则采用XGBoost模型的分类结果,如果XGBoost模型的分类结果仍然无法判断出文章是正向情感倾向还是负向情感倾向,则采用CNN模型的分类结果,若CNN模型的分类结果依然无法判断出文章是正向情感倾向还是负向情感倾向,则判定文章为中性情感倾向。
在本申请的一个实施例中,情感特征分析过程主要用于在上述实施例中的特征抽取基础上,根据修饰词特征对情感词特征的权重进行修正,然后计算得到文章的情感倾向。如图14所示,主要包括如下步骤:
步骤S1401,情感词权重修正。
在本申请的一个实施例中,情感词权重修正是根据修饰词对每个情感词的初始权重进行调整。假设正向情感词的初始权重为正、负向情感词的初始权重为负、中性情感词的初始权重为0,那么如图15所示,情感词权重修正主要包括:对于被否定词修饰的情感词,将其权重反转,即将该情感词的初始权重乘以-1;对于被疑问词修饰的情感词,将其权重置为0;对于被反转词修饰的情感词,将其权重反转,即将该情感词的初始权重乘以-1;对于被程度词修饰的情感词,可以根据程度词的修饰程度对该情感词的初始权重进行调整,比如可以将程度词修饰的情感词的初始权重乘以一个系数,该系数的大小与程度词的修饰的程度成正相关关系,即修饰的程度越高,则该系数的值越大。
步骤S1402,情感词统计得段落情感倾向。
在本申请的一个实施例中,在对情感词的权重修正之后,可以将文章的各个段落所包含的情感词的权重进行累加,进而得到各个段落的情感得分,然后根据各个段落的情感得分确定各个段落的情感倾向。比如若正向情感词的权重为1、中性情感词的权重为0、负向情感词的权重为-1,那么若段落的情感得分大于3,则说明该段落的情感倾向为正;若段落的情感得分小于-3,则说明该段落的情感倾向为负;若段落的情感得分大于或等于-3且小于或等于3,则说明该段落的情感倾向为中性。
步骤S1403,段落情感统计得文章情感倾向。
在本申请的一个实施例中,可以根据各个段落的情感倾向确定各个段落的权重,然后通过累加各个段落的权重来计算得到文章的情感得分,进而根据文章的情感得分来确定文章的情感倾向。比如若段落的情感倾向为正,则该段落的权重为1;若段落的情感倾向为中性,则该段落的权重为0;若段落的情感倾向为负,则该段落的权重为-1,进而可以通过累加各个段落的权重来计算得到文章的情感得分,并根据文章的情感得分所处的区间确定文章的情感倾向。
在本发明的一个实施例中,也可以直接将各个段落的情感得分进行累加来得到文章的情感得分,然后根据文章的情感得分所处的区间来确定文章的情感倾向。
在本申请的一个实施例中,如果通过情感特征分析的方式不能确定文章的情感倾向是正向还是负向,则可以通过XGBoost模型来进行确定。在本申请的实施例中,XGBoost模型可以使用8539个情感词(本申请的一个实施例中提取出的情感词数量,此处仅为示例)、否定修饰词、疑问修饰词、正向情感词对应的反转词、负向情感词对应的反转词、正向情感词对应的程度词、负向情感词对应的程度词、监管类词、文章段落数、文章股票实体个数等共8755个特征(本申请的一个实施例中提取出的特征数量,此处仅为示例),采用one-hot(中文释义为“独热”,一种用于表示字、词的方式)embedding(词嵌入)的方式训练得到XGBoost模型。具体是根据样本文章的特征向量和样本文章的情感倾向生成训练样本,然后通过该训练样本来对XGBoost模型进行训练。当对XGBoost模型训练之后,可以将需要确定情感倾向的文章的特征输入至XGBoost模型中,然后XGBoost模型可以输出该文章属于某种情感倾向的得分。
在本申请的一个实施例中,为了保证确定出的文章情感倾向的准确率,可以将XGBoost模型输出的正向倾向和负向倾向得分较低的文章依然归为中性文章,以通过CNN模型进行进一步确定。
在本申请的一个实施例中,如图16所示,CNN模型的架构包括:用于提取文章特征的词表征(Word Representation)层、用于进行卷积运算的卷积层(convolution layer)、用于缩小参数矩阵的尺寸以减小计算量的最大池化层(Max Pooling layer)、用于融合特征的连接层(Concatenate layer)、用于进行分类处理的稠密层(Dense layer)和进行归一化处理输出结果的归一化层(softmax layer)。CNN模型在训练时,可以根据多篇样本文章和样本文章的情感倾向生成训练样本,然后通过该训练样本来对CNN模型进行训练,当训练完成之后,可以将待处理文章输入至训练好的CNN模型中,进而由该模型输出预测得到的情感倾向。
基于本申请上述实施例的技术方案,在本申请的一个实施例中,通过958个测试样本(即958篇文章)对本申请实施例的技术方案的效果进行了测试,具体测试结果如表1所示:
表1
表1中示出了通过情感特征分析的方式来确定文章情感倾向时的机器判定结果(即通过情感特征分析的方式输出的结果)与标注的结果(即文章实际的情感倾向)之间的差异;并且示出了通过情感特征分析和XGBoost模型来确定文章情感倾向时的机器判定结果(即通过情感特征分析及XGBoost模型处理后输出的结果)与标注的结果(即文章实际的情感倾向)之间的差异;同时也示出了通过情感特征分析、XGBoost模型和CNN模型来确定文章情感倾向时的机器判定结果(即通过情感特征分析、XGBoost模型及CNN模型处理后输出的结果)与标注的结果(即文章实际的情感倾向)之间的差异。
参照表1可知,只通过情感特征分析的方式确定出的文章情感倾向的准确性最高,但是召回率较低;而情感特征分析、XGBoost模型和CNN模型共同确定的方案虽然召回率较高,但是准确率较低,因此在实际使用时,可以根据对准确率和召回率的要求来选择相应的方式来确定文章针对股票实体的情感倾向。
在本申请的一个实施例中,图12中所示的步骤S1203的舆情统计过程主要是根据上述实施例中确定得到的各个文章针对股票实体的情感倾向来统计各个股票实体的舆情,进而可以展示股票的舆情走势,比如展示一段时间内(如10天)的舆情变化和舆情排名信息等。
以下介绍图11中所示的新闻热股选择部分1102:
在本申请的一个实施例中,新闻热股选择部分1102主要是基于统计量进行热股甄选,然后基于舆情分析选择出利好个股。具体可以依据个股的三个指标来选择利好热股,这三个指标包括热度、舆情指数和利好占比。其中,“热度”表示固定时间段内个股的新闻总量;“舆情指数”即为(正面情感数目-负面情感数目)/(正面情感数目+负面情感数目);“利好占比”即为正面情感数目/(正面情感数目+中性情感数目+负面情感数目)。
在本申请的一个实施例中,可以选择热度排名前50、舆情指数排名前50和利好占比排名前50,然后通过取交集的方式来选择出利好的股票实体列表(该实施例中的具体数值仅为示例)。
以下介绍图11中所示的话题与关键词抽取部分1103:
在本申请的一个实施例中,话题与关键词抽取部分1103主要包括个股利好话题抽取过程和个股舆情关键词抽取过程。
如图17所示,在本申请的一个实施例中,个股利好话题抽取过程即是从个股相关的文章中抽取出关键语句,可以包括如下步骤:
步骤S1701,基于情感词的句子聚类。
在本申请的一个实施例中,基于上述实施例中甄选出的利好个股之后,可以获取该个股一段时间内(如当天)的所有利好新闻文章,将这些利好新闻文章打散为句子,并抽取出包含有情感词的句子,然后根据情感词之间的相似度来将包含情感词的句子进行聚类。
步骤S1702,基于句子相似度的类簇聚类。
在本申请的一个实施例中,在对句子进行聚类得到多个类簇之后,可以逐一计算两个类簇中包含的语句之间的相似度,然后将计算得到的最大相似度作为两个类簇之间的相似度,进而基于类簇之间的相似度来对类簇进行进一步聚类处理。
步骤S1703,选择类簇中的代表句子作为个股利好话题。
在本申请的一个实施例中,可以从包含句子最多的类簇中选择代表句子(即关键语句)作为个股利好话题。其中,在选择代表句子时,可以考虑类簇中的各个语句出现的频次、长度、包含的情感词数量、包含的对象实体、是否与文章标题相关等维度来进行综合选择。比如,可以针对各个维度进行量化处理,然后结合针对各个维度设置的权重来计算语句的得分,最后根据得分来选择代表句子。
如图18所示,在本申请的一个实施例中,个股舆情关键词抽取过程可以包括如下步骤:
步骤S1801,对文章正文进行分词处理,并去除其中的停用词得到候选词集合Sseg。
在本申请的一个实施例中,可以采用分词器对文章正文进行分词处理,然后根据停用词表来过滤掉其中的停用词。
步骤S1802,根据得到的候选词和文章标题进行相关性计算,得到各个候选词的相关性得分。
在本申请的一个实施例中,对于候选词集合Sseg中的每个候选词wordi,如果其未出现在文章标题中,则其相关性得分relei为1;如果其出现在文章标题中,则其相关性得分relei设为大于1的值。该实施例中具体数值即为示例。
需要说明的是,本申请实施例对步骤S1801和步骤S1802的执行顺序并不做具体限定,比如可以先执行步骤S1801,再执行步骤S1802;或者先执行步骤S1802,再执行步骤S1801;或者也可以同时执行步骤S1801和步骤S1802。
步骤S1803,通过多个打分模型对各个候选词进行打分。
在本申请的一个实施例中,比如可以通过TF-IDF算法模型、TextRank算法模型、Word2vec算法模型来对各个候选词进行打分,得到各个候选词的三个分数分别为:s1、s2、s3。
步骤S1804,根据多个打分模型的打分结果计算得到各个候选词的重要性得分。
在本申请的一个实施例中,各个候选词的重要性得分其中wj表示分数sj的权重,impi表示第i个候选词的重要性得分。
步骤S1805,根据各个候选词的重要性得分和相关性得分计算各个候选词的最终得分。
在本申请的一个实施例中,各个候选词的最终得分可以通过表示为:final_scorei=impi×relei,其中final_scorei表示第i个候选词的最终得分。
步骤S1806,根据各个候选词的最终得分进行后处理,最终输出得到的关键词。
在本申请的一个实施例中,对各个候选词进行后处理包含:(a)去重处理,即相同的候选词仅保留一个;(b)词性筛选,即筛选出能够用于展示单词,如名词、动词、形容词;(c)排序,即对候选词按最终打分final_scorei降序排列;(d)按照final_scorei降序的顺序,输出top k个单词,k为输出的需要展示的关键词个数。考虑到展示关键词时的多样性,可以针对意思相近的关键词仅展示其中一个。
图18所示实施例的技术方案可以结合多个打分模型的打分结果以及候选词与文章标题之间的关系来从文章中抽取关键词,有效提高了抽取出的关键词的准确性。
图19及图20示出了应用本申请实施例的技术方案得到的终端显示界面的示意图。参照图19所示,在本申请的一个实施例中,可以在应用程序的选股界面上显示股票列表1901,股票列表1901中的每条信息包含有:股票名称、与股票相关的舆情文章1902、舆情关键词1903,以及统计得到的舆情占比1904等。如图20所示,当选择任一股票之后,可以显示出该股票的详情界面,该界面中显示有舆情统计信息2001、舆情关键词2002、相关的文章信息,以及从文章信息中抽取出的关键语句2003等。
在本申请的一个实施例中,如图20所示,当用户点击关键语句2003附近的“定位查看”控件时,可以跳转到该文章的显示界面,并且直接定位到关键语句所在的位置,以便于用户阅读文章中的关键语句,降低用户阅读的时间成本。
以上实施例中以对象实体是股票实体为例对本申请实施例的技术方案进行了阐述,需要说明的是,在本申请的其它实施例中,对象实体也可以是其它实体,比如可以是某个明星人物、某个热点话题、某个IP实体等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文章数据处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文章数据处理方法的实施例。
图21示出了根据本申请的一个实施例的文章数据处理装置的框图。
参照图21所示,根据本申请的一个实施例的文章数据处理装置2100,包括:识别单元2102、第一处理单元2104和第二处理单元2106。
其中,识别单元2102用于识别待处理文章中所包含的对象实体;第一处理单元2104用于从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;第二处理单元2106用于根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。
在本申请的一些实施例中,识别单元2102配置为:根据预设的对象名称库,从所述待处理文章中提取出所述对象名称库中所包含的目标对象名称;基于对象名称与对象实体之间的对应关系,将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体。
在本申请的一些实施例中,识别单元2102还用于:在将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体之前,统计所述待处理文章中所包含的出现次数大于或等于预定次数的目标词语;根据所述目标词语与所述目标对象名称之间的相关性,对所述目标对象名称进行过滤处理。
在本申请的一些实施例中,第一处理单元2104配置为:根据预设的情感词库,从所述待处理文章中提取出所述情感词库中所包含的情感词,以作为所述情感词特征;根据从所述待处理文章中提取出的情感词,识别所述待处理文章中与所述情感词存在预定句法关系的词语;从与所述情感词存在预定句法关系的词语中提取修饰词,以作为所述修饰词特征。
在本申请的一些实施例中,第二处理单元2106包括:调整单元,用于根据所述待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,得到所述情感词特征的修正权重;情感得分计算单元,用于根据所述情感词特征的修正权重计算所述待处理文章的情感得分;确定单元,用于基于所述待处理文章的情感得分确定所述待处理文章针对所述对象实体的情感倾向。
在本申请的一些实施例中,所述调整单元配置为:若所述修饰词特征的修饰属性为否定修饰或反转修饰,则将所述修饰词特征所修饰的情感词特征的权重调整为目标词特征的权重,所述目标词特征的情感倾向与所述情感词特征的情感倾向相反;若所述修饰词特征的修饰属性为疑问修饰,则将所述修饰词特征所修饰的情感词特征的权重置为设定值;若所述修饰词特征的修饰属性为程度修饰,则根据所述修饰词特征对所述情感词特征的修饰程度对所述情感词特征的权重进行调整。
在本申请的一些实施例中,情感得分计算单元配置为:确定所述待处理文章的各个段落所包含的各个情感词特征,根据所述各个情感词特征的修正权重计算所述各个段落的情感得分;根据所述各个段落的情感得分确定所述各个段落的情感倾向;根据所述各个段落的情感倾向计算所述待处理文章的情感得分。
在本申请的一些实施例中,所述确定单元配置为:若所述待处理文章的情感得分处于正向情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为正向;若所述待处理文章的情感得分处于负向情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为负向;若所述待处理文章的情感得分处于中性情感所对应的得分区间,则确定所述待处理文章针对所述对象实体的情感倾向为中性。
在本申请的一些实施例中,第二处理单元2106还用于:若基于所述待处理文章的情感得分未确定出所述待处理文章针对所述对象实体的情感倾向是正向还是负向,则通过情感倾向识别模型识别所述待处理文章针对所述对象实体的情感倾向;若根据所述情感倾向识别模型的识别结果不能确定所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则确定所述待处理文章针对所述对象实体的情感倾向为中性。
在本申请的一些实施例中,在所述情感倾向识别模型包括多个识别模型的情况下,第二处理单元2106配置为:若所述多个识别模型中的一个识别模型识别出所述待处理文章针对所述对象实体的情感倾向为正向或负向,则确定通过所述情感倾向识别模型识别出了所述待处理文章针对所述对象实体的情感倾向;若所述多个识别模型中的一个识别模型未识别出所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则通过所述多个识别模型中的下一个识别模型继续进行识别。
在本申请的一些实施例中,所述的文章数据处理装置2100还包括:第三处理单元,用于根据与各个对象实体相关联的文章数量及情感倾向,确定待推荐的目标对象实体,根据所述目标对象实体执行如下任一或多个操作:将所述待推荐的目标对象实体推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键语句,将所述关键语句推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键词,将所述关键词推荐给用户。
在本申请的一些实施例中,所述第三处理单元配置为:将存在于以下任一个对象实体集合或同时存在于多个对象实体集合中的对象实体作为所述目标对象实体:热度排名前n1位的第一对象实体集合、舆情指数排名前n2位的第二对象实体集合、正向情感指数排名前n3位的第三对象实体集合;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取正向情感指数排名前n3位的对象实体作为所述目标对象实体;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取正向情感指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取舆情指数排名前n3位的对象实体作为所述目标对象实体;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数或正向情感指数排名前n2位的对象实体作为所述目标对象实体;
其中,所述热度表示在预定时间段内出现的相关文章的数量,所述舆情指数表示情感倾向为正向的文章占比与情感倾向为负向的文章占比之间的差值,所述正向情感指数表示情感倾向为正向的文章占比。
在本申请的一些实施例中,所述第三处理单元配置为:从所述指定情感倾向的文章中抽取出包含有情感词特征的目标语句;基于所述目标语句所包含的情感词特征之间的相似度,对所述目标语句进行聚类,得到多个第一类簇;根据所述多个第一类簇中所包含的目标语句的相似度,对所述多个第一类簇进行合并处理,得到至少一个第二类簇;从所述至少一个第二类簇中选择目标类簇,并从所述目标类簇中抽取出所述关键语句。
在本申请的一些实施例中,所述第三处理单元配置为:对所述指定情感倾向的文章进行分词处理,并对分词处理得到的词语进行过滤,得到候选词;计算所述候选词的重要性得分,根据所述指定情感倾向的文章的标题与所述候选词之间的包含关系确定所述候选词的相关性得分;根据所述候选词的重要性得分和所述相关性得分,计算所述候选词的最终得分;根据所述候选词的最终得分选择预定数量个候选词作为所述关键词。
图22示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图22示出的电子设备的计算机系统2200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图22所示,计算机系统2200包括中央处理单元(Central Processing Unit,CPU)2201,其可以根据存储在只读存储器(Read-Only Memory,ROM)2202中的程序或者从存储部分2208加载到随机访问存储器(Random Access Memory,RAM)2203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 2203中,还存储有系统操作所需的各种程序和数据。CPU 2201、ROM 2202以及RAM 2203通过总线2204彼此相连。输入/输出(Input/Output,I/O)接口2205也连接至总线2204。
以下部件连接至I/O接口2205:包括键盘、鼠标等的输入部分2206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分2207;包括硬盘等的存储部分2208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分2209。通信部分2209经由诸如因特网的网络执行通信处理。驱动器2210也根据需要连接至I/O接口2205。可拆卸介质2211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器2210上,以便于从其上读出的计算机程序根据需要被安装入存储部分2208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分2209从网络上被下载和安装,和/或从可拆卸介质2211被安装。在该计算机程序被中央处理单元(CPU)2201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种文章数据处理方法,其特征在于,包括:
识别待处理文章中所包含的对象实体;
从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;
根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。
2.根据权利要求1所述的文章数据处理方法,其特征在于,识别待处理文章中所包含的对象实体,包括:
根据预设的对象名称库,从所述待处理文章中提取出所述对象名称库中所包含的目标对象名称;
基于对象名称与对象实体之间的对应关系,将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体。
3.根据权利要求2所述的文章数据处理方法,其特征在于,在将与所述目标对象名称相对应的对象实体确定为所述待处理文章中所包含的对象实体之前,还包括:
统计所述待处理文章中所包含的出现次数大于或等于预定次数的目标词语;
根据所述目标词语与所述目标对象名称之间的相关性,对所述目标对象名称进行过滤处理。
4.根据权利要求1所述的文章数据处理方法,其特征在于,从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征,包括:
根据预设的情感词库,从所述待处理文章中提取出所述情感词库中所包含的情感词,以作为所述情感词特征;
根据从所述待处理文章中提取出的情感词,识别所述待处理文章中与所述情感词存在预定句法关系的词语;
从与所述情感词存在预定句法关系的词语中提取修饰词,以作为所述修饰词特征。
5.根据权利要求1所述的文章数据处理方法,其特征在于,根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向,包括:
根据所述待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,得到所述情感词特征的修正权重;
根据所述情感词特征的修正权重计算所述待处理文章的情感得分;
基于所述待处理文章的情感得分确定所述待处理文章针对所述对象实体的情感倾向。
6.根据权利要求5所述的文章数据处理方法,其特征在于,根据所述待处理文章中所包含的修饰词特征,调整所述修饰词特征所修饰的情感词特征的权重,包括:
若所述修饰词特征的修饰属性为否定修饰或反转修饰,则将所述修饰词特征所修饰的情感词特征的权重调整为目标词特征的权重,所述目标词特征的情感倾向与所述情感词特征的情感倾向相反;
若所述修饰词特征的修饰属性为疑问修饰,则将所述修饰词特征所修饰的情感词特征的权重置为设定值;
若所述修饰词特征的修饰属性为程度修饰,则根据所述修饰词特征对所述情感词特征的修饰程度对所述情感词特征的权重进行调整。
7.根据权利要求5所述的文章数据处理方法,其特征在于,根据所述情感词特征的修正权重计算所述待处理文章的情感得分,包括:
确定所述待处理文章的各个段落所包含的各个情感词特征,根据所述各个情感词特征的修正权重计算所述各个段落的情感得分;
根据所述各个段落的情感得分确定所述各个段落的情感倾向;
根据所述各个段落的情感倾向计算所述待处理文章的情感得分。
8.根据权利要求5所述的文章数据处理方法,其特征在于,还包括:
若基于所述待处理文章的情感得分未确定出所述待处理文章针对所述对象实体的情感倾向是正向还是负向,则通过情感倾向识别模型识别所述待处理文章针对所述对象实体的情感倾向;
若根据所述情感倾向识别模型的识别结果不能确定所述待处理文章针对所述对象实体的情感倾向为正向还是负向,则确定所述待处理文章针对所述对象实体的情感倾向为中性。
9.根据权利要求1至8中任一项所述的文章数据处理方法,其特征在于,还包括:
根据与各个对象实体相关联的文章数量及情感倾向,确定待推荐的目标对象实体,根据所述目标对象实体执行如下任一或多个操作:
将所述待推荐的目标对象实体推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键语句,将所述关键语句推荐给用户;从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键词,将所述关键词推荐给用户。
10.根据权利要求9所述的文章数据处理方法,其特征在于,根据与各个对象实体相关联的文章数量及情感倾向,确定待推荐的目标对象实体,包括:
将存在于以下任一个对象实体集合或同时存在于多个对象实体集合中的对象实体作为所述目标对象实体:热度排名前n1位的第一对象实体集合、舆情指数排名前n2位的第二对象实体集合、正向情感指数排名前n3位的第三对象实体集合;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取正向情感指数排名前n3位的对象实体作为所述目标对象实体;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取正向情感指数排名前n2位的第二对象实体集合,从所述第二对象实体集合中获取舆情指数排名前n3位的对象实体作为所述目标对象实体;或
获取热度排名前n1位的第一对象实体集合,从所述第一对象实体集合中获取舆情指数或正向情感指数排名前n2位的对象实体作为所述目标对象实体;
其中,所述热度表示在预定时间段内出现的相关文章的数量,所述舆情指数表示情感倾向为正向的文章占比与情感倾向为负向的文章占比之间的差值,所述正向情感指数表示情感倾向为正向的文章占比。
11.根据权利要求9所述的文章数据处理方法,其特征在于,从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键语句,包括:
从所述指定情感倾向的文章中抽取出包含有情感词特征的目标语句;
基于所述目标语句所包含的情感词特征之间的相似度,对所述目标语句进行聚类,得到多个第一类簇;
根据所述多个第一类簇中所包含的目标语句的相似度,对所述多个第一类簇进行合并处理,得到至少一个第二类簇;
从所述至少一个第二类簇中选择目标类簇,并从所述目标类簇中抽取出所述关键语句。
12.根据权利要求9所述的文章数据处理方法,其特征在于,从所述目标对象实体相关联的指定情感倾向的文章中抽取出关键词,包括:
对所述指定情感倾向的文章进行分词处理,并对分词处理得到的词语进行过滤,得到候选词;
计算所述候选词的重要性得分,根据所述指定情感倾向的文章的标题与所述候选词之间的包含关系确定所述候选词的相关性得分;
根据所述候选词的重要性得分和所述相关性得分,计算所述候选词的最终得分;
根据所述候选词的最终得分选择预定数量个候选词作为所述关键词。
13.一种文章数据处理装置,其特征在于,包括:
识别单元,用于识别待处理文章中所包含的对象实体;
第一处理单元,用于从所述待处理文章中提取出情感词特征和针对所述情感词特征的修饰词特征;
第二处理单元,用于根据所述情感词特征和所述修饰词特征确定所述待处理文章针对所述对象实体的情感倾向。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的文章数据处理方法。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至12中任一项所述的文章数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910275174.1A CN110162597A (zh) | 2019-04-08 | 2019-04-08 | 文章数据处理方法、装置、计算机可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910275174.1A CN110162597A (zh) | 2019-04-08 | 2019-04-08 | 文章数据处理方法、装置、计算机可读介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110162597A true CN110162597A (zh) | 2019-08-23 |
Family
ID=67639229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910275174.1A Pending CN110162597A (zh) | 2019-04-08 | 2019-04-08 | 文章数据处理方法、装置、计算机可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162597A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905800A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 |
CN113139838A (zh) * | 2021-05-10 | 2021-07-20 | 上海华客信息科技有限公司 | 酒店服务评价方法、系统、设备及存储介质 |
US11966702B1 (en) * | 2020-08-17 | 2024-04-23 | Alphavu, Llc | System and method for sentiment and misinformation analysis of digital conversations |
CN118246032A (zh) * | 2024-05-27 | 2024-06-25 | 西安交通大学 | 云erp系统安全评价方法、系统、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN106202200A (zh) * | 2016-06-28 | 2016-12-07 | 昆明理工大学 | 一种基于固定主题的文本情感倾向性分类方法 |
-
2019
- 2019-04-08 CN CN201910275174.1A patent/CN110162597A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678278A (zh) * | 2013-12-16 | 2014-03-26 | 中国科学院计算机网络信息中心 | 一种中文文本情感识别方法 |
CN106202200A (zh) * | 2016-06-28 | 2016-12-07 | 昆明理工大学 | 一种基于固定主题的文本情感倾向性分类方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11966702B1 (en) * | 2020-08-17 | 2024-04-23 | Alphavu, Llc | System and method for sentiment and misinformation analysis of digital conversations |
CN112905800A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 |
CN113139838A (zh) * | 2021-05-10 | 2021-07-20 | 上海华客信息科技有限公司 | 酒店服务评价方法、系统、设备及存储介质 |
CN118246032A (zh) * | 2024-05-27 | 2024-06-25 | 西安交通大学 | 云erp系统安全评价方法、系统、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177569B (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN110162597A (zh) | 文章数据处理方法、装置、计算机可读介质及电子设备 | |
CN106294425B (zh) | 商品相关网络文章之自动图文摘要方法及系统 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN110249341A (zh) | 分类器训练 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN109299280A (zh) | 短文本聚类分析方法、装置和终端设备 | |
Raghuvanshi et al. | A brief review on sentiment analysis | |
JP5933863B1 (ja) | データ分析システム、制御方法、制御プログラム、および記録媒体 | |
Yao et al. | Online deception detection refueled by real world data collection | |
Asha et al. | Fake news detection using n-gram analysis and machine learning algorithms | |
Tabany et al. | Sentiment analysis and fake amazon reviews classification using SVM supervised machine learning model | |
Panagiotopoulos et al. | A study on video game review summarization | |
Donner | Misinformation Detection Methods Using Large Language Models and Evaluation of Application Programming Interfaces | |
CN106503064B (zh) | 一种自适应微博话题摘要的生成方法 | |
Bhattacharjee | Capsule network on social media text: An application to automatic detection of clickbaits | |
Nakajima et al. | Early detection of buzzwords based on large-scale time-series analysis of blog entries | |
Yan et al. | An interactive visual analytics system for incremental classification based on semi-supervised topic modeling | |
Shang | Spoken Language Understanding for Abstractive Meeting Summarization | |
CN114547435B (zh) | 内容质量的识别方法、装置、设备及可读存储介质 | |
Gupta et al. | Content Based Offline Fake News Detection using Classification Technique | |
Ma et al. | Research on policy text clustering algorithm based on LDA-Gibbs model | |
Li et al. | Deep recommendation based on dual attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |