CN114117042A - 舆情文本中企业实体的情感预测方法、装置、设备及介质 - Google Patents
舆情文本中企业实体的情感预测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114117042A CN114117042A CN202111350434.0A CN202111350434A CN114117042A CN 114117042 A CN114117042 A CN 114117042A CN 202111350434 A CN202111350434 A CN 202111350434A CN 114117042 A CN114117042 A CN 114117042A
- Authority
- CN
- China
- Prior art keywords
- text
- public opinion
- emotional
- predicted
- opinion text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002996 emotional effect Effects 0.000 claims abstract description 178
- 230000003993 interaction Effects 0.000 claims abstract description 103
- 208000027534 Emotional disease Diseases 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000004891 communication Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 230000007935 neutral effect Effects 0.000 description 14
- 230000036541 health Effects 0.000 description 11
- 239000003814 drug Substances 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241001122767 Theaceae Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种舆情文本中企业实体的情感预测方法、装置、设备及介质,涉及计算机技术领域。其中,所述方法包括:基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,获得企业实体的情感问题文本;基于情感问题文本中的字符的语义特征表征数据和舆情文本中的字符的语义特征表征数据,对情感问题文本与舆情文本进行语义交互处理,获得情感问题文本与舆情文本的语义交互数据;通过企业实体情感预测模型,基于情感问题文本与舆情文本的语义交互数据,预测企业实体所属的情感极性。本方案能够提高舆情文本中的企业实体的情感极性的准确度。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种舆情文本中企业实体的情感预测方法、装置、电子设备及计算机存储介质。
背景技术
在企业详情页的舆情板块中,用户可以通过该舆情板块中的舆情文本了解到一家企业近期发生的事件、新闻等。通过舆情文本中的企业实体所属的情感极性,能够便利地了解到舆情文本对企业实体的舆情风险。因此,如何准确地确定舆情文本中的企业实体所属的情感极性显得尤为重要。
在现有技术中,通过神经网络模型对舆情文本与舆情文本中的企业实体进行句子对分类来预测舆情文本中的企业实体所属的情感极性。然而,这种方式预测舆情文本中的企业实体所属的情感极性的准确度较低。
由此可见,如何有效提高舆情文本中的企业实体所属的情感极性的准确度成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种舆情文本中企业实体的情感预测方法、装置、电子设备及计算机存储介质,用以解决现有技术中存在的如何有效提高舆情文本中的企业实体所属的情感极性的准确度的技术问题。
根据本发明实施例的第一方面,提供了一种舆情文本中企业实体的情感预测方法,所述方法包括:基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本;基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性。
根据本发明实施例的第二方面,提供了一种舆情文本中企业实体的情感预测装置,所述装置包括:扩展模块,用于基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本;处理模块,用于基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;预测模块,用于通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的舆情文本中企业实体的情感预测方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的舆情文本中企业实体的情感预测方法。
通过本发明实施例提供的舆情文本中企业实体的情感预测方案,基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本,并基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据,再通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性,能够有效提高舆情文本中的企业实体所属的情感极性的准确度,进而方便用户了解到舆情文本对企业实体的舆情风险。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为本实施例一的舆情文本中企业实体情感预测方法的步骤流程图;
图1B为根据本实施例一提供的情感预测过程的示意图;
图2为本实施例二的舆情文本中企业实体的情感预测装置的结构示意图;
图3为本实施例三中电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
参照图1A,示出了本申请实施例一中舆情文本中企业实体的情感预测方法的步骤流程图。
具体地,本实施例提供的舆情文本中企业实体的情感预测方法包括以下步骤:
在步骤S101中,基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本。
在本实施例中,所述预先配置的情感问题模板可为“企业、机构等实体xxx在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”。所述舆情文本可为企业实体的网站页面中的舆情板块中的事件或者新闻等。所述待预测的企业实体可为AA、BB等。所述待预测的企业实体的情感问题文本可为“企业、机构等实体AA在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展之前,所述方法还包括:使用垃圾语料词集合,判断所述舆情文本的质量;若根据所述舆情文本的质量确定所述舆情文本为垃圾舆情,则对所述舆情文本执行过滤处理;若根据所述舆情文本的质量确定所述舆情文本为有效舆情,则执行所述基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本的步骤。籍此,在确定所述舆情文本为垃圾舆情时,对所述舆情文本执行过滤处理,能够有效确保所述舆情文本的质量。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述垃圾语料词集合是预先配置的。若所述舆情文本的标题或者摘要中出现所述垃圾语料词集合中的垃圾语料词,则判断所述舆情文本的质量为低质量,并确定所述舆情文本为垃圾舆情,再对所述舆情文本执行过滤处理。例如,所述舆情文本的标题出现“发红包”等垃圾词,对所述舆情文本不予处理。若所述舆情文本的标题或者摘要中未出现所述垃圾语料词集合中的垃圾语料词,则判断所述舆情文本的质量为高质量,并确定所述舆情文本为有效舆情,再对所述舆情文本执行步骤S101。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展之前,所述方法还包括:使用企业实体字典树,对所述舆情文本进行企业实体挖掘,以获得所述舆情文本中的第一企业实体;通过企业实体识别模型,对所述舆情文本进行企业实体识别,以获得所述舆情文本中的第二企业实体;基于所述舆情文本中的第一企业实体和所述舆情文本中的第二企业实体,确定所述舆情文本中的所述待预测的企业实体。籍此,通过企业实体字典树获得的所述舆情文本中的第一企业实体和企业实体识别模型获得的所述舆情文本中的第二企业实体,能够准确地确定所述舆情文本中的所述待预测的企业实体。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述企业实体字典树可理解为保存有企业实体的字符串的字典树。所述企业实体识别模型可理解为用于企业实体识别的神经网络模型,所述企业实体识别模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。在确定所述舆情文本中的所述待预测的企业实体时,确定所述舆情文本中的第一企业实体和所述舆情文本中的第二企业实体的交集为所述舆情文本中的所述待预测的企业实体。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,使用企业实体字典树做匹配,获得所述舆情文本中的第一企业实体,即使用字符串匹配方式挖掘企业实体,然而,该方式缺失语义信息,但该方式召回率高。使用企业实体识别方式,可引入语义信息,综合企业实体字典树和企业实体识别模型,能够提升召回率与准确度,则企业实体更可靠,对最后的情感极性的准确度有提升。例如,所述舆情文本为“苹果最近涨价,一斤5块钱。/苹果手机最近推出新系列,价格不增反减。”,前面讲的是水果,后面讲的是手机,如果仅通过企业实体字典树匹配,则该企业实体会引入企业实体错误,最终不管情感预测是否准确,结果都是错误的。如果加入企业实体识别模型,最终水果不会被识别,模型仅识别企业实体,如苹果手机中苹果代表苹果公司。这样,可减少企业实体错误,对最终预测的企业实体的情感极性有所提升。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在确定所述舆情文本中的所述待预测的企业实体之后,所述方法还包括:确定所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次;基于所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次,确定所述待预测的企业实体与所述舆情文本的相关性;基于所述待预测的企业实体与所述舆情文本的相关性,确定最终的待预测的企业实体。籍此,通过所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次,能够准确地确定所述待预测的企业实体与所述舆情文本的相关性,此外,通过所述待预测的企业实体与所述舆情文本的相关性,能够准确地确定最终的待预测的企业实体。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述待预测的企业实体在所述舆情文本中的出现频次越多,所述待预测的企业实体与所述舆情文本的相关性越强。所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次越多,所述待预测的企业实体与所述舆情文本的相关性越强。其中,所述相关性可采用相关性表征数据进行表征。在确定最终的待预测的企业实体时,确定与所述舆情文本的相关性最强的所述待预测的企业实体为最终的待预测的企业实体。例如,所述舆情文本为“腾讯与某企业关于某游戏发生诉讼,腾讯获胜”,腾讯以第一人称视角,且出现两次,则所述舆情文本与腾讯相关性更大。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展时,将所述待预测的企业实体代入所述预先配置的情感问题模板,以生成所述待预测的企业实体的情感问题文本。籍此,能够有效地生成所述待预测的企业实体的情感问题文本,进而使得企业实体与舆情文本的交互信息更多,从而提升待预测的企业实体的情感极性的准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,考虑到单独使用待预测的企业实体,语义信息不明确,将QA思想引进,对待预测的企业实体新增情感问题模板。例如,待预测的企业实体为“腾讯”,情感问题模板为“企业、机构等实体xxx在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”,可以将“腾讯”扩展为“企业、机构等实体腾讯在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S102中,基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据。
在本实施例中,所述情感问题文本中的字符的语义特征表征数据可为语义特征表征向量,所述舆情文本中的字符的语义特征表征数据可为语义特征表征向量,可以使用大型预训练语言模型,如bert模型、roberta模型、ernie模型等对文本中的字符进行表征。所述情感问题文本与所述舆情文本的语义交互数据可为所述情感问题文本与所述舆情文本的语义交互矩阵。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理时,确定所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据;基于所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据,确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据;基于所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,确定所述情感问题文本与所述舆情文本的语义交互数据。籍此,通过所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据,能够准确地确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,此外,通过所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,能够准确地确定所述情感问题文本与所述舆情文本的语义交互数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据时,可对所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据求取平均值,以获得所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据。其中,所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据可为所述情感问题文本中的字符与所述舆情文本中的字符的语义交互向量。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,对舆情文本text(t)与情感问题文本company_qas(cq),使用方法|cq-t|、cq⊙t、cq;t进行交互。其中,|cq-t|、cq⊙t、cq;t分别代表求差后取绝对值、元素对应求积、拼接。例如,舆情文本为“今日头条近几年身价指数增长,企业业务做得好”,情感问题文本中的部分字符为“今日头条”,那么相应的语义交互矩阵为:
今 | 日 | 头 | 条 | 近 | 几 | 年 | 身 | 价 | 指 | 数 | 增 | 长 | , | 企 | 业 | 业 | 务 | 做 | 得 | 好 | 。 | |
今 | ||||||||||||||||||||||
日 | ||||||||||||||||||||||
头 | ||||||||||||||||||||||
条 |
在语义交互矩阵中,对应位置匹配,表示交互的权重值,如今-今的交互,今-身的交互等。记交互后的文本变量为tc,[CLS]tc[SEP],对文本进行单句分类,让企业实体情感预测模型学习企业实体在舆情文本中的情感极性。激活函数使用softmax。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理时,若所述舆情文本为新闻舆情文本,则基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的摘要内容中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的摘要内容进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据;基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的全文关键句中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的全文关键句进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据。籍此,当所述舆情文本为新闻舆情文本时,通过所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据,以及所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据,能够准确地获得所述情感问题文本与所述新闻舆情文本的语义交互数据。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S103中,通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性。
在本实施例中,所述企业实体情感预测模型可理解为用于企业实体情感预测的神经网络模型,所述企业实体情感预测模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等。在具体实施时,可以使用阅读理解模型替换所述企业实体情感预测模型,预测企业实体的情感极性。所述企业实体的情感极性可包括正面、中性、负面。所述企业实体的情感极性的标签可为0、1、2。其中,0与负面对应、1与中性对应、2与正面对应。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,可以使用大型预训练语言模型,如bert模型、roberta模型、ernie模型等对文本中的字符进行表征,使用深度神经网络学习语义、句法信息,构建舆情文本与企业实体的情感问题文本,进行企业实体的情感极性的预测,最后为对基于企业实体的情感问题文本与舆情文本交互后的关系问答,即预测企业实体的情感极性,该任务为一个文本分类任务,标签数为3,最后全连接层激活函数使用softmax。例如,所述舆情文本为“橙心优选:成也AA,败也AA。两年,AA做了两次战略误判:重金押宝社区团购和赴美IPO。巧合的是,两次误判在6月30日出现了一个交汇点:AA正式挂牌纽交所,橙心优选交易量冲至最后一个高点。如果说IPO的后续走向还经历了一番博弈,那么橙心优选的败局则立竿见影,7月1日,全平台交易量断崖式下滑,某些品类甚至跌去60%”,所述企业实体的情感问题文本为“企业、机构等实体AA在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”,得到的所述待预测的企业实体所属的情感极性及其标签分别为正面和2。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性时,通过第一企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据,预测所述待预测的企业实体所属的第一情感极性;通过第二企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据,预测所述待预测的企业实体所属的第二情感极性;基于所述待预测的企业实体所属的第一情感极性和第二情感极性,确定所述待预测的企业实体所属的最终的情感极性。籍此,通过第一企业实体情感预测模型预测的所述第一情感极性和第二企业实体情感预测模型预测的所述第二情感极性,能够准确地确定所述待预测的企业实体所属的最终的情感极性。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,在确定所述待预测的企业实体所属的最终的情感极性时,可以采用投票法,基于所述待预测的企业实体所属的第一情感极性和第二情感极性,确定所述待预测的企业实体所属的最终的情感极性。具体地,针对新闻舆情文本,使用企业实体出现的摘要内容,及企业实体出现的全文关键句,分别使用两种文本训练的模型,进行预测,投票决定企业实体的情感极性。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,给定一段舆情文本样本,一系列企业实体样本,给出舆情文本样本中企业实体样本的情感极性,以用于训练所述企业实体情感预测模型。例如,所述舆情文本样本为“橙心优选:成也AA,败也AA。两年,AA做了两次战略误判:重金押宝社区团购和赴美IPO。巧合的是,两次误判在6月30日出现了一个交汇点:AA正式挂牌纽交所,橙心优选交易量冲至最后一个高点。如果说IPO的后续走向还经历了一番博弈,那么橙心优选的败局则立竿见影,7月1日,全平台交易量断崖式下滑,某些品类甚至跌去60%”,所述舆情文本样本中的企业实体样本为“AA”,所述舆情文本样本的标注情感极性为“负面”。然后,将所述舆情文本样本、所述舆情文本样本中的企业实体样本,以及所述舆情文本样本中的企业实体样本的情感极性转换为文本,所述舆情文本样本中的企业实体样本扩展为情感问题样本,形成用于训练所述企业实体情感预测模型的训练样本。例如,所述舆情文本样本为“橙心优选:成也AA,败也AA。两年,AA做了两次战略误判:重金押宝社区团购和赴美IPO。巧合的是,两次误判在6月30日出现了一个交汇点:AA正式挂牌纽交所,橙心优选交易量冲至最后一个高点。如果说IPO的后续走向还经历了一番博弈,那么橙心优选的败局则立竿见影,7月1日,全平台交易量断崖式下滑,某些品类甚至跌去60%”,所述情感问题样本为“企业、机构等实体AA在本段文本内容里存在正面、中性、负面三种情感极性中的一种是”。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性时,通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性的概率数据;基于所述待预测的企业实体所属的情感极性的概率数据,确定所述待预测的企业实体所属的情感极性。籍此,通过所述待预测的企业实体所属的情感极性的概率数据,能够准确地确定所述待预测的企业实体所属的情感极性。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述待预测的企业实体所属的情感极性的概率数据可包括所述待预测的企业实体所属的情感极性为正面的概率数据、所述待预测的企业实体所属的情感极性为负面的概率数据,以及所述待预测的企业实体所属的情感极性为中性的概率数据。在确定所述待预测的企业实体所属的情感极性时,确定所述待预测的企业实体所属的情感极性为正面的概率数据、所述待预测的企业实体所属的情感极性为负面的概率数据,以及所述待预测的企业实体所属的情感极性为中性的概率数据中的最大概率数据;确定所述最大概率数据所对应的情感极性为所述待预测的企业实体所属的情感极性。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述舆情文本为“BB健康推出“互联网+精准医药服务”助力药企精准营销。BB健康商业化负责人毛及介绍,未来,依托BB领先的AI技术积淀与大数据积累,BB健康将持续探索,打造精准触达的新场景、内容营销新阵地以及医药零售新渠道,与合作伙伴携手共赢,构筑药企服务智慧新生态。近日,在中国健康产业(国际)生态大会“2021西普会”上,BB健康宣布推出“互联网+精准医药服务”,依托用户需求入口、大数据和AI技术等优势,精准连接药企、患者和医院,助力药企提升营销效率,建立药企服务智慧新生态。BB健康商业化总负责人毛及介绍,新冠疫情催化下,民众对健康知识科普、在线问诊、在线购药等需求大幅提升,在BB健康上,每天有超过数千万次药品相关搜索需求”。首先利用企业实体字典树和企业实体识别模型获得企业实体“BB健康”和“BB”。利用情感问题模板,可以生成情感问题文本,例如,A、企业、机构等实体BB健康在本段文本内容里存在正面、中性、负面三种情感极性中的一种是;B、企业、机构等实体BB在本段文本内容里存在正面、中性、负面三种情感极性中的一种是。利用所述企业实体情感预测模型,进行预测:A、label:2,[0.03,0.06,0.91],正面;B、label:2,[0.02,0.05,0.93],正面。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在确定所述待预测的企业实体所属的情感极性之后,所述方法还包括:使用用于纠正所述情感极性的正则表达式,对所述舆情文本进行企业实体匹配,以获得所述舆情文本中的匹配的企业实体;若所述舆情文本中的匹配的企业实体与所述舆情文本中的所述待预测的企业实体相同,则使用所述正则表达式所表征的情感极性,纠正所述待预测的企业实体所属的情感极性。籍此,能够进一步提高所述待预测的企业实体所属的情感极性的准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述企业实体情感预测模型可以解决大部分问题,针对少部分模型未能处理的,易造成模型误解,降低模型性能的情况,可以在不修改模型的前提下,使用明显的特征,对该情况进行处理。例如,当所述舆情文本为“据天眼查数据显示,那么天眼查在文本中情感为中性,且大部分情况下为中性,但如果天眼查数据显示,AA最近被约谈,app被下架”时,一些极其负面的信息出现在天眼查附近,容易对该企业实体造成负面的影响。使用正则表达式,如*实体*数据显示/报道等,可以对该类企业实体的情感极性予以纠正,提升准确度。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,如图1B所示,本实施例提供的舆情文本中企业实体的情感预测过程如下:首先接收用户输入的舆情文本,然后,采用企业实体字典树和企业实体识别模型,对舆情文本进行企业实体识别,最后,使用所述企业实体情感预测模型和用于纠正所述情感极性的正则表达式,预测企业实体的情感极性。例如,用户输入的舆情文本为“发力大屏云游戏,腾讯联手虹魔方亮相国际游戏展。日前,BIGC2021北京国际游戏创新大会落下帷幕,在与此次大会同期举行的“北京国际游戏创新展”上,汇聚了众多知名游戏大厂、独立工作室、个人开发者带来的近70款不同品类的精品游戏。值得一提的是,在腾讯START云游戏展区,腾讯与其电视大屏合作方长虹电视、虹魔方公司联合展出的云游戏,成为此次展会的一大亮点,吸引了不少关注,也让观众现场感受了大屏云游戏带来的全新体验。随着5G应用的逐渐深入,以及云计算等基础设施的不断完善,近两年,无论是用户侧,还是产业侧,对云游戏的关注与布局始终有增无减”,所述舆情文本中的企业实体为“腾讯/虹魔方”,使用所述企业实体情感预测模型和用于纠正所述情感极性的正则表达式预测的企业实体的情感极性的概率数据为:腾讯,[0.01,0.01,0.98],正面;虹魔方,[0.015,0.020,0.965],正面。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
通过本发明实施例提供的舆情文本中企业实体的情感预测方法,基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本,并基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据,再通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性,能够有效提高舆情文本中的企业实体所属的情感极性的准确度,进而方便用户了解到舆情文本对企业实体的舆情风险。
本实施例提供的舆情文本中企业实体的情感预测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备等。
参照图2,示出了本申请实施例二中舆情文本中企业实体的情感预测装置的结构示意图。
本实施例提供的舆情文本中企业实体的情感预测装置包括:扩展模块201,用于基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本;处理模块202,用于基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;预测模块203,用于通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性。
可选地,所述扩展模块201,具体用于:将所述待预测的企业实体代入所述预先配置的情感问题模板,以生成所述待预测的企业实体的情感问题文本。
可选地,所述处理模块202,具体用于:确定所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据;基于所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据,确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据;基于所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,确定所述情感问题文本与所述舆情文本的语义交互数据。
可选地,所述扩展模块201之前,所述装置还包括:挖掘模块,用于使用企业实体字典树,对所述舆情文本进行企业实体挖掘,以获得所述舆情文本中的第一企业实体;识别模块,用于通过企业实体识别模型,对所述舆情文本进行企业实体识别,以获得所述舆情文本中的第二企业实体;第二确定模块,用于基于所述舆情文本中的第一企业实体和所述舆情文本中的第二企业实体,确定所述舆情文本中的所述待预测的企业实体。
可选地,所述第二确定模块之后,所述装置还包括:第三确定模块,用于确定所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次;第四确定模块,用于基于所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次,确定所述待预测的企业实体与所述舆情文本的相关性;第五确定模块,用于基于所述待预测的企业实体与所述舆情文本的相关性,确定最终的待预测的企业实体。
可选地,所述扩展模块201之前,所述装置还包括:判断模块,用于使用垃圾语料词集合,判断所述舆情文本的质量;过滤模块,用于若根据所述舆情文本的质量确定所述舆情文本为垃圾舆情,则对所述舆情文本执行过滤处理;执行模块,用于若根据所述舆情文本的质量确定所述舆情文本为有效舆情,则执行所述基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本的步骤。
可选地,所述处理模块202,具体用于:若所述舆情文本为新闻舆情文本,则基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的摘要内容中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的摘要内容进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据;基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的全文关键句中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的全文关键句进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据;所述预测模块203,具体用于:通过第一企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据,预测所述待预测的企业实体所属的第一情感极性;通过第二企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据,预测所述待预测的企业实体所属的第二情感极性;基于所述待预测的企业实体所属的第一情感极性和第二情感极性,确定所述待预测的企业实体所属的最终的情感极性。
可选地,所述第一确定模块204之后,所述装置还包括:匹配模块,用于使用用于纠正所述情感极性的正则表达式,对所述舆情文本进行企业实体匹配,以获得所述舆情文本中的匹配的企业实体;纠正模块,用于若所述舆情文本中的匹配的企业实体与所述舆情文本中的所述待预测的企业实体相同,则使用所述正则表达式所表征的情感极性,纠正所述待预测的企业实体所属的情感极性。
可选地,所述预测模块203,具体用于:通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性的概率数据;基于所述待预测的企业实体所属的情感极性的概率数据,确定所述待预测的企业实体所属的情感极性。
本实施例提供的舆情文本中企业实体的情感预测装置用于实现前述多个方法实施例中相应的舆情文本中企业实体的情感预测方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图3,示出了根据本发明实施例三的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它电子设备或服务器进行通信。
处理器302,用于执行程序310,具体可以执行上述舆情文本中企业实体的情感预测方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本;基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性。
在一种可选的实施方式中,程序310还用于使得处理器302在基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本时,将所述待预测的企业实体代入所述预先配置的情感问题模板,以生成所述待预测的企业实体的情感问题文本。
在一种可选的实施方式中,程序310还用于使得处理器302在基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据时,确定所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据;基于所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据,确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据;基于所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,确定所述情感问题文本与所述舆情文本的语义交互数据。
在一种可选的实施方式中,程序310还用于使得处理器302在基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展之前,使用企业实体字典树,对所述舆情文本进行企业实体挖掘,以获得所述舆情文本中的第一企业实体;通过企业实体识别模型,对所述舆情文本进行企业实体识别,以获得所述舆情文本中的第二企业实体;基于所述舆情文本中的第一企业实体和所述舆情文本中的第二企业实体,确定所述舆情文本中的所述待预测的企业实体。
在一种可选的实施方式中,程序310还用于使得处理器302在确定所述舆情文本中的所述待预测的企业实体之后,确定所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次;基于所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次,确定所述待预测的企业实体与所述舆情文本的相关性;基于所述待预测的企业实体与所述舆情文本的相关性,确定最终的待预测的企业实体。
在一种可选的实施方式中,程序310还用于使得处理器302在基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展之前,使用垃圾语料词集合,判断所述舆情文本的质量;若根据所述舆情文本的质量确定所述舆情文本为垃圾舆情,则对所述舆情文本执行过滤处理;若根据所述舆情文本的质量确定所述舆情文本为有效舆情,则执行所述基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本的步骤。
在一种可选的实施方式中,程序310还用于使得处理器302在基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据时,若所述舆情文本为新闻舆情文本,则:基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的摘要内容中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的摘要内容进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据;基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的全文关键句中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的全文关键句进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据;程序310还用于使得处理器302在通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性时,通过第一企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据,预测所述待预测的企业实体所属的第一情感极性;通过第二企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据,预测所述待预测的企业实体所属的第二情感极性;基于所述待预测的企业实体所属的第一情感极性和第二情感极性,确定所述待预测的企业实体所属的最终的情感极性。
在一种可选的实施方式中,程序310还用于使得处理器302在确定所述待预测的企业实体所属的情感极性之后,使用用于纠正所述情感极性的正则表达式,对所述舆情文本进行企业实体匹配,以获得所述舆情文本中的匹配的企业实体;若所述舆情文本中的匹配的企业实体与所述舆情文本中的所述待预测的企业实体相同,则使用所述正则表达式所表征的情感极性,纠正所述待预测的企业实体所属的情感极性。
在一种可选的实施方式中,程序310还用于使得处理器302在通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性时,通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性的概率数据;基于所述待预测的企业实体所属的情感极性的概率数据,确定所述待预测的企业实体所属的情感极性。
程序310中各步骤的具体实现可以参见上述舆情文本中企业实体的情感预测方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本,并基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据,再通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性,能够有效提高舆情文本中的企业实体所属的情感极性的准确度,进而方便用户了解到舆情文本对企业实体的舆情风险。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的舆情文本中企业实体的情感预测方法。此外,当通用计算机访问用于实现在此示出的舆情文本中企业实体的情感预测方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的舆情文本中企业实体的情感预测方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (12)
1.一种舆情文本中企业实体的情感预测方法,其特征在于,所述方法包括:
基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本;
基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;
通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性。
2.根据权利要求1所述的舆情文本中企业实体的情感预测方法,其特征在于,所述基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本,包括:
将所述待预测的企业实体代入所述预先配置的情感问题模板,以生成所述待预测的企业实体的情感问题文本。
3.根据权利要求1所述的舆情文本中企业实体的情感预测方法,其特征在于,所述基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据,包括:
确定所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据;
基于所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的差的绝对值、所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的乘积,以及所述情感问题文本中的字符的语义特征表征数据与所述舆情文本中的字符的语义特征表征数据的拼接数据,确定所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据;
基于所述情感问题文本中的字符与所述舆情文本中的字符的语义交互数据,确定所述情感问题文本与所述舆情文本的语义交互数据。
4.根据权利要求1所述的舆情文本中企业实体的情感预测方法,其特征在于,所述基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展之前,所述方法还包括:
使用企业实体字典树,对所述舆情文本进行企业实体挖掘,以获得所述舆情文本中的第一企业实体;
通过企业实体识别模型,对所述舆情文本进行企业实体识别,以获得所述舆情文本中的第二企业实体;
基于所述舆情文本中的第一企业实体和所述舆情文本中的第二企业实体,确定所述舆情文本中的所述待预测的企业实体。
5.根据权利要求4所述的舆情文本中企业实体的情感预测方法,其特征在于,所述确定所述舆情文本中的所述待预测的企业实体之后,所述方法还包括:
确定所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次;
基于所述待预测的企业实体在所述舆情文本中的出现频次或者所述待预测的企业实体在所述舆情文本中以第一人称视角出现的频次,确定所述待预测的企业实体与所述舆情文本的相关性;
基于所述待预测的企业实体与所述舆情文本的相关性,确定最终的待预测的企业实体。
6.根据权利要求1所述的舆情文本中企业实体的情感预测方法,其特征在于,所述基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展之前,所述方法还包括:
使用垃圾语料词集合,判断所述舆情文本的质量;
若根据所述舆情文本的质量确定所述舆情文本为垃圾舆情,则对所述舆情文本执行过滤处理;
若根据所述舆情文本的质量确定所述舆情文本为有效舆情,则执行所述基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本的步骤。
7.根据权利要求1所述的舆情文本中企业实体的情感预测方法,其特征在于,所述基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据,包括:
若所述舆情文本为新闻舆情文本,则:
基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的摘要内容中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的摘要内容进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据;
基于所述情感问题文本中的字符的语义特征表征数据和所述新闻舆情文本中的全文关键句中的字符的语义特征表征数据,对所述情感问题文本与所述新闻舆情文本中的全文关键句进行语义交互处理,以获得所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据;
所述通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性,包括:
通过第一企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的摘要内容的语义交互数据,预测所述待预测的企业实体所属的第一情感极性;
通过第二企业实体情感预测模型,基于所述情感问题文本与所述新闻舆情文本中的全文关键句的语义交互数据,预测所述待预测的企业实体所属的第二情感极性;
基于所述待预测的企业实体所属的第一情感极性和第二情感极性,确定所述待预测的企业实体所属的最终的情感极性。
8.根据权利要求1所述的舆情文本中企业实体的情感预测方法,其特征在于,所述预测所述待预测的企业实体所属的情感极性之后,所述方法还包括:
使用用于纠正所述情感极性的正则表达式,对所述舆情文本进行企业实体匹配,以获得所述舆情文本中的匹配的企业实体;
若所述舆情文本中的匹配的企业实体与所述舆情文本中的所述待预测的企业实体相同,则使用所述正则表达式所表征的情感极性,纠正所述待预测的企业实体所属的情感极性。
9.根据权利要求1所述的舆情文本中企业实体的情感预测方法,其特征在于,所述通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性,包括:
通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性的概率数据;
基于所述待预测的企业实体所属的情感极性的概率数据,确定所述待预测的企业实体所属的情感极性。
10.一种舆情文本中企业实体的情感预测装置,其特征在于,所述装置包括:
扩展模块,用于基于预先配置的情感问题模板,对舆情文本中的待预测的企业实体进行扩展,以获得所述待预测的企业实体的情感问题文本;
处理模块,用于基于所述情感问题文本中的字符的语义特征表征数据和所述舆情文本中的字符的语义特征表征数据,对所述情感问题文本与所述舆情文本进行语义交互处理,以获得所述情感问题文本与所述舆情文本的语义交互数据;
预测模块,用于通过企业实体情感预测模型,基于所述情感问题文本与所述舆情文本的语义交互数据,预测所述待预测的企业实体所属的情感极性。
11.一种电子设备,其特征在于,所述设备包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任意一项权利要求所述的舆情文本中企业实体的情感预测方法对应的操作。
12.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9中任意一项权利要求所述的舆情文本中企业实体的情感预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111350434.0A CN114117042A (zh) | 2021-11-15 | 2021-11-15 | 舆情文本中企业实体的情感预测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111350434.0A CN114117042A (zh) | 2021-11-15 | 2021-11-15 | 舆情文本中企业实体的情感预测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114117042A true CN114117042A (zh) | 2022-03-01 |
Family
ID=80396539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111350434.0A Pending CN114117042A (zh) | 2021-11-15 | 2021-11-15 | 舆情文本中企业实体的情感预测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114117042A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417713B1 (en) * | 2007-12-05 | 2013-04-09 | Google Inc. | Sentiment detection as a ranking signal for reviewable entities |
CN110287405A (zh) * | 2019-05-21 | 2019-09-27 | 百度在线网络技术(北京)有限公司 | 情感分析的方法、装置和存储介质 |
CN110990565A (zh) * | 2019-11-20 | 2020-04-10 | 广州商品清算中心股份有限公司 | 一种用于舆情分析的可扩展文本分析系统及方法 |
CN111260223A (zh) * | 2020-01-17 | 2020-06-09 | 山东省计算中心(国家超级计算济南中心) | 一种审判风险智能识别与预警方法、系统、介质及设备 |
CN111832313A (zh) * | 2020-06-09 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本中情感搭配集合的生成方法、装置、设备和介质 |
CN113609390A (zh) * | 2021-08-06 | 2021-11-05 | 北京金堤征信服务有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
-
2021
- 2021-11-15 CN CN202111350434.0A patent/CN114117042A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417713B1 (en) * | 2007-12-05 | 2013-04-09 | Google Inc. | Sentiment detection as a ranking signal for reviewable entities |
CN110287405A (zh) * | 2019-05-21 | 2019-09-27 | 百度在线网络技术(北京)有限公司 | 情感分析的方法、装置和存储介质 |
CN110990565A (zh) * | 2019-11-20 | 2020-04-10 | 广州商品清算中心股份有限公司 | 一种用于舆情分析的可扩展文本分析系统及方法 |
CN111260223A (zh) * | 2020-01-17 | 2020-06-09 | 山东省计算中心(国家超级计算济南中心) | 一种审判风险智能识别与预警方法、系统、介质及设备 |
CN111832313A (zh) * | 2020-06-09 | 2020-10-27 | 北京百度网讯科技有限公司 | 文本中情感搭配集合的生成方法、装置、设备和介质 |
CN113609390A (zh) * | 2021-08-06 | 2021-11-05 | 北京金堤征信服务有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
刘文强: "移动社交网络次生舆情的动态预警方法研究", 情报杂志, 29 February 2020 (2020-02-29) * |
孙雪峰: "面向中文产品评论的情感分析研究", 信息科技, 15 January 2021 (2021-01-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN108628833B (zh) | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 | |
CN111625635A (zh) | 问答处理、语言模型的训练方法、装置、设备及存储介质 | |
US11727513B2 (en) | Method and system for facilitating implementation of regulations by organizations | |
US20150006414A1 (en) | Social network for employment search | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
US8825620B1 (en) | Behavioral word segmentation for use in processing search queries | |
US8793120B1 (en) | Behavior-driven multilingual stemming | |
CN110287405B (zh) | 情感分析的方法、装置和存储介质 | |
CN102314440B (zh) | 利用网络维护语言模型库的方法和系统 | |
CN112860852A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN110706028A (zh) | 基于属性特征的商品评价情感分析系统 | |
WO2013002771A1 (en) | Capturing intentions within online text | |
WO2024099457A1 (zh) | 一种信息推荐方法、装置、存储介质及电子设备 | |
CN107798622A (zh) | 一种识别用户意图的方法和装置 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
Modi et al. | Sentiment analysis of Twitter feeds using flask environment: A superior application of data analysis | |
CN111787042B (zh) | 用于推送信息的方法和装置 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN114117042A (zh) | 舆情文本中企业实体的情感预测方法、装置、设备及介质 | |
Karmakar et al. | Sentiment analysis of customers’ review in bangla using machine learning approaches | |
Jee et al. | Potential of patent image data as technology intelligence source | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
CN114329206A (zh) | 标题生成方法和装置、电子设备、计算机可读介质 | |
CN116127367A (zh) | 服务评价的审核方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230801 Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000 Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd. Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province (CNK) Applicant before: Yancheng Jindi Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |