CN113609390A - 信息分析方法及装置、电子设备和计算机可读存储介质 - Google Patents
信息分析方法及装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113609390A CN113609390A CN202110902332.9A CN202110902332A CN113609390A CN 113609390 A CN113609390 A CN 113609390A CN 202110902332 A CN202110902332 A CN 202110902332A CN 113609390 A CN113609390 A CN 113609390A
- Authority
- CN
- China
- Prior art keywords
- text
- analyzed
- emotion type
- preset
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 148
- 230000008451 emotion Effects 0.000 claims abstract description 300
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 24
- 230000007935 neutral effect Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例提供了信息分析方法及装置、计算机可读存储介质和电子设备。该方法包括:获取待分析文本;利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果;其中的所述预设情感类型包括正面情感和负面情感中的任意一个或多个;基于所述第一预测结果,确定所述待分析文本的第一情感类型。本公开技术方案能够提高舆情新闻识别结果的准确度,能够避免用户对舆情新闻的错误理解,有助于准确识别负面舆情新闻,能够减少用户的不必要损失。
Description
技术领域
本公开涉及数据处理技术领域,特别涉及信息分析方法及装置、电子设备和计算机可读存储介质。
背景技术
舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
随着互联网技术的快速发展,网络的开放性和灵活性让其成为反映社会舆情的主要载体之一。通过对企业的舆情新闻进行信息提取和结构化存储,可以让用户方便的获取到其关注企业的全面舆情信息,并且有利于对企业的舆情信息进行分析,准确判断企业的发展趋势,还可以进一步生成舆情报告和各种统计报表,以便于决策。
现有技术无法准确识别企业的舆情新闻的极性,即无法判断舆情新闻为正面舆情、负面舆情或中性舆情,对于企业的舆情信息无法进行有效监控与分析,使得用户无法据此判断企业的发展趋势,可能会给用户造成不必要的损失。例如,在投资领域,如果用户不能及时发现其投资企业的负面信息,进而调整投资策略,可能会给用户带来巨大的经济损失。
发明内容
本公开的目的在于提供一种信息分析方法及装置、电子设备和计算机可读存储介质,进而至少在一定程度上提高舆情新闻识别结果的准确度。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种信息分析方法,包括:
获取待分析文本;
利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果;其中,所述预设情感类型包括以下任意一个或多个:正面情感,负面情感;
基于所述第一预测结果,确定所述待分析文本的第一情感类型。
可选地,在本公开上述任一实施例的信息分析方法中,所述获取待分析文本之后,还包括:
获取所述待分析文本中的目标实体;
所述利用预先训练得到的分析模型,预测所述待分析文本的情感类型,得到第一预测结果包括:
将所述待分析文本与所述目标实体按照预设方式拼接,得到拼接文本;
将所述拼接文本输入所述分析模型,经所述分析模型输出所述第一预测结果;
所述基于所述第一预测结果,确定所述待分析文本的第一情感类型之后,还包括:
输出所述目标实体和所述待分析文本的第一情感类型。
可选地,在本公开上述任一实施例的信息分析方法中,所述获取所述待分析文本中的目标实体,包括:
识别所述待分析文本中包括的实体;
确定所述待分析文本中包括的实体是否大于1个;
若所述待分析文本中包括的实体大于1个,基于预设方式,从所述待分析文本中包括的实体中确定一个实体作为所述目标实体。
可选地,在本公开上述任一实施例的信息分析方法中,所述基于预设方式,从所述待分析文本中包括的实体中确定一个实体作为所述目标实体包括以下任意一项或多项:确定出现次数最多的实体作为目标实体,确定以第一人称出现次数最多的实体作为目标实体,确定企业实体作为目标实体。
可选地,在本公开上述任一实施例的信息分析方法中,所述将所述待分析文本与所述目标实体按照预设方式拼接,得到拼接文本,包括:
将所述待分析文本中包括的实体中除所述目标实体以外的其它实体进行掩码处理,并将掩码处理后的待分析文本与所述目标实体按照预设方式拼接,得到拼接文本。
可选地,在本公开上述任一实施例的信息分析方法中,所述获取所述待分析文本中的目标实体,还包括:
若所述待分析文本中包括的实体等于1个,以所述待分析文本中包括的实体作为所述目标实体。
可选地,在本公开上述任一实施例的信息分析方法中,所述第一预测结果包括:所述待分析文本为正面情感类型的概率值和为负面情感类型的概率值;或者,所述待分析文本为正面情感类型的概率值和不为正面情感类型的概率值;或者,所述待分析文本为负面情感类型的概率值和不为负面情感类型的概率值。
可选地,在本公开上述任一实施例的信息分析方法中,利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值;
基于预测得到的所述待分析文本为预设情感类型的概率值确定所述待分析文本的情感类型;其中,所述第一预测结果包括所述待分析文本为预设情感类型的概率值和所述待分析文本的情感类型;
所述基于所述第一预测结果,确定所述待分析文本的第一情感类型,包括:
获取所述第一预测结果中的情感类型。
可选地,在本公开上述任一实施例的信息分析方法中,所述获取待分析文本之后,还包括:
确定所述待分析文本的长度是否大于预设长度;
若所述待分析文本的长度不大于预设长度,执行利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果的操作。
可选地,在本公开上述任一实施例的信息分析方法中,所述获取待分析文本之后,还包括:
若所述待分析文本的长度大于预设长度,以所述预设长度为单位,将所述待分析文本分为N个文本段;其中,N为大于1的整数;
所述利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果包括:
利用预先训练得到的分析模型,预测所述N个文本段为所述预设情感类型的概率值,得到N个第二预测结果;
基于所述N个第二预测结果,确定所述待分析文本的第一预测结果。
可选地,在本公开上述任一实施例的信息分析方法中,所述方法还包括:
获取所述待分析文本中的预设部分的文本作为待分析子文本;
利用所述分析模型,预测所述待分析子文本为所述预设情感类型的概率值,得到第三预测结果;
基于所述第三预测结果,确定所述待分析子文本的第三情感类型;
基于所述第一情感类型和所述第三情感类型,确定所述待分析文本的第四情感类型。
可选地,在本公开上述任一实施例的信息分析方法中,其特征在于,所述分析模型的训练包括:
将多个第一训练语料中的各第一训练语料及情感类型标注信息输入所述分析模型,经所述分析模型输出所述各第一训练语料是否各预设情感类型的概率值;
基于所述多个第一训练语料是否各预设情感类型的概率值与对应的情感类型标注信息对应的概率值,对所述分析模型进行训练。
根据本公开的第二方面,提供一种信息分析装置,包括:
第一获取模块,用于获取待分析文本;
第一预测模块,用于利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果;其中,所述预设情感类型包括以下任意一个或多个:正面情感,负面情感;
第一确定模块,用于基于所述第一预测结果,确定所述待分析文本的第一情感类型。
可选地,在本公开上述任一实施例的信息分析装置中,所述装置还包括:
第二获取模块,用于获取所述待分析文本中的目标实体;
拼接模块,用于将所述待分析文本与所述目标实体按照预设方式拼接,得到拼接文本;
所述第一预测模块,用于将所述拼接文本输入所述分析模型,经所述分析模型输出所述第一预测结果;
输出模块,用于输出所述目标实体和所述待分析文本的第一情感类型。
可选地,在本公开上述任一实施例的信息分析装置中,所述第二获取模块,具体用于:
识别所述待分析文本中包括的实体;
确定所述待分析文本中包括的实体是否大于1个;
若所述待分析文本中包括的实体大于1个,基于预设方式,从所述待分析文本中包括的实体中确定一个实体作为所述目标实体。
可选地,在本公开上述任一实施例的信息分析装置中,所述第二获取模块基于预设方式,从所述待分析文本中包括的实体中确定一个实体作为所述目标实体包括以下任意一项或多项:确定出现次数最多的实体作为目标实体,确定以第一人称出现次数最多的实体作为目标实体,确定企业实体作为目标实体。
可选地,在本公开上述任一实施例的信息分析装置中,所述拼接模块,用于将所述待分析文本中包括的实体中除所述目标实体以外的其它实体进行掩码处理,并将掩码处理后的待分析文本与所述目标实体按照预设方式拼接,得到拼接文本。
可选地,在本公开上述任一实施例的信息分析装置中,所述第二获取模块,还用于:
若所述待分析文本中包括的实体等于1个,以所述待分析文本中包括的实体作为所述目标实体。
可选地,在本公开上述任一实施例的信息分析装置中,所述第一预测结果包括:所述待分析文本为正面情感类型的概率值和为负面情感类型的概率值;或者,所述待分析文本为正面情感类型的概率值和不为正面情感类型的概率值;或者,所述待分析文本为负面情感类型的概率值和不为负面情感类型的概率值。
可选地,在本公开上述任一实施例的信息分析装置中,所述第一预测模块,用于利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值;
所述第一确定模块,用于基于预测得到的所述待分析文本为预设情感类型的概率值确定所述待分析文本的情感类型;其中,所述第一预测结果包括所述待分析文本为预设情感类型的概率值和所述待分析文本的情感类型;
所述第一确定模块,还用于获取所述第一预测结果中的情感类型。
可选地,在本公开上述任一实施例的信息分析装置中,所述装置还包括:
第二确定模块,用于确定所述待分析文本的长度是否大于预设长度;
所述第一预测模块,用于根据所述第二确定模块的确定结果,若所述待分析文本的长度不大于预设长度,执行利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果的操作;
可选地,在本公开上述任一实施例的信息分析装置中,所述装置还包括:
分割模块,用于根据所述第二确定模块的确定结果,若所述待分析文本的长度大于预设长度,以所述预设长度为单位,将所述待分析文本分为N个文本段;其中,N为大于1的整数;
所述第一预测模块,用于利用预先训练得到的分析模型,预测所述N个文本段为所述预设情感类型的概率值,得到N个第二预测结果;基于所述N个第二预测结果,确定所述待分析文本的第一预测结果。
可选地,在本公开上述任一实施例的信息分析装置中,所述装置还包括:
第三获取模块,用于获取所述待分析文本中的预设部分的文本作为待分析子文本;
所述第一预测模块,用于利用所述分析模型,预测所述待分析子文本为所述预设情感类型的概率值,得到第三预测结果;
所述第一确定模块,用于基于所述第三预测结果,确定所述待分析子文本的第三情感类型;基于所述第一情感类型和所述第三情感类型,确定所述待分析文本的第四情感类型。
可选地,在本公开上述任一实施例的信息分析装置中,所述装置还包括:
训练模块,用于将多个第一训练语料中的各第一训练语料及情感类型标注信息输入所述分析模型,经所述分析模型输出所述各第一训练语料是否各预设情感类型的概率值;基于所述多个第一训练语料是否各预设情感类型的概率值与对应的情感类型标注信息对应的概率值,对所述分析模型进行训练。
根据本公开的第三方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述的信息分析方法。
根据本公开的第四方面,提供一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的信息分析方法。
由上述技术方案可知,本公开示例性实施例中的信息分析方法及装置、电子设备和计算机可读存储介质至少具备以下优点和积极效果:
本公开实施例中的信息分析方法及装置、电子设备和计算机可读存储介质,首先获取待分析文本,然后利用预先训练得到的分析模型,预测待分析文本为预设情感类型的概率值,得到第一预测结果,其中的预设情感类型包括正面情感和负面情感中的任意一个或多个,进而基于第一预测结果,确定待分析文本的第一情感类型。由于预设情感类型不包括中性情感,使得利用预先训练得到的分析模型对待分析文本进行预测时,只对待分析文本为正面情感类型和/或负面情感类型的概率进行预测,并不对待分析文本为中性情感类型的概率进行预测,能够避免中性舆情新闻的特征不突出对识别结果准确度的影响,有助于提高舆情新闻识别结果的准确度,能够避免用户对舆情新闻的错误理解,另外舆情新闻识别结果准确度的提高,有助于准确识别负面舆情新闻,能够减少用户的不必要损失。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一个系统架构示意图;
图2示出本公开第一示例性实施例中信息分析方法的流程示意图;
图3示出本公开第二示例性实施例中信息分析方法的流程示意图;
图4示出本公开第一示例性实施例中信息分析装置的框图;
图5示出本公开第二示例性实施例中信息分析装置的框图;
图6示出本公开示例性实施例中电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
图1示出了可以应用本公开实施例的一个系统架构示意图。如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。
服务器105可以是提供各种信息文本的服务器,例如各种网站、自媒体平台、数据库等的服务器。例如用户利用终端设备103(也可以是终端设备101或102)实时或定期从服务器105获取信息作为待分析文本,并执行本公开实施例的信息分析方法得到待分析文本的情感类型,并以结构化信息存储方式存储在结构化数据库中,以便后续分析使用。
图2示出本公开第一示例性实施例中信息分析方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例的信息分析方法包括如下步骤:
S201,获取待分析文本。
本公开实施例中的待分析文本中的字符可以为中文字符,也可以为英文字符,或者,还可以为数字等任意类型的字符,本公开实施例对待分析文本中字符的类型不作具体限定。另外,本公开实施例中的待分析文本可以是任意领域的文本,本公开实施例对待分析文本的内容和所属领域不做限定。
可选地,在其中一些可能的实现方式中,该步骤S201中,待分析文本可以是企业的舆情新闻文本,该舆情新闻文本可以是原始的舆情新闻文本,也可以是对原始的舆情新闻文本进行预处理后的舆情新闻文本,其中的预处理例如可以是去除原始的舆情新闻文本中的表情符号、错误的标点符号等等,本公开实施例对舆情新闻文本的具体内容和表现形式、是否预处理以及预处理的具体方式不做限制。
在一个可选示例中,企业的舆情新闻文本可以为“AA出行上线全国首个车机端“智慧出行”系统,提升出行效率。AA出行于2020年10月份在西安上线了全国首个车机端“智慧出行”系统,首次实现了人、车、机智能交互。AA出行“智慧出行”系统能够将传统的“车机端”进行有效联动,除了简单的系统语音、路线导航等功能还能实现智能接单、同步目的地导航、智能语音播报等功能,这些新功能的上线,在为出租车司机带来更多订单的同时,也能提升出租车司机效率,让车内场景更加安全与便捷。近日,在北京召开的全国十三届全国人大四次会议提到了加快数字化发展,促进全产业链数字化转型升级。”。
本公开实施例中的待分析文本,例如企业的舆情新闻文本,是非结构化信息。
本公开实施例中,可以实时或者按照一定周期从各网站、论坛、自媒体平台等获取待分析文本,或者,也可以接收用户输入的待分析文本,本公开实施例对获取待分析文本的途径和方式不做限定。
S202,利用预先训练得到的分析模型,预测待分析文本为预设情感类型的概率值,得到第一预测结果。
本公开实施例中的情感类型用于表征舆情新闻的情感极性。例如,若舆情新闻所描述信息是正面的、积极的,则可以确定舆情新闻的情感极性为正极,即舆情新闻的情感类型为正面情感;若舆情新闻所描述的信息是负面的、消极的,则可以舆情新闻的情感极性为负极,即舆情新闻的情感类型为负面情感;若舆情新闻所描述的信息是中性的,则可以确定舆情新闻的情感类型为中性情感。本公开实施例中的预设情感类型可以包括以下任意一个或多个:正面情感,负面情感。
本公开实施例中的分析模型可以预先基于多个第一训练语料训练得到,第一训练语料可以标注有情感类型标注信息。本公开实施例中的多个第一训练语料的情感类型可以包括以下任意一个或多个:正面情感,负面情感。
可选地,在其中一些可能的实现方式中,该步骤S202中,若多个第一训练语料的情感类型包括正面情感和负面情感,基于多个第一训练语料训练得到的分析模型可以用于舆情新闻的二分类,即对舆情新闻是否为正面情感类型或负面情感类型进行预测,并不对舆情新闻是否为中性情感类型进行预测,能够避免中性舆情新闻的特征不突出对识别结果准确度的影响,有助于提高舆情新闻识别结果的准确度。
或者,在另一些可能的实现方式中,该步骤S202中,若多个第一训练语料的情感类型仅包括负面情感,基于多个第一训练语料训练得到的分析模型侧重学习了负面舆情新闻的识别,有助于准确识别负面舆情新闻,能够避免用户对舆情新闻的错误理解,能够减少用户的不必要损失。
可选地,在其中一些可能的实现方式中,该步骤S202中,分析模型可以选用预训练语言模型,例如BERT模型、RoBERTa模型、ERNIE模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
预训练语言模型可以通过建模海量数据中的实体概念等先验语义知识,学习完整概念的语义表示,对语义知识单元的表示更贴近真实世界,在基于字特征输入建模的同时,直接对先验语义知识单元进行建模,具有较强的语义表示能力。
或者,在另一些可能的实现方式中,该步骤S202中,使用BERT模型、RoBERTa模型、ERNIE模型等大型预训练语言模型作为分析模型,使用大量训练语料对预训练语言模型进行精调(fine-tuning),来实现对进行预训练语言模型的训练。
本公开实施例中,可以根据实际需要选择分析模型的激活函数,例如可以选择sigmoid函数作为分析模型的激活函数,也可以选择softmax函数作为分析模型的激活函数,本公开实施例对分析模型具体使用的激活函数不做限制。
例如,在训练用于识别某一种情感类型(例如,负面情感)的舆情新闻的分析模型时,可以选择sigmoid函数作为分析模型的激活函数,在训练用于识别多种情感类型(例如,正面情感和负面情感)的舆情新闻的分析模型时,可以选择softmax函数作为分析模型的激活函数。
可选地,在其中一些可能的实现方式中,该步骤S202中,预先基于多个第一训练语料训练得到分析模型时,可以将多个第一训练语料中的各第一训练语料及情感类型标注信息输入分析模型,经分析模型输出各第一训练语料是否各预设情感类型的概率值,基于多个第一训练语料是否各预设情感类型的概率值与对应的情感类型标注信息对应的概率值,对分析模型进行训练。
基于上述可能的实现方式,可以利用大量的第一训练语料训练分析模型,使分析模型可以充分学习到各第一训练语料与情感类型之间的规约关系,训练得到的分析模型能够准确识别待分析文本的第一情感类型。
S203,基于第一预测结果,确定待分析文本的第一情感类型。
基于上述可能的实现方式可以预先训练得到分析模型,在分析模型训练完成后,可以将分析模型用于预测待分析文本为预设情感类型的概率值,得到第一预测结果,进而可以基于预测得到的待分析文本为预设情感类型的概率值确定待分析文本的情感类型。
可选地,在其中一些可能的实现方式中,该步骤S203中,第一预测结果可以包括待分析文本为正面情感类型的概率值和为负面情感类型的概率值;或者,待分析文本为正面情感类型的概率值和不为正面情感类型的概率值;或者,待分析文本为负面情感类型的概率值和不为负面情感类型的概率值。
基于此,可以根据第一预测结果包括的概率值与预设阈值的大小,确定待分析文本的第一情感类型,其中预设阈值的大小可以根据实际需要进行设定,本公开实施例对此不做限定。
以第一预测结果包括待分析文本为正面情感类型的概率值和为负面情感类型的概率值,第一预设阈值为0.7为一个示例,可以将待分析文本为正面情感类型的概率值和待分析文本为负面情感类型的概率值分别与第一预设阈值进行比较,若待分析文本为正面情感类型的概率值大于0.7,可以确定待分析文本的第一情感类型为正面情感类型,若待分析文本为负面情感类型的概率值大于0.7,可以确定待分析文本的第一情感类型为负面情感类型,若待分析文本为正面情感类型的概率值不大于0.7,且待分析文本为负面情感类型的概率值不大于0.7,可以确定待分析文本的第一情感类型为中性情感类型。
以第一预测结果包括待分析文本为负面情感类型的概率值和不为负面情感类型的概率值,第二预设阈值为0.84,第三预设阈值为0.36为另一个示例,可以将待分析文本为负面情感类型的概率值和待分析文本不为负面情感类型的概率值分别与第二预设阈值和第三预设阈值进行比较,若待分析文本为负面情感类型的概率值大于0.84,可以确定待分析文本的第一情感类型为负面情感类型,若待分析文本不为负面情感类型的概率值大于0.36,可以确定待分析文本的第一情感类型为正面情感类型,若待分析文本为负面情感类型的概率值不大于0.84,且待分析文本不为负面情感类型的概率值不大于0.36,可以确定待分析文本的第一情感类型为中性情感类型。
基于本公开上述实施例提供的信息分析方法,首先获取待分析文本,然后利用预先训练得到的分析模型,预测待分析文本为预设情感类型的概率值,得到第一预测结果,其中的预设情感类型包括正面情感和负面情感中的任意一个或多个,进而基于第一预测结果,确定待分析文本的第一情感类型。由于预设情感类型不包括中性情感,使得利用预先训练得到的分析模型对待分析文本进行预测时,只对待分析文本为正面情感类型和/或负面情感类型的概率进行预测,并不对待分析文本为中性情感类型的概率进行预测,能够避免中性舆情新闻的特征不突出对识别结果准确度的影响,有助于提高舆情新闻识别结果的准确度,能够避免用户对舆情新闻的错误理解,另外舆情新闻识别结果准确度的提高,有助于准确识别负面舆情新闻,能够减少用户的不必要损失。
可选地,在其中一些可能的实现方式中,在获取待分析文本之后,还可以获取待分析文本中的目标实体,将待分析文本与目标实体按照预设方式拼接,得到拼接文本,将拼接文本输入分析模型,经分析模型输出第一预测结果;基于第一预测结果,确定待分析文本的第一情感类型,以及输出目标实体和待分析文本的第一情感类型。
该可能的实现方式中的目标实体可以为社会管理者、企业、个人或其他各类组织,本公开实施例对目标实体的类型不做限定。本公开实施例中可以人工手动获取待分析文本中实体作用目标实体,也可以预先训练用于识别待分析文本中包括的实体的识别模型,并利用识别模型对待分析文本进行识别,以获取待分析文本中的实体作为目标实体,本公开实施例对获取目标实体的途径和方式不做限定。
该可能的实现方式中,将待分析文本与目标实体按照预设方式拼接,得到拼接文本,可以利用预设字段,将待分析文本与目标实体按照预设拼接,得到文本。
在一个可选示例中,待分析文本为“AA出行于2020年10月份在西安上线了全国首个车机端“智慧出行”系统,首次实现了人、车、机智能交互”,目标实体为“AA出行”,将待分析文本和目标实体“滴答出行”按照预设方式拼接,得到拼接后的待分析文本为:{“text”:“AA出行于2020年10月份在西安上线了全国首个车机端“智慧出行”系统,首次实现了人、车、机智能交互”,“entity”:“AA出行”}。其中预设字段“text”表示待分析文本,预设设定“entity”表示目标实体。
之后将拼接文本输入分析模型,经分析模型输出第一预测结果,第一预测结果可以包括待分析文本为预设情感类型的概率值,例如,第一预测结果可以为:{"emotion_with_entity":{"name":"AA出行","prob":[0.95868,0.0432]}},其中预设字段“emotion_with_entity”表示预测结果,预设字段“name”表示实体名称,预设字段“prob”表示第一预测结果中包括的概率值,可以包括两个分量。
其中,预设字段“prob”中两个分量的含义可以根据实际需要进行设定,例如,可以设定第一分量为待分析文本为负面情感类型的概率值,第二分量为待分析文本不为负面情感类型的概率值;也可以设定第一分量为待分析文本为正面情感类型的概率值,第二分量为待分析文本为负面情感类型的概率值;还可以设定第一分量为待分析文本为正面情感类型的概率值,第二分量为待分析文本不为正面情感类型的概率值,本公开实施例对此不做限定。
可选地,在其中一些可能的实现方式中,第一预测结果可以包括待分析文本为预设情感类型的概率值和待分析文本的情感类型,可以获取第一预测结果中的情感类型作为待分析文本的第一情感类型。
例如,第一预测结果可以为{"emotion_with_entity":{"name":“AA出行”,"prob":[0.041316501796245575,0.9586834907531738],"label":"负面"}},其中预设字段“emotion_with_entity”、预设字段“name”和预设字段“prob”的含义可以参见本公开上述可能的实现方式,此处不再赘述。其中的预设字段“label”表示情感类型,可以获取第一预测结果中的情感类型“负面”作为待分析文本的第一情感类型。
该可选的实现方式中,基于第一预测结果包括的概率值,可以确定待分析文本的第一情感类型,并可以输出目标实体和待分析文本的第一情感类型至用户的显示设备,以便用户及时发现其投资企业的负面信息,进而调整投资策略,避免给用户带来巨大的经济损失。
可选地,在其中一些可能的实现方式中,在获取待分析文本中的目标实体时,可以识别待分析文本中包括的实体,确定待分析文本中包括的实体是否大于1个,若待分析文本中包括的实体等于1个,以待分析文本中包括的实体作为目标实体。
该可能的实现方式中,可以利用预先训练的识别模型对待分析文本进行识别,获取待分析文本中包括的实体,进而根据待分析文本中包括的实体的数量确定目标实体。若待分析文本中包括的实体等于1个,以待分析文本中包括的实体作为目标实体。
在一个可选示例中,待分析文本为“BB裁员4000人:时代抛弃你时,连招呼都不会打!”,利用识别模型对待分析文本进行识别,可以获取到待分析文本中的唯一实体“BB”,进而可以将实体“BB”作为目标实体。
或者,在另一些可能的实现方式中,若待分析文本中包括的实体大于1个,可以基于预设方式,从待分析文本中包括的实体中确定一个实体作为目标实体。
在该可能的实现方式中,可以根据各实体在待分析文本中出现的次数、各实体在待分析文本中以第一人称出现的次数,和/或实体是否为企业实体确定目标实体。
基于此,在其中一些可能的实现方式中,基于预设方式,从待分析文本中包括的实体中确定一个实体作为目标实体,可以包括以下任意一项或多项:确定出现次数最多的实体作为目标实体,确定以第一人称出现次数最多的实体作为目标实体,确定企业实体作为目标实体。在该可能的实现方式中,基于预设方式,从待分析文本中包括的实体中确定一个实体作为目标实体,可以选取出现次数最多,以第一人称出现次数最多,和或是企业实体的实体作为目标实体。在一个可选示例中,待分析文本为“据统计,2020年度,CC手机共销售10万台,DD手机共销售8万台,对比发现,CC手机销量更高,CC手机更畅销”,利用识别模型对该待分析文本进行识别,可以获取到待分析文本中的实体包括CC和DD,其中,CC的出现次数为3,DD的出现次数为1,CC以第一人称出现的次数为3,DD以第一人称出现的次数为1。对比发现,CC的出现次数及以第一人称出现的次数,分别比DD的出现次数及以第一人称出现的次数多,因此,可以选取CC作为待分析文本的目标实体。
在另一个可选示例中,待分析文本为“目前,市场上比较畅销的国产手机品牌主要有DD和CC。其中,DD品牌的手机重量跟一个苹果的重量相差不多。”利用识别模型对该待分析文本进行识别,可以获取到待分析文本中的实体包括DD、CC和苹果,其中DD为企业实体,出现次数为2,CC企业实体,出现次数为1,苹果为非企业实体,出现次数为1。对比发现,企业实体DD出现的次数最多,因此可以选取DD作为待分析文本的目标实体。
可选地,在其中一些可能的实现方式中,在确定一个实体作为目标实体之后,可以将待分析文本中包括的实体中除目标实体以外的其它实体进行掩码处理,并将掩码处理后的待分析文本与目标实体按照预设方式拼接,得到拼接文本。
在这里,对待分析文本中的其它实体进行掩码处理可以是使用预设掩码字段代替待分析文本中的其它实体。例如可以将“MASK”作为预设掩码字段代替待分析文本中的其他实体。本公开实施对于预设掩码字段的内容不做限定。
在一个可选示例中,待分析文本为“EE盈利1000万;FF亏损1000万”,使用预设掩码字段“MASK”对待分析文本中的其它实体“FF”进行掩码处理,并将掩码处理后的待分析文本与目标实体“EE”按照预设方式拼接,得到拼接文本为:{“text”:“EE盈利1000万;MASK亏损1000万”,“entity”:“EE”}
基于该可选的实现方式,分析模型对掩码处理后的待分析文本的预设情感类型进行预测,得到第一预测结果,能够遮蔽待分析文本中的其他实体,减少了待分析文本的信息量,同时降低了其他实体信息对预测速度和预测结果准确度的影响,有助于提高预测速度和预测结果的准确度,进而可以提高舆情新闻的识别速度和准确度。
可选地,在其中一些可能的实现方式中,获取待分析文本之后,还可以确定待分析文本的长度是否大于预设长度,若待分析文本的长度不大于预设长度,执行利用预先训练得到的分析模型,预测待分析文本为预设情感类型的概率值,得到第一预测结果的操作。
实际应用中,若待分析文本的大小太大,待分析文本所包含的信息量会特别多,可能包括重复信息或者冗余信息,影响待分析文本的预测速度和预测结果准确度。
基于此,可以根据待分析文本的长度是否大于预设长度,判断待分析文本的长度是否合适。若待分析文本的长度不大于预设长度,则确定待分析文本的长度合适,执行利用分析模型,预测待分析文本为预设情感类型的概率值,得到第一预测结果的操作;若待分析文本的长度大于预设长度,则确定待分析文本的长度不合适,以预设长度为单位将待分析文本进行分成长度合适的N个文本段,其中的N为大于1的整数,进而基于N个文本段预测待分析文本为预设情感类型的概率值。
该可能的实现方式中,预设长度可以根据实际需要进行设定,例如可以是512个字符,本公开实施例对此不做限定。基于该可能的实现方式,可以以预设长度为单位将待分析文本分成至少一个文本段,此时文本段的长度比较合适,能够避免重复信息或冗余信息对预测速度和预测结果准确度的影响。
或者,在另一些可能的实现方式中,若待分析文本的长度大于预设长度,以预设长度为单位,将待分析文本分为N个文本段,其中的N为大于1的整数,利用预先训练得到的分析模型,预测N个文本段为预设情感类型的概率值,得到N个第二预测结果,基于N个第二预测结果,确定待分析文本的第一预测结果。
在该可能的实现方式中,可以将待分析文本分成至少一个文本段,然后利用分析模型,预测至少一个文本段中的每个文本段为预设情感类型的概率值,得到至少一个第二预测结果,进而基于至少一个第二预测结果确定待分析文本的第一预测结果。
可选地,在其中一些可能的实现方式中,可以通过求平均值或者投票的方式,基于N个第二预测结果确定待分析文本的第一预测结果。
在该可能的实现方式中,通过求平均值的方式确定待分析文本的第一预测结果,可以将N个第二预测结果先相加求和,再对个数N求平均值,得到N个第二预测结果的平均值,进而将N个第二预测结果的平均值作为待分析文本的第一预测结果。
在该可能的实现方式中,通过投票的方式确定待分析文本的第一预测结果,可以对N个文本段的情感类型进行统计,确定情感类型为正面情感的文本段的个数N1,以及情感类型为负面情感的文本段的个数N2,其中N1和N2均为不小于0的整数,然后对比N1和N2,若N1大于N2,可以确定待分析文本的第一情感类型为正面情感,若N1小于N2,可以确定待分析文本的第一情感类型为负面情感,若N1等于N2,可以确定待分析文本的第一情感类型为中性情感。
基于该可能的实现方式,可以以预设长度为单位将待分析文本分成N个文本段,然后基于N个文本段的第二预测结果,确定待分析文本的第一预测结果,由于文本段的长度比较合适,不会对预测速度和预测结果准确度造成影响,另外通过求平均值或者投票的方式,基于N个第二预测结果确定待分析文本的第一预测结果,能够保证第一预测结果的客观性和准确性。
图3示出本公开第二示例性实施例中信息分析方法的流程示意图。如图3所示,在上述各实施例的基础上,该实施例的信息分析方法还可以包括:
S301,获取待分析文本中的预设部分的文本作为待分析子文本。
本公实施例中的预设部分可以是待分析文本中的任一段落,也可以是待分析文本中的任一章节。例如预设部分可以是待分析文本中的前1个段落,也可以是待分析文本中的摘要部分。
S302,利用分析模型,预测待分析子文本为预设情感类型的概率值,得到第三预测结果。
S303,基于第三预测结果,确定待分析子文本的第三情感类型。
该步骤S303中,第三预测结果可以包括待分析子文本为预设情感类型的概率值,或者可以包括待分析子文本为预设情感类型的概率值和待分析子文本的情感类型,进而可以根据第三预测结果中的概率值确定待分析子文本的第三情感类型,也可以获取第三预测结果中的情感类型作为待分析值文本的第三情感类型。
S304,基于第一情感类型和第三情感类型,确定待分析文本的第四情感类型。
该步骤S304中,基于第一情感类型和第三情感类型,确定待分析文本的第四情感类型,可以根据第一情感类型与第三情感类型是否一致,确定待分析文本的第四情感类型。
可选地,在其中一些可能的实现方式中,若第一情感类型与第三情感类型一致,可以确定第一情感类型和第三情感类型中的任一作为待分析文本的第四情感类型。
或者,在另一些可能的实现方式中,若第一情感类型于第三情感类型不一致,可以根据预设规则,基于第一预测结果和第三预测结果确定第四预测结果,并根据第四预设结果确定待分析文本的第四情感类型。例如,可以对第一预测结果和第三预测结果进行加权求和,来确定第四预测结果。
基于本实施例,在第一情感类型与第三情感类型一致时,直接确定第一情感类型和第三情感类型中的任一作为待分析文本的第四情感类型,在第一情感类型与第三情感类型不一致时,可以根据预设规则,确定第四预测结果,以便基于第四预测结果确定待分析文本的第四情感类型,相当于通过待分析子文本的第三预测结果对待分析文本的第一预测结果进行验证和优化,能够进一步提高舆情新闻识别结果的准确度,有助于避免用户对舆情新闻的错误理解。
图4示意性示出本公开第一示例性实施例中信息分析装置的框图。本公开实施例提供的信息分析装置可以设置在终端设备上,也可以设置在服务端上,或者部分设置在终端设备上,部分设置在服务端上,例如,可以设置在图1中的服务器105(根据实际替换),但本公开并不限定于此。
如图4所示,该实施例的信息分析装置包括:第一获取模块401,第一预测模块402,和第一确定模块403。其中,
第一获取模块401,用于获取待分析文本。
第一预测模块402,用于利用预先训练得到的分析模型,预测所待分析文本为预设情感类型的概率值,得到第一预测结果;其中的预设情感类型包括以下任意一个或多个:正面情感,负面情感。
第一确定模块403,用于基于第一预测结果,确定待分析文本的第一情感类型。
基于本实施例的信息分析装置,首先获取待分析文本,然后利用预先训练得到的分析模型,预测待分析文本为预设情感类型的概率值,得到第一预测结果,其中的预设情感类型包括正面情感和负面情感中的任意一个或多个,进而基于第一预测结果,确定待分析文本的第一情感类型。由于预设情感类型不包括中性情感类型,使得利用预先训练得到的分析模型对待分析文本进行预测时,只对待分析文本为正面情感类型和/或负面情感类型的概率进行预测,并不对待分析文本为中性情感类型的概率进行预测,能够避免中性舆情新闻的特征不突出对识别结果准确度的影响,有助于提高舆情新闻识别结果的准确度,能够避免用户对舆情新闻的错误理解,另外舆情新闻识别结果准确度的提高,有助于准确识别负面舆情新闻,能够减少用户的不必要损失。
可选地,在其中一些可能的实现方式中,第一预测模块502可以包括:拼接单元,用于将待分析文本和目标实体按照预设方式拼接,得到拼接后的待分析文本;第一预测单元,用于将拼接后的待分析文本输入第一分析模型,经第一分析模型输出第一预测结果。
图5示出本公开第二示例性实施例中信息分析装置的框图。如图5所示,在图4所示实施例的基础上,该实施例的信息分析装置还可以包括:第二获取模块404、拼接模块405和输出模块406。其中:
第二获取模块404,用于获取待分析文本中的目标实体。
拼接模块405,用于将待分析文本与目标实体按照预设方式拼接,得到拼接文本。
第一预测模块402,用于将拼接文本输入分析模型,经分析模型输出第一预测结果。
输出模块406,用于输出目标实体和待分析文本的第一情感类型。
可选地,在其中一些可能的实现方式中,第二获取模块404,具体用于:识别待分析文本中包括的实体;确定待分析文本中包括的实体是否大于1个;若待分析文本中包括的实体大于1个,基于预设方式,从待分析文本中包括的实体中确定一个实体作为目标实体。
可选地,在其中一些可能的实现方式中,第二获取模块404基于预设方式,从待分析文本中包括的实体中确定一个实体作为目标实体包括以下任意一项或多项:确定出现次数最多的实体作为目标实体,确定以第一人称出现次数最多的实体作为目标实体,确定企业实体作为目标实体。
可选地,在其中一些可能的实现方式中,拼接模块405,用于将待分析文本中包括的实体中除目标实体以外的其它实体进行掩码处理,并将掩码处理后的待分析文本与目标实体按照预设方式拼接,得到拼接文本。
可选地,在其中一些可能的实现方式中,第二获取模块504,还用于:
若待分析文本中包括的实体等于1个,以待分析文本中包括的实体作为所述目标实体。
可选地,在其中一些可能的实现方式中,第一预测结果包括:待分析文本为正面情感类型的概率值和为负面情感类型的概率值;或者,待分析文本为正面情感类型的概率值和不为正面情感类型的概率值;或者,待分析文本为负面情感类型的概率值和不为负面情感类型的概率值。
可选地,在其中一些可能的实现方式中,第一预测模块402,用于利用预先训练得到的分析模型,预测待分析文本为预设情感类型的概率值;第一确定模块403,用于基于预测得到的待分析文本为预设情感类型的概率值确定待分析文本的情感类型;其中,第一预测结果包括待分析文本为预设情感类型的概率值和待分析文本的情感类型;第一确定模块403,还用于获取第一预测结果中的情感类型。
可选地,再参见图5,在上述各实施例的基础上,信息分析装置还可以包括:第二确定模块407。其中:
第二确定模块407,用于确定待分析文本的长度是否大于预设长度。
第一预测模块402,用于根据第二确定模块407的确定结果,若待分析文本的长度不大于预设长度,执行利用预先训练得到的分析模型,预测待分析文本为预设情感类型的概率值,得到第一预测结果的操作。
可选地,再参见图5,在上述各实施例的基础上,信息分析装置还可以包括分割模块408。其中,
分割模块408,用于根据第二确定模块407的确定结果,若待分析文本的长度大于预设长度,以预设长度为单位,将待分析文本分为N个文本段;其中,N为大于1的整数。
第一预测模块402,用于利用预先训练得到的分析模型,预测N个文本段为预设情感类型的概率值,得到N个第二预测结果;基于N个第二预测结果,确定待分析文本的第一预测结果。
可选地,在其中一些可能的实现方式中,在上述各实施例的基础上,信息分析装置还可以包括第三获取模块409。其中:
第三获取模块409,用于获取待分析文本中的预设部分的文本作为待分析子文本。
第一预测模块402,用于利用分析模型,预测待分析子文本为预设情感类型的概率值,得到第三预测结果。
第一确定模块403,用于基于第三预测结果,确定待分析子文本的第三情感类型;基于第一情感类型和第三情感类型,确定待分析文本的第四情感类型。
可选地,再参见图5,在上述各实施例的基础上,信息分析装置还可以包括训练模块410。
其中,训练模块410,用于将多个第一训练预料中的各第一训练预料及情感类型标注信息输入分析模型,经分析模型输出各第一训练语料是否各预设情感类型的概率值;基于多个第一训练语料是否各预设情感类型的概率值与对应的情感类型标注信息对应的概率值,对分析模型进行训练。
本公开实施例提供的信息分析装置中的各个模块、单元和子单元的具体实现可以参照上述信息分析方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。
如图6所示,示例电子设备60包括用于执行软件例程的处理器601尽管为了清楚起见示出了单个处理器,但是电子设备60也可以包括多处理器系统。处理器601连接到通信基础设施602,用于与电子设备60的其他组件进行通信。通信基础设施602可以包括例如通信总线、交叉开关或网络。
电子设备60还包括诸如随机存取存储器(Random Access Memory,RAM)之类的存储器,所述存储器可包括主存储器603和辅助存储器610。辅助存储器610可以包括,例如硬盘驱动器611和/或可移动存储驱动器612,可移动存储驱动器612可以包括软盘驱动器,磁带驱动器,光盘驱动器等。可移动存储驱动器612以常规方式对可移动存储单元613进行读取和/或写入。可移动存储单元613可以包括由可移动存储驱动器612读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解,可移动存储单元613包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
在一种可选实施方式中,辅助存储器610可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备60中的其他类似装置。这样的装置可以包括例如可移动存储单元621和接口620。可移动存储单元621和接口620的示例包括:程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM或PROM)和相关联的插槽、以及其他可移动存储单元621和允许软件和数据从可移动存储单元621传输到电子设备60的接口620。
电子设备60还包括至少一个通信接口640。通信接口640允许软件和数据经由通信路径641在电子设备60和外部设备之间传输。在本发明的各种实施例中,通信接口640允许数据在电子设备60和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口640可用于在不同的电子设备60之间交换数据,这些电子设备60形成互连的计算机网络的一部分。通信接口640的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口640可以是有线的或者可以是无线的。经由通信接口640传输的软件和数据为信号形式,该信号可以是能够被通信接口640接收的电、磁、光或其他信号。这些信号经由通信路径641被提供给通信接口。
如图6所示,电子设备60还包括显示器接口631和音频接口632,显示器接口631执行用于将图像渲染到关联的显示器630的操作,音频接口632用于执行通过关联的扬声器633播放音频内容的操作。
在本申请文件中,术语“计算机程序产品”部分程度上可以指代:可移动存储单元613、可移动存储单元621、安装在硬盘驱动器611中的硬盘、或承载着软件通过通信路径641(无线链路或电缆)到通信接口640的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备60以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等,这些部件无论是在电子设备60的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备60提供软件、应用程序、指令和/或数据,这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。
计算机程序(也被称为计算机程序代码)存储在主存储器603和/或辅助存储器610中。也可以经由通信接口640来接收计算机程序。此类计算机程序在被执行时使电子设备60能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中,计算机程序在被执行时,使处理器601能够执行上述实施例的特征。因此,此类计算机程序代表计算机系统60的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器612、硬盘驱动器611或接口620加载到电子设备60中。替代地,可以通过通信路径641将计算机程序产品下载到计算机系统60。该软件在由处理器601执行时促使电子设备60执行本文描述的实施例的功能。
应该理解,图6的实施例仅以示例的方式给出。因此,在一些实施例中,可以省略电子设备60的一个或多个特征。而且,在一些实施例中,电子设备60的一个或多个特征可以被组合在一起。另外,在一些实施例中,电子设备60的一个或多个特征可以被分成一个或多个组成部分。
可以理解的是,图6所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。
在一种实施方式中,服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图2-3所示方法的功能。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被电子设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (15)
1.一种信息分析方法,其特征在于,包括:
获取待分析文本;
利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果;其中,所述预设情感类型包括以下任意一个或多个:正面情感,负面情感;
基于所述第一预测结果,确定所述待分析文本的第一情感类型。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述待分析文本中的目标实体;
所述利用预先训练得到的分析模型,预测所述待分析文本的情感类型,得到第一预测结果包括:
将所述待分析文本与所述目标实体按照预设方式拼接,得到拼接文本;
将所述拼接文本输入所述分析模型,经所述分析模型输出所述第一预测结果;
所述基于所述第一预测结果,确定所述待分析文本的第一情感类型之后,还包括:
输出所述目标实体和所述待分析文本的第一情感类型。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待分析文本中的目标实体,包括:
识别所述待分析文本中包括的实体;
确定所述待分析文本中包括的实体是否大于1个;
若所述待分析文本中包括的实体大于1个,基于预设方式,从所述待分析文本中包括的实体中确定一个实体作为所述目标实体。
4.根据权利要求3所述的方法,其特征在于,所述基于预设方式,从所述待分析文本中包括的实体中确定一个实体作为所述目标实体包括以下任意一项或多项:确定出现次数最多的实体作为目标实体,确定以第一人称出现次数最多的实体作为目标实体,确定企业实体作为目标实体。
5.根据权利要求3或4所述的方法,其特征在于,所述将所述待分析文本与所述目标实体按照预设方式拼接,得到拼接文本,包括:
将所述待分析文本中包括的实体中除所述目标实体以外的其它实体进行掩码处理,并将掩码处理后的待分析文本与所述目标实体按照预设方式拼接,得到拼接文本。
6.根据权利要求3所述的方法,其特征在于,所述获取所述待分析文本中的目标实体,还包括:
若所述待分析文本中包括的实体等于1个,以所述待分析文本中包括的实体作为所述目标实体。
7.根据权利要求1所述的方法,其特征在于,所述第一预测结果包括:所述待分析文本为正面情感类型的概率值和为负面情感类型的概率值;或者,所述待分析文本为正面情感类型的概率值和不为正面情感类型的概率值;或者,所述待分析文本为负面情感类型的概率值和不为负面情感类型的概率值。
8.根据权利要求1所述的方法,其特征在于,利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值;
基于预测得到的所述待分析文本为预设情感类型的概率值确定所述待分析文本的情感类型;其中,所述第一预测结果包括所述待分析文本为预设情感类型的概率值和所述待分析文本的情感类型;
所述基于所述第一预测结果,确定所述待分析文本的第一情感类型,包括:
获取所述第一预测结果中的情感类型。
9.根据权利要求1-8任一所述的方法,其特征在于,所述获取待分析文本之后,还包括:
确定所述待分析文本的长度是否大于预设长度;
若所述待分析文本的长度不大于预设长度,执行利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果的操作。
10.根据权利要求9所述的方法,其特征在于,所述获取待分析文本之后,还包括:
若所述待分析文本的长度大于预设长度,以所述预设长度为单位,将所述待分析文本分为N个文本段;其中,N为大于1的整数;
所述利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果包括:
利用预先训练得到的分析模型,预测所述N个文本段为所述预设情感类型的概率值,得到N个第二预测结果;
基于所述N个第二预测结果,确定所述待分析文本的第一预测结果。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待分析文本中的预设部分的文本作为待分析子文本;
利用所述分析模型,预测所述待分析子文本为所述预设情感类型的概率值,得到第三预测结果;
基于所述第三预测结果,确定所述待分析子文本的第三情感类型;
基于所述第一情感类型和所述第三情感类型,确定所述待分析文本的第四情感类型。
12.根据权利要求1-11任一所述的方法,其特征在于,所述分析模型的训练包括:
将多个第一训练语料中的各第一训练语料及情感类型标注信息输入所述分析模型,经所述分析模型输出所述各第一训练语料是否各预设情感类型的概率值;
基于所述多个第一训练语料是否各预设情感类型的概率值与对应的情感类型标注信息对应的概率值,对所述分析模型进行训练。
13.一种信息分析装置,其特征在于,包括:
第一获取模块,用于获取待分析文本;
第一预测模块,用于利用预先训练得到的分析模型,预测所述待分析文本为预设情感类型的概率值,得到第一预测结果;其中,所述预设情感类型包括以下任意一个或多个:正面情感,负面情感;
第一确定模块,用于基于所述第一预测结果,确定所述待分析文本的第一情感类型。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-12中任意一项所述的信息分析方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12中任意一项所述的信息分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110902332.9A CN113609390A (zh) | 2021-08-06 | 2021-08-06 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110902332.9A CN113609390A (zh) | 2021-08-06 | 2021-08-06 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609390A true CN113609390A (zh) | 2021-11-05 |
Family
ID=78307483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110902332.9A Pending CN113609390A (zh) | 2021-08-06 | 2021-08-06 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609390A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114117042A (zh) * | 2021-11-15 | 2022-03-01 | 盐城金堤科技有限公司 | 舆情文本中企业实体的情感预测方法、装置、设备及介质 |
CN115248846A (zh) * | 2022-07-26 | 2022-10-28 | 贝壳找房(北京)科技有限公司 | 文本识别方法、设备、介质和程序产品 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
US20190197105A1 (en) * | 2017-12-21 | 2019-06-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN110232123A (zh) * | 2019-05-28 | 2019-09-13 | 第四范式(北京)技术有限公司 | 文本的情感分析方法及其装置、计算设备与可读介质 |
CN111241842A (zh) * | 2018-11-27 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 文本的分析方法、装置和系统 |
CN111324739A (zh) * | 2020-05-15 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 一种文本情感分析方法及系统 |
CN112100388A (zh) * | 2020-11-18 | 2020-12-18 | 南京华苏科技有限公司 | 一种长文本新闻舆情的情感极性的分析方法 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN112860841A (zh) * | 2021-01-21 | 2021-05-28 | 平安科技(深圳)有限公司 | 一种文本情感分析方法、装置、设备及存储介质 |
-
2021
- 2021-08-06 CN CN202110902332.9A patent/CN113609390A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
US20190197105A1 (en) * | 2017-12-21 | 2019-06-27 | International Business Machines Corporation | Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources |
CN111241842A (zh) * | 2018-11-27 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 文本的分析方法、装置和系统 |
CN110232123A (zh) * | 2019-05-28 | 2019-09-13 | 第四范式(北京)技术有限公司 | 文本的情感分析方法及其装置、计算设备与可读介质 |
CN111324739A (zh) * | 2020-05-15 | 2020-06-23 | 支付宝(杭州)信息技术有限公司 | 一种文本情感分析方法及系统 |
CN112100388A (zh) * | 2020-11-18 | 2020-12-18 | 南京华苏科技有限公司 | 一种长文本新闻舆情的情感极性的分析方法 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN112860841A (zh) * | 2021-01-21 | 2021-05-28 | 平安科技(深圳)有限公司 | 一种文本情感分析方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114117042A (zh) * | 2021-11-15 | 2022-03-01 | 盐城金堤科技有限公司 | 舆情文本中企业实体的情感预测方法、装置、设备及介质 |
CN115248846A (zh) * | 2022-07-26 | 2022-10-28 | 贝壳找房(北京)科技有限公司 | 文本识别方法、设备、介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112860852B (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN113010638B (zh) | 实体识别模型生成方法及装置、实体提取方法及装置 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
JP2022088304A (ja) | ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム | |
CN112579733B (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN113609390A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN112995690B (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
CN111915086A (zh) | 异常用户预测方法和设备 | |
CN111553138A (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN113011169B (zh) | 一种会议纪要的处理方法、装置、设备及介质 | |
CN110516236B (zh) | 一种社交短文本细粒度情感采集方法 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
US20230274161A1 (en) | Entity linking method, electronic device, and storage medium | |
CN112948251B (zh) | 软件自动测试方法及装置 | |
CN112115720B (zh) | 一种实体间关联关系的确定方法、装置、终端设备及介质 | |
CN111523034B (zh) | 一种应用程序的处理方法、装置、设备及介质 | |
CN114595318A (zh) | 一种客服回复质量评价方法及系统 | |
KR102243275B1 (ko) | 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체 | |
CN113065353A (zh) | 实体识别方法及装置 | |
CN112784015A (zh) | 信息识别方法和装置、设备、介质和程序 | |
CN110574102B (zh) | 信息处理系统、信息处理装置、记录介质以及词典数据库的更新方法 | |
CN113569091A (zh) | 视频数据的处理方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |