CN115982370B - 一种信息处理方法 - Google Patents

一种信息处理方法 Download PDF

Info

Publication number
CN115982370B
CN115982370B CN202310258133.8A CN202310258133A CN115982370B CN 115982370 B CN115982370 B CN 115982370B CN 202310258133 A CN202310258133 A CN 202310258133A CN 115982370 B CN115982370 B CN 115982370B
Authority
CN
China
Prior art keywords
information
unprocessed
undetermined
value
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310258133.8A
Other languages
English (en)
Other versions
CN115982370A (zh
Inventor
冯蕾
杨景娜
禄雨薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202310258133.8A priority Critical patent/CN115982370B/zh
Publication of CN115982370A publication Critical patent/CN115982370A/zh
Application granted granted Critical
Publication of CN115982370B publication Critical patent/CN115982370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息处理方法,能够较为机敏的确定出目标事件的事件信息是否是热点信息。而且,在事件信息发布伊始,其最终是否会成为热点信息是很难看出来的,即便是一条事件信息具备成为热点信息条件,该事件信息刚刚发布时,也未必会引起广泛讨论,若一开始就为该事件信息分配大量的信息处理资源,将会导致资源浪费的现象,采用本说明书中的方法,能够判断出事件信息成为热点信息的时间节点,并为在该时间节点为该事件信息进行对应于热点信息的处理方式提供了一定的条件。此外,本说明书中的方法还采用信息重组策略对对应于目标事件的未处理信息进行重构,使得来源迥异的未处理信息具有较为整齐划一的“格式”,以便于对其进行分析。

Description

一种信息处理方法
技术领域
本申请涉及信息技术领域,尤其涉及一种信息处理方法。
背景技术
信息发布是信息互通的重要手段之一。一条信息的发布,有可能引起不同程度的反馈。某些热点信息收获的反馈可能较多,而某些冷门信息收获的反馈可能较少。如果不对热点信息和冷门信息进行区分,一视同仁地采取相同的手段对其进行处理,将有可能导致针对热点信息分配的信息处理资源不足,而针对冷门信息则出现信息处理资源冗余的现象。
此外,信息处理面临的问题不仅仅是资源分配的问题,还有信息处理效率的问题。针对热点信息若能规模化、批量化的进行处理,将有效地提高信息处理效率。
发明内容
本申请实施例提供了一种信息处理方法,以至少部分的解决上述技术问题。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种信息处理方法,所述方法包括:
获取针对目标事件的未处理信息,所述未处理信息是基于用户对所述目标事件的反馈生成的;
累计获取到的所述未处理信息的数量,并确定不同的所述未处理信息之间的相似度;
若触发指定条件,则获取预设的信息重组策略,所述指定条件是:累计的所述未处理信息的数量不小于预设的第一数量阈值、且累计的所述未处理信息中半数以上存在与其他至少一条未处理信息的相似度大于预设的相似度阈值;
采用所述信息重组策略,基于短语的属性,对所述未处理信息包含的短语进行重新排序,得到待定信息;
基于所述待定信息,对所述未处理信息进行分析,得到分析结果。
在本说明书一个可选的实施例中,所述方法还包括:
若累计获取到的所述未处理信息的数量不小于预设的第二数量阈值、且未触发所述指定条件,则直接对所述未处理信息进行分析,得到分析结果,所述第二数量阈值大于所述第一数量阈值。
在本说明书一个可选的实施例中,所述分析结果包含对所述未处理信息按照情感极性进行分类的分类结果;基于所述待定信息,对所述未处理信息进行分析,包括:
确定所述待定信息对所述目标事件的积极情感表征值和消极情感表征值,所述积极情感表征值与其对应的待定信息的积极情感强度正相关,所述消极情感表征值与其对应的待定信息的消极情感强度正相关、且所述消极情感表征值还与其对应的待定信息和所述目标事件的事件信息的匹配度正相关;
从所述待定信息中,筛选出可用信息,所述可用信息是积极情感表征值和消极情感表征值的差异大于预设的差异阈值的待定信息;
基于所述可用信息,对所述未处理信息进行分析。
在本说明书一个可选的实施例中,所述方法还包括:
所述积极情感表征值还与其对应的待定信息包含的任意两个短语之间的相似度的最大值负相关;所述消极情感表征值还与其对应的待定信息的词汇量正相关。
在本说明书一个可选的实施例中,所述方法还包括:
在所述待定信息和所述事件信息的匹配度大于预设的第一匹配度阈值的情况下,所述待定信息的积极情感表征值还与所述待定信息的词汇量正相关。
在本说明书一个可选的实施例中,基于所述可用信息,对所述未处理信息进行分析,包括:
若一条可用信息的积极情感表征值的绝对值,大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为积极信息;
若一条可用信息的积极情感表征值的绝对值,不大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为消极信息。
在本说明书一个可选的实施例中,从所述待定信息中,筛选出可用信息之前,所述方法还包括:
确定所述待定信息的数量;
确定所述待定信息的词汇量的中位数;
确定差异阈值,使得所述差异阈值与所述待定信息的数量正相关、且与所述中位数正相关。
第二方面,本申请实施例还提供一种信息处理装置,所述装置包括:
获取模块,配置为:获取针对目标事件的未处理信息,所述未处理信息是基于用户对所述目标事件的反馈生成的;
累计模块,配置为:累计获取到的所述未处理信息的数量,并确定不同的所述未处理信息之间的相似度;
判断模块,配置为:若触发指定条件,则获取预设的信息重组策略,所述指定条件是:累计的所述未处理信息的数量不小于预设的第一数量阈值、且累计的所述未处理信息中半数以上存在与其他至少一条未处理信息的相似度大于预设的相似度阈值;
排序模块,配置为:采用所述信息重组策略,基于短语的属性,对所述未处理信息包含的短语进行重新排序,得到待定信息;
分析模块,配置为:基于所述待定信息,对所述未处理信息进行分析,得到分析结果。
第三方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面之任一所述方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面之任一所述方法。
第五方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述第一方面中的方法。
第六方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述第一方面中的方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:采用本说明书提供的信息处理方法,能够较为机敏的确定出目标事件的事件信息是否是热点信息。而且,在事件信息发布伊始,其最终是否会成为热点信息是很难看出来的,即便是一条事件信息具备成为热点信息条件,该事件信息刚刚发布时,也未必会引起广泛讨论,若一开始就为该事件信息分配大量的信息处理资源,将会导致资源浪费的现象,采用本说明书中的方法,能够判断出事件信息成为热点信息的时间节点,并为在该时间节点为该事件信息进行对应于热点信息的处理方式提供了一定的条件。此外,本说明书中的方法还采用信息重组策略对对应于目标事件的未处理信息进行重构,使得来源迥异的未处理信息具有 较为整齐划一的“格式”,以便于对其进行分析。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种信息处理方法过程示意图;
图2为本说明书实施例中一种信息处理装置的结构示意图;
图3为本说明书实施例中一种电子设备的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其它元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第二”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
以下结合附图,详细说明本申请各实施例提供的技术方案。
本说明书提供一种信息处理方法,如图1所示,本说明书中的信息处理方法,包括以下步骤:
S100:获取针对目标事件的未处理信息,所述未处理信息是基于用户对所述目标事件的反馈生成的。
本说明书中的目标事件可以是行政管理机构在工作过程中发生的事件,此外,目标事件也可以是新闻等事件。表征这些事件的信息即为本说明书中的事件信息。未处理信息是指承载目标事件的事件信息的受众(即,本说明书中的用户)对目标事件的反馈的信息。
示例性地,事件信息a:“A公司于XX日组织30岁以上员工进行体检”,这一事件信息可以发布在A公司的企业网页上。未处理信息a:“等好久了”,未处理信息b:“没时间啊,有事儿”是A公司员工对事件信息a作出的反馈,即为本说明书中的未处理信息。
S102:累计获取到的所述未处理信息的数量,并确定不同的所述未处理信息之间的相似度。
事件信息很难做到在发布的第一时间就被所有用户看到。随着时间的延伸,生成的未处理信息的数量是不断增加的,本步骤对未处理信息的累计是实时的累计。在事件信息发布的初期,由于事件信息的传播范围不够广泛,目标事件引起讨论范围也不是很大,导致一开始获取到的未处理信息的数量可能很小,此时,未处理信息不足以引起信息处理方的重视,无需为未处理信息分配过多的信息处理资源。
相关技术中所有用于确定信息之间的相似度的技术手段,在条件允许的情况下,均适用于本说明书。确定不同的未处理信息之间的相似度,即为计算所有未处理信息两两之间的相似度的过程。
需要说明的是,累计未处理信息的数量的操作可以是实时执行的,而计算相似度可以是基于某种条件执行的。示例性地,可以周期性地(周期的时长为预设的)计算相似度;还可以基于累计到的未处理信息的数量,确定未处理信息的瞬时增长率,若瞬时增长率大于或等于预设的增长率阈值,则触发执行确定不同的所述未处理信息之间的相似度。累计未处理信息的数量的难度相对较低,实现较为简便。而计算相似度的开销较大。
S104:若触发指定条件,则获取预设的信息重组策略。
所述指定条件是:累计的所述未处理信息的数量不小于预设的第一数量阈值、且累计的所述未处理信息中半数以上存在与其他至少一条未处理信息的相似度大于预设的相似度阈值。
本步骤旨在判断出目标事件何时转化为“热点事件”,而未处理信息的增长率的“爆炸”能够一定程度的体现出目标事件是否转化为热点事件,与累计的未处理信息的量相结合,综合地确定出目标事件转化为“热点事件”的时机。
未处理信息的数量不小于预设的第一数量阈值表明目标事件已经引起了广泛的讨论,参与讨论的用户较多。累计的所述未处理信息中半数以上存在与其他至少一条未处理信息的相似度大于预设的相似度阈值,表明众多的讨论者中已经形成几种较为统一的意见,而不是所有人都各说各的。这种由用户自发形成的统一意见一方面能够表达用户的真实意愿,另一方面也是基于用户行为的一种“天然的”聚类,此后仅需提取不同类的意见即可,而无需对一盘散沙的未处理信息进行处理,避免丧失信息处理的目标性。
本说明书中的第一数量阈值可以是预设值,可以与事件信息的预计受众(用户)的数量正相关。相似度阈值可以是与目标事件的业务需求相关的预设值。此外,相似度阈值还可以是与事件信息中公开的目标事件的信息属性的丰富程度正相关的。例如,事件信息a公开了目标事件a的:ID、时间、地点、对应的用户;事件信息b公开了目标事件b的:ID、时间。则事件信息a的信息属性的丰富程度大于事件信息b的信息属性的丰富程度。
S106:采用所述信息重组策略,基于短语的属性,对所述未处理信息包含的短语进行重新排序,得到待定信息。
信息重组策略用于对未处理信息包含的词组,进行重新排序,得到待定信息。信息重组策略针对的是词组,而不是词汇。在一条未处理信息中,可能存在某一词汇可以同时属于两个词组的情形。信息重组策略可以是预设的一串代码,实际应用中,可以通过执行代码的方式得到待定信息。得到的待定信息至少在各个属性上均是对齐的。示例性地,某信息重组策略的功能是,基于语义对未处理信息进行分割,得到若干个词组。然后按照信息重组策略定义的信息属性排序方式(例如,排序为:ID、时间、地点、对应的用户)对各个词组进行排序,得到待定信息。若某一条未处理信息的某一信息维度上是空缺的,则其对应的待定信息在该信息维度上标记null。
这样“对齐”处理后的待定信息格式统一,信息维度的排序统一,有利于实现高效的分析处理。
S108:基于所述待定信息,对所述未处理信息进行分析,得到分析结果。
本说明书中的技术方案应用场景多样,例如,可以应用于语义分析的场景,也可以应用于情感极性分析的场景,此外,适用的场景还有许多,在此不一一例举。
采用本说明书提供的信息处理方法,能够较为机敏的确定出目标事件的事件信息是否是热点信息。而且,在事件信息发布伊始,其最终是否会成为热点信息是很难看出来的,即便是一条事件信息具备成为热点信息条件,该事件信息刚刚发布时,也未必会引起广泛讨论,若一开始就为该事件信息分配大量的信息处理资源,将会导致资源浪费的现象,采用本说明书中的方法,能够判断出事件信息成为热点信息的时间节点,并为在该时间节点为该事件信息进行对应于热点信息的处理方式提供了一定的条件。此外,本说明书中的方法还采用信息重组策略对对应于目标事件的未处理信息进行重构,使得来源迥异的未处理信息具有 较为整齐划一的“格式”,以便于对其进行分析。本申请中的方法适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法。
由前述内容可知,本说明书中的方法能够通基于未处理信息的数量和未处理信息之间的相似度较为机敏的判断出一目标事件成为热点事件的时机。然而,实际情况可能是,某一目标事件始终处于不温不火的状态,未能达到被判定为热点事件的条件。针对这种目标事件,若累计获取到的所述未处理信息的数量不小于预设的第二数量阈值、且未触发所述指定条件,则直接对所述未处理信息进行分析,得到分析结果,所述第二数量阈值大于所述第一数量阈值。
考虑到目标事件成为热点时,其热度具有一定的时效性。在本说明书一个可选的实施例中,在执行累计处理时,若累计时长未达到预设的时长阈值,则第二数量阈值是随累计时长的增加而增加的;若累计时长达到预设的时长阈值,则第二数量阈值保持不变。
为对本说明书的分析过程进行说明,示例性地以情感极性分类作为分析结果。在该实施例中,对未处理信息进行分析的过程可以是:
首先,确定所述待定信息对所述目标事件的积极情感表征值和消极情感表征值。本说明书中的积极情感表征值与其对应的待定信息的积极情感强度正相关,至少用于表征待定信息传达的积极情感的强度。所述消极情感表征值与其对应的待定信息的消极情感强度正相关、且所述消极情感表征值还与其对应的待定信息和所述目标事件的事件信息的匹配度正相关。
之后,从所述待定信息中,筛选出可用信息,所述可用信息是积极情感表征值和消极情感表征值的差异大于预设的差异阈值的待定信息;
然后,基于所述可用信息,对所述未处理信息进行分析。通过本说明书得到的可用信息是能够表达出鲜明的情感极性的信息,不是情感极性含糊不清的信息。
示例性地,欢迎、期待、支持,这些都算积极情感。反对、厌恶,这些都算消极情感。
本说明书中的技术方案在确定积极情感表征值和消极情感表征值时分别考察的不同的因素,相较于确定积极情感表征值,在确定消极情感表征值时还考察了待定信息和所述目标事件的事件信息的匹配度。在待定信息与事件信息匹配度较高的情况下,表明这条待定信息对事件信息的某一个或者某几个信息维度表达出了明确的消极情感,这种消极情感指向性明显,应该是终点考察的对象。此外,通过本身或明书中的过程,确定出消极情感表征值的绝对值是大于积极情感表征值的,使得消极情感表征值相较于积极情感表征值更加突出,更加能够引起关注。
此外,对于某些“模棱两可”的未处理信息,例如前述的未处理信息a:“等好久了”,该未处理信息a可能是表达了积极的情感极性,表示期待;也有可能表达了消极的情感极性,表示抱怨。通过本说明书中的方法,由于确定积极情感表征值和消极情感表征值时分别考察了不同的因素,则得到的积极情感表征值的绝对值和消极情感表征值的绝对值很大概率的不相等,能够有利于对这种“模棱两可”的未处理信息具体是表达何种情感进行区分。
本说明书中的差异阈值可以是预设的经验值,也可以通过计算获得。在一个可选的实施例中,确定差异阈值的过程可以是:确定所述待定信息的数量;确定所述待定信息的词汇量的中位数;确定差异阈值,使得所述差异阈值与所述待定信息的数量正相关、且与所述中位数正相关。
由前述内容可知,本说明书中的方法能够在信息处理过程中识别未处理信息的自发的“聚类”,一旦“聚类”的类别形成,表明已经获取到的未处理信息已经能够表现出几个各自统一意见,获取这些统一的意见,就能够获知用户的意愿。而此后再获取的其他的、能够划分到这些类中的未处理信息,相对来说较为冗余,通过本说明书中的计算差异阈值的过程,能够一定程度的忽略掉这些较为冗余的未处理信息。
在本说明书一个可选的实施例中,为使得表征值能够表现出情感的极性,积极情感表征值取正值,消极情感表征值取负值。在进行积极情感表征值和消极情感表征值之间的比较、计算时,可以取两者的绝对值进行计算。
在进一步可选的实施例中,本说明书中的积极情感表征值还与其对应的待定信息包含的任意两个短语之间的相似度的最大值负相关。本说明书中的方法对消极情感更为关注,某些情况下,由于个人表达习惯或者不法分子“水贴”的行为,某些看上去表达积极情感的短语,实际上有可能表达的是消息情感,比如“好好好”,表面上表达认可、赞同,实际上表达的可能是不耐烦。在该实施例中,这一现象能够一定程度的被识别出,并降低其对积极情感表征值的影响。
在进一步可选的实施例中,本说明书中的消极情感表征值还与其对应的待定信息的词汇量正相关。用户在充分表达其意愿时,通常会较为完整的分析其思维的过程、前因后果等,由此生成的未处理信息的词汇量也更加丰富,这种体现出情感逻辑性的未处理信息是值得重点关注的。
此外,在所述待定信息和所述事件信息的匹配度大于预设的第一匹配度阈值的情况下,表明该待定信息所表达的积极情感是有很强的针对性的,这种待定信息是攻击信息的可能性较小,不应被忽略,针对这种情况,所述积极情感表征值还与其对应的待定信息的词汇量正相关。第一匹配度阈值可以是经验值。
经前述步骤的处理,得到的可用信息的数量相较于待定信息的数量已经有所减少,有利于减小后续的信息处理步骤的信息处理负担。
在基于情感极性对信息进行分类的场景中,对未处理信息进行分类的过程可以是:若一条可用信息的积极情感表征值的绝对值,大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为积极信息;若一条可用信息的积极情感表征值的绝对值,不大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为消极信息。
差异阈值能够过滤掉一些情感极性、短语的属性指向不够鲜明的待定信息,而在某些情况下,若出现难以屏蔽的“水贴”攻击行为,则有可能出现舆论信息“一边倒”的情况,使得真实的、表达民众反馈的信息无法作为可用信息。有鉴于此,在本说明书一个可选的实施例中,在从可用信息中确定出积极信息和消极信息之后,若消极信息的数量小于指定数量,表明出现了积极信息的“一边倒”,隐含攻击风险,则采用指定权重对所述差异阈值进行加权,采用加权后的结果更新差异阈值。之后,采用更新后的差异阈值确定可用信息。
在本说明书进一步可选的实施例中,若消极信息的数量小于指定数量,则采用指定权重对所述差异阈值进行加权,采用加权后的结果更新差异阈值,其中,所述指定权重小于一、且大于零,且与所述待定信息包含的词汇量的中位数正相关;其中,所述指定数量与所述待定信息的数量正相关,且与所述若干条未处理信息的生成时刻距当前时刻的时长的正相关;采用更新后的差异阈值确定可用信息。所述指定权重是通过以下公式计算获得的:
R=(αN^k)/(m1+m2+…+mn)×100%
式中,R是指定权重;α是经验系数,是大于0的数;N是待定信息包含的词汇量的中位数;k是分布系数,与所述目标事件的安全等级相关,在所述目标事件的安全等级较高的情况下,k是0至0.5之间的数,在所述目标事件的安全等级较低的情况下,k是0.5至1之间的数;mi是通过马尔科夫蒙特卡洛采样方法,从所述待定信息中采样得到的n个待定信息中的第i个待定信息包含的词汇量。
基于同样的思路,本说明书实施例还提供了一种信息处理装置,如图2所示,该装置包括:
获取模块200,配置为:获取针对目标事件的未处理信息,所述未处理信息是基于用户对所述目标事件的反馈生成的;
累计模块202,配置为:累计获取到的所述未处理信息的数量,并确定不同的所述未处理信息之间的相似度;
判断模块204,配置为:若触发指定条件,则获取预设的信息重组策略,所述指定条件是:累计的所述未处理信息的数量不小于预设的第一数量阈值、且累计的所述未处理信息中半数以上存在与其他至少一条未处理信息的相似度大于预设的相似度阈值;
排序模块206,配置为:采用所述信息重组策略,基于短语的属性,对所述未处理信息包含的短语进行重新排序,得到待定信息;
分析模块208,配置为:基于所述待定信息,对所述未处理信息进行分析,得到分析结果。
在本说明书一个可选的实施例中,分析模块208还配置为:若累计获取到的所述未处理信息的数量不小于预设的第二数量阈值、且未触发所述指定条件,则直接对所述未处理信息进行分析,得到分析结果,所述第二数量阈值大于所述第一数量阈值。
在本说明书一个可选的实施例中,分析模块208还配置为:确定所述待处理信息对所述目标事件的积极情感表征值和消极情感表征值,所述积极情感表征值与其对应的待处理信息的积极情感强度正相关,所述消极情感表征值与其对应的待处理信息的消极情感强度正相关、且所述消极情感表征值还与其对应的待处理信息和所述目标事件的事件信息的匹配度正相关;
从所述待定信息中,筛选出可用信息,所述可用信息是积极情感表征值和消极情感表征值的差异大于预设的差异阈值的待定信息;
基于所述可用信息,对所述未处理信息进行分析。
在本说明书一个可选的实施例中,所述积极情感表征值还与其对应的待定信息包含的任意两个短语之间的相似度的最大值负相关;所述消极情感表征值还与其对应的待定信息的词汇量正相关。
在本说明书一个可选的实施例中,在所述待定信息和所述事件信息的匹配度大于预设的第一匹配度阈值的情况下,所述待定信息的积极情感表征值还与所述待定信息的词汇量正相关。
在本说明书一个可选的实施例中,分析模块208还配置为:若一条可用信息的积极情感表征值的绝对值,大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为积极信息;若一条可用信息的积极情感表征值的绝对值,不大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为消极信息。
在本说明书一个可选的实施例中,所述装置还包括阈值确定模块,配置为:确定所述待定信息的数量;确定所述待定信息的词汇量的中位数;确定差异阈值,使得所述差异阈值与所述待定信息的数量正相关、且与所述中位数正相关。
能够理解,上述信息处理装置,能够实现前述实施例中提供的信息处理方法的各个步骤,关于信息处理装置,此处不再赘述。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种信息处理装置。处理器,执行存储器所存放的程序,并具体用于执行前述任意一种信息处理方法。
上述如本申请图1所示实施例揭示的一种信息处理方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中一种信息处理方法,并实现图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中一种信息处理装置执行的方法,并具体用于执行前述的任意一种信息处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种信息处理方法,其特征在于,所述方法包括:
获取针对目标事件的未处理信息,所述未处理信息是基于用户对所述目标事件的反馈生成的;
累计获取到的所述未处理信息的数量,并确定不同的所述未处理信息之间的相似度;
若触发指定条件,则获取预设的信息重组策略,所述指定条件是:累计的所述未处理信息的数量不小于预设的第一数量阈值、且累计的所述未处理信息中半数以上存在与其他至少一条未处理信息的相似度大于预设的相似度阈值;
采用所述信息重组策略,基于短语的属性,对所述未处理信息包含的短语进行重新排序,得到待定信息;
基于所述待定信息,对所述未处理信息进行分析,得到分析结果;
其中,所述分析结果包含对所述未处理信息按照情感极性进行分类的分类结果;基于所述待定信息,对所述未处理信息进行分析,包括:
确定所述待定信息对所述目标事件的积极情感表征值和消极情感表征值,所述积极情感表征值与其对应的待定信息的积极情感强度正相关,所述消极情感表征值与其对应的待定信息的消极情感强度正相关、且所述消极情感表征值还与其对应的待定信息和所述目标事件的事件信息的匹配度正相关;
从所述待定信息中,筛选出可用信息,所述可用信息是积极情感表征值和消极情感表征值的差异大于预设的差异阈值的待定信息;
基于所述可用信息,对所述未处理信息进行分析。
2.如权利要求1所述方法,其特征在于,所述方法还包括:
若累计获取到的所述未处理信息的数量不小于预设的第二数量阈值、且未触发所述指定条件,则直接对所述未处理信息进行分析,得到分析结果,所述第二数量阈值大于所述第一数量阈值。
3.如权利要求1所述方法,其特征在于,所述方法还包括:
所述积极情感表征值还与其对应的待定信息包含的任意两个短语之间的相似度的最大值负相关;所述消极情感表征值还与其对应的待定信息的词汇量正相关。
4.如权利要求3所述方法,其特征在于,所述方法还包括:
在所述待定信息和所述事件信息的匹配度大于预设的第一匹配度阈值的情况下,所述待定信息的积极情感表征值还与所述待定信息的词汇量正相关。
5.如权利要求1所述方法,其特征在于,基于所述可用信息,对所述未处理信息进行分析,包括:
若一条可用信息的积极情感表征值的绝对值,大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为积极信息;
若一条可用信息的积极情感表征值的绝对值,不大于其消极情感表征值的绝对值,则将所述可用信息对应的未处理信息分类为消极信息。
6.如权利要求1所述方法,其特征在于,从所述待定信息中,筛选出可用信息之前,所述方法还包括:
确定所述待定信息的数量;
确定所述待定信息的词汇量的中位数;
确定所述差异阈值,使得所述差异阈值与所述待定信息的数量正相关、且与所述中位数正相关。
7.一种信息处理装置,其特征在于,所述装置包括:
获取模块,配置为:获取针对目标事件的未处理信息,所述未处理信息是基于用户对所述目标事件的反馈生成的;
累计模块,配置为:累计获取到的所述未处理信息的数量,并确定不同的所述未处理信息之间的相似度;
判断模块,配置为:若触发指定条件,则获取预设的信息重组策略,所述指定条件是:累计的所述未处理信息的数量不小于预设的第一数量阈值、且累计的所述未处理信息中半数以上存在与其他至少一条未处理信息的相似度大于预设的相似度阈值;
排序模块,配置为:采用所述信息重组策略,基于短语的属性,对所述未处理信息包含的短语进行重新排序,得到待定信息;
分析模块,配置为:基于所述待定信息,对所述未处理信息进行分析,得到分析结果;
其中,所述分析结果包含对所述未处理信息按照情感极性进行分类的分类结果;所述分析模块还配置为:确定所述待定信息对所述目标事件的积极情感表征值和消极情感表征值,所述积极情感表征值与其对应的待定信息的积极情感强度正相关,所述消极情感表征值与其对应的待定信息的消极情感强度正相关、且所述消极情感表征值还与其对应的待定信息和所述目标事件的事件信息的匹配度正相关;从所述待定信息中,筛选出可用信息,所述可用信息是积极情感表征值和消极情感表征值的差异大于预设的差异阈值的待定信息;基于所述可用信息,对所述未处理信息进行分析。
8.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~6之任一所述方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~6之任一所述方法。
CN202310258133.8A 2023-03-17 2023-03-17 一种信息处理方法 Active CN115982370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310258133.8A CN115982370B (zh) 2023-03-17 2023-03-17 一种信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310258133.8A CN115982370B (zh) 2023-03-17 2023-03-17 一种信息处理方法

Publications (2)

Publication Number Publication Date
CN115982370A CN115982370A (zh) 2023-04-18
CN115982370B true CN115982370B (zh) 2023-05-23

Family

ID=85968483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310258133.8A Active CN115982370B (zh) 2023-03-17 2023-03-17 一种信息处理方法

Country Status (1)

Country Link
CN (1) CN115982370B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443245B2 (en) * 2009-09-29 2016-09-13 Microsoft Technology Licensing, Llc Opinion search engine
CN103793503B (zh) * 2014-01-24 2017-02-08 北京理工大学 一种基于web文本的观点挖掘与分类的方法
CN107368595A (zh) * 2017-07-26 2017-11-21 中国华戎科技集团有限公司 网络热点信息挖掘方法及系统
CN107633044B (zh) * 2017-09-14 2021-08-06 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法

Also Published As

Publication number Publication date
CN115982370A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US9817893B2 (en) Tracking changes in user-generated textual content on social media computing platforms
US20180260484A1 (en) Method, Apparatus, and Device for Generating Hot News
CN101166159B (zh) 一种确定垃圾信息的方法及系统
CN100565503C (zh) 动态内容聚类
CN109862013B (zh) 一种直播间推荐方法、存储介质、电子设备及系统
US11082509B1 (en) Determining session intent
Subramaniyaswamy et al. Predicting movie box office success using multiple regression and SVM
WO2017148267A1 (zh) 一种文本信息聚类方法和文本信息聚类系统
WO2019169978A1 (zh) 资源推荐方法及装置
US20110295787A1 (en) Information processing apparatus, information processing method, and program
CN101819573A (zh) 一种自适应的网络舆情识别方法
CN107229754B (zh) 信息排序方法、装置、电子设备及存储介质
US11423096B2 (en) Method and apparatus for outputting information
Peng et al. Discovering the influence of sarcasm in social media responses
US11102314B2 (en) Systems and methods for providing a social media knowledge base
CN109218211B (zh) 数据流的控制策略中阈值的调整方法、装置和设备
CN117093653A (zh) 一种信息化资源共享方法及系统
CN115982370B (zh) 一种信息处理方法
CN109769027B (zh) 一种消息推送方法、装置及设备
CN110175113B (zh) 业务场景确定方法和装置
CN109150819B (zh) 一种攻击识别方法及其识别系统
JP2004341584A (ja) 情報紹介システム、情報紹介方法、プログラムおよび記録媒体
CN113657635B (zh) 一种预测通信用户流失的方法及电子设备
CN110738562B (zh) 一种风险提醒信息的生成方法、装置及设备
CN114218997A (zh) 一种实验数据的分组方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant