CN113297848A - 信息处理方法、装置、设备和存储介质 - Google Patents

信息处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113297848A
CN113297848A CN202110528200.4A CN202110528200A CN113297848A CN 113297848 A CN113297848 A CN 113297848A CN 202110528200 A CN202110528200 A CN 202110528200A CN 113297848 A CN113297848 A CN 113297848A
Authority
CN
China
Prior art keywords
keyword
influence score
determining
preset
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110528200.4A
Other languages
English (en)
Other versions
CN113297848B (zh
Inventor
严欢
周一廷
梁奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202110528200.4A priority Critical patent/CN113297848B/zh
Publication of CN113297848A publication Critical patent/CN113297848A/zh
Application granted granted Critical
Publication of CN113297848B publication Critical patent/CN113297848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供一种信息处理方法、装置、设备和存储介质,该方法包括:提取待处理稿件中包含的第一关键词;根据第一关键词以及预设关键词关系,获得与第一关键词的匹配度高于匹配度阈值的第二关键词以及第二关键词对应的第二权重值,根据第二权重值以及第二关键词对应的相关数据,确定第一关键词对应的第一影响力分数,根据第一权重值以及第二关键词对应的第二影响力分数,确定待处理稿件的目标影响力分数。通过本方案,可以大大提高对待处理稿件进行舆情风险评估的自动化程度,提升舆情风险评估的效率和准确性,从而降低带有舆情风险的信息带来的负面影响力。

Description

信息处理方法、装置、设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种信息处理方法、装置、设备 和存储介质。
背景技术
近年来,随着传播技术、手段、环境的发展变化,各类文章的发布渠道 趋于多样化。例如,融媒体稿件,由于其发布渠道非常广泛,进而使得稿件 的受众群体非常庞大,且稿件的覆盖范围广,一旦稿件内容出现带有舆情风 险的信息,都会带来极大的负面影响。因此,如何在稿件发布之前对稿件的 舆情风险进行精准的评估,是目前亟待解决的问题。
目前,通常由相关人员根据经验对待发布的稿件进行舆情风险的评估, 从而根据评估情况采取相应措施,以降低带有舆情风险的信息带来的负面影 响力。但通过人工进行舆情风险评估的方式效率较低,且结果不够准确。
发明内容
本公开的实施例提供一种信息处理方法、装置、设备和存储介质,用于 提升舆情风险评估的效率和准确性。
第一方面,本公开实施例提供一种信息处理方法,包括:提取待处理稿 件中包含的第一关键词;根据第一关键词以及预设关键词关系,获得与第一 关键词的匹配度高于匹配度阈值的第二关键词以及第二关键词对应的第一权 重值,其中,预设关键词关系包含关键词以及用于反映关键词间关系的权重 值;根据第一权重值以及第二关键词对应的第二影响力分数,确定第一关键 词对应的第一影响力分数,第二影响力分数是根据评论数和负面评论数获得 的;根据第一关键词对应的第一影响力分数,确定待处理稿件的目标影响力分数。
第二方面,本公开实施例提供一种信息处理装置,该信息处理装置包括:
获取模块,用于提取待处理稿件中包含的第一关键词;
处理模块,用于根据第一关键词以及预设关键词关系,获得与第一关键 词的匹配度高于匹配度阈值的第二关键词以及第二关键词对应的第一权重值, 其中,预设关键词关系包含关键词以及用于反映关键词间关系的权重值;
确定模块,用于根据第一权重值以及第二关键词对应的第二影响力分数, 确定第一关键词对应的第一影响力分数,并根据第一关键词对应的第一影响 力分数,确定待处理稿件的目标影响力分数,第二影响力分数是根据评论数 和负面评论数获得的。
在一些实施例中,确定模块具体用于:根据第二关键词以及预设关键词 关系,获取与第二关键词的匹配度高于匹配度阈值的第三关键词,以及第三 关键词对应的第二权重值;根据第二权重值以及第三关键词的相关数据,确 定第二关键词对应的第二影响力分数,其中,相关数据包括评论数和负面评 论数;根据第一权重值以及第二影响力分数,确定第一关键词对应的第一影 响力分数。
在一些实施例中,确定模块具体用于:根据第三关键词对应的评论数和 负面评论数,确定第三关键词对应的负面评论率;根据第三关键词对应的第 二权重值和负面评论率,确定第二关键词对应的第二影响力分数。
在一些实施例中,确定模块具体用于:若第二影响力分数大于或等于第 一预设值,则确定第三影响力分数为第二影响力分数的相反数;若第二影响 力分数小于第一预设值,则确定第三影响力分数为第二预设值与第二影响力 分数的差值;根据第三影响力分数和第一权重值,确定第一关键词对应的第 一影响力分数。
在一些实施例中,预设关键词关系包含发布渠道信息,确定模块还用于: 若目标影响力分数大于或等于第三预设值,则根据预设关键词关系确定待处 理稿件在每个发布渠道对应的影响力分数,并确定影响力分数最大的发布渠 道为目标发布渠道,其中,目标发布渠道用于发布待处理稿件;若目标影响 力分数小于第三预设值,则输出不允许发布待处理稿件的提示信息。
在一些实施例中,获取模块还用于:获取历史发布稿件的发布数据,其 中,发布数据包括以下至少一种:历史发布稿件的稿件内容、发布渠道、发 布流程和舆论数据;处理模块还用于:根据发布数据,获得预设关键词关系。
在一些实施例中,处理模块具体用于:将发布数据输入至深度置信网络, 通过深度置信网络对历史发布稿件中的标注关键词进行学习,获得标注关键 词对应的目标实体,其中,目标实体包括以下至少一种特征向量:词特征向 量、词性特征向量、上下文窗口特征向量和词典特征向量;根据目标实体, 获得预设关键词关系。
在一些实施例中,获取模块具体用于:获取目标实体对应的目标实体对; 处理模块具体用于:将目标实体对输入至深度置信网络,通过深度置信网络 对目标实体对进行学习,获得目标实体对应的实体关系,其中,实体关系包 括以下至少一种特征向量:实体特征向量、实体的类型特征向量、实体对的 相对位置特征向量和上下文窗口特征向量;根据目标实体以及目标实体对应 的实体关系,获得预设关键词关系。
在一些实施例中,处理模块具体用于:将目标实体以及目标实体对应的 实体关系导入至图形数据库中,获得预设关键词关系。
第三方面,本公开实施例提供一种电子设备,包括:存储器和至少一个 处理器,存储器用于存储程序指令,处理器用于调用存储器中的程序指令, 执行如第一方面所述的信息处理方法。
第四方面,本公开实施例提供一种计算机可读存储介质,该计算机可读 存储介质上存储有计算机程序;计算机程序被执行时,实现如第一方面所述 的信息处理方法。
第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序, 该计算机程序被处理器执行时,实现如第一方面所述的信息处理方法。
本公开的实施例提供一种信息处理方法、装置、设备和存储介质,该方 法包括:提取待处理稿件中包含的第一关键词;根据第一关键词以及预设关 键词关系,获得与第一关键词的匹配度高于匹配度阈值的第二关键词以及第 二关键词对应的第二权重值,其中,预设关键词关系包含关键词以及用于反 映关键词间关系的权重值;根据第一权重值以及第二关键词对应的第二影响 力分数,确定第一关键词对应的第一影响力分数,相关数据包括评论数和负 面评论数;根据第一关键词对应的第一影响力分数,确定待处理稿件的目标影响力分数。本方案中,通过提取待处理稿件中的关键词,根据预设的关键 词关系来获取高匹配度的关键词,从而根据稿匹配度的关键词的舆情数据来 确定待处理稿件的影响力,相比人工预测,可以大大提高对待处理稿件进行 舆情风险评估的自动化程度,提升舆情风险评估的效率和准确性,从而降低 带有舆情风险的信息带来的负面影响力。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公 开的实施例,并与说明书一起用于解释本公开的原理。
图1为本公开一实施例提供的信息处理方法的场景示意图;
图2为本公开一实施例提供的信息处理方法的流程示意图;
图3为本公开另一实施例提供的信息处理方法的流程示意图;
图4为本公开一实施例提供的预设关键词关系构建方法的流程示意图;
图5为本公开另一实施例提供的预设关键词关系构建方法的流程示意图;
图6为本公开又一实施例提供的预设关键词关系构建方法的流程示意图;
图7为本公开一实施例提供的信息处理装置的结构示意图;
图8为本公开一实施例提供的电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。 这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是 通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的 描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的 要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所 有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一 些方面相一致的装置和方法的例子。
显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的 实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出 创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的 范围。
在本公开的实施例的语境中,术语“包括”及其各种变体可以被理解为 开放式术语,其意味着“包括但不限于”;术语“基于”可以被理解为“至 少部分地基于”;术语“一个实施例”可以被理解为“至少一个实施例”; 术语“另一实施例”可以被理解为“至少一个其它实施例”。其他可能出现 但在此处未提及的术语,除非明确说明,否则不应以与本公开的实施例所基 于的构思相悖的方式做出解释或限定。注意,在下文描述中,可能使用“车 辆”作为交通工具的例子。但是本公开的实施例的范围不局限于此,任何能 够采用在此描述的充电系统的交通工具均涵盖在本公开的实施例的范围内。
描述包括对形成详细描述的一部分的附图的参考。附图示出了根据示例 性实施方式的图示。在本文中也可被称为“示例”的这些实施方式被足够详 细地描述,以使本领域中的技术人员能够实践本文所描述的所要求保护的主 题的实施方式。在不偏离所要求保护的主题的范围和精神的情况下,可组合 实施方式,可使用其它实施方式,或可做出结构、逻辑和电气改变。应理解 的是,本文中所描述的实施方式并不旨在限制主题的范围,而是使本领域中 的技术人员能够实践、制作和/或使用该主题。
首先,对本公开实施例所涉及到的部分术语做如下解释:
融媒体:指充分利用媒介载体,把广播、电视、报纸等既有共同点,又 存在互补性的不同媒体,在人力、内容、宣传等方面进行全面整合,实现“资 源通融、内容兼融、宣传互融、利益共融”的新型媒体。
舆情风险:指在从事社会管理或经济活动的时候可能面临的来自社会或 者网络的负面信息、虚假信息、谣言等,这些负面信息通过发酵可能产生的 舆情危机。
深度置信网络(Deep Belief Network,DBN):是深度学习领域的经典算 法之一,可以用于非监督学习,也可以用于监督学习,DBN是一个概率生成 模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和 标签之间的联合分布,通过训练其神经元间的权重,可以让整个神经网络按 照最大概率来生成训练数据。
图数据库:通过应用图形来存储实体和实体间的关系信息。基于有向图, 最主要的因素包含节点、关系、属性三元素,其中节点存储知识单元,关系 节点之间的相互联系,属性表征各个节点的相关特性。目前图数据库包括: Neo4j、OpenLink、Bigdata等,其中,Neo4j是一个原生的图数据库引擎,有 独特的存储结构免索引邻居节点存储方法,且有相应的图遍历算法,其性能 并不会随着数据的增大而受到影响,具有非常高的查询性能。
近年来,随着传播技术、手段、环境的发展变化,各个领域的各类文章 的发布渠道趋于多样化,对各领域的舆论风险评估提出了更高的需求。
目前,通常由相关人员根据经验对待发布的稿件进行舆情风险的评估, 从而根据评估情况采取相应措施,以降低带有舆情风险的信息带来的负面影 响力。然而,通过人工对待发布的信息进行舆情风险评估的效率较低,且评 估结果不够准确,使得带有舆情风险的信息被发布,带来极大的负面影响力。
有鉴于此,本公开实施例提供一种信息处理方法、装置、设备和存储介 质,在稿件发布前,通过提取待处理稿件中的关键词,然后根据预设的关键 词关系来获取高匹配度的关键词,从而根据稿匹配度的关键词的舆情数据来 确定待处理稿件的影响力。相比人工预测,可以大大提高对待处理稿件进行 舆情风险评估的自动化程度,提升舆情风险评估的效率和准确性,从而降低 带有舆情风险的信息被发布而带来的负面影响力。
为方便理解,首先结合图1对本公开实施例的应用场景进行说明:
图1为本公开一实施例提供的信息处理方法的场景示意图。如图1所示, 该场景包括:终端设备101和待处理稿件。
其中,终端设备101可以为任意类型的设备,比如,可以是机器类通信 设备,在一些实施例中,终端设备101也可称之为用户设备(user equipment, UE)、移动台(mobilestation,MS)、移动终端(mobile terminal)、终端 (terminal)等。
一些具体实现中,终端设备101例可以为台式电脑、笔记本、个人数字 助理(Personal Digital Assistant,简称:PDA)、智能手机、平板电脑、汽车 产品、可穿戴设备等设备,本场景以台式电脑为例进行示出。
需要说明的是,附图1是本公开实施例提供的一种应用场景的示意图, 本公开实施例不对图1中包括的设备及设备个数进行限定。例如,一些实施 例中,该场景还可以包括数据存储设备,用于存储在信息处理过程中的相关 数据。
另一些实施例中,该场景还可以包括服务器102,即由服务器102来执 行本公开实施例提供的信息处理方法。其中,服务器102可以是整体式服务 器或是跨多计算机或计算机数据中心的分散式服务器或服务器集群,服务器 102可以是各种类型的,例如但不限于,网络服务器,消息服务器,应用服 务器,交互服务器,数据库服务器,或代理服务器等。
具体的,在终端设备101获取到待处理稿件后,将待处理稿件发送至服 务器102,服务器102根据本公开实施例提供的方案得出待处理稿件的目标 影响力分数,并将目标影响力分数发送至终端设备101,以通过终端设备101 输出该目标影响力分数。
需要说明的是,本公开实施例对于待处理稿件的具体类型也不做限定, 例如,其可以是融媒体稿件等类型的稿件。
下面以具体地实施例对本公开的实施例的技术方案以及本公开的技术方 案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互 结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将 结合附图,对本公开的实施例的实施例进行描述。
图2为本公开一实施例提供的信息处理方法的流程示意图。本公开实施 例的执行主体可以为上述的终端设备或者服务器。如图2所示,本公开实施 例提供的信息处理方法包括如下步骤:
S201、提取待处理稿件中包含的第一关键词。
其中,第一关键词为可能带来舆情影响的关键词,应理解,不同的业务 场景对应的第一关键词不同,可以根据实际需求设定第一关键词,例如,第 一关键词可以为:公司、事件涉及人员、时间、地点和事件主题等。
需要说明的是,对于第一关键词的获取方法,本公开实施例也不做具体 限定。例如,一方面,可以采用人工标注的方式,在待处理稿件中标注出第 一关键词,则步骤S203具体为:提取待处理稿件中标注出的第一关键词。
另一方面,还可以根据待处理稿件中多个关键词与舆情关键词库中的舆 情关键词的对应关系,提取出待处理稿件中的第一关键词,其中,舆情关键 词库是根据不同场景的舆情关键词建立的,至于具体方案此处不再赘述。通 过本方案,可以根据对应关系快速获得每个场景对应的第一关键词,且获得 的第一关键词比较准确,从而可以在提升效率的同时,保证第一关键词的准 确性。
S202、根据第一关键词以及预设关键词关系,获得与第一关键词的匹配 度高于匹配度阈值的第二关键词以及第二关键词对应的第一权重值。
其中,预设关键词关系包含关键词以及用于反映关键词间关系的权重值。
需要说明的是,预设关键词关系是根据历史发布稿件中的舆情关键词之 间的关系构建的,至于具体构建方式,在后续实施例中示出。
一些实施例中,可以采用PageRank算法获得与第一关键词的匹配度高于 匹配度阈值的第二关键词以及第二关键词对应的第一权重值。
具体的,通过PageRank算法从预设关键词关系中得出第一关键词与多个 关键词之间的PR值;进一步的,根据PR值从多个关键词中确定PR值大于 阈值的第二关键词。
可选的,在本步骤中,还可以采用PageRank算法,获得与第一关键词的 匹配度较高的预设数量的第二关键词。具体的,通过PageRank算法从预设关 键词关系中得出第一关键词与多个关键词之间的PR值;进一步的,根据PR 值对多个关键词进行排序,再根据排序获取PR值较大的预设数量的关键词 为第二关键词。需要说明的是,对于预设数量的值,本公开实施例不做具体 限定,例如,预设数量可以为1,即,获取与第一关键词匹配度最高的关键 词为第二关键词。
进一步的,根据获取到的第二关键词以及各第二关键词对应的PR值, 确定每个第二关键词对应的第一权重值,应理解,当预设数量为1时,第一 权重值为1。
S203、根据第一权重值以及第二关键词对应的第二影响力分数,确定第 一关键词对应的第一影响力分数。
需要说明的是,影响力分数用于表示关键词或者稿件的影响力大小,影 响力分数越大,则表示该影响力分数对应的关键词或者稿件的影响力越小, 相反,若影响力分数越小,则表示该影响力分数对应的关键词或者稿件的影 响力较大。
其中,第二影响力分数是根据评论数和负面评论数获得的。对于获取第 二影响力分数的方式有多种,本实施例不做具体限定,例如,在一些实施例 中,可以根据预设的第二关键词与第二影响力分数的预设关系,获得每个第 二关键词对应的第二影响力分数,其中,预设关系是根据历史发布稿件的评 论数和负面评论数确定的。
另一些实施例中,还可以根据的第二关键词的评论数和负面评论数进行 实时的计算,从而获得第二关键词的第二影响力分数,至于具体的计算方式, 在后续实施例中示出。
进一步的,根据第一权重值以及第二关键词对应的第二影响力分数,确 定第一关键词对应的第一影响力分数,具体为:确定每个第二关键词的第一 权重值与第二影响力分数的乘积;再根据乘积确定第一关键词对应的第一影 响力分数。
仍以上述为例,当第二关键词的个数为1时(第一权重值为1),第一 关键词的第一影响力分数与第二影响力分数相同,若每个第一关键词对应多 个第二关键词,则第一影响力分数为多个第二关键词的影响力分数与权重值 乘积之和。
S204、根据第一关键词对应的第一影响力分数,确定待处理稿件的目标 影响力分数。
在实际应用中,每个待处理稿件中通常包括多个第一关键词,当包含多 个第一关键词时,可以根据多个第一关键词对应的第一影响力分数之和,确 定待处理稿件的目标影响力分数。
可选的,待处理稿件中,每个第一关键词的权重可能不同,例如,公司 的权重可能大于涉事人员的权重,因此,本方案中,还可以为每个第一关键 词设置相应的权重,再根据多个第一关键词对应的权重和第一影响力分数, 确定待处理稿件的目标影响力分数,从而获得更准确的结果。
本公开实施例提供的信息处理方法,通过提取待处理稿件中的关键词, 根据预设的关键词关系来获取高匹配度的关键词,从而根据稿匹配度的关键 词的舆情数据来确定待处理稿件的影响力。相比人工预测,可以大大提高对 待处理稿件进行舆情风险评估的自动化程度,提升舆情风险评估的效率和准 确性,从而降低带有舆情风险的信息带来的负面影响力。
图3为本公开另一实施例提供的信息处理方法的流程示意图。在上述实 施例的基础上,将对本公开的技术方案进行更详细的描述,如图3所示,本 公开实施例提供的信息处理方法可以包括以下步骤:
S301、提取待处理稿件中包含的第一关键词。
S302、根据第一关键词以及预设关键词关系,获得与第一关键词的匹配 度高于匹配度阈值的第二关键词,以及第二关键词对应的第一权重值。
其中,预设关键词关系包含关键词以及用于反映关键词间关系的权重值。
需要说明的是,步骤S301~S302与图2所示实施例中的步骤S201~S202 类似,具体方案可参考图2所示实施例,此处不再赘述。
S303、根据第二关键词以及预设关键词关系,获取与第二关键词的匹配 度高于匹配度阈值的第三关键词,以及第三关键词对应的第二权重值。
在实际应用中,不同的关键词可能有多种不同的表达方式,在进行关键 词匹配时,可能无法完全挖掘出所有相关的关键词,从而使得待处理稿件的 影响力分数不够准确。因此,在本步骤中,可以继续对第二关键词进行挖掘, 获得获取与第二关键词的匹配度高于匹配度阈值的第三关键词。
需要说明的是,第三关键词以及第三关键词对应的第二权重值的获取方 法,与图2中示出的第二关键词类似,此处不再赘述。另外,获取第三关键 词时所采用的匹配度阈值与获取第二关键词时所采用的匹配度阈值可以相同, 也可以不同,此处不做限定。
同样的,对于获取的每个第二关键词对应的第三关键词的数量,本公开 实施例也不做具体限定。示例性的,以每个第二关键词对应的第三关键词的 数量为4为例,对于第二关键词i,其对应的第三关键词分别为i1、i2、i3和i4, 其中,第三关键词中可以包含该第二关键词,即i1、i2、i3和i4中任意一个为 i,第三关键词中也可以为除了第二关键词之外的其他关键词。
S304、根据第二权重值以及第三关键词的相关数据,确定第二关键词对 应的第二影响力分数。
其中,相关数据包括评论数和负面评论数。
下面结合步骤S3041~S3042对步骤S304进行说明:
S3041、根据第三关键词对应的评论数和负面评论数,确定第三关键词对 应的负面评论率。
具体的,确定负面评论数与评论数的比值为第三关键词的负面评论率。 其中,负面评论率和评论数为该第三关键词对应的评论,例如,可以获取所 有包含该第三关键词的评论,再统计包含该第三关键词的评论中的评论数和 负面评论数,从而获得第三关键词对应的评论数和负面评论数。
S3042、根据第三关键词对应的第二权重值和负面评论率,确定第二关键 词对应的第二影响力分数。
具体的,确定每个第三关键词对应的第二权重值与负面评论率的乘积, 再确定所有第三关键词对应的乘积之和为第二关键词对应的影响力分数。
示例性的,仍以第三关键词的数量为4个为例,可以根据如下公式得出 第二关键词对应的影响力分数:
Figure BDA0003067102190000111
其中,Si为第二关键词对应的第二影响力分数,Ci为每个第三关键词对 应的负面评论数,Ri为每个第三关键词对应的评论数,Mi为每个第三关键词 对应的第二权重,且Mi1、Mi2、Mi3和Mi4的和为1。
S305、根据第二影响力分数以及第一权重值,确定第一关键词对应的第 一影响力分数。
一些实施例中,上述步骤S305包括具体如下步骤:
1)若第二影响力分数大于或等于第一预设值,则确定第三影响力分数为 第二影响力分数的相反数;
2)若第二影响力分数小于第一预设值,则确定第三影响力分数为第二预 设值与第二影响力分数的差值;
3)根据第三影响力分数和第一权重值,确定第一关键词对应的第一影响 力分数。
需要说明的是,第一预设值和第二预设值均可以根据实际场景进行设定, 本公开实施例不限定其具体值。示例性的,以第一预设值为0.4、第二预设值 为1为例,当Si大于等于0.4时,确定第三影响力分数为-Si;当Si小于等于 0.4时,确定第三影响力分数为1-Si
进一步的,根据如下公式得出第一关键词对应的第一影响力分数:
W=P*S
其中,W为第一关键词对应的第一影响力分数,P为每个第二关键词对 应的第一权重值,S为第三影响力分数。
S306、根据第一关键词对应的第一影响力分数,确定待处理稿件对应的 目标影响力分数。
本步骤中,确定多个第一关键词对应的第一影响力分数之和为目标影响 力分数。具体的,可根据如下公式得出待处理稿件对应的目标影响力分数:
W=W1+W2+…+Wn
其中,W为目标影响力分数,W1、W2…Wn为待处理稿件中的多个第一 关键词。
在实际应用中,为了保证最大程度的挖掘出所有相关的关键词,提升待 处理稿件的影响力判断的准确性,还可以多次获取关键词,即根据第N-1关 键词以及预设关键词关系,获取与第N-1关键词的匹配度高于匹配度阈值的 第N关键词。例如,根据第三关键词以及预设关键词关系,获取与第三关键 词的匹配度高于匹配度阈值的第四关键词。
示例性的,以一共获取了N次关键词为例,则待处理稿件的目标影响力 分数的计算方法为:
根据第N关键词与其对应的第N-1权重值,确定第N-1关键词对应的影 响力分数,根据第N-1关键词对应的影响力分与其对应的第N-2权重值,确 定第N-2关键词对应的影响力分数,按照上述方式直至计算出第一关键词对 应的影响力分数,再根据第一关键词对应的影响力分数,确定目标影响力分 数。
在一些实施例中,在获得待处理稿件对应的目标影响力分数之后,还可 以根据目标影响力分数确定待处理稿件的发布参考信息,用于为用户提供参 考,以最大程度的降低待处理稿件的舆情风险,下面结合具体实施例对此方 案进行说明:
S307、判断目标影响力分数是否小于第三预设值。
S308、若否,则根据预设关键词关系确定待处理稿件在每个发布渠道对 应的影响力分数,并确定影响力分数最大的发布渠道为目标发布渠道。
其中,目标发布渠道用于发布待处理稿件。
需要说明的是,根据预设关键词关系确定待处理稿件在每个发布渠道对 应的影响力分数的方式与上述获得目标影响力分数的方案类似,具体可参考 上述实施例,此处不再赘述。
可选的,在确定目标发布渠道之后,还可以在终端设备上展示目标发布 渠道,以告知用户。对于具体的展示方法,本公开实施例不做具体限定。
S309、若是,则输出不允许发布待处理稿件的提示信息。
需要说明的是,对于第三预设值的大小,本公开实施例不做具体限定, 示例性的,以第三预设值的大小为0为例,步骤S308和步骤S309具体为, 当目标影响力分数为大于等于0时,则根据预设关键词关系确定目标发布渠 道,当目标影响力分数为负值时,则不允许发稿,并输出不允许发布待处理 稿件的提示信息,至于输出提示信息的方式,此处不再一一示出。
本公开实施例中,在确定目标影响力分数之后,根据目标影响力分数的 大小,确定待处理稿件的发布信息,从而为用户发布该待处理稿件提供可靠 参考,从而最大程度的降低待处理稿件的舆情风险。
图4为本公开一实施例提供的预设关键词关系构建方法的流程示意图。
如图4所示,本公开实施例提供的信息处理方法可以包括以下步骤:
S401、获取历史发布稿件的发布数据。
其中,发布数据包括以下至少一种:历史发布稿件的稿件内容、发布渠 道、发布流程和舆论数据;
S402、根据发布数据,获得预设关键词关系。
本公开实施例中,通过历史发布稿件的发布数据获得预设关键词关系, 可以获得准确的预设关键词关系,从而根据预设关键词关系,准确的确定待 处理稿件的影响力,降低稿件的舆情影响力。
下面结合图5对获得预设关键词关系的方法进行详细说明,图5为本公 开另一实施例提供的预设关键词关系构建方法的流程示意图。在上述实施例 的基础上,将对本公开的技术方案进行更详细的描述,如图5所示,本公开 实施例提供的信息处理方法可以包括以下步骤:
S501、获取历史发布稿件的发布数据。
其中,发布数据包括以下至少一种:历史发布稿件的稿件内容、发布渠 道、发布流程和舆论数据,稿件内容包括多个标注关键词,舆论数据包括评 论数据、负面评论数据等。
需要说明的是,标注关键词的获取方式与上述实施例中第一关键词的获 取方式类似,即可以通过人工标注,也可以根据关键词与舆情关键词的对应 关系进行标注。
S502、将发布数据输入至深度置信网络,通过深度置信网络对历史发布 稿件中的标注关键词进行学习,获得标注关键词对应的目标实体。
为方便理解,下面结合图6对学习过程进行具体说明,图6为本公开又 一实施例提供的预设关键词关系构建方法的流程示意图。如图6所示,本公 开实施例提供的信息处理方法中,获得目标实体时具体包括以下步骤:
1)根据标注关键词提取特征关键词特征,并构建标注关键词对应的特征 向量;
2)对标注关键词对应的特征向量进行试验数据集标注,其中,实验数据 集包括训练集和测试集,训练集用于对深度置信网络进行训练,测试集用于 对深度置信网络进行测试;
3)根据训练集和试验集对深度置信网络进行训练,输出目标实体。
其中,目标实体包括以下至少一种特征向量:词特征向量、词性特征向 量、上下文窗口特征向量和词典特征向量。应理解,基于不同的场景,目标 实体还可以包括其他类型的特征向量,此不再一一示出。
示例性的,1)当特征向量为词特征向量时,词特征向量的获取方法为: 构建标注关键词对应的字符表D={d1,d2,…,dn},其中,di表示一个标注关键词, i∈[1,n],每个标注关键词E对应的词特征向量为V(E)={v1,v2,…,vn},其中vi代表该标注关键词是否对应字符表D中的di,词特征向量的计算方式如下:
Figure BDA0003067102190000141
2)当特征向量为词性特征向量时,词性特征向量的获取方法为:构建标 注关键词对应的词性表D={d1,d2,…,dm},其中,di表示一个标注关键词,i∈[1,n], 标注关键词的词性特征向量为V(E)={v1,v2,…,vm},其中vi代表该标注关键词 的词性是否对应词性表D中的di,vi的计算方式如下:
Figure BDA0003067102190000142
3)当特征向量为上下文窗口特征向量时,上下文窗口特征向量设置为: 选择标注关键词的前M个词和/或后M个词纳入到后续的预设关键词关系的 构建中,至于M的具体数值,肯根据实际需求进行设定,此处不做限定。
4)当特征向量为词典特征向量时,可以选择与标注关键词相关的词组成 词典,如选择人物的称谓等组成该人物的词典,选择组织机构的后缀等组成 该组织机构的词典等等。需要说明的是,词典特征向量的构建方式与词特征 向量的构建方式类似,此处不再赘述。
需要说明的是,上述获取的目标实体之间的关系是扁平化的,存在大量 冗余甚至错误的信息碎片,因此需要对上述目标实体进行整合,从而根据目 标实体间存在的语义关系构建实体关系,其中,实体关系例如是交易记录关 系、资金控制关系、人员机构关系和行为事件关系等,下面结合具体步骤进 行说明:
S503、获取目标实体对应的目标实体对。
具体的,可以获取稿件内容中每句话中的任意两个标注关键词对应的两 个实体,从而构建目标实体对。可选的,还可以以其他方式获取实体对,例 如,获取每个段落中的任意两个标注关键词对应的两个实体、获取标注关键 词间间隔小于预设间隔的两个标注关键词对应的两个实体等。
S504、将目标实体对输入至深度置信网络,通过深度置信网络对目标实 体对进行学习,获得目标实体对应的实体关系。
请继续参考图6,本公开实施例提供的预设关键词关系构建方法中,获 得实体关系时具体包括以下步骤:
1)根据目标实体提取实体,并构实体对应的特征向量;
2)对实体对应的特征向进行试验数据集标注,其中,实验数据集包括训 练集和测试集,训练集用于对深度置信网络进行训练,测试集用于对深度置 信网络进行测试;
3)根据训练集和试验集对深度置信网络进行训练,输出实体关系。
其中,实体关系包括以下至少一种特征向量:实体特征向量、实体的类 型特征向量、实体对的相对位置特征向量和上下文窗口特征向量。应理解, 基于不同的场景,实体关系还可以包括其他类型的特征向量,此不再一一示 出。
示例性的,1)当特征向量包括实体特征向量时,每个实体对中每个实体 E1、E2对应的字符均为D={d1,d2,…,dn},其中di代表一个实体,实体E1、E2 对应的实体特征向量为V={v1,v2,…,vn,v(n+1),v(n+2),…,v2n},其中,vi的计算方式 如下:
Figure BDA0003067102190000161
2)实体的类型特征向量,用于表示每个实体所属的命名实体类别,为实 体关系的判别提供依据,如人名、机构名、地名等。对于一些特定的实体关 系,实体的类别对于实体关系识别非常重要,如判断某人与某机构能否构成 人员角色关系时,实体对必须满足有一个实体为人名类型实体,另一个实体 为机构名类型实体。
3)实体对的相对位置特征向量,用于表示实体对里的两个实体之间的位 置关系,一般情况下,实体之间的位置关系越靠近,这两个实体越有可能存 在语义关系。具体的,实体间的相对位置关系一般有三种:嵌套、相邻以及 分离,其中嵌套代表某个实体嵌套在另一实体中,相邻代表两个实体之间是 相邻的,没有字符相隔,分离代表两实体之间存在其他字符。
4)实体关系对应的上下文窗口特征向量的确定方式,与上述目标实体的 确定方式类似,此处不再赘述。
S505、根据目标实体以及目标实体对应的实体关系,获得预设关键词关 系。
需要说明的是,对于预设关键词关系的具体存储类型,本公开实施例不 做具体限定。示例性的,一方面,可以为三元组形式的RDF存储方式来存储 预设关键词关系,另一方面,还可以通过传统关系型数据库存储来存储预设 关键词关系。
在其他实施方式中,还可以通过图数据库来存储上述预设关键词关系。 从而更直观形象的表现实体关系,提升预设关键词关系存储的灵活性,提高 关键词关系的查询效率。
其中,图数据库来存储上述预设关键词关系的具体方案为:将目标实体 以及目标实体对应的实体关系导入至图形数据库中,获得预设关键词关系对 应的指示图谱。
需要说明的是,对于图数据库的类型,本公开实施例不做具体限定,示 例性的,可以为Neo4j图形数据库,其中,Neo4j导入数据的方式包括:Cypher creater语句、Cypherload csv语句、neo4j-import工具、batch-import工具、 neo4j-apoc等几种方式,在实际应用中,可以根据具体场景选择任意工具进行 导入。
以银行的数据为例,由于银行记录的结构化数据集合生成的目标实体及 实体关系数据量极大,可达千万级以上,因此,可采用适用于千万级以上数 据场景的neo4j-import和batch-import工具进行批量导入,其中neo4j-import 导入速率为12w/s(节点+关系)相较于batch-import导入的1w/s(节点+关系) 的速率更加满足于实时性的要求,并且更加节约占用资源。
具体的,可以将目标实体存入对应的节点CSV文件,将实体关系存入对 应的关系CSV文件中,从而获得预设关键词关系对应的图数据库。
一些实施例中,可以将事件涉及公司、事件涉及人员、时间、地址、事 件主题,关键词等分别存入对应的节点CSV文件,其中,节点CSV文件包 括person.csv、company.csv、time.csv、topic.csv、keyWord.csv等。
需要说明的是,节点CSV文件的第一列是固定的,列值为此节点的目标 实体的名称,第二列为实体关系,它的列头为id:string:indexName格式,id 为列名,可以根据需求进行定义,string为数据类型,indexName是Neo4j数 据库所要导入的索引名称。以目标实体建立具体的节点文件keyWord.csv为 例,其格式为:
l:label,word:String:keyword
keyWord,利率改变。
另一些实施例中,使用各发布渠道的粉丝关系、舆情传播路径转移等关 系建立关系CSV文件,其中,关系CSV文件中第一列是关系的起始节点, 第二列是关系的结束节点,第三列是关系类型,其他部分为实体关系的属性。
进一步的,将节点CSV文件和关系CSV文件导入库,生成预设关键词 关系对应的图数据库。
图7为本公开一实施例提供的信息处理装置的结构示意图。如图7所示, 该信息处理装置700包括:获取模块701、处理模块702和确定模块703。
其中,获取模块701,用于提取待处理稿件中包含的第一关键词;
处理模块702,用于根据第一关键词以及预设关键词关系,获得与第一 关键词的匹配度高于匹配度阈值的第二关键词以及第二关键词对应的第一权 重值,其中,预设关键词关系包含关键词以及用于反映关键词间关系的权重 值;
确定模块703,用于根据第一权重值以及第二关键词对应的第二影响力 分数,确定第一关键词对应的第一影响力分数,并根据第一关键词对应的第 一影响力分数,确定待处理稿件的目标影响力分数,第二影响力分数是根据 评论数和负面评论数获得的。
可以理解的是,本公开实施例所提供的信息处理装置,可用于执行如上 述任一方法实施例提供的信息处理方法,其实现原理和技术效果类似,具体 可参考上述方法实施例,此处不再赘述。
在一些实施例中,确定模块703具体用于:根据第二关键词以及预设关 键词关系,获取与第二关键词的匹配度高于匹配度阈值的第三关键词,以及 第三关键词对应的第二权重值;根据第二权重值以及第三关键词的相关数据, 确定第二关键词对应的第二影响力分数,其中,相关数据包括评论数和负面 评论数;根据第一权重值以及第二影响力分数,确定第一关键词对应的第一 影响力分数。
在一些实施例中,确定模块703具体用于:根据第三关键词对应的评论 数和负面评论数,确定第三关键词对应的负面评论率;根据第三关键词对应 的第二权重值和负面评论率,确定第二关键词对应的第二影响力分数。
在一些实施例中,确定模块703具体用于:若第二影响力分数大于或等 于第一预设值,则确定第三影响力分数为第二影响力分数的相反数;若第二 影响力分数小于第一预设值,则确定第三影响力分数为第二预设值与第二影 响力分数的差值;根据第三影响力分数和第一权重值,确定第一关键词对应 的第一影响力分数。
在一些实施例中,预设关键词关系包含发布渠道信息,确定模块703还 用于:若目标影响力分数大于或等于第三预设值,则根据预设关键词关系确 定待处理稿件在每个发布渠道对应的影响力分数,并确定影响力分数最大的 发布渠道为目标发布渠道,其中,目标发布渠道用于发布待处理稿件;若目 标影响力分数小于第三预设值,则输出不允许发布待处理稿件的提示信息。
在一些实施例中,获取模块701还用于:获取历史发布稿件的发布数据, 其中,发布数据包括以下至少一种:历史发布稿件的稿件内容、发布渠道、 发布流程和舆论数据;处理模块702还用于:根据发布数据,获得预设关键 词关系。
在一些实施例中,处理模块702具体用于:将发布数据输入至深度置信 网络,通过深度置信网络对历史发布稿件中的标注关键词进行学习,获得标 注关键词对应的目标实体,其中,目标实体包括以下至少一种特征向量:词 特征向量、词性特征向量、上下文窗口特征向量和词典特征向量;根据目标 实体,获得预设关键词关系。
在一些实施例中,获取模块701具体用于:获取目标实体对应的目标实 体对;处理模块702具体用于:将目标实体对输入至深度置信网络,通过深 度置信网络对目标实体对进行学习,获得目标实体对应的实体关系,其中, 实体关系包括以下至少一种特征向量:实体特征向量、实体的类型特征向量、 实体对的相对位置特征向量和上下文窗口特征向量;根据目标实体以及目标 实体对应的实体关系,获得预设关键词关系。
在一些实施例中,处理模块702具体用于:将目标实体以及目标实体对 应的实体关系导入至图形数据库中,获得预设关键词关系。
可以理解的是,本公开实施例所提供的信息处理装置,可用于执行如上 述任一方法实施例提供的信息处理方法,其实现原理和技术效果类似,具体 可参考上述方法实施例,此处不再赘述。
图8为本公开一实施例提供的电子设备的结构示意图。本实施例的电子 设备800可以是前述方法实施例中提到的终端设备(或者可用于终端设备的 部件),其可用于实现上述方法实施例中描述的对应于终端设备的方法,具体 参见上述方法实施例中的说明,此处不再赘述。
电子设备800可以包括一个或多个处理器801,该处理器801也可以 称为处理单元,可以实现一定的控制或者处理功能。处理器801可以是通 用处理器或者专用处理器等。例如可以是基带处理器、或中央处理器。基带 处理器可以用于对数据进行处理,中央处理器可以用于对电子设备800进行 控制,执行软件程序,处理软件程序的数据。
在一种可能的设计中,处理器801也可以存有指令803或者数据(例如 测试参数)。其中,指令803可以被处理器801运行,使得电子设备800执 行上述方法实施例中描述的信息处理方法。
在又一种可能的设计中,电子设备800可以包括电路,该电路可以实现 前述方法实施例中发送或接收或者通信的功能。
在一种可能的实现方式中,电子设备800中可以包括一个或多个存储器 802,其上可以存有指令804,该指令可在处理器801上被运行,使得电子设 备800执行上述方法实施例中描述的信息处理方法。
在一种可能的实现方式中,存储器802中也可以是存储有数据。处理器 801和存储器802可以单独设置,也可以集成在一起。
在一种可能的实现方式中,电子设备800还可以包括收发器805和/或天 线806。处理器801可以称为处理单元,对电子设备800进行控制。收发器 805可以称为收发单元、收发机、收发电路、或者收发器等,用于实现电子 设备800的收发功能。
其中,处理器801和收发器805的具体实现过程可以参见上述各实施例 的相关描述,此处不再赘述。
本公开中描述的处理器801和收发器805可实现在集成电路(integratedcircuit,IC)、模拟IC、射频集成电路(radio frequency integrated circuit,RFIC)、 混合信号IC、专用集成电路(application specific integrated circuit,ASIC)、 印刷电路板(printed circuit board,PCB)、电子设备等上。
本领域技术人员可以理解的是,图8中示出的电子设备的结构并不构成 对本电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部 件,或者不同的部件布置。
在此需要说明的是,本公开提供的上述电子设备,用于实现上述方法实 施例中描述的信息处理方法,且能够达到相同的技术效果,在此不再对本实 施例中与方法实施例相同的部分及有益效果进行具体赘述。
本公开实施例还提供一种计算机可读存储介质,当该存储介质中的指令 由终端设备的处理器执行时,使得处理器能够执行上述方法实施例中的信息 处理方法。
本公开实施例还提供一种计算机程序产品,包括计算机程序,计算机程 序被处理器执行时,实现上述方法实施例中的信息处理方法。
在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法, 可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的, 例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些 特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接 耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接, 可以是电性,机械或其它的形式。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件 功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机 可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指 令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(英文:processor)执行本公开各个实施例方法的部分步骤。而前述的 存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简 称:ROM)、随机存取存储器(英文:Random AccessMemory,简称:RAM)、 磁碟或者光盘等各种可以存储程序代码的介质。
在上述服务器的实施例中,应理解,处理器可以是中央处理单元(英文: CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号 处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文: Application Specific IntegratedCircuit,简称:ASIC)等。结合本公开所公开的 方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及 软件模块组合执行完成。
本领域技术人员在考虑说明书及实践这里公开的方案后,将容易想到本 公开的其它实施方案。本公开的实施例旨在涵盖本公开的任何变型、用途或 者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并 包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实 施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所 附的权利要求书来限制。

Claims (13)

1.一种信息处理方法,其特征在于,包括:
提取待处理稿件中包含的第一关键词;
根据所述第一关键词以及预设关键词关系,获得与所述第一关键词的匹配度高于匹配度阈值的第二关键词以及所述第二关键词对应的第一权重值,其中,所述预设关键词关系包含关键词以及用于反映关键词间关系的权重值;
根据所述第一权重值以及所述第二关键词对应的第二影响力分数,确定所述第一关键词对应的第一影响力分数,所述第二影响力分数是根据评论数和负面评论数获得的;
根据所述第一关键词对应的第一影响力分数,确定所述待处理稿件的目标影响力分数。
2.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述第一权重值以及所述第二关键词对应的第二影响力分数,确定所述第一关键词对应的第一影响力分数,包括:
根据所述第二关键词以及所述预设关键词关系,获取与所述第二关键词的匹配度高于匹配度阈值的第三关键词,以及所述第三关键词对应的第二权重值;
根据所述第二权重值以及所述第三关键词的相关数据,确定所述第二关键词对应的第二影响力分数,其中,所述相关数据包括评论数和负面评论数;
根据所述第一权重值以及所述第二影响力分数,确定所述第一关键词对应的第一影响力分数。
3.根据权利要求2所述的信息处理方法,其特征在于,所述根据所述第二权重值以及所述第三关键词的相关数据,确定所述第二关键词对应的第二影响力分数,包括:
根据所述第三关键词对应的评论数和负面评论数,确定所述第三关键词对应的负面评论率;
根据所述第三关键词对应的第二权重值和负面评论率,确定所述第二关键词对应的第二影响力分数。
4.根据权利要求2所述的信息处理方法,其特征在于,所述根据所述第一权重值以及所述第二影响力分数,确定所述第一关键词对应的第一影响力分数,包括:
若所述第二影响力分数大于或等于第一预设值,则确定第三影响力分数为所述第二影响力分数的相反数;
若所述第二影响力分数小于所述第一预设值,则确定第三影响力分数为第二预设值与所述第二影响力分数的差值;
根据所述第三影响力分数和所述第一权重值,确定所述第一关键词对应的第一影响力分数。
5.根据权利要求1所述的信息处理方法,其特征在于,所述预设关键词关系包含发布渠道信息,所述信息处理方法还包括:
若所述目标影响力分数大于或等于第三预设值,则根据所述预设关键词关系确定所述待处理稿件在每个发布渠道对应的影响力分数,并确定影响力分数最大的发布渠道为目标发布渠道,其中,所述目标发布渠道用于发布所述待处理稿件;
若所述目标影响力分数小于第三预设值,则输出不允许发布所述待处理稿件的提示信息。
6.根据权利要求1至5任一项所述的信息处理方法,其特征在于,所述信息处理方法还包括:
获取历史发布稿件的发布数据,其中,所述发布数据包括以下至少一种:历史发布稿件的稿件内容、发布渠道、发布流程和舆论数据;
根据所述发布数据,获得所述预设关键词关系。
7.根据权利要求6所述的信息处理方法,其特征在于,所述根据所述发布数据,获得所述预设关键词关系,包括:
将所述发布数据输入至深度置信网络,通过所述深度置信网络对所述历史发布稿件中的标注关键词进行学习,获得所述标注关键词对应的目标实体,其中,所述目标实体包括以下至少一种特征向量:词特征向量、词性特征向量、上下文窗口特征向量和词典特征向量;
根据所述目标实体,获得所述预设关键词关系。
8.根据权利要求7所述的信息处理方法,其特征在于,所述根据所述目标实体,获得所述预设关键词关系,包括:
获取所述目标实体对应的目标实体对;
将所述目标实体对输入至深度置信网络,通过所述深度置信网络对所述目标实体对进行学习,获得所述目标实体对应的实体关系,其中,实体关系包括以下至少一种特征向量:实体特征向量、实体的类型特征向量、实体对的相对位置特征向量和上下文窗口特征向量;
根据所述目标实体以及所述目标实体对应的实体关系,获得所述预设关键词关系。
9.根据权利要求8所述的信息处理方法,其特征在于,所述根据所述目标实体以及所述目标实体对应的实体关系,获得所述预设关键词关系,包括:
将所述目标实体以及所述目标实体对应的实体关系导入至图形数据库中,获得所述预设关键词关系。
10.一种信息处理装置,其特征在于,所述信息处理装置包括:
获取模块,用于提取待处理稿件中包含的第一关键词;
处理模块,用于根据所述第一关键词以及预设关键词关系,获得与所述第一关键词的匹配度高于匹配度阈值的第二关键词以及所述第二关键词对应的第二权重值,其中,所述预设关键词关系包含关键词以及用于反映关键词间关系的权重值;
确定模块,用于根据第一权重值以及第二关键词对应的第二影响力分数,确定所述第一关键词对应的第一影响力分数,并根据所述第一关键词对应的第一影响力分数,确定所述待处理稿件的目标影响力分数,所述第二影响力分数是根据评论数和负面评论数获得的。
11.一种电子设备,其特征在于,包括:存储器和至少一个处理器,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中的程序指令,执行如权利要求1至9中任一项所述的信息处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序;所述计算机程序被执行时,实现如权利要求1至9中任一项所述的信息处理方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至9中任一项所述的信息处理方法。
CN202110528200.4A 2021-05-14 2021-05-14 信息处理方法、装置、设备和存储介质 Active CN113297848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528200.4A CN113297848B (zh) 2021-05-14 2021-05-14 信息处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528200.4A CN113297848B (zh) 2021-05-14 2021-05-14 信息处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113297848A true CN113297848A (zh) 2021-08-24
CN113297848B CN113297848B (zh) 2024-03-05

Family

ID=77322242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528200.4A Active CN113297848B (zh) 2021-05-14 2021-05-14 信息处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113297848B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9406077B1 (en) * 2011-10-19 2016-08-02 Google Inc. System and method for ad keyword scoring
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN110287307A (zh) * 2019-05-05 2019-09-27 浙江吉利控股集团有限公司 一种搜索结果排序方法、装置及服务器
CN112148958A (zh) * 2019-06-26 2020-12-29 傲基科技股份有限公司 用于信息推荐的方法、设备和计算机存储介质
CN112214663A (zh) * 2020-10-22 2021-01-12 上海明略人工智能(集团)有限公司 获取舆情声量的方法、系统、装置、存储介质及移动终端
CN112527963A (zh) * 2020-12-17 2021-03-19 深圳市欢太科技有限公司 基于词典的多标签情感分类方法及装置、设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9406077B1 (en) * 2011-10-19 2016-08-02 Google Inc. System and method for ad keyword scoring
CN109325165A (zh) * 2018-08-29 2019-02-12 中国平安保险(集团)股份有限公司 网络舆情分析方法、装置及存储介质
CN110287307A (zh) * 2019-05-05 2019-09-27 浙江吉利控股集团有限公司 一种搜索结果排序方法、装置及服务器
CN112148958A (zh) * 2019-06-26 2020-12-29 傲基科技股份有限公司 用于信息推荐的方法、设备和计算机存储介质
CN112214663A (zh) * 2020-10-22 2021-01-12 上海明略人工智能(集团)有限公司 获取舆情声量的方法、系统、装置、存储介质及移动终端
CN112527963A (zh) * 2020-12-17 2021-03-19 深圳市欢太科技有限公司 基于词典的多标签情感分类方法及装置、设备、存储介质

Also Published As

Publication number Publication date
CN113297848B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
JP7127150B2 (ja) 質問応答インタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体
Li et al. Multi-class Twitter sentiment classification with emojis
US20190377788A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
US11977567B2 (en) Method of retrieving query, electronic device and medium
US9418058B2 (en) Processing method for social media issue and server device supporting the same
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111881283A (zh) 一种业务关键词库创建方法、智能聊天引导方法及装置
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
CN112052297A (zh) 信息生成方法、装置、电子设备和计算机可读介质
Wei et al. Online education recommendation model based on user behavior data analysis
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
CN112686035A (zh) 一种未登录词进行向量化的方法和装置
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
Ray et al. Demonetization and its aftermath: an analysis based on twitter sentiments
CN113297848B (zh) 信息处理方法、装置、设备和存储介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
Li et al. Confidence estimation and reputation analysis in aspect extraction
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN113505293A (zh) 信息推送方法、装置、电子设备及存储介质
Murali Krishna et al. Method of optimizing the dimensional features in sentiment analysis
CN116578693B (zh) 一种文本检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant