CN110287313A - 一种风险主体的确定方法及服务器 - Google Patents

一种风险主体的确定方法及服务器 Download PDF

Info

Publication number
CN110287313A
CN110287313A CN201910417803.XA CN201910417803A CN110287313A CN 110287313 A CN110287313 A CN 110287313A CN 201910417803 A CN201910417803 A CN 201910417803A CN 110287313 A CN110287313 A CN 110287313A
Authority
CN
China
Prior art keywords
public opinion
opinion information
sample
content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910417803.XA
Other languages
English (en)
Inventor
林川
袁锦程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910417803.XA priority Critical patent/CN110287313A/zh
Publication of CN110287313A publication Critical patent/CN110287313A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种风险主体的确定方法及服务器。本方法提供一种自动舆论确定风险主体的实施方案,在获取舆论信息之后,可以先基于所述舆论信息表达的内容,对所述舆论信息划分多个类别。其中,表达的内容较为接近的舆论信息处于相同类别。接着,针对每个类别,可以按照预设规则,基于该类别中包括的舆论信息确定目标风险主体。其中,所述预设规则可以用于分析舆论信息的发布主体的风险程度。这样,无需人为干预,便可以自动识别出发布这些舆论信息的风险主体,从而可以避免因人工查看时的主观判断或经验不足而出现错误的问题,进而可以提高风险主体确定的准确度。

Description

一种风险主体的确定方法及服务器
技术领域
本说明书实施例方案属于互联网技术领域,特别涉及一种风险主体的确定方法及服务器。
背景技术
舆论信息通常可以是指在民众或社会媒体对社会事件不同看法的信息。例如,民众或者社会媒体对某公司的网络舆论。在一些重大的网络舆论事件中,往往会存在针对某公司成批发送舆论文章或舆论图片等舆论信息的舆论事件。例如在某一舆论事件中,某个社会媒体可能出于无意成批发送舆论信息或者竞争对手成批发送舆论信息进行舆论攻击。这种集中的或者有恶意目的的舆论攻击可能会对该公司带来较大的风险。为了及时遏制这种风险带来的冲击,往往需要及时识别这些成批发送的同类舆论信息,从而可以找到发布这些同类舆论信息的风险主体,例如上述社会媒体或民众,进而可以对这些风险主体进行反制,以遏制这种风险带来的冲击。
目前,找到发布这些同类舆论信息风险主体,主要是通过人工查看的方式进行解决,这样的方式不但消耗人力资源,而且还会因人工查看时的主观判断或经验不足,导致识别准确度较低。
因此,亟需一种更加可靠的风险主体的确定方案。
发明内容
本申说明书实施例的目的是提供一种风险主体的方法及服务器,能够提高识别风险主体的准确度。
为实现上述目的,本说明书实施例提供一种风险主体的确定方法,所述方法包括:获取舆论信息;其中,所述舆论信息对应有发布主体;基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
为实现上述目的,本说明书实施例还提供一种服务器,所述服务器包括:获取单元,用于获取舆论信息;其中,所述舆论信息对应有发布主体;分类单元,用于基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;确定单元,用于按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
为实现上述目的,本说明书实施例还提供一种计算机存储介质,所述计算机存储介质中存储计算机程序;所述计算机程序被所述处理器执行时,实现以下步骤:获取舆论信息;其中,所述舆论信息对应有发布主体;基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
为实现上述目的,本说明书实施例还提供一种风险主体的确定方法,所述方法包括:获取舆论信息;其中,所述舆论信息对应有发布主体和针对主体;所述针对主体用于表征所述舆论信息针对的舆论主体;基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度;将所述目标风险主体发送至指定舆论信息对应的针对主体的服务端;所述指定舆论信息用于表征所述类别包括的舆论信息中所述目标风险主体发布的舆论信息。
为实现上述目的,本说明书实施例还提供一种服务器,所述服务器包括:获取单元,用于获取舆论信息;其中,所述舆论信息对应有发布主体和针对主体;所述针对主体用于表征所述舆论信息针对的舆论主体;分类单元,用于基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;确定单元,用于按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度;发送单元,用于将所述目标风险主体发送至指定舆论信息对应的针对主体的服务端;所述指定舆论信息用于表征所述类别包括的舆论信息中所述目标风险主体发布的舆论信息。
为实现上述目的,本说明书实施例还提供一种舆论信息分类方法,所述方法包括:获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;将所述训练样本集中的样本舆论信息输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;通过所述初始预测参数对输入的所述样本舆论信息进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息进行处理后,得到的预测结果与正确结果相符。
由上可见,本说明书实施例提供的技术方案,在获取舆论信息之后,可先基于所述舆论信息表达的内容,对所述舆论信息划分多个类别。其中,表达的内容较为接近的舆论信息处于相同类别。接着,针对每个类别,可以按照预设规则,基于该类别中包括的舆论信息确定目标风险主体。其中,所述预设规则可以用于分析舆论信息的发布主体的风险程度。例如,可以先统计该类别包括的舆论信息中,分别对应不同发布主体的舆论信息的数量,可以将最多数量对应的发布主体作为该类别对应的目标风险主体。这样,无需人为干预,便可以自动识别出发布这些舆论信息的风险主体,从而可以避免因人工查看时的主观判断或经验不足而出现错误的问题,进而可以提高风险主体确定的准确度。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例中一种应用场景交互示意图;
图2是本说明书实施例中另一种应用场景交互示意图;
图3是本说明书实施例中风险主体的确定方法的一种流程图;
图4是本说明书实施例中一种服务器的结构示意图;
图5是本说明书实施例中另一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书中的一部分实施例,而不是全部的实施例。基于本说明书中的一个实施例或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例保护的范围。
本说明书提供一种场景示例。如图1所示,一些用户或者社会媒体通过智能手机,在微博、今日头条或微信公众号等信息交流平台上频繁发布针对某个公司或该公司某个产品的舆论文章、舆论图片等成批舆论信息。
如图1所示,由于该公司可以通过自己的舆论处理平台,定期从不同上述信息交流平台或者不同的媒体平台中爬取一些舆论信息,媒体平台例如可以包括人民日报、中央电视台和新华社、环球时报等等,那么,在爬取到这些舆论信息之后,该舆论处理平台可以从这些舆论信息中筛选得到与该公司相关联的舆论信息。具体地,该公司可以预先设定一些与自己公司相关的关键词或字段等指定内容,例如,该指定内容可以包括该公司创始人名称、该公司名称或者该公司主营产品的名称或者主营业务名称等等。该舆论处理平台便可以分别计算上述爬取的舆论信息与该指定内容之间的相似度,并可以将相似度较高的舆论信息作为与该指定内容相关联的舆论信息。这样,便可以获取与该公司相关联的舆论信息。
在筛选得到这些舆论信息之后,该舆论处理平台可以基于这些舆论信息表达的内容,将所述舆论信息划分为多个类别。其中,表达的内容较为接近的舆论信息处于相同类别。具体地,例如,通常情况下,在社会媒体或者民众发布的各个舆论信息分别表达的内容中,属于同类舆论信息的舆论信息表达的内容之间会存在一些相类似性的,而属于非同类舆论信息的舆论信息表达的内容之间是存在一些区别的。例如,当所述舆论信息为舆论文本时,所述舆论信息表达的内容可以包括舆论文本的文本长度、发布舆论文本的时间、第一个回复舆论文本的时间、最后一个回复舆论文本的时间、舆论负面情绪度、与上述指定内容之间的舆论相关度、发布媒体的影响度或发布舆论信息时使用的账号的等级、用于表征文本内容的特征词汇、TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)值或者词向量(wordvector)中各个元素的值的平均值等结构化数据。
这样,可以基于发布的时间、发布的媒体的影响度、舆论负面情绪度等多个结构化内容中的一个或多个的组合对舆论信息进行类别划分。例如,如果两个舆论信息分别表达的内容中发布舆论文本的时间比较接近、舆论负面情绪度比较接近和发布媒体的影响度比较相近等等中的一个,或者,如果发布舆论文本的时间比较接近、舆论负面情绪度比较接近和发布媒体的影响度比较相近等等中的至少两个的组合,那么可以认为两个舆论信息属于同类舆论信息。如果两个舆论信息分别表达的内容中发布舆论文本的时间的时间间隔较大,或者舆论负面情绪度相差较大,或者发布媒体的影响度相差较大等等,那么可以认为两个舆论信息属于非同类舆论信息。为此,可以利用海量历史舆论信息分别表达的内容,对诸如卷积神经网络(Convolutional Neural Network,CNN)这样的舆论信息识别模型进行预先训练,从而可以将舆论信息表达的内容输入预先训练的舆论信息识别模型,以便后续通过预先训练的舆论信息识别模型判断舆论信息是否为同类舆论信息。
在将上述获取的舆论信息划分为多个类别之后,针对每个类别的舆论信息,可以按照预设规则基于该类别包括的舆论信息确定目标风险主体。其中,所述预设规则可以用于分析舆论信息的发布主体的风险程度。具体地,例如,在确定目标风险主体之前,可以预先设定在一个类别包括的舆论信息中,某个发布主体对应的舆论信息的数量越多,该发布主体的风险程度越高。那么,可以先统计该类别中各个发布主体对应的舆论信息的数量。接着,可以将对应的舆论信息的数量最多的发布主体作为目标风险主体。
如图1所示,在确定目标风险主体之后,该舆论处理平台便可以将目标风险主体以及发布的同类舆论信息发送至该公司的各个执行部门的终端设备。在这些执行部门分别接收到这些同类舆论信息之后,便可以按照预先设定的处理方案采取相应的行动。例如,总裁办保持对这些同类舆论信息的关注,并督促其他执行部门积极应对。公关部门可以及时发布针对这些同类舆论信息的回应声明,并实施针对目标风险主体的反制行动,以降低舆论影响等等。如此,通过该电子公司各个执行部门针对这些同类舆论信息和目标风险主体进行及时应对,后续便可以对舆论信息进行有效防控。
本说明书还提供另一种场景示例。上述舆论处理平台可以是由某舆论监控服务公司提供的。上述公司可以与该舆论监控服务公司合作,由该舆论监控服务公司通过该舆论处理平台,定期从不同上述信息交流平台或者不同的媒体平台中爬取一些舆论信息。在从这些舆论信息中筛选得到与该公司相关联的舆论信息之后,该舆论处理平台可以自动从这些舆论信息中确定目标风险主体。在确定目标风险主体之后,便可以自动将目标风险主体和对应的同类舆论信息及时直接发送至该公司的服务端,以便该公司后续通过各个执行部门针对目标风险主体和对应的同类舆论信息进行及时应对,从而对舆论信息进行有效防控。
本说明书还提供另一种场景示例。上述获取与上述公司相关的舆论信息的工作可以是由某舆论监控服务公司提供的。上述公司可以与该舆论监控服务公司合作,如图2所示,由该舆论监控服务公司通过自己的舆论监控设备,定期从不同上述信息交流平台或者不同的媒体平台中爬取一些舆论信息。在从这些舆论信息中筛选得到与该公司相关联的舆论信息之后,自动将筛选的舆论信息发送至该公司的舆论处理平台,后续通过该舆论处理平台可以自动从这些舆论信息中确定目标风险主体。在确定目标风险主体之后,便可以自动将目标风险主体和对应的同类舆论信息及时直接发送至该公司的各个执行部门的终端设备,以便该公司的各个执行部门针对目标风险主体和对应的同类舆论信息进行及时应对,从而对舆论信息进行有效防控。
本说明书提供一种风险主体的确定方法,所述风险主体的确定方法可以应用于具备舆论数据处理功能的终端设备中。所述终端设备例如可以是台式电脑、笔记本电脑、平板电脑、工作站等。此外,所述方法还可以应用于舆论控制的业务服务器中,所述业务服务器可以是独立的服务器,也可以是由多个服务器构成的服务器集群。
请参阅图3,所述方法可以包括以下步骤。
S11:获取舆论信息;其中,所述舆论信息对应有发布主体。
在本说明书的一个实施例中,所述舆论信息可以是指与社会媒体或者民众针对社会事件表达不同看法时发布的信息。例如,通过信息交流平台或者媒体平台发布针对某社会事件的各种文本信息、图像信息或者视频信息。例如,一些用户或者社会媒体通过智能手机,在微博、今日头条或微信公众号等信息交流平台上频繁发布针对某个公司或该公司某个产品的舆论文章、舆论图像或舆论视频等成批舆论信息。其中,媒体平台例如可以包括人民日报、中央电视台和新华社、环球时报等等。
在本说明书的一个实施例中,针对获取的舆论信息,所述舆论信息可以对应有发布主体。所述发布主体可以是指在上述信息交流平台或者媒体平台上发布所述舆论信息的主体。例如,所述发布主体可以包括用户在上述信息交流平台上使用的账号、社会媒体在上述信息交流平台上的公众号、或者各种媒体平台等等。
在本说明书的一个实施例中,所述舆论信息可以是与预先设定的指定内容相关联的信息。所述指定内容可以是预先设定的关键词或者关键字段等等。所述指定内容可以通过指定主体提供,所述指定主体可以是指企业、公司或组织机构等主体,例如可以是某个电子钱包公司。该电子钱包公司可以预先设定一些与自己公司相关的关键词或字段等指定内容,例如,该指定内容可以包括该电子钱包公司创始人名称、该电子钱包公司名称或者该电子钱包公司主营产品的名称或者主营业务名称等等。
在本说明书的一个实施例中,所述舆论信息还可以对应有针对主体。所述针对主体可以用于表征所述舆论信息针对的舆论主体。例如,所述舆论信息针对的舆论主体可以是上述企业、公司、组织机构、或者这些企业、公司和组织机构的创始人等等。
在本说明书的一个实施例中,所述服务器可以获取与上述指定内容相关联的舆论信息。具体地,例如,所述服务器可以在网络中,通过爬虫模块定期从不同信息交流平台或者不同的媒体平台中爬取一些舆论信息。例如,可以预先设定间隔时长,每间隔指定时长爬取该间隔时长内的舆论信息。其中,所述指定时长例如可以设定为一天、两天、一周等等,可以根据具体实际情况来设定,此处不做限定。或者,所述服务器可以通过指定网站的预设接口定期获取一些舆论信息。所述指定网站可以是指上述信息交流平台或者媒体平台对应的网站。所述预设接口可以是专门用于获取指定网站的舆论信息的SDK(SoftwareDevelopment Kit,软件开发工具)接口。在获取这些舆论信息之后,便可以从这些舆论信息中筛选得到与所述指定内容相关联的舆论信息。具体地,例如,可以分别计算获取的舆论信息与所述指定内容之间的相似度,并可以将相似度较高的舆论信息作为与所述指定内容相关联的舆论信息。这样,便可以获取与该电子钱包公司相关联的舆论信息,从而可以为后续数据处理过程提供数据基础。
S13:基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别。
在本说明书的一个实施例中,在获取上述舆论信息之后,所述服务器可以基于所述舆论信息表达的内容,对所述舆论信息进行类别划分,从而将获取的舆论信息划分为多个类别。在实际应用过程中,可以将表达的内容较为接近的舆论信息划分至相同的类别。这样,上述获取的舆论信息中表达内容较为接近的舆论信息可以处于相同类别。
在本说明书的一个实施例中,在实际应用中,所述舆论信息通常可以表达至少一种内容。所述舆论信息表达的内容可以用于表征所述舆论信息中包含的舆论内容或者所述舆论信息的舆论影响因素。例如,当所述舆论信息为舆论文本时,所述舆论信息表达的内容可以包括用于表征文本内容的特征词汇、TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆向文件频率)值或者词向量(wordvector)中各个元素的值的平均值、与舆论文本相关联的文本长度、发布舆论文本的时间、第一个回复舆论文本的时间、最后一个回复舆论文本的时间等具体舆论内容,或者舆论负面情绪度、与上述指定内容之间的舆论相关度、发布主体的影响度、发布舆论信息时使用的账号的等级等舆论影响因素。在实际应用中,还可以考虑其他表达内容,例如信息转发量、信息评论量、涉及用户的数量等结构化数据,在这里便不再一一例举。
当所述舆论信息为舆论图像时,可以先通过光学字符识别(Optical CharacterRecognition,OCR)的技术,从舆论图像中提取出文字信息,从而可以得到与舆论图像关联的舆论文本。那么,所述舆论信息表达的内容仍可以包括上述结构化数据。这样,后续便可以结合这些结构化的内容,更加客观准确地对上述舆论信息进行类别划分。
在本说明书的一个实施例中,在获取上述舆论信息之后,便可以获取所述舆论信息表达的内容。具体地,例如,可以通过对舆论文本中包括的字符进行统计,便可以将得到的统计结果中的字符总数作为舆论文本对应的文本长度。可以在获取针对指定内容的舆论信息时,同时获取这些舆论信息的发布时间、舆论相关度、账号的等级、信息转发量、舆论评论数等舆论数据。还可以利用文本情感分析模型,分析得到舆论文本的舆论负面情绪度。
针对用于表征文本内容的特征词汇,可以利用分词器对所述舆论文本进行分词处理。具体地,所述分词器例如可以是mmseg4j、IKAnalyzer、Ansj、paoding等分词器。在经过分词处理之后,可以将原本的舆论文本拆分为一个或者多个词汇,这些词汇通常会具备词性标注的结果。其中,词性标注的结果可以通过词性的代码来表示。词性和词性代码的对应关系可以通过词性对照表来表示。例如,形容词可以通过词性代码a来表示,副形词可以通过词性代码ad来表示,形语素可以通过词性代码ag来表示,人名可以通过词性代码nr来表示,地名可以通过词性代码ns来表示等。通常而言,在舆论文本中,能够表征时效性的通常是人名、地名、动作等词性的词汇,因此,可以将分词处理的结果中具备指定词性的词汇或者由多个所述具备指定词性的词汇构成的词汇组合作为解析出的特征词汇。
针对用于表征文本内容的词向量,所述词向量可以是用于表征舆论文本包含的各个词汇的一种数学形式。生成词向量的方式也多种多样。例如,可以通过共现矩阵来表示一个词汇的词向量。又例如,还可以通过对共现矩阵进行奇异值分解,并将奇异值分解的结果来作为一个词汇的词向量。再者,还可以通过语言模型来生成一个词汇的词向量。所述语言模型例如可以包括Skip-gram、CBOW、LBL、NNLM、C&W、GloVe等模型。
在本说明书的一个实施例中,在获取所述舆论信息表达的内容之后,便可以基于所述舆论信息表达的内容,对所述舆论信息划分多个类别。具体地,例如,通常情况下,在社会媒体或者民众发布的各个舆论信息分别表达的内容中,属于同类舆论信息的舆论信息表达的内容之间会存在一些相类似性的,而属于非同类舆论信息的舆论信息表达的内容之间是存在一些区别的。这样,可以基于发布的时间、发布的媒体的影响度、舆论负面情绪度等多个所述舆论信息表达的结构化内容中的一个或多个的组合,对舆论信息进行类别划分。
例如,如果两个舆论信息分别表达的内容中发布舆论文本的时间比较接近、舆论负面情绪度比较接近和发布媒体的影响度比较相近等等中的一个,或者,如果发布舆论文本的时间比较接近、舆论负面情绪度比较接近和发布媒体的影响度比较相近等等中的至少两个的组合,那么可以认为两个舆论信息属于同类舆论信息。如果两个舆论信息分别表达的内容中发布舆论文本的时间的时间间隔较大,或者舆论负面情绪度相差较大,或者发布媒体的影响度相差较大等等,那么可以认为两个舆论信息属于非同类舆论信息。为此,可以利用海量历史舆论信息分别表达的内容,对诸如卷积神经网络(Convolutional NeuralNetwork,CNN)这样的舆论信息识别模型进行预先训练,从而可以将舆论信息表达的内容输入预先训练的舆论信息识别模型,以便后续通过预先训练的舆论信息识别模型判断舆论信息是否为同类舆论信息。
在实际应用中,可以预先构建舆论信息识别模型,例如深度神经网络,利用预先收集的样本舆论信息进行训练,例如,所述样本舆论信息可以包括海量历史舆论信息,这些样本舆论信息可以预先人工分别进行同类舆论信息和非同类舆论信息的打标。通过深度神经网络的样本训练,可以得到用于识别获取的舆论信息是否为同类舆论信息的识别模型。所述的深度神经网络可以包括多种网络模型,例如卷积神经网络(Convolutional NeuralNetwork,CNN)模型、门控循环单元(GRU,Gated Recurrent Unit)模型、长短期记忆(LSTM,Long Short-Term Memory)网络模型等等。本说明书的一些实施例中可以根据实施应用需求设计网络模型结构,如隐藏层的层数,或者再结合池化层、全连接层等构建训练模型。在本实施例中,所述深度神经网络,可以采用离线预先构建的方式生成,可以预先选取样本舆论信息进行训练,训练完成后再在线上使用。本说明书不排除所述深度神经网络可以采用在线构建或更新/维护的方式,在计算机能力足够的情况下,可以在线构建出深度神经网络,构建出深度神经网络可以即时在线使用,对获取的舆论信息进行识别处理。
上述所述的舆论数据识别模型可以选择同类模型。例如,可以使用基于卷积神经网络和区域建议网络的多种模型和变种,如Faster R-CNN、YOLO、Mask-FCN等。其中的卷积神经网络(CNN)可以用任意CNN模型,如ResNet、Inception,VGG等及其变种。
在本说明书的一个实施例中,在实际应用中,考虑到预先收集的历史样本舆论信息的数量较大,通过人工进行打标时,工作量比较大。为了降低人工打标的工作量,在通过人工分别对这些样本舆论信息进行同类舆论信息和非同类舆论信息的打标的之前,可以对样本舆论信息进行聚类处理,从而可以将这些样本舆论信息划分为不同类别的样本组。这样,仅需通过人工分别对不同样本组内的样本舆论信息进行同类舆论信息和非同类舆论信息的打标,而不同类别的样本组内的样本舆论信息之间属于非同类舆论信息,无需再通过人工进行打标。如此,便可以降低人工打标的工作量。
在实际应用中,在收集历史样本舆论信息和这些历史样本舆论信息表达的样本内容之后,这些样本舆论信息表达的样本内容通常可以采用特征向量来表示。这样,可以利用预先设定的聚类算法对这些特征向量进行聚类处理,便可以将这些特征向量对应的舆论信息划分到不同的类别中,从而可以得到不同的样本组。在实际应用中,所述聚类算法例如可以包括K均值(K-means)聚类算法、均值漂移(Mean Shift)聚类算法、基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、采用高斯混合模型(Gaussian Mixture Model,GMM)的最大期望(Expectation Maximization,EM)聚类算法、谱聚类(Spectral Clustering)算法、凝聚层次聚类算法等等。
在本说明书的一个实施例中,在构建所述舆论信息识别模型时,具体地,可以预先获取训练样本集,所述训练样本集可以用于对所述舆论信息识别模型进行训练,以使得所述舆论信息识别模型能够识别出输入的舆论信息是否为同类舆论信息。所述训练样本集中可以包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息。这样,在训练过程中,可以依次将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型。该舆论信息识别模型中可以构建初始的神经网络,神经网络中可以预先设置初始预测参数。通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理后,可以得到所述样本舆论信息的预测结果,所述预测结果可以用于表征所述样本舆论信息是否为同类舆论信息。
具体地,所述舆论信息识别模型在对样本舆论信息表达的内容进行处理时,首先可以从所述样本舆论信息表达的样本内容中提取的特征数据。所述样本舆论信息表达的样本内容中包括具有特征类型的字段。例如,该字段可以是发布舆论文本的时间或舆论负面情绪度,这样,该字段的特征类型可以是发布时间类型或负面情绪类型。所述特征数据可以是一个特征向量,其中,该特征向量中元素的值与具有特征类型的字段包括的信息所表征的值一一对应。例如,该字段可以是发布舆论文本的时间,时间为2018年12月12日,这时,该特征向量中与该字段对应的元素的值为20181212。这样,便可以提取所述样本舆论信息表达的样本内容的特征向量。
在本说明书的一个实施例中,经过所述神经网络对输入的多个样本舆论信息分别表达的样本内容进行处理之后,可以得到多个样本内容对应的概率值向量。在所述概率值向量中可以包括针对这些样本内容分别对应的样本舆论信息是否为同类舆论信息的预测值,即概率值。所述概率值向量中可以包括两个预测值,这两个预测值分别表示这些样本内容分别对应的样本舆论信息为同类舆论信息的概率以及这些样本内容分别对应的样本舆论信息为非同类舆论信息的概率。例如,在输入属于同类舆论信息的样本舆论信息之后,经过所述舆论信息识别模型可以得到(0.4,0.8)这样的概率值向量,其中,0.4表示属于同类舆论信息的概率,0.8表示不属于同类舆论信息的概率。
由于舆论信息识别模型中的初始预测参数可能设置得不够准确,因此经过舆论信息识别模型预测得到的概率结果可能是实际情况不符。例如,上述输入的是属于同类舆论信息的样本舆论信息,但是得到的概率值向量中,表示属于同类舆论信息的概率值仅为0.4,而表示属于非同类舆论信息的概率值为0.8。在这种情况下,表明预测结果不正确。此时,可以根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整。
具体地,这些样本舆论信息可以具备理论的概率值结果。例如,属于同类舆论信息的理论的概率值结果可以为(1,0),其中1表示属于同类舆论信息的概率值。此时,可以将预测得到的概率值结果与理论的概率值结果进行相减,从而得到两者的差值,然后可以利用得到的差值对神经网络的初始预测参数进行调整,最终使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。这样,通过对大量的训练样本进行训练之后,该舆论信息识别模型便可以区分这些样本舆论信息是否为同类舆论信息。
在本说明书的一个实施例中,在实际应用中,考虑到所述样本舆论信息表达的结构化内容较多,这样,可能会在导致舆论信息识别模型的前期训练和构建以及后续通过舆论信息识别模型进行舆论信息识别时运算压力较大。为此,在将所述训练样本集中的样本舆论信息输入舆论信息识别模型之前,可以先确定所述样本舆论信息表达的初始样本内容,由于所述样本舆论信息表达的初始样本内容可以包括按照内容类型进行划分,可以利用树模型特征重要性分析算法,计算所述内容类型对应的特征重要度。那么,针对所述样本舆论信息表达的内容分别具备的内容类型,便可以分别得到对应的特征重要度。在实际应用中,所采用的树模型特征重要性分析算法可以包括随机森林(Random Forests,RF)算法、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法、XGboost(eXtremeGradient Boosting)算法等等。
在计算得到各个内容类型分别对应的特征重要度之后,便可以根据所述内容类型对应的特征重要度,从所述初始样本内容中确定目标样本内容。具体地,例如,可以按照特征重要度由大到小的顺序进行对所述内容类型对应的特征重要度进行排序,并将排序结果中排在前指定名次的特征重要度对应的内容类型作为目标内容类型,从而可以将所述目标内容类型对应的样本内容作为目标样本内容。其中,所述指定名次可以根据实际应用情况进行设定,例如,所述指定名次的取值范围可以包括10~30。
这样,便可以从所述样本舆论信息中筛选出一些比较重要的内容类型对应的样本内容。相应的,后续便可以将所述样本舆论信息中的目标样本内容输入舆论信息识别模型。这样,后续在将所述样本舆论信息中的这些样本内容输入舆论信息识别模型时,便可以减少输入的结构化样本内容,由于筛选出的这些样本内容是重要性较高的内容,从而可以在保证识别准确度仍然较高的情况下,减缓舆论信息识别模型的前期训练和构建以及后续通过舆论信息识别模型进行舆论信息识别时运算压力。
在本说明书的一个实施例中,在将所述舆论信息表达的内容输入预先训练的舆论信息识别模型之后,可以根据所述预先训练的舆论信息识别模型,确定所述舆论信息表达的内容对应的分类结果。具体地,可以先根据所述预先训练的舆论信息识别模型,确定所述内容对应的预测概率组,所述预测概率组中可以包括用于表征所述内容对应的舆论信息属于同类舆论信息的第一概率值,和用于表征所述内容对应的舆论信息属于非同类舆论信息的第二概率值。接着可以对比所述第一概率值和所述第二概率值,最后可以根据对比结果确定所述内容对应的分类结果。
在本说明书的一个实施例中,根据对比结果确定所述内容对应的分类结果,具体可以包括,当所述第一概率值大于或等于所述第二概率值时,可以确定所述内容对应的舆论信息属于同类舆论信息。当所述第一概率值小于所述第二概率值时,可以确定所述内容对应的舆论信息属于非同类舆论信息。例如,当所述第一概率值为0.8,所述第二概率值为0.2时,那么当前得到的所述内容对应的分类结果就可以是属于同类舆论信息。
S15:按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
在本说明书的一个实施例中,在将上述获取的舆论信息划分为多个类别之后,针对每个类别的舆论信息,可以按照预设规则基于该类别包括的舆论信息确定目标风险主体。其中,所述预设规则可以用于分析舆论信息的发布主体的风险程度。具体地,例如,在确定目标风险主体之前,可以预先设定在一个类别包括的舆论信息中,某个发布主体对应的舆论信息的数量越多,该发布主体的风险程度越高。那么,可以先统计该类别中各个发布主体对应的舆论信息的数量。接着,可以将对应的舆论信息的数量最多的发布主体作为目标风险主体。
不仅如此,还可以在一个类别包括的舆论信息中,预先设定某个发布主体对应的舆论信息的数量和该发布主体的影响度或使用的账号等级,分别对应的权重值。若该发布主体对应的舆论信息的数量和该发布主体的影响度分别与对应的权重值的乘积的值越大,该发布主体的风险程度越高。这样,便可以将对应的乘积的值最大的发布主体作为目标风险主体。
本说明书还提供一种计算机存储介质,所述计算机存储介质中存储计算机程序。所述计算机程序被处理器执行时,可以实现以下步骤:
S11:获取舆论信息;其中,所述舆论信息对应有发布主体;
S13:基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;
S15:按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
需要说明的是,上述计算机存储介质中的计算机程序所能实现的功能,均可以参照前述的方法实施实施例,实现的技术效果也与前述方法实施例中实现的技术效果类似,这里便不再赘述。
请参阅图4,本说明书还提供一种服务器,所述服务器包括:获取单元100、分类单元200和确定单元300。
获取单元100,可以用于获取舆论信息;其中,所述舆论信息对应有发布主体。
分类单元200,可以用于基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别。
确定单元300,可以用于按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
本说明书实施例提供的服务器,其各个单元或模块实现的具体功能,可以与本说明书中的前述实施例相对照解释,并能够达到前述实施例的技术效果,这里便不再赘述。
请参阅图5,本说明书还提供一种服务器,所述服务器包括存储器和处理器,所述存储器中存储有计算机程序;所述计算机程序被所述处理器执行时,可以实现以下步骤:
S11:获取舆论信息;其中,所述舆论信息对应有发布主体;
S13:基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;
S15:按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
在本说明书的一个实施例中,所述存储器可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施例所述的存储器又可以包括:利用电能方式存储信息的装置,如RAM、ROM等;利用磁能方式存储信息的装置,如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置,如CD或DVD。当然,还有其他方式的存储器,例如量子存储器、石墨烯存储器等等。
在本本说明书的一个实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。
本说明书实施例提供的服务器,其存储器和处理器实现的具体功能,可以与本说明书中的前述实施例相对照解释,并能够达到前述实施例的技术效果,这里便不再赘述。
本说明书还提供一种风险主体的确定方法,所述方法可以应用于某舆论监控服务公司提供的服务器。所述方法可以包括:获取舆论信息;其中,所述舆论信息对应有发布主体和针对主体;所述针对主体用于表征所述舆论信息针对的舆论主体;基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度;将所述目标风险主体发送至指定舆论信息对应的针对主体的服务端;所述指定舆论信息用于表征所述类别包括的舆论信息中所述目标风险主体发布的舆论信息。
在本说明书的一个实施例中,对所述舆论信息划分多个类别,包括:
将所述舆论信息表达的内容输入预先训练的舆论信息识别模型;其中,所述舆论信息识别模型通过对属于同类舆论信息的样本舆论信息表达的样本内容和属于非同类舆论信息的样本舆论信息表达的样本内容进行训练得到;
根据所述预先训练的舆论信息识别模型,确定所述内容对应的分类结果。
在本说明书的一个实施例中,所述预先训练的舆论信息识别模型按照下述方式确定:
获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;
将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;
通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;
若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。
本说明书实施例提供的风险主体的确定方法的具体实施步骤和实现效果,可以参照其它实施例对照解释,不再赘述。
本说明书还提供一种舆论信息分类,所述方法可以包括以下步骤。
S21:获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;
S23:将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;
S25:通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;
S27:若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。
本说明书实施例提供的舆论信息分类方法,各个步骤的具体实施过程可以与本说明书中的前述实施例相对照解释,并能够达到前述实施例的技术效果,这里便不再赘述。
本说明书还提供一种服务器,所述服务器包括:
样本获取单元,用于获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;
样本输入单元,用于将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;
处理单元,用于通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;
参数调整单元,用于若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。
本说明书实施例提供的服务器,其各个单元或模块实现的具体功能,可以与本说明书中的前述实施例相对照解释,并能够达到前述实施例的技术效果,这里便不再赘述。
由上可见,本说明书实施例提供的技术方案,在获取舆论信息之后,可先基于所述舆论信息表达的内容,对所述舆论信息划分多个类别。其中,表达的内容较为接近的舆论信息处于相同类别。接着,针对每个类别,可以按照预设规则,基于该类别中包括的舆论信息确定目标风险主体。其中,所述预设规则可以用于分析舆论信息的发布主体的风险程度。例如,可以先统计该类别包括的舆论信息中,分别对应不同发布主体的舆论信息的数量,可以将最多数量对应的发布主体作为该类别对应的目标风险主体。这样,无需人为干预,便可以自动识别出发布这些舆论信息的风险主体,从而可以避免因人工查看时的主观判断或经验不足而出现错误的问题,进而可以提高风险主体确定的准确度。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。

Claims (14)

1.一种舆论风险主体的确定方法,所述方法包括:
获取舆论信息;其中,所述舆论信息对应有发布主体;
基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;
按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
2.根据权利要求1所述的方法,对所述舆论信息划分多个类别,包括:
将所述舆论信息表达的内容输入预先训练的舆论信息识别模型;其中,所述舆论信息识别模型通过对属于同类舆论信息的样本舆论信息表达的样本内容和属于非同类舆论信息的样本舆论信息表达的样本内容进行训练得到;
根据所述预先训练的舆论信息识别模型,确定所述内容对应的分类结果。
3.根据权利要求2所述的方法,确定所述内容对应的分类结果,包括:
根据所述预先训练的舆论信息识别模型,确定所述内容对应的预测概率组,所述预测概率组中包括用于表征所述内容对应的舆论信息属于同类舆论信息的第一概率值,和用于表征所述内容对应的舆论信息属于非同类舆论信息的第二概率值;
对比所述第一概率值和所述第二概率值,并根据对比结果确定所述内容对应的分类结果。
4.根据权利要求3所述的方法,根据对比结果确定所述内容对应的分类结果包括:
当所述第一概率值大于或等于所述第二概率值时,确定所述内容对应的舆论信息属于同类舆论信息;
当所述第一概率值小于所述第二概率值时,确定所述内容对应的舆论信息属于非同类舆论信息。
5.根据权利要求2所述的方法,所述预先训练的舆论信息识别模型按照下述方式确定:
获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;
将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;
通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;
若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。
6.根据权利要求5所述的方法,确定所述预先训练的舆论信息识别模型还包括:
在将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型之前,确定所述样本舆论信息表达的初始样本内容;所述初始样本内容按照内容类型进行划分;
计算所述内容类型对应的特征重要度;
根据所述内容类型对应的特征重要度,从所述初始样本内容中确定目标样本内容;
相应的,将确定的所述目标样本内容输入舆论信息识别模型进行训练。
7.一种服务器,所述服务器包括:
获取单元,用于获取舆论信息;其中,所述舆论信息对应有发布主体;
分类单元,用于基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;
确定单元,用于按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
8.一种计算机存储介质,所述计算机存储介质中存储计算机程序;所述计算机程序被处理器执行时,实现以下步骤:
获取舆论信息;其中,所述舆论信息对应有发布主体;
基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;
按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度。
9.一种风险主体的确定方法,所述方法包括:
获取舆论信息;其中,所述舆论信息对应有发布主体和针对主体;所述针对主体用于表征所述舆论信息针对的舆论主体;
基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;
按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度;
将所述目标风险主体发送至指定舆论信息对应的针对主体的服务端;所述指定舆论信息用于表征所述类别包括的舆论信息中所述目标风险主体发布的舆论信息。
10.根据权利要求9所述的方法,对所述舆论信息划分多个类别,包括:
将所述舆论信息表达的内容输入预先训练的舆论信息识别模型;其中,所述舆论信息识别模型通过对属于同类舆论信息的样本舆论信息表达的样本内容和属于非同类舆论信息的样本舆论信息表达的样本内容进行训练得到;
根据所述预先训练的舆论信息识别模型,确定所述内容对应的分类结果。
11.根据权利要求10所述的方法,所述预先训练的舆论信息识别模型按照下述方式确定:
获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;
将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;
通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;
若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。
12.一种服务器,所述服务器包括:
获取单元,用于获取舆论信息;其中,所述舆论信息对应有发布主体和针对主体;所述针对主体用于表征所述舆论信息针对的舆论主体;
分类单元,用于基于所述舆论信息表达的内容,对所述舆论信息划分多个类别;其中,表达的内容较为接近的舆论信息处于相同类别;
确定单元,用于按照预设规则基于所述类别包括的舆论信息确定目标风险主体;其中,所述预设规则用于分析舆论信息的发布主体的风险程度;
发送单元,用于将所述目标风险主体发送至指定舆论信息对应的针对主体的服务端;所述指定舆论信息用于表征所述类别包括的舆论信息中所述目标风险主体发布的舆论信息。
13.一种舆论信息分类方法,所述方法包括:
获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;
将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;
通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;
若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。
14.一种服务器,所述服务器包括:
样本获取单元,用于获取训练样本集,所述训练样本集中包括属于同类舆论信息的样本舆论信息和属于非同类舆论信息的样本舆论信息;
样本输入单元,用于将所述训练样本集中的样本舆论信息表达的样本内容输入舆论信息识别模型,所述舆论信息识别模型中包括初始预测参数;
处理单元,用于通过所述初始预测参数对输入的所述样本舆论信息表达的样本内容进行处理,得到所述样本舆论信息的预测结果,所述预测结果用于表征所述样本舆论信息是否为同类舆论信息;
参数调整单元,用于若所述预测结果不正确,根据所述预测结果与正确结果之间的差异值,对所述舆论信息识别模型中的初始预测参数进行调整,以使得通过调整后的预测参数再次对所述样本舆论信息表达的样本内容进行处理后,得到的预测结果与正确结果相符。
CN201910417803.XA 2019-05-20 2019-05-20 一种风险主体的确定方法及服务器 Pending CN110287313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910417803.XA CN110287313A (zh) 2019-05-20 2019-05-20 一种风险主体的确定方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910417803.XA CN110287313A (zh) 2019-05-20 2019-05-20 一种风险主体的确定方法及服务器

Publications (1)

Publication Number Publication Date
CN110287313A true CN110287313A (zh) 2019-09-27

Family

ID=68002638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910417803.XA Pending CN110287313A (zh) 2019-05-20 2019-05-20 一种风险主体的确定方法及服务器

Country Status (1)

Country Link
CN (1) CN110287313A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN112036492A (zh) * 2020-09-01 2020-12-04 腾讯科技(深圳)有限公司 样本集处理方法、装置、设备及存储介质
CN112418652A (zh) * 2020-11-19 2021-02-26 税友软件集团股份有限公司 一种风险识别方法及相关装置
CN112685574A (zh) * 2021-01-06 2021-04-20 南京大学 领域术语层次关系的确定方法、装置
CN112949691A (zh) * 2021-02-02 2021-06-11 山东寻声网络科技有限公司 一种用于企业的舆情监测系统
CN113516118A (zh) * 2021-07-29 2021-10-19 西北大学 一种图像与文本联合嵌入的多模态文化资源加工方法
WO2022052546A1 (zh) * 2020-09-11 2022-03-17 长鑫存储技术有限公司 舆情数据处理系统及方法、计算机存储介质、电子设备
US11989743B2 (en) 2020-09-11 2024-05-21 Changxin Memory Technologies, Inc. System and method for processing public sentiment, computer storage medium and electronic device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038178A (zh) * 2016-08-03 2017-08-11 平安科技(深圳)有限公司 舆情分析方法和装置
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109544166A (zh) * 2018-11-05 2019-03-29 阿里巴巴集团控股有限公司 一种风险识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038178A (zh) * 2016-08-03 2017-08-11 平安科技(深圳)有限公司 舆情分析方法和装置
CN107122450A (zh) * 2017-04-26 2017-09-01 广州图匠数据科技有限公司 一种网络图片舆情监测方法
CN109299258A (zh) * 2018-09-18 2019-02-01 平安科技(深圳)有限公司 一种舆情事件检测方法、装置及设备
CN109544166A (zh) * 2018-11-05 2019-03-29 阿里巴巴集团控股有限公司 一种风险识别方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN112036492A (zh) * 2020-09-01 2020-12-04 腾讯科技(深圳)有限公司 样本集处理方法、装置、设备及存储介质
CN112036492B (zh) * 2020-09-01 2024-02-02 腾讯科技(深圳)有限公司 样本集处理方法、装置、设备及存储介质
WO2022052546A1 (zh) * 2020-09-11 2022-03-17 长鑫存储技术有限公司 舆情数据处理系统及方法、计算机存储介质、电子设备
US11989743B2 (en) 2020-09-11 2024-05-21 Changxin Memory Technologies, Inc. System and method for processing public sentiment, computer storage medium and electronic device
CN112418652B (zh) * 2020-11-19 2024-01-30 税友软件集团股份有限公司 一种风险识别方法及相关装置
CN112418652A (zh) * 2020-11-19 2021-02-26 税友软件集团股份有限公司 一种风险识别方法及相关装置
CN112685574A (zh) * 2021-01-06 2021-04-20 南京大学 领域术语层次关系的确定方法、装置
CN112685574B (zh) * 2021-01-06 2024-04-09 南京大学 领域术语层次关系的确定方法、装置
CN112949691A (zh) * 2021-02-02 2021-06-11 山东寻声网络科技有限公司 一种用于企业的舆情监测系统
CN113516118A (zh) * 2021-07-29 2021-10-19 西北大学 一种图像与文本联合嵌入的多模态文化资源加工方法
CN113516118B (zh) * 2021-07-29 2023-06-16 西北大学 一种图像与文本联合嵌入的多模态文化资源加工方法

Similar Documents

Publication Publication Date Title
CN110287313A (zh) 一种风险主体的确定方法及服务器
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN106095833B (zh) 人机对话内容处理方法
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
CN109325148A (zh) 生成信息的方法和装置
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
Pohl et al. Online indexing and clustering of social media data for emergency management
CN109214002A (zh) 一种文本对比方法、装置及其计算机存储介质
CN107491435A (zh) 基于计算机自动识别用户情感的方法及装置
CN109543012A (zh) 一种基于Word2Vec和RNN的用户意图识别方法及装置
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
CN109599187A (zh) 一种在线问诊的分诊方法、服务器、终端、设备及介质
CN109903127A (zh) 一种群组推荐方法、装置、存储介质及服务器
CN109684446A (zh) 文本语义相似度计算方法及装置
CN110209810A (zh) 相似文本识别方法以及装置
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN112148881A (zh) 用于输出信息的方法和装置
CN107391509A (zh) 标签推荐方法及装置
WO2021185113A1 (zh) 基于多分析任务的数据分析方法及电子设备
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN108665158A (zh) 一种训练风控模型的方法、装置及设备
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN109101487A (zh) 对话角色区分方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Georgetown Hospital Road, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190927

RJ01 Rejection of invention patent application after publication