CN112214673A - 一种舆情分析方法及装置 - Google Patents

一种舆情分析方法及装置 Download PDF

Info

Publication number
CN112214673A
CN112214673A CN202011088645.7A CN202011088645A CN112214673A CN 112214673 A CN112214673 A CN 112214673A CN 202011088645 A CN202011088645 A CN 202011088645A CN 112214673 A CN112214673 A CN 112214673A
Authority
CN
China
Prior art keywords
search
public opinion
search data
data
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011088645.7A
Other languages
English (en)
Other versions
CN112214673B (zh
Inventor
王云云
高洁
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202011088645.7A priority Critical patent/CN112214673B/zh
Publication of CN112214673A publication Critical patent/CN112214673A/zh
Application granted granted Critical
Publication of CN112214673B publication Critical patent/CN112214673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种舆情分析方法及装置,涉及通信技术领域,解决了现有技术中舆情分析结果的准确率较低的技术问题。该舆情分析方法包括:获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据,每条搜索数据包括用户标识、搜索时间以及搜索字段;分别将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,得到第一搜索数据;从第一搜索数据中获取预设数量的第二搜索数据,该第二搜索数据的搜索时间晚于该第一搜索数据中除第二搜索数据之外的其他搜索数据的搜索时间;将预设数量的第二搜索数据输入到舆情分析模型得到该舆情分析主题的舆情方向。

Description

一种舆情分析方法及装置
技术领域
本申请涉及通信技术领域,尤其涉及一种舆情分析方法及装置。
背景技术
舆情是指网络用户针对社会中的各种现象所表达的态度、意见和情绪等。如果引导不善,负面的网络舆情可能会对社会公共安全造成威胁,因此,分析舆情方向对于维护社会稳定至关重要。
现有技术可以爬取网页中的舆情数据,该舆情数据可以为用户输入的搜索词,并根据这些数据中正面舆情数据和负面舆情数据的比例确定舆情的方向。然而,爬取到的数据可能并不能真实的反映舆情方向,例如,同一用户可能会对同一事件进行重复搜索,且用户的态度也可能会发生变化,因此,根据舆情数据的比例判断舆情方向会使舆情分析结果的准确率较低。
发明内容
本申请提供一种舆情分析方法及装置,解决了现有技术中舆情分析结果的准确率较低的技术问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种舆情分析方法,包括:获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据,每条搜索数据包括用户标识、搜索时间以及搜索字段;分别将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,得到第一搜索数据;从第一搜索数据中获取预设数量的第二搜索数据,该第二搜索数据的搜索时间晚于该第一搜索数据中除第二搜索数据之外的其他搜索数据的搜索时间;将预设数量的第二搜索数据输入到舆情分析模型得到该舆情分析主题的舆情方向。
本申请实施例中,由于每条搜索数据包括用户标识、搜索时间以及搜索字段,因此,一方面,通过将每个用户标识对应的搜索字段按照搜索时间的时间间隔进行去重处理可以避免同一用户因为网络延迟、卡顿等原因在短时间内进行重复搜索造成的数据重复问题,从而提高舆情分析结果的准确率;另一方面,由于同一个用户标识对应的不同搜索字段中,越接近当前时间的搜索字段对分析结果的影响越大,因此,通过从第一搜索数据中获取第二搜索数据,并将第二搜索数据作为舆论分析模型的输入样本可以使分析结果更加准确的表现出用户的舆论方向;再一方面,由于输入样本中每个用户对应的第二搜索数据的数量都为预设数量,因此,每个用户对分析结果的权重都相同,从而可以平均每个用户对分析结果的影响,进而可以提高舆情分析结果的准确率。
第二方面,提供一种舆情分析装置,包括:获取单元、处理单元、确定单元以及分析单元;该获取单元,用于获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据,每条搜索数据包括用户标识、搜索时间以及搜索字段;该处理单元,用于分别将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,得到第一搜索数据;该确定单元,用于从该第一搜索数据中确定预设数量的第二搜索数据,该第二搜索数据的搜索时间晚于该第一搜索数据中除该第二搜索数据之外的其他搜索数据的搜索时间;该分析单元,用于将所有用户标识对应的该预设数量的第二搜索数据输入到舆情分析模型得到该舆情分析主题的舆情方向。
第三方面,提供一种舆情分析装置,包括存储器和处理器。存储器用于存储计算机执行指令,处理器与存储器通过总线连接。当舆情分析装置运行时,处理器执行存储器存储的计算机执行指令,以使舆情分析装置执行第一方面提供的舆情分析方法。
第四方面,提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得该计算机执行第一方面提供的舆情分析方法。
第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在计算机上运行时,使得计算机执行如上述第一方面及其各种可能的实现方式提供的舆情分析方法。
需要说明的是,上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中,计算机可读存储介质可以与舆情分析装置的处理器封装在一起的,也可以与舆情分析装置的处理器单独封装,本申请对此不作限定。
本申请中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述,此处不再赘述;并且,第二方面、第三方面、第四方面以及第五方面描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
在本申请中,上述舆情分析装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。
本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
图1为本申请实施例提供的一种舆情分析装置的硬件结构示意图之一;
图2为本申请实施例提供的一种舆情分析装置的硬件结构示意图之二;
图3为本申请实施例提供的一种舆情分析方法的流程示意图;
图4为本申请实施例提供的一种舆情分析装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了便于清楚描述本申请实施例的技术方案,在本申请实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
本申请实施例提供了一种舆情分析方法,该方法可以应用于如图1 所示的舆情分析装置,该舆情分析装置包括处理器11,存储器12、通信接口13、总线14。处理器11,存储器12以及通信接口13之间可以通过总线14连接。
处理器11是舆情分析装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器11可以是一个通用中央处理单元(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为一种实施例,处理器11可以包括一个或多个CPU,例如图1 中所示的CPU 0和CPU 1。
存储器12可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器 (random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
一种可能的实现方式中,存储器12可以独立于处理器11存在,存储器12可以通过总线14与处理器11相连接,用于存储指令或者程序代码。处理器11调用并执行存储器12中存储的指令或程序代码时,能够实现本申请实施例提供的舆情分析方法。
另一种可能的实现方式中,存储器12也可以和处理器11集成在一起。
通信接口13,用于与其他设备通过通信网络连接。所述通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks, WLAN)等。通信接口13可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
总线14,可以是工业标准体系结构(Industry Standard Architecture, ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI) 总线或扩展工业标准体系结构(Extended Industry Standard Architecture, EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
需要指出的是,图1示出的结构并不构成对该舆情分析装置的限定。除图1所示部件之外,该舆情分析装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图2示出了本申请实施例中舆情分析装置的另一种硬件结构。如图2所示,舆情分析装置可以包括处理器21以及通信接口22。处理器 21与通信接口22耦合。
处理器21的功能可以参考上述处理器11的描述。此外,处理器 21还具备存储功能,可以参考上述存储器12的功能。
通信接口22用于为处理器21提供数据。该通信接口22可以是舆情分析装置的内部接口,也可以是舆情分析装置对外的接口(相当于上述通信接口13)。
需要指出的是,图1(或图2)中示出的结构并不构成对舆情分析装置的限定,除图1(或图2)所示部件之外,该舆情分析装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面对本申请实施例提供的舆情分析方法进行详细介绍。
如图3所示,本申请实施例提供一种舆情分析方法,该舆情分析方法可以应用于上述图1和图2示出的舆情分析装置,该舆情分析方法可以包括下述的S301-S304。
S301、舆情分析装置获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据。
其中,上述多条搜索数据中的每条搜索数据可以包括用户标识、搜索时间以及搜索字段。该用户标识可以为用于区分用户的唯一标识符,该搜索时间可以为创建搜索字段的起始时间,该搜索字段可以为根据业务的统一资源定位符(uniform resource locator,URL)得到的字段。
可选的,舆情分析装置可以获取预设监测期内网络用户生成的原始搜索数据,该原始搜索数据包括URL,再从该URL中提取搜索字段,并将提取到的搜索字段解析为可读性搜索字段;最后,根据预设关键词和该可读性搜索字段,从该原始搜索数据中获取与预设分析主题相关的多条搜索数据。
具体的,首先,舆情分析装置可以通过运营支持系统(operation supportsystem,OSS)提取用户的业务数据,该业务数据的字段可以包括用户标识、业务开始时间以及URL。之后,舆情分析装置可以根据该业务开始时间从OSS提取的业务数据中筛选出预设监测期内网络用户生成的原始搜索数据,而超过预设监测期的业务数据将会被舍弃,该原始搜索数据可以包括URL。由于网络业务的种类多种多样,因此,舆情分析装置还需要过滤与舆情分析无关的业务数据。例如,影音娱乐和网上购物等业务数据,并通过各大搜索引擎的筛选规则得到搜索场景下的URL。之后,舆情分析装置可以根据每种搜索引擎的URL特点,提取搜索字段。由于URL中搜索字段的内容被前端进行了加密处理,因此,提取出来的搜索字段常表现为编码形式。例如:%E7%BE%8E%E5%9B%BD,舆情分析装置可以使用Python语言中urllib.parse.unquote语句进行解码得到可读性搜索字段,并将业务开始时间记作URL的搜索时间。
最后,舆情分析装置可以根据预设关键词和该可读性搜索字段,从该原始搜索数据中获取与预设分析主题相关的多条搜索数据。该预设关键词可以包括主体词和实词,通过主体词可将与预设舆情分析主题无关的搜索字段过滤掉,通过实词可以进一步缩小分析主题的范围。
S302、舆情分析装置分别将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,得到第一搜索数据。
可选的,得到与舆情分析主题相关的多条搜索数据后,舆情分析装置可以按照该多条搜索数据中搜索时间的先后顺序对每个用户标识对应的搜索字段进行排序得到每个用户标识的搜索字段序列,该搜索字段包括多个与搜索时间一一对应的搜索字段。
之后,由于网络延迟,卡顿等原因的影响,单个用户可能在短时间内多次搜索相同的搜索字段,因此,为了使分析结果更加准确,舆情分析装置可以将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,从而得到第一搜索数据。
示例性的,用户A对应的搜索字段包括按照时间先后顺序排列的搜索字段1和搜索字段2,其中,搜索字段1对应搜索时间1,搜索字段2对应搜索时间2。若搜索时间1与搜索时间2之间的时间间隔小于第一阈值,且搜索字段1和搜索字段2的内容相同或相似度较高,则可以只保留搜索字段1和搜索字段2中的任意一个字段。
需要说明的是,本申请实施例对于上述舆情分析装置进行去重处理和排序操作的处理顺序不做限定。即舆情分析装置可以先对搜索字段进行排序,再对第一序列的搜索字段进行去重处理;也可以先对搜索字段进行去重处理,再对处理后的搜索字段进行排序。
S303、舆情分析装置从第一搜索数据中确定预设数量的第二搜索数据。
其中,上述第二搜索数据的搜索时间晚于该第一搜索数据中除该第二搜索数据之外的其他搜索数据的搜索时间。即第二搜索数据的搜索时间最接近当前时间。
在对搜索字段进行排序和去重处理后,可以得到每个用户标识对应的第一搜索数据,该第一搜索数据包括一个按照搜索时间先后顺序排列的搜索字段序列。为了避免单个用户异常多次搜索对舆情分析结果产生影响,舆情分析装置可以从第一搜索数据中确定预设数量的第二搜索数据,从而使每个用户的权重相同。另外,由于越接近当前时间的搜索字段对分析结果的影响越大,因此,舆情分析装置可以从该序列的末尾选取搜索字段,从而得到最接近当前时间的第二搜索数据。之后,舆情分析装置可以将所有用户的预设数量的第二搜索数据作为舆情分析模型的分析样本。
示例性的,以预设数量为2为例。若用户A的第一搜索数据的搜索字段序列为搜索字段1、搜索字段2、搜索字段3,其中,搜索字段 1对应搜索时间1,搜索字段2对应搜索时间2,搜索字段3对应搜索时间3,且搜索时间1早于搜索时间2,搜索时间2早于搜索时间3,则舆情分析装置可以将搜索字段2和搜索字段3确定为第二搜索数据。
S304、舆情分析装置将所有用户标识对应的预设数量的第二搜索数据输入到舆情分析模型得到舆情分析主题的舆情方向。
其中,上述舆情分析模型可以包括情感分类器和舆情方向分析器。舆情分析装置可以将所有用户标识对应的预设数量的第二搜索数据分别输入到该情感分类器中,得到每个第二搜索数据的情感得分。例如,舆情分析装置可以将每个第二搜索数据放入0-1短文本分类器,正向情感得分可以为1,负向情感得分可以为0,情感得分越接近1说明情感越偏正向,反之则说明情感偏负向。之后,舆情分析装置可以将每个第二搜索数据的情感得分和对应的搜索时间输入到该舆情方向分析器得到舆情分析主题的舆情方向。
可选的,上述舆情方向分析器的数据模型满足下述公式:
Figure RE-GDA0002813005390000081
其中,S可以用于表示舆情方向,p(u,i)可以用于表示第u个用户的第i条第二搜索数据的情感得分,t(u,i)可以用于表示第u个用户的第i条第二搜索数据和该舆情监测期的起始时间之间的差值,T可以用于表示舆情情感半衰期,N可以用于表示预设数量, Q可以用于表示用户标识的数量。
从该舆情方向分析器的数据模型可以看到预设检测期内,每个用户最多有N次参与舆情分析的机会,且权重随时间递减,越接近当前时间的的搜索字段权重越大。
需要说明的是,如果不同网络用户的N条搜索字段不是在一个时期产生的,那么这些搜索字段对舆情分析结果的影响不同,因此,可以设置舆情情感半衰期T,可以认为T时间过后,用户搜索字段的情感得分会下降为最初的一半。
本申请实施例提供一种舆情分析方法,由于每条搜索数据包括用户标识、搜索时间以及搜索字段,因此,一方面,通过将每个用户标识对应的搜索字段按照搜索时间的时间间隔进行去重处理可以避免同一用户因为网络延迟、卡顿等原因在短时间内进行重复搜索造成的数据重复问题,从而提高舆情分析结果的准确率;另一方面,由于同一个用户标识对应的不同搜索字段中,越接近当前时间的搜索字段对分析结果的影响越大,因此,通过从第一搜索数据中获取第二搜索数据,并将第二搜索数据作为舆论分析模型的输入样本可以使分析结果更加准确的表现出用户的舆论方向;再一方面,由于输入样本中每个用户对应的第二搜索数据的数量都为预设数量,因此,每个用户对分析结果的权重都相同,从而可以平均每个用户对分析结果的影响,进而可以提高舆情分析结果的准确率。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的舆情分析方法,执行主体可以为舆情分析装置,或者该舆情分析装置中的用于执行舆情分析业务的控制模块。本申请实施例中以舆情分析装置执行舆情分析方法为例,说明本申请实施例提供的舆情分析装置。
需要说明的是,本申请实施例可以根据上述方法示例对舆情分析装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图4所示,本申请实施例提供的一种舆情分析装置。该舆情分析装置400可以包括获取单元401、处理单元402、确定单元403以及分析单元404。该获取单元401,可以用于获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据,每条搜索数据包括用户标识、搜索时间以及搜索字段。例如,结合图3,获取单元401可以用于执行S301。该处理单元402,可以用于分别将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,得到第一搜索数据。例如,结合图3,处理单元402可以用于执行 S302。该确定单元403,可以用于从该第一搜索数据中确定预设数量的第二搜索数据,该第二搜索数据的搜索时间晚于该第一搜索数据中除该第二搜索数据之外的其他搜索数据的搜索时间。例如,结合图3,确定单元403可以用于执行S303。该分析单元404,可以用于将所有用户标识对应的该预设数量的第二搜索数据输入到舆情分析模型得到该舆情分析主题的舆情方向。例如,结合图3,分析单元404可以用于执行S304。
可选的,上述获取单元401,具体可以用于获取预设监测期内网络用户生成的原始搜索数据,该原始搜索数据包括统一资源定位符URL;并从该URL中提取搜索字段,并将提取到的搜索字段解析为可读性搜索字段;以及根据预设关键词和该可读性搜索字段,从该原始搜索数据中获取与预设分析主题相关的多条搜索数据。
可选的,该舆情分析模型包括情感分类器和舆情方向分析器。上述分析单元404,具体可以用于将所有用户标识对应的该预设数量的第二搜索数据输入到该情感分类器得到每个第二搜索数据的情感得分;并将该每个第二搜索数据的情感得分和对应的搜索时间输入到该舆情方向分析器得到该舆情分析主题的舆情方向。
可选的,该舆情方向分析器的数据模型满足下述公式:
Figure RE-GDA0002813005390000101
其中,S用于表示舆情方向,p(u,i)用于表示第u个用户的第i条第二搜索数据的情感得分,t(u,i)用于表示第u个用户的第i条第二搜索数据和舆情监测期的起始时间之间的差值,T用于表示舆情情感半衰期,N用于表示预设数量,Q用于表示用户标识的数量。
当然,本申请实施例提供的舆情分析装置400包括但不限于上述模块。
在实际实现时,处理单元402、确定单元403以及分析单元404可以由图1所示的处理器11调用存储器12中的程序代码来实现。其具体的执行过程可参考图3所示的舆情分析方法部分的描述,这里不再赘述。
本申请实施例提供一种舆情分析装置,由于每条搜索数据包括用户标识、搜索时间以及搜索字段,因此,一方面,通过将每个用户标识对应的搜索字段按照搜索时间的时间间隔进行去重处理可以避免同一用户因为网络延迟、卡顿等原因在短时间内进行重复搜索造成的数据重复问题,从而提高舆情分析结果的准确率;另一方面,由于同一个用户标识对应的不同搜索字段中,越接近当前时间的搜索字段对分析结果的影响越大,因此,通过从第一搜索数据中获取第二搜索数据,并将第二搜索数据作为舆论分析模型的输入样本可以使分析结果更加准确的表现出用户的舆论方向;再一方面,由于输入样本中每个用户对应的第二搜索数据的数量都为预设数量,因此,每个用户对分析结果的权重都相同,从而可以平均每个用户对分析结果的影响,进而可以提高舆情分析结果的准确率。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令。当计算机执行指令在计算机上运行时,使得计算机执行如上述实施例提供的舆情分析方法中,舆情分析装置执行的各个步骤。
本申请实施例还提供一种计算机程序产品,该计算机程序产品可直接加载到存储器中,并含有软件代码,该计算机程序产品经由计算机载入并执行后能够实现上述实施例提供的舆情分析方法中,舆情分析装置执行的各个步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD)) 等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取的存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种舆情分析方法,其特征在于,包括:
获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据,每条搜索数据包括用户标识、搜索时间以及搜索字段;
分别将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,得到第一搜索数据;
从所述第一搜索数据中确定预设数量的第二搜索数据,所述第二搜索数据的搜索时间晚于所述第一搜索数据中除所述第二搜索数据之外的其他搜索数据的搜索时间;
将所有用户标识对应的所述预设数量的第二搜索数据输入到舆情分析模型得到所述舆情分析主题的舆情方向。
2.根据权利要求1所述的舆情分析方法,其特征在于,所述获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据,包括:
获取预设监测期内网络用户生成的原始搜索数据,所述原始搜索数据包括统一资源定位符URL;
从所述URL中提取搜索字段,并将提取到的搜索字段解析为可读性搜索字段;
根据预设关键词和所述可读性搜索字段,从所述原始搜索数据中获取与预设分析主题相关的多条搜索数据。
3.根据权利要求1或2所述的舆情分析方法,其特征在于,所述舆情分析模型包括情感分类器和舆情方向分析器;所述将所有用户标识对应的所述预设数量的第二搜索数据输入到舆情分析模型得到所述舆情分析主题的舆情方向包括:
将所有用户标识对应的所述预设数量的第二搜索数据输入到所述情感分类器得到每个第二搜索数据的情感得分;
将所述每个第二搜索数据的情感得分和对应的搜索时间输入到所述舆情方向分析器得到所述舆情分析主题的舆情方向。
4.根据权利要求3所述的舆情分析方法,其特征在于,所述舆情方向分析器的数据模型满足下述公式:
Figure FDA0002721297780000011
其中,S用于表示舆情方向,p(u,i)用于表示第u个用户的第i条第二搜索数据的情感得分,t(u,i)用于表示第u个用户的第i条第二搜索数据和所述舆情监测期的起始时间之间的差值,T用于表示舆情情感半衰期,N用于表示预设数量,Q用于表示用户标识的数量。
5.一种舆情分析装置,其特征在于,包括:获取单元、处理单元、确定单元以及分析单元;
所述获取单元,用于获取预设监测期内网络用户生成的与舆情分析主题相关的多条搜索数据,每条搜索数据包括用户标识、搜索时间以及搜索字段;
所述处理单元,用于分别将每个用户标识对应的搜索字段中搜索时间的时间间隔小于第一阈值的搜索字段进行去重处理,得到第一搜索数据;
所述确定单元,用于从所述第一搜索数据中确定预设数量的第二搜索数据,所述第二搜索数据的搜索时间晚于所述第一搜索数据中除所述第二搜索数据之外的其他搜索数据的搜索时间;
所述分析单元,用于将所有用户标识对应的所述预设数量的第二搜索数据输入到舆情分析模型得到所述舆情分析主题的舆情方向。
6.根据权利要求5所述的舆情分析装置,其特征在于,所述获取单元,具体用于获取预设监测期内网络用户生成的原始搜索数据,所述原始搜索数据包括统一资源定位符URL;并从所述URL中提取搜索字段,并将提取到的搜索字段解析为可读性搜索字段;以及根据预设关键词和所述可读性搜索字段,从所述原始搜索数据中获取与预设分析主题相关的多条搜索数据。
7.根据权利要求5或6所述的舆情分析装置,其特征在于,所述舆情分析模型包括情感分类器和舆情方向分析器;所述分析单元,具体用于将所有用户标识对应的所述预设数量的第二搜索数据输入到所述情感分类器得到每个第二搜索数据的情感得分;并将所述每个第二搜索数据的情感得分和对应的搜索时间输入到所述舆情方向分析器得到所述舆情分析主题的舆情方向。
8.根据权利要求7所述的舆情分析装置,其特征在于,所述舆情方向分析器的数据模型满足下述公式:
Figure FDA0002721297780000031
其中,S用于表示舆情方向,p(u,i)用于表示第u个用户的第i条第二搜索数据的情感得分,t(u,i)用于表示第u个用户的第i条第二搜索数据和所述舆情监测期的起始时间之间的差值,T用于表示舆情情感半衰期,N用于表示预设数量,Q用于表示用户标识的数量。
9.一种舆情分析装置,其特征在于,包括存储器和处理器;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过总线连接;
当所述舆情分析装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述舆情分析装置执行如权利要求1-4任一项所述的舆情分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机执行指令,当所述计算机执行指令在计算机上运行时,使得所述计算机执行如权利要求1-4任一项所述的舆情分析方法。
CN202011088645.7A 2020-10-13 2020-10-13 一种舆情分析方法及装置 Active CN112214673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011088645.7A CN112214673B (zh) 2020-10-13 2020-10-13 一种舆情分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011088645.7A CN112214673B (zh) 2020-10-13 2020-10-13 一种舆情分析方法及装置

Publications (2)

Publication Number Publication Date
CN112214673A true CN112214673A (zh) 2021-01-12
CN112214673B CN112214673B (zh) 2023-06-16

Family

ID=74053726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011088645.7A Active CN112214673B (zh) 2020-10-13 2020-10-13 一种舆情分析方法及装置

Country Status (1)

Country Link
CN (1) CN112214673B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311842A (zh) * 2021-05-07 2022-11-08 杭州海康威视数字技术股份有限公司 车流量预测模型训练和车流量预测方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008083504A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN105512281A (zh) * 2015-12-07 2016-04-20 北京奇虎科技有限公司 官网类搜索结果页的展现方法及装置
CN109597933A (zh) * 2018-11-21 2019-04-09 金色熊猫有限公司 医疗关键词精确搜索的方法、系统、设备及存储介质
CN110489653A (zh) * 2019-08-23 2019-11-22 北京金堤科技有限公司 舆情信息查询方法和装置、系统、电子设备、存储介质
CN110727785A (zh) * 2019-09-11 2020-01-24 北京奇艺世纪科技有限公司 推荐模型的训练、搜索文本的推荐方法、装置及存储介质
CN111259282A (zh) * 2020-02-13 2020-06-09 深圳市腾讯计算机系统有限公司 Url去重方法、装置、电子设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008083504A1 (en) * 2007-01-10 2008-07-17 Nick Koudas Method and system for information discovery and text analysis
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN105512281A (zh) * 2015-12-07 2016-04-20 北京奇虎科技有限公司 官网类搜索结果页的展现方法及装置
CN109597933A (zh) * 2018-11-21 2019-04-09 金色熊猫有限公司 医疗关键词精确搜索的方法、系统、设备及存储介质
CN110489653A (zh) * 2019-08-23 2019-11-22 北京金堤科技有限公司 舆情信息查询方法和装置、系统、电子设备、存储介质
CN110727785A (zh) * 2019-09-11 2020-01-24 北京奇艺世纪科技有限公司 推荐模型的训练、搜索文本的推荐方法、装置及存储介质
CN111259282A (zh) * 2020-02-13 2020-06-09 深圳市腾讯计算机系统有限公司 Url去重方法、装置、电子设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEZHI AN 等: "Design and Implementation of Network Public Opinion Monitoring and Analysis System", THE 1ST EAI INTERNATIONAL CONFERENCE ON MULTIMEDIA TECHNOLOGY AND ENHANCED LEARNING, pages 1 - 6 *
马丽 等: "地方政府网络舆情监测系统的研究与设计", 通信技术, vol. 50, no. 11, pages 2600 - 2603 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311842A (zh) * 2021-05-07 2022-11-08 杭州海康威视数字技术股份有限公司 车流量预测模型训练和车流量预测方法、装置及电子设备

Also Published As

Publication number Publication date
CN112214673B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN108121795B (zh) 用户行为预测方法及装置
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN109033200B (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN108491388B (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
CN109241451B (zh) 一种内容组合推荐方法、装置及可读存储介质
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN107808346B (zh) 一种潜在目标对象的评估方法及评估装置
CN109040329A (zh) 联系人标签的确定方法、终端设备及介质
CN110111167A (zh) 一种确定推荐对象的方法和装置
JP5435249B2 (ja) イベント分析装置、イベント分析方法、およびプログラム
CN113934941A (zh) 一种基于多维度信息的用户推荐系统及方法
CN114398521A (zh) 设备类型确定方法和获取异常设备的数据处理系统
CN112214673A (zh) 一种舆情分析方法及装置
CN113626638A (zh) 短视频推荐处理方法、装置、智能终端及存储介质
CN115641191B (zh) 一种基于数据分析的数据推送方法及ai系统
CN111882224A (zh) 对消费场景进行分类的方法和装置
KR102585283B1 (ko) 소셜 빅데이터 분석을 통한 국가별 사용자 관심 토픽 자동 구성 방법
CN111241821A (zh) 确定用户的行为特征的方法和装置
CN113312554B (zh) 用于评价推荐系统的方法及装置、电子设备和介质
CN105786929A (zh) 一种信息监测方法及装置
CN110633408A (zh) 智能商业资讯的推荐方法和系统
CN111368070B (zh) 热点事件的确定方法及装置
JP2022137569A (ja) 情報管理システム
CN109635074B (zh) 一种基于舆情信息的实体关系分析方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant