CN110555454B - 用于跟踪网络中的主题随时间的演变的方法、系统和介质 - Google Patents

用于跟踪网络中的主题随时间的演变的方法、系统和介质 Download PDF

Info

Publication number
CN110555454B
CN110555454B CN201910456877.4A CN201910456877A CN110555454B CN 110555454 B CN110555454 B CN 110555454B CN 201910456877 A CN201910456877 A CN 201910456877A CN 110555454 B CN110555454 B CN 110555454B
Authority
CN
China
Prior art keywords
time
network
time slice
nodes
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910456877.4A
Other languages
English (en)
Other versions
CN110555454A (zh
Inventor
M·E·赫兰德
E·A·雷
N·莱蒂夫
J·S·B·T·玛丽亚
K·R·瓦什奈伊
L·莱巴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110555454A publication Critical patent/CN110555454A/zh
Application granted granted Critical
Publication of CN110555454B publication Critical patent/CN110555454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种从上下文数据跟踪主题排名的演变。公开了系统、方法和计算机程序产品,其通过分析每个时间片与网络的节点相关联的媒体语料库来跟踪网络随时间的演变。可以分析媒体语料库以生成每个时间片的字簇,然后跨时间片对字簇进行比较以确定网络如何演变。可以通过确定特定时间片的每个字簇与另一时间片的每个字簇的相似性来跟踪演变。可以通过每个比较的相似性得分来测量相似性,可以组合相似性得分以确定两个时间片之间的网络的整体相似性。

Description

用于跟踪网络中的主题随时间的演变的方法、系统和介质
背景技术
本公开涉及用于基于主题与网络中的重要节点的连接来跟踪网络中的主题随时间的演变的系统和方法。
在网络上发现的各种主题的流行度可能随时间而改变。例如,诸如新闻报道、政府声明、国内或国际事件、电影、新技术或其他类似主题等主题可以随着时间的推移在网络中经历增加或减少的曝光。
发明内容
本文中描述的系统、方法和计算机程序产品提供对网络中的主题随时间的演变的跟踪。
在本公开的一个方面,公开了一种方法,其包括接收与网络相关联的时间序列数据,该时间序列数据包括在多个时间片的关于网络的数据。网络在每个时间片包括多个节点,其中在每个时间片的每个节点包括与至少一个媒体语料库相关联的属性。该方法还包括分析时间序列数据以针对每个时间片在网络中标识至少一个最重要节点,基于在每个时间片的所标识的至少一个最重要节点确定在每个时间片的网络的子网,其中子网包括网络的节点中的至少一些节点和所标识的至少一个最重要节点,分析与在每个时间片的子网中的每个节点的属性相关联的至少一个媒体语料库以确定针对该时间片的至少一个关键字簇,其中每个关键字簇包括多个关键字,将多个时间片中的第一时间片的至少一个关键字簇与多个时间片中的第二时间片的至少一个关键字簇进行比较,并且基于该比较确定第一时间片与第二时间片之间的相似性。
在本公开的各方面,还可以提供根据以上方面的装置、系统和计算机程序产品。在不脱离本公开的范围的情况下,可以组合任何上述方面。
附图说明
通过参考附图可以理解关于本公开的结构和操作的细节,附图中的相同的附图标记和名称指代相同的元素。
图1是示出根据本公开的一些方面的用于跟踪网络中的主题演变的系统的系统图。
图2是根据本公开的一些方面的网络的时间序列的图。
图3A是示出根据本公开的一些方面的网络随时间的演变的图。
图3B是示出根据本公开的一些方面的最重要子网随时间的演变的图。
图3C是示出根据本公开的一些方面的网络中的字簇随时间的演变的图。
图4是根据本公开的一些方面的时间片之间的关键字簇的演变的图。
图5是根据本公开的一些方面的示例网络的图。
图6是图5的示例网络的图,其示出了根据本公开的一些方面的最重要节点的标识。
图7是根据本公开的一些方面的两个字簇的图。
图8是根据本公开的一些方面的包括字簇到节点的链接的图5的示例网络的图。
图9是图8的示例网络的图,其示出了根据本公开的一些方面的网络中的字簇随时间的演变。
图10是根据本公开的一些方面的包括所预测的错误发生的网络的时间序列的图。
图11是本文中描述的系统、方法和计算机程序产品中涉及的过程可以在其中实现的计算机系统的示例框图。
具体实施方式
跟踪网络中的流行主题的演变可以提供对驱动这些主题的流行的潜在因素的见解。例如,针对网络上的特定主题的主题排名可以基于多种因素,包括主题中涉及的各方、谁正在共享主题、网络中呈现主题的位置、或其他类似因素。可能特别重要的一个因素是主题排名与特定节点之间的联系。
例如,主题的演变可以在动态节点网络之上建模,其可以用于通过它们与网络中的节点的固有连接来通知主题的标识和聚类。
在一些方面,例如,可以根据时间和在对应的时间片的最重要子网跟踪主题字簇。例如,可以通过使用诸如中心性、中间性、亲密度、谣言中心性、信息中心性、特征值度量、页面等级或其他类似技术等公知技术来分析网络的节点的属性来确定最重要子网。
现在参考图1,示出了用于跟踪关系网络中的主题随时间的演变的系统100。在一些方面,系统100包括计算设备110、节点A-N的网络150和媒体语料库170。节点A-N可以包括任何数目的节点。媒体语料库170可以包括任何数目的媒体语料库。
计算设备110包括至少一个处理器112、存储器114、至少一个网络接口116、显示器118、输入设备120,并且可以包括计算设备中常见的任何其他特征。在一些方面,计算设备110可以例如是与用户相关联的计算设备,其被配置为分析节点网络以跟踪网络中的主题随时间的演变。在一些方面,计算设备110可以包括例如个人计算机、膝上型计算机、平板计算机、智能设备、智能电话、智能手表或可以由用户使用的任何其他类似计算设备。在一些方面,计算设备110可以包括服务器、web服务器、服务器阵列或可以用于分析和跟踪节点网络中的主题的演变的任何其他系统。
处理器112可以包括例如微控制器、现场可编程门阵列(FPGA)或被配置为执行各种操作的任何其他处理器。处理器112可以被配置为执行如下所述的指令。这些指令可以存储在例如存储器114中。如本文中使用的,术语“处理器”可以包括单核处理器、多核处理器、位于单个设备中的多个处理器、或者彼此有线或无线通信并且分布在设备网络、因特网或云上的多个处理器。因此,如本文中使用的,由“处理器”执行或被配置为由“处理器”执行的功能、特征或指令可以包括由单核处理器对功能、特征或指令的执行,可以包括由多核处理器的多个核共同或协作地对功能、特征或指令的执行,或者可以包括由多个处理器共同或协作地对功能、特征或指令的执行,其中每个处理器或核不需要单独地执行每个功能、特征或指令。
存储器114可以包括例如易失性存储器形式的计算机可读介质或计算机可读存储介质,诸如随机存取存储器(RAM)和/或高速缓冲存储器等。存储器114可以包括例如其他可移动/不可移动、易失性/非易失性存储介质。仅作为非限制性示例,存储器114可以包括便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或前述各项的任何合适的组合。在一些方面,存储器114可以存储用于根据如下所述的主题演变来跟踪网络中的节点之间的链接和演变的专用数据结构。
网络接口116被配置为经由有线或无线连接向网络150或任何其他计算设备传输数据或信息以及从其接收数据或信息。例如,网络接口116可以利用无线技术和通信协议,诸如WIFI(例如,802.11a/b/g/n)、蜂窝网络(例如,CDMA、GSM、M2M和3G/4G/4GLTE)、近场通信系统、卫星通信、经由局域网(LAN)、经由广域网(WAN)、或允许计算设备110向网络150或节点A-N传输信息或从其接收信息的任何其他形式的通信。
显示器118可以包括被配置为向计算设备110的用户显示信息的任何显示设备。例如,在一些方面,显示器118可以包括计算机显示器、电视、智能电视或其他类似的显示器。在一些方面,显示器118可以集成到计算设备110中或与计算设备110相关联,例如,作为膝上型计算机、智能电话、智能手表或其他智能可穿戴设备的显示器,作为与计算设备110相关联的虚拟现实耳机,或者用于向用户显示信息的任何其他机构。在一些方面,显示器118可以包括例如液晶显示器(LCD)、电子纸/电子墨水显示器、有机LED(OLED)显示器或其他类似的显示技术。在一些方面,显示器118可以是触敏的,并且还可以用作输入设备120。
输入设备120可以包括例如键盘、鼠标、触敏显示器118、小键盘、麦克风或其他类似输入设备或者可以单独使用或一起使用以向用户提供与计算设备110交互的能力的任何其他输入设备。
网络150包括多个节点A-N。每个节点可以包括处理器、存储器和网络接口,其可以包括与处理器112、存储器114和网络接口116类似的功能。在一些方面,每个节点A-N可以是例如被配置为与计算设备110交互或向其提供数据的任何计算设备、服务器、或类似系统等。
媒体语料库170包括多个媒体语料库A-N。每个媒体语料库包括与特定主题相关联的媒体。例如,媒体语料库A可以包括与能源或生产主题相关的媒体,例如,与绿色、能源、太阳能、汽油、水力压裂法、钻探或其他类似主题相关的主题,媒体语料库B可以包括与金融主题相关的媒体,例如金融、抵押、小额贷款、银行、利率、信贷或其他类似主题,媒体语料库C可以包括与动物主题相关的媒体,例如大象、斑马、驼鹿、鲨鱼、马、猫或其他类似主题,媒体语料库D可以包括与大陆主题相关的媒体,包括例如非洲、亚洲、北美洲、南美洲、欧洲、南极洲或其他类似主题。在一些方面,例如,媒体可以是任何形式的媒体,包括文本、图像、视频、音频、或存储和传播可以存储在存储器中的信息的任何其他手段,例如,计算设备110的存储器、服务器150或任何其他存储器。
网络150中的每个节点可以包括一个或多个属性,每个属性与特定媒体语料库相关联。例如,节点A可以包括属性A-N,其中属性A可以与媒体语料库A相关联,属性B可以与媒体语料库B相关联,……,并且属性N可以与媒体语料库N相关联。每个节点可以包括任何数目的属性。
在一些方面,每个节点可以替代地包括与多于一个媒体语料库相关联的单个属性,例如,被称为媒体语料库的属性。例如,媒体语料库属性可以标识与节点相关联的每个媒体语料库。
在一些方面,与每个节点中包括的属性相关联的媒体语料库可以随时间改变。例如,节点A最初可以包括与媒体语料库A和B相关联的一个或多个属性。随着时间的推移,例如,媒体语料库A可能不再与节点A主动关联。节点A可以移除与文档语料库A的关联,并且改为添加与媒体语料库C的关联,该媒体语料库C具有当前在节点A上活动或趋向的主题。例如,如果包括水力压裂法的媒体语料库A在节点A上不再活动,而是诸如地震等在媒体语料库C中找到的国际事件现在在节点A上活动,则节点A可以移除与媒体语料库A的关联并且添加与媒体语料库C的关联,该媒体语料库C包括国际事件或地震。
在一些方面,网络150中包括的节点也可以随时间改变。例如,如果节点变为离线,或者不再匹配网络150的目的,则可以移除该节点。类似地,可以添加新节点。例如,在社交网络中,当新联系人被“加为朋友”时,可以将新节点添加到网络150。同样,如果联系人从“朋友”中移除,则可以移除与这些联系人相关联的节点。例如,在计算设备110的物理网络中,可以从网络中移除离线的机器,而可以向网络添加变为在线的机器。在一些方面,可以添加或移除节点之间的任何连接以改变网络。
在一些方面,网络中的每个节点可以通过边连接到另一节点。例如,可以说,具有到三个其他节点的直接连接的节点具有三个边。在一些方面,例如,网络中的离散对象(诸如联系人、机器或其他类似对象)可以变为节点,而这些对象之间的互连或关系可以变为边。
在一些方面,在每个时间片的网络150中的节点之间的特定配置和连接可以例如作为时间序列存储在专用数据结构中。例如,当网络在每个时间片演变时,专用数据结构可以跟踪节点之间的边。
现在参考图2,例如,示出了网络150的时间序列200,其表示主题的演变。例如,在时间标度202上,网络150随时间改变,例如,从网络150A,到网络150B、……、到网络150N。在一些方面,专用数据结构可以在时间序列200中的每个时间片存储和实现对网络150的特定配置和连接的跟踪。
如图3A所示,例如,示出了网络150从时间t=1到时间t=t+n的演变。例如,网络150A表示在时间t=1的网络150,网络150B表示在时间t=2的网络150,网络150C表示在时间t=3的网络150,并且网络150N表示在时间t=t+n的网络150。可以看出,在每个时间步长t,网络150中包括的节点可以演变或改变。例如,在时间t=2,网络150B示出了附加节点152已经相对于网络150A添加到网络150。同样地,在时间t=3,网络150C示出了间隙154,其中最初在时间t=1存在于网络150A中的一些节点已经被移除,而在时间t=2添加在网络150B中的节点152仍然存在。在时间t=t+n,网络150N示出了网络150中的节点之间的另一演变,其中来自网络150A的节点156和158仍然存在,在时间t=2添加的节点152仍然存在,但是已经添加了新节点160,这些新节点160替换在时间t=3处移除的那些节点。从网络表示150A-150N可以看出,网络150中包括的节点随时间改变或演变。例如,可以向网络添加节点和从网络中移除节点,可以添加或移除节点之间的连接,或者可以随时间发生对网络的其他类似改变。在一些方面,专用数据结构可以存储和实现对网络表示150A-150N的特定配置和连接的跟踪。
继续参考图3B,可以基于在每个时间t的网络150的状态来标识在每个时间t的网络150中的最重要节点子网。例如,可以使用包括例如分段等级、中心性、中间性、亲密度、谣言中心性、信息中心性、特征值度量和页面等级的方法来标识一个或多个最重要节点。
在一些方面,例如,网络150的节点和边可以用作输入以确定网络150中的一个或多个最重要节点。例如,第一节点可以具有连接到其他节点的一个或多个边。这种类型的连接可以被称为第一级连接,其中例如,连接的节点可以被认为是关于第一节点的第一级节点。每个第一级节点还可以具有连接到其他节点的一个或多个边。这些连接可以被称为第二级连接,其中例如,连接的节点可以被认为是关于第一节点的第二级节点。还可以存在更多级连接或节点。
使用中心性方法作为示例,可以将具有最大数目的边的一个或多个节点确定为一个或多个最重要节点。在一些方面,可以将具有高于预定量的数目的边的节点确定为最重要节点。
在一些方面,可以检查节点的连接(例如,第一级、第二级、第三级或任何其他级别)以确定哪些节点具有最大数目的连接、低于特定级别(例如,第二级)的最大数目的连接。该确定可以用于标识哪些节点是网络的“中心”,例如,一个或多个最重要节点不仅基于它们的直接边连接而且基于这些直接连接的连接,例如第二级连接。
在一些方面,网络150中的一个或多个最重要节点也可以或替代地基于针对多于一个时间片的网络150的组合分析来确定。例如,可以执行每个时间片t=1、t=2、......、t=t+n的组合分析。例如,如上所述,可以利用上述技术来确定哪些节点是所有时间片上、时间片的组或子集上、或单个时间片上的网络150中的最重要节点,如上所述。
在一些方面,对在时间片t的网络150中的节点进行分析以标识一个或多个最重要节点可以输出针对每个节点的得分。例如,使用中心性技术作为示例,所输出的节点的得分可以表示中心性程度,例如,接触节点的边的数目。然后可以比较网络150中的节点的得分以确定一个或多个最重要节点。例如,具有最高得分的一个或多个节点可以被认为是一个或多个最重要节点。在一些方面,得分高于预定阈值的节点可以被认为是最重要节点。根据所使用的特定技术,还可以输出其他类型的得分。例如,节点可以是关于其他或附加标准的得分,包括例如活动用户的数目、活动或最近帖子的数目、或其他类似标准。
一旦标识出一个或多个最重要节点,就可以标识与一个或多个最重要节点相关联的节点的子网以用于确定网络的演变。例如,连接到一个或多个最重要节点的节点可以被包括在最重要子网中。在一些方面,作为一个或多个最重要节点的第一、第二或任何其他级别连接的那些节点可以被包括在最重要子网中。
作为示例,可以将在时间t=1的最重要子网170A标识为包括在网络150A中找到的节点的子集,可以将在时间t=2的最重要子网170B标识为包括在网络150B中找到的节点的子集,可以将在时间t=3的最重要子网170C标识为包括在网络150C中找到的节点的子集,并且可以将在时间t=t+n的最重要子网170N标识为包括在网络150N中找到的节点的子集。在一些方面,专用数据结构可以存储和实现对最重要子网的特定配置和连接的跟踪。
利用在每个时间t标识的最重要子网,可以挖掘最重要子网的节点的关键字和簇。例如,在每个时间窗口t,可以分析与仅最重要子网中的节点的属性相关联的媒体语料库以使用诸如字/部分嵌入、频率加权、无监督聚类、自然语言处理或其他类似技术等技术来标识字/主题簇。在一些方面,例如,可以针对特定节点单独地挖掘和分析与该节点相关联的媒体语料库或媒体语料库组以确定该节点的一个或多个字/主题簇。在一些方面,例如,可以共同挖掘和分析与最重要子网中的所有节点相关联的媒体语料库以标识与子集中的多个节点相关联的字/主题簇。
每个标识的字/主题簇可以基于属性和相关联的媒体语料库链接到从其标识出它的节点,例如如图3C所示。例如,可以使用诸如组相似性、语义重叠或任何其他类似技术等技术将所标识的字/主题簇与在每个节点的属性和相关联的媒体语料库中找到的字或主题进行比较。在一些方面,这些技术中的一些或全部可以在比较中组合或一起使用。
作为示例,现在参考图3C,在时间t=1的最重要子网190A可以包括字簇192A-C和链接节点194A-E。例如,基于比较,字簇192A可以链接到节点194A和194B,字簇192B可以链接到节点194C,并且字簇192C可以链接到节点194D和194E。
例如,在时间t=2,最重要子网190B可以包括字簇192A、192B和新的字簇192D,而字簇192C可以不再存在。如在最重要子网190B中所见,字簇192A不再链接到节点194A和194B,而是现在链接到节点194C,字簇192B仍然链接到节点194C,并且新的字簇192D链接到新的节点194F。最重要子网190B示出了最重要子网中的节点的演变以及字簇及其链接的节点如何随时间改变。
例如,在时间t=3,最重要子网190C可以包括字簇192A和192D,而字簇192B可以不再存在。如在最重要子网190C中所见,字簇192A不再链接到节点194C,而是现在链接到节点194F并且再次链接到节点194A。字簇192D链接到节点194B并且不再链接到节点194F。最重要子网190C进一步示出了最重要子网中的节点的演变以及字簇及其链接的节点如何随时间改变,例如,通过在稍后时间段解除链接和重新链接到节点,如字簇192A所示,字簇192A在时间t=2与节点194A解除链接,并且在时间t=3重新连接到节点194A。
例如,在时间t=t+n,最重要子网190N可以包括字簇192A、192B、192D和新的字簇192E。如在最重要子网190N中所见,字簇192A仍然链接到节点194F,但现在链接到新的节点194G。字簇192B再次被标识并且链接到节点194F。字簇192D仍然链接到节点194B,并且新的字簇192E链接到节点194G。最重要子网190N进一步说明了最重要子网中节点的演变以及字簇和链接到它们的那些节点如何随时间改变。例如,取决于节点与媒体语料库之间的关联如何在网络中改变,字簇可以在网络中随时间保持相同,被添加,被移除,以及被修改。同样地,取决于节点与媒体语料库之间的关联如何在网络中改变,字簇与节点之间的链接可以在网络随时间保持相同,被添加,以及被移除。
除了通过将字簇术语与最重要子网中的每个节点的属性和相关联的媒体语料库的字/术语进行比较来将字簇链接到节点之外,还可以确定比较的强度并且可以将其用于通过检查后续时间片中的字簇来跟踪时间片之间的关键字和字簇的演变。例如,可以计算时间片中的每个簇与所有其他时间片中的每个簇之间的相似性得分。可以基于相似性得分的值对时间片之间的演变类型进行分类。例如,可以使用诸如字符串匹配、字和簇级别的语义匹配、词汇关系图中的字之间的最短路径(例如,普林斯顿大学的WordNetTM)等技术、使用节点到字簇关系、或使用其他类似技术来确定相似性得分。可以对每个时间窗口中的每个字簇执行比较。
在一些方面,专用数据结构可以存储和实现对字簇与节点之间的特定配置和连接的跟踪。
现在参考图4,每个字簇可以包括可以如上所述标识的并且可以用作字簇的一部分的相关联的术语或关键字。例如,在时间t=0,字簇402可以包括关键字“绿色”、“能源”、“太阳能”、“汽油”、“水力压裂法”和“钻探”,字簇404可以包括关键字“金融”、“抵押”、“小额贷款”、“银行”、“利率”和“信贷”,字簇406可以包括关键字“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”,并且字簇408可以包括关键字“非洲”、“亚洲”、“北美洲”、“南美洲”、“欧洲”和“南极洲”。
随着每个字簇中包括的关键字随时间变化,这些变化可以接收相似性得分以确定网络中的主题随时间的演变。例如,在一些方面,可以将特定时间片中的每个字簇与在每个其他时间片中找到的字簇进行比较以确定在该字簇中找到的关键字如何随时间在网络中演变。在一些方面,例如,可以基于相似性得分针对每个字簇按照关键字的演变类型来对变化进行分类。如图4所示,非限制性示例演变类型可以包括“合并”、“相同”、“消失”、“拆分”、“再现”、“相似”和“新的”。可以使用任何其他类型。注意,虽然本文中提到的相似性得分可以具有从0.0到1.0的值,但是也可以或替代地使用用于对值或比较进行评分或评级的任何其他度量。
如图4所示,“合并”演变类型可以涉及将来自两个或更多个字簇的关键字组合成单个字簇。“合并”类型演变的得分可以基于合并成新字簇的关键字的数目。例如,在时间t=1,字簇410中包括的关键字是来自在时间t=0的字簇402的关键字“绿色”、“能源”和“太阳能”与来自在时间t=0的字簇404的关键字“金融”、“信贷”和“利率”的合并。由于每个“合并”仅包括来自每个源的关键字的总数目的一半,因此在这种情况下的针对每个“合并”的相似性得分为0.5。注意,例如,如果在时间t=1将关键字“风”而不是“太阳能”添加到字簇410,则来自时间t=0的字簇402的“合并”演变的相似性得分可以减小到例如0.33,因为在时间t=0在任何字簇402、404、406或408中不存在“风”。
继续参考图4,“相同”演变类型可以涉及在两个时间段中具有相同关键字的字簇。针对“相同”类型演变的相似性得分等于1.0,因为没有对字簇的关键字进行任何改变。例如,在时间t=1的字簇412中包括的关键字与在时间t=0的字簇404中包括的关键字相同。
继续参考图4,“消失”演变类型可以涉及其中在特定时间段的字簇中找到的关键字不再存在于在另一较晚时间段的任何字簇中的情况。针对“消失”类型演变的相似性得分等于0.0,因为关键字没有被转移到新时间段中的任何字簇。例如,在时间t=0的字簇406包括“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”。在时间t=1,没有字簇包括在字簇406中找到的原始关键字“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”。例如,这可以表示,在时间t=0的字簇406中找到的关键字(例如“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”)在时间t=1不再是趋势或流行。由于关键字“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”在时间t=1消失,因此发生了相似度得分为0.0的“消失”类型演变。
继续参考图4,“拆分”演变类型可以涉及在特定时间段的字簇中找到的一些关键字现在存在于在另一稍后时间段的两个或更多个其他字簇中的情况。针对“拆分”类型演变的相似性得分可以等于在新时间段中被拆分为两个或更多个其他字簇的关键字的比例。在一些方面,相似性得分可以向下舍入或向上舍入,使得相似性得分保持特定精度,例如,一个小数位、两个小数位或任何数目的小数位。例如,在时间t=1的字簇414包括“口红”、“眼影”、“洗面奶”、“睫毛膏”、“眼线笔”和“唇彩”。在时间t=2,字簇418包括来自时间t=1的字簇414的“眼影”、“睫毛膏”、“眼线笔”、以及新的关键字“睫毛夹”、“胸垫”和“高光”。在时间t=2,字簇420现在包括来自时间t=1的字簇414的“口红”和“唇彩”、以及新的关键字“唇线笔”、“妆前乳”、“唇膏”和“唇部磨砂膏”。因此,来自时间t=1的字簇414已经在“拆分”类型演变中在字簇418和420之间被部分地拆分。从在时间t=1的字簇414到在时间t=2的字簇418的拆分接收相似性得分0.5,因为来自在时间t=1的字簇414的关键字的一半(六个中的三个)已经被包括在时间t=2的字簇418中。从在时间t=1的节点414到在时间t=2的字簇420的拆分接收相似性得分0.4,因为来自在时间t=1的字簇414的六个关键字中的两个已经被包括在时间t=2的字簇420中。例如,相似性得分0.4可以从0.33向上舍入。在一些方面,可以使用非舍入的相似性得分。
继续参考图4,“再现”演变类型可以涉及在特定时间段的字簇中找到的关键字在相邻或后续时间段内消失并且在稍后时间段的字簇中再现的情况。针对“再现”类型演变的相似性得分等于消失之后再现的关键字的比例。例如,在时间t=0的字簇406包括关键字“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”。在时间t=1,网络的任何字簇中都不包括关键字“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”。然而,在时间t=2,字簇422包括关键字“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”。因此,这些关键字在时间t=2在网络中再现。由于“大象”、“斑马”、“驼鹿”、“鲨鱼”、“马”和“猫”中的每个都在时间t=2的字簇422中再现,所以可以分配得分1.0。如果再现较少的关键字,则可以降低得分。例如,如果仅再现一半关键字,则得分可以为0.5。
继续参考图4,“相似”演变类型可以涉及从一个时间段到另一时间段部分地保留针对字簇的关键字。针对“相似”类型演变的得分可以基于在字簇中保留的关键字的数目。例如,在时间t=0,字簇408中包括的关键字是“非洲”、“亚洲”、“北美洲”、“南美洲”、“欧洲”和“南极洲”。在时间t=1,字簇416包括“非洲”、“南美洲”、“亚洲”、“发展中”、“小额贷款”和“旅游”。由于在时间t=1的字簇416中包括“非洲”、“南美”和“亚洲”,所以在时间t=0的字簇408与时间t的字簇416之间出现“相似”演变类型。得分可以基于已经保留在网络的字簇中的关键字的比例。例如,保留了六个关键字中的三个,因此这种“相似”演变类型的得分可以为0.5。
继续参考图4,“新的”演变类型可以涉及在新时间段中的字簇中引入不存在于在前一段时间中的网络中的字簇中的全新关键字集合。在一些方面,“新的”演变类型可以仅在新引入的关键字未出现在针对任何先前时间段的网络的字簇中时发生。针对“新的”类型演变的得分为0.0,表示这些关键字是全新的,并且不随时间趋势。作为示例,在时间t=1,节点416中包括的关键字是“非洲”、“南美洲”、“亚洲”、“发展中”、“小额贷款”和“旅游”。在时间t=2,字簇424包括不存在于任何先前时间段中的字簇416或任何其他字簇中的全新的关键字“鼠标”、“计算机”、“键盘”、“显示器”、“扬声器”和“电源”。因此,发生了“新的”演变类型,并且其被分配得分0.0。
在一些方面,关键字簇之间的关键字的比较可以包括直接关键字与关键字比较,例如,如果在时间t=0的字簇402包括关键字“绿色”,并且在时间t=1的字簇之一也包括字“绿色”,则在字簇之间存在相似性。在一些方面,可以使用语义匹配,其中例如,彼此关联或具有相似含义的关键字可以被认为是匹配的,例如,关键字“绿色”和“蓝绿色”可以在语义上被认为是绿色并且因此可以被认为是匹配的。在一些情况下,语义比较可以基于对在媒体语料库中使用关键字的上下文的分析。例如,基于对使用关键字“绿色”的上下文的分析,关于绿色技术(例如,风电场和太阳能)的关键字“绿色”将不会在语义上与其他“绿色”颜色匹配。
在一些方面,可以聚合每对时间片之间的针对每种类型的演变而确定的相似性得分以形成组合相似性得分。例如,时间片t=0和时间片t=1之间的相似性得分可以是以下各项的聚合:在时间t=0的字簇402与在时间t=1的字簇402之间的合并得分0.5、在时间t=0的字簇404与在时间t=1的字簇402之间的合并得分0.5、在时间t=0的字簇406与在时间t=1的字簇406之间的消失得分0.0、以及在时间t=0的字簇408与在时间t=1的字簇408之间的相似性得分0.5。例如,时间t=0和t=1之间的演变的组合相似性得分可以为2.5。
作为另一示例,时间片t=1与时间片t=2之间的相似性得分可以是以下各项的聚合:在时间t=1的字簇406与在时间t=2的字簇402之间的分割得分0.5、在时间t=1的字簇406与在时间t=2的字簇404之间的分割得分0.4、在时间t=0的字簇406与在时间t=2的字簇406之间的再现得分0.0、以及在时间t=1的字簇408与在时间t=2的字簇408之间的新的得分0.0。例如,针对时间t=1和t=2之间的演变的组合相似性得分可以为1.9。
在一些方面,可以分析每个时间片t之间的演变的组合相似性得分以预测未来演变并且确定网络中的趋势。例如,如果组合相似性得分指示网络正在演变,则可以标识新的或新出现的主题或字簇并且将其提供给产品开发团队以设计与趋势主题相匹配的新产品。
在另一方面,例如,可以使用上述主题演变分析来监测在网络上执行的网络或应用以确定网络中是否发生了指示网络中的潜在安全漏洞或其他问题的变化,例如,通过分析组合相似性得分以确定网络的重要部分已经演变。响应于这样的确定,可以触发警报或校正动作以抵消演变或隔离潜在安全漏洞或受潜在安全漏洞影响的节点,从而提高计算机安全性。
在一些方面,专用数据结构可以存储和实现对在每个时间片的字簇的改变及其对应连接的跟踪。
现在参考图5,示出了示例网络500。示例网络500包括服务502和托管服务502的机器504。例如,机器504可以托管服务,例如打印服务、网络服务、数据存储和检索服务、微服务或由网络执行的任何其他服务。机器504可以被认为是网络500的节点。例如,网络500可以包括上面关于网络150(图1)描述的一些或所有特征,并且服务502和机器504可以包括上面关于节点A-N(图1)描述的一些或所有特征。
在示例网络500中,复杂应用部署在多个机器上。该应用包括多个服务,服务可以包括多个实例。网络500可以是托管一个或多个服务502的机器504的异构网络。每个机器可以生成日志文件作为媒体语料库,并且可以包括相关联的属性。在该示例中,可以分析由机器生成的日志文件以标识在任何给定时间点或在将来时间的最重要的机器。可以使用对最重要机器的标识,例如,用于规划针对网络上的机器的维护计划,规划网络的未来使用容量,确定是否正在发生分布式拒绝服务(DDOS)或其他攻击,或者其他类似用途。
现在参考图6,可以基于在机器日志中找到的特定数据来标识网络500中的一个或多个最重要机器506。例如,可以使用任何上述方法分析针对每个机器的机器日志以标识一个或多个最重要机器。在该示例中,一个或多个最重要机器可以被标识为具有最多错误、将导致系统中的鲁棒性的最大降低、或者基于日志文件中的数据影响网络500的其他类似特征的机器。例如,机器506可以被标识为网络500中的最重要机器,因为由于在与该机器相关联的日志文件中发现的错误而对维护所有服务最不利。在一些方面,机器506可以基于其对其他节点的中心性被标识为网络500中最重要机器,例如,机器506具有最多的第一和第二级连接。
在一些方面,可以标识与一个或多个最重要机器相关联的机器204的子网。例如,子网可以包括具有到一个或多个最重要机器的第一或第二级连接的那些机器、执行与一个或多个最重要机器相同的服务502的那些机器、或其他类似的关联。
现在参考图7,可以如上所述分析来自一个或多个最重要机器(在这种情况下为机器506)的日志文件以检测主题和关键字簇。例如,分析可以标识包括关键字“错误”、“核心转储”和“无效”的主题或关键字簇508。分析还可以标识包括关键字“服务1”、“登录”和“多用户”的主题或关键字簇510。在一些方面,还可以基于在与最重要机器506相关联的机器的所标识的子网中找到的机器的分析来标识主题或关键字簇508和510,例如,具有与一个或多个最重要机器的第一或第二级别连接的那些机器、执行与一个或多个最重要机器相同的服务502的那些机器、或其他类似机器。
现在参考图8,分析机器504的所标识的子网的日志文件以确定是否存在在任何所标识的主题或关键字簇508和510中找到的关键字。如上所述,也可以使用语义匹配来标识类似的关键字。包括所标识的主题或字簇508或510的任何机器504可以链接到匹配的主题或字簇508或510。例如,如图8所示,簇508仅链接到最重要机器506,而簇510链接到最重要机器506和附加机器504A、504B和504C。链接到簇508和510的任何机器可以是可以表现出与最重要机器506类似的行为的机器,例如,在未来的时间段中。例如,这些机器可以正在执行与最重要机器506相同的一些或全部任务。由于最重要机器506表现出可能影响网络500的错误症状,所以还可以跟踪链接到簇508和510的这些其他机器(例如,机器504A、504B和504C)的类似的错误问题。例如,将簇508和510中的一者或两者链接到最重要(例如,容易出错)机器506和附加机器504A-C两者可以是这些机器上的未来异常行为的早期预测。机器504A-C上的一个或两个相同簇的存在可以指示机器504A-C中的一个或多个可能在将来失败或引起与机器506相同的错误。
由于这些簇根据定时器序列中的时间被映射,因此可以使用导致一组错误的行为的诊断来预测其他机器的未来退化。例如,如图9所示,可以跟踪字簇和网络500的演变以确定哪些机器参与异常行为。
现在参考图10,随着网络500中的每个机器504的日志文件和相关联的属性随时间演变,可以使用字聚类和一个或多个最重要机器的标识来跟踪和表征异常行为。这使得预测误差模型能够用于预测网络500中的未来错误发生。例如,可以预测未来错误发生512,如图10所示,并且可以采取校正动作以避免或减轻错误,从而提高网络的可靠性。
例如,在一些方面,可以进行服务调用以服务于正在引起或可能在将来引起异常行为的机器。在一些方面,可以向服务人员提供关于网络中的字簇的演变的数据以帮助诊断和处理错误。在一些方面,系统可以自动采取校正动作,例如,系统可以重新启动,重新安装或替换软件包,重新安装或更新固件,或者对表现出或被预测会表现出异常行为的机器504采取其他类似动作。以这种方式,可以避免网络的一些或所有潜在故障。
通过以上述方式跟踪主题的演变,可以增加演变跟踪的质量,因为可以找到或得到概念中的附加关系和替代。例如,实现在图2-4所示的时间序列图中找到的特定配置和连接的存储和跟踪的专用数据结构可以用于有效地跟踪主题随时间的演变。
图11示出了可以实现在本文中在本公开的一个实施例中描述的系统100、计算设备110、网络150、系统、方法和计算机程序产品的任何部分的示例计算机或处理系统的示意图。计算机系统仅是合适的处理系统的一个示例,并不旨在对本文中描述的方法的实施例的使用范围或功能提出任何限制。所示的处理系统可以与很多其他通用或专用计算系统环境或配置一起操作。可以适用于处理系统的众所周知的计算系统、环境和/或配置的示例可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持设备或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统、以及包括任何上述系统或设备等的分布式云计算环境。
计算机系统可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。通常,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统可以在分布式云计算环境中实现,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
计算机系统的组件可以包括但不限于一个或多个处理器或处理单元12、系统存储器16、以及将包括系统存储器16的各种系统组件耦合到处理器12的总线14。处理器12可以包括执行本文中描述的方法的软件模块10。模块10可以被编程到处理器12的集成电路中,或者从存储器16、存储设备18或网络24或其组合加载。
总线14可以表示几种类型的总线结构中的任何一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任何一种的处理器或本地总线。作为示例而非限制,这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。
计算机系统可以包括各种计算机系统可读介质。这样的介质可以是计算机系统可访问的任何可用介质,并且可以包括易失性和非易失性介质、可移动和不可移动介质。
系统存储器16可以包括诸如随机存取存储器(RAM)和/或高速缓冲存储器等易失性存储器形式的计算机系统可读介质。计算机系统还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例,可以提供存储系统18以用于从不可移动的非易失性磁介质(例如,“硬盘驱动器”)读取和写入。尽管未示出,但是可以提供用于读取和写入可移动的非易失性磁盘(例如,“软盘”)的磁盘驱动器以及用于读取或写入诸如CD-ROM、DVD-ROM或其他光学介质等可移动的非易失性光盘的光盘驱动器。在这种情况下,每个都可以通过一个或多个数据媒体接口连接到总线14。
计算机系统还可以与以下各项通信:一个或多个外部设备26,诸如键盘、指示设备、显示器28等;使得用户能够与计算机系统交互的一个或多个设备;和/或使得计算机系统能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口20进行。
此外,计算机系统还可以经由网络适配器22与一个或多个网络24通信,诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网)。如图所示,网络适配器22经由总线14与计算机系统的其他组件通信。应当理解,尽管未示出,但是其他硬件和/或软件组件可以与计算机系统结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据存档存储系统等。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
尽管已经描述了本发明的特定实施例,但是本领域技术人员将理解,存在等同于所描述的实施例的其他实施例。因此,应当理解,本发明不受具体示出的实施例的限制,而是仅受所附权利要求的范围的限制。

Claims (10)

1.一种由至少一个硬件处理器实现的用于跟踪网络中的主题随时间的演变的方法,包括:
接收与网络相关联的时间序列数据,所述时间序列数据包括在多个时间片的关于所述网络的数据,所述网络在每个时间片包括多个节点,在每个时间片的每个节点包括与至少一个媒体语料库相关联的属性,其中,所述网络中的节点和连接所述网络内的节点的边随时间变化,每个节点可以包括与多于一个媒体语料库相关联的单个属性,其中,与节点的属性相关联的所述多于一个媒体语料库随着时间改变,其中,能够从节点的属性中删除所述至少一个媒体语料库,并且能够将媒体语料库中的另一个添加到节点的属性;
分析所述时间序列数据以针对每个时间片在所述网络中标识至少一个最重要节点,该至少一个重要节点被识别为具有至少在一个时间片连接到其他节点的最大数量的边;
基于在每个时间片的所标识的所述至少一个最重要节点确定在每个时间片的所述网络的子网,所述子网包括所述网络的所述节点中的至少一些节点和所标识的所述至少一个最重要节点;
分析与在每个时间片的所述子网中的每个节点的所述属性相关联的所述至少一个媒体语料库以确定针对所述时间片的至少一个关键字簇,每个关键字簇包括多个关键字;
将所述多个时间片中的第一时间片的所述至少一个关键字簇与所述多个时间片中的第二时间片的所述至少一个关键字簇进行比较,并且确定所述比较的强度并将其用于通过检查后续时间片中的字簇来跟踪时间片之间的关键字和字簇的演变;以及
基于所述比较确定所述第一时间片与所述第二时间片之间的相似性,其中,基于相似性得分通过每个词簇的关键词的进化类型来分类关键词如何随时间变化,其中进化类型包括合并、相同、消失、拆分、再现、相似和新的;
将针对所述多个时间片中的时间片的所述至少一个关键字簇链接到在所述时间片的所述子网中被包括的所述节点中的至少一个节点,所述链接基于针对所述时间片的所述至少一个关键字簇中的所述多个关键字被包括在所述媒体语料库中,所述媒体语料库与在所述时间片的所述子网中被包括的所述节点中的所述至少一个节点的所述属性相关联;
其中所述至少一个关键字簇到所述节点的所述至少之一之间的链接随着时间而改变,其中所述至少一个关键字簇能够从所述多个节点中的所述至少之一解除链接,并且在另一时间片中链接到所述多个节点中的另一个。
2.根据权利要求1所述的方法,其中确定所述第一时间片与所述第二时间片之间的所述相似性包括确定所述第一时间片的每个字簇与所述第二时间片的每个字簇之间的相似性得分。
3.根据权利要求2所述的方法,还包括将所确定的所述相似性得分聚合在一起以确定所述第一时间片与所述第二时间片之间的所述相似性。
4.根据权利要求2所述的方法,其中确定所述第一时间片的每个字簇与所述第二时间片的每个字簇之间的所述相似性得分包括确定每个字簇中被包括的所述多个关键字是否匹配。
5.根据权利要求4所述的方法,其中确定每个字簇中被包括的所述多个关键字是否匹配是基于语义匹配的。
6. 根据权利要求1所述的方法,还包括:
基于所述第一时间片与所述第二时间片之间的所确定的所述相似性来确定需要校正动作;以及
响应于确定需要校正动作,对所述网络采取校正动作。
7.根据权利要求1所述的方法,其中分析所述时间序列数据以针对每个时间片标识所述网络中的至少一个最重要节点包括使用分段等级、中心性、中间性、亲密度、谣言中心性、信息中心性、特征值度量和页面等级中的至少一个来分析所述时间序列数据。
8.根据权利要求1所述的方法,其中分析与在每个时间片的所述子网中的每个节点的所述属性相关联的所述至少一个媒体语料库以确定针对所述时间片的所述至少一个关键字簇包括使用字或部分嵌入、频率加权、自然语言处理和无监督聚类中的至少一个来分析所述至少一个媒体语料库。
9.一种用于跟踪网络中的主题随时间的演变的计算机可读存储介质,其包括指令,所述指令在由包括硬件的至少一个处理器执行时将所述至少一个处理器配置为执行根据权利要求1至8中任一项所述的方法。
10.一种用于跟踪网络中的主题随时间的演变的系统,包括至少一个处理器,所述至少一个处理器包括硬件,所述至少一个处理器被配置为执行根据权利要求1至8中任一项所述的方法。
CN201910456877.4A 2018-06-01 2019-05-29 用于跟踪网络中的主题随时间的演变的方法、系统和介质 Active CN110555454B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/995,653 US11244013B2 (en) 2018-06-01 2018-06-01 Tracking the evolution of topic rankings from contextual data
US15/995,653 2018-06-01

Publications (2)

Publication Number Publication Date
CN110555454A CN110555454A (zh) 2019-12-10
CN110555454B true CN110555454B (zh) 2023-07-25

Family

ID=68693999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910456877.4A Active CN110555454B (zh) 2018-06-01 2019-05-29 用于跟踪网络中的主题随时间的演变的方法、系统和介质

Country Status (2)

Country Link
US (1) US11244013B2 (zh)
CN (1) CN110555454B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159115A (zh) * 2019-12-27 2020-05-15 深信服科技股份有限公司 相似文件检测方法、装置、设备及存储介质
US11868729B2 (en) 2020-12-29 2024-01-09 International Business Machines Corporation Analyzing and explaining a temporal evolution of policies and suggesting next steps
US11470490B1 (en) 2021-05-17 2022-10-11 T-Mobile Usa, Inc. Determining performance of a wireless telecommunication network

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
CN102884530A (zh) * 2010-05-16 2013-01-16 捷通国际有限公司 用于包括冲击分析和影响跟踪的数据收集、跟踪和分析
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US7076483B2 (en) * 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US7295967B2 (en) 2002-06-03 2007-11-13 Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University System and method of analyzing text using dynamic centering resonance analysis
JP4363868B2 (ja) * 2002-08-23 2009-11-11 株式会社東芝 検索キーワード分析プログラム及びシステム並びに方法
US20050160107A1 (en) * 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
EP2487599A1 (en) * 2004-05-04 2012-08-15 Boston Consulting Group, Inc. Method and apparatus for selecting, analyzing and visualizing related database records as a network
US7853485B2 (en) * 2005-11-22 2010-12-14 Nec Laboratories America, Inc. Methods and systems for utilizing content, dynamic patterns, and/or relational information for data analysis
WO2007100834A2 (en) * 2006-02-27 2007-09-07 The Regents Of The University Of California Graph querying, graph motif mining and the discovery of clusters
JP4550074B2 (ja) * 2007-01-23 2010-09-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 不均質な情報源からの情報トラッキングのためのシステム、方法およびコンピュータ実行可能プログラム
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP2009080624A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 情報表示装置、方法及びプログラム
WO2009134462A2 (en) * 2008-01-14 2009-11-05 Aptima, Inc. Method and system to predict the likelihood of topics
GB2463515A (en) * 2008-04-23 2010-03-24 British Telecomm Classification of online posts using keyword clusters derived from existing posts
JP5226401B2 (ja) * 2008-06-25 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書データの検索を支援する装置及び方法
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8630966B2 (en) * 2009-01-27 2014-01-14 Salk Institute For Biological Studies Temporally dynamic artificial neural networks
US8539359B2 (en) * 2009-02-11 2013-09-17 Jeffrey A. Rapaport Social network driven indexing system for instantly clustering people with concurrent focus on same topic into on-topic chat rooms and/or for generating on-topic search results tailored to user preferences regarding topic
US8744978B2 (en) * 2009-07-21 2014-06-03 Yahoo! Inc. Presenting search results based on user-customizable criteria
US8204988B2 (en) * 2009-09-02 2012-06-19 International Business Machines Corporation Content-based and time-evolving social network analysis
US20130232263A1 (en) * 2009-12-18 2013-09-05 Morningside Analytics System and method for classifying a contagious phenomenon propagating on a network
US9378202B2 (en) 2010-03-26 2016-06-28 Virtuoz Sa Semantic clustering
US9177346B2 (en) * 2010-07-01 2015-11-03 Facebook, Inc. Facilitating interaction among users of a social network
US20120016948A1 (en) * 2010-07-15 2012-01-19 Avaya Inc. Social network activity monitoring and automated reaction
US20120042263A1 (en) * 2010-08-10 2012-02-16 Seymour Rapaport Social-topical adaptive networking (stan) system allowing for cooperative inter-coupling with external social networking systems and other content sources
WO2012090017A1 (en) * 2010-12-30 2012-07-05 Telefonaktiebolaget L M Ericsson (Publ) Method of building a geo-tree
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
US9773283B2 (en) 2011-06-24 2017-09-26 Facebook, Inc. Inferring topics from social networking system communications using social context
CN104040544B (zh) * 2011-11-15 2018-06-26 起元科技有限公司 基于变体标记网络的数据分群
US8909643B2 (en) 2011-12-09 2014-12-09 International Business Machines Corporation Inferring emerging and evolving topics in streaming text
US9183293B2 (en) 2011-12-13 2015-11-10 Xerox Corpoation Systems and methods for scalable topic detection in social media
WO2013170344A1 (en) * 2012-05-15 2013-11-21 Whyz Technologies Limited Method and system relating to sentiment analysis of electronic content
CN102937960B (zh) * 2012-09-06 2015-06-17 北京邮电大学 突发事件热点话题的识别与评估装置
US8862662B2 (en) * 2012-10-29 2014-10-14 The Boeing Company Determination of latent interactions in social networks
US9355170B2 (en) * 2012-11-27 2016-05-31 Hewlett Packard Enterprise Development Lp Causal topic miner
JP5964450B2 (ja) * 2012-11-29 2016-08-03 株式会社日立製作所 ネットワークグラフ生成方法及び意思決定支援システム
TWI501097B (zh) * 2012-12-22 2015-09-21 Ind Tech Res Inst 文字串流訊息分析系統和方法
US9836551B2 (en) * 2013-01-08 2017-12-05 International Business Machines Corporation GUI for viewing and manipulating connected tag clouds
US9552399B1 (en) * 2013-03-08 2017-01-24 Blab, Inc. Displaying information about distributed group discussions
US20140297737A1 (en) 2013-03-26 2014-10-02 International Business Machines Corporation Profiling social trendsetters
US10642891B2 (en) * 2013-04-12 2020-05-05 Avigilon Fortress Corporation Graph matching by sub-graph grouping and indexing
CN104199974A (zh) 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
US20150120717A1 (en) * 2013-10-25 2015-04-30 Marketwire L.P. Systems and methods for determining influencers in a social data network and ranking data objects based on influencers
US10013402B2 (en) * 2013-11-08 2018-07-03 Oath Inc. Media forums for managing mobile generated user content and associations to articles
US9450771B2 (en) * 2013-11-20 2016-09-20 Blab, Inc. Determining information inter-relationships from distributed group discussions
US9990404B2 (en) * 2014-01-30 2018-06-05 Microsoft Technology Licensing, Llc System and method for identifying trending topics in a social network
US9984109B2 (en) * 2014-03-19 2018-05-29 International Business Machines Corporation Evolution aware clustering of streaming graphs
US9871758B2 (en) * 2014-03-27 2018-01-16 International Business Machines Corporation User recommendations in a social media network
MY184201A (en) 2014-05-19 2021-03-25 Mimos Berhad A system and method for analyzing concept evolution using network analysis
CN105095319B (zh) * 2014-05-23 2019-04-19 邓寅生 基于时间序列化的文档的标识、关联、搜索及展现的系统
US9613371B2 (en) * 2014-09-02 2017-04-04 Wal-Mart Stores, Inc. Dynamic taxonomy generation with demand-based product groups
CN104598549B (zh) * 2014-12-31 2019-03-05 北京畅游天下网络技术有限公司 数据分析方法和系统
US9959365B2 (en) * 2015-01-16 2018-05-01 The Trustees Of The Stevens Institute Of Technology Method and apparatus to identify the source of information or misinformation in large-scale social media networks
US9817893B2 (en) * 2015-02-18 2017-11-14 Adobe Systems Incorporated Tracking changes in user-generated textual content on social media computing platforms
EP3380946A4 (en) * 2015-11-25 2019-05-01 Fliri, Anton Franz, Joseph METHODS AND DESCRIPTORS FOR COMPARING INFORMATION FLOWS INDUCED BY AN OBJECT IN A PLURALITY OF INTERACTION NETWORKS
TWI571756B (zh) * 2015-12-11 2017-02-21 財團法人工業技術研究院 用以分析瀏覽記錄及其文件之方法及其系統
US20170206258A1 (en) 2016-01-19 2017-07-20 International Business Machines Corporation Method for visualizing topic evolution based on time and geography
US10558679B2 (en) * 2016-02-10 2020-02-11 Fuji Xerox Co., Ltd. Systems and methods for presenting a topic-centric visualization of collaboration data
US10410385B2 (en) 2016-02-19 2019-09-10 International Business Machines Corporation Generating hypergraph representations of dialog
US10412099B2 (en) * 2016-06-22 2019-09-10 Paypal, Inc. System security configurations based on assets associated with activities
US10776424B2 (en) * 2016-07-29 2020-09-15 Newswhip Media Limited System and method for identifying and ranking trending named entities in digital content objects
US11050809B2 (en) * 2016-12-30 2021-06-29 JBF Interlude 2009 LTD Systems and methods for dynamic weighting of branched video paths
US11023815B2 (en) * 2017-02-14 2021-06-01 Cognitive Scale, Inc. Temporal topic machine learning operation
US11216736B2 (en) * 2017-04-20 2022-01-04 Cognitive Scale, Inc. Cognitive search operation
US10498898B2 (en) * 2017-12-13 2019-12-03 Genesys Telecommunications Laboratories, Inc. Systems and methods for chatbot generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
CN102884530A (zh) * 2010-05-16 2013-01-16 捷通国际有限公司 用于包括冲击分析和影响跟踪的数据收集、跟踪和分析
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于时序主题的网络舆情热点话题演化分析方法;陈婷等;《华中师范大学学报(自然科学版)》;第50卷(第5期);第672-676页 *

Also Published As

Publication number Publication date
US11244013B2 (en) 2022-02-08
US20190370399A1 (en) 2019-12-05
CN110555454A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
US11178170B2 (en) Systems and methods for detecting anomalous behavior within computing sessions
US11522873B2 (en) Detecting network attacks
US11727305B2 (en) System and method for detecting anomalies in prediction generation systems
CN110555454B (zh) 用于跟踪网络中的主题随时间的演变的方法、系统和介质
US10250617B1 (en) Systems and methods for detecting malware using machine learning
US11146586B2 (en) Detecting a root cause for a vulnerability using subjective logic in social media
US10504037B1 (en) Systems and methods for automated document review and quality control
US10055485B2 (en) Terms for query expansion using unstructured data
US11503059B2 (en) Predicting a next alert in a pattern of alerts to identify a security incident
US10635521B2 (en) Conversational problem determination based on bipartite graph
WO2021243342A1 (en) Action recommendation for application failure
US11841892B2 (en) Generating test scenarios by detecting failure patterns and themes in customer experiences
US20150370887A1 (en) Semantic merge of arguments
US11372904B2 (en) Automatic feature extraction from unstructured log data utilizing term frequency scores
US11526559B2 (en) Content filtering based on user state
CN114424197A (zh) 使用分层聚类的罕见主题检测
US20220172102A1 (en) Machine learning model trained using features extracted from n-grams of mouse event data
WO2022235406A1 (en) Surfacing reasons for anomalous multivariate sessions in audit and security logs
US20220156529A1 (en) Anomaly detection by ranking from algorithm
US11042808B2 (en) Predicting activity consequences based on cognitive modeling
CN112148979A (zh) 事件关联用户的识别方法、装置、电子设备和存储介质
US10938881B2 (en) Data engagement for online content and social networks
ALI et al. A Novel Leader Election Algorithm for Honeycomb Mesh Networks
US10666675B1 (en) Systems and methods for creating automatic computer-generated classifications
US10311087B1 (en) Systems and methods for determining topics of data artifacts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant