CN114996549A - 基于活动对象信息挖掘的智能追踪方法与系统 - Google Patents

基于活动对象信息挖掘的智能追踪方法与系统 Download PDF

Info

Publication number
CN114996549A
CN114996549A CN202210640830.5A CN202210640830A CN114996549A CN 114996549 A CN114996549 A CN 114996549A CN 202210640830 A CN202210640830 A CN 202210640830A CN 114996549 A CN114996549 A CN 114996549A
Authority
CN
China
Prior art keywords
data
information
attribute information
server
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210640830.5A
Other languages
English (en)
Inventor
王亮
胡倩
王浩宇
高玉华
童欢庆
张骁越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiantang Science and Technology Innovation Center
Original Assignee
Qiantang Science and Technology Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiantang Science and Technology Innovation Center filed Critical Qiantang Science and Technology Innovation Center
Priority to CN202210640830.5A priority Critical patent/CN114996549A/zh
Publication of CN114996549A publication Critical patent/CN114996549A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Abstract

本发明公开了基于活动对象信息挖掘的智能追踪方法与系统,所述方法包括:采集活动对象的属性信息并存储,其中,所述属性信息包括行为、生理信息中的一种或组合;提取活动对象属性信息中的语义信息,根据所述语义信息构建活动对象的知识图谱;基于知识图谱数据进行活动对象的倾向性预测,根据倾向性预测结果实现活动对象。本发明通过基于引接的爬虫数据进行开源数据采集,采集内容主要面向新闻、社交媒体数据,同时调用各类核心算法进行知识图谱构建,应用内外部数据,通过算法模型的搭建及调用,贯通整个业务链条,实现了对活动对象的全方位态势跟踪。

Description

基于活动对象信息挖掘的智能追踪方法与系统
技术领域
本发明涉及基于活动对象信息挖掘的智能追踪方法与系统,更具体涉及基于活动对象信息挖掘的智能追踪方法与系统。
背景技术
活动对象追踪技术是将包含活动对象地理位置、心电数据、呼吸频率、肾上腺素等身体心理状态信息的与活动对象的开源数据相结合,实现活动对象追踪。
但是,活动对象的不同类型数据属于异构数据,如何针对多源异构数据实现动态组织管理、融合、隐含知识发现,进而实现对开源及内部数据知识抽取更新、知识融合、高性能知识存储,完成活动对象特征构建,进而实现活动对象智能追踪是亟待解决的技术问题。
发明内容
本发明所要解决的技术问题在于提供了基于活动对象信息挖掘的智能追踪方法与系统,以实现活动对象的智能追踪。
本发明是通过以下技术方案解决上述技术问题的:
本发明提供了基于活动对象信息挖掘的智能追踪方法,所述方法包括:
采集活动对象的属性信息并存储,其中,所述属性信息包括行为、生理信息中的一种或组合;
提取活动对象属性信息中的语义信息,根据所述语义信息构建活动对象的知识图谱;
基于知识图谱数据进行活动对象的倾向性预测,根据倾向性预测结果实现活动对象。
可选的,所述采集活动对象的属性信息,包括:
Kubernetes集群分发数据采集任务至Docker集群中的目标Docker,其中,分布式云爬虫平台的Docker集群部署并运行于Kubernetes集群上,所述Docker集群和所述Kubernetes集群均位于云端;
所述目标Docker启动网络爬虫云服务,以使所述网络爬虫云服务根据数据采集任务从互联网中抓取活动对象的属性信息,其中,所述网络爬虫云服务包括:网页请求云服务和无头浏览器云服务。
可选的,所述Docker包括:调度模块、采集模块、解析模块和存储模块;
所述调度模块调度所述采集模块从互联网中抓取活动对象的属性信息,所述采集模块发送抓取的数据至所述解析模块进行解析,所述解析模块将解析后的数据发送至所述存储模块并反馈至所述调度模块。
可选的,活动对象属性信息的存储方法包括:
获取每一应用的属性信息,并提取所获取的属性信息的关键词序列;
对所述关键词序列中的近义词进行识别,并将所识别的语义相近的关键词作为一个集合;
基于语义相近的关键词的相似度,确定每一集合中的代表词;
以代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列;
获取每一应用的属性信息,并将每一类型数据转换为文本;
对每一类型数据对应的文本进行关键词提取,获得对应的关键词序列;
使用更新后的关键词序列作为对应属性信息的属性信息。
可选的,在所述属性信息为视频数据时;所述将每一类型数据转换为文本的步骤,包括:
对该类型数据进行分割,获得音频数据和图像数据,其中,所述图像数据包括每一帧图像中的图像特征;
将所述音频数据和图像数据转换为文本数据。
可选的,所述提取活动对象属性信息中的语义信息,包括:
接收属性信息,其中,所述属性信息包括:结构化数据和/或非结构化数据;
对所述属性信息进行语义抽取,得到抽取后的语义信息;
根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系;其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现。
可选的,所述根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系,包括:
根据所述语义信息,获得所述语义信息对应的依存语法结构;
根据所述依存语法结构,确定所述依存语法结构对应的依存树,其中,所述依存树包括:对应实体的节点和对应实体间的依存关系的依存弧;
根据所述依存树和抽取规则,识别所述实体和所述依存关系的类型,获得知识图谱可识别的实体和关系。
可选的,所述增量式聚类方法包括:
确定实体相似度阈值、子实体类型阈值和时间片段的长度;
获取新时间片段内的实体特征,将所述实体特征传给MapReduce函数;
基于实体相似度、所述MapReduce函数,输出新产生的实体类型、子实体类型编号和特征向量,并更新已有实体类型和子实体类型的特征向量,添加新产生的实体类型和子实体类型。
可选的,应用于高并发分流系统中的协调器,所述系统包括:两两通信的代理器、协调器、数据库服务器,且所述数据库服务器包括主服务器、从服务器以及当前备份服务器,所述方法包括:
接收应用服务器发来的交互请求,将交互请求分类为读请求和写请求;将读请求发送至从服务器,将写请求发送至主服务器;
根据交互请求的知识图谱数据被读写的次数,从各个主服务器以及各个从服务器中筛选出高频访问数据,将所述高频访问数据备份到当前备份服务器中;
在主服务器中的服务器之一负载超限时将当前备份服务器转为主服务器使用;在从服务器中的服务器之一负载超限时,将当前备份服务器转为从服务器使用。
本发明还提供了基于活动对象信息挖掘的智能追踪系统,所述系统包括:
采集模块,用于采集活动对象的属性信息并存储,其中,所述属性信息包括行为、生理信息中的一种或组合;
提取模块,用于提取活动对象属性信息中的语义信息,根据所述语义信息构建活动对象的知识图谱;
跟踪模块,用于基于知识图谱数据进行活动对象的倾向性预测,根据倾向性预测结果实现活动对象。
本发明相比现有技术具有以下优点:
本发明通过基于引接的爬虫数据进行开源数据采集,采集内容主要面向新闻、社交媒体数据,同时调用各类核心算法进行知识图谱构建,应用内外部数据,通过算法模型的搭建及调用,贯通整个业务链条,实现了对活动对象的全方位态势跟踪。
附图说明
图1为本发明实施例提供的基于活动对象信息挖掘的智能追踪系统的总体架构示意图;
图2为本发明实施例提供的基于活动对象信息挖掘的智能追踪方法的原理示意图;
图3为本发明实施例提供的一种数据采集方法对应的整体技术架构图;
图4为本发明实施例提供的一种数据采集任务的任务分发策略示意图;
图5为本发明实施例提供的一种BiLSTM双向循环神经网络结构图;
图6为本发明实施例的一种关键词获取过程的示意图;
图7为本发明实施例提供的一种高并发网络访问分流系统的结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
图1为本发明实施例提供的基于活动对象信息挖掘的智能追踪系统的总体架构示意图,如图1所示,系统主要划分为资源层、支撑层、处理层及应用层,其中,资源层主要包括运行环境及存储环境,其中爬虫采集服务可以部署在阿里云kubernetes中,基于内部爬虫数据、开源数据以及整合后的知识数据特性进行分类存储;支撑层主要包括数据处理支撑以及推理计算支撑,数据处理包括对数据爬取服务的管理、节点资源调度服务管理、数据计算支撑管理以及分布式爬虫管理;推理计算包括模型构建封装处理、模型训练框架处理、图计算等;处理层是针对获取的设备测量数据及开源数据进行面向图存储分析的数据处理,包括数据获取、知识抽取、知识融合以及知识建模,能够运用内外部数据完成知识图谱模型的搭建;应用层主要针对应用场景方面展开,包括知识检索、知识可视化展示及异常行为告警等。
基于图1所示架构,图2为本发明实施例提供的基于活动对象信息挖掘的智能追踪方法的原理示意图,如图2所示,所述方法包括以下步骤:
S100:采集活动对象的属性信息并存储,其中,所述属性信息包括行为、生理信息中的一种或组合;
通过实体抽取手段获得时间、地点、人物、事件、心理特征等相关实体。关系抽取即从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,进而形成网状的知识结构。属性抽取即不同信息源中采集特定实体的属性信息,例如针对某个活动对象,得到其姓名、生日、国籍、教育背景等信息,属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的勾画。为保证高性能、安全、稳定采集的开源数据,拟采用面向全球的分布式云爬虫网络技术,通过轻量级虚拟化技术的容器集群(容器云)代替虚拟机,容器云不仅技术能够实现爬虫服务的快速部署、运维及弹性扩容,还可使全球的云厂商均能兼容容器云技术,能够实现爬虫网络的全球跨云部署与统一管理,能够针对全球不同地域的网站实现全球爬虫部署,就近本地采集数据的能力。在此架构的基础上,结合分布式IP代理池和账号池,保证爬虫网络的隐蔽性和安全性,使得该爬虫网络不会被网站反追踪和反屏蔽。爬虫网络在传统利用网页请求的方式采集数据意外,还提供无头浏览器云服务,即提供基于浏览器的采集方式,模拟网站的点击事件获取数据,增强爬虫采集数据的能力。
利用爬虫工具采集面向新闻、社交媒体、专有数据的全球分布式采集工具,提供高性能、安全、稳定的开源数据采集能力,实现相关活动对象言论观点、相关案例事件、相关新闻报道、专业分析数据的高效获取采集,形成海量开源信息数据,与内部引接数据形成交叉互补,为挖掘分析、知识库构建提供数据支撑。
具体来说,步骤S100可以包括以下内容:爬虫平台通过Docker集群部署并运行于Kubernetes集群上,所述Docker集群和所述Kubernetes集群均位于云端,可以包括如下步骤:
S101:所述Kubernetes集群分发数据采集任务至Docker集群中的目标Docker;
具体的,分布式云爬虫平台底层架构可以采用Docker容器集群代替虚拟机进行构建。Docker是一个基于轻量级虚拟化技术的容器引擎项目,其采用LXC(或基于Libcontainter)基于内核的虚拟化技术隔离进程、资源和网络,相比传统的虚拟机技术具备更高的性能和效率,同时具有轻量化、快速启动等优点。本平台的分布式架构构建在Kubernetes(k8s)集群上,k8s是一个管理跨主机容器化应用的系统,实现了包括部署、运维和应用弹性伸缩在内的一系列基础功能。
爬虫平台中的Docker可以包括:调度模块、采集模块、解析模块和存储模块。如图3所示,调度模块可以包括调度策略和调度器,能够接收配置初始信息,用于调度所述采集模块从互联网中抓取活动对象的属性信息,所述采集模块包括下载器和下载中间件,用于发送抓取的数据至所述解析模块进行解析,所述解析模块包括解析器和解析规则,用于将解析后的数据发送至所述存储模块并反馈至所述调度模块,存储模块包括有数据库。
各模块分别为一个Pod容器组,集群通过Replication Controller(副本控制器)创建、维护和弹性伸缩Pod集,爬虫各模块的通信通过分布式消息队列进行通信。一种基于k8s的分布式云爬虫平台的结构如图3所示,包括主节点和子节点,主节点中包括调度器、控制管理器和配置中心,子节点包括Docker容器,容器中包括各Pod。
具体的,数据采集任务包括但不限于:IP地址对应的URL,所述IP地址存储于IP代理池中,所述IP代理池包括但不限于:IP地址、响应时间和运营商信息。所述Docker还可以包括:IP代理池管理模块,用于对IP地址的调度、校验和更新。
具体的,Kubernetes集群可以通过一致性散列算法,分发数据采集任务至Docker集群中的目标Docker。其中,分布式任务分发可以采用mater-slave(主从)分布式爬虫模型提供URL的分发服务。为了保证抓取服务节点(子节点)间的负载均衡,可以通过一致性散列(consistent hash)来分配任务,抓取服务负责散列环的一个片段URL下载,当某一个服务节点发生异常时,它负责将地址片段上的任务由沿顺时针方向寻找到下一个服务节点。一致性散列算法满足了分布式系统中的平衡性、单调性、分散性和负载均衡性。本爬虫网络采用MD5去重树做URL索引,因此在做URL服务分发的时候可以直接将去重的MD5的值构建一致性散列值,从而将去重和分发结合起来,具体示意如图4所示,原始URL例如为https://www.zhihu.com/question/30329757,对应16位MD5值b9eb328d7a4b5a4a,最后得到去重树。
另外,爬虫网络应用IP代理池进行匹配实现爬虫网络的隐蔽性和安全性。首先采集代理网站上的IP地址,然后对其进行测试和校验,将可用的IP地址、响应时间和运营商等信息放入IP地址代理池中。为了满足高并发的采集需求,本发明设计一种基于域名的IP地址代理调度模型,首先将IP地址池中的IP地址按照响应时间、运营商进行排序,然后首尾相连构建成一个环形链表,同一域名下的代理调度从环形链表头部开始,逐级循环下去,这样既可以保证优质IP地址被优先使用,同时也保证了同一域名下代理IP地址尽可能分散,从而实现了host控制的功能。IP代理池管理模块除了负责IP地址的调度工作,还负责IP地址的校验更新,IP代理池管理模块会定时对IP地址代理池中的IP地址进行校验,并对响应时间进行更新,将不能使用的IP地址进行剔除。
S102,所述目标Docker启动网络爬虫云服务,以使所述网络爬虫云服务根据数据采集任务从互联网中抓取活动对象的属性信息。
具体的,所述网络爬虫云服务包括:网页请求云服务和无头浏览器云服务。在实际应用中,为保证高性能、安全、稳定采集的开源数据,采用面向全球的分布式云爬虫网络技术,通过轻量级虚拟化技术的容器集群(容器云)代替虚拟机,容器云不仅技术能够实现爬虫服务的快速部署、运维及弹性扩容,还可使全球的云厂商(云端)均能兼容容器云技术,能够实现爬虫网络的全球跨云部署与统一管理,能够针对全球不同地域的网站实现全球爬虫部署、就近本地采集数据的能力。在此架构的基础上,结合分布式IP代理池,保证爬虫网络的隐蔽性和安全性,使得该爬虫网络不会被网站反追踪和反屏蔽。爬虫网络(网络爬虫云服务)可以通过现有的利用网页请求的方式采集数据以外,还提供无头浏览器云服务,即提供基于浏览器的采集方式,模拟网站的点击事件获取数据,增强爬虫采集数据的能力。其中,无头浏览器是指可以在图形界面情况下运行的,可以模拟多种浏览器的运行框架。研发可以通过编程来控制该框架执行各种任务,模拟真实的浏览器操作和各种任务,例如登录、js解析、ajax动态生成、获取cookie等。
另外,网络爬虫云服务还可以根据被爬虫资源(即数据)所在服务器到本地的路由链路长度、资源的集中程度、路由链路质量进行数据资源爬取(即从互联网中抓取活动对象的属性信息),一个Docker可看做一个爬虫,为了有策略的分配爬虫,提高爬取效率,一种数据资源爬取的具体方案可以如下:
确定路由链路长度为第一长度,对第一长度范围内的资源进行聚类,得到资源簇,建立本地到资源簇的路由链路;
其中,建立本地到资源簇的路由链路中,资源簇可能包含多个存储数据的服务器或者缓存设备节点,可以筛选一些作为核心节点,作为路由链路长度的计算基础;比如,使用到簇内其他节点的直接路径最多的节点作为核心节点,或者将可用带宽最大的作为核心节点,或者使用到本地速度最快的几个节点作为核心节点;
然后,对资源簇中包含的资源量进行归一化;归一化过程中的最大值就是资源簇中包含资源量的最大值;对路由链路长度、路由链路质量分别进行归一化,根据不同的权重对资源簇进行评分,得到评分值;其中,可以将资源量、路由链路长度、路由链路质量分别作为计算对象,利用加权求和方法计算评分值;其中,路由链路质量定义为路由时延,可理解为走完这个路由链路的时长;
对评分值大于预设阈值的目标资源簇进行爬取;对评分值低于预设阈值的资源簇,将路由链路长度扩大为第二长度,剔除已被爬取的资源,重新聚类,然后再次建立路由链路,进行二次爬取,如此循环,直至爬取的资源达到设定资源量。从而,实现有策略的爬取资源簇,并且在资源簇中的资源不够时,扩大爬取的范围。
可见,所述平台通过Docker集群部署并运行于Kubernetes集群上,所述Docker集群和所述Kubernetes集群均位于云端,通过所述Kubernetes集群分发数据采集任务至Docker集群中的目标Docker,所述目标Docker启动网络爬虫云服务,以使所述网络爬虫云服务根据数据采集任务从互联网中抓取活动对象的属性信息,从而实现网络爬虫服务的快速部署、运维及弹性扩容,数据采集较为高效便捷。
S200:提取活动对象属性信息中的语义信息,根据所述语义信息构建活动对象的知识图谱。
首先可以使用以下方法进行语义信息抽取:
S201,接收属性信息,其中,所述属性信息包括:结构化数据和/或非结构化数据;
在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,称之为非结构化数据。
S202,对所述属性信息进行语义抽取,得到抽取后的语义信息;
具体的,若所述属性信息包括结构化数据,则利用D2R技术对所述结构化数据进行语义抽取。
利用D2R技术从结构化数据中获取知识,将关系数据库的数据转换为虚拟的RDF数据。与知识建模结合,在数据模式基础上进行映射。最终经过D2R映射的数据可以直接存储成为知识图谱中的知识。其中,关系型数据库存储的是结构化数据,易搜索查询,关联性强,查询结果为对象等,如mysql。
D2R主要包括D2R Server,D2RQ Engine以及D2RQ Mapping语言。D2R Server是一个HTTP Server,它的主要功能提供对RDF数据的查询访问接口,以供上层的RDF浏览器、SPARQL查询客户端以及传统的HTML浏览器调用。D2RQ Engine的主要功能是使用一个可定制的D2RQ Mapping文件将关系型数据库中的数据换成RDF格式。D2RQ engine并没有将关系型数据库发布成真实的RDF数据,而是使用D2RQ Mapping文件将其映射成虚拟的RDF格式。该文件的作用是在访问关系型数据时将RDF数据的查询语言SPARQL转换为RDB数据的查询语言SQL,并将SQL查询结果转换为RDF三元组或者SPARQL查询结果。D2RQ Engine是建立在Jena(Jena是一个创建Semantic Web应用的Java平台,它提供了基于RDF,SPARQL等的编程环境)的接口之上。D2RQ Mapping语言的主要功能是定义将关系型数据转换成RDF格式的Mapping规则。
若所述属性信息包括非结构化数据,则利用正则表达式,对所述非结构化数据进行去噪,对去噪后的非结构化数据进行语义抽取。
非结构化数据语义要素提取所涉及到的关键技术可以为传统的语义提取技术。优选的,由于非结构化数据的杂乱无章的特性,可以先利用正则表达式对数据进行清洗去噪,然后在进行语义提取。其中,正则表达式是特殊的字符序列,利用事先定义好的特定字符以及它们的组合组成了一个规则,然后检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。
S203,根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系;其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现。
具体的,可以根据所述语义信息,获得所述语义信息对应的依存语法结构;根据所述依存语法结构,确定所述依存语法结构对应的依存树,其中,所述依存树包括:对应实体的节点和对应实体间的依存关系的依存弧;根据所述依存树和抽取规则,识别所述实体和所述依存关系的类型,获得知识图谱可识别的实体和关系。
其中,依存语法(依存句法)结构依存语法是用词与词直接的依存关系来描述语言结构的框架。在确定依存树后,可以先根据抽取规则识别实体类型,然后根据依存树确定实体间的依存关系。
聚类分析技术是数据挖掘技术领域中的重要组成部分,在多个领域中有着广泛的应用。随着数据的不断增长,如何从海量数据中高效地获取信息成为聚类算法如今研究的重点。传统静态聚类算法无法在聚类前获取全部数据,导致聚类时效性较差,在大数据环境下适用性不强,因此,增量式聚类算法成为了一个研究热点。本发明实施例中实体类型的识别规则基于增量式聚类算法自动更新,从而实现聚类分析技术在文本处理领域的应用。
在实际应用中,分析抽取其中可能包含的潜在实体和关系。将信息由线性序列转化为一颗结构化分析树,是进行信息抽取前数据预处理的最后一步,也是最关键的一步。
在自然语言处理中,有时不需要或者不仅仅需要知道信息的短语结构树,而且要知道信息中词与词之间的依存关系。通过分析给定信息的依存语法结构,得到一个依存树或依存图,优选考虑依存树的情况。
示例性的,一个依存树表示为:T=(V,A),V的定义如下:
V={w_i|i=0,1,2,…,n}
V是所有节点的集合。其中w_0是作为根节点的虚拟节点,其余是作为每个节点w_i对应信息中的一个词,信息中的所有词都必须存在于依存树中。A的定义如下:
A={(h,m,1)|0≤h≤n,1≤m≤n,1∈L}A∈V×V×L
A即所有从核心词到修饰词的依存弧的集合。其中,h代表核心词,m代表修饰词,l代表依存弧的类型,L是依存关系类型的集合,例如共24种。依存树区别于一般的分析图,需要满足一下几个条件:一是单一父节点,除w_0无父节点外,每个词只有一个父节点,只能以唯一关系修饰唯一核心词。二是弱连通,从w_0节点出发可以抵达任意节点。三是无环,没有形成环路。针对汉语特点,可以制定具体的依存关系规范:一是语义原则,语义上存在联系的词语之间会存在依存关系。二是主干原则,在标注依存关系时,尽量保证主要的词作为依存关系的核心,其附属成分依存于该核心词。这样,对于后面的应用,只要根据依存关系,抽取句子的主要词语,就能得到句子的主干,可称之为“主干原则”。
具体的,一种增量式聚类方法包括:确定实体相似度阈值、子实体类型阈值和时间片段的长度;获取新时间片段内的实体特征,将所述实体特征传给MapReduce函数;基于实体相似度、所述MapReduce函数,输出新产生的实体类型、子实体类型编号和特征向量,并更新已有实体类型和子实体类型的特征向量,添加新产生的实体类型和子实体类型。
在对人物经验进行归纳总结的过程中,可以采用聚类的方式对人物的经验进行归纳和总结,对未标注实体和关系的类型进行预标注,将多数人物认可的经验进行汇总,并添加到识别规则中去。随着时间变化和事态局势变化,人工预定义的规则库体系一般难以适应变化,必须需要自主生成新的规则。在新入一个人物经验时,如果对于直接归于已知经验类别,这将导致难以对新生新类别及时反映。针对这一难点,本发明准备采用基于对新入实体和关系进行聚类以获取新的规则类型。目前聚类算法比较多且大多已经很成熟,但为了保证实体类别更新的持续性,本发明提出一种分布式条件下增量式聚类算法以用于实体类别自动生成。
示例性的,在一种实现方式中,利用层次化Mapreduce-SinglePass聚类算法,在潜在特征提取的基础之上对实体类型进行进一步的划分,得到具有层次结构的实体类型和子实体类型等等,具体流程可以如下:
Step1:确定实体相似度阈值T_c,确定子实体类型的阈值S_c,确定时间片断的长度Δt;其中,T_c、S_c和Δt都是经验值,可由用户自行设置;
Step2:新时间片断内的实体特征C到达,将实体特征传给MapReduce函数;
Step3:针对Map函数,分两种情况讨论:
第一,当无实体类型存在时,直接将(max(T_id)+1,β)传给Reduce函数;
第二,当已有实体类型存在时,将每个实体特征向量d和已有的实体类型逐一进行相似度计算,并选择出相似度s的最大值max(s)和其对应的实体类型id,如果相似度max(s)>T_c,输出(T_id,β),如果相似度max(s)<T_c,输出(max(T_id)+1,β),其中β为该文本的特征向量,将结果(key,value)传给Reduce函数;
Step4:针对Reduce函数,分两种情况讨论:
第一,当key=max(T_id)+1,对所有实体使用Single-Pass算法,此时实体类型的相似度阈值为T_c,输出所有新产生的实体类型编号key和特征向量value,对每一个新产生实体类型中的所有信息使用Single-Pass算法,此时阈值为S_c,输出所有新产生的子实体类型编号key和特征向量value;
第二,当key≠max(T_id)+1,合并属于同一实体类型的所有向量β,输出当前实体类型的编号key以及特征向量的变化量value;对每一个实体类型中的所有信息和已有的子实体类型进行相似度计算,此时阈值为S_c,如果相似度max(s)>S_c,输出子实体类型的key和子实体类型特征向量的变化量value,如果相似度max(s)<S_c,输出所有新产生的子实体类型编号key和特征向量value;
Step5:MapReduce函数结束,根据输出的结果(key,value)更新已有实体类型和子实体类型的特征向量,并添加新产生的实体类型和子实体类型,等待下一批实体相关信息的输入。
该算法新生成的实体类型识别规则可以直接加入已有规则体系中,优选的,进一步可以通过人工判定生成的规则类型是否符合产生规则类型的条件,然后加入现有的规则体系中,这种机器与人工相结合的方式能够在效率和可靠性方面都得到保证。
具体的,在实际应用中,还可以抽取所述实体的属性信息,基于抽取的实体、关系和属性信息,构建所述属性信息的知识图谱。通过实体抽取手段获得时间、地点、人物、事件、心理特征等相关实体。关系抽取即从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,进而形成网状的知识结构。属性抽取即不同信息源中采集特定实体的属性信息,例如针对某个活动对象,得到其姓名、生日、国籍、教育背景等信息,属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的勾画。对抽取的知识数据进行知识的融合,实现实体、关系及属性的语义链接,完成知识图谱构建。
可见,通过接收属性信息,对所述属性信息进行语义抽取,得到抽取后的语义信息,根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系,其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现,从而替代以人工对未标注实体和关系类型进行预标注,提高抽取准确度和抽取效率。
通过实体抽取手段获得时间、地点、人物、事件、心理特征等相关实体。关系抽取即从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,进而形成网状的知识结构。属性抽取即不同信息源中采集特定实体的属性信息,例如针对某个活动对象,得到其姓名、生日、国籍、教育背景等信息,属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的勾画。
然后利用现有的知识图谱生成算法,根据所抽取的语义信息生成对应的知识图谱数据。
对抽取的知识数据进行知识的融合,实现实体、关系及属性的语义链接,完成知识图谱构建。通过实体链接等手段对抽取得到的新增实体链接到知识库中对应的正确实体对象,完成知识的动态更新,同时可通过基于关系数据模型和图数据模型的知识图谱数据管理,实现多维动态知识图谱的组织存储。
基于知识图谱,经过数据聚类、数据综合分析、深度挖掘及关联等技术手段,实现人员信息关联、脉络分析等应用。围绕时间和空间维度开展数据服务,可以实现全球地图的展示、数据展示、时间轴展示、实体识别提取展示等。能够全方位、一目了然地展示所有相关数据,实现对具体信息的多方位剖析。支持数据的实时播报展示,支持数据的浏览及筛选展示。
S300:基于知识图谱数据进行活动对象的倾向性预测。
基于面向设备测量数据的知识图谱、开源采集数据及内部数据,能够利用知识库中三元组内部或相互之间的结构联系,同时根据相似任务案例及事件进行推理,实现面向设备测量数据的隐含知识发现、活动对象关系计算、活动对象倾向性推理计算分析,支撑实现生理状态、环境状态、关系网络、潜在突发事件等的精准计算和智能推理。
大量人物数据到知识图谱转化的时候,有部分数据是没有直接关联的,需要通过推理算法来进行类别标注/关系连接补全;在以构建的人物知识图谱中,可以使用一些业务规则(或逻辑规则)进行推理,这些业务规则可以是常用人机交互流程的固化,也可以是人物编辑的业务规则。使用分布式表示学习方法时,可以利用表示学习后向量做一些更高层次的应用,比如计算相似度来做搜索、推荐或输入相关机器学习或深度学习算法中去,完成人物的分类、聚类、推荐等任务。
例如,使用如下算法识别隐性关系。一般在构建图谱过程中,大都是显性关系,显性关系可以通过图谱检索获取关系;而隐性关系推理是指通过定义关系的逻辑表达和规则推理。
首先,可以利用LSTM神经网络实现活动对象的倾向性预测。LSTM是一种特殊的循环神经网络,与简单的循环神经网络不同的是,其对隐藏层进行了重新设计,添加了三个“门”结构,使得网络可以选择性的“记忆”或者“遗忘”一些信息。
LSTM的一个关键就是其特殊的“细胞状态”,其在整个结构的上方运行,与结构的其他部分之后少量的线性交互,数据信息即在其中传递。整个结构的其余部分,即为LSTM精心设计的三个“门”结构,这些“门”筛选信息,以传递有用的信息给“细胞状态”,每一个“门”都由一个sigmoid层和一个向量的点积乘法操作组成。sigmoid层输出0~1之间的数值,描述每个部分有多少分量可以通过,0表示不允许任何分量通过,1表示允许所有分量通过。LSTM通过其精心设计的三个“门”结构,让模型选择性的记住一些重点信息,以解决RNN中存在的梯度消失的问题。实践表明,LSTM确实是RNN领域的一大突破,其在很多问题上的效果相比RNN都有很大的提升。
在进行自然语言处理时,由于语义信息不仅与词之前的信息有关,还与词之后的信息有关,两个LSTM左右传播组合而成的双向循环神经网络能进一步提高分类的准确率。BiLSTM解决了传统RNN中梯度消失或梯度弥散问题。同时一个词的语义与它之前信息和之后信息都有关,而BLSTM充分考虑词的含义,克服了LSTM不能考虑词之后信息的弊端。
图5为本发明实施例提供的一种BiLSTM双向循环神经网络结构图,如图5所示,本发明实施例将卷积神经网络和BiLSTM进行融合,既能利用卷积神经网络提取局部特征的优势,又能利用双向长短时序记忆网络兼顾全局特征的优势,对于舆情的情感特征分析具有良好的适应性,也能相较于传统的分类方法的准确率有很大的提升。
本发明实施例主要完成基于引接的爬虫数据进行开源数据采集,采集内容主要面向新闻、社交媒体数据,同时调用各类核心算法进行知识图谱构建,应用内外部数据,通过算法模型的搭建及调用,贯通整个业务链条,实现对活动对象的全方位态势掌控,服务决策人员,提高应急响应和应急处置能力。
同时本发明实施例可被应用于特定活动对象的深度信息挖掘与应用,例如:对于外派人员,通过测量设备记录执行任务和平时的身体心理状态、所处位置信息等数据,分析特定人员在任务启动、执行、完成等不同阶段的身体心理反应,一方面可在人员出现任务状态不满足要求时进行召回,另一方面相关数据可作为参考对学员进行压力培训,让学员提前感受任务状态。
而且,本发明实施例还可以应用于大规模特定人群的状态监控,如对疫情密接人员,通过面向设备测量数据和网络开源数据监控特定人群身体心理,分析行为倾向,阻断负面连锁反应,为社会治理和特定事件态势综合分析及决策提供辅助支撑。
实施例2
在本发明实施例2中,可以使用以下方法实现活动对象属性信息的存储:
S205,获取每一应用的属性信息,并提取所获取的属性信息的关键词序列。
需要说明的是,本发明实施例中所说的属性信息包括视频、音频、文档(例如word、pdf)等数据。对于word、pdf可以直接获取对应的文字,从而将其转换成本发明可使用的文本。而对于音视频等数据则采用本发明实施例提供的类型数据转换方法,从而获得该类型数据对应的关键词序列。
一种实现方式中,获取每一应用的属性信息,并提取所获取的属性信息的关键词序列的步骤,包括:获取每一应用的属性信息,并将每一类型数据转换为文本;对每一类型数据对应的文本进行关键词提取,获得对应的关键词序列。
一种实现方式中,在所述属性信息视频数据时;
其应用场景包括,采用知识图谱技术在解决知识理解以及知识推理方面展现出了巨大的优势,能够实现多源异构数据的组织关联,尤其在面向实体之间存在复制链接关系的场景中有利于改善对于人物知识的理解。
知识图谱数据管理的一个核心问题是如何有效地存储和查询RDF数据集。其一是利用已有的成熟的数据库管理系统(例如关系数据库系统)来存储知识图谱数据,将面向RDF知识图谱的SPARQL查询转换为面向此类成熟数据库管理系统的查询,例如面向关系数据库的SQL查询,利用已有的关系数据库产品或者相关技术来回答查询。这里面最核心的研究问题是如何构建关系表来存储RDF知识图谱数据,并且使得转换的SQL查询语句查询性能更高。
因此,本发明实施例数据存储方式,是如上情境中数据查询、数据比对等的基础。
进一步的,所述将每一类型数据转换为文本的步骤,包括:对该类型数据进行分割,获得音频数据和图像数据,其中,所述图像数据包括每一帧图像中的图像特征;将所述音频数据和图像数据转换为文本数据。
本申请中将上述所有数据全部转换为文本格式,例如视频数据进行音频图像分割,将音频通过语音转换为文本。为了获得全面的信息,将视频中每一帧中图像特征提取出来,例如通过图像识别技术,进而提取人物、背景特征(如房屋、树木等),加入到文本中。
由于上述属性信息文字较多,在数据查询时无法直接进行比对,因为会造成比对结果等待太久,效率较低的问题。因此,本发明实施例为每一类型数据确定对应的关键词序列。该过程为从每一类型数据中提取对应的关键词。
需要说明的是,关键词的提取包括无监督关键词提取和有监督关键词提取。无监督关键词提取方法主要有三类,包括:基于统计特征的关键词提取(TF,TF-IDF);基于词图模型的关键词提取(PageRank,TextRank);基于主题模型的关键词提取(LDA)。
基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;基于词图模型的关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语,这些短语就是文档的关键词;基于主题关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。
有监督关键词提取过程,是将关键词抽取过程视为二分类问题,先提取出候选词,然后对于每个候选词划定标签,要么是关键词,要么不是关键词,然后训练关键词抽取分类器。当新来一篇文档时,提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将标签为关键词的候选词作为关键词。
因此,可以根据不同的应用场景选择不同的关键词提取方法。
示例性的,本申请将音视频转换问文本以后,作为一篇新的文档,可以通过提取所有的候选词,然后通过预先设置好的关键词提取分类器来进行关键词提取。而关键词分类器可以通过现有技术,也可以根据需求进行设置。提起关键词后即输出对应的向量,也就是关键词序列。
本发明实施例中,关键词分类器的实现可以采用如下实施例:
对语料进行Word2Vec模型训练,得到词向量文件;
对文本进行预处理获得N个候选关键词;
遍历候选关键词,从词向量文件中提取候选关键词的词向量表示;
对候选关键词进行K-Means聚类,得到各个类别的聚类中心(需要预先设定聚类的个数);
计算各类别下,组内词语与聚类中心的距离(欧几里得距离或曼哈顿距离),按聚类大小进行降序排序;
对候选关键词计算结果得到排名前TopK个词语作为文本关键词。
也可以采用其他技术来实现关键词分类器,本发明实施例不做具体限定。
另一种实现方式中,所述获取每一应用的属性信息,并提取所获取的属性信息的关键词序列的步骤,包括:
获取每一应用的属性信息,基于所获取数据的特性确定至少一个数据类别。
基于Protégé建模工具和所述至少一个数据类别,获得每一类型数据的关键词和对应的关键词序列。
需要说明的是,Protégé建模工具可以用来分类,获得多个关系,在每一个关系下面又划分为小类,最终会形成两个不同关系之间的交叉,示例性的,如图6所示。首先,对数据的特性进行分类,例如分为人物、工具、国别,在人物中又从该类型数据获得张飞、关羽、吕布,在工具中获得方天画戟、青龙偃月刀、斧头、,在国别中获得、魏、蜀、汉,那么在交叉中可以获得青龙偃月刀、关羽、蜀,另一组交叉中为吕布、方天画戟、汉。因此,就获得两组关键词和关键词组成的序列,该序列为S={(吕布、方天画戟、汉)、(青龙偃月刀、关羽、蜀)}。以此类推在数据较多的时候可以扩充该序列,从而实现关键词和关键词序列。
一种实现方式中,所述基于Protégé建模工具和所述至少一个数据类别,获得每一类型数据的关键词和对应的关键词序列的步骤,包括:
采用rotégé建模工具获取所述至少一个数据类别在本应用侧面的多个共同属性点,其中,每一个共同属性点具有多个基于语义的命名表达,且所述多个共同属性点的表达形式相同;将所述多个共同属性点作为每一类型数据的关键词,并获得该关键词序列。
如图6所示,本发明实施例中,确定共同属性点即为人物、工具、国别组成的命名表达,那么每一个属性点均包括这三个值。此外,共同属性点也可以包括4个属性点、2个属性点、或者更多的属性点,本发明实施例不做具体限定。
S206:对所述关键词序列中的近义词进行识别,并将所识别的语义相近的关键词作为一个集合。
需要说明的是,本发明实施例中为了获得关键词序列中的近义词,可以在关键词序列中采用提取余弦值比较高的作为候选同义词。
示例性的,关键词序列为N={A1、B1、C1、D1、A2、B2、C2、D2……An、Bn、Cn、Dn},共计4*n个关键词,采用两两提取每一个关键字的余弦值。
具体的,以A1为比较对象,获取从B1到Dn的4*n-1个余弦值,然后以B1为比较对象,获取C1到Dn的4*n-2个余弦值,直至以Cn为比较对象,获取Cn和Dn的1个余弦值,将写余弦值进行比较,基于设定的标准值,当超出这个标准值时,则将对应的关键词作为同义词;又或者是,将所有余弦值从高到低进行排列获得排名前N的关键词作为同义词。从而获得每一个关键词序列所对应的语义相近的关键词集合,假设任意一个关键词序列对应的义相近的关键词集合Gi,表达形式为Gi={C1、C2、C3、C4……CN}。
S207:基于语义相近的关键词的相似度,确定每一集合中的代表词。
需要说明的是,键词序列对应的义相近的关键词集合Gi={C1、C2、C3、C4……CN},其中多个关键词可以是意思相近的关键词,例如由于其出现在不同的篇章,采用不同的称呼形式或者不同的语境中就会造成这种现象。出现这种现象造成的问题是会造成数据比对的时候数据量过大。因此,本发明实施例基于此引入集合中的代表词,以代表词来代替具有相近于此的词汇,从而降低比较的复杂度。
需要说明的是,在数据进行检索时,会根据用户输入的关键词进行意义比对,在比对时不仅会用该搜索关键词本身,还会使用到该搜索关键词的同义词/近义词,以提高搜索的效果。因此,如果一个类型的数据包含的关键词当中有太多的语音相近的关键词,那么现在检索的时候,不但会将搜索关键词与每一个语音相近的关键词进行比较,还会将与该搜索关键词的同义词/近义词的与每一个语音相近的关键词进行比较,这就增大了比较的数量,而且还包含了关键词的同义词/近义词与被搜索关键词(关键词序列中的关键词)的同义词/近义词进行比较,数据搜索量会增大非常多的倍数。
为了解决这一技术问题,本发明实施例中确每一集合中的代表词,具体如何确定,本发明实施例中,基于语义相近的关键词的相似度,确定每一集合中的代表词的步骤,包括:基于每一集合,获取任意两个语义相近的关键词的相似度值;基于相似度值,获得每一集合的代表词。
通过任意两个语义相近的关键词的相似度值,然后在进行比较。例如,先获得集合中每一关键词与其他关键词的欧式距离;将与其他关键词欧式距离最近的关键词作为代表词。也就是说该关键词是与其他多个语义相近的关键词相对意义最接近的关键词,从而确定其具有代表性。
S208:以代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列。
进一步的,为了解决上述搜索关键词重复计算量大的问题,本发明实施例将代表词对应替换到对应的S101步骤中的关键词序列中,也就是说S101步骤的关键词序列中,将不存在所识别集合(语义相近的关键词)。
S209:使用更新后的关键词序列作为对应属性信息的属性信息。
需要说明的是,由于S104中,采用代表词替换了原来与之相近的其他关键词,那么更新后的关键词序列通过去除冗余关键词,总体的关键词数量就会变少,例如原先所获得关键词序列为50个关键词,代表词替换了6个关键词,保留代表词本身,那么还有50-6+1=45个关键词,那么这45个关键词组成的新的关键词序列即为该属性信息的属性信息。
示例性的,原关键词序列为N={A1、B1、C1、D1、A2、B2、C2、D2……An、Bn、Cn、Dn},经过更新后为N’={A1、C1、A2、C2、D2……An、Dn},其中里面的任意一个关键词可以是词向量,因此,经过更新后的关键词系列就确定为该类型数据的属性信息,并进行存储。
示例性的,在进行属性信息存储以后,可以对属性信息进行聚类,然后分类存储在不同的数据库中,这样就相当与类型数据进行分类,从而在比较的时候可以增加在该存储区域数据检索的成功率,再建立属性信息到待存储数据的链接。
首先获取每一应用的多模态数据,在分别提取每一多模态数据的关键词序列或,对关键词序列中的近义词进行识别,获得由所识别的语义相近的关键词对应的集合;采用集合的代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列;并使用更新后的关键词序列作为对应多模态数据的属性信息。通过代表词替代关键词能够消除多模态数据之间的差异,并提高数据比对时的识别效率,而且通过所获得的每一模态数据的属性信息,在进行属性信息比对时提供便利;同时避免存储多个同义词,从而提高多模态数据之间的存储效率。
实施例3
在本发明实施例3中,可以使用以下方法实现进行活动对象跟踪的跟踪系统与存储知识图谱数据的存储系统之间的交互方法的优化。
图7为本发明实施例提供的一种高并发网络访问分流系统的结构示意图,如图7所示,所述系统包括:两两通信的代理器、协调器、数据库服务器,且所述数据库服务器包括主服务器、从服务器以及当前备份服务器,所述方法包括:代理器用于从多个候选服务中选出领袖选举并为整个集群提供同步服务。其核心是管理一个大型配置树。它支持对该树的事务性读写请求,其他服务器可以订阅HTTP回调以对该树的所有更改。一个或多个代理器在集群中组成代理组。为满足容错性,各代理器都采用了分布式系统一致性协议,保证集群中无冲突配置的管理。协调器,用于提供跟踪系统访问入口,负责查询请求的解析、执行计划的优化与协调集群任务的执行;数据库服务器:负责数据的物理存储以及响应协调器的查询请求。数据库服务器托管分片数据,并执行同步复制。
本发明实施例3所示方法包括以下步骤:
S301:接收应用服务器发来的交互请求,将交互请求分类为读请求和写请求;将读请求发送至从服务器,将写请求发送至主服务器。
示例性的,跟踪系统发起读请求或者写请求,跟踪系统将用户发起的请求发送至应用服务器。应用服务器该请求发送至协调器,协调器根据请求对象的不同,以及属于读请求还是写请求,将该请求发送至对应的主服务器,或者对应的从服务器。例如,主服务器A主要负责地图信息的写请求,从服务器B主要负责商铺信息的读操作,协调器在接收到针对请求对象为地图信息的写请求时,将该请求调配至主服务器A,针对其他的请求,也按照上述方案进行处理。
进一步的,在实际应用中,为了提高主服务器的可靠性,增加了以下步骤:
从主服务器中抽取出第一主服务器以及第二主服务器,其中,第一主服务器以及第二主服务器的数量包括但不仅限于1个,20个,或者100个。将第一主服务器中的被执行写请求并发大于设定阈值,且执行写请求耗时大于设定耗时的请求对象作为活动对象,将活动对象备份在第二主服务器中。可以理解的是,第二主服务器并不是预先设置的用于分布式存储活动对象的主服务器,而是没有存储活动对象的主服务器。再将活动对象的备份信息同步至调度器,所述调度器用于在第一主服务器的并发达到上限时,将针对活动对象的写请求调度至第二主服务器。
例如,系统包括n个主服务器,系统筛选每一个主服务器中的请求对象,统计针对该请求对象的写请求的并发量p,以及该主服务器处理针对该请求对象的写请求的耗时c;在并发量p是否大于1000次每秒,且每执行一次写请求的耗时c大于20ms时,判定该请求对象活动对象,然后将具有活动对象的各个主服务器作为第一主服务器;将不具备活动对象的主服务器作为第二主服务器;然后,将活动对象拷贝至第二主服务器中。
调度器实时获取各个主服务器的实时并发量,同时调度器也存储有各个请求对象的存储主服务器的标识信息。以第一主服务器A为例,当第一主服务器A的并发量达到并发的上限时,说明第一主服务器A不能再接收调度器调度的写请求了,因此,调度器会将原本应当调度至第一主服务器A的写请求调度至其他具备活动对象的主服务器中。在其他其他具备活动对象的主服务器也达到了并发的上限时,调度器会将原本应当调度至第二主服务器。
应用本发明上述实施例,将第一主服务器中筛选出的活动对象存储到第二主服务器中,在并发能力不足时,由第二主服务器提供并发能力,提高了系统的吞吐量,避免了高并发下的系统宕机,进而提高了系统的可靠性。同时,本发明实施例实时监测以实现活动对象的生成与备份,进而实现了第二主服务器的动态生成,进而可以自适应的根据并发情况提高系统的吞吐量。
更进一步的,可将可用并发能力最强的主服务器作为第二主服务器,例如,统计各个未存储活动对象的主服务器的历史并发量,将历史并发量占并发上限比值最低的主服务器作为第二主服务器。应用本发明上述实施例,可以最大可能的提高针对活动对象的并发能力。
类似的,在进行从服务器的读请求的执行中也可以使用上述方法,本发明实施例再次不再进行赘述。
S302:根据交互请求的知识图谱数据被读写的次数,从各个主服务器以及各个从服务器中筛选出高频访问数据,将所述高频访问数据备份到当前备份服务器中。
具体的,针对每一台主服务器,统计该主服务器中存储的知识图谱数据被执行写请求的并发数据,判断该并发数据是否大于预设阈值,若是,将该知识图谱数据设为高频访问数据,若否,判断下一个知识图谱数据,装置将主服务器中的所有知识图谱数据都判断完成。类似的针对从服务器中的知识图谱数据,逐一判断该知识图谱数据被执行读请求的并发数据,然后,得到从服务器中存储的知识图谱数据中的高频访问数据。
从所有高频访问数据中,获取最高并发量,将最高并发量作为筛选主服务器以及筛选从服务器的标准,将并发能力高于最高并发量的主服务器或者从服务器作为当前备份服务器。当然,在实际应用中,可以将每一个时刻时高频访问数据的被执行写请求或者读请求的并发量的累计之和计算出针对高频访问数据的每一个时刻的总并发量,根据总并发量筛选出当前备份服务器。
在确定备份服务器之后,还需要周期性监测当前备份服务器的并发能力是否小于高频访问数据的并发量,若是,从当前从主服务器中以及从服务器的集合中选择出并发能力不小于高频访问数据的并发量的服务器作为替代备份服务器。可以理解的是,监测当前备份服务器的并发能力是否小于高频访问数据的并发量可以为监测当前备份服务器的并发能力是否小于高频访问数据每一时刻的总并发量。
控制替代服务器与当前备份服务器在闲时,如针对替代服务器与当前备份服务器的并发量最低时进行数据置换,并将当前备份服务器转为主服务器或者从服务器,将数据置换后的替代服务器作为当前备份服务器;这样就可以完成将替代服务器中的数据转存到当前备份服务器,将当前备份服务器的数据转存到替代服务器中。
将当前备份服务器的标识信息广播至所有的主服务器以及从服务器。所有的主服务器以及从服务器均可以知晓知识图谱数据的备份的存储位置,以进行数据的同步。
进一步的,可以获取替代服务器与当前备份服务器之间的剩余通信带宽、替代服务器第一剩余存储空间以及当前备份服务器的第二剩余存储空间;
获取第一剩余存储空间与第二剩余存储空间之间的最小值,利用公式,M=tb/min*B*k,计算出属性信息量,其中,M为属性信息量;t为预设安全通信时长;b为剩余通信带宽;min为取第一剩余存储空间与第二剩余存储空间之间的最小值;B为当前时刻之前设定时段内的历史平均剩余通信带宽;k为预设属性信息量调节系数。
控制替代服务器将属性信息量大小的第一数据置换单元同步至当前备份服务器,控制当前备份服务器将属性信息量大小的第二数据置换单元同步至替代服务器;替代服务器以及当前备份服务器分别验证第二数据置换单元以及第一数据置换单元是否出现错误;
若否,返回执行控制替代服务器将属性信息量大小的第一数据置换单元同步至当前备份服务器的步骤;
若是,当前备份服务器以及替代服务器分别进行出现错误的数据坏点的修复,在修复完成后,返回执行控制替代服务器将属性信息量大小的第一数据置换单元同步至当前备份服务器的步骤,装置替代服务器以及当前备份服务器中的知识图谱数据都被置换。在进行数据置换的过程中,每一次置换均将属性信息量大小的数据进行置换,通常情况下,属性信息量远远小于替代服务器或者当前备份服务器中存储的知识图谱数据的总量。
应用本发明上述实施例,可以根据实际情况调节数据置换过程中每一次置换时发送的数据量的大小,提高系统的稳定性。
S303:在主服务器中的服务器之一负载超限时将当前备份服务器转为主服务器使用;在从服务器中的服务器之一负载超限时,将当前备份服务器转为从服务器使用。
是理性的,可以将服务器的负载达到最大负载的95%作为负载超限的判断标准,当主服务器中的服务器之一负载达到95%时将当前备份服务器转为主服务器使用;在从服务器中的服务器之一负载达到95%时,将当前备份服务器转为从服务器使用。
进一步的,所述将所述高频访问数据备份到当前备份服务器中,包括:
针对高频访问数据中的每一个知识图谱数据,获取与高频访问数据存在关联关系的其他知识图谱数据,根据所述关联关系、所述知识图谱数据以及其他知识图谱数据生成对应的关系型数据;针对每一个关系型数据所属关系类型,将关系型数据聚类分类,得到若干个聚类集合;为每一个聚类集合分配至少一个存储容量不小于聚类集合总数据量的当前备份服务器中。
例如,高频访问数据中包含了知识图谱数据1、知识图谱数据2、知识图谱数据3;而知识图谱数据1与知识图谱数据11之间存在关联关系共同组成关系型数据1,知识图谱数据11可以存储在主服务器中也可以存储在从服务器中。类似的,进而得到知识图谱数据2以及知识图谱数据3分别对应的关系型数据2、以及关系型数据3.。
然后利用聚类算法对各个关系型数据进行聚类,得到各个聚类集合。由于不同的聚类集合中包含的数据量存在区别,而且不同的服务器的存储容量也有区别,因此,为了将属于同一个聚类集合的关系型数据存储在同一个服务器上,需要保证存储聚类集合的当前备份服务器的存储容量大于聚类集合中包含的数据量。
利用高频数据筛选、关系型数据对应知识图谱数据提取,以及关系型数据聚类三个技术特征的叠加作用,实现了高频数据的快速访问,同时避免了关系型数据被切分数据分片导致的数据被割裂的问题。
更进一步的,所述将关系型数据聚类分类,得到若干个聚类集合,包括:
针对每一个关系型数据所属关系类型,将关系型数据聚类分类,得到关系型数据初始集合;
以关系型数据中包含的知识图谱数据所属类型作为空间维度,以知识图谱数据的值为坐标,将初始集合中的各个关系型数据映射为高维空间中的点,获取各点组成的点集的质心,以质心为中心,各点到质心的平均半径为半径形成的球状范围之内的点对应的关系型数据的集合作为聚类集合;将初始集合中除聚类集合之外的关系型数据存储在与聚类集合对应的当前备份服务器延迟最短的其他备份服务器中,并建立当前备份服务器到所述其他备份服务器的映射关系。将除聚类集合之外的关系型数据存储在与聚类集合对应的当前备份服务器延迟最短的其他备份服务器中,当用户向当前备份服务器发送读写请求时,当前备份服务器未查询到对应的关系型数据时,将读写请求转发到其他备份服务器,相对于由调度器根据当前备份服务器返回的无查询到的响应,并根据该响应向其他备份服务器发送读写请求,需要执行一次接收,两次发送,占用了较多的调度资源,本发明实施例直接将读写请求发送至其他备份服务器,调度器仅需要执行一次读写请求的发送,节省调度资源,同时充分利用了当前备份服务器与其他备份服务之间的内部带宽,进而提高了系统的并发能力。
另外,应用本发明实施例,可以使相近的数据存储在同一个当前备份服务器中,提高检索效率。
本发明通过建立备份服务器,并将高频访问数据备份在备份服务器中,在主服务器或者从服务器并发不足时,将备份服务器作为主服务器或者从服务器使用以支持并发能力的扩增,相对于现有技术中分别设置一台主服务器和从服务器的备份,实现了单台备份服务器或者的有针对性的双功能切换,提高了针对高频访问数据的并发能力的同时,减少了服务器数量降低了服务器成本。
实施例4
对应于本发明实施例1-3任一实施例,本发明实施例4还提供了基于活动对象信息挖掘的智能追踪系统,所述系统包括:
采集模块,用于采集活动对象的属性信息并存储,其中,所述属性信息包括行为、生理信息中的一种或组合;
提取模块,用于提取活动对象属性信息中的语义信息,根据所述语义信息构建活动对象的知识图谱;
跟踪模块,用于基于知识图谱数据进行活动对象的倾向性预测,根据倾向性预测结果实现活动对象。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于活动对象信息挖掘的智能追踪方法,其特征在于,所述方法包括:
采集活动对象的属性信息并存储,其中,所述属性信息包括行为、生理信息中的一种或组合;
提取活动对象属性信息中的语义信息,根据所述语义信息构建活动对象的知识图谱;
基于知识图谱数据进行活动对象的倾向性预测,根据倾向性预测结果实现活动对象。
2.根据权利要求1所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,所述采集活动对象的属性信息,包括:
Kubernetes集群分发数据采集任务至Docker集群中的目标Docker,其中,分布式云爬虫平台的Docker集群部署并运行于Kubernetes集群上,所述Docker集群和所述Kubernetes集群均位于云端;
所述目标Docker启动网络爬虫云服务,以使所述网络爬虫云服务根据数据采集任务从互联网中抓取活动对象的属性信息,其中,所述网络爬虫云服务包括:网页请求云服务和无头浏览器云服务。
3.根据权利要求2所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,所述Docker包括:调度模块、采集模块、解析模块和存储模块;
所述调度模块调度所述采集模块从互联网中抓取活动对象的属性信息,所述采集模块发送抓取的数据至所述解析模块进行解析,所述解析模块将解析后的数据发送至所述存储模块并反馈至所述调度模块。
4.根据权利要求1所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,活动对象属性信息的存储方法包括:
获取每一应用的属性信息,并提取所获取的属性信息的关键词序列;
对所述关键词序列中的近义词进行识别,并将所识别的语义相近的关键词作为一个集合;
基于语义相近的关键词的相似度,确定每一集合中的代表词;
以代表词替换所有关键词序列中的对应于集合中的关键词,得到更新后的关键词序列;
获取每一应用的属性信息,并将每一类型数据转换为文本;
对每一类型数据对应的文本进行关键词提取,获得对应的关键词序列;
使用更新后的关键词序列作为对应属性信息的属性信息。
5.根据权利要求4所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,在所述属性信息为视频数据时;所述将每一类型数据转换为文本的步骤,包括:
对该类型数据进行分割,获得音频数据和图像数据,其中,所述图像数据包括每一帧图像中的图像特征;
将所述音频数据和图像数据转换为文本数据。
6.根据权利要求1所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,所述提取活动对象属性信息中的语义信息,包括:
接收属性信息,其中,所述属性信息包括:结构化数据和/或非结构化数据;
对所述属性信息进行语义抽取,得到抽取后的语义信息;
根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系;其中,所述抽取规则包括:实体类型识别规则,其中,所述实体类型识别规则的更新基于增量式聚类方法实现。
7.根据权利要求6所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,所述根据所述语义信息和抽取规则,抽取知识图谱可识别的实体和关系,包括:
根据所述语义信息,获得所述语义信息对应的依存语法结构;
根据所述依存语法结构,确定所述依存语法结构对应的依存树,其中,所述依存树包括:对应实体的节点和对应实体间的依存关系的依存弧;
根据所述依存树和抽取规则,识别所述实体和所述依存关系的类型,获得知识图谱可识别的实体和关系。
8.根据权利要求7所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,所述增量式聚类方法包括:
确定实体相似度阈值、子实体类型阈值和时间片段的长度;
获取新时间片段内的实体特征,将所述实体特征传给MapReduce函数;
基于实体相似度、所述MapReduce函数,输出新产生的实体类型、子实体类型编号和特征向量,并更新已有实体类型和子实体类型的特征向量,添加新产生的实体类型和子实体类型。
9.根据权利要求1所述的基于活动对象信息挖掘的智能追踪方法,其特征在于,应用于高并发分流系统中的协调器,所述系统包括:两两通信的代理器、协调器、数据库服务器,且所述数据库服务器包括主服务器、从服务器以及当前备份服务器,所述方法包括:
接收应用服务器发来的交互请求,将交互请求分类为读请求和写请求;将读请求发送至从服务器,将写请求发送至主服务器;
根据交互请求的知识图谱数据被读写的次数,从各个主服务器以及各个从服务器中筛选出高频访问数据,将所述高频访问数据备份到当前备份服务器中;
在主服务器中的服务器之一负载超限时将当前备份服务器转为主服务器使用;在从服务器中的服务器之一负载超限时,将当前备份服务器转为从服务器使用。
10.基于活动对象信息挖掘的智能追踪系统,其特征在于,所述系统包括:
采集模块,用于采集活动对象的属性信息并存储,其中,所述属性信息包括行为、生理信息中的一种或组合;
提取模块,用于提取活动对象属性信息中的语义信息,根据所述语义信息构建活动对象的知识图谱;
跟踪模块,用于基于知识图谱数据进行活动对象的倾向性预测,根据倾向性预测结果实现活动对象。
CN202210640830.5A 2022-06-08 2022-06-08 基于活动对象信息挖掘的智能追踪方法与系统 Pending CN114996549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210640830.5A CN114996549A (zh) 2022-06-08 2022-06-08 基于活动对象信息挖掘的智能追踪方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210640830.5A CN114996549A (zh) 2022-06-08 2022-06-08 基于活动对象信息挖掘的智能追踪方法与系统

Publications (1)

Publication Number Publication Date
CN114996549A true CN114996549A (zh) 2022-09-02

Family

ID=83033041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210640830.5A Pending CN114996549A (zh) 2022-06-08 2022-06-08 基于活动对象信息挖掘的智能追踪方法与系统

Country Status (1)

Country Link
CN (1) CN114996549A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226494A (zh) * 2023-04-21 2023-06-06 一铭寰宇科技(北京)有限公司 一种用于信息搜索的爬虫系统及方法
CN116595155A (zh) * 2023-07-17 2023-08-15 中国矿业大学(北京) 基于标准数字化的突发事件智能应急辅助决策方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226494A (zh) * 2023-04-21 2023-06-06 一铭寰宇科技(北京)有限公司 一种用于信息搜索的爬虫系统及方法
CN116226494B (zh) * 2023-04-21 2023-09-12 一铭寰宇科技(北京)有限公司 一种用于信息搜索的爬虫系统及方法
CN116595155A (zh) * 2023-07-17 2023-08-15 中国矿业大学(北京) 基于标准数字化的突发事件智能应急辅助决策方法和系统
CN116595155B (zh) * 2023-07-17 2023-11-14 中国矿业大学(北京) 基于标准数字化的突发事件智能应急辅助决策方法和系统

Similar Documents

Publication Publication Date Title
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
US10599719B2 (en) System and method for providing prediction-model-based generation of a graph data model
US20210342350A1 (en) System and method for reducing resource usage in a data retrieval process
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN112131449B (zh) 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN114996549A (zh) 基于活动对象信息挖掘的智能追踪方法与系统
CN109947902B (zh) 一种数据查询方法、装置和可读介质
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN111708774A (zh) 一种基于大数据的产业分析系统
CN111259220A (zh) 一种基于大数据的数据采集方法和系统
JP2024041902A (ja) マルチソース型の相互運用性および/または情報検索の最適化
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN113656647A (zh) 一种面向智能运维的工程档案数据管理平台、方法及系统
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
KR102540944B1 (ko) 메타데이터를 활용한 인공지능 기반 문서관리 및 통합 검색 지원 디지털 콘텐츠 시스템
US20220156228A1 (en) Data Tagging And Synchronisation System
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
Amato et al. Semantic summarization of news from heterogeneous sources
Solaimani et al. Near real-time atrocity event coding
Djebouri et al. Exploitation of ontological approaches in Big Data: A State of the Art
KR102301969B1 (ko) 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
Seidler et al. MOSAIC: Criminal network analysis for multi-modal surveillance and decision support
CN115203510A (zh) 暗网监测与分析系统
Yang Research on Internet Public Opinion Analysis Technology in the New Media Era Based on Hadoop Platform
Bafaqeer et al. Semantic Agent Based Knowledge Discovery from Big Data on the Web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination