CN111897947A - 一种基于开源信息的数据分析处理方法及装置 - Google Patents

一种基于开源信息的数据分析处理方法及装置 Download PDF

Info

Publication number
CN111897947A
CN111897947A CN202010753835.XA CN202010753835A CN111897947A CN 111897947 A CN111897947 A CN 111897947A CN 202010753835 A CN202010753835 A CN 202010753835A CN 111897947 A CN111897947 A CN 111897947A
Authority
CN
China
Prior art keywords
knowledge
information
keyword
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010753835.XA
Other languages
English (en)
Inventor
刘一舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chengying Data Technology Co ltd
Original Assignee
Hangzhou Chengying Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chengying Data Technology Co ltd filed Critical Hangzhou Chengying Data Technology Co ltd
Priority to CN202010753835.XA priority Critical patent/CN111897947A/zh
Publication of CN111897947A publication Critical patent/CN111897947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于开源信息的数据分析处理方法及装置,其中,所述方法包括:获取用户提供的关键词并在预设的知识图谱中对所述关键词进行遍历,获取所述关键词对应的知识扩展信息;根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则;根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果。

Description

一种基于开源信息的数据分析处理方法及装置
技术领域
本说明书涉及网络信息技术领域,特别涉及一种基于开源信息的数据分析处理方法及装置、计算设备及计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,网络信息的数据量呈爆炸式的增长,许多机构或者企业在处理开源信息上都存在以下痛点:信息监测效果有限,即传统的舆情监测平台在面对大量开源数据时虚警率高且处理手段偏宏观,使得其舆情监测效果有限;数据分析耗费人力,即在处理网络开源信息时人工查询及分析的工作量巨大,导致人工审核精力不足且缺少可用工具平台;缺少对风险研究判断的支持,由于发布者的意图和信息走向复杂,导致事件链路、背景知识和实时数据之间缺少自动关联从而难以准确研究判断;信息沉淀有待提升,即缺少对历史信息进行统一关联和管理的手段,使得数据、模式和经验沉淀不足。
在处理开源信息上,目前市场上仍然以传统的舆情产品为主,传统的舆情产品仍沿用旧有热点舆情追踪模式,即根据关键词规则锁定信息,分析整体舆情态势,然而该种模式未触及文本或图像内容的实体层面,无法对信息进行深度挖掘和分析。
发明内容
有鉴于此,本说明书实施例提供了一种基于开源信息的数据分析处理方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种基于开源信息的数据分析处理方法,包括:
获取用户提供的关键词并在预设的知识图谱中对所述关键词进行遍历,获取所述关键词对应的知识扩展信息;
根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则;
根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果。
根据本说明书实施例的第二方面,提供了一种基于开源信息的数据分析处理装置,包括:
信息扩展模块,被配置为获取用户输入的关键词,基于预设的知识图谱对所述关键词进行扩展,得到与所述关键词对应的知识扩展信息;
规则构建模块,被配置为根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则;
分析处理模块,被配置为根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析处理结果。
根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述基于开源信息的数据分析处理方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述基于开源信息的数据分析处理方法的步骤。
本申请通过构建知识图谱对用户输入的关键词进行挖掘和推理,获取与关键词存在关系的知识扩展信息,从而使得本申请的方法能够在感知用户需求的基础上进行智能化认知,洞察开源大数据背后的实体关系,从而对用户输入的关键词进行扩展,准确得获知用户的业务需求。
此外,本申请能够基于所述知识图谱从开源信息数据中获取与用户的业务需求对应的知识领域信息进行分析和处理,通过关键词进行扩展丰富知识规则的语义信息,从而通过配置不同的知识规则获取贴近用户的业务需求的数据分析处理结果。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的数据分析处理方法的流程图;
图3是本申请实施例提供的数据分析处理方法的另一流程图;
图4是本申请实施例提供的数据分析处理方法的示意图;
图5是本申请实施例提供的数据分析处理方法的另一流程图;
图6是本申请实施例提供的数据分析处理方法的另一示意图;
图7是本申请实施例提供的数据分析处理方法的示意图;
图8是本申请实施例提供的数据分析处理装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
知识图谱:知识图谱:即Knowledge Graph,一种语义网络,旨在描述客观世界的概念实体及其之间的关系,是结构化的语义知识库(Knowledge Base),用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是三元组,以及实体及其相关属性和属性值,实体间通过关系相互联结,构成网状的知识结构。
实体:指存在于现实世界中并且可以与其他物体区分开来的物体,如人或组织。
关系:不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。
属性:从一个实体指向它的属性,不同的属性类型对应于不同类型属性的边,例如“面积”、“人口”、“首都”是几种不同的属性,属性值主要指对象指定属性的值,例如960万平方公里等。
信息:指呈现在产品页面中的非结构化和/或结构化的文本、图片、视频数据
信息数据源:指文本、图片、视频数据来源的平台/网站,包括但不限于媒体、政府官网、社交平台、企业官网等。
风险:指可能会对用户利益、用户形象产生负面影响的信息。
档案:指用户通过分析、编辑后沉淀的信息,如人员画像、账号画像、事件原委等。
事件:指具备人员/组织、行为时间、行为地点、行为动作、行为对象的集合体。
要素:指文本、图片、视频中有业务价值的数据单元。如时间、地点、人名、社交号码、邮箱、手机号、通讯地址、微信号、身份证号、护照号等。
账号:指在网络空间中,发布文章或短文本的社交账号,或发表报道的媒体作者,常以姓名或昵称的形式呈现。但民众对其现实中的真实身份和/或背景未知,故称其为账号。
规则:通过业务探索和/或反复验证后沉淀的、可被技术自动化实现的法则。规则的确立是个不断优化的过程。
人员:指实施具体行为的个体。
组织:指领导人员和/或其他有明确职责的人员为实现共同目标而形成的集合体。
知识融合:通过知识提取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标。但是由于知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、层次结构缺失等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
知识规则:在特定知识领域内的特定条件或规则,例如政务领域中的行政规则、公务员的职务和职级规则等。
知识领域:包含特定知识内容的平行领域或垂直领域、例如政务领域、音乐领域、法律领域或体育领域等。
在本申请中,提供了一种基于开源信息的数据分析处理方法及装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的基于开源信息的数据分析处理方法的示意性流程图,包括步骤202至步骤206。
步骤202:获取用户提供的关键词并在预设的知识图谱中对所述关键词进行遍历,获取所述关键词对应的知识扩展信息。
在本申请的一个实施例中,本申请基于大数据分析处理平台首先获取用户输入的关键词,并基于预设的知识图谱对所述关键词进行扩展,从而得到与所述关键词对应的知识扩展信息,例如,用户可以利用本申请的大数据分析处理平台进行舆情分析,用户输入关键词“篮球世界杯”,则平台能够得到与所述关键词对应的知识扩展信息如“美国队”、“中国队”、“姚明”或“易建联”等。
步骤204:根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则。
在本申请的一个实施例中,本申请的大数据分析处理平台能够根据所述知识扩展信息从开源领域内的信息数据中获取与知识扩展信息以及所述关键词对应的知识领域信息,其中,所述开源信息数据包括互联网数据、从第三方(数据库)购买的数据以及合作方提供数据,例如,基于知识扩展信息如“美国队”、“中国队”、“姚明”或“易建联”以及关键词“篮球世界杯”,本申请的平台能够得到与篮球和/或世界杯相关的知识领域信息。
在本申请的一个实施例中,本申请的大数据分析处理平台能够根据所述知识扩展信息,对现有的所述知识领域信息对应的知识规则进行动态调整与优化,从而所述知识领域信息对应的知识规则。
步骤206:根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果。
在本申请的一个实施例中,本申请的大数据分析处理平台基于所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析处理结果,从而满足用户的业务需求,并根据用户的反馈进一步的对知识图谱进行完善和挖掘,例如,用户在获取了关于“男篮世界杯”的舆情分析结果之后,至阅读的某些特定的文章或者有重新进行了二次搜索,则本申请的平台可以基于用户的二次操作中获取新的知识单元从而对知识图谱进行更新。
本申请通过构建知识图谱对用户输入的关键词进行挖掘和推理,获取与关键词存在关系的知识扩展信息,从而使得本申请的方法能够在感知用户需求的基础上进行智能化认知,洞察开源大数据背后的实体关系,从而对用户输入的关键词进行扩展,准确得获知用户的业务需求,同时,本申请能够基于所述知识图谱从开源信息数据中获取与用户的业务需求对应的知识领域信息进行分析和处理,通过关键词进行扩展丰富知识规则的语义信息,从而通过配置不同的知识规则获取贴近用户的业务需求的数据分析处理结果。
在本申请的一个实施例中,如图3所示,在获取用户输入的关键词之前,还包括步骤302至步骤306:
步骤302:从信息数据源获取所述开源信息数据。
在本申请的一个实施例中,本申请的大数据分析处理平台能够采集面向开源领域的开源信息数据,例如自然语言文本或者多媒体内容的文档等,并将获取到的原始的开源信息数据作为后续进行知识库构建的基础。
步骤304:对所述开源信息数据进行分析处理,从所述开源信息数据中抽取出多个知识单元。
在本申请的一个实施例中,本申请的大数据分析处理平台通过自动化或者半自动化的人工智能手段对所述开源信息数据进行分析处理,以便从所述开源信息数据中抽取出多个可用的知识单元,所述知识单元包括实体、关系以及属性等知识要素,并以此为基础形成一系列高质量的事实知识表达,为知识图谱的构建奠定基础。
步骤306:基于所述多个知识单元构建所述知识图谱。
在本申请的一个实施例中,本申请的大数据分析处理平台将算法处理结合人工校正利用,通过人机交互反馈的方式抽取出的知识单元,所述知识单元包含实体、关系、属性、要素、风险、档案、事件和/或账号等,并基于所述多个知识单元构建知识图谱。
本申请的大数据分析处理平台能够针对不同的业务领域以插拔的方式提供对应的功能模块,从而对用户的业务需求进行分析和/或处理,解决用户的需求,例如,在用户的需求为舆情分析的情况下,本申请的平台能够基于用户输入的关键词通过构建好的知识图谱进行聚合分析和/或关键词扩展,以此丰富知识规则的语义信息,获取与用户输入的关键词存在关系的多个知识单元,从而对用户输入的关键词进行深度挖掘和/或分析。
图4示出了本说明书一实施例的基于开源信息的数据分析处理方法,该基于开源信息的数据分析处理方法以对基于开源信息的数据分析处理为例进行描述,包括步骤402至步骤408。
步骤402:从信息数据源获取非结构化数据,所述非结构化数据包括文本数据、图像数据和/或视频数据。
在本申请的一个实施例中,如图5所示,本申请的大数据分析处理平台能够从信息数据源等开源领域获取包含文本数据、图像数据和/或视频数据在内的非结构化数据,所述信息数据源包括互联网数据、第三方购买和/或合作方提供等。
步骤404:基于预设的文本算法、图像算法和/或视频算法对所述非结构化数据进行结构化处理,从所述非结构化数据中抽取出包括实体、关系、属性和/或事件在内的知识单元。
在本申请的一个实施例中,如图5所示,本申请的大数据分析处理平台通过文本算法、图像算法和/或视频算法分别对文本数据、图像数据和/或视频数据进行结构化处理,达到对所述非结构化数据进行自动识别和/或信息推荐的目的,具体的,所述文本算法可以是预先通过有监督的及其学习训练好的文本聚类模型、实体命名识别模型(Named EntityRecognition)、内容风险识别模型等,所述图像算法可以是光学字符识别模型(OpticalCharacter Recognition)和/或人脸对比模型等等,所述视频算法可以是基于深脸算法(Deep Face)的人脸识别模型,上述模型均会针对业务领域的不同进行专项训练及微调,比如相关的参数、神经网络拓扑以及标签数据等内容进行调整。
步骤406:根据辅助信息对所述包括实体、关系、属性和/或事件在内的知识单元进行知识融合。
在本申请的一个实施例中,如图5所示,本申请的大数据分析处理平台构建用于存放知识单元的知识库,在知识库中包括实体集合和/或文档集合,在所述实体集合中存放有包括人员、组织、物品和/或场景等在内的实体,在所述文档集合中个存放有文本语料以及事件等,然后根据人机交互反馈的方式过程中产生的辅助信息对所述包括实体、关系、属性和/或事件在内的知识单元进行校正,实现知识对齐和/或知识融合,通过数据挖掘算法对现有的知识单元进行关系挖掘、频繁字图挖掘和/或连接补全等操作,以获取新的人员、文档、组织、事件或者物品等,例如,从文本语料中获取XX公司的首席执行官为小明,则可以挖掘出实体“XX公司”和/或实体“小明”,以及两者之间的关系“职位(首席执行官)”,又例如,小明的爸爸是大明,大明的爸爸是老明,则系统可以推算出小明和/或老明之间存在实体链接关系。
步骤408:以知识融合后的所述实体和属性为节点,以所述关系为边构建知识图谱。
本申请通过获取大量的文本、图像与视频等信息,比传统结构化数据的信息量具有明显的优势,通人工智能算法模型对大数据进行处理,减少了人工耗费,提高了运算效率,通过对知识库进行关系挖掘和连接补全,能够触及文本以及图像内容的实体层面,实现了对信息的深度挖掘和分析。
图6示出了本说明书一实施例的基于开源信息的数据分析处理方法,该基于开源信息的数据分析处理方法以对基于开源信息的数据分析处理为例进行描述,包括步骤602至步骤622。
步骤602:获取用户输入的关键词,从所述预设的知识图谱中获取至少一个包含有所述关键词的三元组。
在本申请的一个实施例中,本申请的大数据分析处理平台从所述预设的知识图谱中获取至少一个包含有所述关键词的三元组,所述三元组包括(实体,关系,实体)或者(实体,关系,属性)等。
步骤604:从所述包含有所述关键词的三元组中获取与所述关键词存在关系的包括实体、关系、属性和事件在内的第一知识单元。
在本申请的一个实施例中,本申请的大数据分析处理平台将所述关键词作为实体,获取与所述关键词存在关系的包括实体、关系、属性和事件在内的第一知识单元,其中,所述第一只是单元可以是与用户输入的关键词具有关联性的知识单元,其中,知识单元是指构成整个知识集合系统的最基本单元形态。即独立表达某种最基本思维对象的形象、属性、关系的意象、概念和事物。应当说明的是,这是从人类所能具有的抽象思维、形象思维、直觉思维来定义的,而不是指某一种思维。因此,知识单元应当是概念、意象、事物及其集合态。即与大脑内部主观知识形态的所有知识单元相对应。
步骤606:对所述事件进行事件抽取,得到与所述关键词存在关系的第二知识单元。
在本申请的一个实施例中,本申请的大数据分析处理平台对所述包含在所述第一知识单元中的事件进行事件抽取,得到与所述关键词存在关系的第二知识单元,例如,对于某一事件A:“XXX州一军营当日发生爆炸,据初步消息,有2人死亡,15人受伤”。那么平台可以抽取出发生地为XXX州一军营,时间为当日(系统时间),死亡人数为2人,受伤人数为15人,得到与所述关键词存在关系的第二知识单元。
步骤608:将所述与所述关键词存在关系的实体、属性和/或第二知识单元作为与所述关键词对应的知识扩展信息。
步骤610:获取所述知识扩展信息,将所述知识扩展信息提供给用户并接收用户的筛选后的所述知识扩展信息。
在本申请的一个实施例中,本申请的大数据分析处理平台能够根据辅助信息所述知识扩展信息进行管理和/或编辑,从而实现对所述知识扩展信息的筛选。
步骤612:根据筛选后的所述知识扩展信息确定用户的业务分析需求以及业务分析领域。
步骤614:根据所述用户的业务分析需求以及业务分析领域从所述开源信息数据中获取对应的知识领域信息。
在本申请的一个实施例中,本申请的大数据分析处理平台能够所述知识扩展信息确定用户真正的意图,通过人机交互的方式找出用户的业务需求以及业务领域,并获取对应的知识领域信息。
步骤616:根据所述知识规则对所述知识领域信息进行校验,获取满足所述知识规则的至少一个与所述关键词对应的知识单元。
步骤618:根据所述至少一个与所述关键词对应的知识单元构建所述关键词对应的数据分析结果。
在本申请的一个实施例中,本申请的大数据分析处理平台以所述知识扩展信息的语义信息为基础,进行语义分析和理解,从而对所述知识领域信息对应的知识规则进行配置,并在配置完成后再次进行适当调整或者优化,从而沉淀出可被技术自动化实现的法则。
步骤620:根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析处理结果。
在本申请的一个实施例中,本申请的大数据分析处理平台基于所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析处理结果,从而满足用户的业务需求,并根据用户的反馈进一步的对知识图谱进行完善和/或挖掘,例如,用户在获取了关于“男篮世界杯”的舆情分析结果之后,至阅读的某些特定的文章或者有重新进行了二次搜索,则本申请的平台可以基于用户的二次操作中获取新的知识单元从而对知识图谱进行更新。
步骤622:对所述关键词对应的数据分析结果进行可视化展示。
在本申请的一个实施例中,本申请的大数据分析处理平台运用了大数据可视化、知识图谱化以及地理信息系统化等手段,同时开放了大量方便的人机交互接口,也实现了人与人之间的协同工作,提升了用户掌控数据的能力。
本申请的非结构化数据处理过程通过知识图谱中的关系遍历获取用户所输入语句后面的真正意图,不再拘泥于用户所输入请求关键字本身,而是透过现象看本质并以此来进行搜索与挖掘,同时,本申请的知识图谱许用户搜索引擎知道的所有事物、人物或者位置信息,而且能够显示查询的实时信息,体现了开源大数据的本质语义关联,比传统的关系型数据库更加自由多样化,更适合于关系发掘。
在本申请的另一个实施例中,如图7所示,本申请的大数据分析处理平台由下至上一次包括数据源层、采集加工层、数据层、接口层和应用层,所述数据源层能够采集面向开源领域的开源信息数据,例如自然语言文本或者多媒体内容的文档等,并将获取到的原始的开源信息数据作为后续进行知识库构建的基础,所述采集加工层通过自动化或者半自动化的人工智能手段对所述开源信息数据进行分析处理,以便从所述开源信息数据中抽取出多个可用的知识单元,例如Flink onYarn运行模式的管道、爬虫工具以及算法、模型或者规则等,所述数据层基于所述多个知识单元构建知识图谱,通过Hadoop集群进行结构化存储,并由人工进行监控、档案管理以及权限管理等操作,所述接口层和应用层能够针对不同业务领域以插拔的方式提供对应的功能模块,例如才接口层包括数据共享、数据挖掘、多维分析、实时分析以及基础分析等多个接口,在应用层对应包括多维检索、专题定制及分析、信息处理、风险分析、情报定制和指标计算等功能模块,申请的大数据分析处理平台通过人机交互反馈的方式获取用户的目标分析语句中的目标关键词,从而确定用户的业务需求和业务领域,例如舆情分析,本申请的知识图谱允许用户搜索知识库知道的所有事物、人物或者位置信息,而且能够显示查询的实时信息,通过与所述业务领域对应的知识规则在所述知识图谱进行搜索,得到所述业务需求对应的数据分析处理结果。
与上述方法实施例相对应,本说明书还提供了基于开源信息的数据分析处理装置实施例,图8示出了本说明书一个实施例的基于开源信息的数据分析处理装置的结构示意图。如图8所示,该装置包括:
信息扩展模块801,被配置为获取用户提供的关键词并在预设的知识图谱中对所述关键词进行遍历,获取所述关键词对应的知识扩展信息;
规则构建模块802,被配置为根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则;
分析处理模块803,被配置为根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果。
可选的,所述装置还包括:
数据源模块,被配置为从信息数据源获取开源信息数据;
采集及加工模块,被配置为对所述开源信息数据进行分析处理,从所述开源信息数据中抽取出多个知识单元;
图谱构建模块,被配置为基于所述多个知识单元构建知识图谱。
可选的,所述数据源模块包括:
数据采集单元,被配置为从信息数据源获取非结构化数据,所述非结构化数据包括文本数据、图像数据和/或视频数据;
所述采集及加工模块包括:
知识抽取单元,被配置为基于预设的文本算法、图像算法和/或视频算法对所述非结构化数据进行结构化处理,从所述非结构化数据中抽取出包括实体、关系、属性和/或事件在内的知识单元。
可选的,所述图谱构建模块包括:
交互反馈单元,被配置为根据辅助信息对所述包括实体、关系、属性和/或事件在内的知识单元进行知识融合;
图谱构建单元,被配置为以知识融合后的所述实体和属性为节点,以所述关系为边构建知识图谱。
可选的,所述信息扩展模块801包括:
知识获取单元,被配置为从所述预设的知识图谱中获取至少一个包含有所述关键词的三元组;
事件抽取单元,被配置为从所述包含有所述关键词的三元组中获取与所述关键词存在关系的包括实体、关系、属性和事件在内的第一知识单元;
知识挖掘单元,被配置为对所述事件进行事件抽取,得到与所述关键词存在关系的第二知识单元;
知识构建单元,被配置为将所述与所述关键词存在关系的实体、属性和/或第二知识单元作为与所述关键词对应的知识扩展信息。
可选的,所述规则构建模块802包括:
业务需求获取单元,被配置为获取所述知识扩展信息,将所述知识扩展信息提供给用户并接收用户的筛选后的所述知识扩展信息;
业务需求捕捉单元,被配置为根据筛选后的所述知识扩展信息确定用户的业务分析需求以及业务分析领域;
业务需求确定单元,被配置为根据所述用户的业务需求以及业务领域获取对应的知识领域信息。
可选的,所述分析处理模块803包括:
规则校验单元,被配置为根据所述知识规则对所述知识领域信息进行校验,获取满足所述知识规则的至少一个与所述关键词对应的知识单元;
结果构建单元,被配置为根据所述至少一个与所述关键词对应的知识单元构建所述关键词对应的数据分析结果。
可选的,所述装置还包括:
可视化模块804,被配置为对所述关键词对应的数据分析处理结果进行可视化展示。
本申请通过构建知识图谱对用户输入的关键词进行挖掘和推理,获取与关键词存在关系的知识扩展信息,从而使得本申请的方法能够在感知用户需求的基础上进行智能化认知,洞察开源大数据背后的实体关系,从而对用户输入的关键词进行扩展,准确得获知用户的业务需求,同时,本申请能够基于所述知识图谱从开源信息数据中获取与用户的业务需求对应的知识领域信息进行分析和处理,通过关键词进行扩展丰富知识规则的语义信息,从而通过配置不同的知识规则获取贴近用户的业务需求的数据分析处理结果。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取用户输入的关键词,基于预设的知识图谱对所述关键词进行扩展,得到与所述关键词对应的知识扩展信息;
获取用户提供的关键词并在预设的知识图谱中对所述关键词进行遍历,获取所述关键词对应的知识扩展信息;
根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则;
根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述基于开源信息的数据分析处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述的基于开源信息的数据分析处理方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述基于开源信息的数据分析处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和/或并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和/或专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和/或专利实践,计算机可读介质不包括电载波信号和/或电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和/或模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和/或变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和/或实际应用,从而使所属技术领域技术人员能很好地理解和/或利用本申请。本申请仅受权利要求书及其全部范围和/或等效物的限制。

Claims (18)

1.一种基于开源信息的数据分析处理方法,其特征在于,包括:
获取用户提供的关键词并在预设的知识图谱中对所述关键词进行遍历,获取所述关键词对应的知识扩展信息;
根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则;
根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果。
2.根据权利要求1所述的方法,其特征在于,在获取用户输入的关键词之前,还包括:
从信息数据源获取所述开源信息数据;
对所述开源信息数据进行分析处理,从所述开源信息数据中抽取出多个知识单元;
基于所述多个知识单元构建所述知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述从信息数据源获取开源信息,包括:
从信息数据源获取非结构化数据,所述非结构化数据包括文本数据、图像数据和/或视频数据;
所述对所述开源信息数据进行分析处理,从所述开源信息数据中抽取出多个知识单元,包括:
基于预设的文本算法、图像算法和/或视频算法对所述非结构化数据进行结构化处理,从所述非结构化数据中抽取出包括实体、关系、属性和/或事件在内的知识单元。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个知识单元构建所述知识图谱,包括:
根据辅助信息对所述包括实体、关系、属性和/或事件在内的知识单元进行知识融合;
以知识融合后的所述实体和属性为节点,以所述关系为边构建知识图谱。
5.根据权利要求1所述的方法,其特征在于,所述基于预设的知识图谱对所述关键词进行扩展,得到与所述关键词对应的知识扩展信息,包括:
从所述预设的知识图谱中获取至少一个包含有所述关键词的三元组;
从所述包含有所述关键词的三元组中获取与所述关键词存在关系的包括实体、关系、属性和事件在内的第一知识单元;
对所述事件进行事件抽取,得到与所述关键词存在关系的第二知识单元;
将与所述关键词存在关系的实体、属性和/或第二知识单元作为与所述关键词对应的知识扩展信息。
6.根据权利要求5所述的方法,其特征在于,所述根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则,包括:
获取所述知识扩展信息,将所述知识扩展信息提供给用户并接收用户的筛选后的所述知识扩展信息;
根据筛选后的所述知识扩展信息确定用户的业务分析需求以及业务分析领域;
根据所述用户的业务分析需求以及业务分析领域从所述开源信息数据中获取对应的知识领域信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析处理结果,包括:
根据所述知识规则对所述知识领域信息进行校验,获取满足所述知识规则的至少一个与所述关键词对应的知识单元;
根据所述至少一个与所述关键词对应的知识单元构建所述关键词对应的数据分析结果。
8.根据权利要求1所述的方法,其特征在于,在根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果之后,还包括:
对所述关键词对应的数据分析结果进行可视化展示。
9.一种基于开源信息的数据分析处理装置,其特征在于,包括:
信息扩展模块,被配置为获取用户提供的关键词并在预设的知识图谱中对所述关键词进行遍历,获取所述关键词对应的知识扩展信息;
规则构建模块,被配置为根据所述知识扩展信息从开源信息数据中获取与所述关键词对应的知识领域信息,并根据所述知识扩展信息配置与所述知识领域信息对应的知识规则;
分析处理模块,被配置为根据所述知识规则从所述知识领域信息中获取所述关键词对应的数据分析结果。
10.根据权利要求9所述的方法,其特征在于,还包括:
数据源模块,被配置为从信息数据源获取开源信息数据;
采集及加工模块,被配置为对所述开源信息数据进行分析处理,从所述开源信息数据中抽取出多个知识单元;
图谱构建模块,被配置为基于所述多个知识单元构建知识图谱。
11.根据权利要求10所述的方法,其特征在于,所述数据源模块包括:
数据采集单元,被配置为从信息数据源获取非结构化数据,所述非结构化数据包括文本数据、图像数据和/或视频数据;
所述采集及加工模块包括:
知识抽取单元,被配置为基于预设的文本算法、图像算法和/或视频算法对所述非结构化数据进行结构化处理,从所述非结构化数据中抽取出包括实体、关系、属性和/或事件在内的知识单元。
12.根据权利要求11所述的方法,其特征在于,所述图谱构建模块包括:
交互反馈单元,被配置为根据辅助信息对所述包括实体、关系、属性和/或事件在内的知识单元进行知识融合;
图谱构建单元,被配置为以知识融合后的所述实体和属性为节点,以所述关系为边构建知识图谱。
13.根据权利要求9所述的方法,其特征在于,所述信息扩展模块包括:
知识获取单元,被配置为从所述预设的知识图谱中获取至少一个包含有所述关键词的三元组;
事件抽取单元,被配置为从所述包含有所述关键词的三元组中获取与所述关键词存在关系的包括实体、关系、属性和事件在内的第一知识单元;
知识挖掘单元,被配置为对所述事件进行事件抽取,得到与所述关键词存在关系的第二知识单元;
知识构建单元,被配置为将所述与所述关键词存在关系的实体、属性和/或第二知识单元作为与所述关键词对应的知识扩展信息。
14.根据权利要求13所述的方法,其特征在于,所述规则构建模块包括:
业务需求获取单元,被配置为获取所述知识扩展信息,将所述知识扩展信息提供给用户并接收用户的筛选后的所述知识扩展信息;
业务需求捕捉单元,被配置为根据筛选后的所述知识扩展信息确定用户的业务分析需求以及业务分析领域;
业务需求确定单元,被配置为根据所述用户的业务分析需求以及业务分析领域从所述开源信息数据中获取对应的知识领域信息。
15.根据权利要求14所述的方法,其特征在于,所述分析处理模块包括:
规则校验单元,被配置为根据所述知识规则对所述知识领域信息进行校验,获取满足所述知识规则的至少一个与所述关键词对应的知识单元;
结果构建单元,被配置为根据所述至少一个与所述关键词对应的知识单元构建所述关键词对应的数据分析结果。
16.根据权利要求9所述的方法,其特征在于,还包括:
可视化模块,被配置为对所述关键词对应的数据分析处理结果进行可视化展示。
17.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。
CN202010753835.XA 2020-07-30 2020-07-30 一种基于开源信息的数据分析处理方法及装置 Pending CN111897947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010753835.XA CN111897947A (zh) 2020-07-30 2020-07-30 一种基于开源信息的数据分析处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010753835.XA CN111897947A (zh) 2020-07-30 2020-07-30 一种基于开源信息的数据分析处理方法及装置

Publications (1)

Publication Number Publication Date
CN111897947A true CN111897947A (zh) 2020-11-06

Family

ID=73183430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010753835.XA Pending CN111897947A (zh) 2020-07-30 2020-07-30 一种基于开源信息的数据分析处理方法及装置

Country Status (1)

Country Link
CN (1) CN111897947A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966015A (zh) * 2021-02-01 2021-06-15 杭州博联智能科技股份有限公司 大数据分析处理和存储方法、装置、设备及介质
CN117973872A (zh) * 2024-02-08 2024-05-03 北京盘拓数据科技有限公司 供应链风险识别方法、装置、电子设备及存储介质
WO2024169406A1 (zh) * 2023-02-13 2024-08-22 深圳市优必选科技股份有限公司 人机对话方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220943A1 (en) * 2014-09-30 2017-08-03 Mentorica Technology Pte Ltd Systems and methods for automated data analysis and customer relationship management
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
US20180137775A1 (en) * 2016-11-11 2018-05-17 International Business Machines Corporation Evaluating User Responses Based on Bootstrapped Knowledge Acquisition from a Limited Knowledge Domain
CN109739964A (zh) * 2018-12-27 2019-05-10 北京拓尔思信息技术股份有限公司 知识数据提供方法、装置、电子设备和存储介质
CN110489565A (zh) * 2019-08-15 2019-11-22 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN111241835A (zh) * 2019-11-15 2020-06-05 上海景域文化传播股份有限公司 基于游客画像的一机游景点游客知识嵌入方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220943A1 (en) * 2014-09-30 2017-08-03 Mentorica Technology Pte Ltd Systems and methods for automated data analysis and customer relationship management
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
US20180137775A1 (en) * 2016-11-11 2018-05-17 International Business Machines Corporation Evaluating User Responses Based on Bootstrapped Knowledge Acquisition from a Limited Knowledge Domain
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN109739964A (zh) * 2018-12-27 2019-05-10 北京拓尔思信息技术股份有限公司 知识数据提供方法、装置、电子设备和存储介质
CN110489565A (zh) * 2019-08-15 2019-11-22 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN111241835A (zh) * 2019-11-15 2020-06-05 上海景域文化传播股份有限公司 基于游客画像的一机游景点游客知识嵌入方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
化柏林等: "智能情报分析系统的架构设计与关键技术研究", 《信息科技》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966015A (zh) * 2021-02-01 2021-06-15 杭州博联智能科技股份有限公司 大数据分析处理和存储方法、装置、设备及介质
CN112966015B (zh) * 2021-02-01 2023-08-15 杭州博联智能科技股份有限公司 大数据分析处理和存储方法、装置、设备及介质
WO2024169406A1 (zh) * 2023-02-13 2024-08-22 深圳市优必选科技股份有限公司 人机对话方法、装置及电子设备
CN117973872A (zh) * 2024-02-08 2024-05-03 北京盘拓数据科技有限公司 供应链风险识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
Rawat Logical concept mapping and social media analytics relating to cyber criminal activities for ontology creation
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
CN110569369A (zh) 银行金融系统知识图谱的生成方法及装置、应用方法及装置
CN113453611A (zh) 用于组织和查找数据的系统和方法
CN111897947A (zh) 一种基于开源信息的数据分析处理方法及装置
CN107783973A (zh) 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
US20220004871A1 (en) Data searching system and method
Camacho et al. New research methods & algorithms in social network analysis
KR20150096295A (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
Das et al. A CV parser model using entity extraction process and big data tools
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN113656647A (zh) 一种面向智能运维的工程档案数据管理平台、方法及系统
Chen et al. A web-based tool for collaborative social media data analysis
CN113239208A (zh) 一种基于知识图谱的标注训练模型
CN108647729A (zh) 一种用户画像获取方法
CN113792195B (zh) 跨系统的数据获取方法、装置、计算机设备和存储介质
CN114996549A (zh) 基于活动对象信息挖掘的智能追踪方法与系统
CN111311463A (zh) 基于数据标签建立人口画像的数据处理方法及系统
CN113407678A (zh) 知识图谱构建方法、装置和设备
CN109522336A (zh) 一种基于电子政务内网信息资源的决策分析系统及方法
CN111353085A (zh) 一种基于特征模型的云挖掘分析网络舆情方法
CN117610649A (zh) 知识图谱的构建方法、装置、存储介质及电子设备
CN112287209A (zh) 千人千面门户的智能推荐方法及系统
CN117171355A (zh) 一种文化基因知识图谱的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201106

WD01 Invention patent application deemed withdrawn after publication