CN111737477A - 一种基于知识产权大数据的情报调查方法、系统和存储介质 - Google Patents
一种基于知识产权大数据的情报调查方法、系统和存储介质 Download PDFInfo
- Publication number
- CN111737477A CN111737477A CN202010790498.1A CN202010790498A CN111737477A CN 111737477 A CN111737477 A CN 111737477A CN 202010790498 A CN202010790498 A CN 202010790498A CN 111737477 A CN111737477 A CN 111737477A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- relationship
- information
- intellectual property
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000011835 investigation Methods 0.000 title claims abstract description 36
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 46
- 238000005065 mining Methods 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000011144 upstream manufacturing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 5
- 241000239290 Araneae Species 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 239000002184 metal Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 14
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000002860 competitive effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 238000005054 agglomeration Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于知识产权大数据的情报调查方法和系统及存储介质。本发明的情报调查方法通过大数据的手段挖掘关联实体关系,并利用语义推理和传递推理理论对实体关系进行扩展、校验和加强,增强实体关系的准确度与可能概率。从多个维度通过多种关联关系,包括为企业添加行业标签与技术领域标签,为企业建立全面精准的画像。本发明对实体关系的扩展层级可以是一级以上,最多可达十级,由此根据关系紧密度构建出实体的十级关系圈。由此,本发明的情报调查系统可以进行多层级可视化关系网络展示,支持多层级筛选,情报调查人员使用本发明的系统可以全景洞察企业社会网络全景,提高其价值洞察能力和风险识别能力。
Description
技术领域
本发明属于互联网技术领域,尤其是涉及一种基于知识产权大数据的情报调查方法、系统和存储介质。
背景技术
在当前信息化的时代,每天产生巨量的信息数据,对于企业而言,拥有的数据维度极为丰富,工商数据、人员数据、经营数据、科技创新数据等等,如何从纷繁复杂的数据中梳理出有价值的信息,从而真实准确刻画企业画像,洞察企业的科技创新实力,识别企业的投资价值,需要耗费大量的人力物力。传统的投资人在筛选项目时,大部分靠人工,一年只能看200个项目,而经过复杂的评估计算后,最终确定的项目可能只有少数几个,效率极低。
在互联网得到普及应用的情况下,大数据时代已经正式到来。“大数据”也被称为巨量资料,它指网上图像、文本、音频和视频等数据所涉及的资料总体量规模巨大,无法用目前的常用普通软件等处理工具在合理时间内进行处理,也无法整理成为对用户有价值的资讯。也就是说,大数据具有四个特征,体量巨大、信息密度低、数据类型多、要求的处理速度快。大数据时代,信息呈爆炸式增长,目前,互联网上的数据每年都会增长50%。在这种时代背景下,传统的尽职调查方法已经远远不能满足投资机构或金融机构的需要,情报搜集和分析能力的不足将影响投资决策的方向和力度,尤其在全球信息化、网络化的时代,结合多学科的先进理论和最新技术来完善和优化竞争情报分析方法与策略,实时快速的从海量信息中挖掘出决策需要的高层次的知识,成为当前信息处理工作面临的瓶颈问题。在这样的背景下,迫切需要引进新理论、新思想、新技术,以改善现有的情报分析方法和工具设计,从而在多维海量的数据空间内挖掘出深层的、有价值的情报。
为此,本发明提出一种基于知识产权大数据的情报调查方法、系统和存储介质,面向大数据视野研究企业竞争情报与竞合网络,通过全面准确的采集与企业产生关联的多维多元数据信息,加强数据挖掘与处理,针对不同维度建立评分模型与标准,分析企业科技创新“硬实力”,并预判是否存在负面因素。利用本发明的系统,投资机构和商业银行等金融机构可以获得准确、及时、有效、全面的企业投资信息支持,以提高对目标企业的敏感性和反应速度;做出准确的投资决策。
发明内容
本发明需解决的技术问题是:传统的知识产权情报信息调查方式,受于技术限制,调查数据量较小且维度较单一,在数据爆炸增长的大数据时代,企业的知识产权大数据情报涵盖了知识产权数据信息、工商注册企业数据信息、企业投资和融资数据信息等多维信息,在面对上述复杂情报时,传统方法无法快速厘清企业关系网络中的实体关系,洞察力较弱,且在面对虚假信息时,明辨真伪的能力不足,无法全面、清楚且准确的反应企业的真实情况。所以传统的情报调查方式对知识产权大数据的利用不足,对目标对象的实体价值和市场风险的调查存在缺失,不足以帮助情报调查人员快速高效做出决策。
为了解决上述技术问题,本发明提出一种基于知识产权大数据的情报调查方法,包括以下步骤:
S1、数据获取步骤:获取多元多样化的数据信息,其中多元多样化的数据信息包括结构化文本、非结构化文本、其他数据信息;
S2、数据处理步骤:包括数据清洗,数据分类,添加标签;
S3、实体关系挖掘步骤:从多元多样化的数据信息中挖掘出实体关系;
S4、情报信息存储步骤:将挖掘出的实体关系存储在存储器中形成情报数据库。
进一步的,在数据获取步骤中,其中多元多样化的数据信息包括知识产权数据信息、工商注册企业数据信息、企业投资和融资数据;将购买自第三方的数据信息直接录入数据库,或者利用java程序或Sqoop工具将结构化的Excel数据表,或者利用解析工具将xml文件根据预定规则解析后提取到数据库中;来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。
进一步的,数据处理步骤包括数据清洗预加工,数据分类聚类以及模型建立与分析步骤。
作为本发明对数据清洗预加工步骤的改进,数据清洗过程包括“重复数据清洗”、“缺失数据填充”和“纠正或删除错误数据”三个部分。
进一步的,对于重复数据的清洗,依赖于现有的excel去重程序即可实现全自动去重。
进一步的,对于缺失数据的补充,首先通过机器自动标引的方式查找并圈定缺失数据范围,之后,根据各种数据缺失原因采用机器与人工共同补正的方式进行填充。
进一步的,在数据获取步骤中采集到的错误数据,如果是偶发的随机性错误,借助全人工的方式逐一删除或纠正即可;如果同类错误数据批量出现,则通过matlab程序对错误数据进行纠正。
进一步的,在分类聚类处理步骤中,采用切词算法将连续汉字构成的句子依据特定的原则切分成词,并利用TF-IDF算法进行关键词的提取。
进一步的,采用词聚类算法对切词步骤得到的待筛选的词语转换成向量空间中的向量,对这些向量进行聚类,从而提取出关键词。
进一步的,完成切词的分类聚类处理后,对所提取的关键词添加标签,并将其作为模型分析的计算指标。
作为本发明的实施方式之一,对关键词添加的标签包括实体类型标签,例如企业、高校院所、研究机构、个人;关系类标签,例如股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游;行业类标签,包括但不限于农业、通信业、林业、医药制造业、金属采掘业;地址类标签,例如国别、省市、街道、园区、邮政编码;身份类标签,包括但不限于董事、监事、总经理、院士、教授、工程师;时间类标签,包括但不限于专利申请日、专利申请年、专利公开日、专利公开年、任职日期、任职年限、投资时间。
进一步的,本发明的数据获取、数据处理步骤完成后,进入实体关系挖掘步骤。
进一步的,实体关系挖掘步骤包括建立数据样本空间,进行样本空间修剪以及建立基于Hadoop的关系挖掘处理方案三个步骤。
进一步的,本发明在训练数据样本空间中包含n个样本,分别是X1、X2、X3、……Xn。利用语义序列核函数对每个样本X进行计算,计算X与训练数据样本空间中的其他样本的相似度s,其中s为0~1之间的实数。
进一步的,对于训练数据样本空间中的全部n个样本,利用层次聚类方法,将训练数据样本空间进行聚类。在聚类时采用平均相似度进行簇间度量。度量公式为:
式中,l i 、l j 代表训练样本空间中的子簇,ni、nj分别代表第i个和第j个样本,p、p’代表各簇中的样本。
在聚类过程中,凝聚的层次聚类方法首先将训练样本空间中相似度最大的样本归为一个簇,进行迭代合并,直到簇间相似度满足终止阈值:
进一步的,在获得层次聚类后的样本簇后,根据预先设定的核心关联关系,基于定义的推理规则对候选关联实体对进行推理,得到更多的扩展关联实体关系。
作为本发明的实施方式之一,所述核心关联关系包括但不限于股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游。
作为本发明的实施方式之一,所述推理规则包括语义推理和传递推理。
作为本发明的实施方式之一,采用语义推理对两个实体进行关联关系挖掘与扩展。
作为本发明的实施方式之一,采用传递推理对三个实体进行关联关系挖掘与扩展。
作为本发明的实施方式之一,对于每一个实体均可进行一级以上的关系挖掘扩展,扩展级数最多可以达到十级,即,最终形成关于每个单独实体的按紧密程度依次衰减的十级关系圈。
作为本发明的另一方面,提供一种基于知识产权大数据的情报调查系统,包括:数据采集模块、数据处理模块、实体关系挖掘模块和情报信息存储模块。数据采集模块用于获取多元多样化的数据信息,执行数据获取步骤;数据处理模块用于对获取的数据进行加工处理,执行数据处理步骤;实体关系挖掘模块则用于建立算法模型并对非结构化文本数据进行智能分析推理并得到实体与实体间存在的关系;情报信息存储系统用于将挖掘关联的实体关系存储在关系数据库中。所述基于知识产权大数据的情报调查系统用于执行本发明的基于知识产权大数据的情报调查方法。
作为本发明的另一方面,提供一种存储介质,其中所述基于知识产权大数据的情报调查系统以可执行的软件的形式存储在所述存储介质中,用于执行本发明的方法。
本发明有益效果:
本发明提出的基于大数据的知识产权大数据情报调查方法和投融资情报系统,具有如下优点。
1.用大数据的思想转变传统情报信息调查的思维与方式,将从不同维度与不同途径获取的多种格式数据碎片进行整合处理。以大数据的方法处理文本数据,挖掘关联实体关系,更高的运算效率有助于快速高效发现更多的实体关系。
2.通过大数据的方法挖掘实体关系,并利用语义推理和传递推理逐步校验与加强实体关系的可能概率与准确性,获得更接近实体在社会网络中的真实网络关系。为情报调查人员带来更好的洞察力和更大的商业利益。
3.本发明的基于知识产权大数据的情报调查方法,通过对海量的产品数据进行清洗、处理和不同维度的交叉联系分析,使得各个信息之间互相验证互相比较真伪,提高了调研数据的容错性,最终得到真实可靠的实体关系。有助于准确描绘实体社会关系圈及竞合网络,对实体的整体实力作出准确预测。
4.本发明的基于知识产权大数据的情报调查系统,融合并集成多维度多元数据信息,建立对目标对象的多层次画像,从而能够帮助投资机构更加快速高效地形成对目标对象的全面认知,便于从中识别出投资价值点位和风险水平,从而提高在筛选目标对象时的反应速度和敏感度。
附图说明
图1为本发明基于知识产权大数据的情报调查方法示意图;
图2为本发明的大数据获取步骤示意图;
图3为本发明的大数据处理步骤示意图;
图4为本发明的实体关系挖掘步骤示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细、完整的说明。以下的说明本质上仅仅是示例性的而并不是为了限制本公开、应用或用途。
如图1所示,本发明基于知识产权大数据的情报调查方法,包括以下步骤:
S1、数据获取步骤:获取多元多样化的数据信息,其中多元多样化的数据信息包括结构化文本、非结构化文本、其他数据信息;
S2、数据处理步骤:包括数据清洗,数据分类,添加标签;
S3、实体关系挖掘步骤:从多元多样化的数据信息中挖掘出实体关系;
S4、情报信息存储步骤:将挖掘出的实体关系存储在存储器中形成情报数据库。
如图2所示,在数据获取步骤中,其中多元多样化的数据信息包括知识产权数据信息、工商注册企业数据信息、企业投资和融资数据;将购买自第三方的数据信息直接录入数据库,或者利用java程序或Sqoop工具将结构化的Excel数据表,或者利用解析工具将xml文件根据预定规则解析后提取到数据库中;来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。
通过数据获取步骤,已经获得了包括不同来源、不同维度的海量数据。由于大数据“大”的特性,这些数据的价值密度实际上还太低,无法直接利用,因此数据处理是数据利用前不可或缺的重要步骤。数据处理步骤主要是对数据进行净化或清理,进而做统计性的分类、聚类,据此在海量数据中定义出更丰富的有价值的变量。
如图3所示,数据处理步骤包括数据清洗预加工,数据分类聚类以及模型建立与分析步骤。
具体地,数据清洗过程包括“重复数据清洗”、“缺失数据填充”和“纠正或删除错误数据”三个部分。从数据清洗的实现方式看,包括“全人工方式”、“全自动方式”、“实时人机交互式”以及“异步人机交互式”四种。
对于重复数据的清洗,依赖于现有的excel去重程序即可实现全自动去重。
对于缺失数据的补充,则需要采用异步人机交互的方式来实现数据补全。首先通过机器自动标引的方式查找并圈定缺失数据范围。确定缺失数据的范围后,人工辅助辨别数据缺失原因。然后,对于各种数据缺失原因采用机器与人工共同补正的方式进行填充。
在本发明的实践过程中,数据缺失的原因大致有以下几种:(1)将数据录入或存入数据库的过程中,由于机器的损坏造成数据存储失败;(2)数据抓取工具选择或设计的不恰当,造成对于某种或某些类型的数据采集不全面;(3)数据源本身的数据缺失。
在基本确定造成数据缺失的原因后,针对各种数据缺失原因分别进行处理:对于由于机器损坏造成数据存储失败的部分数据,重新录入;确定是由于抓取工具有效性造成的,对原有的数据抓取工具进行优化或改写,使其与数据源的匹配程度更完善;对于因为数据源本身造成的数据缺失,则需要分情况进行处理:如果该部分数据量在整个数据量中占的比例非常小的情况下,可以采用删除法直接将其剔除,这样将非常简单而有效。但是,删除法最明显的不足之处在于减少了原始数据,导致了信息的损耗。因此,当缺失数据所占比例较大时,特别是当缺失数据非随机分布时,删除法可能导致数据发生偏离,导致得出错误的结论,此时采用填补法则更为合适。
在数据获取步骤中采集到的错误数据,如果是偶发的随机性错误,发生率极低,且分布随机。在本发明的实践中,数据一般按照小区块存储,其中在每个小区块中,最多只可能发生随机1 bit错误。在这种情况下,借助全人工的方式逐一删除或纠正即可。排除随机性错误,如果同类错误数据批量出现,则通过各种已有的函数算法对错误数据进行纠正。例如采用matlab程序,编写ECC编码等。
经过前期对获取数据的清洗步骤,实现了去粗取精、补充完善,数据范围基本确定,数据质量以及价值密度也基本满足模型分析的要求。对于数值类数据而言,可以直接输入算法模型进行计算分析。但对于文本类的非结构化数据,还需要进行分类聚类处理。
作为本发明的实施方式之一,采用切词算法将连续汉字构成的句子依据特定的原则切分成词,切词是文本类信息处理和分析的前提。本发明采取NLPIR分词软件,单机分词可达996KB/s的高速度,分词精度可达98.45%。在切词完成的基础上,利用词频统计进行辅助加工,进一步提取出与分析目的相关的关键词。已知的提取关键词的方法可以举例如下:文档频次方法、TF-IDF算法、期望交叉熵算法、信息增益方法等,其中应用最广泛的是TF-IDF算法(可检索修正),因此,本发明选择该算法来对评论文本进行关键词的提取。
作为本发明的实施方式之一,采用词聚类算法对切词步骤得到的待筛选的词语转换成向量空间中的向量,对这些向量进行聚类,从而提取出关键词集合。已知的词聚类方法包括K-means算法、Hadoop Map Reduce、Info Sphere Streams、AP聚类算法等数据处理技术。本发明选择Info Sphere Streams技术来实现数据分析,Info Sphere Streams是对AP聚类算法的扩展,通过稀疏化各子集,然后融合各子集稀疏化后的数据再次AP聚类,从而实现通过单遍扫描对海量数据的高效聚类。
完成切词的分类聚类处理后,对所提取的关键词添加标签,并将其作为模型分析的计算指标。
作为本发明的实施方式之一,对关键词添加的标签包括实体类型标签,例如企业、高校院所、研究机构、个人;关系类标签,例如股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游;行业类标签,包括但不限于农业、通信业、林业、医药制造业、金属采掘业;地址类标签,例如国别、省市、街道、园区、邮政编码;身份类标签,包括但不限于董事、监事、总经理、院士、教授、工程师;时间类标签,包括但不限于专利申请日、专利申请年、专利公开日、专利公开年、任职日期、任职年限、投资时间。
至此,本发明的数据获取、数据处理步骤完成,进入实体关系挖掘步骤。
在实体关系挖掘步骤,由于大数据“海量”的特征,并且增幅速度极快,因此需要提升关系挖掘处理的运算效率,确保快速地从其中获取实体关系数据;并且在处理新增数据时,避免重复计算,提高运算效率。由于数据类型的补贴,结构化文本、非结构化文本及其他数据类型都可能包含实体关系信息,而结构化的文本或数据的关系挖掘技术研究的比较深入,如何从非结构化文本中高效挖掘出实体关系需要投入比较大的精力。
由于文本中的语义或关系不是明显的,二是隐藏在文本中,这就使得从文本中发现实体关系变得复杂,中文文本又存在灵活多变、语序不固定、组合不固定的特征,挖掘难度非常大。目前从文本中挖掘实体关系的方法主要还是人为识别、标签加工、手工清洗、手工录入的方式,不仅效率极低,而且由于个体判断标准不同导致准确率不能保证,同时覆盖面积小,占用大量的人力成本。因此,本发明申请进行了采用大数据的方法来挖掘实体关系的研究。
如图4所示,实体关系挖掘步骤包括建立数据样本空间,进行样本空间修剪以及建立基于Hadoop的关系挖掘处理方案三个步骤。
具体地,本发明在训练数据样本空间中包含n个样本,分别是X1、X2、X3、……Xn。
利用语义序列核函数对每个样本X进行计算,计算X与训练数据样本空间中的其他样本的相似度s。
对于训练数据样本空间中的全部n个样本,利用层次聚类方法,将训练数据样本空间进行聚类。通过训练数据样本聚类来生成候选实体关联对,利用聚类来标识具有相似潜在用途的实体集合。由此达到既缩小搜索空间又使得具有真正关联关系的实体对不被遗漏在候选数据样本之外。在聚类时采用平均相似度进行簇间度量。度量公式为:
式中,l i 、l j 代表训练样本空间中的子簇,ni、nj分别代表第i个和第j个样本,p、p’代表各簇中的样本。
在聚类过程中,凝聚的层次聚类方法首先将训练样本空间中相似度最大的样本归为一个簇,进行迭代合并,直到簇间相似度满足终止阈值:
其中终止阈值ε设置为0.9~1。
如此经过层次聚类后,各类样本中相似度大于的区域会归为一个簇。从每个子簇中选取对本簇区分度最高的样本来代替这个簇,被选出的全部样本代表整个训练数据样本空间的分布情况。由此将训练样本空间中的数据密度修建的比较均匀。
在获得层次聚类后的样本簇后,根据预先设定的核心关联关系,基于定义的推理规则对候选关联实体对进行推理,得到更多的扩展关联实体关系。实体关系并不是孤立存在的,而是彼此间存在关系,例如概念层次关系、语义关联关系等。因此本发明利用推理规则并利用底层语义库来挖掘扩展实体关系。
作为本发明的实施方式之一,所述核心关联关系包括股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游。
作为本发明的实施方式之一,所述推理规则包括语义推理和传递推理。
作为本发明的实施方式之一,采用语义推理对两个实体进行关联关系挖掘与扩展。预先定义三个实体关系X(例如,引用与被引用) 、Y(例如,主题类似)和Z(例如,竞争),如果X与Y之间有关联关系,实体1与实体2存在关系X,那么实体1与实体2很可能存在关系Y。在此基础上,假如实体1与实体2的行业标签一致、主体类型标签一致,那么高概率的可能性实体1与实体2之间存在关系Z。
作为本发明的实施方式之一,采用传递推理对三个实体进行关联关系挖掘与扩展。预先定义两个实体关系T(例如,投资)和L(流动),如果实体1与实体2存在关系T,实体2与实体3之间存在关系T,那么实体1与实体3之间存在关系T。在此基础上,假如实体1中董事D1与实体2中董事D2姓名一致,并且从时间标签判断有延续特征,那么高概率的可能性实体1与实体2之间存在关系L。
作为本发明的实施方式之一,对于每一个实体均可进行一级以上的关系挖掘扩展,扩展级数最多可以达到十级,即,最终形成关于每个单独实体的按紧密程度依次衰减的十级关系圈。
作为本发明的另一方面,提供一种基于知识产权大数据的情报调查系统,包括:数据采集模块、数据处理模块、实体关系挖掘模块和情报信息存储模块。数据采集模块用于获取多元多样化的数据信息,执行数据获取步骤;数据处理模块用于对获取的数据进行加工处理,执行数据处理步骤;实体关系挖掘模块则用于建立算法模型并对非结构化文本数据进行智能分析推理并得到实体与实体间存在的关系;情报信息存储系统用于将挖掘关联的实体关系存储在关系数据库中。也就是说,所述基于知识产权大数据的情报调查系统用于执行本发明的基于知识产权大数据的情报调查方法。
作为本发明的另一方面,提供一种存储介质,其中所述基于知识产权大数据的情报调查系统以可执行的软件的形式存储在所述存储介质中,用于执行本发明的方法。
实施例
根据本发明,参见说明书附图1-4,以新能源汽车行业企业为例,执行基于知识产权大数据的情报调查方法,包括以下步骤:
S1、数据获取步骤:获取汽车行业全部企业的相关数据信息;
S2、数据处理步骤:包括数据清洗,数据分类,添加标签;
S3、实体关系挖掘步骤:包括建立训练样本数据库空间,进行数据库空间修剪,实体关联关系挖掘扩展;
S4、情报信息存储步骤:将挖掘关联的实体关系存储在关系库中。
数据来源包括国家知识产权局官方知识产权数据来源、国家工商局企业注册信用信息公示网、国家企业信用信息公示系统、巨潮资讯网、中国产业信息网、企业官方网站、社区论坛。如图2所示,在数据获取步骤中,将购买自第三方,例如国家知识产权局官方知识产权数据提供方、国家工商局企业注册信用信息提供方、巨潮资讯网的数据信息直接录入数据库,或者利用java程序或Sqoop工具将结构化的Excel数据表,或者利用解析工具将xml文件根据预定规则解析后提取到数据库中;来自网页上,例如企业官方网站、社区论坛等的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。
如图3所示,对采集到的数据进行数据处理。具体如下:
对于重复数据的清洗,依赖于现有的excel去重程序即可实现全自动去重。
对于缺失数据的补充,则需要采用异步人机交互的方式来实现数据补全。首先通过机器自动标引的方式查找并圈定缺失数据范围。确定缺失数据的范围后,人工辅助辨别数据缺失原因。然后,对于各种数据缺失原因采用机器与人工共同补正的方式进行填充。
在数据获取步骤中采集到的错误数据,如果是偶发的随机性错误,发生率极低,且分布随机。在这种情况下,借助全人工的方式逐一删除或纠正即可。排除随机性错误,如果同类错误数据批量出现,则通过各种已有的ECC编码算法对错误数据进行纠正。
采用切词算法将连续汉字构成的句子依据特定的原则切分成词,切词是文本类信息处理和分析的前提。本发明采取NLPIR分词软件,单机分词可达996KB/s的高速度,分词精度可达98.45%。在切词完成的基础上,利用词频统计进行辅助加工,进一步提取出与分析目的相关的关键词。已知的提取关键词的方法可以举例如下:文档频次方法、TF-IDF算法、期望交叉熵算法、信息增益方法等,其中应用最广泛的是TF-IDF算法(可检索修正),因此,本发明选择该算法来对评论文本进行关键词的提取。
之后,对所提取的关键词添加标签,并将其作为实体关系挖掘扩展的算法指标。对关键词添加的标签包括实体类型标签,例如企业、高校院所、研究机构、个人;关系类标签,例如股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游;行业类标签,在该组样本数据空间中,所有样本数据均打上新能源的标签;地址类标签,例如国别、省市、街道、园区、邮政编码;身份类标签,包括但不限于董事、监事、总经理、院士、教授、工程师;时间类标签,包括但不限于专利申请日、专利申请年、专利公开日、专利公开年、任职日期、任职年限、投资时间。另外需要指出的是,本领域的技术人员应当理解,在本发明所指的标签体系下,还可以进行更低一级甚至更低数级的标签设计。例如,在行业类标签体系下,可以遵循国民经济行业分类的体系设计,从上而下依次设计门类、大类、中类和小类四级标签。在本实施例中,对于新能源汽车进行行业标签标记时,还可以标记下一级标签,包括整车制造、关键零部件、动力电池、先进充电技术等。
至此,本发明的数据获取、数据处理步骤完成,进入实体关系挖掘步骤。
在实体关系挖掘步骤,如图4所示,实体关系挖掘步骤包括建立数据样本空间,进行样本空间修剪以及建立基于Hadoop的关系挖掘处理方案三个步骤。
具体地,本发明在训练数据样本空间中选择120个样本,分别是X1、X2、X3、……X120。
利用语义系列核函数对每个样本X进行计算,计算X与训练数据样本空间中的其他样本的相似度s,s为0~1之间的实数。
对于训练数据样本空间中的全部n个样本,利用层次聚类方法,将训练数据样本空间进行聚类。在聚类过程中,将簇间相似度终止阈值设置为0.9~1之间。
经过层次聚类后,获得数据密度较均匀的训练样本空间。随后,根据预先设定的核心关联关系,基于定义的推理规则对候选关联实体对进行推理,得到更多的扩展关联实体关系。
预先设定的核心关联关系包括股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游。
作为本发明的一个方面,采用语义推理对两个实体进行关联关系挖掘与扩展。预先定义三个实体关系X(引用与被引用) 、Y(主题类似)和Z(竞争),如果X与Y之间有关联关系,实体1与实体2存在关系X,那么实体1与实体2很可能存在关系Y。在此基础上,假如实体1与实体2的行业标签一致、主体类型标签一致,那么实体1与实体2之间存在关系Z的概率为0.7。
在前述语义推理的基础上加入第四个实体关系F(股东),对实体1与实体2之间的关系Z进行校验和加强。假如实体1与实体2之间不存在关系F,那么两者之间存在关系Z的概率可以加强为0.8。在此基础上,进一步扩展,假如实体1的股东关系包括F11、F12……F1n,实体2的股东关系包括F21、F22……F2n,上述两者的股东关系不存在重叠,那么实体1与实体2之间存在关系Z的概率可以加强为0.9。同样,根据本发明的技术方案,扩展级数可以达到最多十级,而每扩展一级,都可以对已挖掘形成的实体关系的关联强度进行校验和加强,最终使得实体1与实体2之间存在的关系Z的可能概率逼近0.99~1之间。
作为本发明的另一个方面,采用传递推理对三个实体进行关联关系挖掘与扩展。预先定义两个实体关系T(投资)和L(流动),如果实体1与实体2存在关系T,实体2与实体3之间存在关系T,那么实体1与实体3之间存在关系T。在此基础上,假如实体1中董事D1与实体2中董事D2姓名一致,并且从时间标签判断有延续特征,那么实体1与实体2之间存在关系L的概率为0.7。
在前述传递推理的基础上加入第二个标签(技术领域),对实体1与实体2之间的关系Z进行校验和加强。假如董事D1与董事D2的技术领域标签一致,那么两者之间存在关系Z的概率可以加强为0.8。
本发明利用知识产权大数据对实体关系进行挖掘关联并扩展,最大可扩展至十级,形成实体关系的十级关系圈,预先定义的关联关系包括但不限于股东关系、高管关系、投资关系、技术关系、工程师关系,由此展示出实体的全面社会关系网络,即竞合全景。由此形成的情报调查方法和系统可以实现高效快速地识别实体的整体价值和风险点位。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种基于知识产权大数据的情报调查方法,包括以下步骤:
S1、数据获取步骤:获取多元多样化的数据信息,其中多元多样化的数据信息包括结构化文本、非结构化文本、其他数据信息;
S2、数据处理步骤:包括数据清洗,数据分类,添加标签;
S3、实体关系挖掘步骤:从多元多样化的数据信息中挖掘出实体关系;
S4、情报信息存储步骤:将挖掘出的实体关系存储在存储器中形成情报数据库;其中,
在数据获取步骤中,所述多元多样化的数据信息包括知识产权数据信息、工商注册企业数据信息、企业投资和融资数据;
在实体关系挖掘步骤中,利用语义序列核函数对训练数据样本空间中每个样本X进行计算,计算X与训练数据样本空间中的其他样本的相似度s,其中s为0~1之间的实数;并利用层次聚类方法,将训练数据样本空间进行聚类,并采用平均相似度进行簇间度量,度量公式为:
式中,l i 、l j 代表训练样本空间中的子簇,ni、nj分别代表第i个和第j个样本,p、p’代表各簇中的样本;
在聚类过程中,限定簇间相似度满足终止阈值:
其中终止阈值ε设置为0.9~1。
2.根据权利要求1所述的方法,在步骤S1中,将购买自第三方的数据信息直接录入数据库,或者利用java程序或Sqoop工具将结构化的Excel数据表,或者利用解析工具将xml文件根据预定规则解析后提取到数据库中;来自网页上的非结构化数据通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。
3.根据权利要求1所述的方法,在步骤S2中,数据处理步骤包括数据清洗预加工,数据分类聚类以及对关键词添加标签的步骤。
4.根据权利要求3所述的方法,在所述数据清洗预加工步骤中,数据清洗过程包括“重复数据清洗”、“缺失数据填充”和“纠正或删除错误数据”三个部分。
5.根据权利要求3所述的方法,在所述数据分类聚类步骤中,完成切词的分类聚类处理后,对所提取的关键词添加标签,并将其作为模型分析的计算指标。
6.根据权利要求3或5之一所述的方法,所述对关键词添加的标签包括实体类型标签,例如企业、高校院所、研究机构、个人;关系类标签,例如股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游;行业类标签,包括但不限于农业、通信业、林业、医药制造业、金属采掘业;地址类标签,例如国别、省市、街道、园区、邮政编码;身份类标签,包括但不限于董事、监事、总经理、院士、教授、工程师;时间类标签,包括但不限于专利申请日、专利申请年、专利公开日、专利公开年、任职日期、任职年限、投资时间。
7.根据权利要求1所述的方法,所述实体关系挖掘步骤包括建立数据样本空间,进行样本空间修剪以及建立基于Hadoop的关系挖掘处理方案三个步骤,其中利用层次聚类方法,将训练数据样本空间进行聚类修剪。
8.根据权利要求1或7之一所述的方法,在获得层次聚类后的样本簇后,根据预先设定的核心关联关系,基于定义的推理规则对候选关联实体对进行推理,得到更多的扩展关联实体关系,所述核心关联关系包括但不限于股东、投资、并购、高管、技术合作、技术转移、技术许可、工程师流动、高管流动、竞争、上下游;所述推理规则包括语义推理和传递推理。
9.一种基于知识产权大数据的情报调查系统,包括:数据采集模块、数据处理模块、实体关系挖掘模块和情报信息存储模块,数据采集模块用于获取多元多样化的数据信息,执行数据获取步骤;数据处理模块用于对获取的数据进行加工处理,执行数据处理步骤;实体关系挖掘模块则用于建立算法模型并对非结构化文本数据进行智能分析推理并得到实体与实体间存在的关系;情报信息存储系统用于将挖掘关联的实体关系存储在关系数据库中;所述基于知识产权大数据的情报调查系统用于执行权利要求1-10所述的基于知识产权大数据的情报调查方法。
10.一种存储介质,权利要求9所述的基于知识产权大数据的情报调查系统以可执行的软件的形式存储在所述存储介质中,用于执行权利要求1-8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010790498.1A CN111737477A (zh) | 2020-08-07 | 2020-08-07 | 一种基于知识产权大数据的情报调查方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010790498.1A CN111737477A (zh) | 2020-08-07 | 2020-08-07 | 一种基于知识产权大数据的情报调查方法、系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737477A true CN111737477A (zh) | 2020-10-02 |
Family
ID=72658208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010790498.1A Pending CN111737477A (zh) | 2020-08-07 | 2020-08-07 | 一种基于知识产权大数据的情报调查方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737477A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129180A (zh) * | 2021-05-13 | 2021-07-16 | 贵阳业勤中小企业促进中心有限公司 | 一种搭建知识产权数据分析系统的方法 |
CN113837859A (zh) * | 2021-08-25 | 2021-12-24 | 天元大数据信用管理有限公司 | 一种小微企业画像构建方法 |
CN116823508A (zh) * | 2023-06-28 | 2023-09-29 | 深圳市元明科技股份有限公司 | 基于大数据分析的尽职调查与资信评估系统 |
CN117271375A (zh) * | 2023-11-21 | 2023-12-22 | 中国电力科学研究院有限公司 | 电网图模数测试样本生成、维护及管理方法和相关装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132966A (zh) * | 2017-11-28 | 2018-06-08 | 北京洪泰同创信息技术有限公司 | 知识图谱生成方法及装置 |
CN108897784A (zh) * | 2018-06-08 | 2018-11-27 | 北京航空航天大学 | 一个基于社交媒体的突发事件多维分析系统 |
CN109785144A (zh) * | 2019-01-18 | 2019-05-21 | 国家电网有限公司 | 一种资产分类方法、装置、设备及介质 |
CN110413858A (zh) * | 2019-06-19 | 2019-11-05 | 深圳壹账通智能科技有限公司 | 企业舆情信息查询方法、装置、计算机设备及存储介质 |
-
2020
- 2020-08-07 CN CN202010790498.1A patent/CN111737477A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132966A (zh) * | 2017-11-28 | 2018-06-08 | 北京洪泰同创信息技术有限公司 | 知识图谱生成方法及装置 |
CN108897784A (zh) * | 2018-06-08 | 2018-11-27 | 北京航空航天大学 | 一个基于社交媒体的突发事件多维分析系统 |
CN109785144A (zh) * | 2019-01-18 | 2019-05-21 | 国家电网有限公司 | 一种资产分类方法、装置、设备及介质 |
CN110413858A (zh) * | 2019-06-19 | 2019-11-05 | 深圳壹账通智能科技有限公司 | 企业舆情信息查询方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
殷复莲: "《数据分析与数据挖掘实用教程》", 30 September 2017, 中国传媒大学出版社 * |
王铁琨等: "《辞书研究与辞书发展论集》", 31 August 2012, 上海辞书出版社 * |
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018, 北京理工大学出版社 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129180A (zh) * | 2021-05-13 | 2021-07-16 | 贵阳业勤中小企业促进中心有限公司 | 一种搭建知识产权数据分析系统的方法 |
CN113837859A (zh) * | 2021-08-25 | 2021-12-24 | 天元大数据信用管理有限公司 | 一种小微企业画像构建方法 |
CN113837859B (zh) * | 2021-08-25 | 2024-05-14 | 天元大数据信用管理有限公司 | 一种小微企业画像构建方法 |
CN116823508A (zh) * | 2023-06-28 | 2023-09-29 | 深圳市元明科技股份有限公司 | 基于大数据分析的尽职调查与资信评估系统 |
CN116823508B (zh) * | 2023-06-28 | 2024-02-20 | 深圳市元明科技股份有限公司 | 基于大数据分析的尽职调查与资信评估系统 |
CN117271375A (zh) * | 2023-11-21 | 2023-12-22 | 中国电力科学研究院有限公司 | 电网图模数测试样本生成、维护及管理方法和相关装置 |
CN117271375B (zh) * | 2023-11-21 | 2024-02-13 | 中国电力科学研究院有限公司 | 电网图模数测试样本生成、维护及管理方法和相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737477A (zh) | 一种基于知识产权大数据的情报调查方法、系统和存储介质 | |
Shivaji et al. | Reducing features to improve code change-based bug prediction | |
CN104573130B (zh) | 基于群体计算的实体解析方法及装置 | |
Gol et al. | Tabular cell classification using pre-trained cell embeddings | |
CN111882446A (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN110287292B (zh) | 一种裁判量刑偏离度预测方法及装置 | |
CN111737421A (zh) | 一种知识产权大数据情报检索系统及存储介质 | |
Bonfitto et al. | Table understanding approaches for extracting knowledge from heterogeneous tables | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
Nicholson et al. | Issue link label recovery and prediction for open source software | |
CN115982329A (zh) | 一种工程施工方案编制依据的智能生成方法及系统 | |
CN109543038B (zh) | 一种应用于文本数据的情感分析方法 | |
Aung et al. | Random forest classifier for multi-category classification of web pages | |
CN112363996A (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
Liu et al. | A text clustering algorithm based on find of density peaks | |
Jafery et al. | Classification of patents according to industry 4.0 pillars using machine learning algorithms | |
CN106775694A (zh) | 一种软件配置代码制品的层次分类方法 | |
Ares et al. | An experimental study of constrained clustering effectiveness in presence of erroneous constraints | |
CN116108847A (zh) | 知识图谱构建方法、cwe社区描述方法以及存储介质 | |
CN106202116A (zh) | 一种基于粗糙集与knn的文本分类方法及系统 | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
CN114547323A (zh) | 一种二维重叠大样本数据源的细粒度知识图谱融合方法 | |
Visalli et al. | ESG Data Collection with Adaptive AI. | |
CN109614489B (zh) | 一种基于迁移学习和特征提取的Bug报告严重程度识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201002 |