CN111737421A

CN111737421A - 一种知识产权大数据情报检索系统及存储介质

Info

Publication number: CN111737421A
Application number: CN202010790501.XA
Authority: CN
Inventors: 耿德强; 武伟; 刘洋; 李杨
Original assignee: Hangzhou Hexaprism Intellectual Property Technology Co ltd
Current assignee: Hangzhou Hexaprism Intellectual Property Technology Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-10-02

Abstract

本发明提供一种知识产权大数据情报检索系统及存储介质，包括用于对多源异构数据进行采集的数据获取模块，用于数据处理的数据处理模块，用于综合企业各维度知识产权大数据情报对企业投资指数进行评价的企业评价模块，用于储存添加标签的知识产权大数据情报的数据库模块，用于检索知识产权大数据情报的数据检索模块，用于将指定的知识产权大数据情报进行收藏的数据收藏模块，用于下载目标知识产权大数据情报的数据下载模块。由此，本发明的知识产权大数据情报检索系统深度融合知识产权信息、工商注册企业数据信息、企业投资和融资信息以及风险信息，为投资机构、银行和企业的技术投资、精准并购、人才引进、科技招商和产学研合作提供情报支持。

Description

一种知识产权大数据情报检索系统及存储介质

技术领域

本发明属于互联网技术领域，尤其是涉及一种知识产权大数据情报检索系统及存储介质。

背景技术

股权融资是指企业的股东愿意让出部分企业所有权，通过企业增资的方式引进新股东的融资方式，达到同时使总股本增加的融资方式。股权融资所获得的资金，企业无须还本付息，但新股东将与老股东同样分享企业的赢利与增长。一般股权融资活动中，由融资人通过融资服务平台发起融资项目，领投人对项目进行投资分析和尽职调查，形成投资意见书。领投人愿意投资的情况下，融资服务平台将项目商业计划书和投资意见书呈现给跟投人，跟投人根据所呈现的项目信息自行判断是否投资该项目。

传统股权融资活动中由于领投人为个人、企业或者专业的投资机构，对各种各样的融资项目所处的行业不会了解的非常全面，调研的方式经常采用登门拜访，经常会忽略一些行业的特征，所以容易出现融资人欺瞒、勾结领投人的情况，存在着巨大的欺诈隐患和投资风险。

如今，随着网络的普及，互联网思维与大数据运用的发展浪潮下，大数据与金融的融合发展程度越来越紧密，大数据在对传统金融体系的组织架构、内部管理、风险评估等方面起到了巨大的贡献，如果能良好的运用大数据技术，可以通过海量的数据收集，来完成关联分析，进而洞察事物本貌，尽量消除投融资中的信息不对称，降低征信成本与融资成本，提高风险的可控性。但网络上时时更新的数据成千上万，如何从海量的新闻语料中，提取投资目标企业相关联的大数据就成了核心问题。

同时，在越来越多科技创新企业凭借其科技创新能力获得资本的认可，成功在科创板上市的今天，在投资融资决策过程中，除了要关注企业内部状况：经营、财务、高管、招聘、网站更新频率等，企业外部状况，例如关联公司状况如上下游、客户等，评级机构对该企业的评级，新闻媒体相关报道等信息之外，还要关注企业的技术演进、知识产权、研发体系、科技团队、高管背景等情报信息，知识产权一方面为创新成果的转化运用提供便利，另一方面也为投资者提供有效的权益保障。从投资角度讲，知识产权既是创新创业成果的权利载体，也是投资孵化的对象标的。拥有自主知识产权核心技术并持续为企业收入增长提供驱动力是科创板企业入围基本要求。因此，科创板企业的知识产权实力状况直接关系企业发展效益，影响广大投资者利益。

为此，将企业的知识产权信息、工商注册企业数据信息、企业投资和融资信息以及风险信息深度融合，供投资机构、银行等投资方利用，进行项目风险评估、供产学研合作、企业间合作调研，供企业掌握自身发展动是急需解决的问题。

发明内容

本发明需解决的技术问题是：知识产权大数据情报信息量巨大，情报来源广泛，情报种类丰富，数据存在较强的分散性和缺失性，导致传统的检索方法在面对多维且复杂的知识产权信息、工商注册企业信息、企业投资和融资信息以及风险信息等信息时，检索耗时长，检索结果查准率和查全率低，并且检索得到的数据信息仍保留有较强分散性，需要检索用户耗费较大精力进行二次筛选和数据加工才可使用，所以传统的检索方法不足以支撑投资机构、银行和企业的技术投资、精准并购、人才引进、科技招商和产学研合作的情报支持。

为了解决上述技术问题，本发明提出一种知识产权大数据情报检索系统，包括数据获取模块、数据处理模块、企业评价模块、数据库模块、数据检索模块、数据收藏模块和数据下载模块；

其中，所述数据获取模块用于对多源异构数据进行采集；

所述多源异构数据是指自第三方购买的数据信息，或利用网络蜘蛛技术从网页抓取的数据信息，所述自第三方购买的数据信息来源包括包括国家知识产权局官方知识产权数据提供方、国家工商局企业注册信用信息提供方、巨潮资讯网、中国行业经济网、中国产业信息网、中国行业信息网、企查查、启信宝和天眼查，所述从网页抓取的数据信息来源包括中国政府网、各地方政府网、企业官方网站、各类征信网、社区论坛和舆情网站；

所述多元异构数据包括企业的知识产权信息、工商注册企业数据信息、企业投资和融资信息以及风险信息，

所述知识产权信息包括企业的技术演进、知识产权获取、知识产权维护、知识产权运用、研发体系、科技团队、高管背景、公司资质、权威奖项、技术标准、研发中心、实验室等信息；

所述工商注册企业数据信息包括公司名称、曾用名、法人名称、成立日期、企业状态、成立日期、社会统一信用社会代码、经营范围、企业logo、注册地、公司简介、官网地址等信息；

所述企业投资和融资信息包括投融资事件、并购事件、投资方等信息；

所述风险信息包括诉讼、知识产权的许可、知识产权的变更、知识产权的质押、知识产权的丧失等信息；

所述数据处理模块包括数据清洗子模块、数据预处理子模块、特征工程子模块、数据分类子模块和标签赋予子模块，所述数据清洗子模块用于去除文本中的噪音信息，所述数据预处理子模块用于执行文本切分处理，所述特征工程子模块用于将原始数据转变成模型的训练数据，所述数据分类子模块用于将数据分类，所述标签赋予子模块用于给企业添加标签；

所述去除文本中的噪音信息是指利用有效信息和噪音信息的区别特征，去除各种导航、链接，广告、声明信息等噪音信息；

所述文本切分处理是指降低文本粒度，去除文本中的停用词、数字、英文及标点符号；

所述将原始数据转变成模型的训练数据是指基于TF-IDF算法，将文本内容转化成数值形式的特征向量，从而得到每篇文档中较为重要的特征向量；

所述企业评价模块用于综合企业各维度知识产权大数据情报对企业投资指数进行评价；

所述数据库模块用于储存添加标签的知识产权大数据情报；

所述数据检索模块用于检索数据库模块知识产权大数据情报；

所述数据收藏模块用于将指定的知识产权大数据情报进行收藏；

所述数据下载模块用于下载目标知识产权大数据情报。

进一步的，所述知识产权大数据情报检索的方法包括以下步骤：

步骤一、数据获取步骤，获取企业相关的多源异构数据信息；

步骤二、数据处理步骤，包括数据清洗、数据预处理、特征工程、数据分类、赋予标签；

步骤三、企业评价步骤：综合企业各维度知识产权大数据情报对企业投资指数进行评价；

步骤四、情报信息存储步骤：储存添加标签的知识产权大数据情报；

步骤五、数据检索步骤：利用检索词、检索式和标签综合索引数据库中的知识产权大数据情报；

步骤六、数据收藏步骤：对指定的知识产权大数据情报进行收藏；

步骤七、数据下载步骤：下载目标知识产权大数据情报。

进一步的，所述有效信息和噪音信息的区别特征包括文本路径比特征、文本路径长度特征、文本标点特征和文本路径层次特征，所述文本路径比特征是指有效信息和噪音信息各自拥有相同或相似的标签路径，且有效信息的标签路径与噪音信息的标签路径不同，所述文本路径长度特征是指有效信息的文本长度比噪音信息的文本长度更长，所述文本标点特征是指有效信息的文本比噪音信息包含有更多的标点符号，所述文本路径层次特征是指网页有效信息比噪音信息拥有更少的修饰信息。

进一步的，所述将原始数据转变成模型的训练数据的公式为：

式中：

是词语在文本

中的出现总次数，

是文本

的总次数。

是语料库中的文档总数，

是包含词语

的文档数目。

通过TF-IDF算法将文本内容转化成数值形式的特征向量，从而得到每份文本中较为重要的特征向量。

进一步的，所述步骤二中数据分类使用的分类器包括朴素贝叶斯、linearregression、logistic regression、SVM、Naive Bayes、K近邻、决策树、集成模型、逻辑回归算法和随机梯度下降等分类器。

进一步的，所述标签为级联标签。

进一步的，所述级联标签的设置形式为Nij，其中，N代表级联标签的级数，N为大于等于1小于等于10的整数；i代表相同每级级联标签的个数，i为大于等于1小于等于100的整数；j代表第N级第i个级联标签下属的第j个下一级标签，j为大于等于1小于等于100的整数，所述级联标签的一级标签包括但不限于地区、产业、注册资本、注册时间、企业类型、当前融资轮次、上市状态、企业资质、研发成果、特色标签、发明团队规模、硬科技投资指数、知产备案企业。

进一步的，所述标签赋予子模块用于给企业添加标签后，将添加标签后的情报信息以树状层级结构存储在所述数据库模块中。

进一步的，提供所述系统在投融资活动中的应用，所述系统基于知识产权产业金融大数据的投融资与咨询，为投资机构、银行和企业的技术投资、精准并购、人才引进、科技招商和产学研合作提供情报支持。

作为本发明的另一方面，提供一种存储介质，所述的知识产权大数据情报检索系统以可执行的软件的形式存储在所述存储介质中。

本发明有益效果：

本发明提出的知识产权大数据情报检索系统，具有如下优点。

1、用大数据的思想转变传统情报信息调查的思维与方式，深度融合知识产权信息、工商注册企业数据信息、企业投资和融资信息以及风险信息，为投资机构、银行和企业的技术投资、精准并购、人才引进、科技招商和产学研合作提供情报支持，快速进行有效信息的检索。

2、将海量的数据进行汇集，缓解企业数据的分散和缺失问题，并将具体的企业行为进行抽象化、标签化，对企业进行多维度剖析，形成一个多元化的企业标签对象。

3、利用数据挖掘技术，对企业信息可视化，帮助投资机构、银行快速完成投资分析和尽职调查，也能促进企业间和产学研间的技术合作，并有助于企业全方位浏览自身信息，从宏观角度上把我自身发展。

附图说明

图1为本发明一种知识产权大数据情报检索系统的结构示意图；

图2为本发明一种知识产权大数据情报检索系统的检索方法步骤示意图；

图3为本发明一种知识产权大数据情报检索系统的数据获取步骤示意图；

图4为本发明一种知识产权大数据情报检索系统的数据处理步骤示意图；

图5为本发明一种知识产权大数据情报检索系统的网页解析结构示意图；

图6为本发明一种知识产权大数据情报检索系统的分词结果示意图；

图7为本发明一种知识产权大数据情报检索系统的停用词表示意图；

图8为本发明一种知识产权大数据情报检索系统的标签结构示意图；

图9为本发明一种知识产权大数据情报检索系统的标签层级示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细、完整的说明。以下的说明本质上仅仅是示例性的而并不是为了限制本公开、应用或用途。

如图1所示，一种知识产权大数据情报检索系统，包括数据获取模块、数据处理模块、企业评价模块、数据库模块、数据检索模块、数据收藏模块和数据下载模块；

其中，数据获取模块用于对多源异构数据进行采集；

所述数据库模块用于储存添加标签的知识产权大数据情报；

所述数据下载模块用于下载目标知识产权大数据情报。

如图2所示，执行一种知识产权大数据情报检索系统的方法，包括以下步骤：

S1、数据获取步骤，获取企业相关的多源异构数据信息；

S2、数据处理步骤，包括数据清洗、数据预处理、特征工程、数据分类、赋予标签；

S3、企业评价步骤：综合企业各维度知识产权大数据情报对企业投资指数进行评价；

S4、情报信息存储步骤：储存添加标签的知识产权大数据情报；

S5、数据检索步骤：利用检索词、检索式和标签综合索引数据库中的知识产权大数据情报；

S6、数据收藏步骤：对指定的知识产权大数据情报进行收藏；

S7、数据下载步骤：下载目标知识产权大数据情报。

实施例1、数据获取、数据处理和企业评价环节。

如图3所示，在数据获取步骤中，所述多源异构数据是指自第三方购买的数据信息，或利用网络蜘蛛技术从网页抓取的数据信息，所述自第三方购买的数据信息来源包括包括国家知识产权局官方知识产权数据提供方、国家工商局企业注册信用信息提供方、巨潮资讯网、中国行业经济网、中国产业信息网、中国行业信息网、企查查、启信宝和天眼查，所述从网页抓取的数据信息来源包括中国政府网、各地方政府网、企业官方网站、各类征信网、社区论坛和舆情网站；

所述风险信息包括诉讼、知识产权的许可、知识产权的变更、知识产权的质押、知识产权的丧失等信息。

在数据获取步骤中，将自第三方购买的结构化数据信息直接录入数据库，或者利用java程序或Sqoop工具将结构化的Excel数据表，或者利用解析工具将xml文件根据预定规则解析后提取到数据库中；从网页抓取的非结构化数据信息通过网络蜘蛛技术抓取并将获取的页面信息存入数据库中。

如图4所示，对于来自网页上的非结构化数据进行数据处理。具体如下：

如图5所示，使用Htmlsucker、Fruit-HTML、html2article-golang、jparser等开源HTML解析器，将给定的一个网页中的脚本、样本标签和注释全部去除，将网页解析成一棵DOM树；其中，Document是载入浏览器的HTML文档生成的对象，包括目标网页全部内容文件；HTML是网页文件的format形式，Head是修饰网页的源数据，如角标、logo等，Body是骨架内容，P是文字段落，Div是网页格子代码；

在本发明实践过程中，网页中的有效信息往往是一个整体，每个段落的显示格式比较相似，而网页的噪音信息主要包括导航栏、图片信息、广告及推荐链接等，这些噪音信息一般会分布在网页的边缘，都会存在类似的突出格式，所以文本有效信息和噪音信息的表现形式存在比较显著的区别，表征如下：

（1）文本路径比特征：有效信息和噪音信息各自拥有相同或相似的标签路径，且有效信息的标签路径与噪音信息的标签路径不同；

（2）文本路径长度特征：有效信息的文本长度比噪音信息的文本长度更长；

（3）文本标点特征：有效信息的文本比噪音信息包含有更多的标点符号；

（4）文本路径层次特征：网页有效信息比噪音信息拥有更少的修饰信息。

通过上述的4个有效信息和噪音信息的区别特征将二者进行区分，去除各种导航、链接，广告、声明信息等噪音信息后，存入到数据库中。

之后，对数据库中的数据进行预处理，以使在后续步骤中抽取的标签可以表征文本。

在本发明实践中，对数据的预处理主要是进行数据的拆分和筛选，将文本拆分，降低文本粒度，切分成词组，是抽取关键词形成标签的必要前提，然后将拆分的词语中的停用词及标点、数字、字母等无用数据进行剔除，从而使数据在进一步的挖掘过程中获得更好的结果。

如图6所示，在分词环节，采用HanLP、jieba、盘古、庖丁解牛、SCWS中文等开源分词工具，降低文本粒度成词。本方案基于词典分词算法，按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。图6给出的是部分分词表示例。

如图7所示，在分词完成的基础上，通过停用词表将分词处理后的文本中的无意义词语剔除，以使留下的每个词语都可以正确的表征文本，成为该文本的标签。

通过在网络上下载中文常规停用词词表，如哈工大停用词库、百度停用词表、四川大学机器智能实验室停用词表等，共计1683个词，将“同一”、“的”、“否则”、“你”、“我”、“他”、“不是”、“一”、“二”、“三”、“四”这种无意义的词剔除。图7给出的是部分停用词表示例。

之后，通过规则表达式，去除文本中的标点、数字和字母。

对预处理后原始数据进行特征工程处理，特征工程是把原始数据转变成模型的训练数据的过程，所以数据在特征工程过程的处理质量很大程度决定了分类效果，根据本发明提取的标签属于短文本分类工作，选择TF-IDF算法实现。TF-IDF算法基于一个词语在文档中的出现次数工作，当词语在该文档中出现次数越多，且在其他文档中出现次数越少，则说明该词语更能代表该文档，即“词频-逆文本频率”。

式中：

是词语在文本

中的出现总次数，

是文本

的总次数。

是语料库中的文档总数，

是包含词语

的文档数目。

或采用TF-IDF与关键词特征融合算法，采用TF-IDF作为主要特征，在其基础上添加其他文本特征，提升计算精度。

式中：

是词语在文本

中的出现总次数，

是文本

的总次数。

是语料库中的文档总数，

是包含词语

的文档数目，

为词语的词性得分，

为词语被标注词性的次数。

通过TF-IDF算法或TF-IDF与关键词特征融合算法将文本内容转化成数值形式的特征向量，从而得到每篇文档中较为重要的特征向量。

使用分类器对文本进行分类；

在朴素贝叶斯、linear regression、logistic regression、SVM、Naive Bayes、K近邻、决策树、集成模型、逻辑回归算法和随机梯度下降等分类器中选择适合使用的分类器，对文本数据进行分类。

根据分类结果对企业后添加级联标签。

如图8所示，对企业添加的标签包括一级标签，如地区、产业、注册资本、注册时间、企业类型、当前融资轮次、上市状态、企业资质、研发成果、特色标签、发明团队规模、硬科技投资指数、知产备案企业等。

一级标签下均设有二级标签进行再分类细化，如地区标签下设有北京市、天津市、河北省等二级标签；产业标签下设有国民经济行业分类和科创产业分类等二级标签；注册资本下设有500万以下、500-1000万、1000-5000万、5000万以上等二级标签；注册时间标签下设有2016年、2017年、2018年、2019年、2020年等二级标签；企业类型标签下设有有限责任公司、股份有限公司、国企、外商投资企业、独资企业、联营企业、集体所有制、有限合伙、普通合伙等二级标签；当前融资轮次标签下设有种子轮、天使轮、Pre-A、A、A+、Pre-B、B、B+、C、C+、D、D+、E、E轮以后Pre-IPO、战略融资等二级标签；上市状态标签下设有沪市主板、深市主板、创业板、中小板、新三板、区域性股权市场、IPO排队、科创板、科创板受理等二级标签；企业资质标签下设有国家高新技术企业、国家科技型中小企业、中关村高新技术企业等二级标签；研发成果标签下设有国际科技奖、中国专利奖、地方专利奖、国家科技重大专项、国家重点研发计划、技术创新引导专项等二级标签；特色标签下设有连续获投、独角兽公司、瞪羚企业、展翼企业、国家级试点示范企业、行政级试点示范企业、新锐企业等二级标签；发明团队规模标签下设有1-10、11-50、51-100、100以上等二级标签；硬科技投资指数标签下设有AAA、AA、A、BBB、BB、B、CCC等二级标签；知产备案企业标签下设有东营、深圳、佛山、南京、北京、广州、宁波等二级标签。

部分二级标签下设有三级标签进行再分类细化，如北京市标签下设有东城区、西城区、朝阳区、丰台区等三级标签；如国民经济行业分类标签下设有农、林、牧、渔业、采矿业、制造业、电力、热力、燃气及水生产和供应业、建筑业、信息传输、软件和信息技术服务业、居民服务、修理和其他服务业等三级标签；科创产业分类标签下设有新一代信息技术、新能源、高端装备、新材料、生物医药、节能环保等三级标签。

部分三级标签下设有四级标签进行再分类细化，如节能环保标签下设有新能源汽车整车、新能源汽车关联零部件、动力电池、高效节能产品及设备、先进环保技术设备、先进环保产品、资源循环利用等四级标签；信息传输、软件和信息技术服务业标签下设有电信、广播电视和卫星传输服务、互联网和相关服务、软件和信息技术服务业等四级标签。

部分四级标签下设有五级标签进行再分类细化，如互联网和相关服务标签下设有互联网接入及相关服务、互联网信息服务、互联网平台、互联网安全服务、互联网数据服务、其他互联网服务等五级标签；土木工程建筑业标签下设有铁道、道路、隧道和桥梁工程建筑、水利和水运工程建筑、海洋工程建筑、工矿工程建筑、架线和管道工程建筑、节能环保工程施工、电力工程施工、其他土木工程建筑等五级标签。

根据分类结果进行综合评分，通过对各分类数据进行加权处理，为各企业添加硬科技指数标签，表征企业的综合投资指数。

实施例2、情报信息存储环节。

知识产权大数据情报加工、分类完成后，将添加标签的情报信息以树状层级结构存储在数据库中。

如图9所示，存储在数据库中的树状层级结构数据包括所有完成加工、分类的知识产权大数据标签节点的Tree子标签节点，以及每一个子标签节点后的后代标签节点；

遍历标签节点，并生成与标签节点所在层级的数值N、每级级联标签的个数总数i和第N级第i个级联标签在其当前子集下的顺序j。

其中，N代表级联标签的级数，N为大于等于1小于等于10的整数；i代表相同每级级联标签的个数，i为大于等于1小于等于100的整数；j代表第N级第i个级联标签下属的第j个下一级标签，j为大于等于1小于等于100的整数。

在首次遍历当前标签节点时，判断当前标签节点所在层级，若为tree标签节点的子标签节点时，配置当前标签节点的标签级数N为1；若否，则将当前标签节点的标签级数N设置为其父标签节点的标签级数加1后得到的数值。

完成遍历后，为相同层级级联标签添加i值，i为1,2,3,4,5,6,7,8,9,10····100的整数，并对每个级联标签的后代标签进行统计，添加j值，j为1,2,3,4,5,6,7,8,9,10····100的整数。

首先遍历标签节点<divid=‘Ⅰ’>，判断该标签节点是首次遍历，且其为Tree标签节点的子标签节点，因此，将其标签级数N配置为1；接着遍历标签节点<divid=‘Ⅲ’>，判断该标签节点是首次被遍历，且其不是Tree标签节点的子标签节点，因此，将其标签级数N设置为其父标签节点<divid=‘Ⅰ’>的标签级数加1后得到的数值2；接着遍历标签节点<divid=‘Ⅵ’>，判断该标签节点是首次被遍历，且其不是Tree标签节点的子标签节点，因此，将其标签级数N设置为其父标签节点<divid=‘Ⅲ’>的标签级数加1后得到的数值3，接着遍历标签节点<divid=‘Ⅱ’>，判断该标签节点是首次遍历，且其为Tree标签节点的子标签节点，因此，将其标签级数N配置为1；接着遍历标签节点<divid=‘Ⅳ’>，判断该标签节点是首次被遍历，且其不是Tree标签节点的子标签节点，因此，将其标签级数N设置为其父标签节点<divid=‘Ⅱ’>的标签级数加1后得到的数值2，并且，标签节点<divid=‘Ⅳ’>没有子标签节点，因此，返回其父标签节点<divid=‘Ⅱ’>，由于标签节点<divid=‘Ⅱ’>之前被遍历过，因此不改变其标签级数；接着遍历标签节点<divid=‘Ⅱ’>的另一个子标签节点<divid=‘Ⅴ’>，判断该标签节点是首次被遍历，且其不是Tree标签节点的子标签节点，因此，将其标签级数N设置为其父标签节点<divid=‘Ⅱ’>的标签级数加1后得到的数值2，完成遍历，在第1级标签中，为标签节点<divid=‘Ⅰ’>配置i，j的数值分别为1和1，为标签节点<divid=‘Ⅱ’>配置i，j的数值分别为2和1，在第2级标签中，为标签节点<divid=‘Ⅲ’>配置i，j的数值分别为1和1，为标签节点<divid=‘Ⅳ’>配置i，j的数值分别为2和1，为标签节点<divid=‘Ⅴ’>配置i，j的数值分别为3和2，在第3级标签中，为标签节点<divid=‘Ⅵ’>配置i，j的数值分别为1和1，完成标签级数的赋予。

实施例3、数据检索环节。

用户可以通过关键词或检索式进行检索，也可以只通过标签组合限定进行检索。

当用户输入检索词或简单检索式时，系统根据查询关键词，从数据库中搜索与查询关键词对应或相近的企业数据，若数据库中存在查询关键词对应的企业数据，则根据企业数据反馈至用户；若数据库中不存在与查询关键词对应的企业数据，但存在于查询关键词相近的企业数据时，则计算机查询关键词与相近的企业数据之间的相似度；再将相似度与预设的相似度阈值进行比较，当相似度高于相似度阈值时，根据相近的企业数据反馈至用户，当相似度低于相似度阈值时，则不反馈企业数据给用户。

当用户输入的检索式较为复杂时，除了对数据库中的企业数据一一匹配外，得到具体的数据集，缩小数据检索范围外，还可以对检索式进行预处理，提取检索元素，根据检索元素生成树状层级结构的查询文本，将查询文本与树状层级结构的知识产权大数据情报进行匹配检索，从而降低检索冗余，节省检索空间，提高检索效率。

通过输入检索词或检索式进行检索时，检索结果可以会含有较多的企业信息，此时用户可以使用标签限定，进行过滤，快速将不符合条件的企业信息进行剔除。

如投资机构或银行在对比多家企业时，可以通过限定特定若干个标签，进行重点领域的详细对比，如关注企业的风险信息，可以用诉讼信息标签和专利状态变更标签进行限定关注，若关注企业的研发成果，可以用权威奖项、重大项目、技术标准等标签进行限定。

当投资机构或银行进行项目初步筛查时，或公司高校初步寻找技术合作时，没有形成具体的方案，而无法提供具体的检索词或检索式，用户可以用多个标签限定的方式进行模糊检索；利用标签筛选逐级缩小目标范围，找到符合预期的优质项目。

例如银行进行项目筛选时，可以先通过地区标签筛选，将项目地点限定在银行所在地，再通过当前融资轮次及下设的二级标签对目标企业集合进行过滤，得到合适的融资轮次的企业；还可以进一步通过上市状态及下设的二级标签对目标企业集合进行过滤，得到已经上市企业集合，最后通过硬科技投资指数标签筛选出，创新力、竞争力、进化力和影响力都过硬的项目企业。

例如，投资方在进行项目筛选时，可以通过产业标签筛选，将项目限定在拟投资领域内，再通过研发成果标签，筛选出经过权威认证的研发实力强的企业，再通过发明团队规模标签进行筛选出具有持续科创实力的企业，最后通过硬科技投资指数标签筛选出，创新力、竞争力、进化力和影响力都过硬的项目企业。

实施例4、数据收藏和数据下载环节。

为了便于用户减少重复检索的工作，系统还支持用户登录账号后的收藏功能，用户可以对检索方案进行收藏，或对检索到的结果信息进行收藏，用户可以在不同终端平台登录后反复对数据进行查阅，展示效果良好，不会出现内容被遮挡，页面风格不匹配的问题。

用户下达收藏命令后，数据收藏模块通过数据获取模块将收藏的数据的标识信息保存至数据库模块，数据的标识信息包括但不限于：数据的地址信息、数据的标题、摘要等相关信息等，当用户再次调用被收藏数据时，系统可以调用数据的标识信息，快速将数据呈现给用户。

数据收藏模块会根据被收藏数据的特征关键词和标签自动生成收藏标签，用户也可以自定义收藏标签，在用户自定义收藏标签后，数据获取模块会将用户自定义的数据存储到数据库模块中。

当用户检索到合适的数据后，可以在线预览，或将数据进行导出，以方便用户进行线下操作，系统支持下载用户对选中的全部或部分相关企业信息进行下载，由于相关企业信息表现形式多种多样，不限于文字、文章、数字、表格或图表等形式，所以系统支持用户通过word、excel、pdf、jpg、png、caj或其他数据格式进行下载。

图表的展现形式包括不限于由excel、plotly、echarts、R ggplot2、TableauPiblic、iCharts、Gephi等数据可视化工具制作的折线图、柱状图、饼图、散点图、地理坐标/地图、K线图、雷达图、盒须图、热力图、关系图、路径图、树图、矩形树图、旭日图、平行坐标系、桑葚图、漏斗图、仪表图、象形柱图、主题河流图、日历坐标系、数据集、数据区域缩放、拖拽图、3D图、GL图等。

本发明提及的知识产权大数据情报检索系统，是基于知识产权产业金融大数据的投融资与咨询，为投资机构、银行和企业的技术投资、精准并购、人才引进、科技招商和产学研合作提供情报支持。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种知识产权大数据情报检索系统，其特征在于，包括数据获取模块、数据处理模块、企业评价模块、数据库模块、数据检索模块、数据收藏模块和数据下载模块；

其中，所述数据获取模块用于对多源异构数据进行采集；

所述多源异构数据是指自第三方购买的数据信息，或利用网络蜘蛛技术从网页抓取的数据信息，所述自第三方购买的数据信息来源包括国家知识产权局官方知识产权数据提供方、国家工商局企业注册信用信息提供方、巨潮资讯网、中国行业经济网、中国产业信息网、中国行业信息网、企查查、启信宝和天眼查，所述从网页抓取的数据信息来源包括中国政府网、各地方政府网、企业官方网站、各类征信网、社区论坛和舆情网站；

所述数据库模块用于储存添加标签的知识产权大数据情报；

所述数据下载模块用于下载目标知识产权大数据情报。

2.根据权利要求1所述的知识产权大数据情报检索系统，其特征在于，所述知识产权大数据情报检索的方法包括以下步骤：

步骤七、数据下载步骤：下载目标知识产权大数据情报。

3.根据权利要求1所述的知识产权大数据情报检索系统，其特征在于，所述有效信息和噪音信息的区别特征包括文本路径比特征、文本路径长度特征、文本标点特征和文本路径层次特征，所述文本路径比特征是指有效信息和噪音信息各自拥有相同或相似的标签路径，且有效信息的标签路径与噪音信息的标签路径不同，所述文本路径长度特征是指有效信息的文本长度比噪音信息的文本长度更长，所述文本标点特征是指有效信息的文本比噪音信息包含有更多的标点符号，所述文本路径层次特征是指网页有效信息比噪音信息拥有更少的修饰信息。

4.根据权利要求1所述的知识产权大数据情报检索系统，其特征在于，所述将原始数据转变成模型的训练数据的公式为：

式中：

是词语在文本

中的出现总次数，

是文本

的总次数，

是语料库中的文档总数，

是包含词语

的文档数目，通过TF-IDF算法将文本内容转化成数值形式的特征向量，从而得到每份文本中较为重要的特征向量。

5.根据权利要求2所述的知识产权大数据情报检索系统，其特征在于，所述步骤二中数据分类使用的分类器包括朴素贝叶斯、linear regression、logistic regression、SVM、Naive Bayes、K近邻、决策树、集成模型、逻辑回归算法和随机梯度下降等分类器。

6.根据权利要求2或5之一所述的知识产权大数据情报检索系统，其特征在于，所述标签为级联标签。

7.根据权利要求6所述的知识产权大数据情报检索系统，其特征在于，所述级联标签的设置形式为Nij，其中，N代表级联标签的级数，N为大于等于1小于等于10的整数；i代表相同每级级联标签的个数，i为大于等于1小于等于100的整数；j代表第N级第i个级联标签下属的第j个下一级标签，j为大于等于1小于等于100的整数，所述级联标签的一级标签包括但不限于地区、产业、注册资本、注册时间、企业类型、当前融资轮次、上市状态、企业资质、研发成果、特色标签、发明团队规模、硬科技投资指数、知产备案企业。

8.根据权利要求1所述的知识产权大数据情报检索系统，其特征在于，所述标签赋予子模块用于给企业添加标签后，将添加标签后的情报信息以树状层级结构存储在所述数据库模块中。

9.根据权利要求1-8任一项所述的知识产权大数据情报检索系统在投融资活动中的应用，其特征在于，所述系统基于知识产权产业金融大数据的投融资与咨询，为投资机构、银行和企业的技术投资、精准并购、人才引进、科技招商和产学研合作提供情报支持。

10.一种存储介质，其特征在于：所述权利要求1-8的知识产权大数据情报检索系统以可执行的软件的形式存储在所述存储介质中。