CN104376406A - 一种基于大数据的企业创新资源管理与分析系统和方法 - Google Patents

一种基于大数据的企业创新资源管理与分析系统和方法 Download PDF

Info

Publication number
CN104376406A
CN104376406A CN201410616636.9A CN201410616636A CN104376406A CN 104376406 A CN104376406 A CN 104376406A CN 201410616636 A CN201410616636 A CN 201410616636A CN 104376406 A CN104376406 A CN 104376406A
Authority
CN
China
Prior art keywords
data
analysis
module
information
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410616636.9A
Other languages
English (en)
Other versions
CN104376406B (zh
Inventor
郑树泉
王倩
宫艳雪
阎梦天
杨中山
范仲敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Original Assignee
Shanghai Industrial Institute For Research And Technology
SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Industrial Institute For Research And Technology, SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY filed Critical Shanghai Industrial Institute For Research And Technology
Priority to CN201410616636.9A priority Critical patent/CN104376406B/zh
Publication of CN104376406A publication Critical patent/CN104376406A/zh
Application granted granted Critical
Publication of CN104376406B publication Critical patent/CN104376406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

一种基于大数据的企业创新资源管理与分析系统,所述的大数据包括来自互联网资源的论文、专利文献和网页内容,所述系统包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的系统存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块。本发明实现了专利、论文、网页内容三种信息源的融合,扩展创新资源,实现全方位的资源搜索;本发明采用动态配置关键字,实时抓取,能更好的扩充数据资源,使得数据资源与当前网络资源同步;本发明采用一体化的结构模式,用户通过配置,可实现定时、定向的数据分析报告,便于用户一站式检索其所需信息,简化用户操作。

Description

一种基于大数据的企业创新资源管理与分析系统和方法
技术领域
本发明属于大数据分析挖掘技术领域,特别涉及一种可处理多种信息类型的信息源的企业创新资源管理与分析系统和方法。
背景技术
在大数据时代,数据逐渐成为企业及行业的最重要资产之一,发展决策与市场定位行为将日益基于数据分析做出,而不是像过去更多凭借经验和直觉。作为构筑在数据分析和信息处理基础上的竞争情报,它的发展将面临着全新的信息空间所带来的机遇和挑战。相关的数据整合在一起,能不断产生新的信息和知识,有助于提高生产率、降低经营成本。
技术创新数据是竞争情报的重要组成部分,而创新数据分析多为针对单一领域,要么是网页新闻、要么是专利、要么为科研论文,较少将三者有效融合,提供整合的分析结果,导致创新资源本身缺少全面性,不利于企业做全方位的分析,难以提升核心竞争能力,保持或获得行业领先地位。
发明内容
本发明的目的是提供一种基于大数据的企业创新资源管理与分析系统和方法。
本发明的技术方案是,一种基于大数据的企业创新资源管理与分析系统,所述的大数据包括来自互联网资源的论文、专利文献和网页内容,所述系统包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的系统存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块,
所述的数据采集模块动态设定关键词,组建大数据URL种子,建立网站优先检索表,以深度优先的算法利用数据抓取器采集开放的互联网内容和封闭的数据库信息;
所述的系统存储模块,将采集的信息资源分类,分别存储到专利数据库、论文数据库和网页内容数据库中,并依据采集是的相关关键字建立初步的数据索引表;
所述的数据分析模块,根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及相关性的关系挖掘分析,并依据分析结果建立索引;
所述的一体化报告模块,根据用户设定的关键字,调用数据分析模块给出整体的分析报告。
一种基于大数据的企业创新资源管理与分析方法,所述的大数据包括来自互联网资源的论文、专利文献和网页内容,所述系统包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的系统存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块,包括以下步骤:
其中,第一阶段包括,
步骤一:系统根据初始设定的关键字,组建优质URL种子,利用爬虫技术,采用关键字权重过滤算法,以优质网站优先深度搜索的方法,采集互联网关于专利、论文、网页新闻等相关信息资源;
步骤二:将采集的信息资源分类,分别存储到专利数据库、论文数据库、网页新闻数据库中,并依据采集是的相关关键字建立初步的数据索引表;
步骤三:根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及其他相关性的关系挖掘分析,并依据分析结果建立索引;
步骤四:根据需要改变领域、关键字或/和分析方法,重复进行步骤一、二、三;
第二阶段包括,
步骤一:判断用户输入的关键字或领域是否在系统前期的配置表中,若不在则将其加入到系统的配置表中,进行第一阶段的实施步骤;
步骤二:针对用户的需求对所采集数据信息进行分析,并根据报告配置的模式,呈现分析结果,并可将报告结果导出或定时发送的用户邮箱或手机。
本发明的有益效果包括:
1、本发明实现了专利、论文、网页内容三种信息源的融合,扩展创新资源,实现全方位的资源搜索;
2、本发明采用动态配置关键字,实时抓取,能更好的扩充数据资源,使得数据资源与当前网络资源同步;
3、本发明采用一体化的结构模式,用户通过配置,可实现定时、定向的数据分析报告,便于用户一站式检索其所需信息,简化用户操作。
附图说明
图1为本发明实施例中企业创新资源管理与分析系统结构示意图。
图2是本发明中数据采集模块的网页下载流程。
图3是本发明中数据采集模块的网页内容结构化提取流程图。
图4是本发明中系统存储模块中使用的文本分类流程图。
具体实施方式
本发明所述企业创新资源管理与分析系统结构示意图,如图1所示,系统包括数据采集模块、数据分析模块、系统存储模块、一体化报告模块。资源管理与分析包括两个部分:一为系统根据前期配置领域(关键字),和数据分析方向的设定,自动的数据采集和分析数据;二为系统根据客户的设定需求,有具体针对性的数据采集与分析。其中第一个部分是不间断执行的部分,其中配置领域(关键字)和数据分析方式可动态的修改或扩充;第二部分是中的采集工作在用户设定后也为不间断执行的部分,但针对客户的分析,只有在客户有需求的时候才开始执行。其实施步骤如下:
第一部分实施步骤如下:
步骤一:系统根据初始设定的关键字,组建优质URL种子,利用爬虫技术,采用关键字权重过滤算法,以优质网站优先深度搜索的方法,采集互联网关于专利、论文、网页新闻等相关信息资源;
步骤二:将采集的信息资源分类,分别存储到专利数据库、论文数据库、网页新闻数据库中,并依据采集是的相关关键字建立初步的数据索引表;
步骤三:根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及其他相关性的关系挖掘分析,并依据分析结果建立索引。
步骤四:是否需更改(扩充)前期领域、关键字、分析方法,重复进行前述步骤一、二、三。
第二部分实施步骤如下:
步骤一:判断用户输入的关键字或领域是否在系统前期的配置表中,若不在则将其加入到系统的配置表中,进行第一部分的实施步骤;
步骤二:针对用户的需求对所采集数据信息进行分析,并根据报告配置的模式,呈现分析结果,并可将报告结果导出或定时发送的用户邮箱或手机。
在本发明中,关于网站数据信息的采数据集模块的实现还系统包括两个子模块,分别是网页下载子模块和网页内容结构化提取子模块。其中,网页下载子模块专门负责下载网页,存储到原始网页数据库中。它把用户指定的网站作为目标网站,采用递归下载的方式不断从已经下载的网页中提取新的URL链接,在智能判断URL的合法性和去除后,把新发现的URL加到URL队列中继续下载,这样可以把目标网站全部网页遍历下载完,同时也就满足了用户对这些网站的历史数据的需求。具体流程如图2所示,包括以下步骤:
步骤1,根据已有的网站URL列表,下载网页并存储到原始网页数据库;
步骤2,在所述的已下载网页中提取URL,如果判断其不是目标网站,则删除该URL,
如果判断其是目标网站,则判断其内容是否以抓取,若未抓取,则将该URL加入URL列表,并继续执行步骤1。
关于网页内容抓取,或者叫提取,可按用户需求,提取网页中包含的各类数据,即把网页数据结构化。我们研发的智能算法,能准确提取90%以上的网页内容,再对个别网站加以定制开发可以达到100%提取网页内容的需求。提取流程如图3所示,包括以下步骤:
步骤1,从原始网页数据库读取网页;
步骤2,判断该网页是否是具有内容的网页,如果具有内容,则解析该网页结构,提取正文文本块以及图形和图片,存入网页结构化内容数据库。
在本发明的数据分析模块中,会用到中文分词与词性标注模块。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
我们提供一个准确率很高的分词技术模块。我们的中文分词词库包括:
(1)基础词库:通过海量中文文本语料统计并人工校对得到20多万条中文常用词库。
(2)专业词库:包括各个行业的几百万专业词库。
(3)网络新词库:自动发现网络新词。
以上述词库为基础,结合独有的未登录词识别算法、歧义处理算法开发的分词算法,能够很好满足进一步语义分析的需求。
同样,在本发明的数据分析模块中还包括文本摘要模块。文摘是全面准确地反映某一文献中心内容地简单连贯的短文,是能够准确而且简单地让读者了解该文本的主要信息,让读者在很短的时间内判断出该文本对他来说是不是有价值的。
我们基于隐马尔科夫模型,结合文本的多种特征(比如,textrank,段首,段尾,标题等)开发了文本自动摘要模块,
在本发明的数据分析模块中包括的文本相似性检索模块用于对文本的相似性检索。相似性检索是指对给定的样本文献(例如新闻等),在文献数据集合中查找出与之内容相似的文献的技术。
我们根据Google的Simhash算法结合中文分词算法,对每一篇文章计算一个数字指纹,建立指纹索引和高速比较算法,具体的Simhash过程如下:
(1)首先基于传统IR方法,将文章转换为一组加权的特征值构成的向量。
(2)初始化一个f维的向量V,其中每一个元素初始值为0。
(3)对于文章的特征向量集中的每一个特征,做如下计算:
利用传统的hash算法映射到一个f-bit的签名。对于这个f-bit的签名,如果签名的第i位上为1,则对向量V中第i维加上这个特征的权值,否则对向量的第i维减去该特征的权值。
(4)对整个特征向量集合迭代上述运算后,根据V中每一维向量的符号来确定生成的f-bit指纹的值,如果V的第i维为正数,则生成f-bit指纹的第i维为1,否则为0。
在本发明的数据存储模块中,包括文本分类过程。将互联网上的网页按照合理的分类体系进行存储与管理,不仅便于对网页数据进行管理,还可以在此基础上进行许多有意义的信息挖掘。
根据图4,建立文本分类模块,主要步骤如下:
(1)训练集整理
文本分类属于有监督的学习,所以需要整理样本文本语料库。根据业务需求,确定样本标签与数目,其中样本标签多为整数。
(2)特征选择
文本分类中最著名的特征提取方法就是向量空间模型(VSM),即将样本转换为向量的形式。为了能实现这种转换,需要做两个工作:确定特征集和提取特征。
(2.1)确定特征集
特征集其实就是词典,而且还需要给每个词设定一个编号。
一般可以将所有样本的词都提取出来作为词典,而词典的编号可以随意设置,默认情况下,所有词的权重都是等同的。如何从样本中提取出一个个意义的词呢?最常用的方法就是使用分词工具。
(2.2)特征选择
根据不同的业务,文本分类中词典的规模在万级到千万级甚至亿级。而这么大的维度可能会带来维度灾难,因此就要想办法从大量的特征中选择一些有代表性的特征而又不影响分类的效果(而根据文献中的结果,特征选择可以在一定程度上提高分类的效果)。特征选择就是从特征集中选择一些代表性的词。而如何衡量词的代表性呢?一般的计算方法有词频、卡方公式、信息增益等。当前文献中一致认为比较好的方法是卡方公式。
(2.3)特征抽取
另外一种解决维度灾难的思路就是特征抽取。同样是降维,相比特征选择,特征抽取采用了一种高级的方法来进行。Topic Modeling是原理就是将利用映射将高纬度空间映射到低纬空间,从而达到降维的目的。
(3)计算特征权重
给定一个样本,计算特征权重的流程:
(3.1)首先,对样本进行分词,提取出所有的词。
(3.2)根据已经生成的词典,如果词典中的词出现,就在相应对应的位置填入该词的词频。
(3.3)对生成的向量进行归一化
上面的所示的方法是比较简单的一种,其中特征权重采用的为词频来表示,现在比较常用的特征权重的计算方式为TF*IDF,TF*RF。
(4)模型训练与预测
当把文本转换成向量的形式后,大部分的工作其实已经做完了。后面所要做的就是利用算法进行训练和预测了。现在文本分类的算法很多,常见的有Bayes,SVM,KNN,Logistic回归等。
通过以上流程,我们研发的文本分类模块能够很好满足项目需求:
在文本分类过程中,还有一个文本聚类处理模块。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,从而可以为上层的推荐等模块服务。
文本聚类主要依据聚类假设:同类的文档相似度较大,非同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。文本聚类的具体过程如下所述:
(1)文本信息的预处理
文本聚类的首要问题是如何将文本内容表示成为数学上可分析处理的形式,即建立文本特征,以一定的特征项(如词条或描述)来代表目标文本信息。要建立文本信息的文本特征,常用的方法是:对文本信息进行预处理(词性标注、语义标注),构建统计词典,对文本进行词条切分,完成文本信息的分词过程。
(2)文本信息特征的建立
文本信息的特征表示模型有多种,常用的有布尔逻辑型、向量空间型、概率型以及混合型等。其中,向量空间模型(Vector Space Model,VSM)是近几年来应用较多且效果较好的方法之一,它是文档表示的一个统计模型。该模型的主要思想是:将每一文档都映射为由一组规范化正交词条矢量张成的向量空间中的一个点。对于所有的文档类和未知文档,都可以用此空间中的词条向量(T1,W 1,T 2,W2,…,Tn,Wn)来表示(其中,Ti为特征向量词条;Wi为Ti的权重)[5]。一般需要构造一个评价函数来表示词条权重,其计算的唯一准则就是要最大限度地区别不同文档。这种向量空间模型的表示方法最大的优点在于将非结构化和半结构化的文本表示为向量形式,使得各种数学处理成为可能。
(3)文本信息特征集的缩减
VSM将文本内容表示成数学上可分析处理的形式,但是存在的一个问题是文档特征向量具有惊人的维数。因此,在对文本进行聚类处理之前,应对文本信息特征集进行缩减。通常的方法是针对每个特征词条的权重排序,选取预定数目的最佳特征作为结果的特征子集。选取的数目以及采用的评价函数都要针对具体问题来分析决定。
降低文本特征向量维数的另一个方法是采用向量的稀疏表示方法。虽然文本信息特征集的向量维数非常大,但是对于单个文档,绝大多数向量元素都为零,这一特征也决定了单个文档的向量表示将是一个稀疏向量。为了节省内存占用空间,同时加快聚类处理速度,可以采用向量的稀疏表示方法。假设确定的特征向量词条的个数为n,传统的表示方法为而(T1,W 1,T 2,W2,…,Tn,Wn)稀疏表示方法为(D 1,W1,D2,W2,Dp,…,Wp,n)(Wi≠0)。其中,Di为权重不为零的特征向量词条;Wi为其相应权重;n为向量维度。这种表示方式大大减小了内存占用,提升了聚类效率,但是由于每个文本特征向量维数不一致,一定程度上增加了数学处理的难度。
(4)文本聚类
在将文本内容表示成数学上可分析处理的形式后,接下来的工作就是在此数学形式的基础上,对文本进行聚类处理。文本聚类主要有2种方法:基于概率和基于距离。基于概率的方法以贝叶斯概率理论为基础,用概率的分布方式描述聚类结果。基于距离的方法,就是以特征向量表示文档,将文档看成向量空间中的一个点,通过计算点之间的距离进行聚类。

Claims (2)

1.一种基于大数据的企业创新资源管理与分析系统,所述的大数据包括来自互联网资源的论文、专利文献和网页内容,其特征在于,所述系统包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的系统存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块,
所述的数据采集模块动态设定关键词,组建大数据URL种子,建立网站优先检索表,以深度优先的算法利用数据抓取器采集开放的互联网内容和封闭的数据库信息;
所述的系统存储模块,将采集的信息资源分类,分别存储到专利数据库、论文数据库和网页内容数据库中,并依据采集是的相关关键字建立初步的数据索引表;
所述的数据分析模块,根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及相关性的关系挖掘分析,并依据分析结果建立索引;
所述的一体化报告模块,根据用户设定的关键字,调用数据分析模块给出整体的分析报告。
2.一种基于大数据的企业创新资源管理与分析方法,所述的大数据包括来自互联网资源的论文、专利文献和网页内容,所述系统包括用以从互联网获取所需数据的数据采集模块、用以存储所获得数据的系统存储模块、用以对获得数据进行分析的数据模块和用以产生分析报告的一体化报告模块,其特征在于,包括以下步骤:
其中,第一阶段包括,
步骤一:系统根据初始设定的关键字,组建优质URL种子,利用爬虫技术,采用关键字权重过滤算法,以优质网站优先深度搜索的方法,采集互联网关于专利、论文、网页新闻等相关信息资源;
步骤二:将采集的信息资源分类,分别存储到专利数据库、论文数据库、网页新闻数据库中,并依据采集是的相关关键字建立初步的数据索引表;
步骤三:根据数据分析模块中的数据分析方式对采集到的信息依次进行热点追踪、信息分析、领域分析以及其他相关性的关系挖掘分析,并依据分析结果建立索引;
步骤四:根据需要改变领域、关键字或/和分析方法,重复进行前述步骤一、二、三;
第二阶段包括,
步骤一:判断用户输入的关键字或领域是否在系统前期的配置表中,若不在则将其加入到系统的配置表中,进行第一阶段的实施步骤;
步骤二:针对用户的需求对所采集数据信息进行分析,并根据报告配置的模式,呈现分析结果,并可将报告结果导出或定时发送的用户邮箱或手机。
CN201410616636.9A 2014-11-05 2014-11-05 一种基于大数据的企业创新资源管理与分析方法 Active CN104376406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410616636.9A CN104376406B (zh) 2014-11-05 2014-11-05 一种基于大数据的企业创新资源管理与分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410616636.9A CN104376406B (zh) 2014-11-05 2014-11-05 一种基于大数据的企业创新资源管理与分析方法

Publications (2)

Publication Number Publication Date
CN104376406A true CN104376406A (zh) 2015-02-25
CN104376406B CN104376406B (zh) 2019-04-16

Family

ID=52555301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410616636.9A Active CN104376406B (zh) 2014-11-05 2014-11-05 一种基于大数据的企业创新资源管理与分析方法

Country Status (1)

Country Link
CN (1) CN104376406B (zh)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069585A (zh) * 2015-08-31 2015-11-18 佛山市恒南微科技有限公司 一种企业专利公告信息抓取与管理系统
CN105117848A (zh) * 2015-08-31 2015-12-02 佛山市恒南微科技有限公司 一种企业知识产权信息抓取与管理系统
CN105138651A (zh) * 2015-08-31 2015-12-09 佛山市恒南微科技有限公司 一种企业商标公告信息抓取与管理的方法
CN105139309A (zh) * 2015-08-31 2015-12-09 佛山市恒南微科技有限公司 一种企业软件著作权公告信息抓取与管理的方法
CN105160471A (zh) * 2015-08-31 2015-12-16 佛山市恒南微科技有限公司 一种实现区域企业专利信息摸底与管理的方法
CN105160472A (zh) * 2015-08-31 2015-12-16 佛山市恒南微科技有限公司 一种企业软件著作权公告信息抓取与管理系统
CN105184704A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种实现区域企业商标信息摸底与管理的系统
CN105183821A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种实现区域企业软件著作权公告摸底与管理的方法
CN105184705A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种实现区域企业知识产权摸底与管理的方法
CN105183822A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种企业商标公告信息抓取与管理系统
CN105205588A (zh) * 2015-08-31 2015-12-30 佛山市恒南微科技有限公司 一种企业专利公告信息抓取与管理的方法
CN105279392A (zh) * 2015-09-28 2016-01-27 深圳华大基因科技服务有限公司 一种基于云平台的大数据分析装置
CN105389482A (zh) * 2015-09-28 2016-03-09 深圳华大基因科技服务有限公司 一种基于云平台的大数据分析方法
CN105825415A (zh) * 2016-03-15 2016-08-03 广东省科技基础条件平台中心 一种科技资源供需对接方法
CN105955974A (zh) * 2016-03-24 2016-09-21 苏州科技学院 一种基于法人数据库的统计分析系统
CN106055557A (zh) * 2015-12-25 2016-10-26 中国科学技术信息研究所 一种互联网环境下大数据分类预处理方法及系统
CN107122495A (zh) * 2017-05-24 2017-09-01 苏州唯亚信息科技股份有限公司 适用于专利公开科技数据库的信息抓取方法
CN107273481A (zh) * 2017-06-10 2017-10-20 苏州唯亚信息科技股份有限公司 适用于企业用户研发数据库的维护方法
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN107844960A (zh) * 2017-11-22 2018-03-27 辅投帮(武汉)科技有限公司 一种自动化智能分析商业计划书的投资分析工具
CN108038105A (zh) * 2017-12-22 2018-05-15 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN108229810A (zh) * 2017-12-29 2018-06-29 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法
CN108491420A (zh) * 2018-02-06 2018-09-04 平安科技(深圳)有限公司 网页爬取的配置方法、应用服务器及计算机可读存储介质
TWI636369B (zh) * 2016-04-19 2018-09-21 中華電信股份有限公司 即時串流紀錄資料分析系統與方法
CN109241275A (zh) * 2018-07-05 2019-01-18 广东工业大学 一种基于自然语言处理的文本主题聚类算法
CN109558481A (zh) * 2018-12-03 2019-04-02 中国科学技术信息研究所 专利与企业相关性测度方法、装置、设备及可读存储介质
TWI659369B (zh) * 2017-07-12 2019-05-11 金腦數位股份有限公司 訊息處理裝置
CN109933643A (zh) * 2019-02-22 2019-06-25 太原蓝知科技有限公司 专利交易大数据采集和处理方法
CN109977987A (zh) * 2017-12-25 2019-07-05 达索系统公司 预测影响物理系统的事件
CN109977112A (zh) * 2018-12-28 2019-07-05 万康源(天津)基因科技有限公司 科研文献的结构化信息提取方法及系统
CN110209942A (zh) * 2019-06-04 2019-09-06 广德元瑞生产力促进中心有限公司 一种基于大数据的科技信息智能推送系统
CN110400101A (zh) * 2019-08-21 2019-11-01 苏州经贸职业技术学院 行业报告分析系统及方法
CN111382233A (zh) * 2020-03-18 2020-07-07 深圳市随金科技有限公司 一种相似文本检测方法、装置、电子设备及存储介质
CN111401765A (zh) * 2020-03-24 2020-07-10 重庆德生鼎盛实业发展有限公司 一种基于大数据的工程进度监管系统
CN112085331A (zh) * 2020-08-04 2020-12-15 广东省科学技术情报研究所 一种基于大数据的研发机构动态监测方法与系统
CN112181930A (zh) * 2020-09-29 2021-01-05 杭州迪普科技股份有限公司 虚拟交换矩阵的文件管理方法及装置
CN112712299A (zh) * 2021-01-21 2021-04-27 网思科技股份有限公司 资源管理方法、系统、存储介质及电子装置
CN113393179A (zh) * 2021-08-18 2021-09-14 江苏中协智能科技有限公司 一种基于时序差分的数据集成系统
CN113947339A (zh) * 2021-12-22 2022-01-18 北京金堤科技有限公司 生成资产线索数据的方法和装置
CN115146712A (zh) * 2022-06-15 2022-10-04 北京天融信网络安全技术有限公司 物联网资产识别方法、装置、设备及存储介质
CN116069760A (zh) * 2023-01-09 2023-05-05 青岛中投创新技术转移有限公司 一种专利管理数据处理系统、装置及方法
CN116127047A (zh) * 2023-04-04 2023-05-16 北京大学深圳研究生院 企业信息库的建立方法与装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716244A (zh) * 2003-12-29 2006-01-04 西安迪戈科技有限责任公司 智能搜索、智能文件系统和自动智能助手的方法
US20090216563A1 (en) * 2008-02-25 2009-08-27 Michael Sandoval Electronic profile development, storage, use and systems for taking action based thereon
CN102067119A (zh) * 2008-02-25 2011-05-18 水宙责任有限公司 电子资料开发、存储、使用以及基于其采取行动的系统
US20110145217A1 (en) * 2009-12-15 2011-06-16 Maunder Anurag S Systems and methods for facilitating data discovery
CN102150129A (zh) * 2008-08-04 2011-08-10 奎德公司 实体业绩分析引擎
US20110282860A1 (en) * 2010-05-16 2011-11-17 Access Business Group International Llc Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
CN103258017A (zh) * 2013-04-24 2013-08-21 中国科学院计算技术研究所 一种并行的垂直交叉网络数据采集方法及系统
CN103914538A (zh) * 2014-04-01 2014-07-09 浙江大学 基于锚文本上下文和链接分析的主题抓取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1716244A (zh) * 2003-12-29 2006-01-04 西安迪戈科技有限责任公司 智能搜索、智能文件系统和自动智能助手的方法
US20090216563A1 (en) * 2008-02-25 2009-08-27 Michael Sandoval Electronic profile development, storage, use and systems for taking action based thereon
CN102067119A (zh) * 2008-02-25 2011-05-18 水宙责任有限公司 电子资料开发、存储、使用以及基于其采取行动的系统
CN102150129A (zh) * 2008-08-04 2011-08-10 奎德公司 实体业绩分析引擎
US20110145217A1 (en) * 2009-12-15 2011-06-16 Maunder Anurag S Systems and methods for facilitating data discovery
US20110282860A1 (en) * 2010-05-16 2011-11-17 Access Business Group International Llc Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
CN103258017A (zh) * 2013-04-24 2013-08-21 中国科学院计算技术研究所 一种并行的垂直交叉网络数据采集方法及系统
CN103914538A (zh) * 2014-04-01 2014-07-09 浙江大学 基于锚文本上下文和链接分析的主题抓取方法

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184705A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种实现区域企业知识产权摸底与管理的方法
CN105138651A (zh) * 2015-08-31 2015-12-09 佛山市恒南微科技有限公司 一种企业商标公告信息抓取与管理的方法
CN105183822A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种企业商标公告信息抓取与管理系统
CN105205588A (zh) * 2015-08-31 2015-12-30 佛山市恒南微科技有限公司 一种企业专利公告信息抓取与管理的方法
CN105160471A (zh) * 2015-08-31 2015-12-16 佛山市恒南微科技有限公司 一种实现区域企业专利信息摸底与管理的方法
CN105160472A (zh) * 2015-08-31 2015-12-16 佛山市恒南微科技有限公司 一种企业软件著作权公告信息抓取与管理系统
CN105184704A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种实现区域企业商标信息摸底与管理的系统
CN105183821A (zh) * 2015-08-31 2015-12-23 佛山市恒南微科技有限公司 一种实现区域企业软件著作权公告摸底与管理的方法
CN105069585A (zh) * 2015-08-31 2015-11-18 佛山市恒南微科技有限公司 一种企业专利公告信息抓取与管理系统
CN105117848A (zh) * 2015-08-31 2015-12-02 佛山市恒南微科技有限公司 一种企业知识产权信息抓取与管理系统
CN105139309A (zh) * 2015-08-31 2015-12-09 佛山市恒南微科技有限公司 一种企业软件著作权公告信息抓取与管理的方法
CN105279392A (zh) * 2015-09-28 2016-01-27 深圳华大基因科技服务有限公司 一种基于云平台的大数据分析装置
CN105389482A (zh) * 2015-09-28 2016-03-09 深圳华大基因科技服务有限公司 一种基于云平台的大数据分析方法
CN105279392B (zh) * 2015-09-28 2018-07-24 深圳华大基因科技服务有限公司 一种基于云平台的大数据分析装置
CN106055557A (zh) * 2015-12-25 2016-10-26 中国科学技术信息研究所 一种互联网环境下大数据分类预处理方法及系统
CN105825415A (zh) * 2016-03-15 2016-08-03 广东省科技基础条件平台中心 一种科技资源供需对接方法
CN105955974A (zh) * 2016-03-24 2016-09-21 苏州科技学院 一种基于法人数据库的统计分析系统
TWI636369B (zh) * 2016-04-19 2018-09-21 中華電信股份有限公司 即時串流紀錄資料分析系統與方法
CN107122495A (zh) * 2017-05-24 2017-09-01 苏州唯亚信息科技股份有限公司 适用于专利公开科技数据库的信息抓取方法
CN107273481A (zh) * 2017-06-10 2017-10-20 苏州唯亚信息科技股份有限公司 适用于企业用户研发数据库的维护方法
TWI659369B (zh) * 2017-07-12 2019-05-11 金腦數位股份有限公司 訊息處理裝置
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法
CN107506472A (zh) * 2017-09-05 2017-12-22 淮阴工学院 一种学生浏览网页分类方法
CN107844960B (zh) * 2017-11-22 2020-12-01 辅投帮(武汉)科技有限公司 一种自动化智能分析商业计划书的投资分析工具
CN107844960A (zh) * 2017-11-22 2018-03-27 辅投帮(武汉)科技有限公司 一种自动化智能分析商业计划书的投资分析工具
CN108038105B (zh) * 2017-12-22 2020-06-05 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN108038105A (zh) * 2017-12-22 2018-05-15 中科鼎富(北京)科技发展有限公司 一种对未登录词生成仿真词向量的方法及装置
CN109977987A (zh) * 2017-12-25 2019-07-05 达索系统公司 预测影响物理系统的事件
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN108229810B (zh) * 2017-12-29 2021-02-05 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法
CN108229810A (zh) * 2017-12-29 2018-06-29 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法
CN108491420A (zh) * 2018-02-06 2018-09-04 平安科技(深圳)有限公司 网页爬取的配置方法、应用服务器及计算机可读存储介质
CN109241275A (zh) * 2018-07-05 2019-01-18 广东工业大学 一种基于自然语言处理的文本主题聚类算法
CN109241275B (zh) * 2018-07-05 2022-02-11 广东工业大学 一种基于自然语言处理的文本主题聚类算法
CN109558481A (zh) * 2018-12-03 2019-04-02 中国科学技术信息研究所 专利与企业相关性测度方法、装置、设备及可读存储介质
CN109977112A (zh) * 2018-12-28 2019-07-05 万康源(天津)基因科技有限公司 科研文献的结构化信息提取方法及系统
CN109933643A (zh) * 2019-02-22 2019-06-25 太原蓝知科技有限公司 专利交易大数据采集和处理方法
CN109933643B (zh) * 2019-02-22 2020-10-02 蓝知科技(南京)有限公司 专利交易大数据采集和处理方法
CN110209942A (zh) * 2019-06-04 2019-09-06 广德元瑞生产力促进中心有限公司 一种基于大数据的科技信息智能推送系统
CN110209942B (zh) * 2019-06-04 2021-03-19 广德元瑞生产力促进中心有限公司 一种基于大数据的科技信息智能推送系统
CN110400101A (zh) * 2019-08-21 2019-11-01 苏州经贸职业技术学院 行业报告分析系统及方法
CN111382233A (zh) * 2020-03-18 2020-07-07 深圳市随金科技有限公司 一种相似文本检测方法、装置、电子设备及存储介质
CN111401765A (zh) * 2020-03-24 2020-07-10 重庆德生鼎盛实业发展有限公司 一种基于大数据的工程进度监管系统
CN111401765B (zh) * 2020-03-24 2024-01-16 重庆德生鼎盛实业发展有限公司 一种基于大数据的工程进度监管系统
CN112085331A (zh) * 2020-08-04 2020-12-15 广东省科学技术情报研究所 一种基于大数据的研发机构动态监测方法与系统
CN112181930B (zh) * 2020-09-29 2023-04-25 杭州迪普科技股份有限公司 虚拟交换矩阵的文件管理方法及装置
CN112181930A (zh) * 2020-09-29 2021-01-05 杭州迪普科技股份有限公司 虚拟交换矩阵的文件管理方法及装置
CN112712299A (zh) * 2021-01-21 2021-04-27 网思科技股份有限公司 资源管理方法、系统、存储介质及电子装置
CN112712299B (zh) * 2021-01-21 2023-11-24 网思科技股份有限公司 资源管理方法、系统、存储介质及电子装置
CN113393179A (zh) * 2021-08-18 2021-09-14 江苏中协智能科技有限公司 一种基于时序差分的数据集成系统
CN113393179B (zh) * 2021-08-18 2022-06-28 江苏中协智能科技有限公司 一种基于时序差分的数据集成系统
CN113947339A (zh) * 2021-12-22 2022-01-18 北京金堤科技有限公司 生成资产线索数据的方法和装置
CN115146712A (zh) * 2022-06-15 2022-10-04 北京天融信网络安全技术有限公司 物联网资产识别方法、装置、设备及存储介质
CN115146712B (zh) * 2022-06-15 2023-04-28 北京天融信网络安全技术有限公司 物联网资产识别方法、装置、设备及存储介质
CN116069760A (zh) * 2023-01-09 2023-05-05 青岛中投创新技术转移有限公司 一种专利管理数据处理系统、装置及方法
CN116069760B (zh) * 2023-01-09 2023-12-15 青岛华慧泽知识产权代理有限公司 一种专利管理数据处理系统、装置及方法
CN116127047A (zh) * 2023-04-04 2023-05-16 北京大学深圳研究生院 企业信息库的建立方法与装置
CN116127047B (zh) * 2023-04-04 2023-08-01 北京大学深圳研究生院 企业信息库的建立方法与装置

Also Published As

Publication number Publication date
CN104376406B (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN104376406A (zh) 一种基于大数据的企业创新资源管理与分析系统和方法
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
Ni et al. Short text clustering by finding core terms
CN102799647B (zh) 网页去重方法和设备
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN101449271B (zh) 通过搜索进行注释
CN102651003B (zh) 一种跨语言搜索的方法和装置
CN102184262A (zh) 基于web的文本分类挖掘系统及方法
CN102207946B (zh) 一种知识网络的半自动生成方法
CN103838785A (zh) 一种专利领域的垂直搜索引擎
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN105488196A (zh) 一种基于互联语料的热门话题自动挖掘系统
CN103365924A (zh) 一种搜索信息的方法、装置和终端
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN103838756A (zh) 一种确定推送信息的方法及装置
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN104484431A (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
KR101828995B1 (ko) 키워드 클러스터링 방법 및 장치
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN105045875A (zh) 个性化信息检索方法及装置
CN104199833A (zh) 一种网络搜索词的聚类方法和聚类装置
CN108090178B (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230407

Address after: 201112 3rd floor, technical center building, no.1588 LIANHANG Road, Minhang District, Shanghai

Patentee after: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY

Address before: No. 1588 Lianhang Road, Minhang District, Shanghai, 201112

Patentee before: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY

Patentee before: SHANGHAI INDUSTRIAL TECHNOLOGY INSTITUTE