CN116523320B - 基于互联网大数据的知识产权风险智能分析方法 - Google Patents
基于互联网大数据的知识产权风险智能分析方法 Download PDFInfo
- Publication number
- CN116523320B CN116523320B CN202310806377.5A CN202310806377A CN116523320B CN 116523320 B CN116523320 B CN 116523320B CN 202310806377 A CN202310806377 A CN 202310806377A CN 116523320 B CN116523320 B CN 116523320B
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- enterprise
- clusters
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 20
- 238000012937 correction Methods 0.000 claims abstract description 24
- 238000012502 risk assessment Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 20
- 238000012827 research and development Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,提出了基于互联网大数据的知识产权风险智能分析方法,包括:采集知识产权的互联网大数据,以及当前企业的详情信息;对互联网大数据及当前企业进行关键词提取,获取每个企业的若干关键词,根据关键词在互联网大数据中分布获取每个关键词的信息权重;对关键词进行聚类得到若干聚簇,根据每个聚簇中每个关键词对应企业的详细信息,获取每个企业对每个聚簇的偏向程度,根据偏向程度获取当前企业的校正程度,通过校正程度完成当前企业关键词的增量聚类;根据增量聚类结果对当前企业的关键词进行风险分析,完成知识产权风险智能分析。本发明旨在解决通过企业关键词进行增量聚类结果存在误差而影响领域风险判断的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于互联网大数据的知识产权风险智能分析方法。
背景技术
传统的知识产权风险分析方法主要依赖人工收集和数据整理,如查阅相关文献、调查竞争对手等,然而这种方法费时费力,且难以覆盖所有潜在风险;而伴随互联网的迅速发展,对知识产权风险通过互联网大数据进行智能分析以逐渐取代传统的知识产权风险分析方法,各家企业构成的大数据来进行知识产权风险分析,进而提高风险分析结果的准确性。
在众多风险分析方法中,往往采用聚类分析的方法来进行风险分析识别,其中DBSCAN是一种基于距离的空间聚类算法,适用于处理复杂结构、具有多维数据特征的数据集;然而对于一个新的企业,或者说对于企业信息更新后来说,需要在原有的数据空间聚类结果中采用增量式聚类方法;但是由于存在一些新兴的技术领域,并且存在一些企业希望通过申请与新兴的技术领域相关的知识产权来进行关联使得企业的竞争力得到提高,而该企业的又缺乏新兴技术领域相应的技术能力,进而导致企业申请的知识产权存在较大风险;传统的增量式聚类过程中仅根据关键词之间的相似性进行聚类,而不考虑关键词对应的企业在该关键词技术领域的技术能力,则需要结合量化的技术能力,来对增量式聚类结果进行优化,避免增量式聚类结果的误差影响最终企业的知识产权风险分析。
发明内容
本发明提供基于互联网大数据的知识产权风险智能分析方法,以解决现有的通过企业关键词进行增量聚类结果存在误差而影响领域风险判断的问题,所采用的技术方案具体如下:
本发明一个实施例提供了基于互联网大数据的知识产权风险智能分析方法,该方法包括以下步骤:
获取若干企业的详情信息组成的互联网大数据,获取当前企业的详情信息;
根据互联网大数据及当前企业的若干关键词,获取每个关键词的信息权重;
根据每个聚簇中每个关键词对应企业的详细信息,获取每个企业对每个聚簇的偏向程度;
根据每个企业对每个聚簇的偏向程度、关键词的信息权重以及若干聚簇,获取当前企业的校正程度;
根据校正程度对聚类距离进行校正,得到增量聚类结果,根据增量聚类结果对当前企业的关键词进行风险分析,完成知识产权风险智能分析。
可选的,所述详情信息包括企业的专利数据、申请数据、涉及技术领域、技术信息以及研发能力。
可选的,所述获取每个关键词的信息权重,包括的具体方法为:
对互联网大数据及当前企业进行关键词提取,获取若干关键词及每个关键词的关键词向量,记录每个关键词向量的补位数量,第个关键词的信息权重/>的计算方法为:
其中,表示提取到的关键词总数量,/>表示第/>个关键词的关键词向量的补位数量,/>表示第/>个关键词的关键词向量的补位数量,/>表示第/>个关键词的关键词向量与第/>个关键词的关键词向量的余弦相似度,/>表示第/>个关键词的相似关键词数量;
所述相似关键词数量的获取方法为:获取第个关键词的关键词向量与每个关键词的关键词向量的余弦相似度,将余弦相似度大于预设第一阈值的关键词作为第/>个关键词的相似关键词,相似关键词的总数记为相似关键词数量;
获取每个关键词的信息权重。
可选的,所述获取若干关键词及每个关键词的关键词向量,包括的具体方法为:
对互联网大数据中每个企业的涉及技术领域与技术信息、以及当前企业的涉及技术领域与技术信息进行关键词提取,对提取到的每个关键词进行向量化处理,通过补0使得每个关键词对应向量的维度数相同,得到的向量记为每个关键词的关键词向量。
可选的,所述获取每个企业对每个聚簇的偏向程度,包括的具体方法为:
对所有关键词进行聚类得到若干聚簇,获取每个企业在每个关键词每个维度下的数据值,获取第个企业对第/>个聚簇的偏向程度/>的计算方法为:
其中,表示维度数量,本实施例中/>,/>表示第/>个聚簇中的关键词数量,/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据值非0的关键词数量,/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据值的方差,表示softmax归一化函数,/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的趋势项曲线,/>表示第/>个聚簇中各关键词对应的企业并去除第/>个企业在相应关键词第/>个维度下的趋势项曲线,/>表示计算曲线之间的DTW距离,/>表示以自然常数为底的指数函数;
所述趋势项曲线的获取方法为:对第个聚簇中各关键词对应的企业进行排序,得到的序列记为第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据序列;以横坐标为企业的序号,纵坐标为第/>个维度的数据值,得到数据曲线及趋势项曲线,记为第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的趋势项曲线;将数据序列中第/>个企业进行去除,得到去除后的数据曲线及趋势项曲线,记为第/>个聚簇中各关键词对应的企业并去除第/>个企业在相应关键词第/>个维度下的趋势项曲线。
可选的,所述获取每个企业在每个关键词每个维度下的数据值,包括的具体方法为:
根据每个企业的详情信息,获取每个企业的专利数据、申请数据以及研发能力,将专利数量、申请数量以及研发能力作为三个维度,专利数量及申请数量根据专利数据及申请数据获取,获取每个企业在每个关键词下的专利数量及申请数量,获取每个企业在每个关键词下的研发能力,得到每个企业在每个关键词每个维度下的数据值。
可选的,所述获取当前企业的校正程度,包括的具体方法为:
获取当前企业任意一个聚簇变化对另一个聚簇的影响程度,对当前企业的任意两个关键词组成一个关键词组合,得到若干关键词组合,当前企业的校正程度的计算方法为:
其中,表示当前企业的关键词组合数量,/>表示当前企业的第/>个关键词组合中第一个关键词的信息权重,/>表示当前企业的第/>个关键词组合中第二个关键词的信息权重,/>表示当前企业第/>个关键词组合的第一个关键词所属聚簇变化对第二个关键词所属聚簇的影响程度,/>表示求绝对值。
可选的,所述获取当前企业任意一个聚簇变化对另一个聚簇的影响程度,包括的具体方法为:
获取当前企业的关键词增量聚类前,互联网大数据中每个企业对每个聚簇的偏向程度,获取增量聚类前后相匹配的聚簇,将相匹配的聚簇用相同序号进行表示,当前企业第个聚簇变化对第/>个聚簇的影响程度/>的计算方法为:
其中,表示第/>个聚簇中每个关键词对应企业对第/>个聚簇的偏向程度的均值,/>表示当前企业关键词增量聚类到第/>个聚簇前每个关键词对应企业对第/>个聚簇的偏向程度的均值,/>表示第/>个聚簇与第/>个聚簇的聚簇距离映射函数;
所述第个聚簇与第/>个聚簇的聚簇距离映射函数的具体表达式为:
其中,表示增量聚类前第/>个聚簇的聚类中心与第/>个聚簇的聚类中心在对应关键词向量之间的欧式距离,/>表示增量聚类后第/>个聚簇的聚类中心与第/>个聚簇的聚类中心在对应关键词向量之间的欧式距离,/>表示以自然常数为底的指数函数;
获取当前企业任意一个聚簇变化对另一个聚簇的影响程度。
可选的,所述获取增量聚类前后相匹配的聚簇,包括的具体方法为:
对增量聚类前后的聚簇进行KM匹配,聚簇之间通过关键词的重合数量来进行匹配,得到增量聚类前后相匹配的聚簇。
本发明的有益效果是:本发明采用自适应DBSCAN增量聚类方法获取准确的知识产权风险聚类检测模型;通过对采集的企业的信息数据进行关键词提取,并根据提取的关键词与采集的有关各企业知识产权的互联网大数据来确定每个关键词的信息权重;根据关键词进行聚类,确定同一个聚类中各关键词对应企业之间的联系,并结合采集的有关于企业的各类信息来量化企业对技术领域的偏向程度;再将当前企业的信息加入到当前的聚类过程中,分析所属的聚簇的变化,来综合获取在进行增量聚类时,关键词之间聚类距离的校正程度,进而得到准确的增量聚类结果,从而得到准确的知识产权风险分析结果;使得企业数据在进行增量聚类过程中,能够根据聚簇的变化来分析关键词所表征的技术领域的转变,进而使得技术领域与企业的技术能力相匹配,提高根据增量聚类结果来量化知识产权风险分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于互联网大数据的知识产权风险智能分析方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于互联网大数据的知识产权风险智能分析方法流程图,该方法包括以下步骤:
步骤S001、采集知识产权的互联网大数据,以及当前企业的详情信息。
本实施例的目的是对需要进行知识产权风险分析的企业,根据互联网大数据进行风险分析,因此首先需要采集知识产权的互联网大数据,同时获取待分析企业的相关企业信息;通过互联网搜集大量企业的知识产权相关数据的详情信息,详情信息包括每个企业的专利数据、申请数据、涉及技术领域、技术信息以及研发能力;将需要进行知识产权风险分析的企业作为当前企业,获取当前企业的专利数据、申请数据、涉及技术领域、技术信息以及研发能力,构成当前企业的详情信息。
至此,获取到了互联网大数据以及当前企业的详情信息。
步骤S002、对互联网大数据及当前企业进行关键词提取,获取每个企业的若干关键词,根据关键词在互联网大数据中分布获取每个关键词的信息权重。
需要说明的是,通过对互联网大数据每个企业及当前企业的详情信息进行关键词提取,通过关键词进行聚类,确定同一个聚簇之中各关键词对应企业之间的联系,结合企业的相关数据进行技术能力的量化,得到企业对于聚簇对应技术领域的偏向程度;进而根据当前企业的关键词进行增量聚类后,通过聚类结果的变化,分析得到当前企业的校正程度,进而得到准确的增量聚类结果。
进一步需要说明的是,为了获取准确的企业的技术相关信息,通过进行关键词提取,对关键词进行向量化处理,进而根据关键词的分布来获取每个关键词的信息权重,而关键词在互联网大数据中的相似关键词越多,相应的信息权重就会越大。
具体的,首先对互联网大数据中每个企业的涉及技术领域与技术信息、以及当前企业的涉及技术领域与技术信息进行关键词提取,关键词提取本实施例采用NLP关键词提取技术,为现有技术,本实施例不再赘述;对提取到的每个关键词进行向量化处理,对关键词进行向量化处理为公知技术,本实施例不再赘述,同时由于每个关键词的字数存在差异,因此通过补0使得每个关键词对应向量的维度数相同,得到的向量记为每个关键词的关键词向量,同时记录每个关键词向量的补位数量,即补0位数,则对第个关键词的信息权重/>的计算方法为:
其中,表示提取到的关键词总数量,/>表示第/>个关键词的关键词向量的补位数量,/>表示第/>个关键词的关键词向量的补位数量,/>表示第/>个关键词的关键词向量与第/>个关键词的关键词向量的余弦相似度,/>表示第/>个关键词的相似关键词数量,其中相似关键词数量的获取方法为:获取第/>个关键词的关键词向量与每个关键词的关键词向量的余弦相似度,将余弦相似度大于预设第一阈值的关键词作为第/>个关键词的相似关键词,本实施例预设第一阈值采用0.65进行计算,相似关键词的总数记为相似关键词数量,分子分母同时加1的目的是为了避免分母为0而影响计算结果;通过将关键词与其他每个关键词进行比较,相似关键词数量越多,该关键词在互联网大数据中相似信息越多,信息权重越大;关键词的关键词向量之间的余弦相似度越大,两个关键词的信息特征比较的可信度就越大,信息权重就会越大;两个关键词的补位数量之间差异越大,即第/>个关键词的补位数量越多而第/>个关键词的补位数量越少,通过余弦相似度反映的第/>个关键词包括第/>个关键词的信息特征就越准确,则信息权重越大;按照上述方法获取每个关键词的信息权重。
至此,通过关键词提取,获取到了每个关键词的信息权重。
步骤S003、对关键词进行聚类得到若干聚簇,根据每个聚簇中每个关键词对应企业的详细信息,获取每个企业对每个聚簇的偏向程度,根据偏向程度获取当前企业的校正程度,通过校正程度完成当前企业关键词的增量聚类。
需要说明的是,在增量聚类的过程中,一些企业信息的变化会使得得到的聚类结果发生误差,这类企业信息的变化往往是一些企业通过增加一些新兴的技术关键词来提高企业的竞争力,因此对于该类企业所对应的关键词在增量聚类过程中,需要对DBSCAN聚类的距离进行校正;关键词表征的是企业的技术领域特征,通过根据关键词进行企业信息的聚类,确定同一个聚簇中各关键词下对应企业之间的联系,并结合采集的有关于企业的各类信息来量化企业的技术领域的偏向程度;再将当前企业的信息加入到当前的聚类过程中,分析所属的聚簇的变化,来综合获取在进行增量聚类时,当前企业需要对聚类距离进行校正的校正程度,进而完成增量聚类。
具体的,首先对所有关键词进行DBSCAN聚类,聚类距离采用关键词对应的关键词向量之间的欧式距离,得到若干聚簇;相同聚簇中的关键词表示的技术领域相近,且每个关键词对应一个企业;每个企业对应多个关键词,而多个关键词可能属于多个聚簇,则每个企业对应若干聚簇;同时本实施例对互联网大数据及当前企业获取多个维度的数据值,本实施例多个维度包括专利数量、申请数量以及研发能力,专利数量及申请数量根据步骤S001获取到的专利数据及申请数据获取,获取每个企业在每个关键词下的专利数量及申请数量,而研发能力本实施例通过每个企业的技术文献数量来进行量化,包括论文、期刊以及知识产权相关文献的发表数量,获取每个企业在每个关键词下的研发能力,则专利数量、申请数量以及研发能力的数据值均为整数;需要说明的是,若某个企业在某个关键词下的某个维度的数据值为0,即可能新拓展的技术领域尚未有专利、申请或文献,则以0参与后续计算。
进一步的,根据每个企业每个关键词下多个维度的数据,获取第个企业对第/>个聚簇的偏向程度/>的计算方法为:
其中,表示维度数量,本实施例中/>,/>表示第/>个聚簇中的关键词数量,/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据值非0的关键词数量,/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据值的方差,表示softmax归一化函数,需要说明的是,两次softmax归一化都是对/>或/>内进行每个维度的计算,再进行归一化;/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的趋势项曲线,/>表示第/>个聚簇中各关键词对应的企业并去除第/>个企业在相应关键词第/>个维度下的趋势项曲线,/>表示计算曲线之间的DTW距离,/>表示以自然常数为底的指数函数,本实施例以/>来呈现反比例关系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数;其中趋势项曲线的获取方法为:对第/>个聚簇中各关键词对应的企业进行排序,本实施例根据各企业在相应关键词第/>个维度下的数据值进行升序排序,数据值相等则根据互联网大数据及当前企业的遍历顺序进行排序,所述遍历顺序即为对每个企业进行偏向程度及后续计算的顺序,得到的序列记为第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据序列;以横坐标为企业的序号,纵坐标为第/>个维度的数据值,得到数据曲线,通过对数据曲线进行STL时间序列分解,得到趋势项曲线,记为第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的趋势项曲线,STL时间序列分解为公知技术,本实施例不再赘述;而对于去除第/>个企业得到的趋势项曲线,将数据序列中第/>个企业进行去除(此处第/>个不是序列中序号/>的企业,而是遍历顺序的第/>个企业),根据去除后的企业的序号,以及每个企业第/>个维度的数据值,得到去除后的数据曲线,并通过STL时间序列分解得到趋势项曲线,记为第/>个聚簇中各关键词对应的企业并去除第/>个企业在相应关键词第/>个维度下的趋势项曲线。
此时,首先对于去除前后的趋势项曲线,趋势项曲线的差异越小,第个企业在第/>个聚簇中对应关键词下第/>个维度的数据值与聚簇内其他数据值的差异越小,则相应该企业对该聚簇的偏向程度就越大;而聚簇中关键词对应企业在相应关键词第/>个维度下的数据值非0数量的占比越少,非0表示该企业在该关键词相应技术领域有一定技术能力,该关键词视为有效,即有效占比越小,对于波动程度的参考权重就越大;而波动程度则通过数据值的方差来表示,波动程度越大,该维度数据的变化差异较大,相应对该维度参与偏向程度计算的权重应越小;按照上述方法获取每个企业对每个聚簇的偏向程度,特别说明的是,若某个企业在某个聚簇中不存在该企业的关键词,则该企业对该聚簇的偏向程度设置为0,即该企业不涉及该聚簇相应的技术领域,偏向程度设置为0;即每个企业对应的聚簇有限,因此存在某个企业与某个聚簇不对应,不对应则偏向程度设置为0。
进一步的,对于当前企业的关键词,其是通过增量聚类而聚类到聚簇中,因此可以通过增量聚类前后偏向程度变化来量化当前企业对任意两个聚簇的影响程度,以第个聚簇和第/>个聚簇为例,其中/>且影响程度仅计算包括当前企业对应关键词的聚簇,当前企业第/>个聚簇变化对第/>个聚簇的影响程度/>的计算方法为:
其中,表示第/>个聚簇中每个关键词对应企业对第/>个聚簇的偏向程度的均值,/>表示当前企业关键词增量聚类到第/>个聚簇前每个关键词对应企业对第/>个聚簇的偏向程度的均值,其中/>则通过对互联网大数据所有关键词进行聚类,不包括当前企业的关键词,再按照上述方法获取每个企业对每个聚簇的偏向程度,且增量聚类前后两个第/>个聚簇相匹配,即通过KM匹配对增量前后的聚簇进行匹配,聚簇之间通过关键词的重合数量来进行匹配;/>表示第/>个聚簇与第/>个聚簇的聚簇距离映射函数,具体表达式为:
其中,表示增量聚类前第/>个聚簇的聚类中心与第/>个聚簇的聚类中心在对应关键词向量之间的欧式距离,/>表示增量聚类后第/>个聚簇的聚类中心与第/>个聚簇的聚类中心在对应关键词向量之间的欧式距离,/>表示以自然常数为底的指数函数,本实施例以/>来呈现反比例关系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数;聚簇的聚类中心获取为公知技术,本实施例不再赘述,且增量聚类前后序号相同的聚簇是相匹配的,增量前后聚簇距离变小,则改变量越大,影响程度越大;增量前后偏向程度均值变小且改变量越大,影响程度越大;按照上述方法获取当前企业任意一个聚簇变化对另一个聚簇的影响程度。
进一步的,对当前企业的任意两个关键词组成一个关键词组合,得到若干关键词组合,关键词组合中第一个关键词对第二个关键词造成变化影响,即关键词顺序不同表示不同关键词组合,则当前企业的校正程度的计算方法为:
其中,表示当前企业的关键词组合数量,/>表示当前企业的第/>个关键词组合中第一个关键词的信息权重,/>表示当前企业的第/>个关键词组合中第二个关键词的信息权重,/>表示当前企业的第/>个关键词组合对应的影响程度,即当前企业第/>个关键词组合的第一个关键词所属聚簇变化对第二个关键词所属聚簇的影响程度,/>表示求绝对值;通过信息权重的差异作为影响程度的权重,进而得到校正程度。
进一步的,获取到校正程度后,在增量聚类过程中,对关键词对应的关键词向量之间的欧式距离与校正程度相乘得到乘积,乘积作为聚类距离,对所有关键词及当前企业的关键词根据更新后的聚类距离进行聚类,得到增量聚类结果,增量聚类结果中每个聚簇记为类簇,类簇用于与校正前的增量聚类结果进行区分。
至此,通过详情信息中多个维度数据进行偏向程度计算,进而得到当前企业的校正程度,得到准确的增量聚类结果。
步骤S004、根据增量聚类结果对当前企业的关键词进行风险分析,完成知识产权风险智能分析。
在步骤S003中已经通过校正程度对关键词之间的聚类距离进行校正,通过校正后的各关键词之间的聚类距离,对当前企业的关键词进行增量聚类,得到当前企业每个关键词的所属类簇;获取每个类簇的聚类中心,聚类中心的获取位公知技术,本实施例不再赘述;对于当前企业任意一个关键词,获取该关键词与所属类簇聚类中心的欧式距离,需要说明的是,关键词以及聚类中心都由关键词向量表示,则直接计算关键词向量之间的欧式距离;该关键词的风险程度,其中/>表示该关键词与所属类簇聚类中心的欧式距离,/>表示以自然常数为底的指数函数,本实施例以/>来呈现反比例关系及归一化处理,实施者可根据实际情况选择反比例函数及归一化函数;关键词与聚类中心的欧式距离越大,表明当前企业在该关键词所属技术领域的偏离程度越大,相应的当前企业在该关键词对应的风险程度就越大;按照上述方法获取当前企业每个关键词的风险程度,设置预设第二阈值,本实施例预设第二阈值采用0.75进行计算,对于风险程度大于预设第二阈值的关键词,认为当前企业在这些关键词的相应技术领域进行知识产权申请存在风险,需要进行风险预警;风险程度小于等于预设第二阈值的关键词,当前企业在这些关键词的相应技术领域进行知识产权申请不存在风险,无需预警。
至此,完成了对于企业的知识产权风险分析,通过将需要进行风险分析的企业作为当前企业,根据当前企业的关键词进行增量聚类,最终得到风险分析结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于互联网大数据的知识产权风险智能分析方法,其特征在于,该方法包括以下步骤:
获取若干企业的详情信息组成的互联网大数据,获取当前企业的详情信息;
根据互联网大数据及当前企业的若干关键词,获取每个关键词的信息权重;
根据每个聚簇中每个关键词对应企业的详细信息,获取每个企业对每个聚簇的偏向程度;
根据每个企业对每个聚簇的偏向程度、关键词的信息权重以及若干聚簇,获取当前企业的校正程度;
根据校正程度对聚类距离进行校正,得到增量聚类结果,根据增量聚类结果对当前企业的关键词进行风险分析,完成知识产权风险智能分析;
所述获取每个企业对每个聚簇的偏向程度,包括的具体方法为:
对所有关键词进行聚类得到若干聚簇,获取每个企业在每个关键词每个维度下的数据值,获取第个企业对第/>个聚簇的偏向程度/>的计算方法为:
其中,表示维度数量,本实施例中/>,/>表示第/>个聚簇中的关键词数量,/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据值非0的关键词数量,表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据值的方差,表示softmax归一化函数,/>表示第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的趋势项曲线,/>表示第/>个聚簇中各关键词对应的企业并去除第/>个企业在相应关键词第/>个维度下的趋势项曲线,/>表示计算曲线之间的DTW距离,/>表示以自然常数为底的指数函数;
所述趋势项曲线的获取方法为:对第个聚簇中各关键词对应的企业进行排序,得到的序列记为第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的数据序列;以横坐标为企业的序号,纵坐标为第/>个维度的数据值,得到数据曲线及趋势项曲线,记为第/>个聚簇中各关键词对应的企业在相应关键词第/>个维度下的趋势项曲线;将数据序列中第/>个企业进行去除,得到去除后的数据曲线及趋势项曲线,记为第/>个聚簇中各关键词对应的企业并去除第/>个企业在相应关键词第/>个维度下的趋势项曲线;
所述获取当前企业的校正程度,包括的具体方法为:
获取当前企业任意一个聚簇变化对另一个聚簇的影响程度,对当前企业的任意两个关键词组成一个关键词组合,得到若干关键词组合,当前企业的校正程度的计算方法为:
其中,表示当前企业的关键词组合数量,/>表示当前企业的第/>个关键词组合中第一个关键词的信息权重,/>表示当前企业的第/>个关键词组合中第二个关键词的信息权重,表示当前企业第/>个关键词组合的第一个关键词所属聚簇变化对第二个关键词所属聚簇的影响程度,/>表示求绝对值;
所述获取当前企业任意一个聚簇变化对另一个聚簇的影响程度,包括的具体方法为:
获取当前企业的关键词增量聚类前,互联网大数据中每个企业对每个聚簇的偏向程度,获取增量聚类前后相匹配的聚簇,将相匹配的聚簇用相同序号进行表示,当前企业第个聚簇变化对第/>个聚簇的影响程度/>的计算方法为:
其中,表示第/>个聚簇中每个关键词对应企业对第/>个聚簇的偏向程度的均值,/>表示当前企业关键词增量聚类到第/>个聚簇前每个关键词对应企业对第/>个聚簇的偏向程度的均值,/>表示第/>个聚簇与第/>个聚簇的聚簇距离映射函数;
所述第个聚簇与第/>个聚簇的聚簇距离映射函数的具体表达式为:
其中,表示增量聚类前第/>个聚簇的聚类中心与第/>个聚簇的聚类中心在对应关键词向量之间的欧式距离,/>表示增量聚类后第/>个聚簇的聚类中心与第/>个聚簇的聚类中心在对应关键词向量之间的欧式距离,/>表示以自然常数为底的指数函数;
获取当前企业任意一个聚簇变化对另一个聚簇的影响程度;
获取到校正程度后,在增量聚类过程中,对关键词对应的关键词向量之间的欧式距离与校正程度相乘得到乘积,乘积作为聚类距离,对所有关键词及当前企业的关键词根据更新后的聚类距离进行聚类,得到增量聚类结果,增量聚类结果中每个聚簇记为类簇;
获取每个类簇的聚类中心,对于当前企业任意一个关键词,获取该关键词与所属类簇聚类中心的欧式距离,该关键词的风险程度,其中/>表示该关键词与所属类簇聚类中心的欧式距离,/>表示以自然常数为底的指数函数;关键词与聚类中心的欧式距离越大,表明当前企业在该关键词所属技术领域的偏离程度越大,相应的当前企业在该关键词对应的风险程度就越大;按照上述方法获取当前企业每个关键词的风险程度,设置预设第二阈值,对于风险程度大于预设第二阈值的关键词,认为当前企业在这些关键词的相应技术领域进行知识产权申请存在风险,需要进行风险预警;风险程度小于等于预设第二阈值的关键词,当前企业在这些关键词的相应技术领域进行知识产权申请不存在风险,无需预警。
2.根据权利要求1所述的基于互联网大数据的知识产权风险智能分析方法,其特征在于,所述详情信息包括企业的专利数据、申请数据、涉及技术领域、技术信息以及研发能力。
3.根据权利要求1所述的基于互联网大数据的知识产权风险智能分析方法,其特征在于,所述获取每个关键词的信息权重,包括的具体方法为:
对互联网大数据及当前企业进行关键词提取,获取若干关键词及每个关键词的关键词向量,记录每个关键词向量的补位数量,第个关键词的信息权重/>的计算方法为:
其中,表示提取到的关键词总数量,/>表示第/>个关键词的关键词向量的补位数量,/>表示第/>个关键词的关键词向量的补位数量,/>表示第/>个关键词的关键词向量与第/>个关键词的关键词向量的余弦相似度,/>表示第/>个关键词的相似关键词数量;
所述相似关键词数量的获取方法为:获取第个关键词的关键词向量与每个关键词的关键词向量的余弦相似度,将余弦相似度大于预设第一阈值的关键词作为第/>个关键词的相似关键词,相似关键词的总数记为相似关键词数量;
获取每个关键词的信息权重。
4.根据权利要求3所述的基于互联网大数据的知识产权风险智能分析方法,其特征在于,所述获取若干关键词及每个关键词的关键词向量,包括的具体方法为:
对互联网大数据中每个企业的涉及技术领域与技术信息、以及当前企业的涉及技术领域与技术信息进行关键词提取,对提取到的每个关键词进行向量化处理,通过补0使得每个关键词对应向量的维度数相同,得到的向量记为每个关键词的关键词向量。
5.根据权利要求1所述的基于互联网大数据的知识产权风险智能分析方法,其特征在于,所述获取每个企业在每个关键词每个维度下的数据值,包括的具体方法为:
根据每个企业的详情信息,获取每个企业的专利数据、申请数据以及研发能力,将专利数量、申请数量以及研发能力作为三个维度,专利数量及申请数量根据专利数据及申请数据获取,获取每个企业在每个关键词下的专利数量及申请数量,获取每个企业在每个关键词下的研发能力,得到每个企业在每个关键词每个维度下的数据值。
6.根据权利要求1所述的基于互联网大数据的知识产权风险智能分析方法,其特征在于,所述获取增量聚类前后相匹配的聚簇,包括的具体方法为:
对增量聚类前后的聚簇进行KM匹配,聚簇之间通过关键词的重合数量来进行匹配,得到增量聚类前后相匹配的聚簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806377.5A CN116523320B (zh) | 2023-07-04 | 2023-07-04 | 基于互联网大数据的知识产权风险智能分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806377.5A CN116523320B (zh) | 2023-07-04 | 2023-07-04 | 基于互联网大数据的知识产权风险智能分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116523320A CN116523320A (zh) | 2023-08-01 |
CN116523320B true CN116523320B (zh) | 2023-09-12 |
Family
ID=87408535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310806377.5A Active CN116523320B (zh) | 2023-07-04 | 2023-07-04 | 基于互联网大数据的知识产权风险智能分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116523320B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821940B (zh) * | 2023-08-23 | 2024-02-13 | 青岛阿斯顿工程技术转移有限公司 | 一种培训考核数据智能采集方法 |
CN117237130B (zh) * | 2023-10-09 | 2024-06-14 | 广东源恒软件科技有限公司 | 一种税务风险数据采集监控方法及系统 |
CN117349087B (zh) * | 2023-12-05 | 2024-02-09 | 聊城市洛溪信息科技有限公司 | 一种互联网信息数据备份方法 |
CN117668236B (zh) * | 2024-01-25 | 2024-04-16 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 一种专利标准融合系统的分析方法、系统及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005326897A (ja) * | 2003-10-21 | 2005-11-24 | Ipb:Kk | 技術・知財評価装置及び技術・知財評価方法 |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
CN104123279A (zh) * | 2013-04-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 关键词的聚类方法和装置 |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
KR101828995B1 (ko) * | 2017-05-08 | 2018-02-14 | 한국과학기술정보연구원 | 키워드 클러스터링 방법 및 장치 |
CN108364137A (zh) * | 2018-03-12 | 2018-08-03 | 广东省科技创新监测研究中心 | 高新技术企业的监测方法、装置、计算机设备及存储介质 |
CN109543985A (zh) * | 2018-11-15 | 2019-03-29 | 李志东 | 企业风险评估方法、系统及介质 |
CN109815394A (zh) * | 2018-12-26 | 2019-05-28 | 北京博鳌纵横网络科技有限公司 | 一种知识产权托管系统 |
WO2021203854A1 (zh) * | 2020-04-09 | 2021-10-14 | 深圳壹账通智能科技有限公司 | 用户分类方法、装置、计算机设备和存储介质 |
CN114266242A (zh) * | 2021-11-30 | 2022-04-01 | 中国联合网络通信集团有限公司 | 工单数据处理方法、装置、服务器及可读存储介质 |
CN114386501A (zh) * | 2022-01-06 | 2022-04-22 | 新华智云科技有限公司 | 增量聚类方法及系统、分布式增量聚类方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783569B2 (en) * | 2016-12-20 | 2020-09-22 | Facebook, Inc. | Method, media, and system for cluster pruning of item listings |
US11194840B2 (en) * | 2019-10-14 | 2021-12-07 | Microsoft Technology Licensing, Llc | Incremental clustering for enterprise knowledge graph |
-
2023
- 2023-07-04 CN CN202310806377.5A patent/CN116523320B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005326897A (ja) * | 2003-10-21 | 2005-11-24 | Ipb:Kk | 技術・知財評価装置及び技術・知財評価方法 |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
CN104123279A (zh) * | 2013-04-24 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 关键词的聚类方法和装置 |
CN106599269A (zh) * | 2016-12-22 | 2017-04-26 | 东软集团股份有限公司 | 关键词提取方法及装置 |
KR101828995B1 (ko) * | 2017-05-08 | 2018-02-14 | 한국과학기술정보연구원 | 키워드 클러스터링 방법 및 장치 |
CN108364137A (zh) * | 2018-03-12 | 2018-08-03 | 广东省科技创新监测研究中心 | 高新技术企业的监测方法、装置、计算机设备及存储介质 |
CN109543985A (zh) * | 2018-11-15 | 2019-03-29 | 李志东 | 企业风险评估方法、系统及介质 |
CN109815394A (zh) * | 2018-12-26 | 2019-05-28 | 北京博鳌纵横网络科技有限公司 | 一种知识产权托管系统 |
WO2021203854A1 (zh) * | 2020-04-09 | 2021-10-14 | 深圳壹账通智能科技有限公司 | 用户分类方法、装置、计算机设备和存储介质 |
CN114266242A (zh) * | 2021-11-30 | 2022-04-01 | 中国联合网络通信集团有限公司 | 工单数据处理方法、装置、服务器及可读存储介质 |
CN114386501A (zh) * | 2022-01-06 | 2022-04-22 | 新华智云科技有限公司 | 增量聚类方法及系统、分布式增量聚类方法及系统 |
Non-Patent Citations (1)
Title |
---|
KEC:基于cw2vec的中文专利关键词提取方法;谭婷婷;陈高荣;徐建;;计算机应用研究(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116523320A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116523320B (zh) | 基于互联网大数据的知识产权风险智能分析方法 | |
CN111191786A (zh) | 一种基于主动学习的迁移学习算法 | |
CN110084301B (zh) | 一种基于隐马尔可夫模型的多工况过程工况辨识方法 | |
CN112884570A (zh) | 一种模型安全性的确定方法、装置和设备 | |
CN114139624A (zh) | 一种基于集成模型挖掘时间序列数据相似性信息的方法 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
CN110909792A (zh) | 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法 | |
CN114691868A (zh) | 文本聚类方法、装置及电子设备 | |
CN114358157A (zh) | 一种基于时序数据LSTM特征的K-Shape聚类方法 | |
CN113032573B (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
CN114818886A (zh) | 一种基于PCA和CatBoost回归融合预测土壤渗透率的方法 | |
CN114328663A (zh) | 一种基于数据挖掘的高维剧场数据降维可视化处理方法 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
CN117078960A (zh) | 一种基于图像特征提取的近红外光谱分析方法及系统 | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN113420733B (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
CN106845229B (zh) | 一种基于fts模型的病毒特征提取方法及系统 | |
CN115392375A (zh) | 一种多源数据融合度智能评估方法及其系统 | |
CN112738724B (zh) | 一种区域目标人群的精准识别方法、装置、设备和介质 | |
CN114168578A (zh) | 一种基于聚类和近邻算法的日负荷数据缺失值插补方法 | |
CN111882441A (zh) | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 | |
CN113378165B (zh) | 一种基于Jaccard系数的恶意样本相似性判定方法 | |
CN113257365B (zh) | 面向非标准化单细胞转录组测序数据的聚类方法及系统 | |
CN113177604B (zh) | 一种基于改进l1正则化和聚类的高维数据特征选择方法 | |
CN113688229B (zh) | 一种文本推荐方法、系统、存储介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |