CN115658847A

CN115658847A - 一种基于大数据的知识产权成果转化管理系统

Info

Publication number: CN115658847A
Application number: CN202211324219.8A
Authority: CN
Inventors: 石林海; 吴迪
Original assignee: Shandong Dihai Information Technology Co ltd
Current assignee: Shandong Dihai Information Technology Co ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-01-31
Anticipated expiration: 2042-10-27
Also published as: CN115658847B

Abstract

本发明公开了一种基于大数据的知识产权成果转化管理系统，主要涉及知识产权成果转化领域，该系统包括以下模块组成：分布式离链存储模块，用于将知识产权文件存储至区块链；特征知识库模块，用于存储所述知识产权文件的特征集；分析评估模块，用于对所述知识产权文件进行分析评估；身份认证模块，用于对获取待交易用户的身份信息进行认证；检索匹配模块，用于搜索与匹配用户需要的知识产权文件；调度管理模块；交易模块；操作终端。通过用户输入专利需求，构建一体式的知识产权文件知识检索、匹配推荐、加密定位及文件下载展示等流程，形成高效的人性化的科技成果转化方案，降低用户获取所需专利文件的操作复杂度，保证推荐的全面性与精确性。

Description

一种基于大数据的知识产权成果转化管理系统

技术领域

本发明涉及知识产权成果转化技术领域，具体来说，涉及一种基于大数据的知识产权成果转化管理系统。

背景技术

在理论中，科技成果转化一般是指科研机构和个人将自己取得的科学技术成果转变为可供社会生产生活使用的新技术、新材料、新产品或新服务的实践活动。这是隐性生产力向显性生产力的过渡，是一项由科技投入为前期成本，科技产出为后期效益的系统工程。目前专利成果转化是知识产权成果转化中的一个重要内容，在目前的专利转化中，企业用户通常不能很好的获得与自身需求相匹配的专利，同时也难以对专利的价值度进行一个有效评估，不利于知识产权成果转化的实施。

专利号CN110910284A公开了一种知识产权成果转化管理系统，该系统通过完善转化体制，从评估的方式上增加成果科技的完善和优化，增加信息的对称性，通过设置有的投资金融服务模块能够保证关键环节的资金，完善整个支撑体系，避免各大小型企业能够保证自身利益发展的前提下，能够促进科技成果的落地转化。但该系统仍存在一定的局限性，其中重点在于资金交易等方面，在对购买人需求与推荐方面，没有进行针对性阐述，在面对众多专利文件时，如何通过筛选推荐得到符合用户需求的文件，是有待解决的问题。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于大数据的知识产权成果转化管理系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于大数据的知识产权成果转化管理系统，该系统包括以下模块组成：

分布式离链存储模块，用于将知识产权文件存储至区块链；

特征知识库模块，用于存储所述知识产权文件的特征集；

分析评估模块，用于对所述知识产权文件进行分析评估；

身份认证模块，用于对获取待交易用户的身份信息进行认证；

检索匹配模块，用于搜索与匹配用户需要的相关知识产权文件；

调度管理模块，用于实现数据的调度与系统的管理；

交易模块，用于进行用户对于所述知识产权文件的资金交易；

操作终端，用于输入用户的查询请求与展示匹配及交易结果。

进一步的，所述分布式离链存储模块包括区块节点、存储节点及交易服务器；

所述区块节点用于运行底层区块链的协议；

所述存储节点用于提供保存和维护数据的存储能力；

且所述区块节点与所述存储节点均具有一组公钥-私钥对；

所述交易服务器用于将待存储的知识产权文件分块处理后分发到多个存储节点中进行存储，并为每个存储节点提供一个随机的文件块子集。

进一步的，所述分布式离链存储模块的工作过程包括以下步骤：

利用BCKGen算法生成区块节点的公钥-私钥对，利用SNKGen算法生成存储节点的公钥-私钥对；

将待存储的所述知识产权文件执行Setup算法进行加密，得到加密文件，并返回该知识产权文件的公钥作为其标识符；

使用可证明的数据占有机制得到所述加密文件中所包含的一组标记，并利用存储节点使用所述标记验证所述知识产权文件的正确性；

将所述加密文件发送至所述交易服务器进行分块处理，得到加密文件分块集合，再通过所述交易服务器将所述加密文件的分块分发至各个存储节点中；

所述存储节点利用可证明的占有机制来证明其对所述加密文件的占有性。

进一步的，所述知识产权文件包括专利文件及对应的相关资料数据；

且所述分析评估模块的工作原理包括以下步骤：

基于大数据对所述专利文件进行关键词自动提取，并形成关键词集合；

将所述知识产权文件加密后返回的标识符与对应的关键词集合组成特征集；

将特征集存储至特征知识库模块。

进一步的，所述基于大数据对所述专利文件进行关键词自动提取，并形成关键词集合，包括以下步骤：

采用ICTCLAS对所述专利文件进行预处理，同时对所述专利文件的文本进行位置分析，分词次序标注；

插入用户词典，收录所述专利文件所属技术领域的相关专有名词；

过滤所述专利文件文本中停用词与虚词；

计算与统计所述专利文件文本中的特征项；

采用线性加权的方式将各个特征进行权重计算，根据计算得到的各个词的权值，按照降序排列得到候选关键词，选取排名前十的关键词组成关键词集合。

进一步的，所述特征项包括词频、位置及分词距离次序，其计算表达式包括：

area_i＝(X₁×5+X₂×3+X₃×2)/L

dis_i＝v_i/ln v_i

式中，tf_i表示次序为i的词语的词频；

f_i表示各词语在文本中出现的次数；

area_i表示次序为i的词语的在文中出现的位置；

X₁表示词语出现在标题与摘要中的次数；

X₂表示词语出现在段首句中的次数；

X₃表示词语出现在段尾句中的次数；

L表示文本总词数

dis_i表示次序为i的词语的分词距离次序；

v_i表示分词距离次序的线性函数且表达式为v_i＝a×i+b；

a，b均表示可调常数因子；

i表示词语在文本中出现的次序。

进一步的，所述采用线性加权的方式将各个特征进行权重计算的表达式为：

W_i＝tf_i×A+area_i×B+dis_i×C

式中，W_i表示词语i在文本中所占权重值；

A、B、C均表示比例系数；

tf_i表示词语i的词频；

area_i表示词语i在文中出现的位置；

dis_i表示词语i的分词距离次序。

进一步的，所述身份认证模块接收所述操作终端输入的用户身份信息进行核实与认证；

所述身份信息包括姓名、人脸数据、职业、企业单位及银行账户数据。

进一步的，所述检索匹配模块的工作原理包括以下步骤：

基于相关领域专家知识，从待检索的所述特征知识库模块中统计语义参数，构建具备相关领域概念知识的特征知识库模块；

对于用户检索界面获取的查询请求，查询转换器借助所述特征知识库模块以及用户的多维交互分析确定用户查询请求，并将查询请求转换成特定的格式；

调用查询扩展算法对转换后的查询请求进行语义扩展，并引入信息增益的衡量方法避免过度扩展与扩展不足，最终得到符合条件的查询扩展结果集；

以结果集为新的检索词，在所述特征知识库模块中进行匹配检索，筛选出检索到的文件并输出检索结果。

进一步的，所述交易模块包括资金交易子模块和第三方交易监管子模块；

所述资金交易子模块实现交易流程和交易资金，所述第三方交易监管第三方交易监管子模块用于对交易过程进行监管，有效解决交易双方产生的纠纷问题。

本发明的有益效果为：通过用户输入专利需求，构建一体式的知识产权文件知识检索、匹配推荐、加密定位及文件下载展示等流程，形成高效的人性化的科技成果转化方案，从而降低用户获取所需专利文件的操作复杂度，且保证推荐的全面性与精确性，匹配出最符合需求的最优专利，进而提高知识产权文件成果转化的效率，最大程度发挥知识产权文件的价值。

其中，通过将知识产权文件及其特征集的分离式储存，且结合分布式离链存储，能够大幅提高知识产权文件的安全性，确保文件的分布、可靠和可证明的存储；同时降低特征集的资源占用，在确保检索精确度的前提下，提高用户需用关键词进行知识库知识检索的速率，进而有效提高科技成果转换的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于大数据的知识产权成果转化管理系统的系统框图。

具体实施方式

根据本发明的实施例，提供了一种基于大数据的知识产权成果转化管理系统。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的基于大数据的知识产权成果转化管理系统，该系统包括以下模块组成：

分布式离链存储模块，用于将知识产权文件存储至区块链，包括区块节点、存储节点及交易服务器；

其中，所述区块节点用于运行底层区块链的协议；

所述存储节点用于提供保存和维护数据的存储能力；

且所述区块节点与所述存储节点均具有一组公钥-私钥对；

通过设置灵活的分布式离链存储框架，可以有效保护数据文件同时解决诸如可伸缩性和隐私等问题。通过一个扩展的参与者区块链网络进行工作，参与者包括存储节点和区块创建者。基于区块链的分布式离链存储框架能够实现只要区块链不断增长、区块链中的交易不断生成，即使数据文件执行的是离链存储，用户也可以确信数据文件完整。用户向区块链中添加区块(存储文件)则会触发审核机制，该机制隐式验证存储在链下的所有文件的随机部分是否完整。

本发明中的构建分布式离链存储模块的框架，该框架允许通过区块链可靠地存储数据，同时保证数据的安全性和不可篡改性。在该框架中，除了区块链中的标准链上区块节点，即创建区块的节点之外，还存在存储节点。数据存储在存储节点而不是区块链的链上节点中。存储节点提供保存和维护用户数据的存储能力，区块节点运行底层区块链的协议。分布式离链存储框架通过存储节点和区块节点的合作完成新区块的创建。

经典的基于区块链的分布式存储系统将数据直接存储在区块链的区块中，影响了区块链的运行效率。同时，区块的容量有限，无法满足实际业务场景中大规模数据的存储要求。本发明采用的离链存储的模式，即在区块链中部署区块节点和存储节点，其中区块节点用于执行底层区块链运行机制，存储节点用于存储数据和文件。通过将区块和存储功能区分开，保证了区块链的运行效率，同时能够依托区块链的去中心化、可追溯、数据-致性和不可篡改性等特点保证分布式存储数据的完整。

所述分布式离链存储模块的工作过程包括以下步骤：

S11、利用BCKGen算法生成区块节点的公钥-私钥对，利用SNKGen算法生成存储节点的公钥-私钥对；

S12、将待存储的所述知识产权文件执行Setup算法进行加密，得到加密文件，并返回该知识产权文件的公钥作为其标识符；

S13、使用可证明的数据占有机制得到所述加密文件中所包含的一组标记，并利用存储节点使用所述标记验证所述知识产权文件的正确性；

S14、将所述加密文件发送至所述交易服务器进行分块处理，得到加密文件分块集合，再通过所述交易服务器将所述加密文件的分块分发至各个存储节点中；

S15、所述存储节点利用可证明的占有机制来证明其对所述加密文件的占有性。

特征知识库模块，用于存储所述知识产权文件的特征集；

分析评估模块，用于对所述知识产权文件进行分析评估；

其中，所述知识产权文件包括专利文件及对应的相关资料数据；

且所述分析评估模块的工作原理包括以下步骤：

S31、基于大数据对所述专利文件进行关键词自动提取，并形成关键词集合，包括以下步骤：

S311、采用ICTCLAS对所述专利文件进行预处理，同时对所述专利文件的文本进行位置分析，分词次序标注；

S312、插入用户词典，收录所述专利文件所属技术领域的相关专有名词；

对于专利文件来说，专业性较强，如医学领域、电力领域、地质领域等，其中必定含有一些此领域中所用的专有名词。这些专有名词在分词系统中可能会被分割成几个词语，如“可再生能源”被分割为“可”“再生”和“能源”三部分，这与原词所表达的意思相去甚远。为解决这个问题，本发明插入用户词典。用户词典应尽可能收录相关领域的一些专有名词，分词时与此词典相对照，专有名词就不会被分割；

S313、过滤所述专利文件文本中停用词与虚词；

停用词是指那些不能反映主题的功能词，比如“的”“这就是说”“于是”等，虽然在文章中它们出现的次数很高，但是他们不能反映文件的主题，而且还会对关键词的提取造成干扰，所以有必要将其滤除。停用词确定为所有虚词以及标点符号，定义停用词表并根据这些表进行分词过滤是很好理解的。在汉语言中，能标识文本特性的往往是文本中的实词。而文本中的一些虚词，对于标识文本的类别特性并没有贡献。如果把这些对文本分类没有意义的虚词作为文本特征词，将会带来很大误差，从而直接降低文本分类的效率和准确率。比如“非常”“已经”等等，它们在文中出现的次数往往会很高，会影响关键词提取的准确率。因此，在提取文本特征词时，首先考虑剔除这些对文本分类没有用处的虚词，在文本预处理阶段就可避免对提取结果的干扰，使提取结果更加准确；

S314、计算与统计所述专利文件文本中的特征项；

其中，所述特征项包括词频、位置及分词距离次序，其计算表达式包括：

area_i＝(X₁×5+X₂×3+X₃×2)/L

dis_i＝v_i/ln v_i

式中，tf_i表示次序为i的词语的词频；

f_i表示次序为i的词语在文本中出现的次数；

area_i表示次序为i的词语在文中出现的位置；

X₁表示词语出现在标题与摘要中的次数；

X₂表示词语出现在段首句中的次数；

X₃表示词语出现在段尾句中的次数；

L表示文本总词数

dis_i表示次序为i的词语的分词距离次序；

v_i表示分词距离次序的线性函数且表达式为v_i＝a×i+b；

a，b均表示可调常数因子；

i表示词语在文本中出现的次序；

S315、采用线性加权的方式将各个特征进行权重计算，根据计算得到的各个词的权值，按照降序排列得到候选关键词，选取排名前十的关键词组成关键词集合；

其中，所述采用线性加权的方式将各个特征进行权重计算的表达式为：

W_i＝tf_i×A+area_i×B+dis_i×C

式中，W_i表示词语i在文本中所占权重值；

A、B、C均表示比例系数；

tf_i表示词语i的词频；

area_i表示词语i在文中出现的位置；

dis_i表示词语i的分词距离次序。

S32、将所述知识产权文件加密后返回的标识符与对应的关键词集合组成特征集；

S33、将特征集存储至特征知识库模块。

其中，所述身份认证模块接收所述操作终端输入的用户身份信息进行核实与认证；

基于关键词的信息检索是目前最基本、最常用的信息检索方法，几乎每一个搜索引擎都拥有这项功能。该方法是利用关键词索引来获取文档，即文档记录的内容通过一组关键词进行描述，用户的检索提问也用一组关键词来表示，然后利用关键词将文档与提问进行匹配，系统通过计算文档与提问式的相关程度而确定取舍。

基于关键词检索的优点是信息量大，更新及时，不需要人工干预。但正如前面所述，由于这种方式只是针对文本的匹配，无法挖掘信息之间的内在联系，缺乏知识处理能力和理解能力，因此其局限性也是很明显的。其局限性主要表现为：返回信息过多，而且其中有很多不相关的信息，用户必须花大量时间从结果中进行斟别；另外，从用户的角度看，正因为该检索方式是建立在语词匹配基础上的，因此要求用户选择与索引库完全一致的检索词或在此基础上构造检索式才能命中信息，一旦用户的查询请求用词与索引库中的索引词字符形式不一致，查询匹配就会失败。

因此，本发明采用知识检索方式，对用户需求进行检索。知识检索是为了解决目前信息检索中存在的诸如检准率低等问题而提出的一种新型的信息检索理念。其基本特征是在对蕴含在信息记录中的知识和知识关联进行分析的基础上，运用知识处理技术和知识组织技术，实现基于语义理解的智能化查询。这种方式综合应用了信息科学、人工智能、认知科学及语言学等多学科的理论与技术，融合了基于知识和知识组织、知识处理和多媒体信息处理等多种方法与技术，是一种能充分表达和优化用户需求，高效存取所需媒体类型的知识源(文本、图像、视频、声音等)，并能准确精选用户需求结果的高级信息检索方法。具体地说，知识检索是通过对文档原文信息进行语义上的自然语言处理，析取出各种概念信息，形成一个知识库，从概念意义层次上来处理用户的检索提问式。利用知识检索不仅能检索出包含有提问式中的关键词的结果，还能检索出那些与该词同属一类概念的词汇的结果。知识检索能够利用信息的语义知识，“理解”用户的检索需求，通过知识学习，分析理解和推理归纳来实现检索的“智能化”，突破了关键词匹配拘泥于表面形式的局限。

所述检索匹配模块的工作原理包括以下步骤：

S51、基于相关领域专家知识，从待检索的所述特征知识库模块中统计语义参数，构建具备相关领域概念知识的特征知识库模块；

S52、对于用户检索界面获取的查询请求，查询转换器借助所述特征知识库模块以及用户的多维交互分析确定用户查询请求，并将查询请求转换成特定的格式；

S53、调用查询扩展算法对转换后的查询请求进行语义扩展，并引入信息增益的衡量方法避免过度扩展与扩展不足，最终得到符合条件的查询扩展结果集；

S54、以结果集为新的检索词，在所述特征知识库模块中进行匹配检索，筛选出检索到的文件并输出检索结果。

调度管理模块，用于实现数据的调度与系统的管理；

交易模块，用于进行用户对于所述知识产权文件的资金交易，包括资金交易子模块和第三方交易监管子模块；

综上所述，借助于本发明的上述技术方案，通过用户输入专利需求，构建一体式的知识产权文件知识检索、匹配推荐、加密定位及文件下载展示等流程，形成高效的人性化的科技成果转化方案，从而降低用户获取所需专利文件的操作复杂度，且保证推荐的全面性与精确性，匹配出最符合需求的最优专利，进而提高知识产权文件成果转化的效率，最大程度发挥知识产权文件的价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的知识产权成果转化管理系统，其特征在于，该系统包括以下模块组成：

分布式离链存储模块，用于将知识产权文件存储至区块链；

特征知识库模块，用于存储所述知识产权文件的特征集；

分析评估模块，用于对所述知识产权文件进行分析评估；

调度管理模块，用于实现数据的调度与系统的管理；

2.根据权利要求1所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述分布式离链存储模块包括区块节点、存储节点及交易服务器；

所述区块节点用于运行底层区块链的协议；

所述存储节点用于提供保存和维护数据的存储能力；

且所述区块节点与所述存储节点均具有一组公钥-私钥对；

3.根据权利要求2所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述分布式离链存储模块的工作过程包括以下步骤：

4.根据权利要求3所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述知识产权文件包括专利文件及对应的相关资料数据；

且所述分析评估模块的工作原理包括以下步骤：

将特征集存储至所述特征知识库模块。

5.根据权利要求4所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述基于大数据对所述专利文件进行关键词自动提取，并形成关键词集合，包括以下步骤：

过滤所述专利文件文本中停用词与虚词；

计算与统计所述专利文件文本中的特征项；

6.根据权利要求5所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述特征项包括词频、位置及分词距离次序，其计算表达式包括：

areai＝(X1×5+X2×3+X3×2)/L

disi＝vi/lnvi

式中，tf_i表示次序为i的词语的词频；

f_i表示次序为i的词语在文本中出现的次数；

area_i表示次序为i的词语在文中出现的位置；

X₁表示词语出现在标题与摘要中的次数；

X₂表示词语出现在段首句中的次数；

X₃表示词语出现在段尾句中的次数；

L表示文本总词数

dis_i表示次序为i的词语的分词距离次序；

vi表示分词距离次序的线性函数且表达式为v_i＝a×i+b；

a，b均表示可调常数因子；

i表示词语在文本中出现的次序。

7.根据权利要求5所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述采用线性加权的方式将各个特征进行权重计算的表达式为：

W_i＝tf_i×A+area_i×B+dis_i×C

式中，W_i表示词语i在文本中所占权重值；

A、B、C均表示比例系数；

tf_i表示词语i的词频；

area_i表示词语i在文中出现的位置；

dis_i表示词语i的分词距离次序。

8.根据权利要求1所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述身份认证模块接收所述操作终端输入的用户身份信息进行核实与认证；

9.根据权利要求1所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述检索匹配模块的工作原理包括以下步骤：

10.根据权利要求1所述的一种基于大数据的知识产权成果转化管理系统，其特征在于，所述交易模块包括资金交易子模块和第三方交易监管子模块；