CN117150138A - 一种基于高维空间映射的科技资源组织方法及系统 - Google Patents

一种基于高维空间映射的科技资源组织方法及系统 Download PDF

Info

Publication number
CN117150138A
CN117150138A CN202311169655.7A CN202311169655A CN117150138A CN 117150138 A CN117150138 A CN 117150138A CN 202311169655 A CN202311169655 A CN 202311169655A CN 117150138 A CN117150138 A CN 117150138A
Authority
CN
China
Prior art keywords
resource
technological
data
matching
scientific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311169655.7A
Other languages
English (en)
Inventor
赖培源
王昌栋
李奎
廖晓东
赖凯煌
廖德章
杨哲锐
王增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong South China Technology Transfer Center Co ltd
Sun Yat Sen University
Original Assignee
Guangdong South China Technology Transfer Center Co ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong South China Technology Transfer Center Co ltd, Sun Yat Sen University filed Critical Guangdong South China Technology Transfer Center Co ltd
Priority to CN202311169655.7A priority Critical patent/CN117150138A/zh
Publication of CN117150138A publication Critical patent/CN117150138A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于高维空间映射的科技资源组织方法及系统,包括:构建资源池存储科技资源数据,获取不同类别科技资源的属性特征作为资源画像,基于资源画像的建立资源知识图谱;获取用户当前研发任务的技术需求,构建需求图谱;根据资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;将匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。本发明通过构建科技资源数据的动态画像,保证了大数据画像的精准度,同时利用需求画像实现用户需求的个性化推荐,提高了资源的交互效率和资源共享的灵活性。

Description

一种基于高维空间映射的科技资源组织方法及系统
技术领域
本发明涉及科技资源管理技术领域,更具体的,涉及一种基于高维空间映射的科技资源组织方法及系统。
背景技术
伴随新一轮科技革命和产业变革的快速演进,如何对技术研发现状进行识别并预测未来发展趋势,成为企业技术创新活动关注的热点。科技服务业是现代服务业的重要组成部分,其中,科技资源作为科技服务业发展的基石,其数量、种类、分布量均达到了空前的壮大和发展。但科技资源分布分散孤立、多样复杂,导致资源集成度和有效利用率低,难以切实发挥其对科技与实体经济的支撑作用。为此“集成”并“科学分析利用”科技资源成为科技服务的关键核心任务和必然趋势。
现有的科技资源服务平台通常只包含部分领域或领域内的部分数据。并且不同的平台之间数据的组织格式和内容往往存在很大差异,使得用户在跨平台获取知识的时候往往会遇到很大的困难,因此在科技服务资源领域需要一个全面的科技资源的整合系统对相关的科技资源进行整理,以方便用户相关知识的获取。近年来,随着知识图谱的发展,在专业性较强的科技资源领域构建知识图谱,既可以将不同平台之间的数据实现整合,也可以很好地展示平台中的科技资源数据,因此如何对跨平台的组织不同的实体进行了融合,构建一个完整的科技资源领域知识图谱是亟不可待需要解决的问题。
发明内容
为了解决上述技术问题,本发明提出了一种基于高维空间映射的科技资源组织方法及系统。
本发明第一方面提供了一种基于高维空间映射的科技资源组织方法,包括:
通过大数据方法进行科技资源数据检索,将所述科技资源数据进行预处理,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类;
根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱;
获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量;
根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;
将所述匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。
本方案中,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类,具体为:
通过数据检索获取科技资源数据,将所述科技资源数据进行数据清洗,并统一数据清洗后的科技资源数据的数据结构,所述数据清洗包括数据异常处理、内容异常处理及字段缺失处理;
获取预处理后的科技资源数据,在资源池中进行存储,进行数据的统一封装;
根据科技资源数据的数据来源读取对应的分类体系,获取科技资源数据的原始类别标签,对所述原始类别标签进行统计分析,获取出现频率最高的原始类别标签,并标记无原始类别标签的科技资源数据;
基于出现频率最高的原始类别标签利用相似度计算进行标签精简,根据精简后的原始类别标签构建分类体系,通过所述分类体系对预处理后的科技资源数据进行分类;
将标记的科技资源数据与分类后的科技资源数据进行相似度计算,确定无原始类别标签的科技资源数据的分类结果。
本方案中,根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱,具体为:
在资源池中读取科技资源数据经过分类体系分类后的类别标签,根据所述类别标签进行实体抽取获取实体的属性,提取实体与实体之间的关系,将实体进行连接形成图状的知识网络;
将科技资源数据对应的实体、关系及属性存储为三元组形式,生成若干实体关系对及实体属性对,通过所述三元组进行映射将关系进行连线,根据同一类别科技资源对应的实体关系对及实体属性对获取该类别科技资源的属性特征;
在图状的知识网络中利用属性特征作为不同类别科技资源数据的资源画像,根据所述资源画像,构建资源知识图谱。
本方案中,获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量,具体为:
获取用户当前研发任务技术需求的描述性文本,将所述描述性文本进行分词获取词向量,根据所述词向量获取关键词;
将所述关键词根据资源池的分类体系进行分类,为关键词匹配科技资源类别标签,利用资源知识图谱获取各科技资源类别标签的关联关系;
将同一科技资源类别标签下的关键词进行相似度计算,将相似度大于预设阈值的相似关键词进行整合对齐,利用整合对齐后的关键词作为实体;
通过所述实体及关联关系构建需求图谱,并根据科技资源类别标签的数量确定需求资源类型的数量。
本方案中,根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值,具体为:
获取需求资源类型及对应数量,根据所述需求资源类型分别在资源知识图谱及需求图谱中获取对应的科技资源三元组及需求三元组,通过需求资源类型的数量生成三元组集合;
将三元组集合中的科技资源三元组及需求三元组分别映射到欧式空间、双曲面空间、对数空间、指数空间,在不同高维空间中进行科技资源与需求的匹配;
当所有需求资源类型匹配结束后,利用相似度计算得到不同高维空间中需求实体与资源实体之间的匹配值。
本方案中,将所述匹配值通过聚类进行融合分析,具体为:
将不同高维空间中的匹配值映射到聚合空间,所述聚合空间中将各匹配值进行聚类,根据需求资源类型数量设置初始聚类中心,判断其他匹配值到所述初始聚类中心的欧式距离;
将其他匹配值归于距离最近的初始聚类中心,获取各类簇的聚类结果,在聚类结果中进行均值处理获取新的聚类中心,当迭代次数达到预设次数后停止迭代;
获取最后一次迭代得到的各类簇最终聚类结果,在所述最终聚类结果中的匹配值进行从大到小排序,根据排序结果向用户推荐各需求资源类型对应的具体科技资源实体。
本发明第二方面还提供了一种基于高维空间映射的科技资源组织系统,该系统包括:存储器、处理器,所述存储器中包括基于高维空间映射的科技资源组织方法程序,所述基于高维空间映射的科技资源组织方法程序被所述处理器执行时实现如下步骤:
通过大数据方法进行科技资源数据检索,将所述科技资源数据进行预处理,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类;
根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱;
获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量;
根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;
将所述匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。
本发明公开了一种基于高维空间映射的科技资源组织方法及系统,包括:构建资源池存储科技资源数据,获取不同类别科技资源的属性特征作为资源画像,基于资源画像的建立资源知识图谱;获取用户当前研发任务的技术需求,构建需求图谱;根据资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;将匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。本发明通过构建科技资源数据的动态画像,保证了大数据画像的精准度,同时利用需求画像实现用户需求的个性化推荐,提高了资源的交互效率和资源共享的灵活性。
附图说明
图1示出了本发明一种基于高维空间映射的科技资源组织方法的流程图;
图2示出了本发明基于资源画像的建立资源知识图谱的方法流程图;
图3示出了本发明在不同高维空间中进行资源与需求匹配的方法流程图;
图4示出了本发明一种基于高维空间映射的科技资源组织系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于高维空间映射的科技资源组织方法的流程图。
如图1所示,本发明第一方面提供了一种基于高维空间映射的科技资源组织方法,包括:
S102,通过大数据方法进行科技资源数据检索,将所述科技资源数据进行预处理,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类;
S104,根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱;
S106,获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量;
S108,根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;
S110,将所述匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。
需要说明的是,资源池包括数据采集模块、数据预处理模块及数据存储模块,在数据采集模块中,通过大数据等数据检索方法获取科技资源数据,在数据预处理模块中,将所述科技资源数据进行数据清洗,并统一数据清洗后的科技资源数据的数据结构,所述数据清洗包括数据异常处理、内容异常处理及字段缺失处理;获取预处理后的科技资源数据,在资源池的数据存储模块中进行存储,进行数据的统一封装;根据科技资源数据的数据来源读取对应的分类体系,获取科技资源数据的原始类别标签,对所述原始类别标签进行统计分析,获取出现频率最高的原始类别标签,并标记无原始类别标签的科技资源数据;基于出现频率最高的原始类别标签利用相似度计算进行标签精简,将相似度高的两种原始类别标签合并为一个标签,根据精简后的原始类别标签构建分类体系,通过所述分类体系对预处理后的科技资源数据进行分类;将标记的科技资源数据与分类后的科技资源数据进行相似度计算,确定无原始类别标签的科技资源数据的分类结果。
图2示出了本发明基于资源画像的建立资源知识图谱的方法流程图。
根据本发明实施例,根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱,具体为:
S202,在资源池中读取科技资源数据经过分类体系分类后的类别标签,根据所述类别标签进行实体抽取获取实体的属性,提取实体与实体之间的关系,将实体进行连接形成图状的知识网络;
S204,将科技资源数据对应的实体、关系及属性存储为三元组形式,生成若干实体关系对及实体属性对,通过所述三元组进行映射将关系进行连线,根据同一类别科技资源对应的实体关系对及实体属性对获取该类别科技资源的属性特征;
S206,在图状的知识网络中利用属性特征作为不同类别科技资源数据的资源画像,根据所述资源画像,构建资源知识图谱。
需要说明的是,通过信息抽取对科技资源数据进行抽取,获取知识图谱的实体,提取实体与实体之间的关系进行连接,通过众多的关系连接形成图状的知识网络,以展示知识图谱中实体之间的联系和差异性,从而更清楚全面的展示知识图谱中的内容,获取的属性和关系在图数据库中进行映射,通过将关系进行连线,以形成实体节点与实体节点之间的网络,完成知识图谱的构建。
需要说明的是,获取用户当前研发任务技术需求的描述性文本,将所述描述性文本进行分词获取词向量,根据所述词向量获取关键词;将所述关键词根据资源池的分类体系进行分类,为关键词匹配科技资源类别标签,利用资源知识图谱获取各科技资源类别标签的关联关系;将同一科技资源类别标签下的关键词进行相似度计算,将相似度大于预设阈值的相似关键词进行整合对齐,利用整合对齐后的关键词作为实体;通过所述实体及关联关系构建需求图谱,并根据科技资源类别标签的数量确定需求资源类型的数量。
图3示出了本发明在不同高维空间中进行资源与需求匹配的方法流程图。
根据本发明实施例,根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值,具体为:
S302,获取需求资源类型及对应数量,根据所述需求资源类型分别在资源知识图谱及需求图谱中获取对应的科技资源三元组及需求三元组,通过需求资源类型的数量生成三元组集合;
S304,将三元组集合中的科技资源三元组及需求三元组分别映射到欧式空间、双曲面空间、对数空间、指数空间,在不同高维空间中进行科技资源与需求的匹配,通过映射后的向量进行相似度计算,例如余弦相似度或点积相似度,将相似度最高的资源和需求作为匹配对;
S306,当所有需求资源类型匹配结束后,利用相似度计算得到不同高维空间中需求实体与资源实体之间的匹配值。
需要说明的是,通过将不同类型的资源映射到多种类型的空间进行表征匹配,例如将人才的图谱三元组和需求的三元组分别映射到欧式空间、双曲面空间、对数空间、指数空间等,在不同的高维空间中进行资源与需求的匹配,并通过相似度计算(例如余弦相似度或欧式相似度),得到各个需求实体与资源实体之间的图谱表征匹配值。这里对每一类资源都进行匹配后计算,最后分别推荐组织,例如大数据需求推荐若干人才,肝癌治疗技术需求推荐若干人才,机械设计需求推荐若干人才。
需要说明的是,将不同高维空间中的匹配值映射到聚合空间,所述聚合空间中将各匹配值进行聚类,根据需求资源类型数量设置初始聚类中心,判断其他匹配值到所述初始聚类中心的欧式距离;将其他匹配值归于距离最近的初始聚类中心,获取各类簇的聚类结果,在聚类结果中进行均值处理获取新的聚类中心,当迭代次数达到预设次数后停止迭代;获取最后一次迭代得到的各类簇最终聚类结果,在所述最终聚类结果中的匹配值进行从大到小排序,根据排序结果向用户推荐各需求资源类型对应的具体科技资源实体。
图4示出了本发明一种基于高维空间映射的科技资源组织系统的框图。
本发明第二方面还提供了一种基于高维空间映射的科技资源组织系统4,该系统包括:存储器41、处理器42,所述存储器中包括基于高维空间映射的科技资源组织方法程序,所种基于高维空间映射的科技资源组织方法程序被所述处理器执行时实现如下步骤:
通过大数据方法进行科技资源数据检索,将所述科技资源数据进行预处理,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类;
根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱;
获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量;
根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;
将所述匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于高维空间映射的科技资源组织方法程序,所述基于高维空间映射的科技资源组织方法程序被处理器执行时,实现如上述任一项所述的基于高维空间映射的科技资源组织方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于高维空间映射的科技资源组织方法,其特征在于,包括以下步骤:
通过大数据方法进行科技资源数据检索,将所述科技资源数据进行预处理,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类;
根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱;
获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量;
根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;
将所述匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。
2.根据权利要求1所述的一种基于高维空间映射的科技资源组织方法,其特征在于,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类,具体为:
通过数据检索获取科技资源数据,将所述科技资源数据进行数据清洗,并统一数据清洗后的科技资源数据的数据结构,所述数据清洗包括数据异常处理、内容异常处理及字段缺失处理;
获取预处理后的科技资源数据,在资源池中进行存储,进行数据的统一封装;
根据科技资源数据的数据来源读取对应的分类体系,获取科技资源数据的原始类别标签,对所述原始类别标签进行统计分析,获取出现频率最高的原始类别标签,并标记无原始类别标签的科技资源数据;
基于出现频率最高的原始类别标签利用相似度计算进行标签精简,根据精简后的原始类别标签构建分类体系,通过所述分类体系对预处理后的科技资源数据进行分类;
将标记的科技资源数据与分类后的科技资源数据进行相似度计算,确定无原始类别标签的科技资源数据的分类结果。
3.根据权利要求1所述的一种基于高维空间映射的科技资源组织方法,其特征在于,根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱,具体为:
在资源池中读取科技资源数据经过分类体系分类后的类别标签,根据所述类别标签进行实体抽取获取实体的属性,提取实体与实体之间的关系,将实体进行连接形成图状的知识网络;
将科技资源数据对应的实体、关系及属性存储为三元组形式,生成若干实体关系对及实体属性对,通过所述三元组进行映射将关系进行连线,根据同一类别科技资源对应的实体关系对及实体属性对获取该类别科技资源的属性特征;
在图状的知识网络中利用属性特征作为不同类别科技资源数据的资源画像,根据所述资源画像,构建资源知识图谱。
4.根据权利要求1所述的一种基于高维空间映射的科技资源组织方法,其特征在于,获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量,具体为:
获取用户当前研发任务技术需求的描述性文本,将所述描述性文本进行分词获取词向量,根据所述词向量获取关键词;
将所述关键词根据资源池的分类体系进行分类,为关键词匹配科技资源类别标签,利用资源知识图谱获取各科技资源类别标签的关联关系;
将同一科技资源类别标签下的关键词进行相似度计算,将相似度大于预设阈值的相似关键词进行整合对齐,利用整合对齐后的关键词作为实体;
通过所述实体及关联关系构建需求图谱,并根据科技资源类别标签的数量确定需求资源类型的数量。
5.根据权利要求1所述的一种基于高维空间映射的科技资源组织方法,其特征在于,根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值,具体为:
获取需求资源类型及对应数量,根据所述需求资源类型分别在资源知识图谱及需求图谱中获取对应的科技资源三元组及需求三元组,通过需求资源类型的数量生成三元组集合;
将三元组集合中的科技资源三元组及需求三元组分别映射到欧式空间、双曲面空间、对数空间、指数空间,在不同高维空间中进行科技资源与需求的匹配;
当所有需求资源类型匹配结束后,利用相似度计算得到不同高维空间中需求实体与资源实体之间的匹配值。
6.根据权利要求1所述的一种基于高维空间映射的科技资源组织方法,其特征在于,将所述匹配值通过聚类进行融合分析,具体为:
将不同高维空间中的匹配值映射到聚合空间,所述聚合空间中将各匹配值进行聚类,根据需求资源类型数量设置初始聚类中心,判断其他匹配值到所述初始聚类中心的欧式距离;
将其他匹配值归于距离最近的初始聚类中心,获取各类簇的聚类结果,在聚类结果中进行均值处理获取新的聚类中心,当迭代次数达到预设预设次数后停止迭代;
获取最后一次迭代得到的各类簇最终聚类结果,在所述最终聚类结果中的匹配值进行从大到小排序,根据排序结果向用户推荐各需求资源类型对应的具体科技资源实体。
7.一种基于高维空间映射的科技资源组织系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于高维空间映射的科技资源组织方法程序,所述基于高维空间映射的科技资源组织方法程序被所述处理器执行时实现如下步骤:
通过大数据方法进行科技资源数据检索,将所述科技资源数据进行预处理,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类;
根据分类结果获取不同类别科技资源的属性特征,将所述属性特征作为资源画像,基于所述资源画像的建立资源知识图谱;
获取用户当前研发任务的技术需求,将所述技术需求进行词向量表示,构建需求图谱,确定需求资源类型的数量;
根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值;
将所述匹配值通过聚类进行融合分析,基于分析结果向用户推荐各类资源对应的具体科技资源实体。
8.根据权利要求7所述的一种基于高维空间映射的科技资源组织系统,其特征在于,构建资源池存储预处理后的科技资源数据,并进行科技资源数据的分类,具体为:
通过数据检索获取科技资源数据,将所述科技资源数据进行数据清洗,并统一数据清洗后的科技资源数据的数据结构,所述数据清洗包括数据异常处理、内容异常处理及字段缺失处理;
获取预处理后的科技资源数据,在资源池中进行存储,进行数据的统一封装;
根据科技资源数据的数据来源读取对应的分类体系,获取科技资源数据的原始类别标签,对所述原始类别标签进行统计分析,获取出现频率最高的原始类别标签,并标记无原始类别标签的科技资源数据;
基于出现频率最高的原始类别标签利用相似度计算进行标签精简,根据精简后的原始类别标签构建分类体系,通过所述分类体系对预处理后的科技资源数据进行分类;
将标记的科技资源数据与分类后的科技资源数据进行相似度计算,确定无原始类别标签的科技资源数据的分类结果。
9.根据权利要求7所述的一种基于高维空间映射的科技资源组织系统,其特征在于,根据所述资源知识图谱及需求图谱映射到不同高维空间进行表征匹配,在不同高维空间中进行资源与需求匹配,获取匹配值,具体为:
获取需求资源类型及对应数量,根据所述需求资源类型分别在资源知识图谱及需求图谱中获取对应的科技资源三元组及需求三元组,通过需求资源类型的数量生成三元组集合;
将三元组集合中的科技资源三元组及需求三元组分别映射到欧式空间、双曲面空间、对数空间、指数空间,在不同高维空间中进行科技资源与需求的匹配;
当所有需求资源类型匹配结束后,利用相似度计算得到不同高维空间中需求实体与资源实体之间的匹配值。
10.根据权利要求7所述的一种基于高维空间映射的科技资源组织系统,其特征在于,将所述匹配值通过聚类进行融合分析,具体为:
将不同高维空间中的匹配值映射到聚合空间,所述聚合空间中将各匹配值进行聚类,根据需求资源类型数量设置初始聚类中心,判断其他匹配值到所述初始聚类中心的欧式距离;
将其他匹配值归于距离最近的初始聚类中心,获取各类簇的聚类结果,在聚类结果中进行均值处理获取新的聚类中心,当迭代次数达到预设预设次数后停止迭代;
获取最后一次迭代得到的各类簇最终聚类结果,在所述最终聚类结果中的匹配值进行从大到小排序,根据排序结果向用户推荐各需求资源类型对应的具体科技资源实体。
CN202311169655.7A 2023-09-12 2023-09-12 一种基于高维空间映射的科技资源组织方法及系统 Pending CN117150138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311169655.7A CN117150138A (zh) 2023-09-12 2023-09-12 一种基于高维空间映射的科技资源组织方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311169655.7A CN117150138A (zh) 2023-09-12 2023-09-12 一种基于高维空间映射的科技资源组织方法及系统

Publications (1)

Publication Number Publication Date
CN117150138A true CN117150138A (zh) 2023-12-01

Family

ID=88898624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311169655.7A Pending CN117150138A (zh) 2023-09-12 2023-09-12 一种基于高维空间映射的科技资源组织方法及系统

Country Status (1)

Country Link
CN (1) CN117150138A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648444A (zh) * 2024-01-30 2024-03-05 广东省华南技术转移中心有限公司 基于图卷积属性聚合的专利聚类方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
WO2021008180A1 (zh) * 2019-07-16 2021-01-21 扬州大学 面向软件缺陷知识的知识搜索方法
CN114721833A (zh) * 2022-05-17 2022-07-08 中诚华隆计算机技术有限公司 一种基于平台业务类型的智能云端协调方法和装置
CN114969518A (zh) * 2022-05-12 2022-08-30 武汉理工大学 基于企业用户需求的科技服务资源推荐系统
CN115470339A (zh) * 2022-07-28 2022-12-13 北京万方软件有限公司 基于科技大数据知识图谱的技术诊断专家智能匹配算法
CN116645129A (zh) * 2023-03-20 2023-08-25 天津大学 一种基于知识图谱的制造资源推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021008180A1 (zh) * 2019-07-16 2021-01-21 扬州大学 面向软件缺陷知识的知识搜索方法
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
CN114969518A (zh) * 2022-05-12 2022-08-30 武汉理工大学 基于企业用户需求的科技服务资源推荐系统
CN114721833A (zh) * 2022-05-17 2022-07-08 中诚华隆计算机技术有限公司 一种基于平台业务类型的智能云端协调方法和装置
CN115470339A (zh) * 2022-07-28 2022-12-13 北京万方软件有限公司 基于科技大数据知识图谱的技术诊断专家智能匹配算法
CN116645129A (zh) * 2023-03-20 2023-08-25 天津大学 一种基于知识图谱的制造资源推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾海利;张健;祁宇明;邓三鹏;: "云制造平台资源需求的高效匹配策略研究", 现代制造工程, no. 04, 18 April 2020 (2020-04-18) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648444A (zh) * 2024-01-30 2024-03-05 广东省华南技术转移中心有限公司 基于图卷积属性聚合的专利聚类方法和系统
CN117648444B (zh) * 2024-01-30 2024-04-30 广东省华南技术转移中心有限公司 基于图卷积属性聚合的专利聚类方法和系统

Similar Documents

Publication Publication Date Title
CN109492772B (zh) 生成信息的方法和装置
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111078776A (zh) 数据表的标准化方法、装置、设备及存储介质
US11373101B2 (en) Document analyzer
CN107633022A (zh) 人员画像分析方法、装置及存储介质
CN117150138A (zh) 一种基于高维空间映射的科技资源组织方法及系统
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN116401379A (zh) 金融产品数据推送方法、装置、设备及存储介质
CN115098440A (zh) 电子档案查询方法、装置、存储介质和设备
CN116739836B (zh) 一种基于知识图谱的餐饮数据分析方法及系统
CN112860850B (zh) 人机交互方法、装置、设备及存储介质
CN112069269B (zh) 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN113806492B (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN114357184A (zh) 事项推荐方法及相关装置、电子设备和存储介质
CN114693435A (zh) 催收名单的智能回访的方法、装置、电子设备及存储介质
CN113159118A (zh) 物流数据指标的处理方法、装置、设备及存储介质
CN113779248A (zh) 数据分类模型训练方法、数据处理方法及存储介质
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
CN117112846B (zh) 一种多信息源证照信息管理方法、系统及介质
CN111143694B (zh) 一种情报推送方法、装置及存储设备、程序
CN116662664A (zh) 关键特征确定方法、装置、计算机设备、介质和程序产品
CN116226761A (zh) 一种基于深度神经网络的演训数据分类编目方法及系统
CN115829809A (zh) 基于配置化的碳核算方法、装置、计算机设备及存储介质
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN117291518A (zh) 业务处理方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination