CN110059316B - 一种基于数据感知的动态科技资源语义分析方法 - Google Patents

一种基于数据感知的动态科技资源语义分析方法 Download PDF

Info

Publication number
CN110059316B
CN110059316B CN201910304667.3A CN201910304667A CN110059316B CN 110059316 B CN110059316 B CN 110059316B CN 201910304667 A CN201910304667 A CN 201910304667A CN 110059316 B CN110059316 B CN 110059316B
Authority
CN
China
Prior art keywords
resource
user
perception
semantic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910304667.3A
Other languages
English (en)
Other versions
CN110059316A (zh
Inventor
赵晓萌
周俊杰
方少亮
林珠
罗亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Science & Technology Infrastructure Construction Promotion Association
Guangdong Science & Technology Infrastructure Center
Original Assignee
Guangdong Science & Technology Infrastructure Construction Promotion Association
Guangdong Science & Technology Infrastructure Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Science & Technology Infrastructure Construction Promotion Association, Guangdong Science & Technology Infrastructure Center filed Critical Guangdong Science & Technology Infrastructure Construction Promotion Association
Priority to CN201910304667.3A priority Critical patent/CN110059316B/zh
Publication of CN110059316A publication Critical patent/CN110059316A/zh
Application granted granted Critical
Publication of CN110059316B publication Critical patent/CN110059316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于数据感知的动态科技资源语义分析方法,包括以下步骤:面向数据存储层,构造基于资源组合框架的感知节点;面向用户层,根据用户信息和用户的输入,基于感知节点部署感知采集网络;面向用户资源交互层,通过感知采集网络读取用户行为数据,根据用户行为数据部署感知决策计算网络;面向资源层,根据感知决策计算网络构造资源语义生成树。本发明通过部署面向数据存储层、用户层、用户资源交互层、资源层的分级感知网络,以形成自学习、自主优化的语义分析方法,可以实现资源与资源间、用户与资源间、用户与用户间、存储节点间的实时感知与反馈系统优化,有效解决现有科技资源管理平台的缺陷。

Description

一种基于数据感知的动态科技资源语义分析方法
技术领域
本发明涉及数据挖掘与信息处理技术领域,更具体地,涉及一种基于数据感知的动态科技资源语义分析方法。
背景技术
科技资源管理领域中,科技资源分类,尤其是以需求或应用为导向的分类存在较大难度,分类问题会使得在科技资源供需对接时,索引或推荐模式与需求者的意愿或兴趣导向不同步,降低供需对接或资源融合创新的效率。对此,需建立基于用户特征、资源特征的资源语义库或语义关联树,而对于用户与资源,其交互数据是资源管理者最为关心的,但是基于现有方案,交互行为及行为分析具有滞后性,使得用户真实意愿被隐藏,同时,资源语义关联得不到实时更新,也使得其他用户的潜在需求可能得不到有效解决,如此,一种实时性的数据感知,实时反馈获取,实时性的关联语义解析的科技资源语义分析方法是必要的。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种基于数据感知的科技资源语义分析方法,能够实现资源与资源间、用户与资源间、用户与用户间、存储节点间的实时感知与反馈系统优化,有效解决现有科技资源管理平台的缺陷。
本发明采取的技术方案是:
一种基于数据感知的动态科技资源语义分析方法,包括以下步骤:
面向数据存储层,构造基于资源组合框架的感知节点;
面向用户层,根据用户信息和用户的输入,基于感知节点部署感知采集网络;
面向用户资源交互层,通过感知采集网络读取用户行为数据,根据用户行为数据部署感知决策计算网络;
面向资源层,根据感知决策计算网络构造资源语义生成树。
进一步地,所述面向数据存储层,构造基于资源组合框架的感知节点,具体包括:
根据数据库中资源存储结构或文本分类方法提取特征类数据并作为训练样本;
根据不同类型的特征对训练样本进行分析,自上而下生成文本语义框架,自下而上形成结构化语义框架;
根据文本语义框架对训练样本进行分析,生成基于结构化语义框架的自然语句并作为训练样本的概要;
基于训练样本的概要生成资源组合框架,并剃除资源组合框架中的离群数据和/或噪声数据,资源组合框架中的组合节点即为感知节点。
进一步地,所述不同类型的特征包括文本特征、篇章特征、段落特征、句义特征、短语特征、词义特征或陈述词的其中多个。
进一步地,所述自上而下生成文本语义框架,具体包括:
对训练样本,依次进行文本类型归集、篇章语义定位、段落分类抓取、定向句义提取、构词短语合并、关联词义融合的其中多个,形成文本语义框架。
进一步地,所述自下而上形成结构化语义框架,具体包括:
对训练样本,依次进行同描述目的/同语义合并、段落合并、文本合并的其中多个,形成结构化语义框架。
进一步地,所述剔除资源组合框架中的离群数据和/或噪声数据采用聚类分析方法和/或关联分析方法。
进一步地,所述面向用户层,根据用户信息和用户的输入,基于感知节点部署感知采集网络,具体包括:
根据用户信息查找用户集群分布,建立以集群用户特征中心、集群资源关联用户行为特征为项的用户属性函式,根据用户属性函式的因子对用户属性函式进行因式分解得到用户感知项;根据用户的输入随机释放资源,计算用户感知项与释放资源的相似度,依据相似度调节释放资源的感应系数或感应灵敏度,并生成感应信号融合资源组合框架,基于感知节点部署感知采集网络。
进一步地,所述用户属性函式的因子包括关联用户特征、用户关联资源特征、用户关联行为特征。
进一步地,所述面向用户资源交互层,通过感知采集网络读取用户行为数据,根据用户信息部署感知决策计算网络,具体包括:
通过感知采集网络读取用户行为数据,建立全局资源态和全局用户态,对两种态进行实时计算并在两种态之间建立感知网络;
基于感知网络实时计算集群用户交互行为关联资源的提升度,构造兴趣导向资源关联规则,根据关联规则对资源态进行定向聚合,得到定向聚合态。
进一步地,所述面向资源层,根据感知决策计算网络构造资源语义生成树,具体包括:根据定向聚合态,计算聚合态新聚合中心的偏移度或\和聚合态熵值变化,获取关联规则的新项集,根据新项集与原项集的集合关系优化关联规则,生成具有语义倾向的资源语义生长树。
与现有技术相比,本发明的有益效果为:通过部署面向数据存储层、用户层、用户资源交互层、资源层的分级感知网络,以形成自学习、自主优化的语义分析方法,可以实现资源与资源间、用户与资源间、用户与用户间、存储节点间的实时感知与反馈系统优化,有效解决现有科技资源管理平台的缺陷。
附图说明
图1为本发明实施例的文本语义框架及资源组合框架形成方法示意图。
图2为本发明实施例的用户感知项生成方法示意图。
图3为本发明实施例的基于资源组合框架的感知融合信号示意图。
图4为本发明实施例的用户交互数据表征图。
图5为本发明实施例的面向交互层的交互感知决策计算网络生成方法示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例
本实施例提供一种基于数据感知的动态科技资源语义分析方法,包括以下步骤:
S1.面向数据存储层,构造基于资源组合框架的感知节点;
S2.面向用户层,根据用户信息和用户的输入,基于感知节点部署感知采集网络;
S3.面向用户资源交互层,通过感知采集网络读取用户行为数据,根据用户行为数据部署感知决策计算网络;
S4.面向资源层,根据感知决策计算网络构造资源语义生成树。
在本实施例中,步骤S1具体包括:
S11.根据数据库中资源存储结构或文本分类方法提取特征类数据并作为训练样本;
S12.根据不同类型的特征对训练样本进行分析,自上而下生成文本语义框架,自下而上形成结构化语义框架;
S13.根据文本语义框架对训练样本进行分析,生成基于结构化语义框架的自然语句并作为训练样本的概要;
S14.基于训练样本的概要生成资源组合框架,并剃除资源组合框架中的离群数据和/或噪声数据,资源组合框架中的组合节点即为感知节点。
本实施例具体用于科技资源管理领域,包括科技资源供需对接、科技资源融合创新、科技资源感知推荐等方面。
如图1所示,对于某名为“科技资源语义分析技术与应用”的科技资源库,该科技资源库的主分类特征为科技管理(索引号S101),录入系统中可作为语言材料的关联信息包括可行性报告(索引号T101)、立项书(T102)、设备条件陈述(T103)、结题书、基于项目基本信息的关键字段等。
在步骤S11中,根据该科技资源库的资源存储结构,可以将上述语言材料进行训练分析可得到立项申请、结题书、可行性报告等文本表达结构,形成训练样本。
在步骤S11中,根据该科技资源库的文本分类方法,可以将上述语言材料以语义差异较大文本进行训练分析,提取文档共有词或共有表述目的语义词,形成训练样本。
在步骤S12中,所述不同类型的特征包括文本特征、篇章特征、段落特征、句义特征、短语特征、词义特征或陈述词。
步骤S12是对步骤S11中得到的训练样本进行结构化分析。
所述自上而下生成文本语义框架,具体包括:对训练样本,依次进行文本类型归集、篇章语义定位、段落分类抓取、定向句义提取、构词短语合并、关联词义融合,形成文本语义框架。
如图1所示,对“科技资源语义分析技术与应用”的科技资源库而言,首先是进行文本类型归集,其文本类型包括可行性报告、立项书、设备条件陈述、前期关联项目报告、科研成果证明等。依据项目评估经验,人工设定文本类型的分析决策方向,例如现有两种分析目的:
(1)获取科技资源应用对接方向、意义或解决问题等成果体现或应用价值类资源属性;
(2)获取科技资源技术关联、硬件组成、系统构造等技术构成或系统条件等资源基础属性。
对于上述两种分析目的,依据经验,可行性报告、立项书等同时具有两种分析目的潜在语义,而设备条件陈述只具备第二种分析目的潜在语义。
对于不同的分析目的,其表述结构的关联词、表述句式、篇章段落结构均具有较大差异,为快速深度挖掘文本信息,需根据分析目的调整语义提取决策,如此在采用分析策略前,对语言材料进行预处理,根据语义分析目的,自上而下生成文本语义框架,根据语义分析目的和文本语义框架,可以快速匹配待分析段落或短句形式的语料,减小分析文本量及分析难度。
自上而下生成文本语义框架后,根据文本语义框架可以自下而上形成结构化语义框架。
所述自下而上形成结构化语义框架,具体包括:对训练样本,依次进行同描述目的/同语义合并、段落合并、文本合并,形成结构化语义框架。
主要是在定位到待分析的长短句或段落后,提取关键词或短语,并与特征表述词结合,向上合并形成定向语义描述树,如此通过并行大数据分析,将共有语义或相似语义合并短语或长短句作为细分语义类的语料库,形成结构化语义框架。
步骤S13的目的是为了基于定向的语义分析目的形成训练样本的概要。
如图1所示,假设在“科技资源语义分析与应用”科技资源分析中,根据文本语义框架对训练样本进行分析后得到了如下形式的三条语义描述:
(1)“领域-科技资源管理→文本类型-可行性报告→篇章-必要性概述→段落-研究目的→句式or陈述词-具有…重大意义or实现…目的or解决…问题→关键语义词-供需对接and资源融合创新and成果转化”;
(2)“领域-科技资源管理→文本类型-可行性报告→篇章-科研条件→段落-硬件or设备→句式or陈述词-具有…等设备仪器or设备仪器如下…or设备一览…→关键语义词-扫描隧道显微镜and荧光光谱仪and超连续激光器”;
(3)“领域-科技资源管理→文本类型-可行性报告→篇章-科研条件→段落-前期成果or科研实力→句式or陈述词-专利or论文or项目→关键语义词→用户画像and行为分析and资源共享and传感系统and人脸识别”。
获得上述三条语义描述后,根据结构化语义框架及上述语义描述构词进行融合生成自然语句。自然语句的融合是基于结构化语义框架而进行的,从简单融合到语言润色融合。根据结构化语义框架,简单融合后可以得到如下自然语句:
“科技资源管理领域,可行性报告中,研究目的为供需对接、资源融合创新、成果转化and科研条件,硬件设备有扫描隧道显微镜、荧光光谱仪、超连续激光器and成果概况为用户画像、行为分析、资源共享、传感系统、人脸识别”。
上述自然语句即为训练样本的概要。
在步骤S14中,所述剔除资源组合框架中的离群数据和/或噪声数据采用聚类分析方法和/或关联分析方法。
如图1所示,完成步骤S13后所生成的概要都是简短句,基于语义结构容易进行概要的分类,然后需进行融合生成资源组合框架,对该资源组合框架还需采用聚类分析和/或关联分析进行清洗,如剔除离群或噪声数据等。对于资源组合框架中的组合节点,主要为语义描述关键词。
通常来讲,根据分析目的及资源本征值,资源上报者为使自身科研实力或潜在应用价值更加强,都会上传或写入与资源本征或资源目的或语义分析目的相违背的数据以提高佐证数据量。如图1所示的“科技资源语义分析与应用”数据库,资源组合框架所述包含的语义“前期成果-传感系统、人脸识别”,“硬件设备-扫描隧道显微镜、荧光显微镜、超连续激光器”与集群特征语义相似度较低,可认为是充量数据或暂无关联数据,对此需进行标注并暂时剔除,虽然被剔除,但是被剔除的词与被保留的词一样会以感知节点的形式部署于资源组合框架中,被保留的词为正相关行为感知,被剔除的词为负相关行为感知,根据关联词归属资源交互情况收集感知信号并传输给数据服务器的关联资源,并根据关联度或聚合度释放关联资源。具体为:若某用户输入字段为“资源共享技术”,根据索引释放若干正相关科技资源以及少量负相关资源,对于各资源均有对应的感知节点,对于正相关资源,根据特征关联程度的不同,感应系数或感应敏感度呈正相关设置,对于负相关资源,感应系数或感应敏感度则设为强;如此,基于感应节点部署和交互行为生成感应信号,并将感应信号传输给数据服务器中的关联资源,服务器中的资源具有感应节点,感应节点对感应信号进行合并计算后,根据关联词匹配度或聚合度释放相关数据。
在本实施例中,步骤S2具体包括:
S21.根据用户信息查找用户集群分布,建立以集群用户特征中心、集群资源关联用户行为特征为项的用户属性函式,根据用户属性函式的因子对用户属性函式进行因式分解得到用户感知项;
S22.根据用户的输入随机释放资源,计算用户感知项与释放资源的相似度,依据相似度调节释放资源的感应系数或感应灵敏度,并生成感应信号传输到感应节点,基于感知节点部署感知采集网络。
在步骤S21中,所述用户属性函式的因子包括关联用户特征、用户关联资源特征、用户关联行为特征。
在根据用户信息查找用户集群分布的过程中,对于系统访客而言,对访客进行IP库匹配,根据IP范围内用户特征提取访客身份的模糊特征,根据该模糊特征,查找该访客的用户集群分布。而对于系统登录用户而言,直接调用系统数据服务器得到用户集群分布。
所述用户集群分布包括用户各个特征指标聚类、集群用户资源交互行为特征、用户资源权属关联特征等。其中,用户各特征指标的聚类实际为层次聚类。
例如,某访客进入系统平台,如图2所示,假设该访客具有若干特征指标并按照层次进行排列,提取极大频繁项集,并在层次聚类中匹配定位,而层次聚类是基于数据服务器中的资源组合框架,如此以各层次聚类的中心以及集群用户资源交互行为特征为项,以离心距离(欧几里得距离)为项系数,以层次聚类关联倾向资源特征和关联倾向行为特征为因子,建立用户属性函式。
例如,经步骤S21计算得到用户感知项的表达式为“用户类型→科技管理者(0.4)信息技术人员(0.6)→工作特征-技术研究(0.8)||管理运营(0.2)→技术领域-计算机技术(0.5)||统计学(0.5)→数据分析(0.5)||网络安全(0.3)||计算架构(0.2)→业务对象-平台安全(0.1)||用户行为(0.5)||文本分类(0.4)”。括号内数值表示占比。
若用户输入的释放资源其关键词为“资源共享”,则在步骤S22中,依据该输入的关键词,随机释放了若干资源。假定其中四个为“科技资源语义分析技术”、“科技资源共享激励方案”,“用户行为分析方法”、“资源对接技术”,依据资源组合框架与用户感知项的相似度,设置感知系数。对上述四个资源,系数根据面向用户对象类型、技术领域特征匹配即可由大到小排序为“资源对接技术”、“科技资源语义分析技术”、“用户行为分析方法”、“科技资源共享激励方案”;同时,根据资源集合关系,有“科技资源语义分析技术”与“用户行为分析方法”是“资源对接技术”的子集,“科技资源语义分析技术”与“用户行为分析方法”存在交集。对此,依据用户感知项与释放资源的相似度设置基于该用户的分歧感知策略,根据策略生成基于该用户的行为感知埋点,形成感知采集网络。比如,对于“用户行为分析方法”资源子数据层的技术领域方面的数据则进行细分埋点,包括对资源所含的小类数据的交互行为记录,如各类方法文本、视频文件等,对于“科技资源共享激励方案”资源子数据层则进行粗犷埋点。
在本实施例中,步骤S3具体包括:
S31.通过感知采集网络读取用户行为数据,建立全局资源态和全局用户态,对两种态进行实时计算并在两种态之间建立感知网络;
S32.基于感知网络实时计算集群用户交互行为关联资源的提升度,构造兴趣导向资源关联规则,根据关联规则对资源态进行定向聚合,得到定向聚合态。
在步骤S31中,所述全局资源态是以资源特征以及资源语义关联树构成的空间分布;所述全局用户态是以用户特征以及用户关联树构成的空间分布。
所述全局资源态为全体资源状态集合,所述全局用户态为全体用户分布集合。态中所有对象都是相对的,由于感应节点的存在,关联对象的变化会引起态中关联树的变化。
如图2所示,对于“A-资源对接技术”,“B-用户行为分析方法”,“C-科技资源语义分析技术”,“D-科技资源共享激励方案”,B、C为A的子集,ABCD共同构成面向当前用户的全局资源态,假设用户按照ABCD的顺序依次与对应资源发生交互,根据由步骤S2得到的感应采集网络,A、B、C均有细分埋点对应各子数据,每当用户与某子数据点发生一次交互,则根据交互时长、交互复杂度对该节点进行一次复制加权,并根据交互顺序将节点依次相连,节点连线构成节点关联势为交互时长加权的特征簇支持度计数与关联节点相似度的乘积,根据关联势和特征聚簇中心获取主成分分布或极大频繁项集,对于释放的资源,其由用户输入解析得到,包含的资源框架应具有共有特征,并基于特征聚类中心,假设通过感知采集网络获得了如图3所示的基于资源组合框架的感知信号,信号为动态增长的,图3为一个或几个时间戳内截取的。
图3中非括号内的数值表示用户的交互比重,如在浏览资源对象B时,用户与“数据分析”相关的交互比重为0.8,即80%,与“网络部署”相关的交互比重为0.2,即20%。图3中括号内的数值表示对于当前资源页面中包含的各特征类型的数据比重值,如在页面包含资源对象B时,与数据分析相关的占0.7,即70%,与网络部署相关的占0.3,即30%。
单独基于某数据的交互比重是不能得到用户的兴趣倾向的,如对于资源对象C,虽然资源对象C中,与“网络部署”相关的数据比重值不高,但是交互比重高,这反映了用户对资源C的“网络部署”特征数据更感兴趣,而且需求匹配度更高。
如图4所示表征用户资源交互数据,该用户的资源态为真特征态,而原基于资源组合框架的资源态为假特征态,根据假特征态各特征类子数据支持度与感知信号中的主成分分布的比值形成的基于当前用户特征的资源语义倾向,对倾向值进行实时计算得到交互动态趋势。
由于在用户交互页面,显示的资源是依据用户输入匹配随机释放的,实际中,可能对于输入语义解析不适应用户真实需求,或者由于用户输入字段及表述问题无法准确解析用户语义,使得资源语义关联深度不够,如此需要在步骤S32中基于感知网络监控集群用户动态指标,计算集群用户关联资源的提升度,以评估资源间的关联度及捕捉用户兴趣趋向。
对于某一时间戳内的资源态而言,态中各资源活跃度是相关的,假设资源池中有若干个资源簇,一段时间内,某类用户的交互行为使得资源池中的各资源被激活。
由步骤S31可知对于某用户的交互监控包含了资源状态及用户特征的相关性。譬如,在图3中对于“科技资源语义分析技术”中语义“网络部署”在资源对象A中占0.3,比例较低,但是在实际交互中,用户对该类语义所属子数据表现出较高的需求,在图3中倾向值达2.6,即强正相关,该指标体现出当前用户对语义分析方面的网络部署有较强的关注。
如图5所示,“科技资源语义分析技术”中“网络部署”占比较低,同时对象用户主要特征为科技管理中的数据分析领域,如此反映出“语义-网络部署”对于目标交互对象的适用性不强或存在深层解析语义。因此,感应同类集群用户的交互数据的强相关数据,并进行聚类及定向语义关联计算,可以实时优化资源语义,在下一时间戳的用户资源交互中释放,并在下一个时间戳内继续实时计算并优化。
在本实施例中,步骤S4具体包括:
根据定向聚合态,计算聚合态新聚合中心的偏移度或\和聚合态熵值变化,获取关联规则的新项集,根据新项集与原项集的集合关系优化关联规则,生成具有语义倾向的资源语义生长树。
资源语义随着交互倾向不断进行优化,资源态也在不断变化,但是对于某聚簇中的集群用户,资源态的倾向变化及语义优化方向规则是可寻的,具体为对通过定向聚类或语义优化的资源态的聚类中心或资源态的熵值进行实时统计,通过随机梯度下降法计算资源态或语义簇聚类中心的线性变化,将变化方向作为规则树方向,邻近数据作为项,邻近度作为相关度,如此构成定向关联规则的新项集,根据新项集与原项集的集合关系,如基于原项集生长新的语义树、构造新的语义分支或增加母语义标签等,形成具有倾向特征的资源语义树。集成关联资源数据,同理通过交互感知、实时指标计算、语义优化,根据训练样本逐步得到资源语义生长树。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于数据感知的动态科技资源语义分析方法,其特征在于,包括以下步骤:
面向数据存储层,构造基于资源组合框架的感知节点;所述感知节点为资源组合框架中的组合节点;
面向用户层,根据用户信息和用户的输入,基于感知节点部署感知采集网络;
面向用户资源交互层,通过感知采集网络读取用户行为数据,根据用户行为数据部署感知决策计算网络;所述感知决策计算网络用于构造用户兴趣导向资源的关联规则;
面向资源层,根据感知决策计算网络构造资源语义生成树;
所述面向用户资源交互层,通过感知采集网络读取用户行为数据,根据用户行为数据部署感知决策计算网络,具体包括:
通过感知采集网络读取用户行为数据,建立全局资源态和全局用户态,对两种态进行实时计算并在两种态之间建立感知决策计算网络;
基于感知决策计算网络实时计算集群用户交互行为关联资源的提升度,构造兴趣导向资源关联规则,根据关联规则对资源态进行定向聚合,得到定向聚合态。
2.根据权利要求1所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述面向数据存储层,构造基于资源组合框架的感知节点,具体包括:
根据数据库中资源存储结构或文本分类方法提取特征类数据并作为训练样本;
根据不同类型的特征对训练样本进行分析,自上而下生成文本语义框架,自下而上形成结构化语义框架;
根据文本语义框架对训练样本进行分析,生成基于结构化语义框架的自然语句并作为训练样本的概要;
基于训练样本的概要生成资源组合框架,并剃除资源组合框架中的离群数据和/或噪声数据。
3.根据权利要求2所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述不同类型的特征包括篇章特征、段落特征、句义特征、短语特征、词义特征的其中多个。
4.根据权利要求2所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述自上而下生成文本语义框架,具体包括:
对训练样本,依次进行文本类型归集、篇章语义定位、段落分类抓取、定向句义提取、构词短语合并、关联词义融合的其中多个,形成文本语义框架。
5.根据权利要求2所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述自下而上形成结构化语义框架,具体包括:
对训练样本,依次进行同描述目的合并、同语义合并、段落合并的其中多个,形成结构化语义框架。
6.根据权利要求2所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述剃除资源组合框架中的离群数据和/或噪声数据采用聚类分析方法和/或关联分析方法。
7.根据权利要求2所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述面向用户层,根据用户信息和用户的输入,基于感知节点部署感知采集网络,具体包括:根据用户信息查找用户集群分布,建立以集群用户特征中心、集群资源关联用户行为特征为项的用户属性函式,根据用户属性函式的因子对用户属性函式进行因式分解得到用户感知项;根据用户的输入随机释放资源,计算用户感知项与释放资源的相似度,依据相似度调节释放资源的感应系数或感应灵敏度,并生成感应信号融合资源组合框架,基于感知节点部署感知采集网络。
8.根据权利要求7所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述用户属性函式的因子包括关联用户特征、用户关联资源特征、用户关联行为特征。
9.根据权利要求1-8任一项所述的一种基于数据感知的动态科技资源语义分析方法,其特征在于,所述面向资源层,根据感知决策计算网络构造资源语义生成树,具体包括:
根据定向聚合态,计算聚合态新聚合中心的偏移度或/和聚合态熵值变化,获取关联规则的新项集,根据新项集与原项集的集合关系优化关联规则,生成具有语义倾向的资源语义生成树。
CN201910304667.3A 2019-04-16 2019-04-16 一种基于数据感知的动态科技资源语义分析方法 Active CN110059316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910304667.3A CN110059316B (zh) 2019-04-16 2019-04-16 一种基于数据感知的动态科技资源语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910304667.3A CN110059316B (zh) 2019-04-16 2019-04-16 一种基于数据感知的动态科技资源语义分析方法

Publications (2)

Publication Number Publication Date
CN110059316A CN110059316A (zh) 2019-07-26
CN110059316B true CN110059316B (zh) 2023-07-07

Family

ID=67317786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910304667.3A Active CN110059316B (zh) 2019-04-16 2019-04-16 一种基于数据感知的动态科技资源语义分析方法

Country Status (1)

Country Link
CN (1) CN110059316B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742478B (zh) * 2020-05-29 2023-09-05 国家计算机网络与信息安全管理中心 一种针对海量文本数据的定向筛选装置及方法
CN114913522B (zh) * 2022-04-22 2024-05-21 南通欧瑞佳木业有限公司 利用显微成像的木材树种分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315998B1 (en) * 2003-04-28 2012-11-20 Verizon Corporate Services Group Inc. Methods and apparatus for focusing search results on the semantic web
CN102812486A (zh) * 2010-03-25 2012-12-05 诺基亚公司 根据群体行为提供个性化信息资源推荐的方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315998B1 (en) * 2003-04-28 2012-11-20 Verizon Corporate Services Group Inc. Methods and apparatus for focusing search results on the semantic web
CN102812486A (zh) * 2010-03-25 2012-12-05 诺基亚公司 根据群体行为提供个性化信息资源推荐的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
科技资源元数据的关联与推荐方法;宋佳 等;《中国科技资源导刊》;20170930;第49卷(第5期);第37-44页 *

Also Published As

Publication number Publication date
CN110059316A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
US10565233B2 (en) Suffix tree similarity measure for document clustering
Conrad et al. Opinion mining in legal blogs
Halibas et al. Application of text classification and clustering of Twitter data for business analytics
Hayes Intelligent high-volume text processing using shallow, domain-specific techniques
CN106951554B (zh) 一种层次化新闻热点及其演化的挖掘与可视化方法
KR20190062848A (ko) 점진적 학습 모델을 이용한 빅데이터 마이닝 시스템 및 그 방법
Bhatia et al. Automatic text summarization and it's methods-a review
Vysotska et al. The commercial content digest formation and distributional process
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
Verma et al. Text mining and information professionals: Role, issues and challenges
CN110059316B (zh) 一种基于数据感知的动态科技资源语义分析方法
CN110910175A (zh) 一种旅游门票产品画像生成方法
Jiang et al. Research on BIM-based Construction Domain Text Information Management.
Musliadi et al. Twitter Social Media Conversion Topic Trending Analysis Using Latent Dirichlet Allocation Algorithm
Heidari et al. Financial footnote analysis: developing a text mining approach
Shi et al. Using feature-interface graph for automatic interface recommendation: A case study
Hu et al. Explore the evolution of development topics via on-line LDA
Zhang et al. Guest Editorial: Tech mining for engineering management: An introduction
Miksatko et al. What’s in a cluster? automatically detecting interesting interactions in student e-discussions
Jas et al. Hybrid AI Talent Acquisition Model: An Opinion Mining and Topic based approach
KR20080039864A (ko) 문서분석을 위한 사용자 인터페이스 시스템
Caldas et al. Automated classification methods: Supporting the implementation of pull techniques for information flow management
Vasiliev et al. Application of text mining technology to solve project management problems
Li Research on the Characteristics of Industrial Talent Demand Depending on Big Data Technology
Sinha et al. Web scraping and job recommender system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant