CN117670488B - 一种基于大数据的科技成果分析预测系统 - Google Patents
一种基于大数据的科技成果分析预测系统 Download PDFInfo
- Publication number
- CN117670488B CN117670488B CN202410130500.0A CN202410130500A CN117670488B CN 117670488 B CN117670488 B CN 117670488B CN 202410130500 A CN202410130500 A CN 202410130500A CN 117670488 B CN117670488 B CN 117670488B
- Authority
- CN
- China
- Prior art keywords
- technological
- scientific
- achievements
- achievement
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 42
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 15
- 230000008451 emotion Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 claims description 3
- 239000003814 drug Substances 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 239000013566 allergen Substances 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000002994 raw material Substances 0.000 description 2
- 239000002453 shampoo Substances 0.000 description 2
- 201000004384 Alopecia Diseases 0.000 description 1
- 241000207840 Jasminum Species 0.000 description 1
- 206010039792 Seborrhoea Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 208000024963 hair loss Diseases 0.000 description 1
- 230000003676 hair loss Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000002085 irritant Substances 0.000 description 1
- 231100000021 irritant Toxicity 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 210000004761 scalp Anatomy 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的科技成果分析预测系统,包括:特征集模型,建立基于大框架科技成果特征模型,特征集模型包含多个子集模型,具备该大框架科技成果特征的子集模型分布在特征集模型内部,根据子集模型具备不同的科技成果特征,该子集模型属于一个或多个特征集模型,特征集模型之间存在交集;数据采集端,配置协议交互模块通过http api接口形成与成果平台以及论坛的数据交互,对成果平台以及论坛数据进行采集,本发明通过大数据来进行科技成果的分析和预测基于成果平台和论坛来实现,对成果平台以及论坛相关科技成果的数据、对于某一类型科技成果的推荐以及该科技成果的特征来增加对科技成果的描述。
Description
技术领域
本发明涉及大数据分析预测技术领域,具体为一种基于大数据的科技成果分析预测系统。
背景技术
基于大数据的科技成果分析预测涉及到预测未来的趋势和模式,以支持决策和预测。这种方法可以帮助企业和组织更好地理解市场趋势、客户需求、资源分配等方面,从而提高决策效率和预测准确性。
在大数据预测与趋势分析中,考虑以下几个核心概念:
数据源:大数据预测与趋势分析需要来自多种数据源,如关系型数据库、非关系型数据库、文本数据、图像数据等。
数据预处理:在进行预测与趋势分析之前,对数据进行预处理,包括数据清洗、数据转换、数据聚合等操作。
模型优化:在选定预测模型后,对模型进行优化,以提高预测准确性和效率。模型优化可以包括参数调整、特征选择、交叉验证等操作。
预测结果解释:预测结果解释是大数据预测与趋势分析的一个重要环节,它可以帮助我们理解预测结果的可信度和可靠性。预测结果解释可以包括对模型性能的评估、对预测结果的解释以及对预测结果的可视化等操作。
中国专利公告号CN111626620A公开了一种科技成果分析评价系统,该申请获取智能评价分析中对该上传科技成果的评价分析等级,获取人工评价分析中对该上传科技成果的评价分析等级,智能评价分析和人工评价分析利用评价分析整合模块,并依据规则库最终判定该上传科技成果的评价分析等级,该科技成果的最终评价分析结果通过控制器将传输显示模块反馈给上传人员。
现有的科技成果平台并不能够帮助客户进行科技成果的详细筛选,只能够根据科技成果厂商所提供的特征对科技成果进行定性,而厂商所提供的特征较为片面,基于此,本发明提供一种基于大数据的科技成果分析预测系统。
发明内容
本发明的目的之一在于提供一种基于大数据的科技成果分析预测系统,通过科技成果的基本信息来对科技成果的基本使用情况进行相关的概述,并利用对成果平台以及论坛等相关数据进行科技成果相关使用体验的判断,针对客户的喜好来更加精准的推送所需科技成果,在客户选择科技成果时能够更加精确。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于大数据的科技成果分析预测系统,包括:
特征集模型,建立基于大框架科技成果特征模型,特征集模型包含多个子集模型/>,具备该大框架科技成果特征的子集模型分布在特征集模型内部,根据子集模型/>具备不同的科技成果特征,该子集模型/>属于一个或多个特征集模型/>,特征集模型/>之间存在交集;
数据采集端,配置协议交互模块通过http api接口形成与成果平台以及论坛的数据交互,对成果平台以及论坛数据进行采集,针对科技成果的相关推广度将科技成果区分为两种数据采集模式,其一为存在宣传的科技成果,对于该科技成果数据采集首先采集科技成果的宣传力度(即通过接入成果平台以及论坛调取该科技成果为主出现的次数),并对该科技成果的宣传以及科技成果的特征进行宣传真实性以及使用体验的判断,其二为不存在宣传的科技成果,对于该科技成果数据采集依据科技成果所述特征进行数据采集,针对该科技成果起到的作用来具体对科技成果的特征进行更加详细的分析;
相关性科技成果推荐模型,根据客户搜索科技成果进行相关性特征科技成果的扩展,并基于该科技成果所属特征集中之相关联的科技成果进行组合,形成科技成果集推送客户所需科技成果,并根据科技成果集/>内科技成果形成平替集/>和最优集;
推送端,具备科技成果推送和特征推送两种方式,科技成果推动将科技成果集推送至客户搜索截面,特征推送在科技成果详情界面并记录数据采集端对科技成果特征的记录。
在本发明的一或多个实施例中,特征集模型基于科技成果所属应用领域进行分类,其中,子集模型/>占有两个特征集模型/>及以上的,根据子集模型/>中科技成果在该特征集模型/>中的应用规模进行科技成果排序的划分,即:
;
其中,为科技成果的第一种特征,/>为科技成果的第二种特征,/>以及/>不属于同一特征集模型/>;
子集模型中科技成果应用越广泛排序越高,科技成果存在一个或多个子集模型/>中,通过数据采集端进行科技成果特征的修改,科技成果在子集模型/>中的占比发生变化,即该科技成果在进行数据采集前,/>,经过数据采集后,/>所占科技成果特征的比例超过/>,即/>,则科技成果主要特征修改为属于/>所属特征集模型/>。
在本发明的一或多个实施例中,数据采集端基于子集模型中科技成果进行数据采集,其中,对于科技成果/>的数据采集信息具体包括科技成果的作用/>、科技成果的评价/>、科技成果在该用途下出现的频率/>、科技成果的适用方向/>、科技成果是否具有其他作用/>、科技成果效果/>,在子集模型/>中的科技成果均需要对科技成果基础数据/>进行标注,且数据采集端会采集子集模型/>中上架科技成果的宣传关键词/>。
在本发明的一或多个实施例中,数据采集端接入成果平台以及论坛对与科技成果相关数据进行采集时,针对存在宣传的科技成果采取以下数据采集方法:
步骤一,采集与该科技成果相关的信息,根据科技成果进行一级搜索,搜索包括帖子以及页面广告投放,并标记该科技成果出现的时间,即,科技成果名称+科技成果厂商+出现时间,将采集到的帖子进行分类,分为宣传类以及评价类,对于宣传类以及评价类的判定通过检索帖子中出现科技成果的数量,当科技成果时,判定帖子属于评价类,当科技成果/>时判定帖子属于推广类;
步骤二,科技成果推广阶段划分,根据科技成果在成果平台以及论坛中出现的数量以及日期数据,并检索成果平台中该科技成果的变化数据,依照科技成果在成果平台以及论坛中出现的频率以及科技成果的销量来判断科技成果产生的影响,优先进行推广频次高且销量变化大的科技成果进行数据采集,同时在科技成果详情界面进行弹窗推送;
步骤三,科技成果推广信息与科技成果上架信息对比,通过语言情感模型来对所采集数据进行分析,获得与科技成果相关的特征数据/>,即:
;
其中,分别为一种科技成果特征;
步骤四,检索评论弹幕与科技成果相关数据,采用分级筛选的方式搜索弹幕以及评论中对于该科技成果的描述,并对描述出现的时间以及该弹幕或评论出现的频次进行标记;
步骤五,筛选有用信息,将弹幕以及评论中出现该科技成果的相关数据作为技术第一参考、效果第二参考/>,分析科技成果特征,通过/>与科技成果宣传关键词/>对比,获得存在差异数据中特征关键词,即/>。
在本发明的一或多个实施例中,在对科技成果数据进行采集后,依照评论以及评测对于该科技成果的描述进行科技成果特征特征的提取,将评论中出现与该科技成果的关联度进行分析,分为主动评价以及被动评价/>,主动评价/>为该科技成果相关类型的帖子,被动评价/>为出现在该科技成果的帖子中评论,并分别对主动评价/>以及被动评价/>进行数据采集。
在本发明的一或多个实施例中,数据采集端接入成果平台以及论坛对与科技成果相关数据进行采集时,针对不存在宣传的科技成果采取以下数据采集方法:
步骤一,对该科技成果所属子集进行检索,首先进行子集模型的检索筛选属于该子集的帖子,之后根据科技成果作用进行进一步的筛选,得到与该科技成果相关的数据;
步骤二,对帖子中是否存在该科技成果进行分析,首先检索该科技成果名称,其次对该科技成果出现是否存在品牌进行检索;
步骤三,检索与该子集模型不相关的数据,屏蔽该科技成果所属子集模型/>检索数据,通过搜索科技成果的方式来检索帖子相关数据,并标记科技成果在帖子中的作用,进行科技成果的特征标记。
在本发明的一或多个实施例中,数据采集端进行数据采集完成对于修改科技成果特征方法如下:
步骤一,清洗检索数据:使用正则表达式或者分词等方式,去除数据中的无关信息,如标点符号、停用词、空格,只保留有意义的词语。
步骤二,分析检索数据:使用自然语言处理以及机器学习方式,对清洗后的数据进行情感分析、关键词提取、主题建模。例如,情感分析来判断每条数据对科技成果的态度是正面、负面还是中立;用关键词提取来找出每条数据中最能代表科技成果特征的词语;主题建模来归纳出数据中涉及到的科技成果特征和特点。
步骤三,修改科技成果特征模型:使用数学统计方式,对分析后的数据进行归纳、总结、评价,利用公式来计算每个特征或特点在数据中出现的频率和权重,并计算每个特征或特点对科技成果评价的影响和贡献,最后确定需要修改的科技成果特征模型的结构、特征和内容,并根据公式进行相应的修改。
在本发明的一或多个实施例中,用以下公式来计算每个特征或特点在数据中出现的频率和权重/>:
;
其中,为该特征或特点在数据中出现的次数,/>为数据的总条数,/>为该特征或特点对科技成果评价的影响系数,影响系数根据情感分析的结果来确定的,出现正面评价,则为正值;出现负面评价,则为负值;出现中立评价,则为零,影响系数的绝对值越大,表示该特征或特点对科技成果评价的影响越大。
在本发明的一或多个实施例中,相关性科技成果推荐模型对客户的搜索历史进行检索记录,根据客户的喜好来进行相关科技成果的推荐,判断客户的喜好风格,并根据科技成果特征风格进行相关联科技成果集的推送。
在本发明的一或多个实施例中,科技成果集为交易单数较多且不存在虚假宣传的科技成果,平替集/>为价格低于科技成果集/>内科技成果价格,或不属于该科技成果所属子集模型/>但与该科技成果具备同样作用的科技成果,最优集/>为该科技成果中厂商知名度高的科技成果,价格高于科技成果集/>。
本发明提供了一种基于大数据的科技成果分析预测系统。与现有技术相比具备以下有益效果:
1、本发明通过大数据来进行科技成果的分析和预测基于成果平台和论坛来实现,对成果平台以及论坛相关科技成果的数据、对于某一类型科技成果的推荐以及该科技成果的特征来增加对科技成果的描述,在客户选择过程中能够自动生成相关对应科技成果集,自动推荐相关联的科技成果以及平替科技成果,增强客户的购物体验。
2、通过成果平台以及论坛相关数据进行科技成果数据的采集时,针对该科技成果的推荐的真实性进行识别,根据科技成果在各成果平台以及论坛中的推广数量以及所推广科技成果的评论以及推广力度来进行科技成果真实性的判别,并根据科技成果的详情数据来进行科技成果使用寿命、针对性作用的预测。
3、利用科技成果的详细数据特征以及科技成果的宣传数据进行相应的分析,针对科技成果的详细数据特征来进行科技成果宣传数据真实性的识别,在客户进行科技成果的选择时能够对科技成果的基础信息具有相应的了解,随着数据库的不断完善,逐步的减少科技成果与宣传不符的现象。
4、根据不同的购物时期来进行科技成果的推送,在客户搜索需求的同时,能够根据该科技成果的特征来生成相应的科技成果集,该科技成果集/>内具备包括该特征的相应科技成果,且依照该科技成果所能够实现的作用以及相关特征生成平替集 以及最优集/>,平替集/>有更高性价比,而最优集/>具有更好的厂商知名度。
附图说明
图1为本发明的分析预测系统示意图。
具体实施方式
以下将以附图揭露本发明的多个实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明部分实施方式中,这些实务上的细节是非必要的。此外,为简化附图起见,一些现有惯用的结构与元件在附图中将以简单示意的方式绘示之,而在所有附图中,相同的标号将用于表示相同或相似的元件。且若实施上为可能,不同实施例的特征是可以交互应用。
除非另有定义,本文所使用的所有词汇(包括技术和科学术语)具有其通常的意涵,其意涵能够被熟悉此领域者所理解。更进一步的说,上述的词汇在普遍常用的字典中的定义,在本说明书的内容中应被解读为与本发明相关领域一致的意涵。除非有特别明确定义,这些词汇将不被解释为理想化的或过于正式的意涵。
请参阅图1,本发明提供一种基于大数据的科技成果分析预测系统,通过建立与该科技成果相关联的数据模型来不断的进行科技成果特征的完善和更迭,利用对成果平台以及论坛中科技成果的相关数据来进行科技成果特征的完善,在客户选用该科技成果时能够获得科技成果的相关特征及其所具备功能的基本信息,在进行科技成果的选择时更加精准。
包括:
特征集模型,建立基于大框架科技成果特征模型,特征集模型包含多个子集模型/>,具备该大框架科技成果特征的子集模型分布在特征集模型内部,根据子集模型/>具备不同的科技成果特征,该子集模型/>属于一个或多个特征集模型/>,特征集模型/>之间存在交集;
数据采集端,配置协议交互模块通过http api接口形成与成果平台以及论坛的数据交互,对成果平台以及论坛数据进行采集,针对科技成果的相关推广度将科技成果区分为两种数据采集模式,其一为存在宣传的科技成果,对于该科技成果数据采集首先采集科技成果的宣传力度(即通过接入成果平台以及论坛调取该科技成果为主出现的次数),并对该科技成果的宣传以及科技成果的特征进行宣传真实性以及使用体验的判断,其二为不存在宣传的科技成果,对于该科技成果数据采集依据科技成果所述特征进行数据采集,针对该科技成果起到的作用来具体对科技成果的特征进行更加详细的分析;
相关性科技成果推荐模型,根据客户搜索科技成果进行相关性特征科技成果的扩展,并基于该科技成果所属特征集中之相关联的科技成果进行组合,形成科技成果集推送客户所需科技成果,并根据科技成果集/>内科技成果形成平替集/>和最优集;
推送端,具备科技成果推送和特征推送两种方式,科技成果推动将科技成果集推送至客户搜索截面,特征推送在科技成果详情界面并记录数据采集端对科技成果特征的记录。
在本实施例中,在根据科技成果的分类进行相关的特征集模型建立后,将科技成果依照其作用划分为不同的子集模型,特征集模型/>为科技成果的大类,子集模型/>可以同时位于多个特征集模型/>内。
其中,在客户进行科技成果的搜索时,针对性推荐与之所搜索科技成果相关的科技成果制作为科技成果集,该科技成果集/>内所包含的科技成果为具备搜索科技成果像关联特征的附属科技成果,示例性的,搜索装饰灯科技成果,推荐科技成果集中包含装饰灯、在灯光下具有特殊特征的装饰品、壁纸、隔音条等与房间装修相关联的科技成果。
在一种实施例中,特征集模型基于科技成果所属应用领域进行分类,其中,子集模型/>占有两个特征集模型/>及以上的,根据子集模型/>中科技成果在该特征集模型中的应用规模进行科技成果排序的划分,即:
;
其中,为科技成果的第一种特征,/>为科技成果的第二种特征,/>以及/>不属于同一特征集模型/>。
子集模型中科技成果应用越广泛排序越高,科技成果存在一个或多个子集模型/>中,通过数据采集端进行科技成果特征的修改,科技成果在子集模型/>中的占比发生变化,即该科技成果在进行数据采集前,/>,经过数据采集后,/>所占科技成果特征的比例超过/>,即/>,则科技成果主要特征修改为属于/>所属特征集模型/>。
在本实施例中,特征集模型以及子集模型/>在建立后,科技成果会根据上架时商家所添加的标签被划分在各个子集模型/>中,科技成果会基于此子集模型/>针对科技成果由数据采集端进行科技成果相关数据的采集,即检索科技成果名称+子集模型/>特征,根据数据采集端所采集的科技成果数据针对科技成果所属子集模型/>进行详细划分。
针对属于多子集模型中的科技成果,随着该科技成果所属子集模型的详细划分以及检索数据所应用场景,划分该科技成果所占该子集模型中的应用占比。
在一种实施例中,数据采集端基于子集模型中科技成果进行数据采集,其中,对于科技成果/>的数据采集信息具体包括科技成果的作用/>、科技成果的评价/>、科技成果在该用途下出现的频率/>、科技成果的适用方向/>、科技成果是否具有其他作用/>、科技成果效果/>,在子集模型/>中的科技成果均需要对科技成果基础数据/>进行标注,且数据采集端会采集子集模型/>中上架科技成果的宣传关键词/>。
在本实施例中,科技成果在上架前需要填写关于该科技成果的详细数据,科技成果的材质、科技成果中所使用的元器件/>、科技成果的适用领域/>、科技成果的配方/>、科技成果的密封技术/>以及科技成果的关键技术/>,此类信息不会展示在客户端供客户查看,而子集模型/>能够根据此类信息进行检索,生成关于该科技成果的详细数据/>,例如,该科技成果的使用寿命、防水范围、容易出现损坏的部件、配方中含有刺激性以及该科技成果的致敏原等。
其中,通过对商户所提供科技成果的详细数据,能够根据这些详细数据进行材质、内部元器件的故障率、内部元器件的使用寿命、所使用原材料的致敏原、科技成果配方中所使用成分的比例、对于某种类型缺陷该成分所能够起到的作用生成检索数据/>,,当结果≥1时,则详细数据小于检索数据,科技成果能够达到宣传的效果,当结果>1时,则详细数据大于检索数据,科技成果无法达到宣传效果,但仅适用于具有详细参考数据对比,即某种容器的材料为塑料,其承重能力以及使用寿命宣传数据与通过对该材料进行检索后称重能力极限以及在保证材料强度所能够使用的寿命,以此作为依据判断是否存在虚假宣传。
在一种实施例中,数据采集端接入成果平台以及论坛对与科技成果相关数据进行采集时,针对存在宣传的科技成果采取以下数据采集方法:
步骤一,采集与该科技成果相关的信息,根据科技成果进行一级搜索,搜索包括帖子以及页面广告投放,并标记该科技成果出现的时间,即,科技成果名称+科技成果厂商+出现时间,将采集到的帖子进行分类,分为宣传类以及评价类,对于宣传类以及评价类的判定通过检索帖子中出现科技成果的数量,当科技成果时,判定帖子属于评价类,当科技成果/>时判定帖子属于推广类;
步骤二,科技成果推广阶段划分,根据科技成果在成果平台以及论坛中出现的数量以及日期数据,并检索成果平台中该科技成果的变化数据,依照科技成果在成果平台以及论坛中出现的频率以及科技成果的销量来判断科技成果产生的影响,优先进行推广频次高且销量变化大的科技成果进行数据采集,同时在科技成果详情界面进行弹窗推送;
步骤三,科技成果推广信息与科技成果上架信息对比,通过语言情感模型来对所采集数据进行分析,获得与科技成果相关的特征数据/>,即:
;
其中,分别为一种科技成果特征,
根据科技成果上架信息中该科技成果的宣传关键词与科技成果特征数据/>中表述该科技成果所能够达到的效果进行对比,判断是否存在虚假宣传,并检索成果平台以及论坛发表中对该科技成果的描述;
步骤四,检索评论弹幕与科技成果相关数据,采用分级筛选的方式搜索弹幕以及评论中对于该科技成果的描述,并对描述出现的时间以及该弹幕或评论出现的频次进行标记;
步骤五,筛选有用信息,将弹幕以及评论中出现该科技成果的相关数据作为技术第一参考、效果第二参考/>,分析科技成果特征,通过/>与科技成果宣传关键词/>对比,获得存在差异数据中特征关键词,即/>。
在本实施例中,对于存在大量宣传的科技成果,通过监测其大量宣传前的销量以及大量宣传后的销量来分析科技成果宣传是否存在效果,并重点进行该科技成果在评测中的科技成果是否达到其宣传效果。
在一种实施例中,在对科技成果数据进行采集后,依照评论以及评测对于该科技成果的描述进行科技成果特征特征的提取,将评论中出现与该科技成果的关联度进行分析,分为主动评价以及被动评价/>,主动评价/>为该科技成果相关类型的帖子,被动评价/>为出现在该科技成果的帖子中评论,并分别对主动评价/>以及被动评价/>进行数据采集。
在本实施例中,客户与商户之间不存在利益关系,在对主动评价以及被动评价的数据采集完成后,分析数据相关内容,删除在二十字以上且相似度在70%以上的数据,该部分数据不作为科技成果特征的主要参考。
其中,针对客户所发表与该科技成果有关的言论进行科技成果特征特征的提取,适用于什么领域,哪些地方比较优秀,哪些地方容易出现问题以及科技成果负面评论,并进行科技成果数据占比的分析。
在一种实施例中,数据采集端接入成果平台以及论坛对与科技成果相关数据进行采集时,针对不存在宣传的科技成果采取以下数据采集方法:
步骤一,对该科技成果所属子集进行检索,首先进行子集模型的检索筛选属于该子集的帖子,之后根据科技成果作用进行进一步的筛选,得到与该科技成果相关的数据;
步骤二,对帖子中是否存在该科技成果进行分析,首先检索该科技成果名称,其次对该科技成果出现是否存在品牌进行检索;
步骤三,检索与该子集模型不相关的数据,屏蔽该科技成果所属子集模型/>检索数据,通过搜索科技成果的方式来检索帖子相关数据,并标记科技成果在帖子中的作用,进行科技成果的特征标记。
在本实施例中,科技成在一定程度上具有通用性,而科技成果所出现的特征往往是科技成果所属子集模型领域人员所无法想象到的额外特征,因此,对某科技成果越了解的客户往往不会了解到存在其他子集模型/>中能够起到相同作用的科技成果,而通过对此类科技成果的特征标记,能够为客户提供更多的选择。
在一种实施例中,数据采集端进行数据采集完成对于修改科技成果特征方法如下:
步骤一,清洗检索数据:使用正则表达式或者分词等方式,去除数据中的无关信息,如标点符号、停用词、空格,只保留有意义的词语。
步骤二,分析检索数据:使用自然语言处理以及机器学习方式,对清洗后的数据进行情感分析、关键词提取、主题建模。例如,情感分析来判断每条数据对科技成果的态度是正面、负面还是中立;用关键词提取来找出每条数据中最能代表科技成果特征的词语;主题建模来归纳出数据中涉及到的科技成果特征和特点。
步骤三,修改科技成果特征模型:使用数学统计方式,对分析后的数据进行归纳、总结、评价,利用公式来计算每个特征或特点在数据中出现的频率和权重,并计算每个特征或特点对科技成果评价的影响和贡献,最后确定需要修改的科技成果特征模型的结构、特征和内容,并根据公式进行相应的修改。
在本实施例中,通过客户对于科技成果的评价数据,能够更加直观的了解到科技成果能够起到的作用以及科技成果在某些场合下的优缺点。
在一种实施例中,用以下公式来计算每个特征或特点在数据中出现的频率和权重/>:
;
其中,为该特征或特点在数据中出现的次数,/>为数据的总条数,/>为该特征或特点对科技成果评价的影响系数,影响系数根据情感分析的结果来确定的,出现正面评价,则为正值;出现负面评价,则为负值;出现中立评价,则为零,影响系数的绝对值越大,表示该特征或特点对科技成果评价的影响越大。
在本实施例中,例如,对于“顺滑”这个特征或特点,它在第一条和第三条数据中出现了一次,并且都是正面评价。因此,它的频率为2/4=0.5,它的权重为2*0.8=1.6(假设正面评价的影响系数为0.8)。
用以下公式来确定需要修改的科技成果特征模型的结构、特征和内容,并根据公式进行相应的修改:
结构=基本信息/>+科技成果特征/>+客户评价/>;
特征=基本信息中的特征/>+科技成果特征中的特征/>+客户评价中的特征/>;
内容=基本信息中的内容/>+科技成果特征中的内容/>+客户评价中的内容;
其中,基本信息是指科技成果的厂商信息;科技成果特征是指科技成果的成分、功效、适用性信息;客户评价是指客户对科技成果的评分、评论、反馈等信息。
例如,对于洗发水这个科技成果,我可以根据数据分析的结果,修改科技成果特征模型如下:
结构=基本信息+科技成果特征+客户评价;
特征=厂商+成分+功效+适用肤质+评分+评论+反馈;
内容=某某洗发水+某某厂商+使头发顺滑光泽等功效+适合干性或中性头皮等适用肤质+4.5分等评分+“洗完头发很顺滑,味道很清新”等评论+“不适合油性头皮,会导致掉发”等反馈。
其中,根据科技成果上架所宣传的信息,与科技成果实际特征进行对比,并依照科技成果的适用领域,在客户浏览该科技成果时推出对于该客户而言本科技成果的注意事项以及科技成果客户使用体验。
在一种实施例中,相关性科技成果推荐模型对客户的搜索历史进行检索记录,根据客户的喜好来进行相关科技成果的推荐,判断客户的喜好风格,并根据科技成果特征风格进行相关联科技成果集的推送。
在本实施例中,科技成果在经过成果平台以及论坛中的数据采集后,为科技成果提供多样性的特征标签,而客户在成果平台浏览的侧重风格在客户搜索科技成果时,能够根据所适配的风格进行科技成果集的建立,该科技成果集/>中包含了客户所需科技成果及其相关特征科技成果的推荐,且科技成果集/>内的科技成果均靠近客户风格。
在一种实施例中,科技成果集为交易单数较多且不存在虚假宣传的科技成果,平替集/>为价格低于科技成果集/>内科技成果价格,或不属于该科技成果所属子集模型/>但与该科技成果具备同样作用的科技成果,最优集/>为该科技成果中厂商知名度高的科技成果,价格高于科技成果集/>。
对于科技成果集的选择,通过与搜索者所搜索的科技成果特征,首先对科技成果特征所属子集模型进行判定,即子集模型中包括科技成果特征的占比,选取最高子集模型用于科技成果推送科技成果的选择,通过对科技成果特征对比进行科技成果的推送:
;
首次筛选经过科技成果特征所占科技成果总特征的比例。
其中,为首次筛选科技成果推送次序,/>,/>越接近1则科技成果的推送次序越高,随着/>数值的缩小科技成果次序逐级推送,/>数值为1。
之后根据客户搜索购买数据进行喜好特征筛选,并对首次筛选后的科技成果进行二次筛选:
;
其中,为二次筛选科技成果推送次序,/>,/>越接近1则科技成果的推送次序越高。
平替集的推送筛选方式如下:
依照数据采集端所采集包含属于科技成果特征的科技成果/>,/>价格≤/>价格65%,科技成果/>包含客户搜索特征且不限制子集模型/>,科技成果/>的排序方式如下:
通过
;
其中,为客户搜索特征,/>为科技成果/>中与/>同作用特征,/>为选择次序,/>数值越大排序越高。
最优集的推送筛选方式如下:
依照数据采集端所采集包含属于科技成果特征的科技成果/>,/>厂商知名度大于/>厂商知名度的150%,科技成果/>同属客户搜索特征子集模型/>,科技成果/>的排序方式如下:
;
其中,为客户搜索特征,/>为科技成果/>中/>特征占比,/>为选择次序,/>数值越大排序越高。
在本实施例中,提供科技成果集、平替集/>以及最优集/>,在客户进行搜索时,能够根据其所想要花费的价格来进行科技成果的选择,在科技成果被详细划分特征后,一些本不属于子集模型/>的科技成果会因具有同样的作用被划分到该子集模型/>中,因此,客户能够根据需求进行自由选择。
综上所述,本发明上述实施方式所揭露的技术方案至少具有以下优点:
1、本发明通过大数据来进行科技成果的分析和预测基于成果平台和论坛来实现,对成果平台以及论坛相关科技成果的数据、对于某一类型科技成果的推荐以及该科技成果的特征来增加对科技成果的描述,在客户选择过程中能够自动生成相关对应科技成果集,自动推荐相关联的科技成果以及平替科技成果,增强客户的购物体验。
2、通过成果平台以及论坛相关数据进行科技成果数据的采集时,针对该科技成果的推荐的真实性进行识别,根据科技成果在各成果平台以及论坛中的推广数量以及所推广科技成果的评论以及推广力度来进行科技成果真实性的判别,并根据科技成果的详情数据来进行科技成果使用寿命、针对性作用的预测。
3、利用科技成果的详细数据特征以及科技成果的宣传数据进行相应的分析,针对科技成果的详细数据特征来进行科技成果宣传数据真实性的识别,在客户进行科技成果的选择时能够对科技成果的基础信息具有相应的了解,随着数据库的不断完善,逐步的减少科技成果与宣传不符的现象。
4、根据不同的购物时期来进行科技成果的推送,在客户搜索需求的同时,能够根据该科技成果的特征来生成相应的科技成果集,该科技成果集/>内具备包括该特征的相应科技成果,且依照该科技成果所能够实现的作用以及相关特征生成平替集以及最优集/>,平替集/>有更高性价比,而最优集/>具有更好的厂商知名度。
虽然结合以上实施方式公开了本发明,然而其并非用以限定本发明,任何熟悉此技艺者,在不脱离本发明的精神和范围内,可作各种的更动与润饰,因此本发明的保护范围应当以所附的权利要求所界定的为准。
Claims (10)
1.一种基于大数据的科技成果分析预测系统,其特征在于,包括:
特征集模型,建立基于大框架科技成果特征模型,特征集模型包含多个子集模型,具备该大框架科技成果特征的子集模型分布在特征集模型/>内部,根据子集模型/>具备不同的科技成果特征,该子集模型/>属于一个或多个特征集模型/>,特征集模型/>之间存在交集;
数据采集端,配置协议交互模块通过http api接口形成与成果平台以及论坛的数据交互,对成果平台以及论坛数据进行采集,针对科技成果的相关推广度将科技成果区分为两种数据采集模式,其一为存在宣传的科技成果,对于该科技成果数据采集首先采集科技成果的宣传力度并对该科技成果的宣传以及科技成果的特征进行宣传真实性以及使用体验的判断,其二为不存在宣传的科技成果,对于该科技成果数据采集依据科技成果所述特征进行数据采集,针对该科技成果起到的作用来具体对科技成果的特征进行更加详细的分析;
相关性科技成果推荐模型,根据客户搜索科技成果进行相关性特征科技成果的扩展,并基于该科技成果所属特征集中之相关联的科技成果进行组合,形成科技成果集推送客户所需科技成果,并根据科技成果集/>内科技成果形成平替集/>和最优集;
推送端,具备科技成果推送和特征推送两种方式,科技成果推动将科技成果集推送至客户搜索截面,特征推送在科技成果详情界面并记录数据采集端对科技成果特征的记录。
2.根据权利要求1所述的一种基于大数据的科技成果分析预测系统,其特征在于,特征集模型基于科技成果所属应用领域进行分类,其中,子集模型/>占有两个特征集模型及以上的,根据子集模型/>中科技成果在该特征集模型/>中的应用规模进行科技成果排序的划分,即:
;
其中,为科技成果的第一种特征,/>为科技成果的第二种特征,/>以及/>不属于同一特征集模型/>;
子集模型中科技成果应用越广泛排序越高,科技成果存在一个或多个子集模型/>中,通过数据采集端进行科技成果特征的修改,科技成果在子集模型/>中的占比发生变化,即该科技成果在进行数据采集前,/>,经过数据采集后,/>所占科技成果特征的比例超过/>,即/>,则科技成果主要特征修改为属于/>所属特征集模型/>。
3.根据权利要求1所述的一种基于大数据的科技成果分析预测系统,其特征在于,数据采集端基于子集模型中科技成果进行数据采集,其中,对于科技成果/>的数据采集信息具体包括科技成果的作用/>、科技成果的评价/>、科技成果在该用途下出现的频率/>、科技成果的适用方向/>、科技成果是否具有其他作用/>、科技成果效果/>,在子集模型中的科技成果均需要对科技成果基础数据/>进行标注,且数据采集端会采集子集模型中上架科技成果的宣传关键词/>。
4.根据权利要求3所述的一种基于大数据的科技成果分析预测系统,其特征在于,数据采集端接入成果平台以及论坛对与科技成果相关数据进行采集时,针对存在宣传的科技成果采取以下数据采集方法:
步骤一,采集与该科技成果相关的信息,根据科技成果进行一级搜索,搜索包括帖子以及页面广告投放,并标记该科技成果出现的时间,即科技成果名称+科技成果厂商+出现时间,将采集到的帖子进行分类,分为宣传类以及评价类,对于宣传类以及评价类的判定通过检索帖子中出现科技成果的数量,当科技成果时,判定帖子属于评价类,当科技成果时判定帖子属于推广类;
步骤二,科技成果推广阶段划分,根据科技成果在成果平台以及论坛中出现的数量以及日期数据,并检索成果平台中该科技成果的变化数据,依照科技成果在成果平台以及论坛中出现的频率以及科技成果的销量来判断科技成果产生的影响,优先进行推广频次高且销量变化大的科技成果进行数据采集,同时在科技成果详情界面进行弹窗推送;
步骤三,科技成果推广信息与科技成果上架信息对比,通过语言情感模型来对所采集数据进行分析,获得与科技成果相关的特征数据/>,即:/>;
其中,分别为一种科技成果特征;
步骤四,检索评论弹幕与科技成果相关数据,采用分级筛选的方式搜索弹幕以及评论中对于该科技成果的描述,并对描述出现的时间以及该弹幕或评论出现的频次进行标记;
步骤五,筛选有用信息,将弹幕以及评论中出现该科技成果的相关数据作为技术第一参考、效果第二参考/>,分析科技成果特征,通过/>与科技成果宣传关键词/>对比,获得存在差异数据中特征关键词,即/>。
5.根据权利要求4所述的一种基于大数据的科技成果分析预测系统,其特征在于,在对科技成果数据进行采集后,依照评论以及评测对于该科技成果的描述进行科技成果特征特征的提取,将评论中出现与该科技成果的关联度进行分析,分为主动评价以及被动评价,主动评价/>为该科技成果相关类型的帖子,被动评价/>为出现在该科技成果的帖子中评论,并分别对主动评价/>以及被动评价/>进行数据采集。
6.根据权利要求5所述的一种基于大数据的科技成果分析预测系统,其特征在于,数据采集端接入成果平台以及论坛对与科技成果相关数据进行采集时,针对不存在宣传的科技成果采取以下数据采集方法:
步骤一,对该科技成果所属子集进行检索,首先进行子集模型的检索筛选属于该子集的帖子,之后根据科技成果作用进行进一步的筛选,得到与该科技成果相关的数据;
步骤二,对帖子中是否存在该科技成果进行分析,首先检索该科技成果名称,其次对该科技成果出现是否存在品牌进行检索;
步骤三,检索与该子集模型不相关的数据,屏蔽该科技成果所属子集模型/>检索数据,通过搜索科技成果的方式来检索帖子相关数据,并标记科技成果在帖子中的作用,进行科技成果的特征标记。
7.根据权利要求5-6任一项所述的一种基于大数据的科技成果分析预测系统,其特征在于,数据采集端进行数据采集完成对于修改科技成果特征方法如下:
步骤一,清洗检索数据:使用正则表达式或者分词等方式,去除数据中的无关信息,如标点符号、停用词、空格,只保留有意义的词语;
步骤二,分析检索数据:使用自然语言处理以及机器学习方式,对清洗后的数据进行情感分析、关键词提取、主题建模;
步骤三,修改科技成果特征模型:使用数学统计方式,对分析后的数据进行归纳、总结、评价,利用公式来计算每个特征或特点在数据中出现的频率和权重,并计算每个特征或特点对科技成果评价的影响和贡献,最后确定需要修改的科技成果特征模型的结构、特征和内容,并根据公式进行相应的修改。
8.根据权利要求7所述的一种基于大数据的科技成果分析预测系统,其特征在于,用以下公式来计算每个特征或特点在数据中出现的频率和权重/>:
;
其中,为该特征或特点在数据中出现的次数,/>为数据的总条数,/>为该特征或特点对科技成果评价的影响系数,影响系数根据情感分析的结果来确定的,出现正面评价,则为正值;出现负面评价,则为负值;出现中立评价,则为零,影响系数的绝对值越大,表示该特征或特点对科技成果评价的影响越大。
9.根据权利要求1所述的一种基于大数据的科技成果分析预测系统,其特征在于,相关性科技成果推荐模型对客户的搜索历史进行检索记录,根据客户的喜好来进行相关科技成果的推荐,判断客户的喜好风格,并根据科技成果特征风格进行相关联科技成果集的推送。
10.根据权利要求9所述的一种基于大数据的科技成果分析预测系统,其特征在于,科技成果集为交易单数较多且不存在虚假宣传的科技成果,平替集/>为价格低于科技成果集/>内科技成果价格,或不属于该科技成果所属子集模型/>但与该科技成果具备同样作用的科技成果,最优集/>为该科技成果中厂商知名度高的科技成果,价格高于科技成果集/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410130500.0A CN117670488B (zh) | 2024-01-31 | 2024-01-31 | 一种基于大数据的科技成果分析预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410130500.0A CN117670488B (zh) | 2024-01-31 | 2024-01-31 | 一种基于大数据的科技成果分析预测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117670488A CN117670488A (zh) | 2024-03-08 |
CN117670488B true CN117670488B (zh) | 2024-04-16 |
Family
ID=90064470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410130500.0A Active CN117670488B (zh) | 2024-01-31 | 2024-01-31 | 一种基于大数据的科技成果分析预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117670488B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021628A (zh) * | 2017-11-22 | 2018-05-11 | 华南理工大学 | 一种科技主题的管理系统 |
US10162900B1 (en) * | 2015-03-09 | 2018-12-25 | Interos Solutions Inc. | Method and system of an opinion search engine with an application programming interface for providing an opinion web portal |
CN110209942A (zh) * | 2019-06-04 | 2019-09-06 | 广德元瑞生产力促进中心有限公司 | 一种基于大数据的科技信息智能推送系统 |
CN111177556A (zh) * | 2019-12-30 | 2020-05-19 | 绍兴市上虞区理工高等研究院 | 一种科技成果转化系统及方法 |
CN112231443A (zh) * | 2020-10-19 | 2021-01-15 | 北京人人众包科技有限公司 | 一种软件推荐方法及系统 |
CN114037154A (zh) * | 2021-11-09 | 2022-02-11 | 国网山东省电力公司电力科学研究院 | 基于注意特征的科技成果数量与主题的预测方法及系统 |
CN114818678A (zh) * | 2022-03-28 | 2022-07-29 | 西安远诺技术转移有限公司 | 一种科技成果管理方法、平台及电子设备 |
CN116089595A (zh) * | 2022-12-26 | 2023-05-09 | 蒋琰 | 基于科技成果的数据处理推送方法、装置及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050144158A1 (en) * | 2003-11-18 | 2005-06-30 | Capper Liesl J. | Computer network search engine |
-
2024
- 2024-01-31 CN CN202410130500.0A patent/CN117670488B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10162900B1 (en) * | 2015-03-09 | 2018-12-25 | Interos Solutions Inc. | Method and system of an opinion search engine with an application programming interface for providing an opinion web portal |
CN108021628A (zh) * | 2017-11-22 | 2018-05-11 | 华南理工大学 | 一种科技主题的管理系统 |
CN110209942A (zh) * | 2019-06-04 | 2019-09-06 | 广德元瑞生产力促进中心有限公司 | 一种基于大数据的科技信息智能推送系统 |
CN111177556A (zh) * | 2019-12-30 | 2020-05-19 | 绍兴市上虞区理工高等研究院 | 一种科技成果转化系统及方法 |
CN112231443A (zh) * | 2020-10-19 | 2021-01-15 | 北京人人众包科技有限公司 | 一种软件推荐方法及系统 |
CN114037154A (zh) * | 2021-11-09 | 2022-02-11 | 国网山东省电力公司电力科学研究院 | 基于注意特征的科技成果数量与主题的预测方法及系统 |
CN114818678A (zh) * | 2022-03-28 | 2022-07-29 | 西安远诺技术转移有限公司 | 一种科技成果管理方法、平台及电子设备 |
CN116089595A (zh) * | 2022-12-26 | 2023-05-09 | 蒋琰 | 基于科技成果的数据处理推送方法、装置及介质 |
Non-Patent Citations (2)
Title |
---|
Reduced Complexity Digital Back-Propagation Methods for Optical Communication Systems;Antonio Napoli 等;《Journal of Lightwave Technology》;20140401;1351-1362 * |
面向科技文献的智能检索与推荐方法研究;杨凯文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180715;I138-2000 * |
Also Published As
Publication number | Publication date |
---|---|
CN117670488A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334922B2 (en) | 3D data labeling system over a distributed network | |
KR102075833B1 (ko) | 미술 작품 추천 큐레이션 방법 및 시스템 | |
CN106339502A (zh) | 一种基于用户行为数据分片聚类的建模推荐方法 | |
US9117006B2 (en) | Recommending keywords | |
CN104866496B (zh) | 确定词素重要性分析模型的方法及装置 | |
WO2017028687A1 (zh) | 闲置商品对象信息处理方法及装置 | |
WO2015055094A1 (zh) | 筛选条件提供方法、装置和搜索方法、装置 | |
US20090125814A1 (en) | Method and system for computerized searching and matching using emotional preference | |
US20100274753A1 (en) | Methods for filtering data and filling in missing data using nonlinear inference | |
KR102227552B1 (ko) | 상황인지 알고리즘 기반 리뷰 카테고리를 이용한 음식점 노출 개인화 서비스 제공 시스템 | |
CN105426528A (zh) | 一种商品数据的检索排序方法及系统 | |
EP2008199A2 (en) | System and method of segmenting and tagging entities based on profile matching using a multi-media survey | |
TW201415261A (zh) | 推薦搜索詞的方法及系統 | |
CN111506831A (zh) | 一种协同过滤的推荐模块、方法、电子设备及存储介质 | |
CN109918563A (zh) | 一种基于公开数据的图书推荐的方法 | |
US11682060B2 (en) | Methods and apparatuses for providing search results using embedding-based retrieval | |
KR101707660B1 (ko) | 연관 검색어를 이용한 관심사 카테고리 기반 이커머스 시스템 | |
CN105931082B (zh) | 一种商品类目关键词提取方法和装置 | |
CN109446402B (zh) | 一种搜索方法及装置 | |
CN110264277A (zh) | 由计算设备执行的数据处理方法及装置、介质和计算设备 | |
Feuerbach et al. | Enhancing an Interactive Recommendation System with Review-based Information Filtering. | |
US10585931B1 (en) | Dynamic determination of data facets | |
CN117670488B (zh) | 一种基于大数据的科技成果分析预测系统 | |
CN116739836A (zh) | 一种基于知识图谱的餐饮数据分析方法及系统 | |
Ren et al. | Resource recommendation algorithm based on text semantics and sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |