CN107330627B - 一种创新创意的大数据处理方法、服务器及系统 - Google Patents
一种创新创意的大数据处理方法、服务器及系统 Download PDFInfo
- Publication number
- CN107330627B CN107330627B CN201710543193.9A CN201710543193A CN107330627B CN 107330627 B CN107330627 B CN 107330627B CN 201710543193 A CN201710543193 A CN 201710543193A CN 107330627 B CN107330627 B CN 107330627B
- Authority
- CN
- China
- Prior art keywords
- innovative
- innovation
- big data
- scheme
- knowledge network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Animal Behavior & Ethology (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种创新创意的大数据处理方法、服务器及系统,其中该方法在大数据处理服务器内完成,包括步骤1:爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络;步骤2:接收客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案;步骤3:将初始创新方案发送至评价服务器,并在评价服务器内依据预设评分标准对初始创新方案进行评分;步骤4:接收评价服务器的评分并与方案合格评分阈值相比较,若前者大于后者,则初始创新方案为可行创新方案;否则,返回步骤2,直至得到可行创新方案。
Description
技术领域
本发明属于大数据处理领域,尤其涉及一种创新创意的大数据处理方法、服务器及系统。
背景技术
创新是引领发展的第一动力,是企业生存与发展的根本。大数据环境下,如何进行创新是每一个企业都急需解决的问题。
传统的创新研发方法主要分为创意产生方法、概念开发方法、概念评估方法、设计开发方法等。例如,常见的创意产生方法有头脑风暴法、KJ法、德尔菲法、“5W2H”法等;常见的概念开发方法有形态分析法、质量功能配置法(QFD)、TRIZ法、SIT和USIT法等;常见的概念评估方法有层次分析法、决策矩阵法、PUGH矩阵法、加权评分法等;常见的设计开发方法有产品及周期优化法、田口方法、公理化设计理论、价值工程法等。
以上这传统创新方法确实在企业创新研发的各环节中起到一定作用,但是,这些传统的创新方法只涉及创新过程的某一环节,尚没有一套完整的方法和系统能够引导用户实现从创意到开发的整个创新研发过程。并且,在互联网+与大数据时代,如何充分利用大数据技术和“众智众创”进行更科学的创新研发,也有待解决。
发明内容
为了解决现有技术的不足,本发明的第一目的是提供一种创新创意的大数据处理方法,其能够准确获取用户需求、最新技术、现有产品优缺点等信息,实现精准创新。
本发明的一种创新创意的大数据处理方法,该方法在大数据处理服务器内完成,包括:
步骤1:爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络;
步骤2:接收客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案;
步骤3:将初始创新方案发送至评价服务器,并在评价服务器内依据预设评分标准对初始创新方案进行评分;
步骤4:接收评价服务器的评分并与方案合格评分阈值相比较,若前者大于后者,则初始创新方案为可行创新方案;否则,返回步骤2,直至得到可行创新方案。
进一步的,在所述步骤1中,利用定向爬虫对多源异构的创新大数据进行爬取。其中,创新大数据主要指从科技博客、技术报告、专利信息、社交媒体等渠道提取出的海量网络数据和来源于企业ERP和Web交易系统的企业报表、产品交易数据和企业内部专业知识等。
进一步的,所述步骤1中集合生成具有层次关联关系的创新知识网络的具体过程包括:
利用现有分词系统和停用词库对创新大数据进行分词、去停用词预处理;
建立向量空间模型VSM,通过TF-IDF计算VSM中各项的权重,提取关键词;
计算提取出关键词的相关度,将相关度高的关键词筛选出来,利用层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合;
根据聚类后的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立出创新知识网络。
本发明首先通过去噪预处理并提取关键词,进而通过层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合,最后建立出创新知识网络,将关键词及其层次结合在一起,使得创新知识网络更加立体形象。
进一步的,所述步骤2中进行相关信息标注之后,还包括通过训练好的语言模型自动生成初始创新方案。
本发明的第二目的是提供一种创新创意的大数据处理服务器。
本发明的一种创新创意的大数据处理服务器,包括:
创新知识网络生成模块,其用于爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络;
初始创新方案生成模块,其用于接收客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案;
初始创新方案评分模块,其用于将初始创新方案发送至评价服务器,并在评价服务器内依据预设评分标准对初始创新方案进行评分;
可行创新方案生成模块,其用于接收评价服务器的评分并与方案合格评分阈值相比较,若前者大于后者,则初始创新方案为可行创新方案,直至得到可行创新方案。
进一步的,在所述创新知识网络生成模块中,利用定向爬虫对多源异构的创新大数据进行爬取。其中,创新大数据主要指从科技博客、技术报告、专利信息、社交媒体等渠道提取出的海量网络数据和来源于企业ERP和Web交易系统的企业报表、产品交易数据和企业内部专业知识等。
进一步的,所述创新知识网络生成模块,包括:
预处理模块,其用于利用现有分词系统和停用词库对创新大数据进行分词、去停用词预处理;
关键词提取模块,其用于建立向量空间模型VSM,通过TF-IDF计算VSM中各项的权重,提取关键词;
层次关联关系集合建立模块,其用于计算提取出关键词的相关度,将相关度高的关键词筛选出来,利用层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合;
创新知识网络建立模块,其用于根据聚类后的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立出创新知识网络。本发明首先通过去噪预处理并提取关键词,进而通过层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合,最后建立出创新知识网络,将关键词及其层次结合在一起,使得创新知识网络更加立体形象。
进一步的,所述初始创新方案生成模块中进行相关信息标注之后,还包括通过训练好的语言模型自动生成初始创新方案。
本发明的第三目的是提供一种创新创意的大数据处理系统。
本发明的一种创新创意的大数据处理系统,包括上述所述的创新创意的大数据处理服务器。
进一步的,所述大数据处理服务器还与客户端相连。本发明在客户端实时显示由大数据处理服务器输出的可行创新方案。
与现有技术相比,本发明的有益效果是:
本发明通过爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络,再根据客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案,再经过评价服务器内的评分,生成可行创新方案,最终实现准确获取用户需求、最新技术、现有产品优缺点等信息,实现精准创新,以及实现了创新大数据融合、创意智能推荐和解决方案生成,提高了产品研发的效率。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明的一种创新创意的大数据处理方法流程图。
图2是本发明的创新创意的大数据处理方法具体实施例示意图。
图3是本发明的一种创新创意的大数据处理服务器结构示意图。
图4是本发明的一种创新创意的大数据处理系统结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
图1是本发明的一种创新创意的大数据处理方法流程图。
如图1所示的本发明的一种创新创意的大数据处理方法,该方法在大数据处理服务器内完成,包括:
步骤1:爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络。
具体地,在所述步骤1中,利用定向爬虫对多源异构的创新大数据进行爬取。其中,创新大数据主要指从科技博客、技术报告、专利信息、社交媒体等渠道提取出的海量网络数据和来源于企业ERP和Web交易系统的企业报表、产品交易数据和企业内部专业知识等。
具体地,所述步骤1中集合生成具有层次关联关系的创新知识网络的具体过程包括:
利用现有分词系统和停用词库对创新大数据进行分词、去停用词预处理;
建立向量空间模型VSM,通过TF-IDF计算VSM中各项的权重,提取关键词;
计算提取出关键词的相关度,将相关度高的关键词筛选出来,利用层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合;
根据聚类后的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立出创新知识网络。
本发明首先通过去噪预处理并提取关键词,进而通过层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合,最后建立出创新知识网络,将关键词及其层次结合在一起,使得创新知识网络更加立体形象。
步骤2:接收客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案。
具体地,所述步骤2中进行相关信息标注之后,还包括通过训练好的语言模型自动生成初始创新方案。
步骤3:将初始创新方案发送至评价服务器,并在评价服务器内依据预设评分标准对初始创新方案进行评分。
步骤4:接收评价服务器的评分并与方案合格评分阈值相比较,若前者大于后者,则初始创新方案为可行创新方案;否则,返回步骤2,直至得到可行创新方案。
本发明通过爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络,再根据客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案,再经过评价服务器内的评分,生成可行创新方案,最终实现准确获取用户需求、最新技术、现有产品优缺点等信息,实现精准创新,以及实现了创新大数据融合、创意智能推荐和解决方案生成,提高了产品研发的效率。
图2是本发明的创新创意的大数据处理方法具体实施例示意图。
本发明的创新创意的大数据处理方法具体实施例的过程包括:
步骤201:利用爬虫对创新大数据进行爬取,数据预处理,用向量空间模型表示,抽取关键词进行层次聚类,形成三层模型,最终建立创新知识网络。
其中,步骤201还包括:
步骤2011:利用爬虫对购物网站、科技博客、数据知识服务等平台进行数据爬取,获取商品信息、评价信息、科技信息和专利信息等,存放在创新大数据库中,同时,将企业内部数据上传至创新大数据库IBD。
步骤2012:用现有分词系统,如NLPIR等对分步骤1中爬取到的数据信息进行分词、去停用词等预处理。
步骤2013:数据文档Dj用向量空间模型VSM表示可以表示为Dj(W1j,W2j,…,Wnj),其中n是所有词的数目,Wij代表了标引词i在文档Dj中的权重。
用TF-IDF方法计算向量空间模型中项的权重,抽取出数据文档关键词,TF-IDF的计算公式如下:
TF-IDF=词频TF×逆向文件频率IDF
其中:
步骤2014:用欧式距离计算抽取出关键词的相似度,将相似度高的关键词筛选出来,欧式距离的表达式如下:
其中,公式中的ti和tj分别表示两个抽取出来的不同的关键词、wk记录关键词在向量空间模型中的位置信息、k指的是总的关键词的个数。
利用凝聚层次聚类的方法将抽取出来的关键词进行聚类,建立一种具有层次关联关系的关键词集合。凝聚层次聚类的主要过程为:找到与ti距离最近的5个关键词ta、tb、tc、td、te,使ti作为父节点,将筛选出来的关键词聚类成具有层次关联关系的双层结构,并存入关键词集合di={ti、ta、tb、tc、td、te}中,再依次寻找与ta、tb、tc、td、te距离最近的5个关键词,使ta、tb、tc、td、te分别作为父节点,将筛选出来的关键词聚类成具有层次关联关系的三层结构,分别将第三层结构的关键词有序地存入关键词集合di中。
步骤2015:根据聚类成功的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,建立创新知识网络IKN。
步骤202:输入创新关键词,计算关键词与创新知识网络中关键词的语义关联度,得到知识网络中的创新核心词;计算知识网络中,创新核心词的层次关联紧密度,得到创新相关词集合,利用可视化工具形成创新思维导图;同时计算创新核心词、相关词与创新大数据的相关度,按相关度排序显示创新大数据信息;用户查看并标注信息,根据标注信息生成初始创意集合,可选择进行步骤203,将创意集合发送评价服务器内的“创客社区”进行创意评估与征集,根据返回结果进行数据分析,最终生成创意报告。
其中,步骤202还包括:
步骤2021:输入创新关键词IKW,创新关键词即是所要发明或创新领域内的主要关键词,可以是词或是句子,如果是句子会自动将这句话分词,然后选择所需要的关键词完成创新关键词的输入。
步骤2022:计算关键词与创新知识网络中关键词的语义关联度,得到知识网络中的创新核心词ICW。
按语义关联度计算方法WSR来计算输入的创新关键词和层次聚类后关键词的关联度。WSR语义关联度计算公式如下:
公式中a是指创新关键词,b是指层次聚类后的关键词,将a和b转换成需要计算的节点。RelArtNeti是基于数据文本语义关联度计算方法,αi是不同层次节点的权重;节点a和b至少分别隶属于一个分类aj和bk,其中表示的是aj和bk的语义关联度,βl是其权重。
经过计算后,寻找出语义关联度最高的关键词,即为创新核心词。
步骤2023:计算知识网络中,创新核心词的层次关联紧密度,得到创新相关词集合IRW。
聚类紧密程度,是表示该聚类中所有关键词和聚类中心之间的平均相似度,层次紧密度计算公式如下:
步骤2024-1:利用D3.js等数据可视化工具,将创意核心词与相关词集合展示为创新思维导图。
步骤2024-2:计算创新核心词、相关词与爬取到的创新大数据文档的相似度,按相似度排序显示步骤201中爬取到的创新大数据信息。
相似度计算主要步骤是:将创新核心词与相关词分别表示为向量空间模型Q(W1q,W2q,…,Wnq),采用TF*IDF的方式计算权重,之后采用两个向量夹角的余弦函数求相似度,创新词与创新大数据文档的相似度计算公式为:
其中,dj为第j个创新大数据文档,q为创新核心词或相关词,Wij、Wiq分别为dj、q的向量空间模型中第i个词的权重。
步骤2025:用户查看并标注信息,可在创新思维导图中更换创新核心词,在知识网络中进行重新检索,得到以新的创新核心词为中心的创新思维导图和创新大数据。
步骤2026:通过爬取到的创意信息进行训练学习,生成一组自动生成的创意的语言模型:
语言模型=(rule1,rule2,...,rulek)
每一个规则rulei可表示为:rule=R1×R2×R3×…,其中Ri有三种取值:通配符$(可以为任意词语,或为空Null),词语的语法语义表示项w以及词语t,即:
Ri∈{$}+W+{t1,t2,t3...}
根据用户标注信息,自动生成初始创意集合IIS。
步骤2027(可选):可选择进行步骤203,将创意集合发送“创客社区”进行创意评估与征集,社区用户进行主客观评价,对评估结果进行数据分析。
步骤2028:根据初始创意结合和返回的分析结果,最终生成创意报告。若没有进行分步骤7,则创意报告中只包含初始创意集合,主客观评价分析内容为空。
步骤203:将创新任务(创意评估与征集、方案评估与征集、原型测试、满意度调查)发送至评价服务器内,进行社区用户权威性分析,计算任务与用户的匹配度,根据匹配度,将任务推送给相应用户群体,用户进行主客观评估,得到的任务客观评分及主观评价信息返回到各步骤,继续进行下一步创新研发。
其中,步骤203还包括:
步骤2031:将创新任务(创意评估与征集、方案评估与征集、原型测试、满意度调查)设置一定的悬赏分数,发送至“创客社区”进行众智评估,对待解决问题进行分词,根据分词结果得出问题所属的分类。
步骤2032:进行社区用户权威性分析。
在PageRank算法的基础上,构建一个用户问答关系图G=(U,R),其中用户问答关系图中的每一个结点ui∈U表示为一个用户,用户问答关系图中的每一条有向边rij∈R表示为用户ui到用户uj之间的问答交互关系;
引入对答案质量的分析,分析用户的行为,得出初步的用户权威性的计算方法;所述用户的行为,包括:回答问题、选择最佳答案、赞成和反对。
设回答问题的权重分数为x,其中x>0,选择最佳答案的权重分数为ax,其中a>1,赞成的权重为bx,其中b>0,反对的权重为-cx,其中c>0;
引入对问题难度的分析,得出用户权威性计算方法;
问题难度的计算公式如下:
Dif(q)代表问题q的难易程度,1<Dif(q)<2,A(q)是问题q的回答集合,|A(q)|代表问题q的回复数量;Ta(q)代表回复a的日期,Tq(q)代表问题q的提出日期;Ta(q)-Tq(q)的单位是秒;其中,Tavg是回答问题q的平均耗费时间;η是调节参数;
问题的回答数量越多,表明有越多的用户知道问题的答案,问题相对简单,当问题的平均回答时间越长,表明用户无法在短时间之内回答该问题,问题相对困难。
最终计算用户权威性的方法:
ui代表加入了问题难度因素之后用户uj到用户ui链接的权重。此时,用户行为和权重分数的对应关系为:回答问题的权重分数为x,x>0,选择最佳答案的权重分数为ax·Dif(q),a>1,赞成的权重为bx·Dif(q),b>0,反对的权重为-cx×(2-Dif(q)),c>0。
步骤2033:计算任务与社区用户的匹配度。
设问题类别构成集合C={c1,c2,c3,…,cn},注册用户构成集合U=[u1,u1,u3,…,un},表征用户与某个问题类别相关程度的计算方法公式如下:
Rij=Inm(ui,cj)×Authij;
其中,Rij代表用户ui与问题类别cj的相关程度,其含义为:当某个问题属于类别cj时,用户ui回答这一问题的可能性;Inm(ui,cj)代表用户ui在注册之后的第m个月对于问题类别cj的兴趣度,即用户ui是否有兴趣回答类别cj的问题;Authij代表用户ui对于问题类别cj的权威度,即用户ui是否有能力回答问题类别cj的问题;InitIn是用户兴趣度的初始值;Qm-1(ui,cj)代表用户ui在注册之后的第m-1个月对类别cj的提问总数,AQm-1(ui,cj)代表用户ui在注册之后的第m-1个月对类别cj的回答总数。
步骤2034:根据匹配度,将任务按优先级推送给相应用户群体。
计算待解决问题的优先级,按照优先级从高到低进行排序,从而得到排序之后的待解决问题列表;待解决问题优先级的计算方法如下:
在公式中,Priority(q)指问题q的优先级,Interval(q)代表问题q已发布的时间,单位为天,Score(q)代表问题q的悬赏分数;
当已发布时间相同时,悬赏分高的问题的优先级高;当问题悬赏分相同时,发布时间更长的问题获得更高的优先级;
根据步骤2033,获取该问题所在的问题类别与各用户的相关程度值,从有序的待解决问题列表中按问题的优先级,推送给相关程度高的用户。
步骤2035:对得到的任务客观评分及主观评价信息进行数据分析,包括客观评价的平均分计算,主观评价的高频词抽取和被赞同次数统计并排序显示等,返回到各步骤。
其中,主要通过构造文本的PAT数组和LCP数组来得到一篇文本中多次重复出现的高频字串,进而抽取出高频词。
将待处理文本看作一个字符串,从任意一位字符开始到文本结尾所形成的子字符串,称为文本的一个后缀,PAT数组就是文本所有后缀的字典顺序的排列。LCP数组对应于一个PAT数组,LCP数组记录了PAT数组中相邻两个后缀间的最大公共前缀长度。PAT数组和LCP数组的创建过程的实质是字符串的排序过程,可采用Bentley-Sedgewick算法。
如果在LCP数组中,存在连续的k个元素值大于等于m,则可以推断出有一个长度为m的字符串,在文本中总共出现了k+1次。因此,通过扫描LCP数组可以发现文本的重复字符串及其出现次数。
步骤204:根据创意,输入具体需求描述,从需求描述中提取非标准工程参数,计算非标准工程参数与TRIZ的39个标准工程参数的相似度,得到标准工程参数对,利用TRIZ矛盾矩阵,得到推荐的发明原理;同时计算需求描述与创新大数据的相关度,按相关度排序显示相关信息,根据用户标注的信息,生成初始创新方案,可选择进行步骤203,将方案发送评价服务器内进行方案评估与征集,根据返回结果进行数据分析,最终生成创新方案报告。
其中,步骤204还包括:
步骤2041:根据创意,输入具体需求描述IQC,包括创意名称、创意背景、期望结果、潜在困难四部分内容,便于提取工程参数。
步骤2042-1:
通过对一定数量有代表性的专利文本进行分析整理,得到改善参数提取词汇集合Wi={″可以″,改善″,″提高″,......}、恶化参数相关词汇集合Wd={″破坏″,″导致″,″丧失″,......},利用此集合,从需求描述中提取集合中词汇的前后名词,分别作为改善或恶化的非标准工程参数pi和pd。
利用基于语义词典Hownet的语义相似度计算方法,计算非标准工程参数与TRIZ的39个标准工程参数的相似度。
对于两个汉语词语W1和W2,如果W1有个n义项:S11,S12,…,S1n,W2有个m义项:S12,S22,…,S2m,W1和W2的相似度是各个概念的相似度之最大值:
sim(W1,W2)=maxi=1…n,j=1…msim(S1i,S2j);
在Hownet中对一个实词的描述可以表示为一个特征结构,含有四个特征:第一基本义原、其它基本义原、关系义原和关系符号,相对应的,两个概念的这一部分的相似度分别记为sim1(S1,S2)、sim2(S1,S2);、sim3(S1,S2)和sim4(S1,S2)。概念的整体相似度为:
其中,β(1≤i≤4)是可调节的参数,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4.
计算得到标准工程参数对,利用TRIZ提供的矛盾矩阵,得到发明原理。
步骤2042-2:计算需求描述与创新大数据的相似度,并按相似度排序显示。计算方法与步骤202中步骤2022中采用cosine值计算相似度方法一致。
步骤2043:用户查看发明原理具体内容、案例和推荐的创新大数据信息,包括相关专利、相关科技等,标注有用信息。
步骤2044:通过爬取到的TRIZ解决方案进行训练学习,生成一组自动生成的创新方案的语言模型,通过用户标注的信息,生成初始创新方案。
步骤2045(可选):可选择进行步骤203,将初始创新方案发送至评价服务器内进行创意评估与征集,根据社区用户的主客观评价进行数据分析。
步骤2046:根据初始创新方案和返回的分析结果,生成创新方案报告。若没有进行步骤2045,则创新方案报告中只包含初始创新方案,主客观评价内容为空。
步骤205:产品研发人员根据创新方案设计产品原型,进行内部“α测试”,通过后进行在线“A/B测试”,进行步骤203,将测试发送评价服务器内,对测试结果进行数据分析,根据分析结果最终生成原型测试报告。
其中,步骤205还包括:
步骤2051:产品设计人员根据创新方案进行产品外观、结构、功能等设计,通过设计软件将产品原型展现出来,从中选出两个最优方案Pa和Pb。
步骤2052:创新研发部门进行内部“α测试”,即依据产品原型Pa和Pb,生产出对应的产品样品Sa和Sb,用以确定产品原型设计在技术上是否可以实现,依据产品原型生产出的产品是否符合期望要求等,若存在问题,对产品原型进行调整改进,得到产品原型和
步骤2054:生成原型测试报告,根据报告内容,对产品原型继续调整修改,确定最终产品原型。
步骤206:产品售后人员设计满意度参数及评分标准,分别进行线上、线下满意度调查,线上满意度调查进行步骤203,将满意度调查发送“创客社区”,对社区用户评价结果和线下调查结果进行综合数据分析,生成产品分析报告,将数据发送至步骤201的创新大数据库,作为下一次创新的大数据基础。
其中,步骤206还包括:
步骤2061:产品售后人员设计满意度参数及评分标准,参数如外观、材质、性能、故障率、性价比等,满意度评分分别为1到5颗星,每个参数满意度评分后可备注满意或不满意的具体原因、改进建议。
步骤2062-1:进行电话回访、问卷调查等线下满意度调查,统计调查结果,进行数据分析,如计算各参数均值,提取主观评价高频词等。
步骤2062-2:进行线上满意度调查,进行步骤203,将满意度调查发送至评价服务器,根据社区用户反馈结果进行数据分析。
步骤2063:将线上和线下的调查分析结果综合,生成产品分析报告。
步骤2064:将满意度调查数据发送至步骤201的创新大数据库中,作为下一次产品更新升级的大数据基础。
本发明创新研发基于科学的大数据分析,能够准确获取用户需求、最新技术、现有产品优缺点等信息,实现精准创新;实现了创新大数据融合、创意智能推荐、解决方案生成、产品原型测试、产品售后分析、产品更新升级等循环创新全过程;创新研发不再仅仅依靠专业创新人员,更集合了众智的力量,实现了社会化与公众参与的互动进化式创新。
图3是本发明的创新创意的大数据处理服务器结构示意图。
如图3所示,本发明的一种创新创意的大数据处理服务器,包括:
(1)创新知识网络生成模块,其用于爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络。
在所述创新知识网络生成模块中,利用定向爬虫对多源异构的创新大数据进行爬取。其中,创新大数据主要指从科技博客、技术报告、专利信息、社交媒体等渠道提取出的海量网络数据和来源于企业ERP和Web交易系统的企业报表、产品交易数据和企业内部专业知识等。
具体地,所述创新知识网络生成模块,包括:
预处理模块,其用于利用现有分词系统和停用词库对创新大数据进行分词、去停用词预处理;
关键词提取模块,其用于建立向量空间模型VSM,通过TF-IDF计算VSM中各项的权重,提取关键词;
层次关联关系集合建立模块,其用于计算提取出关键词的相关度,将相关度高的关键词筛选出来,利用层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合;
创新知识网络建立模块,其用于根据聚类后的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立出创新知识网络。本发明首先通过去噪预处理并提取关键词,进而通过层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合,最后建立出创新知识网络,将关键词及其层次结合在一起,使得创新知识网络更加立体形象。
(2)初始创新方案生成模块,其用于接收客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案。
具体地,所述初始创新方案生成模块中进行相关信息标注之后,还包括通过训练好的语言模型自动生成初始创新方案。
(3)初始创新方案评分模块,其用于将初始创新方案发送至评价服务器,并在评价服务器内依据预设评分标准对初始创新方案进行评分。
(4)可行创新方案生成模块,其用于接收评价服务器的评分并与方案合格评分阈值相比较,若前者大于后者,则初始创新方案为可行创新方案,直至得到可行创新方案。
本发明通过爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络,再根据客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度和层次关联关系的紧密度,并进行相关信息标注,生成初始创新方案,再经过评价服务器内的评分,生成可行创新方案,最终实现准确获取用户需求、最新技术、现有产品优缺点等信息,实现精准创新,以及实现了创新大数据融合、创意智能推荐和解决方案生成,提高了产品研发的效率。
图4是本发明的创新创意的大数据处理系统结构示意图。
如图4所示,本发明的一种创新创意的大数据处理系统,包括上述所述的创新创意的大数据处理服务器。
其中,所述大数据处理服务器还与客户端相连。本发明在客户端实时显示由大数据处理服务器输出的可行创新方案。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种创新创意的大数据处理方法,其特征在于,该方法在大数据处理服务器内完成,包括:
步骤1:爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络;
步骤2:接收客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度,得到知识网络中的创新核心词;计算知识网络中,创新核心词的层次关联紧密度,得到创新相关词集合;利用数据可视化工具,将创新核心词与相关词集合展示为创新思维导图;同时计算创新核心词、相关词与创新大数据的相关度,按相关度排序显示创新大数据信息;用户查看并标注信息,用户可在创新思维导图中更换创新核心词,在知识网络中进行重新检索,得到以新的创新核心词为中心的创新思维导图和创新大数据;通过训练好的语言模型自动生成初始创新方案;所述相关度计算主要步骤是:将创新核心词与相关词分别表示为向量空间模型,采用TF*IDF的方式计算权重,之后采用两个向量夹角的余弦函数求相关度;
步骤3:将初始创新方案发送至评价服务器,计算创新任务与用户的匹配度,根据匹配度,将创新任务推送给相应用户群体,并在评价服务器内依据预设评分标准对初始创新方案进行评分;
步骤4:接收评价服务器的评分并与方案合格评分阈值相比较,若前者大于后者,则初始创新方案为可行创新方案;否则,返回步骤2,直至得到可行创新方案;
所述计算创新任务与用户的匹配度,具体为:
Rij=Inm(ui,cj)×Authij;
其中,Rij代表用户ui与问题类别cj的相关程度;Inm(ui,cj)代表用户ui在注册之后的第m个月对于问题类别cj的兴趣度;Authij代表用户ui对于问题类别cj的权威度;InitIn是用户兴趣度的初始值;Qm-1(ui,cj)代表用户ui在注册之后的第m-1个月对类别cj的提问总数,AQm-1(ui,cj)代表用户ui在注册之后的第m-1个月对类别cj的回答总数。
2.如权利要求1所述的一种创新创意的大数据处理方法,其特征在于,在所述步骤1中,利用定向爬虫对多源异构的创新大数据进行爬取。
3.如权利要求1所述的一种创新创意的大数据处理方法,其特征在于,所述步骤1中集合生成具有层次关联关系的创新知识网络的具体过程包括:
利用现有分词系统和停用词库对创新大数据进行分词、去停用词预处理;
建立向量空间模型VSM,通过TF-IDF计算VSM中各项的权重,提取关键词;
计算提取出关键词的相关度,将相关度高的关键词筛选出来,利用层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合;
根据聚类后的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立出创新知识网络。
4.一种创新创意的大数据处理服务器,其特征在于,包括:
创新知识网络生成模块,其用于爬取多源异构的创新大数据,并集合生成具有层次关联关系的创新知识网络;
初始创新方案生成模块,其用于接收客户端输入的创意需求描述,得到创新关键词,计算创新关键词与创新知识网络中的关键词的关联度,得到知识网络中的创新核心词;计算知识网络中,创新核心词的层次关联紧密度,得到创新相关词集合;利用数据可视化工具,将创新核心词与相关词集合展示为创新思维导图;同时计算创新核心词、相关词与创新大数据的相关度,按相关度排序显示创新大数据信息;用户查看并标注信息,用户可在创新思维导图中更换创新核心词,在知识网络中进行重新检索,得到以新的创新核心词为中心的创新思维导图和创新大数据;通过训练好的语言模型自动生成初始创新方案;所述相关度计算主要步骤是:将创新核心词与相关词分别表示为向量空间模型,采用TF*IDF的方式计算权重,之后采用两个向量夹角的余弦函数求相关度;
初始创新方案评分模块,其用于将初始创新方案发送至评价服务器,计算创新任务与用户的匹配度,根据匹配度,将创新任务推送给相应用户群体,并在评价服务器内依据预设评分标准对初始创新方案进行评分;
可行创新方案生成模块,其用于接收评价服务器的评分并与方案合格评分阈值相比较,若前者大于后者,则初始创新方案为可行创新方案;否则,返回初始创新方案生成模块,直至得到可行创新方案;
所述计算创新任务与用户的匹配度,具体为:
Rij=Inm(ui,cj)×Authij;
其中,Rij代表用户ui与问题类别cj的相关程度;Inm(ui,cj)代表用户ui在注册之后的第m个月对于问题类别cj的兴趣度;Authij代表用户ui对于问题类别cj的权威度;InitIn是用户兴趣度的初始值;Qm-1(ui,cj)代表用户ui在注册之后的第m-1个月对类别cj的提问总数,AQm-1(ui,cj)代表用户ui在注册之后的第m-1个月对类别cj的回答总数。
5.如权利要求4所述的一种创新创意的大数据处理服务器,其特征在于,在所述创新知识网络生成模块中,利用定向爬虫对多源异构的创新大数据进行爬取。
6.如权利要求4所述的一种创新创意的大数据处理服务器,其特征在于,所述创新知识网络生成模块,包括:
预处理模块,其用于利用现有分词系统和停用词库对创新大数据进行分词、去停用词预处理;
关键词提取模块,其用于建立向量空间模型VSM,通过TF-IDF计算VSM中各项的权重,提取关键词;
层次关联关系集合建立模块,其用于计算提取出关键词的相关度,将相关度高的关键词筛选出来,利用层次聚类的方法将这些关键词进行聚类,建立具有层次关联关系的集合;
创新知识网络建立模块,其用于根据聚类后的关键词集合和相应的层次关联关系,形成具有层次关联关系的三层模型,最终建立出创新知识网络。
7.一种创新创意的大数据处理系统,其特征在于,包括如权利要求4-6中任一项所述的创新创意的大数据处理服务器。
8.如权利要求7所述的一种创新创意的大数据处理系统,其特征在于,所述大数据处理服务器还与客户端相连。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710543193.9A CN107330627B (zh) | 2017-07-05 | 2017-07-05 | 一种创新创意的大数据处理方法、服务器及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710543193.9A CN107330627B (zh) | 2017-07-05 | 2017-07-05 | 一种创新创意的大数据处理方法、服务器及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330627A CN107330627A (zh) | 2017-11-07 |
CN107330627B true CN107330627B (zh) | 2021-06-11 |
Family
ID=60196812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710543193.9A Active CN107330627B (zh) | 2017-07-05 | 2017-07-05 | 一种创新创意的大数据处理方法、服务器及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330627B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717601B (zh) * | 2018-05-08 | 2022-05-06 | 西安交通大学 | 一种面向企业难题的多创新方法集成与融合方法 |
CN108717411B (zh) * | 2018-05-23 | 2022-04-08 | 安徽数据堂科技有限公司 | 一种基于大数据的调查问卷设计辅助系统 |
CN108873727B (zh) * | 2018-08-11 | 2021-03-23 | 深圳市百创网络科技有限公司 | 基于物联网的智能家庭电器系统 |
CN110858218B (zh) * | 2018-08-13 | 2023-06-30 | 宋曜廷 | 发散思维测验自动评分方法及系统 |
CN110543948A (zh) * | 2019-08-19 | 2019-12-06 | 广州华旻信息科技有限公司 | 基于创新方法和工具的机器人的实现方法 |
CN110597996B (zh) * | 2019-09-21 | 2023-04-14 | 陕西师范大学 | 一种基于头脑风暴优化算法的中文网页分类方法 |
CN110879868A (zh) * | 2019-11-21 | 2020-03-13 | 中国工商银行股份有限公司 | 顾问方案生成方法、装置、系统、电子设备及介质 |
CN114971664A (zh) * | 2021-02-26 | 2022-08-30 | 富联精密电子(天津)有限公司 | 广告投放方法及相关设备 |
CN113139126A (zh) * | 2021-04-25 | 2021-07-20 | 武夷学院 | 一种商业计划收集分析及产出系统 |
CN115082165A (zh) * | 2022-07-22 | 2022-09-20 | 山东师范大学 | 基于相似关系识别的产品创新设计方案推荐方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN105468704A (zh) * | 2015-11-18 | 2016-04-06 | 中国传媒大学 | 面向舞美场景设计的快速创意生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7231384B2 (en) * | 2002-10-25 | 2007-06-12 | Sap Aktiengesellschaft | Navigation tool for exploring a knowledge base |
-
2017
- 2017-07-05 CN CN201710543193.9A patent/CN107330627B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN105468704A (zh) * | 2015-11-18 | 2016-04-06 | 中国传媒大学 | 面向舞美场景设计的快速创意生成方法 |
Non-Patent Citations (1)
Title |
---|
"基于TRIZ的计算机辅助创新技术应用研究";兰芳;《计算机应用与软件》;20090831;第26卷(第8期);参见正文第172页第2.2节及附图2 * |
Also Published As
Publication number | Publication date |
---|---|
CN107330627A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330627B (zh) | 一种创新创意的大数据处理方法、服务器及系统 | |
CN108363804B (zh) | 基于用户聚类的局部模型加权融合Top-N电影推荐方法 | |
CN111737495A (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
US10853697B2 (en) | System and method for monitoring online retail platform using artificial intelligence and fixing malfunction | |
CN110337645A (zh) | 可适配的处理组件 | |
Shah et al. | Sentimental Analysis Using Supervised Learning Algorithms | |
CN108363748B (zh) | 基于知乎的话题画像系统及话题画像方法 | |
CN109299865A (zh) | 基于语义分析的心理测评系统及方法、信息数据处理终端 | |
CN107832781A (zh) | 一种面向多源数据的软件缺陷表示学习方法 | |
Lalata et al. | A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms | |
CN117333037A (zh) | 一种面向出版大数据的产业大脑构建方法及装置 | |
Rohit et al. | Machine intelligence based personality prediction using social profile data | |
Uddin et al. | Depression analysis of bangla social media data using gated recurrent neural network | |
AL-Rubaiee et al. | Tuning of Customer Relationship Management (CRM) via Customer Experience Management (CEM) using sentiment analysis on aspects level | |
CN113515699A (zh) | 信息推荐方法及装置、计算机可读存储介质、处理器 | |
CN115982473B (zh) | 一种基于aigc的舆情分析编排系统 | |
Nguyen et al. | Analyzing Customer Experience in Hotel Services Using Topic Modeling. | |
CN111104492A (zh) | 一种基于层次化Attention机制的民航领域自动问答方法 | |
Xu et al. | A text mining classification framework and its experiments using aviation datasets | |
Zhang et al. | A framework for evaluating customer satisfaction | |
Hartanto et al. | Classifying User Personality Based on Media Social Posts Using Support Vector Machine Algorithm Based on DISC Approach | |
Zhao et al. | Double-scale similarity with rich features for cross-modal retrieval | |
Dikshit et al. | Automating Questions and Answers of Good and Services Tax system using clustering and embeddings of queries | |
Li et al. | A rule-based Chinese sentiment mining system with self-expanding dictionary-taking TripAdvisor as an example |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |