CN114861655A - 数据挖掘处理方法、系统及存储介质 - Google Patents

数据挖掘处理方法、系统及存储介质 Download PDF

Info

Publication number
CN114861655A
CN114861655A CN202210376853.XA CN202210376853A CN114861655A CN 114861655 A CN114861655 A CN 114861655A CN 202210376853 A CN202210376853 A CN 202210376853A CN 114861655 A CN114861655 A CN 114861655A
Authority
CN
China
Prior art keywords
data
innovation
scheme
layer
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210376853.XA
Other languages
English (en)
Inventor
庞新龙
罗立贤
闫春晖
王艳明
孙赫
齐洋
胡静超
韩冷
刘正甲
陶玉倩
李玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bohai Bank Co ltd
Original Assignee
Bohai Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bohai Bank Co ltd filed Critical Bohai Bank Co ltd
Priority to CN202210376853.XA priority Critical patent/CN114861655A/zh
Publication of CN114861655A publication Critical patent/CN114861655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种数据挖掘处理方法、系统及存储介质。数据挖掘处理方法包括:获取原始数据;使用五层结构模型对所述原始数据进行分类,以将所述原始数据分为核心层数据、策略层数据、操作层数据、生态层数据以及政策层数据,并基于已分类的所述五层数据,提取其中的关键词;基于所述五层结构模型构建生成知识图谱;基于所述知识图谱及所述关键词,生成原始创新方案;对所述原始创新方案进行价值评估,确定最终创新方案。

Description

数据挖掘处理方法、系统及存储介质
技术领域
本发明实施例属于数据挖掘与处理领域,更具体地,涉及一种可用于企业大数据处理与方案挖掘生成及评估的数据挖掘处理方法、系统及存储介质。
背景技术
随着人工智能技术的发展,对于各类信息的处理也越来越智能化,在各个企业中存在大量的用户表达创新方案的信息数据,比如话题、评论、创意、参与活动等,同时结合企业的公告、资讯、产品、项目、培训素材、营销案例等数据。然而,企业针对这些大量的信息数据并不能够很好地处理以获取其中蕴含的有价值的内容,较难基于这些信息数据来生成可用于企业自身的创新方案。
通常地,企业针对这些数据仍依赖于人工处理。例如,设置固定的岗位或分派特定的人员来搜集、浏览这些数据并筛选出其中感兴趣的信息,进而基于筛选后的信息思考得出用户关注的或可行的创新方案。这种通过人工进行海量数据挖掘处理,并得出创新方案的过程费时费力,且效率较低。其挖掘出的创新点没有结合企业的项目、产品、营销活动等经营数据,价值评估不够客观;也没有构件创新方案的多维度属性,进行数据处理的方式比较单一,容易造成方案不完整、表达不清楚;并且,没有形成一套完整的创新方案的挖掘与生成的整体框架和流程。
因此,有必要提供新的数据挖掘的方法和系统,助力企业对前面所述的大量信息来进行挖掘处理,生成创新方案,并进一步地进行评估而获得有价值的创新方案。
基于文本聚类分类、信息抽取及粗糙集等前沿技术从海量的数据中挖掘出用户创新点并形成创新方案,后续可以讲创新方案形成项目需求进行孵化,为公司创造价值。
发明内容
本发明实施例提供的数据挖掘处理方法、系统及存储介质,能够有效地处理大量的用户数据和/或企业数据,并从中挖掘并评估出有价值的创新方案。
本发明实施例一方面提供了一种数据挖掘处理方法,所述方法包括:获取原始数据;使用五层结构模型对所述原始数据进行分类,以将所述原始数据分为核心层数据、策略层数据、操作层数据、生态层数据以及政策层数据;基于已分类的所述五层数据,提取其中的关键词;基于所述五层结构模型构建生成知识图谱;基于所述知识图谱及所述关键词,生成原始创新方案;对所述原始创新方案进行价值评估,确定最终创新方案。
进一步地,所述原始数据包括用户数据和/或企业数据。
进一步地,所述用户数据至少包括话题、评论、创意或活动中的一种;所述企业数据至少包括公告、资讯、产品、项目、培训素材或营销案例中的一种。
进一步地,所述核心层数据至少包括业务或产品数据中的一种;所述策略层数据至少包括营销方案、营销活动、业务流程或业务规则数据中的一种;所述操作层数据至少包括信息系统或信息技术数据中的一种;所述生态层数据至少包括市场动态或市场资讯数据中的一种;所述政策层数据至少包括市场准则、监管政策或法律法规数据中的一种。
进一步地,所述通过五层结构模型对所述原始数据进行分类,还包括:对所述原始数据进行分词处理,形成向量化词语;通过所述五层结构模型对所述向量化词语进行分层识别而形成五层的分类向量词语;其中,所述五层结构模型通过已标注的企业信息数据作为先验知识进行训练后而获得。
进一步地,所述提取其中的关键词,还包括:使用TextRank算法对所述分类向量词语进行处理,从而获得所述关键词。
进一步地,使用TextRank算法对所述分类向量词语进行处理后获得初始关键词;使用kmeans算法对所述初始关键词进行聚类,从而获得所述关键词。
进一步地,所述使用kmeans算法对所述初始关键词进行聚类包括:使用的聚类模型至少包括两类;将所述五层的分类向量词语中的每一层的初始关键词均进行聚类形成至少两类属性。
进一步地,所述TextRank处理过程中的滑动窗口为5。
进一步地,对所述原始数据使用自然语言处理,获取所述原始数据中每句话的创新意图分值。
进一步地,分离所述原始数据中的每句话;对分离后的一句话进行Jieba分词,形成分词列表;对所述分词列表进行创新意图分析,从而确定所述一句话的创新意图分值。
进一步地,所述创新意图分析包括使用BosonNLP词典对所述分词列表进行分析,确定其中的创新意图词语以及所述创新意图词语的分值;所述一句话的创新意图分值为该句话中的创新意图词语的分值之和。
进一步地,对于创新意图分值高于预定阈值的一句话,将其与所述关键词取交集,获得的结果作为创新数据。
进一步地,所述知识图谱,包括数据层,所述数据层为五层;数据实体,每个所述数据实体隶属于一个数据层,每个所述数据层包括至少一个数据实体;以及数据属性,用于标识所述数据实体的属性,每个所述数据实体标识有至少一个数据属性;以及数据关系,用于指代两个数据实体之间的关系。
进一步地,还包括:对所述关键词进行自然语义处理,获得所述关键词与所述数据实体的对应关系,从而将所述关键词映射到所述知识图谱中。
进一步地,所述基于所述知识图谱,生成原始创新方案,还包括:根据预设的方案模板,通过所述知识图谱填充所述方案模板,生成所述原始创新方案。
进一步地,还包括:基于所述方案模板和所述关键词,查找所述知识图谱获得备选信息,并基于备选信息生成备选创新方案。
进一步地,所述方案模板包括所述核心层数据、所述策略层数据和所述操作层数据的内容。
进一步地,所述方案模板还包括方案描述。
进一步地,所述对所述原始创新方案进行价值评估,确定最终创新方案,还包括:对所述原始创新方案进行有效性验证,并去除未通过有效性验证的原始创新方案,得到筛选创新方案;对所述筛选创新方案进行价值评估,确定最终创新方案。
进一步地,所述对所述原始创新方案进行有效性验证,包括:针对所述原始创新方案查询所述知识图谱的核心层、策略层和操作层所包括的数据实体;若查询结果为重复,则确定所述原始创新方案未通过有效性验证。
进一步地,若所述查询结果为不重复,则进一步查询所述知识图谱的政策层;若所述政策层查询结果为不通过,则确定所述原始创新方案未通过有效性验证。
进一步地,若所述政策层查询结果为通过,则进一步查询所述知识图谱的生态层;若所述生态层查询结果为通过,则确定所述原始创新方案为筛选创新方案;若所述生态层查询结果为不通过,则确定所述原始创新方案未通过有效性验证。
进一步地,所述对原始创新方案进行价值评估,包括:构建所述筛选创新方案的粗糙集表达;确定条件属性和决策属性;计算所述条件属性基于所述决策属性的重要度;基于所述重要度,计算在所述决策属性下的所述筛选创新方案的创新值;
根据所述创新值确定最终创新方案。本发明实施例的另一方面还提供一种数据挖掘处理系统,所述系统包括:存储器,所述存储器存储计算机可执行指令;处理器,所述处理器可通信地耦接至所述存储器,用于执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行如本发明实施例前一方面所述的方法。
本发明实施例的另一方面还提供一种基于数据挖掘处理的创新方案生成方法,所述方法包括:获取原始数据,所述原始数据包括用户数据和/或企业数据;构建五层结构模型,并使用所述五层结构模型对所述原始数据进行分类,形成五层的分类向量词语;使用TextRank算法对所述分类向量词语进行处理,并使用kmeans算法对处理结果进行聚类,提取得到关键词;分离所述原始数据中的每句话,并处理得到所述每句话的创新意图分值;对于创新意图分值高于预定阈值的一句话,将其与所述关键词取交集,获得的结果作为创新数据;基于所述创新数据,通过知识图谱填充方案模板,得到原始创新方案。
进一步地,所述知识图谱,包括:数据层,所述数据层为五层;数据实体,每个所述数据实体隶属于一个数据层,每个所述数据层包括至少一个数据实体;数据属性,用于标识所述数据实体的属性,每个所述数据实体标识有至少一个数据属性;以及数据关系,用于指代两个数据实体之间的关系。
本发明实施例的另一方面还提供一种数据挖掘处理系统,所述系统包括:存储器,所述存储器存储计算机可执行指令;处理器,所述处理器可通信地耦接至所述存储器,用于执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行如本发明实施例前一方面所述的方法。
本发明实施例的另一方面还提供一种基于数据挖掘处理的创新方案评估方法,所述方法包括:获取原始数据,所述原始数据包括用户数据和/或企业数据;构建五层结构模型,并使用所述五层结构模型对所述原始数据进行分类,同时对所述原始数据进行创新意图分析,获得创新数据;基于所述创新数据,通过知识图谱填充方案模板,得到原始创新方案;对所述原始创新方案进行有效性评估,得到筛选创新方案;构建所述筛选创新方案的粗糙集表达;确定条件属性与决策属性;计算条件属性基于所述决策属性的重要度;基于所述重要度,计算在所述决策属性下的所述筛选创新方案的创新值;根据所述创新值确定最终创新方案。
进一步地,所述知识图谱,包括:数据层,所述数据层为五层;数据实体,每个所述数据实体隶属于一个数据层,每个所述数据层包括至少一个数据实体;数据属性,用于标识所述数据实体的属性,每个所述数据实体标识有至少一个数据属性;以及数据关系,用于指代两个数据实体之间的关系。
本发明实施例的另一方面还提供一种数据挖掘处理系统,所述系统包括:存储器,所述存储器存储计算机可执行指令;处理器,所述处理器可通信地耦接至所述存储器,用于执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行如本发明实施例前一方面所述的方法。
本发明实施例提供的各个方面的数据挖掘处理方法或系统,基于多数据源,并对创新方案的业务价值进行多维度评估,能够从平台上面的各类创新信息进行挖掘,形成创新方案,并评估筛选出有价值的创新方案,后续将有价值的的方案形成创新需求,以项目的形式进行孵化实施。
本发明实施例的数据挖掘处理方法或系统,能够有助于企业实现以下至少一个优点的数据挖掘处理:(1)多类型的数据:可以同时处理多个用于创新方案挖掘的数据源,例如话题、评论、创意、参与活动等,以及企业的公告、资讯、产品、项目、培训素材、营销案例等;(2)实现信息联动:对于以上的多类型数据,可以实现基于一个创新点的语义关联并联动起来进行信息处理;(3)实现有效评估:对于挖掘并生成的创新方案,能够从多维度评价该创新方案的业务价值,从大量的创新方案中筛选出可孵化的创新方案;(4)构建半自动化处理流程:实现了大量多类型数据的半自动化处理,不再耗费大量的人力进行数据处理,并且可以保障信息处理的效率。
附图说明
图1为本发明实施例提供的一种数据挖掘处理方法的流程示意图;
图2为本发明实施例提供的五层结构模型的示意图;
图3为本发明实施例提供的一种进行数据挖掘获得关键词的方法的流程示意图;
图4为本发明实施例提供的又一种进行数据挖掘获得关键词的方法的流程示意图;
图5为本发明实施例提供的一种知识图谱的示意图;
图6为本发明实施例提供的一种方案模板的示意图;
图7为本发明实施例提供的一种方案有效性验证的流程示意图;
图8为本发明实施例提供的一种方案评估的流程示意图;
图9为本发明实施例提供的又一种知识图谱的示意图;
图10a为本发明实施例提供的一种数据关系的示意图;
图10b为本发明实施例提供的又一种数据关系的示意图;
图11为本发明实施例提供的一种数据挖掘处理系统的示意图;
图12为本发明实施例提供的又一种数据挖掘处理系统的示意图;
图13为本发明实施例提供的又一种数据挖掘处理系统的示意图。
具体实施方式
为使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明实施例。但是本发明实施例能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明实施例内涵的情况下做类似改进,因此本发明实施例不受下面公开的具体实施的限制。本发明实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
下面结合附图,对本发明实施例所提供的数据挖掘处理方法和系统进行具体地说明。
参见图1,本发明实施例一种实施例提供的数据挖掘处理方法可以包括以下步骤:
S100,获取原始数据;
S200,使用五层结构模型对所述原始数据进行分类,此步骤可以将所述原始数据分为核心层数据、策略层数据、操作层数据、生态层数据以及政策层数据,并基于已分类的所述五层数据,提取其中的关键词;
S300,基于所述五层结构模型构建生成知识图谱;
S400,基于所述知识图谱及所述关键词,生成原始创新方案;
S500,对所述原始创新方案进行价值评估,确定最终创新方案。
步骤S100获取原始数据,可以包括获取用户数据,或者获取企业数据,或者同时获取用户数据和企业数据。此处的“用户”,可以是企业所提供产品或服务的使用用户,也可以是任何其他平台、产品或服务等的使用者。用户数据可以是产生在网络上的数据,例如在论坛、微博、社交网络、电商等各种网络线上所产生的数据;用户数据还可以是产生在线下的数据,例如企业提供的登记簿、建议意见本、填写表格等各种线下所产生的数据。用户数据可以包括话题、评论、创意或活动中的一种或多种,具体示例地,例如在社交网络上所生成的话题、对某一事项所发表的评论、针对某个事项所提供的创意或具有某种主题的活动等等。企业数据则是与企业自身相关的各类数据,可以包括公告、资讯、产品、项目、培训素材或营销案例中的一种或多种,具体示例地,例如企业在官网等平台发布的公告或资讯新闻、企业所提供或售卖的具体产品或服务、企业因业务等需要而拟定的特定项目、企业针对内部或外部所制定的培训素材或企业发布的营销案例等。可以理解的,企业数据可以包括公开的对外的数据,也可以包括仅限于内部分享或阅读的数据。
进一步地,在此步骤中,可以通过主动地挖掘去获取原始数据,例如欲收集网络上针对企业自身的相关的用户数据或企业数据时,则可以使用特定的算法去进行收集;而在不需要收集原始数据进行数据挖掘处理时,则不会进行收集。还可以对原始数据进行日常地积累,例如可以设定自动抓取程序来不需人工干预地自动收集原始数据,并存储下来以备需要时再进行数据挖掘处理。
步骤S200中,使用五层结构模型对所述原始数据进行分类。参见图2,该五层结构模型可以分为核心层10、策略层20、操作层30、生态层40以及政策层50。核心层数据主要指的是企业的业务、产品等信息。此层信息代表了公司的最核心价值,也是企业盈利的重要来源,属于最重要的一层。策略层数据主要包括营销方案、营销活动、业务流程、业务规则等信息。此层信息是为了针对企业业务办理和产品的销售所采取的政策、策略等内容,属于企业导向的重要信息。操作层数据主要包括业务办理所使用的信息系统、信息技术等,是产品或者业务执行策略的有效支撑。生态层数据主要包括对应的市场动态、市场资讯等信息,代表了该企业未来的发展方向,是创新方案的重要参考信息。政策层数据主要包括所属领域下达的市场准则、监管政策以及法律法规等信息,代表了企业的业务要遵守的条件。可以理解的是,以上各层数据所例举的类型代表了分类后至该层的数据至少可以归属于其中一种类型,而不代表分类后的数据必须同时归属于以上所有例举的类型。
参见图3,下面将进一步地阐述步骤S200的一种实现流程,具体可以包括:
S201,原始数据输入;
S202,对所述原始数据进行分词处理,形成向量化词语;
S203,通过所述五层结构模型对向量化词语进行分层识别而形成五层的分类向量词语;
S204,使用TextRank算法对所述分类向量词语进行处理后获得初始关键词;
S205,使用kmeans算法对初始关键词进行聚类,获得关键词。
步骤S201即是将获取得到的原始数据输入到此步骤S200的框架内进行处理。
步骤S202中,示例性地,可以使用word2vec工具对原始数据进行分词处理并生成向量化词语。原始数据通常包括有一句话,其作为文本数据,属于非结构化数据且不可计算。通过此步骤处理后,可以形成向量形式的结构化的数据,并且可用于后续的计算。
步骤S203中,对于已形成的向量化词语,使用五层结构模型对其进行分层识别,从而形成五层的分类向量词语。此五层结构模型可以是预先通过已标注的企业信息数据作为先验知识进行训练后而获得。示例性地,可以利用已经标注的与企业相关的信息数据作为先验知识,使用CRF来命名实体方案,从而对向量化词语进行分层识别。
步骤S204中,可以使用TextRank算法对分类向量词语进行处理并获得初始关键词。由于textRank是无监督方式,无需构造数据集训练。文本中的词就是图中的节点,而词与词之间的边,则利用“共现”关系来确定。此处的“共现”,就是共同出现,即在一个给定大小的滑动窗口内的词,认为是共同出现的,而这些单词间也就存在着边。示例性地,可以设置TextRank窗口为5,计算次词语间的共现关系;构建的共现关系可以是跨层级的,也可以是同层级的,计算词语节点的出入度可以快速获取到核心节点,筛选出入度高的节点构成提取的初始关键词集合。可以理解的,此处的初始关键词,可以是多个字的关键词,也可以是单个字的关键字。在此步骤中,初始关键词可以直接作为关键词的结果进行输出,此时则不需要进行下面的S205的步骤;其也可以进一步地进行下一步的处理。
步骤S205中,对已经获得的初始关键词,还可以进行进一步的聚类。利用kmeans算法可以将相同话题的对话聚类到一个类索引中,让关键词聚集,从而能获取到聚焦的信息。基于五层结构模型,和每一个层次下面的属性分类,首先按照五层结构模型聚类,然后对每一层的内容按照属性进行聚类。此时聚类模型可以设置为2层、3层或更多层,其与五层结构模型中每层的属性的数量相关。因此,可以对获取到的初始关键词进行聚类,从而获得聚类集合后的关键词。此步骤可以得到清晰分类的关键词的结果。
以上的S201-S204或S201-S205的步骤,可以实现“原始与企业相关的信息数据的输入——构建五层结构模型——对信息数据进行分类处理——对每一类的内部信息进行挖掘”的方案,从而实现大量原始数据的数据挖掘的目的。更进一步地,可以实现挖掘原始数据中的创新信息。
进一步地,参见图4,步骤S200的实现还可以包括如下流程:
S206,分离所述原始数据中的每句话,并对分离后的每句话进行分词处理,形成分词列表;
S207,对所述分词列表进行创新意图分析,从而确定所述一句话的创新意图分值;
S208,对于创新意图分值高于预定阈值的一句话,将其与所述关键词取交集,获得的结果作为创新数据。
步骤S206中,可以分类原始数据中的每句话,并对分离后的每句话进行分词处理,从而形成分词列表。分离每句话可以有很多现有的方法实现,本发明实施例中不对此作限定。示例性地,对每句话进行分词处理可以使用Jieba分词,分词后形成分词列表。
步骤S207中,确定分词后的每句话的创新意图分值。此步骤可以使用个标注好的具有“创新”意图的词典,对分词的每句话进行创新意图分析。示例性地,可以使用BosonNLP词典,且此词典合并了具有创新意图的词语。将分词列表与此BosonNLP词典进行逐个匹配,并记录匹配到的创新意图词语,以及该词语的创新意图分值;一句话的创新意图分值,即是里面创新意图词语的分值的和。
步骤S208中,可以重点关注创新意图分值较高的语句。对于创新意图分值高于预定阈值的一句话,可以认为其是需要重点关注的对象。此处的预定阈值可以根据实际需要进行确定。当需要大范围关注创新语句时,可以将预定阈值确定为稍低;当需要重点关注核心创新语句时,则可以将预定阈值确定为稍高。当确定了高于预定阈值的语句后,可以将其与步骤S205或步骤S204确定的关键词取交集。此交集的结果可以作为创新数据。这样,就可以确定高于预定阈值的创新意图分值的语句中的关键词。此关键词的集合可以作为重点关注的创新意图的关键词。
以上的S206-S208的步骤,可以实现创新意图的理解。在完成了每一类的内部信息的挖掘,确定了原始数据中的关键词的信息后,可以进一步地对挖掘得到的信息进行创新意图理解。具有创新意图的关键词的集合,是本发明实施例进行创新方案生成的重要数据依据。
参见图5,步骤S300中基于所述五层结构模型构建生成知识图谱,包括使知识图谱同样具有五层的结构,从而匹配五层结构模型。具体的,如图5所示,知识图谱包括5个数据层,分别为核心层10、策略层20、操作层30、生态层40和政策层50。
知识图谱中每个数据层可以包括有至少一个数据实体,,以核心层10为例,核心层10可以包括数据实体11;同时,核心层还可以包括数据实体12、数据实体13。其他数据层与此类似,故不再赘述。每个数据层的数据实体的数量可以根据实际的创新方案生成的需求而确定。进一步地,每个数据实体可以具有相应的数据属性,也即数据属性用于标识所述数据实体。例如,数据实体11具有数据属性11,例如,数据实体21具有数据属性21,等等。可以理解的是,每个数据实体具有的数据属性可以是一个,也可以是多个。具体的示例将在后文进行阐述。知识图谱还包括数据关系。数据关系指代的是两个数据实体之间的关系,此处两个数据实体可以是同一数据层的,也可以是不同数据层的。例如,数据关系a指代数据实体11和数据实体12之间的数据关系,数据关系d指代数据实体12和数据实体52之间的关系。其他数据关系类似,在此不再赘述。可以理解的是,知识图谱中的数据关系的数量可以根据实际的创新方案生成的需求而确定。
在构建了知识图谱后,则可以将前面确定的关键词映射到所述知识图谱中。具体地,可以对关键词进行自然语义处理,从而获得关键词与数据实体之间的对应关系,从而将关键词填充至知识图谱中。
获得了映射有关键词的知识图谱后,即可以通过预设的方案模板来生成原始创新方案。预设的方案模板包括核心层数据、策略层数据和操作层数据的内容。方案模板通过包括这三个数据层的内容,可以全面的覆盖企业的需求、实际操作方案以及实现所需的支持服务,从而形成一个完整的方案。可选地,方案模板还可以包括方案描述,为一个特定的方案的概要或简述。
参见图6,提供了一种示例性的方案模板。在此方案模板中,可以包括业务、产品、客户、操作、活动及系统。其中,业务、产品和客户是核心层数据的内容,其与企业的核心价值和企业的需求直接相关;操作和活动是策略层数据的内容,其表达了方案实现的实际操作方案;系统则是操作层数据的内容,其体现了在企业内部对方案提供的软硬件支持。可选地,方案模板还可以包括方案描述。可以理解的是,图6所示出的方案模板只是一种示例性地阐述以便于更好地理解,并不代表本发明实施例的方案模板必须包括图6中示出的内容。
当确定了方案模板后,就可以使用映射有关键词的知识图谱来填充方案模板,从而生成原始创新方案。本发明实施例提供的此数据挖掘处理方法,可以从大量的原始数据中挖掘出关键词,且可以进一步地使得关键词聚焦于数据中的创新信息,即关键词可以作为创新数据;而后通过构建的知识图谱和预设的方案模板,同时基于已挖掘得到的关键词,来自动地生成创新方案。这样,可以提供一种半自动化处理海量数据的方法及框架流程,使得企业能够高效地处理其获得的大量数据,从而挖掘生成数据中所蕴含的创新方案,以便进一步地构建可孵化的创新方案。
可选地,本发明实施例还可以基于所述方案模板和所述关键词来生成备选创新方案。具体地,如前所述获得了关键词后,也即获得了关键词集合信息,则可以计算此关键词集合信息所在文本的依存关系。可以通过依存句法分析方法获取到关键词集合信息中的根节点、主关系、主实体关系和关系约束,并根据方案模板,将其映射到知识图谱上。而后以根节点为起点,查询图谱中重合的边,可以按方案模板的内容来分层枚举或按深度查找,从而可以查询得到图谱中的备选信息。进而,根据备选信息递归图谱的其他信息,补充创新方案中缺失的方案模板的其他信息。因此,在原始的关键词的信息上,通过查找得到了知识图谱中的备选信息,相当于扩大了原始关键词的范围,从而可以生成不同于原始创新方案的备选创新方案集合。此步骤既利用了知识图谱的复杂关系结构信息,补充了创新方案中基于方案模板的企业级信息,也考虑了关键词的所在语境环境下的多种关系信息。
由于原始创新方案是基于原始数据进行数据挖掘处理而生成的,其可能仅满足方案的要求,而可能不满足其他的例如法律政策、具体实现的要求,还可能与企业内部已有的创新方案重复,这样的原始创新方案的价值其实并不高。因此,可以针对原始方案进行进一步地筛选,从而获得有价值的最终创新方案。本发明实施例进一步地,在生成了原始创新方案后,还提供对所述原始创新方案进行筛选而获得最终创新方案的方法。
步骤S500正提供了此种方法,其可以对所述原始创新方案进行价值评估,确定最终创新方案。进一步地,步骤S500还包括如下步骤:
S501,对所述原始创新方案进行有效性验证,并去除未通过有效性验证的原始创新方案,得到筛选创新方案;
S502,对所述筛选创新方案进行价值评估,确定最终创新方案。
步骤S501中,在对创新方案进行价值评估前,首先对原始创新方案进行了有效性验证,去除了无效的原始创新方案,从而能够避免对无效方案进行价值评估而造成资源浪费。
参加图7,示例性地提供了一种对原始创新方案进行有效性验证的流程,具体包括如下步骤:
S5011:首先,针对原始创新方案查询知识图谱的核心层、策略层和操作层的数据实体。此步骤主要用于确定原始创新方案是否与企业已有的方案重复。进一步地,此处的查询数据实体,还可以包括同步地查询数据实体的数据属性。可选地,可以通过查询数据实体即确认是否重复,也可以通过同时查询数据实体和数据属性来确认是否重复。如果查询结果为“是”,也即查询结果为重复,则表明此原始创新方案与已有的方案的数据实体重复,代表属于重复的创新方案,因此认为该原始创新方案未通过有效性验证。如果查询结构为“否”,也即查询结果不重复,则转入S5012。
S5012:确认不与已有方案重复的原始创新方案,则进一步地查询政策层的数据实体。同样地,此处的查询数据实体,还可以包括同步地查询数据实体的数据属性。此步骤的查询数据实体用于判断该原始创新方案是否符合风险合规要求,例如是否符合有关市场准则、监管政策或法律法规的要求。如果查询结果为“是”,即查询结果为通过,则表明此原始创新方案符合相关风险合规要求,则转入S5013;如果查询结构为“否”,也即查询结果为不通过,则确定该原始创新方案未通过有效性验证。
S5013:确认符合风险合规要求的原始创新方案,则进一步查询生态层的数据实体。同样地,此处的查询数据实体,还可以包括同步地查询数据实体的数据属性。此步骤的查询数据实体用于判断该原始创新方案是否技术成熟,即该创新方案使用的技术是否成熟保障创新方案的落地。如果查询结果为“是”,即查询结果为通过,则确定所述原始创新方案通过有效性验证,为筛选创新方案;如果查询结构为“否”,也即查询结果为不通过,则确定该原始创新方案未通过有效性验证。
以上的S5011-S5013的步骤,可以实现对原始创新方案的筛选,从方案是否重复、是否存在风险合规的问题、技术是否成熟等三个维度来确定原始创新方案是否有效。筛选去除无效的原始创新方案,能够有效地提高整体创新方案的价值,也能够避免后续进行方案价值评估的产生资源浪费。
步骤S502中,在获得了筛选创新方案后,可以对创新方案进行价值评估,从而依据创新方案的价值大小来确定最终创新方案。
本发明实施例采用粗糙集的理论来进行方案价值的评估。利用粗糙集的思想构建方案论域,论域是方案的集合,论域的任何一个子集,是一种分类。任何一个方案都能用一论域的子集来表示,就是一个精确的表达,当一个方案不能用论域子集完全表达,那么这个方案用论域的子集表达成为一个粗糙集。
粗糙集理论的知识表达方式一般采用信息表或称为信息系统的形式,它可以表现为四元有序组K=(U,A,V,P)。其中U为对象的全体,即论域;A是属性全体,即包含条件属性和决策属性;V是属性的值域;P为一个信息函数,反映了对象x在K中的完全信息。
参加图8,示例性地提供了一种对创新方案进行评估的流程,具体包括如下步骤:
S5021:构建所述筛选创新方案的粗糙集表达。
S5022:确定条件属性和决策属性;
S5023:计算所述条件属性基于所述决策属性的重要度;
S5024:基于所述重要度,计算在所述决策属性下的所述筛选创新方案的创新值;
S5025:根据所述创新值确定最终创新方案。
下面将针对以上的创新方案评估流程进行说明。在一种实施方式下,可以以如下的方式构建粗糙集表达:根据前述的理论,可以把创新方案表达为如下的集合:U论域包含所有的创新方案,A是全部属性,其中定义条件属性C包含:产品、技术、培训素材;决策属性D包含:收藏量、转发量。V是属性的取值,示例性地参见下表:
U C1(产品) C2(技术) C3(培训素材) C4(收藏量) C5(转发量)
x1(方案1) P1 T1 K1
x2(方案2) P2 T1 K1
x3(方案3) P3 T1 K2
x4(方案4) P2 T2 K2
xn(方案n) P1 T2 K1
其中,当以筛选创新方案作为待评估的方案源时,U指代包含所有的筛选创新方案。
产品C1下的方案集合可以表达为U/C1={{x1,xn},{x2,x4},{x3}},表示以C1为条件可以区分集合U。所以此时C1的知识粒度可以表达为:
Figure BDA0003579920000000131
其中知识粒度可以描述知识的分类能力,知识粒度越小,知识分类能力越强,表明该属性对于集合数据的区分更重要。
在集合U的分类目标下,同时考虑条件属性C和决策属性D时表达为:
GPU(C∪D)
含义为:U集合在C的条件下分类后,再基于D的条件再次分类。
决策属性D关于条件属性C的相对知识粒度为:
GPU(D|C)=GPU(C)-GPU(C∪D)
以上表达式表示C关于D的重要度,值越大,表示D相对于C对论域U的分类能力越强。当从C中去掉某个属性C1,分类能力变化程度表示C1属性的重要程度。由此可以计算C中每一个属性C的重要度δ。
计算属性c的权重可根据以下公式:W(c)越大表示该属性在决策属性d下的权重越大:
Figure BDA0003579920000000141
可以得到当决策倾向于决策D的某个结果d时,具有属性c的某些值的时候会得到d的最优解。方案Ui可以表达为:
Ui={{Cia,Cjb,Ckq},{Dia}}
Cia表示属性Ci的具体的一个值,Dia表示决策Di具体的一个值。创新方案Unew所属的属性集与Ui中的集合找到交集最大的i方案,可以推论得到创新方案Unew的Di的值:
MAX(Ui,Unew)
由于决策属性是一个集合,可以从不同的决策维护来评价创新方案的好坏。
根据以上的基于粗糙集表达的价值评估方法,可以评估出不同决策属性下的创新方案的创新值,从而确定出最终创新方案。
下面,将结合一个示例性的实施例对前述的本发明实施例的数据挖掘处理方法及系统进行示意性地说明。需要说明的是,下文的具体实施例的说明、内容或表达均不代表对本发明实施例的任何进一步地限定。
参见图9,提供了一个本发明实施例具体实施例下的知识图谱。
本知识图谱根据企业级信息数据的五层结构模型进行建模,能够解决普通图谱的网络结构带来的信息单一的问题,能清晰地表达实体之间的关系,解决了企业级信息数据原始孤立的信息表达方法。进一步地,方案模板的填充可以利用知识图谱的推理和链接能力。在此知识图谱中,示意性地,核心层的数据实体包括业务、产品和客户,业务实体的数据属性包括物流运输,产品实体的数据属性包括农家贷,客户实体的数据属性包括农户;产品实体与客户实体之间存在数据关系客户范围。其他层的数据实体及数据属性,以及不同数据实体之间的数据关系可以类比参照,此处不再赘述。
在构建了知识图谱后,可以经由方案模板进行方案填充。基于原始数据可以生成关键词,进而生成原始创新方案。利用依存句法分析,可以得到创新方案数据集合与方案内容所在文本信息的句法关系。
如图10a和图10b所示,在用户评论、公共话题等原始数据信息中提取到的文本信息,进行分析后,可以获得得到文本信息内中之间的如下关系:主实体、关系实体、并列关系、关系约束等。
把依存句法识别出来的关系实体映射到企业级信息的知识图谱中可以发现:关系1中客户实体有:A分行、村民;活动实体:田野教学;产品实体:金融产品、农家贷;关系2中客户实体有:B市政府、C市、D市;活动实体:蔬菜生产;产品实体:绿色通道菜园子;风险:疫情。
利用知识图谱的推理能力:可以推理得到关系1中,相关的网络关系有核心层{A分行,村民};策略层{田野教学,农家采摘},操作层{农家APP,上架贷款产品},生态层{南方蔬菜供应紧张},政策层{疫情,补助蔬菜种植}:关系2中相关的网络关系有:核心层{B市政府,C市,D市};策略层{绿色通道菜园子,农家采摘},操作层{农家APP,及时上架蔬菜,大宗蔬菜专用通道},生态层{蔬菜紧缺},政策层{疫情,补助蔬菜种植,资金流向跟踪}。
根据推理结果填充方案模板可以得到如下方案:
方案1:方案描述:关于疫情期间寿光蔬菜种植输出方案,涉及业务:蔬菜大棚种植、物流运输、蔬菜采摘;涉及产品:生鲜特殊信贷产品,客户:农民、农场主;系统:资金流向监控系统、疫情监控系统;考虑到政策层监管要求,需要限制总贷款额度,和对资金进行监控,以及疫情下需要快速响应农户的贷款需求。
方案2:方案描述:提供山东农民信用贷款方案,涉及业务:农家乐情况调查,普惠金融;涉及产品:农村信用卡;客户:农户,农场主;系统:风控系统;考虑到政策层监管要求,需要调查农户以往的消费数据。
方案3:方案描述:基于蔬菜种植的农家乐服务方案,涉及业务:养殖课程、餐饮服务;涉及产品:农家贷;客户:农户,农场主、周边城市上班族;系统:授信审批系统、资金流向监控系统;考虑到政策层监管要求,需要监控资金流向,农户经营现状。
在获得了上述的方案后,可以进行方案价值评估。定义条件属性C包含:产品、技术、业务、系统、操作人员;决策属性D包含:浏览量、转发量、评论数量、用户数量。Xn表示企业级系统内已有的方案,Nn表示待评估的创新方案。根据企业级信息集合计算出每一个条件属性的在特定决策属性下值。如下表所示:
Figure BDA0003579920000000151
Figure BDA0003579920000000161
计算C中每一个属性c的重要度δ,把决策属性D归一化处理,下面矩阵表示在D1浏览量的条件下c的重要度。以上矩阵可转换为:
Figure BDA0003579920000000162
在浏览量为主要决策属性下,计算在D1的条件下c的重要度,以矩阵表示,并计算创新方案的值:
Ui={{Cia,Cjb,Ckq},{Dia}}={{C1,C2,C5},{D1}}
Un1={{C2,C3,C4},{D2}}
Un2={{C1,C4,C5},{D2}}
Un3={{C1,C3,C5},{D2}}
可以得到Un2更接近最优解,可以得到方案2>方案3>方案1。
在转发量为主要决策属性下,计算在D2的条件下c的重要度,以矩阵表示,并计算创新方案的值
Ui={{Cia,Cjb,Ckq},{Dia}}={{C1,C3,C5},{D2}}
Un1={{C2,C3,C4},{D2}}
Un2={{C1,C4,C5},{D2}}
Un3={{C1,C3,C5},{D2}}
可以得到方案3>方案2>方案1。
在用户数量为主要决策属性下,计算创新方案的值,可以得到方案1>方案2>方案3。
在评论数量为主要决策属性下,计算创新方案的值,可以得到方案1>方案2>方案3。
根据本发明实施例提供的数据挖掘方法,可以有效并快速地从大量数据中生成并评估出有价值的创新方案,且可以根据不同的需求确定不同的决策属性,从而生成不同的最有价值的最终创新方案。
参见图11,本发明实施例还相应地提供一种数据挖掘处理系统100,所述系统包括存储器101和处理器102,所述存储器101存储计算机可执行指令;所述处理器102可通信地耦接至所述存储器,用于执行所述存储器101存储的程序指令,当程序指令被执行时,所述处理器102用于前述本发明实施例提供的数据挖掘处理方法的步骤。
本发明实施例还相应地提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如前所提供的数据挖掘处理方法。该计算可读存储介质可以是前述数据挖掘处理系统100中所包含的,也可以是单独存在,而未装配入电子设备或系统的。
另一方面,本发明实施例还提供一种用于创新方案生成的数据挖掘处理方法,具体地,包括如下步骤:
获取原始数据,所述原始数据包括用户数据和/或企业数据;
构建五层结构模型,并使用所述五层结构模型对所述原始数据进行分类,形成五层的分类向量词语;
使用TextRank算法对所述分类向量词语进行处理,并使用kmeans算法对处理结果进行聚类,提取得到关键词;
分离所述原始数据中的每句话,并处理得到所述每句话的创新意图分值;
对于创新意图分值高于预定阈值的一句话,将其与所述关键词取交集,获得的结果作为创新数据;
基于所述创新数据,通过知识图谱填充方案模板,得到原始创新方案。
本发明实施例提供的用于创新方案生成的数据挖掘处理方法的以上步骤的说明,可以参照前面本发明实施例提供的数据挖掘处理方法,此处不再赘述。本发明实施例提供的用于创新方案生成的数据挖掘处理方法,能够快速高效地从大量的原始数据中挖掘并生成创新方案。相较于传统的人工处理数据,能极大地提升效率。
参见图12,本发明实施例还相应地提供一种用于创新方案生成的数据挖掘处理系统200,所述系统包括存储器201和处理器202,所述存储器201存储计算机可执行指令;所述处理器202可通信地耦接至所述存储器,用于执行所述存储器201存储的程序指令,当程序指令被执行时,所述处理器202用于前述本发明实施例提供的用于创新方案生成的数据挖掘处理方法的步骤。
本发明实施例还相应地提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如前所提供的用于创新方案评估的数据挖掘处理方法。该计算可读存储介质可以是前述数据挖掘处理系统200中所包含的,也可以是单独存在,而未装配入电子设备或系统的。
另一方面,本发明实施例还提供一种用于创新方案评估的数据挖掘处理方法,具体地,包括如下步骤:
获取原始数据,所述原始数据包括用户数据和/或企业数据;
构建五层结构模型,并使用所述五层结构模型对所述原始数据进行分类,同时对所述原始数据进行创新意图分析,获得创新数据;
基于所述创新数据,通过知识图谱填充方案模板,得到原始创新方案;
对所述原始创新方案进行有效性评估,得到筛选创新方案;
构建所述筛选创新方案的粗糙集表达;
确定条件属性与决策属性;
计算条件属性基于所述决策属性的重要度;
基于所述重要度,计算在所述决策属性下的所述筛选创新方案的创新值;
根据所述创新值确定最终创新方案。
本发明实施例提供的用于创新方案评估的数据挖掘处理方法的以上步骤的说明,可以参照前面本发明实施例提供的数据挖掘处理方法,此处不再赘述。本发明实施例提供的用于创新方案评估的数据挖掘处理方法,能够在生成了创新方案的基础上,筛选去除不符合要求的创新方案,并对余下的创新方案进行量化评估,从而更好地确定优选的创新方案,可以有效地从大量的创新方案中准确筛选确定出可孵化的创新方案。
参见图13,本发明实施例还相应地提供一种用于创新方案生成的数据挖掘处理系统300,所述系统包括存储器301和处理器302,所述存储器301存储计算机可执行指令;所述处理器302可通信地耦接至所述存储器,用于执行所述存储器301存储的程序指令,当程序指令被执行时,所述处理器302用于前述本发明实施例提供的用于创新方案生成的数据挖掘处理方法的步骤。
本发明实施例还相应地提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如前所提供的用于创新方案评估的数据挖掘处理方法。该计算可读存储介质可以是前述数据挖掘处理系统300中所包含的,也可以是单独存在,而未装配入电子设备或系统的。
通过以上各方面的实施例的描述,本领域的技术人员易于理解,本发明实施例采用计算机可读存储介质实现相应的方法时,该计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本发明实施例的其它实施方案。本发明实施例旨在涵盖本发明实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明实施例的一般性原理并包括本发明实施例未公开的本技术领域中的公知常识或惯用技术手段。凡在本发明实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明实施例的权利要求范围之内。

Claims (34)

1.一种数据挖掘处理方法,其特征在于,所述方法包括:
获取原始数据;
使用五层结构模型对所述原始数据进行分类,以将所述原始数据分为核心层数据、策略层数据、操作层数据、生态层数据以及政策层数据,并基于已分类的所述五层数据,提取其中的关键词;
基于所述五层结构模型构建生成知识图谱;
基于所述知识图谱及所述关键词,生成原始创新方案;
对所述原始创新方案进行价值评估,确定最终创新方案。
2.根据权利要求1所述的方法,其特征在于,
所述原始数据包括用户数据和/或企业数据。
3.根据权利要求2所述的方法,其特征在于,
所述用户数据至少包括话题、评论、创意或活动中的一种;
所述企业数据至少包括公告、资讯、产品、项目、培训素材或营销案例中的一种。
4.根据权利要求1所述的方法,其特征在于,
所述核心层数据至少包括业务或产品数据中的一种;
所述策略层数据至少包括营销方案、营销活动、业务流程或业务规则数据中的一种;
所述操作层数据至少包括信息系统或信息技术数据中的一种;
所述生态层数据至少包括市场动态或市场资讯数据中的一种;
所述政策层数据至少包括市场准则、监管政策或法律法规数据中的一种。
5.根据权利要求1所述的方法,其特征在于,所述通过五层结构模型对所述原始数据进行分类,还包括:
对所述原始数据进行分词处理,形成向量化词语;
通过所述五层结构模型对所述向量化词语进行分层识别而形成五层的分类向量词语;
其中,所述五层结构模型通过已标注的企业信息数据作为先验知识进行训练后而获得。
6.根据权利要求5所述的方法,其特征在于,所述提取其中的关键词,还包括:
使用TextRank算法对所述分类向量词语进行处理,从而获得所述关键词。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
使用TextRank算法对所述分类向量词语进行处理后获得初始关键词;
使用kmeans算法对所述初始关键词进行聚类,从而获得所述关键词。
8.根据权利要求7所述的方法,其特征在于,所述使用kmeans算法对所述初始关键词进行聚类包括:
使用的聚类模型至少包括两类;将所述五层的分类向量词语中的每一层的初始关键词均进行聚类形成至少两类属性。
9.根据权利要求6-8任一项所述的方法,其特征在于,
所述TextRank处理过程中的滑动窗口为5。
10.根据权利要求6-8任一项所述的方法,其特征在于,还包括:
对所述原始数据使用自然语言处理,获取所述原始数据中每句话的创新意图分值。
11.根据权利要求10所述的方法,其特征在于,还包括:
分离所述原始数据中的每句话,并对分离后的每句话进行分词处理,形成分词列表;
对所述分词列表进行创新意图分析,从而确定所述一句话的创新意图分值。
12.根据权利要求11所述的方法,其特征在于,还包括:
所述创新意图分析包括使用BosonNLP词典对所述分词列表进行分析,确定其中的创新意图词语以及所述创新意图词语的分值;
所述一句话的创新意图分值为该句话中的创新意图词语的分值之和。
13.根据权利要求10所述的方法,其特征在于,还包括:
对于创新意图分值高于预定阈值的一句话,将其与所述关键词取交集,获得的结果作为创新数据。
14.根据权利要求1所述的方法,其特征在于,所述知识图谱,包括
数据层,所述数据层为五层;
数据实体,每个所述数据实体隶属于一个数据层,每个所述数据层包括至少一个数据实体;以及
数据属性,用于标识所述数据实体的属性,每个所述数据实体标识有至少一个数据属性;以及
数据关系,用于指代两个数据实体之间的关系。
15.根据权利要求14所述的方法,其特征在于,还包括:
对所述关键词进行自然语义处理,获得所述关键词与所述数据实体的对应关系,从而将所述关键词映射到所述知识图谱中。
16.根据权利要求14所述的方法,其特征在于,所述基于所述知识图谱,生成原始创新方案,还包括:
根据预设的方案模板,通过所述知识图谱填充所述方案模板,生成所述原始创新方案。
17.根据权利要求16所述的方法,其特征在于,还包括:
基于所述方案模板和所述关键词,查找所述知识图谱获得备选信息,并基于备选信息生成备选创新方案。
18.根据权利要求16或17所述的方法,其特征在于,所述方案模板包括所述核心层数据、所述策略层数据和所述操作层数据的内容。
19.根据权利要求18所述的方法,其特征在于,
所述方案模板还包括方案描述。
20.根据权利要求14所述的方法,其特征在于,所述对所述原始创新方案进行价值评估,确定最终创新方案,还包括:
对所述原始创新方案进行有效性验证,并去除未通过有效性验证的原始创新方案,得到筛选创新方案;
对所述筛选创新方案进行价值评估,确定最终创新方案。
21.根据权利要求20所述的方法,其特征在于,所述对所述原始创新方案进行有效性验证,包括:
针对所述原始创新方案查询所述知识图谱的核心层、策略层和操作层所包括的数据实体;
若查询结果为重复,则确定所述原始创新方案未通过有效性验证。
22.根据权利要求21所述的方法,其特征在于,还包括:
若所述查询结果为不重复,则进一步查询所述知识图谱的政策层;
若所述政策层查询结果为不通过,则确定所述原始创新方案未通过有效性验证。
23.根据权利要求22所述的方法,其特征在于,还包括:
若所述政策层查询结果为通过,则进一步查询所述知识图谱的生态层;
若所述生态层查询结果为通过,则确定所述原始创新方案为筛选创新方案;
若所述生态层查询结果为不通过,则确定所述原始创新方案未通过有效性验证。
24.根据权利要求23所述的方法,其特征在于,还包括:
构建所述筛选创新方案的粗糙集表达;
确定条件属性和决策属性;
计算所述条件属性基于所述决策属性的重要度;
基于所述重要度,计算在所述决策属性下的所述筛选创新方案的创新值;
根据所述创新值确定最终创新方案。
25.一种数据挖掘处理系统,其特征在于,所述系统包括:
存储器,所述存储器存储计算机可执行指令;
处理器,所述处理器可通信地耦接至所述存储器,用于执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行如权利要求1-24任一项所述的方法。
26.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,
所述可执行指令被处理器执行时实现如权利要求1-24任一项所述的方法。
27.一种数据挖掘处理方法,用于创新方案生成,其特征在于,所述方法包括:
获取原始数据,所述原始数据包括用户数据和/或企业数据;
构建五层结构模型,并使用所述五层结构模型对所述原始数据进行分类,形成五层的分类向量词语;
使用TextRank算法对所述分类向量词语进行处理,并使用kmeans算法对处理结果进行聚类,提取得到关键词;
分离所述原始数据中的每句话,并处理得到所述每句话的创新意图分值;
对于创新意图分值高于预定阈值的一句话,将其与所述关键词取交集,获得的结果作为创新数据;
基于所述创新数据,通过知识图谱填充方案模板,得到原始创新方案。
28.根据权利要求27所述的方法,其特征在于,所述知识图谱,包括:
数据层,所述数据层为五层;
数据实体,每个所述数据实体隶属于一个数据层,每个所述数据层包括至少一个数据实体;
数据属性,用于标识所述数据实体的属性,每个所述数据实体标识有至少一个数据属性;以及
数据关系,用于指代两个数据实体之间的关系。
29.一种数据挖掘处理系统,其特征在于,所述系统包括:
存储器,所述存储器存储计算机可执行指令;
处理器,所述处理器可通信地耦接至所述存储器,用于执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行如权利要求27或28所述的方法。
30.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,
所述可执行指令被处理器执行时实现如权利要求27或28所述的方法。
31.一种数据挖掘处理方法,用于创新方案评估,其特征在于,所述方法包括:
获取原始数据,所述原始数据包括用户数据和/或企业数据;
构建五层结构模型,并使用所述五层结构模型对所述原始数据进行分类,同时对所述原始数据进行创新意图分析,获得创新数据;
基于所述创新数据,通过知识图谱填充方案模板,得到原始创新方案;
对所述原始创新方案进行有效性评估,得到筛选创新方案;
构建所述筛选创新方案的粗糙集表达;
确定条件属性与决策属性;
计算条件属性基于所述决策属性的重要度;
基于所述重要度,计算在所述决策属性下的所述筛选创新方案的创新值;
根据所述创新值确定最终创新方案。
32.根据权利要求31所述的方法,其特征在于,所述知识图谱,包括:
数据层,所述数据层为五层;
数据实体,每个所述数据实体隶属于一个数据层,每个所述数据层包括至少一个数据实体;
数据属性,用于标识所述数据实体的属性,每个所述数据实体标识有至少一个数据属性;以及
数据关系,用于指代两个数据实体之间的关系。
33.一种数据挖掘处理系统,其特征在于,所述系统包括:
存储器,所述存储器存储计算机可执行指令;
处理器,所述处理器可通信地耦接至所述存储器,用于执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行如权利要求31或32所述的方法。
34.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,
所述可执行指令被处理器执行时实现如权利要求31或32所述的方法。
CN202210376853.XA 2022-04-02 2022-04-02 数据挖掘处理方法、系统及存储介质 Pending CN114861655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210376853.XA CN114861655A (zh) 2022-04-02 2022-04-02 数据挖掘处理方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210376853.XA CN114861655A (zh) 2022-04-02 2022-04-02 数据挖掘处理方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN114861655A true CN114861655A (zh) 2022-08-05

Family

ID=82628957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210376853.XA Pending CN114861655A (zh) 2022-04-02 2022-04-02 数据挖掘处理方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN114861655A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292388A (zh) * 2022-09-29 2022-11-04 广州天维信息技术股份有限公司 一种基于历史数据的方案自动挖掘系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292388A (zh) * 2022-09-29 2022-11-04 广州天维信息技术股份有限公司 一种基于历史数据的方案自动挖掘系统
CN115292388B (zh) * 2022-09-29 2023-01-24 广州天维信息技术股份有限公司 一种基于历史数据的方案自动挖掘系统

Similar Documents

Publication Publication Date Title
Chu et al. A global supply chain risk management framework: An application of text-mining to identify region-specific supply chain risks
Stevenson et al. The value of text for small business default prediction: A deep learning approach
US8577823B1 (en) Taxonomy system for enterprise data management and analysis
Inzalkar et al. A survey on text mining-techniques and application
La Rosa et al. Detecting approximate clones in business process model repositories
Teodorescu Machine Learning methods for strategy research
Akerkar Advanced data analytics for business
CN112036842A (zh) 一种科技服务智能匹配平台
Tsai et al. A comparative study of hybrid machine learning techniques for customer lifetime value prediction
Tuarob et al. DAViS: a unified solution for data collection, analyzation, and visualization in real-time stock market prediction
Tinelli et al. Embedding semantics in human resources management automation via SQL
Wahyudin et al. Cluster analysis for SME risk analysis documents based on Pillar K-Means
Srinivasan et al. An approach to enhance business intelligence and operations by sentimental analysis
Rahkovsky et al. AI research funding portfolios and extreme growth
Degife et al. Efficient predictive model for determining critical factors affecting commodity price: the case of coffee in Ethiopian Commodity Exchange (ECX)
CN114861655A (zh) 数据挖掘处理方法、系统及存储介质
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
Abdullah et al. An introduction to data analytics: its types and its applications
CN112036841A (zh) 基于智能语义识别的政策解析系统及方法
Chu et al. Applying text-mining techniques to global supply chain region selection: considering regional differences
Rahhal et al. Two Stage Job Title Identification System for Online Job Advertisements
Choudhari et al. Sentiment Analysis and Machine Learning Based Sentiment Classification: A Review.
US20220374401A1 (en) Determining domain and matching algorithms for data systems
US11880394B2 (en) System and method for machine learning architecture for interdependence detection
Hossain et al. Large-scale data-driven segmentation of banking customers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40072525

Country of ref document: HK