CN116204568A

CN116204568A - 一种数据挖掘分析方法

Info

Publication number: CN116204568A
Application number: CN202310484672.3A
Authority: CN
Inventors: 王宇飞; 戚红建; 韩硕; 朱梦迪; 潘中英; 李宏亮; 张强; 冷超; 张天宇; 孟庆宇
Original assignee: Beijing Bidding Branch Of China Huaneng Group Co ltd; Huaneng Information Technology Co Ltd
Current assignee: Beijing Bidding Branch Of China Huaneng Group Co ltd; Huaneng Information Technology Co Ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-06-02
Anticipated expiration: 2043-05-04
Also published as: CN116204568B

Abstract

本发明提供了一种数据挖掘分析方法，涉及数据挖掘技术领域，其方法包括：对用户搜索需求进行第一需求词提取，并与预设数据库进行第一匹配，来获取得到每个第一需求词的第一搜索资源库；对用户搜索需求中的剩余信息进行冗余分析，来得到第二需求词，并与预设数据库进行第二匹配，来获取得到每个第二需求词的第二搜索资源库；将第一需求词与第二需求词建立关联关系，得到需求词关系图；基于需求词关系图进行资源挖掘，获取得到目标挖掘资源；将第一搜索资源库与第二搜索资源库进行资源融合，且与目标挖掘资源进行资源交集处理，获取得到最佳资源推送到用户的终端展示。为后续推送最佳资源提供基础，最大程度满足用户的需求。

Description

一种数据挖掘分析方法

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种数据挖掘分析方法。

背景技术

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程，数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

一般用户在进行资源搜索的过程中，只是按照简单的需求提取，进而基于某个指定的平台实现匹配搜索，再次过程中，由于会忽略掉多余搜索信息以及单个平台的资源局限性，不能很好的满足用户的需求。

因此，本发明提出一种数据挖掘分析方法。

发明内容

本发明提供一种数据挖掘分析方法，用以通过对需求进行第一需求词的提取以及第二需求词的获取，便于对得到的资源库进行资源融合，且通过建立词联系，得到目标挖掘资源，为后续推送最佳资源提供基础，最大程度满足用户的需求。

本发明提供一种数据挖掘分析方法，包括：

步骤1：获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，并与预设数据库进行第一匹配，来获取得到每个第一需求词的第一搜索资源库；

步骤2：对所述用户搜索需求中的剩余信息进行冗余分析，来得到第二需求词，并与预设数据库进行第二匹配，来获取得到每个第二需求词的第二搜索资源库；

步骤3：将所述第一需求词与第二需求词建立关联关系，得到需求词关系图；

步骤4：基于所述需求词关系图进行资源挖掘，获取得到目标挖掘资源；

步骤5：将所述第一搜索资源库与第二搜索资源库进行资源融合，且与所述目标挖掘资源进行资源交集处理，获取得到最佳资源推送到所述用户的终端展示。

优选的，获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，包括：

获取与所述用户存在搜索关联的第一平台，并按照所述第一平台的平台属性，从属性-引擎数据库中筛选与所述平台属性一致的词汇提取引擎；

按照所述词汇提取引擎对所述用户搜索需求进行提取，得到第一需求词。

优选的，对所述用户搜索需求中的剩余信息进行冗余分析，来得到第二需求词，包括：

获取所述用户搜索需求中除去第一需求词的剩余信息；

将所述剩余信息中的每个单独片段信息进行独立分析，以及将所述单独片段信息与左侧第一需求词进行第一扩展并进行第一分析，以及将所述单独片段信息与右侧第一需求词进行第二扩展并进行第二分析；

建立比较函数

，其中，/>

表示独立分析结果；/>

表示第一分析结果；/>

表示第二分析结果；

当

与/>

一致，以及/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

当

不存在时，若/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

当

不存在时，若/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

否则，对所述单独片段信息进行第一量化，以及对双向扩展后的单独片段信息进行第二量化；

若第一量化结果与第二量化结果一致，将所述单独片段信息进行保留，作为候选信息；

否则，获取第一量化结果与第二量化结果的量化差异，当所述量化差异满足差异标准时，将所述单独片段信息进行剔除；

对所有的候选信息进行冗余剔除，并按照需求提取模型对最后信息进行提取，得到第二需求词。

优选的，将所述第一需求词与第二需求词建立关联关系，得到需求词关系图，包括：

根据每个第一需求词的需求属性，将每个第一需求词分别部署在预设关系图中的第一匹配位置上；

根据每个第二需求词的需求属性，将每个第二需求词分别部署在预设关系图中的第二匹配位置上；

确定每个匹配位置上所存在的词组合以及基于预设关系图所确定的第一匹配位置与第二匹配位置的位置联系；

根据所述词组合以及位置联系，得到需求词关系图。

优选的，基于所述需求词关系图进行资源挖掘，获取得到目标挖掘资源，包括：

根据所述需求词关系图，来按照词组合从不同搜索资源平台上进行挖掘，得到与词组合匹配的第一挖掘资源；

基于所述需求词关系图中所存在的位置联系，来对对应词组合所匹配的第一挖掘资源进行调整，得到第二挖掘资源；

基于所有第二挖掘资源，得到目标挖掘资源。

优选的，将所述第一搜索资源库与第二搜索资源库进行资源融合，包括：

对所有的第一搜索资源库以及所有的第二搜索资源库进行聚类分析，得到多个聚类集合，其中，每个聚类集合中包含不同数量的第一搜索资源库以及不同数量的第二搜索资源库；

建立同个聚类集合中每个第一搜索资源库与每个第二搜索资源库之间的第一距离，并分别获取得到每个第一搜索资源库的第一距离集合；

锁定所述第一距离集合中的最大距离，进而得到对应聚类集合中的最大距离集合；

统计所述最大距离集合中大于预设距离的第一个数N1，当N1大于或等于预设个数N0时，提取对应聚类集合中与第一个数N1所匹配的待处理资源库，并将剩余资源库作为一个新聚类集合进行保留；

当N1小于预设个数N0时，保留对应聚类集合；

获取所有待处理资源库的资源类型，并按照所述资源类型，对待处理资源库进行类型分类，得到分类库以及单独库；

对每个分类库进行资源相近处理，得到第一保留资源，以及对所有保留的集合进行资源相近处理，得到第二保留资源；

基于所述第一保留资源、第二保留资源以及单独库中的资源，得到融合资源。

优选的，还包括：计算预设个数N0：

；其中，/>

表示对应聚类集合中所包含的资源库的总个数；/>

表示对/>

的取整符号。

优选的，将所述第一搜索资源库与第二搜索资源库进行资源融合，且与所述目标挖掘资源进行资源交集处理，获取得到最佳资源推送到所述用户的终端展示，包括：

根据如下公式，获取交集资源：

；其中，/>

表示交集资源；/>

表示融合资源；/>

表示目标挖掘资源；/>

表示交集符号；

获取剩余非交集资源，并对所述剩余非交集资源中的资源源头进行标定；

根据资源源头的标定结果，确定同个非交集条目所匹配的多个来源平台以及所述多个来源平台针对相应同个非交集条目的允许置信值；

获取与相应同个非交集条目所对应的多个来源平台中每个平台对该资源类型的推荐概率；

根据所述允许置信值以及推荐概率，得到合理置信值；

；其中，n1表示相应同个非交集条目所匹配的多个来源平台的平台个数；/>

表示相应同个非交集条目所匹配的第i1个来源平台的允许置信值；/>

表示所匹配的第i1个来源平台对相应同个非交集条目的资源类型的推荐概率；ln表示对数函数的符号；H1表示合理置信值；

当所述合理置信值大于预设值时，将对应同个非交集条目对应的资源与交集资源进行合并，得到最佳推荐资源，并推送到所述用户的终端展示。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种数据挖掘分析方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种数据挖掘分析方法，如图1所示，包括：

该实施例中，用户搜索需求指的是，用户在搜索框输入的一些列搜索内容，可以是句搜索内容，也可以是词搜索内容等，比如，用户搜索需求为：“如何快速学会编程”，其中，第一需求词为“编程”，第二需求词为：冗余处理是指删除多余无用信息，得到“快速学习编程”，然后将“编程”去除之后，得到“快速学习”即为第二需求词。

该实施例中，预设数据库是囊括各种不同的资源数据库在内的，因此，可以通过与需求词的匹配，来得到相关的搜索资源库。

该实施例中，第一需求词与第二需求词建立的关联联系，主要是两者之间可能会存在的某些关联，比如，第一需求词是针对名词上的描述，比如，编程，第二需求词是针对动词上的描述，比如，快速学习，也就是快速学习是编程的一个限定基础，因此，可以得到需求词关系图。

该实施例中，需求词关系图是另一种搜索的方式，可以来得到目标挖掘资源。

该实施例中，资源融合是将第一搜索资源库与第二搜索资源库中的资源进行交集处理，来得到融合资源。

该实施例中，由于采用的两种方式来分别获取得到的搜索资源，不同的方式所获取的搜索资源可能是不同的，因此，对两种方式所获取的搜索资源进行交集处理，来得到相关的最佳资源。

该实施例中，终端指的是用户的手机端或者电脑端等。

上述技术方案的有益效果是：通过对需求进行第一需求词的提取以及第二需求词的获取，便于对得到的资源库进行资源融合，且通过建立词联系，得到目标挖掘资源，为后续推送最佳资源提供基础，最大程度满足用户的需求。

本发明提供一种数据挖掘分析方法，获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，包括：

该实施例中，捕捉用户所处于对应平台的搜索行为，该对应平台即为第一平台，作为一个搜索媒介。

该实施例中，平台属性指的是该平台的平台类型，平台类型不同，在所获取到相关的搜索需求后，所对应对搜索需求的词汇提取也是不一样的。

该实施例中，比如，需求1基于平台1的词汇提取引擎所得到的需求词为：需求词1和需求词2，需求1基于平台2的词汇提取引擎所得到的需求词为：需求词2。

上述技术方案的有益效果是：通过获取与用户关联的平台，来从数据库中筛选得到词汇提取引擎，为后续进行需求词的提取提供基础，保证提取的竞逐逆行，为推送与用户需求所匹配的资源提供保证。

本发明提供一种数据挖掘分析方法，对所述用户搜索需求中的剩余信息进行冗余分析，来得到第二需求词，包括：

获取所述用户搜索需求中除去第一需求词的剩余信息；

建立比较函数

，其中，/>

表示独立分析结果；/>

表示第一分析结果；/>

表示第二分析结果；

当

与/>

一致，以及/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

当

不存在时，若/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

当

不存在时，若/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

该实施例中，剩余信息指的是除去第一需求词之外的剩余信息。

该实施例中，用户搜索需求：词1、词2、词3、词4，其中，词1和词3为第一需求词，词2和词4为剩余信息，其中，词2和词4可以分别作为担负片段信息进行分析，独立分析指的是对词2进行分析以及对词4进行分析。

该实施例中，词2的左侧第一需求词为词1，第一扩展后即为词1+词2，对第一扩展后的词进行第一分析，词2的右侧第一需求词为词3，第二扩展后即为词2+词3，对第二扩展后的词进行第二分析。

该实施例中，单独分析结果、第一分析结果以及第二分析结果都是与词本身的词需求相关，进而通过比较，来获取相关的候选信息。

该实施例中，量化指的是对词按照词-量化序列数据库进行匹配，来获取得到对应词的序列，该序列即可视为量化结果。

该实施例中，比如，单独片段为词2，且对应的候选结果的序列为11，对词2进行扩展之后所得到的量化结果的序列为0110，其中，前后序列0对序列11不存在影响，此时，就视为第一量化结果与第二量化结果一致，否则，视为存在量化差异，该量化差异即为序列00的差异。

该实施例中，差异标准是预先设置好的，如果序列001的差异对应的差异不可忽略，即可视为不满足量化标准，否则，视为满足量化标准。

该实施例中，冗余剔除就是将存在的重叠信息进行剔除，提取模型是预先训练好的。

该实施例中，最后信息指的是候选信息进行冗余处理以及剔除后单独片段信息后剩余的。

该实施例中，提取模型是为了对最后信息中所存在的有用词进行提取，便于得到第二需求词。

上述技术方案的有益效果是：通过对剩余信息中的判断进行独立分析、第一分析以及第二分析，进而通过比较函数来有效的筛选出候选信息，最后通过对不能保留的单独片段信息进行量化，实现有效保留或剔除，为后续获取第二需求词提供基础。

本发明提供一种数据挖掘分析方法，将所述第一需求词与第二需求词建立关联关系，得到需求词关系图，包括：

根据所述词组合以及位置联系，得到需求词关系图。

该实施例中，预设关系图是事先规划好的，是由若干不同的位置节点构建得到的，且不同位置节点的节点重要性是不一样，也就是对应词所占据的重要性位置以及对应词与其他词之间可能存在的衔接关系，也就是需求属性是与占据的重要性位置以及衔接关系有关的，比如，“编程”的需求属性是占据的重要性最大的位置以及编程是需求中的核心，所以，其编程的设置位置是处于预设关系图中最具代表性的位置处的。

该实施例中，第二需求词的需求属性是对第一需求词的一个辅助作用，主要是为了确定第二需求词会带给第一需求词的搜索联系，来自定义其所处的位置。

该实施例中，词组合的目的是为了对同个位置上所存在的所有词都进行提取，并组合到一起，位置联系指的是在需求词匹配到预设关系图中的指定位置之后，位置之间所存在的联系，该联系是可以基于该预设关系图（预先规划好的位置与位置之间的联系）来确定的，主要是为了确定词与词之间的紧密程度，进而方便后续的搜索挖掘。

上述技术方案的有益效果是：通过获取第一需求词以及第二需求词的需求属性，并匹配到相应的位置上，便于得到所存在的位置联系，为后续挖掘搜索提供基础，进一步保证用户的需求可靠性。

本发明提供一种数据挖掘分析方法，基于所述需求词关系图进行资源挖掘，获取得到目标挖掘资源，包括：

基于所有第二挖掘资源，得到目标挖掘资源。

该实施例中，需求词关系图是包含不同的词组合以及该图中不同位置点所存在的联系在内的，因此，通过词组合进行挖掘，以及通过位置关联进行挖掘，比如，存在词组合1、2，词组合1进行挖掘之后，得到第一挖掘资源01、02，词组合2进行挖掘之后，得到第一挖掘资源03，按照位置联系进行资源挖掘调整，得到针对第一挖掘资源01的调整资源以及针对第一挖掘资源03的调整资源，进而得到针对词组合1的第二挖掘资源001以及针对词组合2的第二挖掘资源002，其中，001、02与002构成目标挖掘资源。

上述技术方案的有益效果是：根据关系图中的词组合从相应的平台上进行挖掘，进而得到与词组合相关的挖掘资源，后续按照位置联系，对挖掘资源进行调整，来得到第二挖掘资源，最后得到目标挖掘资源，为获取最佳资源提供基础。

本发明提供一种数据挖掘分析方法，将所述第一搜索资源库与第二搜索资源库进行资源融合，包括：

该实施例中，存在第一搜索资源库01、02、03、04，存在第二搜索资源库11、12、13，此时，对搜索资源库进行聚类分析，就会得到聚类集合1：资源库01、02以及11、12，聚类集合2：资源库03、04、13。

针对聚类集合1会得到资源库01与资源库11、资源库02与资源库11、资源库01与资源库12、资源库02与资源库12之间的第一距离，此时，第一搜索资源库01的第一距离集合1为：资源库01与资源库11、资源库01与资源库12，第二搜索资源库02的第一距离集合2为：资源库02与资源库11、资源库02与资源库12。

该实施例中，第一距离集合1中与第一距离集合2中都会存在一个最大距离，该最大距离即可构成该聚类集合的最大距离集合。

该实施例中，预设距离是预先设置好的，作为一个参考标准。

该实施例中，待处理资源库指的是最大距离大于预设距离的搜索资源库，也就是将该聚类集合中除去待处理资源库之外的剩余资源库作为一个新聚类集合。

当N1小于预设个数N0时，保留对应聚类集合；

该实施例中，在对待处理资源库进行处理的过程中，由于库是是包含若干资源在内的，且不同的资源所对应的类型是不一样的，因此，会按照资源类型对待处理资源库进行类型分类得到分类库以及单独库。

该实施例中，待处理资源库1的资源类型为k1，待处理资源库2的资源类型为k2，待处理资源库3的资源类型为k2，此时，待处理资源库2和待处理资源库3可以作为一个分类库，待处理资源库1作为单独库。

该实施例中，相近处理指的是将同个分类库中的不同资源库中的相似资源按照历史搜索概率（将高搜索概率）进行单一保留。

该实施例中，融合资源就是将所有的保留资源以及单独库中的资源进行整合到一起得到的。

上述技术方案的有益效果是：通过对不同的资源搜索库进行聚类分析，得到多个聚类集合，且通过对不同的聚类集合进行距离分析以及距离大小的比较，便于资源的有效保留，为后续资源交集处理提供基础。

本发明提供一种数据挖掘分析方法，还包括：根据如下公式，获取交集资源：

；其中，/>

表示交集资源；/>

表示融合资源；/>

表示目标挖掘资源；/>

表示交集符号；

根据所述允许置信值以及推荐概率，得到合理置信值；

该实施例中，允许置信值的取值范围为[0，1]，推荐概率的取值范围为（0，1）。

该实施例中，预设值的取值一般为0.5。

该实施例中，计算合理置信值是为了有效的保证可以与交集资源进行合并的资源补充，方便得到最佳推荐资源。

该实施例中，交集资源就是获取的融合资源与目标挖掘资源的交集资源，来确定资源的可靠合理性，比如，Y1存在资源1、2、3，Y2存在资源1、2、3、4，此时，交集资源即为：资源1、2、3。

该实施例中，剩余非交集资源即为：资源4。

该实施例中，资料源头指的所获取的剩余非交集资源的资源来源，该来源可以作为对应的资源源头。

该实施例中，剩余非交集资源是包括若干非交集条目构成的，对剩余资源进行资源业务类型的划分，就可以得到不同的条目，且每个条目是可以从多个平台进行资源获取所得到的，标定结果是为了确定该资源所匹配的平台会存在哪些。

该实施例中，允许置信值是平台本身就预先设定好的，因为用户对不同平台的信任度是不一样的，所以，同个平台针对不同用户的信任情况，来综合平均得到针对该平台的允许置信值。

该实施例中，由于每个平台所存储资源的资源优势是不一样的，对不同的资源推荐情况也是不一样的，所以对应的推荐概率也是不一样的，如果平台1对条目1中的子资源01的推荐可靠性高于平台2对条目1中的子资源01的推荐可靠性。

上述技术方案的有益效果是：通过获取交集资源，以及对非交集资源中的资源源头进行标定，进而通过允许置信值以及推荐概率来计算合理置信值，为交集资源的合并补充提供理论依据，保证最后推送资源的完整性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据挖掘分析方法，其特征在于，包括：

2.如权利要求1所述的数据挖掘分析方法，其特征在于，获取用户搜索需求，来对所述用户搜索需求进行第一需求词提取，包括：

3.如权利要求1所述的数据挖掘分析方法，其特征在于，对所述用户搜索需求中的剩余信息进行冗余分析，来得到第二需求词，包括：

获取所述用户搜索需求中除去第一需求词的剩余信息；

建立比较函数

，其中，/>

表示独立分析结果；/>

表示第一分析结果；/>

表示第二分析结果；

当

与/>

一致，以及/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

当

不存在时，若/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

当

不存在时，若/>

与/>

一致，将对应单独片段信息进行保留，作为候选信息；

4.如权利要求1所述的数据挖掘分析方法，其特征在于，将所述第一需求词与第二需求词建立关联关系，得到需求词关系图，包括：

根据所述词组合以及位置联系，得到需求词关系图。

5.如权利要求1所述的数据挖掘分析方法，其特征在于，基于所述需求词关系图进行资源挖掘，获取得到目标挖掘资源，包括：

基于所有第二挖掘资源，得到目标挖掘资源。

6.如权利要求1所述的数据挖掘分析方法，其特征在于，将所述第一搜索资源库与第二搜索资源库进行资源融合，包括：

当N1小于预设个数N0时，保留对应聚类集合；

7.如权利要求6所述的数据挖掘分析方法，其特征在于，还包括：计算预设个数N0：

；其中，/>

表示对应聚类集合中所包含的资源库的总个数；/>

表示对/>

的取整符号。

8.如权利要求1所述的数据挖掘分析方法，其特征在于，将所述第一搜索资源库与第二搜索资源库进行资源融合，且与所述目标挖掘资源进行资源交集处理，获取得到最佳资源推送到所述用户的终端展示，包括：

根据如下公式，获取交集资源：

；其中，/>

表示交集资源；/>

表示融合资源；/>

表示目标挖掘资源；

表示交集符号；

根据所述允许置信值以及推荐概率，得到合理置信值；