CN112836038A

CN112836038A - 一种基于多源数据可信度的智能推荐系统

Info

Publication number: CN112836038A
Application number: CN202110080331.0A
Authority: CN
Inventors: 丛杨; 董家华; 孙干
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-25

Abstract

本发明涉及一种基于多源数据可信度的智能推荐系统，该系统包括：多源数据搜集模块，用于搜索并获取与被调研对象推荐相关的多源调研数据；语义表示提取模块，用于对获取的与被调研对象评估相关的多源调研数据进行数据预处理操作，并提取其语义特征表示；推荐指标获取模块，用于获取与智能化推荐相关的具有代表性的层级评估指标；可信度评估模块，用于对挖掘的与被调研对象相关的属性信息进行可信度评估；智能推荐模块，用于根据层级评估指标构建层级可信度评估体系，智能化推荐最优的被调研对象。本发明专利用于根据多源调研数据的可信度评估，建立多源数据驱动的智能推荐体系，以分析被调研对象的属性信息并智能化推荐最优的被调研对象。

Description

一种基于多源数据可信度的智能推荐系统

技术领域

本发明属于可信度评估的智能推荐领域，具体说是一种基于多源数据可信度的智能推荐系统。

背景技术

现有智能推荐系统假定用户行为的单一数据源为可靠数据，并以此为基础构建服务用户需求的个性化推荐方法。由于存在大量虚假的数据信息，以及数据的多源性分布导致的异质结构特性，使得现有智能推荐系统无法在无监督信息指导下检测可信数据并实现特色化推荐。

发明内容

为了解决上述问题，本发明专利提出一种基于多源数据可信度的智能推荐系统，该系统用于在无监督信息指导下挖掘多源调研数据的异质结构特性，以更好的表达多源数据语义特征，以建立多源数据可信度驱动的智能推荐体系，并分析被调研对象的属性信息并智能化推荐最优的被调研对象。

本发明采用如下技术方案：一种基于多源数据可信度的智能推荐系统，该系统用于根据多源调研数据的可信度评估，建立多源数据驱动的智能推荐体系，分析被调研对象的属性信息并推荐最优的被调研对象。

基于多源数据可信度的智能推荐系统，包括：

多源数据搜集模块，用于从多种数据源搜索并获取与被调研对象相关的多源调研数据；

语义表示提取模块，用于对获取的与被调研对象相关的多源调研数据进行数据预处理操作，并提取其语义特征表示；

推荐指标获取模块，用于基于语义特征表示获取与推荐相关的层级评估指标；

可信度评估模块，用于对挖掘的与被调研对象相关的属性信息进行可信度评估；

智能推荐模块，用于根据层级评估指标构建层级可信度评估体系，并根据可信度推荐最优的被调研对象。

所述多源数据搜集模块，包括：

数据接口单元，用于提供获取与被调研对象相关的多源调研数据的接口；

数据检索单元，用于从多种数据源检索并采集与被调研对象相关的多源调研数据。

所述语义表示提取模块，包括：

数据分词单元，用于对获取的多源调研数据进行分词处理；

语义表示单元，用于根据获取的多源调研数据的语义上下文理解，对分词的词汇提取语义特征表示。

所述推荐指标获取模块，包括：

分词筛选单元，用于统计多源调研数据分词的出现频率，并筛选出超出设定频率值的高频分词；

分词聚类单元，用于对筛选出的高频分词的语义特征表示进行聚类操作，确定智能评估体系中高频分词的聚类簇；

层级指标单元，用于为每个聚类簇确定对应的主题信息，将该主题信息确定为智能评估体系的第一级指标，将聚类簇包含的高频分词确定为智能评估体系第二级指标，以此确定智能评估体系的层级评估指标；

评估体系单元，根据层级评估指标构建智能评估体系。

所述可信度评估模块，包括：

属性挖掘单元，用于通过被调研对象与高频分词的匹配，得到被调研对象与高频分词相关的多个属性信息；

可信度度量单元，用于度量被调研对象的多个属性信息的可信度。

所述智能推荐模块，包括：

层级可信度评估单元，用于基于各属性信息的可信度检测评估被调研对象的整体可信度；

对象推荐单元，用于根据整体可信度度量推荐被调研对象。

基于多源数据可信度的智能推荐方法，包括以下步骤：

多源数据搜集模块从多种数据源搜索并获取与被调研对象相关的多源调研数据；

语义表示提取模块对获取的与被调研对象相关的多源调研数据进行数据预处理操作，并提取其语义特征表示；

推荐指标获取模块基于语义特征表示获取与推荐相关的层级评估指标；

可信度评估模块对挖掘的与被调研对象相关的属性信息进行可信度评估；

智能推荐模块根据层级评估指标构建层级可信度评估体系，并根据可信度推荐最优的被调研对象。

所述多源数据搜集模块从多种数据源搜索并获取与被调研对象相关的多源调研数据，包括以下步骤：

数据接口单元提供获取与被调研对象相关的多源调研数据的接口；

数据检索单元从多种数据源检索并采集与被调研对象相关的多源调研数据。

所述语义表示提取模块对获取的与被调研对象相关的多源调研数据进行数据预处理操作，并提取其语义特征表示，包括以下步骤：

数据分词单元对获取的多源调研数据进行分词处理；

语义表示单元根据获取的多源调研数据的语义上下文理解，对分词的词汇提取语义特征表示。

所述推荐指标获取模块基于语义特征表示获取与推荐相关的层级评估指标，包括以下步骤：

分词筛选单元统计多源调研数据分词的出现频率，并筛选出超出设定频率值的高频分词；

分词聚类单元对筛选出的高频分词的语义特征表示进行聚类操作，确定智能评估体系中高频分词的聚类簇；

层级指标单元为每个聚类簇确定对应的主题信息，将该主题信息确定为智能评估体系的第一级指标，将聚类簇包含的高频分词确定为智能评估体系第二级指标，以此确定智能评估体系的层级评估指标；

评估体系单元根据层级评估指标构建智能评估体系。

所述可信度评估模块对挖掘的与被调研对象相关的属性信息进行可信度评估，包括以下步骤：

属性挖掘单元通过被调研对象与高频分词的匹配，得到被调研对象与高频分词相关的多个属性信息；

可信度度量单元度量被调研对象的多个属性信息的可信度。

所述智能推荐模块根据层级评估指标构建层级可信度评估体系，并根据可信度推荐最优的被调研对象，包括以下步骤：

层级可信度评估单元基于各属性信息的可信度检测评估被调研对象的整体可信度；

对象推荐单元根据整体可信度度量推荐被调研对象。

本发明产生的有益效果及优点如下：

1.本系统挖掘了多源数据可区分性更强的语义特征表达来探索多源数据潜在的异质结构特性，对解决虚假信息泛滥的多源大数据挖掘任务，并建立推荐系统提供强有力的保障。

2.本系统填补了在无监督信息指导的情况下建立多源数据可信度驱动的智能推荐体系的空白，并为之后无监督指导下基于可信度的数据挖掘任务提供经验借鉴。

3.本系统对于多数据源的数据信息，可以在无监督信息指导下检测可信数据，并根据可信度数据以实现特色化推荐，通过可信度检测，使对多源数据的潜在异质结构匹配更加精准，进而提升推荐性能的准确性和可靠性。

附图说明

图1为本发明实例的一种基于多源数据可信度的智能推荐系统示意图；

图2为本发明实例的一种基于多源数据可信度的智能推荐系统中多源数据搜集模块示意图；

图3为本发明实例的一种基于多源数据可信度的智能推荐系统中语义表示提取模块示意图；

图4为本发明实例的一种基于多源数据可信度的智能推荐系统中推荐指标获取模块示意图；

图5为本发明实例的一种基于多源数据可信度的智能推荐系统中可信度评估模块示意图；

图6为本发明实例的一种基于多源数据可信度的智能推荐系统中智能推荐模块示意图；

图7为本发明实例的一种基于多源数据可信度的智能推荐系统的构建方法流程图；

图8为本发明实例的一种基于多源数据可信度的智能推荐系统的构建方法中多源数据搜集流程图；

图9为本发明实例的一种基于多源数据可信度的智能推荐系统的构建方法中语义表示提取流程图；

图10为本发明实例的一种基于多源数据可信度的智能推荐系统的构建方法中推荐指标获取流程图；

图11为本发明实例的一种基于多源数据可信度的智能推荐系统的构建方法中可信度评估流程图；

图12为本发明实例的一种基于多源数据可信度的智能推荐系统的构建方法中智能推荐流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例中的附图，对本发明实施例中的技术方案进行清晰、完备的陈述，所述的实施例仅是本发明的一部分实施例，而不是全部实施例。附图中的描述和示出的本发明实施例的组件可以以各种不同的配置来组合设计。因此，以下在对附图中提供的本发明的实施例的详细描述，并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动成果的前提下所获得其它实施例，都属于本发明专利保护的范围之内。

由于多源调研数据中存在大量人为瞒报的虚假信息，严重制约多源调研数据对被调研对象相关属性评估的真实性和实用性，这也严重影响了多源调研数据的真实性推荐效果。为了解决上述问题，本发明专利提出一种基于多源数据可信度的智能推荐系统，该系统用于根据企业调研的多源数据的可信度评估，建立多源数据驱动的推荐体系，分析被调研企业的属性信息并智能化推荐最优的被调研企业。

如图1所示，本实施例提供了一种基于多源数据可信度的智能推荐系统，所述系统包括：

多源数据搜集模块11，用于搜索并获取与被调研对象推荐相关的多源文本调研数据，该多源文本数据指从政府留言板、民意调研、互联网搜索的途径获取不同城市中不同企业的文本数据；

语义表示提取模块22，用于对获取的与被调研对象评估相关的多源调研数据进行数据预处理操作，并提取其语义特征表示，其中预处理操作包括进行去重复、删除信息少文本、去除冗余信息文本等操作，语义特征表示是多源文本数据在高维特征空间的数学表达；

推荐指标获取模块33，用于获取与智能化推荐相关的具有代表性的层级评估指标；

可信度评估模块44，用于对挖掘的与被调研对象相关的属性信息进行可信度评估；

智能推荐模块55，用于根据层级评估指标构建层级可信度评估体系，智能化推荐最优的被调研对象。

其中，相关包括表示被调研对象或者推荐的关键词中的至少一个。

对上述多源数据搜集模块11所获取的与被调研企业评估相关的多源调研数据，利用分词技术进行文本数据分词处理，对获取的分词词汇提取语义特征表示。其中，在确定调研数据接口之后，检索与被调研企业评估相关的多源文本数据。之后，根据文本词汇数据的上文下信息，利用词嵌入技术为分词词汇获取词嵌入矩阵，其中词嵌入矩阵对应文本语句分词词汇的特征向量表示，该语义特征表示用于多源调研数据可信度评估的智能化推荐。

如图2所示，本发明实例提出的多源数据搜集模块11，包括：

数据接口单元111，用于提供获取与被调研企业相关的文本数据的接口，该数据接口可以是民意调研接口、政府留言板数据接口和互联网数据接口，用来检索相关的文本数据；

数据检索单元112，用于检索并采集被调研对象相关的文本数据，既可以通过民意调研接口和政府留言板数据接口获取调研评估信息，也可以检索互联网中与企业调研评估相关的文本数据。对采集的与被调研企业相关的文本数据进行去重复、删除信息少文本、去除冗余信息文本等操作。

为了对上述获取的与被调研企业相关的文本数据进行语义分词处理，本发明实例考虑调研文本词汇的上下文语义信息，本发明实例提出利用词嵌入技术提取分词词汇的语义特征表示。如图3所示，本发明实例提出的语义表示提取模块22包括：

数据分词单元221，利用分词技术用于对获取的多源调研语句数据进行分词处理，得到语句的多个分解词汇；

语义表示单元222，根据调研文本数据的语义上下文理解，利用词嵌入技术对分词的词汇提取语义特征表示，该语义特征表示为词汇的高维特征表达。

这里，本发明实例采用分词技术对被调研企业的文本数据进行分词处理，之后，通过词嵌入技术学习多源文本数据的词嵌入矩阵，获取分词词汇的语义特征表示。

对于上述获取的调研企业的文本数据的分词词汇，本发明实例提出推荐指标获取模块33，通过对文本词汇进行词频统计，将高频分词词汇确定为被调研企业的智能评估指标，通过聚类方法获取多个聚类簇，通过聚类簇确定智能评估体系的主题信息，将主题信息确定为智能评估体系第一级指标，聚类簇中的分词词汇为可信度评估体系第二级指标，以此构建智能层级评估体系。如图4所示，推荐指标获取模块33包括：

分词筛选单元331，用于统计调研大数据分词的出现频率，根据分词频率筛选阈值，将高频分词词汇确定被调研企业的可信度评估指标；

分词聚类单元332，用均值漂移聚类方法对筛选出的高频分词进行聚类操作，确定被调研企业文本数据的高频分词的聚类簇；

层级指标单元333，用于为每个聚类簇确定对应的主题信息，将该主题信息确定为智能评估体系的第一级指标，将聚类簇包含的高频分词词汇确定为智能评估体系第二级指标，以此确定智能评估体系的层级指标；

评估体系单元334，根据确定层级智能推荐评估指标，使用层次分析法量化各级指标体系的每一个指标对最优企业推荐的贡献程度，确定每个指标的相对重要性，以此构建智能层级评估体系。

这里，层级评估指标分为6个一级指标和33个二级指标，6个一级指标分别为经济发展、精神文化、人才培养、政府引导、福利待遇和注册资本，33个二级指标6个一级指标的细分类别，其中每个一级指标包含4-7个二级指标。对于获取的高频词汇信息，可信度评估模块44通过关键词匹配获取被调研公司的多个属性信息，并度量每个属性信息的可信度。如图5所示，可信度评估模块44包括：

属性挖掘单元441，用于挖掘被调研企业与高频分词相关的多个属性信息，该属性信息是指，与层级评估指标紧密关联的多源数据的语义特征表达；

可信度度量单元442，对于被调研公司的多个属性信息，计算各个属性信息与层级指标各个聚类簇的欧式距离，将欧式距离通过激活函数量化为被调研企业的各个属性信息的可信度，该可信度数值为0-100之间，该数值越大表示可信度越高。

根据上述的可信度评估，智能推荐模块55可以优先推荐可信度高的被调研企业。如图6所示，智能推荐模块55包括：

层级可信度评估单元551，利用层级智能推荐体系对被调研企业各属性可信度数值进行加权平均，获得被调研企业的整体可信度数值，该数值为0-100之间，该数值越大表示可信度越高；

对象推荐单元552，根据整体可信度数值大小对被调研企业降序排序，并优先推荐可信度数值高的被调研企业。

基于同一发明构思，本发明实例还提供了与基于多源数据可信度的智能推荐系统相对应的实现方法，由于本申请实例中实现方法的原理与申请实施例上述可信度评估的智能推荐系统相似，因此方法的实施可以参考系统的实施，重复之处不再赘述。如图7所示，为本申请实例所提供的基于多源数据可信度的智能推荐方法的流程图，包括：

S11：搜索并获取与被调研对象推荐相关的多源调研数据，该多源文本数据指从政府留言板、民意调研、互联网搜索的途径获取不同城市中不同企业的文本数据；

S22：对获取的与被调研对象评估相关的多源调研数据进行数据预处理操作，并提取其语义特征表示，其中预处理操作包括进行去重复、删除信息少文本、去除冗余信息文本等操作，语义特征表示是多源文本数据在高维特征空间的数学表达；

S33：获取与智能化推荐相关的具有代表性的层级评估指标；

S44：对挖掘的与被调研对象相关的属性信息进行可信度评估；

S55：根据层级评估指标构建层级可信度评估体系，智能化推荐最优的被调研对象。

本发明实例中，如图8所示，上述步骤S11具体包括如下步骤：

S111：提供获取与被调研对象相关的多源数据的接口；

S112：检索并采集与被调研对象相关的多源数据。

本发明实例中，如图9所示，上述步骤S22具体包括如下步骤：

S221：对获取的多源调研数据进行分词处理；

S222：根据获取的多源调研数据的语义上下文理解，对分词的词汇提取语义特征表示。

本发明实例中，如图10所示，上述步骤S33具体包括如下步骤：

S331：统计调研大数据分词的出现频率，并筛选出高频词汇；

S332：对筛选出的高频分词进行聚类操作，确定智能评估体系中高频分词的聚类簇；

S333：为每个聚类簇确定对应的主题信息，将该主题信息确定为智能评估体系的第一级指标，将聚类簇包含的高频分词词汇确定为智能评估体系第二级指标，以此确定智能评估体系的层级指标；

S334：根据层级评估指标，构建特色化的智能评估体系。

本发明实例中，如图11所示，上述步骤S44具体包括如下步骤：

S441：挖掘被调研对象与高频分词相关的多个属性信息；

S442：度量被调研对象的多个属性信息的可信度。

本发明实例中，如图12所示，上述步骤S55具体包括如下步骤：

S551：检测评估被调研对象的整体可信度；

S552：根据整体可信度度量智能化推荐被调研对象。

Claims

1.一种基于多源数据可信度的智能推荐系统，其特征在于，该系统用于根据多源调研数据的可信度评估，建立多源数据驱动的智能推荐体系，分析被调研对象的属性信息并推荐最优的被调研对象。

2.根据权利要求1所述的基于多源数据可信度的智能推荐系统，其特征在于，包括：

3.根据权利要求1所述的基于多源数据可信度的智能推荐系统，其特征在于，所述多源数据搜集模块，包括：

4.根据权利要求1所述的基于多源数据可信度的智能推荐系统，其特征在于，所述语义表示提取模块，包括：

数据分词单元，用于对获取的多源调研数据进行分词处理；

5.根据权利要求1所述的基于多源数据可信度的智能推荐系统，其特征在于，所述推荐指标获取模块，包括：

评估体系单元，根据层级评估指标构建智能评估体系。

6.根据权利要求1所述的基于多源数据可信度的智能推荐系统，其特征在于，所述可信度评估模块，包括：

7.根据权利要求1所述的基于多源数据可信度的智能推荐系统，其特征在于，所述智能推荐模块，包括：

对象推荐单元，用于根据整体可信度度量推荐被调研对象。

8.基于多源数据可信度的智能推荐方法，其特征在于，包括以下步骤：

9.根据权利要求8所述的基于多源数据可信度的智能推荐方法，其特征在于，所述多源数据搜集模块从多种数据源搜索并获取与被调研对象相关的多源调研数据，包括以下步骤：

10.根据权利要求8所述的基于多源数据可信度的智能推荐方法，其特征在于，所述语义表示提取模块对获取的与被调研对象相关的多源调研数据进行数据预处理操作，并提取其语义特征表示，包括以下步骤：

数据分词单元对获取的多源调研数据进行分词处理；