CN107315775A

CN107315775A - 一种指数计算平台和方法

Info

Publication number: CN107315775A
Application number: CN201710391942.0A
Authority: CN
Inventors: 马宁; 段立新; 王肃
Original assignee: Sic Youe Data Co ltd
Current assignee: Sic Youe Data Co ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-11-03

Abstract

本发明公开了一种指数计算平台，包括：数据获取模块，用于获取进行指数计算的数据；指标体系构建模块，用于基于获取的数据构建指标体系；特征选择模块，用于对指标体系确定的指标进行特征选择，确定指数计算使用的特征；权重确定模块，用于将确定的特征对应的特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到各特征分别对应的权重；权重和指数调整模块，用于按照预设周期收集关于当前指数值的监督信息，并基于该监督信息来调整各特征的权重和得到新的当前指数值。本发明还提供一种指数计算方法。本发明确定的当前指数值能够准确的反映最新状态。

Description

一种指数计算平台和方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种指数计算平台和方法。

背景技术

现实生活中，经常涉及对某一事物的量化评价，如对某一区域的经济能力的评价，以确切知道该区域的经济状态。这种评价一般是采取构建指数体系并对计算指数的形式来进行评价。

现有的指数编制的一般流程包括：抽样统计方法获取数据；通过人工进行指标体系制定；通过人工从指标体系确定的指标中进行特征选择；通过选择的特征对应的特征值训练指数计算模型；基于指数计算模型进行指数计算，得到指数值。

在上述流程中，指数值通过指数计算模型确定，而指数计算模型通过特征值进行训练，由于特征的选择是通过人工的方式进行，难免存在偏差，而在确定各特征的特征值时也可能存在误差，那么在前置流程充满偏差误差的前提下训练的模型的准确性也无法得到保障，最终导致得到的指数值也可能无法反映对应事物的真实情况，准确性低。

发明内容

本发明提出一种指数计算平台和方法，旨在解决指数计算模型准确性低导致通过该模型计算的指数准确性低的问题。

本发明采用的技术方案为：

本发明的一方面提供一种指数计算平台，包括：数据获取模块，用于获取进行指数计算的数据；指标体系构建模块，用于基于获取的数据构建指标体系；特征选择模块，用于对所述指标体系确定的指标进行特征选择，确定指数计算使用的特征；权重确定模块，用于将确定的特征对应的第一特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到以各特征为变量的函数结构以及各特征分别对应的权重；权重和指数调整模块，用于按照预设周期执行如下调整步骤：收集表征当前指数与其所表征现实情况之间偏差的监督信息；并对收集的监督信息进行解析生成反馈标签；根据所述反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值；将所述新的当前指数值输入所述预设深度学习模型，采用深度神经网络再次进行迭代训练，得到调整后的以各特征为变量的函数结构以及各特征分别对应的权重。

可选地，还包括：指数确定模块；所述指数确定模块，用于在所述权重确定模块确定出各特征分别对应的权重之后，或者在所述权重和指数调整模块得到调整后的权重之后，将确定的特征对应的第二特征值输入所述预设深度学习模型，并基于对应的权重确定指数值。

可选地，所述权重和指数调整模块，具体用于采用如下一种或多种方式收集针对当前指数值的监督信息：通过预设接口接收指定用户提供的监督信息；或者，通过爬虫程序从与当前指数所涉及领域的相关网站获取文本信息；通过解析所述文本信息确定监督信息；或者，对用户在发布当前指数的指数发布平台的访问行为进行监控，通过用户访问行为解析出监督信息；或者，通过发布当前指数的指数发布平台向用户提供问卷信息，并通过用户反馈的答复信息收集监督信息。

可选地，所述指标体系构建模块，具体用于通过指定接口接收指定用户提供的一级指标；以及基于所述一级指标，采用知识图谱生成二级指标：针对每个一级指标，确定该一级指标的同义词，并生成由该一级指标以及该一级指标的同义词构成的第一关键词词包；从所述数据获取模块获取的数据中提取与所述第一关键词词包相关的第一数据；基于所述第一数据生成第一知识图谱；将所述第一关键词词包作为键映射到所述第一知识图谱中，并从所述第一知识图谱中筛选与所述第一关键词词包相关联的节点；采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为二级指标。

可选地，所述特征选择模块，具体用于基于所述二级指标，采用知识图谱进行特征选择：针对每个二级指标，确定该二级指标的同义词，并生成由该二级指标以及该二级指标的同义词构成的第二关键词词包；从所述数据获取模块获取的数据中提取与所述第二关键词词包相关的第二数据；基于所述第二数据生成第二知识图谱；将所述第二关键词词包作为键映射到所述第二知识图谱中，并从所述第二知识图谱中筛选与所述第二关键词词包相关联的节点；采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为指数计算使用的特征。

可选地，所述特征选择模块，还用于在对筛选出的节点进行去冗余处理之后，执行如下降维处理的步骤：采用主成分分析法对所述第二知识图谱进行解析；针对每个第二关键词词包，确定与该第二关键词词包相关联的节点分别与该第二关键词词包之间的关联强度指标；响应于任一节点与对应第二关键词词包之间的关联强度指标的指标值达到预设关联强度阈值，将该任一节点确定为指数计算使用的特征。

可选地，所述权重和指数调整模块，具体用于针对反馈标签表征的当前指数值的每个偏差方向，确定表征该偏差方向的反馈标签的数量；根据表征不同偏差方向的反馈标签数量之间的比例关系，确定当前指数值的偏差方向及偏差程度；根据预设规则确定所述偏差方向及偏差程度对应的对当前指数值的调整方向及调整幅度。

本发明的另一实施例还提供一种指数计算方法，包括以下步骤：获取进行指数计算的数据；基于获取的数据构建指标体系；对所述指标体系确定的指标进行特征选择，确定指数计算使用的特征；将确定的特征对应的第一特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到以各特征为变量的函数结构以及各特征分别对应的权重；按照预设周期执行如下调整步骤：收集表征当前指数与其所表征现实情况之间偏差的监督信息；并对收集的监督信息进行解析生成反馈标签；根据所述反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值；将所述新的当前指数值输入所述预设深度学习模型，采用深度神经网络再次进行迭代训练，得到调整后的以各特征为变量的函数结构以及各特征分别对应的权重。

可选地，采用如下一种或多种方式收集针对当前指数值的监督信息：通过预设接口接收指定用户提供的监督信息；或者，通过爬虫程序从与当前指数所涉及领域的相关网站获取文本信息；通过解析所述文本信息确定监督信息；或者，对用户在发布当前指数的指数发布平台的访问行为进行监控，通过用户访问行为解析出监督信息；或者，通过发布当前指数的指数发布平台向用户提供问卷信息，并通过用户反馈的答复信息收集监督信息。

可选地，所述根据所述反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值，具体包括：针对反馈标签表征的当前指数值的每个偏差方向，确定表征该偏差方向的反馈标签的数量；根据表征不同偏差方向的反馈标签数量之间的比例关系，确定当前指数值的偏差方向及偏差程度；根据预设规则确定所述偏差方向及偏差程度对应的对当前指数值的调整方向及调整幅度，得到调整后的新的当前指数值。

本发明实施例提供的指数计算平台和方法，在计算指数时，对构建的指标体系的指标的特征进行选择，基于深度学习模型确定以各特征为变量的函数结构以及各特征的初始权重，之后周期性收集关于当前指数值与其所表征现实情况之间偏差的监督信息，并基于收集的监督信息生成反馈标签，再依据反馈标签对当前指数进行调整，将调整后的新的当前指数值输入深度学习模型中来不断更新和调整之前确定的以各特征为变量的函数结构以及各特征的权重，这样不断以监督信息为依据的更新和调整过程使得深度学习模型准确性越来越高，从而使得通过该深度学习模型得到的新的当前指数值能够准确的反映对应事物的最新状态。

附图说明

图1a为本发明一实施例提供的一种指数计算平台的结构示意图；

图1b为本发明另一实施例提供的一种指数计算平台的结构示意图；

图2为本发明实施例提供的生成的知识图谱的示意图；

图3为本发明实施例提供的一种指数计算方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1a为本发明一实施例的指数计算平台的结构示意图。如图1a所示，本发明一实施例提供的指数计算平台包括数据获取模块101、指标体系构建模块102、特征选择模块103、权重确定模块104和权重和指数调整模块105。

其中，数据获取模块101用于获取进行指数计算的数据；指标体系构建模块102用于基于获取的数据构建指标体系；特征选择模块103用于对所述指标体系确定的指标进行特征选择，确定指数计算使用的特征；权重确定模块104用于将确定的特征对应的第一特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到各特征分别对应的权重；权重和指数调整模块105用于按照预设周期执行如下调整步骤：(1)收集表征当前指数与其所表征现实情况之间偏差的监督信息；(2)对收集的监督信息进行解析生成反馈标签；(3)根据生成的反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值；(4)将新的当前指数值输入预设深度学习模型，采用深度神经网络再次进行迭代训练，得到调整后的各特征分别对应的权重。

在本发明的一示意性实施例中，数据获取模块101可利用专门构建的大规模数据爬取平台来从相应的网站上爬取与指定主题相关的数据，例如，可利用Python语言编程爬取。爬取的数据经过数据清洗等处理后汇总到分布式存储系统中，可使用非关系数据库(NoSQL，not only Structured Query Language)和分布式系统基础架构(Hadoop)等技术调用这些数据。本实施例中的指定主题是指根据实际需要而制定的待评估主题，例如体现某个城市的“大众产业、万众创新”能力的“双创指数”，体现某个城市营商环境的“营商环境指数”、体现某个城市的军民融合发展水平情况的“军民融合指数”等。

在本发明的一示意性实施例中，指标体系构建模块102具体用于通过指定接口接收指定用户提供的一级指标；以及基于该一级指标，采用知识图谱生成二级指标：针对每个一级指标，确定该一级指标的同义词，并生成由该一级指标以及该一级指标的同义词构成的第一关键词词包；从所述数据获取模块获取的数据中提取与所述第一关键词词包相关的第一数据；基于所述第一数据生成第一知识图谱；将所述第一关键词词包作为键映射到所述第一知识图谱中，并从所述第一知识图谱中筛选与所述第一关键词词包相关联的节点；采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为二级指标。

具体地，一级指标可由相关专家在对构建的指数深刻理解之后进行人工指定，在设定一级指标时，针对每个一级指标，专家会通过研究历史文献，同类指数的制定方法，相关指数的成功经验等，提出一级指标下面应该包括哪些关键影响因子，提出相应的主要影响因素和关键字。在设定一级指标之后，一级指标的权重的初始值将由专家给定。这些信息会通过指定接口上传到指数计算平台的指标体系构建模块102。

二级指标可基于一级指标采用知识图谱生成。对于每一个专家设定的一级指标，可以给定一系列关键字，用爬虫技术获取含该关键字的文档、网页等，并整理爬取获得的文档、网页中得到的键值对(key-value pair，KVP)，把键(Key)作为自动获取的指标的名称，然后用知识图谱技术得到二级指标。具体步骤如下：

a)将一级指标及其同义词整理成为第一关键词词包。

例如，一级指标是“配偶”，那么老公、老婆、爱人都属于该第一关键词词包。

b)从数据获取模块获取的数据中提取与第一关键词词包相关的第一数据。

例如：可以从网络上爬取包含第一关键词词包的文本。

c)基于第一数据生成第一知识图谱。

生成的第一知识图谱如图2所示，在图2中，第一数据中包含的关键词可以以节点(即图2中的知识点)的形式显示，相关联的节点之间通过连线连接。一级指标也可以显示为节点，那么与一级指标相连接的节点为与该一级指标相关联的节点。

步骤a)的执行与步骤b)～步骤c)的执行没有严格的先后顺序。

d)将一级指标合并后的第一关键词词包作为键映射到第一知识图谱中，将知识图谱上与其关联的关键词作为值对(Value Pair)，可以将与键相关联的节点(即值对)作为二级指标。

e)采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为二级指标。

也就是说，经过步骤d)之后得到的二级指标之间可能存在相关性或者冗余，可以利用主成份分析法(PCA，Principal Component Analysis)、聚类算法等技术来萃取重要的二级指标(例如：合并同义词等)。

在这样的基于知识图谱的二级指标生成过程中，将一级指标的关键词词包作为键映射到知识图谱中，通过筛选在知识图谱中跟一级指标的关键词词包相关联的节点来确定二级指标。该方法充分利用了知识图谱和数据挖掘的优点，不预先设定二级指标选择立场(此为传统指数中的办法)，克服人工设定所带来的主观性和局限性，有利于更早的发现、使用和研究指标特征。构建在基于自适应选择和挖掘指标特征的基础上的指数，将会常在常新，保持其生命力。

本发明实施例支持使用多源异构的大数据来计算指数，大数据时代非常重要的一个特征就是数据的多样化。数据的多样化既包括数据来源的多源化(社交媒体、新闻网站、电子政务、交通、环保等)，也有包括数据结构的多样化(文本、语音、图像、视频、关系等)，形成了“多源异构”的数据形态。并非所有种类的数据和同一种类下的所有来源数据都能用于计算指标，甚至同一种类下同一来源的数据，虽然数据量巨大，却可能充斥了各类的数据噪声，从而难以直接用于指标的计算；除此之外，不同的数据所含的信息也可能存在大量的冗余，从而导致指数计算量的增加。为了解决以上两方面的问题，在计算指数中需要有选择性的使用数据。为此，本发明通过特征选择模块103进行特征选择。

在本发明的一个示例性实施例中，可以采用知识图谱来进行特征选择。具体地，所述特征选择模块103基于所述二级指标，采用知识图谱进行特征选择：针对每个二级指标，确定该二级指标的同义词，并生成由该二级指标以及该二级指标的同义词构成的第二关键词词包；从所述数据获取模块101获取的数据中提取与所述第二关键词词包相关的第二数据；基于所述第二数据生成第二知识图谱；将所述第二关键词词包作为键映射到所述第二知识图谱中，并从所述第二知识图谱中筛选与所述第二关键词词包相关联的节点；采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为指数计算使用的特征。

与二级指标的生成过程同理，特征可以基于二级指标采用知识图谱生成。对于每一个二级指标，可以给定一系列关键字，用爬虫技术获取含该关键字的文档、网页等，并整理爬取获得的文档、网页中得到的键值对(key-value pair，KVP)，把键(Key)作为自动获取的指标的名称，然后用知识图谱技术得到特征。具体步骤如下：

a)将二级指标及其同义词整理成为第二关键词词包。

b)从数据获取模块获取的数据中提取与第二关键词词包相关的第二数据。

例如：可以从网络上爬取包含第二关键词词包的文本。

c)基于第二数据生成第二知识图谱。

具体实施时，可以通过算法把文字变成关键词之间的关系图，从知识图谱中找到这些二级指标连接的节点，即作为特征。生成的第二知识图谱可以参考图2，这里不再赘述。

步骤a)的执行与步骤b)～步骤c)的执行没有严格的先后顺序。

d)将二级指标合并后的第二关键词词包作为键映射到第二知识图谱中，将知识图谱上与其关联的关键词作为值对(Value Pair)，可以将与键相关联的节点(即值对)作为特征。

在一示例中，研究“社会稳定指数”，其中“治安”是一个二级指标，通过获取上海地区的大数据，生成相关知识图谱后发现：“盗窃”、“家暴”、“交通事故纠纷”三个节点是和二级指标“治安”连接的，于是可选择这三个节点作为二级指标的“治安”的特征。

e)采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为特征。

也就是说，经过步骤d)之后得到的特征之间可能存在相关性或者冗余，可以利用主成份分析法、聚类算法等技术来萃取重要的特征(例如：合并同义词等)。

在这样的基于知识图谱的特征生成过程中，将二级指标的关键词词包作为键映射到知识图谱中，通过筛选在知识图谱中跟二级指标的关键词词包相关联的节点来确定特征。该方法充分利用了知识图谱和数据挖掘的优点，不预先设定特征选择立场(此为传统指数中的办法)，克服人工设定所带来的主观性和局限性，有利于更早的发现、使用和研究指标特征。构建在基于自适应选择和挖掘指标特征的基础上的指数，将会常在常新，保持其生命力。

如果在对筛选出的节点进行去冗余处理后，节点数目即选择的特征数目过多，例如可能包括上万维的特征时，则需要从这些特征中选选出最具有解释能力的一些特征，例如几百个，以精简计算过程和提高计算精度。

因而，在本发明的一个示例性实施例中，所述特征选择模块103还用于在对筛选出的节点进行去冗余处理之后，执行如下降维处理的步骤：采用主成分分析法对第二知识图谱进行解析；针对每个第二关键词词包，确定与该第二关键词词包相关联的节点分别与该第二关键词词包之间的关联强度指标；响应于任一节点与对应第二关键词词包之间的关联强度指标的指标值达到预设关联强度阈值，将该任一节点确定为指数计算使用的特征。

进一步地，经过知识图谱的处理，每个二级指标对应的节点均可能与多个节点相关联，即与多个特征相关联，而每个相关联节点与二级指标对应的节点之间的关联强度可能是不同的。当确定出的特征数量过多时，可以根据各特征与二级指标之间的关联强度对特征进行筛选，保留关联强度强的特征，去掉关联强度弱的特征。可以设置关联强度阈值来衡量保留的特征和去掉的特征，即响应于任一节点与对应第二关键词词包之间的关联强度指标的指标值达到预设关联强度阈值，将该任一节点确定为指数计算使用的特征。

如图2所示，可以通过知识点之间的连线的粗细表征相连的两个节点之间的关联强度。连线越粗相连的两个节点之间的关联强度越强，反之亦然。

当指数的指标体系确定，指标特征选择完成之后，计算主要考虑的问题是各个特征的权重，以及选用适当的函数形式的问题。在本发明实施例提供的权重确定模块104，用于将确定的特征对应的第一特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到以各特征为变量的函数结构以及各特征分别对应的权重。

这里作为目标变量的初始指数值可以是预先设置在预设深度学习模型中的值，也可以是根据预定义自动输入到预设深度学习模型中的值。

权重确定模块104中使用的预设深度学习(deep learning)模型为指示指数计算使用的特征的权重值和指数值的相互关系的指数计算模型，可基于选择的特征数据来进行确定。基于选择的特征数据，深度学习模型可以是线性函数，或者是更加灵活的函数形式，如二阶灵活函数形式(second order flexible functional forms)、Translog或是非线性函数形式等。无论指数计算模型是何种函数形式，函数形式一旦给定，函数形式的限制就存在了。这样做的问题在于真实世界的函数形式其实是未知的，甚至是在不断变化的，任何函数形式的限定都会成为一种负担。例如，对于一些难以数学建模的函数，例如一个特征x₁具有“催化剂”作用，其取值影响其它部分特征如x₂,x₃的取值，则很难用函数形式表达这种关系。此外，非线性是广泛存在的，阀值跳跃等问题进一步加剧了函数形式限制问题。因此，需要突破这种函数形式的限制。鉴于此，本发明采用可以突破这种函数形式的限制的深度学习模型来进行指数的计算。

深度学习模型可以突破函数形式的限制，理论上而言，只要模型的层足够多，可以模拟任何函数形式，再配合上足够的数据和大量的训练，就可以几乎完美地模拟现实世界中复杂的函数关系。一个不满足任何数学形式的函数关系，依然能用一个简单的单层神经网络来近似地逼近它的取值，单层神经网络尚可做到这一点，如果神经网络足够深，可以用它来逼近任何一个十分复杂的未知函数关系。因此，只要有足够多的训练数据提供给模型进行学习，模型就能提供十分准确的确定出指数值，从而实现预测。

利用机器学习技术来确定权重，并且使用深度学习技术(deep learning)来避免指定固定的函数形式，避免函数形式限制(functional restriction)的问题，用深度神经网络(deep network)来实现模拟现实中极为复杂的非线性函数的目的，使权重确定与指数计算两个步骤同时得到实现。同时，利用机器学习本身需要反馈信号不停地迭代训练的特点，将相应的反馈引入到计算与更新过程，使整个过程更加科学、结果更准确。

例如，需要确定社会安定指数，其中有“治安”这个二级指标。对上海地区而言，“盗窃”、“家暴”、“交通肇事”这些特征的权重计算得出应该分别是50％，30％，20％；对兰州地区而言，“恐暴”、“盗窃”的权重分别是50％。

基于第一特征值以及作为目标变量的初始指数值训练的预设深度学习模型并不一定准确，为了解决这一问题，可以将当前指数值进行发布，并收集监督信息，基于监督信息不断的对预设深度学习模型进行调整，使得预设深度学习模型越来越准确，从而基于该预设深度学习模型确定的指数值越来越准确。

具体地，权重和指数调整模块105会根据预先设置的调整周期来执行下述调整步骤，一旦检测到满足预设调整周期，则会执行下述调整步骤：

步骤一、收集表征当前指数与其所表征现实情况之间偏差的监督信息。

监督信息可以为将指数发布后用户对该指数的偏差性反馈信息，监督信息可以来自于政府部门对指数走势的直接评论、专家对指数的偏差信息(偏高和偏低)的评估、或者社交媒体中大众对指数的舆论信息等。

在本发明的一个示意性实施例中，权重和指数调整模块105可采用如下一种或多种方式收集针对当前指数值的监督信息：

(1)通过预设接口接收指定用户提供的监督信息。

例如，可通过聚集专家组来判断当前的指数值能否反映当前的相关情况，并对指数与实际情况的契合度打分，即人工打分反馈来获取监督信息。

(2)通过爬虫程序从与当前指数所涉及领域的相关网站获取文本信息；通过解析所述文本信息确定监督信息。

本方式实现了通过舆情分析，来侧面度量社会舆论对当前指数与所涉及的领域的真实情况的离差程度的评价与看法。

(3)对用户在发布当前指数的指数发布平台的访问行为进行监控，通过用户访问行为解析出监督信息。

本方式中可通过政府部门对指数发布平台的使用记录与反馈或评论，来评价和修正所涉及的指数，可以根据用户在访问网页时对系统的操作(例如：点击、在某页面的停留时间等)确定出用户感兴趣的指数及用户对指数的评价。在本发明实施例中，指数发布平台可为与本发明提供的指数计算平台相同或者不同，即本发明实施例提供的指数计算平台也可根据需要作为指数发布平台。

(4)通过发布当前指数的指数发布平台向用户提供问卷信息，并通过用户反馈的答复信息收集监督信息。

总体而言，某指数使用频率高，用户评价高，是对它的正反馈信号；使用频率低，用户评价低，是对它的负反馈信号。

步骤二、对收集的监督信息进行解析生成反馈标签。

在通过上述一种或多种方式收集针对当前指数值的监督信息后，可以对监督信息进行解析生成反馈标签。反馈标签可以用于表征对当前指数值的偏差方向的反馈，例如：偏高、偏低、合适等，例如：通过预设接口接收指定用户提供的监督信息可以直接提供偏高、偏低或者合适的反馈；通过爬虫程序获得的监督信息，可以通过对该监督信息的解析确定出当前指数偏高、偏低或者合适的反馈；通过用户访问行为获得的监督信息，可以通过用户在浏览过程中对当前指数的操作行为(例如评论行为)确定出当前指数偏高、偏低或者合适的反馈；以及通过提供问卷获得的监督信息可以直接提供偏高、偏低或者合适的反馈。

在本发明的一个示例中，反馈标签还可根据预先设定的规则来划分精度，例如：很高、高、低、很低。

步骤三、根据生成的反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值。

步骤一中收集到的监督信息可以来自多个用户，而每个用户直接或间接提供的监督信息解析成对应的反馈标签可能都是不同的。假设收集到的监督信息来自800位用户，有的用户仅提供当前指数值的偏差方向信息，例如：偏高、偏低或者合适，有的用户不但提供当前指数值的偏差方向信息，还提供当前指数的更新值信息，例如：当前指数应该为120更能反映实际情况。那么需要制定反馈标签表征的当前指数值的偏差程度对应的调整规则，根据该调整规则对当前指数值进行调整。

在本发明提供的一种实施方式中，可以针对反馈标签表征的当前指数值的每个偏差方向，确定表征该偏差方向的反馈标签的数量；根据表征不同偏差方向的反馈标签数量之间的比例关系，确定当前指数值的偏差方向及偏差程度；根据预设规则确定该偏差方向及偏差程度对应的对当前指数值的调整方向及调整幅度。假设800位用户中存在400位用户认为当前指数值偏高，另外400位用户认为当前指数值偏低，由400:800＝1/2可知，当前指数值的偏差程度为0，那么认为当前指数比较准确不需要调整；假设800位用户中存在600位用户认为当前指数值偏高，另外200位用户认为当前指数值偏低，由600:800＝3/4可知，当前指数值的偏差程度为偏高25％，那么对应的调整规则可以为将当前指数值调高25％，得到新的当前指数值。这里仅是举例，不同偏差方向的反馈标签所占的比例与对当前指数值的调整幅度之间的对应关系，即调整规则，可以根据具体情况进行确定，这里并不限定。当监督信息中还提供了当前指数的更新值信息时，还可以将该更新值考虑到调整规则中。

步骤四、将新的当前指数值输入预设深度学习模型，采用深度神经网络再次进行迭代训练，得到调整后的以各特征为变量的函数结构以及各特征分别对应的权重。

新的当前指数值越准确得到的预设深度学习模型中函数结构以及权重越准确，后续再次进行指数计算时得到的指数越准确。

在本发明的一个示意性实施例中，以深度学习模型为一个简单的函数形式为例来说明权重和指数的确定。本发明的一个实施例构建的深度学习模型如下公式(1)所示：

其中，I表示基于指数使用的特征得到的指数值，w_i为表示各特征的权重值，x_i为各特征的特征值，i＝1,2,3,...,n。

上述深度学习模型根据反馈标签调整权重值的算法过程可如下所示：

1：初始化权重值w-1；

2：For t＝1,2，3，...T，其中，T表示总的调整次数；

3：调整w-t的取值，调整依据是反馈标签y-t；

4：更新w-t；

5：输出指数值I-t。

首先读入大数据特征数据对深度学习模型进行训练，计算出初始权重值w-1。根据本发明实施例提供的反馈机制，收集对当期指数值I-t的监督信息，并生成反馈标签y-t，将基于反馈标签得到调整后的新的当前指数值I-t+1输入深度学习模型，继续对模型进行训练调整下一期权重的取值，得到新的权重值w-t+1。不断更新这一过程算得新的权重值和指数值。

综上，在本发明中，利用深度学习技术来确定权重，并且使用深度学习技术(deeplearning)来避免指定固定的函数形式，避免函数形式限制(functional restriction)的问题，用深度神经网络(deep network)来实现模拟现实中极为复杂的非线性函数的目的，使权重确定与指数计算两个步骤同时得到实现。同时，利用机器学习本身需要反馈信号不停地迭代训练的特点，将相应的反馈引入到计算与更新过程，使整个过程更加科学、结果更准确。

图1b为本发明一实施例的指数计算平台的结构示意图。如图1b所示，在本发明的另一个实施例中，本发明实施例提供的一种指数计算平台还包括指数确定模块106。所述指数确定模块106用于在权重确定模块104确定出各特征分别对应的权重之后，或者在权重和指数调整模块105得到调整后的权重之后，将确定的特征对应的第二特征值输入所述预设深度学习模型，并基于对应的权重确定指数值。

也就是说，权重和指数调整模块105中的当前指数值可以是首次用于计算特征的初始权重值的初始指数值，也可以是基于计算的初始权重值重新计算的指数值，也可以是在初始权重值被调整之后基于调整的权重值计算的指数值。

基于同一发明构思，本发明实施例还提供了一种指数计算方法，由于该方法所解决问题的原理与前述指数计算平台相似，因此该方法的实施可以参见前述平台的实施，重复之处不再赘述。

图3为本发明实施例提供的一种指数计算方法的流程示意图。如图3所示，本发明实施例提供的一种指数计算方法，包括以下步骤：

S301、获取进行指数计算的数据。

S302、基于步骤S301中获取的数据构建指标体系。

S303、对步骤S302构建的指标体系确定的指标进行特征选择，确定指数计算使用的特征。

S304、将步骤S303中确定的特征对应的第一特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到以各特征为变量的函数结构以及各特征分别对应的权重。

按照预设周期执行S305～S308的调整步骤：

S305、收集表征当前指数与其所表征现实情况之间偏差的监督信息。

S306、对S305中收集的监督信息进行解析生成反馈标签。

S307、根据S306生成的反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值。

S308、将S307中得到的新的当前指数值输入所述预设深度学习模型，采用深度神经网络再次进行迭代训练，得到调整后的以各特征为变量的函数结构以及各特征分别对应的权重。

如图3所示，在本发明实施例中，在步骤S304中得到以各特征为变量的函数结构以及各特征分别对应的权重之后，会对是否满足预设调整周期进行判断，当判断达到预设调整周期时，会执行上述调整步骤S305-S308，并在执行调整步骤后，自动进入下一个调整周期的判断，并保存本次调整周期调整后的各特征的权重和新的当前指数值，作为下一个调整周期的输入。

本发明的另一个实施例中，提供一种指数确定方法，该实施例的指数确定方法与前述实施例相同，不同的是还可以包括如下步骤：在确定出各特征分别对应的权重之后，或者在得到调整后的权重之后，将确定的特征对应的第二特征值输入所述预设深度学习模型，并基于对应的权重确定指数值。对应的权重

对应的权重在本发明的一个示意性实施例中，在步骤S305中，可采用如下一种或多种方式来收集表征当前指数与其所表征现实情况之间偏差的监督信息：

(1)通过预设接口接收指定用户提供的监督信息；

(2)通过爬虫程序从与当前指数所涉及领域的相关网站获取文本信息；通过解析所述文本信息确定监督信息；

(3)对用户在发布当前指数的指数发布平台的访问行为进行监控，通过用户访问行为解析出监督信息；

在本发明的一个示意性实施例中，在步骤S302中，可具体通过指定接口接收指定用户提供的一级指标；以及基于所述一级指标，采用知识图谱生成二级指标：

针对每个一级指标，确定该一级指标的同义词，并生成由该一级指标以及该一级指标的同义词构成的第一关键词词包；

从获取的数据中提取与所述第一关键词词包相关的第一数据；

基于所述第一数据生成第一知识图谱；

将所述第一关键词词包作为键映射到所述第一知识图谱中，并从所述第一知识图谱中筛选与所述第一关键词词包相关联的节点；

采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定的为二级指标。

在本发明的一个示意性实施例中，在步骤S303中，可具体基于步骤S302确定的所述二级指标，采用知识图谱进行特征选择：

针对每个二级指标，确定该二级指标的同义词，并生成由该二级指标以及该二级指标的同义词构成的第二关键词词包；从获取的数据中提取与所述第二关键词词包相关的第二数据；

基于所述第二数据生成第二知识图谱；

将所述第二关键词词包作为键映射到所述第二知识图谱中，并从所述第二知识图谱中筛选与所述第二关键词词包相关联的节点；

采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为指数计算使用的特征。

在本发明的一个示意性实施例中，还包括在对筛选出的节点进行去冗余处理之后，执行如下降维处理的步骤：采用主成分分析法对所述第二知识图谱进行解析；针对每个第二关键词词包，确定与该第二关键词词包相关联的节点分别与该第二关键词词包之间的关联强度指标；响应于任一节点与对应第二关键词词包之间的关联强度指标的指标值达到预设关联强度阈值，将该任一节点确定为指数计算使用的特征。

在本发明的一个示意性实施例中，在步骤S307中，所述根据所述反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值可包括：针对反馈标签表征的当前指数值的每个偏差方向，确定表征该偏差方向的反馈标签的数量；根据表征不同偏差方向的反馈标签数量之间的比例关系，确定当前指数值的偏差方向及偏差程度；根据预设规则确定所述偏差方向及偏差程度对应的对当前指数值的调整方向及调整幅度，从而得到调整后的新的当前指数值。

上述各步骤可通过前述的各模块来实现，在此不再赘述。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明所提供的实施例中，应该理解到，所揭露平台和方法，可以通过其它的方式实现。以上所描述的平台实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种指数计算平台，其特征在于，包括：

数据获取模块，用于获取进行指数计算的数据；

指标体系构建模块，用于基于获取的数据构建指标体系；

特征选择模块，用于对所述指标体系确定的指标进行特征选择，确定指数计算使用的特征；

权重确定模块，用于将确定的特征对应的第一特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到以各特征为变量的函数结构以及各特征分别对应的权重；

权重和指数调整模块，用于按照预设周期执行如下调整步骤：

收集表征当前指数与其所表征现实情况之间偏差的监督信息；并

对收集的监督信息进行解析生成反馈标签；

根据所述反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值；

将所述新的当前指数值输入所述预设深度学习模型，采用深度神经网络再次进行迭代训练，得到调整后的以各特征为变量的函数结构以及各特征分别对应的权重。

2.根据权利要求1所述的平台，其特征在于，还包括：指数确定模块；

所述指数确定模块，用于在所述权重确定模块确定出各特征分别对应的权重之后，或者在所述权重和指数调整模块得到调整后的权重之后，将确定的特征对应的第二特征值输入所述预设深度学习模型，并基于对应的权重确定指数值。

3.根据权利要求1或2所述的平台，其特征在于，所述权重和指数调整模块，具体用于采用如下一种或多种方式收集针对当前指数值的监督信息：

通过预设接口接收指定用户提供的监督信息；或者

通过爬虫程序从与当前指数所涉及领域的相关网站获取文本信息；通过解析所述文本信息确定监督信息；或者

对用户在发布当前指数的指数发布平台的访问行为进行监控，通过用户访问行为解析出监督信息；或者

通过发布当前指数的指数发布平台向用户提供问卷信息，并通过用户反馈的答复信息收集监督信息。

4.根据权利要求1或2所述的平台，其特征在于，所述指标体系构建模块，具体用于通过指定接口接收指定用户提供的一级指标；以及基于所述一级指标，采用知识图谱生成二级指标：

从所述数据获取模块获取的数据中提取与所述第一关键词词包相关的第一数据；

基于所述第一数据生成第一知识图谱；

采用预设算法对筛选出的节点进行去冗余处理，将处理后得到的节点确定为二级指标。

5.根据权利要求4所述的平台，其特征在于，所述特征选择模块，具体用于基于所述二级指标，采用知识图谱进行特征选择：

针对每个二级指标，确定该二级指标的同义词，并生成由该二级指标以及该二级指标的同义词构成的第二关键词词包；

从所述数据获取模块获取的数据中提取与所述第二关键词词包相关的第二数据；

基于所述第二数据生成第二知识图谱；

6.根据权利要求5所述的平台，其特征在于，所述特征选择模块，还用于在对筛选出的节点进行去冗余处理之后，执行如下降维处理的步骤：

采用主成分分析法对所述第二知识图谱进行解析；针对每个第二关键词词包，确定与该第二关键词词包相关联的节点分别与该第二关键词词包之间的关联强度指标；响应于任一节点与对应第二关键词词包之间的关联强度指标的指标值达到预设关联强度阈值，将该任一节点确定为指数计算使用的特征。

7.根据权利要求1所述的平台，其特征在于，所述权重和指数调整模块，具体用于针对反馈标签表征的当前指数值的每个偏差方向，确定表征该偏差方向的反馈标签的数量；根据表征不同偏差方向的反馈标签数量之间的比例关系，确定当前指数值的偏差方向及偏差程度；根据预设规则确定所述偏差方向及偏差程度对应的对当前指数值的调整方向及调整幅度，得到调整后的新的当前指数值。

8.一种指数计算方法，其特征在于，包括以下步骤：

获取进行指数计算的数据；

基于获取的数据构建指标体系；

对所述指标体系确定的指标进行特征选择，确定指数计算使用的特征；

将确定的特征对应的第一特征值以及作为目标变量的初始指数值输入预设深度学习模型，采用深度神经网络进行迭代训练，得到以各特征为变量的函数结构以及各特征分别对应的权重；

按照预设周期执行如下调整步骤：

对收集的监督信息进行解析生成反馈标签；

9.根据权利要求8所述的方法，其特征在于，采用如下一种或多种方式收集针对当前指数值的监督信息：

通过预设接口接收指定用户提供的监督信息；或者

10.根据权利要求8所述的方法，其特征在于，所述根据所述反馈标签表征的当前指数值的偏差方向确定对应的调整规则，并对当前指数值进行调整，得到调整后的新的当前指数值，具体包括：

针对反馈标签表征的当前指数值的每个偏差方向，确定表征该偏差方向的反馈标签的数量；

根据表征不同偏差方向的反馈标签数量之间的比例关系，确定当前指数值的偏差方向及偏差程度；

根据预设规则确定所述偏差方向及偏差程度对应的对当前指数值的调整方向及调整幅度，得到调整后的新的当前指数值。