CN111414699A

CN111414699A - 信息分析预测方法、装置、计算机系统及可读存储介质

Info

Publication number: CN111414699A
Application number: CN202010217721.3A
Authority: CN
Inventors: 白育龙; 易玥杞; 洪钰; 罗力力; 孙海容; 罗水权
Original assignee: Ping An Asset Management Co Ltd
Current assignee: Ping An Asset Management Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-07-14

Abstract

本发明公开了信息分析预测方法、装置、计算机系统及可读存储介质，包括：运算服务器接收客户端发送的待测信息，并从预设的模型数据库中获取与待测信息匹配的预测模型作为目标模型；预处理服务器从运算服务器中获取待测信息和目标模型，及从待测信息中提取与目标模型中指标数据匹配的数据，并将其设为线性数据；其中，指标数据是目标模型中目标函数的自变量所对应的数据，目标函数为线性回归方程；运算服务器从预处理服务器中获取线性数据，及通过目标模型计算线性数据获得预测信息，并将预测信息发送客户端。本发明避免了不区分线性关系和非线性关系而直接录入预测模型的情况发生，保证了预测模型预测结果准确性和稳定性。

Description

信息分析预测方法、装置、计算机系统及可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种信息分析预测方法、装置、计算机系统及可读存储介质。

背景技术

预测模型是指以历史数据为依据，基于数学语言或公式所描述的事物间的数量关系，对当前数据进行运算以预测该数据主体的性质或特征的计算机程序。

目前的预测模型的构建方法主要是采用预设的目标函数，再利用大数据对该预测模型进行训练，以获得目标模型；然而在现实情况中，不是所有的数据都是具有线性关系的，因此，如果将线性关系数据和非线性关系数据不加区分的录入预测模型，以对其进行训练并获得目标模型，将导致其预测结果偏差较大，进而无法正常投入使用。

发明内容

本发明的目的是提供一种信息分析预测方法、装置、计算机系统及可读存储介质，用于解决现有技术存在的不区分线性关系数据和非线性关系数据而直接录入预测模型，以对其进行训练并获得目标模型，将导致构建的预测结果偏差较大，无法正常投入使用的问题。

为实现上述目的，本发明提供一种基于线性回归的信息分析预测方法，包括：

运算服务器接收客户端发送的待测信息，并从预设的模型数据库中获取与所述待测信息匹配的预测模型作为目标模型；

预处理服务器从所述运算服务器中获取所述待测信息和目标模型，及从所述待测信息中提取与所述目标模型中指标数据匹配的数据，并将其设为线性数据；其中，所述指标数据是目标模型中目标函数的自变量所对应的数据，所述目标函数为线性回归方程；

所述运算服务器从所述预处理服务器中获取线性数据，及通过所述目标模型计算所述线性数据获得预测信息，并将所述预测信息发送所述客户端。

上述方案中，所述预测模型通过以下步骤获得：

第一服务器从储存有样本报告的样本数据库中获取样本报告，及从所述样本报告中提取评价数据并计算使所述样本报告获得指标数据，将所述样本报告发送第二服务器；

所述第二服务器汇总样本报告的目标数据和指标数据形成所述样本报告的子指标集，并将所述样本报告发送第三服务器；

所述第三服务器识别各样本报告中子指标集的属性，以汇总属性一致的子指标集形成单一指标集，及对单一指标集的目标数据和指标数据进行单变量回归运算以获得统计校验值，并将所述单一指标集及其统计校验值发送第四服务器；其中，所述属性是指子指标集中指标数据的数据名称；

所述第四服务器根据统计校验值判断其单一指标集是否具有线性特征，并汇总具有线性特征的单一指标集形成校验数据集，及对所述校验数据集进行多变量线性回归运算以获得多变量参数，并根据所述多变量参数创建预测模型，将所述预测模型发送模型数据库。

上述方案中，从所述样本报告中提取评价数据并计算所述评价数据获得指标数据的步骤，包括：

第一服务器的预处理模块对所述评价数据进行预处理，以消除所述评价数据中的无效数据；

第一服务器的提取模块具有评价因子，所述提取模块根据所述评价因子提取各样本报告中的评价数据；

第一服务器的指标模块具有指标规则，所述指标模块根据指标规则的因子从各样本报告的评价数据中获取因子数据，按照所述指标规则的公式分别计算各所述因子数据获得指标数据；其中，所述指标规则具有对评价数据进行计算以获得某一指标属性的公式，以及计算该公式所需因子；

第一服务器的关联模块将所述指标规则的指标属性与所述指标数据关联，将各所述指标数据分别载入与其对应的样本报告，使各所述样本报告分别获得指标数据。

上述方案中，第二服务器汇总样本报告的目标数据和指标数据形成所述样本报告的子指标集的步骤，包括：

第二服务器的目标模块具有目标因子，所述目标模块根据目标因子提取各样本报告中的目标数据，及将所述样本报告中的目标数据分别与该样本报告中的指标数据一一对应；

第二服务器的子指标模块汇总相互对应的目标数据和指标数据形成子指标集，提取所述子指标集中指标数据的指标属性，并将该指标属性设为所述子指标集的属性。

上述方案中，对单一指标集的目标数据和指标数据进行单变量回归运算以获得统计校验值的步骤，包括：

第三服务器的界限模块提取单一指标集的指标数据，根据所述指标数据的分布界定指标上限和指标下限；

所述第三服务器的超标模块将所述单一指标集中高于指标上限的指标数据修改为所述指标上限，及将低于指标下限的指标数据修改为指标下限；

所述第三服务器的标准化模块对所述单一指标集的指标数据进行标准化处理，使所述指标数据符合正态分布；

信息分析预测所述第三服务器的单一变量模块具有单一变量回归模型，所述单一变量模块将单一指标集的目标数据作为单一变量回归模型因变量，将单一指标集中各指标数据作为单一变量回归模型的自变量，通过所述单一变量回归模型计算所述因变量和自变量以获得目标单一变量回归模型；

所述第三服务器的计算模块触发所述目标单一变量回归模型计算，以对所述目标数据和指标数据进行运算以获得统计校验值。

上述方案中，第四服务器根据统计校验值判断其单一指标集是否具有线性特征的步骤，包括：

第四服务器的判断模块依次将各单一指标集的统计校验值与预设的校验阈值进行比对；

若统计校验值小于预设的校验阈值，则判定该统计校验值所对应的单一指标集具有线性特征；

若统计校验值不小于预设的校验阈值，则判定该统计校验值所对应的单一指标集不具有线性特征，并删除该单一指标集及其统计校验值。

上述方案中，对所述校验数据集进行多变量线性回归运算以获得多变量参数，并根据所述多变量参数创建预测模型的步骤，包括：

第四服务器的多变量模块具有多变量回归模型，所述多变量模块将校验数据集的目标数据作为所述多变量回归模型因变量，将校验数据集中的指标数据作为所述多变量回归模型的自变量，通过所述多变量回归模型计算所述因变量和自变量以获得多变量参数；

第四服务器的创建模块根据多变量参数创建多变量函数，及以所述多变量函数作为目标函数创建预测模型。

为实现上述目的，本发明还提供一种基于线性回归的信息分析预测装置，其特征在于，包括：

运算服务器，用于接收客户端发送的待测信息，并从预设的模型数据库中获取与所述待测信息匹配的预测模型作为目标模型；以及从预处理服务器中获取线性数据，及通过所述目标模型计算所述线性数据获得预测信息，并将所述预测信息发送所述客户端；

预处理服务器，用于从所述运算服务器中获取所述待测信息和目标模型，及从所述待测信息中提取与所述目标模型中指标数据匹配的数据，并将其设为线性数据；其中，所述指标数据是目标模型中目标函数的自变量所对应的数据，所述目标函数为线性回归方程。

为实现上述目的，本发明还提供一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时共同实现上述信息分析预测方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述信息分析预测方法的步骤。

本发明提供的信息分析预测方法、装置、计算机系统及可读存储介质，通过预处理服务器从所述运算服务器中获取所述待测信息和目标模型，及从所述待测信息中提取与所述目标模型中指标数据匹配的数据，并将其设为线性数据；以获得待测信息中与最终的分类预测目标(即预测信息)之间具有线性关系的线性数据，并通过所述运算服务器从所述预处理服务器中获取线性数据，及通过所述目标模型计算所述线性数据获得预测信息，解决了现有技术存在的不区分线性关系数据和非线性关系数据而直接录入预测模型，以对其进行训练并获得目标模型，将导致构建的预测结果偏差较大，无法正常投入使用的问题。

附图说明

图1为本发明信息分析预测方法实施例一的流程图；

图2为本发明信息分析预测方法实施例一中获得预测模型的流程图；

图3为本发明信息分析预测方法实施例一的S1中获得指标数据的具体工作流程图；

图4为本发明信息分析预测方法实施例一的S2中形成样本报告的子指标集的具体工作流程图；

图5为本发明信息分析预测方法实施例一的S3中获得统计校验值之前的具体工作流程图；

图6为本发明信息分析预测方法实施例一的S3中获得统计校验值的具体工作流程图；

图7为本发明信息分析预测方法实施例一的S4中判断其单一指标集是否具有线性特征的具体工作流程图；

图8为本发明信息分析预测方法实施例一的S4中创建预测模型的具体工作流程图；

图9为本发明信息分析预测装置实施例二的程序模块示意图；

图10为本发明计算机系统实施例三中计算机设备的硬件结构示意图。

附图标记：

1、信息分析预测装置 2、计算机设备 11、第一服务器

12、第二服务器 13、第三服务器 14、第四服务器

15、模型数据库 21、存储器 22、处理器

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的信息分析预测方法、装置、计算机系统及可读存储介质，适用于人工智能领域，为提供一种基于运算服务器、预处理服务器和模型数据库的信息分析预测方法。本发明通过本发明提供的信息分析预测方法、装置、计算机系统及可读存储介质，通过预处理服务器从所述运算服务器中获取所述待测信息和目标模型，及从所述待测信息中提取与所述目标模型中指标数据匹配的数据，并将其设为线性数据；以获得待测信息中与最终的分类预测目标(即预测信息)之间具有线性关系的线性数据，并通过所述运算服务器从所述预处理服务器中获取线性数据，及通过所述目标模型计算所述线性数据获得预测信息，解决了现有技术存在的不区分线性关系数据和非线性关系数据而直接录入预测模型，以对其进行训练并获得目标模型，将导致构建的预测结果偏差较大，无法正常投入使用的问题。

实施例一

请参阅图1，本实施例的一种基于线性回归的信息分析预测方法，包括：

M1：运算服务器接收客户端发送的待测信息，并从预设的模型数据库中获取与所述待测信息匹配的预测模型作为目标模型；

其中，所述线性模型是一种以目标函数作为运算工具的计算机模型，其通过计算待测信息中的指标数据对所述待测信息进行预测。

M2：预处理服务器从所述运算服务器中获取所述待测信息和目标模型，及从所述待测信息中提取与所述目标模型中指标数据匹配的数据，并将其设为线性数据；其中，所述指标数据是目标模型中目标函数的自变量所对应的数据，所述目标函数为线性回归方程。

于本实施例中，可通过获得目标函数自变量所对应数据的名称，如：一般预算收入、政府性基金、地方财政支出等；从待测信息中获取与所述名称匹配的数据并将其设为线性数据，如：一般预算收入：126.02亿元、政府性基金：37.77亿元、地方财政支出：430.14亿元。

M3：所述运算服务器从所述预处理服务器中获取线性数据，及通过所述目标模型计算所述线性数据获得预测信息，并将所述预测信息发送所述客户端。

其中，所述预测信息是一种根据线性数据对待测信息进行分类的数据信息。

示例性地，将线性数据“一般预算收入：126.02亿元、政府性基金：37.77亿元、地方财政支出：430.14亿元”录入目标模型，所述目标模型通过其目标函数计算所述线性数据获得预测信息，例如：根据所述线性数据所述待测信息分类为AA评级，此时，生成的预测信息为“信用评级：AA”。

在一个优选的实施例中，请参阅图2，所述预测模型通过以下步骤获得：S1：第一服务器从储存有样本报告的样本数据库中获取样本报告，及从所述样本报告中提取评价数据并计算所述评价数据获得指标数据，将所述样本报告发送第二服务器；

S2：所述第二服务器汇总样本报告的目标数据和指标数据形成所述样本报告的子指标集，并将所述样本报告发送第三服务器；

S3：所述第三服务器识别各样本报告中子指标集的属性，以汇总属性一致的子指标集形成单一指标集，及对单一指标集的目标数据和指标数据进行单变量回归运算以获得统计校验值，并将所述单一指标集及其统计校验值发送第四服务器；其中，所述属性是指子指标集中指标数据的数据名称；

S4：所述第四服务器根据统计校验值判断其单一指标集是否具有线性特征，并汇总具有线性特征的单一指标集形成校验数据集，及对所述校验数据集进行多变量线性回归运算以获得多变量参数，并根据所述多变量参数创建预测模型，将所述预测模型发送模型数据库。

在示例性的实施例中，创建保存有样本报告的样本数据库，第一服务器从所述样本数据库中获取多个样本报告，提取各样本报告的目标数据和评价数据，并按照预设的指标规则分别计算各样本报告的评价数据，使各所述样本报告分别获得至少一个指标数据，并将具有指标数据的样本报告发送第二服务器；第二服务器将样本报告中各指标数据分别与所述样本报告的目标数据进行汇总，使所述样本报告至少获得一个子指标集，并将具有子指标集的样本报告发送第三服务器；第三服务器依次提取各样本报告中属性一致的子指标集并汇总，以获得至少一个单一指标集；分别对各所述单一指标集的目标数据和指标数据进行单变量回归运算，以分别获得统计校验值，将所述单一指标集及其统计校验值发送第四服务器；其中，所述属性是指子指标集中指标数据的数据名称；第四服务器分别根据各统计校验值判断各单一指标集是否具有线性特征，并汇总具有线性特征的单一指标集形成校验数据集；对所述校验数据集进行多变量线性回归运算以获得多变量参数，根据所述多变量参数创建预测模型并将其发送模型数据库。

需要说明的是，所述样本报告是一种记载有目标数据和评价数据的文本信息，其反应了历史上某一已被分类的商业主体的运行过程，其中，所述目标数据用于对样本报告进行分类(与所述预测信息对应)，所述评价数据是所述商业主体的运行过程中所产生的数据信息，其从多维度反应了商业主体的运行状态，例如：一般预算收入、政府性基金、地方财政支出、主体运行概况、主体投资现场图像等。在示例性的实施例中，所述第一服务器具有语言图像处理模块，所述语言图像处理模块对样本报告进行自然语言处理和图像识别以获得结构化信息，将所述结构化信息作为目标数据及评价数据载入所述样本报告。

例如，通过NLP模型对发债主体××市投资集团有限公司的《××市投资集团有限公司主体与相关债项2019年度跟踪评级报告》(因原评级报告内容过长，且与本申请的技术方案无关，故不再此赘述)，进行自然语言处理和图像识别，所获得的结构化信息包括：

公司名称：××市投资集团有限公司

背靠政府：××市

2018年主体运行概况：2018年处于亏损状态，连续三年业绩下滑。

2018年主体投资现场图像：图像A(***广场竣工照片)，图像B(***工程奠基仪式)，此处为通过对所述评级报告进行图像识别，获得的以文本形式表达现场图像内容的结构化信息。

2018年一般预算收入：126.02亿元

2018年政府性基金：37.77亿元

2018年地方财政支出：430.14亿元

2018年政府债务率：64％

2018年地区生产总值：1440.00亿元

2018年地区生产总值增速：2.8％

2018年三次产业结构：6.5：45.9：47.6

2018年人均地区生产总值：32066.00

2018年年利润总额：6亿元

2018年年营业额：30亿元

信用评级：AA

需要说明的是，所述语言处理模块是通过NLP(自然语言处理)模型所构成的计算机模型，其中，所述NLP模型是一种通过对自然语言进行自动分词、词性标注、句法分析、文本分类、信息检索以及信息抽取以获得用户需要的关键信息，并将其转化为结构化信息的计算机模型，由于本领域技术人员很容易通过NLP模型获取文本中的关键信息并将其转化为结构化信息，而本申请所解决的技术问题是如何识别具有线性关系的数据，并根据该数据获得多变量回归的预测模型的技术问题，故将不在本申请中对NLP模型在的工作流程及方法进行赘述。

在一个优选的实施例中，请参阅图3，所述S1中从所述样本报告中提取评价数据并计算所述评价数据获得指标数据包括：

S101：第一服务器的预处理模块对所述评价数据进行预处理，以消除所述评价数据中的无效数据；

示例性地，通过去除所述评价数据中的无效数据以对其进行预处理，获得具有真实意义的有效数据；例如，识别评价数据中，值为零、或为空、或为乱码的数据，并将其清除，使评价数据转为有效的数据。

需要说明的是，可采用pandas模块作为所述预处理模块是，所述Pandas模块是Python用于数据导入及整理的模块，其可清除数据中值为零、或为空、或为乱码的数据。

S102：第一服务器的提取模块具有评价因子，所述提取模块根据所述评价因子提取各样本报告中的评价数据。

示例性地，设置评价因子，根据所述评价因子从各样本报告中提取评价数据；例如，评价因子包括营业额因子、利润额因子、成本因子、缴税因子，则在样本报告中获取营业额、利润额、成本、缴税额所对应的数据作为评价数据；如果评价数据为文本或图像，可通过预设的分指标将评价数据中的文字或字母转为分值数据，以便于进行单变量回归和多变量回归的运算，如：评价数据中出现亏损，则生成-10的分值，若评价数据中出现连续三年业绩下滑，则生成-20的分值，若评价数据中出现竣工仪式或奠基仪式，则生成20分的分值；其中，所述分值可直接作为单变量回归和多变量回归的自变量。

需要说明的是，可采用re模块作为所述提取模块，所述re模块是一种在python中通过内嵌集成的模块，其用于直接实现正则匹配。

S103：第一服务器的指标模块具有指标规则，所述指标模块根据指标规则的因子从各样本报告的评价数据中获取因子数据，按照所述指标规则的公式分别计算各所述因子数据获得指标数据；其中，所述指标规则具有对评价数据进行计算以获得某一指标属性的公式，以及计算该公式所需因子。

示例性地，指标规则具有对评价数据进行计算，以获得某一指标属性(如利润率)的计算公式(如利润率计算公式)，以及计算该公式(如利润率计算公式)，所需数据因子(如：利润额因子，营业额因子)；按照所述指标规则分别计算各所述有效数据以获得指标数据；根据数据因子从所述评价数据中提取因子数据，根据计算公式计算所述因子数据获得指标数据，例如，根据利润额因子从所述评价数据中提取年利润总额，根据营业额因子从评价数据中提取年营业额，根据利润计算公式将所述年利润总额与年营业额相除获得年利润率。

需要说明的是，可采用python的math模块构建所述指标模块的公式，其中，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以构建所述指标模块的公式；同时，还可采用re模块构建所述指标模块计算上述公式所需的因子。

S104：第一服务器的关联模块将所述指标规则的指标属性与所述指标数据关联，将各所述指标数据分别载入与其对应的样本报告，使各所述样本报告分别获得指标数据。

示例性地，提取指标规则的指标属性(如利润率)，将指标属性与指标数据关联；将指标数据写入计算出该指标数据的评价数据所对应的样本报告中，实现将各指标数据载入与其对应的样本报告的技术效果，进而使各样本报告分别获得指标数据；其中，可通过将指标属性作为指标数据的名称的方式，使指标属性与指标数据关联。

于本实施例中，通过将所述指标属性作为所述指标数据的数据名称，使其与指标数据形成一体，实现将指标属性与指标数据关联的技术效果。

需要说明的是，可采用Python的xlwt模块作为所述关联模块，其中，xlwt模块Python中用于实现对文件写入效果的模块。

在一个优选的实施例中，请参阅图4，S2中第二服务器汇总样本报告的目标数据和指标数据形成所述样本报告的子指标集包括：

S201：第二服务器的目标模块具有目标因子，所述目标模块根据目标因子提取各样本报告中的目标数据，及将所述样本报告中的目标数据分别与该样本报告中的指标数据一一对应；

示例性地，设置目标因子，根据所述目标因子从各样本报告中提取目标数据；例如，目标因子为信用评级，则在样本报告中获取信用评级所对应的评级：AA。其中，所述目标因子可根据需要进行设置。其中，对于内容为文字或字母的目标数据，可通过预设的分值表将目标数据中的文字或字母转换为分值数据，以便于进行单变量回归和多变量回归的运算。

例如，可通过预设的评级分值表将所述目标数据中的信用评级“AA”转化为具体的分值，如“80分”。样本报告中的目标数据为信用评级“AA”，其对应的分值为“80分”，样本报告中的指标数据包括利润率“20％”，收入支出比“29.3％”，那么将信用评级“80分”分别与利润率“20％”，收入支出比“29.3％”一一对应。

需要说明的是，可采用re模块作为所述目标模块，所述re模块是一种在python中通过内嵌集成的模块，其用于直接实现正则匹配。

S202：第二服务器的子指标模块汇总相互对应的目标数据和指标数据形成子指标集，提取所述子指标集中指标数据的指标属性，并将该指标属性设为所述子指标集的属性。

例如：将信用评级“80分”与利润率“20％”汇总形成子指标集，并提取指标数据的指标属性“利润率”作为该子指标集的属性；将信用评级“80分”与收入支出比“29.3％”汇总形成子指标集，并提取指标数据的指标属性“收入支出比”作为该子指标集的属性。

需要说明的是，可采用python的xlrd模块和xlwt模块作为子指标模块，其中，xlrd模块用于实现对文件内容的读取，因此可通过该模块提取所述子指标集中指标数据的指标属性；xlwt模块用于实现对文件的写入，因此可通过该模块将指标属性写入子指标集以作为该子指标集的属性。

在一个优选的实施例中，请参阅图5，所述S3中对单一指标集的目标数据和指标数据进行单变量回归运算以获得统计校验值之前包括：

S301：第三服务器的界限模块提取单一指标集的指标数据，根据所述指标数据的分布界定指标上限和指标下限。

示例性地，将所有单一指标集中值最大的指标数据作为极大指标，将所有单一指标集中值最小的指标数据作为极小指标，将极大指标与极小指标相减获得极差，对所述极差平均分割形成若干个数距，将极大指标与至少一个数距相减获得指标上限，将极小指标与至少一个数距相加获得指标下限。

其中，将极差分割形成数距的数量可根据需要设置，将极大指标与数距相减获得指标上限的数距数量可根据需要设置，将极小指标与数距相加获得指标下限的数据数量可根据需要设置。

需要说明的是，可采用python的math模块构建所述界限模块，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以实现将极大指标与极小指标相减获得极差，对所述极差平均分割形成若干个数距，将极大指标与至少一个数距相减获得指标上限，将极小指标与至少一个数距相加获得指标下限。

S302：所述第三服务器的超标模块将所述单一指标集中高于指标上限的指标数据修改为所述指标上限，及将低于指标下限的指标数据修改为指标下限。

其中，通过将高于指标上限的指标数据修改为指标上限，将低于指标下限的指标数据修改为指标下限，以降低单一指标集中的偏差值，避免出现值极高或极低的干扰情况出现，保证了数据的可靠性。

需要说明的是，可采用python的math模块构建所述超标模块，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以实现将高于指标上限的指标数据修改为指标上限，将低于指标下限的指标数据修改为指标下限。

S303：所述第三服务器的标准化模块对所述单一指标集的指标数据进行标准化处理，使所述指标数据符合正态分布。

示例性地，通过sigmoid函数，如下所示，对指标数据进行标准化处理：

其中，x是指指标数据，S(x)是指指标数据的调整值；

通过上述sigmoid函数将单一指标集的指标数据，以获得指标数据的调整值，并将单一指标集中的指标数据分别修改为所述调整值，以实现对指标数据进行标准化处理的技术效果。

需要说明的是，可采用python的math模块构建所述标准化模块，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以获得sigmoid函数。正态分布是一种服从一个位置参数、尺度参数为的概率分布，其形状是中间高两边低的钟形结构，遵循的是偏向于两端极值所出现的概率最低，而偏向于数据均值的概率最高的特征。sigmoid函数是一种用于将变量映射到0,1之间的阈值函数，因为sigmoid函数具有单增以及反函数单增等性质，因此，通过采用sigmoid函数，使单一指标集中偏向指标下限的指标数据，其调整值将愈发偏离“0”，使单一指标集中偏向指标上限的指标数据，其调整值愈发偏离“1”，对于指标上限和指标下限之间的指标数据，若其越偏向指标上限和指标下限之间均值，该指标数据的调整值愈发偏向“0.5”，进而，使获得的调整值更加符合正态分布特征。通过将指标数据进行标准化处理，突出了各指标数据的真实意图，为提高预测模型的准确度提供了前提条件。

在一个优选的实施例中，请参阅图6，所述S3中对单一指标集的目标数据和指标数据进行单变量回归运算以获得统计校验值包括：

S311：所述第三服务器的单一变量模块具有单一变量回归模型，所述单一变量模块将单一指标集的目标数据作为单一变量回归模型因变量，将单一指标集中各指标数据作为单一变量回归模型的自变量，通过所述单一变量回归模型计算所述因变量和自变量以获得目标单一变量回归模型。

本步骤中，所述单一变量回归模型的目标函数是：

h_θ(x)＝θ₀+θ₁x

其中，hθ(x)是指单一变量回归模型的因变量，X是指单一变量回归模型的自变量，θ0是单一变量回归模型的自变量偏置值，θ1是单一变量回归模型的自变量权重系数。

将目标数据作为因变量，将指标数据作为自变量带入单一指标集的目标函数；计算单一指标集中目标数据的平均值并将其设为目标平均值Y-，计算单一指标集中指标数据的平均值并将其设为指标平均值X-；

根据公式

其中，n为单一指标集中目标数据及指标数据的数量，x1是指第一个指标数据，y1是指第一个目标数据，以获得单一变量回归模型的自变量权重系数θ1；把目标平均值Y^-和指标平均值X^-带入单一变量回归模型的目标函数，获得单一变量回归模型的自变量偏置值θ0；将自变量权重系数和自变量偏置值带入单一变量回归模型的目标函数，获得目标单一变量回归模型。

需要说明的是，可采用python的math模块构建所述单一变量模块，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以获得单一变量回归模型的目标函数。

S312：所述第三服务器的计算模块触发所述目标单一变量回归模型计算，以对所述目标数据和指标数据进行运算以获得统计校验值。

示例性地，将指标数据录入目标单一变量回归模型，通过该模型的目标函数计算获得目标计算数据，将所述目标计算数据与所述指标数据对应的目标数据相减获得目标偏差；将所述单一目标集中指标数据依次录入目标单一变量回归模型，并分别获得目标偏差，将所有的目标偏差依次相加获得统计校验值。

需要说明的是，可基于EventHandler构建所述计算模块，所述EventHandler表示将处理不包含事件数据的事件的方法，其为一种事件的触发方法，因此基于该方法的计算模块将直接触发目标单一变量回归模型计算，以对所述目标数据和指标数据进行运算以获得统计校验值。

在一个优选的实施例中，请参阅图7，所述S4所述第四服务器根据统计校验值判断其单一指标集是否具有线性特征包括：

S401：第四服务器的判断模块依次将各单一指标集的统计校验值与预设的校验阈值进行比对。

本步骤中，所述统计校验值越小，说明单一指标集中的目标数据与指标数据之间越符合线性关系，然而，由于在真实环境中是不存在绝对的线性关系的，因此，通过设置校验阈值，将统计校验值小于该校验阈值的单一指标集设为符合线性关系的设定，有助于科学合理的构建预测模型。

S402：若统计校验值小于预设的校验阈值，则判定该统计校验值所对应的单一指标集具有线性特征；

S403：若统计校验值不小于预设的校验阈值，则判定该统计校验值所对应的单一指标集不具有线性特征，并删除该单一指标集及其统计校验值。

需要说明的是，可采用“if”函数构建所述判断模块，以判断统计校验值是否小于预设的校验阈值。

在一个优选的实施例中，请参阅图8，所述S4中对所述校验数据集进行多变量线性回归运算以获得多变量参数，并根据所述多变量参数创建预测模型的步骤，包括：

S411：第四服务器的多变量模块具有多变量回归模型，所述多变量模块将校验数据集的目标数据作为所述多变量回归模型因变量，将校验数据集中的指标数据作为所述多变量回归模型的自变量，通过所述多变量回归模型计算所述因变量和自变量以获得多变量参数。

本步骤中，所述多变量回归模型的目标函数是：

h_θn(x)＝θ₀+θ₁x₁+θ₂x₂……θnx_n

其中，h_θn(x)是指多变量回归模型的因变量，X是指多变量回归模型的自变量，θ₀是多变量回归模型的自变量偏置值，θ₁是多变量回归模型的第一自变量权重系数，θ₂是多变量回归模型的第二自变量权重系数，θ_n是多变量回归模型的第n自变量权重系数。

计算校验数据集中各单一指标集中指标数据的均值并将其设为指标平均值(Xi)^-，以及各单一指标集中目标数据的平均值并将其设为目标平均值Y^-i；

将校验数据集中各单一指标集的指标平均值和目标平均值，录入所述多变量回归模型的目标函数，通过所述目标函数计算各单一指标集的目标平均值和指标平均值，以获得多变量回归模型的自变量偏置值θ₀，多变量回归模型的第一自变量权重系数θ₁，多变量回归模型的第二自变量权重系数θ₂，直至多变量回归模型的第n自变量权重系数θ_n；其中，多变量回归模型的自变量偏置值θ₀，多变量回归模型的第一自变量权重系数θ₁，多变量回归模型的第二自变量权重系数θ₂……多变量回归模型的第n自变量权重系数θ_n为所述多变量参数。

需要说明的是，可采用python的math模块构建所述多变量模块，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以获得多变量回归模型的目标函数。

S412：第四服务器的创建模块根据多变量参数创建多变量函数，及以所述多变量函数作为目标函数创建预测模型。

本步骤中，根据所述多变量参数中的多变量回归模型的自变量偏置值θ0，多变量回归模型的第一自变量权重系数θ1，多变量回归模型的第二自变量权重系数θ2……多变量回归模型的第n自变量权重系数θn。

创建多变量函数：

h_θn(x)＝θ₀+θ₁x₁+θ₂x₂……θnx_n

其中，x为指标数据，h_θn(x)为预测数据。

通过将所述多变量函数设为可接收数据并自动运行的计算机程序的运行函数，以获得预测模型。

需要说明的是，可采用python的math模块构建所述创建模块，所述math模块中定义了数学函数，由于这个模块属于编译系统自带，因此它可以被无条件调用以获得预测模型。并且接收数据并对其进行运算的计算机程序是本领域技术人员的公知常识，而本申请所解决的技术问题是，如何获得较高的预测准确度的预测模型，故该计算机程序的运行原理在本申请中不做赘述。

实施例二

请参阅图9，本实施例的一种基于线性回归的信息分析预测装置1，包括：

运算服务器A，用于接收客户端C发送的待测信息，并从预设的模型数据库15中获取与所述待测信息匹配的预测模型作为目标模型；以及从预处理服务器中获取线性数据，及通过所述目标模型计算所述线性数据获得预测信息，并将所述预测信息发送所述客户端C；

预处理服务器B，用于从所述运算服务器中获取所述待测信息和目标模型，及从所述待测信息中提取与所述目标模型中指标数据匹配的数据，并将其设为线性数据；其中，所述指标数据是目标模型中目标函数的自变量所对应的数据，所述目标函数为线性回归方程。

可选的，信息分析预测装置1还包括：

第一服务器11，用于从储存有样本报告的样本数据库中获取样本报告，及从所述样本报告中提取评价数据并计算所述评价数据获得指标数据，将所述样本报告发送第二服务器12；

第二服务器12，用于汇总样本报告的目标数据和指标数据形成所述样本报告的子指标集，并将所述样本报告发送第三服务器13；

第三服务器13，用于识别各样本报告中子指标集的属性，以汇总属性一致的子指标集形成单一指标集，及对单一指标集的目标数据和指标数据进行单变量回归运算以获得统计校验值，并将所述单一指标集及其统计校验值发送第四服务器14；其中，所述属性是指子指标集中指标数据的数据名称；

第四服务器14，用于根据统计校验值判断其单一指标集是否具有线性特征，并汇总具有线性特征的单一指标集形成校验数据集，及对所述校验数据集进行多变量线性回归运算以获得多变量参数，并根据所述多变量参数创建预测模型，将所述预测模型发送模型数据库15；

模型数据库15，用于保存预测模型。

可选的，第一服务器11具有预处理模块111，用于对所述评价数据进行预处理，以消除所述评价数据中的无效数据；

第一服务器11还具有提取模块112，用于根据所述评价因子提取各样本报告中的评价数据；

第一服务器11还具有指标模块113，用于根据指标规则的因子从各样本报告的评价数据中获取因子数据，按照所述指标规则的公式分别计算各所述因子数据获得指标数据；

第一服务器11还具有关联模块114，用于将所述指标规则的指标属性与所述指标数据关联，将各所述指标数据分别载入与其对应的样本报告，使各所述样本报告分别获得指标数据。

可选的，第二服务器12具有目标模块121，用于根据目标因子提取各样本报告中的目标数据，及将所述样本报告中的目标数据分别与该样本报告中的指标数据一一对应；

第二服务器12还具有子指标模块122，用于汇总相互对应的目标数据和指标数据形成子指标集，提取所述子指标集中指标数据的指标属性，并将该指标属性设为所述子指标集的属性；

可选的，第三服务器13具有界限模块131，用于提取单一指标集的指标数据，根据所述指标数据的分布界定指标上限和指标下限；

第三服务器13还具有超标模块132，用于将所述单一指标集中高于指标上限的指标数据修改为所述指标上限，及将低于指标下限的指标数据修改为指标下限；

第三服务器13还具有标准化模块133，用于对所述单一指标集的指标数据进行标准化处理，使所述指标数据符合正态分布。

可选的，第三服务器13具有单一变量模块134，用于将单一指标集的目标数据作为单一变量回归模型因变量，将单一指标集中各指标数据作为单一变量回归模型的自变量，通过所述单一变量回归模型计算所述因变量和自变量以获得目标单一变量回归模型；

第三服务器13还具有计算模块135，用于触发所述目标单一变量回归模型计算，以对所述目标数据和指标数据进行运算以获得统计校验值。

可选的，第四服务器14具有判断模块141，用于依次将各单一指标集的统计校验值与预设的校验阈值进行比对；若统计校验值小于预设的校验阈值，则判定该统计校验值所对应的单一指标集具有线性特征；若统计校验值不小于预设的校验阈值，则判定该统计校验值所对应的单一指标集不具有线性特征，并删除该单一指标集及其统计校验值。

可选的，第四服务器14具有多变量模块142，用于将校验数据集的目标数据作为所述多变量回归模型因变量，将校验数据集中的指标数据作为所述多变量回归模型的自变量，通过所述多变量回归模型计算所述因变量和自变量以获得多变量参数；

第四服务器14还具有创建模块143，用于根据多变量参数创建多变量函数，及以所述多变量函数作为目标函数创建预测模型。

本技术方案基于人工智能领域的智能决策技术，获取样本报告及从中提取评价数据并计算使获得样本报告获得指标数据；汇总样本报告的目标数据和指标数据形成样本报告的子指标集；识别各样本报告中子指标集的属性，汇总属性一致的子指标集形成单一指标集，对单一指标集的目标数据和指标数据进行单变量回归运算获得统计校验值；根据统计校验值判断其单一指标集是否具有线性特征，汇总具有线性特征的单一指标集形成校验数据集，对校验数据集进行多变量线性回归运算获得多变量参数，根据多变量参数创建预测模型

实施例三：

为实现上述目的，本发明还提供一种计算机系统，该计算机系统包括多个计算机设备5，实施例二的信息分析预测装置1的组成部分可分散于不同的计算机设备中，计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图10所示。需要指出的是，图10仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例一的信息分析预测装置的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行信息分析预测装置，以实现实施例一的信息分析预测方法。

实施例四：

为实现上述目的，本发明还提供一种计算机可读存储系统，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器22执行时实现相应功能。本实施例的计算机可读存储介质用于存储信息分析预测装置，被处理器22执行时实现实施例一的信息分析预测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于线性回归的信息分析预测方法，其特征在于，包括：

2.根据权利要求1所述的信息分析预测方法，其特征在于，所述预测模型通过以下步骤获得：

第一服务器从储存有样本报告的样本数据库中获取样本报告，及从所述样本报告中提取评价数据并计算所述评价数据获得指标数据，将所述样本报告发送第二服务器；

3.根据权利要求2所述的信息分析预测方法，其特征在于，从所述样本报告中提取评价数据并计算所述评价数据获得指标数据的步骤，包括：

4.根据权利要求2所述的信息分析预测方法，其特征在于，第二服务器汇总样本报告的目标数据和指标数据形成所述样本报告的子指标集的步骤，包括：

5.根据权利要求2所述的信息分析预测方法，其特征在于，对单一指标集的目标数据和指标数据进行单变量回归运算以获得统计校验值的步骤，包括：

6.根据权利要求2所述的信息分析预测方法，其特征在于，第四服务器根据统计校验值判断其单一指标集是否具有线性特征的步骤，包括：

7.根据权利要求2所述的信息分析预测方法，其特征在于，对所述校验数据集进行多变量线性回归运算以获得多变量参数，并根据所述多变量参数创建预测模型的步骤，包括：

8.一种基于线性回归的信息分析预测装置，其特征在于，包括：

9.一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述信息分析预测方法的步骤。

10.一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其特征在于，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述信息分析预测方法的步骤。