CN104951843A

CN104951843A - 销量预测系统及方法

Info

Publication number: CN104951843A
Application number: CN201410120476.9A
Authority: CN
Inventors: 周樟俊; 张学
Original assignee: Hitachi China Research and Development Corp
Current assignee: Hitachi China Research and Development Corp
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2015-09-30
Anticipated expiration: 2034-03-27
Also published as: CN104951843B

Abstract

本发明的目的在于，提供一种基于区域信息相关度匹配的销量预测系统及方法。上述销量预测系统包括：存储单元、获取单元、预处理单元、相关度计算单元、判断单元、销量系数计算单元、销量预测单元。通过本发明所提供的销量预测系统及方法，能够使基于区域信息来进行的产品销量预测的结果更加系统化和具有可靠度。

Description

销量预测系统及方法

技术领域

本发明涉及一种销量预测系统及方法，尤其涉及一种基于区域信息相关度匹配的销量预测系统及方法。

背景技术

过去，为了预测某产品在某个区域某年度的销量，通常根据该产品在该区域的历史销量来进行预测。进一步地，当要预测该产品在一个新的区域的销量时，因为不具有该产品在该区域的历史销量，所以一般利用该产品在其他区域的历史销量来进行预测。

但是，由于某产品在某区域的销量往往与某个区域的经济发展状况密切相关，如果各个区域的经济发展状况的不同，那么往往会导致同一产品在各个区域的销量差异极大。此外，可以使用区域信息（例如，区域生产总值、相关政策报告信息、人口、面积、基础建设投资额等）来对某个区域的经济发展状况进行描述。因此，如果不考虑各个区域的区域信息的相关度，而简单或随机地借用其他某个区域的历史销量来进行预测，其得出的结果可靠度较低。

发明内容

本发明的目的在于，提供一种基于区域信息相关度匹配的销量预测系统及方法。

为了实现上述目的，本发明所涉及的用于对某产品在某一区域A的下一年度的销量进行预测的销量预测系统，包括：存储单元，其存储有所述某产品分别在N个区域（N≥1，且N为自然数）的所述下一年度之前的M个年度（M≥1，且M为自然数）的各年度的销量，及所述N个区域的所述M个年度的、共计N×M个的区域信息，且所述存储单元所存储的第i（1≤i≤N，且i为自然数）个区域的第j（1≤j≤M，且j为自然数）个年度的所述区域信息对应于所述某产品在所述第i个区域的所述第j个年度的所述销量，所述区域信息是与某一区域的某一年度的经济发展状况相关的要素的集合，所述要素的类型分为数字型及文字型，所述区域信息包括一个所述数字型的所述要素即数字要素和一个所述文字型的所述要素即文字要素，以及至少一个所述数字要素或所述文字要素，所述数字要素包括所述某一区域的所述某一年度的区域生产总值，所述文字要素包括所述某一区域的所述某一年度的相关政策报告信息；获取单元，其从外部信息源获取所述区域A在与所述下一年度相接的上一年度的区域信息，且所述区域A不包括在所述N个区域之中；预处理单元，其对所述存储单元所存储的N×M个所述区域信息和所述获取单元所获取的所述区域A在所述上一年度的所述区域信息分别进行预处理，得到所述预处理后的与N×M个所述区域信息一一对应的N×M个第一区域信息和所述预处理后的所述区域A的与所述上一年度的所述区域信息对应的第二区域信息；相关度计算单元，其计算出所述第二区域信息分别与N×M个所述第一区域信息相关的相关度；判断单元，其从所述相关度计算单元所计算出的全部所述相关度中找出最大相关度，将与所述最大相关度对应的所述第一区域信息判断为基准区域信息，并根据所述存储单元中的N×M个所述区域信息与N×M个所述销量的对应关系，将与所述基准区域信息对应的所述销量作为基准销量；销量系数计算单元，其根据所述第二区域信息、所述基准区域信息和预先确定的权值计算出销量系数；销量预测单元，其将所述基准销量与所述销量系数的乘积预测为所述某产品在所述区域A的所述下一年度的销量。

进一步地，所述外部信息源包括互联网、传统媒体、政府报告及经济白皮书。

进一步地，所述存储单元所存储的任一所述区域信息中的所述要素的数量都与所述区域A的所述区域信息中的所述要素的数量相同。

进一步地，所述预处理是指根据关键字字典，对N×M个所述存储单元所存储的所述区域信息和所述获取单元所获取的所述区域A在所述上一年度的所述区域信息中的各自的所述文字要素进行计分并保持各自的所述数字要素不变，其中，所述关键字字典包括第一关键字字典和第二关键字字典，所述第一关键字字典为从政府或其他组织颁布的行业分类标准中提取出的表示产业类型的用语的集合，所述第二关键字字典为描述正向及负向变化趋势的词语的集合，所述计分是指当所述文字要素中出现一次所述第一关键字字典中的与所述某产品相关的所述用语时，则增加1分，当所述文字要素中没有出现所述第一关键字字典中的与所述某产品相关的所述用语时，则不计分，当所述文字要素中出现一次所述第二关键字字典中的表示所述正向变化趋势的词语时，则增加1分，当所述文字要素中出现一次所述第二关键字字典中的表示所述负向变化趋势的词语时，则减去1分，在利用所述第一关键字字典和所述第二关键字字典分别对所述文字要素进行所述计分后，求和得到所述文字要素的得分。

进一步地，所述产业类型是指第一、二、三产业，及所述行业分类标准中的第一、二、三产业下的具体产业的类型。

进一步地，在所述销量系数计算单元中，用预先确定的权值分别对所述第二区域信息中的各个所述要素与所述基准区域信息中的相应的各个所述要素的比值进行加权，并对已加权的上述各个比值求和，计算出所述销量系数，这里，所述权值的数量与所述第二区域信息所包含的所述要素的数量相同。

本发明所涉及的用于对某产品在某一区域A的下一年度的销量进行预测的销量预测方法，包括以下步骤：存储所述某产品分别在N个区域（N≥1，且N为自然数）的所述下一年度之前的M个年度（M≥1，且M为自然数）的各年度销量，及所述N个区域的所述M个年度的、共计N×M个的区域信息，且所存储的第i（1≤i≤N，且i为自然数）个区域的第j（1≤j≤M，且j为自然数）个年度的所述区域信息对应于所述某产品在所述第i个区域的所述第j个年度的所述销量，所述区域信息是与某一区域的某一年度的经济发展状况相关的要素的集合，所述要素的类型分为数字型及文字型，所述区域信息包括一个所述数字型的所述要素即数字要素和一个所述文字型的所述要素即文字要素，以及至少一个所述数字要素或所述文字要素，所述数字要素包括所述某一区域的所述某一年度的区域生产总值，所述文字要素包括所述某一区域的所述某一年度的相关政策报告信息；从外部信息源获取所述区域A在与所述下一年度相接的上一年度的区域信息，且所述区域A不包括在所述N个区域之中；对所存储的N×M个所述区域信息和所获取的所述区域A在所述上一年度的所述区域信息分别进行预处理，得到所述预处理后的与N×M个所述区域信息一一对应的N×M个第一区域信息和所述预处理后的所述区域A的与所述上一年度的所述区域信息对应的第二区域信息；计算出所述第二区域信息分别与N×M个所述第一区域信息相关的相关度；从所计算出的全部所述相关度中找出最大相关度，将与所述最大相关度对应的所述第一区域信息判断为基准区域信息，并根据所存储的N×M个所述区域信息与N×M个所述销量的对应关系，将与所述基准区域信息对应的所述销量作为基准销量；根据所述第二区域信息、所述基准区域信息和预先确定的权值计算出销量系数；将所述基准销量与所述销量系数的乘积预测为所述某产品在所述区域A的所述下一年度的销量。

相较于现有技术，本发明能取得如下技术效果：在利用某产品在其他区域的销量来预测来该产品在一个新的区域的销量时，根据该新的区域的区域信息与上述其他区域的区域信息的相关度匹配程度，选取最适合的其他区域的销量来进行预测，从而获得的结果具有较高的可靠度。

附图说明

图1是示出本发明所涉及的销量预测系统的结构示意图。

图2是示出本发明所涉及的销量预测方法的步骤流程示意图。

具体实施方式

下面，参照附图，对本发明所涉及到的销量预测系统及方法进行说明。但是，本发明的技术范围并不限于这些实施方式，而是涉及权利要求书中所记载的发明及其等同物。

图1是示出本发明所涉及的销量预测系统的结构示意图。如图1所示，销量预测系统1由如下几个单元组成：存储单元11、获取单元12、预处理单元13、相关度计算单元14、判断单元15、销量系数计算单元16及销量预测单元17。销量预测系统1是用于对某产品在某一区域A的下一年度的销量进行预测，区域A是将要进行该产品销售的、没有该产品的历史销售数据的新的区域。在本实施例中，销量预测系统1是被用来对挖掘机在北京的2014年的销量进行预测。

存储单元11可以是一个数据库，用来存储某产品在N个区域（N≥1，且N为自然数）的上述下一年度之前的M个年度（M≥1，且M为自然数）的、各年度的销量112及N个区域的M个年度的、共计N×M个的区域信息111。需要指出的是，在存储单元11所存储的N×M个销量112与N×M个区域信息111具有一一对应的关系，即某产品在上述N个区域中的某一区域的、上述M个年度中的某一年度的销量对应于上述N个区域中的该区域所具有的上述M个年度中的该年度的区域信息。

存储设备11将所存储的N×M个区域信息111输出到预处理单元13，并将N×M个各年度销量112输出到判断单元15。

在本实施例中，我们考虑在存储单元11中存储挖掘机在上海等10个区域的从2011年到2013年共3个年度的各年度的销量、及上海等10个区域的从2011年到2013年共3个年度的区域信息。这里，对区域的选取不作特殊限定。但是，各区域最好是具有相同等级的行政区划，或者所选取的各区域在经济层面上可以互相进行比较。

此外，这里所说的区域信息是指与某一区域的某一年度的经济发展状况相关的要素的集合。其中，上述要素的类型分为数字型及文字型，上述的一个区域信息包括一个数字型的要素（数字要素）和一个文字型的要素（文字要素），以及至少一个数字要素或文字要素，数字要素包括某一区域的某一年度的区域生产总值，文字要素的包括某一区域的某一年度的相关政策报告信息。

数字要素的构成为数字+单位，除了区域生产总值，数字要素还可以是基础建设投资额、人口、面积、区域第二产业产值等。文字要素的构成为文档（包括文字、符号等），除了相关政策报告信息，还可以是其他组织所作出的与区域经济状况有关的年报、评论等。除开上述一个区域信息的构成的要素的共通部分（即任一区域信息都包括的要素：区域生产总值和相关政策报告信息），还可以根据所要进行销量预测的产品的实际情况来决定追加哪些要素构成一个区域信息。但是，N×M个区域信息111中的各个区域信息的要素的数量必须相同，并且为了后续计算及预测结果的合理，其所包含的要素所表示的具体种类（即上述的区域生产总值、相关政策报告信息、人口、面积等）也应当一致。在本实施例中，考虑到是要对挖掘机的销量进行预测，于是存储单元11中的任一区域信息都由以下五个要素构成：区域生产总值、相关政策报告信息、基础建设投资额、人口、面积。

获取单元12是信息输入设备，用于从未图示的外部信息源获取某一区域A的与上述下一年度相接的上一年度的区域信息（下面，将其称作A区域信息）并输出到预处理单元13。并且，区域A不包括在上述N个区域中。另外，外部信息源包括互联网、传统媒体、政府报告及经济白皮书。又，A区域信息的要素的构成与上述N×M个区域信息111中的任一区域信息的要素的构成相同。在本实施例中，获取单元12从互联网获取北京2013年度的区域信息，其包括北京2013年度的区域生产总值、相关政策报告信息、基础建设投资额、人口、面积。

预处理单元13对N×M个区域信息111和A区域信息分别进行预处理，得到预处理后的与N×M个区域信息111一一对应的N×M个第一区域信息和预处理后的与A区域信息对应的第二区域信息。之后，将N×M个第一区域信息输出到相关度计算单元14和判断单元15，将第二区域信息输出到相关度计算单元14和销量计算单元16。

预处理单元13中进行的预处理按如下方式进行：

（1）保持N×M个区域信息111和A区域信息中的各自的数字要素不变。

（2）建立关键字字典。关键字字典包括第一关键字字典和第二关键字字典。第一关键字字典为从政府部门或其他组织颁布的行业分类标准中提取出的表示产业类型的用语的集合，上述产业类型是指第一、二、三产业，及行业分类标准中的第一、二、三产业下的具体产业的类型。例如在本实施例中，从中华共和国国家统计局所制定的《国民经济行业分类》中，将其中的每一条产业分类目录或分类目录中字词作为关键字，如在产业分类目录计算机、通信和其他电子设备制造业下，我们可以提取计算机、通信和其他电子设备制造业，计算机，通信，电子，制造等作为第一关键字字典的构成部分。依此类推，建立第一关键字字典。而第二关键字字典为描述正向及负向变化趋势的词语的集合，例如，在本实施例中，我们建立包括{增长、减少、增加、减小}这些词语的第二关键字字典。

（3）根据关键字字典，对N×M个区域信息111和A区域信息中的各自的文字要素进行计分。上述计分是指当文字要素中出现一次第一关键字字典中的与该产品相关的用语时，则增加1分，当文字要素中没有出现第一关键字字典中的与该产品相关的用语时，则不计分，当文字要素中出现一次第二关键字字典中的表示正向变化趋势的词语时，则增加1分，当文字要素中出现一次第二关键字字典中的表示负向变化趋势的词语时，则减去1分。

在本实施例中，因为N×M个区域信息111和A区域信息中的文字要素仅有相关政策报告信息一种，所以只需要对上述个区域信息中的相关政策报告信息这一要素进行计分。此外，这里所说的相关政策报告信息是指各个区域都会发行的、各个区域的政府每年对自己区域的经济发展状况或整体发展状况进行评估或总结的年度性报告，例如各个省份的各年度的《国民经济和社会发展统计公报》这一材料。并且，如果以某一种材料作为一个上述区域信息中的相关政策报告信息，那么也应该使用各自的该种类型的材料来作为N×M个区域信息111的任一区域信息和A区域信息中的相关政策报告信息，即是说，要保证要素的种类的一致性。

具体来说，在本实施例中，我们以下面这段的文字为例，对（3）中叙述的计分方式进行说明。“在投资方面，第一产业投资2100.02亿元，增长60.4%；第二产业投资6703.64亿元，增长30.2%；第三产业投资9861.85亿元，增长24.5%。房地产开发投资1469.33亿元，增长35.5%。投资结构得到优化。全省制造业投资2877.04亿元，增长33.8％；占城镇固定资产投资的比重为32.8%，比上年提高1.6个百分点。高新技术产业投资247.35亿元，占城镇固定资产投资的比重为2.8%；比上年下降1.6个百分点，技术改造投资3052.88亿元，占城镇固定资产投资的比重为34.8%，比上年提高1.2个百分点。存贷款余额较快增长。年末全省金融机构本外币各项存款余额16000亿元，增长18.6%，比年初新增1500亿元。年末全省金融机构本外币各项贷款余额10000亿元，减少9.9%，比年初减少1000亿元。证券市场融资创新高。年末全省上市公司数量75家。其中，境内上市公司63家，比上年增加9家；境外上市公司12家，比上年增加2家”。因为在本实施例中，要预测挖掘机的销量，所以每当上面一段文字中出现如（2）建立的第一关键字字典中的与挖掘机相关的描述产业类型的用语（关键字）时，予以加分。因而，对于上文中出现的第二产业、第三产业、制造业、房地产这些用语，每出现1次，加1分。而像是金融、证券等用语虽然也包含在如（2）建立的第一关键字字典中，但因为与挖掘机不相关，所以不加分。同样地，对于基于第二关键字字典的计分，在上文中，“增长”一词出现6次，“减少”一词出现2次，“新增”一词出现1次，“增加”一词出现2次，“下降”一词出现1次，“提高”一词出现2次，那么可以计算出上文的基于的第二关键字字典得分为8分(6-2+1+2-1+2)。

（4）基于第一关键字字典和第二关键字字典，对作为上述各个区域信息（N×M个区域信息111和A区域信息）的各自的文字要素的文档的全部进行计分，并将这两部分相加，得到的各自的该文字要素的总得分。由此，区域信息中的文字要素也被转换成了数字要素（即数字+单位的形式，这里的预处理后的文字要素的单位是“分”）。在预处理单元13中，把所有区域信息中文字要素都转换为相应的数字要素。

相关度计算单元14是一种计算装置，用于计算出第二区域信息分别与N×M个第一区域信息相关的相关度，并将计算出的相关度输出到判断单元15。相关度计算单元14中的相关度计算按照下式（1）进行。

式（1）：

C_{{ZY}_{i}} = \frac{Cov (Y_{i}, Z)}{\sqrt{D (Y_{i})} \cdot \sqrt{D (Z)}} = \frac{Σ_{j = 1}^{n} (y_{ij} - \hat{μ_{y}}) (z_{j} - \hat{μ_{z}})}{\sqrt{Σ_{j = 1}^{n} {(y_{ij} - \hat{μ_{y}})}^{2} \cdot Σ_{j = 1}^{n} {(z_{j} - \hat{μ_{z}})}^{2}}}

= \frac{n Σ_{j = 1}^{n} y_{ij} z_{j} - Σ_{j = 1}^{n} y_{ij} Σ_{j = 1}^{n} z_{j}}{\sqrt{n Σ_{j = 1}^{n} {y_{ij}}^{2} - {(Σ_{j = 1}^{n} y_{ij})}^{2}} \cdot \sqrt{n Σ_{j = 1}^{n} {z_{j}}^{2} - {(Σ_{j = 1}^{n} z_{j})}^{2}}}

其中，是指第二区域信息与N×M个第一区域信息中的任一区域信息的相关度。1≤i≤N×M，且i为自然数，Y_i表示N×M个第一区域信息中的第i个区域信息。n≥3,且n为自然数，其表示一个区域信息中的要素的总个数。1≤j≤n,且j为自然数，y_ij表示Y_i中的第j个要素。Z表示第二区域信息，z_j表示第二区域信息中的第j个要素。另外，为针对一个Y_i中的所有要素所取的平均值，为针对Z中的所有要素所取的平均值。

在本实施例中，因为存储单元11所存储的或获取单元12所获取的一个区域信息由区域生产总值、相关政策报告信息、基础建设投资额、人口、面积这个五个要素构成，所以n=5。又因为存储单元11总存储了上海等10个区域的从2011年到2013年的区域信息，所以1≤i≤30。在计算之前，我们为了方便比较数值，我们将同一区域信息中的要素的数值尽量统一到一个数量级上，即各个要素的数量级不要相差超过10³(这对于后面各个相关系数计算后的排序结果不会带来任何影响，但简化了数值计算和比较过程)。并且各个区域信息也使用相同的方法来统一自身各要素的数量级。具体来说，例如，区域信息中包含的一个要素（人口）为100万人，那么如果一个区域信息中的人口这一要素经过统一数量级后被记为1（即以100万人为1），那么其他区域信息中的人口这一要素也要采用相同的方式来统一数量级。

下面，以北京为例予以说明，假如要预测挖掘机在北京的2014年的销量，通过预处理单元13，得到预处理后的北京2013年的区域信息（即第二区域信息）为（2万亿元、700分、0.7万亿元、2千万人、1.65万平方公里），进行数量级统一后得到：Z=(2,7,0.7,2,1.65)。将其与N×M个区域中的某区域p作比较，假设此区域的区域生产总值为3.5万亿元，相关政策报告信息得分为1700分，基础建设投资额为2.5万亿元，人口有7千万，面积20万平方公里，那么经过数量级统一后得到区域p的区域信息Y_P=(3.5,17,2.5,7,20)，按照式（1），我们代入得到此两个区域的相关度如下：

C_{{ZY}_{P}} = 0.5196 \approx 0.520;

判断单元15对相关度计算单元14所计算出的全部相关度进行排序，找出最大相关度。并将与最大相关度对应的第一区域信息判断为基准区域信息(即相关度匹配)。然后根据存储单元11中的N×M个区域信息111与N×M个销量112的对应关系，将与基准区域信息对应的销量作为基准销量，之后，将基准区域信息输出到销量系数计算单元16，将基准销量输出到销量预测单元17。在本实施例中，对全部10个区域的共3个年度的总计30个区域信息与北京的2013年的区域信息的相关度进行计算之后，找出与北京的2013年的区域信息相关度最大的某个区域的某一年的区域信息（这里，假设与北京的2013年的区域信息相关度最大的区域信息为(3,16,2,5,10)），将其作为基准区域信息Y_X并加以输出，将与Y_X对应的销量作为基准销量S_X（这里，假设S_X=3500个单位）并加以输出。

销量系数计算单元16用预先确定的权值分别对第二区域信息中的各个要素与基准区域信息中的相应的各个要素的比值进行加权，并对已加权的上述各个比值求和，计算出销量系数，这里，权值的数量与第二区域信息所包含的要素的数量相同。在计算出销量系数之后，将其输送到销量预测单元17。

根据各要素对产品销售的影响，对不同的要素设置相应的权值。在本实施例中，考虑到产品为挖掘机，因而可以设置区域生产总值的权值：w₁:0.25，政策信息的权值：w₂:0.30，基础建设投资数值的权值：w₃:0.35，人口的权值w₄:0.05，面积的权值w₅:0.05。

另外，在本实施例中，经过判断单元15的处理，得到的基准区域信息为Y_X=(3,16,2,5,10)，那么由其与上述Z=(1,7,0.7,2,1.65)及相应的权值可以得到销量系数（下面，将其标记为k）为：

式（2）：

k = \frac{z_{1}}{y_{X 1}} \times w_{1} + \frac{z_{2}}{y_{X 2}} \times w_{2} + \frac{z_{3}}{y_{X 3}} \times w_{3} + \frac{z_{4}}{y_{X 4}} \times w_{4} + \frac{z_{5}}{y_{X 5}} \times w_{5}

= \frac{2}{3} \times 0.25 + \frac{7}{16} \times 0.3 + \frac{0.7}{2} \times 0.35 + \frac{2}{5} \times 0.05 + \frac{1.65}{10} \times 0.05 = 0.4486

其中，z₁,z₂,…,z₅分别表示Z中的第1到第5个要素，y_X1,y_X2,…,y_X5分别表示Y_X中的第1到第5个要素。

销量预测单元17根据下式（3），将基准销量S_X与销量系数k的乘积预测为该产品在区域A的下一年度的销量S_A。

式（3）：

S_A=k·S_X

在本实施中，挖掘机在北京的2014年度的销量被预测为：

S_A=0.4486×3500=1570.1≈1570

图2是示出本发明所涉及的销量预测方法的步骤流程示意图。

在步骤S21中，存储某产品在N个区域（N≥1，且N为自然数）的上述下一年度之前的M个年度（M≥1，且M为自然数）的、共计N×M个的各年度销量112及N个区域的M个年度的、共计N×M个的区域信息111。且所存储的N×M个销量112与N×M个区域信息111具有一一对应的关系，即某产品在上述N个区域中的某一区域的、上述M个年度中的某一年度的销量对应于上述N个区域中的该区域所具有的上述M个年度中的该年度的区域信息。所述区域信息包括一个数字要素、一个文字要素和至少一个数字要素或文字要素。

在步骤S22中，从外部信息源获取某一区域A的与上述下一年度相接的上一年度的区域信息（下面，将其称作A区域信息）。并且，区域A不包括在上述N个区域中。另外，外部信息源包括互联网、传统媒体、政府报告及经济白皮书。又，区域A的区域信息的要素的构成与上述N×M个区域信息111中的任一区域信息的要素的构成相同。

在步骤S23中，对N×M个区域信息111和A区域信息分别进行预处理，从而将上述区域信息中的所有文字要素转变为相应的数字要素，并得到预处理后的与N×M个区域信息111一一对应的N×M个第一区域信息和预处理后的与A区域信息对应的第二区域信息。

在步骤S24中，根据式（1），计算出第二区域信息与N×M个第一区域信息中的任一第一区域信息的相关度，重复进行上述计算直至计算完第二区域信息与所有第一区域信息的相关度，之后进入步骤S25。

在步骤S25中，对相关度计算单元14所计算出的全部相关度进行排序，找出最大相关度。并将与最大相关度对应的第一区域信息判断为基准区域信息。然后根据存储单元11中的N×M个区域信息111与N×M个销量112的对应关系，将与基准区域信息对应的销量作为基准销量。

在步骤S26中，根据式（2），使用预先确定的权值分别对第二区域信息中的各个要素与基准区域信息中的相应的各个要素的比值进行加权，并对已加权的上述各个比值求和，计算出销量系数，这里，权值的数量与第二区域信息所包含的要素的数量相同。

在步骤S27中，根据式（3），将基准销量S_X与销量系数k的乘积预测为该产品在区域A的下一年度的销量。

综上所述，由于依照本发明所述的系统与方法利用存储的某产品的历史销量的区域的区域信息及对应的历史销量，及获取的要进行销量预测的区域A的区域信息，通过分析区域信息之间的相关度来预测区域A的销量，有效地整合了影响产品销量的多种要素，进而使得得到的预测结果更加系统化和具有可靠度。

以上所述仅为举例，对本发明进行了描述，但本发明并不局限于以上揭示的实施例，而应当涵盖各种根据本发明的本质进行的修改、等效组合。

Claims

1.一种销量预测系统，用于对某产品在某一区域A的下一年度的销量进行预测，其特征在于，包括：

存储单元，其存储有所述某产品分别在N个区域（N≥1，且N为自然数）的所述下一年度之前的M个年度（M≥1，且M为自然数）的各年度的销量，及所述N个区域的所述M个年度的、共计N×M个的区域信息，且所述存储单元所存储的第i（1≤i≤N，且i为自然数）个区域的第j（1≤j≤M，且j为自然数）个年度的所述区域信息对应于所述某产品在所述第i个区域的所述第j个年度的所述销量，

所述区域信息是与某一区域的某一年度的经济发展状况相关的要素的集合，所述要素的类型分为数字型及文字型，所述区域信息包括一个所述数字型的所述要素即数字要素和一个所述文字型的所述要素即文字要素，以及至少一个所述数字要素或所述文字要素，所述数字要素包括所述某一区域的所述某一年度的区域生产总值，所述文字要素包括所述某一区域的所述某一年度的相关政策报告信息；

获取单元，其从外部信息源获取所述区域A在与所述下一年度相接的上一年度的区域信息，且所述区域A不包括在所述N个区域之中；

预处理单元，其对所述存储单元所存储的N×M个所述区域信息和所述获取单元所获取的所述区域A在所述上一年度的所述区域信息分别进行预处理，得到所述预处理后的与N×M个所述区域信息一一对应的N×M个第一区域信息和所述预处理后的所述区域A的与所述上一年度的所述区域信息对应的第二区域信息；

相关度计算单元，其计算出所述第二区域信息分别与N×M个所述第一区域信息相关的相关度；

判断单元，其从所述相关度计算单元所计算出的全部所述相关度中找出最大相关度，将与所述最大相关度对应的所述第一区域信息判断为基准区域信息，并根据所述存储单元中的N×M个所述区域信息与N×M个所述销量的对应关系，将与所述基准区域信息对应的所述销量作为基准销量；

销量系数计算单元，其根据所述第二区域信息、所述基准区域信息和预先确定的权值计算出销量系数；

销量预测单元，其将所述基准销量与所述销量系数的乘积预测为所述某产品在所述区域A的所述下一年度的销量。

2.如权利要求1所述的销量预测系统，其特征在于，所述外部信息源包括互联网、传统媒体、政府报告及经济白皮书。

3.如权利要求2所述销量预测系统，其特征在于，所述存储单元所存储的任一所述区域信息中的所述要素的数量都与所述区域A的所述区域信息中的所述要素的数量相同。

4.如权利要求3所述的销量预测系统，其特征在于，所述预处理是指根据关键字字典，对N×M个所述存储单元所存储的所述区域信息和所述获取单元所获取的所述区域A在所述上一年度的所述区域信息中的各自的所述文字要素进行计分并保持各自的所述数字要素不变，其中，所述关键字字典包括第一关键字字典和第二关键字字典，所述第一关键字字典为从政府部门或其他组织颁布的行业分类标准中提取出的表示产业类型的用语的集合，所述第二关键字字典为描述正向及负向变化趋势的词语的集合，

所述计分是指当所述文字要素中出现一次所述第一关键字字典中的与所述某产品相关的所述用语时，则增加1分，当所述文字要素中没有出现所述第一关键字字典中的与所述某产品相关的所述用语时，则不计分，当所述文字要素中出现一次所述第二关键字字典中的表示所述正向变化趋势的词语时，则增加1分，当所述文字要素中出现一次所述第二关键字字典中的表示所述负向变化趋势的词语时，则减去1分，

在利用所述第一关键字字典和所述第二关键字字典分别对所述文字要素进行所述计分后，求和得到所述文字要素的得分。

5.如权利要求4所述的销量预测系统，其特征在于，所述产业类型是指第一、二、三产业，及所述行业分类标准中的第一、二、三产业下的具体产业的类型。

6.如权利要求5所述的销量预测系统，其特征在于，在所述销量系数计算单元中，用预先确定的权值分别对所述第二区域信息中的各个所述要素与所述基准区域信息中的相应的各个所述要素的比值进行加权，并对已加权的上述各个比值求和，计算出所述销量系数，这里，所述权值的数量与所述第二区域信息所包含的所述要素的数量相同。

7.一种销量预测方法，用于对某产品在某一区域A的下一年度的销量进行预测，其特征在于，包括以下步骤：

存储所述某产品分别在N个区域（N≥1，且N为自然数）的所述下一年度之前的M个年度（M≥1，且M为自然数）的各年度销量，及所述N个区域的所述M个年度的、共计N×M个的区域信息，且所存储的第i（1≤i≤N，且i为自然数）个区域的第j（1≤j≤M，且j为自然数）个年度的所述区域信息对应于所述某产品在所述第i个区域的所述第j个年度的所述销量，

从外部信息源获取所述区域A在与所述下一年度相接的上一年度的区域信息，且所述区域A不包括在所述N个区域之中；

对所存储的N×M个所述区域信息和所获取的所述区域A在所述上一年度的所述区域信息分别进行预处理，得到所述预处理后的与N×M个所述区域信息一一对应的N×M个第一区域信息和所述预处理后的所述区域A的与所述上一年度的所述区域信息对应的第二区域信息；

计算出所述第二区域信息分别与N×M个所述第一区域信息相关的相关度；

从所计算出的全部所述相关度中找出最大相关度，将与所述最大相关度对应的所述第一区域信息判断为基准区域信息，并根据所存储的N×M个所述区域信息与N×M个所述销量的对应关系，将与所述基准区域信息对应的所述销量作为基准销量；

根据所述第二区域信息、所述基准区域信息和预先确定的权值计算出销量系数；

将所述基准销量与所述销量系数的乘积预测为所述某产品在所述区域A的所述下一年度的销量。