CN112949705B

CN112949705B - 一种基于大数据的假币流通分析方法及装置

Info

Publication number: CN112949705B
Application number: CN202110207158.6A
Authority: CN
Inventors: 张新壮; 周鹏飞
Original assignee: Beijing Huichen Capital Information Co ltd
Current assignee: Beijing Huichen Capital Information Co ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-03-04
Anticipated expiration: 2041-02-24
Also published as: CN112949705A

Abstract

本发明公开了一种基于大数据的假币流通分析方法及装置，属于大数据分析领域，解决了假币流通分析的效率较低、准确度较低的问题。其技术要点包括：获取假币的收缴数据，训练假币形成方式分类模型，获取假币形成方式标签，对机制假币获取时空传播特征，并进行流通路径分析，生成流通路径地理图。本发明利用大数据技术，提高了数据处理能力，并充分挖掘收缴数据蕴含的假币传播规律，能提高假币流通分析的工作效率及分析结果的准确度。

Description

一种基于大数据的假币流通分析方法及装置

技术领域

本发明涉及大数据分析领域，尤其涉及一种基于大数据的假币流通分析方法及装置。

背景技术

假币的制造和流通不仅给人民财产带来损失，也影响着金融秩序和经济稳定，更是给我国在国际经济贸易中的形象带来负面影响。通常假币的主要犯罪方式有两种，一种是机制假币犯罪，采用大型机具，版源统一，生产规模大，与普通商品的流通环节一致，包括了制造、分销、销售、使用等环节，范围涉及多个地理区域，社会危害大，是国家重点打击的犯罪活动；另一种是打印假币犯罪，使用电脑打印机等小型设备，方法简单，电子版式多样，一般涉及制造、运输、使用等环节。打击假币犯罪，只有从源头到末端实现全链条打击，才能从根本上遏制假币犯罪。为了实现全链条打击，准确高效获取假币流通路径对于相关单位制定行动决策进而精确打击制造、分销、运输、使用假币的犯罪行为十分必要。由于流通路径与假币形成方式存在密切关系，不同形成方式的假币其流通模式存在差异，因此对流通假币进行形成方式区分是必要步骤。对假币区分形成方式后，分别对机制假币和打印假币进行流通分析，就可以发现各自的流通规律。本发明公开的流通分析方法主要针对机制假币。

现有技术一般采用物理检验的手段，人工对假币票样的油墨、纸张、制版、图案的差异点进行综合分析，根据经验来判断假币的形成方式和可能的流出区域。由于需要以票样为基础，存在票样获取不及时、不全面的特点，且分析票样数量有限，无法应对百万级数据规模，因此假币流通分析的工作效率较低且准确度较低。

发明内容

本发明针对现有技术的问题，提供了一种基于大数据的假币流通分析方法，用以提高工作效率及分析结果的准确度，该方法包括：

获取假币的收缴数据，收缴数据至少包括收缴日期，收缴金融机构属性，票样属性；

获取假币形成方式分类模型，基于已知形成方式的假币标注样本构建特征向量并训练分类模型；

获取假币形成方式标签，应用假币形成方式分类模型对未标注样本进行分类，并筛选出机制假币；

获取机制假币的时空传播特征，至少包括收缴区域、首次收缴日期；

根据机制假币的时空传播特征进行流通路径分析，得到机制假币在区域间的流通路径；

根据机制假币的流通路径，生成机制假币流通路径地理图。

进一步的，收缴数据是金融机构获取假币时记录的数据信息，收缴数据中的收缴金融机构属性包括金融机构名称、经纬度位置、所在地址的省市级行政区划，收缴数据中的票样属性至少包括假币币种、券别、版别、面值、冠字号码。

进一步的，假币形成方式分类模型，可对输入的特征向量输出相应的分类结果，包括第一类分类结果和第二类分类结果。第一类分类结果是机制假币，第二类分类结果是打印假币。获取假币形成方式分类模型包括的步骤有：

获取第一类假币和第二类假币的训练样本，包括样本的收缴数据和样本标签，样本标签包括第一类假币机制假币和第二类假币打印假币。

获取假币训练样本的特征向量。

选择分类算法，调参并迭代训练后得到最优的分类模型。

进一步的，假币的特征向量，从收缴数据计算得到，至少包括收缴数量，同系列冠字号码的数量，同系列冠字号码总收缴量，同系列冠字号码中的总收缴量与最小收缴量之间比值，冠字号码的活跃时长特征。同系列冠字号码指冠字号码前四位相同但后六位不完全相同的冠字号码。收缴数量是某一冠字号码假币在全国各地总的收缴张数，同系列冠字号码的数量是与某一冠字号码同系列的所有冠字号码的数量，同系列冠字号码总收缴量是同系列包含的假币在全国各地总的收缴张数，同系列冠字号码中最小收缴量是该系列中收缴张数最小的收缴量。冠字号码的活跃时长是指冠字号码相同的假币中，最早的收缴日期与最晚的收缴日期之间的日期间隔。

进一步的，模型迭代训练使用的损失函数为交叉熵损失函数：

L(y，p)＝-(ylog(p)+(1-y)log(1-p))

其中y∈{0，1}表示真实标签，1表示机制假币，0表示打印假币；p＝Pr(y＝1),p∈[0，1]表示模型预测标签为1(机制假币)的概率。最优模型的评价指标为F₁分数。在多组参数对应的模型中，最优分类模型是F₁分数最高的模型。

其中

TP表示实际为机制假币被预测为机制假币的样本数量，FP表示实际是打印假币被预测为机制假币的样本数量，FN表示实际是机制假币被预测为打印假币的样本数量。

进一步的，获取假币形成方式标签，应用形成方式分类模型对未标注样本进行分类，分类的结果包括第一类分类结果机制假币和第二类分类结果打印假币。机制假币一般制造规模大，社会危害大，从制造到分销、销售、使用等环节涉及流通路径多，是本发明提供的假币流通分析方法优先分析的一类假币，因此筛选出机制假币进行后续分析。

进一步的，获取机制假币的时空传播特征，包括假币的收缴区域，在收缴区域的首次收缴日期。所述收缴区域可根据分析粒度确定，可以为省份、城市、区县，首次收缴日期是指在该收缴区域内所有假币的收缴日期中最早的日期。

进一步的，根据机制假币的时空传播特征进行流通路径分析，目的是发现各区域之间的假币流通路径，即假币是如何在区域之间伴随人的活动转移的，包括的步骤有：

依照时间维度，针对机制假币中每一冠字号码假币，以首次收缴日期先后顺序对出现区域进行排序；

结合空间维度，将时间顺序存在前后顺序的区域依次组合成流通路径关系对；

按照流通路径关系对的日期间隔、距离间隔，筛选有效的流通关系对，得到冠字号码的流通路径；

对流通路径相同的冠字号码进行汇总，得到区域间的流通路径。

可选的，对于区域间流通路径涉及的冠字号码数目超过一定阈值的流通路径，可标记为重点关注路径。此处的阈值为冠字号码总数的60％。

可选的，根据假币的流通路径，生成的流通路径地理图，包括：

某一冠字号码的流通路径地理图，用实线表示区域之间的流通路径，实线的宽度表示流通的假币数量，数量越大，宽度越大；

区域之间的假币流通路径地理图，用实线表示区域之间的流通路径，实线的宽度表示流通路径相同的冠字号码的数量，数量越多，宽度越大。

可选的，地理图的底图是国内地图，可缩放显示级别，流通路径使用带箭头的实线绘制，起点为假币的流出区域，终点为假币的流入区域。

本发明实施例还提供了一种基于大数据的假币流通分析装置，包括：

数据获取模块，用于获取假币的收缴数据,收缴数据至少包括收缴日期，收缴金融机构属性，票样属性；

分类模型训练模块，用于训练假币形成方式分类模型，基于已知形成方式的假币标注样本构建特征向量并训练分类模型。

假币形成方式识别模块，用于获取假币形成方式标签，应用形成方式分类模型对未标注样本进行分类，并筛选出机制假币。

时空传播特征构建模块，用于获取机制假币的时空传播特征，至少包括收缴区域、收缴日期；

流通路径分析模块，用于根据机制假币的时空传播特征进行流通路径分析，得到机制假币在区域间的流通路径；

流通路径地理图生成模块，用于根据机制假币的流通路径，生成流通路径地理图。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明实施例中，通过获取假币的收缴数据，训练假币形成方式分类模型，获取假币形成方式标签，对机制假币获取时空传播特征，并进行流通路径分析，生成流通路径地理图，提高了假币流通路径分析的工作效率及分析结果的准确度。

附图说明

图1为本发明实施例中基于大数据的假币流通分析方法的流程图。

图2为本发明实施例中训练形成方式分类模型的流程图。

图3为本发明实施例中基于机制假币时空传播特征进行流通路径分析的流程图。

图4为本发明实施例中基于大数据的假币流通分析装置的结构示意图。

具体实施方式

下面结合附图对本发明实施例的技术方案进行清楚、完整地描述。应当理解，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

图1为本发明实施例提供的一种基于大数据的假币流通分析方法的流程图，该方法包括：

步骤S101、获取假币的收缴数据,收缴数据至少包括收缴日期、收缴金融机构属性、票样数据。

在实施例中，进一步的，收缴数据中的金融机构属性包括金融机构名称、经纬度位置、所在的省市县级行政区划，收缴数据中的票样属性至少包括假币币种、券别、版别、面值、冠字号码。

步骤S102、训练假币形成方式分类模型，基于已知形成方式的假币标注样本构建特征向量并训练分类模型。

在实施例中，所述假币形成方式分类模型，可对输入的特征向量输出相应的分类结果，包括第一类分类结果和第二类分类结果。第一类分类结果是机制假币，第二类分类结果是打印假币。机制假币一般制造规模大，从制造到分销、销售、使用等环节涉及流通路径多，是本发明提供的流通分析方法优先分析的一类假币。分类模型由已知形成方式的第一类假币样本和第二类假币样本训练得到，如图2所示，包括的步骤有：

步骤S201、获取第一类假币和第二类假币的训练样本，包括样本的收缴数据和样本标签，样本标签包括第一类假币机制假币和第二类假币打印假币。

步骤S202、获取假币训练样本的特征向量。

在实施例中，假币的特征向量，从收缴数据计算得到，至少包括收缴数量，同系列冠字号码的数量，同系列冠字号码总收缴量，同系列冠字号码中的总收缴量与最小收缴量之间比值，冠字号码的活跃时长。同系列冠字号码指冠字号码前四位相同但后六位不完全相同的冠字号码。收缴数量是某一冠字号码假币在全国各地总的收缴张数，同系列冠字号码的数量是与某一冠字号码同系列的所有冠字号码的数量，同系列冠字号码总收缴量是同系列包含的假币在全国各地总的收缴张数，同系列冠字号码中最小收缴量是该系列中收缴张数最小的收缴量。冠字号码的活跃时长是指冠字号码相同的假币中，最早的收缴日期与最晚的收缴日期之间的日期间隔。

例如某一假币冠字号码为AB90345631，收缴量为N₁，同系列的假币冠字号码及对应收缴量为(AB90345632，N₂)，(AB90345633,N₃)，(AB90345634,N₄)，(AB90345635,N₅)，(AB90345636,N₆)，(AB90345637,N₇)，(AB90345638,N₈)，(AB90345639,N₉)，(AB90345640,N₁₀)，(AB90345641,N₁₁)，(AB90345642,N₁₂)，(AB90345643,N₁₃)，(AB90345644,N₁₄)，(AB90345645,N₁₅),则假币冠字号码AB90345631对应的特征计算方式为：

冠字号码的收缴数量：f1＝N₁，单位张

同系列冠字号码的数量：f2＝15，单位个

同系列冠字号码假币的总收缴量:

单位张,M为同系列冠字号码的数量同系列冠字号码假币的总收缴量与最小收缴量之间比值:

冠字号码假币的活跃时长:f5＝D_recent-D_early，单位天，其中D_early为冠字号码AB90345631的最早出现日期，D_recent为最近出现日期；

构成的特征向量为(f1，f2，f3，f4，f5)。

步骤S203、选择分类算法，迭代训练后得到最优的分类模型。

在实施例中，选择梯度提升树算法，并初始化模型参数，经过调参迭代训练后得到最优分类模型。模型迭代训练使用的损失函数为交叉熵损失函数：

L(y，p)＝-(ylog(p)+(1-y)log(1-p))

其中y∈{0，1}表示真实标签，1表示机制假币，0表示打印假币；p＝Pr(y＝1),p∈[0，1]表示模型预测标签为1(机制假币)的概率。

最优模型的评价指标为F₁分数。在多组参数对应的模型中，最优分类模型是F₁分数最高的模型。

其中

步骤S103、获取假币形成方式标签，应用假币形成方式分类模型对未标注样本进行分类，并筛选出机制假币。

在实施例中，将训练得到的最优分类模型，应用到未标注样本，输入未标注样本的特征向量，得到假币的形成方式标签，确定未标注样本为机制假币还是打印假币。根据形成方式标签，筛选出机制假币进行后续分析。

步骤S104、获取机制假币的时空传播特征。

在实施例中，获取机制假币的时空传播特征，包括假币的收缴区域，在收缴区域的首次收缴日期。所述收缴区域可根据分析粒度确定，可以为省份、城市、县区，首次收缴日期是指在该收缴区域内所有假币的收缴日期中最早的日期。

例如，假币AB90345631在A城市的收缴日期有3月10号，3月11号，3月12号……，在B城市的收缴日期有3月12号，3月13号，3月14号……，那么假币AB90345631在A城市的首次收缴日期是3月10号，在B城市的首次收缴日期是3月12号。

步骤S105、根据机制假币的时空传播特征进行流通路径分析，得到假币在区域间的流通路径；

在实施例中，对于区域间流通路径涉及的冠字号码数目超过一定阈值的流通路径，可标记为重点关注路径。此处的阈值为冠字号码总数的60％。

在实施例中，根据机制假币的时空传播特征进行流通路径分析，目的是发现各区域之间的假币流通路径，即假币是如何在区域之间伴随人的活动转移的，如图3所示，包括的步骤有：

步骤S301、依照时间维度，针对机制假币中每一冠字号假币，以首次收缴日期先后顺序对出现区域进行排序；

步骤S302、结合空间维度，将时间顺序存在前后的区域依次组合成流通路径关系对；

步骤S303、按照流通路径关系对的日期间隔和距离间隔，筛选有效的流通路径关系对，得到冠字号码的流通路径；

在具体实施中，有效的流通路径关系对满足下面两个条件：

dis(area_out，area_in)＜D

diff(date_out，date_in)＜T

其中dis(area_out，area_in)表示候选的流通路径关系对中假币冠字号码所出现区域之间的距离间隔，单位千米；area_out/area_in表示区域的经纬度，单位为度；diff(date_out，date_in)表示候选的流通路径关系对中假币冠字号码在两区域出现的日期间隔，单位为天；date_out/date_in表示假币冠字号码在两区域出现的日期；距离间隔阈值D和日期间隔阈值T的选择与区域类型和具体数据有关,例如区域类型为省份，距离间隔阈值D的影响因素至少包括相邻省份之间的平均距离、最大距离，日期间隔阈值T的影响因素至少包括相邻省份关系对之间日期间隔的平均值、最大值，并结合客观事实综合分析后确定阈值。

步骤S304、对流通路径相同的冠字号码进行汇总，得到区域间的流通路径；

步骤S106、根据机制假币的流通路径，生成机制假币流通路径地理图，包括：

在实施例中，地理图的底图是国内地图，可缩放显示级别，流通路径使用带箭头的实线绘制，起点为假币的流出区域，终点为假币的流入区域。

本发明实施例中还提供了一种基于大数据的假币流通分析装置，如下面的实施例所述。由于基于大数据的假币流通分析装置解决问题的原理与基于大数据的假币流通分析方法相似，因此假币流通分析装置的实施可以参见假币流通分析方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件地组合的实现也是可能被构想的。

图4为本发明实施例提供的一种基于大数据的假币流通分析装置的结构示意图，该装置包括：

数据获取模块S401，用于获取假币的收缴数据,收缴数据至少包括收缴日期，收缴金融机构属性，票样属性；

分类模型训练模块S402，用于训练假币形成方式分类模型，基于已知形成方式的假币标注样本构建特征向量并训练分类模型；

假币形成方式识别模块S403，用于获取假币形成方式标签，应用形成方式分类模型对未标注样本进行分类，并筛选出机制假币；

时空传播特征构建模块S404，用于获取机制假币的时空传播特征，至少包括收缴区域、首次收缴日期；

流通路径分析模块S405，用于根据机制假币的时空传播特征进行流通路径分析，得到假币在区域间的流通路径；

流通路径地理图生成模块S406，用于根据机制假币的流通路径，生成流通路径地理图。

在一个实施例中，提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明的有益效果是：本发明提供了基于大数据的假币流通分析方法，通过获取假币的收缴数据，训练假币形成方式分类模型，获取假币形成方式标签，对机制假币获取时空传播特征，并进行流通路径分析，生成流通路径地理图。由于分析过程不依赖票样的物理特征，因此能够对假币全量数据进行分析，能完整揭示假币流通特性，提高了分析结果的准确度；同时利用大数据技术能高效处理分析大规模数据，提高了假币流通路径分析的工作效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、CD-ROM等)上实施的计算机程序产品的形式。

以上结合具体实施例描述了本发明的技术原理和有益效果，所应理解的是，以上仅是本发明的优选实施方式。本发明的保护范围并不仅局限于上述实施例，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，所做的任何修改、等同替换、改进等，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于大数据的假币流通分析方法，其特征在于，包括：

训练假币形成方式分类模型，基于已知形成方式的假币标注样本构建特征向量并训练分类模型，所述样本以冠字号码标识相同冠字号码的全部假币收缴数据，所述特征向量包括收缴数量，同系列冠字号码的数量，同系列冠字号码总收缴量，同系列冠字号码中的总收缴量与最小收缴量之间比值，冠字号码的活跃时长；

获取机制假币每一冠字号码的时空传播特征，至少包括收缴区域、首次收缴日期；

根据机制假币每一冠字号码的时空传播特征进行流通路径分析，得到机制假币在区域间的流通路径；

根据机制假币冠字号码的全部流通路径，生成机制假币流通路径地理图，所述流通路径地理图包括每一冠字号码的流通路径地理图和区域之间的假币流通路径地理图。

2.如权利要求1所述的方法，其特征在于：

所述收缴数据是金融机构获取假币时记录的数据信息，所述收缴金融机构属性至少包括金融机构名称、经纬度位置、所在的省市县级行政区划；所述票样属性包括假币币种、券别、版别、面值、冠字号码。

3.如权利要求1所述的方法，其特征在于，训练假币形成方式分类模型包括的步骤有：

获取第一类假币和第二类假币的训练样本，包括样本的收缴数据和样本标签，样本标签包括第一类假币机制假币和第二类假币打印假币；

获取假币训练样本的特征向量；

选择分类算法，调参并迭代训练后得到最优的分类模型。

4.如权利要求1所述的方法，其特征在于，机制假币每一冠字号码的时空传播特征，包括:

假币的收缴区域，在收缴区域的首次收缴日期；所述收缴区域可根据分析粒度确定，可以为省份、城市、县区，首次收缴日期是指在该收缴区域内所有假币的收缴日期中最早的日期。

5.如权利要求1所述的方法，其特征在于，得到机制假币在区域间的流通路径的步骤包括：

依照时间维度，针对第一类假币中每一冠字号码假币，以首次收缴日期先后顺序对出现区域进行排序；

6.如权利要求1所述的方法，其特征在于，生成的机制假币流通路径地理图，包括：

每一冠字号码的流通路径地理图，用实线表示区域之间的流通路径，实线的宽度表示流通的假币数量，数量越大，宽度越大；

7.一种基于大数据的假币流通分析装置，其特征在于，包括：

数据获取模块，用于获取假币的收缴数据；

分类模型训练模块,用于训练假币形成方式分类模型，基于已知形成方式的假币标注样本构建特征向量并训练分类模型,所述特征向量包括收缴数量，同系列冠字号码的数量，同系列冠字号码总收缴量，同系列冠字号码中的总收缴量与最小收缴量之间比值，冠字号码的活跃时长；

假币形成方式标签获取模块，用于获取假币形成方式标签，应用形成方式分类模型对未标注样本进行分类，并筛选出机制假币；

时空传播特征构建模块，用于获取机制假币每一冠字号码的时空传播特征；

流通路径分析模块，用于根据机制假币每一冠字号码的时空传播特征进行流通路径分析，得到假币在区域间的流通路径；

流通路径地理图生成模块，用于根据机制假币冠字号码的全部流通路径，生成流通路径地理图，所述流通路径地理图包括每一冠字号码的流通路径地理图和区域之间的假币流通路径地理图。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至6任一所述方法的计算机程序。