CN111401448B

CN111401448B - 一种交易平台分类方法和装置

Info

Publication number: CN111401448B
Application number: CN202010183470.1A
Authority: CN
Inventors: 杜漫; 苏沐冉; 毛洪亮; 林绅文; 杨菁林; 刘少杰; 董皓; 王凡凡; 刘昕明; 余智华
Original assignee: Golaxy Data Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Golaxy Data Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2024-05-24
Anticipated expiration: 2040-03-16
Also published as: CN111401448A

Abstract

本发明提供了一种交易平台分类方法和装置，包括步骤：数据采集，接收第一数据，根据第一数据获取第二数据，所述第二数据包括自然语言，对所述第二数据进行第一预处理，生成第三数据；数据处理，对所述第三数据进行分析，根据数据相关度，判定所述第三数据为第一类数据或第二类数据；分类模型建立，将所述第一类数据和第二类数据根据样本数和学习率建立分类模型；平台分类，接收平台数据和所述第三数据，将所述第三数据输入所述分类模型，判定所述第三数据为第一类数据或第二类数据；分析平台数据，判定与所述平台数据相关的第三数据。通过数据采集，数据处理，分类模型建立，平台分类，判断平台为场内或场外平台。

Description

一种交易平台分类方法和装置

技术领域：

本发明涉及虚拟数字货币分析领域，具体的，涉及一种交易平台分类方法和装置。

背景技术：

不可否认，区块链已经成为继大数据、人工智能后的一项热门话题，尤其在中国，投资圈、创业圈、金融科技圈等不同行业领域都出现了较大范围的讨论，围绕去中心化、分布式计算、数字货币等方面的技术和知识受到了引人瞩目的关注。在虚拟数字货币的生态链条中，虚拟货币与法币的兑换交易是核心环节，随着虚拟货币的深入发展，交易规模迅猛增加。除通过撮合平台进行集中竞价交易外，还存在通过私下协商方式进行的点对点交易，也被成为场外交易。

场外交易：1.更具有灵活性，甚至不用实名认证就可以买到币，只需要注册平台账号即可，对于买家而言过程简洁方便；2.不会有交易资金信息保留在平台上；3.交易量可以非常大，例如你想要买一千个币，短期内是收不到的，平台币的价格也会被拉的非常高，但点对点交易可以锁定价格，一次性成交。隐私保护性强场外交易对手双方匿名性强，交易支付渠道众多。但是，场外交易可能存在欺诈交易隐患，而且出现了首次代币发行等利用虚拟货币进行违规融资的情况，融资规模大，参与用户多，容易出现欺诈和资金损失风险，违背了国家有关政策法规规定。但是场外交易平台往往存在在众多网页当中，存在难以找到并监管的问题。

因此，本领域亟需一种交易平台分类方法和装置以解决现有技术中的至少一项技术问题。

发明内容：

为解决背景技术中的至少一个技术问题，提出本发明。

具体的，本发明提供了一种交易平台分类方法，包括步骤：

数据采集，接收第一数据，根据第一数据获取第二数据，所述第二数据包括自然语言，对所述第二数据进行第一预处理，生成第三数据；

数据处理，对所述第三数据进行分析，根据数据相关度，判定所述第三数据为第一类数据或第二类数据；

分类模型建立，将所述第一类数据和第二类数据根据样本数和学习率建立分类模型；

平台分类，接收平台数据和所述第三数据，将所述第三数据输入所述分类模型，判定所述第三数据为第一类数据或第二类数据；分析平台数据，判定与所述平台数据相关的第三数据。

采用上述技术方案，根据所述第一数据在互联网中采集相关的第二数据，提升数据全面性；通过数据处理分析所述第三数据，判定所述第三数据类别，为数据模型建立提供样本；通过建立数据模型提高第三数据分类效率，不需要逐个进行分析；分析平台数据，判定与所述平台数据相关的第三数据，判断所述平台数据为第一类数据或第二类数据,进而判断平台为场内或场外平台。

进一步地，所述数据采集的步骤还包括：

根据所述第一数据，在互联网中提取与第一数据相关的第一相关数据；

根据所述第一相关数据得出汇总数据，对所述汇总数据进行第二预处理，得出所述第二数据。

优选地，所述在互联网中提取与第一数据相关的第一相关数据包括，第一数据的上层、同层或下层的第一相关数据。

优选地，将相关联的第一相关数据进行合并，生成所述汇总数据。

采用上述方案，全方位从互联网中提取与第一数据相关的第一相关数据，通过对所述第一相关数据进行合并，降低需要存储的样本数量，降低存储负担。

进一步地，所述第二预处理包括：噪声去除、分句、分词中的至少一种方法。

进一步地，对所述第二数据进行第一预处理的步骤还包括：

接收所述第二数据；

筛选出所述第二数据中的无意义数据；

将所述无意义数据从所述第二数据中删除，得出所述第三数据。

采用上述方案，提出所述第二数据中的无用数据，提高所述第三数据的有效性，提高数据采集的精准度。

进一步地，所述数据处理的步骤还包括：

接收第一文件和第二文件，分析所述第一文件得到第一关键词，分析所述第二文件得到第二关键词；

所述第三数据分别对第一关键词和第二关键词进行对比，得出数据相关度；

根据所述数据相关度判定所述第三数据为第一类数据或第二类数据。

优选地，当所述第三数据与所述第一关键词的数据相关度大于与第二关键词的数据相关度时，判定所述第三数据为第一类数据；

当所述第三数据与所述第一关键词的数据相关度小于与第二关键词的数据相关度时，判定所述第三数据为第二类数据；

当所述第三数据与所述第一关键词的数据相关度等于与第二关键词的数据相关度时，判定所述第三数据同时为第一类数据和第二类数据。

采用上述方案，通过所述第一文件和第二文件与所述第三数据的相关度分析，将所述第三数据分为第一类数据和第二类数据，极大程度的保证分类的精准性，保证数据第一类数据和第二类数据的分类准确率。

进一步地，所述分类模型建立的步骤还包括：

分析所述第一类数据，得出第一特征词，分析所述第二类数据的出第二特征词；

将所述第一特征词分为第一训练词和第一测试词，将所述第二特征词分为第二训练词和第二测试词；

将所述第一训练词和第二训练词通过卷积处理建立第一模型，所述第一模型包括第一区域和第二区域，所述第一训练词位于所述第一区域，所述第二训练词位于所述第二区域；

接收第一阈值参数，将所述第一测试词和第二测试词带入所述第一模型中，得出测试正确率，判断所述测试正确率是否大于所述第一阈值参数；

若是，所述第一模型即为分类模型；

若否，调整所述卷积处理参数，重新建立所述第一模型。

采用上述方案，通过卷积处理快速建立所述第一模型，通过调整所述卷积处理参数，调整所述第一训练词和第二训练词在所述第一模型中的位置，反复调整所述第一模型，直到测试正确率大于所述第一阈值参数，提高所述分类模型的分类精准度，提高所述分类模型的工作效率。

进一步地，所述卷积处理的步骤包括：

将所述第一训练词和第二训练词转化为第一词向量和第二词向量；

将所述第一词向量和第二词向量通过卷积运算得出第一词坐标和第二词坐标，所述卷积运算包括卷积计算和池化。

采用上述方案，通过卷积处理快速确定所述第一训练词的第一词坐标和所述第二训练词的第二词坐标，保证所述第一词坐标和第二词坐标在所述分类模型中的位置精确度。

优选地，对所述第一词向量和第二词向量进行多次所述卷积运算。

采用上述方案，提高所述卷积运算精准度。

进一步地，所述平台分类的步骤包括：

对所述未经数据处理的第三数据进行所述第二预处理，得出所述第三子数据；

对所述第三子数据进行卷积处理，得出所述第三词向量；

筛选所述第一词向量和第二词向量中与所述第三词向量相关的第一相关词向量和第二相关词向量；

计算所述第三词向量与所述第一相关词向量的距离，得出第一距离，计算所述第三词向量与所述第二相关词向量的距离，得出第二距离；

判断所述第一距离是否大于第二距离；

若否，所述第三数据为第一类数据；

若是，所述第三数据为第二类数据。

采用上述方案，通过对向量的距离计算，精准分析出每个第三数据与所述第一相关词向量和第二相关词向量的距离，直观的分析出相关性，提高对所述第三数据的分类速度和正确率。

进一步地，筛选出所述第一相关词向量和第二相关词向量的步骤包括：

接收距离阈值参数；

计算所述第三词向量与所述第一词向量和第二词向量的距离；

判断所述第三词向量与所述第一词向量的距离是否小于所述距离阈值参数；

若是，判定所述第一词向量为所述第一相关词向量；

若否，判定所述第一词向量不为所述第一相关词向量；

判断所述第三词向量与所述第二词向量的距离是否小于所述距离阈值参数；

若是，判定所述第二词向量为所述第二相关词向量；

若否，判定所述第二词向量不为所述第二相关词向量。

采用上述方案，通过设定所述距离阈值参数和计算所述第三词向量与所述第一词向量和第二词向量的距离，提取出所述第一相关词向量和第二相关词向量，减少对所述第三数据的分类时需要的样本数量，提高分类速度。

进一步地，所述平台分类的步骤还包括：

接收所述平台数据，对所述平台数据进行所述第二预处理，得出平台子数据；

对所述平台子数据进行卷积处理，得出第四词向量；

计算所述第四词向量与所述第三词向量的距离；

判断所述第四词向量与所述第三词向量的距离是否小于所述距离阈值参数；

若是，所述第三数据与所述平台数据为相关数据；

若否，所述第三数据与所述平台数据不为相关数据。

进一步地，所述平台分类的步骤还包括：

提取所有所述平台数据的相关的第三数据；

根据所述第三数据的分类，对所述平台数据进行分类。

采用上述方案，快速提取出与所述平台相关的第三数据，根据对所述第三数据分类，判定所述平台为场外交易平台或场内交易平台，方便相关人员进行监管，提高交易安全性。

本发明另一方面提供了一种交易平台分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

综上所述，本发明具有以下有益效果：

1.本发明提供的交易平台分类方法，根据所述第一数据在互联网中采集相关的第二数据，提升数据全面性；通过数据处理分析所述第三数据，判定所述第三数据类别，为数据模型建立提供样本；通过建立数据模型提高第三数据分类效率，不需要逐个进行分析；分析平台数据，判定与所述平台数据相关的第三数据，判断所述平台数据为第一类数据或第二类数据,进而判断平台为场内或场外平台。

2.本发明提供的交易平台分类方法，通过所述第一文件和第二文件与所述第三数据的相关度分析，将所述第三数据分为第一类数据和第二类数据，极大程度的保证分类的精准性，保证数据第一类数据和第二类数据的分类准确率。

3.本发明提供的交易平台分类方法，快速建立所述第一模型，通过调整所述卷积处理参数，调整所述第一训练词和第二训练词在所述第一模型中的位置，反复调整所述第一模型，直到测试正确率大于所述第一阈值参数，提高所述分类模型的分类精准度，提高所述分类模型的工作效率。

4.本发明提供的交易平台分类方法，通过对向量的距离计算，精准分析出每个第三数据与所述第一相关词向量和第二相关词向量的距离，直观的分析出相关性，提高对所述第三数据的分类速度和正确率。

附图说明

图1为本发明一种交易平台分类方法一种实施方式的流程图；

图2为所述分类模型建立一种实施方式的流程图；

图3为所述平台分类一种实施方式的流程图；

图4为筛选出所述第一相关词向量和第二相关词向量一种实施方式的流程图；

图5为所述平台分类另一种实施方式的流程图。

具体实施方式：

这里将详细地对示例性实施例进行说明，以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

为解决背景技术中的至少一项技术问题，如图1所示，本发明提供了一种交易平台分类方法，包括步骤：

在具体实施过程中，所述交易平台分类方法根据cnn算法调整学习率等参数建立分类模型。

在具体实施过程中，所述数据采集的步骤还包括：

在具体实施过程中，所述在互联网中提取与第一数据相关的第一相关数据包括，第一数据的上层、同层或下层的第一相关数据。

在具体实施过程中，所述第一数据可以为URL数据，所述URL数据可以为https://sport s.sohu.com/？spm＝smp.content.nav.3.15836618052fTxDJW，所述第一相关数据可以为https://s ports.sohu.com/s/csl？spm＝smpc.fb-sports-home.top-sunav.5.158366199709cCWdIB、https://sp orts.sohu.com/s/afccl？spm＝smpc.fb-sports-home.top-subnav.8.1583661903391fxScC5M和https://sports.sohu.com/s/？spm＝smpc.fb-sports-home.top-subnav.15.15836619734QMH6pw。

在具体实施过程中，将相关联的第一相关数据进行合并，生成所述汇总数据。

在具体实施过程中，所述汇总数据可以为https://sports.sohu.com/？spm＝smp.content.na v.3.15836618052fTxDJW地址下的文本信息，可以为“在当地时间周六早上被诊断出患有流感，但并未显示出新冠病毒的迹象，他只是感染了甲型流感”和“感染了流感，好在他并没有感染新冠病毒的特定风险”合并后为“在当地时间周六早上被诊断出感染了流感，好在他并没有感染新冠病毒的特定风险”。

在具体实施过程中，所述第二预处理包括：噪声去除、分句、分词中的至少一种方法。

在具体实施过程中，所述第二预处理可以使用结巴分词、LTP分词或腾讯文智分词。

在具体实施过程中，对所述第二数据进行第一预处理的步骤还包括：

接收所述第二数据；

筛选出所述第二数据中的无意义数据；

在具体实施过程中，所述第二数据可以是“在当地时间周六早上被诊断出、感染了流感、好在他并没有感染新冠病毒的特定风险”，所述无意义数据可以为“在、了、好在他、并和的特定”，所述第三数据可以为“当地时间周六早上被诊断出、感染流感、没有感染新冠病毒风险”

在具体实施过程中，所述数据处理的步骤还包括：

在具体实施过程中，所述第一文件可以为场外交易常见词语汇总文件，所述第二文件可以为场内交易常见词语汇总文件，所述第一关键词可以是“鉴定、病毒和染色”；所述第二关键词可以是“分辨、感冒和渲染”。

在具体实施过程中，所述第三数据与所述第一关键词的相关度可以为30％，与所述第二关键词相关度可以为60％，判定所述第三数据为第二类数据。

在本实施例的一个优选的实施方式中，当所述第三数据与所述第一关键词的数据相关度大于与第二关键词的数据相关度时，判定所述第三数据为第一类数据；

当所述第三数据与所述第一关键词的数据相关度等于与第二关键词的数据相关度时，判定所述第三数据同时为第一类数据和第二类数据，所述第一类数据可以为场外交易数据，所述第二类数据可以为场内交易数据。

如图2所示，在具体实施过程中，所述分类模型建立的步骤还包括：

若是，所述第一模型即为分类模型；

若否，调整所述卷积处理参数，重新建立所述第一模型。

在具体实施过程中，所述第一模型和分类模型可以为二维模型或三维模型。

在具体实施过程中，所述第一类数据可以为“当地时间周六早上被诊断出、感染流感、没有感染新冠病毒风险”，所述第一特征词可以为诊断、感染、流感。

在具体实施过程中，所述第一类数据可以有多条，所述第一类数据可以有4000条，所述第一训练词可以有3000条所述第一测试词可以有1000条；所述第二类数据可以有4000条，所述第二训练词可以有3000条所述第二测试词可以有1000条。

在具体实施过程中，所述第一阈值参数可以为70％、80％或90％。

在本实施例的一个优选的实施方式中，所述第一阈值参数为80％。

在具体实施过程中，所述卷积处理参数包括学习率参数和样本个数参数，所述样本个数参数为一次处理的训练词条数，所述学习率可以为对一条训练词的处理次数。

在具体实施过程中，所述学习率参数可以为1、2、3；所述样本个数参数可以为50、100、200。

在具体实施过程中，当所述学习率参数和样本个数参数分别为1、50时正确率为50％，调整所述学习率参数和样本个数参数分别为2、100，正确率为81％，81％＞80％，按照所述学习率参数和样本个数参数分别为2、100建立分类模型。

在具体实施过程中，所述卷积处理的步骤包括：

在具体实施过程中，所述第一词向量可以为(1,2)、(1,3)或(2,3)等，所述第一词坐标可以为(3,5)、(4,7)或(3,7)；所述第一词向量可以为(6,6)、(1,7)或(-1,3)等，所述第一词坐标可以为(-3,8)、(-4,4)或(-5,7)。

在具体实施过程中，对所述第一词向量和第二词向量进行3次所述卷积运算，重复卷积计算和池化3次。

采用上述方案，提高所述卷积运算精准度。

如图3所示，在具体实施过程中，所述平台分类的步骤包括：

对所述第三子数据进行卷积处理，得出所述第三词向量；

判断所述第一距离是否大于第二距离；

若否，所述第三数据为第一类数据；

若是，所述第三数据为第二类数据。

在具体实施过程中，所述第三子数据可以为“解放”，所述第三词向量为(1,2)，所述第一相关词向量为(-1,6)，所述第一相关词向量为(3,5)。

在具体实施过程中，所述第一距离和第二距离的计算根据公式

在具体实施过程中，所述第一距离可以为(1,2)和(-1,6)的距离，为2√5；所述第二距离可以为(1,2)和(3,5)，为√13，2√5＞√13，所述第三数据为第二类数据。

如图4所示，在具体实施过程中，筛选出所述第一相关词向量和第二相关词向量的步骤包括：

接收距离阈值参数；

若是，判定所述第一词向量为所述第一相关词向量；

若否，判定所述第一词向量不为所述第一相关词向量；

若是，判定所述第二词向量为所述第二相关词向量；

若否，判定所述第二词向量不为所述第二相关词向量。

在具体实施过程中，所述距离与之参数可以为10，所述第一词向量可以为(1，1)，所述第三词向量可以为(10，11)，所述第一词向量和第三词向量的距离为13.453，13.453大于10，所述第一词向量不为所述第一相关词向量。

如图5所示，在具体实施过程中，所述平台分类的步骤还包括：

对所述平台子数据进行卷积处理，得出第四词向量；

计算所述第四词向量与所述第三词向量的距离；

若是，所述第三数据与所述平台数据为相关数据；

若否，所述第三数据与所述平台数据不为相关数据。

在具体实施过程中，所述平台分类的步骤还包括：

提取所有所述平台数据的相关的第三数据；

根据所述第三数据的分类，对所述平台数据进行分类。

在具体实施过程中，所述第四词向量可以为(8，9)，满足小于所述距离阈值参数的第三词向量有20条，其中15条为第一类数据，5条为第二类数据，所述平台为场外交易平台。

在本发明的另一些实施例中，本发明提供了一种交易平台分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法，因而具有上述任一实施例中的控制方法的全部有益效果，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种交易平台分类方法，其特征在于，包括步骤：

平台分类，接收平台数据和所述第三数据，将所述第三数据输入所述分类模型，判定所述第三数据为第一类数据或第二类数据；分析平台数据，判定与所述平台数据相关的第三数据，根据所述第一数据，在互联网中提取与第一数据相关的第一相关数据；

根据所述第一相关数据得出汇总数据，对所述汇总数据进行第二预处理，得出所述第二数据，对所述第二数据进行第一预处理的步骤还包括：

接收所述第二数据；

筛选出所述第二数据中的无意义数据；

将所述无意义数据从所述第二数据中删除，得出所述第三数据，所述数据处理的步骤还包括：

根据所述数据相关度判定所述第三数据为第一类数据或第二类数据，当所述第三数据与所述第一关键词的数据相关度大于与第二关键词的数据相关度时，判定所述第三数据为第一类数据；

2.根据权利要求1所述的交易平台分类方法，所述分类模型建立的步骤还包括：

若是，所述第一模型即为分类模型；

若否，调整所述卷积处理参数，重新建立所述第一模型，所述卷积处理的步骤包括：

将所述第一词向量和第二词向量通过卷积运算得出第一词坐标和第二词坐标。

3.根据权利要求2所述的交易平台分类方法，其特征在于，所述平台分类的步骤包括：

对未经数据处理的所述第三数据进行所述第二预处理，得出第三子数据；

对所述第三子数据进行卷积处理，得出第三词向量；

判断所述第一距离是否大于第二距离；

若否，所述第三数据为第一类数据；

若是，所述第三数据为第二类数据。

4.根据权利要求3所述的交易平台分类方法，其特征在于，筛选出所述第一相关词向量和第二相关词向量的步骤包括：

接收距离阈值参数；

若是，判定所述第一词向量为所述第一相关词向量；

若否，判定所述第一词向量不为所述第一相关词向量；

若是，判定所述第二词向量为所述第二相关词向量；

若否，判定所述第二词向量不为所述第二相关词向量。

5.根据权利要求4所述的交易平台分类方法，其特征在于，所述平台分类的步骤还包括：

对所述平台子数据进行卷积处理，得出第四词向量；

计算所述第四词向量与所述第三词向量的距离；

若是，所述第三数据与所述平台数据为相关数据；

若否，所述第三数据与所述平台数据不为相关数据。

6.一种交易平台分类装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-5任一项的方法。