CN111401450A

CN111401450A - 一种交易场所分类方法和装置

Info

Publication number: CN111401450A
Application number: CN202010184062.8A
Authority: CN
Inventors: 邢凯; 吴震; 贺敏; 唐积强; 徐小磊; 王士源; 郭富民; 刘少杰; 董皓; 王凡凡; 王倩倩; 崔鑫宇; 刘昕明; 杜漫; 余智华
Original assignee: Golaxy Data Technology Co ltd; National Computer Network and Information Security Management Center
Current assignee: Golaxy Data Technology Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-10

Abstract

本发明提供了一种交易场所分类方法和装置，包括步骤：接收第一数据，根据第一数据获取第二数据，所述第二数据为文本数据，对所述第二数据进行标记处理，生成第三数据；对所述第三数据进行第二预处理，得出第四数据，将所述第四数据进行转换，得出第五数据，根据所述第五数据，生成第一模型；将所述第五数据划分为第一部分和第二部分，将所述第一部分导入第一库生成所述第一边界，将所述第二部分导入验证，得出第二模型；接收场所信息，将所述场所信息进行所述第二预处理得出所述第一信息，将所述第一信息导入所述第二模型，得出场所类别。通过分界线判断所述场所类别，在直观而且快捷的同时，提高所述场所类别的划分准确性。

Description

一种交易场所分类方法和装置

技术领域：

本发明涉及金融监管领域，具体的，涉及一种交易场所分类方法和装置。

背景技术：

在我国，交易场所在活跃金融市场、促进金融资产流动性等方面发挥着显著的作用。地方政府出于发展经济的需要，相继批设了一些从事权益和商品交易的场所，其中，金融资产交易场所作为多层次资本市场体系的有益补充，拓宽了中小微企业的融资渠道，为地方经济的良性发展注入活水之源。

但是，金融资产交易场所在发挥积极作用的同时也暴露出一些风险和问题，如违规开展证券期货业务、涉嫌权益拆分公开发行、涉嫌违规采用集中交易、涉嫌违规发行投资收益权类产品、涉嫌非法转让不良资产等。成立清理整顿各类交易场所联席会议机制，对各个地方交易场所进行清理整顿，虽然将滥设交易场所、违规违法经营的现象得到有效遏制，整顿工作成效显著，但违规异常行为仍然存在。

在实际监管工作中，往往存在着网络数据量大，难以监管的问题，因此需要结合交易所其他违规异常行为检测方法，实现对交易场所违规异常行为的准确检测。

因此，本领域亟需一种交易场所分类方法和装置以解决现有技术中的至少一项技术问题。

发明内容：

为解决背景技术中的至少一个技术问题，提出本发明。

具体的，本发明提供了一种交易场所分类方法，包括步骤：

数据采集，接收第一数据，根据第一数据获取第二数据，所述第二数据为文本数据，对所述第二数据进行标记处理，生成第三数据；

数据处理，对所述第三数据进行第二预处理，得出第四数据，将所述第四数据进行转换，得出第五数据，根据所述第五数据，生成第一模型；

分类模型构建，将所述第五数据划分为第一部分和第二部分，将所述第一部分导入第一库生成第一边界，将所述第二部分导入验证，得出第二模型；

场所分类，接收场所信息，将所述场所信息进行所述第二预处理得出第一信息，将所述第一信息导入所述第二模型，得出场所类别。

采用上述方案，根据互联网中的所述第一数据采集所述第一数据中的文本数据，所述第三数据为标记后的第二数据，使用带有标记的第三数据、第四数据转换为第五数据，所述第五数据同样带有标记，方便验证模型的正确率；通过分界线判断所述场所类别，在直观而且快捷的同时，提高所述场所类别的划分准确性。

进一步地，所述第一数据为网页地址数据，所述数据采集的步骤还包括：

根据所述第一数据，在互联网中找到网页数据，提取所述网页数据，得出第二数据；

接收类别关键词数据，根据所述类别关键词数据对所述第二数据进行标记，得出第三数据。

采用上述方案，通过所述类别关键词对所述文本数据进行标记，能够极大程度的保证标记的精准性，所述第三数据为后续步骤提供样本，保证标记准确性，提高后续步骤准确性，进而提高模型的分类正确率。

进一步地，所述数据处理的步骤还包括：

接收所述第三数据；

对所述第三数据进行第二预处理，提取所述第三数据中的特征词，得出第四数据；

将所述第四数据转换为向量数据，得出所述第五数据；

将所述第五数据的所述向量数据在同一空间中体现，得出所述第一模型。

采用上述方案，将所述特征词转换为向量数据，并将所述向量数据在同一空间中体现，便于对需要辨认的数据在同一空间中辨认，提高分类准确性。

优选地，所述向量数据为二维向量、三维向量或多维向量。

进一步地，所述第二预处理的步骤包括：

接收所述第三数据；

对所述第三数据进行分词处理，得出第一关键词；

提取所述第一关键词中的无意义词；

将所述无意义词从所述第一关键词中删除，得出第二关键词；

对所述第二关键词进行权重处理，得出所述特征词。

进一步地，所述权重处理的步骤包括：

接收权重系数阈值参数；

根据所述第二关键词的词频指数和文本频率指数得出关键词权重系数；

判断所述关键词权重系数是否大于所述权重系数阈值参数；

若否，判定所述第二关键词不为第一特征词；

若是，判定所述第二关键词为所述第一特征词；

接收特征词数量参数，设所述特征词数量参数为β；

判断所述第一特征词数量是否大于β；

若否，所有所述第一特征词都为特征词；

若是，将所述第一特征词根据所述关键词权重系数进行排名，截取前β项；

判断所述第一特征词是否属于所述前β项；

若否，所述第一特征词不为特征词；

若是，所述第一特征词为特征词。

进一步地，所述词频指数为当前第二关键词所在页面出现次数，所述文本频率指数为当前第二关键词在所有第二关键词中的出现次数，所述词频指数≤文本频率指数。

进一步地，所述关键词权重系数＝词频指数/文本频率指数*词频指数。

采用上述方案，所述第二预处理分三步对所述第三数据进行处理，分别为：一、删除无意义词；二、根据所述词频指数和文本频率指数，得出所述关键词权重系数，通过设置权重系数阈值参数，将所述关键词权重系数较低的数据作为无用数据，将无用数据删除；三、将所述第一特征词根据所述关键词权重系数进行排名，截取前β项，提出β项后的数据；通过三次处理提高数据精简性和准确性。

进一步地，所述分类模型构建的步骤包括：

将所述第五数据划分为第一部分和第二部分，所述第一部分为训练数据集，所述第二部分为测试数据集；

将所述训练数据集导入所述第一库，根据第一函数，调整所述第一函数的第一系数得出所述第一边界；

接收正确率阈值参数；

将所述第二部分导入标记有所述第一边界的第一模型，得出测试正确率；

判断所述测试正确率是否大于所述正确率阈值参数；

若是，标记有所述第一边界的第一模型即为所述第二模型；

若否，调整所述第一系数，重新计划所述第一边界。

采用上述方案，通过对含有分类标记的第五数据进行划分，将所述训练数据集导入所述第一库，得出标记有所述第一边界的第一模型，在使用含有标记的测试数据集和测试结果比对，得出测试正确率，比对正确率阈值参数调整所述第一边界，得出最佳的边界位置，提高所述第二模型最终分类准确性。

进一步地，所述第一边界根据公式：

y＝WtX+b

Wt为权重向量，t为向量维度，b为平移量。

优选地，当所述向量数据为二维向量时所述第一边界为线，当所述向量数据为三维向量时，所述第一边界为面。

进一步地，得出所述第一边界的步骤还包括：

将所述第一部分分为第一子部分和第二子部分；

将所述第一子部分导入所述第一库，根据所述第一函数，根据所述第一系数得出第一预边界，将所述第二子部分导入含有所述第一预边界的第一模型，得出预正确率；

重新分配所述第一子部分和第二子部分，得出新的所述预正确率；

多次重新分配所述第一子部分和第二子部分，得出多个预正确率；

计算多个所述预正确率的平均值，计算平均值对应的最佳所述第一系数。

采用上述方案，通过多次分配所述第一子部分和第二子部分对所述模型进行多次训练，的出多个所述预正确率，将多个所述预正确率对应的第一系数作为最佳的第一系数，而不是正确率最高的预正确率作为最佳第一系数，解决了由于样本的局限性，造成虽然训练正确率高，但是实际分类不准确的问题。

进一步地，所述场所分类的步骤还包括：

判断所述第一信息是否为交易信息；

若否，所述第一信息不为交易信息；

若是，判断所述第一信息数据在一级类别的类型；

判断所述第一信息数据在所述一级类别下的二级类别类型。

采用上述方案，逐级判断所述第一信息数据的类型，一方面降低了计算机的计算量，另一方面提高模型的分类精准性，解决了一次判断花费时间长且不够准确的问题。

本发明另一方面提供了一种交易场所分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

综上所述，本发明具有以下有益效果：

1.本发明提供的交易场所分类方法，根据互联网中的所述第一数据采集所述第一数据中的文本数据，所述第三数据为标记后的第二数据，使用带有标记的第三数据、第四数据转换为第五数据，所述第五数据同样带有标记，方便验证模型的正确率；通过分界线判断所述场所类别，在直观而且快捷的同时，提高所述场所类别的划分准确性。

2.本发明提供的交易场所分类方法通过所述第二预处理分三步对所述第三数据进行处理，分别为：一、删除无意义词；二、根据所述词频指数和文本频率指数，得出所述关键词权重系数，通过设置权重系数阈值参数，将所述关键词权重系数较低的数据作为无用数据，将无用数据删除；三、将所述第一特征词根据所述关键词权重系数进行排名，截取前β项，提出β项后的数据；通过三次处理提高数据精简性和准确性。

3.本发明提供的交易场所分类方法通过对含有分类标记的第五数据进行划分，将所述训练数据集导入所述第一库，得出标记有所述第一边界的第一模型，在使用含有标记的测试数据集和测试结果比对，得出测试正确率，比对正确率阈值参数调整所述第一边界，得出最佳的边界位置，提高所述第二模型最终分类准确性。

4.本发明提供的交易场所分类方法通过多次分配所述第一子部分和第二子部分对所述模型进行多次训练，的出多个所述预正确率，将多个所述预正确率对应的第一系数作为最佳的第一系数，而不是正确率最高的预正确率作为最佳第一系数，解决了由于样本的局限性，造成虽然训练正确率高，但是实际分类不准确的问题。

附图说明

图1为本发明一种交易场所分类方法一种实施方式的流程图；

图2为所述数据处理一种实施方式的流程图；

图3为所述权重处理一种实施方式的流程图；

图4为所述分类模型构建一种实施方式的流程图；

图5为调整所述第一系数得出所述第一边界一种实施方式的流程图。

具体实施方式：

这里将详细地对示例性实施例进行说明，以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

为解决背景技术中的至少一项技术问题，如图1所示，本发明提供了一种交易场所分类方法，包括步骤：

在具体实施过程中，本方法采用机器学习算法(svm)，所述机器学习算法(svm)支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。

在具体实施过程中，所述第一数据为网页地址数据，所述数据采集的步骤还包括：

在具体实施过程中，所述网页地址数据可以为http://baijiahao.baidu.com/s？id＝16074698 2261623397、http://baijiahao.baidu.com/s？id＝166057924545056132或https://h5.china.com.c n/bjh/doc_1_1_730415.html等。

在具体实施过程中，类别关键词数据可以为“大宗商品类|农产品|大豆、大宗商品类| 金属产品|黄金”或“权益类|产权|房屋”等。

在具体实施过程中，所述第二数据可以为“交易大豆”、“黄金价格”或“房屋交易”等。

在具体实施过程中，“交易大豆”的标签为“大宗商品类|农产品”；“黄金价格”的标签为“大宗商品类|金属产品”；“房屋交易”的标签为“权益类|产权”。

如图2所示，在具体实施过程中，所述数据处理的步骤还包括：

接收所述第三数据；

将所述第四数据转换为向量数据，得出所述第五数据；

在具体实施过程中，所述向量数据为二维向量、三维向量或多维向量。

在具体实施过程中，所述第二预处理的步骤包括：

接收所述第三数据；

对所述第三数据进行分词处理，得出第一关键词；

提取所述第一关键词中的无意义词；

对所述第二关键词进行权重处理，得出所述特征词。

在具体实施过程中，所述第三数据可以为“网友的称赞”、“微博话题的阅读量”或“推动工程建设项目复工”等。

在具体实施过程中，所述第一关键词可以为“网友、的、称赞”、“微博、话题、的、阅读量”或“推动、工程建设、项目、复工”等。

在具体实施过程中，所述第二关键词可以为“网友、称赞”、“微博、话题、阅读量”或“推动、工程建设、项目、复工”等。

在具体实施过程中，“网友、称赞”对应二维向量可以为(1.2)、(-1.3)或(3.5) 等，“微博、话题、阅读量”对应三维向量可以为(1.2.1)、(5.4.2)或(-1.2.-3)等，“推动、工程建设、项目、复工”对应四维向量可以为(1.2.3.1)、(-2.1.2.-4)或(-1.4.2.6) 等。

在具体实施过程中，所述无意义词可以是连词、助词或叹词等，所述连词可以是若、如果和若是等，所述助词可以是吧、罢和呀等，所述叹词可以是呸、啐或哼等。

如图3所示，在具体实施过程中，所述权重处理的步骤包括：

接收权重系数阈值参数；

判断所述关键词权重系数是否大于所述权重系数阈值参数；

若否，判定所述第二关键词不为第一特征词；

若是，判定所述第二关键词为所述第一特征词；

接收特征词数量参数，设所述特征词数量参数为β；

判断所述第一特征词数量是否大于β；

若否，所有所述第一特征词都为特征词；

判断所述第一特征词是否属于所述前β项；

若否，所述第一特征词不为特征词；

若是，所述第一特征词为特征词。

在具体实施过程中，所述词频指数为当前第二关键词所在页面出现次数，所述文本频率指数为当前第二关键词在所有第二关键词中的出现次数，所述词频指数≤文本频率指数。

在具体实施过程中，所述关键词权重系数＝词频指数/文本频率指数*词频指数。

在具体实施过程中，所述权重系数阈值参数可以为整数、分数或小数，所述权重系数阈值参数可以为1、3/4、或1.5等。

在具体实施过程中，所述词频指数和文本频率指数可以为(10.100)、(2.3)或(4.5)，得出所述关键词权重系数分别为1、3/2和16/5。

在具体实施过程中，所述权重系数阈值参数可以为1.4，1<1.4；3/2>1.4；16/5>1.4,所述权重系数阈值参数为1的第二关键词不为第一特征词，所述权重系数阈值参数为3/2和16/5 的第二关键词为第一特征词。

在具体实施过程中，将所述第一特征词根据所述关键词权重系数进行排名，截取前β项， β可以为100，所述权重系数阈值参数为3/2的第一特征词排名为130，所述权重系数阈值参数为16/5的第一特征词排名为65，所述权重系数阈值参数为3/2的第一特征词不为特征词，所述权重系数阈值参数为16/5的第一特征词为特征词。

如图4所示，在具体实施过程中，所述分类模型构建的步骤包括：

将所述训练数据集导入所述第一库，根据所述第一函数，调整所述第一系数得出所述第一边界；

接收正确率阈值参数；

判断所述测试正确率是否大于所述正确率阈值参数；

若是，标记有所述第一边界的第一模型即为所述第二模型；

若否，调整所述第一系数，重新计划所述第一边界。

在具体实施过程中，所述第一库可以为Python的相关库，根据所述第一函数可以为线性核函数，所述第一系数可以为惩罚系数。

在具体实施过程中，当所述第一部分为所述第五数据的80％时，所述第二部分为所述第五数据的20％；当所述第一部分为所述第五数据的70％时，所述第二部分为所述第五数据的 30％；当所述第一部分为所述第五数据的60％时，所述第二部分为所述第五数据的40％。

在具体实施过程中，所述正确率阈值参数可以为85％，当所述第一系数为1时，所述测试正确率为80％；调整所述第一系数为1.5，所述测试正确率为83％；调整所述第一系数为 2，所述测试正确率为86％，根据所述第一系数为2建立第一边界。

在具体实施过程中，所述第一边界根据公式：

y＝WtX+b

Wt为权重向量，t为向量维度，b为平移量。

在具体实施过程中，当所述向量数据为二维向量时所述第一边界为线，当所述向量数据为三维向量时，所述第一边界为面。

如图5所示，在具体实施过程中，得出所述第一边界的步骤还包括：

将所述第一部分分为第一子部分和第二子部分；

在具体实施过程中，所述第一子部分可以为所述第一部分的80％和第二子部分可以为所述第一部分的20％；所述第一子部分可以为所述第一部分的90％和第二子部分可以为所述第一部分的10％；所述第一子部分可以为所述第一部分的70％和第二子部分可以为所述第一部分的30％。

在具体实施过程中，重新分配所述第一子部分和第二子部分均为根据比例随机分配。

在具体实施过程中，多个预正确率可以为84％、80％和86％，所述预正确率的平均值即约为83％，83％对应的第一系数可以为1、2或1.6等。

在具体实施过程中，当模型为二维模型时，所述第一边界可以为y＝2x+1，在所述y＝2x+1 上方可以为第一类别，在所述y＝2x+1下方可以为第二类别。

在具体实施过程中，所述第一信息可以为(1.4)、(-1.-2)或(2.6)等，判定(-1.-2)的所述第一信息为第二类别，判定(1.4)、(2.6)的所述第一信息为第一类别。

在具体实施过程中，所述场所分类的步骤还包括：

判断所述第一信息是否为交易信息；

若否，所述第一信息不为交易信息；

若是，判断所述第一信息数据在一级类别的类型；

判断所述第一信息数据在所述一级类别下的二级类别类型。

在具体实施过程中，所述一级类别包括大宗商品类、权益类和其他类，所述大宗商品类下的二级类别包括农产品、金属产品、能源产品和海洋产品等；所述权益类下的二级类别包括产权、股权、林权和矿权等；所述其他类下的二级类别包括聚合交易通道和二元期权等。

在本发明的另一些实施例中，本发明提供了一种交易场所分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法，因而具有上述任一实施例中的控制方法的全部有益效果，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解，本申请实施例中，从权、各个实施例、特征可以互相组合结合，都能实现解决前述技术问题。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种交易场所分类方法，其特征在于，包括步骤：

2.根据权利要求1所述的交易场所分类方法，其特征在于，所述第一数据为网页地址数据，所述数据采集的步骤还包括：

3.根据权利要求2所述的交易场所分类方法，其特征在于，所述数据处理的步骤还包括：

接收所述第三数据；

将所述第四数据转换为向量数据，得出所述第五数据；

4.根据权利要求1-3任一种所述的交易场所分类方法，其特征在于，所述第二预处理的步骤包括：

接收所述第三数据；

对所述第三数据进行分词处理，得出第一关键词；

提取所述第一关键词中的无意义词；

对所述第二关键词进行权重处理，得出所述特征词。

5.根据权利要求4任一种所述的交易场所分类方法，其特征在于：所述权重处理的步骤包括：

接收权重系数阈值参数；

判断所述关键词权重系数是否大于所述权重系数阈值参数；

若否，判定所述第二关键词不为第一特征词；

若是，判定所述第二关键词为所述第一特征词；

接收特征词数量参数，设所述特征词数量参数为β；

判断所述第一特征词数量是否大于β；

若否，所有所述第一特征词都为特征词；

判断所述第一特征词是否属于所述前β项；

若否，所述第一特征词不为特征词；

若是，所述第一特征词为特征词。

6.根据权利要求5所述的交易场所分类方法，所述分类模型构建的步骤包括：

接收正确率阈值参数；

判断所述测试正确率是否大于所述正确率阈值参数；

若是，标记有所述第一边界的第一模型即为所述第二模型；

若否，调整所述第一系数，重新计划所述第一边界。

7.根据权利要求6所述的交易场所分类方法，其特征在于，所述第一边界根据公式：

y＝WtX+b

Wt为权重向量，t为向量维度，b为平移量。

8.根据权利要求6或7所述的交易场所分类方法，其特征在于，得出所述第一边界的步骤还包括：

将所述第一部分分为第一子部分和第二子部分；

9.根据权利要求8所述的交易场所分类方法，其特征在于，所述场所分类的步骤还包括：

判断所述第一信息是否为交易信息；

若否，所述第一信息不为交易信息；

若是，判断所述第一信息数据在一级类别的类型；

判断所述第一信息数据在所述一级类别下的二级类别类型。

10.一种交易场所分类装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1-9任一项的方法。