CN111401450A - 一种交易场所分类方法和装置 - Google Patents

一种交易场所分类方法和装置 Download PDF

Info

Publication number
CN111401450A
CN111401450A CN202010184062.8A CN202010184062A CN111401450A CN 111401450 A CN111401450 A CN 111401450A CN 202010184062 A CN202010184062 A CN 202010184062A CN 111401450 A CN111401450 A CN 111401450A
Authority
CN
China
Prior art keywords
data
keyword
boundary
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010184062.8A
Other languages
English (en)
Inventor
邢凯
吴震
贺敏
唐积强
徐小磊
王士源
郭富民
刘少杰
董皓
王凡凡
王倩倩
崔鑫宇
刘昕明
杜漫
余智华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Original Assignee
Golaxy Data Technology Co ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golaxy Data Technology Co ltd, National Computer Network and Information Security Management Center filed Critical Golaxy Data Technology Co ltd
Priority to CN202010184062.8A priority Critical patent/CN111401450A/zh
Publication of CN111401450A publication Critical patent/CN111401450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种交易场所分类方法和装置,包括步骤:接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对所述第二数据进行标记处理,生成第三数据;对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换,得出第五数据,根据所述第五数据,生成第一模型;将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一库生成所述第一边界,将所述第二部分导入验证,得出第二模型;接收场所信息,将所述场所信息进行所述第二预处理得出所述第一信息,将所述第一信息导入所述第二模型,得出场所类别。通过分界线判断所述场所类别,在直观而且快捷的同时,提高所述场所类别的划分准确性。

Description

一种交易场所分类方法和装置
技术领域:
本发明涉及金融监管领域,具体的,涉及一种交易场所分类方法和装置。
背景技术:
在我国,交易场所在活跃金融市场、促进金融资产流动性等方面发挥着显著的作用。地 方政府出于发展经济的需要,相继批设了一些从事权益和商品交易的场所,其中,金融资产 交易场所作为多层次资本市场体系的有益补充,拓宽了中小微企业的融资渠道,为地方经济 的良性发展注入活水之源。
但是,金融资产交易场所在发挥积极作用的同时也暴露出一些风险和问题,如违规开展 证券期货业务、涉嫌权益拆分公开发行、涉嫌违规采用集中交易、涉嫌违规发行投资收益权 类产品、涉嫌非法转让不良资产等。成立清理整顿各类交易场所联席会议机制,对各个地方 交易场所进行清理整顿,虽然将滥设交易场所、违规违法经营的现象得到有效遏制,整顿工 作成效显著,但违规异常行为仍然存在。
在实际监管工作中,往往存在着网络数据量大,难以监管的问题,因此需要结合交易所 其他违规异常行为检测方法,实现对交易场所违规异常行为的准确检测。
因此,本领域亟需一种交易场所分类方法和装置以解决现有技术中的至少一项技术问 题。
发明内容:
为解决背景技术中的至少一个技术问题,提出本发明。
具体的,本发明提供了一种交易场所分类方法,包括步骤:
数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对 所述第二数据进行标记处理,生成第三数据;
数据处理,对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换, 得出第五数据,根据所述第五数据,生成第一模型;
分类模型构建,将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一 库生成第一边界,将所述第二部分导入验证,得出第二模型;
场所分类,接收场所信息,将所述场所信息进行所述第二预处理得出第一信息,将所述 第一信息导入所述第二模型,得出场所类别。
采用上述方案,根据互联网中的所述第一数据采集所述第一数据中的文本数据,所述第 三数据为标记后的第二数据,使用带有标记的第三数据、第四数据转换为第五数据,所述第 五数据同样带有标记,方便验证模型的正确率;通过分界线判断所述场所类别,在直观而且 快捷的同时,提高所述场所类别的划分准确性。
进一步地,所述第一数据为网页地址数据,所述数据采集的步骤还包括:
根据所述第一数据,在互联网中找到网页数据,提取所述网页数据,得出第二数据;
接收类别关键词数据,根据所述类别关键词数据对所述第二数据进行标记,得出第三数 据。
采用上述方案,通过所述类别关键词对所述文本数据进行标记,能够极大程度的保证标 记的精准性,所述第三数据为后续步骤提供样本,保证标记准确性,提高后续步骤准确性, 进而提高模型的分类正确率。
进一步地,所述数据处理的步骤还包括:
接收所述第三数据;
对所述第三数据进行第二预处理,提取所述第三数据中的特征词,得出第四数据;
将所述第四数据转换为向量数据,得出所述第五数据;
将所述第五数据的所述向量数据在同一空间中体现,得出所述第一模型。
采用上述方案,将所述特征词转换为向量数据,并将所述向量数据在同一空间中体现, 便于对需要辨认的数据在同一空间中辨认,提高分类准确性。
优选地,所述向量数据为二维向量、三维向量或多维向量。
进一步地,所述第二预处理的步骤包括:
接收所述第三数据;
对所述第三数据进行分词处理,得出第一关键词;
提取所述第一关键词中的无意义词;
将所述无意义词从所述第一关键词中删除,得出第二关键词;
对所述第二关键词进行权重处理,得出所述特征词。
进一步地,所述权重处理的步骤包括:
接收权重系数阈值参数;
根据所述第二关键词的词频指数和文本频率指数得出关键词权重系数;
判断所述关键词权重系数是否大于所述权重系数阈值参数;
若否,判定所述第二关键词不为第一特征词;
若是,判定所述第二关键词为所述第一特征词;
接收特征词数量参数,设所述特征词数量参数为β;
判断所述第一特征词数量是否大于β;
若否,所有所述第一特征词都为特征词;
若是,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项;
判断所述第一特征词是否属于所述前β项;
若否,所述第一特征词不为特征词;
若是,所述第一特征词为特征词。
进一步地,所述词频指数为当前第二关键词所在页面出现次数,所述文本频率指数为当 前第二关键词在所有第二关键词中的出现次数,所述词频指数≤文本频率指数。
进一步地,所述关键词权重系数=词频指数/文本频率指数*词频指数。
采用上述方案,所述第二预处理分三步对所述第三数据进行处理,分别为:一、删除无 意义词;二、根据所述词频指数和文本频率指数,得出所述关键词权重系数,通过设置权重 系数阈值参数,将所述关键词权重系数较低的数据作为无用数据,将无用数据删除;三、将 所述第一特征词根据所述关键词权重系数进行排名,截取前β项,提出β项后的数据;通过 三次处理提高数据精简性和准确性。
进一步地,所述分类模型构建的步骤包括:
将所述第五数据划分为第一部分和第二部分,所述第一部分为训练数据集,所述第二部 分为测试数据集;
将所述训练数据集导入所述第一库,根据第一函数,调整所述第一函数的第一系数得出 所述第一边界;
接收正确率阈值参数;
将所述第二部分导入标记有所述第一边界的第一模型,得出测试正确率;
判断所述测试正确率是否大于所述正确率阈值参数;
若是,标记有所述第一边界的第一模型即为所述第二模型;
若否,调整所述第一系数,重新计划所述第一边界。
采用上述方案,通过对含有分类标记的第五数据进行划分,将所述训练数据集导入所述 第一库,得出标记有所述第一边界的第一模型,在使用含有标记的测试数据集和测试结果比 对,得出测试正确率,比对正确率阈值参数调整所述第一边界,得出最佳的边界位置,提高 所述第二模型最终分类准确性。
进一步地,所述第一边界根据公式:
y=WtX+b
Wt为权重向量,t为向量维度,b为平移量。
优选地,当所述向量数据为二维向量时所述第一边界为线,当所述向量数据为三维向量 时,所述第一边界为面。
进一步地,得出所述第一边界的步骤还包括:
将所述第一部分分为第一子部分和第二子部分;
将所述第一子部分导入所述第一库,根据所述第一函数,根据所述第一系数得出第一预 边界,将所述第二子部分导入含有所述第一预边界的第一模型,得出预正确率;
重新分配所述第一子部分和第二子部分,得出新的所述预正确率;
多次重新分配所述第一子部分和第二子部分,得出多个预正确率;
计算多个所述预正确率的平均值,计算平均值对应的最佳所述第一系数。
采用上述方案,通过多次分配所述第一子部分和第二子部分对所述模型进行多次训练, 的出多个所述预正确率,将多个所述预正确率对应的第一系数作为最佳的第一系数,而不是 正确率最高的预正确率作为最佳第一系数,解决了由于样本的局限性,造成虽然训练正确率 高,但是实际分类不准确的问题。
进一步地,所述场所分类的步骤还包括:
判断所述第一信息是否为交易信息;
若否,所述第一信息不为交易信息;
若是,判断所述第一信息数据在一级类别的类型;
判断所述第一信息数据在所述一级类别下的二级类别类型。
采用上述方案,逐级判断所述第一信息数据的类型,一方面降低了计算机的计算量,另 一方面提高模型的分类精准性,解决了一次判断花费时间长且不够准确的问题。
本发明另一方面提供了一种交易场所分类装置,包括存储器、处理器及存储在存储器上 并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
综上所述,本发明具有以下有益效果:
1.本发明提供的交易场所分类方法,根据互联网中的所述第一数据采集所述第一数据中 的文本数据,所述第三数据为标记后的第二数据,使用带有标记的第三数据、第四数据转换 为第五数据,所述第五数据同样带有标记,方便验证模型的正确率;通过分界线判断所述场 所类别,在直观而且快捷的同时,提高所述场所类别的划分准确性。
2.本发明提供的交易场所分类方法通过所述第二预处理分三步对所述第三数据进行处 理,分别为:一、删除无意义词;二、根据所述词频指数和文本频率指数,得出所述关键词 权重系数,通过设置权重系数阈值参数,将所述关键词权重系数较低的数据作为无用数据, 将无用数据删除;三、将所述第一特征词根据所述关键词权重系数进行排名,截取前β项, 提出β项后的数据;通过三次处理提高数据精简性和准确性。
3.本发明提供的交易场所分类方法通过对含有分类标记的第五数据进行划分,将所述训 练数据集导入所述第一库,得出标记有所述第一边界的第一模型,在使用含有标记的测试数 据集和测试结果比对,得出测试正确率,比对正确率阈值参数调整所述第一边界,得出最佳 的边界位置,提高所述第二模型最终分类准确性。
4.本发明提供的交易场所分类方法通过多次分配所述第一子部分和第二子部分对所述 模型进行多次训练,的出多个所述预正确率,将多个所述预正确率对应的第一系数作为最佳 的第一系数,而不是正确率最高的预正确率作为最佳第一系数,解决了由于样本的局限性, 造成虽然训练正确率高,但是实际分类不准确的问题。
附图说明
图1为本发明一种交易场所分类方法一种实施方式的流程图;
图2为所述数据处理一种实施方式的流程图;
图3为所述权重处理一种实施方式的流程图;
图4为所述分类模型构建一种实施方式的流程图;
图5为调整所述第一系数得出所述第一边界一种实施方式的流程图。
具体实施方式:
这里将详细地对示例性实施例进行说明,以下示例性实施例中所描述的实施方式并不代 表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发 明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发 明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形 式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包 含一个或多个相关联的列出项目的任何或所有可能组合。
为解决背景技术中的至少一项技术问题,如图1所示,本发明提供了一种交易场所分类 方法,包括步骤:
数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对 所述第二数据进行标记处理,生成第三数据;
数据处理,对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换, 得出第五数据,根据所述第五数据,生成第一模型;
分类模型构建,将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一 库生成第一边界,将所述第二部分导入验证,得出第二模型;
场所分类,接收场所信息,将所述场所信息进行所述第二预处理得出第一信息,将所述 第一信息导入所述第二模型,得出场所类别。
采用上述方案,根据互联网中的所述第一数据采集所述第一数据中的文本数据,所述第 三数据为标记后的第二数据,使用带有标记的第三数据、第四数据转换为第五数据,所述第 五数据同样带有标记,方便验证模型的正确率;通过分界线判断所述场所类别,在直观而且 快捷的同时,提高所述场所类别的划分准确性。
在具体实施过程中,本方法采用机器学习算法(svm),所述机器学习算法(svm)支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对 数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样 本求解的最大边距超平面(maximum-margin hyperplane)。
在具体实施过程中,所述第一数据为网页地址数据,所述数据采集的步骤还包括:
根据所述第一数据,在互联网中找到网页数据,提取所述网页数据,得出第二数据;
接收类别关键词数据,根据所述类别关键词数据对所述第二数据进行标记,得出第三数 据。
采用上述方案,通过所述类别关键词对所述文本数据进行标记,能够极大程度的保证标 记的精准性,所述第三数据为后续步骤提供样本,保证标记准确性,提高后续步骤准确性, 进而提高模型的分类正确率。
在具体实施过程中,所述网页地址数据可以为http://baijiahao.baidu.com/s?id=16074698 2261623397、http://baijiahao.baidu.com/s?id=166057924545056132或https://h5.china.com.c n/bjh/doc_1_1_730415.html等。
在具体实施过程中,类别关键词数据可以为“大宗商品类|农产品|大豆、大宗商品类| 金属产品|黄金”或“权益类|产权|房屋”等。
在具体实施过程中,所述第二数据可以为“交易大豆”、“黄金价格”或“房屋交易”等。
在具体实施过程中,“交易大豆”的标签为“大宗商品类|农产品”;“黄金价格”的标签为“大宗商品类|金属产品”;“房屋交易”的标签为“权益类|产权”。
如图2所示,在具体实施过程中,所述数据处理的步骤还包括:
接收所述第三数据;
对所述第三数据进行第二预处理,提取所述第三数据中的特征词,得出第四数据;
将所述第四数据转换为向量数据,得出所述第五数据;
将所述第五数据的所述向量数据在同一空间中体现,得出所述第一模型。
采用上述方案,将所述特征词转换为向量数据,并将所述向量数据在同一空间中体现, 便于对需要辨认的数据在同一空间中辨认,提高分类准确性。
在具体实施过程中,所述向量数据为二维向量、三维向量或多维向量。
在具体实施过程中,所述第二预处理的步骤包括:
接收所述第三数据;
对所述第三数据进行分词处理,得出第一关键词;
提取所述第一关键词中的无意义词;
将所述无意义词从所述第一关键词中删除,得出第二关键词;
对所述第二关键词进行权重处理,得出所述特征词。
在具体实施过程中,所述第三数据可以为“网友的称赞”、“微博话题的阅读量”或“推 动工程建设项目复工”等。
在具体实施过程中,所述第一关键词可以为“网友、的、称赞”、“微博、话题、的、 阅读量”或“推动、工程建设、项目、复工”等。
在具体实施过程中,所述第二关键词可以为“网友、称赞”、“微博、话题、阅读量”或“推动、工程建设、项目、复工”等。
在具体实施过程中,“网友、称赞”对应二维向量可以为(1.2)、(-1.3)或(3.5) 等,“微博、话题、阅读量”对应三维向量可以为(1.2.1)、(5.4.2)或(-1.2.-3)等,“推 动、工程建设、项目、复工”对应四维向量可以为(1.2.3.1)、(-2.1.2.-4)或(-1.4.2.6) 等。
在具体实施过程中,所述无意义词可以是连词、助词或叹词等,所述连词可以是若、如 果和若是等,所述助词可以是吧、罢和呀等,所述叹词可以是呸、啐或哼等。
如图3所示,在具体实施过程中,所述权重处理的步骤包括:
接收权重系数阈值参数;
根据所述第二关键词的词频指数和文本频率指数得出关键词权重系数;
判断所述关键词权重系数是否大于所述权重系数阈值参数;
若否,判定所述第二关键词不为第一特征词;
若是,判定所述第二关键词为所述第一特征词;
接收特征词数量参数,设所述特征词数量参数为β;
判断所述第一特征词数量是否大于β;
若否,所有所述第一特征词都为特征词;
若是,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项;
判断所述第一特征词是否属于所述前β项;
若否,所述第一特征词不为特征词;
若是,所述第一特征词为特征词。
在具体实施过程中,所述词频指数为当前第二关键词所在页面出现次数,所述文本频率 指数为当前第二关键词在所有第二关键词中的出现次数,所述词频指数≤文本频率指数。
在具体实施过程中,所述关键词权重系数=词频指数/文本频率指数*词频指数。
在具体实施过程中,所述权重系数阈值参数可以为整数、分数或小数,所述权重系数阈 值参数可以为1、3/4、或1.5等。
在具体实施过程中,所述词频指数和文本频率指数可以为(10.100)、(2.3)或(4.5), 得出所述关键词权重系数分别为1、3/2和16/5。
在具体实施过程中,所述权重系数阈值参数可以为1.4,1<1.4;3/2>1.4;16/5>1.4,所述权 重系数阈值参数为1的第二关键词不为第一特征词,所述权重系数阈值参数为3/2和16/5 的第二关键词为第一特征词。
在具体实施过程中,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项, β可以为100,所述权重系数阈值参数为3/2的第一特征词排名为130,所述权重系数阈值 参数为16/5的第一特征词排名为65,所述权重系数阈值参数为3/2的第一特征词不为特征 词,所述权重系数阈值参数为16/5的第一特征词为特征词。
采用上述方案,所述第二预处理分三步对所述第三数据进行处理,分别为:一、删除无 意义词;二、根据所述词频指数和文本频率指数,得出所述关键词权重系数,通过设置权重 系数阈值参数,将所述关键词权重系数较低的数据作为无用数据,将无用数据删除;三、将 所述第一特征词根据所述关键词权重系数进行排名,截取前β项,提出β项后的数据;通过 三次处理提高数据精简性和准确性。
如图4所示,在具体实施过程中,所述分类模型构建的步骤包括:
将所述第五数据划分为第一部分和第二部分,所述第一部分为训练数据集,所述第二部 分为测试数据集;
将所述训练数据集导入所述第一库,根据所述第一函数,调整所述第一系数得出所述第 一边界;
接收正确率阈值参数;
将所述第二部分导入标记有所述第一边界的第一模型,得出测试正确率;
判断所述测试正确率是否大于所述正确率阈值参数;
若是,标记有所述第一边界的第一模型即为所述第二模型;
若否,调整所述第一系数,重新计划所述第一边界。
在具体实施过程中,所述第一库可以为Python的相关库,根据所述第一函数可以为线 性核函数,所述第一系数可以为惩罚系数。
在具体实施过程中,当所述第一部分为所述第五数据的80%时,所述第二部分为所述第 五数据的20%;当所述第一部分为所述第五数据的70%时,所述第二部分为所述第五数据的 30%;当所述第一部分为所述第五数据的60%时,所述第二部分为所述第五数据的40%。
采用上述方案,通过对含有分类标记的第五数据进行划分,将所述训练数据集导入所述 第一库,得出标记有所述第一边界的第一模型,在使用含有标记的测试数据集和测试结果比 对,得出测试正确率,比对正确率阈值参数调整所述第一边界,得出最佳的边界位置,提高 所述第二模型最终分类准确性。
在具体实施过程中,所述正确率阈值参数可以为85%,当所述第一系数为1时,所述测 试正确率为80%;调整所述第一系数为1.5,所述测试正确率为83%;调整所述第一系数为 2,所述测试正确率为86%,根据所述第一系数为2建立第一边界。
在具体实施过程中,所述第一边界根据公式:
y=WtX+b
Wt为权重向量,t为向量维度,b为平移量。
在具体实施过程中,当所述向量数据为二维向量时所述第一边界为线,当所述向量数据 为三维向量时,所述第一边界为面。
如图5所示,在具体实施过程中,得出所述第一边界的步骤还包括:
将所述第一部分分为第一子部分和第二子部分;
将所述第一子部分导入所述第一库,根据所述第一函数,根据所述第一系数得出第一预 边界,将所述第二子部分导入含有所述第一预边界的第一模型,得出预正确率;
重新分配所述第一子部分和第二子部分,得出新的所述预正确率;
多次重新分配所述第一子部分和第二子部分,得出多个预正确率;
计算多个所述预正确率的平均值,计算平均值对应的最佳所述第一系数。
在具体实施过程中,所述第一子部分可以为所述第一部分的80%和第二子部分可以为所 述第一部分的20%;所述第一子部分可以为所述第一部分的90%和第二子部分可以为所述第 一部分的10%;所述第一子部分可以为所述第一部分的70%和第二子部分可以为所述第一部 分的30%。
在具体实施过程中,重新分配所述第一子部分和第二子部分均为根据比例随机分配。
在具体实施过程中,多个预正确率可以为84%、80%和86%,所述预正确率的平均值即 约为83%,83%对应的第一系数可以为1、2或1.6等。
采用上述方案,通过多次分配所述第一子部分和第二子部分对所述模型进行多次训练, 的出多个所述预正确率,将多个所述预正确率对应的第一系数作为最佳的第一系数,而不是 正确率最高的预正确率作为最佳第一系数,解决了由于样本的局限性,造成虽然训练正确率 高,但是实际分类不准确的问题。
在具体实施过程中,当模型为二维模型时,所述第一边界可以为y=2x+1,在所述y=2x+1 上方可以为第一类别,在所述y=2x+1下方可以为第二类别。
在具体实施过程中,所述第一信息可以为(1.4)、(-1.-2)或(2.6)等,判定(-1.-2)的所述第一信息为第二类别,判定(1.4)、(2.6)的所述第一信息为第一类别。
在具体实施过程中,所述场所分类的步骤还包括:
判断所述第一信息是否为交易信息;
若否,所述第一信息不为交易信息;
若是,判断所述第一信息数据在一级类别的类型;
判断所述第一信息数据在所述一级类别下的二级类别类型。
采用上述方案,逐级判断所述第一信息数据的类型,一方面降低了计算机的计算量,另 一方面提高模型的分类精准性,解决了一次判断花费时间长且不够准确的问题。
在具体实施过程中,所述一级类别包括大宗商品类、权益类和其他类,所述大宗商品类 下的二级类别包括农产品、金属产品、能源产品和海洋产品等;所述权益类下的二级类别包 括产权、股权、林权和矿权等;所述其他类下的二级类别包括聚合交易通道和二元期权等。
在本发明的另一些实施例中,本发明提供了一种交易场所分类装置,包括存储器、处理 器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上 述方法,因而具有上述任一实施例中的控制方法的全部有益效果,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算 法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件 还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每 个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过 其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通 过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应当理解,本申请实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解 决前述技术问题。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在 一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技 术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产 品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储 介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些 实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理 可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被 限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的 范围。

Claims (10)

1.一种交易场所分类方法,其特征在于,包括步骤:
数据采集,接收第一数据,根据第一数据获取第二数据,所述第二数据为文本数据,对所述第二数据进行标记处理,生成第三数据;
数据处理,对所述第三数据进行第二预处理,得出第四数据,将所述第四数据进行转换,得出第五数据,根据所述第五数据,生成第一模型;
分类模型构建,将所述第五数据划分为第一部分和第二部分,将所述第一部分导入第一库生成第一边界,将所述第二部分导入验证,得出第二模型;
场所分类,接收场所信息,将所述场所信息进行所述第二预处理得出第一信息,将所述第一信息导入所述第二模型,得出场所类别。
2.根据权利要求1所述的交易场所分类方法,其特征在于,所述第一数据为网页地址数据,所述数据采集的步骤还包括:
根据所述第一数据,在互联网中找到网页数据,提取所述网页数据,得出第二数据;
接收类别关键词数据,根据所述类别关键词数据对所述第二数据进行标记,得出第三数据。
3.根据权利要求2所述的交易场所分类方法,其特征在于,所述数据处理的步骤还包括:
接收所述第三数据;
对所述第三数据进行第二预处理,提取所述第三数据中的特征词,得出第四数据;
将所述第四数据转换为向量数据,得出所述第五数据;
将所述第五数据的所述向量数据在同一空间中体现,得出所述第一模型。
4.根据权利要求1-3任一种所述的交易场所分类方法,其特征在于,所述第二预处理的步骤包括:
接收所述第三数据;
对所述第三数据进行分词处理,得出第一关键词;
提取所述第一关键词中的无意义词;
将所述无意义词从所述第一关键词中删除,得出第二关键词;
对所述第二关键词进行权重处理,得出所述特征词。
5.根据权利要求4任一种所述的交易场所分类方法,其特征在于:所述权重处理的步骤包括:
接收权重系数阈值参数;
根据所述第二关键词的词频指数和文本频率指数得出关键词权重系数;
判断所述关键词权重系数是否大于所述权重系数阈值参数;
若否,判定所述第二关键词不为第一特征词;
若是,判定所述第二关键词为所述第一特征词;
接收特征词数量参数,设所述特征词数量参数为β;
判断所述第一特征词数量是否大于β;
若否,所有所述第一特征词都为特征词;
若是,将所述第一特征词根据所述关键词权重系数进行排名,截取前β项;
判断所述第一特征词是否属于所述前β项;
若否,所述第一特征词不为特征词;
若是,所述第一特征词为特征词。
6.根据权利要求5所述的交易场所分类方法,所述分类模型构建的步骤包括:
将所述第五数据划分为第一部分和第二部分,所述第一部分为训练数据集,所述第二部分为测试数据集;
将所述训练数据集导入所述第一库,根据第一函数,调整所述第一函数的第一系数得出所述第一边界;
接收正确率阈值参数;
将所述第二部分导入标记有所述第一边界的第一模型,得出测试正确率;
判断所述测试正确率是否大于所述正确率阈值参数;
若是,标记有所述第一边界的第一模型即为所述第二模型;
若否,调整所述第一系数,重新计划所述第一边界。
7.根据权利要求6所述的交易场所分类方法,其特征在于,所述第一边界根据公式:
y=WtX+b
Wt为权重向量,t为向量维度,b为平移量。
8.根据权利要求6或7所述的交易场所分类方法,其特征在于,得出所述第一边界的步骤还包括:
将所述第一部分分为第一子部分和第二子部分;
将所述第一子部分导入所述第一库,根据所述第一函数,根据所述第一系数得出第一预边界,将所述第二子部分导入含有所述第一预边界的第一模型,得出预正确率;
重新分配所述第一子部分和第二子部分,得出新的所述预正确率;
多次重新分配所述第一子部分和第二子部分,得出多个预正确率;
计算多个所述预正确率的平均值,计算平均值对应的最佳所述第一系数。
9.根据权利要求8所述的交易场所分类方法,其特征在于,所述场所分类的步骤还包括:
判断所述第一信息是否为交易信息;
若否,所述第一信息不为交易信息;
若是,判断所述第一信息数据在一级类别的类型;
判断所述第一信息数据在所述一级类别下的二级类别类型。
10.一种交易场所分类装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-9任一项的方法。
CN202010184062.8A 2020-03-16 2020-03-16 一种交易场所分类方法和装置 Pending CN111401450A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010184062.8A CN111401450A (zh) 2020-03-16 2020-03-16 一种交易场所分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010184062.8A CN111401450A (zh) 2020-03-16 2020-03-16 一种交易场所分类方法和装置

Publications (1)

Publication Number Publication Date
CN111401450A true CN111401450A (zh) 2020-07-10

Family

ID=71432543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010184062.8A Pending CN111401450A (zh) 2020-03-16 2020-03-16 一种交易场所分类方法和装置

Country Status (1)

Country Link
CN (1) CN111401450A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574047A (zh) * 2014-10-17 2016-05-11 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574047A (zh) * 2014-10-17 2016-05-11 任子行网络技术股份有限公司 一种基于网站主页特征分析的中文网站分类方法和系统
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴克贤: "基于分类的文本内容判别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 12, 15 December 2013 (2013-12-15), pages 138 - 281 *
李欣: "基于维度判别的文本情感聚类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 3, 15 March 2016 (2016-03-15), pages 138 - 7831 *
魏芳芳;段青玲;肖晓琰;张磊;: "基于支持向量机的中文农业文本分类技术研究", 农业机械学报, no. 1, 30 December 2015 (2015-12-30), pages 179 - 184 *

Similar Documents

Publication Publication Date Title
Abraham et al. Cryptocurrency price prediction using tweet volumes and sentiment analysis
US11475143B2 (en) Sensitive data classification
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
Batra et al. Integrating StockTwits with sentiment analysis for better prediction of stock price movement
Harfoushi et al. Sentiment analysis algorithms through azure machine learning: Analysis and comparison
Chen et al. A hybrid approach of stepwise regression, logistic regression, support vector machine, and decision tree for forecasting fraudulent financial statements
Ronellenfitsch et al. Topological phenotypes constitute a new dimension in the phenotypic space of leaf venation networks
CN106611375A (zh) 一种基于文本分析的信用风险评估方法及装置
Şaşmaz et al. Tweet sentiment analysis for cryptocurrencies
CN110263233B (zh) 企业舆情库构建方法、装置、计算机设备及存储介质
CN111738856A (zh) 一种股票舆情投资决策分析方法及装置
Cheong et al. Interpretable stock anomaly detection based on spatio-temporal relation networks with genetic algorithm
Jain et al. NFT Appraisal Prediction: Utilizing Search Trends, Public Market Data, Linear Regression and Recurrent Neural Networks
Cho et al. Non-fungible token transactions: Data and challenges
Wang et al. An index tracking model with stratified sampling and optimal allocation
CN107515928A (zh) 一种判断资产价格走势的方法、装置、服务器、存储介质
Yu et al. Neural network based transaction classification system for chinese transaction behavior analysis
CN109408808B (zh) 一种文艺作品的评估方法及评估系统
Keerthana et al. Accurate prediction of fake job offers using machine learning
CN111401450A (zh) 一种交易场所分类方法和装置
Purba et al. A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla
Khripunov et al. Anomalies detection in social services data in the sphere of digital economy
Li et al. The application of pattern recognition in electrofacies analysis
Perez et al. Combatting Human Trafficking in the Cyberspace: A Natural Language Processing-Based Methodology to Analyze the Language in Online Advertisements
Amin Financial fraud detection of the Egyptian companies annual reports using artificial bee colony algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination