CN115860938A - 数据处理方法、数据处理装置和计算机可读存储介质 - Google Patents
数据处理方法、数据处理装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN115860938A CN115860938A CN202211525011.2A CN202211525011A CN115860938A CN 115860938 A CN115860938 A CN 115860938A CN 202211525011 A CN202211525011 A CN 202211525011A CN 115860938 A CN115860938 A CN 115860938A
- Authority
- CN
- China
- Prior art keywords
- address
- transaction
- deposit
- addresses
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法、数据处理装置和计算机可读存储介质。数据处理方法包括:根据获取到的交易地址生成对应的地址标签;根据种子交易地址进行聚类处理得到原始集群,原始集群包括多个存款地址,种子交易地址对应具有地址标签的交易地址,存款地址与种子交易地址存在交易关联;根据至少两个原始集群进行融合处理得到融合集群,融合集群的多个存款地址的地址标签与种子交易地址的地址标签对应,至少两个原始集群分别对应的种子交易地址具有相同的地址标签。上述数据处理方法,通过融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
Description
技术领域
本发明涉及区块链技术领域,特别涉及一种数据处理方法、数据处理装置和计算机可读存储介质。
背景技术
在基于区块链技术的数字货币中,通常不同用户之间的交易通过交易地址来实现。与传统的资金交易系统相比,数字货币交易具有较强的匿名性,因此,通过交易数据对地址进行识别,并分析出特定用户的交易规律,有助于推测用户的身份信息,对于遏制各类基于数字货币的犯罪行为有重要作用。在相关技术中,对交易地址的识别往往需要依靠人力来获取,速度较慢,规模较小,很难快速获得高质量、大规模的标注数据来用于识别交易地址。
发明内容
本发明实施方式提供了一种数据处理方法、数据处理装置和计算机可读存储介质。
本发明实施方式的一种数据处理方法,用于数字货币,所述数据处理方法包括:
根据获取到的交易地址生成对应的地址标签;
根据种子交易地址进行聚类处理得到原始集群,所述原始集群包括多个存款地址,所述种子交易地址对应具有所述地址标签的交易地址,所述存款地址与所述种子交易地址存在交易关联;
根据至少两个原始集群进行融合处理得到融合集群,所述融合集群的多个存款地址的地址标签与所述种子交易地址的地址标签对应,所述至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
上述数据处理方法,通过种子交易地址得到不同的原始集群,再对不同的原始集群进行融合处理得到融合集群,使得融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
在某些实施方式中,根据获取到的交易地址生成对应的地址标签,包括:
获取关键词文本,所述关键词文本对应所述交易地址;
根据所述关键词文本进行文本提取处理生成所述地址标签。如此,可实现相关信息的自动提取,提高数据处理效率。
在某些实施方式中,所述数据处理方法包括:
在确定与所述交易地址对应的地址标签的情况下,对所述地址标签进行验证处理;
在所述地址标签通过所述验证处理的情况下,根据所述交易地址和所述地址标签得到所述种子交易地址。如此,有利于提高与交易地址对应的地址标签的准确性。
在某些实施方式中,对所述地址标签进行验证处理,包括:
获取至少两个标签子数据,所述至少两个标签子数据为对所述地址标签进行结构化处理得到的;
根据交易数据和所述至少两个标签子数据进行训练得到至少两个地址识别概率模型,每个所述地址识别概率模型对应一个所述标签子数据;
根据融合概率模型对所述至少两个标签子数据进行概率预测以得到所述地址标签的预测结果,所述融合概率模型为对所述至少两个地址识别概率模型进行模型融合得到的,所述预测结果用于确定所述地址标签是否对应所述交易地址。如此,可提供验证处理的具体方案。
在某些实施方式中,根据种子交易地址进行聚类处理得到原始集群,包括:
按照预设的聚类方式获取第一存款地址,所述存款地址包括所述第一存款地址;
对所述第一存款地址进行迭代处理得到第二存款地址,所述第二存款地址与所述第一存款地址存在交易关联;
根据所述第一存款地址和所述第二存款地址得到所述原始集群。如此,可得到尽可能多的与交易地址存在交易关联的存款地址。
在某些实施方式中,所述预设的聚类方式包括以下至少一个:
所述交易地址与所述第一存款地址之间的最大交易金额差小于第一阈值;
所述交易地址与所述第一存款地址之间的最大交易时间差小于第二阈值;
多个具有相同的交易金额的第一存款地址的数量小于第三阈值;
多个具有相同的交易金额的第一存款地址的交易记录的区块高度差小于第四阈值。如此,可确定多个第一存款地址与交易地址的关联具有相似性。
在某些实施方式中,根据至少两个原始集群进行融合处理得到融合集群,包括:
对所述至少两个原始集群获取并集集群,所述并集集群的存款地址与对应所述至少两个原始集群的种子交易地址存在交易关联;
根据融合概率模型对并集地址标签进行概率预测以得到所述并集地址标签的预测结果,所述并集地址标签对应所述并集集群的地址标签;
将预测结果为所述并集地址标签属于所述存款地址的地址标签的情况下,生成所述存款地址的置信度,并将具有置信度的存款地址得到所述融合集群。如此,可得到融合集群的具体方案。
本发明实施方式的一种数据处理装置,用于数字货币,所述数据处理装置包括:
标签生成模块,用于根据获取到的交易地址生成对应的地址标签;
聚类模块,用于根据种子交易地址进行聚类处理得到原始集群,所述原始集群包括多个存款地址,所述种子交易地址对应具有所述地址标签的交易地址,所述存款地址与所述种子交易地址存在交易关联;和
融合模块,用于根据至少两个原始集群进行融合处理得到融合集群,所述融合集群的多个存款地址的地址标签与所述种子交易地址的地址标签对应,所述至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
上述数据处理装置,通过种子交易地址得到不同的原始集群,再对不同的原始集群进行融合处理得到融合集群,使得融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
本发明实施方式的一种数据处理装置,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现上述实施方式任一项所述的数据处理方法的步骤。
上述数据处理装置,通过种子交易地址得到不同的原始集群,再对不同的原始集群进行融合处理得到融合集群,使得融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
本发明实施方式的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,实现上述实施方式任一项所述的数据处理方法的步骤。
上述计算机可读存储介质,通过种子交易地址得到不同的原始集群,再对不同的原始集群进行融合处理得到融合集群,使得融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的数据处理方法的流程图;
图2是本发明实施方式的数据处理装置的模块示意图;
图3是本发明实施方式的获取融合概率模型的流程示意图;
图4是本发明实施方式的对第一存款地址进行迭代处理的示意图;
图5是本发明实施方式的按照预设的聚类方式获取第一存款地址的示意图;
图6是本发明实施方式的按照预设的聚类方式获取第一存款地址的另一示意图;
图7是本发明实施方式的根据原始集群进行融合处理的示意图;
图8是本发明实施方式的数据处理装置的另一模块示意图。
附图标记:
100、数据处理装置;18、标签生成模块;22、聚类模块;24、融合模块;26、验证模块;28、存储器;30、处理器。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
请参图1及图2,本发明实施方式的一种数据处理方法用于数字货币,数据处理方法包括:
步骤012:根据获取到的交易地址生成对应的地址标签;
步骤014:根据种子交易地址进行聚类处理得到原始集群,原始集群包括多个存款地址,种子交易地址对应具有地址标签的交易地址,存款地址与种子交易地址存在交易关联;
步骤016:根据至少两个原始集群进行融合处理得到融合集群,融合集群的多个存款地址的地址标签与种子交易地址的地址标签对应,至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
本发明实施方式的数据处理方法可以通过本发明实施方式的数据处理装置100来实现。具体地,请结合图2,数据处理装置100包括标签生成模块18、聚类模块22和融合模块24。标签生成模块18用于:根据获取到的交易地址生成对应的地址标签。聚类模块22用于:根据种子交易地址进行聚类处理得到原始集群,原始集群包括多个存款地址,种子交易地址对应具有地址标签的交易地址,存款地址与种子交易地址存在交易关联。融合模块24用于:根据至少两个原始集群进行融合处理得到融合集群,融合集群的多个存款地址的地址标签与种子交易地址的地址标签对应,至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
上述数据处理方法,通过种子交易地址得到不同的原始集群,再对不同的原始集群进行融合处理得到融合集群,使得融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
具体地,在一个实施方式中,数据处理装置100可从公开的信息源获取以太坊的交易地址信息,再根据获取到的交易地址生成对应的地址标签,从而可使交易地址具有地址标签。在一个实施方式中,可将具有地址标签的交易地址作为种子交易地址,采用聚类的方式,将得到的种子交易地址进行聚类可得到原始集群,原始集群包括多个存款地址,该存款地址为交易所的存款地址,存款地址与种子交易地址可存在交易关联。在一个实施方式中,至少两个原始集群分别对应的种子交易地址具有相同的地址标签,将具有相同的地址标签的种子交易地址对应的至少两个原始集群进行融合处理可得到融合集群,融合集群中的多个存款地址的地址标签与种子交易地址的地址标签对应,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
另外,请结合图2,在一些实施方式中,数据处理装置100包括标签生成模块18、聚类模块22和融合模块24。标签生成模块18用于根据获取到的交易地址生成对应的地址标签。在一个例子中,标签生成模块18中地址标签数据的获得还包括公开数据整理和结构化标签数据爬取。标签数据结构化的方式可包括基于预训练语言模型的实体抽取、属性抽取算法。
请结合图2,在一些实施方式中,聚类模块22用于根据种子交易地址进行聚类处理得到原始集群。原始集群包括多个存款地址,种子交易地址对应具有地址标签的交易地址,存款地址与种子交易地址存在交易关联。在一个例子中,聚类模块22中聚类方式可包括机器学习聚类方式,如谱聚类,密度聚类,以及以太坊上的启发式聚类方法,如基于智能合约的自我授权。
请结合图2,在一些实施方式中,融合模块24用于根据至少两个原始集群进行融合处理得到融合集群,融合集群的多个存款地址的地址标签与种子交易地址的地址标签对应,至少两个原始集群分别对应的种子交易地址具有相同的地址标签。在一个例子中,融合模块24中的融合技术包括基于置信度的集群融合,基于地址类型的集群融合方式。
请结合图2,在一个实施方式中,数据处理装置100可包括验证模块26,验证模块26用于在确定与交易地址对应的地址标签的情况下,对地址标签进行验证处理。验证模块26用于在地址标签通过验证处理的情况下,根据交易地址和地址标签得到种子交易地址。验证模块26用于获取至少两个标签子数据,至少两个标签子数据为对地址标签进行结构化处理得到的。验证模块26用于根据交易数据和至少两个标签子数据进行训练得到至少两个地址识别概率模型,每个地址识别概率模型对应一个标签子数据。验证模块26用于根据融合概率模型对至少两个标签子数据进行概率预测以得到地址标签的预测结果,融合概率模型为对至少两个地址识别概率模型进行模型融合得到的,预测结果用于确定地址标签是否对应交易地址。在一个例子中,验证模块26中的验证技术还包括数据异常性监测、孤立森林、度量学习、和图向量化技术,如基于距离的locally linear embedding技术,基于随机游走的deepwalk,node2Vec,LINE等技术,以及各类有监督和半监督的机器学习分类算法。
在某些实施方式中,步骤012(根据获取到的交易地址生成对应的地址标签),包括:
获取关键词文本,关键词文本对应交易地址;
根据关键词文本进行文本提取处理生成地址标签。
如此,可实现相关信息的自动提取,提高数据处理效率。
具体地,在一个实施方式中,从公开的信息源如社交平台、新闻网站等网络平台获取包含关键词文本,交易地址信息可来源于关键词文本。可采用实体抽取、属性抽取等文本结构化技术从关键词文本中进行文本提取处理,进而可得到交易地址对应的地址标签,以及其他信息,其他信息可包括时间、消息源、发布平台等,从而可实现相关信息的自动提取,提高数据处理效率。另外,通过以太坊可获取到新增的交易数据,交易数据可用于辅助修正融合集群的多个存款地址的地址标签。
在某些实施方式中,数据处理方法包括:
在确定与交易地址对应的地址标签的情况下,对地址标签进行验证处理;
在地址标签通过验证处理的情况下,根据交易地址和地址标签得到种子交易地址。
如此,有利于提高与交易地址对应的地址标签的准确性。
具体地,在一个实施方式中,在确定与交易地址对应的地址标签的情况下,采用以太坊上的交易地址识别方法,可对地址标签进行验证处理。在地址标签通过验证处理的情况下,可表明了地址标签的准确性,进而可得到具有地址标签的交易地址,将具有地址标签的交易地址作为种子交易地址,从而有利于提高与交易地址对应的地址标签的准确性。需要说明的是,未通过验证处理的地址标签将被舍弃。
在某些实施方式中,对地址标签进行验证处理,包括:
获取至少两个标签子数据,至少两个标签子数据为对地址标签进行结构化处理得到的;
根据交易数据和至少两个标签子数据进行训练得到至少两个地址识别概率模型,每个地址识别概率模型对应一个标签子数据;
根据融合概率模型对至少两个标签子数据进行概率预测以得到地址标签的预测结果,融合概率模型为对至少两个地址识别概率模型进行模型融合得到的,预测结果用于确定地址标签是否对应交易地址。
如此,可提供验证处理的具体方案。
具体地,在图3所示的实施方式中,根据地址标签可得到交易所、服务商、个人用户等多个信息,将地址标签进行结构化处理可平均分为K个标签子数据,K可表示为至少两个标签子数据。将以太坊上获取到的交易数据和地址标签平均得到的K个标签子数据进行训练可得到K个地址识别概率模型,每个地址识别概率模型可对应一个标签子数据。将K个地址识别概率模型进行融合处理可得到一个融合概率模型,再将K个标签子数据进行概率预测可得到地址标签的预测结果,预测结果可用于确定地址标签是否对应交易地址。在预测结果中,当识别出正确的地址标签,表示地址标签的准确性,进而可确定地址标签对应交易地址。当识别出错误的地址标签,需要将错误的地址标签舍弃,并不参与后续的种子交易地址的聚类处理。
在某些实施方式中,根据种子交易地址进行聚类处理得到原始集群,包括:
按照预设的聚类方式获取第一存款地址,存款地址包括所述第一存款地址;
对第一存款地址进行迭代处理得到第二存款地址,第二存款地址与第一存款地址存在交易关联;
根据第一存款地址和第二存款地址得到原始集群。
如此,可得到尽可能多的与交易地址存在交易关联的存款地址。
具体地,聚类模块22设定有预设的聚类方式。预设的聚类方式可包括交易所钱包地址聚类、空投参与聚类等方法,从而可按多个不同的预设的聚类方式获取到第一存款地址。将获得的第一存款地址进行逐层迭代增加搜索深度,直到达到最大深度或者达到最大的迭代数,可得到尽可能多的第二存款地址,第二存款地址与第一存款地址存在交易关联。将获取的第一存款地址和第二存款地址进行聚类处理可得到原始集群。在图4,在一个实施方式中,结合存款地址与种子交易地址之间存在的交易关联,对种子交易地址进行一次迭代处理得到多个第一存款地址。再结合存款地址与种子交易地址之间存在的交易关联,对第一存款地址进行一次迭代处理得到多个第二存款地址。
在某些实施方式中,预设的聚类方式包括以下至少一个:
交易地址与第一存款地址之间的最大交易金额差小于第一阈值;
交易地址与第一存款地址之间的最大交易时间差小于第二阈值;
多个具有相同的交易金额的第一存款地址的数量小于第三阈值;
多个具有相同的交易金额的第一存款地址的交易记录的区块高度差小于第四阈值。
如此,可确定多个第一存款地址与交易地址的关联具有相似性。
具体地,将种子交易地址通过预设的聚类方式扩充为一个原始集群。在一个实施方式中,交易所钱包地址聚类包括:交易地址与第一存款地址之间的最大交易金额差小于第一阈值、交易地址与第一存款地址之间的最大交易时间差小于第二阈值。通过与第一阈值的比较,和/或,与第二阈值的比较,可得到交易地址和交易所的第一存款地址为同一簇。另外,在图5中,用户A不同的存款地址能够具有不同的获取来源,即可能来自不同的交易所。用户B不同的存款地址能够具有不同的获取来源,即可能来自不同的交易所。用户具有多个交易地址,在图5中,用户A的交易地址的数量为三个,用户B的交易地址的数量为两个。一个交易地址可以对应多个存款地址,一个存款地址可以对应多个交易地址。
请结合图6,空投参与聚类包括:多个具有相同的交易金额的第一存款地址的数量小于第三阈值、多个具有相同的交易金额的第一存款地址的交易记录的区块高度差小于第四阈值。根据种子交易地址可通过空投的方式得到多个具有相同的交易金额的第一存款地址,然后通过与第三阈值的比较,和/或,与第四阈值的比较,将部分的第一存款地址确认为同一个地址聚类簇。在图6中得到的地址聚类簇分别为地址聚类簇A和地址聚类簇B。
在某些实施方式中,根据至少两个原始集群进行融合处理得到融合集群,包括:
对至少两个原始集群获取并集集群,并集集群的存款地址与对应至少两个原始集群的种子交易地址存在交易关联;
根据融合概率模型对并集地址标签进行概率预测以得到并集地址标签的预测结果,并集地址标签对应并集集群的地址标签;
将预测结果为并集地址标签属于存款地址的地址标签的情况下,生成存款地址的置信度,并将具有置信度的存款地址得到融合集群。
如此,可得到融合集群的具体方案。
具体地,获取至少两个原始集群进行融合,如两个原始集群地址集合可以分别用A和B表示,两个原始集群的并集集群可用C表示,则可有表达式为C=A∪B。并集集群的存款地址与对应两个原始集群的种子交易地址存在交易关联。根据融合概率模型对并集集群的地址标签进行概率预测可得到并集集群的地址标签的预测结果。若预测结果为并集集群的地址标签属于存款地址的地址标签的情况下,则生成存款地址的置信度,并将具有置信度的存款地址进行融合得到融合集群。若预测结果为并集集群的地址标签不属于存款地址的地址标签的情况下,则在并集集群的地址标签中舍弃该地址标签。
在图7中,用户在交易所A具有多个种子节点。每个种子节点包括多个存款地址。通过对多个种子节点结合地址识别模型进行聚类融合可得到每个存款地址的聚类融合结果。每个存款地址的聚类融合结果都具有对应的一个置信度。置信度可表示存款地址和地址标签之间的匹配程度。在一个实施方式中,置信度大于0.9,则可表示存款地址和地址标签之间的匹配程度很高;置信度大于0.5,则可表示存款地址和地址标签之间的匹配程度较高;置信度小于0.5,则可表示存款地址和地址标签之间的匹配程度较低;对于和地址标签之间的匹配程度很低的存款地址,则进行舍弃。
请参图8,本发明实施方式的一种数据处理装置100,包括存储器28和处理器30,存储器28存储有计算机程序,处理器30执行计算机程序时,实现上述实施方式任一项的数据处理方法的步骤。
例如,在计算机程序被执行的情况下,可以实现以下步骤:
步骤012:根据获取到的交易地址生成对应的地址标签;
步骤014:根据种子交易地址进行聚类处理得到原始集群,原始集群包括多个存款地址,种子交易地址对应具有地址标签的交易地址,存款地址与种子交易地址存在交易关联;
步骤016:根据至少两个原始集群进行融合处理得到融合集群,融合集群的多个存款地址的地址标签与种子交易地址的地址标签对应,至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
上述数据处理装置100,通过种子交易地址得到不同的原始集群,再对不同的原始集群进行融合处理得到融合集群,使得融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
本发明实施方式的一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被处理器30执行时,实现上述实施方式任一项的数据处理方法的步骤。
例如,在计算机程序被执行的情况下,可以实现以下步骤:
步骤012:根据获取到的交易地址生成对应的地址标签;
步骤014:根据种子交易地址进行聚类处理得到原始集群,原始集群包括多个存款地址,种子交易地址对应具有地址标签的交易地址,存款地址与种子交易地址存在交易关联;
步骤016:根据至少两个原始集群进行融合处理得到融合集群,融合集群的多个存款地址的地址标签与种子交易地址的地址标签对应,至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
上述计算机可读存储介质,通过种子交易地址得到不同的原始集群,再对不同的原始集群进行融合处理得到融合集群,使得融合集群中的存款地址对应种子交易地址,从而可快速为大量的存款地址标注对应相同的交易地址的标签,有利于解决人工收集效率低和耗时长的问题。
计算机可读存储介质可设置在数据处理装置100,也可设置在其他终端,数据处理装置100能够与其他终端进行通信来获取到相应的程序。
可以理解,计算机可读存储介质可以包括:能够携带计算机程序的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质。
在本发明的某些实施方式中,数据处理装置100的各个模块可以是一个单片机芯片,集成了处理器、存储器,通讯模块等。处理器可以是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一者实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种数据处理方法,用于数字货币,其特征在于,所述数据处理方法包括:
根据获取到的交易地址生成对应的地址标签;
根据种子交易地址进行聚类处理得到原始集群,所述原始集群包括多个存款地址,所述种子交易地址对应具有所述地址标签的交易地址,所述存款地址与所述种子交易地址存在交易关联;
根据至少两个原始集群进行融合处理得到融合集群,所述融合集群的多个存款地址的地址标签与所述种子交易地址的地址标签对应,所述至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
2.根据权利要求1所述的数据处理方法,其特征在于,根据获取到的交易地址生成对应的地址标签,包括:
获取关键词文本,所述关键词文本对应所述交易地址;
根据所述关键词文本进行文本提取处理生成所述地址标签。
3.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理方法包括:
在确定与所述交易地址对应的地址标签的情况下,对所述地址标签进行验证处理;
在所述地址标签通过所述验证处理的情况下,根据所述交易地址和所述地址标签得到所述种子交易地址。
4.根据权利要求3所述的数据处理方法,其特征在于,对所述地址标签进行验证处理,包括:
获取至少两个标签子数据,所述至少两个标签子数据为对所述地址标签进行结构化处理得到的;
根据交易数据和所述至少两个标签子数据进行训练得到至少两个地址识别概率模型,每个所述地址识别概率模型对应一个所述标签子数据;
根据融合概率模型对所述至少两个标签子数据进行概率预测以得到所述地址标签的预测结果,所述融合概率模型为对所述至少两个地址识别概率模型进行模型融合得到的,所述预测结果用于确定所述地址标签是否对应所述交易地址。
5.根据权利要求1所述的数据处理方法,其特征在于,根据种子交易地址进行聚类处理得到原始集群,包括:
按照预设的聚类方式获取第一存款地址,所述存款地址包括所述第一存款地址;
对所述第一存款地址进行迭代处理得到第二存款地址,所述第二存款地址与所述第一存款地址存在交易关联;
根据所述第一存款地址和所述第二存款地址得到所述原始集群。
6.根据权利要求5所述的数据处理方法,其特征在于,所述预设的聚类方式包括以下至少一个:
所述交易地址与所述第一存款地址之间的最大交易金额差小于第一阈值;
所述交易地址与所述第一存款地址之间的最大交易时间差小于第二阈值;
多个具有相同的交易金额的第一存款地址的数量小于第三阈值;
多个具有相同的交易金额的第一存款地址的交易记录的区块高度差小于第四阈值。
7.根据权利要求1所述的数据处理方法,其特征在于,根据至少两个原始集群进行融合处理得到融合集群,包括:
对所述至少两个原始集群获取并集集群,所述并集集群的存款地址与对应所述至少两个原始集群的种子交易地址存在交易关联;
根据融合概率模型对并集地址标签进行概率预测以得到所述并集地址标签的预测结果,所述并集地址标签对应所述并集集群的地址标签;
将预测结果为所述并集地址标签属于所述存款地址的的地址标签的情况下,生成所述存款地址的置信度,并将具有置信度的存款地址得到所述融合集群。
8.一种数据处理装置,用于数字货币,其特征在于,所述数据处理装置包括:
标签生成模块,用于根据获取到的交易地址生成对应的地址标签;
聚类模块,用于根据种子交易地址进行聚类处理得到原始集群,所述原始集群包括多个存款地址,所述种子交易地址对应具有所述地址标签的交易地址,所述存款地址与所述种子交易地址存在交易关联;和
融合模块,用于根据至少两个原始集群进行融合处理得到融合集群,所述融合集群的多个存款地址的地址标签与所述种子交易地址的地址标签对应,所述至少两个原始集群分别对应的种子交易地址具有相同的地址标签。
9.一种数据处理装置,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-7任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时,实现权利要求1-7任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211525011.2A CN115860938A (zh) | 2022-11-30 | 2022-11-30 | 数据处理方法、数据处理装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211525011.2A CN115860938A (zh) | 2022-11-30 | 2022-11-30 | 数据处理方法、数据处理装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115860938A true CN115860938A (zh) | 2023-03-28 |
Family
ID=85668553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211525011.2A Pending CN115860938A (zh) | 2022-11-30 | 2022-11-30 | 数据处理方法、数据处理装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115860938A (zh) |
-
2022
- 2022-11-30 CN CN202211525011.2A patent/CN115860938A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11526675B2 (en) | Fact checking | |
CN111783875B (zh) | 基于聚类分析的异常用户检测方法、装置、设备及介质 | |
WO2021232594A1 (zh) | 语音情绪识别方法、装置、电子设备及存储介质 | |
CN110209764A (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
US11176549B2 (en) | Systems and methods for matching transactional data | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
US9977995B2 (en) | Image clustering method, image clustering system, and image clustering server | |
CN111401483B (zh) | 样本数据处理方法、装置及多方模型训练系统 | |
Jin et al. | Selective cross-city transfer learning for traffic prediction via source city region re-weighting | |
CN110188422B (zh) | 一种基于网络数据提取节点的特征向量的方法及装置 | |
CN113657896A (zh) | 一种基于图神经网络的区块链交易拓扑图分析方法和装置 | |
CN110597956A (zh) | 一种搜索方法、装置及存储介质 | |
Divakar et al. | Performance evaluation of credit card fraud transactions using boosting algorithms | |
CN113254649B (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN110363534B (zh) | 用于识别异常交易的方法及装置 | |
CN116029394B (zh) | 自适应文本情感识别模型训练方法、电子设备及存储介质 | |
CN113159133A (zh) | 数据标注方法及装置、电子设备、存储介质 | |
CN112115994A (zh) | 图像识别模型的训练方法、装置、服务器及存储介质 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN115860938A (zh) | 数据处理方法、数据处理装置和计算机可读存储介质 | |
CN112328779B (zh) | 训练样本构建方法、装置、终端设备及存储介质 | |
CN114780649A (zh) | 一种识别结构化数据实体类型的方法及装置 | |
CN116432633A (zh) | 地址纠错方法、装置、计算机设备及可读介质 | |
CN112784015A (zh) | 信息识别方法和装置、设备、介质和程序 | |
CN112541357A (zh) | 实体识别方法、装置及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |